关于mapreduce:Hadoop,硬件和生物信息学

 2021-04-20 

Hadoop, hardware and bioinformatics

我们将购买新的硬件来运行我们的分析,并想知道我们是否在做出正确的决定。

设置:
我们是一个生物信息学实验室,将处理DNA测序数据。我们这个领域最大的问题是数据量,而不是计算量。单个实验很快就会达到Gb的10s-100s,我们通常会同时运行不同的实验。显然,mapreduce方法很有趣(另请参见http://abhishek-tiwari.com/2010/08/mapreduce-and-hadoop-algorithms-in-bioinformatics-papers.html),但并非我们所有的软件都使用该范式。同样,某些软件使用ascii文件作为输入/输出,而其他软件则使用二进制文件。

我们可能要购买的商品:
我们可能要购买的机器是一台具有32核和192Gb RAM的服务器,该服务器链接到NAS存储(> 20Tb)。对于我们的许多(非mapreduce)应用程序来说,这似乎是一个非常有趣的设置,但是这种配置是否会阻止我们以有意义的方式实现hadoop / mapreduce / hdfs?

非常感谢,
一月


您有一个有趣的配置。您使用的NAS存储的磁盘IO是什么?

根据以下条件做出决定:
Map Reduce范式用于解决处理大量数据的问题。基本上,RAM比磁盘存储更昂贵。您无法将所有数据保存在RAM中。磁盘存储使您可以以较低的成本存储大量数据。但是,您可以从磁盘读取数据的速度不是很高。 Map Reduce如何解决此问题? Map Reduce通过在多台计算机上分布数据来解决此问题。现在,您可以并行读取数据的速度比使用单个存储磁盘要快。假设磁盘IO速度为100 Mbps。在100台计算机上,您可以100 * 100 Mbps = 10Gbps的速度读取数据。

通常处理器速度不是瓶颈。相反,在处理大量数据时,磁盘IO是最大的瓶颈。

我觉得它可能不是很有效。