关于mapreduce：Hadoop，硬件和生物信息学

Hadoop, hardware and bioinformatics

我们将购买新的硬件来运行我们的分析，并想知道我们是否在做出正确的决定。

设置：
我们是一个生物信息学实验室，将处理DNA测序数据。我们这个领域最大的问题是数据量，而不是计算量。单个实验很快就会达到Gb的10s-100s，我们通常会同时运行不同的实验。显然，mapreduce方法很有趣(另请参见http://abhishek-tiwari.com/2010/08/mapreduce-and-hadoop-algorithms-in-bioinformatics-papers.html)，但并非我们所有的软件都使用该范式。同样，某些软件使用ascii文件作为输入/输出，而其他软件则使用二进制文件。

我们可能要购买的商品：
我们可能要购买的机器是一台具有32核和192Gb RAM的服务器，该服务器链接到NAS存储(> 20Tb)。对于我们的许多(非mapreduce)应用程序来说，这似乎是一个非常有趣的设置，但是这种配置是否会阻止我们以有意义的方式实现hadoop / mapreduce / hdfs？

非常感谢，
一月

您有一个有趣的配置。您使用的NAS存储的磁盘IO是什么？

根据以下条件做出决定：
Map Reduce范式用于解决处理大量数据的问题。基本上，RAM比磁盘存储更昂贵。您无法将所有数据保存在RAM中。磁盘存储使您可以以较低的成本存储大量数据。但是，您可以从磁盘读取数据的速度不是很高。 Map Reduce如何解决此问题？ Map Reduce通过在多台计算机上分布数据来解决此问题。现在，您可以并行读取数据的速度比使用单个存储磁盘要快。假设磁盘IO速度为100 Mbps。在100台计算机上，您可以100 * 100 Mbps = 10Gbps的速度读取数据。

通常处理器速度不是瓶颈。相反，在处理大量数据时，磁盘IO是最大的瓶颈。

我觉得它可能不是很有效。