Hadoop+至强——Hold住医学领域的大数据

可以说,没有大规模数据处理的能力,就没有当今生物医学研究的飞速发展。

在发现新基因的研究中,需要基于群体,找到个性化的不同。这需要对大规模的基因数据进行数据处理和分析。

当人体的好几百种微生物群落的比例失调时,我们就会得病,到底是哪种微生物引起的疾病?这需要把所有的样本跟人的基因组比对,不断筛选,最后筛到很少的量,来判断疾病的原因。这也需要大规模的数据处理。

据介绍,一个高增量测试仪产生一天的数据就可以达到数百个GB

……

从上述例子和数据,我们不难得出一个结论——随着新一代医学技术的出现,医学研究已经进入了“大数据”时代。麦肯锡报告指出,排除体制障碍,大数据分析可以帮助美国的医疗服务业一年创造3000亿美元的附加价值。那么,如何这些数据进行快速处理?如何通过对大数据的分析和处理来拯救千千万万的生命?如何借助大数据分析来为医疗服务业创造附加值?这已经成为当前医学研究领域的一大热点课题。

Hadoop——开源云计算框架的最佳选择

“传统数据工具一方面存在一定的弱点,另一方面,大家都建立大规模数据分析处理中心,成本也是一个问题。因此,如何使用云计算的技术或者直接在云端处理这些数据是现在研究的热点。”军事医学科学院网络信息中心及解放军CDC数据中心主任、研究员赵东升表示。

赵东升谈道,Hadoop已经被证明是比较好的开源云计算框架:一方面,Hadoop对于建设内部的数据分析是很好的,因为它把Google所有的商业技术基本上按照它的理念重新实现,可以实现在大量集群上的分布式的数据存储和处理,并且不需要十分高端的存储。

另一方面,很多云计算服务提供商也都支持Hadoop,比如亚马逊的EC2弹性计算服务。这让用户可以根据自身的应用需求进行选择,到底是搭建私有的Hadoop集群,还是借助公有的云服务(如EC2)进行Hadoop集群的搭建。比如在做药物研发的时候,就应该选择搭建私有的Hadoop平台,因为如果把敏感的药物数据放到云端的亚马逊EC2上,一旦被别人窃取掉了数据,可能会造成高达几十亿美金的损失。

同时,在使用Hadoop框架进行数据处理时,用户只需要通过Map Reduce并行编程模型进行编程,通过数据的分割或者任务的分割规约机制实现并行计算,这个并行计算的过程有点像过去中间件的概念,不需要了解并行计算的细节,只需要了解任务分割。

当然,活跃的社区也是推动Hadoop在生物医学研究领域发展的重要原因。赵东升指出,如果一个开源平台的用户很少,支持的厂商也很少,用户就会产生质疑,这个平台能否存活下去?反之,就会有越来越多的用户开始研究并加入到其中。

至强+ Hadoop——生物医学大数据处理的完美搭档

生物医学研究领域,大数据处理的速度有时候直接关系到生死存亡。例如,在一些新型的传染病爆发时,如何快速发现病因,并控制疾病的传染,这时,数据处理的速度将直接关系着无数生命的存亡。

如何才能提升生物医学领域大数据分析的速度?这需要从整个系统的角度来考虑和优化。今年上半年,英特尔推出了至强E5处理器平台,其在I/O性能和处理速度等方面的提升,为大数据的处理注入了全新的动力。同时,基于英特尔的处理器平台,英特尔还推出了“英特尔Hadoop发行版”,充分利用英特尔平台硬件的新技术进行优化,在软件层面提升了大数据处理的速度。接下来,我们将分别从硬件和软件两个层面,看看“英特尔至强E5处理器”与“英特尔Hadoop发行版”究竟是如何让大数据的处理速度发挥到极致。

首先,在硬件层面,英特尔今年上半年推出了全新的基于Romely架构的至强E5处理器平台,其超强的I/O性能和处理速度让它成为大数据处理平台的不二之选。我们知道,大数据分析和处理的应用一般都是I/O密集型的应用,这时,系统性能的瓶颈往往不在于系统的计算能力,而是在于系统的I/O能力。打个通俗的比方,当我们很饿的时候去餐厅吃饭,吃饭的速度(类比为数据处理速度)将会远远超过上菜的速度(类比为I/O速度),这时上菜的速度就成了我们吃饭这件事情的瓶颈。

英特尔E5处理器平台在I/O方面有着独特的优势。一方面,它集成了PCI Express 3.0,其信号强度为8GT/s,可以实现1GB/s的数据吞吐能力。PCI Express 3.0总线的超高数据传输能力不仅解除了PCI Express 2.0系统总线对USB 3.0和SATA 3.0接口的性能的制约,还能让SSD硬盘更好地发挥其高速度的优势,从而提升整个系统的I/O能力,加快大数据处理和分析的速度。另一方面,至强E5系列还采用了DDIO(Direct I/O,数据直连IO)技术,数据可以直接进入L3缓存中为CPU读取,不需要经过内存,这就避免了数据从I/O到内存再从内存到CPU之间的延迟,在处理大规模I/O数据时,DDIO的优势更明显。

除了I/O之外,在大数据处理系统中,计算性能也是十分重要的。在英特尔至强E5处理器中,每个处理器最多可集成8个内核,24个插槽最多可以支持768GB的内存,并采用了第二代Turbo Boost2.0睿频加速技术,与上一代的至强5600系列相比,性能提升了80%。

当然,除了硬件的性能,大数据处理软件的能力以及软件与硬件的配合能力对于整个系统性能的影响也尤为突出。尽管Hadoop已经被证明是比较好的开源大数据处理平台,然而,作为一个开源的平台,它在实时处理能力和管理工具方面也存在着一定的缺陷,这也使得它与很多企业用户擦肩而过,尤其是那些没有强大的技术实力的企业。为此,今年上半年,在开源领域一直十分活跃的英特尔推出了“英特尔Hadoop发行版”。

图 英特尔Hadoop发行版

“英特尔Hadoop发行版”充分针对英特尔处理器的新技术进行了优化,因此,二者相结合可以发挥出更好的性能优势。这就像是一个武林高手,当他拿着属于他自己的武器时,便能人器合一,发挥出更大的力量,而“英特尔Hadoop发行版”就是为英特尔E5处理器平台量身打造的武器。同时,“英特尔Hadoop发行版”还对HBase做了优化和创新,加强了Hadoop的实时数据处理能力。更值得一提的是,为了方便了企业用户进行Hadoop的安装、部署、监控、警告和访问控制,英特尔开发了Intel Hadoop Manager2.0,大大提升了Hadoop的易用性,也让企业能够更加专注于自身的业务创新。

写到这里,笔者不禁想起美剧《泰诺星球》中的情节,当人类不得不通过时间裂缝逃亡到另一个没有被污染的史前世界时,正是强大的医学研究成果帮助人类从一次又一次的劫难中获得重生,最终得以以正确的方式重建人类文明。虽然这只是一个科幻片,但从中我们能够感受到,医学研究对于人类生存和发展的重要性不可忽视。今天,当大数据分析和处理能力已经成为生物医学研究不可或缺的手段时,我们更需要“英特尔至强E5处理器”与“英特尔Hadoop发行版”这样强有力的大数据武器来助我们一臂之力。