与生命赛跑!GPU加速华大基因大数据处理
蓝调 发表于:13年07月03日 10:00 [原创] DOIT.com.cn
今年五月份,好莱坞红星安吉丽娜-朱莉(Angelina Jolie)自曝已经接受预防性的双乳房切除术,以降低罹癌风险。朱莉在给《纽约时报》的文章中写道,自己之所以做手术,是因为测试诊断结果显示她带有一个“缺陷”基因,名称是BRCA1,这大大增加她患乳腺癌和卵巢癌的风险。从今年2月份开始直至4月27日,她的双乳已经全部切除。目前,她患乳腺癌的几率已经从87%下降到5%。
这条非常劲爆和震撼的消息,也让我们从另一个角度深刻地体会到——当生命受到威胁时,美丽与性感都显得那么不堪一击。生命的有限,总是让我们不得不在有生之年不断地与其赛跑,试图把生命的价值最大化。
值得庆幸的是,人类的基因研究已经取得了非常大的突破,通过基因检测的方法,已经可以预测许多基因疾病的患病风险,比如地中海贫血、唐氏综合症、基因致病的癌症等等,通过尽早做预防就可以降低风险。
近日,记者来到了众多基因研究成果的摇篮——华大基因,并采访了华大基因高性能计算研发主管王丙强,探索人类基因研究的秘密,以及当前人类基因研究工作的挑战。在采访中,王丙强重点介绍了当前华大基因研究工作中所遇到的三大挑战以及华大基因的应对方案:
挑战一:数据量和计算能力的不匹配
一个细胞里有23对染色体,一个细胞的染色体拉开有两米长,上面有30G个的基因序列。面对如此庞大的人类基因组序列数量,如何才能在有效的时间内对基因序列进行测试、比对和研究?
王丙强谈道,测序仪全速运转每天所产生的数据超过10 TB。华大基因现在已经有20个PB的存储了,这些数据怎么计算?计算能力的匹配是个大问题。
最初,华大基因试图采用CPU来压缩数据的方法来解决问题,但是文件大小超过几个GB甚至TB的时候,CPU就受不了。因此,华大基因开始考虑另一个方式——用NVIDIA Tesla GPU来加速数据的压缩。通过与天津超算中心合作,把大部分重点的计算内容都放到天河一号A上运行。
挑战二:临床诊断要求高时效性
人类的基因中专有基因大概是小于5%,剩下90%都是非编码的区域,非编码区域就是奥秘所在。不同的人基因组99.9%是一样的,只有剩下百分之零点几不一样,这才是真正值得关注的地方。如果基因变异发生在非编码区域,可能会引起致命的后果。对于华大基因的基因研究工作来说,最基本的工作就是基因序列比对,通过基因序列的比对,来观察出不同基因独特的地方,是否有变异。
基因测序和比对也是临床诊断中经常用到的,如果说两个星期出诊断结果,这是很多患者所不能接受的。因此,基因测序用在临床诊断时,时效性要求较高。然而,人类基因组测第一个人的基因组用了13年的时间,投资30亿美金。
为了提升分析速度,华大基因从2010年开始跟英伟达合作,把一些生物信息的软件放到GPU上去运行。
王丙强把基因测序过程分为三个步骤:第一步是用到测序仪进行测序。并把测序仪测出的原始数据做处理,经过GPU处理,然后传到计算中心去分析处理。第二步和第三步是做基因序列的比对,把人的基因与科学上比较准确的人的基因组作比对,看有哪些不同的地方。
据王丙强介绍,在第二步和第三步的过程中,华大基因都用到了NVIDIA GPU进行加速。
在NVIDIA Tesla平台上,设计开发了针对基因信息数据的高效压缩工具,同时针对造成分析瓶颈的计算任务,如序列比对、变异检测等基本工具,利用GPU技术进行加速,从而提高分析效率,并降低数据存储和计算分析的成本。
王丙强举例说明了GPU对于基因研究所起到的加速作用,如果人的DNA上有一个点发生基因突变,过去在自己的计算中心做,需要好几年才能完成,搬到天河一号上以后,通过NVIDIA Tesla GPU加速,只要5个多小时就能完成。
挑战三:软件和人才
软件一直以来都是高性能计算非常关键的一个部分,计算能力再强,如果软件层面无法充分调用这些计算资源也是枉然。
在基因研究领域,最重要的两个算法就是——海量数据的压缩技术、序列对比和寻找基因变异。
数据压缩方面,按照基因数据的特点,采用以列为主的分块压缩方式,NVIDIA针对Tesla GPU设计了一组压缩算法,以常用的FASTQ和SAM格式为例,相比使用gzip或bzip2压缩,压缩速度可达到10倍的性能提升。减少了处理时间,也间接提高了数据传输效率,降低存储成本。
序列比对和寻找基因变异基因研究和临床医疗应用中两个重要的分析步骤。两者也是主要的计算瓶颈,特别在临床应用上具有更高的时效性要求。为此,借助NVIDIA Tesla平台,开发了应用于序列比对的SOAP3/SOAP3-DP,以及分别用于个体和群体基因变异分析的GSNP和GAMA。
SOAP3/SOAP3-DP设计了新的索引数据结构,针对Tesla GPU架构做了充分优化,性能是其它主流软件的数十倍,并且具有更高的准确率和比对率。解决了基因研究中最基本的分析瓶颈,同时提高了后续基因变异分析的准确度。
GSNP与其前身相比,采用稀疏表达格式优化数据结构,同时运用Tesla GPU实现高通量数据并行,原来处理一个人的数据需要三天以上的时间,GSNP仅需2小时左右,从而使得个体变异检测初步达到快速临床应用的要求。
GAMA引入GPU的并行计算技术对多个位点进行处理,加速计算过程。五百人规模计算分析,用普通计算机需要超过4年时间才可能完成,如果将计算在多块GPU上并行进行,可以使计算时间缩短到数小时。这一效率的提升使得生物学家可以加快解析基因变异与疾病关系的步伐。
最后,王丙强谈到了人才招聘的相关问题。他表示,目前GPU计算的人才招聘还是存在一定困难,但是他相信,随着学校相关课程的开设,以及GPU应用的越来越广泛,这方面的人才也会越来越多。
附图: