探寻五千年历史变迁,浪潮AI加速中国考古DNA研究

 中国首座“考古DNA实验室”,借助浪潮AI计算的FPGA产品方案,其对古人类的全基因组样本(WGS)分析时间,从原来的2周缩短到近9小时。

神秘的古DNA研究有多“难”?

上下五千年,各民族在中华大地上生息繁衍、融合变迁,留下了很多未解之谜。为了解开这些谜团,考古学、民族学专家运用多种方法进行了探索。近年来兴起了一种新方法——古DNA技术,为考古研究提供了更加直接有力的证据,开辟了全新的视角。

古DNA是指从古代人类和动物遗骸以及古生物化石中提取的古代生物分子。把古代DNA数据同现代基因库中的数据资料相结合,便可以构建出某一生物门类的系统发育树,从而进一步探讨人类的演化与迁移、民族融合、早期农业发展、动植物的家养与驯化过程等重大问题。

古DNA研究需要经过提取、扩增、测序等步骤,比现代DNA研究要难得多。特别是提取DNA分子非常困难,因为古生物没有特别的存储条件,在自然环境下,DNA完好地保存下来并不容易。DNA储存在细胞核内,生物体在死亡过程中,细胞就会逐渐发生自溶,DNA很快会被降解。另外,在高温和潮湿的条件下,DNA自身也容易发生水解、断裂。同时,即便有细胞保存下来也会碰到其它微生物的进驻,所产生的酶类也会把原细胞内的DNA破坏掉;因此,一般死亡的动物和人的遗体,DNA很难完整保存下来。

这些原因使得古DNA基因序列片段比现代DNA更短,导致古DNA测序比现代DNA也要更复杂。不仅读取、比对的数据量更大,测序之前还需要去除DNA片段两端的接头序列,进行数据清洗与处理流程。

中国首座考古DNA实验室如何解难题?

为了更好地保护中国基因资源,推动中华民族基因研究,1998年,吉林大学考古系与生命科学学院合作开展了有关古DNA方面的研究工作,由此中国第一座“考古DNA实验室”落成。边疆考古研究中心人类学实验室与考古DNA实验室合作攻关重大研究课题,取得了多项全国乃至全球领先的研究成果。

随着DNA考古研究的逐步深入,考古DNA实验室已有超过万例的古人类、古动植物样本,数量位居全国第一,建立我国边疆地区古代DNA基因库的时机日益成熟。但样本数量增加也带来了新的难题,原有的计算设备已难以在短时间内完成大量的基因测序数据处理工作。全基因组样本分析(WGS)与全外显子组样本(WES)分析是目前DNA研究的不可或缺的两大分析流程。然而,使用当前以CPU为基础的计算架构开发的GATK Best Practices工作流程,需要数天甚至数周才能完成单个个体的基因组变异识别。

此外,古DNA基因序列片段更短导致数据处理量更大,对计算力的要求也更高。数据清洗、测序过程中,需要用到非常多的不同于现代DNA测序的应用软件,如何实现这些应用软件的快速移植与开发也是一大挑战,影响古DNA的研究速度。

“我们之前一直用台式工作站做古DNA的测序数据处理,一般完成一次古人类的全基因组样本分析需要耗时至少两周,过程中还要面临宕机带来的处理流程中断风险。按这种效率,我们要建立边疆地区古代DNA基因库几乎是一个不可能完成的任务。”吉林大学边疆考古研究中心副主任蔡大伟教授介绍说,“但是,这个问题必须尽快解决,古DNA研究一刻都不能耽误”。

浪潮为解决这一难题提供了新思路,作为中国AI计算的领军企业,浪潮专门为基因测序开发了FPGA加速计算方案,FPGA具有可编程、并行计算、低延迟的优势,能够为基因测序、语音识别、视频处理、风险管理等AI和HPC场景提供强大的加速。经过严苛测试和全面考察,吉林大学考古学院决定和浪潮合作,将FPGA技术运用到古DNA基因测序中,打造我国DNA考古领域的首个FPGA基因测序加速应用方案。

提速39倍 基因测序处理速度实现飞跃

新的基因测序加速计算方案采用了浪潮研发的F10A FPGA加速卡作为核心计算模块,集成了峰科的GATK基因处理软件。浪潮F10A是目前业界支持OpenCL的最高密度、最高性能的FPGA加速设备,尺寸为半高半长功耗仅35W,可以适用于数据中心、边缘及桌面等各种复杂计算环境,每瓦特性能达到42GFlops,可以加载专业的软件算法库。集成的峰科的GATK基因处理软件与标准生物信息学分析工具完全一致,包括GATK Best Practices的所有流程,如BWA、picard和GATK。它完全依照原软件模型,调用命令与原版本一致,中间产生与原样本一致的中间结果文件,方便用户使用和调整。

浪潮F10A加速卡

测试显示,搭载浪潮FPGA基因测序加速计算方案可在9.64 小时内完成全基因组分析,48分钟完成全外显子组分析,相比基于CPU的方案,基因数据处理速度提升39倍。

目前,基于新的基因测序加速计算系统,吉林大学考古DNA实验室的科研工作者正在对我国北方地区的草原游牧民族,如匈奴、东胡、鲜卑、乌桓、契丹、蒙古等诸族的人骨以及出土的动植物进行古DNA的提取和研究工作,并开展我国新疆地区古代“丝绸之路”沿线各民族相互关系、人群间的迁徙及混杂过程、经济文化生活、自然环境与人类相互关系等相关研究,不断为古代历史、文化、民族研究提供新的资料,开拓新的领域。如蔡大伟教授及其团队正在攻关国家社会科学基金重大项目“古动物DNA视角下的丝路文化交流研究”,从古动物DNA入手,还原丝路沿线古代动物群体起源与扩散的历史过程,揭示丝绸之路上东西文化交流的历史细节。