一场新型冠状病毒肺炎疫情,牵动举国上下。在广大的医务人员奋战一线的同时,一大批“科技力量”也加入了抗击疫情的最前线。
在未知病毒以“不明原因肺炎”进入公众视野时,科研人员已经开始尝试破译病毒的基因数据。病毒基因组,是病毒的生命密码。借助于分子生物技术,病原学专家通过对病毒标本进行测定,这样的破译,最早在2020年1月2日就已完成。随后,中科院武汉病毒所、中国疾控中心病毒所、上海市公共卫生临床中心分别于1月2日、1月3日、1月5日凌晨,获得病毒全基因组序列。
那么,病毒基因究竟是如何被一步步解析的?这其中高性能计算(HPC)平台又起到什么样的作用?来看看浪潮生命科学行业方案专家的解读。
Q:能否举例子介绍一下新冠病毒基因是如何被测定和解析的?
目前,在获取病毒基因组序列方面,广泛应用高通量测序技术来完成,这种方式是将核酸序列打断成短片段进行测序,通过分析软件将测得的短序列进行拼接组装。对于新发病毒,在序列组装过程中会面临更多难点,因为在测序深度、测序准确性、重复序列比例等方面没有可供参考的经验值,这就需要将海量的短序列还原出原始的基因组序列。在序列拼装中还可能会出现测序错误,拼接的准确性和完整性不高,拼接难度更高。所以,解析新冠病毒序列,需要在建库、高通量测序、序列组装、变异进化分析等多个流程加以管理。
新冠病毒序列组装解决方案示意
比如在建库环节中,对核酸含量高的样本进行rRNA去除再建库,提高有效数据占比;对核酸含量低的样本,直接进行RNA建库,减少核酸损失,提升建库成功率,并加大测序深度。在测序环节采用更高效专注的测序仪,最后,通过病原鉴定系统对新冠病毒序列进行数据分析并采用IDBA方法完成拼接。这样可以满足宏转录组测序病毒序列组装对数据量的要求,保证序列信息的完整性。
我们来还原一下某疾控中心收到的1例新冠病毒肺炎疑似样本,解析新型冠状病毒感染病例呼吸道标本宏转录组测序及病毒序列组装的流程:
首先是文库制备。针对核酸量不同的样本,采用不同的建库策略。经反转录、接头连接、PCR扩增、纯化等一系列操作后获得文库产物,再使用滚环扩增技术,制备DNA纳米球。第二步,上机测序。对病例的呼吸道标本进行高深度测序。第三步,数据分析。产出32Gb数据,总序列数318M。结合病原感染快速鉴定系统,鉴定出230万余条新型冠状病毒序列。最后,拼接组装。分析软件会自动将230万条的新型冠状病毒序列从所有序列中抽出。使用拼接效率高的IDBA方法进行组装,成功完成新型冠状病毒的序列组装,获得基因组序列。
Q:在冠状病毒解析过程中,HPC平台起到了那些作用?
在寻找病毒来源、获知病毒结构、筛选抗毒小分子方面HPC算力都发挥了重要的作用。例如在病毒分析领域常用的冷冻电镜三维重构技术,在低温环境下利用透射电子显微镜对样品进行成像,再经图像处理和重构计算获得样品的三维结构。在整个流程中,数据采集、图像处理、三维重构是非常核心的三个步骤,对计算和存储的需求非常高。病毒颗粒结构的解析,其电镜图像的数据量可高达数TB,且病毒颗粒相对蛋白质颗粒要大得多,在计算上单一进程就需要128GB的内存,那么一台计算节点就需要至少4TB的内存支持。在算法上,基于中央截面定理的重构过程依赖大量的单精度或双精度快速傅里叶(FFT)计算,需要海量算力资源来支持。
在实际应用上,中科院生物物理所与浪潮-Intel中国并行计算联合实验室合作开展的基于MIC异构架构电子断层三维重构技术(Electron Tomography,简称ET)应用研究。研究团队共同开发了ET的MIC单机单卡和单机多卡异构高性能集群解决方案,大幅降低了计算时间。实际测试数据显示,单机单卡与串行程序相比性能提升25倍,单机多卡版本与串行程序相比性能提升74倍。
Q:本次疫情将对于HPC在病毒研究领域的应用产生哪些影响
在抗疫的生死竞速的赛场上,也许我们算的快一点,我们能救治的病人,能拯救的生命就会多一点。
病毒全基因组序列获取流程
从短期来看,科技战疫正加速HPC在医疗领域的广泛应用,原来使用HPC最多的是科研院所,在疫情期间医院、公共卫生防预等机构都开始使用HPC。
从长期来看,疫情过后,会诞生各种新兴的科学技术研究和检测,这些新兴的科学研究对高性能计算有很高的需求,将促使HPC技术跨学科跨领域的融合。
从更大的范围来看,疫情危机使中国以及全球的医疗信息化进程加速,可以大胆的预测,HPC将在全球病毒研究领域将会走向全面普及。