陈润生院士:高性能计算与人工智能的交叉融合,托起万亿级美元的生物大数据产业

20世纪初爆发于西班牙的流感,历经15年后病原的性质才得到了确定;爆发于2003年的SARS病毒,也是人类用了四个月时间才确定其病原体的组成和序列。

新冠肺炎出现以后,中国科学家仅用一周时间就完成了其完整序列测量,借用这个结果,全球最大的核酸疫苗生产商Moderna两天内设计出了核酸疫苗,而BioNTech公司更是将这一时间缩短至四个小时,对抗击新冠肺炎起到了非常重要的作用。

中国科学院院士、中国科学院生物物理研究所核酸生物学院重点实验室学术委员会主任陈润生

 “这一切的背后,都是大数据的价值再现。显然,大数据对人类的影响是巨大的。”10月21日,在以“智算赋能 · 共赢未来”为主题的2021 CCF全国高性能计算学术年会上,中国科学院院士、中国科学院生物物理研究所核酸生物学院重点实验室学术委员会主任陈润生以多个实例做了说明。

“通过大数据的解析,人类对核酸疫苗和核酸药物有了充分的认识,从而推动了核酸研究的发展,整个生物医药进入了‘核酸时代’。也为未来出现新的烈性传染病、烈性病毒的治疗提供了很好的经验。”陈润生院士说。

大数据对健康和疾病治疗和预防的巨大作用

美国知名影星安吉丽娜·朱莉(Angelina Jolie)诞生于乳腺癌家族。这个家族的女性到了一定年龄就会因罹患恶性乳腺肿瘤去世。早期一直无法获知病因,后来采用大数据测量了遗传密码后发现原因是基因BRCA1的突变,意味着发生癌症的概率是正常人的100倍。不幸的是,Jolie在检测后的基因变异呈阳性。尽管她才39岁,尚未查出癌症,但她毅然决定切除部分女性器官以及当时完全正常的双乳。虽然不能保证身体其他部位不会发生癌变,同时手术也会带来巨大的长期副作用,但从此她终身不必再为罹患乳腺癌担忧了,在这个方面,她多少算是有一些幸运。

年近9旬的美国前总统吉米卡特(Jimmy Carter)在体检时发现罹患了晚期黑色素瘤,这种皮肤肿瘤中恶性程度最高的癌症极易出现转移。事实上,Carter总统罹患的这种肿瘤已经同时向肝脑转移。大数据检测精准发现,该肿瘤一个非常重要的微环境的变化十分契合刚刚研制出的抗原。只用五个月的时间对症治疗,原发肿瘤不仅仅彻底消失,所有的转移灶也不见了,身上再也找不到任何肿瘤细胞。依赖于大数据精确的测量和判断,卡特现在还是很好的活着。

这样的例子不胜枚举。

人类遗传密码的破译,意味着生物医学在大数据时代,不仅仅可以使得疾病得到了精准预测、精准的用药和有效的治疗,更重要的是还会推动生物医学发生本质变化,使得整个医疗体系实现了对全民从出生到死亡全生命周期科学诊断、治疗、健康提供的保障。

这样的健康体系与现有体系的本质区别,必然引起国家相应法律法规、药物管理体制、社保制度等一系列的法律法规的变化,最终推动大数据相关生物医药产业发展;发达国家包括美国、欧盟、英国、日本都建立了针对大数据驱动的精准医学的计划和执行。据估计,该产业规模将达到万亿美元的数量级。

但是,这一市场并非唾手可得的。

从大数据中掘金,存储面临的挑战与对策

早期健康医疗数据无非是血压、血脂等一些简单的数值,后来升级为各种医学影像,数据量不断加大。

随着数据采集手段的丰富,如手环等可穿戴设备也成为记录生理指标的工具,过去不常见的数据也都变成了生物医学相关的大数据,如电子病历以及超声、CT这样的影像,微生物、大气中的雾霾、水文中的化肥农药,以及本地辐射等等相关信息,都成为了大数据;特别是,遗传密码的破译,使得与生命健康相关的数据那就成数量级的增加。如新冠病毒核苷酸的链只有29903个,而人类遗传密码是3乘以10的九次方。

在数理特征方面,生物医药大数据多尺度、高维度、异质化,而且是动态实时的,其作用方式不像物理和化学体系那样的标量,而是相量、非线性的。

中国科学院院士、中国科学院生物物理研究所核酸生物学院重点实验室学术委员会主任陈润生

无论是生物医学、基因工程,都涉及到大量的数据,数据价值的挖掘离不开传输、存储和分析等环节。陈润生院士表示,数据存储永远是计算中很重要的一个话题。

数据一定要保存一段时间,是为了进一步的验证、为了跟其他数据来比较。从早前简单的数值,到如今一个人的遗传密码达到3×10的9次方,大量爆炸性增加的数据,对于更好的分析,作用十分重大,所以一定要储存。

如此大量级的数据的储存,对介质要求也很高,一是要求能够稳定可靠,二是要求能够容量大、存储密度高,三是在存储和提取的过程当中能耗尽量的小,等等。

对存储方面的需求,不只是来自遗传密码和基因工程方面,整个计算领域也有相同的需求。

为了化解上述难题,生物学界也在考虑采用DNA存储即用生物大分子存储方式来有效地保证上述目标的实现。作为一种技术变革,生用物分子来作为存储和计算也是人们正在研究的一个很重要的方向,虽然可能还需要数十年的探索和努力。

陈润生院士指出,存储和计算机的发展步调是一致的。当前冯诺依曼架构正面临着变革,三纳米样机已经问世,一纳米也正在研究中,但是再向前困难就越来越大了,因为物理本质决定的介质容易被热击穿。所以,量子计算、神经计算、DNA计算已经成为下一步关注的热点。

高性能计算与生物医学的融合:化解大数据的建模与挖掘难题

从早期的遗传密码,到细分的基因组,蛋白组、表观组、代谢组等一个个新的组学诞生,生物领域在不断拓展,数据的量也在不断增加,数据的形式与内涵也越来越丰富,生物大数据的应用范围也越来越丰富。

大数据的建模、挖掘也是当前生物医学领域面临的棘手问题。陈润生院士指出,这有赖于高性能计算和计算机方面领域的科学家共同的支援和帮助:“越来越多的信息挖掘都需要计算,需要更多的高性能计算提供更多的算法、算力;而高性能计算与生物医学结合已经成为趋势,并且会越来越紧密。”

在陈润生院士看来,高性能计算和生物数据的解析是一个共同学习,互相了解、互相渗透、交叉融合以促进实际问题解决的过程,需要两个领域的科学家能够深度了解彼此,而更好的方向是培养出新一代的科学家,这些科学家既是高性能计算的专家,又是生物大分子生物组学领域知识的专家。

生物数据量越来越大,内涵越来越多,挖掘其中的知识就需要合适的方法。人工智能就是其中之一。

在生物大分子结构预测中,至少有两个领域为人工智能或深度学习技术展示了应用价值。一是结构预测,类似AlphaFold2这样的技术可以很好地预测蛋白质的结构,精度达到了实验的90%以上,为诸如核酸疫苗、核酸药物的设计开拓了很好的前景;二是医疗影像学方面,用人工智能构建的影像系统超过任何一个独立的医生评估的准确度,为精准治疗提供更好的工具。

“人工智能在生物研究工作中发挥了很大的作用,展示了非常美好的前景。”陈润生院士表示:“虽然人工智能的模式、理论、技术还有待于进一步完善和发展,但对生物医学科研工作者而言,构造一个良好的学习集是充分发挥人工智能作用非常重要的环节。”

大数据,推进生物医学更加蓬勃发展

以大数据、高性能计算、人工智能等为代表的信息技术在推进生物医学的发展方面还存在巨大的潜力。

据介绍,在基础研究工作的论文数量、总引数量、重要论文基础数量等方面,我国已经超过了美国,也远远超过了德国、日本和英国。

如果能将基础研究成果有效转化、结合大数据挖掘开发新一代药物,很可能会取得一大批国际领先和创新的成果。

中国科学院院士、中国科学院生物物理研究所核酸生物学院重点实验室学术委员会主任陈润生

伴随着遗传密码的破译,生物医药领域正在发生变革,而变革的源头正是以遗传密码为代表的大数据。陈润生院士深信:“在更多其他领域科学家的介入后,这个领域一定能够得到更加蓬勃的发展,为人类造取更大的福利!”