2017年4月13日-14日,由中国医学科学院 北京协和医学院主办,北京市卫生和计划生育委员会协办,中国医学科学院健康科普研究中心、中国医学科学院生物医学大数据中心、北京市疾病预防控制中心承办的“2017中国健康医疗大数据大会暨中国医学科学院生物医学大数据中心成立仪式”在北京天伦王朝酒店召开。
大会以“大探索、大发展、大融合”为主题,围绕大数据与医疗、健康中国建设、大数据健康医疗新模式、临床大数据以及大数据在健康领域的具体应用等为核心课题展开深入讨论,约1000余人参加了本次大会,其中参讲专家30余位、医疗机构400余家、行业媒体20家以及互联网行业代表200余人出席了本次会议。
4月14日上午的健康医疗大数据应用与创新论坛上,军事医学科学院放射与辐射医学研究所研究员伯晓晨发表了名为《精准医疗大数据中心的建设及其应用》的主题演讲。伯晓晨介绍了为启动2016年精准医学专项而专门搭建的精准医学大数据管理和共享技术平台的建设,并结合国内生物医学大数据中心现状展望了该平台的未来应用。
据伯晓晨称,这个未上线的平台在一个现有的基础平台之上搭建了两个数据库,一个是疾病的数据库群,一个是基础组学的数据库群。然后需要对后台开发提交的系统,所谓数据汇交系统,对于前台要支持大家的检索、展示、挖掘等等功能,属于一个门户。疾病数据库群主要提供6个以上的疾病数据库汇交管理系统,架构主要涉及到数据整合、关联、查询、数据库建设方面。在基础组学数据库,支撑数据库方面要建立20个以上的跟医学研究相关的标准组学数据库的镜像,总量要达到PB级。
以下为伯晓晨的演讲实录:
大家早上好,我报告的是我们去年年底启动的一个国家精准医学研究重点研发专项的一个非常基础性的重要的平台项目,叫精准医学大数据管理和共享技术平台,这个平台怎么建?国家对它的期望怎么样,设想怎么样?我们后来在展望它将来的应用怎么样,我希望今天花一点时间跟大家分享一下。
昨天大家讨论的比较多,说咱们生命科学迈入大数据的时代,到底这个数据有多大?我们从科研的角度来说更关注质量比较高的,标准化的数据,这个数据有多大?可以以欧洲生物信息研究所为例,他现在参考的数据是20PB,更可怕的是它的增长,从2008年之后这个数据每年翻一番,未来今天你觉得他是20PB,明天就是40PB的量,增长速度不得了。
之所以产生这么多的数据,是因为仪器设备近两年的发展。拿仪器来说从小规模的1G的到最新的低成本的一次产生167个G的,到中型的可以产生600G的一直到可以产生18T,这个数据量传统的实验室做不了。这也是为什么有一些生物云计算的一些支持,主要是医院和实验室都对付不了这么大的数据。
可以看数据本身的质量,以人类基因组为例,从人类基因组计划,相当于5个人的样品混在一起,这代表了咱们地球上60亿人,这个族谱不具有医学上的价值!因为5个人代表地球上这么多人,基本上这5个人还都是健康的。后来千人基因组计划就跟后来有关系了,可以体现出种族、年龄、不同的差异,到万人基因组3年就做完了,这样1万个人的比较很快就发现一些比如说像发现了骨质疏松相关的基因。
这是从内涵角度,从维度角度来说生物医学大数据绝不仅仅是基因组测序的问题,既是基因组这一个层面,蛋白质组、代谢组多种角度起来了,可以看到多种建模的问题。看到除了基因组以外引起关注的叫表观组,揭示了DNA之外的跟医学方面的重要的联系。
在这样的情况下生物医学大数据它的内涵,它的维度来说越来越支撑现代医学向这方面的应用,当时发了一篇文章就是讲它的历程,生物大数据对医学推动的历程,就是刚开始从认识基因组到了解基因组的生物学,到了解基因组跟DNA之间的关系,到未来健康促进,可以走这样一条路,这个热点会不断地往健康促进这方面频推。
在这样的情况下还有一些生物医学大数据的项目,本身就是针对某种特种疾病,或者直接针对转化医学,比如癌症基因组图谱,大家比较熟悉,就是测2000多个肿瘤病人完整的临床资料,有各种组学的,有基因组、表观组、转录组、蛋白组。
另外现在不知道大家关注没有,2010年启动以后2011年发表第一版本的基因表达谱大数据计划,这个直接针对各种小分子药物,和各种对大家健康有危害的毒物,附着在不同的所有细胞系当中,不同浓度下它的反应,这就直接指向药物开发。
在这样的情况下咱们海量数据不断增长,临床数据也在不断增长,一个精准医学数据中心的建设就成为了将来应用当中的一个必须的平台。我们可以看到最近几年生物医学数据从GB到EB跨了几个量,很快就增长到EB这个量级。
咱们看看国内外对平台建设的情况,在临床大数据方面其实美国很早就开始在做,像他现在比较有代表性的ClinicalTrials这种临床医学的平台。在生物学、组学的数据平台上,以前国家一直缺失,大家都很熟悉,美国、欧洲和日本三个数据是权威,他们互相之间交流,中国一直是依赖三方的,这里面依赖的时候,有的时候不完全能够一直是免费的,比如说2007年的时候产生的地震,将近一个月的时候中国访问不了这三个数据库,这三个月对个医药界的相关的工作都受到很大影响。国内一直呼吁建立生物组学大数据中心,直到去年推了一个平台,叫BIG这个平台,可以说在世界组学范围内有了中国这么一级。我们有这样一个联合平台,这个平台在国外已经看到雏形了,比如i2b2,咱们国家还是空白的,相对来讲可能作为类似的是咱们国家在儿科领域一些小的平台,总的来说还是一个空白。
所以在精准医学专项2016年启动的时候专门设置了精准医学大数据管理共享技术平台,要建立这样一个平台,这个平台实际上还不是一个面向将来的科学医学应用的平台,只是说把精准医学专项设计好,做90多个病种相关的组学数据汇聚到这个平台上来,我们看到的是将来面向社会的一个大平台的缩影。
我们这个平台大概是什么模样?虽然还没有上线,但是可以大概描述一下。它是在一个现有的基础平台之上有两个数据库去,一个是疾病的数据库群,一个是基础组学的数据库群。然后需要对后台开发提交的系统,所谓数据汇交系统,对于前台要支持大家的检索、展示、挖掘等等,属于一个门户。
我们这个项目设计的技术指标未来在2019年或者2020年最终要达到的技术指标,从基础平台存储来说达到PB级的分布式存储,一次查询时间要小于0.5秒,满足1万人次以上的并发检索。在疾病数据库群这方面要建汇交系统、管理平台、协作平台,这里要把精准医学支持的将近90多个群打包成6个以上的群。
在基础组学数据库,支撑数据库方面要建立20个以上的跟医学研究相关的标准组学数据库的镜像,总量要达到PB级。而且我们在这里有一个设计,基因组学也好针对不同的人种是混在一起的,所以我们还要把二次的抽体,涉及到一些明确标签,标中中国人形成中国标准组学的参考记录。在整合与注释上面要有10个以上的标准工作流。最后一个是门户。
项目分解就分成5大块,最基础的是基础平台,依托国内几乎生物医学界的比较华丽的平台都贡献给大家去做这样一个平台。疾病数据库群是对接整个医学专项的,基础支撑的数据库群是咱们正在建立国家生物大数据中心,这个也快上线跟大家见面了。中间是一个医学的整合和注释的平台,最终是面向大家提供一个医学的黏度。为什么要提供注释?就是临床整合的数据是没有参考的,比如说一个突变,是稀有的突变还是很普通的突变?这里面要参考来说,是针对于最早的5个基因组来说的,还是针对千人基因组来说还是万人基因组来说,如果针对5个人来说好像它很稀有,但是如果千人来说可能发现200人跟他一样,所以这里面一定要有参比的数据,你用什么数据就决定了整合和注释这方面的工作量多大。比如说要用10万人的数据级,全球现在人的情况,但是你相对起来用一个病例就要跟10万人进行比较。基础平台主要是提供安全可靠高效的PB级的大数据存储计算的平台。
这是它的基础架构,我们这个平台基本上是集IT界的这些时髦词语为大成,涉及到基础设施建设、产业系统、存储系统、数据服务,支撑各种应用,这里大家可以看到很多新的技术都要用起来。
这里面解决重大问题就是超大数据处理及服务能力的基础平台架构及技术,这个肯定是多家放在一起分布式,但是要让后面应用的、开发的感觉到这实际上对他来说是一个结构,一个平台。
疾病这个数据库群主要是提供6个以上的疾病数据库汇交管理系统,这是它的统一架构,主要是涉及到数据整合、关联、查询、数据库建设方面。
这里它的困难点大家可以想像得到,就是怎么样统一模型的问题,这么多数据,这么多病种,每个病种需要关注的问题都不一样,怎么建设模型让大家能够知道,如果汇交系统定的太狭窄就不能达到目的。所以这里面怎么来划分疾病数据库群,怎么来制定相应的规范这是一个要面对的困难。
基础支撑数据库群这方面咱们有比较好的技术,基因组所、北京大学他们有很好的基础,这方面应该来说瓶颈主要在后面这一步,就是怎么来把中国人群相关的参考数据级专门抽出来,因为现在有千人基因组、万人基因组,这里面就可以形成相当规模的中国人组学数据,但是现在没有看到美国的奥巴马有百万人基因组的计划,到底这个样品采集的方案,但是预期这里面华人是占到了1/5以上。这是我们要镜像的数据组。
难点就是刚刚说的要把中国人抽出来。任务量最大的是中间这一步,就是怎么来把90个病种提交数据,通过其他的基因组来注释出来,因为提交上来的肯定都是直接测完的结果,并没有标注哪个地方是基因上的异常,这个完全靠你这个注释平台注释,说白了要做大规模的运算。
这是整个的我们设计的一个架构,它涉及到从基因组到转录组、蛋白组一系列的互相注释,整个的运算数据也达到了PB级的运算,而且现在没有任何一个计算机能解决这个问题,肯定要分布式计算。
最后是面向公众、面向科学家,面向医生的门户,搜索可视化的一个系统,这个系统最主要的困难就是让用户体验比较好,让用户比较直观,能够看到数据,未来挖掘深度学习能力做一个接口。这里面其实也很有挑战,想要做到PB级的或者万人同时在线的搜索是相当有挑战的。
我们这个硬件平台资源基本上调动了国家生物医学界的资源都在里面,最后总共会聚了70个PB的资源,超过500TFLOPS的计算资源,通过中科院网络信息中心可聚合40PFLOPS超算资源,拥有国家骨干网和教育科研网接入能力,依托国家网格实现高性能计算专网互联。将来大家的精准医学整个专项课题如果靠近这两个网络主接点的话,可以通过这两个网络往北京来汇交。这是靠国家网格的能力,能够存储50个P的作为一个临时存储。
计算方面主要依托两个,一个是北京蛋白质中心的200万的高性能计算机,还有中山大学的天河二号有相当大的资源,它现在不是最快的,应该是全球第二的。北京大学还有中国医学科学院生物技术研究中心都有一些高性能计算平台。
因为咱们参加很多专项任务的都是高校的团队,所以他们通过教育科研网通过这种可以把数据汇交到北京来。
现在我们的建设进度因为启动还不到半年,从去年12月启动到现在,我们先搭一个实验床,做一个小的实验平台,搭建72个存储节点,每个节点36个T存储平台,我们在中科院网络中心搭建平台,通过这个平台把上面的关键技术滚出来。
更重要的是大家可能会想到说现在没有数据,精准医学专项刚刚开始,各个课题刚启动没有数据,怎么来说你的平台将来能够负载TB级的数据?这是有这个问题,所以我们现在正在做的一个很重要的事情就是建虚拟数据级,不能等到大家把数据汇交过来再做数据,那是来不及,所以我们现在是想把能够代表这两个一个是TCG两千多个肿瘤病人的临床信息,还有ICGC一千多个肿瘤的临床数学,我们把这两个数据集合在一起虚拟处10万人、20万人、40万人达到PB级,然后测试整个平台的能力,而且这个话题通过检索我们发现通过已有的基因组按照一定的遗传学规律给他人工造出多少万人,很少有人去做这个事,所以我们把这一招运用到平台建设上面。
最后畅想一下就是有了这个数据中心将来对医疗有什么用途,有什么支撑作用。我们这里也做了一个展望,这是我们自己做了一篇文章。就是将来可能我们畅想一下将来可能一个医疗模式可能是一种基于案例推理,现在大家都谈人工智能或什么组学大数据的挖掘分析,实际上这个想法是一个比较理想化的,就是你希望通过组学智能分析最后给出一个规律来,但是现在这个抽样就算你是弄一千人、两千人的很不得了,但是相对地球60亿人,相对病种的人是小抽样,能不能得到规律是打问号的。而且医生很多推理实际上不一定按照诊断的标准来,也可能按照跟自己既往看的病人回顾,很向往几年前的病人,实际上在精准医学可以走这样一条路,我们这个数据中心建起来之后直接可以做案例推理这个事。这是多组学的整个基因组对基因组,转录组对转录组整个基因组学整体的,然后划分来分类。
而且如果你维持这样一个关系的话,医生和医生之间可以交流自己的新数据,比如我增加一个病人进来然后传另外一个ID给另外一个医生,另外一个医生同样检测这个数据库,大家讨论这个病人出在这个病例当中处在什么位置,但是这是我们想的简单的应用。
通过我们自己也做了小的算例,最后发现计算量很大,多组学在一起哪怕几十个病例一起做聚类,这个计算量都不是咱们想象的一下能出来,所以未来如果是真的我们做10万人的参考来做案例推理,来做制定的话,对计算是一个很大的挑战。
最后是一个关于运营的设想,国家投这个钱投这个平台,但是有一个疑问,说将来课题结题了,国家资助断了以后国家热点就转到其他热点上,谁来用这个平台?我们也想象一下,就是将来其实可以做一个国家跟企业共同运营的模式。比如说这个平台硬件也好,软件也好还是相当的耗费金钱的,尤其相关的企业进来可以维护这个平台。然后对于科研人员来说,对于国家指定的一些机构永远可以是免费的,因为这是国家纳税人的钱做出来的数据,但是可以开放一些专业服务,比如病例的匹配、检索、病例的比对这样的服务,这样的服务可以来支撑产业方面的运营,然后他们的盈利再回归到这个平台上,让这个平台上精准医学专项收集的这些数据能够一直为咱们的科研医疗服务,这是我们的一个设想,但是因为现在首当其冲的是先把平台做好。
我大概就讲这么多,最后这是我们整个团队的一个心愿,就是希望通过先进的、安全的大数据平台,支撑咱们国家的精准医学计划,再次感谢大会的邀请,谢谢大家!