2017年4月13日,以“大探索、大发展、大融合”为主题的中国健康城市论坛暨健康医疗大数据峰会在北京正式召开。大会由国家卫生和计划生育委员会指导,中国医学科学院 北京协和医学院主办,中国医学科学院健康科普研究中心、中国医学科学院生物医学大数据中心承办,围绕大数据与医疗、大数据集成等为核心课题,解读相关政策,交流分享国内外最新动态。在为期两天的会议中,各主管部门、科研机构、医疗机构、优秀企业、市场研究机构等领导与专家共计1000余人参加了本次大会。
中国科学院院士,陈润生
会上,中国科学院院士,陈润生先生发表了,名为《基因组,大数据与精准医学》的主题演讲。他从基因组、大数据与精准医学三个方面全面阐述了大数据对于医疗行业的应用,并指出精准医学是组学大数据跟医学的结合,就是把近年来从基因组开始,人们在分子水平上了解那一信息运用到实践当中来,这样的过程就成了精准医学。这样的大数据包括基因组、蛋白组、带学组等等这些组学数据用到当前的医疗实践当中。
以下陈润生院士的演讲实录:
首先祝贺咱们这个大数据中心的成立,它将为整个大数据事业的发展,特别为促进我们国家医疗大数据的整合作出重大的贡献。我今天主要跟大家交流一下关于大数据跟精准医学方面的一些个人的理解。
大家知道2015年1月20日美国总统在发表发言首先提出要开展精准医学的研究,精准医学就开始在全世界传播开来,在座的有卫计委的领导,这个消息很快传播到国内,国家的主要领导人,习总书记、李克强总理也都有重要的批示,来推动我国精准医学的开展,所以在2015年的年终就布置了关于以精准医学命名的重大专项,然后2016年第一批的项目就开始启动了。第二批的项目正在评审当中,所以这样的话就使得精准医学在我们国内也在蓬勃的开展。我下面主要就精准医学谈四个方面的我个人的一些看法。
大家知道所谓精准医学实际上首先就是来自对人类遗传密码的破译,这就是一段人类遗传密码。我们知道我们每个人,每个细胞里面在座的都是医学大数据相关的专家,对这个非常清楚。每个人都有一份遗传密码,总得量是3×10的总次方,是一条线的。可以想象这么长的一段密码将包含我们生长发育和遗传的主要信息,这也是自上个世纪90年代开始破译的,破译以后就使得人类在生命活动当中的知识深入到很多水平。
什么是精准医学?我第一个谈的精准医学的核心是什么?国内很多专家都对精准医学提出了各自的看法,当然这些看法都是非常有益的,但是要实现精准医学它的核心是什么?我觉得精准医学的本质其实可以概括为一句话,精准医学就是组学大数据跟医学的结合,就是把近年来从基因组开始,人们在分子水平上了解那一信息运用到实践当中来,这样的过程就成了精准医学。这样的大数据包括基因组、蛋白组、带学组等等这些组学数据用到当前的医疗实践当中,一定会提高医疗实践的效率,提高诊断的效率,提高治疗的效率。
因此未来的趋势将是很清楚的,不管大家同意与否、接纳与否,大数据将很快的应用到大家的生活当中来,一定会蜂拥到所有临床单位。这个趋势是很明朗的,精准医学告诉我们一件事就是大数据要来了。大数据跟医疗有关的一定会很快的进入到所有的医疗单位,为医疗的效率服务。所以精准医学的核心其实就是非常明确的一件事,就是把组学大数据纳入到临床医学当中来,这实际上是自上世纪90年代由人类基因组破译而产生的所谓的转化医学、个体化医学等等的一个概括和总结,实际上就是上世纪90年代整个分子生物学的进展纳入到临床医学当中的一个表现,所以精准医学的内涵是非常明确清楚的,就是组学大数据介入到临床实践当中来这么一件事。
第二个我要说的既然这个事情那么明确,它为什么会引起各个领导人,包括美国很多西方发达国家,也包括我们国家很多领导人重视精准医学?这个大数据进入到临床实践当中来,除了能够提高医疗效率之外,会不会带来哪些本质的东西?这些本质的东西足以使得各国领导人关心,到底精准医学的深远意义在什么地方?我们也可以用一句话来说,精准医学实际上它的本质意义在于精准医学可以推动健康医疗体系的概念发生本质的变化,也就是说精准医学可以促进人们在医疗体系的概念上发生根本的变化。我们知道,现在的医疗体系的概念是什么?是诊断治疗,现在的医疗体系是以病人为对象,以医院这样的治病的设施为核心,以大夫作为实施者来实现的这样一个以诊断治疗为核心的体系。
而精准医学,大数据的介入将使得我们医疗体系发生什么样的变化?大家可以想像,未来由于大数据的介入,这个时候整个医疗的对象不再是哪一个病人的具体个人,而是面对全民,面对全部生长周期,就是生活在我们国家或生活在世界上每一个人,从生到死整个过程他的健康状况都可以由精准医学的发展而得到评估,得到预测,得到干预。这样的话就使得这个疾病有可能延缓发生,有可能发生的轻一点,有可能根本不发生。那么这样一个过程大家可以看到,这个是非常大的差别。现在是以诊断治疗为主,未来由于精准医学的推动,将以健康保证为主。
这样一个本质的变化一定会体现在生产的发展上,也就是说伴随着精准医学概念的深入普及,相应的产业会得到发展。因此有人估计到2018年,很快一两年之内,伴随着精准医学的产业,可以得到2千亿美金的规模,相当于万亿人民币,所以在任何国家里面它会对GDP有一定影响,所以这样一个医疗本质概念上的变化而导致产业上的变革,一定会引起各国领导人的关心,所以从这种意义上来讲精准医学是有深远意义的,而不是仅仅是单纯停留在为医疗提高一定的效率,而更深远的是改变整个医疗体系的概念,从而推动新兴的相关产业的发展,而这个产业规模是巨大的。
因此,各国领导人都把精准医学研究已经成为新一轮国家科技竞争和引领国际发展潮流的战略制高点,就把精准医学提高到国策战略的高度来看待。美国大家知道已经开展了所谓精准医学计划,他的计划的核心当然我不重复了,这个PPT留下供大家参考。这样的话我们知道美国要测100万自然人的整个的遗传密码,目前测了68万人,进展很快。我们知道在奥巴马离开总统位置之前,特意又追加了18亿美金来推动美国精准医学的研究,所以在美国是积极促进精准医学的发展。
同样在欧盟跟他的成员国,包括英国、法国也都在推动精准医学计划。英国大家知道要测10万个肿瘤和罕见病病例,这都是10万、100万量级的。日本也在推动他的精准医学。那么精准医学将在哪些方面来促进新的产业的发展,我想精准医学概念上的转变至少在如下四个方面来推动产业上的创新发展。
第一个,海量的生物样本库和数据库产业的发展。大数据将来的依托就是大量的海量的数据库,它的来源就来自于大量的样本。我们知道精准医学是伴随着大的队列,大的海量样本的测量,所以第一个产业当然要推动百万量级的海量的样本量的建立。过去的样本都是小的,你要测一百万人,要得到一百万人活体样品,让他有效的搜集,有效的搜集合适的测序样品,有效的保存到数据库里面,所以第一个测序产业就是海量的样本库和数据库产业的发展。
第二有了这些样本当然要测量,以测量基因组为主的各种各样的测序行业的发展,包括测量基因组序列,测量蛋白序列,代谢产物的序列等等一系列的,大概有人估计到2018年光是测序产业的发展可以到117亿美金,我自己估计恐怕要比这个数量要大得多,因为我们知道现在国际上正在发布一个新的测序系统,这个系统将有希望使得我们测一个人的遗传密码能够可以达到只花700块人民币这样的水平,如果是这样的话每个人都可以,相当于一个医院的常规,所以很多医院都可以测自己的数据。所以这个是一个非常巨大的数,当然不仅仅是基因组,还有转录组、蛋白组,所以推动第二个产业就是以基因组为代表的组学数据的获取行业。这个行业目前国内有成百上千个小的公司已经成立了,正在推动测序产业的发展。
第三这是一个非常重要的值得关注的产业,我个人觉得虽然艰苦,但是这个性能价格比非常好的产业,就是基于海量数据的测量结果,挖掘跟疾病相关的新的分子标的,我们知道现在用的分子Mark很少,而且不准,我们将来挖掘新的分子标的,同时发现新的药物设计的靶点。这个产业大家知道,你获得一个新的靶点,设计一个新药往往都是百亿美金数量级的。所以第三个产业将推动挖掘新的疾病诊断的分子Mark和新的药物设计靶点的这样一个所谓深度挖掘的大规模信息,这也是我们健康大数据工作者的核心目标。
第四就是伴随概念转变而产生的适应精准医学的各种各样的设施,这个设施大概是千亿美金数量级,所以大家可以看到这将是一个巨大的新兴的产业。而我知道目前围绕着四个方面国内实际已经动起来了,很多的公司成百上千的已经成立了。我们国家精准医学的发展目标,在座的有卫计委的,他们正在推动主导这个方面的发展。我们精准医学的发展目标是和国际一致的。
第三个要讲的实现精准医学要有哪些基础。精准医学的是先有那些方面的准备,哪些是新的。有两个方面,第一是要获取组学数据并挖掘组学数据的内涵,也就是说第一个基础就是得到这些组学数据,同时用各种办法挖掘组学数据当中的跟疾病,跟生长发育相关的生物学的含义。这实际上用到两个方面的东西,一个是组学大数据测量的技术,一个是组学数据挖掘的技术,所以第一个技术是要把当代国际上两大科学前沿有机的融合起来,一个就是组学的获取手段,一个是大数据的挖掘手段。有了这个以后,我们就能获得在分子水平上跟疾病相关的大量的知识。有了这些知识我们就掌握分子水平的很多很多信息。
然后第二个基础就是要建立我们获得组学数据那些变异跟疾病临床表现之间的关系,要假设这样一个桥梁,这就是要把基因型跟表现型连起来,基因型就是挖掘出来的组学数据的变化,表现型就是疾病的表型,把这连接起来,这需要发展大量的生物信息,生物网络和知识,这两个组合起来了我们精准医学相关的手段就有了,然后我们应当紧密的结合当代临床的影像学、生化学、医生的知识紧密结合起来,就能做到精准医学有效的为当前的临床服务,而不是把精准医学的发展和当前的临床对立起来,这样的想法是错误的。
第四个我要讲的也是我乐意多说几句的,就是精准医学既然从概念上来讲有变革,能促进新的产业的发展,现在走到哪一步?我个人觉得目前精准医学才刚刚上路,为什么这样说?因为在精准医学的概念下,我们还有太多的挑战,还有巨大的困难,还有太多的问题没有解决。那么我们才刚刚走上精准医学的路,只有这些问题克服了,精准医学才能更好的实施。在这里有很多的困难,根据时间的关系我举一两个例子来说明精准医学遇到的挑战。
第一个挑战在组学方面就是说我们可以测基因组,测转录组,我们对基因组的了解当前是什么状态?我自己觉得我们在我们的基因组当中存在大量暗物质,基因组当中存在大量的暗信息,也就是说我们自己对自己的遗传密码了解还是初步阶段。这是我们的遗传密码,现在我问的问题是当前集中全世界在这个领域科学家的智慧,集中我们所有的知识,我们能解读这个遗传密码的部分,从根本规律上能解读的不超过3%,这就是基因组当中尊崇中学法则,编码蛋白的部分,所以你现在即使花五六百块钱,今年年底可以花七百块钱测了遗传密码,能读懂的就3%,97%都读不懂,如果这都读不懂精准什么?本身就读不懂,它的变化当然就更不懂,所以目前我们真正能够有用的部分。所以大家很多人都在炒一个概念,说要测高端人群检测自己的遗传密码。我告诉大家不是没有用,有用的部分只有3%,97%你是解决不了的,那么你测了以后存着,存到哪年能解释了。
所以我们现在要真正的能够充分做到精准的话,就要不断地来提高我们对另外的97%的解读,也就是说我们要了解遗传密码当中那97%我们称作遗传密码当中的非编码序列,这非编码序列总的结合占到人类遗传密码的97%,这些东西随着它不断地解读,我们就会不断地做到精准。那么现在我们能解读的部分大约是3%,因此我们才刚刚起步,这只是从基因组这个角度来讲的。
这一点我只引一篇文章,这个问题如此之明确,不用引太多的文献。大家去查一查2010年12月17日的文献,如果在自然科学领域里选10个人们最关心的问题,第一个出现的就是我刚才讲的人类遗传密码当中的暗物质,我自己更倾向暗信息,所以这实际上是离我们最近的10年科技界对突出问题的看法,就是我们自己的遗传密码。
经过我们的努力很容易可以测了,但是我们知道规律的只是极小的一部分,大量的部分占97%的部分是暗的。在这里可以看到它说我们仅仅知道1.5%,那充其量是3%,换句话说大部分的遗传密码我们可以测量,但不能解释,这就是整个目前精准医学当中遇到的第一个挑战,就是我们对自身的遗传信息大的部分依然从规律上并不了解。
下面我稍微展开一点给大家举一些例子,大家知道从遗传密码来讲,我们的97%都是非编码序列,迄今为止我们并不了解它的规律。但是我给大家看一下这个伴随着人类基因组模式的其他生物学遗传密码,最上边是大肠杆菌,它是单细胞的生物,只有一个细胞,连核都没有,这个时候它的原盘代表它的遗传密码,红色的部分代表编码蛋白质的部分。对于一个如此低的生物,测完它的遗传密码了,换句话说对一个非常低等的生物把遗传密码测完了就大致知道它怎么活着,怎么运作,制造哪些蛋白。上面中间的酵母Yeast它已经归类到红色部分减少了变70%,而非编码部分增加到28%。我们再看最上面最右端的coli是只有960个细胞的多细胞生物,这是它的遗传密码当中已知规律的部分,红色的部分,减少到远远小于5%,只有28%。
这个时候你看编码蛋白质的已知规律的部分减少到17%,编码部分增加到82%,下面的只有1.5%到2%,这和我们常规的意识完全不一致。我们可能想生物从简单到复杂肯定是基因越来越多,恰恰相反,生物越复杂我们不知道规律的非编码的部分所占的比例越来越大,所以从进化的逻辑来讲我们不知道规律的这一部分一定具有重要的生物学功能,而且特别一定会跟生物的高级部分紧密相关。所以从遗传密码来讲,我们可以得到一些结论,这97%虽然我们不知道规律,但一定是重要的。
第二个有人就开始问了,说你这部分它是重要的,除了它有遗传密码之外,第二个重要的东西就是它要活动,要发放信息,要用生物学的行话来讲有转录组来产生。所以进入21世纪以后,全世界几十个实验同时在非编码里面找有没有转录产物,这个结论百分百肯定所有的编码都有转录产物。这个意义上来讲自本世纪最初的事件以后科技界不怀疑97%不仅有重要作用,而且每时每刻都在工作,所以非编码序列,我们知道曹院长自己就做了很多非编码的工作,所以非编码就成为目前非常重要的研究热点。
下面我给大家举几个非常简单的例子,虽然我们的97%不知道,但是我们也得到一些信息,这某些点,某些小的转录本来到97%的是具有重要的点。几个跟肿瘤有关的例子,第一个例子叫PCGEMI,这个转录本由于不造蛋白。下一个His-1,这个转录本导致白血病,第三个MALAT-1,这个是导致非小细胞肺癌的一个致癌因素,大家知道目前肺癌是我们国内增速最快的,也是发病率第一位的肿瘤,而80%以上的非小细胞肺癌。我刚才讲的三个例子,在这种情况下大量肿瘤的诊断和治疗是缺失的,肿瘤目前治疗的困难也是非常重要的原因之一。
下面我们再举三个自己跟肿瘤相关的工作。第一个工作,我和贺杰(音)一块做的,找到了三个来自97%的异组分子标记。第二个工作,我们自己发现了一个TCF7,这个东西可以保持肿瘤细胞的干性。第三个工作,我们发现长非编码,这个是可以跟所谓固有免疫系统的活性相关的,这个工作我们还正在进行深入,将来有机会也跟曹院长来请教,反正抗癌跟免疫系统相关的有一大堆的非编码LA在起作用。这些说明97%跟健康疾病有关,但是这些东西并没有纳入到诊断医疗的事业当中来,所以我们精准医学还需要很多工作要做。
H19是在非编码区里的一个非常重要的东西,如果它能正常存在的话,可以像P53那样通过类似细胞消亡的途径来使得癌细胞消亡。所以我们知道实际上这几个例子虽然只是支几的例子,但是说明在97%里面从疾病的诊断里面来讲有一个影像,这些东西作为整体迄今为止我们并不知道,所以当然我们并不能做到精准。
大家一定会问你说的这些例子,能不能告诉我在那97%里有多少好的东西没有发现?大家知道在编码的序列里面大约3%里面我们可以确定大约基因数是25000左右,97%类似基因的东西,我刚才举了五六个例子,你能不能说明在那里估一下,到目前为止我们知道在人里面来自97%的所有元件的克隆还没有实现,这是属于伦理学、法律学的原因,但是我所说的是可以进行参照的,就是日本的在小鼠做的全长的转录本的克隆得到了181000个,其中编码蛋白质的转录本仅有2000个,其余约161000个转录本全部归属于非编码RNA。
当然在这个领域大家知道,曾经在2006年这两位美国科学家获得了非编码诺贝尔奖励,如果大家再开大一点的玩笑,我统计过遗传密码那3%的研究大约造就了50个左右诺贝尔获得者,现在还有97%我们不了解,大家知道97%比3%大得多。所以我们在座的还有争取个上千个诺贝尔奖金的领域,所以这还有一个领域,虽然对于精准医学来讲是挑战,但是对于创新来讲确是巨大的机会。所以我们知道,我们这个精准医学不仅仅推动医学概念的转化,促进了生产的发展,也为我们创新推开了一扇门,提供了一个无限大的机会。
所以我想精准医学一个挑战就是我们对组学数据的认识上还有巨大的差距,但是这个东西提示我们在这个97%的非编码序列的研究一定会为疾病的诊断与治疗提供全新的方向,为全新的药物设计和研发提供新的平台,一定会为动植物新品种、新性段的培育提供新的可能。所以这可以看到挑战,同时也是机会。
我再稍微讲讲关于数据方面的几个挑战。大家知道其实不仅仅是组学,大数据伴随组学的介入,企事业存在各种层次的重要的挑战。第一个挑战就是计算量大、数据量大。我们知道大数据从IT行业来讲是用四个V定义的,我们的组学数据肯定符合四个V,但是我们的大数据除了数据量大之外具有两个特点,一个是目前迄今为止我们知道的增速最快的数据,就这个数据的增速比我们所知道这个人类的活动当中产生的其它数据都增速快,所以就遇到如何适应如此快速度的,就是加速度如此快的数据怎么处理?这个数据还没有处理完,比它多得多的数据就来了,这是一个特点。
第二个特点就是它的信噪比不好,就是它存在很多测量不足。最好的基因组数据用Q20大约测序错误率是千分之一,蛋白组错误率就更高了。第二个数据源的缺点是缺失值,大家知道对于一个完备结合的缺失就带来极大的缺点。
所以我们组学大数据的挑战第一个是伴随海量数据,必须了解这个海量数据是增速极快,同时数值源的信噪比不好但有缺失值。
第二是来自样本的困难,虽然我们数据量很大,但是解决一个具体问题的时候,比方说解决某一个肿瘤,这个时候你所取得的样本量实际上是大大受限的。我们知道由于分子数据的引入,任何一种疾病包括某一种特殊的肿瘤,在基因组的变异位点总是千数量级的。在座很多医疗专家一定会知道真正取样本数是受限的,这就带来一个问题,我们知道在座的搞数据建模的一定知道,我们要使得一个母体的模型能够得到确切的解,边界条件一定和自变量的数要匹配,如果有2000个自变量,外界的样品数边界条件应当大于2000,这样系统才是收敛的,这是数学的基本东西,我发现很多帮助大家去做生物信息处理的人从来不考虑数学的边界,不考虑这些问题,然后从外面拿了一个程序在计算机上调通了,管你什么数据一下就得到结果了。不收敛的情况下增加一个样本结果完成变了,因为系统不收敛,是开放的,所以第二个来自样本的问题更大,大家知道我们必须实的要考虑的体系自变量和取得的样品相匹配,换句话说边界条件要大于内部自变量,这是数学当中的基本规律,但是很多人并不清楚。
怎么解决这个问题?两种途径,一个大样本。所以美国要做一百万人,自变量是一万我做一百万人,就能保证系统是收敛的,能得到某些有效参数,这是一个办法,但是这样的行为只能是国家行为,不可能哪个人,当然这个国家行为必须集成统一,否则的话是没用的。所以第一个办法是增加样本量,但是这个不是任何一个实验室能做到的。第二个办法是任何一个实验室都能做到,也是我们生物信息专家发挥专长的地方,要采取合适的系统建模。什么意思?就是把你的这个大的系统充分的优化成子系统,让每一个子系统的变量足够的小,能够跟你边界条件匹配,这是显示生物信息学家建模功底的考验。这是第二个问题就是我们的样本量小。
除此之外大家知道,其实我们对同一种疾病在微观水平上变异并不产生在一个位点上,查肝癌,查肺癌,同样的宏观表现一样,但是微观的不在一个变化。如果你在临床上找到一个宏观临床非常好的样品,你非常满意了,比如有一百个,然后去查微观的变化,不再一个点上,可能这一百个在宏观的分析非常好,在微观上可能落到十个点上,有的点频度是5%,有的在6%。所以实际上在分子水平看来,你的样品是按照频度分布的,并不是宏观上的一种疾病,微观的表型也是这样的。你本来觉得取一百个不错了,但是实际上一被位点一分的话就没几个了。
所以我们正在讨论从精准医学上其实要讨论一些医学哲学的概念,共同疾病在组学水平上什么是它的变化,你在宏观上同一个肺癌,但是微观是不同的位点,怎么看共同疾病什么指征能是它的同一种变化,如果找不到同一种疾病在不同位点的共同的变化药厂就不能设计药物。所以共同的疾病在分子水平上什么是它的共同变化,当然共同的疾病每个人可能有各自的表型,这是被大家一再讲的,个体化医疗已经讲的太多了,这很容易理解,但是我们必须要看到共同的疾病即使在位点上有不同,它一定还有在更高层次上一致性的东西,所以从分子考虑医学的哲学来讲,共同的疾病一定会找到在哪个层次上有共同的表型,而在哪个层次上有个性化的东西,使得我们还是可以采取共用和个性相结合的方案。
我们考虑的上面讲的都仅仅是在对一个基因所引起的数据分析的问题,但是这些基因都不是孤立的,是互相关联的。所以当你把整个分子水平数据用到一个地方来还要考虑一个复杂的网络,这个网络本身就进入复杂网络的数据分析的阶段。
大家知道这些网络是动态,因为生物是活的,人是活的,所以网络每个节点的连接都是变的。另外它是有向的,往往在生物体里面是一个酶在作用。同时由于我上面的论述,所有网络元件不仅是动态还有非编码核算,所以是双色的,所有的都是非线性的,这些问题也是所谓的精准医学引进来的复杂的数学问题。我想这个复杂关系不仅仅是我们,也是数学家正在研究和解决的问题,所以这是更深一个层次的关于精准医学遇到的数学或者信息分析当中的挑战。
在更高层次上,我们刚才讲的是单个基因,基因与基因之间的相互作用,这些东西都是精准医学层面上,这些数据要和影像学、生化学的组合,就导致了更高层次的信息处理的问题,就是高度异质化数据的整合的问题。
最后一个问题是全局数据共享问题,这个问题我觉得是要接触到最困难的问题,没有全局的数据共享,就是我们国家在大数据时代做小数据的工作,你是体会不到大数据的意义。所以从这一点看来,不管是组学、生物学本身,还是从数据处理当中,都提出一些所谓严重的挑战,这些挑战具有相当的学术上的难度,只有把这些问题逐渐克服,我们才能逐渐走向精准。但不管怎么说,这一条路,这一条概念是重要的,是会改变整个概念的,会促进新的产业的发展。但是只有在我们的努力下,才能一步步实现。我想利用这个机会我介绍这么多,希望大家批评,谢谢!