2017年4月13日-14日,由中国医学科学院 北京协和医学院主办,北京市卫生和计划生育委员会协办,中国医学科学院健康科普研究中心、中国医学科学院生物医学大数据中心、北京市疾病预防控制中心承办的“2017中国健康医疗大数据大会暨中国医学科学院生物医学大数据中心成立仪式”在北京天伦王朝酒店召开。
大会以“大探索、大发展、大融合”为主题,围绕大数据与医疗、健康中国建设、大数据健康医疗新模式、临床大数据以及大数据在健康领域的具体应用等为核心课题展开深入讨论,约1000余人参加了本次大会,其中参讲专家30余位、医疗机构400余家、行业媒体20家以及互联网行业代表200余人出席了本次会议。
4月14日上午的临床大数据技术应用论坛上,前美国国立卫生研究院/美国国立生物技术信息中心大数据专家冉文淇发表了名为《医疗信息化和大数据应用中的三个问题》的主题演讲。冉文淇从专业技术,政府和医院等各种角度去解读了医疗信息化和大数据应用。
期间,对于医院如何做大数据,冉文淇表示,从国家层面来说有两方面,新医院设立时,可以借鉴NIH里那个特殊的医院设置,NIH是全世界最特殊的医院,从全球各地招收各种特殊的病人然后免费治疗,如此就可以进行集中处理。
再有就是医院的管理。对于医院进行的绩效考核,包括比如说按病种的收费,按照相关的人员的病级,这些东西都要尽量有一个数据化的过程,然后依靠数据进行决策,这应该是最科学的,而且也是零成本的。因为我们在医院所有的活动都会自动输入到这个系统,首先第一步是信息化,第二步就是对信息数据进行分析,进行一些模型构建,如此得出的分析结果不仅可以节省成本,而且能避免很多人为主观上的缺失。
以下为冉文淇的演讲实录:
今天我们主要讲医疗信息化和大数据应用,因为我是做技术出身的,我在美国一直做这方面的事情,所以我会尽量的从几个方向来说这个事,一个是专业的角度,另外我看到有很多的同学,所以做一点科普方面的说明。再一个就是说,刚才下面有我们做大医院的,还有卫生系统的领导,他们可能从另外的角度,从政府和医院的角度也有需求,所以我会调整我演讲的内容的权重和速度。
但是现在的社会不是信息少,而是太多。我们人类变成这里面那个小羊,我们就不知道往哪条路走了。所以这是我们人类社会的文明发展到一定阶段的必然产物,也是我们从此进入大数据时代的一个原因。
习大大提出我们中国要领跑,跟跑,所以一般来说我们的比较物是美国,这方面美国也是世界上做得最特色的。但是我们在比较之前要先对我们的过程有一个了解,比如说我们美国和中国在整个大数据发展的阶段是不一样的。这是一个历史所决定,比如说美国在80年代的时候,重点的是半导体,做PC,那时候已经开始做生物了。那时候我们拿到的生物基因的数量是非常有限的,那时候做科研的很多人基因序列都是非常的熟悉,可以背出来的。中国那时候是刚刚解决了重工业的技能,然后吃饱了,我们开始做新工艺。到90年代的时候美国就开始了真正的互联网,直到2000年在他们国家互联网泡沫的消失。而我们90年代是赶紧先搞硬件,因为我们在补美国80年代的课。到本世纪的时候在NIH,也就是我在美国工作的地方开始了全球人类基因组的计划,同时是在2003年完成,同时精准医疗是从2011年的时候,也是在NIH这里开始讨论,然后包括美国很多政府里面的人,还有专业的人一起来跟我们讨论。我们中国现在也开始赶上了,当我们赶上会有一个特殊性,我们是互联网和精准医疗一块来的,所以这里面就会形成左边的结果,比如说我们对信息化,我们对互联网,我们对大数据,这方面的很多认识,我们容易混淆。我们会轻易的把信息化看成是互联网+,然后或者说把互联网+看成是大数据,这三个概念是不一样的。后面我会进一步的说明。
而这个混淆的概念导致我们现在无论是投资界,还是说我们医院的医生朋友,我们需要去做信息化,做大数据,都会存在认识上的很多差异。
我喜欢历史,所以从以前的医疗数据来看。八九十年代的美国的数据记录是很粗糙的,就记录不同的人得这个病的情况,根本的形体有什么变化。我们中国的记录,当时说我们医生的书法是最好的,无论是中医还是西医。那么这个现状相对来说我们很容易记录一个自然人的理解,以及一个相关的统计,我们就能够很好的把相关的数据进行分类。
但是我们现在所有和医疗医药相关的各种数据就太多了,会有基因组的,蛋白的,转录的,表观的,还有临床的,生化的,免疫的。还有人和病患的交互,会有人的主诉和病例,这里面有专用的词,有很多词不是这个行业的你就不懂。所以说这个数据的大量,和专业化的结合,造成了无论是你只懂医疗,或者是你只懂数据处理,你都不足以处理这样的任务,你必须要在两方面深度融合。
所以现在我就以不同的视角,前面我主要是给这里的同学,因为我看到有很多的学生过来,给大家做了一个我自己的一点对医疗大数据的理解,世界和中国是什么样的情况,历史是怎么样的,我们怎么认识它。
我现在从一个更实际的角度,我们怎么来做这个事情。我刚刚来的时候有几个朋友来问,大家都喊我们要做医疗大数据,但是具体怎么做。这个是我们非常有名的盲人摸象,我们总说对问题有没有把握,就是从这里来的。我们手能不能控制住它。就是我前面说的,当我们现在已经进入到新世纪以后,我们这个数据它的量的大小,它的维度的大小,它的专业的交叉和深度的融合,都不足以让我们只有单个领域的人直接把它把握。我们每个人都变成了在这个大量数据面前的一个盲人。虽然说我们眼睛看不见,手摸不到,但是我们的老师非常聪明,我们后来想出了一个办法,从逻辑上是这样的思路。第一部分是我们首先把医疗和生命的问题进行一个抽象,这个抽象我们会用到模型设计、数学、物理化学,这样的模型抽象。在抽象以后下一步,任何一个东西我们都希望把它从定性的往半定量,往定量,往这个方向来发展,这时候我们数学的描述,数学是一切自然科学,当然自然也包括我们医疗临床的基础。在数学上进行对它的表述,其实我们从哲学的角度来说,我们人类所有的文明和知识本质来说都是对我们这个世界的一个描述。
数学我们描述清楚了,下面就是说需要计算数据,因为我们现在有了计算机,计算机的出现可以做类似于,比如说我们人类发明火这么一个重要的事情。我们以前需要很多人去计算,那种可以用计算机。然后再结合我们自己的专业的需求,那就是我们生命领域,医疗领域,用药等等。
所以他在这里面就会需要你进行一个相关所有知识的知识体系的融合,这里面我们特别突出两点,一个是问题的抽象,一个是数据的实现。本身这是一个大融合,这里面有两个关键的节点,一个是数学实现,因为我们现在不光是拿纸比笔算,现在要用计算机,所以实现了数学统计学和计算机科学的融合。我们会经常讲数据分析计算统计,统计是数据分析的最基础的,最开始的一步,它是很重要的一步,但它不是全部。后面会举例子。另外就是问题的抽象,我们的生命现象实际上是我们最感兴趣的,但也是我们人类所面临的最复杂的体系。举个例子,大家可能知道外面几百万光年的情况,但实际上我们对地球内部十几公里以上的世界是完全不一样的。所以你会觉得这很夸张,同样我们对我们周围的世界认识很多,但是我们对自己人体的认识非常少。所以你会发现在我们进行数据处理或者说做聚类分析的时候,比如说数学、物理、化学,有很多东西都是确定的,我们要分类,80%的现象都是这样,如果一个定理不能解决80%的问题就是错的,但是在生物里面不是这样的。生物里面最是有意外,所以这种规定我们需要对问题模型的把握。比如说我们对这个大象我们首先要对它的骨架有了解。我举几个例子,我们怎么用。
这个是大家都耳熟能详的例子,下围棋,AlphaGo。我不知道这里有多少人下象棋或者下围棋的,举手我看看。我自己都下,所有的棋类我都非常喜欢。所以在国外他们也会跟我讨论怎么做围棋的软件。围棋最先开始大家怎么做呢?我们下一个子,一共361个点,在中国古文化里面是周天之数,这就是一个阶层,这是第一个层面的。我们的复杂程度在于,我们子去掉以后还可以再回来,所以这个复杂程度会不断递增,这种不断的递增对计算机来说,它的运算速度就达不到我们的要求了。这就是为什么说AlphaGo处理以前大家的围棋就是业余的水平,就无法前进的。因为像国际象棋和象棋是越下可能的路径是越少的,因为子都吃掉了,情况就越简单。但是围棋是不断的反复的,先简单再复杂,然后又简单,又复杂。所以一直大家都解决不了这个问题,后来AlphaGo用了一个很聪明的办法,一方面它继续沿用对子的判断,另外一方面借助图像识别。因为我们人类记录了很多的棋谱,当你把所有的棋谱摆在一块的,就相当于把我们所有照的片子放在一起,你对片子进行了集中的处理,你就容易在里面发现一些相似的结构,我不能说它发现了相似的规定,因为它不知道为什么,它只知道这个现象是这样子的。对因果性不知道,只知道相关性,而且还可以进行处理。比如说它和李世石下,首先把人类所有的棋谱都放上去,然后另外再针对李世石这个本人喜欢走什么风格的路子,再拿下来。和他现在下的这盘棋进行这方面的对比,这就是大局观的对比。我们中国思维的好处就是,很多时候我们都会宏观微观一块抓的。比如说首先想宏观上大方向要往哪里走,所以实际上是通过大量的对图像的处理,然后找其中相似的结构,再根据这个个人。网上有很多讲这个图讲了几天几夜,所以他最核心的是两步,第一步就是子的判断,跟国际象棋是一样的。第二步就是新加的,通过模式的识别来判断哪个地方是最好的,其实就是这么简单的一个逻辑。
这边有一个黑盒子,就是说说它在里面是用一种办法。或者是找最优化的方法,这是我们模型里面最普通,最常用的方法。我们什么办法都没有有效的时候。我不知道这里有没有做物理出身的,有点类似于里面的平均成本。它很好用,但是后面你要解释起来是为什么,因为后面是一个黑盒子,中间的情况我们多不知道。
最后有一个问题,你就会发现我们拿到的结果,但是我们很难知道它的为什么。而我们做医疗,我们做医药,我们针对的是人的生命,我们需要交流的是一个陌生人。所以这时候我们对这个事情的可靠度和对患者的交流,让他有一个可信度就特别重要。所以这时候我们医生的价值就出来了。我们以前的时候网上有一些说法,说以后计算机出来要统治世界,人也不用了,医生朋友也不用了,就失业了。我想说的是医生朋友就是旁边画的笑脸,我们一眼就看清楚了在后面通过计算机没有一个,我们真正这种创造性思维得出来的结果,所以我们医生永远不会失业。我们做数据分析的,我们是为病人服务的,而不是反过来的。我是从我们生命医学领域,因为我原来在北大是物理出身的,所以我就在国外完成了医疗生命这方面的培养。所以就是这样的一个结果。我是从这边出来,但是我实事求是来讲,就是我刚才的观点,我们医生是最重要的,是在我们针对于我们人类健康方面将是最重要的,永远不会消失。
比如说前面的围棋实际上是很特殊的情况,第一是它的规则是递进的,是一个限定规则下的玩法,另外它的图形是非常规矩的,都是格子的,所以你辨别差别的时候比较容易。我们的大脑,每个人的很多细小的部分都不容易,而这种细小的部分往往是差异性导致病变,或者说我们需要处理的。也就是说从数据处理的角度来说,我们医学数据处理是最难的,而且从国外的发展来说,正是由于我们进入了基因时代,进入了大量的图像的时代,人类才真正的进入了大数据时代。这里面怎么处理呢?你用一般的简单的距离或者说大小,这时候你已经没有办法了,我们就得转向来用拓扑学的东西,我找到很多的小核心,然后开始画圈,在大学学过的医的都知道,不知道大家有没有学过数学的。大概的意思就是我们要找到中间这个空洞,有没有空洞就意味着它的结构不一样,然后应用到这里面进行处理,出来的结果就会很好,比一般简单的我们要做一个虚拟的东西,这是雏形。因为数和图接口的处理,这里面就可以用到。
对我们医生来说,或者说对我们现在做数据处理的同学来说,可能我们的数据全部拿来,然后我们最下面的一个大型的数据相关的处理平台,之后我们让专业的人员做一批数据,这时候已经有我们医疗和医药专业的东西在里面了,不仅仅是一个数据科学。最后我们会有一个相关的黑盒子,进行一个荣幸,就是数据科学,医疗专业,信息整合,模型设计。就是我们医疗人员帮助处理中间的情况,最后直接享受这个结果,中间这个部分我们每个专业的人做自己最专业最擅长的事,比如说我们进行有效的分工协作。
刚才我是从一个我们怎么做这个研究,做这个分析,应用这个分析的角度来讲。因为这里面我们还有这个行业的领导,我们关心这个国家怎么样来做这个分享,我从这个角度再讲一点。以前我们处理这种小手工式的,做小手工单个单位或者说单个小单位这样做,已经不现实了。我们实际上将来是一个系统工程,我们是做大飞机,做宇宙飞船,做航天的过程,这里面对我们中国现在的几大问题,首先第一个是人才的培养,我们的人才是非常非常稀缺的。不光是我们中国稀缺,在全世界也稀缺,在美国就是能够做这个行业的,基本上有的时候是有双学位,他需要有数学科学的学位,同时还需要有医疗方面的学位。他们进行一个产业的合作,比如说我们要让医疗界和企业界进行一个合作。再一个就是我们基础数据的积累和保护,在这方面我觉得我们中国现在的情况,我们积累的大家各自出来的数据,这样一个同构化的程度不太高,后期我们处理会很困难。另外一个就是说我们数据的保护是一个很大的问题。还有一个就是资金的有效流动,后面我们都会讲。
从国家层面,我们要来支持一个单位,或者说一个小组,来做事。我们要成立很多的国家级的中心,也就是说只有国家级的中心你才能够提供足够大的,足够好的,具有一定普世性的,具有标准化的东西。现在我们国家已经成立了基因中心、蛋白中心,但是可能我们也要把生物中心、医学中心进行一个相关的融合。我们把它单列出来并不是说它们是分开的,而是它们最终都要走向融合,在美国是往这个方向做的。
刚才有做医院的朋友特别的问了一下,我们这个医院怎么做。刚才我前面从微观的角度讲了我们具体怎么来做大数据的事情。我们从医院的领导,或者从国家层面来说,我觉得有两方面,我们在新医院设立的时候,我们可以借鉴一下NIH里面那个特别特殊的医院的设置,有两块。从国家层面的第一个层面来说,NIH是全世界最特殊的医院,从全球各地招收各种特殊的病人,然后这些病人都是免费来给他治的,你只要进来,你就签一个合同,进来之后你所有的都是我的,包括你的亲人过来住,我们都提供住宿,都是免费的,原因是我为了治疗你这个特例的病,那么我们就可以进行集中的处理。我自己觉得我们中国好像还没有一家这样的医院,我觉得从国家层面我们需要一家这样的医院,因为只有这样的医院能够最大限度的不计成本的,把相关我们需要去解决的医疗的问题,各方面的问题解决好。但是这个解决好以后,就很容易推广到我们所有的其他的医院,你看似好像是花多了钱。美国有80%的新药,和NIH这个单位,和NCBI这个单位,和医院的设立都密不可分的。这是从国家的层面。
从我们自己的医院,我们现在有很多的地方开始建很多新的医院,那么我们就不要按照传统的方式来建,我们现在信息化和相关的大数据运用在新医院里面的使用,实际上是以前传统医院和现在新型医院的最大的区别,你通过信息化最大的处理,能够很好的提升,首先第一个是医院的管理。前面我在卫计委参加相关会的时候,他们就提出这样一个过程。也就是说怎么样对医院进行一个绩效考核,包括我们后面的比如说按病种的收费,比如说按照相关的人员的病级,这些东西我们都尽量后面会有一个数据化的过程,这个数据化的过程,我们依靠数据来进行一个决策,这应该是最科学的,而且这也是零成本的,因为我们人在医院所有的活动都会自动的输入到这个系统,首先第一步是信息化,第二步我们再根据这些已经信息化的东西对它进行分析,这里面当然需要一些模型的构建,这个分析出来的东西就能节省成本,而且能避免很多人为主观上的缺失。这是一个医院的信息化,然后医院的管理都是我们需要数据的收集。
第二步就是我们对医院,你建一个新的医院总是在考虑我的特点是什么,我如何和原来传统的医院,或者说我这个小区里的医院进行竞争,你一定要拿出你的长处,我们不要总是补自己的短板,而是要拿出自己的长处。比如说你做心血管最强,或者说这个地方的职业病最重,我们就要关注他的职业病。这个情况下进一步加上数据的处理,这是我的一个大概的想法,就是新医院一定要把信息化和数据分析用起来,信息化是基础,数据分析是真正出效率的东西,如果只是信息化了,数据分析没有跟上,就意味着你把很多的东西都搬到家里,但是变不成社会效益,也变不成经济效益。比如说你要让它流动起来。
我虽然说是做行业的,但是我对我们国家现状有一些特别的担忧。首先第一个就是我们的信息化,信息化首先就是顶层设计,我们现在做很多的信息化都按照千篇一律的,哪些公司做过,我们也不是很清楚里面的逻辑是什么,我们就做了。至于说信息化出来的结果是什么样的,它的效果,它的噪声会不会很大。第二个就是处理信息化的过程中会出现破坏性的信息化处理,比如是我前面去一个三甲医院看他们的数据,我就觉得这个数据质量不太好,我就提出来我们能不能拿到最原始的数据进一步重新处理,这肯定也要有更多的人工。如果处理之后没有好好的保存,就会有大量的流失,这就是信息化处理过程中的破坏性的开采。
后面很重要的就是医疗信息的有效交易,比如说我们再处理的过程中,我们现在基本上都是在做大数据下的小数据,我们每个人都在一个信息孤岛上。现在可能很好的方式就是我们大家每个人都拿出自己的数据,实现一个全信息流共享,这样的话你能够用的数据也多了。因为每个单位或者每个个人所拥有的数据也只是其中很小的一部分,但是你只有真正的人,所有的信息连接在一起,才能产生最终的效果。这里面还存在另外一个问题,这些信息究竟是谁来使用,我们中国人很多特有的数据要保护好。健康信息娱乐化,可能大家都知道,现在有很多的穿戴设备,然后和我们的医疗数据进行混杂,但是他们并不具备医疗上面的可靠度,但是大家还去做,这是一个很大的浪费,也造成了很大的噪声,去处理这方面的数据。
企业合作,现在我们可能需要改变的一个就是财政支出的方式,有的时候我们就是把它划分成很小的单,但是有的时候这个大数据的处理需要的量本身就在那儿,因为人都很贵。最后信息化和互联网、和大数据的关系,信息化是我们做这些所有事情的基础,是一个开始,互联网+是实现信息之间的一个相互的连通,以及在连通上面的一种价值的体现,而大数据是要真正的实现数据相关的应用。我们中国现在主体来说是处在一个信息化的阶段,但是我们真正要实现我们的临床,我们要在大数据的应用方面才能够做出来。而且我们是有基础的,也就是说我们的好处是我们的需求上,我们的市场上,我们的样本多,而且我们中央的统筹力度足够,最后感谢大家。