何毅:从国家人口与健康科学数据共享看医疗大数据

2017年4月13日-14日,由中国医学科学院 北京协和医学院主办,北京市卫生和计划生育委员会协办,中国医学科学院健康科普研究中心、中国医学科学院生物医学大数据中心、北京市疾病预防控制中心承办的“2017中国健康医疗大数据大会暨中国医学科学院生物医学大数据中心成立仪式”在北京天伦王朝酒店召开。

大会以“大探索、大发展、大融合”为主题,围绕大数据与医疗、健康中国建设、大数据健康医疗新模式、临床大数据以及大数据在健康领域的具体应用等为核心课题展开深入讨论,约1000余人参加了本次大会,其中参讲专家30余位、医疗机构400余家、行业媒体20家以及互联网行业代表200余人出席了本次会议。

heyi

中国医学科学院信息中心主任何毅

在下午的大数据助力智慧医疗发展论坛上,中国医学科学院信息中心主任何毅发表了名为《从国家人口与健康科学数据共享看医疗大数据》的主题演讲。何毅谈及了国家人口与健康科学数据共享平台中对异构型数据包括数据融合和大数据的处理方式,并从数据组织和规划,数据共享和所取得的进展三方面给出了详细的介绍。

何毅表示这个人口健康平台已建立了统一身份认证,包括统一机构的身份认证,密钥中心,基于各个不同应用之间互通的电子签章,能够实现总中心和分中心的知识检索,精准医学的WEB server检索。下一步计划就是在人口健康平台上做一个测评中心,基于现有技术构架和技术标准包括元数据标准和数据元标准构建,生成的数据和提交的数据,包括临床的数据,都会按照标准来进行评测。

以下为何毅的演讲实录:

大家下午好,我今天跟大家分享一下我们从2005年就开始做了一件事情,这件事情就是2005年可能更早,科技部当时感觉到要借力全国的科学数据共享,大家做了那么多科研项目都锁在柜子里了,包括一些科研项目都是重复的进行建设,这样就浪费资源,科技部就开始抓这个事情。到了卫生系统,科技部门我们中国医学科学院刘院长受卫生部的委托,现在是卫生计生委,来代表全国的卫生系统参加科学数据共享,现在这个已经是正式运行了,就是国家人口与健康科学数据共享平台,这里面提供很多的一些科学的数据,包括临床的数据,包括研究的很多方面的数据,我们这个中心现在是有很多的分中心,包括地方节点来构成。

我们这个中心具体本人在这儿主要是干IT技术支撑的,在这一块就把我们做的一些体会主要是给一些IT的同志来一些分享。我们在这块觉得有意义的是告诉大家对于一个异构的、分散的系统的信息的共享、融合,也就是紧贴着大数据,怎么办?怎么处理它,我们提供一些方法、思路和经验。

第一,谈到异构性的数据的时候,包括数据的融合的时候,大数据的时候,首先一个问题就是这些数据如何组织,如何规划?这就归结到数据资源的建设问题。

第二,数据如何共享?大数据建设,这里面可能要牵扯到一些技术手段。

第三,我们现在中心已经在这个平台上做了哪些事情,这些事情我们觉得比较有意义。

一、数据如何组织?如何规划。

国家人口健康是一项十分复杂庞大的工程,涉及到医疗卫生各个方方面面,需要权威的资源、单位、数据,建立医疗卫生领域规范化的数据,这种规范化的数据我们把它定位成一级的原数据,原数据就是数据的数据,我们一般的把它理解为数据的标签。对于这些数据你要说明的东西,怎么去描述它?所以我们叫原数据,它是数据的数据。要把一些异构的内容,所谓异构就是建的时代和各个HIS都不一样,把这些叫异构的系统,异构的系统跟数据产生的时候都是在各家自己内部定义的,这种怎么办?我们要跨出这个园区,院和院之间,各种不同单位之间要共享,首先在雁数据这块我们可以做工作,原数据就是数据的数据,在这方面我们做了很多的工作。具体的元数据它的作用我就不讲了,可能很多同志都知道。它主要是对定义数据的对象包括数据的性质,是对信息的一个性质的定义。

现在国家人口健康有这样一个构成,我们有这样一些分中心,包括总中心,各个分中心提供他们基础的数据,我们在元数据这一块是共享的。我们说一个词一个字,大家都是相互呼应的,都是能找到的,这就是干这个事的第一个意义。

二、数据如何共享?

那么元数据建设好了以后要实现数据共享又要干什么呢?数据共享要解决的问题除了定义以外,我们IT怎么定义支撑,我们要解决这个,包括信息怎么利用它,怎么检索它。我们发现经过这十多年的跟踪,对于异构的数据,把原始的数据产生单位推倒重来重新定义数据是不可能的,因为人类原始产生的很多数据都是在没有你的科学数据共享之前人家就有数据,这些数据只有他们自己知道,我们就要解决这个问题怎么办?我们首先要把数据和数据之间的关系怎么表达?包括元数据之间的关联关系一定要表达出来,这就一定要有一个本体数据的架构意识。就是说我们把不同专业的,各种各样的专业,我们按照一个数据的架构整体的描述出来,这都要引用到数据的本体服务,这是我们要做的第二件事情。

做完了本体服务以后是不是又能够用了呢?后来又发现对于数据的基本量,把数据的基本例子,数据的基本单位,如果你把这个地方定义好了以后,大家对一个事情的基本量,这样就好度量,包括好标准化,如果是一个基本元素都定义不清楚的话,大家共享起来就很麻烦。要定义一个数据的基本单位这里面怎么办?就要应用一个数据概念,这里不是元数据,而是数据元,数据元指的是数据的最小颗粒,我们要实现共享,我们的数据要形成有意义的集合的时候,除了要做标准化,还要做数据元,做数据的最小化的度量。这样的话我们才能够把我们的一些在分散于各个不同的医院的,各个不同的临床的,各个不同的单位的这些内容集合起来。我们说一个医学术语的时候,大家不但说话的声音是一致的,而且我们在数据表示的最基本的颗粒那块,在它的基本代码那个地方也是一致的,你这样才能有意义,这就是我们要做的第三件事情,就是说数据元的最基本的量化问题。

数据元这块量化以后我们还发现除了有这个,我们要在异构性的、复杂的、跨库的数据的时候,检索怎么办?我们就一定要有一个推送式的分散式的跨库检索,而且这种数据检索一定要有真实性、权威性,不能说这个数据提交上来以后明天再把那个数据改变了,别人就没法儿引用,这就是我们说数据跨库的检索以及数据的真实性、安全性的问题。这个问题后来显得尤为重要,比方说我们在魏则西事件,主要就是数据提供的质量有问题,或者是数据的真实性有问题,这样的话就是给我们也进行了提醒。就是你的数据怎么能够在共享的时候要做到真实性、可靠性,这也是我们要特别关注的,要解决的一些问题。在技术上我们是用了HL7这个技术,我们对各位提供的数据资源的各个分中心都进行资源的提供数据的认证,你提供这个数据,我们之间以前有认证关系,而且你提交的数据以后也是抵赖不掉的,这些我们是采用了这样一些技术来对于数据的检索和数据的安全来进行一些处理。

最后我们还要考虑到数据除了它的安全,还要解决数据在全生命周期的安全性,包括数据的隐私。有些我们说的数据提交上来以后还是希望你把患者各方面的信息省去,包括有一些数据提交上来的时候是在一定范围内知道,比如说医保信息,它不宜全公开,这些情况我们又应该怎么办?如果我们是在自己的一个独立的园区,独立的封闭的系统,那这些问题相对容易一些,特别是对于这种跨库的异构的系统的时候,而且是基于互联网的时候,我们要对这种信息特别加以关注。我们考虑到除了用户的身份要进行认证,用户的提交单位、数据单位要进行认证,包括还有用户特别重要的信息提交的线路上还要进行加密。对于身份、统一认证这些我们都进行了一些考虑。

最后我借用在去年的时候我们申报国家大数据的片子,只有这样处理这样的片子的时候才构成大数据的基本框架,因为我们已经解决了分散性的异构的这些元数据和数据元这样相互的数据标准,包括它的技术架构,包括它的检索,那么我们只有这样以后才能说我们的数据是基于互联网的,能够形成大数据。基于互联网和形成大数据这是相辅相成的,大数据一定是基于互联网的,互联网也构造了大数据的基本要素。这样来看要构成一个大数据,包括科学数据共享,那么我们说刚才提到一定要处理异构的不同机构的,单位的建设时期是不一致的,参差不齐的这种建设系统的他们的老数据和已有数据怎么能够融合在一起,我们就是解决这样的问题。这样的手段我们还是基于互联网的,我们所采用一系列的技术都是基于互联网,所以我们数据的交换、处理、各种各样的标准都是基于互联网的,都是基于现在采用的基本数据标准和IT的技术标准,都是引进吸收和消化了HL7,就是卫生的基本信息标准来实现的。这样的话我们也跟国家卫生计生委和相关的单位进行了探讨,我们认为这样的一条路是构成我们国家以后的医疗大数据的一个基本框架。

在这里供大家分享一下我们现在在这一套系统已经建立了一个统一身份认证,包括统一机构的身份认证,包括密钥中心,包括基于各个不同应用的电子签章,就在各个不同应用之间的互通的电子签章。包括总中心和分中心的知识检索,包括元精准医学的WEB server检索,这些现在在我们的人口健康平台都已经实现了。下一步我们的计划就是说在我们人口健康平台上做一个测评中心,所有按照我们这样的技术构架和技术标准包括元数据标准和数据元标准构建的生成的数据和提交的数据,包括临床的数据,都按照我们的标准来进行评测。评测以后它就可以顺畅的跟我们融为一体,以后就构成了我们国家的一个基本的大数据骨干的核心研发和评测的基本基地。这个工作一直不断地在持续进行当中,整体情况就是这样,我们把我们的一些工作跟大家进行一些分享,谢谢大家!