肽积木柏文洁:构建基于医疗大数据的人工智能训练平台

2017年4月13日-14日,由中国医学科学院 北京协和医学院主办,北京市卫生和计划生育委员会协办,中国医学科学院健康科普研究中心、中国医学科学院生物医学大数据中心、北京市疾病预防控制中心承办的“2017中国健康医疗大数据大会暨中国医学科学院生物医学大数据中心成立仪式”在北京天伦王朝酒店召开。

大会以“大探索、大发展、大融合”为主题,围绕大数据与医疗、健康中国建设、大数据健康医疗新模式、临床大数据以及大数据在健康领域的具体应用等为核心课题展开深入讨论,约1000余人参加了本次大会,其中参讲专家30余位、医疗机构400余家、行业媒体20家以及互联网行业代表200余人出席了本次会议。

122

在下午的大数据助力智慧医疗发展论坛上,北京肽积木科技有限公司CEO柏文洁发表了名为《构建基于医疗大数据的人工智能训练平台》的主题演讲。柏文洁介绍称肽积木做的是融合AI(人工智能)和治疗影像,因为AI在图像领域,尤其是这一波以深度学习为代表的AI技术,图像处理相对成熟,所以肽积木首先选择了和医疗影像的结合。

柏文洁还从人工智能辅助阅片以及建立医生和人工智能公司联系两个维度分享了肽积木在医疗方面对人工智能和大数据技术的实践应用,它通过辅助阅片实现自动分级诊断和自动病灶识别,而对于建立医生和人工智能公司联系,则是为了打造数据标记平台,这些标识数据能够帮助医生方便地指出这个病灶有问题的点,并通过图像直接的给予一个标识或标签得出诊断结果。柏文洁认为AI在医疗方面最核心的两个能力,一个是降低医生的工作量,另一个就是平衡国内尤其在基层的医疗资源不足和匮乏的问题。据小编了解北京肽积木科技有限公司的团队之前就是做大数据分析的,将大数据分析带入到医疗行业可以说是驾轻就熟。

演讲中,柏文洁还给出了一个具体的例子,这是一个中度病变的眼底图片,我们首先给出初步诊断指标,这里其它的概率值也是给大夫一个参考情况,肽积木会在系统上面会直接标出来,黄色的区域是渗出,红色的区域是出血,蓝色的区域是为动脉血管瘤。蓝色的区域是直接告诉你像这样一张眼底图,面色会有大量渗出,集中在面色上部,部分侵入黄斑地区,这样影响视神经的功能。所以整个医生需要给病人传递或者说在整个诊断过程当中需要涵概的部分我们都会给到一个直接的结论。

tu

(照片微糊,包涵……)

以下为柏文洁的演讲实录:

各位领导、各位来宾大家好,今天非常高兴有机会能跟大家分享我们肽积木公司在应用人工智能和大数据技术在医疗实践方面的应用,这个时间我们是落在年底,下面可以具体来看一看是怎么一个情况。

其实从去年开始,人工智能尤其是和医疗结合的维度上已经获得了大家非常广泛的关注,然后一些非常突破性的进展其实不断在产生。包括心脏、核磁共振的影像AI分析软件,这个通过AI监测心脏流动的走向,包括儿童自闭症早期诊断,在Science上发表准确率高达88%,传统是50%。NatureAI在皮肤癌诊断方面准确率持平专家,谷歌AI乳腺癌诊断准确率到88.5%,远高于兵力专家的73%。

在国际上AI和医疗的结合很显著的看到有一系列的进展,而对于国内来讲其实我们国家拥有更大量的,海量的病例数据,尤其是一些特殊评理的数据,同时我们国家的医疗资源,尤其在基层是非常缺乏的,医疗资源极度不平均,所以在这点上AI其实它是更多的来学习大夫的核心经验,尤其是顶尖大夫的经验,能够比较好的来做资源的平衡。所以在这个维度上,其实AI尤其在中国应该有更广阔的应用前景。

我们肽积木在这块其实是融合AI和治疗影像,因为AI在图像领域,尤其是这一波以深度学习为代表的AI技术,在图像领域的处理相对比较成熟,大家可能也听过机器在人脸识别上已经超过了人类,它对于图像识别已经达到了比较好的程度,所以我们肽积木首先选择了和医疗影像的结合。

这个切入点首先是选择了眼底读片,首先一点我们需要面临的逃亡筛查人群非常广泛,中国有1亿糖尿病患者,中国每年花在这上面的经费也是非常大。而我们如果能够通过比较好的在这个过程当中进行干预,其实可以获得大量经费的节省。

同时在这个过程当中,其实很多因为是糖尿病先期产生的,内分泌科的大夫自己不具备读片能力,而且尤其这个其实是一个长期的慢病跟踪的过程,很多患者其实可能就会落实在社区医院,而这些地方其实也都不太具备这样的一个观察或者说诊断能力。在这个过程当中我们首先来看到的就是我能不能用AI来学习到顶尖大夫的经验和能力,然后把它应用在基层的场景和环节当中,从而使得我们能够确实很好的做好医院的资源为患者提供服务。

其实我们做了两个部分,第一部分其实是利用AI来辅助阅片,做了这样一个端到端的应用系统,这一块待会儿我会给大家看一看我们是一个什么情况。同时我们为了能够在接下来整个推进行业,包括能够更好的利用我们采集到的各类数据,其实我们也针对性的做了一个AI大数据训练平台。也就是说当我们有足够的数据足够的医生合作之后,能够比较快的推进整个事情的发展。

第一块就是希望通过AI来解决的第一个问题其实是能够缓解诊断的压力,提高诊断的效率。包括我们了解到的情况其实在内分泌科的接诊率非常多,每一个是不是都应该在一定的范围内进行眼底的筛查。所以在这个过程当中我们希望解决一个端到端的逻辑,AI的落地其实应该是大数据分析的下一步,也就是说我们是能够直接给出结论的。所以在这个过程当中我们重点做了一个方面:一是自动分级诊断。也就是说我们会直接告诉你是不是有病变的风险,是不是有病变的可能性,以及你现在如果已经发生病变到底是在几级病变。在这个过程当中我们会给出一定的概率值来提供医生这样的一个参考。同时除了这个方面以外我们还给出了一个自动病灶的识别,这里面包含两个部分,一个是组织的切分,一个是病灶的标记。

这里是一张比较典型的眼底图,我们除了包括黄斑都是可以直接标出来,包括血管,因为我们把血管突出出来可以更方便医生看到血管有没有发生病变,如果这上面产生了一些具体的病灶,像蛋白质的硬性渗出,出血等等都可以直接标注出来。在这个基础上我们会直接的给出病例的编写,也就是说不需要医生再进行正症状挑选,再描述病灶在什么位置,直接机器会给出最终的结论。所以在整个的过程当中,医生更多的是说我来检查机器读出来的结果是不是符合我的需求,是不是值得我进一步的关注,在这个过程医生的大量的诊疗的工作量就会被大幅的下降。而且在这个过程当中有一件事其实也是我们现在正在做的,就是当我们这个数据没有一个逐步积累的过程的时候,其实这个病程的发展变化,对于大夫来讲需要往前追溯,但是对于机器来讲能更好的进行对比,当然这一步因为目前数据整理还比较有限,这个其实是人工智能相对来说也是非常擅长的一个部分。

这个是我们实际给出来一个具体的例子,这是一个中度病变的眼底图片,我们首先给出初步诊断指标,这里其他的概率值也是给大夫一个参考情况。我们在系统上面会直接标出来,黄色的区域是渗出,红色的区域是出血,蓝色的区域是为动脉血管瘤。蓝色的区域我们会直接告诉你像这样一张眼底图,面色会有大量渗出,集中在面色上部,部分侵入黄斑地区,这样影响视神经的功能。所以整个医生需要给病人传递或者说在整个诊断过程当中需要涵概的部分我们都会给到一个直接的结论。

所以在这个过程当中其实技术解决的是非常关键的一步,也就是说我们不需要医生做出太多自己的一个诊疗过程,更多的是对机器诊断结果的一个确认,尤其是对于一些可能需要进行手术干预或者进行我用药干预病人的一个病人的再行的察看。

除了技术上的落脚点之外,我们其实在商业模式上,或者说在运营模式上其实也需要能着重落实到基层应用,能够结合到三甲大夫的这样一些经验和知识。所以首先我们从几个维度来讲,第一就是说对于三甲医院,因为现在其实很多三甲医院已经开始逐步自行建立自己的阅片中心,对于阅片中心来讲大量的阅片压力会集中出来,在这个过程当中如果利用我们这样的产品确实可以大幅节省阅片中心的诊疗压力,而且能够传递一些教学经验。另一个维度就是类似的三甲医院这样一些情况,包括我们和一些第三方阅片中心,第三方阅片中心也是在缓解区域的诊疗,缓解区域的读片、看片的压力,我们在这个问题上可以进行快速学习和推广的。

我特别强调的其实是在基层应用场景,因为实际上我们看到基层医院对眼科大夫非常缺乏,而且同时大家其实还没有建立一个很好的慢病管理或者慢病监测的这样一个氛围。其实我们从现在这个角度来讲,大家这种智能设备尤其是眼底设备的成本已经大幅下降,所以其实大量的社区医院甚至包括药店都是有能力配备这样的设备的,而他们其实更重要的是缺乏眼科的大夫。如果在这个过程当中其实应用我们的产品,让机器进行初步的筛选,然后我们在背后其实会提供远程大夫的服务,结合远程医疗的筛查,然后提供一个个性化的诊疗意见。如果在这个过程当中,我们发现这个病人可能确实到了一个需要干预的场景,那我们再进行一个分诊。所以在这个过程当中,我们一直认为AI最核心的两个能力,一个是降低医生的工作量,另一个就是平衡我们国家尤其在基层的医疗资源不足和匮乏的问题。

刚才其实说在提高医生效率的维度上,第二个问题是我们希望解决怎么建立医生和人工智能公司之间的联系。其实我相信在座各位在做信息化过程中面对我们国家非常宝贵和真实的数据很头疼,数据的规范度其实不是很高。所以这个过程我们到底怎么能把这部分数据利用起来,包括像谷歌,美国的很多公司在做这个过程当中,大家最关键的就是中国医疗数据,尤其到人工智能来讲,最关键的一个环节其实是标注型数据,也就是说医生得告诉机器说什么样的问题是有问题的区域,到底它是一个什么样的病症。其实包括我们看到像病例上的数据很多时候是有它的最后结论的,但病灶在哪里没有一个标准化的标出。所以在这个过程当中我们是构建了这样一个数据标记平台,希望借助这个数据标记平台,一是医生可以比较方便的,不是那种写病例的过程,而是说比较方便的把这个病灶有问题的点,以及通过图像我们得到一个什么样的诊断结果能直接的给予一个标识甚至借助于打标签这样一种方式。二是我们在这个过程当中其实也是一个规范化和整理数据的过程。其实中国有大量的尤其是一些特殊病例的数据我们把它整理好,然后让医生在这个平台上进行统一的标记,能够尽可能的收集更多医生的观念。在这个过程当中其实也是有助于整个行业标准的一个建立。包括我们现在和中山、温州影视合作过程当中,我们其实希望集合多位专家的意见标注,然后能形成一个相对来讲对行业有一定指导意义的结论。尤其在这一点上,一些特殊的专家我们可能权重高一些,偏新手的就权重低一点。整体上我们通过这样的一个标注平台,通过这样一个过程,其实我们把整个基础要学习的数据有一个标准化,第二把标注数据有一个标准化,让机器能够更好的学到它应该学到的东西,所以在这个点上是我们核心要解决的第二个问题。

在这个基础上我们有了情理好的数据,有了标记之后,我们目前建立了大数据的AI训练平台,其实我们很多都有在做大数据系统,其实对到我们像肽积木来讲,这个目标就特别明确。这样一个大数据系统是围绕着AI的基础训练来开展的。我们希望大夫虽然可能对于计算机技术没有那么了解,但是通过一些简单的操作,借助标记系统,然后就可以能够很快的得到AI训练的结果。在这一点上其实在目前AI有一些,就是我们如果想做到一个非常好的结论肯定是需要人为干预的,但是其实现在也已经有一些比较成熟的计算机学习的做法,包括深度学习的一些做法。像我们在这个过程当中其实用到的牵引学习的做法,其实更是可以很快的很好的复制出来,我们如果有标记,有数据都能很快得到我们想要的计算机的结论,能够更快的帮助和辅助到实际生产过程当中。所以也不需要医生和大夫一定要有编程技能,或者对深度学习有非常大的理解,只是更多的理解到AI能帮助到大家做一些什么样的事情,能够快速的解决什么样的事情,怎么样处理最开始的数据,而这一步其实在标记平台上会有一个初步的理解。

我们的大数据来讲分为三层,最底层是数据采集层,包括我们拿到的影像监测数据,病例数据。我们在这个过程当中也支持即使是给标准化的病例,这也是一个非标的数据,我们可以通过人工智能的识别,就是语义的识别来快速过一些关键词也是可以的。在这个过程我们把影像数据、检查数据以及获得的标注数据完整的整合起来进行等级病灶的判断,这是我们的第一层。

第二层里面我们其实构建了一个GPO的集群,在这个集群上首先要做的就是数据清理,以及借助标记平台获取标记价值不断地锤炼,包括同一批数据,譬如说我们之前拿过一套国外的8万到的眼底数据,这个眼底数据可能刚开始只有一部分简单标注,而已经过我们处理之后我们可以在它上面进一步深化细化做过标记病灶各种分级的处理。所以在这里我们是用训练方式把这个数据整合好。而在这个过程当中其实利用的核心的大数据技能就是我能快速的根据我的需求,根据我各种各样的个性化的定制来进行数据的筛选,然后来进行不同场景的结果的训练。因为很多时候人工智能其实用在特定的场景下会更加有意义。就是我不见得要把所有问题都解决掉,但是我能解决当前在你这种场景下的特定问题,往往会做得效果非常好。

第三层就是应用层的构建,包含了病理等级的判断,病灶识别,报告的生成,包括未来发病的预测以及治疗方案的推荐,这些其实都有赖于我们进一步对于医疗知识然后标记数据的整理。所以在这个平台的构建当中我们其实是希望不仅仅局限于某一个特定领域,而是能把这样的一套人工智能技术拿出来,能帮助到医生快速的利用人工智能技术,来实现在传统方法可能实现突破略微有些困难的点。其实很多时候在这个过程当中不断去做,而这个流程其实我们尽可能把它做得会相对简单,包括上传数据、标记训练、进行直接训练,最后落实到实际的应用环节和科研环节当中去。

最后说一下我们的技术优势,我们首先用的是深度学习的技术,在这一块确实需要对这一块有比较深入理解的情况,所以我们是用的比较新的技术。然后速度快,其实在这一块我们整体上是希望不让医生再等待,其实比如像眼底片,之前差不多我们了解的一些情况都是读一张片需要3-5分钟,这个过程其实医生自己都看完了,所以我们在这个理念希望整体都能够在1分钟以内,所以像我们目前是13秒到15秒完成一张病灶的标记,然后整体的看读其实1秒钟就够了。所以整体上包括病例生成、病灶判断、分级都不会超过30秒钟,也就是说希望能够最大限度的提升医生的效率。

稳定性高。其实实际场景可能在某种程度会超过医生,因为大夫有时候看很多张片子之后会累,所以我们其实是对应到不管是这个片子可能拍糊了甚至拍暗了,曝光不够,曝光太过,这些场景其实我们都能接受。也就是说机器在这个维度上是具有一定的识别性的。

准确率高。在特定数据级上的准确度我们已经超过了97%,在包括现在在一些基层医院的使用场景下可以看到其实这个准确度还是非常可以实际应用的。我们的AOC值其实已经到了0.99。

目前我们其实在这个过程当中,就是AI你要能够有一个好的训练结果,首先是要有一个好的数据级。所以我们目前和这些三甲医院的合作,包括一些医疗机构,包括患者等多个渠道,其实已经有30多万张的医疗影像,包括从公开数据级当中拿到20多万的影像及标记,而且其实这些都有再加工和重复反复的把里面核心有意义的东西提取出来。在这个过程当中我们采用的深度脱敏和对应诊断这些技术,我们其实在这块能够希望最终通过一系列的应用,帮助到大家。所以非常感谢各位的聆听。最后做个小广告,我们的展位就在门口,大家有兴趣可以体验一下,因为现在其实是有成型的产品,谢谢!