医疗大数据“小米加步枪” 商业软件难叩其门

2016年,国务院印发《关于促进和规范健康医疗大数据应用发展的指导意见》,部署“互联网+健康医疗”的服务新模式,推动医疗信息化产业发展。健康医疗大数据前景广阔,在医院发展、临床服务和临床科研等领域都有巨大的应用价值。

尽管囊括医院内外、诊前诊中诊后的健康医疗大数据项目,频频获得投资人青睐,但仍有相当一部分医院,并没有采用互联网企业的信息化软件。技术不成熟,工具同质化严重,企业对医院不了解,不能完全满足临床需求,医院担心数据安全,患者隐私泄露等问题,都是目前亟待解决的突出难题。

3月18日,围绕医疗机构对大数据的实际需求,解放军区总医院(北京301医院)医学信息研究所副所长薛万国,在“医疗大数据应用与实践研讨会”上进行精彩报告。贝壳社将演讲干货整理如下:

哪些领域,对数据库需求强烈?

医学技术的持续进步导致病例数据的快速膨胀,如一个样本的全基因测序,数据可达几十GB,一幅全数字病理切片,容量接近20GB,这在以前是难以想象的;病人的复杂性及诊疗的多样性导致医疗数据类型结构复杂化,从病历检索到影像识别,大量非结构化的数据需要自动分析和特征提取,处理难度仍较大;以人为中心的诊疗,对数据整合要求极高,数据的整合式管理、整合式展现和整合式分析比较困难;因为患者的生命周期较长,决定了医疗数据的长周期、长存储和长管理性,期间要不断适应新技术的发展变化。

医疗大数据的应用体现在以下四个领域

举例说明,在个性化诊疗领域较出名的案例是,美国临床癌症协会曾开展了CancerLinQ的项目,收集20多家医院的17万份乳腺癌病例资料,将病人的癌症分型、个人信息和治疗方案分组整理,形成不同于临床指南的实践版治疗路径,通过随访得出不同病人的生存周期和疗效,为今后病人的治疗提供参考依据,这些被分析的数据是真实世界的数据,也是有价值的数据。

大数据也有利于疾病早期筛查。比如,对于缺血性心脏病风险预警,医生能从基于高通量测序技术的生物标志物、ECG(心电图)波形、临床参数关联分析、心脏血管影像等层面综合分析,得出病人处于疾病低风险期、隐匿期还是活跃期。海量的数据能预先建立模型,帮助临床决策。

在精准医疗研究领域,大数据分析同样适用。可以结合基因分型,对具有相同临床表现的个体做进一步地细分、探究病因,在血液病和胃癌等疾病治疗方面,精准预后分析已经开展应用,疾病的精准分型需要临床数据与组学数据的联合聚类分析。

大数据与人工智能也密切相关。在大量胃镜样本的基础上,对胃癌前疾病进行分类:先构建卷积神经网络(Convolutional Neural Network, CNN),训练计算机对海量胃镜图像进行糜烂、萎缩、溃疡、正常等情况的诊断分类,正确率可达91.26%,这已能部分代替人工进行病变诊断了;另外计算机也能参与肺结节的病理识别和辅助诊断。

在医院管理方面,大数据能有效加强管理,提升服务质量。美国卡罗莱纳医疗系统曾采用数据分析技术预测患者非预期再住院(30天内)的风险,准确率高达79%,并有针对性地采取预防干预措施,最终有效减少31%的再住院病例。具体是,分析18个月的就诊数据,建立约600个变量模型,其中40个具有高预测性,利用高预测性模型,对2000个住院病例进行评估,提出3万条措施建议。

除了以上一线应用外,基础性应用也离不开大数据支持,但目前仍不够智能。比如,病例文本中的搜索手段依然不够灵活,复杂的检索需求难以满足,许多数据隐含在病例文本中,需要从病例中模糊检索;另外由于医疗随访是临床科研的一项基础性工作,所以随访数据对于临床疗效的重要性不言而喻,但目前普遍缺乏统一的随访机制,科室随访零散,重复,不完整,数据的残缺严重影响了数据的可用性。临床科研亟需建立系统性的随方机制和随访数据的管理体系。

大数据的基础性应用领域,专科专病的数据库需求也很突出。虽然不少科室都建立自己的专科专病数据库,但数据库质量总体不高,有的仅为一张excel表格,数据重复录入现象,数据记录不规范,可持续性差等问题众多,有的科室与第三方公司建立合作,专家表示存在数据流失风险。

病例检索工具,难以满足医院需求

医疗大数据应用的落地离不开需求、数据和技术三要素,缺一不可。然而,不少医院在大数据应用领域依然非常欠缺,仍处于“小米加步枪”的低级阶段。

医学自然语言处理就是最基本的一个需求,语义理解是医疗大数据的基础技术。一个最简单的例子,查找病例中含“吸烟”既往史的案例,现在结果可能将“不吸烟”的病例也搜索出来,因为“不吸烟”三个字含有“吸烟”这个词语,这就是否定语义的处理不当,所以医学自然语言处理的难点一个是医学术语集与规范化,另一个是医学语言的“语义理解”。

医学语言的语义理解两方面;病例检索是最为基础性的需求,临床人员希望检索工具能从诊断、手术、用药、检查结果、病例、组学特征中,任意选择检索条件和检索路径,能支持病例文本基于自然语言理解基础上的语义检索,能支持探索式检索,具有高性能,保证响应时间在3秒之内,然而遗憾地是,目前市场上可见的检索工具几乎都达不到要求。

我们希望给医护人员提供一个灵活的检索工具,但是市面上能看到很多互联网企业虽然做了很大努力,可还是没能解决病例检索的问题。比如,对于检索出所有“化疗之后白细胞下降的患者”这一简单要求,很多软件仍无法实现。所以,现在很多基于病例检索的专科专病数据库构建依然靠手工完成。

建立疾病专科数据库,积累病例数据,是每个科室都会自觉去做的事。难以置信地是,科室整理一份科研病例需要的时间是2~3个小时,工作量远超想象。所以医护人员很难有时间和动力去做病例的收集和整理,虽然目前有不少软件支持,但智能化程度还不够。能否自定义数据内容、以结构化方式抽取病例数据,支持数据的补充录入,能否集中化地处理病例,让患者参与到随访互动中等都是好的电子病历工具的评判标准。