健康医疗大数据是健康产业重要的基础性资源,其应用和发展将带来健康医疗模式的深刻变革,推动健康中国战略的落地。在南京江北新区,国家健康医疗大数据(南京)中心正在快速建设之中。作为第一批国家试点工程,华东地区3亿居民的健康医疗大数据都将集中储存到这里,为部署、推进和规范健康医疗大数据的应用发展起到示范作用。
作为中心的技术负责方,江苏杰若创信息科技有限公司(以下简称“杰若创”)牵头筹建“国家健康医疗大数据中心”,具备成熟大型国有数据中心建设经验,同时参与政府大数据平台建立、智慧城市大数据服务、智能制造大数据分析服务及各类基础科学研究项目和高性能计算应用的开发,是行业领先的数据分析管理与高性能计算应用专家。杰若创拥有国际顶尖的数据管理、高性能计算、先进算法、人工智能等专业化人才,能够为生物信息、医疗健康、公共卫生、科学研究、市政建设等领域提供行业领先的数据存储、超速计算、软件研发等全套高效数据解决方案。
为满足业务快速发展需求,杰若创携手IBM升级软硬件存储解决方案,为国家健康医疗大数据(南京)中心提供创新的存储和高性能计算服务。目前,健康医疗大数据存储中心一期工程已全面完成,现有1300+台计算节点,计算速度达每秒2340万亿次,存储容量高达52PB,单个端口最高支持56GB/s传输,同时采用量子信息安全防护措施,达到国家等保四级标准。江苏省8000万人的个人健康档案和电子病历及全省174家三级医院影像资料等健康医疗大数据都将统一存储在该中心。未来,这一中心不仅针对江苏,还将面向东部地区,数据收集至少将覆盖华东地区3亿人群。
夯实健康医疗大数据应用基础,数据互联融合是关键
一直以来,阻碍医疗大数据产业发展的问题有两个,一个是数据互联互通的融合问题,一个是数据共享机制的问题。在政策层面,国家出台了一系列政策文件,以推动和深化我国健康医疗大数据的发展。国务院2016年印发《国务院办公厅关于促进和规范健康医疗大数据应用发展的指导意见》,强调要夯实健康医疗大数据应用基础,重点任务包括加快建设统一权威、互联互通的人口健康信息平台,推动健康医疗大数据互联融合、开放共享等。
作为推进健康医疗大数据应用发展的重点工程之一, 2016年10月,首批国家健康医疗大数据中心及产业园落户在南京江北新区的扬子科创中心,规划为 “1个中心+3个应用基地”四大功能片区,分别是健康医疗大数据存储中心、国际健康服务社区、南京生物医药谷及健康科技产业园。
杰若创牵头筹建国家健康医疗大数据中心,为中心提供创新的企业级存储服务和高性能计算服务,并负责整个中心的运维。公司依托在大数据、人工智能算法等新兴技术领域的优势以及在数据中心建设与安全、大数据解决方案、高性能计算等方面的经验积累,围绕国家健康医疗大数据(南京)中心和扬子云计算中心两块业务展开工作,一年多来成效卓著。目前已经全面完成健康医疗大数据存储中心一期工程,设置了三个机房,存储容量达52PB,足以整合江苏省8000万人的个人健康档案和电子病历及全省174家三级医院影像资料。
破解大数据存储中安全与开放的矛盾
大数据是一种规模巨大,且从获取、存储、管理到分析都极大超越了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。
当前,健康医疗大数据规模及其存储容量呈爆发式增长。健康医疗大数据存储中心运营负责人、杰若创信息科技有限公司总经理管晓寅认为,健康医疗大数据除了具备大数据的这些特征外,还具有对安全要求高、强调开放与共享等特点。安全是指,要保证医疗健康与生命科学这些数据的高度安全。开放与共享是指,要确保数据有充足的流动性和开放性,便于开放给科研单位、科研机构与公司,让数据得以充分挖掘、高效利用并释放无限潜力。
而安全需求与开放共享,是一对与生俱来的矛盾,该如何解决这个矛盾呢?
在杰若创执行董事兼CTO刘健看来,这是对IT系统提出综合要求:
1、海量数据的实时存储:比如正在开展的人类基因组计划,测序一次全基因组得到的数据量超过90GB,存储中心要对这些数据7×24小时不间断的实时存储;
2、严格的数据安全保护机制:必须保证收集到的这些异常珍贵的原始数据能安全、完整地进行存储;
3、快速的数据传输:数据存储之后能够安全、快速、便捷地传输;
4、随需应用:需要在现有的框架下合理、方便地管理数据,在应用端发出数据请求时,第一时间把正确的数据传输到需要它的用户那里以应对灵活调用。
传统的IT平台在面临海量数据存储、保护和业务应用需求时,难以协同高效地满足以上需求,并且面临资源耗费过大的问题。这就需要采用新的技术和手段,进行数据获取、存储和分析。
突破存储江苏8000万人健康档案的“不可能”
在国家健康医疗大数据(南京)中心,杰若创与IBM进行深度合作,建立起一整套的大数据平台和高智能计算平台,该平台能对数据的采集、存储和分析提供有力支撑,兼顾数据安全的同时,确保了数据的开放性和流动性。
这套大数据和高智能计算解决方案,包括三个层次的产品:在最底层采用IBM Cloud Object Storage (Cleversafe) 作为IBM云对象存储,它的主要特点就是容量大、安全性好,目前配置容量达到15PB,导入了大量的基因组数据;在此之上应用IBM ESS高性能存储,解决了多用户负载平衡的问题,高效的满足不同用户对数据的请求;在最上面的应用层,采用IBM Spectrum LSF调度系统,IBM Spectrum LSF的主要作用是进行硬件计算资源的统一调度和管理,例如为上百个用户提交的不同的任务高效地分配资源,并能支持未来开发针对智能诊断、精准医学等方面的应用。
“这套解决方案满足了我们对数据容量、数据安全、数据传输速率和数据管理等最基本的数据处理要求,节省了我们的人力成本,并且能足够灵活地支撑我们对不同业务的需求,这些都是传统平台不可能完成的任务”,杰若创总经理管晓寅表示。
与此同时,在杰若创运营的扬子云计算中心,IBM ESS高性能存储和IBM云对象存储(Cleversafe)也发挥着不可替代的作用。扬子云计算中心同样坐落于南京江北新区的扬子科创中心,是全国首个完全商业化运行的高性能计算与大数据中心。该中心将常用的数据存在读写速度比较高的IBM ESS高性能存储,不常用的数据存在成本更低的对象存储,从而实现了更高效的资源配置。IBM ESS高性能存储通过将存储与计算分离、独立按需扩容,保证集群能够灵活多变的扩展,避免了传统的分布式架构必须要同时扩容存储和计算而导致的容量或资源浪费。
IBM云对象存储(Cleversafe)在应对海量增加的非结构化数据的安全问题时极具优势。以跨站点数据切片的方式保存数据,并采用先进的数据纠缠码加密技术,IBM云对象存储(Cleversafe)比传统存储更安全。此外,IBM云对象存储(Cleversafe)保证数据随时可以访问和使用,并且为用户的未来做了规划,比如未来三五年的扩容、数据向云端迁移,以及弹性拓展适应大数据需求和AI智能管理等。
“这样的解决方案是对传统的分布式架构的颠覆性跨越,无论从经济性、安全性、可扩展性、可用性,还是数据的备份等各个方面看,都比传统的分布式存储更先进”,杰若创执行董事兼CTO刘健总结说。
IBM大中华区硬件系统部存储及软件定义基础架构总经理吴磊表示:“南京江北新区健康医疗大数据中心被公认为行业的标杆,为健康医疗行业深入挖掘大数据的潜力起到很好的示范引领作用。IBM领先的数据存储技术能为大数据在健康医疗行业的深度应用奠定良好的软硬件基础,提供强力支撑。我们将一如既往地发挥IBM在大数据、人工智能、高性能服务器存储等方面的技术优势,为推动健康医疗大数据应用发展、推进实施健康中国战略做出积极贡献。”
以此次合作为起点,双方将共同描绘健康医疗大数据发展蓝图,朝着“健康中国”的愿景奋力前行。