海量存储新机遇,从MassStor100排行榜看生物医学大数据的快速发展

1月28日,国内首个海量存储系统性能榜单——中国海量存储系统MassStor100排行榜(下简称MassStor100榜单)正式发布。MassStor100榜单由中国仪器仪表学会图像科学与工程分会、天津市电子学会共同成立的“存储评测联合工作组”每年定期发布。首届榜单收录了包含政府、科研、教育、能源、医疗等十余个应用领域共计35套系统。其中,来自中科曙光的ParaStor和海康威视的DS-A视频云存储分别以72.35PB、70.74PB的有效容量位列榜单前两位。

生物医学大数据,为海量存储打开机遇之门

从上榜系统涵盖的15个应用领域来看,视频监控、卫星遥感、云计算/云存储和生物信息、气象环保作为典型海量数据应用场景,占据上榜系统50%以上的份额。由曙光公司提供存储设备的天坛医院、中国科学院上海生命科学研究院和上海瑞金医院均榜上有名。可见,随着生命科学、新药发现、新冠疫情传播研究及快速检测等应用的快速发展,加速了存储技术与生物科学数据领域的融合。特别是2020年的疫情防控工作中,科技抗疫彰显创新实力,除了病毒形态研究以外,精准医疗、个性化医疗,也为存储行业在生物信息、医疗卫生领域的发展带来了新的机遇。

近年来,随着基因测序技术的快速发展,生物医学领域正在快速产生海量数据,以第二代高通量测序技术等为代表的各类组学技术飞速发展,推动了基因组、转录组、表观遗传组、蛋白质组等生命科学组学数据成指数级增长,把生物医学数据推进到了PB时代。而当前正在发展的第三代单分子测序技术,速度更快、成本更低,进一步推动生物医学数据进入EB时代。除了数据规模增速快,生物医学数据分布零散、难以有效整合分析,数据价值挖掘困难,如何更加有效地利用成为严峻挑战。

曙光ParaStor,挖掘生物医学大数据价值

在对海量生物医疗数据中的应用规律进行研究时,曙光发现,生物医学数据种类繁多、内部结构高维复杂、内涵丰富、数据相对分散、难以高维度多层次交汇共享。必须要解决海量生物医疗数据汇集、共享、使用这三大问题,才可以实现数据价值的挖掘。

首先是海量数据的汇集,曙光分布式存储系统ParaStor可通过性能与容量的线性增长,满足生物医学数据以每12-18个月10倍的速度快速增长,实现对来自不同区域、机构、个体,结构化和非结构化数据进行高效存储;其次是海量数据的共享,ParaStor可在全局单一命名空间为用户构建EB级容量的虚拟存储池,所有客户端均在同一个命名空间下共享访问所有的数据,有效简化海量数据管理的复杂性;最后是海量数据的使用,曙光ParaStor拥有100Gb/s EDR Infiniband高速存储网络,高效解决平台对海量医疗数据大文件存储场景高聚合带宽、小文件存储场景高IOPS的存储需求。

多年来,曙光公司深耕生物医学领域,为上海瑞金医院、北京天坛医院、北京基因组研究所、上海生命科学研究院、上海市疾病预防控制中心等单位提供产品与解决方案,高效支持医疗影像、基因测序、冷冻电镜、药品研发等应用的稳定运行。未来,曙光将充分发挥企业优势,加速技术创新,为生物信息领域用户提供更先进的产品与服务。