云计算已经成为了一个十分热门时尚的词语,但具体在各研究领域中的应用还是个模糊的概念,近期来自军事医学科学院放射与辐射医学研究所的研究人员发表综述文章,阐述了云计算服务模式及其优点,并以宏基因组分析应用 PathSeq 为例介绍使用云计算的步骤, 最后给出私有云构建与云计算应用中的一些建议。
生物医学正迈入大数据时代. 从 1977 年 Sanger测序法的问世到当前下一代测序(next-generation sequencing, NGS)技术的日渐成熟, 测序通量不断提升而成本显著降低. HiSeq 2000 单次运行可产生200 G数据量, 即以约 30倍的覆盖度同时对 2个人类基因组重新测序, 且费用低于 1 万美金. 不仅下一代测序分析面临大数据存储与计算的挑战, 公共医疗对大数据存储的需求也日渐增长, 美国公共医疗卫生领域的数据总量在2009年已达434 PB(1 PB=250字节), 并以每年至少 35%的速度增长, 其中绝大多数是需要长期保存的医学影像数据, 以及医疗健康档案。
大数据浪潮为生物医学带来了前所未有的机遇, 将根本性的改变生物医学基础研究和医疗实践,但同时生物医学领域数据爆炸式的增长也对海量数据的存储和分析提出新的挑战。
云计算是一种利用互联网即可随时随地、按需便捷地访问共享资源池的模型, 其体系架构可分为 3 层: 核心服务、服务管理和用户访问接口。资源和功能服务化是云计算的核心理念, 硬件基础设施、 平台和应用程序都能以服务的方式通过网络交付给用户。
传统医疗信息系统中的 IT 基础设施往往是分散部署的, 由不同机构或部门单独维护和使用, 无法做到对基础设施的统筹管理和医疗信息的有效共享, 这在无形中增加了患者的医疗成本. 而将云计算技术应用于医学影像资料、 电子健康档案等大数据的整合和管理, 对于推进医疗信息化建设有至关重要的作用。
研究人员综述了云计算在生物医学领域的最新研究进展, 首先阐述云计算服务模式及其优点, 列举基于云计算的大数据分析工具, 并以宏基因组分析应用 PathSeq 为例介绍使用云计算的步骤, 最后给出私有云构建与云计算应用中的一些建议, 希望为基因组学、转录组学、蛋白质组学等生物医学领域提供新的海量数据处理方法和思路。
文章最后指出,随着下一代测序、 生物质谱和医学成像等医学技术的迅猛发展, 人们可以更加深入地剖析疾病的成因, 分析药物的有效性和毒性. 在通往个性化医疗的道路上, 海量数据处理是关键难题。云计算将大量计算资源、存储资源和软件资源虚拟化, 形成规模庞大的共享资源池, 可有效解决生物医学对 IT 资源的弹性需求。
目前, 国内云计算领域覆盖面广、参与单位多, 但仍与国外有相当大差距, 不仅缺乏类似EC2的弹性计算服务, 也缺乏类似 Galaxy 的成熟的生物医学数据分析平台. 此外, 云计算的服务可靠性、标准化和隐私安全等问题亟待解决. 尽管如此, 利用云计算解决海量数据处理难题仍是未来发展趋势。