Geneformics发布基因组测序数据压缩方案

美国加州森尼韦尔市——Geneformics数据系统有限公司(以下简称“Geneformics”)是基因组IT架构领导者之一,专注于提高第二代测序(NGS)数据的传输、存储及备份的效率。Geneformics今日正式发布Geneformics D,一款专为基因组数据设计的分布式云端压缩解决方案。Geneformics D将基因数据上传,下载,存储和备份的速度及效率提高近10倍,同时降低90%的成本。

与现有应用不同,Geneformics D被整合到云端架构中,从而提供无缝,可拓展服务,而非生硬地作为一款应用添加于基因组工作流程中。

Geneformics D基于Geneformics与以色列魏茨曼研究所共同研发的无损压缩技术,可为基因组云端程序提供企业级的基础设施服务(IaaS)。运用Geneformics D技术,从人群测序、基因库、遗传、罕见疾病、癌症和基因组学药物治疗研究中提取的精准医学数据可被自动压缩,这一过程对用户透明,从而高效地节省时间,带宽及大量存储空间。

Geneformics CEO Rafael Feitelber 表示:“精准医学正在促使医疗及研究机构将基因组数据分析过程从本地向云端架构迁移, 因为云端架构的高可扩展性,共享性和易用性更具有吸引力。现在,通过Geneformics D技术,相关机构可以通过云端高可扩展的无缝基因组数据压缩大大加快数据分析流程,减少储存需求。

Geneformics公司的创始人兼CTO Arik Keshet表示:“单个人类全基因组测序的数据量大约为250-300GBGeneformics目前致力解决海量数据给第二代测序从业人员所带来的巨大挑战。通过使用Geneformics D技术,经压缩的全基因组数据大小仅有原来的十分之一。同时,由于Geneformics D技术与底层架构的无缝整合,使得用户不需要改变任何的数据格式和应用接口。

Geneformics D采用分布式的、云端压缩文件系统,目前已整合至亚马逊网络服务(AWS,Geneformics D未来版本将会陆续整合其他云服务提供商。Geneformics D软件安装在每个计算实例上,协同实现一个对象即文件(object-as-file),经过透明压缩的Linux标准文件系统。Geneformics D动态解压缩技术让采用原生FASTQBAM格式的数据分析应用不需修改即可使用,从而保证对生物信息流程的影响最小。

其他Geneformics D功能包括:

  • 在实例连接的磁盘上,智能缓存解压文件段,并加速数据分析进程。
  • 与计算基础架构的无缝整合,具有几乎无限的拓展能力。
  • 自动化云端基因组数据存储管理(专利申请中),可将数据引导至最具成本效益的存储层。通过细粒度的对象储存分层,在空间压缩的成本节省的基础上还可以再节约高达50%的成本。