加速40%,腾讯云联合诺禾致源发布国内首个三代测序Falcon加速方案

随着测序产生的数据量不断增加,及个性化分析需求的日益增长,利用云平台进行自主信息分析的模式逐渐成为新的发展趋势。日前,腾讯云联合诺禾致源正式发布国内首个三代测序Falcon加速方案,优化后数据拼接时间缩短近40%,有效改善了应用场景中用户交互时间长、成本高等问题,极大降低了基于三代测序的数据分析大规模商用门槛。

极速流程、高效拼接,降低三代测序数据分析大规模商用门槛

基因测序是一种新型基因检测技术,能够从血液或唾液中分析测定基因全序列,预测罹患多种疾病的可能性,已广泛应用于生命科学研究的多个领域。目前该技术已经发展到了三代,凭借其读长长、无DNA序列偏好性等优势,被广泛应用于科技服务领域,例如对动植物等新物种的测序。但由于分析过程中计算资源消耗大,特别内存资源占用高,因而组装过程经常面临由于资源设置不合理、分配资源不够导致出错的问题,极大的增加了用户的交互时间和成本,成为分析应用过程中的重要卡点。

为了攻克三代测序数据组装出现的一系列难题,腾讯云基因团队从前端到后端,从软件到硬件横跨系统、架构、算法和FPGA加速等多个维度进行优化和加速,重磅推出基于三代测序Falcon的极光速算SaaS解决方案,包含极光分布式计算、软件优化和FPGA异构加速三大核心技术。

首先,传统的三代数据拼接使用SGE进行作业调度,一个复杂的动植物物种的组装,一般需要至少5万以上CPU核时,由于计算复杂度大往往需要耗费大量的计算资源和存储资源。面对资源无法合理均衡的难题,极光基因团队在业界率先推出专门针对基因三代计算的极光调度器,针对不同流程不同算法特点进行灵活调度。

除此之外,还配备了一个百万核资源池以供基因三代测序组装等高性能计算的复杂应用场景使用,极大的缓解了基因客户快速的业务增长和交互时间紧张的压力。其次,基于腾讯极光异构体系,采用软件优化搭配FPGA把性能进一步提升一个台阶,使用软件对组装流程进行优化并对Daligner和Consensus进行提速,采用高性能的FPGA芯片对其中的关键算法进行硬件加速,在芯片内部实现了上千个专用的极光算法单元核心,这上千个高速算法核心并行完成计算,快速对三代业务进行提速。据介绍,单个来自某物种的三代测序样本数据(17G)可在3.8小时内完成所有拼接任务,相较于传统的标准分析流程(6.5小时),时间缩短了近40%!

基因拥抱云计算,腾讯云助力生物基因行业发展

基因测序已进入爆发式的阶段,用户和应用量级的爆发,带来了生命科学领域数据爆炸式的增长。云计算凭借能够通过分布式计算对大数据进行处理的优势,极大提升运算效率以及降低成本。

诺禾致源是目前国内最大的三代测序加速服务商之一,基于SaaS平台搭建并优化项目分析流程,为基因组学提供更加高效、灵活的解决方案。曾在2017年年初引进Pacbio Sequel及Pacbio RSII平台,用于全基因组denovo测序、全长转录组测序以及靶向测序服务,预期建成全球最大的三代测序中心。此次腾讯云携手诺禾致源,借助其全球领先的先进技术和设备,融合腾讯云自身在云计算方面的大数据处理能力,将三代测序数据分析的拼接速度提升了71%,极大缩短了分析项目周期,形成样本测序-数据分析完整服务链闭环,缩减测序用户的数据转移成本,缓解交付压力,为云端用户开放高速的分析通道。

三代测序Falcon加速方案的发布,进一步完善了腾讯云生物基因解决方案,可以更好的满足不同类型基因用户的不同场景和模式需求。目前,腾讯云生物基因解决方案已成为众多生物基因行业用户的优先选择。

生命科学领域的创新公司碳云智能,依托腾讯云在互联网和人工智能等方面的优势,以及弹性、高效、低延迟的在线计算和大数据处理领先能力,建立了一个数字生命的大数据平台。运用人工智能技术分析、处理数据、寻找碳基生命的硅基未来,帮助每一个人管理数字生命健康。

随着技术的不断成熟,基因测序行业正在步入蓬勃发展期,将根本改变生物医学基础研究和实践。同时,生命科学领域数据爆炸式的增长,亦对海量数据的计算、存储和分析提出新的挑战。此次腾讯云携手诺禾致源将发挥各自在生物基因组测序、测序数据分析、云计算、数据处理、隐私安全保护以及数据传输方面的长处,达成更高效的生物大数据处理模式。