浪潮超算助中国农牧第一品牌加速基因研究

借助浪潮超算系统,广东温氏食品集团股份有限公司(下称温氏集团)在种猪基因研究中,从经济性到易用性,从计算性能到I/O、存储性能获得了全方位提升,实现了基因计算平台快速部署和种猪分子育种技术的高效开展。

近日,第十一届中国品牌价值500强评选结果揭晓,温氏股份是进入前100强中唯一一家中国农牧企业。

温氏集团国家生猪种业工程技术研究中心致力于种猪分子细胞工程育种技术研究,目前该中心成功部署了浪潮超算开展基因组选择育种工作。借助新平台的强大计算能力,温氏集团实现快速提高选种的准确性和效率,有效提高生猪的产量和质量。

基因研究助力培育优良种猪资源

我国是农牧大国,其中生猪养殖数量居世界首位,但在生猪繁育体系“金字塔”顶端的核心种猪资源却大部分依赖进口,因此造成我国生猪产业长期处于“产业的巨人,种业的矮子”尴尬局面。近年来,我国虽日益重视种猪育种研究,却始终未摆脱“引种—维持—退化—再引种”的被动局面。温氏集团作为国内农牧的龙头企业,也一直想要解决这个问题。

为此,温氏集团依托国家生猪种业工程技术研究中心,与华南农业大学共建种猪基因组计算分析平台,开展种猪分子育种研究,加快优良专业化种猪品系的培育,从根本上解决种猪资源问题。

浪潮超算助中国农牧第一品牌温氏集团加速基因研究

 三大问题困扰种猪基因研究

谱写和研究种猪基因组序列并非易事,如何尽可能快的处理海量的基因组数据是困扰种猪基因组研究的第一道坎,也就是如何有效降低时间成本的问题。以温氏集团联合其他机构绘制的种猪全基因组序列图谱为例,需要先将基因组随机打碎,然后进行测序,最后进行拼接。并且为保证拼接结果的精确性,上述过程需要重复8-10次,涉及到海量的基因数据,高性能计算系统已成为数据分析中必备的基础设施。

同时,高性能计算系统的设计构建不能一概而论,需要根据基因研究的数据量大小、用户量多少等具体需求有针对性的进行构建。在基因组研究中,有的课题组数据量相对较少,但是科研项目却涉及到生物信息分析,需要配置小型的分析平台;有的课题组有1-2台测序仪,数据量中等,至少需要一套十几个节点的计算设备。在数据分析中,基因组研究软件种类繁多,不同类别的软件应用特征各异,如何在一套系统中让软件的效率最高,最大限度的发挥系统的性能至关重要。因此在配置系统方案时要考虑核心应用或是关键应用的应用特征,如序列比对、序列拼接应用IO吞吐大,内存容量需求高,针对这类应用要按需配置系统资源。

此外,在满足基础硬件设施的前提下,温氏集团还关心软件的运行或使用情况。在基因组研究中会涉及到如序列比对、序列拼接、结构预测、功能注释等众多分析类别,大概涵盖数十种软件,安装调试软件就会耗费大量的时间,且多数据软件需要在Linux的操作系统下,以全命令行的方式运行,使用起来很不方便,因此便捷化和统一的管理部署在基因组研究中显得尤为重要。

浪潮超算为基因研究提供有力硬件支撑

针对温氏集团对于原有高性能系统集群改造升级的需求,浪潮在系统设计构建集群过程中,结合数据的产出量、软件应用等特征,为温氏集团设计构建的超算系统采用“瘦节点+胖节点”结合的混合架构、Infiniband专用计算网络、以太网管理网络方案和浪潮-TStor并行存储系统。这种胖瘦结合的节点架构,搭配IB计算网络和并行存储,能更好的满足不同计算任务的需求,充分发挥系统效能。

其中,瘦节点主要进行比对、注释,snp查找等内存需求相对较小、计算相对密集的计算,本次根据温氏集团需求,浪潮采用了NX5440M4刀片服务器做计算节点,该服务器具备高密度、高扩展特性,在8U机箱空间内可以放置20台NX5440M4。

胖节点主要进行拼接等内存消耗较大的操作,采用浪潮明星产品八路服务器TS860G3,配置8颗目前X86体系中计算速度快的Intel Xeon E7-8860V3系列处理器,搭配1TB内存,满足大型序列拼接应用需求。

在网络方面,由于基因计算中的多数应用带宽较大,对延迟的要求高,浪潮采用Infiniband网络方案,IB网络相对于以太网的最大优势就是极低的延迟,端到端的延迟最少可达200纳秒,而以太网经过优化也仅到3微秒左右。可以在满足网络需求情况下节省用户的系统构建成本。

存储系统则采用浪潮专业并行存储,能够保证生物信息学数据的安全可靠,最大限度地提升存储的读写带宽,保证基因相关应用对存储中数据的频繁读写的性能,通过lustre并行文件系统能提供完善的管理界面,并通过用户配额管理工具实行资源按需分配,保障温氏集团的多个客户端使用需求。

浪潮G1000基因一体机软件对基因应用对症下药

除了超算系统设计构建之外,浪潮还为用户提供了浪潮G1000基因一体机软件,这款基因一体机软件针对生物基因应用定制化开发,可以解决传统高性能系统跟生物基因应用软件契合度不高、不能充分发挥集群性能、软件效率不高等问题,使研究人员专注于基因研究,从繁琐的集群维护和配置中解放出来。

浪潮G1000基因一体机整合和预置多种常用的生物信息流程,如全基因组重测序分析流程、外显子分析流程等,流程会进行定时更新和升级。用户直接选择预定义的流程,确定参数和数据集后即可提交任务。以全基因组重测序分析为例,所涉及的BWA、Samtools、GATK和ANNOVAR等多种软件可以按照预定义的工作流程自动执行。

浪潮G1000基因计算平台

温氏集团相关负责人介绍,与传统的解决方案相比,浪潮G1000基因一体机方案无论从经济性、易用性和高效的计算能力等各方面都具有较大优势,能够帮助我们快速部署和高效实施基因组研究应用。