2020年的这场突发疫情让很多人都感到了恐慌,在感慨人类面对疫情时的脆弱时,也应该看到人类手里的武器,一方面,现代发达的信息技术对于疫情防控起到了重要的作用,另一方面,在研究病毒的药物或者疫苗时,HPC高性能计算和AI都是不可忽视的有力武器。
英特尔公司数据平台集团副总裁,高性能计算事业部总经理Trish Damkroger表示,无论是疫情防控还是疫苗开发,都会产生大量计算需求,为应对疫情,英特尔做了很多工作,包括投入5000万美金成立技术响应计划,来和业界合作伙伴以及客户一起抗击疫情。
无论是AI也好,HPC高性能计算也好,都特别依赖于算力对信息进行处理而获得洞见。随着社会的发展,对算力的需求一方面会越来越多,另一方面也会变得越发多元化。为此,英特尔一方面作为算力供应者在后摩尔时代继续不断地迭代产品方案,同时,为满足多样化的算力需求,英特尔正在不遗余力地布局AI计算场景,推出一系列针对性的软硬件解决方案。
那么,在具体实践中,作为算力供应商,英特尔是如何满足不断增长的,多样化的算力需求呢?
英特尔帮助医疗行业专业机构构建了算力平台
比如,英特尔与上海瑞金医院国家转化医学中心合作构建了高性能计算和AI融合的大数据平台。瑞金医院国家转化医学中心,属于转化医学国家重大科技基础设施,它是“十二五”期间,国家重点规划的16项重大基础设施之一。
转化医学中心大数据平台负责人吕纲介绍说,瑞金医院国家转化医学中心的信息化建设主要是分为两个方向,面对临床的部分被称为智慧医疗,面向研究方向的,则需要提供支撑各个组学的计算。在本次新冠疫情的工作当中,面向研究方向的平台发挥了比较大的作用。
从吕纲的介绍中了解到,面向医学研究方向的大数据平台有其自身特点,在医院尤其是在组学分析当中,计算负载非常多样化,而且属于计算密集型负载,由于数据规模比较大,很多时候对于内存的需求很大,在数据I/O方面的压力也很大。
考虑到具体特点,该平台决定采用CPU加速的方式,在基因组测序上采用了CPU的加速方式,利用其并行化能力,最终将分析速度提高了5到10倍。
在新平台的构建当中,除了采用英特尔至强处理器以外,还采用了比较新的英特尔傲腾持久内存产品,同时也在尝试使用DAOS分布式文件系统,鉴于DAOS系统有非常快的并发、聚合带宽,符合组学超大文件数量读入读出的分析需求。瑞金医院国家转化医学中心还计划把越来越多的应用都部署到该平台去,通过对数据的加速来提升项目的运行效率。
虽然该平台目前还在建设当中,但在疫情相关工作当中,瑞金医院国家转化医学中心与上海公卫中心进行了合作,对2020年1月20日-2月25日期间收治的326例患者,进行了病毒基因组、临床表现特点、免疫反应改变等数据的全面深度分析,其中112个COVID-19病例的病毒基因组进行了深度测序、组装和解析。相关研究成果最后也在《Nature》的主刊上得到了发表。。
值得一提的是,瑞金医院国家转化医学中心从接到该项目,到数据的产生,到分析,到文章的撰写提交,总共用了45天时间,吕纲说:“新的平台在其中起到了非常大的加速作用”。
英特尔也在帮助教育行业专业机构构建算力平台
英特尔与北京东方超算帮助南京大学人工微结构科学与协作创新中心搭建了e-Science中心,e-Science中心主要服务于创新中心和全校的教学科研工作,南京大学人工微结构科学与协作创新中心姚舸介绍说,e-Science中心的服务类型分为两个方面,一方面是高性能计算服务,另外一方面是包括云盘、开源镜像站点等信息化服务。
在高性能计算方面,e-Science中心大面积使用了英特尔处理器、SSD以及网络产品(OPA),目前有600多个节点来支撑整个协同创新的计算需求。
与许多超算中心不同的是,e-Science中心的服务器此前都是由课题组自行采购管理的,所以是由不同品牌、不同架构的机器来构成的单一集群。集中管理后,无论是采购、日常管理,还是资源的使用效率都大大提高。随着学校对于高性能计算资源需求的飞速增长,集中管理非常有必要。
在信息化服务方面,考虑到成本因素,响应国家“勒紧腰带,过紧日子”的号召,e-Science中心使用了傲腾持久内存加OpenZFS开源存储构建一套系统,来支撑云盘、开源镜像站点等信息化服务,实际性能方面也基本满意。
e-Science中心主要使用了傲腾持久内存(AEP)的内存模式,用内存模式为OpenZFS提供了较低成本的大内存缓存,先把数据写到傲腾持久化内存,然后再把内容落到硬盘上。这样做的好处在于,一方面是提升了开源存储方案性能,特别是同步写操作性能,更重要的是,成本比纯DRAM方案会低许多。
东方超算与英特尔有非常密切的合作关系,在e-Science中心的构建过程当中,北京东方超算科技有限公司CEO白洋发现,南京大学对于许多新技术都有非常开放的态度,在英特尔和北京东方超算的支持下,姚舸团队还在探索傲腾持久内存能不能既用内存模式又做App Direct模式,目前在生产环境中有小范围使用了App Direct模式。
谈到未来规划时,姚舸希望在科研和教学方面,能继续得到英特尔在技术和商务上的支持,更好地提升基础设施能力,提升整个信息化和高性能计算方面的能力,随着科研需求的增多,学校的算力资源用量经常处于饱和阶段,寄希望于英特尔的技术创新能解决这一问题。
人们对于HPC资源量的需求越来越多,这是量上的变化,此外还有质上的变化。
在与包括Trish Damkroger、吕纲、姚舸等多位专家沟通中,都反复提到了AI与HPC结合的趋势,对于算力又提出了多元化的要求,英特尔在至强处理器上强化AI的能力,还有了Xe显卡、Movidius、Habana、Altera、Mobileye等芯片计算方案,一些合作伙伴也看到了这些新变化,还有一些伙伴,每当英特尔有新产品上,都能很快做出一个示例性的方案,比如,浪潮。
与英特尔紧密合作,浪潮打造多元化算力解决方案
据浪潮集团AI&HPC副总经理赵帅介绍称,浪潮基于英特尔Arria 10芯片做了一款叫做F10A的FPGA卡,它是目前业界最早支持OpenCL的,最高密度、最高性能的FPGA加速设备,它可应用在数据中心,也能应用于边缘、桌面等各种环境,每瓦性能也非常高,可以加载很多专业的算法库来进行加速。
在基因测序场景,英特尔和浪潮一起基于GATK与峰科公司开发了一款针对FPGA 10A的加速软件包,专门去做基因序列的加速工作,加速效果是英特尔通用处理器的十几倍,使用专业的加速设备可以取得非常好的应用效果。
在AI场景,浪潮开源了FPGA软件包TF2,使得用TensorFlow训练出来的模型框架,能很快迁移到FPGA上做推理工作。目前,浪潮在跟国内众多高校做面向TF2的研究,推动FPGA在数据中心的应用。
在赵帅看来,FPGA不仅是在高性能计算领域有用武之地,在一些专业领域里,在AI领域里也可以发挥作用。
近年来,浪潮不仅在国内服务器市场占有率在飞速提升,在AI服务器市场的占有率也非常高。在高性能计算方面,在国内的教育科研领域参与了许多大型超算项目,比如上海交大的π2.0超算中心、还有中南大学的超算中心,浪潮非常重视教育科研领域,在赵帅看来,以前的超算侧重建设,而现在的超算侧重于应用,秉承这一理念是浪潮在超算市场取得发展的关键。
浪潮快速发展的另一方面是在于技术方案方面,浪潮与英特尔的合作关系非常紧密,浪潮看到英特尔的芯片布局非常全面,双方紧密合作推动算力在不同行业上的应用,双方一同在合适的行业寻找POC大客户,随后面向更多用户提前预置一些特性将方案推而广之。