数据量的爆炸式的增长,对不断增长的基础架构也产生新的需求,以满足人们对这些数据的理解和利用。
虽然高性能计算(HPC)已经进入到百亿亿级(Exascale)规模,但随之而来的挑战也越来越多,如功耗就成为下一难关——典型的高性能计算架构再难以提供可接受的单位功耗性能,除此之外,传统冯·诺依曼架构存在一定的局限性,数据的迁移、僵化的存储器层级也导致效率降低,在不同的函数切换之间准备好数据也越来越困难。用户最终面临的结果是,浪费了时间,但工作效率降低、功耗也在不断增大。
上个月,赛灵思发布了汇集众多当今HPC工作负载所需的关键功能,但外型尺寸更加小巧的加速器卡Alveo U55C。
Alveo U55C:赛灵思有史以来功能最强大的加速器卡
Alveo U55C是为高密度流数据、高I/O矩阵数学和求解器,以及需要扩展的一些比较大的计算需求(如大数据分析、人工智能)而专门构建的加速卡,在带来大型算力的同时,还提供有史以来最多的HBM2,后者是功耗极低、带宽极高的存储器。
Alveo U55C专门为大数据和高性能计算工作负载去构建。它能够实现更高的数据流水线并行性、带来优化的存储器管理、优化整个流水线的数据迁移,以及出色的单位功耗性能。
和最近迭代的数据中心加速器卡U280相比,Alveo U55C计算密度提高了一倍,尺寸从原来的双槽变成了单槽,HBM2增加了一倍,相当于带宽增加了四倍。由于省却了DDR,TDP 的功耗也整体下降。
Alveo U55C支持RoCE v2、DCBx、MPI在现有网络和基础架构上为数据中心提供了最尖端的计算集群,支持现有应用开发人员利用Vitis平台上的已有的API、库及MPI来扩展其工作负载。Alveo U55C也藉此成为赛灵思有史以来功能最强大的加速器卡。
“Alveo U55C的问世,意味着数据中心的计算扩展比以往任何时候都更加容易、更加高效,更易于进行组合和配置,也标志着赛灵思在数据中心领域又迈出了一大步。”11月3日,赛灵思数据中心事业部HPC产品经理Nathan Chang先生告诉笔者。
统一软件平台Vitis的功能不断完善
赛灵思专门针对那些重要而且新兴的技术领域不断拓展自己的工具,以解锁计算性能。Vitis就是一个典型的代表。
基于堆栈架构之上的Vitis是赛灵思两年前免费提供给所有开发者的一个统一软件平台。这个全面的内核开发套件包括Vitis AI 开发环境、Vitis 加速库和Vitis Core 开发套件,可无缝构建加速的应用。
伴随Alveo U55C的问世,Vitis支持更多高层次的,诸如支持主流AI框架的编程语言。也就是说,赛灵思拥有CPU、GPU难以实现的性能优势,如实现“图分析”的功能,以及像有限元分析等系列先进的HPC工作负载,在特定领域的API和库加速关键功能。
Vitis还可帮助开发者结合硬件抽象出开发机器级代码的需要,如RTL或者Verilog,让硬件设计嵌入到整个应用的开发过程中,直接在熟悉的更高层次框架中进行开发。由于Vitis涵盖了主要的计算和高性能计算方面的工作需求,特别是一些实时应用。现在进行工作负载设计和加速,比过去要更加容易和自如。
功耗是数据中心的一个大挑战。高性能往往意味着高功耗。虽然FPGA卡中的佼佼者U55C加速器卡提供了优秀的能耗比,但赛灵思并没有满足于此。
目前Alveo U55C还离不开PCIe插槽,需要接到服务器的机架或主机上。但越来越多的HPC集群正在利用更多的专业化加速器开展工作,而不必像过去那样需要庞大的服务器与CPU。这有利于整个HPC服务器集群功耗的降低。
尽管赛灵思不认为会在这样领域进行竞争,但是FPGA已经做到了低功耗。同时,赛灵思在存储器结构以及相关的技术方面有着巨大的实力,嫁接到平台上以后将进一步降低功耗。
Alveo U55C的“C”代表着“计算”,很快,一款后面代码有“N”的加速器卡也将亮相,这个“N”就代表联网。
展示Alveo U55C的生态合作与行业实践
Alveo U55C发布之前,已经在一些企业得到了率先试用;在部分公有云和特定的数据中心也进行了评估和测试。
澳大利亚国家实验室(CSIRO)正在构建世界上最大的射电天文天线阵列,每平方公里有13.1万支天线。其规模是21个节点,采用了420张U55C卡(每个节点是20张卡),在集群里每秒的数据传输量达到了15TB。尽管要处理和通过的数据量如此庞大,此之上还需要处理比如光线生成模拟器以及成像相关功能等非常复杂的工作负载,再加上实验室建设在沙漠中、其电源多是来自于可再生能源的供应(仅以一个柴油机作为后备能源储备),因此,在这样的环境中实现高性能、低功耗成为挑战。
在此之前,CSIRO也考虑过用GPU卡搭建集群,但这样做需要双插槽GPU卡,占用两个PCIe接口,同时也需要每个CPU旁的插槽来处理相关带宽,才能为板卡提供支持,仅此就需要三个PCIe插槽。
Alveo U55C的应用,有效化解了上述难题。
另一个典型的案例,是与Alveo U55C的合作。
日常工作和生活中,数据往往分布在不同的孤岛上,数据量越大,孤岛也越来越多,成为恶性循环。要把寻求不同孤岛上数据之间的联系,不仅难度大,而且数据处理时间较长,影响用户体验。
图数据库作为一项颠覆性的平台,能够将数据从孤岛里提取出来,帮助数据科学家快速获取数据之间的关系,因此其市场前景看好;Gartner预测,到2025年有80%的数据库将会是图数据库。
TigerGraph与赛灵思合作,引领了该领域的一项潮流:通过将余弦相似性和Louvain模块度作为用户定义的函数,数据工程师和科学家借助赛灵思驱动推荐引擎和集群这两个算法并在U55C加速卡上加速,可以获得数据驱动实时应用的关键算法。
应用在医疗机构,在对患者数据进行归纳再对关键的特征矢量化,个性化的诊疗和护理奠定基础。这样,即使是上亿规模的患者资源,呼叫等待的时间也可以从分钟级降低到毫秒级,不同的呼入电话还可以得到针对性的建议,此举不仅降低了呼叫中心巨量的运营成本,保险公司也获益不小。
大量的欺诈性的交易为银行乃至整个系统带来的损失不可估量。。在Alveo上运行的TigerGraph,通过Louvain模块度用户定义的函数并重新设计算法,一举变革了戏规则,让质量分数提高35%,误报率降至个位数,加速率超过45倍的x86集群,客户的信心大大提高。
谈到与TigerGraph的 合作,Nathan Chang表示,双方之间“关系非常非常棒,合作也非常成功”。赛灵思加速器卡和技术极有利于TigerGraph帮助客户打造所需的解决方案。比如,一些最大的独立集(Independent Set),又如更大规模的算法、需要更多的算力资源的案例,以及图方面需要利用更大规模的存储器架构、更高规模的案例,未来赛灵思与TigerGraph在算法方面的合作还将继续深入,一些在AI、图、推理方面具有突破性的算法也将逐步推出。
巧合的是,笔者在两年前的云栖大会上与TigerGraph的创始人Rick先生有过交流。此次采访间隙,他回复了笔者的咨询,对与赛灵思的合作也十分满意,对未来高度期待。
Alveo U55C加速器卡已经上市,赛灵思官网及分销商处可以供货。