随着ChatGPT的火爆,人工智能的应用已成为大趋势。算力作为人工智能的三大基础要素,正变得前所未有的重要。无论是AI模型的训练、推理还是部署,抑或商业模式的创新,都需要算力作为支撑。而随着生成式AI应用的不断发展,如何灵活、高效整合分散的先进计算能力、充分发挥计算效果,为人工智能的进一步发展提供关键的基础,成为算力需求增长之外最大的挑战。
中国工程院院士、清华大学计算机科学与技术系教授郑纬民是我国超算领域专家,由其带领的清华大学研究团队获得过国际高性能计算应用领域最高奖项“戈登·贝尔”奖。目前,他带领团队在人工智能领域的研究包括在AI与算力基础设施的设计、评测和优化方面,提出了一种AI算力基础设施的架构和平衡设计原则,并推出大规模人工智能算力基准测试程序AIPerf(已于2020年11月15日发布)。清华大学团队还提出百万亿参数超大规模训练模型的加速方法,将数据并行、模型并行、专家并行三种训练模型开源到FastMOE系统当中,得到了业界许多认可与应用。
郑纬民院士指出,人工智能正在推动新一轮产业变革,通专结合的多样化算力已成为数字经济发展的“基石”。我国算力规模排名全球第二且增速排名第一,当前我国HPC、AI、数据中心三大算力系统发展已取得一定成效,但将领先算力高效转化为解决科学与工程难题的能力依然面临挑战。他认为,未来更重要的是应用,即基于大模型研发行业细分领域的垂直模型,加强AI算力芯片设计、软硬件生态建设与产业化应用,通过完善开放的产业生态,推动各行各业数字化转型,从而真正促进数字经济和大模型产业的健康发展。
“AI大模型的核心硬件是芯片,尽管目前国内自研芯片起步较晚,但仍可以通过生态建设实现弯道超车。” 在接受《经济观察报》采访时郑纬民院士表示,“算力、网络具备很强的公共基础设施特性,只有加快建立一个开放性的产业生态,把选择权交给用户,才能驱动行业百花齐放,从而真正促进大模型产业的健康发展。”
虽然我国算力产业发展迅速,规模总量大幅跃升,但在发展背后,除了面临能耗高企、通用算力资源过多、智算资源不足等问题外,还存在诸多挑战。
一是,算力分布分散,存在高效连接难题。二是,算力异构化程度高,存在着统一管理调度难题。三是,算力归属于不同运营方,算力交易过程中存在信任问题。为满足现代数据中心对算力的灵活、高效、充分使用的需求,算力统一调度是大趋势。
面对产业发展面临的问题,北京市加快算力基础设施建设,目前已形成1.2万P的算力供给规模。例如,由提供规模化先进智算算力、AI云及AI转型服务的高科技企业——北京电子数智科技有限责任公司(以下简称“北电数智”)承建的北京数字经济算力中心,已经在酒仙桥核心地带开工建设,预计2024年完成基础设施建设,达产后实现多元异构的1000P智能算力供给。作为北京电子控股有限责任公司下属企业,北电数智希望通过打造以人为本、绿色低碳的新型算力基础设施,整合分散的、多元异构的先进算力,支持各行各业对智能算力的需求。
为应对人工智能创新浪潮下,对高质量算力的迫切需求,传统数据中心需要实现面向未来的整体智算升级与政策合规。北电数智通过对传统数据中心进行软硬件升级和智算算力改造,同时通过算力调度,整合分散的先进计算能力,助力传统数据中心打开新的增长点。
与此同时,北电数智也致力于构建一个充满创造力的人工智能产业生态,携手国内外芯片、服务器、大模型、人工智能、应用创新、产业投资等多个领域的合作伙伴,以实践不断推动产业链迭代升级,实现产业的进步和繁荣。
如郑纬民院士所言:“智算中心的建设和布局是一个重要趋势,但也伴随着挑战。机遇在于可以推动高性能计算和智能计算领域的发展,但挑战包括资源分配、合作与竞争等方面,需要综合考虑。通过算力基础设施建设,推动AI产业繁荣和生态健康发展。”
访谈:
记 者:您认为目前我国人工智能技术领域的研发和国产AI芯片大模型基础设施处于怎样的阶段?
郑纬民:从AI技术三驾马车:算法、数据、算力来看,中国在大数据领域处于优势地位,但在算法和智能算力领域,中国落后于美国。智能算力的不足严重制约了我国在AI领域的创新能力。目前我国算力规模排名全球第二且增速排名第一,但将领先算力高效转化为解决科学与工程难题的能力依然面临挑战。国产算力芯片的发展需要重点关注生态系统的建设。性能并非唯一的关键因素,我们需要更好地发展生态系统,包括软件支持等,以提高用户友好性和竞争力。国内有许多芯片公司,但生态系统的健康程度同样重要。
记 者:基于大模型研发的针对各行业细分领域的垂直模型要在应用层面实现商业价值,面临哪些挑战?
郑纬民:当大模型从C端走向B端,它就像从玩具走向工具,而工具的精确性至关重要。未来更重要的是应用,即基于大模型研发针对行业细分领域的垂直模型,并在工业、农业、智慧城市建设等领域利用AI大模型进行充分赋能。但在大模型时代,应该重点关注应用领域的垂直模型和具体定制,满足市场需求。不要盲目跟风,应根据自身领域的需求和优势来选择发展方向,以更好地满足市场需求。大模型不是唯一的出路,应着眼于应用领域的需求和竞争潜力。
记 者:基于大模型训练需要的大规模算力因“卡脖子”带来的限制,中国在哪些方面有机会实现突破?
郑纬民:第一,加快“卡脖子”相关核心技术攻关。芯片的自主可控,涉及芯片的设计、生产和封装测试等很多环节,要从核心原材料、生产设备、制造工艺等各方面突破,迎难而上,想办法解决关键技术问题。
第二,构建自主可控的算力生态。以RISCV/ARM作为抓手,积极发展非X86架构来构建多样性算力格局。加强软件的开发,包括基础软件和应用软件。软件开发好,将自主研发的芯片用起来,才能构建自主可控的算力生态。
第三,密切跟踪国际前沿革新技术,提前布局后摩尔时代新型算力技术研究和储备,例如存算一体、量子计算、非硅基芯片等。
第四,制定更为积极的全球人才战略,大幅扩充人才蓄水池。半导体人才的缺失甚至流失也是制约我国芯片实现自主可控的重要因素。我们要进一步加大对相关领域人才的培养、引进力度,张榜聚智,不拘一格用人才。
记 者:随着各地算力基础设施逐渐发展完善,算力联网形成统一调度是大势所趋,基于“算力网络”的概念,有哪些政策推动和实践?
郑纬民:数字时代的信息有四个步骤:获取、传输、处理、显示。目前,我们在信息的传输、显示上已经做得不错了,信息的获取、处理能力还需努力。现在发展算力网络,是为了把这两步做好。算力网络将改变算力的供给、应用和服务方式,大大提升算网服务的灵活性和高效性,对支撑国家战略、推动行业数字化转型都有重大意义。
随着各地算力基础设施发展完善,算力联网形成统一调度是大势所趋。算力联网有3个关键词:算力、互联和互通。算力互联需要关注并网(带宽高,延迟低)、带宽和延迟。算力互通需要解决硬件和软件异构带来的困难,需要一个统一编程框架和编译的软件。
记 者:从您的专业视角来看,算力产业下一步发展的重点在哪里?在综合算力发展的过程中,就算力、存力和运力三方面而言,我国有哪些优势以及需要提升的方面?
郑纬民:下一步,要用好先进计算,高效整合分散的先进计算能力、充分发挥计算效果是关键。第一,核心技术需攻关:从核心技术的角度来看,我国算力的硬件技术自主可控性仍是薄弱环节。目前,国内云系统受制于高性能通用CPU的国产化进展,仍然主要采用国外厂商如Intel或AMD的X86服务器。算力中心采用的网卡和网络交换机,也多是基于国外芯片,国产网卡和交换机芯片与国外一线云网络厂商相比,技术完整度和生态上还有差距。
第二,“供应商锁定”难题需解决:算力的互操作性不足,以及由此导致的“供应商锁定”问题,是全球性问题。与国外相比,我国的“供应商锁定”问题不容忽视,成为影响构建算力统一生态、阻碍算力业务持续发展创新的瓶颈。算力互操作性的不足,会让人们在不同算力供应商之间实现应用程序的迁移时,需要付出巨大的努力和投入。
第三,传统公有云应用效率待提升:从行业应用的角度来看,公有云上的行业应用类型单一是突出问题。尽管我国算力市场处于爆发式增长阶段,2022年达4550亿元规模,较2021年增长40.91%,但当前公有云上的行业应用主要还是游戏、短视频、即时通信这三项。我国公有云的利用率只有30%左右,私有云的利用率只有5%左右。也就是说,100台机器,只用了30台,甚至是5台,利润怎么可能高?如果不积极拓展应用,这也将影响我国算力产业持续健康发展。
记 者:面对AI计算需求的大规模爆发,新型数据中心又将如何进行迭代升级?传统数据中心需要在哪些领域发力转型?
郑纬民:未来,新型数据中心将是提供多样性计算综合能力的算力集群,以满足千行百业智能化的需求。智算中心的建设和布局是一个重要趋势,但也伴随着挑战。机遇在于可以推动高性能计算和智能计算领域的发展,但挑战包括资源分配、合作与竞争等方面,需要综合考虑。未来数据中心的发展还要考虑不同地区能源结构的差异、同一地区不同行业的业务差异,提供更绿色的算力,并满足实时应用的需求。算力的统一调度是算力发展的必由之路,其关键在于将分散的算力资源聚合,形成集群效应,并建设多元异构的算力调度体系,更高效地发挥计算效果。
对于传统数据中心,可以通过智算改造与升级的解决方案,增加多元异构的智能算力供给,成为满足AI计算需求大爆发的重要组成部分,还可以通过软硬件升级和能耗方案的优化,以满足人工智能产业对数据中⼼的绿色环保、低能耗的需求。同时,通过智能算力供给服务的加持,传统数据中心也能进一步实现可持续增长。
来源:经济观察报 记者:沈建缘