华为王振:构筑先进数据存力,做AI时代领航者

11月29日,由DOIT传媒主办的“2023中国数据与存储峰会”在北京召开,大会围绕“数智创新 AI未来”的主题展开,多位学术界和工业界专家发表了精彩主题演讲内容。

华为数据存储品牌与战略营销总监 王振

大会主论坛上,华为数据存储品牌与战略营销总监王振发表了题目为《构筑先进数据存力,做AI时代领航者》的演讲,他提到,AI在2022年之前主要用于规则和算法驱动的决策辅助,如决策树和文字识别。但2022年之后,AI的应用变得更加创新,尤其是生成式AI在推动行业变革和提高人类生产力方面发挥了重要作用。

然而,随着生成式AI引领我们进入智能世界,大模型发展的瓶颈也逐渐显现,其中模型优化和数据问题成为关键制约因素。随着大模型从单模态向多模态发展,数据质量成为决定AI生成效果的关键,数据存储成为关键要素。以算力和存力为中心的大模型时代已经来临。

在AI的整个流程中,从数据获取、归集到预处理,再到模型训练和推理,每个阶段都对IT基础设施提出了更高的要求。

例如,数据归集过程漫长,占据了大约35%的大模型训练时间,而数据预处理阶段更是对计算和存储能力提出了更高的挑战。

在模型训练过程中,系统对于海量小文件处理的性能要求极高,更高的存储性能有助于提高GPU的使用率,避免数据导入的等待时间造成的资源浪费。

此外,有统计数据显示,大型训练集群系统的平均故障恢复时间大约长达2.8天,为了能快速利用Checkpoint检查点进行恢复,也对存储系统的性能提出了更高要求。

AI的三驾马车中,虽然算力和算法在逐步收敛,但数据量和类型的增长提高了数据存储在AI大模型时代的重要性。先进数据存力的构建成为实现AI大模型时代持续发展的基础。

王振表示,华为视角下先进数据存力的构建包含了新型数据范式、先进介质应用、数据安全可靠性,以及绿色节能等方面。

  • 新型数据范式。指通过近存计算实现数据在存储时完成部分预处理任务,减少数据搬移,提高GPU利用率。
  • 先进介质应用。指利用全闪存介质的高IOPS、低时延优势来提高AI大模型的训练效率。随着3D堆叠和数据压缩技术的发展,全闪存存储的总体成本、空间占用和能耗都将持续降低。
  • 数据安全可靠性。在数据安全方面,面对勒索病毒的挑战,存储内生安全成为构筑数据安全最后防线的关键。这要求企业关注存储软硬件的安全,部署加密、防勒索和灾备等数据安全防护措施。
  • 存储绿色节能。存储能耗在数据中心总体能耗中的占比超过30%,因此,除降低PUE之外,企业应积极通过全生命周期系统化创新,以存储绿色节能技术的应用进一步提升数据基础设施能效,为可持续发展贡献力量。

最后

2022年,华为提出了“先进数据存力”的概念,经过一年的发展,存力的概念也得到了业界的更多响应和认可,在《中国存力白皮书(2023年)》中,更是将存力确立为关键指标之一。

中国存储市场在快速发展当中。根据分析机构数据显示,中国数据总量(23.88 ZB)已经趋近于北美的数据总量(28.05 ZB),中国的数据增长率达到26.3%,在全球排名首位。

中国的数据存储产业也越来越完善,从存储芯片介质到整机制造,再到应用层面均有显著进步。如倪光南院士所说,中国的数据存储产业将成为继5G之后的第二张科技名片,展现中国企业在全球数据存储和AI技术方面的领先地位和发展前景。