为了发挥CXL内存的价值,需要应用软件的参与吗?
不用调整应用软件,这是最好的结果。因为除了互联网用户,很多行业用户没有能力改写应用软件,软件服务商修改软件则需要视市场的需求而定,而这会是一个类似“先有鸡,还是先有蛋”的问题,过程会比较漫长。但是毫无疑问,如果应用软件能够适配CXL内存的特点,其效果和收益最为明显。
不修改应用软件也可以使用CXL内存,要么依赖操作系统的HMS(Heterogeneous Memory System,异构内存系统)提供服务,要么依赖类似Memverge公司提供的Intelligent Memory Placement Engine软件工具,前者是从系统级资源的角度进行分配和管理,而后者则是结合软件冷热数据的特点进行管理和分配。
哪个效果更好?这就需要用户PoC测试加以区分。
Memverge Intelligent Memory Placement Engine软件工具使用哪些类型的应用呢?在2024全球闪存峰会上,Memverge CTO赵玥在主题演讲中有比较详细的分析和介绍(有兴趣的用户可以参见演讲视频)。
赵玥透露,目前Memverge针对MySQL、向量数据库场景进行了适配。其中,赵玥特别提到了与FlexGen开源软件框架或工具的适配。
据透露,大模型在推理应用中,GPU使用率通常只有40%左右,这是很大遗憾和浪费。通过CXL内存扩展,搭配Memverge管理软件,可以将GPU的使用率提升到70%。原因也比较简单,FlexGen的思路就是用低端GPU卡,跑出高端GPU的推理效果,其核心,就是充分利用CPU内存资源,减少GPU对外部数据存储的访问。
我们知道GPU多使用HBM内存,其缺点是价格昂贵,且内存容量比较小。与之相比,CPU内存在容量和价格上就比较有优势,但性能上比不过HBM。FlexGen就是充分利用这个特点,用低端GPU卡结合CPU内存资源,来实现好的推理效果。在这里,GPU通过DMA的方式访问CPU内存。
鉴于高端GPU禁售的原因,FlexGen结合CXL内存扩展,为我们提供了新的思路和空间(更多技术细节参见“赵玥演讲视频”,欢迎扫码注册观看)。
相关阅读: