如今,AIGC正成为科技发展的前沿,其背后的大语言模型(如 GPT-4)依赖于海量数据的训练而成,同时这些模型在运作中也不断产生大量数据。对于这些数据,我们面临着极大的挑战——如何高效、低成本地存储这些数据?由此可知,AIGC不仅依赖于存储技术,反过来,它也推动了存储系统的创新和发展。
11月29日,以“数智创新 AI未来”为主题的2023中国数据与存储峰会在北京新云南皇冠假日酒店举行。在峰会的“AIGC+存储融合发展论坛”上,昆腾解决方案工程架构师刘晓哲发表了《海量数据的低成本存储之道》的主题演讲,以下为演讲实录。
大家好,我是昆腾的晓哲,很荣幸今天在这里跟各位老师和专家分享一下昆腾在大模型海量数据方面的解决方案。我的分享内容有三个方面,昆腾公司的简介,海量数存储的解决方案y以及相关的实践案例。
昆腾公司已经有40多年的历史,一直致力于数据生命周期的研发,在各个领域积累了大量的客户和数据资源。在全球范围内,昆腾拥有很多的大客户,比如国内外的云厂商、金融机构还有国家级实验室等。
在媒体内容创作领域,昆腾的StorNext文件系统可以支持媒体行业高性能数据流的计算。大家所知道的好莱坞电影《阿凡达》就是在昆腾存储系统上实现后期制作和渲染。在视频监控领域,昆腾与很多厂商合作实现视频数据存储。在数据归档领域,昆腾拥有ActiveScale对象存储的冷数据存储整体解决方案。数据保护领域是昆腾的强项,主要是物理磁带库和虚拟磁带库两个产品线。
在海量数据场景下,如何降低整体的TCO?昆腾多年积累了很多客户,实现低成本的海量数据的存储。在全球,我们管理着超过40EB的数据量。这些数据因为各种合规与法律要求,需要长时间保存,这会造成成本的急剧上升。IDC的报告显示,大量产生的数据中只有10%是热数据,还有30%是温数据,剩余的60%是冷数据。我们发现,并不需要频繁访问的温冷数据占用了很多的存储资源,并产生了大量的能耗,怎么降低这些成本呢?
我们要降低存储成本、长期保存,磁带是最理想的介质。磁带本身能耗很低,而且成本也很低。现在存储能耗是一个很大的挑战,而且能耗成本是随着数据的快速增长而增长的。
根据IDC的报告,在2025年以后有2%的数据存在磁带的介质上,为什么有这么多数据往磁带上转呢?就是因为成本。磁带存储的整体TCO是最低的,因此很多云服务商与昆腾都有合作,比如大家都熟知的微软、谷歌等。昆腾为它们提供了深度归档的存储系统,后端其实就是磁带。
为什么大家会选择磁带呢?我们以十年为一个数据的生命周期,磁带与磁盘还有云做一个对比。用现在市面上主流的LTO-8磁带做整体成本的分析,大家会发现,随着数据量的增长,磁带成本是最低的。以前经常提到磁带的读写问题,但目前磁带已经具有极低的误码率;而且磁带具备清晰的技术路线图。磁带还有一个优势是通过驱动器读写的,而昆腾磁带库可以根据客户需求定制化提供多个驱动系统,它们是独立的,之间的读写互相不受影响,而且写的速度也有保证。
除了低成本,磁带存储还能极好地抵御病毒的侵袭。磁带可以与服务器或者普通存储形成隔离区域,数据不会被感染被破坏。昆腾磁带存储的数据可以保存30年甚至50年,同时在能耗方面,磁带平时的能耗基本为零,其主要能耗由驱动器产生,但是能耗也是非常低的。
磁带目前主流的技术标准叫LTO,LTO联盟开放了很多专利,并形成了统一的技术标准。目前最新的LTO-9磁带,每盘容量为18TB,压缩的话可以达到45TB。磁带通过驱动器进行读写,速度可以达到400MB每秒。在最新的磁带发展路线图中,LTO联盟的实验室已经研发出单盘容量为576TB的第14代磁带产品。
昆腾的磁带库Scalar i6000被国内外互联网厂商大量应用。Scalar i6000磁带库可以装载14000盘磁带,配备192个驱动器,每个驱动器的速度可以达到400MB每秒。
基于磁带库,昆腾提供两套非结构化数据管理平台。目前有两个整体方案,一个是与前面提到的StorNext文件系统结合,根据客户业务实现定制策略文件和对象的自动迁移;第二个是ActiveScale对象存储,能够实现同对象存储和磁带的按策略迁移,这是昆腾独有的产品,通过对象存储和带库结合,通过S3标准协议实现数据自动迁移到带库。
基于昆腾StorNext文件系统实现的归档的整体解决方案,可以根据客户不同的业务定制前端的接口,通过数据存储到StorNext系统实现数据的迁移,这个存储可以是对象、带库也可以是公有云。与其他普通的对象存储解决方案来比,可减少了50%以上的技术成本。相对海量数据,昆腾的磁带可以实现长达数十年的保存与保护,而且保证数据能够很好的隔离。
昆腾ActiveScale Cold Storage是一套兼具可靠性和超低TCO的冷数据解决方案,这套方案昆腾引入了纠删码的技术。前端是昆腾的分布式对象存储,可以实现通过纠删码来满足数据的履约,并降低整体成本,后端接入昆腾磁带库并同样实现了纠删的技术。基于昆腾的RAIL技术架构,数据放在磁带下,磁带库的纠删目前只有昆腾一家可以实现。昆腾实现的纠删是基于磁带库层面的纠删,同时还能在磁带库内实现跨磁带,同时可以在磁带内部做纠删码的设置。昆腾实现了三个级别的纠删,在磁带内部跨磁带跨带库实现数据的冗余,同时降低整体建设和成本。
在海量数据中,存在很多的小文件。昆腾对小文件场景做了特殊优化,将小文件实现聚合之后写进磁带,这样避免了很多小文件读取或者恢复量的问题。
一句话总结一下,昆腾数十年在整个数据生命周期内做的技术研发,都是为了确保“让数据在正确的时间存在正确的位置并用正确的成本”。
最后分享两个案例。
我们与国家级基因研究所的合作,实现整体数据分析还有数据归档。前端有很多厂家存储系统由不同研究人员使用,最后我们将前端数据归到昆腾StorNext高性能文件系统上,实现基于数据的分析,分析完成之后,这些分析数据需要长时间保存,这套系统可以自动化地将数据写到磁带库上。昆腾的系统有一个特点——虽然把数据归档,前端目录结构不会有任何变化,需要访问的话直接双击或者通过软件调用文件名称数据自动实现回调,免去很多的维护成本。
针对互联网厂商的超大规模冷数据存储,昆腾可以实现上百个节点,通过数据写入还能够实现纠删,将数据写到磁带上。经过大致的测算,昆腾的解决方案能帮客户节省40%—50%的成本。
周所周知,磁带使用的场景主要是冷数据的存储。对于海量的温冷数据,磁带是成本及能耗等多个方面最为合适的介质。
这是我今天的分享,谢谢大家!