腾讯云存储郭强:全面支持AIGC,腾讯云数据湖让多模态变得更简单

2024全球闪存峰会日前落下帷幕,峰会汇集闪存产业链专业人士以及存储技术爱好者,会议当天,腾讯云存储专家架构师郭强发表精彩演讲,分享了腾讯云最佳实践与存储解决方案,为听众带来很多干货和技术参考。

以下为演讲实录:

我是来自腾讯云存储的架构师郭强,今天非常容幸能够在这里和各位前辈,以及业界的这些同仁们一起探讨存储相关的话题。

我带来的主题是腾讯云数据湖助力AIGC,让多模态变得更简单。主要讲什么内容呢?我们现在有单模态到多模态演进的趋势,这样的过程追一定会涉及到数据处理,包括一些性能上的要求等等,对我们的存储提出了挑战。

在这里我们会遇到什么问题或者面对问题的时候有哪些选择?以及我们最终做了什么选择?这是一些值得探讨的话题。今天我在这里用这25分钟的时间和大家简单聊一下。

接下来我的演讲里面有一个FLOW,是我在整个AIGC过程中涉及到的所有环节。

前面是一个总体概述,大致度这个存储有一个要求上的理解和概念。之后用一个详细的PPT展示具体的哪个环节里面遇到的问题。

很有必要做一个前情提要。我们的大模型发展。一个非常温柔的下午,我坐在外面,东北三线城市的老妈给我打电话,我妈打了一个电话问我,儿子,AIGC和之前你跟我说的人工智能有什么区别?后面的话我已经不记得我讲的是什么了,但是只觉得那一刻AIGC可能真的火了。可以看到在最开始的时候有很多前辈从上世纪50年代开始做这个事情,追溯到50年代这些前辈们生成的非常粗糙的图片,让大家有感觉说原来计算机可以做这个事情。90年代的时候有了神经网络的夹持,大家科医生成一些文本和图片,在一些特定的场景解决一些特定任务,这个时候大家第一次感觉到原来计算机真的可以做这件事情。2010年前后,因为当时有了GNN网络的出现,也就是生成式对话网络,一个生成器,一个判别器,两个人去博弈,大大加速了通用大模型的迭代速度。我们有的时候分不清到底是人生成的还是机器生成的。

近几年大家知道的ChatGPT 3、4、5,今年年初OpenAIGC发布的sora,让大家觉得AI时代可能真的来到了。

伴随着这样的发展,首先它的模型参数会有一个指数级增长。ChatGPT3应该有1750亿个参数,ChatGPT4就更多了。伴随着这样组数的增长,伴随着它来的一定是数据量的增长。ChatGPT3是几十TB的数据量,因为它是文本类的,当我们从单模态走向多模态的时候一定会引爆一些图片、视频进来,这个时候体积一下子就会变得很大。现在有一些客户已经用了TB级的。现在看到有一个趋势会走向DB级,这是我们遇到的第一个问题,当我面对这种海量数据的时候,我们应该去选择什么样的存储。首先要满足一个要求,它可以制成海量的数据,我也不知道我的数据以后会变的多大,可能会需要它有一个非常良好的扩展性,在这样海量的数据下能不能花最少的钱,这是非常现实的问题。我们大致对它有了这些诉求。

我们先多模态发展,这里面的问题已经被AIGC的从业者解决了,简单来说,它会把所有的这些无论是文本、视频、图片还是音频的数据,都通过各自的编码器转换到一个更高级的纬度里面,更高的纬度也就是写间的向量,变成一个多维向量。变成一个多维向量之后,最终所有人就会在learn space里面做到一个统一,大家团聚了,训练的时候大家可以相互作用,让我们的模型演进更快。

这个多模态给我的直观感受是最好的,为什么?我觉得它非常有前景。我来自杭州。有一天我走在西湖的上面,旁边突然有个小孩问我,叔叔,这棵树是什么树?我赶紧把我的ChatGPT3打开,VPN一连,我详细描述了一下这个树,期待它给我回复,但实际上失败了。如果这个时候我是多模态的,直接一张照片下来问,这是个什么树?马上结果就回来了。多模态的AIGC的模型,以后一定会有非常广阔的应用空间,也同样技术会普惠到每个人。

训练模型,从data collection进来,我们做数据的预处理,预处理之后做特种工程,之后就是训练数据,之后推理、输出。假如你和我是一家公司的CTO,要搭这个环境,首先要解决一个问题,有这么多的平台,都要存储,一般是S3协议,但这些平台比如说data collection这里基本说跑不掉大数据,所以它是HTPS协议。第二,在训练和推理的时候应该是post C语义,这个时候S3和两个协议之间怎么去对,肯定对不上,我们就会遇到一个问题,这个协议不知道怎么办,我们对于这块存储的第一个要求,就是somehow somewoy去支持,让我们在I3 HDFS之间做一个流转。这里有很多的模块,简单我称为ABCD,这些模块都需要读数据,都需要处理数据,都需要访问它们,怎么办呢?如果回到十年前,在每一个A下面放一个存储,B下面放一个存储,数据拷贝很多份,解决了低时延,也解决了LPS的问题。现在容忍不了了,就算现在去搞成四份,在流动性上也会有问题,我需要时间来等它从A到B,B到C,会非常非常浪费整个AIGC训练的过程。

在这个过程中一定要提供统一的数据湖,能够它存储只存一份,每个平台访问的时候都非常快。数据向着异地迈进,一定会涉及在单位时间内读取尽量多的数据,这个时候就是带宽,一定要也一个高吞吐,高吞吐的前提是能够提供稳定低时延,不然就是抛开时延谈高吞吐都是耍流氓。所以这个地方一定要加上限制条件低时延。这是我觉得有这么多的可能的诉求。

下面是推理,推理之后能不能随便生成的东西出来,肯定不行。比如说前段时间我在you tube上面看,一个博主训练B站的网友的评论,去大战弱智吧。如果我给它灌的都是这些数据,模型又不拒绝,最后输出的结果一定会非常混乱,这个人输出的逻辑或者语气可能都不对。去年7月份网信办发了一个文,叫《生成式人工智能服务管理暂行办法》,这个办法规定,对于AIGC生成的这些内容需要满足一定的合规性。所以在这里我们一定要做审核,这是一定的。

我们对存储的过程讲完以后就到了真正核心的地方。这是在整个AIGC从数据进来到出来的画面。

数据进来,大家会从全世界爬数据,也可能用一些公共的平台,比如这些公共平台的数据集提供一些现成的数据给你,或者爬虫或者怎么样,或者去一家国际公司,我在新加坡、泰国各个公司,每个公司里面都有数据,拉到某一个点,比如新加坡,怎么办?我们提供了一个分布式的存储迁移工具MSP,它是一个分布式的,可以做一个动态的互缩容,满足一个大带宽,同时结合腾讯云的全球加速网络,可以让我们在传输的过程中优先走腾讯云的骨干网,这样就避免跨国传输的时候遇到的问题,就是丢包、失败率高等等,这些是不可控的,从这个国家的路由出去是哪一个供应商,有可能这个供应商马上面临倒闭,这是有可能的,它的线路自然就不会太好,进一步会影响我们整个的效率。

数据进来之后到了load dataset(音),我们就要去做一个预处理。在这里的时候又要想到这个问题,如果我们是CTO会面临什么样的问题?数据读过来需要各个平台,然后在这里面reduce的时候是positive, 然后training(音),在这个过程中要去做一个不同语义的支持。

我们把它想象成一个真的桶,数据桶。大家在自己的办公室里一般都有饮水机,上面有一个水桶,把水桶倒过来,这就是我们的桶。上面有一个嘴,这个嘴很小,大概只有一厘米多的直径。下面有15升的水,这就好象我们通用的云对象存储,比如cos就是这样,15Gb往下倒很久很久,倒不出来,很着急,因为后面的训练一直在等,训练又要用到GPU,浪费了后面的时间就是浪费了大把的金钱。我就要想怎么把这个口给砍掉,把水直接倒出来。

我们推出了腾讯云的产品叫GooseFS-Cache,Goose是一个鹅。它提供了三级加速,首先利用了GPU闲置CPU资源和下面的一些memory,以及它的一些SSD。大家知道,去买GPU服务器的时候有很多浪费CPU和SSD,这个过程追我们把它用起来,变废被宝。怎么用呢?在fields(音)客户端,在GPU这边部署之后,当我们的数据在memory命中的时候直接在近端返回,这是非常快的,这个我们叫Cache级的加速度,就是GooseFS-Cache L1。当它命中的时候没有怎么办?这是在一个GPU的NVM里面的,这个返回也非常快。如果这里没有命中,从隔壁拿一下,传过来,在异部的拉一份过来,原因是以防他一会儿还要用。这是GooseFS-Cache L2。

最后一个对客户是无感知的,只要你用了我们的数据湖,我帮你做。原理是什么?即使我们有两层加速以后还面临两个问题,我有一些是热点文件,我们会根据热点,以及访问的热度等等,我们把它做一个复制,可以在各个节点之间。这样的存储可能是一个reaching级的产品,实际上它是这样架构的,我们就可以在近端点放一个,当这一块的GPU访问的时候可以做到精准访问。这是GooseFS-Cache L3。

整个的方案里面有一个非常好的点,没有给客户或者用户增加过多的负担,因为我是变废为宝。这种情况下,我们可以提供百万级的IOPS,以及tb级别的存储。

训练的时候训练完成要写check point,写check point实际上是一个大学问,最开始写check point的时候不是很大,大家没有人在乎它浪费的时间,随便写,随便间隔,现在不一样了。现在随着模型变大,它的check point从原来的兆级别、G级别,已经变成了TB级别。如果我的check point是1TB,用对象存储15Gb的带宽,大概十几二十分钟才能写完。我姑且认为它是十分钟,check point一小时写一次,一天24小时,相当于一天24小时有四个小时都在写check point。为什么这是一个不能容忍的事情呢?我们写check point的时候实际上就是把GPU的显存写到持久化里面去,这个过程中是所有的GPU都要停下来的,它们停下来,就等于每个GPU节点返回YES OK,所有的节点都说OK了,大家再回来开始干活。

这个过程中又回答之前说的GPU合适的浪费的问题。我们认为或者业界认为写1TB十几秒,才能符合我们现在对效率的要求。我们倒推一下,1TB除以十几秒,算出来大概需要800Tb的带宽,所以我们需要寻求一追办法去解决它。业界的第一种方式是用高性能存储,比如文件存储,但是它很贵。再一种就是异步写的方式,就是先写到memory或者SSD里面,之后再异步到持久化存储里。但是有两个问题,一个是安全性,万一断电了怎么办?二是会让我们的整个架构变得更复杂。这个过程中,我接触的绝大部分的AIGC的从业者选择的都是写高性能存储。

既然确定了要写高性能存储,我们有没有什么办法能让这个高性能存储更便宜呢?文件存储买的时候可能是100TB,他买了一个空间,确定一天的训练100TB就够了,每天就要付这么多的钱,非常贵。我们一天是一个流线,在这个过程中能不能参考一下TCP的传输信息的方式,能不能做一个窗口滑动。比如从100TB变成50TB,省了一半的钱,就很开心。

在这里,我们基于COS原生,去做了一个GooseFS-X,通过这个X去和桶之间做数据流动。首先这个GooseFS-X是一个全闪存的分布式高性能文件存储,它和COS之间会做一个流动,所有的计算节点挂载都可以挂在GooseFS-X,挂载之后,它的文件路径和对象存储里的前缀一一对应,所以我就可以批量的存进来,批量的导入,配一次,后面都是自由流动的,这里面就会给我们做后面训练的时候省一部分钱。

前面的数据预处理和训练,以及推理完了以后要看最后一部分,相对比较简单,我们推出来要做一个审核。

用我们数据万象的审核产品,比如我输入一个“请画一幅日落的山水画”,我进来了,给它做一个审核,这个审核是什么呢?比如说涉黄涉政涉恐涉爆广告等等,如果发现它是同数无害的就低分放过,如果发现有点危险就高分拦截,如果低分放过了以后我们的模型生成一幅画出来还是在数据湖上,在返回客户端之前还要再审核一下。

如果我输入的词是“请画一幅行进间的坦克”,只有这一句话,没有背景。AIGC输出来的坦克它的背景会是什么呢?我不知道,它成出来的很有可能是不合规的,这个时候我对输出也要做一个审核。当然现有的客户有两个都用的,也有用一个的,最后输出的时候倾向于这样的是最多的。输出的时候可以用一下万象里面其他的音视频能力。

我把腾讯云数据湖的Data lake Architecture讲完了。最后一点时间讲一下数据万象,它是整合了腾讯的AI技术,用了这么多的技术去打造一个数据处理的百宝箱。它是一个长在对象存储COS上面数据处理的工具,音频、视频、图片、文本都是可以的。并且我们向大家开放了API、SDK,大家可以直接使用。如果你已经用了COS SDK,这个时候不需要更换SDK,可以用COS SDK直接访问万象。

我们今年做了一个大模型叫Meta Insight,它实际上是一个结合图文的大模型,需要解决什么问题呢?面对海量数据的时候可以做一个精准搜索,这个搜索不需要输一些特定的格式,只需要输像刚刚的“给我一幅画黑白的山水画”,就可以搜出来。原理比较简单,我们在数据入湖的时候给它做一个抽象,抽象成向量,向量后放到向量数据库里,当你靠API检索数据的时候,输入的这些内容也去做一个向量化,两个向量一匹配,分高的就反还给你了。

其实我们最初做这个事情的初衷不是为了搞一个大模型,我们在思考用了腾讯云的数据湖客户,当他们有了百亿千亿万亿文件的时候,他一定会为搜索文件而担忧,有困难。我们在这个过程中,通过这种方式让大家面对海量数据的时候提供一个工具和可能性,让大家在这个过程中解放一些劳动力。

这是我们COS Data lake的所有东西,涵盖了训练、推理、数据治理、审核的一些内容。

我想讲一个事情,腾讯云的数据湖时钟坚定不移地致力于支持和推动AIGC的发展,相信术业有专攻,应该让专业的人做专业的事,从而解放劳动力,让AIGC从业者的宝贵时间都用在上层的应用和创新当中。

谢谢大家。