本周,OpenAI再次出手,发布GPT-4o多模态大模型,最短在232毫秒内对音频输入做出响应,平均响应时间320毫秒,几乎接近人类在交谈中的响应时间。我们惊异于生成式AI的逻辑和创造力,自然语言处理有了空前发展,也不由好奇,自然语言处理(NLP)发展历程,生成式AI一鸣惊人背后经历了怎样的变革。
小编基于北京邮电大学魏翼飞教授在赛迪顾问主办“2024IT市场年会·人工智能论坛”上的演讲整理出这样一条时间线:
最早的语言模型是19世界50年代的N-Gram模型,根据前N-1个词预测第N个词,通过计算下一个出现哪个词的概率高,预测下一个词最有可能是什么。
1954年,Bag-of-Words(词袋)模型问世,标志着早期文本表示技术的开始。Bag-of-Words不考虑单词在文本中的顺序,而是统计上下文里这个词出现了多少次,词的数量就是向量的维度,向量的值就表示这个词在文本中出现的次数。
1997年,长短期记忆网络(LSTM)出现,作为一种时间递归神经网络(RNN),可以记录上下文信息,适合处理如天气预测、股市分析等时间序列数据,可以捕捉序列中的依赖关系,但是训练过程遇到梯度消失和梯度爆炸问题,很难学习长距离依赖关系。另外,递归神经网络的顺序计算模式不能做并行处理。
2013年,Word2Vec模型诞生。用神经网络做词袋向量的转化,把高维的稀疏向量转化为低维的稠密向量,转换后在向量空间,语义相近的词在向量空间距离很近,极大地降低向量维度可以在向量空间快速处理,这是人工智能的基石。
2014年,Seq2Seq模型提出,把语言先用编码器编码成一个向量,放到向量空间,然后在空间里用解码器进行翻译输出,是将一个序列转换为另一个序列的神经网络模型,广泛应用于机器翻译等领域。
2017年,谷歌推出Transformer架构,相当于把语言处理和计算机视觉整合起来。Transformer有编码器和解码器,并在其中加入多头自注意力机制,使其可以看到全局历史信息,可以处理非常长的长距离依赖关系,并且支持并行计算,极大地提高了计算效率。
比如,当你提到去电子商城买了一个苹果,Transformer可以根据前面的“电子商城”判断“苹果”是电脑或手机,而不是水果。此外,Transformer是并行计算,信息可以同时处理,速度更快。
2018年,OpenAI发布GPT-1,基于Transformer解码器架构,采用单向自回归模式,即模型生成每个词时都只是参考之前的词,不能预测未来要写的内容。同年,BERT模型发布,基于Transformer的编码器架构,使其能够高效地理解长句子,做好完形填空。
同时,相比之前需要大量精确的人工标注才能做训练的神经网络或机器学习,大模型可以利用海量未标注的数据做预训练,来理解人类的语言语义和语言结构,是无监督学习,这是大模型最大的优势,因此2018年之后大家都在做预训练模型。
2019年,BART发布,结合了双向编码器和自回归解码器的预训练语言模型,融合了BERT和GPT的优点,前者适合做完形填空,后者适合预测下一个词,这样既能理解前后文,又能生成新的句子。
2022年底,OpenAI发布ChatGPT,作为单模态大模型,专注文本处理,展示了涌现能力,并且通过了图灵测试——回答问题非常自然,像和一个真实的人在交流,而且采用了强化学习,多轮回答效果会更好。
2023年,我们进入多模态大模型时代,不仅具备文字和语言处理能力,还增加了图像处理能力。10月,国内AI初创公司月之暗面科技推出全球首个支持输入20万汉字的AI助手Kimi。12月,谷歌发布多模态大模型Gemini,能够同时识别文本、图像、音频、视频和代码。
2024年初,OpenAI发布文字生成短视频大模型Sora,结合自然语言处理和计算机视觉的能力,从文字描述中自动创建对应的视频内容,大大提升了文本生成的质量和流畅性,5月GPT-4o发布。
真正颠覆人机交互的模式正在开启!