DeepMind:大型语言模型可实现“高效无损压缩音频影像”

近年机器学习的主要研究,都集中在训练越来越强大的自监督语言模型,而由于这些模型具卓越的预测能力,因此也有成为压缩器的潜力。DeepMind研究人员评估大型基础模型的压缩能力,发现这些模型是强大的通用预测器,不仅能够处理文本数据,更可处理图像声音进行高效压缩。

DeepMind在研究中,使用了一个称为Chinchilla 70B模型,虽然这个模型主要以文本训练,但是研究人员发现该模型也可用于压缩ImageNet图片,可将文件压缩至原始大小的43.3%,甚至可将LibriSpeech语音样本压缩至原始的16.4%。

研究人员提到,这个压缩表现超过专门为图像或是语音设计的压缩算法,像是无损压缩位图图形格式PNG只能压缩该图片至58.5%,音频文件无损压缩算法FLAC也只能将音频压缩到30.3%。

DeepMind的研究证明,预测和压缩之间存在等价性,因此研究人员可以使用任何压缩算法,创建一个更加强大的条件生成模型。由于好的预测模型能够准确预测数据中的模式和规律,而这种能力让模型能够成为一个高效的压缩器,因为当一个模型能够精确预测未来的数据点,也就能够捕捉数据的本质特征和结构,有效地压缩数据。

压缩是一种资讯编码的过程,目标是要以更少的位元表示数据,因此当模型能够精确预测数据,其实也就代表模型学会了一种资讯编码的方式,这种编码方式能够用来压缩数据,因为模型已经理解了数据中的特征和模式。

语言模型能精确预测下一个字,也就代表可以用于压缩文本数据,因为模型有能力找发文本中重复或是可预测的模式,并用更少的位元来表示这些模式。而这个结论同样适用于图像和音频,当模型已经可以预测这些数据中的模式,也就能够压缩这些数据。

DeepMind研究的主要贡献,包括证实基础模型无损压缩的能力,在当前语言模型资源取得越趋容易的情况下,任何人都可以取得语言模型并将其用于压缩中,而不需负担额外的训练成本。同时,研究也显示,主要在文本上进行训练的基础模型,由于其上下文学习能力,因此能够很好地成为通用压缩器。

研究还发现,要将模型用于压缩上,模型并非越大越好,过大的模型可能反而对压缩性能产生负面影响,因为模型的参数本身也需要在输出中被考虑进去,当有一个模型具有非常多的参数,虽然能够有效压缩数据,但是庞大的参数本身也会成为负担,这些参数也需要被存储和传输。

而自然语言处理常用到的分词(Tokenization)方法,把一串文本切割成更小、更容易处理的步骤,在压缩上不会提高压缩效率,但可以增加模型在特定上下文中的资讯内容。通过上下文的学习,模型能够根据不同任务,动态调整压缩策略,达到更高的压缩效果。

这篇研究的主要重点,探讨模型与压缩器间的等价性,证明两者可以互相转换。研究人员也评估语言模型作为压缩器的能耐,并发现模型不仅能够良好地处理文本数据,也能够在未受过训练的数据模式,像是图像与音频上表现出色。这篇研究提供一个看待模型的全新角度。