Meta 刚刚发布了史上最大的开源人工智能模型。
今天,Meta 宣布推出了包含 4050 亿参数的 Llama 3.1 405B 模型。参数数量在很大程度上决定了模型解决问题的能力,参数越多的模型通常表现更佳。
尽管 Llama 3.1 405B 不是市面上最大的开源模型,但它是近年来规模最大的。这款模型使用了 16000 块 Nvidia H100 GPU 进行训练,并采用了 Meta 声称能使其与 OpenAI 的 GPT-4o 和 Anthropic 的 Claude 3.5 Sonnet 等顶级私有模型相媲美的先进训练技术。
与 Meta 之前的模型一样,Llama 3.1 405B 可以下载使用,也可以在 AWS、Azure 和 Google Cloud 等云平台上运行。它还被应用于 WhatsApp 和 Meta.ai,为美国用户提供了聊天机器人服务。
新的及改进的功能
这款新模型不仅能编写代码、回答基础数学问题,还能用八种语言(英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语)总结文件。不过,它目前只能处理文本,无法回答有关图像的问题,但对于大多数文本基础的工作,比如分析 PDF 和电子表格文件,它都能胜任。
Meta 还在积极探索多模态能力,即让模型能够识别图像和视频,并理解及生成语音。但这些功能尚未对外发布。
为了训练 Llama 3.1 405B,Meta 使用了包含高达 15 万亿个 token 的数据集,这些数据一直更新到 2024 年。虽然这不是一个全新的数据集,但 Meta 表示,他们在数据筛选和质量保证方面采用了更严格的标准。
此外,Meta 还利用了由其他 AI 模型生成的合成数据来微调 Llama 3.1 405B。尽管一些专家认为合成数据可能加剧模型偏见,但 Meta 坚称他们已经“仔细平衡”了训练数据。
Meta 的研究人员在一篇论文中提到,与早期的 Llama 模型相比,Llama 3.1 405B 在非英语数据、数学数据和代码以及最新网络数据上的训练更为广泛,以提高其在非英语语言、数学推理和对当前事件了解方面的表现。
尽管 Meta 曾因使用受版权保护的电子书进行 AI 训练而饱受争议,但公司高管 Ragavan Srinivasan 表示,他们将继续完善训练数据,这是构建 AI 模型的关键。
更大的上下文
Llama 3.1 405B 的上下文窗口比之前的模型更大,能够处理长达 50 页的文本(128,000 token)。这种更大的上下文能力使得模型在总结长文本和运行聊天机器人时更加出色。(不会忘记最近讨论过的话题)
Meta 今天推出的另外两款新的小型机型 Llama 3.1 8B 和 Llama 3.1 70B——该公司 4 月份发布的 Llama 3 8B 和 Llama 3 70B 机型的更新版本——也有 128,000 个token的上下文窗口。之前模型的上下文最高为 8,000 个token,这使得这次升级相当可观——假设新的 Llama 模型可以在所有这些上下文中有效地推理。
这些新模型可以利用第三方工具和 API 来完成任务,比如使用 Brave Search 回答最新事件的问题,使用 Wolfram Alpha API 解决数学和科学问题,以及使用 Python 解释器验证代码。
构建生态系统
如果基准测试可信,Llama 3.1 405B 是一个非常强大的模型。它在执行代码和生成图表方面优于 GPT-4o,但在多语言能力和编程推理方面略逊于 Claude 3.5 Sonnet。
由于模型规模庞大,运行 Llama 3.1 405B 需要强大的硬件支持。Meta 推荐至少使用一台服务器。这也许就是为什么 Meta 正在推动其较小的新型号 Llama 3.1 8B 和 Llama 3.1 70B 用于通用应用程序,例如为聊天机器人提供动力和生成代码。该公司表示,Llama 3.1 405B更适合用于模型蒸馏,即将知识从大型模型转移到更小、更高效的模型,并生成合成数据来训练(或微调)替代模型。
Meta 还更新了 Llama 的许可证,允许开发者使用 Llama 3.1 模型家族的输出来开发第三方 AI 生成模型。但许可证仍然限制了开发者如何部署 Llama 模型,特别是对于拥有超过 7 亿月活跃用户的应用程序开发者,必须向 Meta 申请特殊许可证,该公司将自行决定授予该许可证。
Meta 正在积极推动其在生成性 AI 领域的领导地位。除了发布新模型,公司还推出了一套参考系统和新的安全工具,并正在征求对 Llama Stack 的意见,这是一个即将推出的 API,用于微调 Llama 模型、生成合成数据和构建代理应用程序。
扎克伯格的开源愿景
Meta 的 CEO 马克·扎克伯格在一封公开信中表达了他对未来 AI 工具普及的愿景,希望更多的人能够享受到 AI 带来的好处和机会。这不仅是出于慈善的目的,也反映了 Meta 希望其 AI 工具和模型能够在全球范围内得到广泛应用。
Meta 正在与 OpenAI 和 Anthropic 等公司竞争,采用免费提供工具以培养生态系统的策略,并逐步推出付费产品和服务。同时,公司也在积极游说监管机构,以推广其对“开放”生成性 AI 的理解。
尽管 Llama 3.1 模型并没有解决当前生成性 AI 技术的所有问题,比如编造事实和重复有问题的训练数据,但它们确实推动了 Meta 成为生成式 AI 领域的代名词。