英特尔至强、酷睿和锐炫显卡都已针对Llama 3.1优化,跑分新鲜出炉

继今年4月推出Llama 3之后,Meta又于7月底发布了Llama 3.1。英特尔现在宣布,至强、酷睿和锐炫显卡都已支持LLama 3.1,并且在软件方面也进行了一些优化。同时,英特尔也公布了平台上的跑分表现。

Llama 3.1 405B拥有4050亿参数,这是目前最大的开源大语言模型。此外,Llama 3.1还有80亿参数、700亿参数以及指令调整的生成式AI模型,其每个模型均支持128k长文本和八种不同的语言。

Llama 3.1 405B与GPT-4、GPT-4o以及Claude的对比

其中,4050亿参数的Llama 3.1模型在基本常识、可操作性、数学、工具使用和多语言翻译方面具有行业领先的能力。同时,该模型还为开发者解锁了诸如合成数据生成和模型蒸馏(Model Distillation)等全新功能。

发布后不久,英特尔马上宣布,旗下的英特尔至强、酷睿和锐炫显卡都可以支持Llama 3.1,除了硬件支持以外,包括PyTorch及英特尔PyTorch扩展包、DeepSpeed、Hugging Face Optimum库和vLLM等,也都针对LLama 3.1做了优化。

英特尔公布了至强、酷睿和锐炫显卡运行Llama 3.1的性能表现。

英特尔至强内置的AMX可以提高AI场景的表现。根据基准测试,在第五代英特尔至强平台上以1K token输入和128 token输出运行80亿参数的Llama 3.1模型,可以达到每秒176 token的吞吐量,同时保持下一个token延迟小于50毫秒

运行支持128k长文本的80亿参数Llama 3.1模型时,下一个token延迟可低于100毫秒。

英特尔酷睿平台上的NPU,以及锐炫显卡上英特尔Xe Matrix Extensions加速等专用的AI硬件,可以让AI PC更轻松进行轻量级微调和应用定制

英特尔打造的AI PC既要作为大模型开发者的平台,同时也是部署大模型的平台。开发环节,有PyTorch以及英特尔PyTorch扩展包等配套软件。部署环节,也有OpenVINO等工具包。

在配备内置英特尔锐炫显卡的英特尔酷睿 Ultra 7 165H AI PC上,Llama 3.1推理的下一个token延迟
在使用英特尔锐炫A770 16GB独立显卡的AI PC上,Llama 3.1推理的下一个token延迟

低于100毫秒的延迟这一性能指标其实很重要,可以保证模型的响应足够迅速,使用户感觉与系统的交互是即时的,看起来更加连贯,没有明显的停顿或延迟,从而使交互体验更加顺畅。