英特尔至强、酷睿和锐炫显卡都已针对Llama 3.1优化，跑分新鲜出炉-DOIT-数据产业媒体与服务平台

继今年4月推出Llama 3之后，Meta又于7月底发布了Llama 3.1。英特尔现在宣布，至强、酷睿和锐炫显卡都已支持LLama 3.1，并且在软件方面也进行了一些优化。同时，英特尔也公布了平台上的跑分表现。

Llama 3.1 405B拥有4050亿参数，这是目前最大的开源大语言模型。此外，Llama 3.1还有80亿参数、700亿参数以及指令调整的生成式AI模型，其每个模型均支持128k长文本和八种不同的语言。

其中，4050亿参数的Llama 3.1模型在基本常识、可操作性、数学、工具使用和多语言翻译方面具有行业领先的能力。同时，该模型还为开发者解锁了诸如合成数据生成和模型蒸馏（Model Distillation）等全新功能。

发布后不久，英特尔马上宣布，旗下的英特尔至强、酷睿和锐炫显卡都可以支持Llama 3.1，除了硬件支持以外，包括PyTorch及英特尔PyTorch扩展包、DeepSpeed、Hugging Face Optimum库和vLLM等，也都针对LLama 3.1做了优化。

英特尔公布了至强、酷睿和锐炫显卡运行Llama 3.1的性能表现。

英特尔至强内置的AMX可以提高AI场景的表现。根据基准测试，在第五代英特尔至强平台上以1K token输入和128 token输出运行80亿参数的Llama 3.1模型，可以达到每秒176 token的吞吐量，同时保持下一个token延迟小于50毫秒。

英特尔酷睿平台上的NPU，以及锐炫显卡上英特尔Xe Matrix Extensions加速等专用的AI硬件，可以让AI PC更轻松地进行轻量级微调和应用定制。

英特尔打造的AI PC既要作为大模型开发者的平台，同时也是部署大模型的平台。开发环节，有PyTorch以及英特尔PyTorch扩展包等配套软件。部署环节，也有OpenVINO等工具包。

低于100毫秒的延迟这一性能指标其实很重要，可以保证模型的响应足够迅速，使用户感觉与系统的交互是即时的，看起来更加连贯，没有明显的停顿或延迟，从而使交互体验更加顺畅。

英特尔至强、酷睿和锐炫显卡都已针对Llama 3.1优化，跑分新鲜出炉