继今年4月推出Llama 3之后,Meta又于7月底发布了Llama 3.1。英特尔现在宣布,至强、酷睿和锐炫显卡都已支持LLama 3.1,并且在软件方面也进行了一些优化。同时,英特尔也公布了平台上的跑分表现。
Llama 3.1 405B拥有4050亿参数,这是目前最大的开源大语言模型。此外,Llama 3.1还有80亿参数、700亿参数以及指令调整的生成式AI模型,其每个模型均支持128k长文本和八种不同的语言。
其中,4050亿参数的Llama 3.1模型在基本常识、可操作性、数学、工具使用和多语言翻译方面具有行业领先的能力。同时,该模型还为开发者解锁了诸如合成数据生成和模型蒸馏(Model Distillation)等全新功能。
发布后不久,英特尔马上宣布,旗下的英特尔至强、酷睿和锐炫显卡都可以支持Llama 3.1,除了硬件支持以外,包括PyTorch及英特尔PyTorch扩展包、DeepSpeed、Hugging Face Optimum库和vLLM等,也都针对LLama 3.1做了优化。
英特尔公布了至强、酷睿和锐炫显卡运行Llama 3.1的性能表现。
英特尔至强内置的AMX可以提高AI场景的表现。根据基准测试,在第五代英特尔至强平台上以1K token输入和128 token输出运行80亿参数的Llama 3.1模型,可以达到每秒176 token的吞吐量,同时保持下一个token延迟小于50毫秒。
英特尔酷睿平台上的NPU,以及锐炫显卡上英特尔Xe Matrix Extensions加速等专用的AI硬件,可以让AI PC更轻松地进行轻量级微调和应用定制。
英特尔打造的AI PC既要作为大模型开发者的平台,同时也是部署大模型的平台。开发环节,有PyTorch以及英特尔PyTorch扩展包等配套软件。部署环节,也有OpenVINO等工具包。
低于100毫秒的延迟这一性能指标其实很重要,可以保证模型的响应足够迅速,使用户感觉与系统的交互是即时的,看起来更加连贯,没有明显的停顿或延迟,从而使交互体验更加顺畅。