大家怎么都跑出残影了喂!
1. DeepSeek-R1发布
DeepSeek-R1网页访问链接:https://www.deepseek.com/
1 月 20 日,深度求索DeepSeek正式发布DeepSeek-R1,并同步开源模型权重。该模型遵循 MIT License,允许用户通过蒸馏技术借助R1训练其他模型。
DeepSeek-R1还上线了API,对用户开放思维链输出,用户设置model=’deepseek-reasoner’即可调用。此外,DeepSeek官网与App即日起同步更新上线。
DeepSeek-R1在后训练阶段大规模使用强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。在数学、代码、自然语言推理等任务上,其性能与OpenAI o1正式版相当。
此外,DeepSeek-R1 API服务定价为每百万输入 tokens1元(缓存命中)/4元(缓存未命中),每百万输出 tokens16元。
DeepSeek还将DeepSeek-R1的训练技术全部公开,促进技术社区的充分交流与创新协作。
2、k1.5 新模型登场
Kimi访问链接:Kimi.com
月之暗面Kimi也有新发布,k1.5多模态思考模型是月之暗面继2024年11月发布k0-math数学模型和12月发布的k1视觉思考模型之后,连续第三个月推出的k系列强化学习模型重磅升级版本。
在short-CoT模式下,k1.5的数学、代码、视觉多模态和通用能力大幅超越全球范围内短思考 SOTA 模型 GPT-4o和Claude 3.5Sonnet,领先达到 550%。在 long-CoT 模式下,k1.5 的数学、代码和多模态推理能力达到了长思考 SOTA 模型 OpenAI o1 正式版的水平,这标志着 Kimi 成为全球范围内首个在多模态推理性能上达到 OpenAI o1 正式版水平的公司。
2025 年,Kimi 将继续沿着既定路线图加速升级 k 系列强化学习模型,带来更多模态、更多领域的能力和更强的通用能力。
3、豆包实时语音大模型上线
1月20日,豆包实时语音大模型上线豆包App。这是一款语音理解和生成一体化的模型,实现了端到端语音对话。相比传统级联模式,这款模型在语音表现力、控制力、情绪承接方面有较好表现,并具备低时延、对话中可随时打断等特性,呈现出接近真人的语音表达水准。
豆包实时语音大模型为语音多模态技术的研究和优化提供了基础。不过,模型的能力边界仍存在诸多不确定性。比如语种方面,目前模型主要支持中文,其他语种尚未得到成熟支持。中文范围内,模型也仅支持小部分方言和地方口音的理解和表达,仍有较大进步空间。
4、MiniMax 01系列模型发布
MiniMax模型访问链接:https://www.minimaxi.com/platform
1 月 15 日,稀宇科技MiniMax发布并开源新一代 01 系列模型,包含基础语言大模型 MiniMax-Text-01和视觉多模态大模型MiniMax-VL-01。该系列模型参数量为 4560 亿,能高效处理高达400万token的上下文,首次将线性注意力机制扩展到商用模型的级别。
1月20日,继视频、文本模型家族迎来新成员后,MiniMax带来了全新升级的T2A-01系列语音模型,并全球同步上线海螺语音产品。与传统语音生成技术相比,全新升级的T2A-01系列语音模型不仅具有音质稳定清晰、韵律自然、情绪精准表达、高准确度等特点,提供更快、更稳的语音生成能力,还能支持包括中文、粤语、英语、日语、韩语、阿拉伯语、西班牙语在内的17种语言及上百种预置音色可选,为企业与个人用户提供自然流畅的语音生成体验。
依托于T2A-01系列语音模型,用户在海螺AI仅需输入文字即可生成自然、流畅的超拟人人声,最长可输入多达10000字符。与此同时,用户可以根据需要自由配置输出语音的情绪、语速、音高,甚至调整音色效果,满足复杂场景的精细化需求。
5、阶跃星辰语言模型新发布
Step-2 mini网页访问链接:https://yuewen.cn
1月21日,阶跃星辰上线了Step-2 系列语言模型的两款新品——参数量小、性价比更高的Step-2 mini,以及专门针对内容创作领域推出的模型Step文学大师版。
Step-2 mini和万亿参数大模型Step-2相比,以3%左右的参数量保有了其80%以上的模型性能。与此同时,Step-2 mini拥有更快的生成速度和极高的性价比。输入4000tokens的情况下,Step-2 mini的平均首字时延仅0.17秒。目前,大家已经可以在阶跃星辰开放平台调用 Step-2 mini 的API接口。输入1元/百万token;输出2元/百万token。
Step-2 mini采用了阶跃星辰自主研发的新型注意力机制架构 ——MFA(Multi-matrix Factorization Attention,多矩阵分解注意力)及其变体MFA-Key-Reuse,相比于常用的MHA(Multi-Head Attention,多头注意力)架构,节省了近94%的KV缓存开销,拥有更快的推理速度并大幅降低了推理成本。
据官方介绍,Step-2 文学大师版是一款专为文字内容创作研发的模型,沿袭了 Step-2 的知识储备、对文字强大的细节把控能力,特色在于具有更加强大的内容创作能力。Step-2 文学大师版力求解决市面上语言模型过度对齐导致的内容“假大空”,缺乏新意和真情实感的问题。
6、 智谱的清影2.0重磅更新
清影2.0访问链接:https://chatglm.cn/video?lang=zh
清影2.0在模型结构、训练方法以及数据工程方面全面更新,使图生视频基础模型能力大幅提升38%。
不仅生成效果更可控,能支持画面主体进行大幅度运动的同时保持画面稳定性,而且指令遵从能力处于行业领先地位,可理解并实现各种复杂prompt,还能够驾驭各种艺术风格,极大地提升了画面美感。