豆包大模型重磅升级，视觉理解模型迈进 “厘时代”-DOIT-数据产业媒体与服务平台

今日，2024冬季火山引擎Force原动力大会在上海盛大召开，字节跳动的豆包大模型迎来全面升级，其中视觉理解模型的发布更是成为全场焦点，正式宣告视觉理解模型进入 “厘时代”。

火山引擎总裁谭待

火山引擎总裁谭待现场提到，豆包视觉理解模型可精准识别视觉内容，同时可根据图像信息处理复杂的逻辑计算，分析图表、代码以及解答学科问题等重要任务。

在价格方面，豆包视觉理解模型展现出了超高性价比，千 tokens 输入价格仅 3 厘，1 元就能处理 284 张 720P 图片，相比行业价格低 85%，极大降低了企业应用成本，有力推动 AI 技术的普惠与应用拓展。

此前该模型已接入豆包 App 和 PC 端产品，此次大会上，豆包 3D 生成模型也首次亮相，与火山引擎数字孪生平台 veOmniverse 结合，能高效完成智能训练、数据合成与数字资产制作，成为 AIGC 创作的得力助手。

此外，豆包大模型家族多款产品均有重要更新。豆包通用模型 pro 已全面对齐 GPT – 4o，使用价格仅为其 1/8；音乐模型从生成 60 秒简单结构升级为 3 分钟完整作品；文生图模型 2.1 版本更是在业界率先实现精准生成汉字与一句话 P 图的产品化能力，并已接入即梦 AI 和豆包 App。

同时，火山引擎宣布2025 年春季将推出具备更长视频生成能力的豆包视频生成模型 1.5 版，豆包端到端实时语音模型也即将上线，届时将解锁多角色演绎、方言转换等新技能。

在应用落地方面，成果显著。截至 12 月中旬，豆包通用模型日均 tokens 使用量超 4 万亿，较发布时增长 33 倍，且已与八成主流汽车品牌合作，接入众多手机、PC 等智能终端，覆盖约 3 亿台设备，在智能终端的调用量半年内增长 100 倍。在企业生产力相关场景，如信息处理、客服与销售、硬件终端、AI 工具、学习教育等场景，近 3 个月调用量均大幅增长。

火山引擎通过 AI 云原生和豆包大模型家族，助力企业开展 AI 创新，加速多行业智能化转型，豆包大模型也凭借持续迭代进化，成为国内领先且全面的大模型之一，开启更智能、高效、便捷的 AI 应用新篇章。

豆包大模型重磅升级，视觉理解模型迈进 “厘时代”

nina

相关推荐

近期文章

热门标签