豆包大模型重磅升级,视觉理解模型迈进 “厘时代”

今日,2024冬季火山引擎Force原动力大会在上海盛大召开,字节跳动的豆包大模型迎来全面升级,其中视觉理解模型的发布更是成为全场焦点,正式宣告视觉理解模型进入 “厘时代”。

火山引擎总裁 谭待 

火山引擎总裁谭待现场提到,豆包视觉理解模型可精准识别视觉内容,同时可根据图像信息处理复杂的逻辑计算,分析图表、代码以及解答学科问题等重要任务。

在价格方面,豆包视觉理解模型展现出了超高性价比,千 tokens 输入价格仅 3 厘,1 元就能处理 284 张 720P 图片,相比行业价格低 85%,极大降低了企业应用成本,有力推动 AI 技术的普惠与应用拓展。

此前该模型已接入豆包 App 和 PC 端产品,此次大会上,豆包 3D 生成模型也首次亮相,与火山引擎数字孪生平台 veOmniverse 结合,能高效完成智能训练、数据合成与数字资产制作,成为 AIGC 创作的得力助手。

此外,豆包大模型家族多款产品均有重要更新。豆包通用模型 pro 已全面对齐 GPT – 4o,使用价格仅为其 1/8;音乐模型从生成 60 秒简单结构升级为 3 分钟完整作品;文生图模型 2.1 版本更是在业界率先实现精准生成汉字与一句话 P 图的产品化能力,并已接入即梦 AI 和豆包 App。

同时,火山引擎宣布2025 年春季将推出具备更长视频生成能力的豆包视频生成模型 1.5 版,豆包端到端实时语音模型也即将上线,届时将解锁多角色演绎、方言转换等新技能。

在应用落地方面,成果显著。截至 12 月中旬,豆包通用模型日均 tokens 使用量超 4 万亿,较发布时增长 33 倍,且已与八成主流汽车品牌合作,接入众多手机、PC 等智能终端,覆盖约 3 亿台设备,在智能终端的调用量半年内增长 100 倍。在企业生产力相关场景,如信息处理、客服与销售、硬件终端、AI 工具、学习教育等场景,近 3 个月调用量均大幅增长。

火山引擎通过 AI 云原生和豆包大模型家族,助力企业开展 AI 创新,加速多行业智能化转型,豆包大模型也凭借持续迭代进化,成为国内领先且全面的大模型之一,开启更智能、高效、便捷的 AI 应用新篇章。