可灵AI 2.0登场！快手放下狠话“世界上最强大的视觉生成模型”-DOIT-数据产业媒体与服务平台

导读

4月15日，快手旗下的可灵AI正式揭晓了其基座模型的重大升级，隆重推出可灵2.0视频生成模型与可图2.0图像生成模型，这一举措标志着AI技术领域又迎来了一次里程碑式的进步。此次升级不仅显著增强了模型的语义理解能力与动态效果，还大幅提升了画面的细腻度与质感，将可灵AI推至行业发展的潮头，在视频创作与图像生成领域彰显出前所未有的技术引领优势。

文字编辑｜宋雨涵

可灵2.0技术突破

优化架构和算法，大幅提高用户指令的理解能力

可灵2.0的升级根植于深度学习和自然语言处理技术的加速发展，通过优化架构和算法，大幅提高了对用户指令的理解能力。其通过深度神经网络，能够解析更复杂的语言描述，以生成与之高度匹配的图像和视频内容。例如，用户可以细致地描述角色的动作变化和场景的氛围，可灵2.0将能够准确地将这些元素融合在生成的作品中，增强了用户创造性表达的可能性。

在动态质量方面，数据表明，可灵2.0的生成视频在运动流畅性和时序连贯性上较上一代实现显著提升。无论是复杂的动作场面还是细腻的情感表现，用户都能享受到更加自然和逼真的视觉体验。这一升级尤其体现在精密的运镜效果和复杂场景中的细致还原上，显著提升了观众的沉浸感。

无需折腾剪辑软件，几分钟，就能拿到自然如实拍，画面质感如电影的动态视频。

再比如这个，穿着长袍的人在漫天黄沙中行走，仿佛是电影《沙丘》的番外篇

多模态编辑功能的引入

快手副总裁、可灵AI负责人张迪

值得一提的是，可灵2.0大师版全面升级视频及图像创作可控生成与编辑能力，上线全新的多模态视频编辑功能，能灵活理解用户意图。支持在一段视频的基础之上，通过输入图片或文字，对生成的视频内容实现元素的增加、删减、替换，帮助创作者们实现更加灵活的二次编辑和处理。

可灵2.0大师版操作界面

可图2.0：

图像生成与编辑的「六边形战士」

快手负责人张迪披露，当前，图生视频约占到可灵AI视频创作量的85%，图片质量也对视频的生成效果产生重要作用。

在图像生成大模型领域，快手的可图2.0处于行业领先水平，拥有多项核心优势，诸如强大的复杂语义理解能力、电影级的画面质感、多条件的可控风格化生成等。在团队内部的多项胜负率评测中，相较于Midjourney V7、FLUX1.1 [pro]以及Reve等行业领先的图像模型，均保持明显优势。

张迪介绍，可图2.0文生图能力迎来全面升级。包括大幅提升指令遵循能力、显著增强电影美学表现力以及更多元的艺术风格。在风格化响应上，可图2.0可支持60多种风格化的效果转绘，模型出图创意和想象力实现大幅跃升。

同时，可图2.0也上线了实用的图像可控编辑功能——局部重绘和扩图，支持图片的增加、修改和修复。在图像的多模态可控生成中，可图2.0还上线了全新的风格转绘功能，只需要上传一张图片加上风格描述，就能一键切换图片的艺术风格，同时精准保留原图的语义内容。

AI生成进入“可信时代”

AIGC技术又一里程碑突破

可灵2.0的发布，标志着AIGC技术从“实验室突破”迈向“产业可信化”：

技术普惠：通过MVL降低多模态创作门槛，非专业用户可生成接近专业团队的作品；

生态重构：与快手短视频、直播业务深度耦合，推动“AI原生内容”成为平台核心竞争力；

标准建立：提出“动态质量评估体系”，要求生成内容在物理规律、情感表达等维度达到影视级标准。

不过，行业专家指出，可灵AI仍需解决两大矛盾：生成质量与成本的平衡（如高精度视频的定价策略），以及创意同质化风险（用户过度依赖模板生成内容）。

结语

一场“可灵速度”的长跑

从2024年6月首次发布到2025年4月迭代至2.0版本，快手仅用10个月便完成20余次技术升级，用户规模增长25倍。这种“快迭代、强落地”的策略，既源于快手对短视频内容痛点的深刻理解，也凸显其在AI竞赛中的紧迫感。

快手高级副总裁盖坤表示：“可灵AI将持续大力推动技术创新，用人与AI交互的全新语言，帮助用户实现复杂创意的精确表达，“我们的初心，是让每个人都能用AI讲出好的故事，我们也真切地希望这一天更快到来”。这场由快手发起的“智能创作革命”，或许正拉开AI时代内容生态重构的序幕。

可灵AI 2.0登场！快手放下狠话“世界上最强大的视觉生成模型”

lixiangjing

相关推荐

近期文章

热门标签