可灵AI 2.0登场!快手放下狠话“世界上最强大的视觉生成模型”

 导读

4月15日,快手旗下的可灵AI正式揭晓了其基座模型的重大升级,隆重推出可灵2.0视频生成模型与可图2.0图像生成模型,这一举措标志着AI技术领域又迎来了一次里程碑式的进步。此次升级不仅显著增强了模型的语义理解能力与动态效果,还大幅提升了画面的细腻度与质感,将可灵AI推至行业发展的潮头,在视频创作与图像生成领域彰显出前所未有的技术引领优势。

文字编辑|宋雨涵

1

可灵2.0技术突破

优化架构和算法,大幅提高用户指令的理解能力

可灵2.0的升级根植于深度学习和自然语言处理技术的加速发展,通过优化架构和算法,大幅提高了对用户指令的理解能力。其通过深度神经网络,能够解析更复杂的语言描述,以生成与之高度匹配的图像和视频内容。例如,用户可以细致地描述角色的动作变化和场景的氛围,可灵2.0将能够准确地将这些元素融合在生成的作品中,增强了用户创造性表达的可能性。

在动态质量方面,数据表明,可灵2.0的生成视频在运动流畅性和时序连贯性上较上一代实现显著提升。无论是复杂的动作场面还是细腻的情感表现,用户都能享受到更加自然和逼真的视觉体验。这一升级尤其体现在精密的运镜效果和复杂场景中的细致还原上,显著提升了观众的沉浸感。

无需折腾剪辑软件,几分钟,就能拿到自然如实拍,画面质感如电影的动态视频。

再比如这个,穿着长袍的人在漫天黄沙中行走,仿佛是电影《沙丘》的番外篇

多模态编辑功能的引入

快手副总裁、可灵AI负责人张迪

值得一提的是,可灵2.0大师版全面升级视频及图像创作可控生成与编辑能力,上线全新的多模态视频编辑功能,能灵活理解用户意图。支持在一段视频的基础之上,通过输入图片或文字,对生成的视频内容实现元素的增加、删减、替换,帮助创作者们实现更加灵活的二次编辑和处理。

可灵2.0大师版操作界面

可图2.0:

图像生成与编辑的「六边形战士」

快手负责人张迪披露,当前,图生视频约占到可灵AI视频创作量的85%,图片质量也对视频的生成效果产生重要作用。

在图像生成大模型领域,快手的可图2.0处于行业领先水平,拥有多项核心优势,诸如强大的复杂语义理解能力、电影级的画面质感、多条件的可控风格化生成等。在团队内部的多项胜负率评测中,相较于Midjourney V7、FLUX1.1 [pro]以及Reve等行业领先的图像模型,均保持明显优势。

张迪介绍,可图2.0文生图能力迎来全面升级。包括大幅提升指令遵循能力、显著增强电影美学表现力以及更多元的艺术风格。在风格化响应上,可图2.0可支持60多种风格化的效果转绘,模型出图创意和想象力实现大幅跃升。

同时,可图2.0也上线了实用的图像可控编辑功能——局部重绘和扩图,支持图片的增加、修改和修复。在图像的多模态可控生成中,可图2.0还上线了全新的风格转绘功能,只需要上传一张图片加上风格描述,就能一键切换图片的艺术风格,同时精准保留原图的语义内容。

3

AI生成进入“可信时代”

AIGC技术又一里程碑突破

可灵2.0的发布,标志着AIGC技术从“实验室突破”迈向“产业可信化”:

技术普惠:通过MVL降低多模态创作门槛,非专业用户可生成接近专业团队的作品;

生态重构:与快手短视频、直播业务深度耦合,推动“AI原生内容”成为平台核心竞争力;

标准建立:提出“动态质量评估体系”,要求生成内容在物理规律、情感表达等维度达到影视级标准。

不过,行业专家指出,可灵AI仍需解决两大矛盾:生成质量与成本的平衡(如高精度视频的定价策略),以及创意同质化风险(用户过度依赖模板生成内容)。

结语

一场“可灵速度”的长跑

从2024年6月首次发布到2025年4月迭代至2.0版本,快手仅用10个月便完成20余次技术升级,用户规模增长25倍。这种“快迭代、强落地”的策略,既源于快手对短视频内容痛点的深刻理解,也凸显其在AI竞赛中的紧迫感。

快手高级副总裁盖坤表示:“可灵AI将持续大力推动技术创新,用人与AI交互的全新语言,帮助用户实现复杂创意的精确表达,“我们的初心,是让每个人都能用AI讲出好的故事,我们也真切地希望这一天更快到来”。这场由快手发起的“智能创作革命”,或许正拉开AI时代内容生态重构的序幕。