7月30日,曾于四月底亮相中关村论坛的AI生成视频大模型Vidu正式上线,开放给全球用户使用。Vidu开放文生视频、图生视频两大核心功能,提供4s和8s两种时长选择,分辨率最高达1080P。
Vidu是北京生数科技有限公司(以下简称生数科技)联合清华大学发布的国内首个自研长时长、高一致性、高动态性视频大模型,该模型采用团队原创的Diffusion与Transformer融合的架构U-ViT,支持一键生成长达16秒、分辨率达1080P的高清视频。
据介绍,此次面向全球上线,Vidu在保持高动态性、高逼真度、高一致性等效果优势的同时,新增了角色一致性(Character To Video)、动漫风格、文字与特效画面生成等特色能力。生数科技方面表示,Vidu实现了业界最快的实测推理速度,生成一段4秒片段仅需30秒。目前Vidu无需申请,用户直接使用邮箱注册即可上手体验。
在价格方面,Vidu提供免费版和3种收费机制。
其中,免费版每月有80积分,可生成20个4秒视频;按月度订阅,标准版、高级版、尊享版价格依次为19.99美元、59.99美元、199.99美元(约合人民币145.22元、435.80元、1452.83元),每月分别可额外获得240、800、2880积分,视频时长延长到8秒,可去水印和商用。目前在上线前两周,Vidu提供限时5折优惠。
用户如果按年订阅,标准版、高级版、尊享版目前的价格分别是7.99美元/月(约合人民币57.80元)、23.99美元/月、79.99美元/月。此外,Vidu还开放了API内测申请。
具体来说,今年2月美国OpenAI公司推出的视频生成“世界模拟器”Sora引发关注,国内包括快手、智谱、生数、爱诗、HiDream智象未来等公司和机构都已陆续公布关于多模态或视频生成模型新产品。
公开信息显示,目前,业界对类Sora视频模型的评价主要围绕三大核心维度:语义理解准确性、画面美观性、主体动态的一致性。
而如今上线的“清华系sora”产品Vidu,能够准确理解并生成提示词中的文字,包括字母、数字等,并能生成文字特效。对于第一人称、延时摄影等镜头语言,Vidu也能精准表达,用户只需细化提示词,即可大幅提升视频的可控性。同时,Vidu支持大幅度、精准的动作生成,保持高流畅、高动态的画面效果。
在画面质感上,Vidu在构图、叙事和光影等方面,能达到接近电影级效果。此外,Vidu还能生成影视级特效画面,如烟雾、炫光效果、CG特效等。
早前,生数科技联合创始人、CEO唐家渝对钛媒体App表示,“与Sora相比,目前国内 AI 视频生成领域差得还很远,但我们一定要去追赶它。相比去年追赶ChatGPT,挑战Sora还是比较容易一些——Sora大概相当于GPT-2阶段,并没有形成明显的先发或垄断优势。而且从底层架构来说,至少我们团队是非常熟悉的。所以一旦团队积累大量的工程化经验,肯定有可能追赶(超越Sora)。”
“时间上的话,确实我们很难去精确预估是一、两个月,还是半年、一年的时间。但总体上来讲,我们觉得这个时间不会太长,今年内肯定是能去达到一个至少是目前Sora版本效果的。至于是否能更往前的话,我们也在努力。但我们现在确实很难对外说是非常明确的3个月、6个月。但这件事我们的信心还是非常足的。”唐家渝称。
值得一提的是,7月26日,生数科技的投资方之一、同样是清华系的智谱AI,公布支持生成6秒时长的 AI 视频生成产品“清影”,目前也已经公开测试。付费模式层面,首发测试期间,所有用户均可免费使用。而加速时间的话,付费5元,解锁一天(24小时)的高速通道权益;付费199元,解锁一年的付费高速通道权益。
对于智谱 AI、百度与生数的定位关系,唐家渝曾向钛媒体App坦言,两家机构均不会与生数科技起冲突。其中,百度属于All in语言模型,对于多模态模型都是与生数合作,包括3D、图像等层面。
“目前的视频生成长度在4-5秒左右,我们近期将重点突破长视频生成能力……尤其长视频画面的连贯性,我们还在做一系列攻克工作。”唐家渝表示。