AI视频的后Sora时代

AI视频的后Sora时代

 

2022 年,Stable Diffusion 和 ChatGPT 先后点燃了 AI 图像生成和大语言模型的燎原火星,两个领域也一同组成了此次生成式 AI 浪潮的最大两块版图。与之相对的是,AI 视频生成虽受关注,却因技术进展缓慢鲜见波澜。直至 2024 年 2 月,OpenAI 以世界模拟器的名号发布了视频生成模型 Sora,可以生成长达一分钟的逼真视频。这个领域自此变天了。

从生成图像到生成视频

视频本质上是连续的图像,视频生成与图像生成也同属于视觉生成任务,因此绝大多数视频生成算法都是从图像生成算法发展而来。

两大路线解百倍难题

相比静态图像生成,视频生成是一项难百倍的任务。视频由图像连续拼接而成,按照影视业常用的帧率范围 10-30 帧/秒,一条 5-10 秒的视频片段就需要百余张图像合成。更重要的是,将这些静态图像拼接形成动态视频时,还需要考量时序连贯、主体一致、符合常识等多方面的要求。这也解释了为什么 Midjourney 在 2023 年底推出的 v6 版模型已经能够生成真假难辨的超高品质图像时,同期的 Pika 1.0 还局限在时长 3 秒、风格特定的低清视频片段上。

面对视频生成难题,学术界和产业界积极探索,至 2023 年已大致收敛至自回归与扩散模型两大路线。

作为自回归方案的代表,Transformer 架构已经在语言模型上大获成功,其极强的扩展能力驱动了大模型时代的规模定律(scaling law),即通过提升模型参数、训练数据和成本来增强模型性能。受此启发,清华团队 2022 年研发的文生视频模型 CogVideo 便采用了 Transformer 网络和下一帧预测的思路,将视频离散化为图像帧衔接在文本描述后,构成自回归序列,然后放大规模训练,取得了彼时领先的视频生成效果。

扩散模型则凭借着 Stable Diffusion(SD)等模型的走红,在图像生成领域大放异彩。其基本原理是先对样本添加噪声,再训练神经网络学习逆向去噪的过程,从而实现拟真图像的生成。视频扩散模型通常会以图像扩散模型为基础,用文本描述和先生成的图像作为引导与约束,继续生成相对稳定的图像序列,进而合成得到视频。2023 年,SD 原作团队推出的 Stable Video Diffusion(SVD)便用了自家的生图模型 SD 2.1 作为基座,通过添加与时序相关的神经网络层、在高质量的视频数据集上精调而来,同时具备文生视频和图生视频能力。

Sora 引领 DiT 热潮

时间来到 2024 年初,Sora 横空出世,以惊人的预览效果震撼全球,也引领了视频生成领域的 Diffusion Transformer(DiT)热潮。

2022 年末,DiT 架构由当时还在 Meta 实习的 Bill Peebles 提出,他把扩散模型中常用的 U-Net 网络换成了 Transformer,从而可以高效地消化更多的数据和算力,已在语言模型中得到验证的规模定律便成功扩展到了文生图模型。Bill 随后加入 OpenAI 领导 Sora 项目,进一步将 DiT 和规模定律扩展至视频生成中。DiT 模型中,事实参与扩散过程的是视觉块(visual patch),视觉块通常由一个网络对输入编码而来。这一编码网络在 Sora 中得到升级,除了能处理静态图像得到空间块外,还能编码视频得到时空块(spacetime patch),实现了任意视觉输入到潜空间的统一压缩,也是 Sora 支持生成不同时长、比例和分辨率视频的关键原因。压缩得到的时空块随后进入 DiT 网络做规模化训练,随着数据量和训练算力不断翻升,视频生成效果愈发逼真,最终在 2024 年初预览发布了远超行业前沿水平的 Sora,可以根据提示词生成长达一分钟、细节惊艳、空间稳定的视频。

伴随 Sora 发布,OpenAI 同步披露了一份技术报告,尽管隐藏了许多细节,但还是将 DiT 和规模化效果深深地印入了行业人心中,自此引领了视频生成模型的 DiT 热潮。作为佐证之一,DiT 原始论文在 2023 年的被引次数约为 200 次,而 2024 年至今已被引用近 800 次,这近 3 倍的增长很难不归功于 Sora。学术论文之外,更具说服力的是 Sora 之后陆续拍马赶上的诸多模型 —— Sora 发布次月,便出现了快速尝试复现的开源项目 Open-Sora 和 Open-Sora-Plan;三个月后,几家商业公司陆续发布对标 Sora 的闭源模型产品,如快手可灵、Runway Gen-3、Luma Dream Machine 等,都抢在 Sora 前对公众开放使用;下半年,视频生成模型的迭代不止,DiT 热潮亦不息。

AI视频的后Sora时代

图源:https://ailab-cvc.github.io/VideoGen-Eval/

新方案的探索仍在继续

在 Sora 的启发下,视频生成模型的技术方案开始大幅度收敛至 DiT 架构。但热潮之外,仍有新的方案在尝试。除了各类改进版 DiT 外,最值得留意的便是自回归预测的探索。

DiT 将 Transformer 引入了扩散模型,极大提升了后者的扩展能力,但其底层仍然是围绕加噪去噪的扩散过程做训练,属于前述两大路线中的第二条。那么自回归模型在后 Sora 时代还有探索的价值吗?答案是肯定的。2024 年 5 月,OpenAI 发布了原生大模态大模型 GPT-4o,将大语言模型中词元(token)的概念从文本拓展到了语音和视觉,同样基于自回归 Transformer 架构训练,打通了语音和图像的理解与生成。遗憾的是,GPT-4o 仅能理解视频却无法生成。9 月底,智源研究院发布的 Emu3 补上了这一空缺。同样作为原生多模态大模型,Emu3 将文本、图像和视频分别离散为 token,沿袭预测下一个 token 的思路,终于在视频生成任务上取得了与扩散模型相当的效果。Emu3 原生支持生成 5 秒时长的视频,且得益于自回归路线,模型理论上可以将视频无限续写下去。

新一轮百模大战打响

与 ChatGPT 引燃的大语言模型百模大战颇有几分相似,Sora 指明方向后,属于 AI 视频的一轮百模大战也逐渐打响。

模型分层初步形成

据不完全统计,Sora 发布至今的三个季度中,视频生成领域已有超过 30 款开闭源模型问世,且模型已初步形成了视频生成质量的分层。

值得说明的是,视频生成模型的评测体系远不如大语言模型完善。相比大语言模型,视频生成模型在发布时,更多通过演示样本而非各类评测榜单来宣告实力。一方面,视频生成领域内业界公认的评测指标尚较为有限,侧面体现视频生成发展还处于快速发展的早期阶段。另一方面,视频评价本身更依赖于视觉感知,相比抽象而确定的语言模型评测题目,人类主观评测会更具指导意义。因此,常见做法是将视频生成质量拆分为若干可自动化测评的指标,如 VBench 就由时序质量、静态帧质量、提示词遵循等层面共 16 个维度的得分构成。腾讯 AI Lab 发布并持续更新的VideoGen-Eval 项目则精心设计了 700 余提示词,涵盖不同领域、风格和能力要点,然后把模型对应生成的视频公示,直接交给用户筛选对比,眼见为实。此外,Artificial Analysis 新上线的视频生成竞技场,则参考了广为流行的大语言模型竞技场,通过用户盲测来对比模型效果,只是目前测评数量有限,公信力还有提升空间。

综合上述评测和用户反馈,闭源模型持续领先。快手在 6 月推出自家首款视频生成模型可灵 1.0,9 月又推出了升级版可灵 1.5,生成质量大幅提升,最高分辨率也从 720p 提升到了 1080p,在国内外都收获了不错的口碑。Runway 曾在 2023 年凭借视频风格化模型 Gen-2 受到追捧,其在今年 6 月推出了对标 Sora 的 Gen-3 Alpha,以电影级画质和细节见长。9 月,MiniMax 在海螺AI应用中上线了视频模型,同样表现亮眼。此外,腾讯混元文生视频、字节跳动新上的 Seaweed、Luma Labs 不停更新的 Dream Machine、Pika 近期发布的 Pika 1.5 等,也都各有所长、抢优争先。

开源模型奋力追赶,生态仍处于孕育期。北大团队早期便致力于复现 Sora 的 Open-Sora-Plan,当前已更新至 1.3 版本,从初期的文生视频扩展到了对图生视频和首尾帧控制等的支持。智谱 AI 在 8 月开源了自家产品清影背后的 CogVideoX,从两年前 CogVideo 的自回归路线切换到了 DiT 架构,CogVideoX 有 2B 和 5B 两个版本,可在消费级硬件上运行。10 月份,初创团队 Genmo 开源发布了视频生成模型 Mochi,在提示词遵循方面有不俗表现,甚至在竞技场盲测中跻身前列。总体而言,开源模型的更新迭代更快,尽管现阶段视频生成质量与商业模型仍有明显差距,但可以预期未来会出现如开源大语言模型中 Llama 一样地位的模型和繁荣的生态。

AI视频的后Sora时代

腾研AGI路线图图谱截选

围绕模型落地应用

大语言模型应用底层存在一个简洁的模型交互逻辑,即文本输入、文本输出。与之相比,视频生成模型在应用时更为复杂,这是因为视频作为一种视觉模态的内容,精细化的控制和编辑可能需要超越模型的能力,对模型和周边配套工具都提出了更高的要求。

首先需要从模型层面,扩展对输入的支持。以最基础的文生视频为例,要想得到称心如意的视频,需要用户较为精确完整地描述画面内容,这将大大提升使用门槛。所以,多数模型也支持图生视频能力,即基于用户上传的一张图片续写生成视频。不止首帧控制,Luma Dream Machine 等模型还提供同时控制首尾帧的能力,让用户可以上传图片指定视频的开头和结尾。除了文本和图片作为输入,Runway 在 10 月还为 Gen-3 Alpha 添加了名为 Act-One 的视频处理能力,可以实现表情动作的高精度捕捉。这些都依赖于模型本身能力的支持。

其次是配套控制工具的完善。无论是通过文本提示词还是上传图片视频来约束视频的生成,用户都较难做到对视频内容的细粒度控制,需要围绕模型能力开发更多选项。以画面的动态控制为例,Luma Dream Machine 在提示词输入框中引导用户用 Camera 关键词来交互式选定运镜方式,可灵 AI 则分别为文生视频和图生视频增加了运镜控制和运动笔刷选项,这些都能帮助创作者实现对镜头更精细的控制,以直观的操作达成更满意的效果。生数科技 Vidu 支持从图片中选定主体作为视频生成的参考,从而更好保证生成一致性。

最终,视频模型应用的完整体应该是全流程的 AI 原生创作工具。广大视频创作者们早已习惯了手边丰富专业的创作工具,单一的 AI 生成能力只能作为素材的补充,更不用说传统厂商代表 Adobe 也推出了自己的 Firefly 视频生成模型。因此,通过补齐模型周边的工具为创作者更完整的 AI 视频创作体验,从而改变传统创作范式、降低创作门槛、吸引并留住更多用户,是一众厂商正在做出的选择。Runway 工作台已提供了 30 余款 AI 工具,包括擦除替换、视频对口型、超级慢动作等,还在测试的 Beta 版编辑器,则直接将形如 FinalCut、Premiere 等传统剪辑软件的简化版搬进了工作台。字节跳动旗下的即梦 AI 推出了故事创作模式,围绕分镜进行素材组织,每一个分镜都可以基于文本或图片由 AI 生成,以此适配创作工作流、更好服务创作者。

AI视频的后Sora时代

腾研AGI路线图图谱截选

加注培育创作生态

从视频生成模型到配套工具应用,在吸引和服务创作者之外,模型厂商们也通过各种方式,着力培育 AI 创作生态,以形成商业闭环。

常见的做法是围绕工具打造社区,举办比赛扩大影响。视频生成模型训练好后,需要封装为产品以供体验,无论网页端还是移动端应用,厂商都在积极地植入更多用户创作内容等,给工具添加社区属性。比如可灵 AI 中的创意圈、即梦 AI 的灵感社区等,Pika 和 PixVerse 甚至直接将发现页作为产品主页,鼓励用户停留浏览。另一方面,Runway 与 IMAX 等合作组织的 Gen:48 AI 影片创作比赛已经办到了第三届;腾讯研究院、清华大学建筑学院和央广网联合发起的未来城市 AI 创意设计大赛,鼓励选手用 AI 工具来描绘未来城市;清影、海螺、Pika 等在各自社区中发起的各类挑战赛更是数不胜数。考虑到 AI 视频仍处于萌芽发展期,这些都将帮助 AI 创作生态的孕育生长。

此外,与艺术家的合作几乎已成模型厂商的必选项。快手可灵 AI 联合 9 位知名导演,发起了 AIGC 导演共创计划。OpenAI 虽迟迟未开放 Sora 的使用,但持续且频繁地通过官方媒体账号上传艺术家用 Sora 创作的几分钟影片作品。事实上,预览发布前 Sora 团队就已在和视觉艺术家、设计师、影视工作者等业内人士密集互动,收集了许多一手反馈。不少人认为,Sora 预览影片的高质量和艺术效果一定程度上得益于这些艺术家的参与,这也启发了一众后发的模型。因此,与艺术家的合作不仅仅是在构建生态、创造影响力,已经可以事实上反哺视频模型的训练,将与产品中来自用户的生成反馈数据一起,形成数据飞轮、打造商业闭环。

世界模拟器还有多远

OpenAI 在 Sora 的技术报告中数次提及模拟器,并在标题和结论中充满自信地论定视频生成模型是实现世界模拟器的可行路线,那么大半年后,我们距离世界模拟器还有多远?

视频生成的阶段性不足

如果将大语言模型比作对语言构筑的抽象世界的模拟,当前 GPT-4o 等模型已经做的相当不错,而且通过 ChatGPT 广泛可用。与之相比,视频生成模型在模拟世界之前,现阶段还有几个显著的不足。

视频生成的成本过高。受底层扩散过程的制约,一次生成需要多步迭代才能完成,对于动辄超百亿参数的视频生成模型,这可能意味着尖端显卡数十秒甚至数分钟的运转。经过各种优化尝试,目前 Runway Gen-3 Alpha Turbo(Gen-3 Alpha 的优化版本)生成一条 10 秒的 768×1280 分辨率的视频价格为 0.5 美元,可灵 AI 生成一条 10 秒的高品质模式视频价格为 7 元人民币。同样的价格若用于大语言模型的调用,大致可以生成百万量级的 token。可见,视频生成的成本远未达到人人可用的阶段。而且 Sora 迟迟未面向公众开放使用,很重要的一个因素就是成本难以支撑 ChatGPT 级的请求。

模态不全,缺少声音。作为视觉信号的补充,声音是物理世界的重要模态之一,也是模拟世界不可或缺的一块拼图。如前所述,类 Sora 的视频生成技术路线实际是从图像生成发展而来,实质仍是对视觉信号的理解与生成,而听觉信号有相当不同的数字特征和既有的研究技术路线,如何扩展与统一仍是个开放的问题。值得一提的是,Meta 10 月份预览发布的媒体生成系列模型 Movie Gen 中就包含了一个独立的声音模型 Movie Gen Audio,可基于视频画面和文本提示词来生成合理的配音,算是面向全模态媒体生成的一次尝试。

稳定的长视频生成尚未攻克。截至目前,绝大多数视频生成模型在发布时,给出的生成视频预览仍局限在 5-10 秒。虽然不少厂商声称可以通过续写的方式将视频延长,但纵观所有模型,仍只有 Sora 提供了约 30 秒的稳定长镜头。这很大程度上是因为训练数据的掣肘,网络公开视频和版权影视作品基本都是经原始拍摄素材剪辑而来,成片中单镜头时长往往也就 3 秒左右,远不足以让视频模型充分观察到物体的长期运动,更妄谈底层物理规律的学习了。

模拟生成游戏带来曙光

尽管高质量的稳定视频生成仍处于很早期,但不影响业界和学界对视频生成通往世界模拟的憧憬和热情。除了 OpenAI,Runway 自去年就已将其研究称为通用世界模型,认为世界模型是指能够理解环境内在机理并能模拟环境未来发展的一个系统,通用世界模型要将环境拓展指整个物理世界。学术领域,扩散生成模型不断有亮眼的结果出现,在生成一切的思想驱动下,基于扩散生成的世界模型研究,也迈上了快车道加速推进。其中,最令人感到振奋的,是视频游戏生成模型的进展。

8 月,Google Research 团队以《扩散模型是实时游戏引擎》为题发表了 GameNGen 模型,可以 20 帧/秒生成经典第一人称射击游戏 DOOM 的游玩视频,且在生成视频与真实的游戏视频片段中,人类测试员几乎难以分辨,引发了广泛讨论。事实上,日内瓦大学和爱丁堡大学的团队早在 5 月就发布了类似的 DIAMOND 模型,基于游戏的前几帧画面和当前操作输入来预测下一帧画面,10 月份受 GameNGen 启发又从原本的小游戏拓展到了第一人称射击游戏 CS:GO 上,训练好的模型支持在有限的清晰度下以约 10 帧/秒真机上手试玩。

10 月底,美国两家初创公司 Decart 和 Etched 联合发布了一款世界模型 Oasis,能够生成交互可玩、实时更新、与游戏 Minecraft 一样的开放世界,并且直接提供了网页版可访问试玩。尽管 Oasis 清晰度仍较有限、大幅镜头切换时也会有生成幻觉,但整体操作响应和游戏体验已较为接近 Minecraft,模型基本做到了游戏世界的实时模拟和短期预测,初步实现了视频生成模型作为游戏引擎的愿想。

AI视频的后Sora时代

图源:https://oasis-model.github.io

考虑到游戏引擎本质上也是一种世界模型,区别仅在于游戏世界的尺寸大小、开放与否,那么这些视频模型在游戏模拟上的进展,实际已让我们窥见进一步走向世界模拟器的可能性。只是相比游戏,现实世界的模拟复杂度和数据收集成本都会指数级增加,克服这些问题既是提高视频生成质量的需要,也将引领我们通往更强大的世界模拟器。

Sora 仅仅是一个起点。

(感谢腾讯研究院李瑞龙、袁晓辉在本文撰写中提供的帮助。)

参考资料:腾讯研究院AGI图谱数据库、#腾讯研究院AI速递、#AI每周关键词Top50

作者:曹士圯

来源:腾讯研究院

扫一扫 微信咨询

联系我们 青瓜传媒 服务项目

商务合作 联系我们

本文经授权 由青瓜传媒发布,转载联系作者并注明出处://www.f-o-p.com/360315.html

《免责声明》如对文章、图片、字体等版权有疑问,请联系我们广告投放 找客户 找服务 蘑菇跨境
企业微信
运营大叔公众号
运营宝库