论视频生成模型对当下内容创作的影响——以 SORA 为例

2024 年 2 月 16 日，OpenAi 发布了自己的视频生成模型『SORA』。这是 OpenAI 既 ChatGPT、DALL-E 之后的第三个革命性人工智能产品。从 OpenAI 的演示视频中可以看出，由 SORA 生成的视频不仅能够还原真实场景中的细节（比如汽车在行驶时扬起的沙尘、眼镜表面反射的周遭的景物），还能够对同一个事物进行保持（在运镜时，统一事物不会消失或者变成其他事物）。因此，尽管目前 SORA 还没有向大众开放，互联网上已经有很多诸如『SORA 将会颠覆影视行业』之类的言论，本文将结合现实，探讨 SORA 在未来内容创作中的可能性。

1. SORA 能做什么

根据 OpenAI 的官方介绍，SORA 在视频生成上具备以下能力：

生成全高清 1080p 视频：Google 曾经有一个类似的项目，叫 Phenaki。但当时的 Phenaki 生成的视频分辨率极低，并且生成的视频还是经过计算，来提升分辨率，但效果依然差强人意（和 SORA 相比）。而 SORA 可以直接生成全高清 1080p 视频，也就是说，由 SORA 生成的视频可以直接发布到视频平台，而不需要通过计算来提升画质；
真实的物理模拟：还是和 Phenaki 相比，当年的 Phenaki 的物理模拟效果并不好，也就是说，由 Phenaki 生成的视频无法真正的反映现实世界中的各种现象和场景。而 SORA 却可以做到真实的物理模拟，不论是汽车在山路上行驶时所扬起的沙尘，行驶的列车的窗户上人的倒影，舞龙时龙身上的『鳞片』摆动，都足以体现 SORA 的物理模拟能力。这也是为什么英伟达科学家Jim Fan 评价 SORA 是一个『数据驱动的物理引擎』；
电影般的效果：SORA 的画面可以模拟出非常真实的焦外画面。在其生成的视频中，焦外的虚化非常自然；同时，在生成有运镜的视频时，也能模拟出自然的抖动和呼吸效应；
物体的保持：SORA 在生成环绕和平移运镜时，画面中的人和事物会同步地进行移动，并不会因为画面的运动而发生『三维空间』上的变化；此外，SORA 也能对画面中长期存在的事物进行保持，并不会随着视频时间的推进而消失或变化。

SORA 的能力是非常惊人的。因此，只要有合适的 prompt，就可以用 SORA 生成我们想要的视频片段。甚至可以说，如果联动 ChatGPT，用 SORA 创作一部电影都不是问题。

但是，事实确实是如此吗？

2. 对 SORA 现实应用的分析

2.1 现实中 AIGC 的应用分析

在开始讨论 SORA 以及其他视频生成模型的现实应用和局限之前，我们不妨先来回顾一下近几年 AIGC 的现实应用。

首先我们先来复盘一下 AIGC 在视频创作方面的应用。近年来，AI 在视频创作中所占的权重越来越高：文稿可以用 AI 来写，配音可以用 AI 来做，视频素材可以让 AI 直接从素材库中提取并选择合适的转场进行拼接。可以说，AI 几乎霸占了视频创作的整个流程，而人所要做的，只是点一下『上传』按钮而已。除此之外，『数字人』也是 AI 在内容创作的一个分支。通过 AI 模拟出真实的人的相貌、声音和肢体动作，从而起到替代真实的主持人的作用，主要应用在直播带货这一比较特殊的媒体领域中。

其次是在编程领域，AIGC 的作用也不可小觑。既然是程序员写出来的东西，那么也要造福程序员。一些语言模型，例如 ChatGPT、LLAMA 都具备编程的能力。一些互联网公司，例如 Mozilla，基于大语言模型开发出了自己的编程 AI —— mozilla.ai，用于帮助程序员调试程序，甚至替代开发文档。

此外，AI 还被应用于图形设计、三维建模、音乐创作、文章撰写等等诸多领域。可以说，在时代发展的潮流中，AI 已经『独占鳌头』。它可以凭一己之力替代整个内容创作团队。这不是危言耸听，而是已经在我们身边发生了：一些大公司开始裁员，一些基础性、机械性的工作已经逐渐开始被 Ai 替代；一些个体制作人在 AI 的加持之下，创作效率飞速提升（对，说的就是那些抖音里解说电影的），从而获得了十分可观的收益。因此，AIGC 的浪潮已经到来，它早已渗透进了我们生活的方方面面，对人类社会产生了不可忽视的作用。

2.2 AIGC 的现实问题

AIGC 确实是一个革命性的产物，它不仅仅让资本家提升了生产效率，节约了生产成本，还给我们的生活带来了『便利』，让我们无法自拔。

2.2.1 由 AIGC 导致的失业潮即将出现

提高生产效率，是 AIGC 的最强项。在好几年前，大量机械的、复杂的工作可以被人工智能替代了，只是当年的人工智能『不那么智能』罢了。而现在的人工智能具备了内容创作的能力，也可以应对一些更加灵活的工作。资本家们看中了 AIGC 的这一特点，开始尝试用 AI 替代一些基础的，且『只有人能完成』的工作。这也是大公司们开始纷纷裁员的原因之一，那些基础繁杂的工作不需要再由人来完成，而只需要找一个懂相关技术的人来控制 AI 来完成就行了。这就类似于当年机械化流水线的出现。当生产技术提升之后，所需要的，低质量的劳动力就会减少，取而代之的是机械化生产和少量的，更高层次的劳动力。这样一来，资本家的投入减少了，生产效率反而提高了，收获的利润也随之而提升。

目前，由 AI 而起的失业潮还未大量出现。但是，这一趋势已无可避免，虽然还未出现，但已经在地平线上了。低级的程序员、办公室白领等等职业将会面临严重的失业风险。这也是为什么医生、教师、律师、公务员等职业被称为『铁饭碗』，一方面他们不易受资本家和市场规律的控制；另一方面是因为，这些职业在短期内无法被 AI 替代。

2.2.2 AIGC 已经开始在我们的数字内容中『投毒』

内容创作是 AIGC 的老本行。现代人的日均数字内容消遣时长是惊人的，而这些数字内容，很多都是 AI 的『杰作』。大模型在训练时，是以人的需求为标准的，因此它所生成的内容一定是要能达到人的预期的。所以，由 AI 生成的数字内容也是如此，它能够牢牢抓住人的心理预期，并以此创作内容。现在抖音上大量的，以解说电影或者讲故事的视频号，就是因此而吸引无数的关注和点赞的。

那么 AIGC 创作视频有问题吗？我觉得没问题；那 AIGC 创作的内容好吗？那我会说 AIGC 创作的内容很好，不仅仅是好，是好到无法言说的『好』。由于其本身的特性，AI 生成的内容具备以下两个特点：一是完美无缺，二是直戳人心。这两个特点都来自于其训练的过程，是无可厚非的。这是它的优势，也是它所产生的问题的根源。人作为内容的消费者，当大量的 AI 生成的内容出现在其面前时，人就会无法自拔。这就好比吸食毒品，当一次又一次地获得由内容刺激而产生的『爽感』，人就会渴望越来越多的，这样的数字内容；久而久之，就会产生『脱敏』，也就是类似于『电子阳痿』的效果。

2.2.3 其他 AIGC 的滥用

除以上两点之外，我还想再谈论一个现实中，我身边真实发生的现象。在大学里，越来越多的学生开始用 AIGC『糊作业』，甚至整一篇文章都是 AI『写』的。我的一位老师曾经在朋友圈发过这么一段话：出现这样的现象我们也无能为力。我也曾经多次思考过，如果以后我的学生交上来的作业是 AI 写的，我该如何评判这些作业的优良等级？亦或者是，当我看到这些冷冰冰的，由 AI 写的东西，我的内心会有多难受？

2.3 对 SORA 的期待

言归正传，刚刚探讨了很多 AIGC 的问题，但我们也不可否认它的强大之处。SORA 作为一个可以生成视频的『世界模型』，它能做的，远比我们想象的要多。在现实的影视创作中，有一个标准的流程，我们将以电影制作的流程为主线，探讨 SORA 在现代影视创作中的可用武之地。

2.3.1 策划——用 AI 塑造一场还未开场的『梦』

如果说电影是造梦的艺术，那么策划就是梦开始的地方。这个过程包括构思核心立意、敲定故事线、塑造人物、编写分镜脚本等等。这个过程的关键点在于：编写一段扣人心弦的故事，塑造一个或几个形象丰富的人物，并且能在电影较短的时长中表达核心立意。而编写分镜则是设计表达这些关键点的方式。尽管 AI 创造的内容完美无瑕，直戳人心，但它们的故事并不是好故事，情节不具备层次性，人物形象过于单一，并且有概率会出现逻辑上的问题。但是，在已经写好的剧本之上，利用 AI 本身具备的特性，制作分镜却是切实可行的，并且已经有团队开发出了相关的产品。

AI 除了可以帮助『有绘画困难』的分镜师绘出分镜，还可以根据语言的描述，绘画出想要实现的效果，把『梦』变为现实。

2.3.2 预备——用 AI 安排各项工作

在前期工作做好之后，就需要开始对拍摄前的各项事务进行安排。预备阶段的工作非常繁杂，事务比较琐碎，要对人和事做好充分合理的安排，否则就会在后期出现问题。在这方面，AI 可以作为助理，帮助我们安排和策划工作。再复杂的任务，AI 也能有条有理地列出来。并且，如果是与数据有关的任务，Ai 甚至可以直接替代人来完成，比如分析资金需求，查找合适的拍摄场地等等。

2.3.3 拍摄——用 AI 造梦

对于 SORA 而言，拍摄才是它的主场。而策划和预备阶段主要是 ChatGPT 的工作。事实上，在实际的运作中，拍摄是影视创作中最困难的阶段，要涉及到的因素太多太多：灯光、布景、演员、摄像机等等。而这些对 SORA 来说都不是问题。因为它本身就能生成具有电影感的视频。我们可以用 SORA 来替代高速摄影机，通过输入描述词就能生成 1000 帧的慢动作视频；我们还可以用 SORA 直接生成航拍镜头，而不需要考虑天气和地形的因素；用 SORA 还能实现顺滑的运镜，可以省去 dolly 车、机械臂等等厚重烧钱的器材。

可以说，如果用 SORA 来制作电影，整个团队中的 80% 的人力成本都会被省去，不需要灯光师，不需要摄影师，不需要焦点员；器材投入的成本也可以大幅降低，不需要昂贵的电影机和镜头，不需要笨重的稳定器械。一切都是那么神奇，由 SORA 变魔法般地完成了。

2.3.4 后期——用 AI 再加点『特技』

SORA 除了能生成视频，也能对视频进行拼接。也就是说，专场、特效之类也可以交给 SORA 来直接完成。甚至不需要剪辑师和调色师，由导演一个人点点鼠标，一部电影就完成了。

2.4 小结

经过这么一分析，SORA 似乎除了前期编剧的过程之外，几乎可以以『一模之力』打通整个影视流程，彻底颠覆影视行业。就当前 AI 在视频创作上的应用来看，SORA 极有可能是 ChatGPT 之后，视频创作者的下一个创作利器。有了 SORA，不需要再为拍摄设备投入成本，更不需要亲自去拍摄相应的镜头，并且连后期都不用做，实现『一键出片』。

3. 对 AI 生成内容的三问

3.1 人类对 AI 生成内容的认可问题

不管我们持什么观点，AI 确实已经深入了当代的内容创作领域。你我每天看的段视频，看的网络爽文等等内容，很多都是由 AI 生成的。那么，我想问读者，你对这些 AI 生成的内容满意吗？当然，读者的回答肯定是满意的。不然读者也不会沉迷于抖音里的电影解说对吧？很明显，人类并不排斥 AI 生成的内容（前提是不知道这是 AI 生成的）。更有甚者，开始利用 AI 来生成成人内容。2 月初时，Taylor Swift 就提出诉讼要求 Twitter 删除平台上所有 AI 生成的与之有关的成人内容。由此可见，人类不仅不排斥 AI 生成的内容，并且还沉迷其中。

当然，当人们开始意识到某些视频是 AI 生成的时，便开始对这些由 AI 生成的视频嗤之以鼻。而有一群人，他们发现 AI 可以创作出可以满足自己需要的内容，便开始训练自己的 AI，让 AI 为自己的内容需求服务（说的就是用 AI 生成成人内容）。

因此，人类对 AI 生成的内容实际上是十分认可的，毕竟 AI 本身就是按照人的预期来训练的。不管人类嘴上怎么唾弃，但当他们打开抖音时，又会陷入那些由 AI 生成的『安乐窝』中，无法自拔。

3.2 AI 是否会完全替代内容创作者

技术的进步是飞快的，也是无法预知的。几千年前的古人是绝对不会想到，现代人可以通过一个小型的手持终端，和相距几千公里外的家人脸对脸聊天的。所以，我们无法预知未来的 AI 能发展到什么程度，是否会产生所谓的『智能』。但就目前的形势来看，是极有可能的，并且AI 完全替代内容创作者也只是时间的问题。

有人会质疑 AI 的创作能力，认为 AI 只会创造陈俗烂套的东西。我们以音乐创作做一个引喻：我们可以认为音乐创作就是不同的音色的，不同的音符的组合。世界上只存在 A、B、C、D、E、F、G 这七个音符，而写出来的乐谱也只是将这些音符做相应的排序而已。但是，音乐创作并没有音符的数量的限制而停止，反而一直在推陈出新。这是为什么？因为一首音乐除了音符，还有节奏，还有不同音色的乐器等等。如果把这三个因素视为三个参数，除第一个参数只有 7 个值，另外两个参数都有 50 个值，假设一首歌用到 50 个音符，3 种不同的节奏，8 种不同的乐器，节奏和乐器随机出现，那么用数学的角度来分析，至少可以创作出 $7^{50} \times C^3_{50}\times C^8_{50} \approx 1.09 \times 10^{33}$ 种不同的乐曲。而现实创作中，节奏不可能只有 50 种，而乐器的种类也是数不胜数，而且相同的乐器也具备不同的音色，更不用说利用电子合成器可以合成任意音色的乐器了。也就是说，音乐本身具备多种不同的因素，这些因素的不确定性导致了音乐的多样性。

我们将音乐创作的例子类比到 AI 生成内容上，就不难看出，只要 AI 内部参数足够丰富，神经网络足够复杂，就可以如流水般无穷无尽的产生内容。并且也通过前期的人为干预，使 AI 具备一定的随机性。甚至可以认为，当 AI 具备了一定量的参数后，可以模拟出整个宇宙的物理规则，实现毕达哥拉斯学派的梦想，创造一个『万物皆数』的世界。

3.3 AI 生成内容的版权问题

AI 生成内容的版权早已成为了热点话题，这也是一个棘手的、迫切等待解决的问题。今年年初，OpenAI 开始让 DALLE 生成的图像打上符合 C2PA 标准的水印，水印会出现在图像本身和图像的元数据中。对于 AI 生成内容的版权问题，我有自己的看法。首先，对于内容本身来说，产生内容的主体是计算机程序，并不是人。因此版权一说对 AI 生成内容是不奏效的。而这时又牵扯出另外一个问题：我用 Lightroom 处理用 SONY 相机拍摄的照片，产生内容的主体是照相机和计算机，但是这张图片的版权明显是属于我个人的，这明显和我先前的言论矛盾。诚然，这就是问题的核心，不论是我用 AI 生成内容，还是我用 Lightroom 处理照片，我都参与了整个过程，只是参与的程度不同而已。如果对整个过程再更加细致地分析，便又会产生更多的问题，比如 Lightroom 里面的消除红眼算不算 AI，诸如此类的问题一旦被拿出来讨论，就会更加的复杂。因此，对于 OpenAI 增加图片水印的举措，我是十分赞成的。

其次，对于内容消费者来说，在没有数字水印的前提下，他们是无法分辨 AI 生成的内容和真人创作的内容的。站在他们的角度看，版权问题仅仅针对于创作者和利益相关的企业和个人。对于消费者来说，他们只关注内容的质量，并不会过于关注其创作者是人还是 AI。因此，他们并不会在意 AI 生成内容的版权问题。想要让广大消费者接受 AI 生成内容的版权是十分困难的。所以说，AI 生成的内容根本就不应该具备版权一说。AI 生成的内容就好比是开源的程序，它固然遵守一定的内容规范，但并不具备实质上的版权属性。

4. SORA、未来和我们

SORA 在日文中发音为『そら』，也就是天空的意思。我对于 SORA 的未来，有着无尽的遐想，就像是一望无际的天空，可以有千万中可能性。尽管 SORA 本F身会和其他 AI 一样，对人类社会产生巨大的冲击，尽管它一定会产生产生各种各样的问题。但这并不妨碍我们对这一片蔚蓝的天空抱有美好的期许。或许它未来真的能够模拟出一个真实的世界，让我们能够在这一片数字的天空下傲游。

回到正题，视频生成模型对于当下的内容创作，必定会产生革命性的影响。它不仅仅会生成视频，而是会改变整个影视创作的结构和流程。我们不应对这一历史性的浪潮而感到畏惧，而是应该直面新技术的到来和普及，掌握控制人工智能的技能。让自己跟上时代的潮流，而不是被技术的洪流吞没。