Sora代表的“世界模拟”人工智能变局及应对

来源：综合整理 | 发布时间：2024-03-27

摘要：OpenAl最新推出的Sora视频合成平台运用前沿AI技术，实现了高清、动态的分钟级视频生成，展示出强大的真实世界模拟能力。这一突破预示着AI在模拟现实的能力上开启了新篇章。面对“世界模拟”能力构建这一人工智能新发展趋势，我国应强化国家战略部署，在人才培养和资源配置上做出针对性调整，促进中国人工智能发展壮大。

OpenAl最新推出的Sora视频合成平台运用前沿AI技术，实现了高清、动态的分钟级视频生成，展示出强大的真实世界模拟能力。这一突破预示着AI在模拟现实的能力上开启了新篇章。面对“世界模拟”能力构建这一人工智能新发展趋势，我国应强化国家战略部署，在人才培养和资源配置上做出针对性调整，促进中国人工智能发展壮大。

“由虚向实”的“世界模拟器”开端

Sora的核心使命似乎是推动“文本驱动视频创作”这一视频制作技术的应用，但实际上，由Sora生成的纹理清晰、逻辑严谨的人工智能视频，代表其官方技术文档中阐述的“新的模拟能力”正逐渐成熟。这种模拟能力不仅标志着人工智能在内容创造领域正在经历从文字、图片到动态视频的跨越，更昭示着人工智能的发展方向正“由虚向实”，走向现实立体空间的解析与模拟。这种对世界理解和表现方式的实质性转变，使Sora成为构建“世界模拟器”这一宏大愿景的新里程碑。

所谓“世界模拟器”，旨在开发一种具备状态更新机制的神经网络组件，它可以存储和模拟环境状态，进而根据接收到的当前情境信息，结合预期采取的行为，预测接下来可能出现的情境变化。这一模型通过对虚拟环境的仿真，试图捕捉并理解真实世界的运行机制，通过对比实际执行动作后的观测结果与预先预测的观测结果，持续优化自身的预测精度。Sora在扩散模型（Diffusion Model）和Transformer架构的双重加持下，在多模态生成任务上达到前所未有的水平。其利用Transformer模型来捕获输入数据（如文本描述）的高层次抽象和上下文信息，通过扩散模型逐步去除噪声并恢复出原始图像，二者相结合使Sora能够实现从文本到复杂动态视觉内容的准确转换和创造，创制出的视频内容符合基本观赏规律与人类常识，实现了虚拟世界中“再造”世界的初步尝试。

相较于ChatGPT等文本生成式人工智能在二维空间探索世界，Sora等视频生成式人工智能开始初步在三维空间模仿真实世界，并以人更容易接受的视频形式加以展示。值得注意的是，展示的前提是理解，理解越透彻，展示越充分。高精度仿真世界投影的出现，展现出算力、算法的进步，更体现出人类对物理世界理解的深入。Sora生成的视频之所以让人“惊叹”，更多在于它符合受众对真实物理世界的观察与体悟，让人感觉如“亲眼所见”。其背后是对相关物理规律，如近大远小、自由落体等进行深度挖掘、数字化后的成果。众多权威学者和业内专家发声强调，Sora在二维视觉信息的传播与时空维度的表现力上独树一帜，但并未达到对真实世界的全貌进行全面刻画和模拟的高度，尚未形成严格意义上的世界模型。但瑕不掩瑜，能够生成看起来像是在三维环境中自然移动和互动的视频，已经可以看作是人工智能“虚拟创世”趋势的关键节点。相应地，元宇宙等理念也不再停留于畅想层面，而是坚定地向前迈出了一步。

类Sora智能应用的潜在风险

类Sora应用的发展表现出构建“全真数字世界”这一人工智能演进趋势，这一趋势蕴含着深层变革，将重塑我们对传媒形态、信息真实、文化多元、军事演练的认知边界。

首先，在传媒业转型背景下，类Sora人工智能将引发传媒业结构性变革。随着智能技术逐渐渗透进传媒生产的核心肌理，如信息采集、文章撰写、编排审校乃至影像摄制等环节，传媒从业者将面临前所未有的转型挑战。尤其对于摄影师、导演及后期剪辑师等从业者而言，类Sora应用凭借其先进的AI视频创制能力，能够精准捕获并优化那些曾经倚重人力经验、流程化的操作。比如，模拟自然流畅的叙事节奏、再现细腻复杂的镜头语言，实现相对个性化的艺术构思。如此一来，劳动密集型工作的自动化替代进程在智能纪元将加速推进，结构化的就业秩序将出现深刻调整。

其次，视频真实性的基石正在类Sora应用的冲击下发生动摇，人类长期以来秉持的“眼见为实”信条将遭遇空前挑战。作为尖端AI视频生成技术的典型代表，Sora已超越单纯的图像篡改范畴，将虚拟与现实之间的界限模糊到令人惊叹的地步。这种伪造已经进入了“真实伪造”状态，超现实伪造技术不仅颠覆了传统的基于物理属性判断、摄像技法辨识、现场情景分析等手段的视频真实性检验机制，更让新闻报道的真实性原则陷入历史性的危机旋涡。未来亟待探索的是如何在虚实交织的世界中构筑起新的认知防线。

再次，文化多样性问题在Sora技术的广泛应用中显得尤为突出。从现在网络中流行的Sora生成视频及其官方报告来看，Sora生成的视频场景和人物原型虽涵盖了一定比例的非欧美元素，但整体基调仍显著偏向欧美审美趣味。这就意味着，受限于现有数据库中相对单一且西方中心化的基础资源，在尝试通过Sora塑造富含中国特色和本土文化底蕴的高质量人工智能视频作品时会陷入文化适应与表达困境，从而加剧全球文化多样性的流失。

最后，Sora展现出的精微视频生成能力，亦昭示出其在军事模拟领域的潜在威力。如同一位智谋深沉的棋手在无形棋盘上擘画战略蓝图，Sora可以较为精确地模拟物理现象的影响效果，构造宛如现实的战地景象，甚至进行战术模拟、虚拟战斗训练、武器系统研发等多元化实践应用。这项技术与实战数据相结合，将助力战略指挥者洞悉未来战争迷雾，预测对手行动轨迹，并据此优化决策，提升决策效能。

“世界模拟”人工智能变局的应对策略

面对“世界模拟”人工智能变局，也许可以从以下方面未雨绸缪，提前进行布局以应对新一代人工智能的挑战。

现实世界的原理转化。加快物理、化学等自然原理的数字化模拟及图像化运用。Sora的“强大”之处在于生成看起来很真实的视频，让人难分真假。其背后是对物理规律、物理世界的模仿与复刻。这需要物理原理的深度数字化及应用。物理、化学动作造成的衍生效应是需要重点突破的视频生成难点。

人员培训。培养文字表达能力强、逻辑清晰的人工智能使用者。Sora等人工智能，归根结底属于工具范畴。工具的使用有其特定的规则、逻辑。官方技术报告指出，Sora“对高度描述性的视频转译进行训练，可以显著提高文本保真度和视频的整体质量”。针对描述性不足的话语，甚至“利用GPT技术将简短的用户提示转换为更长的详细转译，并将其发送到视频模型”，以生成高质量的视频。可见，使用者对事物的形容能力直接决定了内容输出质量，这是一种新的工具技能，需要类似早期电脑操作培训的系统化训练。

对抗真实伪造。打造“人工生产”内容赛道。人工智能生成能力越强，人工生产的内容越“珍贵”。这与普通商品领域的“纯手工制造”有异曲同工之处。目前看来，即便是高度仿真的内容生成，也终究受限于元素的整合重组，并不能完全复刻真实世界的社会动态进程，这恰恰暴露出类Sora的人工智能内容制造系统的根本性短板。尤其是在牵涉社群福祉和个人命运的重大问题上，人们对于信息的真伪甄别、精确程度以及权威性有着强烈诉求，这就为传统的新闻传播领域创造出与AI工具迥然不同的生存发展机遇。至关重要的一环在于能否不断创造并推送切合人民群众实际需求和现实关切的内容。要着力锻造一条以真实性为核心、由人工精心编排的内容赛道，通过输送高质量的真实信息来抗击虚拟信息的肆意蔓延，从而在中国建立一个“真实”新闻传播实践的标杆模式。

中国素材出海。打造权威、开源的中文视频、文字语料库。在“世界模拟”人工智能时代，拟态环境中的中文信息生存权正受到严峻挑战。未来的人工智能内容生产，相关素材不进入算法，相当于当事方“不存在”。国外人工智能软件能否接收到来自中国的语料“投喂”，中国算法能否有相关优质资料进行训练，将是未来中文信息能否生存的关键。这需要我国视频素材掌握者与开发者深度合作，打造一批精品语料库，助力各类人工智能训练，迎头赶上视频生成、世界模拟的趋势。

严防关键数据泄露。Sora等人工智能模拟能力再强大，依然离不开数据输入。这提示我们，在Sora开启的世界模拟时代，数据特别是涉及国计民生数据的泄密风险不单局限于具体数据本身，还应注重数据保密、封存等数据保护措施。

以下是艺术家们的一些作品，以及他们对Sora如何融入其工作流程和业务的初步看法：

图片来源：视频截图

shy kids——《无头气球人》

多媒体制作公司shy kids使用Sora制作了一部关于气球人的短片。“我们现在能够扩展以前认为无法实现的故事，”由Walter Woodman、Sidney Leeder和Patrick Cederberg组成的团队表示。执导“无头气球人”的Walter评论道：“Sora既能生成逼真图像，又能创造完全超现实的事物，这让我们感到非常兴奋。这将开启一个抽象表现主义的新时代。”谈到整个行业，他们表示：“世界各地所有胸怀故事的人们，终于有机会向世人展示他们的内心世界。”

图片来源：视频截图

Paul Trillo，导演

Paul Trillo是一位跨领域艺术家、作家和导演，他的作品曾获得《滚石杂志》和《纽约客》等媒体的赞誉。Paul获得过19个Vimeo编辑推荐奖，这是授予在Vimeo上播放的最佳短片的荣誉。“使用Sora是我第一次感觉到作为电影制作人没有束缚，”他说道。“不受时间、资金、他人许可的限制，我可以大胆而激动人心地构思和试验。”他的实验视频反映了这种方法。“Sora最强大的能力在于将前所未有的新想法变为现实，这些想法以前我们根本没有机会去实现。”

图片来源：视频截图

Nik Kleverov，创意总监/Native Foreign

Native Foreign是一家来自洛杉矶的艾美奖提名创意机构，专门从事品牌叙事、动态图形和标题设计以及生成式AI工作流程。联合创始人Nik Kleverov正在使用Sora”为品牌合作伙伴实现概念可视化并快速迭代创意”。“我属于那种用动态思维的创意人员，所以当我使用Sora时，我真的觉得自己可以将任何想法变为现实。”

图片来源：视频截图

August Kamp，艺术家/音乐人

August Kamp是一位音乐家、研究员、创意活动家和跨学科艺术家。“Sora对我来说是一个真正的转折点，作为一个艺术家，我的创作范围一直受到想象力与技术手段脱节的限制，”她解释道。“能够如此直观地构建和迭代电影视觉效果，为我打开了全新的艺术道路……我真的迫不及待地想知道，未来这些工具还能以何种形式讲述故事。”

图片来源：视频截图

Josephine Miller，创意总监

Josephine Miller是伦敦Oraar工作室的联合创始人兼创意总监，该公司专门从事3D视觉、增强现实和数字时尚设计。“Sora开启了将我多年来的想法变为现实的可能性，这些想法以前在技术上是无法实现的，”她说道。“如此快速地以如此高的质量进行概念化，不仅挑战了我的创作过程，而且帮助我改进了讲故事的方式。它使我能够以更少的技术限制来转化我的想象力。”

图片来源：视频截图

Don Allen Stevenson III,数字AR/XR艺术家

Don Allen III的职业生涯始于梦工厂动画公司，他是一位跨学科创作者、演讲者和顾问，他与主要的科技和娱乐公司在混合现实、虚拟现实和人工智能应用方面进行合作。“很长一段时间以来，我一直在构思混合现实的混合生物，我认为这些想法会很有趣。现在我可以用一种更简单的方式来原型化这些想法，然后再把我想要放置在空间计算机中的3D角色完全构建出来。”Don称Sora的“怪异”是其最大的优势：“它不受传统物理定律或思维惯例的束缚。”他说使用Sora将他的注意力从“技术障碍转移到纯粹的创造力上……开启了一个即时可视化和快速原型制作的世界。”同时，Don表示，“我觉得这让我可以将更多的时间和精力放在正确的地方……以及我希望我的角色能够产生的情感影响上。”

图片来源：视频截图

Alex Reben，雕塑家/艺术家和OpenAI驻场艺术家

Alexander Reben是一位艺术家，过去十年间一直致力于通过人工智能创作探索人类天性中的幽默和荒诞。Alex创作的雕塑源于人工智能生成的图像，他将这些人工智能作品手动转化为实体世界的3D模型。“我使用Sora的体验是将其作为开发3D雕塑的起点。我的想法转到了探索摄影测量学及其在雕塑中的潜在应用。将视频转换为3D模型的前景让我着迷，因为它暗示着将人工智能系统推向其最初范围之外的可能性。”

Sora代表的“世界模拟”人工智能变局及应对

来源：综合整理 | 发布时间：2024-03-27

Exploration of AI Vision

价值风向标