OpenAI 在官网博客中介绍了最新的 AI 模型——文生视频模型 Sora,它可以根据人们的文本描述生成原始视频。
在放出的演示视频中,Sora 可以生成清晰准确的角色,远景、近景交错但主题一致的视频,并且,已经能一次性生成最长 60s 的视频。看着这些视频,AI 根据剧本自动生成好莱坞电影,似乎已经向我们走来。
一经发布,社交平台 X 上,和 AI 以及视频相关的创业者坐不住了。
YouTube 头部网红 MrBeast 回应 Sam Altman 发布 Sora 模型的推特时,打趣道:Sam,请不要让我无家可归。
但 OpenAI 没有拘泥于在花哨的视频本身中,对于 Sora 文生视频,OpenAI 表示:这是通向 AGI 的里程碑事件。
据 OpenAI 官网,Sora 模型的目标是「理解和模拟运动中的物理世界」。当前,它的最大亮点是可以生成长达 1 分钟的视频,并且,在这 1 分钟的视频中,可以保证视觉质量,遵守用户提示词。举例来说,Sora 可以生成一系列复杂场景的视频,包括多个角色、特定类型的运动、以及在特定主题和背景下的精确细节等。
它不仅理解用户在提示词中想要什么,还理解这些东西应该如何在物理世界中存在。相应地,Sora 可以基于对提示词的理解,精确阐述、演绎提示词,生成恰当的角色来表达极具张力的情绪。
当然,OpenAI 也在官网承认,Sora 还远非完美。它可能难以准确地模拟复杂场景下的物理世界,也可能无法理解一些场景下的因果关系,比如,一个人可能咬了一口饼干,但之后,饼干上可能没有咬痕。
此外,Sora 还可能混淆提示词里诸如「左、右」一样的空间细节,并且可能难以精确描述随时间发生的事件。
OpenAI 没有透露 Sora 模型何时公开,但表示将与有限数量的外部人士分享。当地时间 2 月 15 日一整天,OpenAI CEO Sam Altman 都在他的 X 社交媒体账户上发布 Sora 生成的视频。他让粉丝给出提示词,他发布该提示词下 Sora 生成的视频。
OpenAI 表示,在把 Sora 应用于 OpenAI 的产品之前,将采取一些重要的安全措施。
对于 Sora 模型的重要意义,OpenAI 在官方博客结尾指出,「Sora 作为能够理解和模拟现实世界的模型基础,我们相信这一能力将是实现 AGI 的重要里程碑。」
显然,OpenAI 的目标依旧是 AGI 的实现,在这个恢弘的目标下,其在集结资源和自身能力上的领先优势,又一次体现出超越一般创业公司的综合实力。
其实,这句看起来「不服输」的话,并不准确。Sora 的出现,让「视频生成赛道」基于上一代模型技术的产品比赛,已经结束了。现在开始的,将是一场全新的技术比赛,而不只是产品的比拼。