Sora的出现不亚于一次“小型核爆炸”。
2月16日,Open AI公司发布了全新的视频生成AI大模型Sora,该模型可以通过文本快速制作出一段长达60秒的视频,视频中可以呈现多个角色、特定动作、以及复杂场景。
这无疑是AI领域的一个爆炸新闻。
自ChatGPT诞生以来,围绕着生成式AI的讨论便层出不穷,各个软件厂商也开始了在语言大模型赛道上的军备竞赛,百度率先推出了“文心一言”,阿里推出了“通义千问”等等,各家都不希望错过这个风口。
而就在这个赛道正走向平静的时候,谷歌推出了重磅级的产品“Gemini 1.5”,并将上下文窗口长度扩展到100万个tokens,这让Gemini 1.5有了一次性处理超过三万行代码的能力。然而谷歌的这一张牌也使得Open AI带来了其“王炸”级别的产品——Sora。
Open AI推出Sora将生成式AI推进到视频生成时代,对整个AI的市场格局有什么影响?生成视频AI对各个行业未来会有什么样的颠覆?真正的人工通用智能(AGI)即将到来?
Sora推进“AGI”大跨步
“AGI可能不需要十年二十年那么远,可能一到两年就能实现。”这是周鸿祎在Sora发布之后给予的评价。马斯克更是直接发文表示:“人类要完(gg humans)。”
Sora是什么样的一款产品,能让业内人士给出如此高的评价?
目前,在Open AI的官网上已经更新了48个视频,在这些视频中尽管有些视频还是会出现一些不符合尝试的小bug,但在绝大多数场景下,Sora能够精准地展现出文字描述的细节,更能理解物体在真实世界中的存在,生成相对应的角色和信息。也标志着Sora不仅仅能够通过信息学习到信息,更能灵活地运用这些信息模拟出一个接近真实的“虚拟世界”。甚至一次性还能生成同一个场景下不同“机位”不同视角的场景。
仅从现在Sora展现出的实力,显然已经让目前的“Gemini 1.5”望尘莫及。但同样也有人提出了质疑,图灵奖得主LeCun表示,像Sora这种仅根据文字提示生成逼真的视频,并不代表模型理解了物理世界。生成视频的过程与基于世界模型的因果预测完全不同。而后Meta也推出了一个全新的无监督「视频预测模型」——V-JEPA,号称能够“以人类的视角来理解世界”。
无可否认的是,Sora不仅是生成式AI由语言文字模型迈向视频模型的一步,更也将“世界模型”这一概念彻带火。未来的AI模型发展方向也成为了更真实地去理解模拟这个现实世界。
“世界模拟”也成为了AI新的方向,这一新方向也正在推进着“AGI”时代的到来。有了认识世界模拟世界的能力,甚至再给AI加上摄像头和传感器,AI成正朝着拥有自主感知认识现实世界,学习并模拟现实世界的能力,能处理语言文本,图像视频的人工通用方向智能跃进。
有了这样的AI,也有许多人表示担忧:“这次可能是真的要失业了。”