今天，所有VC的会上都在谈Sora”

zydadmin 2024-02-22 16:02 29

仿佛梦回2023。去年年初，ChatGPT引发了普通人澎湃的讨论热情，此后海内外在AI大模型投资上展开了军备竞赛。

龙年刚一开年，OpenAI又打开了新局面。这次火的是文生视频。2月16日凌晨，OpenAI发布了文生视频大模型Sora。Sora能够根据文本提示创建详细的视频、扩展现有视频中的叙述以及从静态图像生成场景。

这类应用早就有了，但Sora的呈现仍然惊艳，视频中的主体稳定可控，可实现多角度切换，时长方面也突破，最长能生成60秒视频。

不愧是OpenAI。尽管Sora仍处于开发早期阶段，但它的推出已经标志着生成式AI迎来一个里程碑。

资本端同时传来新消息。在完成最新交易后，OpenAI的估值已飙升至800亿美元以上。这笔交易来自于Thrive Capital精心策划的要约收购。

尽管OpenAI和Thrive Capital对此皆不予置评，但小红书博主“Shannon”昨天发的帖子很有情绪的代表性，“明天所有fund开会的议题都有OpenAI的Sora”。

只不过，和去年相比，投资人的心态变了。不是人人都有机会投中OpenAI，但OpenAI的能力边界却实实在在影响着一批创业公司和背后的投资人。

“水到渠成”和“令人发指”

首先需要明确，“文生视频大模型”并不是一条全新的赛道。在OpenAI登场之前，头部大模型研发商几乎都拥有自己的文生视频大模型，例如Google的Lumiere以及Stability AI的SVD（Stable Video Diffusion），甚至已经诞生了垂直于多媒体内容创作大模型的独角兽，例如视频生成大模型Gen-2的开发商Runway，在2023年6月底完成由Google、Nvidia、Salesforce参与的C轮融资后，估值超过15亿美元。

更重要的是，上述已有的“视频大模型”，隐隐有了生产力工具的影子。

以Runway为例，与许多“拿着锤子找钉子”式的“技术驱动型”大模型创业团队不同，Runway的三名创始人Valenzuela、Alejandro Matamala和Anastasis Germanidis来自于纽约大学艺术学院，他们共同看到了“人工智能在创造性方面的潜力”，于是决定共商大计，开发一套服务于电影制作人、摄影师的工具。

这层基因打底，相比科技公司的“车库文化”，Runway的发展轨迹更像“横店影视城奋斗史”：先开发了一系列细分到不能再细分的专业创作者辅助工具，针对性地满足视频帧插值、背景去除、模糊效果、运动追踪、音频整理等需求；随后参与到图像生成大模型Stable Diffusion的开发过程中，积累AIGC在静态图像生成方面的技能点，并获得了参与《瞬息全宇宙》等大片制作的机会——这些影片在宣发中曾经有过详细描述，出品人们感叹他们的加入让后期团队“保持了一个超乎常规的小规模”状态，影视同行们惊叹很多许多复杂的特效制作（比如《瞬息全宇宙》里那两块对话的石头），工期已经从“好几天”缩短到了“几分钟”。

等到2023年2月，Runway发布第一代产品Gen-1，普通用户已经能通过iOS设备进行免费体验，范围除了“真实图像转黏土”“真实图像转素描”这些滤镜式的功能，还包含了“文本转视频”，从而使得Gen-1成为了首批投入商用的文生视频大模型；2023年6月，他们发布了第二代产品Gen-2，训练量上升到了2.4亿张图像和640万段视频剪辑。

2023年8月，爆火B站、全网播放量超过千万、获得郭帆点赞的AIGC作品《流浪地球3预告片》正是基于Gen-2制作。根据作者@数字生命卡兹克在个人社媒上的分享，整段视频的制作大体分为两部分——由MidJourney生成分镜图，由Gen-2扩散为4秒的视频片段——最终获得素材图693张、备用剪辑片段185条，耗时5天。半年之后，@数字生命卡兹克再次通过“MJ V6画分镜-Runway跑视频”制作了一段3分钟的故事短片《The Last Goodbye》，投稿参赛Runway Studios（Runway专门为企业级客户提供定制化服务的部门）所组织的第二届AI电影节Gen48。

换句话说，实际上至少在一年以前，“文生视频大模型”就已经拥有足够的关注度，其目前用户规模也被远远低估。

Runway的联合创始人Valenzuela在C轮融资后透露，除了像New Balance这样的世界500强客户，他们还拥有“数百万个人创作者”。

除此而外，Sora所展现出来的“精准的物理世界还原能力”，也并不是OpenAI独自探索的AI领域。马斯克就在Sora发布的两天半后，也就是2月18日，在科技播客栏目“DrKnowItAll”里留言，“这种精准还原现实世界物理规律的虚拟世界生成能力，特斯拉已经差不多快掌握一年了……只不过因为素材来自车载摄像头，所以视频看上去没那么有趣”。

OpenAI在同期发布的技术论文《Video generation models as world simulators》也明确Sora更像是“数据驱动的物理引擎”，通过大模型的持续扩散来“高性能地模拟物理世界或者数字世界中的人、动物、其他物体”，因此仍然拥有“同行们都会面临”的局限性，例如“很难准确模拟复杂场景的物理原理，并且无法理解因果关系，比如Sora生产一段人咬饼干的片段，饼干可能不会出现咬痕”。

真正带来压迫感的，或许是Sora不可思议的进化速度。

从技术层面看，无论是“拥有精准物理规则的真实世界”“支持60秒视频生成”还是“单视频多机位”都可以被形容为水到渠成，然而正如上面所提到的——如今看起来傻傻的、只支持生成“4秒视频生成”并且“掉帧明显到像幻灯片”的Gen-2其实是2023年6月发布的产品，距离Sora的发布日不过8个月。

2023年11月，Meta发布的视频生成大模型Emu Video看起来在Gen-2上更进一步，能够支持512×512、每秒16帧的“精细化创作”，但3个月之后的Sora已经能够做到生成任意分辨率和长宽比的视频，并且根据上面提到的开发者技术论文，Sora还能够执行一系列图像和视频编辑任务，从创建循环视频到即时向前或向后延伸视频，再到更改现有视频背景等。

而如果要死磕这种不可思议的进化速度，除了“神秘的外星文明”，最现实的解释恐怕只有“海量烧钱”。

作为Runway半个领路人的Stability AI近两年周期性地遭遇“现金流压力”，一会儿传闻高层正在积极探索出售公司，一会儿又流传着早期投资者Coatue Management的内部信，直指“Stability AI的财务状况令人担忧”，建议CEO Emad Mostaque原地辞职。最揪心的传闻是，为了让亚马逊相信自己不会拖欠高达7500万的云服务费用，身为前对冲基金经理的Emad Mostaque选择以个人财产作为担保。

然而从融资的角度看，Stability AI做到了赛道的天花板，其在2022年10月完成超过1亿美元的融资后，估值早早来到了独角兽级别。Emad Mostaque在去年7月的一次采访中忍不住直发狂暴言论，他说：“Bard AI只是因为在宣传片中提供了不准确的信息，就造成了每天超过1000亿美元的损失……人工智能作为基础设施所需的投资总额可能为1万亿美元，这会是人类有史以来最大的泡沫”。

知乎上，一位叫做“像素炼金师”的创业者坦承了他在目睹Sora发布后的心路历程：“我有些害怕科技巨头的产品像隆隆火车一样驶过，而我做的东西如同路边的野草一样，在这个技术进步就像跑马灯一样的时代里，留不下一丝痕迹。”

转载请注明原文地址: http://www.lzdww.com/read-98774.html

几十年姐妹情深感言记录班级成长的文案句子 (2025-04-17热点)-沈腾加盟《流浪地球3》，喜剧人设不被看好，和吴京番位谁更高？ (2025-04-17热点)-流浪地球3开机有多硬核沈腾加盟引发热议假期陪伴孩子的文案假期陪娃娃的语录健康快乐成长的句子姐妹发抖音怎么配文字姐妹短句八个字霸气借和藉的用法和例句惊艳老师的作文神仙句子惊叹大自然神奇的短句经历孤独才会成功的句子菊花比喻拟人句子大全四年级菊花的不同样子写一段话 (2025-04-10热点)-刀郎演唱会成“尽孝硬通货”，66万人“想看”背后的秘密！ (2025-04-10热点)-老板坚持19年留司机吃卤面，骨子里的善良才是“真中” 菊花如何描述 (2025-04-09热点)-揭秘！鹿晗古城Vlog背后的文化博弈与粉丝狂欢句子模仿秀一年级看到下雪景象有什么感受看到美景治愈心灵的句子简短 (2025-04-07热点)-曝iPhone19Pro外形颠覆全玻璃机身或引领智能手机革命！ (2025-04-07热点)-黄瓜竟是健康秘径？每天吃半年，身体大变样！客户认可和信任的短语课外阅读积累优美句子老师都是为了学生好的语句客户对顾客的感谢语句 (2025-04-06热点)-乒乓仁川赛：男单16强出5，中日韩各1席，张禹珍3-2险胜19岁高承睿 (2025-04-05热点)-原来假期最好的休息不是睡觉妈妈想对高三儿子说的话卖衣服发朋友圈的说说 (2025-04-04热点)-《我的后半生》50岁杨童舒又火了实力演技再获认可

最新回复 (0)