2月19日,春节假期结束,A股迎来龙年首个交易日,开盘Sora概念(文生视频)股走强,截至发稿涨9.59%,其他相关概念股如多模态模型概念、WEB3.0、ChatGPT、虚拟人、AIGC均有所上涨。
截至发稿,当虹科技、因赛集团、万兴科技涨停,丝路视觉涨19.99%,中文在线涨16.08%,易点天下涨15.39%。
Sora是OpenAI发布的一个视频生成模型,可基于文本输入生成视频。该概念主要包含AI大模型与视频应用领域的相关公司。
Sora引发行业热议,内容层面原因在于其质量得到行业普遍认可,Mystery Novel视觉预演工作室创始人、导演牛萌琛对第一财经记者表示,Sora视频中的画质,画面内容中的细节、光影、色彩都较精细,对导演来说,为其在拍摄前期做一个简单的镜头样板是够用的。
但在技术层面,Sora 模型采用了扩散模型+Transformer 的架构,基础技术原理上较之前并未有实质性的突破。Stable Diffusion与Midjourney等部分领先图像生成应用的底层模型均是基于扩散模型所构建。从2023 年起,学术界已陆续有基于Transformer 架构的扩散模型用于图像和视频生成的探索。
因此,广发证券倾向认为,在底层基础技术原理上,Sora 并未有实质性的突破,或应更多理解为类似于ChatGPT,基于同样的技术原理,在暴力美学下的又一次重要“量变”。
中科深智创始人兼CEO成维忠对记者表示,Sora算法意义上突破不大。Sora一方面通过极致的暴力美学,用巨量算力解决帧与帧之间的时序一致性问题,即在Sora中,不但用扩散模型解决同一帧的生成,也用扩散模型解决帧之间的时序生成,这也决定了Sora的视频生成成本短时间内无法降低。在无法解决“幻觉”的情况下,要想生成真正可控可用的视频,短期内将成本高昂。
另一方面,成维忠表示,Sora根植于OpenAI的科技树,在提示词方面用了其超强的文生文技术。这给企图通过单点突破取得生成技术整体成功的企业敲响了警钟。
在算法意义突破不大、底层架构并无根本性创新的情况下,算力在其中扮演了重要角色。尤其是相较于语言类大模型,视频类大模型的推理需要更大的算力支持。视频的组织方式是由一系列的数据帧组成,每一帧数据又是由成千上万的像素点组成。因此,生成包含同样信息量的数据时,视频往往比文字的数据量更大。
在视频类大模型所需处理的数据量更大、算法更复杂的情况下,其应用和推理阶段对算力的消耗也更大。广发证券分析认为,随着视觉类大模型开发量和应用量的增加,AI 芯片、加速卡和网络设备的需求有望快速增长。
至于此次Sora给行业带来的启示,广发证券表示,一方面,数据处理与存储方式是重要创新,不同处理方式可能带来AIGC 效果的跃升,Sora 创新性地采用了“视频压缩网络”“时空补丁”的方法,将不同分辨率、不同宽高比等所有类型的视频数据“标准化”处理,并且保留了原始数据的细节,这是Sora 能支持多样化的视频格式,且实现视频效果明显跃升的基础。启示主要有二:一是高质量的训练数据仍是AIGC 类大模型成功的关键;二是核心人才是AIGC 推动的另一大关键,这两点最终或将使得头部厂商强者愈强。
另外,需注意的是,广发证券分析,对A股相关AIGC应用公司而言,短期内从投资维度看,Sora的主题意义更为显著。需要看到的是,Sora 的商业化进程仍需观察。一方面,技术文档提到的当前局限性需逐步解决;另一方面,版权合规、内容伦理等仍是AIGC类应用需要克服的挑战,文生视频也不例外。