解码AI|“中国版Sora”诞生记国产AI多模态赛道超车进行中

今年春节，清华大学人工智能研究院副院长、生数科技联合创始人兼首席科学家朱军教授被OpenAI推出的视频模型Sora所惊扰。他表示，之所以说“惊扰”，一方面是惊叹于Sora所表现的突出性能，另一方面是对OpenAI未开放的技术及不确定性未来突破的担忧。当时很多人问：什么时候会有类似Sora这样的长视频生成机制诞生？

近日在中关村论坛上，朱军代表清华大学与生数科技发布中国首个长时长、高一致性、高动态性视频大模型Vidu。朱军表示，Vidu的联合攻关可以被称为全栈自主创新的最新成果，在各个维度上实现了技术突破。包括可以模拟真实物理世界、具有想象力、理解多镜头语言，不再是简单的镜头推拉，可以一键生成长达16秒的视频。

此前，行业一度讨论“视频生成领域只有两种模型：OpenAI Sora模型，以及其他不是Sora的模型”，如今，该话题被Vidu打破。在多位行业人士看来，视频模型领域尚未形成先行者垄断局面，后发者在足够熟悉算法原理、积累丰富的工程化经验后，完全有可能追赶上Sora。

(”,)

Vidu诞生历程

Sora之前，文生视频领域已有Runway、Pika、谷歌、Meta等企业推出相关产品，此次Vidu的面世也面临着相关产品的对比。

在朱军的演示中，除了Sora目前无法在线测验，Vidu与在线较为流行的Pika、RunwayGen-2等对比演示，后两者系统最高生成4秒短视频，对比来看，Vidu可生成16秒的视频，朱军认为Vidu对语义理解方面的表现更为突出。

朱军称，此前团队在扩散模型、贝叶斯深度学习等方面做了大量研究工作。Sora出来之后，团队刚好发现自己的技术路线和Sora高度一致，所以坚定推进进一步研究。2022年9月，团队推出首个Diffusion和Transformer融合架构U-ViT，而Sora团队是在三个月后发布的DiT架构。

在该路线上，朱军表示团队一直在进行大规模训练。2023年3月，团队开源了全球第一个基于融合的大模型UniDiffuser，首个验证了大规模训练和扩展的规律。其后Sora的出现刺激了团队的速度，第一时间紧急启动攻关，也向海淀区领导进行了汇报，当时得到了很多支持。两个月之后，Vidu得以展现。

朱军在现场表示，可能有人问，为什么能够在Sora发布后两个月的时间内实现突破？是不是技术层面比Sora简单？是不是就做了一个便宜的山寨货？

“通过梳理时间线，可以看出Vidu与Sora关键时间节点是错开的。”朱军表示，做Vidu过程中也遇到了很多困难，比如算力层面，2023年因受到算力局限，团队重点投入文生图，文生3D方面相对聚焦在计算量小一些的大模型开发工作上，侧重验证模型在规模变大之后的行为表现是什么。

朱军表示，Sora的技术路线与大语言模型不一样，主要以Diffusion Model为主，Transformer只是其中一部分，现在有很多误解说它是Transformer的一个分支，但实际上并不是，所以团队需要充分认识到算法原理的不同。另外，如何掌握模型架构规律，也有很多经验和见解在里面，包括大规模工程的实现等。

“当时训练UniDiffuser第一个版本时，用到的算力是去年年中训练同样模型的近40倍，团队半年时间将算力需求降低40倍。换句话说，团队用同样的算力可以训练40倍大的模型。另外长视频对计算的消耗，对分布式系统网络带宽的传输等都带来了新的挑战，这些都需要一点点攻关。同时还需要算力的支持，以及高质量数据的治理。”朱军表示，团队过去在图像、短视频方面积累的经验，诸多因素叠加在一起，才促成了最终的效果。

今年1月，团队实现4秒视频的生成，可以达到Pika、Runway的效果。3月底突破到8秒。虽然只有几秒的提升，但这在朱军看来是一个巨大的进步，验证了技术路线是正确的。4月，团队进一步加大力度。如今，Vidu对外展示的是16秒的成果，但朱军认为，在不远的将来，Vidu会以更快的速度迭代。

此外，之所以叫Vidu，一方面是Video的简称，代表视频，即视频大模型，另一方面它的谐音是We do，让外界看到要做的决心。“现在的进展还是初步的，希望与国内优质单位一起合作，共同推进技术的进步。”朱军表示。

Vidu估值已达1亿美元

Vidu背后的研发团队生数科技正式成立于2023年3月，由瑞莱智慧RealAI、蚂蚁和百度风投联合孵化，前瑞莱智慧副总裁唐家渝出任首席执行官。2023年6月，公司完成近亿元人民币天使轮融资，由蚂蚁集团领投，BV百度风投、卓源资本跟投，投后估值达1亿美元。

启明创投合伙人周志峰表示，如今的大模型已从原来的纯语言模态逐步走向多模态的探索。生数科技从成立之初就选择多模态赛道，是国内这个领域起步最早、积累最深的团队，大量工作被OpenAI、Stable Diffusion团队引用。

生数科技创业团队核心成员来自清华大学人工智能研究院，其中首席科学家由清华人工智能研究院副院长朱军担任；CEO 唐家渝本硕就读于清华大学计算机系，是 THUNLP 组（清华大学计算机系自然语言处理与社会人文计算实验室）成员；CTO 鲍凡是清华大学计算机系博士生、朱军教授的课题组成员，长期关注扩散模型领域研究，U-ViT 和 UniDiffuser 两项工作均是由他主导完成。

2023年完成融资后，唐家渝在接受媒体采访时表示，全球范围内来看，多模态大模型的研究仍处于起步阶段，技术成熟度还不高。这一点不同于火热的语言模型，国外已经领先了一个时代。因此，相比于在语言模型上“卷”，唐家渝认为多模态更是国内团队抢占大模型赛道的一个重要机会。

具体到对OpenAI的追赶，唐家渝称，目前国内追赶Sora较去年追赶ChatGPT相对来说容易一些，Sora相当于GPT-2阶段，并没有形成明显的先发或垄断优势。且底层架构生数团队非常熟悉。所以一旦团队积累够工程化经验，肯定有可能追赶上Sora。

至于将生数科技分拆运营，唐家渝表示主要有两方面的考虑：一是从业务的角度，瑞莱智慧的业务方向聚焦于安全可控的人工智能解决方案，如提升AI技术及应用的安全性、可靠性等，服务于B端客户，而生数聚焦在多模态大模型和应用开发，主要涉及C端产品，业务定位上有不同；二是大模型创业前期对资源投入需求是巨大的，独立分拆运营更加合适。

2024年1月，生数科技在旗下视觉创意设计平台PixWeaver上线短视频生成功能，支持4秒高美学性的短视频内容。2月Sora 推出后，生数科技内部成立了正式的攻坚小组，加快原本视频方向的研发进度，3月，内部实现8秒的视频生成，4月突破 16 秒生成，在生成质量与时长全方面取得突破。

技术路线上，Vidu采用与Sora 完全一致的Diffusion和Transformer融合架构。同时不同于采用插帧的多步骤处理方式来达到长视频的生成，Vidu采用的是和Sora一致的路线，即通过单一步骤直接生成高质量的视频。从底层来看，基于单一模型完全端到端生成，可实现一步到位，不涉及中间的插帧和其他多步骤的处理，文本到视频的转换是直接且连续的。

(‘上：Vidu 下：Sora’,)

竞速AI长赛道

今年2月，OpenAI发布的视频模型Sora一经推出便引发市场震惊，中关村论坛上，北京智源人工智能研究院理事长黄铁军表示，这两个月大家都被Sora刷屏，但这个现象存在问题，几十段视频就让大家像追星一样一哄而上、铺天盖地，并非好现象。任何一个科技成功的产生都是长期积累的结果，即便是人工智能发展得这么快，没有之前的积累也很难做出优秀的成果。

抛去喧嚣表象，目前Sora在视频模型领域成为ChatGPT之后新的追赶标的。尽管Sora显示出远超同行的能力，但它并没有选择像Pika、Runway一样，开放给大众使用，而是采取与Google、Meta类似的保守策略，先官宣，慢慢内测，等待一个合适的时机再向大众开放。

易观分析研究合伙人陈晨表示，Sora没有对外开放主要基于几方面原因：一是考虑到文生视频技术是否会被滥用以及由此引发的安全性问题，OpenAI也许还需要进行一系列的安全性测试与优化调整；二是出于商业策略的考量，之前GPT在逐步开放之前也经过了4-6个月的内测，这可能都是由于OpenAI需要对模型实际运行的成本问题做前期评估。目前ChatGPT的运营成本已经非常高了，如果再加上Sora，成本恐怕会提升一个量级，所以OpenAI需要在产品开放前制定好相应的商业化路线。

目前国内很多企业都在相继布局视频大模型，据陈晨观察，主要分为三类：第一类是传统大厂，如字节跳动在视频领域布局已久，此前发布了高清文生视频模型MagicVideo-V2，此外像阿里云、腾讯、百度、讯飞等，除了在通用技术上继续向多模态大模型发力之外，也在面向行业开发一些应用于垂直领域的大模型。第二类是专门做视觉分析的厂商，比如海康威视等，已经开始投入到视频大模型的研发中。第三类包括一些专注内容开发、创意营销的厂商，比如昆仑万维、万兴科技等也研发了自己的视频大模型。

陈晨对记者表示，“从生成效果看，Vidu对语义的理解，视频的时长、质量、一致性等方面在国内文生视频领域已经做到了领先，另外Vidu在技术路线上和Sora类似，都采用单一模型端到端的生成方式，这也是视频流畅度和视觉表现看起来比较好的原因。”

但需注意的是，陈晨表示，与Sora相比，目前Vidu的时长、画面元素的丰富度、细节表现方面仍然有差距。不过，Vidu是一个阶段性的产物，模型能力的突破只是时间问题。至少Sora到现在还没有开放，原因可能是对实际任务的处理能力仍需要融合，以及资源、商业模式等多方面的问题。从这个角度上看，比起大语言模型，国内做视觉模型的起步是比较早的，技术和经验都有较深的积累，需要的是发挥国内产业链协同方面的优势，能够将多模态的能力落到B端和C端丰富的应用场景当中去。

对于国内AI企业寄希望于通过多模态实现弯道超车的问题，陈晨对记者表示，视频大模型在技术上的突破必定加速了AGI的进程，但AGI的关键还在于是否能自发地处理无限多任务，以及是否具备与人类一致的认知架构。此外，最近针对Sora也出现了不同的声音，有一部分专家并不认为Sora是真正可以通往AGI的道路。不过现在相对独立的技术路线在未来未必不会出现融合的情况，创造出真正智能且灵活可控的AGI模型。

至于到底谁先谁后，陈晨表示，以现在的模型迭代速度来看，谈谁超越谁其实都是暂时性的，AI的发展不是此消彼长，一定会是共同进步的结果。

相关新闻