今年春节,清华大学人工智能研究院副院长、生数科技联合创始人兼首席科学家朱军教授被OpenAI推出的视频模型Sora所惊扰。他表示,之所以说“惊扰”,一方面是惊叹于Sora所表现的突出性能,另一方面是对OpenAI未开放的技术及不确定性未来突破的担忧。当时很多人问:什么时候会有类似Sora这样的长视频生成机制诞生?
近日在中关村论坛上,朱军代表清华大学与生数科技发布中国首个长时长、高一致性、高动态性视频大模型Vidu。朱军表示,Vidu的联合攻关可以被称为全栈自主创新的最新成果,在各个维度上实现了技术突破。包括可以模拟真实物理世界、具有想象力、理解多镜头语言,不再是简单的镜头推拉,可以一键生成长达16秒的视频。
此前,行业一度讨论“视频生成领域只有两种模型:OpenAI Sora模型,以及其他不是Sora的模型”,如今,该话题被Vidu打破。在多位行业人士看来,视频模型领域尚未形成先行者垄断局面,后发者在足够熟悉算法原理、积累丰富的工程化经验后,完全有可能追赶上Sora。
(”,)
Vidu诞生历程
Sora之前,文生视频领域已有Runway、Pika、谷歌、Meta等企业推出相关产品,此次Vidu的面世也面临着相关产品的对比。
在朱军的演示中,除了Sora目前无法在线测验,Vidu与在线较为流行的Pika、RunwayGen-2等对比演示,后两者系统最高生成4秒短视频,对比来看,Vidu可生成16秒的视频,朱军认为Vidu对语义理解方面的表现更为突出。
朱军称,此前团队在扩散模型、贝叶斯深度学习等方面做了大量研究工作。Sora出来之后,团队刚好发现自己的技术路线和Sora高度一致,所以坚定推进进一步研究。2022年9月,团队推出首个Diffusion和Transformer融合架构U-ViT,而Sora团队是在三个月后发布的DiT架构。
在该路线上,朱军表示团队一直在进行大规模训练。2023年3月,团队开源了全球第一个基于融合的大模型UniDiffuser,首个验证了大规模训练和扩展的规律。其后Sora的出现刺激了团队的速度,第一时间紧急启动攻关,也向海淀区领导进行了汇报,当时得到了很多支持。两个月之后,Vidu得以展现。
朱军在现场表示,可能有人问,为什么能够在Sora发布后两个月的时间内实现突破?是不是技术层面比Sora简单?是不是就做了一个便宜的山寨货?
“通过梳理时间线,可以看出Vidu与Sora关键时间节点是错开的。”朱军表示,做Vidu过程中也遇到了很多困难,比如算力层面,2023年因受到算力局限,团队重点投入文生图,文生3D方面相对聚焦在计算量小一些的大模型开发工作上,侧重验证模型在规模变大之后的行为表现是什么。
朱军表示,Sora的技术路线与大语言模型不一样,主要以Diffusion Model为主,Transformer只是其中一部分,现在有很多误解说它是Transformer的一个分支,但实际上并不是,所以团队需要充分认识到算法原理的不同。另外,如何掌握模型架构规律,也有很多经验和见解在里面,包括大规模工程的实现等。
“当时训练UniDiffuser第一个版本时,用到的算力是去年年中训练同样模型的近40倍,团队半年时间将算力需求降低40倍。换句话说,团队用同样的算力可以训练40倍大的模型。另外长视频对计算的消耗,对分布式系统网络带宽的传输等都带来了新的挑战,这些都需要一点点攻关。同时还需要算力的支持,以及高质量数据的治理。”朱军表示,团队过去在图像、短视频方面积累的经验,诸多因素叠加在一起,才促成了最终的效果。
今年1月,团队实现4秒视频的生成,可以达到Pika、Runway的效果。3月底突破到8秒。虽然只有几秒的提升,但这在朱军看来是一个巨大的进步,验证了技术路线是正确的。4月,团队进一步加大力度。如今,Vidu对外展示的是16秒的成果,但朱军认为,在不远的将来,Vidu会以更快的速度迭代。
此外,之所以叫Vidu,一方面是Video的简称,代表视频,即视频大模型,另一方面它的谐音是We do,让外界看到要做的决心。“现在的进展还是初步的,希望与国内优质单位一起合作,共同推进技术的进步。”朱军表示。
Vidu估值已达1亿美元
Vidu背后的研发团队生数科技正式成立于2023年3月,由瑞莱智慧RealAI、蚂蚁和百度风投联合孵化,前瑞莱智慧副总裁唐家渝出任首席执行官。2023年6月,公司完成近亿元人民币天使轮融资,由蚂蚁集团领投,BV百度风投、卓源资本跟投,投后估值达1亿美元。
启明创投合伙人周志峰表示,如今的大模型已从原来的纯语言模态逐步走向多模态的探索。生数科技从成立之初就选择多模态赛道,是国内这个领域起步最早、积累最深的团队,大量工作被OpenAI、Stable Diffusion团队引用。
生数科技创业团队核心成员来自清华大学人工智能研究院,其中首席科学家由清华人工智能研究院副院长朱军担任;CEO 唐家渝本硕就读于清华大学计算机系,是 THUNLP 组(清华大学计算机系自然语言处理与社会人文计算实验室)成员;CTO 鲍凡是清华大学计算机系博士生、朱军教授的课题组成员,长期关注扩散模型领域研究,U-ViT 和 UniDiffuser 两项工作均是由他主导完成。
2023年完成融资后,唐家渝在接受媒体采访时表示,全球范围内来看,多模态大模型的研究仍处于起步阶段,技术成熟度还不高。这一点不同于火热的语言模型,国外已经领先了一个时代。因此,相比于在语言模型上“卷”,唐家渝认为多模态更是国内团队抢占大模型赛道的一个重要机会。
具体到对OpenAI的追赶,唐家渝称,目前国内追赶Sora较去年追赶ChatGPT相对来说容易一些,Sora相当于GPT-2阶段,并没有形成明显的先发或垄断优势。且底层架构生数团队非常熟悉。所以一旦团队积累够工程化经验,肯定有可能追赶上Sora。
至于将生数科技分拆运营,唐家渝表示主要有两方面的考虑:一是从业务的角度,瑞莱智慧的业务方向聚焦于安全可控的人工智能解决方案,如提升AI技术及应用的安全性、可靠性等,服务于B端客户,而生数聚焦在多模态大模型和应用开发,主要涉及C端产品,业务定位上有不同;二是大模型创业前期对资源投入需求是巨大的,独立分拆运营更加合适。
2024年1月,生数科技在旗下视觉创意设计平台PixWeaver上线短视频生成功能,支持4秒高美学性的短视频内容。2月Sora 推出后,生数科技内部成立了正式的攻坚小组,加快原本视频方向的研发进度,3月,内部实现8秒的视频生成,4月突破 16 秒生成,在生成质量与时长全方面取得突破。
技术路线上,Vidu采用与Sora 完全一致的Diffusion和Transformer融合架构。同时不同于采用插帧的多步骤处理方式来达到长视频的生成,Vidu采用的是和Sora一致的路线,即通过单一步骤直接生成高质量的视频。从底层来看,基于单一模型完全端到端生成,可实现一步到位,不涉及中间的插帧和其他多步骤的处理,文本到视频的转换是直接且连续的。
(‘上:Vidu 下:Sora’,)
竞速AI长赛道
今年2月,OpenAI发布的视频模型Sora一经推出便引发市场震惊,中关村论坛上,北京智源人工智能研究院理事长黄铁军表示,这两个月大家都被Sora刷屏,但这个现象存在问题,几十段视频就让大家像追星一样一哄而上、铺天盖地,并非好现象。任何一个科技成功的产生都是长期积累的结果,即便是人工智能发展得这么快,没有之前的积累也很难做出优秀的成果。
抛去喧嚣表象,目前Sora在视频模型领域成为ChatGPT之后新的追赶标的。尽管Sora显示出远超同行的能力,但它并没有选择像Pika、Runway一样,开放给大众使用,而是采取与Google、Meta类似的保守策略,先官宣,慢慢内测,等待一个合适的时机再向大众开放。
易观分析研究合伙人陈晨表示,Sora没有对外开放主要基于几方面原因:一是考虑到文生视频技术是否会被滥用以及由此引发的安全性问题,OpenAI也许还需要进行一系列的安全性测试与优化调整;二是出于商业策略的考量,之前GPT在逐步开放之前也经过了4-6个月的内测,这可能都是由于OpenAI需要对模型实际运行的成本问题做前期评估。目前ChatGPT的运营成本已经非常高了,如果再加上Sora,成本恐怕会提升一个量级,所以OpenAI需要在产品开放前制定好相应的商业化路线。
目前国内很多企业都在相继布局视频大模型,据陈晨观察,主要分为三类:第一类是传统大厂,如字节跳动在视频领域布局已久,此前发布了高清文生视频模型MagicVideo-V2,此外像阿里云、腾讯、百度、讯飞等,除了在通用技术上继续向多模态大模型发力之外,也在面向行业开发一些应用于垂直领域的大模型。第二类是专门做视觉分析的厂商,比如海康威视等,已经开始投入到视频大模型的研发中。第三类包括一些专注内容开发、创意营销的厂商,比如昆仑万维、万兴科技等也研发了自己的视频大模型。
陈晨对记者表示,“从生成效果看,Vidu对语义的理解,视频的时长、质量、一致性等方面在国内文生视频领域已经做到了领先,另外Vidu在技术路线上和Sora类似,都采用单一模型端到端的生成方式,这也是视频流畅度和视觉表现看起来比较好的原因。”
但需注意的是,陈晨表示,与Sora相比,目前Vidu的时长、画面元素的丰富度、细节表现方面仍然有差距。不过,Vidu是一个阶段性的产物,模型能力的突破只是时间问题。至少Sora到现在还没有开放,原因可能是对实际任务的处理能力仍需要融合,以及资源、商业模式等多方面的问题。从这个角度上看,比起大语言模型,国内做视觉模型的起步是比较早的,技术和经验都有较深的积累,需要的是发挥国内产业链协同方面的优势,能够将多模态的能力落到B端和C端丰富的应用场景当中去。
对于国内AI企业寄希望于通过多模态实现弯道超车的问题,陈晨对记者表示,视频大模型在技术上的突破必定加速了AGI的进程,但AGI的关键还在于是否能自发地处理无限多任务,以及是否具备与人类一致的认知架构。此外,最近针对Sora也出现了不同的声音,有一部分专家并不认为Sora是真正可以通往AGI的道路。不过现在相对独立的技术路线在未来未必不会出现融合的情况,创造出真正智能且灵活可控的AGI模型。
至于到底谁先谁后,陈晨表示,以现在的模型迭代速度来看,谈谁超越谁其实都是暂时性的,AI的发展不是此消彼长,一定会是共同进步的结果。