解碼AI|“中國版Sora”誕生記國產AI多模態賽道超車進行中

今年春節,清華大學人工智慧研究院副院長、生數科技聯合創始人兼首席科學家朱軍教授被OpenAI推出的視頻模型Sora所驚擾。 他表示,之所以說“驚擾”,一方面是驚歎於Sora所表現的突出效能,另一方面是對OpenAI未開放的科技及不確定性未來突破的擔憂。 當時很多人問:什麼時候會有類似Sora這樣的長視頻生成機制誕生?

近日在中關村論壇上,朱軍代表清華大學與生數科技發佈中國首個長時長、高一致性、高動態性視頻大模型Vidu。 朱軍表示,Vidu的聯合攻關可以被稱為全棧自主創新的最新成果,在各個維度上實現了科技突破。 包括可以類比真實物理世界、具有想像力、理解多鏡頭語言,不再是簡單的鏡頭推拉,可以一鍵生成長達16秒的視頻。

此前,行業一度討論“視頻生成領域只有兩種模型:OpenAI Sora模型,以及其他不是Sora的模型”,如今,該話題被Vidu打破。 在多位行業人士看來,視頻模型領域尚未形成先行者壟斷局面,後發者在足够熟悉算灋原理、積累豐富的工程化經驗後,完全有可能追趕上Sora。

('',)(”,)

Vidu誕生歷程

Sora之前,文生視頻領域已有Runway、Pika、穀歌、Meta等企業推出相關產品,此次Vidu的問世也面臨著相關產品的對比。

在朱軍的演示中,除了Sora現時無法線上測驗,Vidu與線上較為流行的Pika、RunwayGen-2等對比演示,後兩者系統最高生成4秒短視頻,對比來看,Vidu可生成16秒的視頻,朱軍認為Vidu對語義理解方面的表現更為突出。

朱軍稱,此前團隊在擴散模型、貝葉斯深度學習等方面做了大量研究工作。 Sora出來之後,團隊剛好發現自己的技術路線和Sora高度一致,所以堅定推進進一步研究。 2022年9月,團隊推出首個Diffusion和Transformer融合架構U-ViT,而Sora團隊是在三個月後發佈的DiT架構。

在該路線上,朱軍表示團隊一直在進行大規模訓練。 2023年3月,團隊開源了全球第一個基於融合的大模型UniDiffuser,首個驗證了大規模訓練和擴展的規律。 其後Sora的出現刺激了團隊的速度,第一時間緊急啟動攻關,也向海澱區領導進行了彙報,當時得到了很多支持。 兩個月之後,Vidu得以展現。

朱軍在現場表示,可能有人問,為什麼能够在Sora發佈後兩個月的時間內實現突破? 是不是科技層面比Sora簡單? 是不是就做了一個便宜的山寨貨?

“通過梳理時間線,可以看出Vidu與Sora關鍵時間節點是錯開的。”朱軍表示,做Vidu過程中也遇到了很多困難,比如算力層面,2023年因受到算力局限,團隊重點投入文生圖,文生3D方面相對聚焦在計算量小一些的大模型開發工作上,側重驗證模型在規模變大之後的行為表現是什麼。

朱軍表示,Sora的技術路線與大語言模型不一樣,主要以Diffusion Model為主,Transformer只是其中一部分,現在有很多誤解說它是Transformer的一個分支,但實際上並不是,所以團隊需要充分認識到算灋原理的不同。 另外,如何掌握模型架構規律,也有很多經驗和見解在裡面,包括大規模工程的實現等。

“當時訓練UniDiffuser第一個版本時,用到的算力是去年年中訓練同樣模型的近40倍,團隊半年時間將算力需求降低40倍。換句話說,團隊用同樣的算力可以訓練40倍大的模型。另外長視頻對計算的消耗,對分佈式系統網路頻寬的傳輸等都帶來了新的挑戰,這些都需要一點點攻關。同時還需要算力的支持,以及高品質數據的治理。”朱軍表示,團隊過去在影像、短視頻方面積累的經驗,諸多因素疊加在一起,才促成了最終的效果。

今年1月,團隊實現4秒視頻的生成,可以達到Pika、Runway的效果。 3月底突破到8秒。 雖然只有幾秒的提升,但這在朱軍看來是一個巨大的進步,驗證了技術路線是正確的。 4月,團隊進一步加大力度。 如今,Vidu對外展示的是16秒的成果,但朱軍認為,在不遠的將來,Vidu會以更快的速度反覆運算。

此外,之所以叫Vidu,一方面是Video的簡稱,代表視頻,即視頻大模型,另一方面它的諧音是We do,讓外界看到要做的决心。 “現在的進展還是初步的,希望與國內優質組織一起合作,共同推進科技的進步。”朱軍表示。

Vidu估值已達1億美元

Vidu背後的研發團隊生數科技正式成立於2023年3月,由瑞萊智慧RealAI、螞蟻和百度創投聯合孵化,前瑞萊智慧副總裁唐家渝出任首席執行官。 2023年6月,公司完成近億元人民幣天使輪融資,由螞蟻集團領投,BV百度創投、卓源資本跟投,投後估值達1億美元。

啟明創投合夥人周志峰表示,如今的大模型已從原來的純語言模態逐步走向多模態的探索。 生數科技從成立之初就選擇多模態賽道,是國內這個領域起步最早、積累最深的團隊,大量工作被OpenAI、Stable Diffusion團隊引用。

生數科技創業團隊核心成員來自清華大學人工智慧研究院,其中首席科學家由清華人工智慧研究院副院長朱軍擔任; CEO唐家渝本碩就讀於清華大學電腦系,是THUNLP組(清華大學電腦系自然語言處理與社會人文計算實驗室)成員; CTO鮑凡是清華大學電腦系博士生、朱軍教授的課題組成員,長期關注擴散模型領域研究,U-ViT和UniDiffuser兩項工作均是由他主導完成。

2023年完成融資後,唐家渝在接受媒體採訪時表示,全球範圍內來看,多模態大模型的研究仍處於起步階段,科技成熟度還不高。 這一點不同於火熱的語言模型,國外已經領先了一個時代。 囙此,相比於在語言模型上“卷”,唐家渝認為多模態更是國內團隊搶佔大模型賽道的一個重要機會。

具體到對OpenAI的追趕,唐家渝稱,目前國內追趕Sora較去年追趕ChatGPT相對來說容易一些,Sora相當於GPT-2階段,並沒有形成明顯的先發或壟斷優勢。 且底層架構生數團隊非常熟悉。 所以一旦團隊積累够工程化經驗,肯定有可能追趕上Sora。

至於將生數科技分拆運營,唐家渝表示主要有兩方面的考慮:一是從業務的角度,瑞萊智慧的業務方向聚焦於安全可控的人工智慧解決方案,如提升AI科技及應用的安全性、可靠性等,服務於B端客戶,而生數聚焦在多模態大模型和應用開發,主要涉及C端產品,業務定位上有不同; 二是大模型創業前期對資源投入需求是巨大的,獨立分拆運營更加合適。

2024年1月,生數科技在旗下視覺創意設計平臺PixWeaver上線短視頻生成功能,支持4秒高美學性的短視頻內容。 2月Sora推出後,生數科技內部成立了正式的攻堅小組,加快原本視頻方向的研發進度,3月,內部實現8秒的視頻生成,4月突破16秒生成,在生成質量與時長全方面取得突破。

技術路線上,Vidu採用與Sora完全一致的Diffusion和Transformer融合架構。 同時不同於採用插幀的多步驟處理管道來達到長視頻的生成,Vidu採用的是和Sora一致的路線,即通過單一步驟直接生成高品質的視頻。 從底層來看,基於單一模型完全端到端生成,可實現一步到位,不涉及中間的插幀和其他多步驟的處理,文字到視頻的轉換是直接且連續的。

('上:Vidu下:Sora',)(‘上:Vidu下:Sora’,)

競速AI長賽道

今年2月,OpenAI發佈的視頻模型Sora一經推出便引發市場震驚,中關村論壇上,北京智源人工智慧研究院理事長黃鐵軍表示,這兩個月大家都被Sora刷屏,但這個現象存在問題,幾十段視頻就讓大家像追星一樣一哄而上、鋪天蓋地,並非好現象。 任何一個科技成功的產生都是長期積累的結果,即便是人工智慧發展得這麼快,沒有之前的積累也很難做出優秀的成果。

拋去喧囂表像,現時Sora在視頻模型領域成為ChatGPT之後新的追趕標的。 儘管Sora顯示出遠超同行的能力,但它並沒有選擇像Pika、Runway一樣,開放給福斯使用,而是採取與Google、Meta類似的保守策略,先官宣,慢慢內測,等待一個合適的時機再向福斯開放。

易觀分析研究合夥人陳晨表示,Sora沒有對外開放主要基於幾方面原因:一是考慮到文生視頻科技是否會被濫用以及由此引發的安全性問題,OpenAI也許還需要進行一系列的安全性測試與優化調整; 二是出於商業策略的考量,之前GPT在逐步開放之前也經過了4-6個月的內測,這可能都是由於OpenAI需要對模型實際運行的成本問題做前期評估。 現時ChatGPT的運營成本已經非常高了,如果再加上Sora,成本恐怕會提升一個量級,所以OpenAI需要在產品開放前製定好相應的商業化路線。

目前國內很多企業都在相繼佈局視頻大模型,據陳晨觀察,主要分為三類:第一類是傳統大廠,如位元組跳動在視頻領域佈局已久,此前發佈了高清文生視頻模型MagicVideo-V2,此外像阿裡雲、騰訊、百度、訊飛等,除了在通用技術上繼續向多模態大模型發力之外,也在面向行業開發一些應用於垂直領域的大模型。 第二類是專門做視覺分析的廠商,比如海康威視等,已經開始投入到視頻大模型的研發中。 第三類包括一些專注內容開發、創意行銷的廠商,比如昆侖萬維、萬興科技等也研發了自己的視頻大模型。

陳晨對記者表示,“從生成效果看,Vidu對語義的理解,視頻的時長、質量、一致性等方面在國內文生視頻領域已經做到了領先,另外Vidu在技術路線上和Sora類似,都採用單一模型端到端的生成方式,這也是視頻流暢度和視覺表現看起來比較好的原因。”

但需注意的是,陳晨表示,與Sora相比,現時Vidu的時長、畫面元素的豐富度、細節表現方面仍然有差距。 不過,Vidu是一個階段性的產物,模型能力的突破只是時間問題。 至少Sora到現在還沒有開放,原因可能是對實際任務的處理能力仍需要融合,以及資源、商業模式等多方面的問題。 從這個角度上看,比起大語言模型,國內做視覺模型的起步是比較早的,科技和經驗都有較深的積累,需要的是發揮國內產業鏈協同方面的優勢,能够將多模態的能力落到B端和C端豐富的應用場景當中去。

對於國內AI企業寄希望於通過多模態實現彎道超車的問題,陳晨對記者表示,視頻大模型在科技上的突破必定加速了AGI的行程,但AGI的關鍵還在於是否能自發地處理無限多工,以及是否具備與人類一致的認知架構。 此外,最近針對Sora也出現了不同的聲音,有一部分專家並不認為Sora是真正可以通往AGI的道路。 不過現在相對獨立的技術路線在未來未必不會出現融合的情况,創造出真正智慧且靈活可控的AGI模型。

至於到底誰先誰後,陳晨表示,以現在的模型反覆運算速度來看,談誰超越誰其實都是暫時性的,AI的發展不是此消彼長,一定會是共同進步的結果。

掃碼分享
www.ecbnnews.com