敲開晶片廠大門,大模型廠商開始把應用裝進手機裏

從App應用走向大模型應用生態,大模型應用廠商到了要向晶片要算力的階段。

手機端側AI的機會讓本來交集並不多的兩個行業走到了一起。

聯發科無線通訊事業部生態發展資深總監章立在一場開發者大會上對記者表示,有大模型廠商已看到,從App應用走向大模型應用生態,到了要向雲端晶片、終端晶片要算力的階段。

近日,聯發科對外推出了“天璣AI先鋒計畫”,並提供了相關的開發者解決方案,以支持大模型廠商在端側AI的科技落地和端側生成式AI應用創新。 在章立看來,未來一段時間,生成式AI和晶片是强相關的。

過去一年,隨著生成式AI從雲端走向終端,像聯發科這樣的晶片公司開始嗅到了更多的機會。 他們逐步發現,

不同於雲端的大型伺服器集群,智慧終端過去受限於小型化,算力有限,但獨特優勢則在於有更好的隱私性。 業內逐漸看到AI手機、AI PC、智能汽車等端側AI場景的潜力,更重要的是,當大模型裝進手機裏時,大模型企業可以通過當地語系化部署AI,繞開昂貴的雲端運算成本。

但手機端可運行的大模型現時多在70億參數左右,可支持的大模型應用場景還受限,爆款AI應用要爆發還需端側的算力和生態支持。 聯發科之外,業內也在探索適合端側運行的小型化模型。

大模型企業敲開晶片廠大門

大模型雲端算力昂貴是推動大模型應用走向端側的動力之一。

有消息稱,ChatGPT每天需響應超2億次請求,耗電量可能超每天50萬千瓦時。 一名大模型應用廠商高管也告訴記者,Sora至今不向公眾開放使用,主要原因很可能就是運算成本太高。

相比之下,運用分散的端側算力,在手機、電腦等個人持有的終端設備上運算而不依賴於聯網,被認為可以替代部分雲端算力,減輕用戶使用大模型服務的算力成本。 但大模型參數量較大的特點,使算力要求頗高,這正是手機等終端受限之處。 現時,聯發科和高通移動晶片最高都可支持上百億參數大語言模型運行,而雲端運行的主流大模型動輒上千億參數。

“現在手機算力可支持70億參數大模型,再往上可能就是100多億參數。”有晶片業內人士告訴記者。

以手機為代表的端側現時不適合搭載很高算力晶片的一個原因是功耗。 安謀科技產品總監楊磊指出,PC、平板電腦、手機、智慧眼鏡大多由電池供電,功耗和電池容量决定設備續航時長,而一張高性能GPU動輒功耗數百瓦,更適合雲端使用,一般手機功耗不超過10瓦。

算力有限的情况下,端側搭載大模型面臨多重挑戰。 聯發科無線通訊事業部副總經理李彥輯告訴記者,大模型廠商希望在端側高效運行大模型,但面臨兩類問題。 一是運行效率,包括耗電量和速度,二是記憶體佔用可能過高。 直接把雲端訓練好的模型放到手機端將會遇到以上問題,大模型廠商對這些優化方案很在意。

“跟大模型廠商合作時有很多困難。比如,把7B(70億)、13B的模型裝到手機這麼小的設備裏是很大的挑戰,必須通過我們的開發套件中的Neuron Studio做量化、壓縮,做出最佳和最小的網絡結構。”聯發科無線通訊事業部科技規劃總監李俊男告訴記者。

基於算力需求,晶片廠商與大模型廠商走得更近了。 “缺乏晶片的支持,在端側或雲側都會面臨同樣的挑戰。”章立告訴記者,大模型應用會趨於從晶片底層出發,發掘打造移動平臺用戶新體驗的可能。

爆款應用何時出現?

AI手機、AI PC概念提出後,基於這些智慧終端的爆款應用並未誕生。

記者瞭解到,現時端側算力是限制大模型應用落地手機的一個原因。 “現時手機端側AI的功能還比較有限,可支持修圖,但在斷網的情况下進行大模型語音對話還不太行。圖片類的模型不需要很大參數,語音類的更大。”以上晶片業內人士告訴記者。

章立則告訴記者,端側爆款應用將會出現,而這跟晶片制程與能力關係並不絕對。 原本大家覺得手機似乎卷不動了,App廠商似乎無所適從,因為過去規則已形成,競爭關係、流量比較收斂,很多開發者沒有新機會。 生成式AI則給了開發者更多工具。 科技帶來用戶體驗創新,這種情況下不需擔心爆品會否出現,只是無法確定何時出現。

要促使AI應用在手機等端側落地,大模型應用向晶片要算力是一個層面,提高端側整體算力和小模型表現效果是另外兩個層面。 業內展望手機算力還會進一步提高。

楊磊認為,旗艦手機晶片算力可達40~50TOPS,中檔手機算力10~20TOPS,入門級手機未專門配備AI能力,預測隨著電晶體科技演進,旗艦手機算力水准有望達100TOPS,入門級手機將提升至5~10TOPS,兩年後手機都有望具備本地部署AI大模型的硬體計算能力。

為適應分散化的端側運算要求,大模型也在向小型化發展。

今年4月Meta發佈Llama 3系列的兩個開源大模型,參數量分別是8B和70B。 獵豹移動董事長兼CEO傅盛表示,小參數模型Llama 3 8B的表現比上一代大參數Llama 2 70B更好,這印證了小參數模型的能力會快速提升。 新浪微博新技術研發負責人張俊林也認為,Llama 3最重要的改變是訓練數據量極大擴充,小模型固定大小並新增數據量後效果會持續提升。 張俊林告訴記者,現時小模型的能力還看不到上限。

迅速提升的小模型能力,已讓一些業界人士預測小模型將加快在智慧終端落地。 “現在很流行小模型SLM。通過比較好的訓練將模型縮小,現在看來小模型的能力也很好,3B以下能力不錯,這是對端側非常有利的趨勢,蘋果可能也在佈局這種小模型。”李俊男表示,端側AI算力相關的記憶體頻寬瓶頸也可以採用小模型解决。

從發佈的成果看,蘋果也在發力小模型並突破端側參數限制。 華福證券研報稱,蘋果除了30億參數的MM1模型外,更多在端側模型佈局,其中端側場景化小模型ReALM最小參數8000萬。 蘋果還提出利用閃存解决大模型運行的記憶體瓶頸,其Flash-LLM方案將端側設備可運行模型參數量提高至原來的兩倍。 隨著6月WWDC及後續發佈會進行,蘋果相關產品有望問世。

至於未來的端側爆款應用將是何種形態,章立表示,聯發科看應用時有兩個維度,一是看在做革新和生成式AI化的存量頭部App,另一個是看新冒出來的App,現在還不確定爆款App會從哪類中誕生。 雲端和端側可能都有大模型應用跑出來,相比之下,雲端可能更適合做“0到1”的創新,端側則更適合做感知和一些更好的創新。

李彥輯則認為,影像、視頻等多模態大模型輸入輸出在手機上應該很快會實現。 此外,專家系統還會訓練很多小模型,可根據用戶需求切換。 手機端的需求已越來越清晰,例如能力上趨於私人化、本地運算。