
阿里牽頭投資ShengShu 20億人民幣,押注以影像與實體感知為核心的世界模型,挑戰僅靠文字訓練的LLM侷限。
阿里雲(Alibaba Cloud)領投、向新型 AI 初創公司 ShengShu 注入人民幣 20 億(約 2.9 億美元),加速由「以文字為主的大型語言模型(LLM)」向「以影片與物理場景為核心的世界模型」轉型的浪潮。此輪 B 輪還吸引到好未來(TAL Education)與百度風投(Baidu Ventures)參與,距上個月 ShengShu 獲得人民幣 6 億元資金不到兩個月,再次顯示資本市場對多模態、可落地 AI 的高度興趣。
為何出現轉向?背景與主旨 近年以文字為主的 LLMs 在生成語言與知識整合上成績顯著,卻在需要連貫物理推理、動作預測與長期互動的場景(如自動駕駛、機器人操作、遊戲世界模擬)暴露出侷限。ShengShu 主張的「通用世界模型」以視覺、聲音、觸覺等多模態資料為基礎,試圖連線「感知(perception)」與「行動(action)」,讓系統能更自然地模擬與預測真實世界行為。公司創辦人朱軍指出,這類模型更能反映物理世界運作,且能在機器人、工業、商用與家庭場景落地。
事實與案例 - 本輪投資金額:人民幣 20 億(約 2.9 億美元)。 - ShengShu 成立三年,旗下影片生成工具 Vidu 的 Q3 Pro 模型(1 月發布)被 Artificial Analysis 評為生成影片的前十名之一。 - ShengShu 在全球推出 Vidu 時機快於 OpenAI 推出的 Sora(現已關閉)公開化嘗試。 - 阿里與百度近年也共同投資其他世界模型相關公司:領投 Tripo AI(5000 萬美元)與投資 PixVerse(6000 萬美元),均強調從影像與空間資料建模。
分析與評論 這波資金流向反映一個策略性判斷:要達到具備「推理、物理理解與持續學習」三要素的通用人工智慧,僅靠文字資料是不夠的。世界模型能提供模擬物理因果、生成連續動作序列的能力,對機器人、自治系統與互動式娛樂極為關鍵。阿里此舉也符合其從電商、雲端延展至企業級與實體應用的佈局需求。
反駁與風險評估 當然,世界模型路徑並非沒有挑戰:多模態資料收集成本高、真實到模擬的「差距(sim-to-real gap)」難以克服,計算與標註需求龐大,且模型在泛化到未見場景時可能不穩定。此外,部分觀點仍認為 LLM 可透過外掛模組與感知前端延伸其能力,世界模型是否必然優於此類混合路徑,尚待長期實驗檢驗。
結論與展望 短期內可預期更多資本與戰略夥伴湧入世界模型領域,尤其聚焦於機器人、工業自動化與影視內容生成的商業化應用。對投資人與業界而言,關鍵是觀察模型在真實場景的穩定性、資料獲取能力與是否能低成本遷移至商業產品。對研發團隊與創業者,當務之急是建立高品質多模態資料管線、強化模擬到真實的轉移學習,以及提出可驗證的安全與監控機制。阿里此次領投,不僅是資金投入,也是對未來 AI 重心從「知識」走向「實體理解與行動」的一次下注。
點擊下方連結,開啟「美股K線APP」,獲得更多美股即時資訊喔!
https://www.cmoney.tw/r/56/9hlg37






