阿里領投人民幣20億下注「世界模型」：從文字到視覺與機器人的AI大賽開打

・ 2026 年 04 月 10 日

阿里牽頭投資ShengShu 20億人民幣，押注以影像與實體感知為核心的世界模型，挑戰僅靠文字訓練的LLM侷限。

阿里雲（Alibaba Cloud）領投、向新型 AI 初創公司 ShengShu 注入人民幣 20 億（約 2.9 億美元），加速由「以文字為主的大型語言模型（LLM）」向「以影片與物理場景為核心的世界模型」轉型的浪潮。此輪 B 輪還吸引到好未來（TAL Education）與百度風投（Baidu Ventures）參與，距上個月 ShengShu 獲得人民幣 6 億元資金不到兩個月，再次顯示資本市場對多模態、可落地 AI 的高度興趣。

為何出現轉向？背景與主旨近年以文字為主的 LLMs 在生成語言與知識整合上成績顯著，卻在需要連貫物理推理、動作預測與長期互動的場景（如自動駕駛、機器人操作、遊戲世界模擬）暴露出侷限。ShengShu 主張的「通用世界模型」以視覺、聲音、觸覺等多模態資料為基礎，試圖連線「感知（perception）」與「行動（action）」，讓系統能更自然地模擬與預測真實世界行為。公司創辦人朱軍指出，這類模型更能反映物理世界運作，且能在機器人、工業、商用與家庭場景落地。

事實與案例 - 本輪投資金額：人民幣 20 億（約 2.9 億美元）。 - ShengShu 成立三年，旗下影片生成工具 Vidu 的 Q3 Pro 模型（1 月發布）被 Artificial Analysis 評為生成影片的前十名之一。 - ShengShu 在全球推出 Vidu 時機快於 OpenAI 推出的 Sora（現已關閉）公開化嘗試。 - 阿里與百度近年也共同投資其他世界模型相關公司：領投 Tripo AI（5000 萬美元）與投資 PixVerse（6000 萬美元），均強調從影像與空間資料建模。

分析與評論這波資金流向反映一個策略性判斷：要達到具備「推理、物理理解與持續學習」三要素的通用人工智慧，僅靠文字資料是不夠的。世界模型能提供模擬物理因果、生成連續動作序列的能力，對機器人、自治系統與互動式娛樂極為關鍵。阿里此舉也符合其從電商、雲端延展至企業級與實體應用的佈局需求。

反駁與風險評估當然，世界模型路徑並非沒有挑戰：多模態資料收集成本高、真實到模擬的「差距（sim-to-real gap）」難以克服，計算與標註需求龐大，且模型在泛化到未見場景時可能不穩定。此外，部分觀點仍認為 LLM 可透過外掛模組與感知前端延伸其能力，世界模型是否必然優於此類混合路徑，尚待長期實驗檢驗。

結論與展望短期內可預期更多資本與戰略夥伴湧入世界模型領域，尤其聚焦於機器人、工業自動化與影視內容生成的商業化應用。對投資人與業界而言，關鍵是觀察模型在真實場景的穩定性、資料獲取能力與是否能低成本遷移至商業產品。對研發團隊與創業者，當務之急是建立高品質多模態資料管線、強化模擬到真實的轉移學習，以及提出可驗證的安全與監控機制。阿里此次領投，不僅是資金投入，也是對未來 AI 重心從「知識」走向「實體理解與行動」的一次下注。