阿里巴巴最新AI模型Qwen3-Max-Thinking 在多項基準測試中超越競爭對手！

・ 2026 年 01 月 27 日

阿里巴巴的全新推理AI模型Qwen3-Max-Thinking在多個基準測試中表現出色，顯示其優於同業。

阿里巴巴近日宣佈，其最新的推理AI模型Qwen3-Max-Thinking在多項基準測試中表現卓越，成功超越了許多競爭對手。這款大型語言模型由阿里巴巴雲部門開發，透過擴大模型引數及利用強大的計算資源進行增強學習，實現了顯著的效能提升，包括事實知識、複雜推理、指令遵循等多方面能力。

根據阿里巴巴的報告，Qwen3-Max-Thinking在19個已建立的基準上展現出的表現與市場領先模型如GPT-5.2-Thinking（OPENAI）、Claude-Opus-4.5（ANTHRO）及Gemini 3 Pro(GOOG)相當。該模型具備兩項創新功能：自適應工具使用能力，可按需檢索及呼叫程式碼直譯器，以及提高推理效能的先進測試時間擴充套件技術。

此外，Qwen3-Max-Thinking在GPQA Diamond、IMO-AnswerBench、LiveCodeBench和Humanity's Last Exam等基準測試中，均超越了DeepSeek-V3.2（DEEPSEEK）、Claude-Opus-4.5、GPT-5.2及Gemini-3 Pro，顯示出其強大的市場潛力。隨著AI技術的不斷進步，未來市場可能會更加重視此類創新型產品的影響力。