OpenAI推出前沿科學基準，測試專家級科學推理能力！

・ 2025 年 12 月 17 日

OpenAI新推出的FrontierScience基準旨在評估生物、化學和物理領域的專業科學推理。最新模型GPT-5.2在奧林匹克部分得分77%，顯示其優越效能。

在人工智慧持續進步的背景下，OpenAI近日宣佈推出一項名為FrontierScience的新基準，專門用來測量各科學領域的專家級推理能力。這個基準由多位物理、化學及生物領域的專家共同編寫與驗證，包含數百道設計複雜且具挑戰性的問題，旨在評估類似奧林匹克賽事的科學推理及實際科研能力。

根據公開資料，OpenAI最新的模型GPT-5.2在奧林匹克推理部分獲得了77%的高分，而在研究能力方面則為25%。相比之下，Anthropic的Claude Opus 4.5在奧林匹克部分得分71.4%，而Google的Gemini Pro 3則是76.1%與12.4%。xAI的Grok 4表現稍遜，奧林匹克得分66.2%，研究部分僅有15.9%。

OpenAI表示，未來他們預期在科學推理上的進展將來自於更好的通用推理系統以及對提升科學能力的專注努力。他們認為像FrontierScience這樣的基準能幫助理解當前AI系統的弱點，以便集中精力讓模型成為可靠的科學發現夥伴。隨著科技的不斷演進，這一新基準無疑將在AI與科學界的交匯處扮演重要角色。