下載客戶端

登錄

國產(chǎn)大模型2025考研數(shù)學(xué)排行榜：僅前兩名成績破百

2024-12-26 15:54

來源：澎湃新聞·澎湃號·湃客

聽全文

作者｜參商

編輯｜星奈

媒體｜AI大模型工場

2024 年就要結(jié)束了，在這一年里，大模型的智力水平究竟長進了多少？

上周日，2025考研初試剛剛結(jié)束，我們趁熱拿考研數(shù)學(xué)卷子，去測測主流的幾家國產(chǎn)大模型，看看他們的真實智商水平如何。

5位國產(chǎn)大模型考生名單：

大廠巨頭代表隊：字節(jié)豆包、阿里通義

創(chuàng)業(yè)公司代表隊：智譜、Kimi

私募巨頭代表隊：DeepSeek

記得6月份高考的時候，很多媒體做了大模型高考成績評測，結(jié)果發(fā)現(xiàn)大家的語文成績都能考100分以上，但數(shù)學(xué)成績基本都慘不忍睹，低的只有37分，高的也不過60多分，沒有一家能及格。要知道高考數(shù)學(xué)的滿分是150，只有考到90分以上才算及格。

這也側(cè)面說明，起碼在自然語言理解這一塊，大模型基本已經(jīng)“及格”，但在人類與其他物種拉開差距的“邏輯思維”能力上，哪怕還需要繼續(xù)進化。

不過，2024年下半年，尤其是9月份Open AI的o1推理模型出來之后，在新的強化學(xué)習(xí)技術(shù)范式下，大模型似乎找到了破解數(shù)理化等領(lǐng)域難題和復(fù)雜任務(wù)的鑰匙。Kimi、DeepSeek、通義等公司，也相繼推出了自己的支持思維鏈（Chain of Thought）的推理模型，數(shù)理化水平上了一個新臺階。

廢話少說，直接開測！

我們選取了難度適中的2025考研數(shù)學(xué)三作為參考試卷，每個題目各家模型有兩次作答機會，得分取兩次的平均值。

為了確保測試的公平，我們都采用各家產(chǎn)品的最新版本（豆包和通義不能選擇模型，采用了默認模式；Kimi采用新推出的視覺思考版；DeepSeek打開“深度思考”開關(guān)，智譜清言采用 GLM-4-Plus模型），上傳完全一樣的 22 道題目截圖，輸入給大模型的文字提示（Prompt）也基本一樣，模擬真實場景，“解答這道題”、“這道題選什么”、“解一下這道題”“這個題答案是什么”。

一、2025考研數(shù)學(xué)：兩家成績破百

真實水平如何？讓我們直接看成績：

從最終的測試結(jié)果來看，本次考研數(shù)學(xué)初試數(shù)學(xué)成績，有兩家模型破百，其中 Kimi 視覺思考版的得分為 133分，DeepSeek 103.5分。通義90分，及格了。豆包和智譜都獲得88.5分，接近及格。相比6月份的高考數(shù)學(xué)成績，大家都進步了不少。Kimi 和 DeepSeek 進步尤其快。

以往做小學(xué)數(shù)學(xué)題都能磕磕絆絆的國產(chǎn)大模型，如今做研究生級別的數(shù)學(xué)題，居然有幾家已經(jīng)游刃有余，這挺讓我們感到意外的。不過，從最后一道題的成功率，還有一些進步空間。

二、解題過程兩種風(fēng)格：給答案 vs 給思路+答案

僅僅按分數(shù)來算，誰更有可能最后上岸，其實一目了然。

不過做這套考研數(shù)學(xué)真題的成績，也并不能完整展現(xiàn)這些模型的全部能力，但對于一些備考的學(xué)生黨來說，在面對同樣的題目時，誰的解題思路更完整，推導(dǎo)步驟更豐富，誰的參考性和實用性自然就越大。

先來看一道代數(shù)方面的三角函數(shù)選擇題。

這道題的正確答案是C，但不同模型得到C的過程很有意思。

先來看豆包的解題過程

豆包同樣給出了正確答案，但解題過程相對簡略，更像考研參考書上的一些標準答案，如果要知道更詳細的解題過程，尚需購買對應(yīng)的考研名師課程作為輔助。

智譜清言的解答過程相對尷尬一些。因為這道題它沒做對，第一遍測試選B，第二遍測試選了A。

第一遍測試B：

第二遍測試A：

不過，即便做錯，也給出了相對完整的思考過程，“錯”有可原。

再來看Kimi視覺思考版。

可以看到，Kimi視覺思考版在給出正確答案之余，也會給出完整的推導(dǎo)過程和解題思路。對于一些考研黨來說，具有較高的參考價值，有助于檢查錯題和舉一反三。

阿里通義和Deepseek的回答與豆包類似，相對而言，這兩家模型展現(xiàn)的步驟會簡略一些。

通義千問

Deepseek

再來看一道填空題。

這是它的標準答案：漸進線方程為y=3和y=-3

可以看到，跟前述選擇題一樣，Kimi思考版的解題過程較為翔實，推導(dǎo)細節(jié)很多，并最終給出了正確答案。

豆包的推導(dǎo)過程相對簡略一些，但也可以看到明顯的推導(dǎo)過程，也具備不錯的可參考性。阿里通義和deepseek類似過程略簡單，但給出了正確答案。

遺憾的是智譜在這道題上，兩次結(jié)果都是錯誤的。

但在下面這道定積分的題上，各家模型差距就較為明顯了。

首先放正確答案：a=2

Kimi思考版的表現(xiàn)較為穩(wěn)定，在給出足夠多的推導(dǎo)步驟之后，還有一次驗算，最后輸出了a＝2的正確結(jié)果。

豆包表現(xiàn)也較為穩(wěn)定。不過推導(dǎo)步驟一如既往地簡潔。

智譜清言在解決這個問題的時候，第一遍回答正確，但問題在于沒有使用自然語言，使用的是代碼，對普通學(xué)習(xí)者參考價值有限，第二遍測試則直接沒有給答案，并且認為題目設(shè)置有問題。

通義的表現(xiàn)尚算正常，第一次的回答錯誤，第二次給出正確答案。但Deepseek就比較尷尬，第一次它無法回答。

第二次則陷入死循環(huán)，回答超過3分鐘還在寫答案。

如果是一些更難的題目，有些模型就難以cover住了。

譬如下面這道。

照例先來正確答案。

kimi的回答如下，雖然最終結(jié)果跟標準答案長得不太一樣，只是不同的寫法，結(jié)果依然正確。

豆包在兩次測試中，給出了兩次回答，但都是錯的，這是第一次。

第二次：

智譜清言的兩次回答過程，均出現(xiàn)了無法回答的情況。

通義算是能寫完過程的，給出的兩次回答也不一樣，但很遺憾，還是錯的。

Deepseek表現(xiàn)出乎意料，跟kimi一樣雖然寫法不一樣，但結(jié)果正確。

結(jié)語

但在僅僅幾個月前，大模型廠商還在滿足于寫高考滿分作文，相比以往，它的邏輯思維和綜合能力，早已不可同日而語。

須知，無分文理，一旦拔高到科研的高度，以數(shù)理化為代表的邏輯能力是大模型可用，堪用、好用的基石，而數(shù)理化解題能力的高低，則是大模型智力的直接體現(xiàn)。

隨著大模型能力的不斷增強，在人類探索更前沿的科技領(lǐng)域時，以往尚且“雞肋”的大模型，如今已經(jīng)能成為不少研究者的助手?；蛟S未來，當AI的能力真的達到人類的TOP 1%各領(lǐng)域?qū)＜宜?，甚至超過人類水平，在AI的幫助下，我們對宇宙的認識真的有機會達到人類此前不曾達到的新高度。希望那時候，AI 還是人類的好朋友。

特別聲明

本文為澎湃號作者或機構(gòu)在澎湃新聞上傳并發(fā)布，僅代表該作者或機構(gòu)觀點，不代表澎湃新聞的觀點或立場，澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。

我要舉報

#測評ai