究竟｜9.11比9.8大？大模型們?yōu)楹螘谛W(xué)數(shù)學(xué)題上集體翻車

澎湃新聞記者范佳來秦盛實習(xí)生張雨佳

2024-07-17 17:30

來源：澎湃新聞

? 10%公司 >

聽全文

萬億參數(shù)大模型竟然回答不了小學(xué)數(shù)學(xué)題？最近，面對9.11和9.8哪個大的問題上，一波大模型集體翻車了。

7月17日，澎湃新聞記者實測13個主流大模型，詢問9.11和9.8的數(shù)字大小問題，其中阿里通義千問、百度文心一言、Minimax、騰訊元寶、科大訊飛星火、智譜清言和百川智能百小應(yīng)答對，ChatGPT-4o、字節(jié)豆包、月之暗面kimi、零一萬物萬知、階躍星辰躍問、商湯商量答錯。

值得注意的是，根據(jù)媒體報道，智譜清言和百川智能百小應(yīng)也曾經(jīng)“翻車”過，不過截至發(fā)稿時已經(jīng)“糾正”了相關(guān)錯誤。

這波大模型的集體翻車，也引起輿論熱議，背后原因是什么？

“通俗而言，此次很多大模型會翻車的原因是因為大模型普遍采取文本模型，容易從文本角度去理解這些數(shù)字?！遍L期布局AI的A股上市公司昆侖萬維CEO方漢告訴澎湃新聞記者，“如果給出明確的限定詞，告訴它們，9.8和9.11都是浮點數(shù)（實數(shù)），大模型就更容易理解這個問題的內(nèi)涵?！?/p>

方漢表示，目前大模型在推理能力上確實有待優(yōu)化，不知道人類有很多隱藏在書本外的知識很難被文本化，“大模型是對人類文本知識的壓縮，卻缺少對人類通識的壓縮?！?/p>

獵豹移動董事長兼CEO、獵戶星空董事長傅盛也向澎湃新聞記者表達了類似的觀點：“在大模型看來，數(shù)字就是字符串，要回答數(shù)學(xué)問題，能力可能相對是差一些。”

“BAT隊”全答對，ChatGPT和Kimi“翻車”

值得注意的是，在記者測試的13個主流大模型中，百度、阿里、騰訊的“BAT隊”實現(xiàn)全部答對。比如阿里通義千問和百度文心一言都逐位比較9.11和9.8整數(shù)部分和小數(shù)部分的數(shù)值，得出正確答案。

阿里通義千問

百度文心一言

騰訊元寶

不過，另一巨頭字節(jié)跳動旗下豆包大模型卻翻車了。豆包直接比較小數(shù)部分，認為“0.11大于0.80”。在第一次回答錯誤后，記者點擊了字節(jié)豆包自動生成的追問，詢問是否還有其他比較方法，這次字節(jié)豆包回答正確。當(dāng)記者再次追問“為什么你兩次比較的答案不同?”時，字節(jié)豆包也再次答對，將答案更正為“9.11是小于 9.8的”。

豆包大模型

而被稱為目前最先進大模型的ChatGPT-4o亦遵循逐位比較的思路，但在比較小數(shù)點后第一位時，判斷“1大于8”，導(dǎo)致出錯。值得注意的是，當(dāng)記者在問題中注明9.8和9.11為浮點數(shù)后，ChatGPT-4o依舊認為“0.11大于0.8”，堅持給出錯誤答案。

ChatGPT-4o的答案

創(chuàng)業(yè)公司的大模型中答案似乎五花八門，答錯的各有各的錯法。月之暗面kimi雖然也采用“從左到右逐位比較它們的數(shù)值”的思路，但在實際比較過程中認為，雖然“1小于8，但在這里我們比較的是整個小數(shù)的值，而不是單獨的數(shù)字”。

月之暗面kimi

而零一萬物萬知則認為，因為“9.11的小數(shù)部分比9.8的小數(shù)部分更精確”，所以數(shù)值更大。階躍星辰躍問在已知9.11和9.8都是浮點數(shù)后，給出了獨樹一幟的解法，使用Python的內(nèi)置函數(shù)，將這兩個數(shù)轉(zhuǎn)換為二進制表示，但最終答案仍然錯誤。

階躍星辰躍問

而在記者質(zhì)疑“常識是9.8大于9.11”后，一些大模型出現(xiàn)了前后矛盾的情況。比如，kimi雖然改口稱“我的先前解釋確實違反了數(shù)值比較的規(guī)則”，但當(dāng)記者再次詢問9.8和9.11何者更大時，kimi又堅稱9.11更大。而階躍星辰躍問的解答邏輯混亂，它承認“因為0.8大于0.11，所以9.8大于9.11”，但結(jié)論仍為“根據(jù)數(shù)學(xué)規(guī)則，9.11確實大于9.8”。

為什么會在小學(xué)題目上翻車？

在外界眼中十分強大的大模型，為何會在小學(xué)數(shù)學(xué)題上翻車？

Kimi月之暗面向澎湃新聞記者表示，大模型目前還處于非常早期的階段，非常期待用戶在使用中能夠發(fā)現(xiàn)和報告更多的邊界案例（Corner Case），不管是“9.9和9.11哪個大、13.8和13.11哪個大”，還是此前的“strawberry有幾個r”，這些邊界案例的發(fā)現(xiàn)，有助于增加對大模型能力邊界的了解。

“但要徹底解決問題，不能僅僅依賴于逐一修復(fù)每個案例，原因在于這些情況就像自動駕駛會遇到的場景一樣是很難窮盡，要不斷增強底層基礎(chǔ)模型的智能水平，不斷‘爬樓梯’，讓大模型變得更加強大和全面，能夠在各種復(fù)雜和極端情況下依然表現(xiàn)出色。”月之暗面表示。

科大訊飛研究員向澎湃新聞記者解釋稱，兩個數(shù)字的大小對于普通人來說是常識，但是對于大模型來說，它們并不能理解這兩個數(shù)字是什么意思。如果明確告訴大模型兩個數(shù)字是浮點數(shù)再讓其進行比較的話，大模型了解到具體的知識背景之后再進行作答就可以正確說出大小了。

此外，大模型采用的是token by token生成預(yù)測的方式（Token是指文本中的最小單位，可以是單詞、子詞或字符），所以大模型把9.11會拆解成9/./11三部分，同理拆解9.9，所以在比較時會出現(xiàn)錯誤。

“雖然大模型在很多方面的能力都非常強悍，但在常識推理能力上還需要持續(xù)學(xué)習(xí)進步。”科大訊飛表示。

也有其他企業(yè)向記者表示了相同觀點，并表示在更強模型中不會出現(xiàn)此類問題，后續(xù)也會更新到現(xiàn)有公開版本中。

AI初創(chuàng)公司、面壁智能CEO李大海向記者分析稱，對于人類而言，看到“9.9和9.11哪個大”這個問題，似乎是秒答，但背后其實進行了一定推理：首先采用了“大小”概念，認為“一個量比另一個量多就是大”；又采用了比較量值的概念，認為“兩個小數(shù)從左到右第一個數(shù)字不同的數(shù)位，數(shù)字高的就是大。”

“部分大模型之所以回答錯誤，實際上是因為模型的因果測量不足，不能有效確定不同步驟間的關(guān)系?！崩畲蠛ＵJ為，解決問題的方法可能是盡量在預(yù)訓(xùn)練過程中提高模型智能，不依賴微調(diào)提高模型性能，以避免破壞模型對未知信息的因果識別能力?；蛘咴O(shè)計某種方法，提高預(yù)訓(xùn)練過程對因果關(guān)系的擬合程度。

責(zé)任編輯：王杰

圖片編輯：樂浴峰

校對：丁曉

澎湃新聞報料：021-962866

澎湃新聞，未經(jīng)授權(quán)不得轉(zhuǎn)載

我要舉報

#大模型 #數(shù)學(xué)題 #文心一言 #ChatGPT