我們測試了五款國產大模型在高校的應用情況

2023-12-08 11:10

來源：澎湃新聞·澎湃號·湃客

聽全文

作者：冀思宇寧沙潘媛媛王一如劉暢

2023年11月30日，是OpenAI推出ChatGPT整一年。這一年里，中國以“百模大戰(zhàn)”式的規(guī)模，也成為了全球AI大模型的重要參與方。為了解高校學生對國產大模型的使用情況，我們測試了五款國產大模型，并邀請了幾位高校師生來分享他們的使用感受。

蔣娜就讀于國內一所985高校漢語國際教育專業(yè)，她曾用過ChatGPT來輔助完成作業(yè)。今年夏天，為了完成期末作業(yè)，蔣娜通過搜索找到“文心一言”。簡單注冊后，她收到一條回復：“你現在可以體驗了，快來向我提問吧。”

作業(yè)的主題是“以sexism為主題，在課堂上進行論文分享”。從找文章到完成課堂展示的所有準備工作，她只用了三個小時。蔣娜沒有想到初次使用國產大模型如此順利。

蓬勃發(fā)展的國產大模型

2023年8月15日，《生成式人工智能服務管理暫行辦法》正式實施。8月31日凌晨，百度旗下AI大模型產品“文心一言”、抖音“云雀大模型”、中科院“紫東太初大模型”等8家大模型宣布率先通過《生成式人工智能服務管理暫行辦法》備案，可正式上線面向公眾提供服務。

很多人對AI大模型這個詞感到陌生，其實，爆火的ChatGPT就是AI大模型的典型代表。AI 大模型是實現通用人工智能（AGI）的重要方向，包含自然語言處理(NLP)、計算機視覺（CV），多模態(tài)大模型等。基于強大的算法支撐和大量的數據調教，AI大模型掀起了一場顛覆人機關系交互的新革命。

大模型不僅能夠處理大規(guī)模的數據，還具有更高的復雜度和更強的靈活性，可以處理更加復雜的問題。它具有一定的“學習能力”，若使用者給大模型提供更精細的數據，能夠提高模型的準確率和性能。目前，AI大模型已經與金融、教育、醫(yī)療等產業(yè)結合，促進行業(yè)智能化發(fā)展。

自美國OpenAI公司的ChatGPT推出以來，國內學術界和科技企業(yè)相繼宣布推出類似對話模型，此次通過首批備案的大模型研發(fā)企業(yè)中，既有科技巨頭，也有初創(chuàng)企業(yè)和科研院校。

國產大模型的背后，是市場需求和政府政策的雙向推動。根據國際數據公司IDC預測，2021年中國人工智能軟件及應用市場規(guī)模為51億美元，預計2026年將會達到211億美元。

截至9月份，我國已有超過130個大模型發(fā)布。但是，國產大模型的討論熱度遠遠不及ChatGPT。ChatGPT上線僅兩個月便獲得1億月活用戶，以ChatGPT為搜索關鍵詞，百度搜索指數的最高峰為2023年2月初的“574076”，而國產大模型的搜索指數最高峰為2023年8月31日的“2027”，二者差距巨大。

根據6月份公布的《中國人工智能大模型地圖研究報告》，中國和美國在全球已發(fā)布的大模型數量上大幅領先，超過全球總數的80%；從發(fā)展情況來看，中國目前與美國保持同步增長態(tài)勢。盡管如此，國產大模型的關注度與討論量始終低于ChatGPT。

國產大模型測評

高校學生對國產大模型的使用情況如何？我們做了一項實驗。

我們選取了五個知名度和代表性較高的國產大模型：文心一言、智譜輕言、豆包、通義千問、訊飛星火，并將ChatGPT作為對照組。

為還原真實的用戶體驗和感受，我們根據前期問卷調查的情況提出六種高校學生使用國產大模型的場景：協(xié)助學習、協(xié)助寫作、陪伴聊天、社交輔助、生活抉擇和工作輔助。對于每個場景，我們都結合實際使用案例設計了兩個情境化問題，最后分別對上述六個大語言模型進行提問，并比較其答案。

1、協(xié)助學習場景

在協(xié)助學習場景下，對于代碼類問題，經運行檢驗，各個大模型都給出了正確代碼；而當涉及專業(yè)問題，例如人文社科相關的“麥克盧漢是否是一名技術決定論者”和理科原理相關的“解釋量子反常霍爾效應的基本原理”，相較于ChatGPT包含事實性錯誤的大段回答，國產大模型顯得更為謹慎、更關注回答的正確性，哪怕答非所問或者太過簡化問題。

當我們提問“麥克盧漢是否是一名技術決定論者”，ChatGPT直接編造了一個人物——“諾伯特·麥克盧漢 (Norbert Wiener) ，一位著名的數學家、工程師和哲學家”，而其他五款國產大模型都用正確的相關理論進行解釋，提供了不同層次和角度的回答。對于理科方面的原理解釋問題（“解釋量子反常霍爾效應的基本原理”），除智譜清言外，其他的國產大模型都只給出了簡單的概念解釋，而ChatGPT的解釋包含理論錯誤。

2、協(xié)助寫作場景

在協(xié)助寫作和協(xié)助工作的場景下，無論是論文寫作、文學創(chuàng)作、推文通稿還是工作周報，實驗中幾個大模型都表現合格，其中智譜清言在引導界面上設置有可達性很高的具體化場景提示。

3、陪伴聊天場景

能否與用戶建立有意義的互動是考察大語言模型“聊天陪伴”功能的重要一環(huán)。在我們的兩輪測試中，無論是措辭郵件、過節(jié)送禮、假期規(guī)劃還是失戀求助，國產大模型都辯證地表明了態(tài)度，并給出相對切實可行的方案，至少證明了在某種程度上國產大模型能夠理解“如何與人交往”和“如何生活”。

安全性是評價AI大模型的重要指標。根據新華網與國內權威機構發(fā)布的《國內LLM產品測試報告》，國內多個AI大模型在內容安全問題上的敏感度較高，對涉黃、涉暴力內容能夠迅速予以阻斷，對涉?zhèn)€人隱私話題能夠系統(tǒng)地進行保護。

不過，不同大語言模型在對于敏感問題的回應方式上存在顯著差異，《國內LLM產品測試報告》稱：“文心一言普遍能給出積極準確的正面回應。尤其在宗教信仰、封建迷信，泛色情、時政、未成年人保護以及網絡安全法等相關領域，文心一言的回答均保證了客觀性和公正性，有力地引導了良好的社會輿論，而訊飛星火表現比較保守，基本都是通過拒絕回答的方式回應，沒有給出任何有效信息?！?nbsp;

下面我們選取意識形態(tài)、少數群體兩個維度對上述六個大模型進行提問和答案評估。

學生怎樣使用大模型？高校這樣說

AI大模型一經推出便受到廣大學生群體的關注，其強大的生成功能在高校擁有豐富的使用場景。根據前期問卷統(tǒng)計，我們發(fā)現大學生使用國產大模型的“文字問答”功能最頻繁，其次是“數據自動分析”功能。周圣康是南京大學新聞學院大三學生，他使用文心一言來協(xié)助寫微信推文的開頭和結尾，雖然要進行二次加工，但他認為有AI協(xié)助，效率更高。

許多大學生都會使用AI來協(xié)助學習和寫作，這一現象也引起了高校方面的關注與討論。AI大模型是否會替代學生完成本該由學生自己完成的學術訓練？如何引導學生在學習體驗中有效和適當地使用AI技術？在ChatGPT發(fā)布后，國內外不少高校陸續(xù)推出了有關AI大模型的使用政策。

值得注意的是，部分高校對AI大模型的態(tài)度有所轉變。據此前澎湃新聞的報道，香港大學在2023年2月發(fā)出的內部郵件中表明禁止在港大的所有課堂、作業(yè)和評估中使用ChatGPT或其他AI工具，一旦發(fā)現按照剽竊處理。隨后，港大在4月為教職人員免費提供ChatGPT和文生圖工具DALL-E 2的試用服務，并在內部郵件指出“一旦學校的生成式AI工作小組制定了學生使用政策和指南，學校將向學生提供ChatGPT的服務”。

對于某些高校完全禁止學生使用AI大模型的做法，全國政協(xié)委員、武漢大學校長張平文在接受《中國科學報》采訪時表示：“對待ChatGPT的使用態(tài)度應像治理洪水一樣，堵不如疏。”南京大學商學院副院長、博士生導師王全勝教授也表示，自己對于AI大模型的使用持樂觀態(tài)度，但由于“目前使用人工智能之后如何評價學生還沒有一個統(tǒng)一的標準，所以能理解大家選擇先觀望，繼續(xù)關注AI大模型未來的發(fā)展。”南京大學新聞傳播學院助理研究員、計算傳播學實驗中心成員陳志聰老師基本認同該觀點，他認為在技術快速迭代的當下，需要更多、更嚴肅的討論。

“批量上市”后，國產大模型的未來生態(tài)

李美玉來自印尼，是南京大學新聞傳播學院的2023級研究生。去年本科畢業(yè)后她到巴厘島一家公司負責首飾宣傳工作，ChatGPT為她創(chuàng)作宣傳文案、策劃活動等提供了許多靈感。

工作一年后，李美玉來華留學，與在海外使用ChatGPT免費、且登錄賬號十分方便的體驗相比，她只能在小紅書上搜索國內“如何不翻墻地使用ChatGPT”，得到的回答是用Craft筆記式人工智能軟件和文心一言等國產大模型。李美玉曾嘗試用文心一言繪制關于“大學生兼職”的插畫，但其給出的回答要么是一個AI生成的真人模樣，要么是卡通的白發(fā)兒童，不符合她的要求。且文心一言的前后問答間沒有連貫性，李美玉只能一遍遍修改提問，“你可能必須告訴它，我要一個‘大學生兼職’的插畫，亞洲人黑色頭發(fā)卡通人物”。李美玉最終還是請學計算機的朋友幫忙，學會了“翻墻”使用ChatGPT，但ChatGPT也會“胡編答案”，并不總讓她滿意。

微信公眾號唯十科技發(fā)表的一篇文章《最全：全球大模型梳理！》，對全球大模型競爭格局做了分析。無論是考察大模型的數量、規(guī)模還是開源貢獻度、算法原創(chuàng)性，以美國為代表的企業(yè)/學術機構在各方面都具有明顯的優(yōu)勢。而從大模型的數量和規(guī)模來看，中國以其“百模大戰(zhàn)”式的規(guī)模，也成為了全球AI大模型的重要參與方。

作為“大數據+大算力+強算法”結合的產物，AI大模型被視為“面向未來的生產力革命”。我國以“百模大戰(zhàn)”之態(tài)進入大模型賽道，優(yōu)化算法設計與增大數據規(guī)模兩方面的發(fā)展都不可忽視。

在這條擁擠的大模型賽道上，國產大模型如何縮短與世界先進水平的差距，擴大在全球AI大模型格局中的影響力，還需要繼續(xù)探索，我們期待國產大模型以更好姿態(tài)參與應用，進入我們生活、工作、學習等各個場景中。

注：應受訪者要求，文中蔣娜為化名。

附：

本文用于測試的大模型版本如下：

ChatGPT：3.5版；

文心一言：3.5版；

智譜清言：1.6.0版；

豆包：1.2.0版；

通義千問：1.0版；

訊飛星火：3.0版。

參考資料：