?對標GPT-4的智譜AI實戰能力堪憂：一道數學題算錯七次后宕機，強行解讀《紅樓夢》鬧笑話

新經濟IPOIPO君2024-02-19 15:11 數字產業

明星大模型創業公司智譜AI發布了基座大模型GLM-4，同時發布的還有GLM-4 All Tools，以及智譜AI版的“GPTs”—GLMs。智譜CEO張鵬甚至表示，2024年的新愿景是讓大模型真正落下來。

1月16日，明星大模型創業公司智譜AI發布了基座大模型GLM-4，同時發布的還有GLM-4 All Tools，以及智譜AI版的“GPTs”—GLMs，實現了與OpenAI全模型產品線的對標。智譜CEO張鵬甚至表示，從標準大模型評測角度看，GLM-4性能整體上已經逼近GPT-4。

不過，在新經濟IPO的實際試用過程中，GLM-4不僅沒有表現出與“測評分數”一致的高水準，反而鬧出了不少笑話。

成立于2019年的智譜AI，由清華大學知識工程實驗室（KEG）技術成果轉化而來，是目前國內唯一全內資、全自研的大模型企業，早在2020年開始GLM預訓練架構的研發，并訓練了100億參數模型GLM-10B；2022年公布1300億級超大規模預訓練通用模型GLM-130B。

2022年底，大模型浪潮席卷全球，由于提前部署研發，智譜 AI成為資本眼中的寵兒。2023年7月至9月間，智譜AI拿下5輪融資，估值達到100億元。11月，有媒體報道智普AI“正以200億元估值進行新一輪融資”，但有多位股東對“翻倍”的高估值表示質疑。

時至今日已過去近4個月，未有融資的進一步消息傳出。反而在GLM-4發布兩天后，智譜AI的創始股東中科創星又將手中股份減持了25%，其已于2022年減持了同比例股份，目前實際持股比例或不到1%。

而“技術理想主義”者張鵬，2024年的新愿景是讓大模型真正落下來。這也說明，即便是被投資圈視為“有人、有技術、有客戶”的智譜AI，同樣面臨大模型落地難題，這恐怕也是所有國產大模型2024年必須面對的巨大挑戰。

一道數學題算錯七次后宕機

張鵬認為，如果你沿著前人的腳印去走，頂多追到屁股后面。如果想在短時間內超越前人，就一定要做創新。為此，智譜AI沒有采取目前最主流的三種模型訓練路徑：GPT來自OpenAI，BERT和T5來自谷歌，而是提出了全新的GLM（通用語言模型）路徑。

若GPT的原理可以比作“根據上文做完形填空”，那么GLM完形填空的依據則從上文擴充到上下文。理論上，GLM的訓練效率會比GPT更高，也能理解更復雜場景——GLM發展也確實迅猛，從去年3月份開源第一代，目前已經迭代到第四代。

在GLM-4的發布日上，張鵬在多項能力上將其與GPT4進行了對比，其中GLM-4的中文對齊能力總分超過了GPT-4，此外在MMLU理解評測、GSM8K數學邏輯和代碼水平上都有大幅提升。

下圖是DataLearner綜合評測分別按照HumanEval與MMLU排序的結果。可以看到，不論哪個對比，GLM-4和GPT-4、Gemini Ultra的測評分數都差不多。特別是閱讀理解方面，GLM-4只比GPT-4低5分，這是已知國產大模型取得的最好分數。

為了驗證GLM-4的能力是否真的實現了較大提升，新經濟IPO對其進行了簡單測試，但結果不如人意。

在首輪測試中，新經濟IPO在對話中輸入“林黛玉為何倒拔垂楊柳”這一網絡梗，不過，GLM4竟然回答稱，這個故事出自曹雪芹名著《紅樓夢》，還試圖很認真地用林黛玉與賈寶玉的情感糾葛來解釋林黛玉“倒拔垂楊柳”的行為。

一個2022年就宣布擁有1300億參數的雙語（英文和中文）預訓練語言模型，卻連中國古典名著之一的具體內容情節都沒掌握，實在說不過去。

接下來，新經濟IPO嘗試讓 GLM4計算一道數學題，以測試其邏輯推理能力。然而，一道非常簡單的數學題，GLM4連續回答了7次都錯了，最后更是直接宕機。需要指出的是，這道題去年曾經有媒體在GLM3上做過測試，回答也是錯的。

為了對比，新經濟IPO拿這道數學題考驗了一下“文心一言”，后者很快給出了正確答案。

在中文語義語料和數學邏輯推理能力測試之后，新經濟IPO又測試了GLM4的多模態圖片理解能力，這次，智譜AI終于過關了。

在文生圖能力上，GLM4表現得也不算令人失望，雖然它將“一個卡通柯基”畫成了“一堆卡通柯基”。

當被要求“畫一個西蘭花下的斑馬”時，文心一言和GLM4分別給出了如下作品，GLM4的畫風還是有點怪異。

從上述有限的測試看，GLM4在中文語義語料和數理邏輯上的能力尚有欠缺，但在文生圖及圖片理解能力上表現尚可。從綜合能力看，GLM4與GPT4還存在明顯差距。

大模型商業化路漫漫

實際上，拋開于國外大模型的技術差距不談，國內大模型商業化如何落地，可能是擺在所有創業公司面前的更大挑戰。

和蘋果系統一樣，大模型也是一個龐大的生態，而流量則是一切商業模式的源頭。對比ChatGPT早就突破1.1億次的全球安裝量，國產大模型如何商業化？如果說2023年，投資人、應用企業還在關注技術差距的話，那么新的一年，所有人的焦點都已經轉移到了大模型商業化的落地上。

智譜AI當然早就意識到了，落地才是未來最大的挑戰。從發展路徑上看，智譜AI也是國內最早推進大模型商業化的企業之一，率先提出了“模型即服務（MaaS）”的落地路徑，給出了面向B端開放API、云端私有化以及本地私有化等多種商業解決方案。

智譜AI官網顯示，其云端私有化部署最低檔位ChatGLM-12B，報價25萬元/年，最高ChatGLM-130B，120萬/年；本地私有化部署的最低參數ChatGLM-12B，報價180萬/年，最高ChatGLM-130B，3960萬元/年。

張鵬認為，B端的付費意愿比C端好很多，尤其是行業頭部企業，在大模型方面普遍投入多，動作快。所以，智譜AI從一開始就瞄準B端。智譜AI對外披露信息顯示，目前已有2000多家合作伙伴。

那么，智譜AI目前營收狀況如何呢？據張鵬透露，2023年下半年智譜簽單客戶約幾百家，2023年整體有億級簽單額。根據上述報價計算，智譜AI的銷售情況顯然不算太好。這樣的簽單額肯定無法支撐大模型的“燒錢”研發，要知道，年營收超10億美元的OpenAI目前也還未實現盈利。

作為中國估值最高的大模型創業公司，智譜AI收獲幾百家簽單客戶是一件可喜的事情，但并不算樂觀。商湯科技在2021年上市之前，曾公布過截至2021年6月30日的商業客戶數量“超過2400家”。可以對比的是，近期OpenAI剛剛公布了自己的付費企業客戶數量是260家，可見即便是全球頂尖大模型，B端市場的拓展速度也并不是很快。

與此前任何大規模技術革命一樣，大模型的商業化也注定是一場漫長的旅程。IDC去年11月開展的一次全球AI應用調研顯示，中國的100家受調企業中，已經大規模投入的企業只占24%。這說明，雖然產業端對大模型的熱情很高，但真到落地階段，愿意“真金白銀”擁抱大模型的依然較少。

老難題需要新答案

受多重因素影響，國內資本目前對大模型更多采取了“觀望”態度。即便2023年大模型熱貫穿全年，整個AI融資市場都沒有出現前幾年互聯網浪潮時的活躍狀態。

有的資本或許還在觀察與等待，尋找一個合適的時機再涌入，但有的資本的耐心與期待已然不多。

有媒體報道稱，智譜 AI發起股東中科創星連續賣掉了其持有的部分股份，減持比例超過50%，累計退出金額約1.2億元。同時，中科創星創始合伙人米磊已退出智譜 AI 董事職位。對此智譜回應稱，本次中科創星減持的股份，已被君聯資本、boss直聘等老股東接手；中科創星則表示，長期堅定的看好AI，看好智譜，退出是因為份額不夠，新進戰略投資者要求購買老股。

話雖如此，但正值大模型發展方興未艾之際，中科創星的清倉式減持還是令人疑惑。有知情人士透露，雖然中科創星對外聲稱看好AI，但高層其實并不看好，原因在于AI企業很難上市，2021年更是撤掉了AI投資組，現在的AI項目都是2021年之前投的。

實際上，即使是仍在堅守的資方，也對沒有業績但估值一路高漲的智譜AI看不懂。有媒體報道稱，去年11月，有消息傳出智譜AI擬以200億估值挑選下一輪投資機構方，隨即就有多位老股東對“翻倍”估值表示質疑。對老股東來說，并不是創投公司的估值越高越好，沒有業績支撐的高估值只會嚇跑后來的投資人，如此一來，此前入局的投資人又該如何退出呢？

當然，作為史上最燒錢的技術革命，大模型要進步，就只能依靠不斷融資。智譜AI2023年累計融資超過25億元，看起來不少，但遠不及商湯科技2017年獲得的40億元融資，而商湯科技在IPO前總融資金額高達52億美金。智譜AI的燒錢速度顯然比商湯科技更快。那么，假若智譜AI下一輪融資遲遲不出現，25億元能支撐一個400人的高薪大模型團隊工作多久？這雖然是AI創業老難題，但目前迫切需要一個新答案。

張鵬一直想“做真正厲害的事情”，即智譜AI能夠往下且深入地撼動當前模型框架的研究技術。這固然是一件好事，但在考慮是否能活得夠長之前，還是應該先解決“活下來”的難題。沒有靠譜的實戰能力以及“自我造血”能力，沒有切實可行的商業化路徑，智譜AI的動人故事將很難繼續講下去。

【本文為合作媒體授權派財經轉載，文章版權歸原作者及原出處所有。文章系作者個人觀點，不代表派財經立場，轉載請聯系原作者及原出處獲得授權。有任何疑問都請聯系（paicaijing314@126.com）。
免責聲明：本網站所有文章僅作為資訊傳播使用，既不代表任何觀點導向，也不構成任何投資建議。】