【AI小雜談】語言模型與推理
最近出來了一個MathGPT,據說數學能力非常強,并且已經開始測試了。我個人使用的體驗還可以,畢竟這個東西主要是為了中小學數學題服務的,難度不至于特別高。
然而,自從大語言模型(LLM)出現以來,推理和數學能力就一直是關注的焦點,畢竟這里面涉及到的東西就多了,例如如何理解當前的問題、在數學問題中如何避免幻覺、推理過程中對之前信息的記憶能力等等都會被考察到。不過,很遺憾的是,對于目前的LLM來說,數學和推理依然是弱項。
(資料圖)
我們首先從最基本的一些知識來分析,這也是之前一個朋友在某個動態的評論中和我討論了好幾輪的一個話題。
以ChatGPT為代表,現在大部分語言模型都是基于Transformer架構的,并且訓練方式簡單來說就是“預測下一個token”,token一般翻譯成“詞元”、“子詞”等,例如apple可能被拆分為“app”和“le”,這倆都是token。當然,如果你覺得理解起來有些難度,那么就簡單理解成“預測下一個詞”就好,兩者只是粒度上的差別,所以后面以中文為例的話,我就當做“預測下一個漢字”來舉例了。
舉個例子,假設我問ChatGPT“在中國一般旺財指代哪種動物?”,ChatGPT會把這段話作為輸入,首先預測并生成下一個字“旺”,然后把“在中國一般旺財指代哪種動物?旺”作為輸入預測并生成“財”,就這樣一步步地生成整個回答“旺財在中國一般指代狗”。在使用的時候是這樣,訓練的時候也是這樣,也就是說,在ChatGPT“預”訓練期間它所做的就是使得預測下一個詞的精度盡可能高。
所以從根本上來說,ChatGPT并不會像我們學習一樣,一開始掌握概念、掌握方法,然后一步步分析問題,他所做的只是根據當前的輸入預測出下一個詞罷了。
那么問題來了,為什么ChatGPT能夠有很驚艷的表現,而且看起來至少能做很多低難度的數學題呢?
關鍵就在于巨量的訓練語料,因為“1+1=2”這樣的東西在訓練語料中反復出現,ChatGPT從中學到了“1+1=”后出現“2”的幾率更高,或者說,仍然是基于統計的。
當然,大模型還有很多神秘的地方,例如很多研究都表明語言模型不是只會停留在簡單的統計和記憶階段,他們也會在內部模擬一些很抽象的東西,一個例子就是代碼追蹤。
這里舉個簡單的例子:“a=10;b=20;c=a+b;d=c/2”這段話中并沒有顯示給出c的值,但是我們是可以發現ChatGPT在內部一些地方模擬出c的值的(這是MIT的一篇研究論文,實際上比這個復雜,這里為方便理解做了簡化),這說明大模型是超越了簡單的統計的,當然究竟超過了多少仍然是一個有待研究并且要研究很久的的問題。
當然,雖然“大模型學到了一些抽象的東西”基本上可以算的上是共識了,但這并不意味著當前的大模型就會推理了,有篇文章的標題就很直白《GPT-4 can't reason》,說明大模型在解決一些推理問題(大部分都是數學題)時會犯很多人類完全不會犯的奇怪的錯誤,所以即使很多時候我們可能覺得ChatGPT能解決一些復雜問題,也不意味著它真的在做推理。
當然,這事情還可以繼續“滑坡”,甚至直接滑到哥德爾不完備性定理這堵嘆息之墻那里,當然這里就不展開談了。
從我的觀察來看,目前很多人看待AI都陷入了兩個極端,要么直接批判AI什么都做不到,要么把AI目前亮眼的表現捧得很高。
不過很多時候也只是視角的問題,有些人預設了“AI能解決一切問題”,然后發現它從理論上就做不到,然而如果預設了“AI什么都做不到”,那“為什么AI有時候確實能有亮眼的表現”這個問題就值得研究了。算了,這個問題要談起來確實太復雜了,雜談就懶得展開了
最后還是需要說,不要無條件相信大模型的輸出,這是“盡信書則不如無書”的最好的試金臺。
關鍵詞:
[責任編輯:xwzkw]
相關閱讀
- (2023-08-27)【AI小雜談】語言模型與推理
- (2023-08-27)龍龍高鐵福建段首座牽引變電所成功受電
- (2023-08-27)北京優化受災市政交通基礎設施恢復重建項目審批
- (2023-08-27)美美噠!廣東女籃球員卓識曬海邊游玩照
- (2023-08-27)口碑優秀之作!《裝甲核心6》發布媒體榮譽宣傳圖
- (2023-08-27)交城龐泉溝鎮:皎白木耳溫如玉 “菌中美人”喜豐收
- (2023-08-27)泰和新材:公司可根據客戶的需求及用途,采用不同的基膜及涂層為客戶進行訂制,提供高性價比的產品和服務
- (2023-08-27)起猛了!趙麗穎謝娜一起看張杰演唱會,還現場解鎖了新技能蹦迪
- (2023-08-27)亮進度|濱州市退役軍人事務局:深化實施思想鑄魂、服務潤心、攻堅筑基、軍地聚力、對標提升“五大行動” 奮力推動新時代濱州市退役軍人工作高質量發展
- (2023-08-27)國家統計局:1—7月份全國規模以上工業企業利潤下降15.5%
- (2023-08-27)男籃慘敗42分周琦被點贊:6中6轟12+5狀態火熱 喬帥看人真準
- (2023-08-27)盈利能力突出,布局母線持續優化成本
- (2023-08-27)福斯特(603806):需求超預期增長帶動二季度業績環比提升明顯
- (2023-08-27)中科飛測(688361):中報業績大幅增長 新品研發持續推進
- (2023-08-27)【金融街發布】2023年1-7月份全國規模以上工業企業利潤下降15.5%
- (2023-08-27)DC粉絲集體消失? 《芭比》恐難再現冠軍地位
- (2023-08-27)企業庫存過剩、運力持續大增 航運業夏季“遇冷”
- (2023-08-27)石家莊平山周邊涼快自駕游景點推薦
- (2023-08-27)?梅西登場30分鐘,跑動2.75km,最高速28.97km/h
- (2023-08-27)證監會同意燒堿、對二甲苯期貨及期權注冊
- (2023-08-27)期待反彈!李凱爾社媒:我喜歡逆境 敬請期待中國
- (2023-08-27)賽百味,賣了!
- (2023-08-27)美國夏威夷應急管理局發布毛伊島西部地區疏散令
- (2023-08-27)微軟成功收購動視暴雪 游戲界巨子歸位
- (2023-08-27)巴克利:盡管我很愛庫里 但他遇到壞小子軍團會被打崩潰
- (2023-08-27)發行冰點!“反復延募”頻現
- (2023-08-27)拳頭高級總監:《LOL》電競部門仍未能實現盈利
- (2023-08-27)美國雜貨配送集團Instacart申請在美國IPO
- (2023-08-27)我國迎新能源汽車電池“退役潮” 必須要報廢嗎?還能重組再利用
- (2023-08-27)佳兆業健康(00876.HK)盈喜:預期中期凈利不少于3500萬港元




