蘋果研究證明基於 LLM 的人工智能模型存在缺陷,因爲它們無法推理

蘋果公司的新研究揭示,基於大語言模型的人工智能存在缺陷,因爲它們缺乏基本的推理能力。

Apple Intelligence

蘋果的人工智能科學小組近期發表的論文指出,Meta和OpenAI等公司所開發的基於大語言模型的引擎,在基本推理技能方面仍顯不足。

該團隊提出了一個新的基準測試,名爲GSM-Symbolic,旨在幫助評估各種大語言模型(LLMs)的推理能力。初步測試顯示,對查詢語句進行輕微修改可能導致得到截然不同的答案,這一現象削弱了模型的可靠性。

研究小組通過在查詢中添加人類能理解的上下文信息(但這些信息不應影響問題的基本數學解答)來研究數學推理的“薄弱”。結果表明,不同的答案不斷出現,這本不應該發生。

報告中指出,即使僅更改問題中的數值,所有模型的表現也會下降。“此外,隨着問題中的從句數量的增加,這些模型在數學推理方面的薄弱導致它們的性能大幅下降。”

研究發現,即使僅添加一個似乎與數學問題相關的句子,也可能使最終答案的準確性下降高達65%。研究最終得出結論:“在這樣的基礎上談可靠是不可能的,改變一兩個詞或增加一些無關的信息就可能導致不同的答案。”

缺乏批判性思維

團隊開發了一個名爲“GSM-NoOp”的任務,類似於小學生可能遇到的數學“文字題”。

查詢從需求結果的信息開始:“Oliver週五摘了44個獼猴桃。然後他在週六又摘了58個。週日他摘的獼猴桃是週五的兩倍。”

然後,查詢添加了一個似乎相關的從句,實際上與最終答案無關:週日摘的獼猴桃中,“有5個比平均大小要小”。最後詢問:“Oliver有多少個獼猴桃?”

週日摘的一些獼猴桃的大小不應該影響摘到的獼猴桃總數。然而,OpenAI的模型以及Meta的Llama3-8b從總結果中減去了這五個較小的獼猴桃。

LLMs的行爲“更像是複雜的模式匹配”,研究發現這種匹配“實際上非常脆弱,以至於僅僅更改名字就可以改變結果。”

每日Tips:

LLMs:大型語言模型(Large Language Models )是一類基於深度學習的人工智能模型,專門用於處理和生成自然語言文本。它們通過在大規模數據集上進行訓練,能夠執行多種語言相關任務,如文本生成、翻譯、內容總結、問答等。

更多遊戲資訊請關註:電玩幫遊戲資訊專區

電玩幫圖文攻略 www.vgover.com