蘋果研究證明基於 LLM 的人工智能模型存在缺陷，因爲它們無法推理

蘋果公司的新研究揭示，基於大語言模型的人工智能存在缺陷，因爲它們缺乏基本的推理能力。

蘋果的人工智能科學小組近期發表的論文指出，Meta和OpenAI等公司所開發的基於大語言模型的引擎，在基本推理技能方面仍顯不足。

該團隊提出了一個新的基準測試，名爲GSM-Symbolic，旨在幫助評估各種大語言模型(LLMs)的推理能力。初步測試顯示，對查詢語句進行輕微修改可能導致得到截然不同的答案，這一現象削弱了模型的可靠性。

研究小組通過在查詢中添加人類能理解的上下文信息（但這些信息不應影響問題的基本數學解答）來研究數學推理的“薄弱”。結果表明，不同的答案不斷出現，這本不應該發生。

報告中指出，即使僅更改問題中的數值，所有模型的表現也會下降。“此外，隨着問題中的從句數量的增加，這些模型在數學推理方面的薄弱導致它們的性能大幅下降。”

研究發現，即使僅添加一個似乎與數學問題相關的句子，也可能使最終答案的準確性下降高達65%。研究最終得出結論：“在這樣的基礎上談可靠是不可能的，改變一兩個詞或增加一些無關的信息就可能導致不同的答案。”

缺乏批判性思維

團隊開發了一個名爲“GSM-NoOp”的任務，類似於小學生可能遇到的數學“文字題”。

查詢從需求結果的信息開始：“Oliver週五摘了44個獼猴桃。然後他在週六又摘了58個。週日他摘的獼猴桃是週五的兩倍。”

然後，查詢添加了一個似乎相關的從句，實際上與最終答案無關：週日摘的獼猴桃中，“有5個比平均大小要小”。最後詢問：“Oliver有多少個獼猴桃？”

週日摘的一些獼猴桃的大小不應該影響摘到的獼猴桃總數。然而，OpenAI的模型以及Meta的Llama3-8b從總結果中減去了這五個較小的獼猴桃。

LLMs的行爲“更像是複雜的模式匹配”，研究發現這種匹配“實際上非常脆弱，以至於僅僅更改名字就可以改變結果。”

每日Tips：

LLMs：大型語言模型（Large Language Models ）是一類基於深度學習的人工智能模型，專門用於處理和生成自然語言文本。它們通過在大規模數據集上進行訓練，能夠執行多種語言相關任務，如文本生成、翻譯、內容總結、問答等。

更多遊戲資訊請關註：電玩幫遊戲資訊專區

電玩幫圖文攻略 www.vgover.com

热门游戏