苹果研究证明基于 LLM 的人工智能模型存在缺陷，因为它们无法推理

苹果公司的新研究揭示，基于大语言模型的人工智能存在缺陷，因为它们缺乏基本的推理能力。

苹果的人工智能科学小组近期发表的论文指出，Meta和OpenAI等公司所开发的基于大语言模型的引擎，在基本推理技能方面仍显不足。

该团队提出了一个新的基准测试，名为GSM-Symbolic，旨在帮助评估各种大语言模型(LLMs)的推理能力。初步测试显示，对查询语句进行轻微修改可能导致得到截然不同的答案，这一现象削弱了模型的可靠性。

研究小组通过在查询中添加人类能理解的上下文信息（但这些信息不应影响问题的基本数学解答）来研究数学推理的“薄弱”。结果表明，不同的答案不断出现，这本不应该发生。

报告中指出，即使仅更改问题中的数值，所有模型的表现也会下降。“此外，随着问题中的从句数量的增加，这些模型在数学推理方面的薄弱导致它们的性能大幅下降。”

研究发现，即使仅添加一个似乎与数学问题相关的句子，也可能使最终答案的准确性下降高达65%。研究最终得出结论：“在这样的基础上谈可靠是不可能的，改变一两个词或增加一些无关的信息就可能导致不同的答案。”

缺乏批判性思维

团队开发了一个名为“GSM-NoOp”的任务，类似于小学生可能遇到的数学“文字题”。

查询从需求结果的信息开始：“Oliver周五摘了44个猕猴桃。然后他在周六又摘了58个。周日他摘的猕猴桃是周五的两倍。”

然后，查询添加了一个似乎相关的从句，实际上与最终答案无关：周日摘的猕猴桃中，“有5个比平均大小要小”。最后询问：“Oliver有多少个猕猴桃？”

周日摘的一些猕猴桃的大小不应该影响摘到的猕猴桃总数。然而，OpenAI的模型以及Meta的Llama3-8b从总结果中减去了这五个较小的猕猴桃。

LLMs的行为“更像是复杂的模式匹配”，研究发现这种匹配“实际上非常脆弱，以至于仅仅更改名字就可以改变结果。”

每日Tips：

LLMs：大型语言模型（Large Language Models ）是一类基于深度学习的人工智能模型，专门用于处理和生成自然语言文本。它们通过在大规模数据集上进行训练，能够执行多种语言相关任务，如文本生成、翻译、内容总结、问答等。

更多游戏资讯请关注：电玩帮游戏资讯专区

电玩帮图文攻略 www.vgover.com

热门游戏