苹果研究证明基于 LLM 的人工智能模型存在缺陷,因为它们无法推理

苹果公司的新研究揭示,基于大语言模型的人工智能存在缺陷,因为它们缺乏基本的推理能力。

Apple Intelligence

苹果的人工智能科学小组近期发表的论文指出,Meta和OpenAI等公司所开发的基于大语言模型的引擎,在基本推理技能方面仍显不足。

该团队提出了一个新的基准测试,名为GSM-Symbolic,旨在帮助评估各种大语言模型(LLMs)的推理能力。初步测试显示,对查询语句进行轻微修改可能导致得到截然不同的答案,这一现象削弱了模型的可靠性。

研究小组通过在查询中添加人类能理解的上下文信息(但这些信息不应影响问题的基本数学解答)来研究数学推理的“薄弱”。结果表明,不同的答案不断出现,这本不应该发生。

报告中指出,即使仅更改问题中的数值,所有模型的表现也会下降。“此外,随着问题中的从句数量的增加,这些模型在数学推理方面的薄弱导致它们的性能大幅下降。”

研究发现,即使仅添加一个似乎与数学问题相关的句子,也可能使最终答案的准确性下降高达65%。研究最终得出结论:“在这样的基础上谈可靠是不可能的,改变一两个词或增加一些无关的信息就可能导致不同的答案。”

缺乏批判性思维

团队开发了一个名为“GSM-NoOp”的任务,类似于小学生可能遇到的数学“文字题”。

查询从需求结果的信息开始:“Oliver周五摘了44个猕猴桃。然后他在周六又摘了58个。周日他摘的猕猴桃是周五的两倍。”

然后,查询添加了一个似乎相关的从句,实际上与最终答案无关:周日摘的猕猴桃中,“有5个比平均大小要小”。最后询问:“Oliver有多少个猕猴桃?”

周日摘的一些猕猴桃的大小不应该影响摘到的猕猴桃总数。然而,OpenAI的模型以及Meta的Llama3-8b从总结果中减去了这五个较小的猕猴桃。

LLMs的行为“更像是复杂的模式匹配”,研究发现这种匹配“实际上非常脆弱,以至于仅仅更改名字就可以改变结果。”

每日Tips:

LLMs:大型语言模型(Large Language Models )是一类基于深度学习的人工智能模型,专门用于处理和生成自然语言文本。它们通过在大规模数据集上进行训练,能够执行多种语言相关任务,如文本生成、翻译、内容总结、问答等。

更多游戏资讯请关注:电玩帮游戏资讯专区

电玩帮图文攻略 www.vgover.com