主页 > 快资讯 > 正文

苹果AI研究引争议:模型推理极限还是评估方法有误?

2025-06-14 10:26来源:今日头条编辑:张易川

扫一扫

分享文章到微信

扫一扫

关注99科技网微信公众号

  近期,科技界围绕苹果公司发布的一篇AI研究论文展开了热烈讨论。这篇名为《思维的幻象》的论文,于6月6日问世,迅速引起了专家们的关注与争议。

  论文中,苹果公司提出了一项令人瞩目的观点:即便是目前技术最前沿的大型推理模型(LRMs),在应对复杂任务时也会遭遇崩溃。这一论断立即引发了广泛讨论,其中Open Philanthropy的研究员Alex Lawsen尤为活跃,他对苹果的结论提出了详尽的反驳。

  争议的焦点集中在苹果论文所提及的一个实验:在处理如汉诺塔问题这样的复杂任务时,即便是最先进的LRMs也会彻底失败。汉诺塔问题,作为一个经典的递归算法难题,要求将一系列大小不同的圆盘从一个柱子移动到另一个柱子上,过程中需遵守严格的规则。

  针对苹果的这一发现,Lawsen在其反驳文章《思维的幻象之幻象》中,深入剖析了实验设计的潜在问题。他认为,苹果的研究结果更多地反映了实验设置上的缺陷,而非LRMs推理能力的根本性不足。Lawsen指出,苹果的研究混淆了输出限制与评估设置的问题,导致了对模型推理能力的误判。

  为了支撑自己的观点,Lawsen提出了三大核心质疑。首先,他强调苹果忽略了模型在处理复杂任务时的Token预算限制。在处理8盘以上的汉诺塔问题时,一些模型如Anthropic的Claude Opus已接近输出极限,甚至因节省Token而停止输出。

  其次,Lawsen指出苹果的“过河”测试中包含无解谜题。例如,当角色数量与船只容量限制不匹配时,模型因拒绝解答而被扣分。这一设置无疑对模型的评估造成了不公平的影响。

  最后,Lawsen批评苹果的自动化评估脚本过于僵化。该脚本仅以完整步骤列表为标准,未能有效区分推理失败与输出截断的情况,导致部分策略性输出被错误地判定为失败。

  为了验证自己的观点,Lawsen重新设计了汉诺塔测试。他要求模型生成递归Lua函数来打印解法,而非逐一列出所有步骤。这一改进的测试方法取得了令人惊讶的结果:Claude、Gemini和OpenAI的o3模型均能正确生成15盘问题的算法解法,远超苹果报告中所述的“零成功”界限。

  基于这些发现,Lawsen得出结论:在去除人为输出限制后,LRMs在处理高复杂任务时展现出了强大的推理能力,至少在算法生成层面是如此。这表明,问题可能并不在于模型本身,而在于评估方法的选择与应用。

     投稿邮箱:jiujiukejiwang@163.com   详情访问99科技网:http://www.fun99.cn

相关推荐
三星One UI 8.5测试版日志揭秘:AI修图升级,设备 三星One UI 8.5测试版日志揭秘:AI修图升级,设备

近日,科技圈传来新动态,消息源@tarunvats33在X平台发布推文,分享了一组关于

快资讯2025-12-04

萝卜快跑布局广东鹤山!新设科技公司注册资本 萝卜快跑布局广东鹤山!新设科技公司注册资本

近日,一家名为萝卜快跑(鹤山)科技有限公司的新企业正式注册成立,引发市

快资讯2025-12-04

美光宣布退出Crucial消费级业务,近三十年品牌将 美光宣布退出Crucial消费级业务,近三十年品牌将

12月4日消息,全球存储巨头美光科技(Micron Technology)正式宣布,将全面退出其

快资讯2025-12-04

OpenAI在"玩火"?头号对手罕见开炮 OpenAI在"玩火"?头号对手罕见开炮

作者 | 小小 出品 | 网易科技 通往AGI不需要魔法,只需要“暴力计算”。但前提

快资讯2025-12-04

灵光闪应用升级 不会代码也能用AI生成小游戏 灵光闪应用升级 不会代码也能用AI生成小游戏

12月4日消息,今日,通用AI助手灵光宣布重要升级,上线闪游戏功能。区别于传

快资讯2025-12-04

亚马逊云科技re:Invent 2025发布Nova 2系列,多款中国 亚马逊云科技re:Invent 2025发布Nova 2系列,多款中国

在亚马逊云科技举办的re:Invent 2025全球大会上,首席执行官Matt Garman宣布推出四

快资讯2025-12-04

iPhone 17系列立大功!苹果10月全球份额24.2%:创历 iPhone 17系列立大功!苹果10月全球份额24.2%:创历

12月4日消息,据市场调研机构Counterpoint Research最新报告,2025年10月,苹果在全球

快资讯2025-12-04

东风日产法务:多个自媒体账号发布 N6 不实信息 东风日产法务:多个自媒体账号发布 N6 不实信息

12 月 4 日消息,东风日产法务昨晚在官微发布声明,称东风日产 N6 上市后,注

快资讯2025-12-04

卢伟冰回应罗福莉加盟 小米在大模型应用方面进 卢伟冰回应罗福莉加盟 小米在大模型应用方面进

12月4日消息,小米集团总裁卢伟冰近日通过社交媒体 "答网友问" 第十二期,首

快资讯2025-12-04

一加 Ace 6T深度评测:性能影像双在线,打造全能 一加 Ace 6T深度评测:性能影像双在线,打造全能

在手游市场持续升温的当下,性能旗舰手机的竞争愈发激烈。一加 Ace 6T的登场

快资讯2025-12-04