主页 > 快资讯 > 正文

苹果AI研究引争议:模型推理极限还是评估方法有误?

2025-06-14 10:26来源:今日头条编辑:张易川

扫一扫

分享文章到微信

扫一扫

关注99科技网微信公众号

  近期,科技界围绕苹果公司发布的一篇AI研究论文展开了热烈讨论。这篇名为《思维的幻象》的论文,于6月6日问世,迅速引起了专家们的关注与争议。

  论文中,苹果公司提出了一项令人瞩目的观点:即便是目前技术最前沿的大型推理模型(LRMs),在应对复杂任务时也会遭遇崩溃。这一论断立即引发了广泛讨论,其中Open Philanthropy的研究员Alex Lawsen尤为活跃,他对苹果的结论提出了详尽的反驳。

  争议的焦点集中在苹果论文所提及的一个实验:在处理如汉诺塔问题这样的复杂任务时,即便是最先进的LRMs也会彻底失败。汉诺塔问题,作为一个经典的递归算法难题,要求将一系列大小不同的圆盘从一个柱子移动到另一个柱子上,过程中需遵守严格的规则。

  针对苹果的这一发现,Lawsen在其反驳文章《思维的幻象之幻象》中,深入剖析了实验设计的潜在问题。他认为,苹果的研究结果更多地反映了实验设置上的缺陷,而非LRMs推理能力的根本性不足。Lawsen指出,苹果的研究混淆了输出限制与评估设置的问题,导致了对模型推理能力的误判。

  为了支撑自己的观点,Lawsen提出了三大核心质疑。首先,他强调苹果忽略了模型在处理复杂任务时的Token预算限制。在处理8盘以上的汉诺塔问题时,一些模型如Anthropic的Claude Opus已接近输出极限,甚至因节省Token而停止输出。

  其次,Lawsen指出苹果的“过河”测试中包含无解谜题。例如,当角色数量与船只容量限制不匹配时,模型因拒绝解答而被扣分。这一设置无疑对模型的评估造成了不公平的影响。

  最后,Lawsen批评苹果的自动化评估脚本过于僵化。该脚本仅以完整步骤列表为标准,未能有效区分推理失败与输出截断的情况,导致部分策略性输出被错误地判定为失败。

  为了验证自己的观点,Lawsen重新设计了汉诺塔测试。他要求模型生成递归Lua函数来打印解法,而非逐一列出所有步骤。这一改进的测试方法取得了令人惊讶的结果:Claude、Gemini和OpenAI的o3模型均能正确生成15盘问题的算法解法,远超苹果报告中所述的“零成功”界限。

  基于这些发现,Lawsen得出结论:在去除人为输出限制后,LRMs在处理高复杂任务时展现出了强大的推理能力,至少在算法生成层面是如此。这表明,问题可能并不在于模型本身,而在于评估方法的选择与应用。

     投稿邮箱:jiujiukejiwang@163.com   详情访问99科技网:http://www.fun99.cn

相关推荐
任正非称芯片问题没必要担心!黄仁勋回应:华 任正非称芯片问题没必要担心!黄仁勋回应:华

原标题:任正非称芯片问题没必要担心!黄仁勋回应:华为能满足中国需求 也

行业资讯2025-06-14

上海一芯片团队突发重大裁员 赔偿N+3且当天离职 上海一芯片团队突发重大裁员 赔偿N+3且当天离职

原标题:上海一芯片团队突发重大裁员 赔偿N+3且当天离职 6月14日消息,据媒体

快资讯2025-06-14

印度汽车市场回暖,比亚迪领跑中资品牌销量大 印度汽车市场回暖,比亚迪领跑中资品牌销量大

原标题:印度汽车市场回暖,比亚迪领跑中资品牌销量大增 印度汽车市场,尽

行业资讯2025-06-14

索尼PlayStation移植PC游戏策略:谨慎节制,守护主 索尼PlayStation移植PC游戏策略:谨慎节制,守护主

近日,据国外知名游戏媒体VGC报道,PlayStation工作室负责人赫尔曼·赫尔斯特在

快资讯2025-06-14

方程豹钛7官图抢先看!30万级家用SUV新选择,能 方程豹钛7官图抢先看!30万级家用SUV新选择,能

近日,一组方程豹钛7的官方伪装照片在网络上曝光,预示着这款定位于30万级家

快资讯2025-06-13

领克900高速起火原因待解,官方:非动力电池及 领克900高速起火原因待解,官方:非动力电池及

近日,一则关于领克900车型在高速公路上起火的事件引起了广泛关注。据车主发

快资讯2025-06-13

夸克高考志愿大模型上线,免费助力考生,张雪 夸克高考志愿大模型上线,免费助力考生,张雪

近期,阿里巴巴旗下夸克应用推出了一项创新服务——国内首款针对高考志愿填

快资讯2025-06-13

广汽丰田牵手华为深化合作,铂智7将搭鸿蒙座舱 广汽丰田牵手华为深化合作,铂智7将搭鸿蒙座舱

广汽丰田与华为的合作近日迈入了全新阶段,在“广汽丰田2025科技日”活动上

快资讯2025-06-13

鸿蒙崛起!华为鸿蒙系统手机出货量破亿,你用 鸿蒙崛起!华为鸿蒙系统手机出货量破亿,你用

华为鸿蒙操作系统在中国市场的表现愈发亮眼,最新数据显示,该系统已成功跻

快资讯2025-06-13

崔东树个人选择引热议:为何偏爱燃油车而非新 崔东树个人选择引热议:为何偏爱燃油车而非新

近期,乘联会秘书长崔东树在一场直播活动中表达了他个人对于汽车购买的偏好

快资讯2025-06-13