主页 > 互联网+ > 正文

谷歌DeepMind新基准QuestBench:考验AI模型填补信息空白实力

2025-04-26 20:19来源:ITBear编辑:时寒峰

扫一扫

分享文章到微信

扫一扫

关注99科技网微信公众号

  原标题:谷歌DeepMind新基准QuestBench:考验AI模型填补信息空白实力

  近期,科技界迎来了一项新的突破,谷歌DeepMind团队推出了名为QuestBench的新基准,旨在评估大型语言模型(LLMs)在推理任务中识别和获取缺失信息的能力。这一创新工具通过约束满足问题(CSPs)框架,为LLMs在信息不完备场景下的应用提供了更为精确的衡量标准。

  在现实世界中,无论是用户提出数学问题时的信息遗漏,还是自主系统在部分可观测环境中工作时的挑战,都凸显了理想化完整信息设定与现实问题之间的矛盾。这一矛盾促使LLMs必须发展出主动信息获取的能力,以应对复杂多变的应用场景。

  QuestBench基准的推出,正是为了解决这一难题。它专注于评估LLMs在推理任务中识别缺失信息的能力,将问题形式化为约束满足问题,并特别关注“1-sufficient CSPs”,即那些只需知道一个未知变量值即可解决目标变量的问题。这一框架不仅覆盖了逻辑推理、规划和小学数学等多个领域,还通过变量数量、约束数量、搜索深度和暴力搜索所需猜测次数等四个难度轴,精准揭示了模型的推理策略和性能瓶颈。

  为了全面评估QuestBench基准的有效性,研究者们对包括GPT-4o、Claude 3.5 Sonnet、Gemini 2.0 Flash Thinking Experimental等在内的多个领先模型进行了测试。测试覆盖了零样本、思维链和四样本设置,涉及了288个GSM-Q和151个GSME-Q任务,时间跨度从2024年6月至2025年3月。

  测试结果表明,思维链提示在提升模型性能方面发挥了重要作用。在规划任务中,Gemini 2.0 Flash Thinking Experimental模型表现尤为突出。然而,尽管开源模型在逻辑推理方面具有一定的竞争力,但在面对复杂数学问题时,其表现却不尽如人意。研究指出,当前模型在简单代数问题上尚能应对,但随着问题复杂性的增加,其性能显著下降,这凸显了在信息缺口识别和澄清能力上的巨大改进空间。

  QuestBench基准还揭示了不同模型在不同难度轴上的表现差异。例如,在某些变量数量较多、约束条件复杂的问题上,某些模型可能表现出更高的搜索深度和更强的猜测能力,而在其他情况下,则可能因缺乏足够的信息而陷入困境。这些发现为未来的模型优化和算法改进提供了宝贵的参考。

  QuestBench基准的推出不仅为LLMs在信息不完备场景下的应用提供了新的衡量标准,也为未来的模型优化和算法改进指明了方向。随着技术的不断进步和应用的日益广泛,我们有理由相信,LLMs将在更多领域展现出其强大的推理能力和应用价值。

     投稿邮箱:jiujiukejiwang@163.com   详情访问99科技网:http://www.fun99.cn

相关推荐
Chrome浏览器高管:谷歌生态是核心,剥离后他人 Chrome浏览器高管:谷歌生态是核心,剥离后他人

原标题:Chrome浏览器高管:谷歌生态是核心,剥离后他人难接手? 华盛顿联邦

互联网+2025-04-26

谷歌安卓与Pixel团队数百岗位遭裁 谷歌安卓与Pixel团队数百岗位遭裁

原标题:谷歌安卓与Pixel团队数百岗位遭裁 近日,有知情人士向《The Informatio

互联网+2025-04-14

谷歌Gemini“圈屏”功能曝光:精准搜索新体验? 谷歌Gemini“圈屏”功能曝光:精准搜索新体验?

原标题:谷歌Gemini圈屏功能曝光:精准搜索新体验? 近日,科技新闻界传出了

互联网+2025-04-12

谷歌大规模裁员:安卓、Pixel、Chrome等部门核心岗 谷歌大规模裁员:安卓、Pixel、Chrome等部门核心岗

原标题:谷歌大规模裁员:安卓、Pixel、Chrome等部门核心岗位受影响 近期,谷歌

互联网+2025-04-11

谷歌DeepMind付薪留才:AI员工离职后一年不得为竞 谷歌DeepMind付薪留才:AI员工离职后一年不得为竞

原标题:谷歌DeepMind付薪留才:AI员工离职后一年不得为竞品工作? 在人工智能

互联网+2025-04-08

谷歌Gemini 2.0升级,AI助手新功能亮相,免费深度 谷歌Gemini 2.0升级,AI助手新功能亮相,免费深度

原标题:谷歌Gemini 2.0升级,AI助手新功能亮相,免费深度推理引关注 谷歌公司

互联网+2025-03-18

DeepSeek异军突起,1月底在美访问量赶超谷歌Gemi DeepSeek异军突起,1月底在美访问量赶超谷歌Gemi

原标题:DeepSeek异军突起,1月底在美访问量赶超谷歌Gemini 近期,互联网数据研

互联网+2025-02-07

马来西亚社交媒体新规:微信、TikTok领跑,谷歌 马来西亚社交媒体新规:微信、TikTok领跑,谷歌

原标题:马来西亚社交媒体新规:微信、TikTok领跑,谷歌、X平台未获许可 马来

互联网+2025-01-02

谷歌Chrome浏览器测试AI反诈骗:本地模型保障隐私 谷歌Chrome浏览器测试AI反诈骗:本地模型保障隐私

原标题:谷歌Chrome浏览器测试AI反诈骗:本地模型保障隐私安全 近日,据知名消

互联网+2024-12-20

谷歌CEO皮查伊盛赞:特斯拉与Waymo领跑自动驾驶赛 谷歌CEO皮查伊盛赞:特斯拉与Waymo领跑自动驾驶赛

原标题:谷歌CEO皮查伊盛赞:特斯拉与Waymo领跑自动驾驶赛道 近期,在备受瞩目

互联网+2024-12-16