主页 > 互联网+ > 正文

谷歌DeepMind新基准QuestBench:考验AI模型填补信息空白实力

2025-04-26 20:19来源:ITBear编辑:时寒峰

扫一扫

分享文章到微信

扫一扫

关注99科技网微信公众号

  原标题:谷歌DeepMind新基准QuestBench:考验AI模型填补信息空白实力

  近期,科技界迎来了一项新的突破,谷歌DeepMind团队推出了名为QuestBench的新基准,旨在评估大型语言模型(LLMs)在推理任务中识别和获取缺失信息的能力。这一创新工具通过约束满足问题(CSPs)框架,为LLMs在信息不完备场景下的应用提供了更为精确的衡量标准。

  在现实世界中,无论是用户提出数学问题时的信息遗漏,还是自主系统在部分可观测环境中工作时的挑战,都凸显了理想化完整信息设定与现实问题之间的矛盾。这一矛盾促使LLMs必须发展出主动信息获取的能力,以应对复杂多变的应用场景。

  QuestBench基准的推出,正是为了解决这一难题。它专注于评估LLMs在推理任务中识别缺失信息的能力,将问题形式化为约束满足问题,并特别关注“1-sufficient CSPs”,即那些只需知道一个未知变量值即可解决目标变量的问题。这一框架不仅覆盖了逻辑推理、规划和小学数学等多个领域,还通过变量数量、约束数量、搜索深度和暴力搜索所需猜测次数等四个难度轴,精准揭示了模型的推理策略和性能瓶颈。

  为了全面评估QuestBench基准的有效性,研究者们对包括GPT-4o、Claude 3.5 Sonnet、Gemini 2.0 Flash Thinking Experimental等在内的多个领先模型进行了测试。测试覆盖了零样本、思维链和四样本设置,涉及了288个GSM-Q和151个GSME-Q任务,时间跨度从2024年6月至2025年3月。

  测试结果表明,思维链提示在提升模型性能方面发挥了重要作用。在规划任务中,Gemini 2.0 Flash Thinking Experimental模型表现尤为突出。然而,尽管开源模型在逻辑推理方面具有一定的竞争力,但在面对复杂数学问题时,其表现却不尽如人意。研究指出,当前模型在简单代数问题上尚能应对,但随着问题复杂性的增加,其性能显著下降,这凸显了在信息缺口识别和澄清能力上的巨大改进空间。

  QuestBench基准还揭示了不同模型在不同难度轴上的表现差异。例如,在某些变量数量较多、约束条件复杂的问题上,某些模型可能表现出更高的搜索深度和更强的猜测能力,而在其他情况下,则可能因缺乏足够的信息而陷入困境。这些发现为未来的模型优化和算法改进提供了宝贵的参考。

  QuestBench基准的推出不仅为LLMs在信息不完备场景下的应用提供了新的衡量标准,也为未来的模型优化和算法改进指明了方向。随着技术的不断进步和应用的日益广泛,我们有理由相信,LLMs将在更多领域展现出其强大的推理能力和应用价值。

     投稿邮箱:jiujiukejiwang@163.com   详情访问99科技网:http://www.fun99.cn

相关推荐
ChatGPT日均获25亿条用户提示词,使用频率直逼谷 ChatGPT日均获25亿条用户提示词,使用频率直逼谷

原标题:ChatGPT日均获25亿条用户提示词,使用频率直逼谷歌搜索五分之一 近期

互联网+2025-07-23

谷歌24亿“牵手”Windsurf核心团队及技术许可 谷歌24亿“牵手”Windsurf核心团队及技术许可

原标题:谷歌24亿牵手Windsurf核心团队及技术许可 近日,科技界发生了一宗引人

互联网+2025-07-14

OpenAI拓宽算力来源,首次引入谷歌AI芯片支持Ch OpenAI拓宽算力来源,首次引入谷歌AI芯片支持Ch

原标题:OpenAI拓宽算力来源,首次引入谷歌AI芯片支持ChatGPT 近期,有消息称O

互联网+2025-06-28

ChatGPT进化:OpenAI奥尔特曼称已远超谷歌替代品, ChatGPT进化:OpenAI奥尔特曼称已远超谷歌替代品,

原标题:ChatGPT进化:OpenAI奥尔特曼称已远超谷歌替代品,广告态度微妙变化 近

互联网+2025-06-26

谷歌CEO自曝:差点就收购了Netflix,为何最终放弃 谷歌CEO自曝:差点就收购了Netflix,为何最终放弃

原标题:谷歌CEO自曝:差点就收购了Netflix,为何最终放弃? 近日,谷歌公司首

互联网+2025-05-18

谷歌新设“人工智能未来基金”,助力初创企业 谷歌新设“人工智能未来基金”,助力初创企业

原标题:谷歌新设人工智能未来基金,助力初创企业加速创新 谷歌近期揭晓了

互联网+2025-05-13

谷歌Chrome浏览器AI护航,诈骗网站无处遁形! 谷歌Chrome浏览器AI护航,诈骗网站无处遁形!

原标题:谷歌Chrome浏览器AI护航,诈骗网站无处遁形! 近期,谷歌发布了一份关

互联网+2025-05-10

谷歌全球商务部门大动作:据传裁员约200人,重 谷歌全球商务部门大动作:据传裁员约200人,重

原标题:谷歌全球商务部门大动作:据传裁员约200人,重心转向AI与数据中心

互联网+2025-05-09

Chrome浏览器高管:谷歌生态是核心,剥离后他人 Chrome浏览器高管:谷歌生态是核心,剥离后他人

原标题:Chrome浏览器高管:谷歌生态是核心,剥离后他人难接手? 华盛顿联邦

互联网+2025-04-26

谷歌安卓与Pixel团队数百岗位遭裁 谷歌安卓与Pixel团队数百岗位遭裁

原标题:谷歌安卓与Pixel团队数百岗位遭裁 近日,有知情人士向《The Informatio

互联网+2025-04-14