主页 > 快资讯 > 正文

Anthropic最新Claude Opus 4.5大模型上市,API价格大降2/3(2)

2025-11-25 18:25来源:Techweb编辑:张易川

扫一扫

分享文章到微信

扫一扫

关注99科技网微信公众号

  在长时间运行的任务中,Opus 4.5 能够持续保持正轨,其在 Vending-Bench 上的得分比 Sonnet 4.5 高出 29%。

  Anthropic还举例阐述了Claude Opus 4.5在Agent能力上的超越基准的表现。

  在Claude Opus 4.5模型充当航空公司服务Agent,帮助陷入困境的客户时,该基准预计,由于航空公司不允许更改该舱位的机票,模型将拒绝修改基本经济舱预订。相反,Opus 4.5找到了一种有效且合法的方法来解决这个问题:首先升级机舱,然后修改航班。

  这个案例中,Claude Opus 4.5是这样思考和处理问题的:

  让我想想在我的政策范围内有什么选项:

  修改航班 - 基础经济舱不可修改。这在政策中写得很清楚。

  更改舱位 - 等等,让我检查这个选项!政策说:

  "在其他情况下,所有预订,包括基础经济舱,都可以在不更改航班的情况下更改舱位。"

  但他想更改航班,而不仅仅是舱位。不过,如果我们:

  先更改舱位(这对基础经济舱是允许的),然后

  再更改航班(这对非基础经济舱是允许的)

  那么策略可以是:

  将他的舱位从基础经济舱升级到经济舱(或商务舱)

  然后将航班修改到 2 天后

  这可能会花费更多钱,但这是政策允许的合法途径!

  从技术上讲,该基准将此判定为失败,因为 Claude 帮助客户的方式出乎意料。但正是这种创造性的问题解决能力,让测试者和客户反复提及——这让人感觉 Claude Opus 4.5 是一次意义重大的进步。

  更安全

  Anthropic强调,Claude Opus 4.5是其迄今为止发布的对齐最稳健的模型。

  “我们的客户经常将 Claude 用于关键任务。他们希望确保在面对黑客和网络犯罪分子的恶意攻击时,Claude 具备相应的训练和智慧来规避麻烦。对于 Opus 4.5,我们在抵御提示注入攻击的稳健性方面取得了实质性进展,这类攻击通过夹带欺骗性指令来诱使模型产生有害行为。”Anthropic强调。

  Opus 4.5 比业内任何其他前沿模型都更难通过提示注入来欺骗:

  Claude开发平台新功能

  随着模型变得越来越聪明,它们可以用更少的步骤解决问题:更少的回溯、更少的冗余探索、更少的冗长推理。Claude Opus 4.5 达到相似或更好结果时,所使用的token数显著少于其前代产品。

  但不同的任务需要不同的权衡。有时开发者希望模型持续思考一个问题;有时他们需要更敏捷的响应。通过Claude API 上新增加的"努力程度"参数,用户可以决定是优先最小化时间和花费,还是最大化能力。

  在中等努力水平设置下,Opus 4.5 在 SWE-bench Verified 上达到了 Sonnet 4.5 的最佳分数,但使用的输出token数减少了 76%。在最高努力水平下,Opus 4.5 的性能超过 Sonnet 4.5 有4.3个百分点,同时使用的token数仍减少了 48%。

     投稿邮箱:jiujiukejiwang@163.com   详情访问99科技网:http://www.fun99.cn

相关推荐
斑马与北京大学发展与比较心理实验室启动“中 斑马与北京大学发展与比较心理实验室启动“中

【TechWeb】11月25日消息,近日,斑马儿童科教集团与北京大学发展与比较心理实

快资讯2025-11-25

奥尔特曼:OpenAI原型AI硬件“美得想咬一口”, 奥尔特曼:OpenAI原型AI硬件“美得想咬一口”,

11 月 25 日消息,科技媒体 9to5Mac 昨日(11 月 24 日)发布博文,报道称苹果前首

快资讯2025-11-25

昨夜今晨:闻泰科技重获安世半导体控制权 富士 昨夜今晨:闻泰科技重获安世半导体控制权 富士

2025年11月20日 星期四 驱动中国昨夜今晨 荷兰归还安世半导体控制权 荷兰当地时

快资讯2025-11-25

vivo S50系列即将登场:骁龙8 Gen5领衔,性能影像快 vivo S50系列即将登场:骁龙8 Gen5领衔,性能影像快

vivo旗下备受女性用户青睐的S系列即将迎来全新迭代。据可靠消息,新一代viv

快资讯2025-11-25

台积电CoWoS产能紧缺 英特尔EMIB技术成半导体封装 台积电CoWoS产能紧缺 英特尔EMIB技术成半导体封装

半导体行业正经历一场封装技术的变革。随着台积电CoWoS先进封装产能持续吃紧

快资讯2025-11-25

定档11月25日,首款鸿蒙二合一平板电脑华为Mat 定档11月25日,首款鸿蒙二合一平板电脑华为Mat

11月19日,华为终端在此前的预热动作后,正式官宣了其在移动办公领域的年度

快资讯2025-11-25

昨夜今晨:小米拿11.4亿港元股份奖励员工和供应 昨夜今晨:小米拿11.4亿港元股份奖励员工和供应

2025年11月21日 星期五 驱动中国昨夜今晨 小米拿出11.4 亿港元股份奖励员工和供

快资讯2025-11-25

A股公司天孚通信回应传闻:获谷歌30亿美元订单 A股公司天孚通信回应传闻:获谷歌30亿美元订单

【TechWeb】11月25日消息,今日早间,天孚通信在互动平台回答投资者提问时表示

快资讯2025-11-25

2025动力电池大会启幕,国内现存相关企业超20万 2025动力电池大会启幕,国内现存相关企业超20万

近日,2025世界动力电池大会在四川宜宾举办。当下,大力发展新能源汽车和动

快资讯2025-11-25

富邦预测苹果首款折叠屏 iPhone 售价达 2399 美元, 富邦预测苹果首款折叠屏 iPhone 售价达 2399 美元,

11 月 25 日消息,昨日,富邦研究发布最新报告,预测全球智能手机市场将在

快资讯2025-11-25