主页 > 快资讯 > 正文

Anthropic最新Claude Opus 4.5大模型上市,API价格大降2/3(2)

2025-11-25 18:25来源:Techweb编辑:张易川

扫一扫

分享文章到微信

扫一扫

关注99科技网微信公众号

  在长时间运行的任务中,Opus 4.5 能够持续保持正轨,其在 Vending-Bench 上的得分比 Sonnet 4.5 高出 29%。

  Anthropic还举例阐述了Claude Opus 4.5在Agent能力上的超越基准的表现。

  在Claude Opus 4.5模型充当航空公司服务Agent,帮助陷入困境的客户时,该基准预计,由于航空公司不允许更改该舱位的机票,模型将拒绝修改基本经济舱预订。相反,Opus 4.5找到了一种有效且合法的方法来解决这个问题:首先升级机舱,然后修改航班。

  这个案例中,Claude Opus 4.5是这样思考和处理问题的:

  让我想想在我的政策范围内有什么选项:

  修改航班 - 基础经济舱不可修改。这在政策中写得很清楚。

  更改舱位 - 等等,让我检查这个选项!政策说:

  "在其他情况下,所有预订,包括基础经济舱,都可以在不更改航班的情况下更改舱位。"

  但他想更改航班,而不仅仅是舱位。不过,如果我们:

  先更改舱位(这对基础经济舱是允许的),然后

  再更改航班(这对非基础经济舱是允许的)

  那么策略可以是:

  将他的舱位从基础经济舱升级到经济舱(或商务舱)

  然后将航班修改到 2 天后

  这可能会花费更多钱,但这是政策允许的合法途径!

  从技术上讲,该基准将此判定为失败,因为 Claude 帮助客户的方式出乎意料。但正是这种创造性的问题解决能力,让测试者和客户反复提及——这让人感觉 Claude Opus 4.5 是一次意义重大的进步。

  更安全

  Anthropic强调,Claude Opus 4.5是其迄今为止发布的对齐最稳健的模型。

  “我们的客户经常将 Claude 用于关键任务。他们希望确保在面对黑客和网络犯罪分子的恶意攻击时,Claude 具备相应的训练和智慧来规避麻烦。对于 Opus 4.5,我们在抵御提示注入攻击的稳健性方面取得了实质性进展,这类攻击通过夹带欺骗性指令来诱使模型产生有害行为。”Anthropic强调。

  Opus 4.5 比业内任何其他前沿模型都更难通过提示注入来欺骗:

  Claude开发平台新功能

  随着模型变得越来越聪明,它们可以用更少的步骤解决问题:更少的回溯、更少的冗余探索、更少的冗长推理。Claude Opus 4.5 达到相似或更好结果时,所使用的token数显著少于其前代产品。

  但不同的任务需要不同的权衡。有时开发者希望模型持续思考一个问题;有时他们需要更敏捷的响应。通过Claude API 上新增加的"努力程度"参数,用户可以决定是优先最小化时间和花费,还是最大化能力。

  在中等努力水平设置下,Opus 4.5 在 SWE-bench Verified 上达到了 Sonnet 4.5 的最佳分数,但使用的输出token数减少了 76%。在最高努力水平下,Opus 4.5 的性能超过 Sonnet 4.5 有4.3个百分点,同时使用的token数仍减少了 48%。

     投稿邮箱:jiujiukejiwang@163.com   详情访问99科技网:http://www.fun99.cn

相关推荐
三星One UI 8.5测试版日志揭秘:AI修图升级,设备 三星One UI 8.5测试版日志揭秘:AI修图升级,设备

近日,科技圈传来新动态,消息源@tarunvats33在X平台发布推文,分享了一组关于

快资讯2025-12-04

萝卜快跑布局广东鹤山!新设科技公司注册资本 萝卜快跑布局广东鹤山!新设科技公司注册资本

近日,一家名为萝卜快跑(鹤山)科技有限公司的新企业正式注册成立,引发市

快资讯2025-12-04

美光宣布退出Crucial消费级业务,近三十年品牌将 美光宣布退出Crucial消费级业务,近三十年品牌将

12月4日消息,全球存储巨头美光科技(Micron Technology)正式宣布,将全面退出其

快资讯2025-12-04

OpenAI在"玩火"?头号对手罕见开炮 OpenAI在"玩火"?头号对手罕见开炮

作者 | 小小 出品 | 网易科技 通往AGI不需要魔法,只需要“暴力计算”。但前提

快资讯2025-12-04

灵光闪应用升级 不会代码也能用AI生成小游戏 灵光闪应用升级 不会代码也能用AI生成小游戏

12月4日消息,今日,通用AI助手灵光宣布重要升级,上线闪游戏功能。区别于传

快资讯2025-12-04

亚马逊云科技re:Invent 2025发布Nova 2系列,多款中国 亚马逊云科技re:Invent 2025发布Nova 2系列,多款中国

在亚马逊云科技举办的re:Invent 2025全球大会上,首席执行官Matt Garman宣布推出四

快资讯2025-12-04

iPhone 17系列立大功!苹果10月全球份额24.2%:创历 iPhone 17系列立大功!苹果10月全球份额24.2%:创历

12月4日消息,据市场调研机构Counterpoint Research最新报告,2025年10月,苹果在全球

快资讯2025-12-04

东风日产法务:多个自媒体账号发布 N6 不实信息 东风日产法务:多个自媒体账号发布 N6 不实信息

12 月 4 日消息,东风日产法务昨晚在官微发布声明,称东风日产 N6 上市后,注

快资讯2025-12-04

卢伟冰回应罗福莉加盟 小米在大模型应用方面进 卢伟冰回应罗福莉加盟 小米在大模型应用方面进

12月4日消息,小米集团总裁卢伟冰近日通过社交媒体 "答网友问" 第十二期,首

快资讯2025-12-04

一加 Ace 6T深度评测:性能影像双在线,打造全能 一加 Ace 6T深度评测:性能影像双在线,打造全能

在手游市场持续升温的当下,性能旗舰手机的竞争愈发激烈。一加 Ace 6T的登场

快资讯2025-12-04