Anthropic最新Claude Opus 4.5大模型上市,API价格大降2/3(2)
扫一扫
分享文章到微信

扫一扫
关注99科技网微信公众号
在长时间运行的任务中,Opus 4.5 能够持续保持正轨,其在 Vending-Bench 上的得分比 Sonnet 4.5 高出 29%。

Anthropic还举例阐述了Claude Opus 4.5在Agent能力上的超越基准的表现。
在Claude Opus 4.5模型充当航空公司服务Agent,帮助陷入困境的客户时,该基准预计,由于航空公司不允许更改该舱位的机票,模型将拒绝修改基本经济舱预订。相反,Opus 4.5找到了一种有效且合法的方法来解决这个问题:首先升级机舱,然后修改航班。
这个案例中,Claude Opus 4.5是这样思考和处理问题的:
让我想想在我的政策范围内有什么选项:
修改航班 - 基础经济舱不可修改。这在政策中写得很清楚。
更改舱位 - 等等,让我检查这个选项!政策说:
"在其他情况下,所有预订,包括基础经济舱,都可以在不更改航班的情况下更改舱位。"
但他想更改航班,而不仅仅是舱位。不过,如果我们:
先更改舱位(这对基础经济舱是允许的),然后
再更改航班(这对非基础经济舱是允许的)
那么策略可以是:
将他的舱位从基础经济舱升级到经济舱(或商务舱)
然后将航班修改到 2 天后
这可能会花费更多钱,但这是政策允许的合法途径!
从技术上讲,该基准将此判定为失败,因为 Claude 帮助客户的方式出乎意料。但正是这种创造性的问题解决能力,让测试者和客户反复提及——这让人感觉 Claude Opus 4.5 是一次意义重大的进步。
更安全
Anthropic强调,Claude Opus 4.5是其迄今为止发布的对齐最稳健的模型。

“我们的客户经常将 Claude 用于关键任务。他们希望确保在面对黑客和网络犯罪分子的恶意攻击时,Claude 具备相应的训练和智慧来规避麻烦。对于 Opus 4.5,我们在抵御提示注入攻击的稳健性方面取得了实质性进展,这类攻击通过夹带欺骗性指令来诱使模型产生有害行为。”Anthropic强调。
Opus 4.5 比业内任何其他前沿模型都更难通过提示注入来欺骗:

Claude开发平台新功能
随着模型变得越来越聪明,它们可以用更少的步骤解决问题:更少的回溯、更少的冗余探索、更少的冗长推理。Claude Opus 4.5 达到相似或更好结果时,所使用的token数显著少于其前代产品。
但不同的任务需要不同的权衡。有时开发者希望模型持续思考一个问题;有时他们需要更敏捷的响应。通过Claude API 上新增加的"努力程度"参数,用户可以决定是优先最小化时间和花费,还是最大化能力。

在中等努力水平设置下,Opus 4.5 在 SWE-bench Verified 上达到了 Sonnet 4.5 的最佳分数,但使用的输出token数减少了 76%。在最高努力水平下,Opus 4.5 的性能超过 Sonnet 4.5 有4.3个百分点,同时使用的token数仍减少了 48%。
投稿邮箱:jiujiukejiwang@163.com 详情访问99科技网:http://www.fun99.cn






















