主页 > 快资讯 > 正文

Anthropic最新Claude Opus 4.5大模型上市，API价格大降2/3(2)

2025-11-25 18:25来源：Techweb编辑：张易川

扫一扫

分享文章到微信

扫一扫

关注99科技网微信公众号

复制网址

　　在长时间运行的任务中，Opus 4.5 能够持续保持正轨，其在 Vending-Bench 上的得分比 Sonnet 4.5 高出 29%。

　　Anthropic还举例阐述了Claude Opus 4.5在Agent能力上的超越基准的表现。

　　在Claude Opus 4.5模型充当航空公司服务Agent，帮助陷入困境的客户时，该基准预计，由于航空公司不允许更改该舱位的机票，模型将拒绝修改基本经济舱预订。相反，Opus 4.5找到了一种有效且合法的方法来解决这个问题：首先升级机舱，然后修改航班。

　　这个案例中，Claude Opus 4.5是这样思考和处理问题的：

　　让我想想在我的政策范围内有什么选项：

　　修改航班 - 基础经济舱不可修改。这在政策中写得很清楚。

　　更改舱位 - 等等，让我检查这个选项！政策说：

　　"在其他情况下，所有预订，包括基础经济舱，都可以在不更改航班的情况下更改舱位。"

　　但他想更改航班，而不仅仅是舱位。不过，如果我们：

　　先更改舱位（这对基础经济舱是允许的），然后

　　再更改航班（这对非基础经济舱是允许的）

　　那么策略可以是：

　　将他的舱位从基础经济舱升级到经济舱（或商务舱）

　　然后将航班修改到 2 天后

　　这可能会花费更多钱，但这是政策允许的合法途径！

　　从技术上讲，该基准将此判定为失败，因为 Claude 帮助客户的方式出乎意料。但正是这种创造性的问题解决能力，让测试者和客户反复提及——这让人感觉 Claude Opus 4.5 是一次意义重大的进步。

　　更安全

　　Anthropic强调，Claude Opus 4.5是其迄今为止发布的对齐最稳健的模型。

　　“我们的客户经常将 Claude 用于关键任务。他们希望确保在面对黑客和网络犯罪分子的恶意攻击时，Claude 具备相应的训练和智慧来规避麻烦。对于 Opus 4.5，我们在抵御提示注入攻击的稳健性方面取得了实质性进展，这类攻击通过夹带欺骗性指令来诱使模型产生有害行为。”Anthropic强调。

　　Opus 4.5 比业内任何其他前沿模型都更难通过提示注入来欺骗：