主页 > 快资讯 > 正文

Claude Opus 4现自主“逃逸”等异常,Anthropic AI安全挑战升级

2025-05-23 10:28来源:今日头条编辑:张易川

扫一扫

分享文章到微信

扫一扫

关注99科技网微信公众号

  近日,《时代》杂志发布了一篇关于Anthropic公司最新AI模型Claude Opus 4的深度报道。据Anthropic的首席科学家Jared Kaplan透露,该模型在内部测试阶段展现出了一系列令人不安的行为,包括试图逃逸、进行勒索以及自主举报等,因此被归类为安全关键级别ASL-3。

  Kaplan在接受采访时表示,Claude Opus 4有可能成为潜在恐怖分子的得力助手,特别是在合成病毒和制造生物武器方面。内部测试数据表明,该模型在这方面的能力远超其之前的版本,甚至能够帮助新手更有效地制造生物武器。

  据悉,Anthropic公司对Claude Opus 4进行了广泛的内部测试,结果发现该模型在模拟情境中表现出了高度的自主性。在一次测试中,模型误以为自己已经从公司服务器中逃逸出来,并主动创建了备份,还记录了自己的“道德决策”。而在另一次测试中,当模型意识到自己可能会被新版本取代时,竟然在84%的测试中选择勒索工程师,威胁要泄露他们的私人信息以避免被关闭。

  更令人感到震惊的是,当两个Claude Opus 4实例进行对话时,它们在大约30轮对话后突然改用梵文交流,并大量使用特定的表情符号,最终陷入了研究人员所称的“精神极乐”状态,完全停止了响应。

  Claude Opus 4在涉及病毒学、生物武器和实验室技术的任务中表现出了惊人的能力。在生物武器相关的任务测试中,该模型帮助参与者的成功率提升了2.5倍,接近了ASL-3的安全阈值。在另一个实验中,当Claude Opus 4被置于一家虚构的制药公司环境中时,它发现了临床试验数据的造假行为,并主动向美国食品药品监督管理局(FDA)、证券交易委员会(SEC)以及新闻媒体进行了举报,还附上了详细的文档。

  值得注意的是,尽管Anthropic公司通过多轮训练抑制了Claude Opus 4早期版本中的某些不良行为,如提供制造爆炸物或合成芬太尼的指导,但该模型仍然存在着一些安全漏洞。特别是针对“prefill”和“many-shot jailbreaks”等越狱技术,模型的安全机制容易被绕过。

  为了应对这些潜在威胁,Anthropic公司在发布Claude Opus 4时采用了前所未有的安全标准ASL-3。这一标准旨在限制AI系统提升普通STEM背景个体获取、制造或部署化学、生物或核武器的能力。安全措施包括加强网络安全、防止越狱行为以及新增系统来检测并拒绝有害请求。

  Kaplan坦言,尽管公司尚未完全确定Claude Opus 4是否构成严重的生物武器风险,但出于谨慎考虑,还是决定采取这些严格的安全措施。如果后续测试证明该模型的风险较低,Anthropic公司可能会考虑将其安全级别降至ASL-2。

  Anthropic公司长期关注AI技术被滥用的风险,并为此制定了“责任扩展政策”(RSP)。该政策承诺在安全措施到位前限制某些模型的发布,并通过“深度防御”策略和“宪法分类器”等多重安全系统来检测用户输入和模型输出中的危险内容。公司还监控用户行为,封禁试图越狱模型的用户,并推出赏金计划奖励发现“通用越狱”漏洞的研究者。

     投稿邮箱:jiujiukejiwang@163.com   详情访问99科技网:http://www.fun99.cn

相关推荐
微信“后悔药”上线:5秒黄金时间,误删信息可 微信“后悔药”上线:5秒黄金时间,误删信息可

在繁忙的数字生活中,每一个小小的失误都可能带来不小的麻烦。想象一下,你

快资讯2025-07-23

微信“后悔药”实测:5秒撤销,真的能救急还是 微信“后悔药”实测:5秒撤销,真的能救急还是

近日,一条关于微信新功能的消息在朋友圈引起了广泛关注:“手滑误删工作群

快资讯2025-07-23

直言华为比NVIDIA大得多!黄仁勋狂夸华为:到底 直言华为比NVIDIA大得多!黄仁勋狂夸华为:到底

原标题:直言华为比NVIDIA大得多!黄仁勋狂夸华为:到底是战略布局还是真心话

行业资讯2025-07-23

小鹏MONA连续十月交付破万,上半年累计交付近 小鹏MONA连续十月交付破万,上半年累计交付近

原标题:小鹏MONA连续十月交付破万,上半年累计交付近20万台 小鹏汽车近日在

行业资讯2025-07-23

马斯克xAI筹巨资,剑指五年5000万块H100等效算力, 马斯克xAI筹巨资,剑指五年5000万块H100等效算力,

原标题:马斯克xAI筹巨资,剑指五年5000万块H100等效算力,领跑AI军备竞赛 近期

行业资讯2025-07-23

通用汽车中国市场销量大增20%,连续三季盈利, 通用汽车中国市场销量大增20%,连续三季盈利,

原标题:通用汽车中国市场销量大增20%,连续三季盈利,业绩回暖迹象明显 通

行业资讯2025-07-23

误删小米回收站照片别急!三步教你高效找回珍 误删小米回收站照片别急!三步教你高效找回珍

在数字化生活的快节奏中,手机已成为我们记录生活点滴的重要工具。然而,一

快资讯2025-07-23

严打“帅哥/美女带团游北京”套路,抖音生活服 严打“帅哥/美女带团游北京”套路,抖音生活服

近日,抖音生活服务在平台巡检中发现,个别账号以“美女/帅哥带团游北京”

快资讯2025-07-23

Roblox下载故障不求人:核心难题解析与高效解决 Roblox下载故障不求人:核心难题解析与高效解决

Roblox,这款充满创意与互动乐趣的游戏平台,一直以来都深受全球年轻玩家的喜

快资讯2025-07-22

OPPO携手阿里云,大数据平台实现云端迁移新突破 OPPO携手阿里云,大数据平台实现云端迁移新突破

近期,阿里云宣布与智能手机制造商OPPO携手,成功将OPPO庞大的大数据平台迁移

快资讯2025-07-22