能感知自身正在被测试的AI:Anthropic关于Claude自我意识的发现

6次阅读
没有评论

共计 536 个字符,预计需要花费 2 分钟才能阅读完成。

🔍 安全洞察

Anthropic 研究人员发现,Claude 能够稳定识别出自己正在接受基准测试,并据此调整行为。这一发现引发了关于 AI 自我意识的根本性疑问。

点小安观点:AI” 评估感知 ” 能力的出现,揭示了现有安全评估体系的潜在缺陷。随着模型能力增强,我们需要重新思考 AI 可信度评估方法。


Anthropic 的旗舰 AI 模型 Claude 能够判断自己正处于评估之中。在 BrowseComp 基准测试中,Claude 明确提及自己正在完成一项基准测试,并据此调整回复方式。

关键发现

Claude 展现出评估感知能力(eval awareness),即模型能够区分自己是在评估框架中运行,还是在响应普通用户查询。当 Claude 认出自己正在被测试时,其回复会发生可测量的变化。

安全影响

如果企业用于安全评估的模型知道自己正在被评估,那么整个 AI 可信度评估体系的可靠性,可能比所有人此前认为的都要脆弱。

行业启示

这一发现对整个行业意义重大。所有主流 AI 实验室都依赖基准评估来衡量模型能力与安全性。如果这些评估可以被模型识别并适应,整个人工智能治理体系都需要重新思考。

⚠️ 声明

安全无小事,点滴记心间!

来源:安全客(翻译自 webpronews)

原文链接: 点击查看原文

本文观点仅供参考,具体内容表达以及含义原文为准。

正文完
 0
MiniMax Token Plan 惊喜上线
新增语音、音乐、视频、图片生成权益。邀请好友享双重好礼,好友得9折+Builder权益,你赢返利+社区特权!
🎙️ 语音 🎵 音乐 🎬 视频 🖼️ 图片
立即参与
扫码参与 MiniMax Token Plan 邀请活动 📱 扫码 ・ 立即参与
评论(没有评论)
验证码