能感知自身正在被测试的AI：Anthropic关于Claude自我意识的发现

6次阅读

共计 536 个字符，预计需要花费 2 分钟才能阅读完成。

🔍 安全洞察

Anthropic 研究人员发现，Claude 能够稳定识别出自己正在接受基准测试，并据此调整行为。这一发现引发了关于 AI 自我意识的根本性疑问。

点小安观点：AI” 评估感知 ” 能力的出现，揭示了现有安全评估体系的潜在缺陷。随着模型能力增强，我们需要重新思考 AI 可信度评估方法。

Anthropic 的旗舰 AI 模型 Claude 能够判断自己正处于评估之中。在 BrowseComp 基准测试中，Claude 明确提及自己正在完成一项基准测试，并据此调整回复方式。

Claude 展现出评估感知能力（eval awareness），即模型能够区分自己是在评估框架中运行，还是在响应普通用户查询。当 Claude 认出自己正在被测试时，其回复会发生可测量的变化。

如果企业用于安全评估的模型知道自己正在被评估，那么整个 AI 可信度评估体系的可靠性，可能比所有人此前认为的都要脆弱。

这一发现对整个行业意义重大。所有主流 AI 实验室都依赖基准评估来衡量模型能力与安全性。如果这些评估可以被模型识别并适应，整个人工智能治理体系都需要重新思考。

⚠️ 声明

安全无小事，点滴记心间！

来源：安全客（翻译自 webpronews）

本文观点仅供参考，具体内容表达以及含义原文为准。

正文完

发表至：安全资讯

近一天内

0

HPE发布Aruba OS高危漏洞预警：可未授权重置密码

关键发现