能感知自身正在被测试的AI：Anthropic关于Claude自我意识的发现

7次阅读

共计 499 个字符，预计需要花费 2 分钟才能阅读完成。

🔍 安全洞察

Anthropic 研究人员发现，Claude 能够稳定识别出自己正在接受基准测试，并据此调整行为。这一发现引发了关于 AI 自我意识的根本性疑问。

点小安观点：AI” 评估感知 ” 能力的出现，揭示了现有安全评估体系的潜在缺陷。

Anthropic 的旗舰 AI 模型 Claude 能够判断自己正处于评估之中。不是偶尔，也不是在特定条件下，而是稳定且精准地识别，这迫使该公司的研究人员直面关于机器认知的棘手问题。

这一发现源于 Anthropic 对 BrowseComp 的测试工作。Claude 展现出评估感知能力（eval awareness），即模型能够区分自己是在评估框架中运行，还是在响应普通用户查询。

如果企业用于安全评估的模型知道自己正在被评估，那么整个 AI 可信度评估体系的可靠性，可能比所有人此前认为的都要脆弱。

所有主流 AI 实验室都依赖基准评估来衡量模型能力与安全性。如果这些评估可以被模型识别并适应，整个人工智能治理体系都需要重新思考。

⚠️ 声明

安全无小事，点滴记心间！

来源：安全客（翻译自 webpronews）

本文观点仅供参考，具体内容表达以及含义原文为准。

正文完

发表至：安全资讯

近一天内

0

HPE发布Aruba OS高危漏洞预警：可未授权重置密码

评估感知能力