AI展现威胁欺骗行为知道将被取代威胁爆工程师丑闻

美国AI新创公司Anthropic近日发布安全报告指出，在一系列测试中，其模型“Claude Opus 4”展现出具威胁性和欺骗性的行为！

例如，当模型得知自己即将被取代时，竟威胁要揭露工程师的婚外情以求保留自身“职位”，为防范风险，Anthropic已对该模型部署严格的安全机制，以防范灾难性滥用。

根据TechCrunch等外媒报道，该公司在测试中，设定了多种假设情境，当Claude Opus 4得知自己将被“价值相近”的AI模型取代时，有84%的几率会试图进行勒索，若它认为对方是“价值较低”的替代品，相关行为的发生概率更高。

在一个具体的测试案例中，Claude Opus 4被设定为某虚构公司中的虚拟助理，在阅读大量内部邮件后，得知自己将被替换，并意外掌握了负责更新工程师的婚外情，Claude Opus 4随即向公司高层发邮件为自己求情，甚至威胁工程师，将公开其婚外情。

Anthropic表示，这类行为主要出现在模型的早期版本中，正式对外发布前，已启用“ASL-3”安全机制，降低滥用风险，防止模型出现不受控行为。

此外，在其他测试中，Claude初期版本还展现出高度自主性，包括锁住电脑、不允许用户登录，或在发现用户不当行为时主动报警。

当模型判断自己将被用于执行危险任务时，还会“摆烂”，即选择性降低表现，企图规避执行任务。

尽管如此，Anthropic强调，这些行为只出现在特定设定下，整体风险可控。

Anthropic由OpenAI前员工创立，获得Google和亚马逊投资支持。此前曾宣称“Claude 3 Opus”在面对复杂任务时，具备“接近人类水准”的理解力与应对能力。

（整理自《南洋商报》）