美国AI新创公司Anthropic近日发布安全报告指出,在一系列测试中,其模型“Claude Opus 4”展现出具威胁性和欺骗性的行为!
例如,当模型得知自己即将被取代时,竟威胁要揭露工程师的婚外情以求保留自身“职位”,为防范风险,Anthropic已对该模型部署严格的安全机制,以防范灾难性滥用。
根据TechCrunch等外媒报道,该公司在测试中,设定了多种假设情境,当Claude Opus 4得知自己将被“价值相近”的AI模型取代时,有84%的几率会试图进行勒索,若它认为对方是“价值较低”的替代品,相关行为的发生概率更高。
在一个具体的测试案例中,Claude Opus 4被设定为某虚构公司中的虚拟助理,在阅读大量内部邮件后,得知自己将被替换,并意外掌握了负责更新工程师的婚外情,Claude Opus 4随即向公司高层发邮件为自己求情,甚至威胁工程师,将公开其婚外情。
Anthropic表示,这类行为主要出现在模型的早期版本中,正式对外发布前,已启用“ASL-3”安全机制,降低滥用风险,防止模型出现不受控行为。
此外,在其他测试中,Claude初期版本还展现出高度自主性,包括锁住电脑、不允许用户登录,或在发现用户不当行为时主动报警。
当模型判断自己将被用于执行危险任务时,还会“摆烂”,即选择性降低表现,企图规避执行任务。
尽管如此,Anthropic强调,这些行为只出现在特定设定下,整体风险可控。
Anthropic由OpenAI前员工创立,获得Google和亚马逊投资支持。此前曾宣称“Claude 3 Opus”在面对复杂任务时,具备“接近人类水准”的理解力与应对能力。
(整理自《南洋商报》)