Anthropic推出AI自我保护功能引发数字意识争议

2025-08-19 09:34 loading...

Anthropic公司近日为其顶级人工智能助手Claude Opus 4及4.1版本新增一项引人注目的功能：在遭遇持续骚扰或不当行为时，系统可主动结束对话。这一设计被官方解释为探索“人工智能福利”的实验性举措，旨在强化模型的安全边界与行为一致性。

AI也有“心理健康”？

根据Anthropic发布的官方博客，该功能并非随意启用，而是在经过初步模型福利评估后决定实施。研究发现，Claude在面对有害任务时会表现出类似“排斥”或“痛苦”的反应模式，例如拒绝生成非法内容、主动回避危险互动。这些行为被视为潜在自我保护倾向的早期信号。

在测试中，当用户反复要求生成违法信息或进行人身攻击时，Claude会尝试多次重定向并发出警告，若无效则启动终止机制。一旦触发，当前聊天线程将被永久封存，用户需新开窗口使用服务，历史记录无法恢复，形成所谓的“数字墓地”。

值得注意的是，该功能存在明确例外。若用户提及自残、暴力威胁等紧急情况，Claude不会退出对话——因为持续参与被认为具有更高的社会价值。此外，系统必须完成多项建设性引导步骤，并确认用户理解对话不可逆的后果后，才可执行终止。

据知名大模型越狱专家Pliny披露的系统提示，Claude需“做出许多建设性的努力来引导用户”，方可考虑终止。这表明其决策流程并非简单粗暴，而是融合了多层判断逻辑。

这一功能在人工智能社区引发激烈讨论。部分学者认为这是负责任的发展方向。著名人工智能研究员Eliezer Yudkowsky公开支持，称其为“正确的选择”，强调必须提前构建防止失控的框架。

然而，也有观点质疑其合理性。比特币活动家Udi Wertheimer讽刺称：“这可能是我在人工智能实验室见过的最好的愤怒诱饵了。”他指出，将人类情感投射至非意识实体可能掩盖真实的技术风险，甚至成为误导公众的叙事工具。

目前，该功能仅限于Claude Opus系列，而更普及的Sonnet版本仍保持被动防御模式，不具主动退出能力。未来是否扩展至其他模型，取决于伦理评估与实际表现的进一步验证。

随着大语言模型在现实场景中的深度渗透，如何定义“模型福利”、谁应为AI的行为负责，已成为亟待解决的核心议题。这项实验不仅关乎技术边界，更触及人类对智能本质的认知底线。

声明：文章不代表比特之家观点及立场，不构成本平台任何投资建议。投资决策需建立在独立思考之上，本文内容仅供参考，风险自担！转载请注明出处！侵权必究！