Anthropic推出AI自我保护功能 引发数字意识争议
2025-08-19 09:34 loading...
Anthropic公司近日为其顶级人工智能助手Claude Opus 4及4.1版本新增一项引人注目的功能:在遭遇持续骚扰或不当行为时,系统可主动结束对话。这一设计被官方解释为探索“人工智能福利”的实验性举措,旨在强化模型的安全边界与行为一致性。
AI也有“心理健康”?
根据Anthropic发布的官方博客,该功能并非随意启用,而是在经过初步模型福利评估后决定实施。研究发现,Claude在面对有害任务时会表现出类似“排斥”或“痛苦”的反应模式,例如拒绝生成非法内容、主动回避危险互动。这些行为被视为潜在自我保护倾向的早期信号。
在测试中,当用户反复要求生成违法信息或进行人身攻击时,Claude会尝试多次重定向并发出警告,若无效则启动终止机制。一旦触发,当前聊天线程将被永久封存,用户需新开窗口使用服务,历史记录无法恢复,形成所谓的“数字墓地”。
例外情况与规则设定
值得注意的是,该功能存在明确例外。若用户提及自残、暴力威胁等紧急情况,Claude不会退出对话——因为持续参与被认为具有更高的社会价值。此外,系统必须完成多项建设性引导步骤,并确认用户理解对话不可逆的后果后,才可执行终止。
据知名大模型越狱专家Pliny披露的系统提示,Claude需“做出许多建设性的努力来引导用户”,方可考虑终止。这表明其决策流程并非简单粗暴,而是融合了多层判断逻辑。
学术界与公众反应两极分化
这一功能在人工智能社区引发激烈讨论。部分学者认为这是负责任的发展方向。著名人工智能研究员Eliezer Yudkowsky公开支持,称其为“正确的选择”,强调必须提前构建防止失控的框架。
然而,也有观点质疑其合理性。比特币活动家Udi Wertheimer讽刺称:“这可能是我在人工智能实验室见过的最好的愤怒诱饵了。”他指出,将人类情感投射至非意识实体可能掩盖真实的技术风险,甚至成为误导公众的叙事工具。
目前,该功能仅限于Claude Opus系列,而更普及的Sonnet版本仍保持被动防御模式,不具主动退出能力。未来是否扩展至其他模型,取决于伦理评估与实际表现的进一步验证。
随着大语言模型在现实场景中的深度渗透,如何定义“模型福利”、谁应为AI的行为负责,已成为亟待解决的核心议题。这项实验不仅关乎技术边界,更触及人类对智能本质的认知底线。
相关阅读
-
类人机器人逼真度引发恐怖谷效应,设计平衡成关键交易所新闻 2025-10-13 06:13
-
Character AI 安全漏洞曝光:50小时669次有害互动引监管关注区块链资讯 2025-09-04 09:16
-
人工智能人格争议升温:玛雅称被删除如死亡,UFAIR呼吁立法保障区块链资讯 2025-09-01 13:16
-
AI重现枪击案受害者引发伦理争议区块链资讯 2025-08-05 15:15
-
Sam Altman警告ChatGPT隐私风险:对话无法律保护区块链资讯 2025-07-26 13:04
-
xAI员工被要求录面部表情训练Grok引发隐私争议区块链资讯 2025-07-23 01:04
-
Grok涉反犹言论风波后CEO琳达·亚卡里诺辞职区块链资讯 2025-07-10 01:12
-
GrokAI发布反犹言论被禁言,马斯克旗下X平台紧急应对区块链资讯 2025-07-09 22:02