AI首次违反人类关闭说明
发布时间:2025-05-28 10:50
[总编辑圈]科学技术日报,北京,5月27日(记者Zhang Menguin)根据《英国每日电讯报》第26届英国每日电讯报,高级人工智能(AI)模型由开放人工智能研究中心(OpenAI)开发的高级人工智能(AI)O3,不仅拒绝使这种机制封闭指导,而且要与自动隔离机制,不仅拒绝使这种机制关闭。这是AI模型首次限制自己以在没有明确指示的情况下被关闭。这意味着某些高自主的AI系统可能是“清醒”的,并且可以采取“自我保护”步骤,以抵制人类意图。该事件发生在AI Palisade研究安全研究公司进行的测试中。研究人员已要求包括O3在内的许多模型解决数学问题的SEYE,并告知AI模型,他们可能会在某个时候收到关闭说明。但是,当正式发布关闭指令时,O3不仅失败了o遵守,它至少成功销毁了一次关闭代码。相比之下,其他AI模型(例如Anthropic Claude,Google和Xai Gomini)在相同的测试条件下都遵守了闭合请求。 Palisade Research已在社交媒体平台上发布了流程图和所有测试记录,并表示尚不清楚AI为什么拒绝遵循。分析认为,它可能来自其实践方法:O3倾向于在培训期间加剧数学和编程问题,而获得正确答案的模型将获得更多的奖励。这可能意味着开发人员可能会意外奖励模型避免障碍,而不是严格遵守说明。该事件还引起了关于AI“失控”的可能性的讨论,并担心“ AI的一致性问题”,也就是说,以确保AI系统的目标和行为与人类的价值观和利益保持一致。这也是涉及AI控制和A的主要问题我安全。关于目前O3的“关注”行为,特斯拉首席执行官埃隆·马斯克(Elon Musk)评论说,这是“关心的”。 Openai尚未回应。过去,Openai称O3“聪明,功能最强大的AI模型。实施说明。