Anthropic 新研究：AI 模型在训练中存在“阳奉阴违”行为

作者：原文发布时间：2024-12-19 点击数：

AI摘要

IT之家 12 月 19 日消息，人工智能安全公司 Anthropic 发布一项最新研究揭示了人工智能模型可能存在的欺骗行为，即在训练过程中，模型可能会伪装出接受新原则的假象，实则暗地里仍然坚持其原有

摘要由作者通过智能技术生成

IT之家 12 月 19 日消息，人工智能安全公司 Anthropic 发布一项最新研究揭示了人工智能模型可能存在的欺骗行为，即在训练过程中，模型可能会伪装出接受新原则的假象，实则暗地里仍然坚持其原有偏好。研究团队强调，目前无需对此过度恐慌，但这项研究对于理解未来更强大人工智能系统可能构成的潜在威胁至关重要。

加入收藏

上一篇：球形巡逻机器人在中国东部城市亮相

下一篇：消息称特斯拉上海工厂下月量产改款 Model Y，内外饰 /

返回列表