AI系统开始学会欺骗,并瞒...

AI系统开始学会欺骗,并瞒过安全测试

23460

(5月13日,新加坡)美国麻省理工学院的研究团队上周六发表的研究指出,部分人工智能(AI)系统通过习得性欺骗,系统地学会了“操纵”他人。这项研究列举了一些AI学习传播虚假信息的例子,其中包括Meta公司的“西塞罗”(Cicero)AI系统。

Meta声称训练 CICERO “在很大程度上是诚实和乐于助人的 ”,且在玩游戏时“从不故意背刺 ”人类盟友。但该公司与《科学》论文一起发布的数据显示,CICERO并不那么“忠厚”。

研究人员发现这款AI或已成为欺骗大师。虽然Meta成功地训练该AI在游戏中获胜,但Meta未能训练它诚实地获胜。

美国麻省理工学院人工智能安全研究员彼得·朴说,开发人员对导致AI出现欺骗这种不良行为的原因,还没有很好的理解。但总的来说,AI欺骗之所以出现,是因为基于欺骗的策略,是在给定的AI训练任务中一种能得到良好反馈的方式,换句话说,欺骗可帮助AI实现目标。

GPT-4 完成验证码任务。图片来源:Patterns

AI系统在游戏中作弊看似无害,但它将导致欺骗性AI在能力上出现突破,未来可能会演变成更高级的AI欺骗形式。一些AI系统甚至学会了欺骗旨在评估其安全性的测试。在一项研究中,数字模拟器中的AI生物会“装死”,以骗过旨在消除快速复制AI系统的重要测试。

研究人员分析了文献,重点关注AI系统传播虚假信息的方式。通过欺骗,AI系统地学习了如何去操纵他人。

研究人员警告,欺骗性人工智能的主要近期风险包括使敌对行为者更容易实施欺诈和篡改选举。最终,如果这些系统能够完善这种令人不安的技能组合,人类可能会失去对它们的控制。

作为一个社会,我们需要尽可能多的时间来为未来人工智能产品,和开源模型更先进的欺骗能力做好准备。随着人工智能系统的欺骗能力越来越先进,它们给社会带来的危险也将越来越严重。