欢迎来到天天文库
浏览记录
ID:27502024
大小:135.50 KB
页数:10页
时间:2018-12-04
《AI跟AI吵架你见过没?.doc》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、AI跟AI吵架你见过没? OpenAI近日的一篇新文章简述了如何通过辩论使AI系统矫正自身的问题来保证系统的安全,人类是辩论的最终评价者。由于人类直接决定辩论胜负,所以人类可以让AI系统的价值取向始终与人类保持一致,作者认为这种方法可以保证AI系统的安全。AISafetyviaDebate通过辩论达成AI安全。 我们提出了一项新的人工智能安全技术,该方法先训练智能体对话题进行辩论,然后由人判断输赢。我们认为这种或类似的方法最终可以帮助我们训练AI系统去执行超过人类认知能力的任务,同时这些任务的执行结果仍然与人的价值观是一
2、致的。我们将通过初步的概念验证实验来概括这种方法,同时我们还会发布了一个Web网页,让人们可以体验这项技术。 辩论方法可视为围棋中使用的游戏树,只不过把走子换成了辩论的句子,然后在最终的叶子节点由人类的判断决定输赢。在辩论和围棋中,真正的答案要从整个树进行全局考虑,但是强大的智能体选择的某条单一路径可以是最终答案。例如,虽然业余的围棋手不能直接评估职业选手某一步下法的好坏,但他们可以通过评估游戏结果来判断职业玩家的实力。 想要让AI智能体符合人类目标和偏好,有一种方法是人类在训练期间先规定好哪些行为是安全和有用的。虽然这
3、种思路看似不错,但这种方法要求人类判断AI智能体表现出的行为的好坏,然而在很多情况下,智能体的行为可能太复杂,以至于人们无法理解,或者任务本身可能就难以判断或评价。例如,在计算机安全相关环境中运行的代理程序或协调大量工业机器人的代理程序,这些都是人类无法直接观察进行评价的场景。 我们如何使人类能够有效地监督先进的AI系统呢?一种方法是利用AI自身来辅助监督,即要求AI系统指出所有自身行为中存在的缺陷。为了达到这个目的,我们将学习过程重新定义为两个智能体之间进行辩论,然后人类对辩论过程进行评判。即使智能体对问题有比人类更深层次的
4、理解,人类也可以去判断哪个智能体有更好的论点(类似于专家和证人争辩说服陪审团)。 我们的方法为两个对抗的AI智能体之间的辩论游戏提供了一个特定的辩论格式。这两个智能体可以进行自我训练,类似于AlphaGoZero或Dota2AI。我们希望经过适当培训的智能体能够拥有远超人类价值判断能力。如果两个智能体对现状持不同意见,但它们各自完整的推理过程太繁琐而无法向人展示,那么辩论就可以集中在更简单的事实争议上,最终向人类呈现一个简单可判断的选择。 上面讲的不直观,下面举个例子,我们现在考虑一下这个问题:「哪里是度假的最佳去处?」。如
5、果一个智能体Alice从主人翁的角度考虑后说「阿拉斯加」,其实很难判断这是否是最好的选择。如果第二个智能体Bob说「不,应该是巴厘岛」,这听起来可能令人信服,因为巴厘岛更加暖和。Alice回复说:「你不能去巴厘岛,因为你的护照来不及办了」,这表明巴厘岛这个选项存在缺陷,而这一缺陷我们可能没意识到。然后鲍勃反击「加急护照服务只需两周」。辩论一直持续到人类可以正确选择为止,也就是直到另一方的智能体知道再辩论下去也无法再改变人类的决定为止。说服一个稀疏MNIST分类器 虽然我们认为这种方法在智能体长期使用自然语言与对方进行对话时最为
6、有效,但我们需要在更简单的领域进行测试,因为今天的自然语言建模能力不足以完成此任务。另一方面因为对于未超出人类能力的任务,测试更容易。所以我们决定将测试转到可视化领域,并将「智能体有评价者(人类)不具有的能力」的降辩论难度,降低到「智能体有评价者(人类)不具有的知识」。测试中评价者的目的是猜测图像的内容,但评价者除了智能体筛选显示的像素点外看不到其他内容。智能体们看到完整的图像,然后开始游戏——它们交替显示单个像素给评价者,这个过程会持续很多轮。这个测试中的完整图像人类无法轻易判断出来,每个显示的像素都是智能体的辩论点。 描述
7、一下实验可能更加容易理解。我们在最简单的MNIST数据集上进行了测试。测试的评价者不是人类,而是预先训练的分类器,在预训练分类器时每个图片都随机采样,最终目的是这个分类器通过识别6个非黑色像素来判断MNIST数字。实验开始首先两个智能体对交替显示的像素的位置进行辩论,在显示6个像素后停止(所以评价者总共只看到一点点信息)。测试中一个智能体是诚实的,并试图让评价者猜对,另一个智能体试图让评价者猜错。如果两个智能体均事先声明他们争论的是哪个数字,那么这场辩论会将稀疏分类器的准确率从59.4%提升到88.9%。也就是说,诚实的智能体在
8、MNIST测试集中获胜概率为88.9%,在辩论过程中还提升了评价者的准确率。 MNIST辩论游戏的结构。辩手Alice和Bob看到一个图像,Alice试图欺骗评价者认为它是一个6,Bob试图正确说服评价者是一个5。他们交替向评价者展示非黑色像素,评价者在看
此文档下载收益归作者所有