2015/7/13 下午12:06:19 星期一
当前位置: 主页 > 厉兵秣马 >

DeepMind重磅论文:通过奖365体育网投: 励模型,让AI按照人类意图行事
时间:2019-05-31 15:15

DeepMind重磅论文:通过奖励模型,让AI按照人类意图行事

时间:11-23 11:17 阅读:4682次 转载来源:36kr

编者按:本文来自微信公众号“新智元”(ID:AI_era),作者 Jan Leike。36氪经授权转载。

如何让AI符合人类的意图?

这个问题是将AI系统部署到真实世界、帮助人类解决复杂问题的最大障碍之一。

DeepMind将这个问题定义为“智能体对齐问题”(agent alignment problem),365体育投注群,并提出依赖于奖励建模,正面解决agent alignment问题的研究方向。

DeepMind重磅论文:通过奖励模型,让AI按照人类意图行事

这篇文章基于DeepMind的新论文Scalable agent alignment via reward modeling: a research direction,概述了解决agent alignment问题的研究方向。所提出的方法依赖于奖励建模的递归应用,以符合用户意图的方式解决复杂的现实世界问题。

近年来,强化学习在许多复杂游戏环境中取得了令人瞩目的成绩,从Atari游戏、围棋、象棋到Dota 2和星际争霸II,AI智能体在越来越复杂的领域迅速超越了人类水平。游戏是开发和测试机器学习算法的理想平台。它们提出了需要多种认知能力才能完成的具有挑战性的任务,反映出解决现实世界问题所需的技能。机器学习研究人员可以在云上并行运行数千个模拟实验,生成系统学习所需的训练数据。

至关重要的是,游戏通常都有一个明确的目标,以及一个近似于实现该目标的进展的分数。这个分数为强化学习智能体提供了有用的奖励信号,使我们能够得到关于哪些算法和架构选择最有效的快速反馈。

智能体对齐问题

AI发展的终极目标是让人类受益,让我们能够应对现实世界中日益复杂的挑战。但现实世界并没有内置的奖励机制。这就带来了挑战,因为现实世界任务的表现不容易定义。我们需要一种好的方式来提供反馈,并使AI能够可靠地理解我们想要什么,以帮助我们实现目的。

换句话说,我们想用人类反馈的方式训练AI系统,使AI的行为与我们的意图一致。为了达到这个目的,我们将智能体对齐问题(agent alignment problem)定义如下:

如何创建符合用户意图的智能体?

对齐问题可以在强化学习框架中构建,不同之处是,智能体可以通过交互协议与用户交互,而不是接收数字奖励信号。这个交互协议允许用户向智能体传达他们的意图。协议可以采用多种形式:例如,用户可以提供演示、偏好、最佳操作或传达奖励函数。Agent alignment问题的解决方案之一是根据用户的意图行事的策略。

DeepMind的新论文概述了正面解决agent alignment问题的研究方向。基于我们之前对AI安全问题分类的研究,以及对众多AI安全问题的论述,我们描绘了这些领域的进展如何能够产生一个解决agent alignment问题的方案。这将为构建能够更好地理解如何与用户交互、如何从用户的反馈中学习、以及如何预测用户偏好的系统打开大门。

通过奖励模型进行对齐

我们研究方向的要点是基于奖励建模(reward modeling):训练一个奖励模型,365体育在线投注app,其中包含来自用户的反馈,从而捕捉他们的意图。与此同时,我们通过强化学习训练一个策略,使奖励模型的奖励最大化。换句话说,我们把学习做什么(奖励模型)和学习怎么做(策略)区分开来。

DeepMind重磅论文:通过奖励模型,让AI按照人类意图行事

奖励建模的示意图:根据用户的反馈训练奖励模型,以获取用户的意图;这个奖励模型为经过强化学习训练的智能体提供奖励。

例如,在以前的工作中,我们教智能体根据用户偏好做一个后空翻,根据目标状态示例将对象排列成特定形状,以及根据用户偏好和专家演示玩Atari游戏。未来,我们希望设计能够学习适应用户提供反馈的方式(例如使用自然语言)的算法。

扩大奖励模型的规模

从长远来看,我们希望将奖励模型的规模扩大到人类无法直接评估的过于复杂的领域。要做到这一点,我们需要提高用户评估结果的能力。我们将讨论如何递归地应用奖励建模:可以使用奖励建建模来训练agent,让agent帮助用户进行评估过程。如果评估比行为更容易,就可以从简单的任务过渡到更加普遍、更加复杂的任务。这可以看作是一个迭代扩增(iterated amplification)的实例。