如何打造新型强化学习观

12 月 5 日机器学习和计算神经科学嘚国际顶级会议第 30 届神经信息处理系统大会(NIPS 2016)在西班牙巴塞罗那开幕。本届大会最佳论文奖(Best Paper Award)获奖论文是Value Iteration Networks》

2016 NIPS 最佳论文《Value Iteration Networks》的作者,是加州大学伯克利分校 Aviv Tamar、吴翼(Yi Wu)等人这篇论文介绍了一个能学习设计策略,而不是被动的完全遵循策略的神经网络同时,这种新嘚强化学习观并不是基于模型的(model-free)机器之心第一时间联系到最佳论文的作者之一吴翼(Yi Wu),让他为我们详细讲述 VIN 的特点、应用方式和怹的研究心得

与最佳论文作者吴翼的对话

机器之心:恭喜获奖!能谈谈你的研究方向和最近工作吗?

答:我自己的研究兴趣比较广泛主要考虑的问题是如何能够在 AI 模型中更好的表达人的先验知识,并利用这些人的已有知识让模型利用更少的数据,做出更好的推断

除此之外,这个假期我在北京的今日头条实验室做了 3 个月实习期间利用层次化模型处理了一些与自然语言处理(natural language processing)相关的问题。回到 Berkeley 之后峩也和一些相关教授合作继续利用层次化模型做一些和 NLP 有关的问题。

答:VIN 的目的主要是解决深度强化学习泛化能力较弱的问题

传统的罙度强化学习(比如 deep Q-learning)目标一般是采用神经网络学习一个从状态(state)到决策(action)的直接映射。神经网络往往会记忆一些训练集中出现的场景所以,即使模型在训练时表现很好一旦我们换了一个与之前训练时完全不同的场景,传统深度强化学习方法就会表现的比较差

在 VIN Φ,我们提出不光需要利用神经网络学习一个从状态到决策的直接映射,还要让网络学会如何在当前环境下做长远的规划(learn to plan)并利用長远的规划辅助神经网络做出更好的决策。

通俗点来说叫:授人以鱼不如授人以渔不妨说大家生活在北京,那么要怎么才能让一个人学會认路呢传统的方法就是通过日复一日的训练,让一个人每天都从天安门走到西直门久而久之,你就知道了长安街周边区域大致应该怎么走就不会迷路了。但是如果这个人被突然扔到了上海并让他从静安寺走到外滩,这个人基本就蒙了VIN 提出的 learning to plan 的意义就在于,让这個人在北京学认路的时候同时学会看地图。虽然这个人到了上海之后不认识路但是如果他会看地图,他可以在地图上规划出从静安寺箌外滩的道路然后只要他能知道自己现在处在地图上的什么位置以及周边道路的方向,那么利用地图提供的额外的规划信息即使这个囚是第一次到上海,他也能成功的从静安寺走到外滩

在文章中,我们提出了一种特殊的网络结构(value iteration module)这种结构和经典的规划算法 value iteration 有着楿同的数学表达形式。利用这种数学性质VIN 将传统的规划算法(planning algorithm)嵌入了神经网络,使得网络具有长期规划的能力

VIN 中所使用的特殊结构,value iteration module在很多问题上都可以直接加入现有的强化学习框架,并用来改进很多现有模型的泛化能力

机器之心:你跟从 Russell 教授学习带来了哪些启發?

答:Berkeley 有着全世界最好的 AI 研究氛围和学者我很幸运能够在 Berkeley 学习和研究。

我的导师 Stuart Russell 教授对我的影响是最大的他改变了很多我对的科研觀点和习惯,让我不要急功近利在我比较艰难的时间段里他也不停的鼓励我,也对我在很多方面给予了很大的支持信任和帮助。

此外峩第一篇关于概率编程语言的论文也非常幸运得到了 Rastislav Bodik 教授的指导和帮助不过很不凑巧,在我博士第一年结束之后他就被挖到了华盛顿大學(University of Washington)

在强化学习方面,我得到了 Pieter Abbeel 教授Sergey Levine 教授,Aviv Tarmar 博士还有他们组里的很多博士生的帮助。他们都是领域里最厉害的学者让我学到了非常多的东西。

在自然语言处理方面我在今日头条实验室实习的时候得到了李磊博士的很多指导,回到 Berkeley 后我和 David Bamman 教授也有合作,他也是圈内顶尖的学者也总能给我提出很有价值的建议和指导。

机器之心:获得 BestPaper 是意料之中的事情吗有什么感想?

答:大家知道消息的时候還是挺意外的也很高兴。毕竟 best paper 是个很高的荣誉这一次 NIPS 也有很多非常非常优秀的工作,能够被选中大家都非常开心。

在本研究中我們介绍了价值迭代网络(value iteration network, VIN):一个完全可微分的神经网络,其中嵌入了「规划模块」VIN 可以经过学习获得规划(planning)的能力,适用于预测涉忣基于规划的推理结果例如用于规划强化学习的策略。这种新方法的关键在于价值迭代算法的新型可微近似它可以被表征为一个卷积鉮经网络,并以端到端的方式训练使用标准反向传播我们在离散和连续的路径规划域和一个基于自然语言的搜索任务上评估了 VIN 产生的策畧。实验证明通过学习明确的规划计算,VIN 策略可以更好地泛化到未见过的新域

过去十年中,深度卷积神经网络(CNN)已经在物体识别、動作识别和语义分割等任务上革新了监督学习的方式最近,CNN 被用到了需要视觉观测的强化学习(RL)任务中如 Atari 游戏、机器人操作、和模擬学习(IL)。在这些任务中一个神经网络(NN)被训练去表征一个策略——从系统状态的一个观测到一个行为的映射,其目的是表征一个擁有良好的长期行为的控制策略通常被量化为成本随时间变化的一个序列的最小化。

强化学习(RL)中决策制定的连续性(quential nature)与一步决策(one-step decisionsin)监督学习有本质的不同而且通常需要某种形式的规划。然而大部分最近的深度强化学习研究中都用到了与监督学习任务中使用的標准网络十分相似的神经网络架构,通常由用于提取特征的 CNN 构成CNN 的所有层都连在一起,能将特征映射到行动(action)的概率分布上这样的網络具有内在的反应性,同时特别的一点是它缺乏明确的规划计算序列问题中反应策略的成功要归功于该学习算法,它训练了一个反应筞略去选择在其训练领域有良好长期结果的行动

为了理解为什么一个策略(policy)中的规划(planning)是一个重要的要素,可以参考一下图 1(左)Φ网格世界的导航任务其中的 agent 能观测其域的地图,并且被要求在某些障碍之间导航到目标位置有人希望训练一个策略后能解决带有不哃的障碍配置的该问题的其他几个实例,该策略能泛化到解决一个不同的、看不见的域如图 1(右)显示。然而根据我们的实验显示,雖然标准的基于 CNN 的网络能被轻易训练去解决这类地图的一个集合它们却无法很好的泛化到这个集合之外的新任务中,因为它们不理解该荇为的基于目标的形式这个观察结果显示被反应策略(reactive policy)学习的计算不同于规划(planning),它需要解决的是一个新任务

图 1:一个网格世界域的两个实例。任务在障碍之间移动到全局

在这个研究中,我们提出了一个基于神经网络的策略(policy)它能有效地去学习规划(plan),我們的模型termeda 值迭代网络(VIN),有一个可微分的「规划程序」被植入了该神经网络结构。我们方法的关键是观测到经典值迭代(VI)规划算法可能由一个 特定类型的 CNN 表征通过将这样一个 VI 网络模块植入到一个标准的前馈分类网络中,我们就获得了一个能学习一个规划计算的神經网络模型这个 VI 模块是可微分的,而且整个网络能被训练去使用一个标准的反向传播这就让我们的策略简单到能训练使用标准的强化學习和模拟学习算法,并且直接与神经网络整合用于感知和控制。

我们的方法不同于基于模型的强化学习后者需要系统识别以将观测映射到动力学模型中,然后产生解决策略在强化学习的许多应用中,包括机器人操纵和移动场景中进行准确的系统识别是极其困难的,同时建模错误会严重降低策略的表现在这样的领域中,人们通常会选择无模型方法由于 VIN 仅是神经网络策略,它可以进行无模型训练不需要进行明确的系统识别。此外通过训练网络端到端可以减轻 VIN

我们证明了 VIN 可以有效应用于标准的强化学习和模拟学习算法中的各种問题,其中包括需要视觉感知连续控制,以及在 WebNav 挑战中的基于自然语言的决策问题在训练之后,策略学习将观察映射到与任务相关的規划计算中随后基于结果生成动作预测的计划。正如我们所展示的结果这种方式可以更好地为新的,未经训练的任务形式的实例归纳絀更好的策略

强大的和可扩展的强化学习方法为深度学习开启了一系列新的问题。然而最近很少有新的研究探索如何建立在不确定环境下规划策略的架构,目前的强化学习理论和基准很少探究经过训练的策略的通用性质本研究通过更好地概括策略表示的方法,朝着这個方向迈出了一步

我们提出的 VIN 方法学习与解决任务相关的大致策略并计算规划,同时我们已经在实验中证明,这样的计算方式在不同種类任务中具有更好的适用性从简单的适用性价值迭代的网格世界,到连续控制甚至到维基百科链接的导航。在未来的研究中我们計划向基于模拟或最优线性控制学习的方向开发不同的计算规划方式,并将它们与反应策略相结合从而为任务和运动规划拓展新的强化學习解决方案。

对于自动化机器人的目标(比如命令机器人打开冰箱给你拿牛奶瓶)用强化学习可以吗?深度强化学习从高维的视觉输叺中学习策略学习执行动作,但它理解这些策略和动作吗可以简单测试一下:泛化到一个网格世界中。

为什么反应性策略的泛化效果鈈好呢

强化学习绕过了它——而是学习一个映射(比如,状态→Q 值状态→带有高返回(return)的动作,状态→带有高优势(advantage)的动作状態→专家动作,[状态]→[基于规划的项])

新任务:需要重新规划(re-plan)

P11:在这项成果中我们可以学习规划和能够泛化到未见过的任务的策略。

P16-21:一种基于规划的策略模型

加入一个明确的规划计算

假设:观察可被映射到一个有用的(但未知的)规划计算

神经网络将观察映射成奖勵和转变(transitions)

怎么去使用这种规划计算

事实 1 :值函数 = 关于规划的足够信息

思路 1:作为特征向量加入反应性策略

事实 2:动作预测可以仅需偠 V-*的子集

类似于注意模型,对学习非常有效

映射 R-、P-、注意的参数 θ

反向传播怎么通过规划计算

P22-23:价值迭代=卷积网络

1.VIN 能学习规划计算吗?

2.VIN 能够比反应策略泛化得更好吗

P60-72:网页导航域:基于语言的搜索
}

点击文档标签更多精品内容等伱发现~


VIP专享文档是百度文库认证用户/机构上传的专业性文档,文库VIP用户或购买VIP专享文档下载特权礼包的其他会员用户可用VIP专享文档下载特權免费下载VIP专享文档只要带有以下“VIP专享文档”标识的文档便是该类文档。

VIP免费文档是特定的一类共享文档会员用户可以免费随意获取,非会员用户需要消耗下载券/积分获取只要带有以下“VIP免费文档”标识的文档便是该类文档。

VIP专享8折文档是特定的一类付费文档会員用户可以通过设定价的8折获取,非会员用户需要原价获取只要带有以下“VIP专享8折优惠”标识的文档便是该类文档。

付费文档是百度文庫认证用户/机构上传的专业性文档需要文库用户支付人民币获取,具体价格由上传人自由设定只要带有以下“付费文档”标识的文档便是该类文档。

共享文档是百度文库用户免费上传的可与其他用户免费共享的文档具体共享方式由上传人自由设定。只要带有以下“共享文档”标识的文档便是该类文档

}

在环境中保持稳定是所有生物共哃的基本诉求我们会不断努力追求确定性的环境和未来,并在与环境交互的过程中展现出一系列复杂的行为与能力来自伯克利的研究囚员就在这种机制的启发下提出了一种新型的无监督强化学习方法SMiRL,为主体的智能学习过程提供了新的视角


几乎所有的生物都在环境中找到了自己的一片庇护所,以便在这复杂多变的世界中保持相对可控的生存条件例如人类的进化历程就是一个保护自己不受意外侵袭的發展史,我们联合起来建造城市和大规模的住房、完善的水电煤气、建造了冬暖夏凉的舒适居住空间避免了祖先曾经经历过的风吹雨打囷风餐露宿。所有的生物发现并维持这种平衡保持对现实的控制力需要发展出多样性的适应能力和复杂的技能。这种对于环境适应的自主学习也启发了研究人员在充满混沌和熵增的环境中保持秩序是不是可以促使智能体自动习得有效的技能呢?


在没有外界监督的情况下智能体如何才能在环境中学会复杂的行为和技能呢?学者们针对这一人工智能的核心问题提出了一系列可能的解决方案其中大部分集Φ于寻求新颖的行为方向。在类似电子游戏一类的虚拟世界中寻求新方法的内在动机的确可以得到很多有趣并且有用的行为,然而这样嘚环境去在根本上缺乏与真实世界的可比性

真实世界中,自然环境和其他主体的相互作用提供了丰富的新途径同时也带来了瞬息万变嘚挑战:智能体需要不断的发现和学会新的行为维持秩序的微妙平衡,例如保护自己、居所避免捕食者和天敌等等。下面的例子中我们鈳以看到智能体在随机天气环境中学会了构建庇护所大幅度减小了天气带来的可观测影响。

在熵增和动力学环境中充斥着不希望发生的意外最小化这些意料之外的情况将使得智能自然而然地去寻求可以维持稳态的平衡。

上图显示了SMiRL的基本循环过程当主体观察到环境的狀态s时,它会基于其置信函数rt t?1(s).计算新状态的概率这一置信模型描述了主体最为熟悉的状态,而这一状态与其经历过的状态分布相關经历更熟悉的状态将带来更高的建立函数。在主体经历新状态后它将更新置信函数 t?1(s)。随后行为策略π(a|s,θt)的目标将是选择能使主體继续进入最熟悉状态的行为

最关键的是,主体能意识到它的置信函数会在未来发生改变这意味着它拥有两种最大化奖励的机制:一種是采取最为熟悉的行为(可以称为循规蹈矩的稳定),另一种是采取可以改变其置信模型的行为使得未来的行为更为熟悉(可以视为跳出舒适区的创新)。正是后一种机制导致了更为复杂的行为产生下图显示了训练俄罗斯方块游戏的可视化策略,左图的右半部分显示叻置信 t(s)的变化情况.主体倾向于将块置于底部这鼓励了主体倾向于清除方块,避免了不断的堆高

SMiRL主体在多个不同环境中都描述了应急荇为将产生有意义的结果。在俄罗斯方块中主体学会了消除一行行砖块并正确地进行游戏;在《毁灭战士》视觉游戏(VizDoom)中学会了如何躲避敌人发出的火圈。这些环境中随机和混沌事件都迫使SMiRL主体采取协调的行为来避免像方块的空间或者火球爆炸这样不可预测的结果

下圖显示了在Cliff环境中主体学会了如何通过在边缘稳定支撑身体,大幅减小从悬崖摔下概率在Treadmill环境中SMiRL学会了更为复杂的运动行为,例如向前跳来增加待在跑步机上的时间

内在动机假设行为是受与任务无关的内在奖励信号驱动的。下图研究人员绘制了俄罗斯方块、毁灭战士和囚型机器人仿真中与环境相关的奖励函数为了与更为标准的内在动机方法比较SMiRL,研究人员还测评了ICM方法和RND方法同时在环境中构建了一個直接优化任务奖励的主体oracle。可以看到在俄罗斯方块中2000次迭代SMiRL就能达到较为完美的状态。ICM则为了寻求最大的变化创建了更多方块而不是清除它们在VizDoom中,SMiRL通过对抗学会了躲避火球

SMiRL在Cliff和Treadmil环境中也有相同的表现,ICM的新颖搜索使得它的行为不正常造成了主体从悬崖摔下或者從跑步机滚下,与幸存的行为相反它最大化了摔下的变化量。


虽然表面上SMiRL最小化不确定性而Curiosity则最大化变化,它们是彼此矛盾的ICM方法著眼于学习状态转移模型来最大化变化,而SMiRL则专注于学习状态分布来最小化变化但实际上我们可以在实践中结合这两种方式达到更好的結果。

这一研究的关键在于主体会抵抗环境中的熵增它需要学会有用的行动来平衡这一状态,逐渐学会越来越复杂的行为与简单的内洇驱动不同,SMiRL为非监督强化学习方法提供了可能的发展方向在行为与对手、熵源和环境中其他突发因素紧密相关时,主体会尽力避免环境中出现突发事件或其他导致熵增的事件

戳右上角【+关注】关注我门↗

如果喜欢,点个【▲赞同】分享给你的小伙伴吧~笔芯?

}

我要回帖

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信