【深度强化学习】Curriculum-guided Hindsight Experience Replay读后感

东瑜 2020-04-02 我要评论

[TOC] ## 导读看任何一个领域的文章，一定要看第一手资料。学习他们的思考方式，论述逻辑，得出一点自己的感悟。因此，通过阅读paper,来提升自己对于这个领域的感性和理性认识。如少年时，玩war3电子竞技一般。练习一个种族，找寻突破点。文章原文:https://ai.tencent.com/ailab/zh/paperhttps://img.qb5200.com/download-x/detial?id=329 看到这篇文章的title是:`Curriculum-guided Hindsight Experience Replay`。可能一下会犯晕，但是要想到一点，万事万物是"简易"的，是一步步由简单到复杂的。"天下难事必作于易"。 * `Curriculum-guided` 是某些前辈提出来了。paper中也有如下的引用: ` curriculum learning [Bengio et al., 2009] and its applications [Khanet al., 2011, Basu and Christensen, 2013, Spitkovsky et al., 2009] `他是借鉴人类的思想方式。如果有一个精心设计的课程可以显著提高强化学习的质量和效率。 * `Hindsight Experience Replay` 事后经验复盘(个人翻译，只为个人理解，不权威)。就像人类一样，从失败的经历中得到教训和经验，从而去修正自己的行为。这个概念也是有前辈已经提出来的,引用`HER [Andrychowicz et al., 2017]` 作者，是把这两种思路，进行了融合。然后加入了一些参数因子`goal-proximity`和`diversity-based curiosity` ,这个可以说是作者思考的核心要点。采取像人类一般的思考策略(human-like learning strategy),对一件事物，你前期对于它的兴趣越大，那么你接近目标的可能性概率也就越高。通过这些思考，作者提出了`Curriculum-guided HER (CHER)` 。以上是个人分析，但我觉得事物的发展，是通过思考而来的。如果我们也可以站在"巨人的肩膀之上"，把A和B的思路合为一体，再加一点点C因素。构成自己的D理论。我们也可能写出顶会的paper。 ## 目录继续分析，paper的目录结构: * Abstract * Introduction * Related Work * Methodology * Experiments * Conclusion Acknowledgements References 可以看到，一篇paper的目录结构还是很简单易懂的。介绍一些前人的工作和算法，他们有哪些事情是可以值得借鉴的；他们有哪些是不足的；我(这里不是指我，而是作者)可以做哪些工作取弥补他们。然后我提出来的算法，在某个领域的应用比前辈们有哪些优势。通过基准测试的数据证明我的有效性。最后，得出一定的结论。全文可以看出，作者任何一句话都不是顺便说的，没有那么多主观论断，都是有客观的引用。循序渐进，最终提出自己的思路和想法。因此，我(这里指我)可以学到的是什么？他的逻辑思维，思考逻辑和运用的一些方法。如果我要去写的话，也得找出这些前辈们的算法中的优势和不足在哪里。 ## 正文我不是翻译的，而是，喜欢个人分析。转为自己的思路。如果想看原文请点击最上方。 #### Abstract【摘要】提出现象:在off-policy的深入强化学习框架之下，很难在稀疏奖励(sparse matrix)之下获得有效和成功的经验。那怎么办呢？前人提出来了HER ,能解决一部分。但是无法把所有的失败案例做有效的复盘和统一整理。这篇paper，提出的解决思路: 1)利用好奇心多样性驱动，来自适应性的选择这些失败的经验进行复盘。 2)选择想人类一般的思考策略，在前期阶段强制投入过多的好奇心，这样后期阶段达到`goal-proximity`的可能性就越大。而这个算法作者取名为:`CHER`,并在具有挑战性的机器人环境中证明它这种算法有一定的提升性。 >什么是`off-policy`?on-policy：相当于，古时候的皇帝，想了解百姓生活，要眼见为实。所以微服私访，自己去调查民情。而off-policy:就是皇帝自己待在宫中，派百官去了解百姓的民情，然后通过百官的论述做决策。这里就有百官是否可靠的问题了，和RL算法中提到的`agent`有异曲同工之妙。 #### Introduction【介绍】 1. Deep reinforcement Learning(RL)是一个有效的框架，可以解决很多复杂的控制问题。在模拟(simulated)领域中,它可以驱动代理(这里可以比喻为皇帝的百官)去执行各种各样的有挑战性的任务。引用来自:[Mnih et al., 2015, Lillicrap et al., 2015, Duan et al., 2016].（其中括弧中的话，是我说的。主要是为了让人们理解） 2. 为了训练可靠的代理(判断百官是否忠诚)，就要设立奖惩制度(design a reward)。引用来自: [Ng et al., 1999].通过这些代理密集型的反馈(百官们积极反映社会问题)，有效指导了算法的决策(皇帝做决策的时候，更符合民情)。因此，在特定环境下特定场景内效果还是不错滴。 ------------------------先写到这里，九层之台始于垒土，慢慢来，后面更新----------------------------------

800+页Cocos Creator游戏开发 PDF 电子书，今天出炉，免费开送！

【深度强化学习】Curriculum-guided Hindsight Experience Replay读后感

相关文章

猜您喜欢

今日热门