如何让强化学习采样变得更简单

答案:2 悬赏:60 手机版

解决时间 2021-04-04 03:33

提问者网友：十年饮冰
2021-04-03 21:56

如何让强化学习采样变得更简单

最佳答案

五星知识达人网友：怀裏藏嬌
2021-04-03 22:56

在机器学习领域一般将机器学习划分为三大类型：有监督学习，无监督学习和强化学习。有监督学习和无监督学习都主要是为了解决分类问题，而强化学习比较特殊，强化学习的目的是为了研究策略，比如让机器人自主的学会如何把花养好，如何在一个未知环境进行探索等。

强化学习的核心问题在于通过研究各种不同策略的价值并给予评价，来自主选择最优策略。策略，即是决策层对于不同的状态所作出的不同反应。以种花而言，看到花处于枯萎的状态，就要施加浇水的动作，看到花叶子变黄的状态，就应当加以施肥的动作。状态在施加不同动作之后，就可能向各个其他状态转移，所以强化学习是在一个高动态的，高复杂性的环境中寻找最佳选择的一种算法。
在程序流程进行时，主要有以下几个方面需要解决：

需要了解各个状态和动作之间的转移关系
实际应用中，我们很难知道在某一个状态施加某动作之后，转移到下一个状态的概率。比如在花枯萎的时候，浇水也不一定会让花恢复健康，可能花还会继续枯萎，甚至死亡。但是我们并不是很容易知道这样的转移概率是多少，是P（健康|枯萎，浇水）的概率大呢，还是P（死亡|枯萎，浇水）的概率更大。这些都需要实际应用中的样本来说明。
需要正确评价各个执行动作的优劣
即使知晓了状态-动作之间的转移关系，为了达到目标，应该以什么准则去评价在不同状态下选择的动作呢（我们将其称之为策略的评估）。一般我们采用状态收益函数和状态-动作收益函数作为评价的标准。在后文中我们会详细说明。
在了解了强化学习的基本思想之后，我们需要探寻的就是具体如何去进行学习了。

1.2.基本记号

在强化学习中，每一个状态一般用s表示，转移概率用p表示，每个状态的收益用r表示，这样，一个普通的状态转换对就可以表示为:,这表示状态s以p的概率转移到状态s’并且得到数值为r的收益。这描述的是一个自然的，无人为干涉的过程，状态之间的转换都是自然发生的，这样的话，我们就没有讨论的意义了，所以，我们加上了a来表示不同状态下才去的动作（人为干涉），从而让我们的状态对变成这样，实际上每一个p所代表的就是特定状态特定动作的转移概率p(s′|s,a)了。在了解了基本记号之后，就可以去设计一个收益方程来评价状态-动作对了。

全部回答

1楼网友：有你哪都是故乡
2021-04-03 23:44

把学习看作一种爱好!! 把爱好看作一种乐趣!! 把乐趣看作一种娱乐!! 把娱乐看作一种习惯!! 在坚持自己的习惯就可以了!

我要举报

如以上问答信息为低俗、色情、不良、暴力、侵权、涉及违法等信息，可以点下面链接进行举报！