永发信息网

如何让强化学习采样变得更简单

答案:2  悬赏:60  手机版
解决时间 2021-04-04 03:33
如何让强化学习采样变得更简单
最佳答案
在机器学习领域一般将机器学习划分为三大类型:有监督学习,无监督学习和强化学习。有监督学习和无监督学习都主要是为了解决分类问题,而强化学习比较特殊,强化学习的目的是为了研究策略,比如让机器人自主的学会如何把花养好,如何在一个未知环境进行探索等。

强化学习的核心问题在于通过研究各种不同策略的价值并给予评价,来自主选择最优策略。策略,即是决策层对于不同的状态所作出的不同反应。以种花而言,看到花处于枯萎的状态,就要施加浇水的动作,看到花叶子变黄的状态,就应当加以施肥的动作。状态在施加不同动作之后,就可能向各个其他状态转移,所以强化学习是在一个高动态的,高复杂性的环境中寻找最佳选择的一种算法。
在程序流程进行时,主要有以下几个方面需要解决:

需要了解各个状态和动作之间的转移关系
实际应用中,我们很难知道在某一个状态施加某动作之后,转移到下一个状态的概率。比如在花枯萎的时候,浇水也不一定会让花恢复健康,可能花还会继续枯萎,甚至死亡。但是我们并不是很容易知道这样的转移概率是多少,是P(健康|枯萎,浇水)的概率大呢,还是P(死亡|枯萎,浇水)的概率更大。这些都需要实际应用中的样本来说明。
需要正确评价各个执行动作的优劣
即使知晓了状态-动作之间的转移关系,为了达到目标,应该以什么准则去评价在不同状态下选择的动作呢(我们将其称之为策略的评估)。一般我们采用状态收益函数和状态-动作收益函数作为评价的标准。在后文中我们会详细说明。
在了解了强化学习的基本思想之后,我们需要探寻的就是具体如何去进行学习了。

1.2.基本记号

在强化学习中,每一个状态一般用s表示,转移概率用p表示,每个状态的收益用r表示,这样,一个普通的状态转换对就可以表示为:,这表示状态s以p的概率转移到状态s’并且得到数值为r的收益。这描述的是一个自然的,无人为干涉的过程,状态之间的转换都是自然发生的,这样的话,我们就没有讨论的意义了,所以,我们加上了a来表示不同状态下才去的动作(人为干涉),从而让我们的状态对变成这样,实际上每一个p所代表的就是特定状态特定动作的转移概率p(s′|s,a)了。在了解了基本记号之后,就可以去设计一个收益方程来评价状态-动作对了。
全部回答
把学习看作一种爱好!! 把爱好看作一种乐趣!! 把乐趣看作一种娱乐!! 把娱乐看作一种习惯!! 在坚持自己的习惯就可以了!
我要举报
如以上问答信息为低俗、色情、不良、暴力、侵权、涉及违法等信息,可以点下面链接进行举报!
大家都在看
breadtalk 的面包卖得太贵了,现在都这么贵。
小刚根据如图甲所示实验电路,利用阻值分别为
财务会计类专业包括哪些专业
编写一个控制台应用程序,提供基本的算术四则
变频器有哪些操作方式
用同步推下载王者荣耀闪退吗9.3.3系统的
在百合网上,怎么样通过打工赚取红豆呢
租金逾期满一个月,收5%的滞纳金。现已逾期5
关于法国高商EDC-IMSL/sup de luxe奢侈品
你说一对情侣在一个班上,然后,一个女生送给
鲁班软件中xy轴坐标的交点如何捕捉?
钉钉聊天记录怎么找回,电脑已经重做系统阿里
多选题设NA为阿伏加德罗常数,下列叙述中不正
嫦娥相亲小品整本台词,小品 懒汉相亲 宋丹丹
请问2016年定边上小学,啥时候报名,前几年网
推荐资讯
淘宝中奖了优酷白银会员一个月 怎么使啊
莫扎特奏鸣曲K.311要踩踏板吗?
春秋在五代十国之前还是之后
Nobody BenefitsNEW YORK—America has been
学生中华传统文化知多少调查报告
老人脑供血不足怎么办
康佳液晶电视LC47D560DC可以使用网络看嘛!急
云城星悦被封怎么办
游长城的感受一句话,爬过黄山,说一下感受,
外国的跳水名将有哪些?
网球名将有哪些?
不用酵母发面方法
正方形一边上任一点到这个正方形两条对角线的
阴历怎么看 ?