强化学习 | 师大云端图书馆

模型无关的贝叶斯强化学习方法研究 06月30日

【摘要】强化学习是一类重要的机器学习方法，强化学习具有两个重要的特征：算法可以在不知道环境的全部模型时，求解模型未知的最优化问题；强化学习强调Agent与环境的在线交互，在交互过程中对数据进行累积学习，以达到在线求解最优策略的目的。因此，强化学习方法被越来越多地用于作业优化调度、在线学习控制、游戏等领域。针对于强化学习方法存在的“维数灾难”、收敛速度慢、收敛精度低等问题，本文以模型无关的贝叶斯强化 […]

分类：参考文献
标签：万方数据, 中国知网免费入口, 关于环境保护的论文, 强化学习, 论文指导教师评语, 贝叶斯Q学习, 贝叶斯策略梯度, 随机投影, 高斯过程
喜欢：1841
阅读全文

【论文下载 - 中国知网/万方数据/维普/读秀/超星/国研/龙源/博看等资源库】

连续空间非参函数逼近方法研究 06月30日

【摘要】强化学习是一种试错学习，可解决无模型问题，在没有任何先验知识的情况下，Agent通过与环境不断交互实现基于自身经验的学习。本文研究的是连续状态动作空间的问题，传统的解决方法是离散化状态或动作空间，为了保证一定的精度，离散化方法会导致状态动作空间非常大，从而引起“维数灾”。本文提出三种基于行动者-评论家（Actor-Critic，AC）架构的算法，其中Critic部分使用非参函数逼近来解决连 […]

分类：参考文献
标签：万方论文查重, 中国知网免费入口, 宏观经济学论文题目, 强化学习, 最小二乘, 有效教学论文, 策略梯度, 行动者-评论家, 非参函数逼近
喜欢：1049
阅读全文

基于性能势的智能体学习与规划方法研究 06月25日

【摘要】强化学习和智能规划是当前人工智能领域的研究热点。生活中的众多顺序决策问题都可以用马尔科夫决策过程(MDP)进行描述,基于MDP的性能势理论为上述问题的求解优化提供了一种新的理论框架,它可以利用样本轨道的估算对参数未知的系统进行在线优化和求解。当系统状态转移矩阵、奖励函数等参数未知时,强化学习通常被用来对系统的最优策略进行学习,该特点使其能够很好地与性能势理论相结合,从而得出更有效率的在线优 […]

分类：参考文献
标签：中国知网免费入口, 保险法论文, 启发式搜索, 国际关系论文, 强化学习, 性能势理论, 机器人足球, 机械工程师职称论文, 马尔卡夫决策过程
喜欢：2090
阅读全文

« 上一页

模型无关的贝叶斯强化学习方法研究 06月30日

连续空间非参函数逼近方法研究 06月30日

基于性能势的智能体学习与规划方法研究 06月25日

广而告之

最新推荐

随机推荐