首页

强化学习中值函数逼近方法的研究 06月30日

【摘要】强化学习是一类无需先验知识的机器学习方法,以Agent与环境不断的交互为主要特征,以寻找能带来最大期望累积折扣奖赏的策略为目标。强化学习中环境可能具有大状态空间甚至连续状态空间,Agent所能执行的动作可能为离散的或连续的,这必然带来一定的复杂性。本文着眼于大规模空间或连续空间可能带来的问题,以值函数逼近为出发点,针对对当前值函数逼近方法中存在的若干问题提出若干值函数逼近模型及其相应的强化 […]