最小二乘策略迭代算法研究 06月30日
【摘要】强化学习是一种通过与环境的交互,将状态映射到动作,以获取最大累积奖赏的机器学习方法。在大规模和连续状态或动作空间强化学习问题中,通过使用函数逼近方法拟合策略形成了近似强化学习方法。最小二乘策略迭代是一类前沿的近似强化学习方法,其最小二乘逼近可以从样本中获取更多有效信息,并可以应用到在线算法中。本文着眼于在线最小二乘策略迭代算法,对其进行了以下几方面的扩展,提出了相应的算法:(1)针对在线最 […]
基于高斯过程回归的强化学习算法研究 06月30日
【摘要】强化学习(ReinforcementLearning)是机器学习方法中重要的一类,在人工智能领域中有着举足轻重的地位,在博弈、电梯调度和智能机器人等领域得到广泛的应用。在强化学习框架下,Agent不断和周围环境进行交互,学习从环境状态到行为的映射,以期望获得最大累积奖赏。本文针对强化学习方法在大规模离散状态空间和连续空间所面临的“维数灾”问题,以值函数逼近技术为基础,提出相应的改进算法,对 […]
基于性能势的智能体学习与规划方法研究 06月25日
【摘要】强化学习和智能规划是当前人工智能领域的研究热点。生活中的众多顺序决策问题都可以用马尔科夫决策过程(MDP)进行描述,基于MDP的性能势理论为上述问题的求解优化提供了一种新的理论框架,它可以利用样本轨道的估算对参数未知的系统进行在线优化和求解。当系统状态转移矩阵、奖励函数等参数未知时,强化学习通常被用来对系统的最优策略进行学习,该特点使其能够很好地与性能势理论相结合,从而得出更有效率的在线优 […]


