首页

连续空间非参函数逼近方法研究 06月30日

【摘要】强化学习是一种试错学习,可解决无模型问题,在没有任何先验知识的情况下,Agent通过与环境不断交互实现基于自身经验的学习。本文研究的是连续状态动作空间的问题,传统的解决方法是离散化状态或动作空间,为了保证一定的精度,离散化方法会导致状态动作空间非常大,从而引起“维数灾”。本文提出三种基于行动者-评论家(Actor-Critic,AC)架构的算法,其中Critic部分使用非参函数逼近来解决连 […]