强化学习中值函数逼近方法的研究

强化学习中值函数逼近方法的研究

作者:师大云端图书馆 时间:2021-06-30 分类:参考文献 喜欢:15
师大云端图书馆

【摘要】强化学习是一类无需先验知识的机器学习方法,以Agent与环境不断的交互为主要特征,以寻找能带来最大期望累积折扣奖赏的策略为目标。强化学习中环境可能具有大状态空间甚至连续状态空间,Agent所能执行的动作可能为离散的或连续的,这必然带来一定的复杂性。本文着眼于大规模空间或连续空间可能带来的问题,以值函数逼近为出发点,针对对当前值函数逼近方法中存在的若干问题提出若干值函数逼近模型及其相应的强化学习算法。主要研究内容包括以下三部分:(1)将高斯过程时间差分学习与SARSA算法相结合时易产生初始性能差、学习速度慢甚至找不到最优策略等问题。针对此,利用协方差函数建立一种新的值函数概率生成模型,再利用线性函数和高斯过程对值函数建模,最后利用贝叶斯推理估计值函数,得到基于高斯过程的快速SARSA算法。(2)针对难以将高斯过程时间差分学习与Q学习算法相结合的问题,提出用于值迭代的值函数概率生成模型,利用线性函数和高斯过程对值函数建模,再借助贝叶斯推理求解值函数参数的后验分布,得到基于高斯过程的Q学习算法。该算法可解决大规模状态空间问题,且同时具有贝叶斯估计方法和Q学习算法的优点。(3)针对连续动作空间可能带来的“维数灾”问题,以行动者评论家为基本结构,利用线性函数分别对状态值函数和策略建模,借助时间差分误差的sigmoid函数构造关于策略参数的均方误差,利用梯度下降和最小二乘方法最小化此均方误差,分别得到连续动作空间中的梯度下降行动者评论家算法和最小二乘行动者评论家算法。所提算法能有效避免连续动作空间带来的“维数灾”问题,且有较高的数据利用率。
【作者】陈桂兴;
【导师】刘全;
【作者基本信息】苏州大学,计算机软件与理论,2014,硕士
【关键词】强化学习;值函数逼近;高斯过程;SARSA算法;Q学习算法;连续动作空间;

【参考文献】
[1]耿单单.航空旅客旅行路径优化算法研究[D].中国民用航空飞行学院,交通运输规划与管理,2013,硕士.
[2]李玉洁.从翻译美学角度看《土地》中译本的审美再现[D].四川外国语大学,亚非语言文学,2013,硕士.
[3]马洋.衰老性骨质疏松中自噬与骨髓间充质干细胞增龄性变化的关系的研究[D].第四军医大学,口腔基础医学,2014,硕士.
[4]葛秀花.深县凹陷老资料重新处理的效果[J].石油地球物理勘探,1989,04:497.
[5]丁镇棠.大型基础设施工程环境治理中的跟踪审计与公众参与机制研究[D].南京大学,管理科学与工程,2013,硕士.
[6]余红兵.桂西北柑桔园土壤及植株叶片营养元素含量研究[D].湖南农业大学,果树学,2004,硕士.
[7]李聪颖.薄板分析的二次埃尔米特三角形有限元法[D].厦门大学,建筑与土木工程,2014,硕士.
[8]卫文慧1,郭叶2.基于BP神经网络的ZigBee无线定位边界效应优化[J].工矿自动化,2014,11:.
[9]李彬.基于J2EE技术的股权变动税收管理系统的设计与实现[D].西安电子科技大学,软件工程,2011,硕士.
[10]孙晓淼.表演式教学在对外汉语教学中的应用研究[D].山东大学,汉语国际教育(专业学位),2013,硕士.
[11]李家清,周红.知识服务的条件及对策研究[J].情报杂志,2004,10:17-19.
[12]陈坤.抗日战争大后方民国狱政改革述评[D].西南政法大学,法律史学,2012,硕士.
[13]高小玲.管理思想回归的内在逻辑:人的全面自在发展[D].湘潭大学,企业管理,2003,硕士.
[14]李振鹏.强激光场下分子准直的理论模拟[D].吉林大学,原子与分子物理,2014,硕士.
[15]李玥.论寻根小说的神话叙事[D].西南大学,中国现当代文学,2014,硕士.
[16]徐袭,石敏.一种基于粗糙集与小波变换的电能质量分类方法[J].电力自动化设备,2005,11:19-22.
[17]楼斌.基于Markov模型的无线网络量化系统的H_(∞)滤波研究[D].杭州电子科技大学,系统工程,2013,硕士.
[18]李德和.甘肃圆峰交通工程有限公司供应商管理研究[D].兰州大学,工商管理,2012,硕士.
[19]刘童.基层党建现代化研究[D].中共江苏省委党校,中共党史,2013,硕士.
[20]张钦礼,王士同,郭琦.使用超椭球参数化坐标的支持向量机[J].控制与决策,2008,06:626-630+636.
[21]符志山.中国马克思主义大众化存在的困难及对策研究[D].吉林大学,学科教学,2014,硕士.
[22]王俊梅.基于增长极的小城镇发展规划研究[D].重庆大学,城市规划与设计,2014,硕士.
[23]朱李岩.山西省事业单位养老保险改革研究[D].山西财经大学,社会保障,2013,硕士.
[24]徐亚东.用超材料操控波导中电磁波的传播[D].苏州大学,2014.
[25]张小荣.振华大厦转换层结构分析与设计研究[D].重庆大学,建筑与土木工程,2003,硕士.
[26]叶烁.基于DSP的太阳能无差控制光伏并网逆变器的设计[D].华南理工大学,控制工程,2012,硕士.
[27]陈苗,王瑞剑,陈依梦,马婷.网络购物中利益相关方的法律关系探讨[J].现代物业(中旬刊),2013,12:34-36.
[28]王志亮.供热管网动态特性及其控制策略研究[D].青岛理工大学,供热、供燃气、通风及空调工程,2012,硕士.
[29]陈海平.青花菜霜霉病病原和流行因素研究[D].浙江大学,园艺(专业学位),2012,硕士.
[30]李娇娇.阿托伐他汀钙联合通心络胶囊对不稳定型心绞痛患者的临床研究[D].延安大学,内科学,2014,硕士.
[31]胡军.试论主观世界改造中的认识能力的改造[D].湘潭大学,马克思主义哲学,2003,硕士.
[32]王本伟.中药重楼皂苷类成分的体外分析与体内处置过程研究[D].第二军医大学,药物分析学,2013,硕士.
[33]王铸.352例胃肠外科手术患者营养状况筛查与分析[D].山东大学,外科学(专业学位),2013,硕士.
[34]黄鹏.油菜联合收获机纵轴流脱粒分离性能试验研究[D].华中农业大学,农业机械化工程,2014,硕士.
[35]兰灵.基于WEB的CSCW系统——合作研究平台的设计与实现[D].南京航空航天大学,计算机软件与理论,2003,硕士.
[36]苏静.中国保险资金另类投资的实践与创新研究[D].中国社会科学院研究生院,战略管理(专业学位),2014,硕士.
[37]王如姣.食品安全执法领域存在的问题及其对策[D].贵州民族大学,经济法学,2012,硕士.
[38]贺小伟.高茬秸秆旋耕翻埋功耗检测系统设计与试验研究[D].华中农业大学,农业机械化工程,2014,硕士.
[39]陈天昊.互联网电影推荐方法的研究与实现[D].中国科学技术大学,模式识别与智能系统,2014,硕士.
[40]秦峰.玉米近缘属植物—薏苡遗传连锁图的构建[D].华中农业大学,作物遗传育种,2001,硕士.
[41]许斌.基于虚拟仪器技术的信号产生及数据分析处理系统[D].西北工业大学,电路与系统,2004,硕士.
[42]肖会芹,何勇,吴敏,肖伸平.基于T-S模糊模型的网络控制系统非脆弱H_∞跟踪控制[J].控制与决策,2015,01:110-116.
[43]胡明星,黄运生,陈学.烧结杯点火装置控制系统[J].冶金自动化,2011,03:47-50.
[44]李红梅,卢苇,邢薇薇,张红延,冯凤娟.产学合作育人机制的改革探索[J].高等工程教育研究,2013,03:76-80.
[45]陈丽娟,杨欣,夏安邦.热电厂MES系统数据仓库的设计与应用[J].东南大学学报(自然科学版),2005,S2:188-192.
[46]宋扬.探析蓝瑛“晚期”绘画风格[D].中国艺术研究院,美术学,2012,硕士.
[47]孙佳.信息安全芯片的低功耗后端设计研究[D].复旦大学,集成电路工程,2012,硕士.
[48]苏伟.基于时空关联性的无线传感器网络网关异常检测研究[D].上海大学,控制理论与控制工程,2014,博士.
[49]戴强晟,王少荣.SimpliciTI无线自组网在配电网智能监控系统中的应用[J].电力系统自动化,2014,07:83-87.
[50]麻伶秀.“V起O来”研究[D].复旦大学,汉语言文字学,2012,硕士.

相关推荐
更多