最小二乘策略迭代算法研究

最小二乘策略迭代算法研究

作者:师大云端图书馆 时间:2021-06-30 分类:参考文献 喜欢:2808
师大云端图书馆

【摘要】强化学习是一种通过与环境的交互,将状态映射到动作,以获取最大累积奖赏的机器学习方法。在大规模和连续状态或动作空间强化学习问题中,通过使用函数逼近方法拟合策略形成了近似强化学习方法。最小二乘策略迭代是一类前沿的近似强化学习方法,其最小二乘逼近可以从样本中获取更多有效信息,并可以应用到在线算法中。本文着眼于在线最小二乘策略迭代算法,对其进行了以下几方面的扩展,提出了相应的算法:(1)针对在线最小二乘策略迭代算法对样本数据利用不充分、每个样本仅使用一次就被丢弃的问题,提出一种批量最小二乘策略迭代(BLSPI)算法。该算法在线保存生成的样本数据,多次重复使用这些样本数据以更新控制策略,可以有效利用之前的经验知识,提高经验利用率,加快收敛速度。(2)针对最小二乘策略评估(LSPE)算法中步长参数固定或形式单一、缺乏自动性的问题,提出一种自动批量最小二乘策略迭代(ABLSPI)算法。该算法结合定点步长参数评估方法,高效地利用样本数据和策略动态调整步长参数,进一步提高了经验利用率,加快了收敛速度,并提高了学习过程的稳定性。(3)将BLSPI算法扩展到连续动作空间,并针对状态空间维数较大状态特征较多时算法收敛速度较慢的问题,提出一种应用于连续动作空间的快速特征选择批量最小二乘策略迭代(CABLSPI-FFS)算法。该算法使用二值动作搜索方法减少了动作搜索的复杂度,并自动选择较优的状态特征评估策略,降低了状态空间的维数,减少了运算量,提高了算法的执行效率。
【作者】周鑫;
【导师】刘全;
【作者基本信息】苏州大学,计算机应用技术,2014,硕士
【关键词】强化学习;最小二乘策略迭代;批量更新;自动步长评估;特征选择;

【参考文献】
[1]王小佳.论消极事实的证明[D].西南政法大学,诉讼法学,2012,硕士.
[2]刘倩.政府为中小企业提供发展环境问题研究[D].吉林财经大学,行政管理学,2014,硕士.
[3]彭建刚刘明周张玺张铭鑫葛茂根.基于Pareto优化的离散自由搜索算法求解多目标柔性作业车间调度问题[J].中国机械工程,2015,05:.
[4]乔庆泉,李红松,冯玉珉.通信行业综合决策支持系统[J].铁道通信信号,2004,02:7-10.
[5]邹源.共表达自杀基因联合多细胞因子基因的膀胱肿瘤特异性真核表达载体的构建和鉴定[D].兰州大学,外科学,2013,硕士.
[6]王磊.非法集资若干问题研究[D].河北大学,法律,2013,硕士.
[7]王凤艳.中学微积分课程的教学研究[D].东北师范大学,学科教学,2012,硕士.
[8]王显伦1,2,任顺成2,潘思轶1,*,曹丽萍3.木聚糖酶对冷冻馒头老化特性的影响研究[J].食品科学.
[9]罗书昌.D-π-A型苯并噻二唑衍生物的非线性光学性质理论研究[D].海南师范大学,2013.
[10]马颖.当代艺术语境中的书法艺术——观王冬龄、徐冰、邱振中《书与法·二》作品展[J].艺术科技,2013,12:138.
[11]徐力.政府项目代建制合同管理体系的研究[D].浙江工业大学,2013.
[12]胡文广.模块化级联电机结构形式研究与模块间影响分析[D].哈尔滨工业大学,电气工程,2014,硕士.
[13]潘星竹.高度近视黄斑裂孔视网膜脱离玻璃体切割手术现状分析[D].吉林大学,临床医学,2014,硕士.
[14]陈志蓉.体验·表现·拯救——论王安忆小说的生命意识[D].安徽大学,中国现当代文学,2004,硕士.
[15]朱明明.限制度量正则性的结构,稳定性及应用[D].渤海大学,运筹学与控制论,2013,硕士.
[16]刘艳丽.随机反馈延时下协作SR-ARQ协议发送端延时分析[D].湖南大学,信息与通信工程,2012,硕士.
[17]奚桃.心理一致感对青少年的情绪状态及反应特点的影响研究[D].西南大学,发展与教育心理学,2014,硕士.
[18]李妮娜.新时期大学生思想政治教育中的自我教育研究[D].中北大学,思想政治教育,2014,硕士.
[19]郭亮.城市商业银行信息科技服务管理平台建设[D].东北石油大学,计算机技术(专业学位),2013,硕士.
[20]柴天佑.隐式多变量广义自校正控制器[J].自动化学报,1993,02:202-206.
[21]张乔.新型移动业务控制网络中IMS分布式组网改造研究[D].华中科技大学,计算机软件与理论,2013,硕士.
[22]黄蓉.《MIX混搭重庆“黄桷坪”》翻译报告[D].四川外国语大学,翻译(专业学位),2013,硕士.
[23]陈池.聚偏氟乙烯中空纤维多孔复合膜的制备及性能研究[D].天津工业大学,材料学,2004,硕士.
[24]杨旭.内蒙古呼和浩特移动集团客户服务营销策略研究[D].内蒙古大学,高级管理人员工商管理,2013,硕士.
[25]张智猛,戴良香,胡昌浩,董树亭,王空军,宁堂原.玉米灌浆期水分差异供应对籽粒淀粉积累及其酶活性的影响[J].植物生态学报,2005,04:636-643.
[26]伍鹏.五轴数控机床开放式后置处理系统研究与开发[D].西南交通大学,机械制造及其自动化,2014,硕士.
[27]代琪.江泽民青年思想政治教育观研究[D].中南民族大学,思想政治教育,2013,硕士.
[28]易亚文,涂亮,王星华,石东源.基于模式的自定义继电保护装置整定计算软件[J].电力系统自动化,2005,16:79-83.
[29]梁和平,杨东亚,胡九宇,叶宏音.卷烟制造过程质量风险防控体系的建设[J].安徽农业科学,2014,34:12299-12301.
[30]陈单.空间视阈下《土生子》中别格的心理解读[D].湖南师范大学,英语语言文学,2014,硕士.
[31]张晗.东北地区水土保持工程后续管护机制研究[D].吉林大学,政治经济学,2014,硕士.
[32]雷风华.哈尔滨城郊无公害蔬菜基地土壤质量状况研究[D].吉林大学,地质工程,2012,硕士.
[33]郑智文.特种设备检测行业管理创新研究[D].山东师范大学,工商管理(专业学位),2013,硕士.
[34]张承江,闫朝升,宋立群.中医肾病治疗信息中关联规则的挖掘算法[J].黑龙江大学自然科学学报,2005,06:842-845.
[35]关大成.基于时空域纹理的视频火焰检测算法研究[D].西南交通大学,计算机应用技术,2013,硕士.
[36]王欢,高奕红,张萍.荧光传感器及其分子识别作用的研究进展[J].应用化工,2014,04:718-723+728.
[37]周东华,席裕庚,张钟俊.一种带多重次优渐消因子的扩展卡尔曼滤波器[J].自动化学报,1991,06:689-695+758.
[38]廖九根.农村中学生物理自由学习能力的培养研究[D].江西师范大学,教育,2003,硕士.
[39]周涛.基于剖面的复合型商业街区空间研究[D].西安建筑科技大学,建筑学,2013,硕士.
[40]段家铁.含氧原子氢键受体吸附树脂的合成及吸附性能[D].湖南师范大学,有机化学,2003,硕士.
[41]莫海恩.大陆对台直接投资保护制度研究[D].广东财经大学,民商法学,2014,硕士.
[42]高焕才.县级市二、三产业承载农村剩余劳动力转移就业潜力研究[D].湖南科技大学,应用经济学,2013,硕士.
[43]郝庆锋.基于J2EE架构和XML流技术的短消息系统的研制[D].武汉理工大学,2005.
[44]高玲肖.基于ARM的数字微镜光谱仪信号采集与处理系统的研究[D].重庆大学,仪器科学与技术,2014,硕士.
[45]何侃.地形生成算法与采煤沉陷区三维可视化应用研究[D].安徽大学,计算机软件与理论,2014,硕士.
[46]陈妹.小针刀治疗椎动脉型颈椎病的临床疗效观察[D].辽宁中医药大学,临床医学(专业学位),2012,硕士.
[47].《浙江大学学报(理学版)》征稿简则[J].浙江大学学报(理学版),2014,06:745.
[48]陈玟霞.企业职工劳动报酬权的诉讼法保护问题研究[D].华中师范大学,法律,2013,硕士.
[49]吴孝政.前尔舒体外抗菌实验及临床观察与相关性系统评价[D].成都中医药大学,中医内科学,2012,硕士.
[50]王磊.论专利池滥用的反垄断法规制[D].苏州大学,法律(专业学位),2013,硕士.

相关推荐
更多