连续空间非参函数逼近方法研究

连续空间非参函数逼近方法研究

作者:师大云端图书馆 时间:2021-06-30 分类:参考文献 喜欢:965
师大云端图书馆

【摘要】强化学习是一种试错学习,可解决无模型问题,在没有任何先验知识的情况下,Agent通过与环境不断交互实现基于自身经验的学习。本文研究的是连续状态动作空间的问题,传统的解决方法是离散化状态或动作空间,为了保证一定的精度,离散化方法会导致状态动作空间非常大,从而引起“维数灾”。本文提出三种基于行动者-评论家(Actor-Critic,AC)架构的算法,其中Critic部分使用非参函数逼近来解决连续状态空间“维数灾”问题,Actor部分使用策略梯度寻找动作。(1)针对已有的非参方法存在样本利用率低的问题,提出了一种基于核的递归最小二乘AC算法。行动者部分给出了一种基于核的策略梯度算法,在估计策略梯度时,用核函数逼近器逼近真实的Q值。评论家部分提出了一种基于ALD的KRLSTD-Q算法,在消除了矩阵的逆运算同时,可以充分利用样本信息。通过MountainCar的仿真实验验证了算法的有效性。(2)鉴于高斯核函数的有效性,提出了一个基于最小二乘支持向量回归(LSSVR)的AC算法。该算法的行动者部分使用的是策略梯度算法,为了使该算法具有可行性,提出了一种在策略评估样本集和策略改进样本集上协调工作的方式。使用ALD方法稀疏化策略评估样本集,产生数据字典。评论家用LSSVR方法在数据字典上回归V值函数,行动者在策略改进样本集上改进策略。(3)前两种算法都是离线的,针对离线方法不具有实时性的问题,提出了一种基于GPTD的在线AC算法。该算法的行动者部分提出了一种在线的策略梯度算法,能够适应核的增长,从而适用于非参算法中的在线学习。评论家部分使用在线的GPTD算法实时地评估行动者产生的动作。
【作者】朱文文;
【导师】伏玉琛;
【作者基本信息】苏州大学,计算机软件与理论,2014,硕士
【关键词】强化学习;非参函数逼近;行动者-评论家;策略梯度;最小二乘;

【参考文献】
[1]高谭坤.单轴受拉条件下混凝土细观准脆性损伤模型理论及试验研究[D].重庆交通大学,港口海岸及近海工程,2012,硕士.
[2]赵裕国.江海证券有限公司客户关系管理研究[D].黑龙江大学,工商管理,2012,硕士.
[3]杨霞.试论“什么”否定表达结构[D].渤海大学,汉语言文字学,2014,硕士.
[4]李俊杰.双利2号露天矿边坡稳定性分析[D].内蒙古科技大学,矿业工程,2014,硕士.
[5]陈伟韬.基于MEMS传感器的电子罗盘系统的设计[D].广东工业大学,控制理论与控制工程,2013,硕士.
[6]苏言杰.高质量单壁碳纳米管的生长调控与特性研究[D].上海交通大学,2012.
[7]张峥.在线吹氩站的自动控制系统[J].冶金自动化,2001,06:47-49.
[8]赵国华.人民币资本项目下可兑换探讨[D].辽宁师范大学,政治经济学,2003,硕士.
[9]宋阳.407例儿童大叶性肺炎临床分析[D].吉林大学,临床医学,2013,硕士.
[10]孙春暖.关于青少年武术俱乐部教学模式的探索[D].山东师范大学,民族传统体育学,2013,硕士.
[11]张珮琨.国有大型企业网络舆情危机管理研究[D].华中科技大学,新闻与传播,2013,硕士.
[12]李云锦.水热法制备Ni(OH)_2/C电极材料及其电化学性能研究[D].北京化工大学,2013.
[13]吴丹.纳米氧化锌及其载银复合材料的制备与光催化性能[D].华中科技大学,材料学,2013,硕士.
[14]张淼.社会化媒体在市场营销中的应用研究[D].首都经济贸易大学,工商管理(专业学位),2014,硕士.
[15]鞠顺祥.中空纤维膜接触器吸收烟气中二氧化碳的数值模拟及实验研究[D].重庆大学,动力工程及工程热物理,2014,硕士.
[16]王爱玲,蔡敏,金华锋,陈新南,王芊,宗洪良,郑玉平.RCS-900系列保护装置的同步通信时钟[J].电力系统自动化,2006,24:53-56.
[17]鲍军鹏,张丽霞,刘晓东,沈钧毅.一个基于XML数据仓库系统的设计与实现[J].计算机工程与应用,2004,06:220-222.
[18]于国伟.基于芴的线型共轭齐聚物光物理性质研究[D].吉林大学,光学,2013,硕士.
[19]王冉.《瓦尔登湖》徐迟译本中的欧化研究[D].新疆师范大学,外国语言学及应用语言学,2013,硕士.
[20]王震.知识型企业智力资本管理研究[D].南京理工大学,2003.
[21]王超.中国公务用车管理存在的问题及对策[D].首都师范大学,公共管理,2014,硕士.
[22]王文华.基于RFID技术的室内定位系统研究[D].兰州理工大学,通信与信息系统,2013,硕士.
[23]张学广,徐殿国,潘伟明,姚春光.基于电网电压定向的双馈风力发电机灭磁控制策略[J].电力系统自动化,2010,07:95-99.
[24]温乐.LPS和沙门氏菌刺激时鸡脑内TLR4的表达规律研究[D].华中农业大学,基础兽医学,2014,硕士.
[25]宋丽萍.孟子正义观与柏拉图正义观比较[D].西北大学,中国哲学,2013,硕士.
[26]邹建平.Gankyrin、β-catenin蛋白与子宫内膜腺癌关系的研究[D].中南大学,临床医学,2014,博士.
[27]王炳南.住宅电话设计标准的制订简介[J].电信工程技术与标准化.1993(04)
[28]杨锦伟1,2,肖新平1,郭金海1,3.正态分布区间灰数灰色预测模型[J].控制与决策.
[29]赵晶.清代鄂尔多斯各旗与陕西的私盐贸易[D].内蒙古大学,专门史,2014,硕士.
[30]陈建文.牛A型口蹄疫病毒多表位疫苗的研究[D].甘肃农业大学,预防兽医学,2013,硕士.
[31]郑建辉.第三方配送带软时间窗车辆路径问题的模型与禁忌算法研究[D].杭州电子科技大学,管理科学与工程,2013,硕士.
[32]杨宝祝,赵春江,李爱平,吴泉源,孙想,吴华瑞.网络化、构件化农业专家系统开发平台(PAID)的研究与应用[J].高技术通讯,2002,03:5-9.
[33]陈济.我国上市公司控制权私有收益影响因素的实证研究[D].海南大学,企业管理,2014,硕士.
[34]王娜.论公司法人格否认制度在我国税法领域的适用[D].扬州大学,民商法学,2012,硕士.
[35]陈子才.针灸治疗感音神经性耳鸣的临床研究文献系统评价[D].广州中医药大学,中医学(专业学位),2013,硕士.
[36]魏宏岩.黑龙江大豆产业生产效率评价[D].哈尔滨理工大学,技术经济及管理,2012,硕士.
[37]张胜利,李丹丹,宋延华,司丹亚.硫形态对硫/碳复合材料性能的影响[J].电池,2014,05:283-285.
[38]闻红利.C2C电子商务网站信用评价研究[D].浙江工业大学,2013.
[39]刘杨.《北欧海上保险计划》之投保人与被保险人义务研究[D].大连海事大学,海商法,2014,硕士.
[40]米泽辉.AT供电系统轨地电位与降低措施研究[D].西南交通大学,电力系统及其自动化,2013,硕士.
[41]石璐.浅析基金份额持有人对基金管理人不当行为的监督机制[D].华东政法大学,民商法学,2012,硕士.
[42]张钦河.东营盐业公司发展战略研究[D].西安科技大学,工商管理,2014,硕士.
[43]汪琼.基于热力学模型熔盐水化物相变储能材料的开发与研究[D].湖南大学,无机化学,2012,硕士.
[44]潘亦,武港山.使用基于量度的分类树的软件开发技术[J].计算机工程,2005,19:89-90.
[45]刘春梅,田莉,杨涛,郭秀花.北京市高校院前急诊急救工作现状[J].中国学校卫生,2014,04:630-631.
[46]吴雪.基于情感过滤理论对大一学生英语口语僵化问题的研究[D].吉林大学,外国语言学及应用语言学,2014,硕士.
[47]祝夫文,赵忠,胡贤磊,刘相华.中厚板轧制过程控制中轧件的平均温度模型[J].冶金自动化,2007,06:27-30.
[48]夏登山,丁怡萌.《红楼梦》中的多方会话及其艺术功能[J].明清小说研究,2014,02:112-119.
[49]刘鹰.电弧炉煤氧助熔PC控制系统[J].冶金自动化,1995,01:53-54.
[50]杜笃.现代医药流通在第三终端的营销研究[D].西南交通大学,工商管理(专业学位),2014,硕士.

相关推荐
更多