基于非参函数逼近的强化学习算法研究

基于非参函数逼近的强化学习算法研究

作者:师大云端图书馆 时间:2021-06-30 分类:参考文献 喜欢:1612
师大云端图书馆

【摘要】强化学习主要通过与环境交互的方式获得输入信息,继而对策略进行改进。近年来,强化学习受到了学术界的广泛关注,已经成为机器学习领域的一个重要分支。传统的强化学习在大规模状态空间下通常采用带参的函数逼近器来表示值函数,但是无法解决算法收敛速度过慢与策略精度较低的问题。而非参函数逼近作为一种灵活的、完全基于样本的函数逼近方法,具有精度高、收敛速度快等特点,且与强化学习基于反馈进行学习的根本原理相一致。本文在已有算法的基础上,将非参函数逼近与强化学习算法相结合:(1)针对强化学习中无效探索过多的问题,提出了一种基于优先级扫描的TD最小二乘策略迭代算法,将优先级扫描与非参函数逼近方法相结合,在探索的同时建立环境模型,并通过模型学习提高了算法的收敛速度;(2)针对非参函数逼近算法中计算复杂度过高的问题,提出了一种基于稀疏样本的高斯过程策略迭代算法,将高斯过程应用于强化学习建模,并利用核稀疏方法降低了样本空间的冗余度,在一定程度上提高了算法的收敛速度以及稳定性。
【作者】朱稷涵;
【导师】伏玉琛;
【作者基本信息】苏州大学,计算机技术(专业学位),2014,硕士
【关键词】强化学习;非参函数逼近;核函数;高斯过程;策略迭代;

【参考文献】
[1]徐兵.基于在线数据的负荷建模研究[D].山东大学,电力系统及其自动化,2013,硕士.
[2]李洪安.论婚内侵权民事责任制度的立法构建[D].吉林大学,法律,2013,硕士.
[3]龚翠玲.家庭异构网关研究与关键技术实现[D].南京邮电大学,电子与通信工程(专业学位),2013,硕士.
[4]徐秀敏.《指匠情挑》的后现代女性哥特解读[D].河北大学,英语语言文学,2014,硕士.
[5]杨鑫.基于蓝牙的移动终端与PC机信息交互研究与实现[D].西安电子科技大学,电子与通信工程,2012,硕士.
[6]李静思.内部控制缺陷与公司治理的实证研究[D].首都经济贸易大学,会计学,2014,硕士.
[7]李喆.三轴数控铣床开放式控制系统的开发研究[D].沈阳工业大学,机械电子工程,2004,硕士.
[8]申爱军.高压富水隧道渗流分析与施工措施研究[D].长安大学,建筑与土木工程(专业学位),2014,硕士.
[9]蔡云飞.人体运动三维仿真与分析系统[D].河北工业大学,计算数学,2004,硕士.
[10]朱明.HI中国子公司质量文化建设研究[D].上海外国语大学,工商管理,2013,硕士.
[11]李国锋,李继宏.数据仓库维度表更新技术分析[J].商场现代化,2005,27:275-277.
[12]李建雄.中小企业科技创新云平台的设计与实现[D].天津大学,软件工程,2013,硕士.
[13]任丽.市级国税局网上办公系统的设计与实现[D].西安电子科技大学,计算机技术,2010,硕士.
[14]叶隆.国有建筑企业改革与建筑业发展[D].安徽大学,政治经济学,2004,硕士.
[15]彭金波.铝合金的棘轮及低周疲劳行为研究[D].西南交通大学,工程力学,2014,硕士.
[16]刘婧.基于BP、RBF及GAAA-RBF神经网络的工程估价方法[D].华侨大学,建筑与土木工程(专业学位),2013,硕士.
[17]张丽美.利用菌糠生产益生菌制剂适宜发酵条件的研究[D].东北农业大学,动物营养与饲料科学,2013,硕士.
[18]徐素娟.独立光伏发电系统中充电控制器的研究与设计[D].浙江工业大学,2013.
[19]朱江.云南哈尼族服饰产业化发展研究[D].云南艺术学院,艺术学,2013,硕士.
[20]陈萌.论政府记者招待会口译特征及其能力分析[D].上海外国语大学,英语语言文学,2012,硕士.
[21]栾俊.孟子“良心”思想研究[D].山东大学,中国哲学,2013,硕士.
[22]刘玉栋.电子元器件材料电应力损伤与噪声相关性研究[D].西安电子科技大学,电子与通信工程,2012,硕士.
[23]边涛.用画笔记录时代[D].中央美术学院,油画,2013,硕士.
[24]吴卫卫.调神通络针刺法治疗紧张性头痛的临床研究[D].黑龙江中医药大学,中医学(专业学位),2013,硕士.
[25]童治文.翅片管式蒸发器低温结霜工况性能实验研究[D].河南科技大学,工程热物理,2014,硕士.
[26]高增艳.红霉素对COPD大鼠组蛋白去乙酰化酶2活性与糖皮质激素抵抗的影响及机制[D].郑州大学,内科学,2013,硕士.
[27]胡洋.《论自然法下人和公民的责任》(卷二)翻译报告[D].四川外国语大学,翻译(专业学位),2013,硕士.
[28]呂崇圓.郁達夫文学における志賀直哉の影響について[D].西安外国语大学,日语语言文学,2014,硕士.
[29]程远.海藻酸纳米药物传输体系的研究[D].南京大学,高分子化学与物理,2012,博士.
[30]吕绍信.我国大陆和港台地区仲裁裁决撤销制度比较研究[D].新疆大学,法律,2013,硕士.
[31]秦磊.基于Web标准化的在线视频网站设计与实现[D].吉林大学,软件工程,2014,硕士.
[32]于瀚,肖玲诺.加工贸易“贫困化增长”倾向的实证及其对策研究[J].中国软科学,2013,06:134-141.
[33]沈枢,张沛超,李中豪,张宇,方陈.平抑长短期风电功率波动的风储协调运行方法[J].电力系统自动化,2015,08:12-18.
[34]冯艳红.基于Android平台社区服务系统研究与实现[D].宁波大学,电子与通信工程(专业学位),2014,硕士.
[35]程艳艳.民办小学语文教师生存状态的叙事研究[D].首都师范大学,课程与教学论,2013,硕士.
[36]王雪莹.20-HETE通过蛋白激酶C和NADPH氧化酶诱导乳鼠心肌细胞凋亡[D].东北师范大学,生理学,2012,硕士.
[37]王剑楠.列车—轨道耦合系统随机不平顺动力响应分析[D].大连理工大学,控制理论与控制工程,2013,硕士.
[38]胡欣宜.论我国银行的保密义务[D].中国政法大学,法律(专业学位),2013,硕士.
[39]李杨.齐齐哈尔市低碳农村实证分析[D].东北农业大学,农业推广(专业学位),2013,硕士.
[40]李富荣.非英语专业大学生英语学习“动机缺失”调查及对策研究[D].湖南科技大学,外国语言学及应用语言学,2013,硕士.
[41]郭春桥.中俄转型进程演化分析[D].辽宁大学,转轨经济学,2012,硕士.
[42]王新生,张华强,徐殿国.PWMDC-DC变换器的一种改进的采样数据建模和分析方法[J].控制与决策,2004,12:1395-1398+1406.
[43]曹君.基于JBI规范的ERN分布式企业服务总线的研究[D].中北大学,计算机技术,2013,硕士.
[44]董晓来.半线性分数阶微分方程指数时间Adams方法的研究[D].哈尔滨工业大学,计算数学,2014,硕士.
[45]王铁林.赵庄矿煤巷掘进冲击地压影响因素及控制技术研究[D].辽宁工程技术大学,采矿工程,2012,硕士.
[46]汪秀刚.我国新农村文化建设研究[D].山东大学,马克思主义中国化研究,2013,硕士.
[47]娜迪拉·阿布都外力.新疆少数民族骨干计划毕业生就业期望与就业现状的调查研究[D].新疆大学,行政管理,2013,硕士.
[48]向晓雪.高中语文课堂趣味教学研究[D].华中师范大学,学科教学,2014,硕士.
[49]李斌,曾红艳,范瑞卿,薄志谦.基于故障分量的相位相关电流差动保护[J].电力系统自动化,2011,03:54-58.
[50]张钟俊,陈联淦.设计最低阶多线性函数观测器的新方法[J].自动化学报,1983,01:41-49.

相关推荐
更多