模型无关的贝叶斯强化学习方法研究

模型无关的贝叶斯强化学习方法研究

作者:师大云端图书馆 时间:2021-06-30 分类:参考文献 喜欢:1694
师大云端图书馆

【摘要】强化学习是一类重要的机器学习方法,强化学习具有两个重要的特征:算法可以在不知道环境的全部模型时,求解模型未知的最优化问题;强化学习强调Agent与环境的在线交互,在交互过程中对数据进行累积学习,以达到在线求解最优策略的目的。因此,强化学习方法被越来越多地用于作业优化调度、在线学习控制、游戏等领域。针对于强化学习方法存在的“维数灾难”、收敛速度慢、收敛精度低等问题,本文以模型无关的贝叶斯强化学习为出发点,提出了几种模型无关的贝叶斯强化学习算法,主要研究概括为以下3个方面。(1)针对贝叶斯Q学习存在收敛速度慢且收敛精度低的问题,提出一种基于优先级扫描Dyna结构的贝叶斯Q学习方法。该方法主要分为2部分:学习部分和规划部分。基于学习部分建立的模型,规划部分使用优先级扫描方法和动态规划方法对动作值函数进行规划更新。从理论上分析了算法的收敛性,并通过实验表明该方法能较好地平衡探索与利用,且具有较优的收敛速度及收敛精度。(2)针对状态空间中的有效样本选择问题,在高斯过程时间差分算法框架下,提出一种基于随机投影的高斯过程时间差分算法。利用哈希函数把状态集合中的元素映射成哈希值,根据哈希值分组,来减少状态之间的比较。实验结果表明该方法能够提高算法的执行速度,且在评估状态值函数精度和算法执行时间上有较好地平衡。(3)针对蒙特卡洛方法对梯度的估计易导致高方差,初始性能不够稳定的问题,提出一种基于状态依赖探索的贝叶斯策略梯度算法。将策略梯度模型化为一个高斯过程,利用贝叶斯积分方法来评估策略,在每一个状态下引入状态依赖探索函数,不仅可以克服因算法初始策略的随机性带来的不稳定,而且可以减小每个情节中估计的方差,使得算法具有更快的收敛速度和鲁棒性。
【作者】于俊;
【导师】刘全;
【作者基本信息】苏州大学,计算机应用技术,2014,硕士
【关键词】强化学习;贝叶斯Q学习;随机投影;高斯过程;贝叶斯策略梯度;

【参考文献】
[1]杨康梅.微生态制剂对婴幼儿抗生素相关性腹泻的治疗作用及血浆中二胺氧化酶检测[D].河北医科大学,儿科学,2013,硕士.
[2]钟艳平.基于遗传算法的网格任务调度算法的研究[D].浙江工业大学,2007.
[3]代志明.”三明医改”模式可以复制吗?——兼与钟东波先生商榷[J].郑州轻工业学院学报(社会科学版),2015,02:35-38.
[4]刘彦泓.雪花莲凝集素基因转化菊花及转基因植株抗蚜性研究[D].辽宁师范大学,植物学,2003,硕士.
[5]张洋.基于SIFT算法的图像特征点配准技术应用[D].兰州理工大学,信号与信息处理,2013,硕士.
[6]徐志鹏.脆硬材料超高速磨削仿真研究[D].东北大学,机械制造及其自动化,2010,硕士.
[7]孙德峰.钢铁企业原料场物流管理优化系统[D].东北大学,系统工程,2010,硕士.
[8]鄢曼,覃亚丽,任宏亮,李伽,薛林林.贝塞尔晶格中高斯光束的传输(英文)[J].激光与光电子学进展,2015,02:217-220.
[9]王花.黑龙江省国有森林资源配置的影响因素和效率研究[D].东北林业大学,林业经济管理,2014,博士.
[10]宗琮.初中生提出可研究生物学问题的思维过程的研究[D].首都师范大学,学科教学,2013,硕士.
[11]向齐良.基于烧结终点预测的烧结过程智能控制系统及应用研究[D].中南大学,2008.
[12]魏颖.鄂尔多斯盆地黄陵—正宁地区延长组长6_3储层综合评价[D].西北大学,矿物学、岩石学、矿床学,2014,硕士.
[13]后文文.苏州市湿地生态补偿机制研究[D].苏州大学,行政管理,2013,硕士.
[14]董文生,李卫东.宝钢一、二期与三期原料场计算机控制系统的比较[J].冶金自动化,2000,03:8-13.
[15]郝前勇,张世鑫,张峰,郑明.基于频变AVO反演的频散属性估算方法及其应用[J].石油地球物理勘探,2013,02:255-261+332+159.
[16]包峰.程序化交易模型的开发与优化[D].华东师范大学,概率论与数理统计,2013,硕士.
[17]杨增宇.基于3G通信技术的保险行业查勘定损系统的设计与应用[D].内蒙古大学,电子与通信工程,2013,硕士.
[18]王华东.贵州省旅游产业与文化产业融合发展研究[D].贵州财经大学,旅游管理,2013,硕士.
[19]王登武,王芳.GNS/BOZ/EP复合材料的合成及性能研究[J].中国胶粘剂,2014,11:33-36.
[20]李佳佳.完善我国政府食品安全监管体系问题研究[D].辽宁大学,国民经济学,2012,硕士.
[21]李远.对日语中存在的年轻人用语进行的考察[D].东北师范大学,日语语言文学,2012,硕士.
[22]董兴.股市有效性和经济有效性理论与实证[D].天津大学,2003.
[23]周勤.基于时域有限差分方法的二维光子晶体能带结构的计算[D].北京交通大学,电子与通信工程(专业学位),2013,硕士.
[24]李国平.齿轮加工裂纹的原因分析及消除方法[J].航空制造技术.2002(09)
[25]黄海兵.新型苯基取代杂环非茂金属配合物催化乙烯聚合的研究[D].北京化工大学,材料科学与工程,2013,硕士.
[26]何险峰.基于数据挖掘技术和智能体技术的入侵检测系统[D].电子科技大学,2003.
[27]陈维恒.无线传感器网络异常检测与数据聚类[D].大连理工大学,计算机应用技术,2013,硕士.
[28]刘一林.面向中国新能源产业政策的SMK中国营销战略研究[D].天津大学,工商管理,2013,硕士.
[29]王玮.我国新能源产业融资影响因素及路径研究[D].中国矿业大学,金融工程与风险管理,2014,硕士.
[30]成爽,吕金钟,丛红璐.独立学院大学实验物理教学方法改革探索[J].产业与科技论坛,2014,16:171-172.
[31]毕南妮.送风口高度及送风参数对碰撞射流供暖效果的影响[D].东华大学,建筑与土木工程(专业学位),2014,硕士.
[32]李斌.碟式斯特林太阳能热发电系统中跟踪系统的研究[D].陕西科技大学,电力电子与电力传动,2013,硕士.
[33]沈琪雯.有限元逆矩阵形函数构造方法及其编程[D].重庆大学,土木工程,2014,硕士.
[34]徐玉萍.商务询价函与回价函中模糊语言的框架语义对比研究[D].宁波大学,外国语言学及应用语言学,2014,硕士.
[35]黄铖,邹斌,李冬.一种电价持续曲线理论计算方法[J].电力系统自动化,2010,16:38-42.
[36]邵雪婷.企业文化与员工职业承诺的关系研究[D].广西师范大学,教育经济与管理,2013,硕士.
[37]余建桥,张帆.基于数据场改进的PAM聚类算法[J].计算机科学,2005,01:165-167.
[38]李菲.印巴卡吉尔冲突进程中的美国作用研究[D].吉林大学,世界史,2014,硕士.
[39]张妮.译前准备工作在交替传译中的重要性[D].宁夏大学,翻译(专业学位),2014,硕士.
[40]黄芳.晚期肺腺癌化疗方案的优化[D].河北医科大学,肿瘤学,2014,硕士.
[41]宁静,智林杰.基于碳纳米材料的柔性透明导电薄膜研究进展[J].科学通报,2014,33:3313-3321.
[42]郭强.二甲双胍对Ⅱ型胶原诱导类风湿关节炎大鼠模型的抗炎及关节保护作用的研究[D].第四军医大学,外科学(专业学位),2014,硕士.
[43]郭景峰,米浦波,刘国华.决策树算法的并行性研究[J].计算机工程,2002,08:77-78.
[44]师燕芸.TNIP1基因多态同汉族人群vogt-小柳原田综合症及Behcet病的遗传易感性研究[D].重庆医科大学,眼科学,2014,博士.
[45]田欢.睾丸支持细胞对骨髓间充质干细胞增殖和迁移影响的基础研究[D].华东理工大学,微生物学,2014,硕士.
[46]刘红梅.小麦优良种质“兴资9104”的抗条锈病和白粉病遗传分析[D].河北农业大学,植物病理学,2004,硕士.
[47]徐莹.歌剧《野火春风斗古城》中金环、银环的人物性格塑造及唱段分析[D].西安音乐学院,声乐教学与演唱,2013,硕士.
[48]杜桂红.钢轨缺陷漏磁场分析及可视化技术研究[D].哈尔滨理工大学,模式识别与智能系统,2012,硕士.
[49]赵伟.一维ZnO微米材料界面对BSA构象的影响[D].东北师范大学,材料物理与化学,2012,硕士.
[50]贾育.基于演于构件的软件复用方法[D].中国科学院研究生院(软件研究所),2002.

相关推荐
更多