基于CE-Q强化学习与K-means聚类混合算法的多机器人觅食任务研究

基于CE-Q强化学习与K-means聚类混合算法的多机器人觅食任务研究

作者:师大云端图书馆 时间:2016-08-23 分类:参考文献 喜欢:2654
师大云端图书馆

【摘要】多Agent(机器人)系统在适用性、经济性、鲁棒性、灵活性和容错性等方面相比单Agent具有巨大的优越性,非常适合在恶劣、危险、影响人类健康环境下代替人类完成实际生产甚至军事领域中的复杂工作。如果多Agent系统要真正发挥作用,使其自适应环境的学习控制方法是非常重要的。强化学习方法作为目前被广泛关注的机器学习方法,能够使Agent具有在线的自学习能力,因此被广泛应用于多Agent系统的行为学习领域。目前对于多Agent强化学习算法及其应用的研究主要集中在强化算法自身的收敛问题和使Agent兼顾自身和整体利益的问题上,以及实际应用中存在由于计算复杂度过高和‘维度灾难’导致的无法连续学习的问题和系统效率不高的问题上。本文针对以上问题,展开了以下的研究:将Q算法推广应用于多Agent系统,介绍了在此基础上基于博弈论框架的多种强化算法。分析对比了这些算法在应用中的优缺点,选择了可以保证收敛性与理性,具有较低计算复杂度,但在实际应用中往往存在维度灾难问题的CE-Q(基于相关均衡解的多AgentQ算法)算法。针对CE-Q算法在应用中存在的维度灾难问题,利用K-Means算法对环境特征进行聚类,通过“环境状态类-策略”的映射有效避免多Agent强化学习过程中的学习空间组合爆炸产生的维度灾难问题。提出对Agent动作过程进行奖赏的方法,在原有针对结果的即时奖赏当中加入即时的动作过程奖赏函数。Agent在完成任务的过程中往往要经历一系列动作,动作过程奖赏函数对每个动作都进行奖赏,使Agent能够更充分地利用自身产生的经验,大大降低了Agent通过错误、低效率动作获得奖赏的概率。最后进行了仿真实验验证。利用Matlab7.0及Multi-Agenttoolbox程序包构建了仿真实验平台,以具有广泛应用背景的多Agent觅食为实验任务,对三种常用的强化算法进行仿真实验与相互比较。仿真结果表明了改进后的CE-Q算法在应用中具有有效性和优越性。本文提出的改进CE-Q强化学习与K-means聚类混合算法在保证强化算法理性、收敛性的基础上,具有计算复杂度低、联合学习速度快、系统效率高等优点,其自身可能出现的‘维度灾难’问题也得到了改善。预计能在实际的应用中取得良好效果。
【作者】雷默涵;
【导师】杨萍;
【作者基本信息】兰州理工大学,机械制造及其自动化,2014,硕士
【关键词】Multi-agent;CE-Q强化算法;过程奖赏;K-Means聚类算法;觅食行为;

【参考文献】
[1]蔡鑫.7050铝合金晶界特性分析及其对合金腐蚀行为的影响[D].哈尔滨工业大学,材料学,2013,硕士.
[2]蒲丹琳.我国预算会计的改革与发展研究[D].湖南大学,会计学,2003,硕士.
[3]张战.卵巢癌干细胞的分离、培养及其抗原鉴定[D].重庆理工大学,微生物与生化药学,2011,硕士.
[4]潘心怡.韩国学生学习“了”的母语负迁移研究[D].苏州大学,汉语国际教育(专业学位),2014,硕士.
[5]窦云.大剂量甲氨蝶呤联合四氢叶酸钙用于急性淋巴细胞白血病儿童的血药浓度临床应用研究[D].天津医科大学,药理学,2009,硕士.
[6]曲明明.周煜国筝乐作品探微[D].西安音乐学院,古筝演奏,2014,硕士.
[7]郑东明.金纳多联合降纤酶治疗脑梗死的临床观察[D].中国医科大学,神经病学,2004,硕士.
[8]谢建斌.金属及合金在不同介质中淬火时的数值模拟和应用研究[D].昆明理工大学,2003.
[9]张元毅.基于Java EE的情报判研平台的设计与实现[D].吉林大学,软件工程,2014,硕士.
[10]孙粮磊.基于素数编码的序列模式挖掘研究[D].扬州大学,计算机应用技术,2011,硕士.
[11]马红霞,李维,李晶晶,张翠英,肖冬光.高产乙酸酯酿酒酵母在清香型白酒中的应用研究[J].酿酒科技.
[12]严梁恒.9种鸭科鸟类的线粒体基因组序列分析与雁形目系统发生研究[D].安徽大学,生态学,2014,硕士.
[13]王辉,雷廷武,赵军,刘清坤.坡面径流量与含沙量动态测量系统[J].农业机械学报.2005(01)
[14]谢印成.江苏高校印刷企业集团组建模式研究[D].南京理工大学,2003.
[15]陈莹.美国专业发展学校中教育实习的探析[D].东北师范大学,高等教育学,2012,硕士.
[16]陈杰.二极管箝位多电平并联型APF设计与算法研究[D].西南交通大学,控制工程,2014,硕士.
[17]漆小龙.声化学法制备格利雅试剂及其合成二甲基苄基甲醇的研究[D].广东工业大学,化学工艺,2004,硕士.
[18]王增力,方亚非.全电子化计算机联锁系统[J].铁道通信信号.2002(08)
[19]高娜.微型压电传感器提取听骨链声信号及后期处理[D].复旦大学,耳鼻咽喉科,2013,博士.
[20]孙丹.高校突发事件预警机制研究[D].燕山大学,行政管理,2012,硕士.
[21]闵富红,王执铨.分数阶混沌系统同结构与异结构广义同步[J].控制与决策,2008,09:1025-1029.
[22]栗欣,沈梁,刘建军,王海涛,何山.SL150控制系统在钢板桩轧机主传动中的应用[J].冶金自动化,2014,06:50-55.
[23]孟爱国.合理保护利用自然资源确保可持续发展[J].决策咨询通讯.2003(05)
[24]张洋.基于WebGIS的矿井水文地质信息管理系统的研究[D].河北工程大学,地球探测与信息技术,2012,硕士.
[25]程一博.CircleSegments可视化技术度量模型研究[D].北京交通大学,2014.
[26]郎倩倩.关于企业组织价值观体系的中日比较[D].鲁东大学,日语语言文学,2013,硕士.
[27]高金兰.基于粗糙集理论-思维进化算法的智能控制系统研究与应用[D].太原理工大学,2003.
[28]范昕婷.上海市外环绿带不同植物群落生态功能研究[D].华东师范大学,生态学,2013,硕士.
[29]高向辉.GStreamer媒体播放器软件自动化测试工具的设计与实现[D].西北大学,软件工程(专业学位),2012,硕士.
[30]陈贺俭.法兰叉闭式模锻成形工艺及其模具研究[D].燕山大学,材料加工工程,2014,硕士.
[31]钱佳媛.陶行知生活德育思想及其当代价值研究[D].湖北大学,思想政治教育,2011,硕士.
[32]邢亚南.志贺直哉中期作品的女性形象[D].外交学院,外国语言学及应用语言学,2014,硕士.
[33]王治国,尹成,蒋志斌,雷小兰.莱州湾凹陷明化镇组下段河道储层的地震地貌分析[J].石油地球物理勘探,2012,04:629-636+682+516.
[34]柴超.CDMA网络边境地区小步长接入可控性方法研究[D].吉林大学,电子与通信工程,2012,硕士.
[35]王劲松,唐成虹,陈娜,谭阔,毛俊喜.基于运行模式自识别的微电网并离网平滑切换控制策略[J].电力系统自动化,2015,09:185-191.
[36]邝献涛.IPSec协议分析研究[D].湖南师范大学,计算数学,2004,硕士.
[37]傅锦华.新型抗抑郁中药舒肝解郁胶囊对抑郁模型大鼠的作用机制研究[D].中南大学,临床医学,2014,博士.
[38]王凡豪.原油评价数据应用的算法设计与实现[D].南京大学,控制工程(专业学位),2013,硕士.
[39]曾伟龙.肝门部胆管癌的外科诊治[D].福建医科大学,外科学,2014,硕士.
[40]段军晓.数据挖掘技术在民航快递市场营销中的应用[J].计算机工程,2005,S1:31-32+35.
[41]谭佳.基于人力资源整合层面的中国企业跨国并购风险控制[D].沈阳师范大学,政治经济学,2014,硕士.
[42]党蓓,赵蕴华,赵志耘,郑佳.基于专利的官产学合作关系测度研究——以中韩石墨烯领域为例[J].情报杂志,2014,05:66-70.
[43]袁力.安庆市公立医院员工绩效考核体系研究[D].安徽大学,行政管理,2013,硕士.
[44]林锦贤,沈钧毅.支持金融决策的数据仓库系统[J].计算机工程与应用,2001,08:92-93+121.
[45]张焕新.纤维艺术信息传递方式的创新研究[D].大连工业大学,设计艺术学,2012,硕士.
[46]程旭艳.AZ91D镁合金固态热扩渗锌及其耐腐蚀性能研究[D].长安大学,材料工程(专业学位),2014,硕士.
[47]顾浩.MIMO雷达的目标定位及性能分析[D].南京理工大学,电子与通信工程,2013,硕士.
[48]韩建龙,邱桂花,张瑞蓉,于名讯,潘士兵.材料在太赫兹波段吸收性能的研究进展[J].兵器材料科学与工程,2013,02:130-133.
[49]崔青霞.聚苯胺的制备、复合及电化学电容性能[D].新疆大学,2014.
[50]杨聪.我国上市公司高管薪酬与经营绩效关系的实证研究[D].山东财经大学,企业管理,2012,硕士.

相关推荐
更多