基于多Agent协作强化学习的研究

基于多Agent协作强化学习的研究

作者:师大云端图书馆 时间:2023-10-13 分类:硕士论文 喜欢:2811
师大云端图书馆

【摘要】多智能体Agent系统中,环境是动态的、变化的,其他智能体的行为是不可预知的,所以多Agent系统及系统中的每个Agent应当具备学习或自适应能力。强化学习现已成为多Agent系统不需要环境模型的机器学习方法,现已成为研究热点。与此同时,由于单个Agent的资源和能力的有限性,需要多个Agent之间的协作来共同完成任务。为此,本文的主要工作包括以下几个方面:论文在第一章中首先介绍了Agent和多Agent系统的研究基础,然后分别围绕多Agent学习方法、多Agent协作机制和强化学习三个方面简要阐述了多Agent协作学习的基础知识。然后将黑板模型、融合算法以及强化学习技术相结合,提出了一种改进的多智能体协作学习方法。其中,黑板是一块共享的存储区域,可以实现信息共享;融合算法用来对共享信息进行融合;强化学习技术利用融合结果进行动作选择。追捕问题是一个多Agent系统,同时存在多Agent之间的协作与竞争,被广泛用来测试人工智能领域的学习算法。最后本文利用追捕问题对改进的多智能体协作学习方法进行实例分析与仿真验证。实验结果表明,该方法能够有效地提高多Agent系统中Agent的协作学习能力。
【作者】宋碧慧;
【导师】蒋斌;叶柏龙;
【作者基本信息】湖南大学,计算机技术,2013,硕士
【关键词】智能体;多智能体系统;强化学习;协作;追捕问题;

【参考文献】
[1]龙威,孙冬梅.生物特征身份认证系统的安全性和用户隐私性研究[J].保密科学技术,2014,09:29-35.
[2]马智明,徐荣军,姚忠卯,马林海.Dataminingtechniques在冶金领域的应用[J].河南冶金,2001,02:3-8+18.
[3]于文佳.蛋白质的多维色谱分离与快速酶解技术的联用研究及应用[D].复旦大学,2006.
[4]胡东艳.高校学生社区式管理研究[D].宁波大学,公共管理(专业学位),2013,硕士.
[5]乔大军,孟祥顺,张玉斌,王晓燕.检波器的联接方式对地震资料品质的影响[J].石油地球物理勘探,2001,06:61-60+59-58+57-56+0.
[6]李小琴.先秦儒家德育思想及其现代价值[D].扬州大学,思想政治教育,2011,硕士.
[7]仲泉丞.基于空间绩效的交通综合体剖面设计研究[D].西南交通大学,建筑设计及其理论,2014,硕士.
[8]张粒子,陈之栩,舒隽,杜蕴华.东北区域市场中长期交易安全校核改进方法[J].电力系统自动化,2007,08:95-99.
[9]姚珍珍.暴雨灾害风险评价及预测方法研究[D].南京信息工程大学,系统分析与集成,2012,硕士.
[10]苏湖城.不可量物侵害法律问题研究[D].厦门大学,民商法学,2014,硕士.
[11]潘万南.限制标高的半刚性基层沥青路面结构转换设计方法研究[D].长安大学,道路与铁道工程,2013,硕士.
[12]晏菲.胰蛋白酶保护金纳米团簇的制备及其在含硫化合物检测中的研究[D].浙江理工大学,2014.
[13]黄年龙.智能检测仪中微弱信号处理方法的研究[D].南京理工大学,电路与系统,2013,硕士.
[14]吴婷.城镇化、金融发展对农民收入影响研究[D].重庆大学,产业经济学,2014,硕士.
[15]武艺唯.国有电力上市公司融资结构与公司绩效相关性分析[D].内蒙古大学,会计,2014,硕士.
[16]英玉生.拓展训练对高职生生活效能、自我和谐的影响[D].河北师范大学,体育教学,2012,硕士.
[17]王毅.雌激素对去势雌鼠牙周炎模型中HSP27表达的观察研究[D].山西医科大学,口腔临床医学,2013,硕士.
[18]姜毅.长沙地区粮食产业现状调查及发展对策研究[D].湖南农业大学,食品加工与安全,2012,硕士.
[19]徐雷.Necrostatin-1保护谷氨酸诱导的细胞死亡机制研究[D].苏州大学,细胞生物学,2014,硕士.
[20]侯佳志.中国典型生态系统地表水总氮含量评价及来源分析[D].东北师范大学,湿地科学,2012,硕士.
[21]蒋明凤.日本梨成熟过程中细胞壁组分变化及石细胞的形态学观察[D].东北农业大学,果树学,2013,硕士.
[22]崔娜娜.从关联理论看俄语幽默的汉译[D].吉林大学,俄语语言文学,2013,硕士.
[23]张燕.无线传感器网络中安全数据融合方案的研究[D].南京邮电大学,软件工程(专业学位),2013,硕士.
[24]孙华.基于鲁棒优化的城市交通网络设计模型与算法研究[D].北京交通大学,系统分析与集成,2014,博士.
[25]曹建路.用于柔性电子产品的AZO/石墨烯复合材料制备及性能研究[D].东华大学,材料工程(专业学位),2014,硕士.
[26]冯世博.提高高校宣传工作的价值观负载能力研究[D].吉林大学,学科教学,2014,硕士.
[27]鹿传国,冯新喜,孔云波,张迪.多无源传感器去相关数据关联算法[J].自动化学报,2014,03:497-505.
[28]陈丽.常态与拓展理论视角的动宾式复合词词类标注研究[D].四川外国语大学,英语语言文学,2014,硕士.
[29]贾方方,贺奎,王二坡,刘俊元,马强.钢纤维活性粉末混凝土性能及工程应用[J].建筑技术开发,2014,08:39-41.
[30]贠伍.广电SDH传输系统资源优化及互连互通的研究[J].浙江广播电视高等专科学校学报.2002(02)
[31]周钧,王卸松,周立新.上海铁路客运快速发展对策研究[J].中国铁路.2006(02)
[32]孙栋.供求关系对我国股票市场价格波动影响研究[D].暨南大学,金融学,2013,硕士.
[33]孙文.崇明岛主要植物群落类型、分布及其生态景观协调性评价[D].华东师范大学,生态学,2013,硕士.
[34]曹乾斌.青岛市代谢综合征患病情况及危险因素分析[D].青岛大学,营养与食品卫生学,2013,硕士.
[35]陈浩.美声教学中的发声机制与语音的分析初探[D].西安音乐学院,声乐教学与演唱,2014,硕士.
[36]吕颜海.高中地理课堂导入教学方法与实施策略研究[D].山东师范大学,学科教学(专业学位),2013,硕士.
[37]陈深.微电网优化调度模型与方法研究[D].广东工业大学,电气工程,2014,硕士.
[38]张敏.网络课件的多粒度信息提取[D].重庆大学,计算机软件与理论,2003,硕士.
[39]王晓坤.新型硅基纳米线波导及谐振腔的研究[D].浙江大学,光学工程,2014,硕士.
[40]孙蕊.可调控型生物降解缓控释材料的制备和性能研究[D].上海工程技术大学,材料加工工程,2012,硕士.
[41]陈红.部分回流条件下十字旋阀塔板传质性能研究[D].华东理工大学,化学工程,2014,硕士.
[42]杨方.西安市沣惠南路星钻传说城市综合体设计[D].西安建筑科技大学,建筑与土木工程,2013,硕士.
[43]牛晓慧.浅析学生地理思维能力的培养[D].河北师范大学,学科教学,2013,硕士.
[44]姚晟连.追续权制度研究[D].华中科技大学,民商法学,2013,硕士.
[45]缠东辉.双跨变截面门式刚架钢结构不同温度路径下的响应分析[D].天津理工大学,机械工程,2013,硕士.
[46]刘卓.十八世纪中国瓷绘西洋植物图像研究[D].首都师范大学,中国美术史,2013,硕士.
[47]岳晓静.深度测序对单细胞21-三体诊断的可行性研究[D].中国人民解放军医学院,妇产科学,2013,硕士.
[48]史智.中国情境下炫耀性消费动机与行为研究[D].内蒙古大学,企业管理,2013,硕士.
[49]李冰.奎宁类生物碱的荧光性质及其分析方法研究[D].河北师范大学,分析化学,2014,硕士.
[50]李光.基于RT-LAB的同步电动机矢量控制系统研究[J].冶金自动化.

相关推荐
更多