基于强化学习的RoboCup 2D高层抢球策略研究
【摘要】RoboCup,机器人足球世界杯,是一个国际性的综合赛事,其中的2D项目提出了一个复杂的实时多主体环境下的智能体决策问题。当前人工智能正处在由“单主体静态可预测环境中的问题求解”向“多主体动态不可预测环境中的问题求解”过渡的阶段,RoboCup2D问题中的智能决策研究代表人工智能的最新理论方向,同时RoboCup2D问题的解决可以助力当前信息时代的深入发展和革新。RoboCup2D问题的重点是高层决策,目前处理高层决策问题的方法有手工策略和各种人工智能的方法。传统的高层决策采用手工策略,手工策略具有很大的主观性,相关参数的选取多根据经验,不能保证很优化;同时手工策略无法考虑所有的比赛情形,对比赛情形动态变化的适应能力差,从而导致球员达成目标的效率底下。基于人工智能的方法则包括强化学习、决策树学习、神经网络学习等,它们由于具有学习能力,优于简单的手工策略。在强化学习过程中,智能体通过不断进行动作尝试并观察动作的回报,逐渐学会在各种情形下选择对其有利的动作,以使自身在与环境交互过程中获得高的累积回报值。强化学习的环境交互特点和RoboCup2D的客户-服务器交互模式一致;强化学习的连续决策特点和RoboCup2D的周期性决策特点也十分一致;并且强化学习模型对动态不确定环境的适应能力,使得强化学习方法十分适于解决RoboCup2D的高层决策问题,所以本文基于强化学习方法进行RoboCup2D问题研究。Keepaway,即小规模控球抢球训练问题,是RoboCup2D中的典型子问题。目前有人使用强化学习的方法对Keepaway的高层控球策略进行研究,优化了控球球队中持球球员的高层动作决策。然而目将强化学习应用于Keepaway问题中抢球球员的动作决策尚无文献研究。在Keepaway中,抢球任务和控球任务的任务目标相反,任务特点也有所不同,因而球队策略也存在区别。控球的特点是要求无球球员进行合理的无球跑动,同时持球球员选择合理的传球路线;抢球的特点是则要求抢球球员分工对控球球员进行压迫和逼抢。控球任务对无球球员的跑动要求相对较低,研究重点是持球球员的传球决策;而对于抢球,离球最近的抢球球员的决策比较固定(他必须上前逼抢持球球员,否则球队很难抢下球),剩下的负责拦截传球路线的抢球球员的决策则具有研究价值。本文针对Keepaway中抢球任务的上述特点,研究将强化学习应用于抢球球员高层动作决策的问题,主要做了以下工作:(1)针对传统手工策略效率低的问题,通过对Keepaway中抢球任务特点的分析,合理设计了抢球球员强化学习模型的状态空间、动作空间及回报值,并给出了抢球球员的强化学习算法,使球员的决策随着训练的进行得到优化,抢球任务完成时间缩短,抢断成功率提高。(2)针对较大规模Keepaway任务进行普通强化学习耗时太长的问题,利用策略迁移技术,通过合理设计从较小规模到较大规模Keepaway抢球任务的迁移学习方案,以及定义两个规模的任务间状态及动作空间映射,并给出抢球球员的迁移学习算法,使抢球球员在较大规模Keepaway训练中重用在较小规模Keepaway中通过普通强化学习得到的高层策略,实现迁移学习。实验表明迁移学习在训练开始时就表现出较高的决策效率,并且比从零开始的普通强化学习更快地收敛到理想的策略水平,大大缩短了训练时间。本文的研究成果表明强化学习方法在Keepaway高层抢球决策中的有效性。传统意义上,强化学习一般只应用于底层动作决策。本研究则证明了通过合理的高层回报值模型设计,强化学习也可以用来解决高层动作决策问题,体现了强化学习更广泛的应用能力。
【作者】陈士洋;
【导师】李学俊;
【作者基本信息】安徽大学,计算机软件与理论,2014,硕士
【关键词】机器人足球;Keepaway;强化学习;抢球策略;策略重用;迁移学习;
【参考文献】
[1]郑松州.科尔沁沙地几种经济植物耗水特征及其栽植技术研究[D].内蒙古农业大学,水土保持与荒漠化防治,2013,硕士.
[2]崔秀丽.中国城市化与收入分配的关联机制与影响研究[D].云南财经大学,西方经济学,2013,硕士.
[3]江才,宋文胜,王顺亮,韩坤,冯晓云.一种三电平中性点钳位逆变器中点电位控制算法[J].电力系统自动化,2014,07:88-94.
[4]何荣祥.纳米功能材料器件及其在流体和细胞检测中的应用研究[D].武汉大学,2013.
[5]张瑶.医院建筑用能统计及评价研究[D].哈尔滨工业大学,供热、供燃气、通风及空调工程,2014,硕士.
[6]李俊霖.吉林省基层公共卫生服务体系的优化[D].东北师范大学,公共管理(专业学位),2012,硕士.
[7]马宁宁吴依凡.城市河流景观设计之探析[J].环境与生活.
[8]肖宏.城市广场中石材的运用研究[D].南京林业大学,城市规划与设计,2004,硕士.
[9]陈锋敏.WWW数据模型及预送技术[J].统计与决策,2004,07:117-118.
[10]李亚梅.铁皮石斛对ApoE基因敲除小鼠脂质代谢和炎症反应作用的初步研究[D].湖南中医药大学,中药学,2013,硕士.
[11]于成龙.抗战时期晋绥根据地民兵组织研究[D].山西师范大学,中国近现代史,2013,硕士.
[12]黄攀峰,张帆,徐秀栋.考虑空间系绳释放特性的空间绳系机器人协调耦合控制[J].控制与决策,2015,06:961-968.
[13]李刚.胆囊切除术后腹泻的发病机制、临床诊断和预测[D].扬州大学,内科学,2012,硕士.
[14]方雨菡.永磁真空断路器的智能控制[D].西南交通大学,电机与电器,2013,硕士.
[15]傅晓霞,吴利学.随机生产前沿方法的发展及其在中国的应用[J].南开经济研究,2006,02:130-141.
[16]阿荣.浅谈中学蒙古语文教学方法[D].内蒙古师范大学,语言学及应用语言学,2012,硕士.
[17]周颜忠.北车兰州机车有限公司发展战略研究[D].西南交通大学,工商管理(专业学位),2012,硕士.
[18]曾翠平.大气中羰基化合物PFPH衍生—热脱附-GC/MS分析方法的建立及应用[D].上海大学,环境工程,2014,硕士.
[19]颜运涛.船舶柴油机轴系扭振测试系统的开发[D].大连海事大学,轮机工程,2013,硕士.
[20]郑超.基于债务期限结构的违约风险度量研究[D].天津财经大学,统计学,2012,硕士.
[21]孙方园.《安哥拉ROSHA住宅的建筑工程技术规范》翻译报告[D].河北师范大学,英语笔译,2014,硕士.
[22]塔琳.基于FTA视角的中国与日本农产品贸易研究[D].北京交通大学,2014.
[23]曾江维.热红外数据(TASI)预处理及矿物信息提取方法研究[D].中国地质大学(北京),资源与环境遥感,2014,硕士.
[24]陈赛.从文化产业视角看中国动画产业化的困境与出路[D].北京大学,2005.
[25]袁园.基于SMA作动的薄壁圆柱壳结构刚度主动增强方法研究[D].哈尔滨工业大学,航空宇航制造工程,2014,硕士.
[26]于淼.基于Struts框架的节能发电调度信息系统的设计和实现[D].东北大学,软件工程,2011,硕士.
[27]巫群洪.具有高精度与高稳定性的多路输出两相混合步进电机驱动器的设计与实现[D].浙江工业大学,2013.
[28]刘光远.我国海疆行政管理体制改革研究[D].大连海事大学,公共管理,2014,硕士.
[29]孙雪平.代谢综合征中医证型及早期肾损害危险因素的相关研究[D].黑龙江中医药大学,中医学(专业学位),2013,硕士.
[30]韩小宇.异形变宽箱梁桥基于梁格法若干问题研究[D].长安大学,建筑与土木工程(专业学位),2013,硕士.
[31]英大勇.“商业智能”保太平[N].计算机世界,2001-07-09C06.
[32]刘安平.三辊复合轧机生产监控系统的开发[J].冶金自动化,2009,06:67-68.
[33]吴璧澄.自发性气胸的中医证候规律研究[D].广州中医药大学,中医学(专业学位),2013,硕士.
[34]马小波.公民新闻传媒生态研究[D].西南大学,传播学,2013,硕士.
[35]张彦彦.工作记忆中的语音回路对二语阅读理解影响的研究[D].宁波大学,外国语言学及应用语言学,2014,硕士.
[36]何慧超.团体贷款对我国村镇银行的适用性研究[D].中国政法大学,政治经济学,2013,硕士.
[37]饶冠玉.汉语惯用语的语义分析[D].南京师范大学,语言学及应用语言学,2012,硕士.
[38]吴智蕾.医疗责任保险法律制度研究[D].贵州民族大学,法律,2013,硕士.
[39]祖英利.液压挖掘装载机WZ30-25反铲装置仿真优化[D].吉林大学,2005.
[40]姚娇娇.基于融资担保企业信用评级体系研究[D].长安大学,企业管理,2014,硕士.
[41]王慧.基于SIP的IP电话的实验性研究[D].西南交通大学,计算机应用技术,2003,硕士.
[42]钟秀玉.计算机取证问题分析与对策[J].电脑开发与应用,2005,03:13-15.
[43]于丹.建国后至20世纪初中国服饰流行的研究[D].东北师范大学,设计艺术学,2012,硕士.
[44]王旭.人物期刊封面专题在建构社会核心价值观中的作用分析与文化反思[D].西北大学,新闻学,2014,硕士.
[45]高建英.现在汉语近义词“回、还、归、返”的区别性语义特征分析[D].河北师范大学,语言学及应用语言学,2012,硕士.
[46]张能.西方政府与公民关系的困境与出路[D].湖北大学,外国哲学,2012,硕士.
[47]李季子,冯宇飞,孙梅娟.本钢800轧钢厂均热炉控制系统[J].冶金自动化,1998,01:45-46.
[48]程海东.中学历史学科填空题的命题理论与技术[D].华东师范大学,课程与教学论,2002,硕士.
[49]李姝润.论汉代画像石中的动物形象[D].上海戏剧学院,艺术学,2013,硕士.
[50]南屏秀.中国川端康成研究史—以比较文学角度为中心[D].西安外国语大学,日语语言文学,2013,硕士.
