基于贪婪优化和投影变换的集成分类器算法研究

基于贪婪优化和投影变换的集成分类器算法研究

作者:师大云端图书馆 时间:2015-10-09 分类:参考文献 喜欢:1805
师大云端图书馆

【摘要】随着计算机科学的不断发展,人们对机器学习的性能精度要求越来越高,同时需要处理的问题也越来越复杂,这意味着单一的学习模式已经不能完全满足人们对更高性能的需求。因此,集成学习作为一种新的机器学习算法被提出,即通过结合多个学习器来改善单个学习器的性能。由于集成学习能够明显地改善单个学习器的性能,因此从20世纪90年代起,集成学习成为机器学习领域的一个研究热点,而分类器集成相当于集成学习在有监督分类中的一个典型应用,其通过结合多个分类器的输出来改善单个分类器的性能。目前,分类器集成已被成功应用到人脸检测、遥感数据分类、医学图像处理、网络数据处理等众多实际应用问题中。对于分类器集成,个体分类器间的差异性和个体分类器自身的准确率是决定集成系统泛化误差的两个重要因素。简言之,同时增强个体间差异性和提高个体自身性能能降低集成系统的泛化误差。然而研究表明:在一个集成系统中,增强个体间差异性是以降低个体自身性能为代价的。这意味着平衡差异性和准确率两个因素不仅是构造集成算法的出发点也是难点。因此,为了构造一种有效的分类器集成系统,本文围绕着差异性、准确率和集成误差三个因素对如何结合多个分类器的输出进行了深入的研究,提出了几种分类器集成算法,主要的研究成果有:1.为了通过平衡差异性和准确率来提高集成性能,提出了一种贪婪优化选择集成算法。该算法同时从差异性和准确率两个因素出发,采用匹配追踪算法来寻找集成系统中个体分类器的最优组合。受启发于匹配追踪算法的原理,将集成系统中个体分类器的输出看作为基字典中的基函数,同时将正确标记看作为优化的目标值。然后,通过最小化基函数的线性组合和目标值之间的残差寻找到个体分类器的最优加权向量。理论分析表明:在每次迭代中,该算法能够通过给予相似的个体分类器接近零值的系数来去除该个体,同时在初次迭代中能够选择性能较好的个体分类器,并赋予其较大权重。实验结果表明该章提出的贪婪优化选择集成算法的性能优于其他集成算法。2.针对差异性和准确率两个因素,提出了一种变换选择分类器集成算法。该算法分别从差异性和准确率两个角度出发有效地平衡了两个因素,同时避免了平衡两个因素产生的困难。首先,为了增强集成系统的差异性,对个体分类器进行投影变换,获得新的个体分类器;然后,为了保证变换后集成系统中个体的性能,设计了一种基于两种性能评判准则的选择策略;最后,结合被选择的变换个体分类器的输出。实验结果表明该算法能够通过变换和选择有效地平衡差异性和准确率,从而获得更好的集成分类性能。3.为了避免基于差异性和准确率构造集成算法的困难,提出了一种基于二次型最大化的加权分类器集成算法。从集成分类器的最终目的出发,该算法直接对集成误差进行分析,代替了分析差异性和准确率两个因素。通过最小化集成系统的误差,寻找到对应集成个体分类器的最优加权向量。在该算法中,基于两个约束条件构造了最小化集成误差的目标函数,并通过引入一个已知加权向量将最小化目标函数的问题转换为最大化二次型的问题。理论分析表明:二次型值越大,使用其对应的加权向量获得的集成误差比已知加权向量获得的集成误差更小。实验结果表明该算法获得的集成分类性能优于其他加权集成算法。4.基于加权分类器集成框架出发,提出一种基于线性变换的集成算法。受启发于线性变换的原理,加权分类器集成的过程被认为相当于个体分类器线性变换的过程。因此,将线性变换的思想引入集成学习中,采用线性变换算法来寻找集成个体的最优加权向量。由于线性变换方法和集成学习出发点不同,因此针对集成学习的最终目的,使用正确标记代替线性变换算法中的均值来构造一个表示集成个体的相关矩阵,并且基于该相关矩阵获得了一个优化目标函数,并通过最大化该目标函数获得最优加权向量。理论分析表明:该算法构造的目标函数相当于个体分类器的准确率的加权和,目标函数值越大,则整个集成系统的准确率加权和就越大。实验结果表明本章算法相比其他加权算法能获得更好的分类性能。5.为了改善集成系统的性能,提出一种基于0-1矩阵分解的加权分类器集成算法。该算法使用0-1矩阵来表示集成系统的个体分类器,并通过对0-1矩阵进行奇异值分解获得集成个体的加权向量。根据分析可得:0-1矩阵的最大奇异值对应的右奇异向量的平方作为该算法的最优加权向量。理论表明,通过对0-1矩阵进行奇异值分解,其获得的奇异值越大,则对应该奇异值的加权向量获得的集成分类误差就越小。实验结果表明该算法相比其他加权算法即简单又有效。6.为了增强集成系统的差异性,提出一种异构分类器集成算法。该算法采用旋转森林策略结合两种不同模型分类器。在该算法中,首先采用旋转森林对原始样本集进行划分变换,获得新的样本集;然后通过特定的比例选择分类精度高的分类器算法作为基本个体分类器;最后结合两种模型下的预测标记。实验结果表明:该算法相比同质模型提高了集成系统的分类准确率,同时有效地实现了精度和速度互补。
【作者】毛莎莎;
【导师】焦李成;
【作者基本信息】西安电子科技大学,电路与系统,2014,博士
【关键词】集成学习;多分类器系统;选择集成;匹配追踪;二次型;线性变换;

【参考文献】
[1]许西宁.基于超声导波的无缝线路钢轨应力在线监测技术应用基础研究[D].北京交通大学,2014.
[2]王静.不同地质背景生境下两种优势植物凋落叶分解研究[D].广西师范大学,野生动植物保护与利用,2013,硕士.
[3]杨东.基于互联网信息传输速度的中国城市节点结构研究[D].河北师范大学,人文地理学,2012,硕士.
[4]方线文.两类含氮芥基查尔酮类化合物的合成、抗肿瘤活性研究及查尔酮大环内酯的合成、表征[D].西北大学,有机化学,2013,硕士.
[5]姜珂.禽呼肠孤病毒诱导细胞自噬的机制及其与病毒复制的关系[D].扬州大学,预防兽医学,2012,硕士.
[6]刘滨.粗放——敏锐型认知风格与学业不良的相关研究[D].华东师范大学,发展与教育心理学,2004,硕士.
[7]付瑶.鄂尔多斯市东胜区小学英语教学现状分析及对策研究[D].内蒙古师范大学,小学教育(专业学位),2013,硕士.
[8]廖先勇.中山市N镇社工综合服务中心婚姻家庭服务的经验研究[D].中南民族大学,社会工作(专业学位),2013,硕士.
[9]田娣.我国孤儿作品使用制度的构建[D].湖南师范大学,民商法学,2014,硕士.
[10]毛云龙.基于第三方物流增值业务模式的仓单质押风险控制研究[D].北京交通大学,产业经济学,2013,硕士.
[11]潘海琴.移动环境中数据广播相关技术的研究[D].浙江大学,计算机应用技术,2004,硕士.
[12]吕玉彬.基于多传感器融合的机器人导航系统中的避障研究[D].济南大学,计算机应用技术,2012,硕士.
[13]赵歆媛.经济发展方式转变背景下国家审计的作用机制研究[D].天津财经大学,会计学,2012,硕士.
[14]王国龙.解放战争时期中国共产党在山东解放区的民众动员研究[D].山东师范大学,中共党史,2013,硕士.
[15]黄天生.A电厂人才流失的原因与对策研究[D].华南理工大学,高级管理人员工商管理(专业学位),2013,硕士.
[16]范文田.《石油地球物理勘探》1998年总被引频次及其在全国各类科技期刊中的位置[J].石油地球物理勘探,2000,02:146.
[17]谢晓忠.基于CTM的城市干道交叉口信号联动优化控制研究[D].重庆交通大学,交通运输规划与管理,2012,硕士.
[18]王洁,韩崇昭,李晓榕.异步多传感器数据融合[J].控制与决策,2001,06:877-881.
[19]冯毓琴.野生天蓝苜蓿坪用性状的研究[D].甘肃农业大学,草业科学,2003,硕士.
[20]刘玉杰.掺杂铌酸锶钡陶瓷的制备及性能[D].青岛大学,凝聚态物理,2013,硕士.
[21]王丽娟,张善春,刘慧,金雯,陈泽鑫,余运贤.国内外临床医学公共卫生教育模式[J].中国高等医学教育,2014,05:7-8.
[22]郑凌冰,孙国峰.常用螺栓紧固一致性的研究及应用[J].科技创新与应用,2013,26:44.
[23]谢丽花.文义解释的优先性及其限制[D].南京师范大学,法学理论,2012,硕士.
[24]翟玲玲.膳食诱导肥胖及肥胖抵抗大鼠瘦素水平和神经肽Y mRNA的表达研究[D].中国医科大学,儿少卫生与妇幼保健学,2004,硕士.
[25]吴增荣.基于DSP的高频实时信道模拟[D].大连海事大学,通信与信息系统,2004,硕士.
[26]李坤.杜仲叶绿原酸提取工艺研究及其指纹图谱建立[D].黑龙江八一农垦大学,临床兽医学,2014,硕士.
[27]廖月霞.半枝莲黄酮活性成分双向调节肿瘤免疫作用及机制[D].扬州大学,中西医结合临床,2014,博士.
[28]龚洪涛.幽门螺杆菌在冠心病发病中的作用及其机制探讨[D].青岛大学,心血管内科学,2004,硕士.
[29]王莹.老年住院患者患病行为特点及干预研究[D].第四军医大学,航空、航天与航海医学,2013,硕士.
[30]崔帆.总线低功耗编码算法研究及其物理设计[D].西安电子科技大学,集成电路系统设计,2012,硕士.
[31]张文松,郭广珍.企业网络与企业边界理论[J].中国工业经济,2005,12:78-84.
[32]李康.高速网络下的入侵检测系统的分析与设计[D].北京邮电大学,计算机科学与技术,2013,硕士.
[33]王新台.软件无线电中的解调算法研究与DSP实现[D].西安电子科技大学,通信与信息系统,2004,硕士.
[34]曹思琦.圆钢管活性粉末混凝土柱受压极限承载力的有限元分析[D].北京交通大学,2014.
[35]卓贤军,赵国泽.一种资源探测人工源电磁新技术[J].石油地球物理勘探,2004,S1:114-117+169.
[36]黄文强.支持向量机在航空运输量预测中的应用[J].计算机工程,2005,S1:253-255.
[37]代琳.跨文化交际中英汉敬语的礼貌原则及文化内涵对比研究[D].成都理工大学,外国语言学及应用语言学,2013,硕士.
[38]纪志成,朱嵘嘉,沈艳霞.一类不确定线性时滞系统的保性能研究[J].控制与决策,2005,08:943-946.
[39]万浩江,魏光辉,陈强,陈亚洲.雷电先导放电的三维数值模拟与应用[J].高电压技术,2013,02:430-436.
[40]周万波.我国地方义务教育均衡发展水平的统计分析[D].武汉科技大学,概率论与数理统计,2012,硕士.
[41]藏好晶.经下丘脑室旁核给予NF-κB抑制剂PDTC对高血压大鼠血压的影响及其机制的研究[D].山西医科大学,生理学,2013,硕士.
[42]吴康松.凝血因子ⅫC46T基因多态性和冠心病关系的初步研究[D].浙江大学,内科学,2004,硕士.
[43]裘芳.“人”,国家与主权[D].外交学院,国际关系,2004,硕士.
[44]王宇航.格尔木河流域地下水化学演化规律和水循环模式[D].长安大学,水文学及水资源,2014,硕士.
[45]胡北.马德罗政治思想及实践雏议[D].中国社会科学院研究生院,世界史,2003,硕士.
[46]张凤.慢性乙型肝炎病毒感染患者胞穿梭素4启动子区甲基化状态的研究[D].山东大学,内科学(专业学位),2013,硕士.
[47]栾文哲.某轿车车门综合性能的评价及优化设计[D].中北大学,车辆工程,2014,硕士.
[48]李佳.河北省城市流动人口管理与服务机制创新问题探析[D].河北师范大学,马克思主义基本原理,2014,硕士.
[49]卢抒怿.辽河流域重金属污染分析及风险评价[D].北京交通大学,2014.
[50]彭鹏.江苏湿地越冬野生水禽传播禽流感病毒的定量风险分析[D].南京农业大学,预防兽医学,2012,硕士.

相关推荐
更多