随机森林改进的若干研究
【摘要】在机器学习领域,随机森林是一种重要和常见的数据挖掘方法。随机森林不仅具有很高的分类性能,而且具有需要调整的参数较少、运算快速高效、不用担心过拟合以及较强的容忍噪声能力等特点。随机性能良好的性能使得其在智能信息处理、生物信息学、金融学、故障诊断、图像识别、工业自动化等领域得到了广泛的应用并取得巨大的成功,吸引了人们的广泛关注。虽然许多学者对随机森林进行了广泛的研究,并且取得了许多显著的成果,但是随机森林仍然存在一些局限和不足,拥有一些可改进的空间。本文首先对随机森林样本相似度的计算方式进行改进,提出了样本相似度计算的改进算法。与原始方法相比,改进方法增加了叶子节点路径距离的度量,更精确地度量了样本间的相似性。在基于样本相似度的分类和异常点检测应用中,通过在UCI数据集上的实验对比,改进方法均取得了比原来方法更好的效果,表明了改进方法的有效性。本文还分析了分类器的分类间隔(margin)与泛化能力的关系,提出了基于分类间隔加权的随机森林修剪算法(MB-WRF)。在每一次的剪枝中,首先计算每一棵树对分类间隔(margin)的重要性,删除重要性最小的树后,重新计算剩余每一棵树对分类间隔的重要性,以重要性对每一棵树赋予不同的权重,并与传统的随机森林做对比分析。基因数据和UCI数据上的对比实验表明MB-WRF取得了比RF更好的分类效果和更小的森林规模。
【作者】李贞贵;
【导师】罗林开;
【作者基本信息】厦门大学,模式识别与智能系统,2013,硕士
【关键词】随机森林;相似度矩阵;分类间隔;加权;
【参考文献】
[1]陈林.十四冶建设集团发展战略研究[D].云南财经大学,工商管理(专业学位),2014,硕士.
[2]罗丝.唐五代涉海小说研究[D].湖南师范大学,中国古代文学,2014,硕士.
[3]乔治.绘画“形象”新解[D].首都师范大学,美术学,2014,硕士.
[4]陈玉红.水轮发电机转子通风冷却系统结构改进的研究[D].哈尔滨理工大学,电机与电器,2012,硕士.
[5]刘甦.对“生产、安全、危险”的哲学思考[J].辽宁师专学报(社会科学版).2006(06)
[6]陈月娥.榆林风沙区坡面径流冲刷侵蚀水沙变化规律试验研究[D].华北水利水电学院,水土保持与荒漠化防治,2012,硕士.
[7]汤佩佩.益母草总生物碱与黄芪总皂苷配比组分对前列腺增生动物模型的干预研究[D].河南中医学院,中药学,2013,硕士.
[8]庄浩.基于CRIB光子回声技术存储时间比特及相关量[D].温州大学,凝聚态物理,2012,硕士.
[9]闫欢.保利剧院院线管理模式初探[D].中国戏曲学院,艺术学,2014,硕士.
[10]张誉,邢伟,阎子峰.二维的石墨烯/聚吡咯复合材料制备及电化学性能研究[A].中国化工学会化工新材料委员会.全国石墨烯材料技术发展与应用交流研讨会论文集[C].中国化工学会化工新材料委员会:,2015:2.
[11]王俊芳.Graves’病患者IL-2、IL-6的变化及硒对其影响[D].山西医科大学,内科学,2013,硕士.
[12]陈选.隔药饼灸对功能性胃肠病大鼠HPA轴的调节机制[D].湖南中医药大学,针灸推拿学,2014,硕士.
[13]曲凡.清宫生化饮防治药物流产后恶露不绝的临床研究[D].黑龙江中医药大学,中医妇科学,2004,硕士.
[14]苗玲冉.同伴冲突对中学生发展的积极作用[D].首都师范大学,课程与教学论,2014,硕士.
[15]郑源遥.平均速度与均方速度[J].石油地球物理勘探,1973,06:114-117.
[16]莫一平,褚有群,钱晓峰,马淳安.低碱比H_2O_2的电化学合成[J].浙江工业大学学报,2012,04:374-378.
[17]蒋玉婷.民间资本参与风险投资对策分析[D].东北财经大学,国民经济学,2003,硕士.
[18]李会娜.高中生物教学中生态道德教育素材的挖掘与施教[D].河北师范大学,学科教学,2014,硕士.
[19]叶子飘,于强.植物气孔导度的机理模型[J].植物生态学报,2009,04:772-782.
[20]熊岭.基于CVM的武汉市公共开放空间非使用价值评估研究[D].华中科技大学,土地资源管理,2013,硕士.
[21]姜书凯.浙江省农药工业协会组成第九届理事会[J].今日农药,2014,01:40.
[22]王兴华.城市重点高中英语写作连贯性的现状研究[D].华中师范大学,学科教学,2013,硕士.
[23]魏梦.论一般人格权中的人格尊严[D].苏州大学,法律(专业学位),2014,硕士.
[24]王天琪.从需要理论解析流动儿童城市适应问题[D].首都经济贸易大学,社会工作(专业学位),2013,硕士.
[25]刘航.对外汉语教材生词英文注释存在的问题及由此导致的习得偏误[D].吉林大学,汉语国际教育(专业学位),2013,硕士.
[26]张海珊.战略并购双方的匹配性研究[D].北京交通大学,2007.
[27]吴可龙.无线传感器网络数据通信可靠性研究[D].杭州电子科技大学,计算机系统结构,2014,硕士.
[28]李苗.大跨度悬索桥的温度影响分析[D].中南大学,土木工程,2013,博士.
[29]张沂.论姜文电影的反讽艺术[D].上海社会科学院,中国现当代文学,2012,硕士.
[30]吴厚源.基于DM3730的疲劳驾驶预警系统[D].厦门大学,电子与通信工程,2014,硕士.
[31]张驰.油菜集累硒的规律及其含硒组分的初步分离[D].湖南农业大学,生化与分子生物学,2004,硕士.
[32]马飞,蒋建国,李娟.社交网络隐私保护技术最新研究进展[J].计算机应用研究,2015,:.
[33]刘少奎.水稻白条纹新基因st9(t)的初步定位[D].南京农业大学,作物遗传育种,2012,硕士.
[34]包涵.高速铁路桥梁桩基础抗震性能研究[D].北京交通大学,2014.
[35]钱勇.异构数据交换平台的研究与实现[D].西南交通大学,通信与信息系统,2012,硕士.
[36]杨少才.铝电解槽砌块回收过程中水的处理[D].东北大学,应用化学,2010,硕士.
[37]游细斌.长株潭城市群城市建设用地规模与结构优化研究[D].湖南师范大学,自然地理学,2004,硕士.
[38]赵强松,陈宝林,叶永强,杨峰,吴丹.基于五级电荷泵能量收集的电流互感器取能电源[J].电力系统自动化,2014,15:118-123.
[39]汪卫东.营销水平的竞争[J].汽车与配件.2005(13)
[40]张晔,狄庆贵,裴燕.承钢质量信息管理系统的改进及优化[J].冶金自动化,2013,06:71-73.
[41]钱少华.数据仓库及数据挖掘技术的应用的研究[D].江南大学,2004.
[42]伍莉文.《教学改革:高等教育社交媒体策略》(第16-17章)翻译报告[D].四川外国语大学,翻译(专业学位),2014,硕士.
[43]杨立永,张云龙,陈智刚,李正熙.基于参数辨识的PMSM电流环在线自适应控制方法[J].电工技术学报,2012,03:86-91.
[44]何媛.寒区公路涵洞加固填充材料试验研究[D].长安大学,交通运输工程(专业学位),2014,硕士.
[45]龙禹.ZTWES企业工程项目管理标准化实践研究[D].西南交通大学,工商管理(专业学位),2013,硕士.
[46]祝培.恶劣天气环境下图像的清晰化[D].西安理工大学,模式识别与智能系统,2004,硕士.
[47]李晟.矮塔斜拉桥主梁节段实体有限元分析[D].西南交通大学,桥梁与隧道工程,2013,硕士.
[48]姜华.现代思潮与新闻文化[D].复旦大学,新闻学,2013,博士.
[49]阎楚良,韩丽秋,叶舸.ASP技术在农副产品加工品质数据库设计中的应用[J].农业机械学报.2002(06)
[50]许晓菲,牟涛,贾琳,江长明,高洵,刘纯.大规模风电汇集系统静态电压稳定实用判据与控制[J].电力系统自动化,2014,09:15-19+33.