基于粗糙集理论的属性约简与决策树分类算法研究

基于粗糙集理论的属性约简与决策树分类算法研究

作者:师大云端图书馆 时间:2016-12-06 分类:参考文献 喜欢:4444
师大云端图书馆

【摘要】现如今,我们正身处在一个“大数据”的时代,每天产生的大量数据之中隐藏着各种各样有价值的信息。如何从海量数据中高效地挖掘出有用的信息,是数据挖掘技术研究的热点问题。决策树算法因其简单高效在数据挖掘的分类领域被广泛采用。由于冗余和不一致数据的存在,对决策树算法在分类效率和分类准确率两方面产生了一定程度的影响,并且普遍采用的单变量决策树算法生成的决策树规模较大。因此,本文将粗糙集理论中的属性约简与决策树算法相结合,提出了改进算法,具有较强的理论研究意义和实际应用价值。本文的主要研究内容分为以下几个部分:(1)原有的属性约简算法通常是在整个数据集上进行的,且对于不相容数据采用的是直接删除的方法。考虑到这两方面的缺陷,本文提出了改进的简化决策表算法。该算法既删除了冗余数据又保留了不相容数据。通过UCI数据集的对比实验表明,该算法能有效减少原始数据集对象数目,为后续的属性约简算法和决策树算法提高效率。(2)针对基于差别矩阵的求核属性算法和代数定义下的求核属性算法的缺陷,本文提出了基于信息熵理论的求核属性算法。通过该算法求得的核属性表明,对于相容决策表,代数定义下的约简和基于信息熵的约简是一致的。但对于不相容决策表,代数约简只能保证相容部分的U/IND(P)不发生改变,而基于信息熵的约简能使得对于整个数据集的U/IND(P)不发生改变,即代数定义下求得的核属性是信息熵下的一部分。在求得的核属性基础上,本文提出了基于属性重要度的完备属性约简算法。(3)针对单变量决策树算法生成的决策树规模大的缺点,本文提出了多变量决策树算法,且通过确定性程度的引入进一步简化决策树。通过UCI数据集表明该算法在准确度和树规模两方面都优于其他4种算法。最后将本文的算法以模块化的形式嵌入属性约简与决策树生成系统,实现对数据集的约简和分类。
【作者】石凯;
【导师】刘智;傅英亮;
【作者基本信息】大连海事大学,计算机技术,2014,硕士
【关键词】粗糙集;简化决策表;不相容数据;属性约简;多变量决策树;

【参考文献】
[1]谭钊.我国对外贸易对地区收入差距的影响[D].首都经济贸易大学,国际贸易学,2013,硕士.
[2]冯静芳.WX公司汽车零部件生产物流优化问题研究[D].大连海事大学,交通运输规划与管理,2012,硕士.
[3]吴莉英.席呋碱-Zn(Ⅱ)-Ln(Ⅲ)与不对称席呋碱-Zn(Ⅱ)催化剂及其催化氧化环己烯与马来酸酐开环共聚的研究[D].西北大学,应用化学,2014,硕士.
[4]刘华,魏发孔.舞台机械制造企业信息化建设初探[J].演艺设备与科技.2004(05)
[5]于沉香.内陆硫酸盐渍土非饱和性质试验研究[D].兰州大学,岩土工程,2013,硕士.
[6]李小康.高中语文阅读教学中的德育渗透艺术[D].内蒙古师范大学,学科教学(专业学位),2012,硕士.
[7]郑春宝.以H_3PO_4为磷源的锂离子电池正极材料磷酸铁锂的制备及性能研究[D].河北师范大学,物理化学,2014,硕士.
[8]曹恒恩.桥臂梗死16例临床分析[D].大连医科大学,神经病学,2012,硕士.
[9]王思强.中长期能源预测预警体系研究与应用[D].北京交通大学,2009.
[10]姚鹏.行人过街设施设置的关键问题研究[D].西南交通大学,交通工程,2014,硕士.
[11]谢瑞娟.城市轨道交通对住宅价格的影响研究[D].吉林大学,交通运输规划与管理,2014,硕士.
[12]刘长虎.我国股票价格指数功能研究[D].广西大学,工商管理,2004,硕士.
[13]冯勇.慢性肢体淋巴水肿模型的比较研究[D].山西医科大学,骨科,2003,硕士.
[14]杨虎.界面微纳组装的机理研究[D].浙江理工大学,应用化学,2014,硕士.
[15]葛喜平.高校德育过程实效性问题研究[D].东北师范大学,马克思主义理论与思想政治教育,2003,硕士.
[16]邱婷.BY004-1型轴向柱塞泵缸体变形分析及结构优化[D].合肥工业大学,机械制造及其自动化,2013,硕士.
[17]林壮,段广仁,宋申民.刚体航天器姿态跟踪的高阶滑模控制器设计[J].控制与决策,2009,11:1753-1756.
[18]肖炜.盾叶薯蓣有性繁殖与无性繁殖方式的比较研究[D].湖南农业大学,作物遗传育种,2004,硕士.
[19]赵漓鸥.雷达搜索过程的多目标跟踪技术[D].电子科技大学,软件工程(专业学位),2012,硕士.
[20]周平.基于纹理特征的颅脑CT图像病变自动化检出算法研究[D].中国科学技术大学,2007.
[21]曹冬辉.汽轮发电机厂房若干振动问题研究[D].浙江大学,结构工程,2013,硕士.
[22]李伟杰.基于UWB信号室内定位系统性能优化研究[D].哈尔滨工业大学,信息与通信工程,2013,硕士.
[23]徐建民,邵艳华,王静红,刘进坡.决策树分类方法在软构件检索中的辅助决策支持研究[J].计算机应用,2005,05:982-984.
[24]刘言冰.我国公立高校筹款机制研究[D].沈阳师范大学,教育经济与管理,2013,硕士.
[25]王爱桃.以就业为导向的我国聋校中等职业教育课程改革研究[D].沈阳师范大学,特殊教育学,2013,硕士.
[26]李金红.CCL-18在慢性阻塞性肺疾病患者血清中的表达水平及意义[D].郑州大学,内科学,2013,硕士.
[27]曹志刚.我国证券公司投资者回访自评研究[D].首都经济贸易大学,工商管理(专业学位),2014,硕士.
[28]贾宏雨.基于无线网络的纺织品检测数据采集与处理系统[D].东华大学,控制工程(专业学位),2014,硕士.
[29]朱震宇.基于边界元法和分散模糊推理算法的传热学几何反问题[D].重庆大学,动力工程及工程热物理,2014,硕士.
[30]鄢丹.基于三层结构的医院信息系统的设计与实现[D].武汉理工大学,2003.
[31]蔺俊杰.瞬变电磁信号采集与处理技术研究[D].哈尔滨工业大学,仪器科学与技术,2013,硕士.
[32]李光玉.安钢15吨氧气顶吹转炉实现微机静态控制[J].冶金自动化,1993,01:58.
[33]罗威.模板合成具有高温稳定性的介孔氧化铈工艺条件研究[D].成都理工大学,材料物理与化学,2013,硕士.
[34]钟晨宇.生物膜—污泥复合厌氧反应器同时产甲烷反硝化工艺与机理研究[D].北京林业大学,环境科学,2013,硕士.
[35]王岚.长春市住房限购政策评价研究[D].长春工业大学,国际贸易学,2013,硕士.
[36]葛郁.成大方圆连锁药店顾客满意度研究[D].大连理工大学,企业管理,2003,硕士.
[37]贺蕾.转型背景下农发行QY分行中小企业信贷风险管理研究[D].兰州大学,工商管理(专业学位),2013,硕士.
[38]丁逸琛.不干涉内政原则在当代中国外交中的实践[D].复旦大学,国际关系,2012,硕士.
[39]张恒.微波光子学中微波与超宽带信号光学产生技术研究[D].西安电子科技大学,光通信,2012,硕士.
[40]赵书岗.水杨酸对梨(Pyrus L.)授粉受精及酚类物质代谢影响的研究[D].河北农业大学,果树学,2004,硕士.
[41]邵奇.基于敏感驾驶的多速混合元胞自动机交通流模型的研究[D].兰州理工大学,计算机应用技术,2013,硕士.
[42]刘柿良,马明东,潘远智,魏刘利,何成相,杨开茂.不同光强对两种桤木幼苗光合特性和抗氧化系统的影响[J].植物生态学报,2012,10:1062-1074.
[43]蔡瑶.发达地区农村信用社产权改革研究[D].浙江大学,农业经济管理,2003,硕士.
[44]雷文强.浅谈语境对翻译过程的影响[D].上海外国语大学,法语语言文学,2013,硕士.
[45]王艳荣,刘业政.农业产业集聚形成机制的结构验证[J].中国农村经济,2011,10:77-85.
[46]吴增祥.气象档案价值鉴定的依据和方法[J].档案学研究.1999(04)
[47]潘智俊,张焰,赵腾.计及联络线簇潮流分布非均匀性的多目标输电网规划[J].电力系统自动化,2013,23:56-62.
[48]杨江威.酵母发酵葡萄汁过程中几种有机酸的消长[D].大连工业大学,发酵工程,2012,硕士.
[49]郭崇慧,陆玉昌.预测型数据挖掘中的优化方法[J].工程数学学报,2005,01:25-29.
[50]柳靖.新时期以来小说中情爱观念的演变[D].西北师范大学,中国现当代文学,2013,硕士.

相关推荐
更多