基于AFOPT-tree的最大频繁项集挖掘

基于AFOPT-tree的最大频繁项集挖掘

作者:师大云端图书馆 时间:2023-02-10 分类:硕士论文 喜欢:1104
师大云端图书馆

【摘要】随着信息产业尤其是互联网行业的高速发展,使得人们获取和存储数据的能力不断提高,数据库中存储的数据以指数形式不断增长。但在这些海量数据中,真正对于人们有决策价值的知识却相对匮乏,关联规则挖掘正是用于揭示数据集中不同的项或者属性之间的关联性,找出有价值的多个属性之间关联关系。而最大频繁项集中隐含了所有频繁项集,占用的内存空间较小,并且在挖掘的过程中只用挖掘最大频繁项集,可以有效的减少递归次数和内存应用,且有些数据挖掘应用中也只需要获得最大频繁项集,因而最大频繁项集挖掘的研究有着重要的意义。在如今面对大规模稠密数据项集时,超集检测逐渐成为最大频繁项集挖掘算法运行中耗时最多的步骤,是算法效率提升的一个瓶颈;并且现有的最大频繁项集挖掘算法大都采用基于FP-tree的模式对于空间搜索树进行遍历,在自顶向下的遍历策略中效率并不高。因此本文在查阅了大量国内外相关论文和文献的基础上,针对这两方面的问题,本文改进了基于投影的超集检测算法,提出了基于AFOPT-tree的最大频繁项集算法A-MFI,并在此基础上实现了A-MFI算法在Hadoop平台上的分布式实现。论文的主要工作如下:(1)首先对于数据挖掘尤其是关联规则挖掘和最大频繁项集挖掘的理论、特点及其主流算法进行了介绍,并对云计算和Hadoop云平台的相关知识进行了介绍。(2)针对现有最大频繁项集挖掘算法采用的FP-tree在自顶向下遍历策略中效率不高的问题,本文采用AFOPT-tree模型来构建空间搜索树;针对提升超集检测方法效率的问题,本文提出优化的基于投影的超集检测方法,采用AFOPT-tree模型对传统的MFI-tree进行改造,将基于投影超集检测方法对于MFI-tree自底向上的遍历模式改变为自顶向下的遍历模式,并在MFI-tree中加入一条相同数据项集之间的链表域,提升前瞻剪枝的效率。在这些改进的基础上,提出了基于AFOPT-tree的最大频繁项集挖掘算法A-MFI,并采用不同的数据项集对算法进行实验,验证了算法对比同类算法在超集检测优化和总体运行效率上的优越性。(3)针对面对如今大规模数据集,单机最大频繁项集挖掘算法的运行效率提升有限的问题,本文在对云计算和Hadoop平台的相关知识深入学习的基础上,对A-MFI算法进行了分布式改造,实现了对最大频繁项集挖掘的分布式挖掘。经实验验证,分布式的最大频繁项集挖掘方法相比单机在面对大规模稠密数据项集时运行效率有了明显的提升。(4)最后,对全文内容进行总结,并指出文中现有研究内容的不足,为以后的研究指明方向。
【作者】王浩;
【导师】周爱武;
【作者基本信息】安徽大学,计算机软件与理论,2014,硕士
【关键词】最大频繁项集;超集检测;最大频繁项集投影;分布式挖掘;

【参考文献】
[1]张巍.组织公正氛围对制度冲突关系的影响研究[D].哈尔滨工业大学,技术经济及管理,2013,硕士.
[2]曹远乐.基于三苯胺的聚集诱导发光有机材料的设计、合成及性质研究[D].安徽大学,应用化学,2014,硕士.
[3]杜湘瑜.基于综合集成的虚拟样机测试与评估理论和方法研究[D].国防科学技术大学,2005.
[4]林强.消费者冲动性购买过程机制的研究[D].南京农业大学,企业管理,2011,硕士.
[5]常畅.激光雷达散射截面测量的一种补偿方法[D].西安电子科技大学,光学工程,2012,硕士.
[6]韩玉乾.伊恩·麦克尤恩小说《星期六》中的凝视、反抗和移情[D].华中师范大学,英语语言文学,2013,硕士.
[7]孙凯.嘌呤类化合物及代谢产物的电化学行为及应用研究[D].淮北师范大学,分析化学,2014,硕士.
[8]邹媛媛,邹涛,李少远.混杂系统的预测控制[J].控制与决策,2007,04:361-365+372.
[9]柴新.367例早期乳腺癌保乳治疗的中长期预后回顾性分析[D].吉林大学,临床医学,2013,硕士.
[10]刁元波.复杂网络理论和细胞自动机在生物信息学中的应用研究[D].四川大学,2007.
[11]刘艳.卡维地洛联合特布他林对心肌梗死大鼠心功能的影响及其作用机制[D].山西医科大学,内科学(专业学位),2013,硕士.
[12]李继展.电磁场对Al-1%Si铝合金凝固控制[D].大连理工大学,材料加工工程,2013,硕士.
[13]史佳尼.巴托克钢琴音乐现象研究[D].云南艺术学院,音乐文化学,2014,硕士.
[14]张景龙.IP分布式呼叫中心的研究与设计[D].南京邮电大学,电子与通信工程(专业学位),2012,硕士.
[15]王培磊.一种基于蚁群算法的异构多核周期多帧任务调度算法研究[D].湖南大学,电子与通信工程,2012,硕士.
[16]冯炜.HLA-DR基因与广西地区壮族、汉族IgA肾病相关性的研究[D].广西医科大学,肾脏病学,2004,硕士.
[17]伍明.高校舆情危机管理研究[D].中南民族大学,公共管理(专业学位),2013,硕士.
[18]丁昊.基于多信号流图的系统测试性建模分析及软件设计[D].哈尔滨工业大学,电力电子与电力传动,2013,硕士.
[19]郭鹏越.注释呈现方式对中国大学生在英语阅读中的词汇附带习得的影响[D].浙江大学,外国语言学及应用语言学,2014,硕士.
[20]程军勇.厚朴立体栽培模式及技术研究[D].华中农业大学,园林植物与观赏园艺,2008,硕士.
[21]庞婧.恶性骨肿瘤髓外浸润[D].青岛大学,影像医学与核医学,2013,硕士.
[22]樊夫.行政强制中的执行罚研究[D].中共江苏省委党校,宪法学与行政法学,2013,硕士.
[23]章津铭.基于毒(效)组分“体外沉积、体内缓释”环节的附子—甘草配伍减毒作用机制研究[D].成都中医药大学,药剂学,2012,硕士.
[24]王俊龙.CASK和PTEN基因在非小细胞肺癌中的表达研究[D].广西医科大学,心胸外科,2013,硕士.
[25]张佩芳.粒状脱硫剂脱硫性能及脱硫装置的研究[D].西安建筑科技大学,环境工程,2004,硕士.
[26]马钰婷.功能主义指导下的互联网行业观点新闻汉英翻译研究[D].首都师范大学,翻译,2013,硕士.
[27]张晓东.创意与道德——设计伦理研究[J].中国包装工业,2014,08:91+93.
[28]王俊生,吴林平,王振曦,张少波.高压直流控制保护系统IEC61850建模[J].电力系统自动化,2009,01:41-44.
[29]刘大伟.贪污罪之定罪量刑问题研究[D].中国政法大学,法律,2004,硕士.
[30]覃娟安.广州市中等职业教育发展策略研究[D].兰州大学,公共管理(专业学位),2014,硕士.
[31]唐晓姝.DSPE-LC-MS/MS法测定动物源食品中雌激素及US-Fenton法降解水中己烯雌酚的研究[D].安徽农业大学,2013.
[32]罗芳.深圳市轨道交通三期6号线项目投融资模式分析[D].西南交通大学,工商管理(专业学位),2013,硕士.
[33]高军虎.展开天线结构动力学和振动控制分析[D].浙江大学,结构工程,2012,硕士.
[34]孙建军.关于被害人同意理论的研究[D].中国社会科学院研究生院,法律,2014,硕士.
[35]郭峰.植物乳杆菌制粉及其软胶囊产品的开发[D].黑龙江八一农垦大学,食品工程,2014,硕士.
[36]郭军.基于角色的访问控制分级授权管理的研究[D].西安电子科技大学,通信与信息系统,2012,硕士.
[37]邱盼.城市公共交通枢纽与建筑综合体一体化设计研究[D].西南交通大学,建筑设计及其理论,2014,硕士.
[38]张自巧.内源融资能力、公司治理质量与并购绩效[J].财经问题研究,2014,06:51-56.
[39]金哲熙.韩国跆拳道段位制和中国武术段位制对比研究[D].湖北大学,体育教育训练学,2011,硕士.
[40]王运玲.集装箱码头运营商在我国投资港口的区位选择研究[D].大连海事大学,技术经济及管理,2013,硕士.
[41]李亮,苏宏新,桑卫国.模拟夏季干旱对东灵山森林植被动态的影响[J].植物生态学报,2011,02:147-158.
[42]陈良高.2006年钢铁行业自动化国际研讨会在上海举行[J].冶金自动化,2006,01:24.
[43]聂兆亮.科尔沁沙地近十年土地利用变化研究[D].内蒙古师范大学,自然地理学,2012,硕士.
[44]陈余土.湿法脱硫添加剂促进石灰石溶解以及强化SO_2吸收的实验研究[D].浙江大学,工程热物理,2013,硕士.
[45]王飞.随机严格反馈非线性系统的自适应神经网络控制[D].扬州大学,控制理论与控制工程,2012,硕士.
[46]刘华.人肉搜索侵犯隐私权的民法规制[D].安徽大学,法律,2014,硕士.
[47]张玮.河南省区域竞争力综合评价研究[D].郑州大学,统计学,2013,硕士.
[48]张兆云,刘宏君.数字化变电站光纤差动保护同步新方法[J].电力系统自动化,2010,22:90-92.
[49]张明逸.PKC对糖尿病肾病患者血小板的影响及临床意义[D].苏州大学,肾内科,2013,硕士.
[50]明海,刘阳,康振辉.电化学方法大量合成高纯碳点及其光催化的应用[A].中国化学会.中国化学会第28届学术年会第12分会场摘要集[C].中国化学会:,2012:1.

相关推荐
更多