不确定性数据流频繁项集挖掘算法研究
【摘要】频繁项集挖掘是数据挖掘领域的一项重要任务。随着计算机技术的迅速发展,生活生产领域中很多实际应用能够持续、快速、实时地产生大量数据流。数据流的复杂性使得在其上进行频繁项集的挖掘颇具挑战性。此外,很多数据流中的数据往往是不确定的,通常以概率的形式来表示其存在性。传统的数据流频繁项集挖掘算法通常假定数据是确定存在的。不确定性的引入使得传统算法难以直接用于挖掘不确定性数据流上的频繁项集,而且针对数据确定存在的情况而设计的概要数据结构不再高效。因此,研究和设计针对不确定性数据流的高效概要数据结构和频繁项集挖掘算法变得日趋重要。本文对不确定性数据流环境下频繁项集挖掘问题进行了详细介绍,重点分析了目前该领域重要算法的优缺点,并且提出了一种基于滑动窗口模型的false-positive算法UFIM。算法通过引入最大可能误差来尽量缩小估计期望支持度同真实期望支持度之间的差距从而提高算法挖掘的准确性。此外,针对频繁项集挖掘算法难以预先设置合适的最小支持度阂值的问题,在UFIM算法的基础上,本文还提出了一种基于滑动窗口模型的Top-K频繁项集挖掘算法UFIMTopK。本文的主要工作包括:1、对不确定性数据的产生原因、表现形式以及处理模型进行了详细介绍,列举了目前针对不确定性数据流进行频繁项集挖掘以及Top-K频繁项集挖掘的重要算法,并且分析和讨论了这些算法的优缺点;2、针对不确定性数据流频繁项集挖掘算法SRUF-mine存在的挖掘准确性低的缺陷,提出了一种基于滑动窗口模型的false-positive算法UFIM,详细介绍了算法所用的概要数据结构以及算法主要思想,并且从运行时间、内存空间消耗和挖掘准确性三个方面对两个算法进行实验对比。实验结果表明,同SRUF-mine相比,UFIM算法能获得较高的挖掘准确率。3、针对最小支持度阈值难以预先合理设置的问题,结合UFIM算法,提出了一种基于滑动窗口模型的Top-K频繁项集挖掘算法UFIMTopK,介绍了算法使用的概要数据结构以及算法主要思想,并且对算法的性能进行实验分析。实验结果表明,UFIMTopK能在保证运行时间和内存开销合理的前提下,有效地挖掘出不确定性数据流中的Top-K频繁项集。
【作者】周开申;
【导师】刘慧婷;
【作者基本信息】安徽大学,计算机应用技术,2014,硕士
【关键词】数据挖掘;不确定性数据流;频繁项集;Top-K频繁项集;滑动窗口;
【参考文献】
[1]李伟霄.4145H钻铤钢硫化氢腐蚀行为及规律研究[D].内蒙古科技大学,材料学,2013,硕士.
[2]崔洁.《四库全书总目·子部·杂家类》研究[D].首都师范大学,历史文献学,2014,硕士.
[3]黄万兵.贵州省天麻主产区蜜环菌多样性研究及优良菌株筛选[D].西南大学,微生物学,2014,硕士.
[4]本报记者郁进东通讯员茆明.宁波破解“成长的烦恼”[N].经济日报,2014-12-28001.
[5]郑冬云,张倩倩,刘晓军,朱珊莹,曹汇敏,陈亚光.基于PVN-GO复合膜的亚硝酸盐电化学传感器[J].传感器与微系统,2014,12:60-63.
[6]程伟.Si(111)衬底上AIN材料的生长与研究[D].南京大学,电子与通信工程(专业学位),2013,硕士.
[7]陈琼.长三角两翼城市群紧凑度与发育程度的耦合协调关系研究[D].宁波大学,区域经济学,2013,硕士.
[8]钟卫.静电纺丝导电纳米纤维及聚合物太阳能电池溶液加工研究[D].南昌大学,2014.
[9]赵煦.基于短脉冲激光的碳纤维材料加工研究[D].哈尔滨工业大学,物理电子学,2014,硕士.
[10]黄婷婷.我国银行代理保险法律制度研究[D].江西财经大学,经济法,2013,硕士.
[11]肖陟.高中作文教学对传统文化的继承[D].河北师范大学,学科教学,2014,硕士.
[12]杜政委.商务社交网站的服务与盈利模式研究[D].吉林大学,管理科学与工程,2014,硕士.
[13]侯建,帅仁俊,侯文.基于云计算的海量数据存储模型[J].通信技术,2011,05:163-165.
[14]李粲.东北亚经济合作的基础与条件[D].外交学院,国际关系,2014,硕士.
[15]项飞.外贸企业资源管理系统的设计与实现[D].华中科技大学,软件工程,2013,硕士.
[16]梁斌宇.外商直接投资对我国城市化的影响研究[D].河北大学,国民经济学,2014,硕士.
[17]董晓岩.基于可靠性品质的快运产品设计问题的研究[D].北京交通大学,2011.
[18]刘芳源.保险法中危险增加制度研究[D].大连海事大学,法律,2014,硕士.
[19]贾茂辉.中国肉牛主产区生产布局变动研究[D].吉林农业大学,农业经济管理,2012,硕士.
[20]尚会来,彭永臻,张静蓉,王淑莹.温度对短程硝化反硝化的影响[J].环境科学学报,2009,03:516-520.
[21]潘雪莲.辽宁太子河河岸带草本植物特征及多样性[D].北京林业大学,生态学,2013,硕士.
[22]柳静.调动学生数学课堂积极性的两种实践方法[D].河北师范大学,学科教学,2014,硕士.
[23]李甜.纸材DIY仿真装饰创意研究[D].湖北工业大学,设计艺术学,2013,硕士.
[24]李冉.当前我国慈善事业发展的困境及对策研究[D].苏州大学,行政管理,2012,硕士.
[25]韩建达,谈大龙,蒋新松.直接驱动机器人关节加速度反馈解耦控制[J].自动化学报,2000,03:289-295.
[26]李瑶.坤元汤对超促排小鼠胚胎着床过程中pAKt的表达及NOS含量的影响[D].湖南中医药大学,中医妇科学,2013,硕士.
[27]王强.贵州省自然灾害防治法律问题研究[D].贵州民族大学,经济法学,2013,硕士.
[28]周捷.季铵类苯并菲啶生物碱及其衍生物对色氨酸脱羧酶抑制活性的研究[D].湖南中医药大学,药物化学,2014,硕士.
[29]胡敏.智能照明系统的设计与实现[D].西安电子科技大学,计算机技术,2010,硕士.
[30]李有坤.尖晶石型锰酸锂的凝胶燃烧法合成及改性[D].成都理工大学,材料工程,2013,硕士.
[31]黄党志.基于Ising模型的QR码加密算法的设计与实现[D].重庆大学,计算机应用技术,2014,硕士.
[32]马琳娇.关联理论下的谎言研究[D].渤海大学,语言学及应用语言学,2013,硕士.
[33]仇昱.基于ASP.NET的精品课程网站的设计与实现[D].南昌大学,计算机技术(专业学位),2012,硕士.
[34]刘福东.我国公共档案馆社会服务研究[D].山东师范大学,公共管理(专业学位),2013,硕士.
[35]王霖.辽东半岛普通中学体育教学现状与对策的研究[D].辽宁师范大学,体育教育训练学,2011,硕士.
[36]李晓.遵循现象:作为生活方式的皮罗主义[D].山东大学,科学技术哲学,2013,硕士.
[37]安光辉.天津A公司人力资源规划研究[D].西南交通大学,工商管理(专业学位),2014,硕士.
[38]肖迎群1,何怡刚2,刘继乾1,张广辉1,朱珠1.基于主元和判别集成分析的模拟电路故障诊断[J].控制与决策.
[39]康春爽.中国货币政策区域效应研究[D].辽宁大学,金融学,2012,硕士.
[40]刘红军.论新军事变革中的人才建设[D].吉林大学,行政管理,2004,硕士.
[41]苏柱程.切开复位、Salter骨盆截骨术治疗儿童发育性髋关节脱位的临床研究[D].广西医科大学,外科学(专业学位),2013,硕士.
[42]赵娟.基于系统动力学的宏观调控对房地产价格影响研究[D].北京交通大学,2014.
[43]江奇.德国职业教育校企合作机制研究[D].陕西师范大学,教育学原理,2014,博士.
[44]王曦.天津海上搜救的经济投入与社会效益的对比与分析[D].大连海事大学,交通运输工程,2014,硕士.
[45]唐媛.FOXO1基因多态性、环境因素及其交互作用与2型糖尿病关系的研究[D].吉林大学,流行病与卫生统计学,2013,硕士.
[46]徐力.科技型中小企业信贷支持问题研究[D].南京农业大学,工商管理,2012,硕士.
[47]霍庆龙.胶西北中生代陆内岩浆核杂岩拆离—滑脱带成矿与深部预测[D].中国地质大学(北京),矿物学、岩石学、矿床学,2014,硕士.
[48]何杰,郭睿倩,潘庆.基金迎来变革,抓住转型机遇—国家自然科学基金2010年半导体科学领域申请项目概况分析[J].半导体学报,2011,01:123-134.
[49]柴旭峥,刘世宇,姜齐荣,谢小荣,梁曦东.紧凑型线路参数特性对次同步谐振问题的影响[J].电力系统自动化,2007,10:11-15.
[50]于飞.日本明治时期多元政治结构的重新确立及其对政党政治的影响[D].辽宁大学,国际关系,2012,硕士.

相关推荐
- 基于炭黑/硅橡胶柔性压力传感器特性研究
- 10月31日
- 面向医学图像传输具有不等保护的PD-LDPC码系统
- 01月06日
- 综合智能训练影响幼儿音乐听觉能力的实验研究
- 09月26日
- 从图像符号到图式语言
- 06月04日