密度影响因子相关的网格聚类算法研究

密度影响因子相关的网格聚类算法研究

作者:师大云端图书馆 时间:2022-08-23 分类:硕士论文 喜欢:1033
师大云端图书馆

【摘要】数据挖掘是适应信息社会从海量数据中提取有价值信息的需要而产生的。聚类分析作为数据挖掘学科研究和应用的重要分支之一,它能从未被标记的数据中自动识别出具有一定相似性的数据组成的多个类。在各种聚类算法中,基于密度的算法能识别不同密度,任意形状的聚簇。但是密度聚类往往因为要设置全局参数,且参数不止一个,当遇到簇的密度变化差异很大时,聚类会遇到困难。而基于网格的聚类算法用网格代替对数据点的计算,提高了聚类处理速度,但是以牺牲精度为条件,网格划分的“粒度”大小影响着聚类的质量,粒度越小,聚类越精确,但是花费的代价越高;而粒度越大,聚类质量越粗糙。针对密度聚类和网格聚类的各自不足,本文考虑相邻网格的密度影响因子,提出了改进的聚类算法:基于网格密度影响因子的聚类算法(IFGDC)。算法的主要工作有:(1)通过划分数据空间将数据对象的聚类映射为网格单元的聚类,有效地降低了聚类操作的复杂度;(2)定义了基于网格相邻关系的一些概念,避免了传统的基于密度的算法中需要确定半径的不便;(3)提出了网格密度影响因子的概念,以便从高密度网格中确定核心网格;(4)并给出一种对簇边缘的边界点进行提取的方法,进一步提高了聚类准确性。最后,通过实验测试IFGDC聚类算法,验证了该算法的正确性和有效性。K-means聚类算法简单,成为聚类的经典算法。但是K-means聚类对参数敏感,依赖用户的经验选择聚类数目和初始聚类中心,易受噪声点干扰,而且算法结果依赖数据的输入次序。针对这些不足,本文提出了基于IFGDC的K-means改进算法。算法首先利用网格聚类的速度优势,对数据进行预处理,找到数据集的大致结构与分布,得到聚簇的类数k和代表各自簇的k个初始质心,然后利用这两个参数对数据集进行K-means聚类。实验结果表明,相比单纯地直接使用K均值聚类,改进的算法能提高参数k和初始质心选取的质量,减少对“噪音”的敏感性,算法结果确定,不依赖数据录入顺序,可以有效改进聚类效果。本文在最后对工作进行了总结,并对未来的工作进行了展望。
【作者】阳斌;
【导师】李重;
【作者基本信息】浙江理工大学,基础数学,2014,硕士
【关键词】数据挖掘;聚类;网格;密度;网格密度影响因子;K均值;

【参考文献】
[1]李剑,王小平,王丽军,文俊伟,于颖,刘凌鸿.石墨烯在场发射器件中的应用与研究现状[J].材料科学与工程学报,2015,01:145-150.
[2]王利娟.协商民主理论视角下我国城市管理的公民参与问题研究[D].华中师范大学,行政管理,2012,硕士.
[3]廖凯.机动车检测预约排队系统的设计与实现[D].长安大学,信号与信息处理,2014,硕士.
[4]张娜.基于模糊控制的循环水加酸控制研究与应用[D].东北大学,控制理论与控制工程,2010,硕士.
[5]奚家文.论心理的具身性功能模块观[D].华东师范大学,基础心理学,2014,博士.
[6]杨辉,李明,王宜昌,王小牧,王家林.复杂地形条件下高精度重力勘探的地质效果[J].石油地球物理勘探,1999,02:197-203+248.
[7]曾璐.中国国债市场流动性的实证研究[D].厦门大学,金融工程,2014,硕士.
[8]徐月娥.基于Curvelet变换的新生儿疼痛表情识别研究[D].南京邮电大学,信号与信息处理,2013,硕士.
[9]覃剑,葛维春,邱金辉,郑心广.输电线路单端行波测距法和双端行波测距法的对比[J].电力系统自动化,2006,06:92-95.
[10]裴文柱.数据流最大频繁项集挖掘算法的研究[D].东北大学,应用数学,2009,硕士.
[11]蒋韶生,曾津津,段如冰.基于J2EE平台的数据仓库的研究与设计[J].电脑与信息技术,2002,05:34-36+52.
[12]李美玲.基于CFD方法的排气消声器声学特性仿真研究[D].山东大学,机械电子工程,2013,硕士.
[13]冯莉.冲调方便杂粮产品研制及品质评价[D].南京农业大学,食品工程,2013,硕士.
[14]倪增磊.混合颗粒增强铝基复合材料组织与性能研究[D].河南科技大学,材料加工工程,2013,硕士.
[15]翟国勤.仙台病毒囊膜抗小鼠黑色素瘤的研究[D].扬州大学,动物学,2011,硕士.
[16]王建荣.网络上具有人口动力学行为的传染病模型的研究[D].中北大学,应用数学,2013,硕士.
[17]薛丽霞.施工企业集成信息系统[J].建筑,2004,02:58-60.
[18]侯聪霞.施工企业工程项目管理方法的优化与应用[D].西安建筑科技大学,建筑及土木工程,2004,硕士.
[19]李振文.M.H.卡特科夫的社会经济思想[D].吉林大学,世界史,2013,硕士.
[20]汪杨.“飘”年代的强势话语—从池莉、林白的小说看20世纪90年代中国女性知识分子的生存状态[D].安徽大学,中国现当代文学,2004,硕士.
[21]翟小宁.中学教师能力评价理论与方法研究[D].北京交通大学,2010.
[22]韦敏.GnRHa主动免疫绵羊对GnRHR表达与分布的作用研究[D].西北民族大学,临床兽医,2012,硕士.
[23]卢旭晗.中国城乡居民预防性储蓄行为研究[D].吉林大学,金融学,2013,硕士.
[24]李朝龙.论我国的地役权制度[D].河南大学,民商法学,2004,硕士.
[25]刘立君.计算机物流配送中心管理决策系统的设计研究[D].沈阳工业大学,计算机应用技术,2003,硕士.
[26]乔盼盼.基于分频段能量的局部放电超高频在线监测及模式识别研究[D].重庆大学,电气工程,2014,硕士.
[27]罗文健.基层少数民族领导干部思想政治素质研究[D].西南大学,思想政治教育,2014,硕士.
[28]李洋.下丘神经元对FM声调制方向选择性的突触机制研究[D].华中师范大学,动物学,2012,硕士.
[29]任晓馨.压缩感知贪婪匹配追踪类重建算法研究[D].北京交通大学,2012.
[30]张苗.基于顾客视角下的童装行业品牌管理研究[D].大连海事大学,企业管理,2013,硕士.
[31]焦小斌.基于区分服务的流量控制与测量技术研究与实现[D].西安电子科技大学,通信与信息系统,2011,硕士.
[32]罗可,洪亮亮,童小娇.一种有效的分类型数据聚类方法[J].控制与决策,2011,10:1542-1544+1548.
[33]黄真.归芪饮对小鼠急性脑缺血的保护作用[D].浙江大学,药理学,2004,硕士.
[34]魏雅清.从语域角度论电影字幕翻译策略和技巧[D].北京外国语大学,翻译,2014,硕士.
[35]高鹏.泰安地区慢性感染HBV RT区耐药性分子变异及其体外表达[D].泰山医学院,病原生物学,2012,硕士.
[36]耿青霞.元认知知识与高职英语写作成绩的相关性研究[D].山东师范大学,课程与教学论,2013,硕士.
[37]黄佩智,陈首燊.海洋地震勘探电火花震源的研究[J].石油地球物理勘探,1981,05:74-83+73.
[38]王冬怡.改进AdaBoost人脸检测算法在S3C2440平台上的实现[D].沈阳工业大学,系统工程,2013,硕士.
[39]刘玉侠.我国现阶段失业保险问题研究[D].东北师范大学,马克思主义理论与思想政治教育,2003,硕士.
[40]黄利华.化纤汤对大鼠肺纤维化模型血清羟脯氨酸、SOD含量及病理形态学的影响[D].黑龙江中医药大学,中医内科学,2004,硕士.
[41]刘占礼.基于时间分析的组织间知识转移粘滞研究[D].郑州大学,管理科学与工程,2013,硕士.
[42]梅菊.领域工程方法在电子商务系统中的研究与应用[D].南京邮电大学,软件工程(专业学位),2013,硕士.
[43]刘凤娇.基于线阵CCD非接触式实时动态检测生丝细度[D].苏州大学,光学工程,2013,硕士.
[44]冯海洋.保定邯郸两市中国式摔跤俱乐部现状调查及对比分析[D].河北师范大学,体育教育训练学,2014,硕士.
[45]赵晨.鼻内镜下脑脊液鼻漏修补术的临床分析[D].吉林大学,耳鼻咽喉头颈外科,2013,硕士.
[46]石华强.面向装配环境的液压挖掘机工作装置参数化设计[D].浙江大学,2002.
[47]莫露骅.废旧电子产品回收再制造闭环供应链收入费用共享契约研究[D].华东交通大学,管理科学与工程,2013,硕士.
[48]姚继莲.思想政治课教材“二次开发”探究[D].河北师范大学,教育,2013,硕士.
[49]张国斌.综合客运枢纽站前广场行人交通行为及微观仿真研究[D].北京交通大学,2009.
[50]杨静.新农合体制下乡、村医疗服务一体化机制及其完善路径研究[D].南京师范大学,社会保障,2012,硕士.

相关推荐
更多