基于两种改进的聚类算法对新浪微博用户信息的研究

基于两种改进的聚类算法对新浪微博用户信息的研究

作者:师大云端图书馆 时间:2019-02-25 分类:硕士论文 喜欢:2006
师大云端图书馆

【摘要】近几年来新浪微博迅猛发展,已经逐渐成为人们生活中不可或缺的一部分。新浪微博作为一个信息传播平台,它使得人们能够及时的获取第一手信息,同时作为一个社交平台,它让人们可以通过一种崭新的方式与他人交往。在新浪微博中,用户具有核心地位,无论是为了在微博平台上进行广告营销,还是对微博信息进行舆情监测,对不同微博用户群体的信息进行提炼都是至关重要的一步本文以微博用户信息数据作为研究对象,以用户的粉丝数、微博数、关注数、互粉数以及博龄数的取值作为依据,对微博用户群体进行聚类划分。首先将数据可视化从而全面了解了数据的分布特征,然后应用标准化方法对数据进行了预处理。由于数据量很大(21481条用户信息),且由于大于三的维度从而难以对数据的聚类趋势进行直观的评估。对此,本文采用了改进后的K-Means算法和TwoStep算法对数据进行聚类分析。改进的K-Means算法是将传统的K-Means算法与C-H指数相结合,从而可以自行的选择最终聚类个数,TwoStep算法则将传统的系统聚类算法与Birch算法相结合,进而解决了传统系统聚类算法扩展性较差的问题,但在计算过程中需要人为的选取阀值T。通过这两种改进后的方法最终得到了两种不同的聚类结果,在对各个类别进行分析后本文对不同的类别予以命名最后,本文应用三种不同的度量指数来对聚类结果质量进行评价,结果显示改进后K-Means算法的聚类结果质量较好。其原因可能是TwoStep算法中的预聚类造成了样本信息量的损失以及人为选取的阀值T不是最佳值。
【作者】赵峥;
【导师】陈江荣;
【作者基本信息】首都经济贸易大学,应用统计(专业学位),2014,硕士
【关键词】新浪微博;用户信息;聚类分析;K-Means聚类算法;Two-Step算法;聚类度量;

【参考文献】
[1]赵盈.苏北平原典型河网区河流底泥污染物赋存特征研究[D].扬州大学,环境科学,2012,硕士.
[2]肖毅.基于供应链的分销资源管理系统的研究与实现[D].西北工业大学,机械制造及其自动化,2004,硕士.
[3]王天娇.格式塔心理与非汉字圈汉字教学调查与探讨[D].渤海大学,汉语国际教育(专业学位),2014,硕士.
[4]刘斌,马俊才,张宏翔.搭建网络信息服务平台优化生物信息资源配置——“中国生物技术信息网”建设的战略分析[J].中国生物工程杂志,2003,04:102-105.
[5]张惠萍.新疆中亚留学生话题兴趣与教材话题匹配调查研究[D].新疆师范大学,汉语国际教育,2013,硕士.
[6]叶剑利.CPLD在电力电子变换技术中的应用[D].浙江大学,电力电子与电力传动,2004,硕士.
[7]孙彪,孙秀霞.基于跟踪微分器的离散滑模控制器[J].控制与决策,2009,10:1517-1521.
[8]苏晓平.柱状非球面镜轮廓拼接扫描测试技术研究[D].南京理工大学,光学工程,2013,硕士.
[9]邵广周,李庆春.联合应用τ-p变换法和相移法提取面波频散曲线[J].石油地球物理勘探,2010,06:836-840+936+785-786.
[10]张金刚.冠状动脉无复流的研究进展[D].蚌埠医学院,内科学(专业学位),2013,硕士.
[11]张斌.PLC984智能模块B885在焦炉工业现场的应用[J].冶金自动化,2000,01:11.
[12]杨国钦.城市安全信息平台的设计与实现[D].吉林大学,软件工程,2013,硕士.
[13]李兴修.柔性机械臂的振动控制研究[D].东北大学,机械电子工程,2010,硕士.
[14]梁嘉.深圳市出口食品安全管理问题研究[D].华中师范大学,公共管理,2014,硕士.
[15]杜伟.重载铁路曲线段轮轨磨耗影响因素分析[D].西南交通大学,车辆工程,2012,硕士.
[16]于海会.某药厂营销人员代理招聘体系研究[D].天津大学,2004.
[17]关立军.基于强度折减的土坡稳定分析方法研究[D].大连理工大学,防灾减灾工程及防护工程,2003,硕士.
[18]付小凤.大理州高中生健康危险行为调查[D].大理学院,流行病与卫生统计学,2013,硕士.
[19]肖慧玲.缺血性中风患者外关穴巨刺fMRI脑功能成像研究[D].南方医科大学,针灸推拿学,2012,硕士.
[20]张文晓.新课程背景下高中思想政治课程资源的开发和利用[D].华中师范大学,学科教学,2013,硕士.
[21]黄岳海.答读者问[J].新农业.2005(02)
[22]于琦.基于移动多代理的配电网故障恢复研究[D].燕山大学,电力系统及其自动化,2014,硕士.
[23]禚焕雯.基于加强层粘滞阻尼系统和摇摆墙结构的海洋平台振动控制初步研究[D].青岛理工大学,港口、海岸及近海工程,2012,硕士.
[24]朱小萍,夏陆岳,孙小方,蔡亦军,周猛飞,潘海天.基于SVM增量学习的氯甲烷含水量预测控制[J].科技通报,2012,01:133-136.
[25]盛震男李晖.基于RFID技术和Zigbee技术的跟踪定位系统设计[J].电子技术与软件工程,2014,16:75.
[26]刘盾.论劳动收入份额的决定机制[D].北京交通大学,2013.
[27]宋克志,袁大军,王梦恕.盾构法隧道施工阶段管片的力学分析[J].岩土力学,2008,03:619-623+628.
[28]魏宏雨.电磁无线激励的QCM声学传感器研究[D].浙江大学,控制工程(专业学位),2014,硕士.
[29]肖飞.社会工作介入精神病患者的行动研究[D].湖南师范大学,社会学,2013,硕士.
[30]阳琼艳.胶东玲珑金矿中生代岩浆作用与金成矿动力学研究[D].中国地质大学(北京),地质工程,2013,硕士.
[31]刘钊远.瑞替普酶联合丹红注射液治疗急性下肢深静脉血栓形成疗效分析[D].福建中医药大学,中西医结合临床(专业学位),2012,硕士.
[32]侯钦雷.奶牛乳腺组织miRNAs表达谱及基因BOLA-DQA2剪接体相关miRNAs分析[D].南京农业大学,动物遗传育种与繁殖,2011,硕士.
[33]熊范纶.分层分类器设计及实验结果[J].自动化学报,1986,03:262-270.
[34]孙珩.论农村中学语文课程资源开发与利用[D].信阳师范学院,学科教学,2014,硕士.
[35]董智领.商业建筑外部形态设计思维与表现手法研究[D].齐鲁工业大学,设计艺术学,2014,硕士.
[36]王荷芳.劳动者就业中存在的基因歧视相关法律问题研究[D].兰州大学,经济法(专业学位),2013,硕士.
[37]方志超.乳酸—热处理对多酚氧化酶活性与构象的影响[D].南昌大学,食品科学,2014,硕士.
[38]温香彩,刘永清.非线性广义系统的变结构控制设计[J].控制与决策,1995,03:275-278+283.
[39]罗桐芳.皮克斯动画创作草稿研究[D].湖南师范大学,设计艺术学,2013,硕士.
[40]张纹.基于纳米材料构建的生物传感器应用于多组分小分子检测的研究[D].西南大学,无机化学,2014,硕士.
[41]于景元,许香敏,焦红兵,高德智.发汗冷却系统的最优控制[J].控制与决策,1999,05:398-402+460.
[42]王义翔.石墨烯输运性质的理论研究[D].南京大学,2011.
[43]韩云华.密度调控、施氮肥等措施对6种多年生冷季型禾草种子生产的影响[D].西北农林科技大学,草业科学,2014,博士.
[44]鲍忠赞.家蚕幼虫高温处理前后SAGE文库的构建与分析及差异表达热激蛋白基因的研究[D].苏州大学,特种经济动物饲养,2012,硕士.
[45]梁利华,韩斌,陈栋栋,郑暾.带锯床锯切过程的力学建模[J].浙江工业大学学报,2013,04:375-379.
[46]吴东秋.纳米TiO_2对合成革用水性聚氨酯结构与性能的影响研究[D].陕西科技大学,应用化学,2013,硕士.
[47]于功志.柴油机红外再生微粒捕集器试验研究[D].大连理工大学,动力工程,2003,硕士.
[48]徐敬婕.网络消费者合法权益保护问题研究[D].新疆财经大学,经济法,2013,硕士.
[49]张雄辉.基于图像引导的数字冲孔系统设计[D].华侨大学,电工理论与新技术,2013,硕士.
[50]烟建华,任廷革,王彤,刘晓峰,张帆.基于数据库的中医理论文献的信息化研究[J].中国中医基础医学杂志,2004,10:59-63.

相关推荐
更多