基于微博文本的话题聚类研究与实现
【摘要】Web2.0技术的出现推动了大数据时代的到来。以微博为代表的社会网络新媒体的兴起,在丰富了大数据的同时,也给数据挖掘和知识发现带来了诸多挑战,因为和传统的文本信息不同,微博信息涉及个人兴趣、娱乐、企业营销、公益宣传等多方面内容,且内容碎片化,数据量庞大。如何有效分析和挖掘其中的信息,成为当前一个重要的研究课题。话题聚类技术是微博研究的一项基础工作。它将海量的微博数据自动归类,使话题内容相近的微博自动归为一类。话题聚类结果可用于深层话题分析与数据挖掘。传统的基于关键字的处理方法可能会返回数以千百计的结果,其内容多是重复性的或关联较小的内容,不适合处理上述问题。话题聚类技术可通过智能处理算法,使内容相近的信息自动聚在一起,便于了解该类的主要话题;通过主题词提取,可使处理结果更加直观。本文基于微博文本,通过采用智能处理算法,完成了如下工作:首先,获取微博的结构化数据,完成对微博数据的采集以及在聚类前对数据的预处理。第二,完成了针对文本聚类的特征词选择,针对微博短文本的特点,研究如何有效提取特征词以及筛选特征词。第三,设计了有效的聚类算法,针对微博短文本,研究何种算法可使微博文本的聚类结果更好。第四,对聚类结果集的主题词进行提取,该主题词可作为可视化话题的主要表达内容。第五,完成了处理结果的可视化,使结果更加清晰和直观,起到了辅助理解数据与识别隐藏在数据中的规律的作用。实验结果与分析显示了本文方法的有效性。同时,本文也对可能出现的问题及下一步的研究计划进行了说明。
【作者】沈琳;
【导师】高凯;丁保忠;
【作者基本信息】河北科技大学,计算机技术,2014,硕士
【关键词】话题聚类;微博;特征向量;可视化;信息增益;
【参考文献】
[1]田国良.我国遥感应用现状、问题与建议(续)[J].遥感信息,2003,03:3-7.
[2]李琼.1,25(OH)_2D_3对新生鼠高氧肺损伤的影响[D].华中科技大学,儿科学,2013,硕士.
[3]邓益强.新型结构、形貌MFI型和OMS-2分子筛的可控合成、表征与催化应用[D].湖南大学,化学工程与技术,2014,博士.
[4]张行.渔用全数字岸台远程控制系统设计与实现[D].西安电子科技大学,电子与通信工程,2011,硕士.
[5]杨欢.FDI对我国高新技术产业国际竞争力的影响研究[D].浙江工业大学,国际贸易学,2012,硕士.
[6]吕凤伟.轻微刑事案件程序分流探索[D].中南民族大学,法律(专业学位),2013,硕士.
[7]刘悦.商业银行电子银行业务发展模式与风险管理研究[D].兰州大学,金融,2014,硕士.
[8]杨启基.发挥校内基地优势积极改进实践教学[J].高等工程教育研究.1991(04)
[9]周云.唐代太府寺研究[D].山东大学,中国古代史,2013,硕士.
[10]杜杰阳.金融相对发达地区金融发展的经济增长效应研究[D].华侨大学,区域经济学,2013,硕士.
[11]王英旗.油松胚珠雌配子体LCM分离技术的建立及相关RNA的检测[D].北京林业大学,植物学,2013,硕士.
[12]金小青,胡忠山,曹杰,杨自嵘.Co_xNi_(1-x)层状双氢氧化物复合材料的制备及其超级电容器性能[J].化学通报,2015,02:158-163.
[13]张丛丛.黄金对抗通胀能力的实证分析[D].青岛大学,金融学,2013,硕士.
[14]王瑜.智能家居系统及其关键技术研究[D].长安大学,交通信息工程及控制,2013,硕士.
[15]胡峰.变系数线性模型参数的递推估计[J].自动化学报,1994,05:628-631.
[16]刘峰.大数据时代的电视媒体营销研究[D].华东师范大学,文学与传媒,2014,博士.
[17]徐敏迪.扬州市物流企业人力资本对企业绩效影响的实证分析[D].扬州大学,劳动经济学,2011,硕士.
[18]岳红波.基于模糊偏序关系的区间集值信息系统的研究[D].山西师范大学,应用数学,2014,硕士.
[19]黄玉玲.产菊粉酶菌株的筛选及发酵生产乙醇的性能比较[D].南京农业大学,海洋生物学,2012,硕士.
[20]胡华杰.扶正祛邪法治疗骨髓增生异常综合征的规律性研究及疗效分析[D].北京中医药大学,中医内科学,2013,硕士.
[21]申郑.一类特殊金融衍生品的开发和应用[D].华中师范大学,应用数学,2014,硕士.
[22]徐杰.基于风险评估的无锡进口机电产品监管体系[D].南京理工大学,工业工程,2012,硕士.
[23]马常念.三种桃砧木耐涝性的生理基础及其茎尖培养技术的研究[D].南京农业大学,果树学,2012,硕士.
[24]戴静.表面修饰石墨烯的制备及其对复合材料力学性能的影响[D].华东理工大学,2012.
[25].2013年世界一流大学科研竞争力一级指标排行榜(分5个指标)[J].评价与管理,2013,04:57-62.
[26]张征良.株洲市数字化城市管理研究[D].湖南工业大学,工商管理,2012,硕士.
[27]吕中辉.卧辊磨磨辊机构有限元分析与工作载荷识别[D].武汉工业学院,机械电子工程,2012,硕士.
[28]徐晓晶.《空战史》(节选)翻译项目报告[D].安徽大学,翻译,2014,硕士.
[29]兰琛.车联网专用短程通信和定位技术的研究与应用[D].浙江大学,控制科学与工程,2014,硕士.
[30]张松,张军勇,祝扬,裴恰.数据挖掘在医疗管理领域中的应用[J].解放军医院管理杂志,2005,03:249-251.
[31]张凌.媒介融合时代纸媒出路研究[D].复旦大学,新闻学,2012,硕士.
[32]陈启超.链式STATCOM控制策略研究[D].北京交通大学,2013.
[33]付咪咪.青海玉树G214公路护坡植被恢复技术研究[D].长安大学,环境工程,2014,硕士.
[34]史航.针灸疗法治疗视神经萎缩的临床疗效观察[D].大连医科大学,眼科学,2012,硕士.
[35]郑萍.独立学院学生职业生涯规划设计与管理研究[D].福建师范大学,教育管理(专业学位),2012,硕士.
[36]李伟,詹方勇,徐敏界.ELID磨削的智能加工技术[J].浙江工业大学学报,2015,01:39-42.
[37]张锟,张昌芳,李杰.基于新冲突度量的属性信息相关算法[J].控制与决策,2011,04:601-605.
[38]刘雪庆.句法歧义的韵律声学表现初探[D].上海外国语大学,语言学及应用语言学,2013,硕士.
[39]柯璜莹.从进步意识的角度解读《伸子》[D].辽宁大学,日语语言文学,2012,硕士.
[40]马千棠.会计信息质量与企业投资效率相关关系的实证研究[D].北京交通大学,2012.
[41]李玉婷.译介学视角下的《水浒传》中绰号的英译研究[D].西北师范大学,英语语言文学,2013,硕士.
[42]俞薇.人胃癌细胞系中侧群细胞的分离鉴定及相关调控通路的研究[D].辽宁医学院,内科学,2012,硕士.
[43]郝珍妮.AA-TIG焊三维熔池行为的数值分析[D].兰州理工大学,材料加工工程,2013,硕士.
[44]肖俊阳.GIS局部放电诊断定位方法及其应用研究[D].广东工业大学,电力系统及其自动化,2014,硕士.
[45]马超.冲击电流发生器固相脆性材料高压放电破坏控制研究[D].沈阳理工大学,控制理论与控制工程,2013,硕士.
[46]仲伟玉.CZTS(Se)薄膜的制备及性能分析[D].华东师范大学,凝聚态,2013,硕士.
[47]张小雯.论法定违约解除时的损害赔偿[D].中国社会科学院研究生院,民法(专业学位),2014,硕士.
[48]张丽娟.河北唐县话介词“哩”的研究[D].首都师范大学,汉语言文字学,2013,硕士.
[49]张艳艳.卷须链霉菌D-10木聚糖酶酶解玉米芯汽爆液制备低聚木糖的研究[D].中国农业大学,食品科学与工程,2004,硕士.
[50]王福林.危险驾驶罪的理论基础及认定和立法完善研究[D].河北师范大学,刑法学,2012,硕士.

- 下一篇: 通信电缆防盗监控系统设计
- 上一篇: 基于ZigBee的地震台站安防监控系统设计与实现
相关推荐
- 苦豆子内生真菌遗传多样性及其产喹诺里西啶生物碱菌株的筛选
- 03月22日
- 中小学生公民参与意识培养的价值与实践策略研究
- 07月14日
- 论网络言论的立法规制
- 04月26日
- 机关事业单位养老保险改革问题及对策研究
- 04月03日

