基于微博的热点话题发现

基于微博的热点话题发现

作者:师大云端图书馆 时间:2015-09-30 分类:参考文献 喜欢:3110
师大云端图书馆

【摘要】随着网络信息技术的发展,互联网数据及资源大幅增加,并呈现出海量特性。为了有效地管理和利用这些海量分布的信息,基于内容的信息检索和数据挖掘近年逐渐成为倍受关注的领域。其中,基于语义的文本主题分析在近年来成为信息检索和文本挖掘的热点研究方向,其主要任务是根据文本中已知的“文档-单词”分布生成“文档-主题”和“主题-单词”两个分布,从而提取出文档中隐含的主题信息。主题分析模型在文本分类聚类、信息组织与管理、热点话题挖掘等领域都有着广泛的应用。近年来,随着Web2.0的兴起,社会网络,比如人人网、Facebook、Twitter、新浪微博等非常流行,逐渐成为人与人联系的重要方式。社交网络中80%以上的数据为自然语言文本,海量的用户产生数据(UGC),充斥着网络空间。为了使用户能更快捷,更方便地了解热门话题并参与到当前话题的讨论之中,对微博热点话题的挖据显得非常重要。但是因为社会网络中的文本有其自身的特点,传统的针对长文本的主题分析模型并不能取得很好的效果。社会网络中的文本有几个显著特点:高维性、稀疏性、不规范性、主题分布不均。换言之,微博中每分钟都会有大量的消息文本产生,这些消息文本很可能产生上万维的向量,这对于主题分析模型来说太耗时,导致效率低下;而对于长文本来说,它的关键词少,特征稀疏,很难抽取有效特征,更难以挖掘特征相互之间的关联性;用语不规范和流行语多,是网络文本的最大特点,也为这类主题挖掘带来了诸多难点;另外,发布的消息主题类型完全依赖于用户自己的兴趣,在微博中,绝大多数消息都是关于日常生活的,比如天气,心情等,因此仅仅根据单词出现的次数来判断其是否为热点话题相关的单词的做法不足可取。用传统的主题分析方法对微博中的文本进行热点话题挖掘,一方面识别不出热点话题相关的信息,会导致准确率较低:另一方面,文本太多,使得主题分析效率很低。近年来,有很多针对微博中热点话题挖掘进行的研究。鉴于微博中文本存在的特点及针对该文本进行热点话题挖掘所存在的问题,本文首先对,利用外部数据集进行了深入地探讨;另外,利用微博中自身属性也是一个研究方向,微博中的属性包括发布时间,标签,转发数和评论数等,这些属性对于热点话题挖掘非常有用,本文探讨了如何对此加以利用,提高热点话题的预测准确率。本论文的贡献如下:1)根据基于实体的相似性算法将每个用户所发布的相似消息合并为一个文档,增加文档信息;然后将多个外部数据集作为知识背景,用LDA(LatentDirichletAllocation)模型对数据集进行热点话题挖掘。2)提出一个新的主题分析模型MA-LDA(Multi-AttributeLatentDirichletAllocation),这个模型将文本中单词的时间分布和标签结合到LDA模型之中。通过时间变量来判断当前分析的单词属于热点话题,还是一般话题;通过增加标签词汇的权重,使得实验结果中标签词汇排名更靠前,提高了结果的表达性。实验结果表明,本文提出的方法既提高了热点话题挖掘的准确率,也显著地提高了主题分析模型的效率。
【作者】朱颖;
【导师】李莉;
【作者基本信息】西南大学,计算机应用技术,2014,硕士
【关键词】热点话题挖掘;主题分析;潜在语义分析;分类;

【参考文献】
[1]汪镭,吴启迪.蚁群算法在系统辨识中的应用[J].自动化学报,2003,01:102-109.
[2]高文彬.柠檬黄蜡伞子实体的化学成分及生物活性的研究[D].吉林农业大学,中药学,2012,硕士.
[3]刘红艳.苯胺和乙二醇生成吲哚反应机理的研究[D].辽宁师范大学,物理化学,2003,硕士.
[4]张洪.列车定位系统安全性研究[D].西南交通大学,交通信息工程及控制,2014,硕士.
[5]邵静.传播学视域下动画成人化对我国儿童负面影响之探析[D].西南政法大学,传播学,2012,硕士.
[6]彭笛.汽车零部件采购质量协同控制研究[D].武汉理工大学,系统工程,2013,硕士.
[7]金文涛.Au(Ⅰ)-Cys无氰配合物的合成及其镀金性能的研究[D].中南林业科技大学,环境工程,2013,硕士.
[8]段学志.氨分解催化剂结构调控与反应机理研究[D].华东理工大学,2012.
[9]赵中原,李九虎,郑玉平.基于详细控制保护模型的黑河直流系统EMTDC仿真[J].电力系统自动化,2008,10:94-96.
[10]付伟金.A型肉毒杆菌毒素对鼠前列腺增生模型的影响[D].广西医科大学,泌尿外科,2004,硕士.
[11]张波屏,刘格兰.万能通用精准播种机的研究与试验[J].农业机械学报.2001(02)
[12]周会英.类词意义理论研究[D].湖南师范大学,外国哲学,2013,硕士.
[13]李志军.基于Delta变换器的UPS电源及其控制研究—串联部分[D].燕山大学,电气工程,2014,硕士.
[14]王梦凡.基于布鲁姆过滤器的P2P多关键字搜索技术研究[D].湖南大学,软件工程,2012,硕士.
[15]王鹏.Ti-Zr-Ni体系块体纯准晶性能研究[D].大连理工大学,材料物理与化学,2004,硕士.
[16]赵媛.学前儿童音乐感觉统合训练的实践研究[D].天津音乐学院,音乐学,2013,硕士.
[17]王琳淼.南黄海中部泥质区全新世以来古环境沉积记录及其对东亚季风的响应[D].中国海洋大学,海洋地质,2014,博士.
[18]杨菲菲.运动中音乐听觉刺激对有氧跑台运动疲劳的影响[D].南京体育学院,运动人体科学,2013,硕士.
[19]徐蔚茹.古筝乐曲中特殊音效的演奏技法与功能[D].中央音乐学院,古筝演奏,2012,硕士.
[20]柯慧.汽车电子传输线串扰预估计研究[D].吉林大学,测试计量技术及仪器,2014,硕士.
[21]李蕴言.不完全川崎病外周血IL-17/Th17的变化和临床意义[D].宁波大学,内科学,2013,硕士.
[22]苏巍.我国IPO定价合理化[D].西南财经大学,工商管理,2003,硕士.
[23]周小燕.宋初“晚唐体”审美空间及诗人自由生命之构建[D].上海社会科学院,古代文学,2012,硕士.
[24]李文祥.应用透视法预防髋关节置换术后下肢不等长的相关研究[D].河北医科大学,外科学,2013,硕士.
[25]谭安萍.《醒世恒言》俗语词研究[D].华中师范大学,汉语言文字学,2013,硕士.
[26]赵一蓓.从多元系统论看培根《论说文集》的两个译本[D].西安电子科技大学,外国语言学与应用语言学,2012,硕士.
[27]张曦沐.采煤沉陷区稳定性区划与人居环境适宜性研究[D].中国矿业大学(北京),岩土工程,2011,博士.
[28]吴玮玮.基于AltiumDesigner的电子产品仿真设计[J].电子测试.
[29]陈静.改变与认同: 瑞华浸信会与山东地方社会[D].山东大学,中国近现代史,2013,硕士.
[30]李珊.基于粒子群优化算法的BP神经网络漏钢预报模型[D].燕山大学,机械工程,2014,硕士.
[31]杜英满.超长复杂隔震结构建造过程非载荷变形模拟和监测[D].兰州理工大学,建筑与土木工程,2013,硕士.
[32]王浩.计量检测用管式电阻炉温度场均匀性的研究[D].东北大学,热能工程,2010,硕士.
[33]王建军.教育水平是农村剩余劳动力转移的制约因素[D].湖南大学,政治经济学,2003,硕士.
[34]曹述舜.酱香型酒风味成分的探讨[J].酿酒科技.1991(04)
[35]付端,王士同,胡德文.改进的模糊细胞神经网络(IFCNN)的应用与研究[J].控制与决策,2006,01:114-117.
[36]赵冲.海刺猬和中间球海胆遮蔽行为的研究[D].中国海洋大学,海洋生物学,2014,博士.
[37]高容.旅游企业人力资源流动性研究[D].湘潭大学,企业管理,2003,硕士.
[38]赵晓敏.中国对外直接投资的现状与问题研究[D].首都经济贸易大学,国际贸易学,2013,硕士.
[39]赵云兵.寒冷地区农村住宅冬季室内热环境研究[D].西安建筑科技大学,建筑技术科学,2013,硕士.
[40]张震.软土地基大型烟囱长短桩筏板基础沉降分析研究[D].浙江大学,建筑与土木工程(专业学位),2012,硕士.
[41]黄鑫.对国内音乐剧发展现状的研究[D].沈阳师范大学,音乐学,2013,硕士.
[42]李燕.济南后全运时期体育场馆开发与利用研究[D].山东体育学院,体育教学,2012,硕士.
[43]马振虎.城市道路可变车道设置方法研究[D].吉林大学,交通信息工程及控制,2014,硕士.
[44]马燕.大学生信息素养实证研究[D].南京农业大学,农业推广,2011,硕士.
[45]牛剑平.成层土中基桩完整性的量化分析[D].河北工业大学,结构工程,2004,硕士.
[46]王莉.轮枝链霉菌转谷氨酰胺酶异源表达研究[D].华东师范大学,生物化学与分子生物学,2004,硕士.
[47]任晓静.高中化学复习课教师教学行为特征的调查与思考[D].河北师范大学,学科教学,2014,硕士.
[48]罗志民.美国国家安全助理职权的演变及其在美对外决策中的影响[D].外交学院,国际关系,2003,硕士.
[49]邢小英,霍妍.基于XML的WEB数据挖掘技术的研究[J].交通部上海船舶运输科学研究所学报,2003,01:51-54.
[50]徐小龙.无线局域网主动入侵防御的研究[J].信息网络安全,2005,07:20-21.

相关推荐
更多