中文微博主题层次识别方法研究

中文微博主题层次识别方法研究

作者:师大云端图书馆 时间:2018-05-24 分类:参考文献 喜欢:3726
师大云端图书馆

【摘要】随着web2.0的不断发展,微博逐渐成为人们交流情感、了解最新时事的一种重要的社交网络平台。人们不再面临信息匮乏的问题,相反,由于微博平台信息发布门槛低、传播速度快等特点,微博数据呈爆炸式增长,人们很难从这些良莠不齐的微博数据中快速知道最近或某一时间段内社会和人们一直在讨论或关注的主题,尤其是具体到某个主题的某个方面。因此,该文通过分析中文微博数据特点和传播方式,对中文微博主题的层次识别方法进行了探讨研究。首先,分析了微博数据传播方式及传统微博数据获取方法,在此基础上,提出了一种新的基于优质账号的微博数据获取方法。该方法通过综合考虑微博用户的粉丝数量、关注数量、发博数量和等级,选定初始用户种子,再根据用户种子扩展优质粉丝账号系列来获取主题相对集中的微博数据。其次,对中文微博数据预处理及表示方法进行了探讨。然后,针对目前中文微博主题识别仅在粗粒度上进行识别这一现状,通过分析研究两种较典型的主题识别方法:基于狄利克雷分布的LDA(LatentDirichletAllocation)主题识别方法和基于增量聚类算法的主题识别方法SinglePass的特点和应用局限性,提出了一种新的中文微博主题层次识别方法LSP。LSP方法结合了LDA和SinglePass的优点,在首层主题识别时,考虑到微博数据量大、特征稀疏的特点,采用LDA主题识别方法进行识别,接着在识别子层主题时,引入了微博特有的评论转发功能,改进传统的SinglePass主题识别方法对子层主题进行识别。通过设置大小不同的相似度阈值可以生成不同粒度层次的主题集合,从而形成多层的主题结构。同时,针对微博数据特征稀疏问题,提出语义与统计相结合的中文微博相似度计算方法。该方法在利用知网作为背景知识计算语义相似度的同时,引入了词语的相关度,从而使包含不同同义词、近义词的文本或具有相关语义的文本也能被识别出来,进而提高了微博文本相似度计算的精度。最后,通过新浪微博实例数据集对该文提出的中文微博主题层次识别方法LSP进行了实验验证,结果表明给出的主题层次识别方法能有效表达主题的层次结构。
【作者】李楚贞;
【导师】吴新玲;
【作者基本信息】广东技术师范学院,系统理论,2014,硕士
【关键词】微博;主题识别;LDA;SinglePass;相似度;

【参考文献】
[1]张平.地下装载机遥控技术研究[D].河北工程大学,机械设计及理论,2012,硕士.
[2]王环彬.中国远洋投资战略与公司绩效的研究[D].浙江工商大学,会计(专业学位),2014,硕士.
[3]潘慧玲.江苏生态环境与经济协调发展研究[D].江南大学,管理科学与工程,2012,硕士.
[4]李传业.基于PLC的无糖组培箱微环境CO_2增施监控系统的研究[D].中国农业大学,农业生物环境与能源工程,2004,硕士.
[5]金晶,张满成,马艳,周庆,李爱民.磁性固相萃取在环境分析中的应用[J].环境保护科学,2015,01:90-94.
[6]姚思能.我国上市公司企业战略对现金股利政策影响的研究[D].华东理工大学,会计(专业学位),2014,硕士.
[7]张丽丽.施工项目成本控制方法及其应用研究[D].沈阳建筑大学,管理科学与工程,2012,硕士.
[8]肖小枫.血浆Kyn/Trp比值在不同孕期对子痫前期的预测价值[D].遵义医学院,妇产科学(专业学位),2014,硕士.
[9]王娟娟.ZJY基金会财务报表分析指标体系优化研究[D].中国海洋大学,会计(专业学位),2014,硕士.
[10]欧阳明芬.公诉视角下的检察官客观义务研究[D].华侨大学,法律,2013,硕士.
[11]梁思毓.面向球幕的编辑式多投影校正技术与系统[D].复旦大学,计算机软件与理论,2012,硕士.
[12]刘伟.试论写实油画中的“以色造型”[D].湖南师范大学,艺术(专业学位),2014,硕士.
[13]张弼华.互联网用户信息管理和故障自动探测[D].内蒙古大学,计算机科学与技术,2014,硕士.
[14]崔杰.股东代表诉讼中公司的诉讼地位问题研究[D].山西财经大学,经济法学,2014,硕士.
[15]徐超男.甘蓝型油菜种子高油酸和低亚麻酸等位基因特异标记的开发及分子标记辅助选择[D].华中农业大学,作物遗传育种,2014,硕士.
[16]刘海岛.辛基酚熔融结晶过程的研究[D].天津大学,化学工程,2004,硕士.
[17]樊淑丽.改性阳离子丙烯酸酯共聚物乳液的合成研究[D].沈阳理工大学,材料物理与化学,2012,硕士.
[18]张冬.基于游客感知价值视角下的旅游景区服务适配性研究[D].湖北大学,旅游管理,2011,硕士.
[19]叶俊.膦促进烯丙基化合物与三氟甲基羰基化合物的反应研究[D].合肥工业大学,制药工程(专业学位),2014,硕士.
[20]高彦梅.中国制造业集聚演进和转移研究[D].山东大学,西方经济学,2013,硕士.
[21]张秋雪,徐蓉漂,朱金艺.论专利制度保护界限——以苹果三星专利战为例[J].法制与社会,2014,22:265-266.
[22]胡明.新型风电场相变储能功率分配系统研究[D].重庆大学,电气工程,2014,硕士.
[23]刘梅.华兹华斯与谢灵运山水诗之比较研究[D].淮北师范大学,文艺学,2014,硕士.
[24]李紫薇.河北省城市商业银行跨区域发展问题研究[D].河北大学,金融学,2014,硕士.
[25]赵建华,陈汉林,杨树锋,马志江.基于决策树算法的滑坡危险性区划评价[J].浙江大学学报(理学版),2004,04:465-470.
[26]雷斌.基于金、银的微/纳米结构复合物的可控制备及催化性能研究[D].郑州大学,2014.
[27]刘凤鑫.英汉“石”名称的次范畴化对比研究[D].吉林大学,外国语言学及应用语言学,2014,硕士.
[28]汪志强.轮毂电机对车辆操纵稳定性和平顺性的影响研究[D].吉林大学,车辆工程,2014,硕士.
[29]郑冬梅,孔保华,李升福.玉米蛋白及其水解肽的研究动态[J].食品与发酵工业.2002(11)
[30]张荣民.猪源鲍曼不动杆菌bla_(NDM-1)阳性质粒的遗传特征研究[D].黑龙江八一农垦大学,基础兽医学,2013,硕士.
[31]喻兵.汽车零件分销商的组织营销模式研究[D].西南交通大学,工商管理(专业学位),2012,硕士.
[32]常雯.基于物联网技术的连锁超市配送中心作业流程优化研究[D].长安大学,企业管理,2014,硕士.
[33]张浩.噪声相关多源信息系统的微卡尔曼滤波融合与相对组合导航算法研究[D].杭州电子科技大学,计算机软件与理论,2011,硕士.
[34]陈湖庚.教是为了达到不需要教[D].华中师范大学,学科教学,2014,硕士.
[35]叶永伟,任设东,叶连强,葛沈浩,钱志勤.基于可拓神经网络的汽车涂装线设备故障诊断[J].系统仿真学报,2015,03:542-548.
[36]巫世瑶.从T辅助细胞的分化探讨胆碱能抗炎通路对类风湿关节炎的保护作用机制[D].中南大学,临床医学,2014,博士.
[37]赵峰.铁路填石路堤的沉降与稳定性分析[D].西南交通大学,建筑与土木工程,2013,硕士.
[38]李勤学,张向君,吴志强,李清仁.反射系数满足分形条件下的反褶积[J].石油地球物理勘探,1997,01:98-103.
[39]梁松青.基于WEB的选课专家系统[D].华侨大学,计算机技术(专业学位),2013,硕士.
[40]刘晋帅.基于OOA的门式起重机金属结构CAD系统开发方法研究[D].太原科技大学,机械设计及理论,2013,硕士.
[41]叶昕.多媒体在中学语文课堂教学中的运用研究[D].东北师范大学,教育技术学,2012,硕士.
[42]徐梓斌,方应国,李胜,阮健.电液振动台研究综述[J].浙江树人大学学报(自然科学版),2008,01:48-52.
[43]新型.中国科大揭示石墨烯有序晶界的范霍夫奇异性[J].化工新型材料,2014,07:237.
[44]孙成禹,张吉辉.完全纵波方程有限差分波场模拟[J].石油地球物理勘探,2005,03:289-294+16-17+372.
[45]王睿.包头市文化旅游开发研究[D].内蒙古大学,专门史,2014,硕士.
[46]刘涛.表柔比星与羟喜树碱膀胱灌注预防肌层浸润性膀胱癌术后复发的临床疗效观察[D].吉林大学,外科学,2014,硕士.
[47]杨阳.关于半环上矩阵的广义逆[D].西北大学,基础数学,2014,硕士.
[48]许景科.空间位置影响力评价与查询算法研究[D].东北大学,计算机软件与理论,2011,硕士.
[49]杜雨璇.双城市县域经济发展模式研究[D].吉林大学,农业推广,2014,硕士.
[50]田泽瑾.诸广山产铀与不产铀花岗岩的年代学,地球化学及矿物学特征对比研究[D].中国地质大学(北京),地质工程,2014,硕士.

相关推荐
更多