基于BTM主题模型特征扩展的短文本相似度计算
【摘要】随着因特网和各种移动终端的发展,计算机对各种文本类信息处理的重要性日益凸显。短信、微博、电子商务的普及更使得用简短的文字表示信息越来越重要。每天TB级数据的产生,标志着大数据时代的来到。从简单的文本中挖掘舆论倾向,从商品评论中挖掘消费心理,短文本的挖掘有助于帮助政府更贴近了解民意倾向,帮助企业更好的了解用户需求。然而,短文本不像长文本那样具有丰富的语义特征,语义和特征矩阵的稀疏特性导致难以对它进行挖掘。本文的重点在于改善短文本特征矩阵的稀疏性问题,并用改善后的短文本矩阵进行相似度计算。在长文本的领域,主题模型的发展和应用已经日趋成熟。但是对于有着数据稀疏性的短文本来说,主题模型还不能脱离长文本的影子。很多论文致力于如何把短文本通过相关信息扩充成长文本再进行建模计算。由于很多的短文本相关信息并不是那么容易找到,并且这种方法,其结果的好坏对于用来扩充的信息的准确度有着很大的依赖性,所以这种方法不具有通用性。本文结合2013年5月IW3C2会议上提出的在短文本建模方面有具有优势的BTM主题模型对短文本进行特征扩展后,再用扩展后的特征矩阵进行相似度计算,实验证明了本方法取得了很好的效果。本文首先介绍了VSM的原理,以及如何使用VSM对短文本建模进而进行短文本的相似度计算。其次,本文简要介绍三种文本相似度计算公式(距离公式),实验对比了夹角余弦和JS距离两种相似度计算方法的好坏,最终确定了使用JS距离作为本算法中的距离计算方法。然后简要介绍了LSI、pLSI、LDA、和BTM主题模型的原理。简要介绍LDA模型原理、参数估计方法、GibbsLDA模型的输入输出。重点介绍BTM模型建模及推断过程、BTM参数估计方法和BTM模型的输入输出的文档形式和参数。并且实验对比了两种模型在相似度计算中的效果,作为刚刚提出的文本模型,相比较于传统的针对长文本建模的主题模型,和使用外部背景资料进行扩充的短文本处理方法,BTM模型利用整个短文本语料库的丰富信息进行建模和推断,很好的改善了短文本语义稀疏的问题,在短文本建模以及概率推断上有着很大优势。最后,本文提出了使用BTM主题模型对短文本特征扩展来改善短文本特征稀疏的问题,后用改善后的短文本特征矩阵计算短文本相似度的方法,首先对短文本特征选择进行去噪处理,建立短文本的特征矩阵,由于该矩阵具有稀疏性,所以用BTM模型的推断结果对短文本的稀疏的特征矩阵进行特征扩展,将扩展后的矩阵作为相似度计算的输入。最后用JS距离衡量短文本相似度。本文详细介绍了LDA模型和BTM模型的输入输出格式、参数,并在论文的末尾附上了BTM模型预处理代码。本文使用百度知道语料集,通过开源平台Weka中的KNN算法的分类结果来衡量相似度算法的好坏。结果表明,本方法的效果较好。
【作者】张芸;
【导师】郑诚;
【作者基本信息】安徽大学,计算机技术,2014,硕士
【关键词】BTM模型;短文本相似度;向量空间模型;特征扩展;
【参考文献】
[1]张青云.铝合金板剪力墙力学性能研究[D].西安建筑科技大学,结构工程,2013,硕士.
[2]谢雨桐.原子的秘密[J].世界科学,2014,03:6-7.
[3]王婧.中国共产党的区域经济理论发展及实践[J].商,2014,07:187.
[4]成巍.江苏省农村信息化及其对农村经济增长影响的实证研究[D].安徽农业大学,技术经济与管理,2012,硕士.
[5]薛颖.HID灯数字镇流器控制策略研究[D].北方工业大学,电力电子与电力传动,2013,硕士.
[6]代海纳.初中思想品德课堂即时评价存在的问题及对策[D].华中师范大学,教育,2013,硕士.
[7]于慰君.中等职业学校英语教学中的隐性分层教学[D].浙江大学,学科教学(专业学位),2014,硕士.
[8]李成达.基于Android平台的安全VoIP系统的设计与实现[D].华中科技大学,计算机技术,2013,硕士.
[9]薛雯雯.中国农产品价格变动与通货膨胀的关系[D].宁波大学,金融学,2013,硕士.
[10]王勇.新时期我国农村思想政治工作存在的问题及对策创新研究[D].河北师范大学,思想政治教育,2012,硕士.
[11]李坤静,李颖,冶保献.姜黄素在石墨烯修饰电极上的电化学行为及姜黄中姜黄素的含量测定[A].河南省化学会.河南省化学会2014年学术年会论文摘要集[C].河南省化学会:,2014:1.
[12]史立慧.羟基氧化镓及氧化镓纳米晶体的合成、表征与相变[D].吉林大学,凝聚态物理,2013,硕士.
[13]陈福萍.机构投资者持股对创业板上市公司盈余管理的影响[D].江西财经大学,会计学,2013,硕士.
[14]季亮亮.不同应力路径及颗粒级配下青岛海砂力学性质试验及PFC数值模拟研究[D].青岛理工大学,工程力学,2012,硕士.
[15]奚春蕊.金枪鱼生鱼片品质变化及快速评价方法建立[D].上海海洋大学,食品科学与工程,2013,硕士.
[16]刘蓓.有限责任公司股权转让规定的司法适用问题研究[D].甘肃政法学院,民商法,2012,硕士.
[17]田英.阳信龙福公司质量管理体系运行效率研究[D].山东师范大学,工商管理(专业学位),2012,硕士.
[18]陈建彪.面向领域的Web信息自动化抽取系统设计与实现[D].郑州大学,计算机软件与理论,2013,硕士.
[19]黄溥.基于改进粒子群算法的电力系统无功优化[D].湖北工业大学,电力系统及其自动化,2013,硕士.
[20]张哲聪.推力矢量无人机的重构控制策略[D].南京航空航天大学,导航、制导与控制,2013,硕士.
[21]董星涛,李超,朱健,付方凯,洪张舟.基于Fluent低压旋流喷嘴下游流场数值模拟及分析[J].轻工机械,2012,05:25-27+32.
[22]高翔.川剧在中小学校的传承模式及其保障机制研究[D].西南大学,教育经济与管理,2014,硕士.
[23]苏是浒.钾高效水稻品种筛选及其机理研究[D].广东海洋大学,作物遗传育种,2013,硕士.
[24]陈军素.电网企业ERP实施成功的关键因素研究[D].浙江工业大学,2009.
[25]郝伟民.云计算下多式联运管理系统研究[D].大连海事大学,工业工程,2014,硕士.
[26]李忠义.基于心电信号的身份识别研究[D].天津理工大学,计算机应用技术,2013,硕士.
[27]李冬梅.中国新加坡课程文化比较[D].东北师范大学,教育,2003,硕士.
[28]李文峰.通识教育中加强大学生理想教育研究[D].重庆工商大学,思想政治教育,2014,硕士.
[29]沈妮.“管你”的多角度考察[D].广西师范大学,汉语言文字学,2013,硕士.
[30]黄继红,卢训.酶法水解谷朊生产生物活性肽[J].食品与发酵工业.2004(01)
[31]仝军.JD公司供应链运营管理改善研究[D].天津大学,工商管理,2013,硕士.
[32]柏美屹.研究型大学校长背景特征对大学发展影响的实证研究[D].华中师范大学,高等教育学,2014,硕士.
[33]盛夏.从论书诗看清代碑学[D].广西师范大学,美术学,2013,硕士.
[34]张梦.基于可编程霍尔IC的角位移传感器[D].长安大学,动力机械及工程,2014,硕士.
[35]朱从民.AGVAGENT控制系统研究[D].西安理工大学,2009.
[36]刘文斐.碳化物衍生碳结构形成过程的第一性原理研究[D].燕山大学,2014.
[37]黄鹏.带力反馈的机器人虚拟操作[D].杭州电子科技大学,模式识别与智能系统,2013,硕士.
[38]李晓霞.甘肃少数民族侨务资源培育研究[D].兰州大学,公共管理(专业学位),2013,硕士.
[39]张永华.保护私有信息的选择问题研究[D].安徽大学,计算机应用技术,2014,硕士.
[40]易晓东.失肌皮神经与屈肘重建后供受体肌肌肉型AChR亚型表达变化[D].遵义医学院,人体解剖学与组织胚胎学,2014,硕士.
[41]刘浩文.从目的论角度评析Steve Jobs的两个中译本[D].武汉理工大学,外国语言学及应用语言学,2012,硕士.
[42]赵密.粘弹性人工边界及其与透射人工边界的比较研究[D].北京工业大学,结构工程,2004,硕士.
[43]蒋革新.论中国人民银行金融监管[D].中国社会科学院研究生院,经济法学,2003,硕士.
[44]武文杰.超分子复合物中氢键、卤键、锂键间协同作用的理论研究[D].河北师范大学,物理化学,2013,硕士.
[45]王凤玲.方剂辨证论治方法体系之建立[D].黑龙江中医药大学,中医临床基础,2013,硕士.
[46]宫官仲.河北省肿瘤医院会诊管理系统的设计与实现[D].山东大学,软件工程(专业学位),2012,硕士.
[47]葛冰.清代戏曲木刻版画图像叙事性研究[D].西南大学,美术学,2013,硕士.
[48]罗伯特B.史密斯,约翰E.沃诺克.地球物理学中的计算机作图[J].石油地球物理勘探,1974,06:14-25.
[49]魏利胜.多变量网络控制系统建模、控制与调度初探[D].上海大学,2009.
[50]董辰昊.高架快速路驶出匝道与常规道路衔接模式及仿真研究[D].长安大学,交通工程,2013,硕士.

- 下一篇: 基于情感词典与规则结合的微博情感分析模型研究
- 上一篇: 基于BTM的短文本聚类