基于共现词的中文微博观点句识别

基于共现词的中文微博观点句识别

作者:师大云端图书馆 时间:2023-05-10 分类:硕士论文 喜欢:42
师大云端图书馆

【摘要】近年来,随着计算机移动技术和社会媒体的发展,微博已经成为一个热门的信息交流平台。但是由于微博平台中的数据量非常庞大,在这样浩瀚的数据海洋中提取出带有观点的句子不是一件容易的事情,所以如何提取出带有用户观点的句子也越来越受到关注。但是,目前的中文微博观点句提取方法都集中在使用句法分析与分类器,忽略了微博主观信息所具有的内容关联性。因此,本文将传统观点句识别方法与共现词相结合,提出了基于内容共现词的中文微博观点句识别算法。本文的研究内容包含以下几点:首先,利用LatentDirichletAllocation主题模型对微博数据进行分析,将微博数据进行聚类处理,使得微博数据根据其表达的内容所属的主题进行分类,从而提取出每一个主题下具有典型的内容代表性的词语,将这些词语组成内容共现词集合,从而得到一个特征集合;然后,使用斯坦福大学的句法分析工具:StanfordParser对微博数据进行句法分析,从而形成了宾州句法树结构。本文对于大量的微博数据进行了分析从而提取出其中主观性语句的宾州句法树模板,通过模板匹配实验验证了该模板的有效性,从而识别出较为明显的观点句;再次,考虑到目前较为常用的主观性语句识别方法,并且使用SVM和朴素贝叶斯分类器相结合的方法,加入内容共现词、形容词、动词、情感词与2-POS这五类特征,通过COAE2013提供的数据进行了训练实验与测试实验,证明了LatentDirichletAllocation主题模型所提取出的共现词作为分类器特征是有效的,从而识别出句法分析无法识别的较为隐蔽的观点句;最后将表达方式匹配的方法与分类器的方法相结合,并且进行了实验验证。本文工作的主要内容及创新点如下:(1)考虑中文的内部关联性并使用以隐含狄利克雷分布主题模型为基础提取共现词。首先由隐含狄利克雷分布主题模型得到每个主题下的高相关度词分布情况,提取其中名词;然后进行重复提取并进行阈值的判断,从而确定其中的共现词特征。(2)在传统观点句识别方法的基础上,采用了多种分类方法相结合的Weka分类工具,并且考虑到了共现词特征对于分类结果的影响,对于特征进行了实验与简化。
【作者】张吉赓;
【导师】郑诚;
【作者基本信息】安徽大学,计算机应用技术,2014,硕士
【关键词】微博;观点句;主题模型;LDA;共现词;

【参考文献】
[1]胡静.软土地区二元结构地层深基坑降低承压水水位室内模型实验研究[D].武汉理工大学,市政工程,2001,硕士.
[2]胡斌.我国城市会展业发展动力系统研究[D].上海师范大学,人文地理,2004,硕士.
[3]叶伟.吉林省纺织工业发展战略研究[D].吉林大学,管理科学与工程,2004,硕士.
[4]郭晓华.自发凋亡率、PCNA、bcl-2、p27kip1在人膀胱移行细胞癌中表达的临床意义[D].山西医科大学,泌尿外科,2003,硕士.
[5]郑刚.潍坊市会计从业资格考试培训系统的设计与实现[D].山东大学,软件工程(专业学位),2013,硕士.
[6]陈跃霄.民事执行检察监督适用研究[D].华侨大学,民商法学,2014,硕士.
[7]葛忠强.羽毛球规则修改后比赛主要变化及对运动员影响的研究[D].辽宁师范大学,体育教育训练学,2012,硕士.
[8]杨柳.海口市中学生消费行为调查及消费观教育研究[D].海南大学,思想政治教育,2014,硕士.
[9]唐晨娟.功能主义翻译目的论观照下《2013年政府工作报告》的英译研究[D].四川外国语大学,英语语言文学,2014,硕士.
[10]王洋.基于中国剩余定理的模拟编码结构光三维测量方法研究[D].哈尔滨理工大学,测试计量技术及仪器,2014,博士.
[11]裴智能.植物脱毒苗组织培养技术的研究[D].中南林学院,森林保护,2004,硕士.
[12]蔡永源,于同福.国内外胶粘剂工业发展概况[J].精细与专用化学品.1998(24)
[13]田佳倩,周志勇,包彬,孙建新.农牧交错区草地利用方式导致的土壤颗粒组分变化及其对土壤碳氮含量的影响[J].植物生态学报,2008,03:601-610.
[14]李鹤.中蒙贸易互补性及潜力性研究[D].内蒙古大学,中国少数民族经济,2013,硕士.
[15]许洋.MEK抑制剂联合硫酸软骨素酶ABC对急性脊髓损伤后胶质瘢痕形成影响的实验研究[D].厦门大学,外科学,2014,硕士.
[16]吕敏强.襄阳市程河镇农村中老年人参与体育活动现状的调查[D].华中师范大学,学科教育,2014,硕士.
[17]于丽娜.网络信息挖掘初探[J].现代情报,2004,03:65-66.
[18]金如忠.面向动画领域的本体构建与推理研究[D].湖南大学,计算机科学与技术,2012,硕士.
[19]刘竹帆.低刚度零件数控加工误差离线预估[D].中国矿业大学,机械工程,2014,硕士.
[20]许哲峰.SO_2对热辊及浮法玻璃的作用机理研究[D].燕山大学,材料学,2004,硕士.
[21]郝言.《一个人的战争》的修辞研究[D].渤海大学,语言学及应用语言学,2013,硕士.
[22]华德志.公众预期的形成机制与货币政策预期管理研究[D].安徽大学,金融学,2013,硕士.
[23]郭雷雷.智能环境下基于视频多特征融合的单说话人跟踪方法研究[D].兰州理工大学,信号与信息处理,2014,硕士.
[24]廖梦丹.中国纪录片产业链研究[D].厦门大学,新闻学,2014,硕士.
[25]周利.排水管道非开挖修复预处理技术的研究[D].广东工业大学,市政工程,2014,硕士.
[26]刘智光.混凝土破坏过程细观数值模拟与动态力学特性机理研究[D].大连理工大学,2012.
[27]刘惠,邱天爽.知识发现及其在临床医学上的应用[J].生物医学工程学杂志,2004,04:677-680.
[28]陈赟,曾亚平.高速公路建设项目质量-进度卓越管理的概念界定及优越性分析[J].企业技术开发,2012,31:75-79.
[29]董宁宁.300吨/年呋喃妥因GMP标准车间设计[D].济南大学,化学工程,2012,硕士.
[30]卢有余.任务型词汇教学对提高英语学困生写作中词块运用能力的实证研究[D].湖南大学,外国语言学及应用语言学,2014,硕士.
[31]周大福.老挝公务员考试录用制度改革研究[D].南京大学,行政管理,2013,硕士.
[32]林靖.基于.Net的城市基础设施投资管理系统的开发与研究[D].山东大学,软件工程(专业学位),2012,硕士.
[33]陈云飞.物流需求预测在M公司的应用研究[D].苏州大学,工商管理(专业学位),2014,硕士.
[34]谢晓东.基于模型检验的固件恶意代码检测技术研究[D].解放军信息工程大学,计算机软件与理论,2012,硕士.
[35]王华玉.我国商业银行客户经理制再造研究[D].首都经济贸易大学,金融学,2004,硕士.
[36]胡美鑫.数据仓库技术在邮政量收系统中的应用[J].通信管理与技术,2005,01:47-49.
[37]邹强,周熙襄,钟本善.旅行时与波阻抗联合反演求取层速度[J].石油地球物理勘探,2003,04:396-399+462-8.
[38]刘莉.中国食品行业企业社会责任影响因素研究[D].西南大学,企业管理,2013,硕士.
[39]周红艳.温度和激素对柑橘大实蝇发育的影响[D].西南大学,农业昆虫与害虫防治,2013,硕士.
[40]王文政.龙矿集团科技管理信息系统的设计与实现[D].天津大学,软件工程,2013,硕士.
[41]张洪杰.一种Java卡虚拟机IP核设计研究[D].湖南大学,计算机科学技术,2010,硕士.
[42]张雷.突破寿险行业增员瓶颈的研究[D].山东师范大学,工商管理(专业学位),2012,硕士.
[43]陈亚鹏.木质素磺酸盐改性研究[D].济南大学,化学工程,2012,硕士.
[44]王润博.永磁同步电机无位置传感器矢量控制系统研究[D].北方工业大学,控制理论与控制工程,2013,硕士.
[45]余涛,沈善德.华中-华东多回HVDC辅助功率/频率控制[J].电力系统自动化,2005,01:77-82.
[46]余淼.医疗损害赔偿纠纷司法处理理论和实务问题研究[D].四川大学,法律,2003,硕士.
[47]谈晓磊.水冲压发动机推进剂多功能助剂的研制[D].湖南大学,应用化学,2011,硕士.
[48]吴志鸿,廖森,王建设,黄旭雄.数据挖掘技术在新法合成碱式碳酸铝镁中的应用[J].河池师专学报(自然科学版),2004,02:61-64.
[49]朱海华,吴俊,陈龙夫.1780mm热连轧机厚度控制优化[J].冶金自动化,2011,05:57-60.
[50]郭艳红.杨慎《升庵集》笺校与研究[D].郑州大学,中国古代文学,2013,硕士.

相关推荐
更多