面向主题的关键词抽取方法研究

面向主题的关键词抽取方法研究

作者:师大云端图书馆 时间:2015-11-21 分类:期刊论文 喜欢:2608
师大云端图书馆

【摘要】关键词是人们获取信息的快捷方式,在信息检索和自然语言处理等领域均有重要的理论价值和应用价值。现有的关键词抽取方法大都依靠词汇的统计信息进行抽取,忽略了话题的影响;而且它们仅仅专注于关键词个体的优化,而忽略了关键词的整体质量。本文针对如何对文档主题建模,并通过文档主题优化关键词的整体质量进行了以下工作:基于整数线性规划的关键词抽取;基于排序学习的摘要关键词抽取;基于话题翻译模型的微博关键词抽取。本文的工作包括:提出了基于整数线性规划的关键词抽取方法。首先提出全局优化关键词质量的意义,并提出高质量关键词应具备的准则。为了对这些准则建模,提出了一种基于整数线性规划的关键词抽取方法。所提出的准则分别转化为整数线性规划问题的目标函数和约束条件。通过求解整数线性规划问题,可以得到高质量的关键词集合。实验表明该方法能够在保证关键词个体质量的前提下,同时优化关键词的整体质量。提出了基于排序学习的新闻摘要关键词抽取方法。“新闻摘要关键词”是指若干关键词的整体作为新闻摘要。首先讨论了新闻摘要关键词的价值,并定义了高质量的摘要关键词应满足的准则。为了对这些准则建模,提出了一个两阶段基于排序学习的摘要关键词抽取方法。第一阶段是候选关键词的选择,即从语料中选择若干个候选关键词个体;第二阶段是将候选关键词的所有子排列进行重排序,将最好的子排列作为最终的摘要关键词。实验表明基于排序学习的关键词抽取方法可以提取高质量的新闻摘要关键词,同时也验证了提出特征的有效性。提出了一种面向主题的翻译模型,并应用该模型进行微博关键词抽取的研究。为了解决微博较短,并且话题多样化的问题,提出了一种面向主题的翻译模型。该模型可以很好的综合话题模型和翻译模型的优点,一方面,它可以解决由微博较短引起的微博内容和关键词间的词汇差异问题;另一方面,它可以通过对微博主题的建模,帮助抽取主题相关的微博关键词。在对微博主题建模的研究中,尝试了两种建模方式:第一种是基于经典的话题模型LatentDirichletallocation[12],即假设每篇文档包含若干个主题,而文档中的每个词语关联一个主题。这种建模方式中的部分假设基于传统文档,而没有考虑短文档(如微博)的特性。为了更好的考虑微博特性,尝试了第二种建模方式,其中,假设每条微博只关联一个主题,并且假设微博中的词语分为两类:“主题词”和“背景词”。实验表明面向主题的翻译模型在效果上优于一些经典的关键词抽取方法,如分类模型,话题模型和翻译模型,并通过实例分析了对微博主题建模的两种方式的优劣。
【作者】丁卓冶;
【导师】黄萱菁;
【作者基本信息】复旦大学,计算机应用技术,2013,博士
【关键词】自然语言处理;关键词抽取;话题模型;排序学习;整数线性规划;

【参考文献】
[1]杨英宝.城市旅游竞争力的系统分析与评价研究[D].河南大学,2002.
[2]曹环.中小板上市公司高管薪酬对公司绩效的影响研究[D].河北经贸大学,会计学,2014,硕士.
[3]杨晓颖.研究型大学学部制改革的动态战略适应性研究[D].大连理工大学,教育经济与管理,2013,硕士.
[4]包莹.石墨烯基磁性纳米复合物的制备及其性能研究[D].西北师范大学,无机化学,2013,硕士.
[5]司徒涨勇,孟利民,黄成君.网络监控系统中多媒体同步控制的研究与实现[J].电声技术,2013,01:85-88.
[6]郭艳珍.基于Nakagami-m衰落的高移动性无线信道建模与仿真[D].西南交通大学,通信与信息系统,2014,硕士.
[7]吴平欢.侗语小舌音研究[D].广西民族大学,中国少数民族语言文学,2013,硕士.
[8]赵红艳.马氏珠母贝数量性状与微卫星的关联分析[D].广东海洋大学,海洋生物学,2013,硕士.
[9]沈跃龙.马克思主义视角下制度反腐中的制度意识研究[D].安徽大学,马克思主义发展史,2013,硕士.
[10]李玲燕.石墨烯/生态炭复合材料的制备及电性能研究[D].中国石油大学(华东),2013.
[11]杨泽民,陈莉.关联规则的并行挖掘算法[J].雁北师范学院学报,2002,02:11-13.
[12]王胜芳.关于π-可分群极大次正规对的研究[D].青岛大学,应用数学,2013,硕士.
[13]贠志皓,刘玉田,牟宏,雷鸣.基于线性目标规划的二级电压多目标控制[J].电力系统自动化,2008,19:25-29.
[14]林伟.配体结构对量子点光学性能影响的研究[D].北京化工大学,2013.
[15]尹珊珊.卫星定位系统在冬季两项训练中的应用研究[D].辽宁师范大学,体育教育训练,2012,硕士.
[16]金磊.呼唤公众绿色责任[J].工会博览.2001(11)
[17]刘伟.金属离子对氯化消毒副产物生成的影响及机理研究[D].哈尔滨工业大学,市政工程,2014,硕士.
[18]梁君.由思想而行动—南宋理学家伦理实践研究[D].上海师范大学,中国哲学,2012,博士.
[19]伍兵.试论CRM在证券行业的应用[J].南京社会科学,2004,07:35-39.
[20]张敬普.基于Web Service的教学实训平台的研究与实现[D].西安电子科技大学,计算机技术,2010,硕士.
[21]孙伟.门把手式人手生物特征识别系统设计与开发[D].哈尔滨工业大学,计算机科学与技术,2013,硕士.
[22]喻娅.对外汉语语音教学研究综论[D].华中科技大学,汉语国际教育,2013,硕士.
[23]谭秋霞.试论辛亥革命时期吴稚晖的民族主义思想[D].湖南师范大学,中国近现代史,2004,硕士.
[24]袁连海.数据仓库技术研究与实现[D].西南交通大学,2002.
[25]李明,邹才能,刘晓,吴海波,陈树民,蒙启安,陈根文,周普清.松辽盆地北部深层火山岩气藏识别与预测技术[J].石油地球物理勘探,2002,05:477-484.
[26]梁劲斐.基于FPGA的纳秒脉冲微细电解加工电源的研制[D].广东工业大学,机械制造及其自动化,2013,硕士.
[27]王荣富.《麦田里的守望者》——现代荒原中的逃避与追寻[D].广西师范大学,英语语言文学,2003,硕士.
[28]杨志.锂硫电池正极材料的制备及电化学性能的研究[D].兰州理工大学,2014.
[29]钟林林.信息网络传播权限制研究[D].广西师范大学,法学理论,2013,硕士.
[30]曹晓卫,刘洪霖,徐荣军,郑占喜,苗铁岭,徐玉军,姚忠卯.硅钢退火网络型专家系统[J].冶金自动化,1998,02:28-30.
[31]宋新立,陈英时,王成山,叶小晖,汤涌,吴国旸.全过程动态仿真中大型线性方程组的分块求解算法[J].电力系统自动化,2014,04:19-24.
[32]崔丽艳.会计师事务所审计质量的影响因素研究[D].山东财经大学,会计学,2013,硕士.
[33]王海燕.我国高速公路综合执法问题研究[D].西南政法大学,宪法学与行政法学,2012,硕士.
[34]张雷.基于C-MEMS/NEMS的葡萄糖浓度检测器件的研究[D].华中科技大学,2012.
[35]姜智超,吴森堂,金宪哲.折叠翼飞行器鲁棒飞行控制系统设计方法[J].控制与决策,2008,07:833-836+840.
[36]吴洁.不同基底材料烤瓷冠抗压强度的对比研究[D].河北医科大学,口腔临床医学,2014,硕士.
[37]陆树洋.层层自组装肝素/胶原复合涂层接枝CD133抗体促进小口径ePTFE人工血管内皮化的实验研究[D].复旦大学,外科学,2013,博士.
[38]贾晓.政策执行视角下流浪乞讨人员社会救助管理研究[D].厦门大学,行政管理,2014,硕士.
[39]爱莎拉(KizhanSalarAbdulqadir(Sarah)).《道林·格雷的画像》中的自恋情结[D].哈尔滨工业大学,外国语言学及应用语言学,2014,硕士.
[40]王瀛,张丽敏,胡天军.金属空气电池阴极氧还原催化剂研究进展[J].化学学报,2015,04:316-325.
[41]许洪华,刘科.确定性工业以太网EthernetPowerlink[J].冶金自动化,2004,04:23-25.
[42]郑娟.宽带泵浦光下SBS增益谱展宽的研究[D].西南交通大学,通信与信息系统,2012,硕士.
[43]姚锋.预应力锚固结构外露段动力特性研究[D].湖南科技大学,土木工程,2013,硕士.
[44]周广冲.一类有机膦酸锆固载金鸡纳碱衍生硫脲类催化剂的合成及其在不对称Michael加成反应中的应用[D].西南大学,有机化学,2013,硕士.
[45]赵夏,金文昱,李振勇.应用反褶积技术压制多次波的实例分析[J].石油地球物理勘探,2009,S1:39-43+167+7+6.
[46]陈祖玺.山区开采沉陷监测及数据处理方法研究[D].西安科技大学,大地测量学与测量工程,2013,硕士.
[47]肖可.接触 引进 创新[D].贵州民族大学,中国少数民族语言文学,2012,硕士.
[48]杨阳.基于视频的运动目标检测和跟踪技术[D].浙江大学,2014.
[49]丁凤丽.教师的幼儿评价话语研究[D].湖南师范大学,学前教育学,2013,硕士.
[50]冯蕾.黑龙江省水田稻稗对四种除草剂抗药性的初步研究[D].东北农业大学,农药学,2013,硕士.

相关推荐
更多