基于篇章修辞结构的多文档自动文摘系统的设计与实现

基于篇章修辞结构的多文档自动文摘系统的设计与实现

作者:师大云端图书馆 时间:2020-06-25 分类:硕士论文 喜欢:3463
师大云端图书馆

【摘要】随着大数据时代的到来,人们花费在搜索上的时间越来越多。面对着成千上万同一主题下的网页,它们大部分都包含着相同的信息,然而又包含着少量不同的信息。因此,人们迫切地需要能提供更有力的信息浓缩和筛选的加工工具。多文档自动文摘可以将多篇同一主题下的文章进行汇总和压缩,提供给人们全面、简洁的信息。实验室前课题组设计并实现了一个基于语义的单文档自动文摘系统。但是单文档自动文摘已经难以满足人们对获取大量准确信息的迫切需要。因此,本文设计并实现了一个多文档自动文摘系统,主要有以下几方面的成果:1.设计并实现了一个基于篇章修辞结构的多文档自动文摘系统,系统地描述了不同层面上文本单元之间的相互关系,并且提出了多文档的修辞结构框架。同时,本文将句子中特征词的权重、句子的句型、句子的位置等句子的多特征信息与多文档修辞结构相结合,从而共同来衡量句子的重要性。2.本文采用了一种混合聚类算法HCA,对多文档进行主题的划分。以段落为基本单位,混合聚类算法HCA是将K-Means算法与层次聚类算法相结合,从而有效地解决了多文档主题数目不能确定的难题。实验结果表明,混合聚类算法比单一的聚类算法对主题划分的准确度更高。3.由于多文档自动文摘是从同一话题下的多篇文章中抽取句子,因此,会有语句不连贯和信息冗余等缺点。为保证文摘准确并且有较好的可读性,本文对已经抽取的文摘句进行了冗余处理和句子压缩,生成更易阅读的文摘。基于上述的工作,最后我们开发并实现了一个多文档自动文摘实验系统。从哈尔滨工业大学多文档语料库中选取了20篇不同话题的多文档文章,每个话题下有3至7篇不等的关于该话题的报道,在该系统上进行了测试。实验表明,该系统能够有效地抽取不同话题的多文档文摘,评测效果比较理想,并且本系统具有良好的可用性和可移植性。
【作者】兰希;
【导师】雷蕴奇;
【作者基本信息】厦门大学,计算机技术,2014,硕士
【关键词】多文档自动文摘;篇章修辞结构;句子多特征;主题聚类;句子相似度;

【参考文献】
[1]万延岚.中学化学教师使用教科书的方式及影响因素研究[D].山东师范大学,课程与教学论,2013,硕士.
[2]朱君鸿.大功率高频开关电源同步整流器研究与设计[D].广东工业大学,电气工程(专业学位),2014,硕士.
[3]徐玉珠.踝臂指数对颅内外动脉粥样硬化性血栓患者心脑缺血事件预测价值研究[D].河北医科大学,神经病学(专业学位),2014,硕士.
[4]贾欢.移动图书馆可用性研究[D].重庆大学,图书情报与档案管理,2014,硕士.
[5]鄢艺.城市轨道交通直流保护实验系统设计与仿真[D].西南交通大学,电力系统及其自动化,2013,硕士.
[6]张帆.基于可拓实例推理的起重机械装配序列规划系统研究[D].浙江工业大学,机械制造及其自动化,2012,硕士.
[7]许晓楠.村上隆艺术创作与经营研究[D].河北大学,艺术学,2014,硕士.
[8]高惠英.胆红素对慢性支气管炎干预的实验研究[D].山西医科大学,呼吸内科,2002,硕士.
[9]王玉莹.社会排斥下不同自尊水平者对人际评价信息的注意偏向[D].西南大学,基础心理学,2013,硕士.
[10]曾菲.俄罗斯学前教育和初等普通教育衔接改革研究[D].东北师范大学,比较教育学,2012,硕士.
[11]斯拉瓦.高倍率锂离子电池一氧化硅/石墨烯负极材料的研究[D].哈尔滨工业大学,化学工程与技术,2013,硕士.
[12]陈达仕.汉字在企业形象识别系统(Ⅵ)设计中的应用研究[D].陕西科技大学,设计艺术学,2013,硕士.
[13]李延云.生物技术在饲料生产上的应用[J].农村新技术.2008(10)
[14]李昌鸿.CSTB反弹宇宙(Coupled Scalar Tachyon Bounce Cosmos)模型的构造、系统分析以及实验探测[D].南京大学,理论物理,2014,博士.
[15]姚晓敏,王万良,岑跃峰,王超超.一种面向HEVC的编码单元深度决策算法[J].计算机工程,2015,01:240-244.
[16]张善卿.从概念隐喻角度看英语隐喻思维能力[D].西南交通大学,外国语言学及应用语言学,2013,硕士.
[17]薛琳.GEBP11短肽对胃癌转移的抑制作用及其结合受体的筛选鉴定[D].第四军医大学,内科学(专业学位),2014,硕士.
[18]肖强.Android图形显示硬件加速和音频系统的研究与移植[D].武汉理工大学,电子与通信工程,2012,硕士.
[19]周静.汉俄味觉词隐喻性的对比分析[D].广东外语外贸大学,俄语语言文学,2013,硕士.
[20]胡笑形.重磅炸弹级农药的中间体市场与开发[J].今日农药,2014,02:26-31.
[21]许庆瑞,何秋琳,李晨,朱凌.我国工程教育联盟的建构与实施[J].高等工程教育研究,2015,01:6-10+31.
[22]贾国东.嗜酸乳杆菌S层蛋白抗病毒感染特性研究[D].东北农业大学,预防兽医学,2013,硕士.
[23]吴迪,武岳,孙瑛.大跨度屋盖结构极值风压概率分布特征研究[J].建筑结构学报,2015,03:29-35.
[24]陈仁海.高炉透气指数系统仪表参数设计[J].冶金自动化,1994,04:54.
[25]罗娟.双亲性纳米TiO_2复合粒子改性聚偏氟乙烯超滤膜的研究[D].湖南工业大学,材料学,2012,硕士.
[26]蔡文雅.Fe_3O_4模板SERS基底的构筑与应用研究[D].安徽大学,高分子化学与物理,2014,硕士.
[27]殷伟良.电视直播虚拟广告系统关键技术的研究[D].杭州电子科技大学,计算机软件与理论,2012,硕士.
[28]杨红敏.基于虚拟应力概念的周期排列圆柱形夹杂反平面问题研究[D].燕山大学,工程力学,2014,硕士.
[29]陈夙.中国汽车产业竞争力分析与提升[D].江西财经大学,产业经济学,2004,硕士.
[30]陈长红.增程式电动汽车控制策略的研究[D].辽宁工业大学,车辆工程,2013,硕士.
[31]李烁.广南广巴高速公路连接线项目工程质量与进度控制研究[D].西南交通大学,项目管理(专业学位),2013,硕士.
[32]刘海波.DNA修复基因多态性与胶质瘤发病相关关系研究[D].南方医科大学,神经外科,2014,博士.
[33]曾蓉蓉.行政法视野下的公私协力行为研究[D].宁波大学,法律,2014,硕士.
[34]伍飞云,周跃海,童峰.基于似零范数和混合优化的压缩感知信号快速重构算法[J].自动化学报,2014,10:2145-2150.
[35]徐晓轩.高中作文教学系统化研究[D].内蒙古师范大学,学科教学(专业学位),2013,硕士.
[36]涂琴丽.基于前线聚合原理的快速固化隐身涂料的研究[D].南昌航空大学,材料物理与化学,2013,硕士.
[37]管毓辉.变分原理及低阶单元在Cosserat连续体中的实现与应用[D].大连理工大学,岩土工程,2013,硕士.
[38]闫晨霞.《赎罪》中的立体主义叙述[D].河北师范大学,英语语言文学,2012,硕士.
[39]杨钰琦.粗糙面散射的BRDF方法研究[D].西安电子科技大学,无线电物理,2012,硕士.
[40]马利民.鄂尔多斯移动分公司PTN传输网络规划与建设[D].内蒙古大学,电子与通信工程,2014,硕士.
[41]郭万林,谷雨.郭万林纳米材料技术专家[J].航空制造技术,2014,13:30-31.
[42]雷吉成.可调节电流基准源的设计[D].西安电子科技大学,微电子学与固体电子学,2012,硕士.
[43]梁佳.喉癌组织中CD44v5、CD44v6的表达变化及意义[D].辽宁医学院,耳鼻咽喉科学,2012,硕士.
[44]王楠.论国家工作人员职务犯罪的法律规制[D].山东大学,法律(专业学位),2012,硕士.
[45]程思敏.基于编码和概率技术联合降低OFDM系统峰均比的研究[D].哈尔滨工业大学,信息与通信工程,2013,硕士.
[46]陈堂敏.数据挖掘重整风机监控系统的研究[J].计算机应用,2004,11:71-74.
[47]周小渟.生态翻译视角下译者的适应与选择[D].沈阳师范大学,外国语言学及应用语言学,2014,硕士.
[48]吉素芬.残缺意识与喜剧性超越[D].河南大学,中国现当代文学,2004,硕士.
[49]余福贵.欠发达地区农村义务教育经费管理体制研究[D].江西师范大学,教育管理,2003,硕士.
[50]巩建宇.人力资本与选择行为——国企改革前后企业职工的择业行为研究[D].吉林大学,社会学,2004,硕士.

相关推荐
更多