英文篇章结构分析关键问题研究

英文篇章结构分析关键问题研究

作者:师大云端图书馆 时间:2015-06-15 分类:论文格式 喜欢:4782
师大云端图书馆

【摘要】近三年来,篇章结构分析(DiscourseStructureAnalysis,简称DSA)受到了计算语言学界的广泛关注(据统计,每届ACL、COLING和EMNLP会议上均发表8篇以上篇章结构分析方面的论文,而这方向的投稿文章则达30篇以上)。篇章结构分析研究成为了继传统信息抽取/信息检索、机器翻译和句法/语义分析领域之后的又一个研究热点。DSA旨在研究自然语言文本的内在结构,通过对文本单元(可以是词、短语、从句、句子或段落)的上下文进行全局分析来理解文本单元间的语义关系。因此,篇章结构分析能够抽取出文本内部丰富的结构化信息,对自然语言理解和自然语言生成均起着至关重要的作用。目前主流的DSA研究比较注重篇章中的词汇层面信息,例如:篇章中单词、单词形态学变化和单词对等;然而,篇章中句子的态度和句子的衔接方式等方面的信息却少有研究,导致目前的篇章结构分析性能不高。鉴于此,本文围绕学界广泛关注问题,在以下三个方面展开研究。具体而言:1.隐式篇章关系识别(ImplicitDiscourseRelationRecognition,简称IDRR)研究。本文在研究了基于单词对、语言模型和树核函数的隐式篇章关系识别模型的基础上,提出了一个基于态度韵律理论的隐式篇章关系识别模型。该模型通过计算句子的态度/情感来识别隐式篇章关系,并采用复合核方法集成了一种依存词对树核结构。上述方法在国际基准语料PennDiscourseTreebank(PDTB)2.0上进行试验,实验表明采用基于态度韵律理论的隐式篇章关系识别模型后,IDRR的准确率与目前基于单词对、语言模型和树核函数的方法相比得到显著提升。2.篇章论元识别(DiscourseArgumentIdentification,简称DAI)研究。本文从句内(连接词与论元处于同一句)和句外(连接词与论元不处于同一句)两种情形分别处理DAI。针对句内情况,在研究基于组块、基于分类和基于句法树裁减方法的篇章论元识别模型的基础上,提出了一个基于浅层语义分析框架的篇章论元识别模型。该模型将篇章连接词看作谓词,并将谓词的论元映射成句法树中的一些组块,将传统方法的组块层次研究提升为具有丰富句法信息的句法树层次,同时将组块而不是单词作为篇章论元的识别单元。针对句外情况,本文提出了一种轻量级的规则解决方案,将连接词到当前句尾的单词序列和连接词的前一句分别作为连接词对应的两个论元。上述方法在国际基准语料PDTB上进行试验,实验表明采用基于浅层语义分析框架的篇章论元元识别模型后,DAI的F1值与目前基于组块的方法相比得到显著提升。3.篇章连贯性建模(DiscourseCoherenceModeling,简称DCM)研究。本文在研究了基于实体和基于篇章关系的篇章连贯性模型的基础上,提出了一个基于主位-述位结构衔接性理论的篇章连贯性模型。该模型通过计算句子中主位和述位的相似度来描述篇章连贯性,并采用规则方法集成了基于主位结构和指代消解的两种篇章连贯性过滤机制。上述模型在五种不同文体的国际基准语料上进行试验,实验表明采用基于衔接性理论的篇章连贯性模型后,DCM的准确率与目前基于实体和篇章关系的有监督学习方法相比得到显著提升。在此基础上,本文设计了基于树核的英文篇章结构分析平台,并将上述三个关键问题的研究算法一并加以集成。为了验证上述方法对自然语言处理相关应用的实际作用,本文引入了学生作文的可读性评估作为测试实例,通过线性拟合等方法,将篇章关系值和篇章连贯性值作为可读性评估值。上述研究在开放语料上建立模型,并在实际语料上进行试验,结果表明了本文构建的英文篇章结构分析平台对于学生作文可读性评估十分有效,与目前基于实体和基于篇章关系的有监督学习方法相比,在算法精度和减少对大规模语料库的依赖性等方面具有优势。本文的创新点主要表现在:(1)针对隐式篇章关系识别研究,提出了基于态度韵律理论的隐式篇章关系识别模型。该模型通过计算句子的态度/情感来识别隐式篇章关系,并采用复合核方法集成了一种依存词对树核结构。与同类方法相比,在国际基准PDTB语料上将隐式篇章关系识别性能提升了大约6%;(2)针对篇章论元识别研究,提出了基于浅层语义分析框架的篇章论元识别模型,将传统方法的组块层次提升为具有丰富句法信息的句法树层次,同时将组块而不是单词作为篇章论元的识别单元。与同类方法相比,在国际基准PDTB语料上将标准句法树和自动句法树上的篇章论元识别性能分别提升了大约2%和6%;(3)针对篇章连贯性建模研究,提出了基于主位-述位结构衔接性理论的篇章连贯性模型,通过计算句子中主位和述位的相似度来描述篇章连贯性,并采用规则方法集成了基于主位结构和指代消解的两种篇章连贯性过滤机制。与同类方法相比,在国际基准Accident、Earthquake、Wallstreetjournal、Britannicalelementary语料上将篇章连贯性检测性能分别提升了3%-6%。本文的主要贡献:对篇章结构分析中的关键技术进行了深入的研究,提出了相关问题的一些解决方法,并设计了相应的算法和实验。实验表明,本文提出的这些方法有助于提高篇章结构分析的性能,同时减少对大规模语料库的依赖性,为今后的篇章结构分析研究奠定了一个重要基础,为同类研究提供了一个参考。
【作者】徐凡;
【导师】朱巧明;
【作者基本信息】苏州大学,计算机应用技术,2013,博士
【关键词】自然语言处理;篇章结构分析;态度韵律理论;浅层语义分析;主位-述位结构理论;

【参考文献】
[1]鞠文才.马克思主义信仰的科学解析与现实建构[D].东北师范大学,马克思主义理论与思想政治教育,2003,硕士.
[2]叶赟.多种滞回模型下单自由度体系的弹塑性反应谱分析[D].浙江大学,结构工程,2013,硕士.
[3]张俊珊.铁水联运适箱货物品类标准研究[D].西南交通大学,交通运输规划与管理,2013,硕士.
[4]丁明波.铁路重力式桥墩抗震加固方法研究[D].兰州交通大学,桥梁与隧道工程,2013,博士.
[5]岳文杰.提灌站无线测控终端的设计研究[D].西南大学,农业电气化与自动化,2014,硕士.
[6]记者陈晶泽.华丽家族大股东高调进军石墨烯[N].第一财经日报,2012-04-17A15.
[7]刘刚.药品研发过程中的资金管理问题探讨[D].首都经济贸易大学,工商管理(专业学位),2014,硕士.
[8]关婷婷.冷却猪肉保鲜技术研究[D].江西农业大学,农产品加工与贮藏工程,2012,硕士.
[9]李敏.聊城市出生人口性别比问题研究[D].吉林大学,社会医学与卫生事业管理,2013,硕士.
[10]丁祖德,陈明.加快上海公交车辆的更新改造[J].城市公用事业.1994(01)
[11]刘晋帅.基于OOA的门式起重机金属结构CAD系统开发方法研究[D].太原科技大学,机械设计及理论,2013,硕士.
[12]姜海静,邱平达,赵雪,蒲薇华,蔡克迪.混合型电容器研究进展[J].渤海大学学报(自然科学版),2014,03:289-293+306.
[13]刘哲.浐灞生态区建设的景观格局变化及其生态效应分析[D].西北大学,自然地理学,2013,硕士.
[14]潘东霞.浙江省居民膳食营养素摄入与血脂关系的流行病学研究[D].宁波大学,流行病与卫生统计学,2013,硕士.
[15]邹永波.伊立替康联合5-氟尿嘧啶与亚叶酸钙方案治疗晚期结直肠癌的毒副作用预测及疗效预测[D].吉林大学,外科学,2014,硕士.
[16]孟菲.中国农村社会养老保险缴费问题研究[D].东北农业大学,金融学,2013,硕士.
[17]王丹.长白山垂直样带森林土壤碳矿化及其温度敏感性研究[D].西南大学,自然地理,2014,硕士.
[18]匡小霞.高频感应加热电源的研究[D].南昌航空大学,控制工程(专业学位),2013,硕士.
[19]隋嵩.决策支持系统建设浅析[J].辽宁商务职业学院学报(社会科学版),2004,03:19-20.
[20]朱彦.数据挖掘在国税信息化中的应用[D].天津大学,2004.
[21]赵祝浩.偏心结构利用粘滞阻尼器减震分析及优化设计[D].辽宁工程技术大学,结构工程,2012,硕士.
[22]秦琴,娄峰.多媒体教学环境下输入模态对英语写作体系发展影响的实证研究[J].外语界,2012,06:58-65.
[23]赵鹏辉.基于氮掺杂石墨烯和Fe_2O_3复合电极材料的制备及其超级电容器性能研究[D].西北大学,光学,2014,硕士.
[24]冷耀军.从危机到彼岸:一个尚待实现的梦想[D].广西师范大学,现当代文学,2003,硕士.
[25]常晨.数字图像修复技术及其在图像压缩中的应用[D].山东大学,电路与系统,2013,硕士.
[26]董敏容.浙江大华公司市场营销战略研究[D].山东师范大学,工商管理(专业学位),2013,硕士.
[27]马彩云.绿茶多酚对癫痫大鼠海马XIAP和Caspase-3表达的影响[D].河北医科大学,神经病学,2013,硕士.
[28]汪璟玢.空间数据仓库的数据集成研究[D].福州大学,2003.
[29]周唯阳.串联布局TBCC可调喷管的设计、仿真与实验研究[D].南京航空航天大学,航空宇航推进理论与工程,2012,硕士.
[30]王素侠.急性心肌梗死患者住院期间治疗状况的单中心研究[D].吉林大学,临床医学,2014,硕士.
[31]邓冠南,牛冬杰.微生物燃料电池阴极研究进展[J].能源与节能,2015,03:70-73.
[32]万亮.内部控制及其影响下的审计博弈分析[D].首都经济贸易大学,会计学,2004,硕士.
[33]沈洪波.对既有线200km/h动车组列控系统的认识[J].铁道通信信号.2006(09)
[34]任宝娣.童话中的概念隐喻探析[D].西安电子科技大学,外国语言学及应用语言学,2012,硕士.
[35]陈庆海.存款保险制度的国际比较研究[D].吉林大学,世界经济,2004,硕士.
[36]叶向梅.2003-2013年中国两会期间德国《明镜周刊》中国报道中的政治形象研究[D].浙江大学,德语语言文学,2014,硕士.
[37]李晓辉.声乐套曲《天鹅之歌》演唱研究[D].天津音乐学院,音乐表演,2014,硕士.
[38]宋敏.CD137L在急性髓细胞白血病中的突变表达及临床意义研究[D].青岛大学,病理与病理生理学,2011,硕士.
[39]王玲.“微暗的火”照亮晶莹之地[D].四川外国语大学,英语语言文学,2014,硕士.
[40]许恒周,郭玉燕,石淑芹.农民分化对农户农地流转意愿的影响分析——基于结构方程模型的估计[J].中国土地科学,2012,08:74-79.
[41]李辉.应然性与实然性的协调统一——论生命刑的限制[D].华东政法学院,刑法学,2004,硕士.
[42]黄艳丽.高中书法教育的现状、问题与求解[D].山东师范大学,学科教学(专业学位),2013,硕士.
[43]黄士元.12.5兆牛挤压机的挤压筒改造[J].轻合金加工技术.1991(05)
[44]王维娜.RECK和MMP-9在口腔鳞状细胞癌中的表达及其临床意义[D].吉林大学,口腔临床医学,2013,硕士.
[45]欧小松.四川省电子政务网管中心业务管理信息系统的设计与实现[D].电子科技大学,软件工程(专业学位),2012,硕士.
[46]房冰净.湖北省黄梅县35岁以上居民高血压病流行现状及生活质量评价[D].华中科技大学,公共卫生,2013,硕士.
[47]彭珑.基于清开灵注射液解热作用的PK-PD结合模型研究[D].北京中医药大学,药物分析,2014,硕士.
[48]徐俐媛.智能手机应用与博物馆教育研究[D].吉林大学,考古学及博物馆学,2013,硕士.
[49]霍传勇.陕西移动通信公司客户价值评价及提升方法研究[D].西北工业大学,2005.
[50]张德健.胸部CT检查中两种低辐射剂量技术应用研究[D].山东大学,影像医学与核医学,2013,硕士.

相关推荐
更多