统计机器翻译中翻译知识优化方法研究

统计机器翻译中翻译知识优化方法研究

作者:师大云端图书馆 时间:2021-06-30 分类:参考文献 喜欢:1723
师大云端图书馆

【摘要】现有统计机器翻译系统对于大规模训练语料有着较强的依赖性,原因在于:大规模双语训练语料往往蕴含丰富的翻译知识和语言知识,对于翻译模型和目标语言模型都有着积极的指导作用。然而,随着训练语料规模的增长,往往会出现如下一种无法回避的负面问题:翻译知识中存在着冗余信息和错误信息,误导翻译模型和语言模型的学习与应用。为此,本文集中研究了统计机器翻译中翻译知识的优化问题,并提出解决这一问题的新方法,主要研究内容归纳如下:训练语料选择本文以训练语料的质量为评价标准,提出了基于分类的平行语料选择方法。利用句对特征的排序结果构建区分性较大的正负例句对,然后使用上述区分性较大的句对训练分类器,最后借助分类器自动地进行语料质量判定分类工作。判定完语料质量后,仅选择语料质量好的句对作为机器翻译系统的训练语料。在大规模语料上进行的实验表明本文所提方法能比基准系统高出0.87个BLEU点。翻译知识中噪音的过滤针对口语翻译系统中实词翻译丢失的问题,本文选择在层次短语模型上开展研究。针对层次短语模型特点,本文提出一种启发式的短语表(翻译知识)过滤方法。该方法有效地将一些含有实词翻译丢失现象的噪音短语进行排除。本文选择在口语翻译任务上进行实验,实验结果表明本方法能在有效缓解实词翻译丢失问题的同时提高BLEU值。翻译知识中主题信息的融合本文选择在调序模型中融入主题信息。首先,利用主题模型估计训练语料的主题信息,然后使用设计的主题信息特征模板抽取含有主题信息的调序实例,使用抽取出的调序实例训练调序模型。最后我们将融合文档主题信息的调序模型集成到机器翻译系统中,并设计出该系统的翻译解码过程。在大规模语料上的实验证明了本文所提方法的有效性。
【作者】王星;
【导师】姚建民;洪宇;
【作者基本信息】苏州大学,计算机应用技术,2014,硕士
【关键词】统计机器翻译;语料选择;短语表过滤;文档主题信息;

【参考文献】
[1]蔡剑华,汤井田.基于Hilbert-Huang变换的大地电磁信号谱估计方法[J].石油地球物理勘探,2010,05:762-767+792+623-624.
[2]闫国琦.统一潮流控制器稳态运行特性与数学模型的研究及其实验[D].广西大学,农业电气化与自动化,2004,硕士.
[3]别红彦.以离子液体为反应介质的碳—碳偶合反应的研究及在一些光电功能化合物合成中的应用[D].山西大学,有机化学,2004,硕士.
[4]靳鑫.基于局域网的医院信息管理系统的设计与实现[D].吉林大学,软件工程,2014,硕士.
[5]孙天怡.上市公司利益相关者对公司绩效影响的实证研究[D].沈阳理工大学,会计学,2012,硕士.
[6]童亚钧.针刺联合二甲双胍治疗青春期PCOS肝经郁热证的临床观察[D].湖南中医药大学,中医妇科学(专业学位),2014,硕士.
[7]王丽妙.河北省普通高校社会体育专业排球课程教学现状研究[D].河北师范大学,体育教育训练学,2012,硕士.
[8]姚璐,战涛.《播音教育月刊》与其复合型科学传播研究[J].西北大学学报(自然科学版),2014,02:338-344.
[9]路考生.不同剂量的硝酸甘油对于骨质疏松骨折术后辅助治疗作用的探究[D].山西医科大学,骨外科,2013,硕士.
[10]田佳.中国菜名的口译实践探究[D].苏州大学,翻译(专业学位),2013,硕士.
[11]王圣佳.美南浸信会在沪传教活动史研究[D].上海社会科学院,宗教学,2012,硕士.
[12]张继红,陈小全.基于RoughSets理论的Web信息提取方法的研究[J].北京交通管理干部学院学报,2005,03:38-40.
[13]朱娇.低渗透油田转油站集输系统能耗分布规律研究[D].东北石油大学,油气储运工程,2013,硕士.
[14]张桂敏.ZrO_2陶瓷表面化学镀镍工艺及性能研究[D].武汉理工大学,材料学,2004,硕士.
[15]张学伟.铅铋冷却反应堆主容器应力分析与评价[D].中国科学技术大学,核能科学与工程,2014,硕士.
[16]李勇.基于HHT的谐波检测分析与研究[D].兰州理工大学,电力系统及其自动化,2014,硕士.
[17]冯晓兰.论我国破产和解制度的困境与出路[D].吉林大学,法律,2013,硕士.
[18]李润梅,刘建忠,朱凤华.平行公交系统中的计算实验问题研究[J].自动化学报,2013,07:1011-1017.
[19]周帆.甘精胰岛素与低精蛋白锌胰岛素对比治疗2型糖尿病的低血糖风险的系统评价[D].广西医科大学,内分泌代谢(专业学位),2013,硕士.
[20]张立成.新疆西天山奈楞格勒多金属矿田成矿作用特征及成矿系统[D].中国地质大学(北京),矿物学、岩石学、矿床学,2013,硕士.
[21]雷晓.空化水射流喷丸316不锈钢的试验研究与有限元模拟[D].中国矿业大学,材料加工工程,2014,硕士.
[22]张竞飞.牛黄利咽丸含服治疗急性咽炎的临床观察[D].黑龙江中医药大学,中医五官科学(专业学位),2013,硕士.
[23]苗伟.石墨烯制备及其缺陷研究[D].西北大学,2011.
[24]江健.基于GEM模型的德化陶瓷产业集群竞争力研究[D].华侨大学,企业管理,2014,硕士.
[25]王军,姚红迪.对2015年价格预期调控目标的意见与建议[J].中国经贸导刊,2014,31:62-63.
[26]翁晓娟.马克思主义城乡统筹思想下的延安新农村建设研究[D].延安大学,马克思主义基本原理,2014,硕士.
[27]金德善.低温诱导绵头雪莲愈伤组织蛋白质组学研究[D].北京林业大学,生物化学与分子生物学,2013,硕士.
[28]陈少华,张存.低维纳米碳材料自组装及其增强复合材料的断裂行为[A].中国力学学会物理力学专业委员会.第十三届全国物理力学学术会议论文摘要集[C].中国力学学会物理力学专业委员会:,2014:1.
[29]陈歆孜.政府信息不存在的举证和说明[D].浙江大学,宪法学与行政法学,2012,硕士.
[30]李倩.我国非政府组织参与城市社区公共服务的问题及对策研究[D].吉林大学,行政管理,2013,硕士.
[31]曹雅坤.基于信息容量与景观指数的区域景观格局演变研究[D].西北大学,自然地理学,2013,硕士.
[32]贺楠.大连中山区流动人口计划生育社区化管理研究[D].大连理工大学,公共管理,2013,硕士.
[33]李凌.家族与非家族企业资本结构影响因素比较研究[D].东北大学,会计学,2010,硕士.
[34]吴程键.全膝关节置换治疗双膝关节重度屈曲畸形疗效分析[D].山东大学,外科学(专业学位),2013,硕士.
[35]胡云安,李静.块控非线性系统自适应神经网络控制[J].控制与决策,2012,06:855-860.
[36]孙凯.我国电子政府信息安全问题与对策研究[D].南京师范大学,行政管理,2012,硕士.
[37]狄振华.地下水问题及基于POD方法的降维模式研究[D].北京交通大学,2011.
[38]纪诚.从国家本位到个人本位[D].苏州大学,法律,2003,硕士.
[39]赵明宝.集体安全机制下中立制度的价值研究[D].吉林大学,法律,2014,硕士.
[40]胡巨洋.论《联合国国际货物销售合同公约》中卖方知识产权担保义务[D].宁波大学,民商法(专业学位),2012,硕士.
[41]宋丹,顾学道.具有迂回路由话务量多次溢出的有级网容量计算的“实用等效算法”[J].通信学报.1990(01)
[42]胡园园.介孔碳的石墨化改性及载Pt后的电催化性能[D].南京航空航天大学,2012.
[43]周光辉.深海设备回收无线信标机研制[D].杭州电子科技大学,电路与系统,2014,硕士.
[44]赵媛.具有时间多样性的虚拟机软件保护方法的研究与实现[D].西北大学,计算机软件与理论,2014,硕士.
[45]刘小亮.铁路隧道衬砌质量风险管理及在白露1#隧道中的应用研究[D].华东交通大学,管理科学与工程,2013,硕士.
[46]方桂才.重复使用运载器末端区域能量管理段制导律设计[D].南京航空航天大学,检测技术与自动化装置,2013,硕士.
[47]岳永达.hBDNF基因修饰rMSCs接种C/GP-NgR抗体水凝胶联合共培养实验研究[D].福建医科大学,外科学,2014,硕士.
[48]赵彩霞,郑大玮,何文清.植被覆盖度的时间变化及其防风蚀效应[J].植物生态学报,2005,01:68-73.
[49]孙蕊.一个面向IPv6的流量监测原型系统的设计与实现[D].东北大学,计算机软件与理论,2010,硕士.
[50]王剑.WEB应用程序点击劫持漏洞研究及防御方法[D].西安电子科技大学,密码学,2012,硕士.

相关推荐
更多