文本标注平台的设计原理与应用研究

文本标注平台的设计原理与应用研究

作者:师大云端图书馆 时间:2015-11-16 分类:参考文献 喜欢:3285
师大云端图书馆

【摘要】中国的语言在大型数据库建设方面主要集中于语音和词汇,而文本语法研究进展缓慢,导致这种情况主要有三方面的因素。首先,学术观念的约束,忽视了文本型的语言资源;其次,研究方法的制约,阻碍了文本标注语法研究的发展;最后,研究人员的缺少,中国民族语言众多而研究队伍成员不多。现如今越来越多的语言学家意识到真实文本语料的重要性,文本标注的语法研究也逐步取得了一些成绩,但当前用于语法标注与分析的文本处理方法和加工工具存在复杂繁琐问题,对于中国语言而言普适性不够好,尤其是处理有声调的语言,因此,通过计算机技术支持重新设计与开发一个用于文本处理实现语法标注的研究平台非常有必要且极其迫切的。本文主要目标就是想实现一个更适合中国语言文本标注的语法研究平台,具有实用性和高效性,语言学家可以高效、准确地完成生语料到熟语料的标注处理,建立语言学界一直都期盼的高效能隔行对照化格式的语言资源。本文重点论述了两个方面,一方面,改善语料资源来源的途径,丰富文本资源,扩大研究者自建的语料库;另一方面,改进文本资源加工的方法,完善文本处理,准确高效地完成语法标注。本研究基础技术由三个部分组成,输入技术、文本处理技术和输出技术。这三个部分的设计原理和解决策略构建起来也就是本平台的整体框架,为研究者提供一个更适合中国语言使用的语法研究平台,用于语法分析与文本标注。全文共分为八章:第一章:由语言资源与语法标注现状分析进而说明本研究的必要性与重要性。第二章:介绍文本标注平台的整体框架,以及本文主要技术方法的设计原理。第三章:通过本文提供的输入技术可以获取多种文本资源的来源方式,以及提出的语音快速录入形成文本的新途径。第四章:词典贯穿于整个研究平台,词典的重要性和词典设置,重点介绍了文本与词典的互动技术,隔行对照化、跳转插词和词典编辑的实现方法。第五章:句法分析,面对多种语言本文提出了改进的匹配算法提高了文本分词和匹配标注的效率性和准确性,重点阐述了文本分词的重要性和实现策略。第六章:形态分析,面对多种语言本文实现了屈折、粘着、变调、重叠和多义的语音语法语义现象的文本标注,提供了合理可行的解决方法。第七章:提供了多种资源成果的输出方式,包括语料、例句、勘拷灯、词典、词表等。可排版的隔行对照化格式,可筛选的检索结果输出,实用性非常强。第八章:总结了本文的创新之处,并对下一阶段的工作提出展望。本研究介绍了合理可行的文本资源来源方法,高效实用的语法标注处理方法,多样可排版的资源成果输出方法。本文采用词典策略、文本分词、隔行对照化、匹配标注、形态处理、深层和表层形式、词规则等技术方法完成了大量文本资源的语法标注。改善了中国语言资源挖掘与研究的方法,促进了少数民族语言和汉语方言真实文本资源语法标注的发展,同时对濒危性语言和非物质文化遗产有着极为重要的保护与保留作用。
【作者】杨小梅;
【导师】江荻;潘悟云;
【作者基本信息】上海师范大学,中国少数民族语言文学,2014,博士
【关键词】语言资源;文本;词典;语法分析;文本标注;

【参考文献】
[1]薛文瑞.高效率LED路灯驱动电源的仿真研究[D].东北石油大学,测试计量技术及仪器,2013,硕士.
[2]刘敏.基于ERP和TOC的生产物流管理模式及其关键技术研究[D].浙江工业大学,机械制造及自动化,2004,硕士.
[3]胡帅.环糊精与碳基纳米材料超分子组装体的构筑及其性能研究[D].浙江工业大学,2012.
[4]陈爱林,叶锋,耿明志,张海东,徐歆,任浩.一种IEC61850通用数据类数据库信息模型的建模方法[J].电力系统自动化,2013,13:88-92+113.
[5]韩晓.纳米化处理红景天多糖对猪精液冷冻效果的影响[D].上海海洋大学,临床兽医学,2013,硕士.
[6]冯叶.低温冲击对异养硝化—好氧反硝化菌HN-02的影响研究[D].西南交通大学,环境工程,2014,硕士.
[7]彭文.丹紫康膝冲剂对大鼠膝骨关节炎软骨端粒酶及Ⅱ型胶原影响的研究[D].湖南中医药大学,中医骨伤科学,2013,硕士.
[8]童慧.中英高校文化产业人才培养的比较研究[D].湖南师范大学,高等教育学,2014,硕士.
[9]赵梅.XX小额贷款公司业务模式及运营风险分析[D].吉林大学,工商管理,2012,硕士.
[10]李晓菊.美国黑人的主体性重建:对《宠儿》和《最蓝的眼睛》的主题性解读[D].安徽大学,英语语言文学,2013,硕士.
[11]徐京.基于水平集的医学图像分割算法研究[D].吉林大学,计算机应用技术,2014,硕士.
[12]胡俊.基于现代测量平差的InSAR三维形变估计理论与方法[D].中南大学,测绘科学与技术,2013,博士.
[13]吴利丰,刘思峰,闫书丽.区间灰数序列的灰色预测模型构建方法[J].控制与决策,2013,12:1912-1914+1920.
[14]张鑫.基于KMV模型的我国行业信用风险实证研究[D].厦门大学,金融学,2014,硕士.
[15]朱国伟.徐汇区学龄前儿童行为相关问题、感觉统合失调现状调查及干预意愿调查[D].复旦大学,公共卫生,2012,硕士.
[16]王占山,张化光.一类非线性系统的鲁棒故障估计[J].控制与决策,2005,12:1423-1425+1433.
[17]周兴.市场地位、商业信用及其信贷传导效应的研究[D].华侨大学,企业管理,2014,硕士.
[18]张瑜.体验学习:关注学生生命在场的学习方式[D].扬州大学,课程与教学论,2011,硕士.
[19]钱继云.《诗刊》与1980年代诗歌创作[D].苏州大学,中国现当代文学,2014,博士.
[20]栗智,顾毓清.图书发行企业的营销信息系统设计与实现[J].计算机系统应用,2004,12:9-11+34.
[21]滕传新.微/纳米塑料光纤的制备及其光传感特性研究[D].吉林大学,物理电子学,2013,硕士.
[22]贺川芝.C~n中F(p,q,s)空间的等价模[D].湖南师范大学,基础数学,2014,硕士.
[23]李澄琦.万寿祺及其诗文研究[D].南京师范大学,中国古代文学,2012,硕士.
[24]高洁.高中思想政治教学中学生问题意识的培养[D].苏州大学,学科教学(专业学位),2012,硕士.
[25]翟萌.中国房地产投资结构调整对策研究[D].辽宁大学,投资经济学,2012,硕士.
[26]张璇.新能源上市公司股利政策研究[D].陕西科技大学,会计学,2013,硕士.
[27]张大虎.基于主题的文本数据采集系统的研究与实现[D].东北大学,计算机软件与理论,2010,硕士.
[28]边捷.纳米阵列图案表面浸润性研究[D].南京大学,材料物理与化学,2014,博士.
[29]杨洁.以医院为基础的系统性红斑狼疮病例时空分布及相关气候因素研究[D].安徽医科大学,流行病与卫生统计学,2014,博士.
[30]杨晓奇.教学资源及其优化问题研究[D].南京师范大学,课程与教学论,2014,博士.
[31]孟梦.三维人脸表情识别[D].北方工业大学,信号与信息处理,2013,硕士.
[32]记者周莹.百亿新能源汽车项目落户我市[N].连云港日报,2013-05-09A02.
[33]杨猛.基于FBG的三维矢量加速度传感机理及技术研究[D].山东大学,控制科学与工程,2013,硕士.
[34]黄雨恒.农村小学教师专业发展个案研究[D].西南大学,课程与教学论,2013,硕士.
[35]洪菲,周立群,黄莹,宋荷娟,王婷,罗辛茹,伍珍.改进Hummers法化学合成石墨烯及其表征[J].化学与生物工程,2012,05:31-33.
[36]王璐.牛病毒性腹泻病毒E0基因的表达及间接ELISA检测方法的建立[D].新疆农业大学,预防兽医,2012,硕士.
[37]张杰.社会资本影响员工创造力过程模型研究[D].浙江大学,2007.
[38]孙波,张承慧,孙同景,薛永端.配电架空线路非接触式故障电流测量方法[J].电力系统自动化,2012,10:107-112.
[39]曹长修,程小平.利用频域拟合冗余原理直接求取连续系统离散降阶模型[J].控制与决策,1994,06:408-414.
[40]张丽君.铝/铝—镁合金铁路罐车疲劳性能研究[D].北京交通大学,2014.
[41]王巍.关于我国体育公共信息服务的研究[D].安徽工程大学,体育人文社会学,2012,硕士.
[42]罗菲菲,刘贵全,安景琪,张婷慧.一种分层聚类方法及其应用研究[J].成都理工大学学报(自然科学版),2005,06:649-652.
[43]于姗姗.不同频率WBV刺激对体育专业女大学生骨密度及骨代谢影响的研究[D].西安体育学院,运动人体科学,2013,硕士.
[44]林忠胜.混凝吸附法处理含油废水的技术研究[D].大连理工大学,环境工程,2004,硕士.
[45]刘梦露,方丽,李振华.盐酸帕唑帕尼的合成工艺改进[J].合成化学,2014,01:121-123.
[46]张诗林.高铁轴承耐久性能试验台电气控制系统研究[D].河南科技大学,机械工程(专业学位),2014,硕士.
[47]罗梦宁.基于复式晶格光控四波长THz调制器的研究[D].南京邮电大学,光学工程,2013,硕士.
[48]张淼.基于聚类分析的代谢综合征中医证侯研究[D].北京中医药大学,中医学,2014,硕士.
[49]林瑞艳.20世纪90年代以来当代少数民族文学与宗教关系研究评析[J].民族文学研究,2013,06:74-80.
[50]关茜.基于石墨烯复合纳米界面的电化学DNA传感器[D].青岛科技大学,2013.

相关推荐
更多