中文句子语义相似判定问题的众包解决方案

中文句子语义相似判定问题的众包解决方案

作者:师大云端图书馆 时间:2015-11-15 分类:硕士论文 喜欢:2125
师大云端图书馆

【摘要】随着计算机的普及以及互联网的迅速发展、海量信息以电子文档的形式出现在人们面前,如何快速准确地从大规模的文本信息中找到所需信息越来越困难。自然语言文本形式是最普遍的信息存储和信息交换形式,对中文句子语义相似判定研究是自然语言处理中的基本问题,是展开信息检索、信息抽取、数据挖掘、人工智能等任务的前提。中文是以长字符串形式的方式书写,其复杂的语义表达能力和词语的多歧义性使得计算机对中文进行语义分析难度很大。如何采用更加准确、高效的方法对语义相似度进行判定是亟待解决的问题。在中文句子语义相似度判定方面,人工的对句子进行标注是准确率很高的一种方法,但是这种方式不仅要花费大量的资金去雇佣人力,而且工作效率也很低,而传统的句子语义相似度计算方法依赖于词频统计、句法分析、句子结构分析等方法,由于中文语义的多义性、句式的多样性等方面的因素,现有的自然语义处理技术都存在不完善之处,因而导致句子语义相似度计算达不到很好的计算效果。“众包”是一种灵活有效并且成本较低的解决问题的方式,已逐渐得到越来越多人的关注,其采用“人计算”的思想,将一些计算和功能的实现外包给人特别是在线社区群体去完成,使得计算机与人进行协同工作,从而得到最佳的计算结果。中文句子语义相似判定问题中存在很多不可判定问题和NP问题,这些问题对于计算机来说是难以解决的,但是人本身具备更多的背景知识和良好的理解归纳能力,可以更好地解决这些问题。因此,这样的问题可以通过众包的方式去解决。在众包系统中,为了让众包工作者能够更好地完成任务,通常将复杂庞大的任务细分为一系列简单的任务,再将这些任务分发给一定数量的众包工作者,众包系统收集工作者提供的答案,并通过计算聚合,最终生成符合需求的结果。利用众包的方式解决此类问题不仅可以在短时间得内到大量的判定结果,同时也保证了结果的质量。本文分析了现有的中文句子语义分析技术以及现有的句子相似度计算存在的不足之处。设计了中文句子语义相似判定问题的众包解决方案,设计了相关句子扩展方法,将句子拓展成与其语义可能相似的句子集合;将相关句子集合中的句子两两组合,分配给众包工作者去完成;本文对众包模型中句子语义相似判定问题给出形式化定义,提出中文句子语义相似排序算法,并分析了其计算复杂度,证明众包排序算法是NP难问题,并给出了多项式时间可解决的启发式算法,从而得出句子语义相似度的排序序列;对于众包工作者,设计了评估众包工作者准确度的算法,保证了众包工作的质量;最后通过实验,验证了算法的正确性和可行性,同时分析了影响算法准确性和效率的因素。
【作者】石丹妮;
【导师】刘国华;徐骥;
【作者基本信息】东华大学,计算机技术(专业学位),2014,硕士
【关键词】句子语义相似度;众包;人计算;

【参考文献】
[1]欧阳慧.我国大学本科课堂互动状况研究[D].湖南大学,教育学,2013,硕士.
[2]王靖亭.催化装置压缩机建模与仿真研究[D].大连理工大学,机械工程,2003,硕士.
[3]杨凡.microRNA-1对宣威肺癌细胞生长抑制的研究[D].云南中医学院,中西医结合基础,2012,硕士.
[4]朱江.我国老年大学建筑设计探讨[D].浙江大学,建筑设计及其理论,2004,硕士.
[5]李舒亮.建设项目的风险管理效率研究[D].哈尔滨工业大学,2006.
[6]吴国政,秦玉文,张兆田.信息领域部分2009年结题国家杰出青年科学基金项目成果简介[J].中国科学基金,2010,03:169-174.
[7]王欣.我国城乡社会保障差距的综合评价分析[D].河北大学,统计学,2014,硕士.
[8]张贵领.基于SMT-Sweeping的多引擎等价性验证系统[D].吉林大学,计算机软件与理论,2013,硕士.
[9]李雷波.几个国际标准分组密码算法的安全性分析[D].山东大学,信息安全,2014,博士.
[10]耿五三.进一步加强共青团基层组织建设的思考[D].内蒙古大学,公共管理,2014,硕士.
[11]李中华,毛宗源,邬依林.一种新的基于模糊控制的电梯群控策略[J].控制与决策,2004,08:857-861+866.
[12]王攀洋.2.4GHz频段双向放大器设计[D].大连海事大学,电子与通信工程,2014,硕士.
[13]王晓宏.文化安全视野下内蒙古和谐社会的构建[D].内蒙古工业大学,马克思主义基本原理,2013,硕士.
[14]贺金秋.玄武岩纤维/ABS树脂共混物的制备与性能研究[D].哈尔滨工业大学,化学工程,2014,硕士.
[15]张翼,赵英娜,孙萌.基于负载模拟器系统的多余力键合图仿真研究[J].机床与液压,2014,23:156-160+179.
[16]高雅.低温低浊黄河水的优化混凝处理及对余铝的控制研究[D].西安建筑科技大学,环境工程,2013,硕士.
[17]马秀莉,刘健,童云海,唐世渭,杨冬青.基于模式索引树的增量挖掘[A].中国计算机学会数据库专业委员会.第二十届全国数据库学术会议论文集(技术报告篇)[C].中国计算机学会数据库专业委员会:,2003:3.
[18]臧洁.基于Android的GPS智能燃气巡线系统的设计与实现[D].山东大学,电路与系统,2013,硕士.
[19]杨宝付.ZTC4钛合金冲击板温成形工艺研究[D].华北工学院,材料加工,2004,硕士.
[20]管剑峰.右美托咪定对静吸复合全麻术后苏醒期躁动的影响[D].苏州大学,麻醉学,2013,硕士.
[21]胡为.二维复杂场地地震动显式数值模拟过程的精度比较[D].广东工业大学,工程力学,2013,硕士.
[22]程瑛琨,鄂晨光,刘明石,王仲男,林峰崴,周桂仙,滕利荣.鸡蛋、乌鸡蛋、鹌鹑蛋营养成分的测定比较[J].饲料工业.2005(07)
[23]张宏生.自蔓延高温合成法制备泡沫铝[D].太原科技大学,材料加工工程,2014,硕士.
[24]李吉.miR-222在结直肠癌细胞系HCT116中的表达及其靶基因c-Fos的鉴定[D].苏州大学,消化内科,2013,硕士.
[25]刘红伟.超分子自组装纳米复合体系的研究[D].中南民族大学,高分子化学与物理,2013,硕士.
[26]周峥.MicroRNA-122和MicroRNA-146a的SNPs与肝癌易感性和切除术后近期复发的关系[D].南方医科大学,临床医学,2014,博士.
[27]陈洁.美托洛尔治疗慢性心力衰竭临床研究[D].山西医科大学,心血管内科,2002,硕士.
[28]李伟.“文革”后期山东省农村信用社的整顿与改革研究[D].山东大学,中国近现代史,2013,硕士.
[29]梁淑丽.张炎《词源》批评论[D].牡丹江师范学院,文艺学,2012,硕士.
[30]马杰.南宋建康府军事防御若干问题研究[D].河北大学,中国古代史,2014,硕士.
[31]曾超.改性多壁碳纳米管对水中Sb(Ⅲ)的去除效能及机理研究[D].浙江大学,市政工程,2013,硕士.
[32]赵燕磊.n型有机共轭分子的合成及对氟离子的检测识别[D].河北大学,有机化学,2014,硕士.
[33]彭俏俏.我国企业失信惩戒机制研究[D].首都经济贸易大学,法律(专业学位),2013,硕士.
[34]杨自斌.混合动力客车EPS系统控制策略研究[D].河南科技大学,车辆工程,2014,硕士.
[35]周艳.中国风电产业制度变迁的路径依赖与政策设计[D].南京航空航天大学,行政管理,2013,硕士.
[36]郑泽蒙.苏州市工业园区中学体育校本课程开发与教师专业发展现状研究[D].苏州大学,体育教育训练学,2012,硕士.
[37]钱堃,唐继孟,张素燕,彭宏勤,朱宇婷.城市轨道交通在机场枢纽集疏运体系中的竞争力分析[J].交通运输系统工程与信息,2014,03:168-173.
[38]张斌.煤质管理系统设计与实现[D].电子科技大学,软件工程(专业学位),2012,硕士.
[39]陈志龙.下肢深静脉血栓形成患者PAC-1和D-二聚体的变化及其意义[D].川北医学院,外科学,2014,硕士.
[40]孙兰兰.关联理论在高中英语阅读教学中的应用[D].渤海大学,学科教学(专业学位),2014,硕士.
[41]刘召辉.涡北矿综放采场巷道采动影响规律及围岩控制对策[D].中国矿业大学(北京),岩土工程,2014,博士.
[42]李梦圆.“9·11”后美国青少年爱国主义教育研究[D].清华大学,马克思主义理论,2013,硕士.
[43]王茜.层级多孔Ni(OH)_2微纳米结构的可控制备及其电化学性能研究[D].河北师范大学,2012.
[44]武琳,刘志刚,洪祥.隔离式双向全桥DC-DC变换器的功率控制特性比较与分析[J].电工技术学报,2013,10:179-187.
[45]熊曾刚,张学敏,陈建新.基于XML的信息系统集成的研究[J].情报杂志,2005,06:25-27.
[46]李春燕.高中生生物科学素养的现状和对策[D].山东师范大学,教育,2012,硕士.
[47]刘永亮.ERP软件功能的可扩展性的研究[D].浙江大学,管理科学与工程,2003,硕士.
[48]黄启然.四轮独立驱动电动汽车用开关磁阻电机控制系统设计[D].重庆大学,车辆工程,2014,硕士.
[49]付凯.基于UKF的无线传感器网络定位技术研究[D].华中师范大学,计算机应用技术,2014,硕士.
[50]李光磊.控制性详细规划与城市设计的互补与融合[D].山东大学,城市规划与设计,2013,硕士.

相关推荐
更多