基于Hadoop的并行实体解析方法研究与应用

基于Hadoop的并行实体解析方法研究与应用

作者:师大云端图书馆 时间:2016-07-07 分类:硕士论文 喜欢:3882
师大云端图书馆

【摘要】实体解析用于判断两个数据记录是否描述的是现实世界中的同一实体对象。它对于数据集成、数据清洗、数据去重和处理优化都十分重要。实体解析所处理的对象不仅局限于数据记录,还包括在文本文件比对、文档查重、人脸图像识别、指纹识别等一些具有特定解析需求的实际应用中。从参与实体解析的主体角度来看,可以将实体解析的方法分为两大类,即基于机器算法的实体解析和基于人工的实体解析。纯粹的机器算法解析虽然可以获得较高的效率,但是解析的准确率却难以保证;同样,单纯的众包或人工解析虽然可以获得很好的准确率,但是解析的效率却远不及机器解析。本文提出一种结合机器算法和人类智能的实体解析方法,即基于人机协作的实体解析。该方法首先采用基于Hadoop开源项目中的MapReduce并行计算框架,运行基于相似性计算或机器学习算法,排除不可能匹配的记录对,减少人类智能任务的数量,然后由人工进行确定性标注。论文的主要工作包括:1)对实体解析方法和框架进行了综述;2)提出了基于众包与机器处理相结合的实体解析方法;3)提出了基于MapReduce的并行实体解析框架;4)将方法和框架应用于某医院患者主索引构建平台。实验结果表明,人机协作的实体解析方法充分发挥了机器和人工处理各自的优势,为患者实体解析带来高效率和高精度。
【作者】张洋舜;
【导师】燕彩蓉;
【作者基本信息】东华大学,计算机系统结构,2014,硕士
【关键词】实体解析;众包;Hadoop;MapReduce;人机协作模式;

【参考文献】
[1]罗明.建筑业人工成本发展现状及影响因素研究[D].重庆大学,建筑与土木工程(专业学位),2014,硕士.
[2]李俊.文人水墨画的形式遗产及其现实运用[D].中南民族大学,设计艺术学,2013,硕士.
[3]叶向梅.2003-2013年中国两会期间德国《明镜周刊》中国报道中的政治形象研究[D].浙江大学,德语语言文学,2014,硕士.
[4]邹晓艳.鸡白介素6的原核表达及单抗的研制[D].扬州大学,预防兽医学,2012,硕士.
[5]褚浩然.基于IEEE 802.16的MAC层调度算法研究[D].南京邮电大学,通信与信息系统,2013,硕士.
[6]汪达尊.论多层工业建筑结构体系的发展[J].建筑施工.1986(03)
[7]王琪,廖文和.支持快速设计的重用策略研究及其应用[J].计算机工程与应用,2004,10:205-207+210.
[8]裴章凯,詹庄影.以先进的信息技术打造海南“数字金融”[J].华南金融电脑,2002,09:9-10.
[9]韩朝霞.神华C80万吨列车摇枕和侧架载荷谱研究[D].北京交通大学,2015.
[10]支磊.民族高校硕士研究生就业满意度研究[D].中南民族大学,教育经济与管理,2013,硕士.
[11]李景.哥伦比亚花烛的组织培养研究[D].华中农业大学,园林植物与观赏园艺,2001,硕士.
[12]赵艳侠.钛盐混凝剂的混凝行为、作用机制、絮体特性和污泥回用研究[D].山东大学,环境工程,2014,博士.
[13]杨志华.顺口溜在思想政治课教学中的实际应用研究[D].河北师范大学,农村教育,2014,硕士.
[14]李容萍.《骆驼祥子》英译的概念隐喻研究[D].南京农业大学,英语语言文学,2011,硕士.
[15]珍姆中(DieterleSimson).中国与德国新创企业成功要素的比较研究[D].哈尔滨工业大学,企业管理,2014,硕士.
[16]左臣.基于复合生态系统的青海郭么日村落空间结构研究[D].西安建筑科技大学,设计艺术学,2013,硕士.
[17]孙华丽,谢剑英.基于暂态混沌神经网络的多车调度混合优化算法[J].控制与决策,2007,01:105-108+112.
[18]王婕颖.基于Android平台的语音调度系统客户端设计实现[D].西南交通大学,信号与信息处理,2013,硕士.
[19]刘勇国,李学明,廖晓峰,吴中福.基于数据挖掘的入侵检测[J].重庆大学学报(自然科学版),2002,10:128-131+135.
[20]刘晨.反就业歧视法律问题研究[D].首都经济贸易大学,经济法学,2013,硕士.
[21]郑锋.小型西瓜四倍体诱变及不同倍性果实性状与胚胎发育研究[D].海南大学,作物遗传育种,2012,硕士.
[22]吴星.漳州吉马葡萄酒市场营销策略研究[D].华侨大学,工商管理(专业学位),2013,硕士.
[23]郑松宽.高压下固态联氨的第一性原理研究[D].吉林大学,凝聚态物理,2013,硕士.
[24]李晓云.中国共产党对马克思主义发展观的探索[D].信阳师范学院,科学社会主义与国际共产主义运动,2014,硕士.
[25]耿振伟.抚钢30t电炉—炉外精炼工艺优化研究[D].东北大学,冶金工程,2010,硕士.
[26]胡晓菊.几种元素对Mg-6Al合金铸态组织和焊丝组织及力学性能的影响[D].大连理工大学,材料加工工程,2004,硕士.
[27]张少波.基于停站时间模型的列车运行图生成及延迟分析[D].北京交通大学,2014.
[28]刘潋.不规则图形识别在远程医学网络教学系统中的应用[D].南京理工大学,计算机技术,2011,硕士.
[29]刘天斌,张月品.同塔并架线路接地距离保护零序电流补偿系数整定[J].电力系统自动化,2008,10:101-103.
[30]彭超.利用累托石合成堇青石的研究[D].武汉理工大学,材料加工,2003,硕士.
[31]何博.折叠臂式桥梁检测车有限元分析及实用工具的开发[D].吉林大学,工程力学,2014,硕士.
[32]陈妍.智能电网中电力用户需求侧负荷管理与应用[D].华中科技大学,水利水电工程,2013,硕士.
[33]章海霞.电弧放电法制备洋葱状富勒烯的研究[D].太原理工大学,材料加工工程,2004,硕士.
[34]李婷婷.庄吉集团资金链危机原因及对策探讨[D].华中科技大学,会计,2013,硕士.
[35]刘立成.伊马替尼(格列卫(?))靶向治疗胃肠道间质瘤的临床疗效分析和蛋白CD133与CAⅡ对患者预后的影响[D].中国人民解放军医学院,普通外科(专业学位),2013,硕士.
[36]刘鸿江.打车软件对出租车市场的影响研究[J].商,2014,02:125.
[37]胡艳昭.关节镜清理术配合中药超声导入治疗膝骨性关节炎的疗效观察[D].北京中医药大学,中西医结合临床(专业学位),2014,硕士.
[38]王任波,陈鑫,勾艳凤.高温超导电磁铁磁场衰减时间常数特性研究[J].低温物理学报,2014,04:294-297.
[39]廖茂荫.利用某金矿尾矿制备纳米二氧化硅的方法研究[D].广东工业大学,矿山固体废物资源化,2012,硕士.
[40]杨基鸿.基于ARM和FPGA的NAVTEX接收机研究与设计[D].浙江大学,电子与通信工程(专业学位),2013,硕士.
[41]刘红伟,李俊峰,王常飞.1000kV特高压输电线路在线监测管理平台的应用[J].电力系统自动化,2009,23:98-102.
[42]彭援援.榕江县中小学校园文化特色建设问题研究[D].西南大学,教育经济与管理,2013,硕士.
[43]才溪,赵巍.Contourlet变换低通滤波器对图像融合算法影响的讨论[J].自动化学报,2009,03:258-266.
[44]钱富才,伍光宇.一种T-S模型的在线辨识算法[J].控制与决策,2015,02:343-347.
[45]方爽.政府应对网络空间下舆论危机的引导研究[D].哈尔滨工业大学,设计学,2014,硕士.
[46]林巧.考虑多种因素下权益指数年金的定价[D].重庆大学,概率论与数理统计,2014,硕士.
[47]凌东1,谷建华1,2.一种采用消息模型的多集群作业管理方案设计[J].计算机技术与发展,2014,08:.
[48]李书娜.一个带有周期边界条件的4×4微分方程特征值问题特征函数系的完备性[D].郑州大学,应用数学,2013,硕士.
[49]陈铁夫.微博传播对社会舆论格局的影响[D].渤海大学,新闻学,2013,硕士.
[50]邵斌.双缸拉床电液伺服同步驱动系统研制[D].杭州电子科技大学,机械电子工程,2013,硕士.

相关推荐
更多