基于层叠条件随机场的电子病历命名实体识别

基于层叠条件随机场的电子病历命名实体识别

作者:师大云端图书馆 时间:2020-12-27 分类:参考文献 喜欢:1680
师大云端图书馆

【摘要】适当的模型选取与有效的特征设计对命名实体的识别效率有着重要的影响。电子病历文本中,命名实体内部嵌套现象普遍、结构复杂,且由于其领域的独特性使得在一般领域中应用效果较好的实体识别模型也难以直接移植。此外,当前的命名实体识别模型所采用的特征一般为字符、词性等较为基本的底层特征,缺少近似于人类识别的高层特征,如语义特征。通过对隐马尔科夫模型(HMM)及最大熵马尔科夫模型(MEMMs)的相关描述引出了条件随机场模型(CRFs)。CRFs模型的线性链结构使得它能够添加任意特征,继承了MEMMs的优点;此外,CRFs模型只需要考虑当前已经出现的观测状态特征,没有严格的独立性要求,克服了HMM存在的不足;且其求解的是全局最优解,很好地解决了MEMMs的标记偏置问题,为命名实体识别提供了一个特征灵活、全局最优的标注框架。因此,选择CRFs模型为基础模型,并针对电子病历文本中实体内部嵌套现象普遍、结构复杂的问题,设计了层叠的CRFs模型对疾病名称与临床症状两类命名实体进行识别,主要工作内容如下:(1)建立了层叠的CRFs模型框架。将复杂的电子病历实体识别任务分成两个相对简单、相互关联的子层。首先,用第一层CRFs模型识别身体部位和基本疾病名称两类实体;然后,将识别结果传递到第二层CRFs模型,用于疾病名称和临床症状两类复杂实体的识别。这一过程实现了有效特征信息的传递,降低了任务的复杂度。识别效果优于单层的CRFs模型。(2)针对层叠的模型框架,结合命名实体的结构特点有针对性的自定义了两个特征:实体特征与融合特征。首先用第一层CRFs模型的输出结果作为实体特征,而融合特征是由实体特征与词性特征所组成的。自定义特征在语义层面上体现了命名实体的内部结构规律,降低了信息冗余,减少了计算量,实现了对具有嵌套结构的复杂实体的有效识别。识别效果优于使用普通特征组合的层叠CRFs模型。同时,通过实验结果还发现本文模型可以识别出训练样本中未出现的命名实体,为语料库中新词的识别提供了可能。(3)选用90份手动标注的电子病历(30份骨科,60份心脑血管科),随机抽取20份骨科病历与40份心脑血管科病历用于训练,余下的30份病历用于测试。通过对特征参数对比实验得到了最优结果,最优参数组为:第一层模型上下文窗口长度为3,第二层模型上下文窗口长度设置为7;标记颗粒度为字粒度;边界特征编码格式选用BIOES编码格式。在最优特征参数下得到整体F值可达97.64%,准确率可达97.89%,召回率可达97.38%。整体F值指标较使用普通的特征组合形式的模型算法高9.5%,较单层的CRFs模型提高了5.6%。验证了结合自定义特征的层叠CRFs模型对电子病历中命名实体识别任务的有效性。
【作者】王云吉;
【导师】王珂;DunweiWEN;
【作者基本信息】吉林大学,信号与信息处理,2014,硕士
【关键词】层叠条件随机场;条件随机场;命名实体识别;电子病历;融合特征;

【参考文献】
[1]刘菲.迁移工作流系统中的动态适应性研究[D].山东大学,2008.
[2]杨毅.EPC抗氧化应激通路Nrf2/ARE对鲤春病毒的响应[D].华中农业大学,水产养殖,2014,硕士.
[3]翟会.电缆振动筛选设备的研究与开发[D].南京航空航天大学,电路与系统,2012,硕士.
[4]田苗苗.新型样品前处理方法在食品分析中的应用[D].吉林大学,2014.
[5]韩娜.初中英语课堂上学生参与情况的调查研究[D].山西师范大学,课程与教学论,2014,硕士.
[6]周晓梅.诵读方法的演变及当代价值[D].西南大学,课程与教学论,2013,硕士.
[7]周媛.形象思维训练对小学生景物描写的促进作用[D].辽宁师范大学,心理健康教育(专业学位),2012,硕士.
[8]郭康.监控视频中特定人查找方法研究[D].华北电力大学,信号与信息处理,2012,硕士.
[9]王超.慢性肾脏病的尿液蛋白质组学及升清降浊胶囊的作用机制研究[D].广州中医药大学,中医内科学(专业学位),2014,博士.
[10]吴旭波.基于生物力学的防护性网球运动服装的研究[D].上海工程技术大学,服装设计与工程,2014,硕士.
[11]张学彩.山东省民营高新技术企业创新型文化构建研究[D].济南大学,技术经济及管理,2012,硕士.
[12]张红红,母彦丽.铁路客站步行广场空间形态研究——以唐山北站步行广场更新设计为例[J].华中建筑,2015,03:65-68.
[13]张琰.MIMO-SCFDE通信系统中改进的IIC检测算法[D].山东大学,通信与信息系统,2013,硕士.
[14]臧超.基于支持向量机的传感网络链路质量预测机制研究[D].南昌航空大学,控制工程(专业学位),2013,硕士.
[15]鲁青攀.无线传感器网络低能耗的MAC协议的设计与实现[D].东北大学,计算机系统结构,2010,硕士.
[16]苏朋朋.我国高校学生的校政参与问题研究[D].渤海大学,教育学原理,2013,硕士.
[17]刘洋.嵌入式伺服控制系统设计[D].中国科学院研究生院(长春光学精密机械与物理研究所),机械电子工程,2013,硕士.
[18]韩冠.基于多媒体的在线协作学习系统[D].西安电子科技大学,电路与系统,2012,硕士.
[19]卞强.可持续发展定义透视与重建研究[D].哈尔滨理工大学,科学技术哲学,2012,硕士.
[20]杨迪迪.短孔道有序介孔催化剂的设计及其催化水介质清洁有机反应的研究[D].上海师范大学,2012.
[21]程威.Mg-Zn-Y-Zr合金变通道转角挤压数值模拟与实验研究[D].太原科技大学,材料学,2013,硕士.
[22]唐丽.基于微博的信息隐藏技术研究[D].湖南大学,电子与通信,2012,硕士.
[23]胡开菊.李乔前后期小说创作艺术风格变化研究[D].华中师范大学,农村与区域发展,2014,硕士.
[24]冯毅.JPEG XR的码率控制算法研究[D].西安电子科技大学,计算机应用技术,2011,硕士.
[25]谌丽莎.运用网络开展高中英语教学的实践与反思[D].浙江大学,学科教学(专业学位),2013,硕士.
[26]梁锦霞.MgB_2超导块体材料的研究[D].北京工业大学,材料学,2004,硕士.
[27]魏慧宾.基于AMESim的液压履带式强夯机提升机构液压系统仿真与研究[D].长安大学,机械工程(专业学位),2013,硕士.
[28]孙际薇.茉莉酸甲酯对曼陀罗毛状根的生长及次生代谢产物产生的影响[D].西南大学,植物学,2014,硕士.
[29]李昭.IBM公司战略转型研究[D].北京交通大学,2013.
[30]席莹莹.绿肥种类和种植方式对水稻产量、养分吸收及土壤肥力的影响[D].华中农业大学,植物营养学,2014,硕士.
[31]杨东霞.VEGF、HIF-1α和Ki-67在肺癌中的表达及与转移、预后的关系[D].青岛大学,病理学,2003,硕士.
[32]冯俊娥,程兆林.一类奇异时滞系统的奇异二次指标最优控制问题[J].控制与决策,2002,06:871-875.
[33]张翠莲.C高校内部控制研究[D].长安大学,会计(专业学位),2013,硕士.
[34]赵慎龙.新型碳材料载PtRu催化剂的制备、电催化性能及应用[D].哈尔滨工业大学,2013.
[35]程储旺,孙优贤.时变时滞不确定性系统的状态反馈控制器设计[J].自动化学报,1998,01:83-86.
[36]张海霖.基于“点击化学”的功能糖分子构建与应用[D].华东理工大学,2013.
[37]谢明道.蜂窝式余热烤泵器[J].石油地球物理勘探,1980,S1:87-88.
[38]徐晓雪.绳状青霉耐酸分子机制研究[D].山东农业大学,植物病理学,2014,博士.
[39]王非非,许强.以公共科技创新服务平台发展推动区域经济转型和产业升级[J].上海企业,2014,11:56-59.
[40]李美娜.人工栽培蛹虫草(Cordyceps militaris)性状变异的遗传学分析[D].辽宁师范大学,细胞生物学,2003,硕士.
[41]魏冀荣.生物型异种松质骨移植对兔桡骨节段性骨缺损修复效果的实验研究[D].南方医科大学,临床医学,2012,硕士.
[42]张海山.计算机控制转炉炼钢的程序系统[J].冶金自动化,1981,02:10-19.
[43]王瑞云,梁嘉骅.企业电子商务进程中管理信息系统新发展探讨[J].情报杂志,2005,04:61-62+65.
[44]程映雪,吴宗之.社会主义市场经济条件下劳动安全卫生工作中的第三方认证与注册[J].中国安全科学学报.1997(06)
[45]杨雪梅.结合市场经济下医患关系的认识对医德教育的思考[D].华东师范大学,马克思主义理论与思想政治教育,2003,硕士.
[46]徐超汉.防火墙系统的设计[J].华南金融电脑.2001(05)
[47]张瑾节.媒介环境学视野中的新媒体对人类的影响[D].东北师范大学,广播电视艺术学,2012,硕士.
[48]冯雪.VEGF基因的RNA干扰及其在肝癌MHCC97L细胞表达的实验研究[D].北京中医药大学,中西医结合临床,2014,硕士.
[49]王伟.我国住房反向抵押贷款的政府责任探讨[D].西南交通大学,行政管理,2012,硕士.
[50]徐扬.如何从数据中“挤出”效益[N].中国计算机报,2002-11-18A13.

相关推荐
更多