基于XML用户自定义需求的WEB信息提取研究

基于XML用户自定义需求的WEB信息提取研究

作者:师大云端图书馆 时间:2015-10-05 分类:参考文献 喜欢:2263
师大云端图书馆

【摘要】随着近些年互联网的飞速发展,Internet已经发展成为一个庞大的发布和共享信息资源的平台。但是如何从海量、无结构或半结构化的数据中快速、高效地获取用户所需的信息仍然是亟待解决的热点问题,因此WEB信息提取技术应运而生。目前学者们已经进行了大量的研究工作,但现有的技术仍然存在诸多不足之处:提取方法过于专业,不仅增加了用户语义理解的负担,而且不便于用户使用;在提取过程中难以及时获取用户的反馈,影响提取效果;提取内容越复杂,提取规则的健壮性越差。基于此,本文在对XML及相关标准和现有基于XML提取方法深入研究的基础上,提出了一种基于XML用户自定义需求的WEB信息提取方法。研究工作包括为以下几方面内容:(1)对待提取页面进行处理。HTML页面经过预处理过滤掉无关信息和代码,转换为格式规范的XML文档,为使用户清晰掌握页面结构,将XML文档解析生成可视化的DOM树形式,在节点转换的过程中,标记每个节点类型,并计算其路径表达式,为样本映射和生成提取规则做准备。(2)实现用户的提取需求的获取。研究通过定义目标描述待提取数据节点间的层次关系,并且以此作为提取信息输出时的样式结构。用户标记的样本则作为提取规则的生成依据,样本按照映射规则以结构映射或内容映射的方式向目标结构映射,从而得到待提取数据的节点类型信息和位置信息。(3)实现提取规则的构造。提取规则由一个或多个匹配目标结构每层节点的模板构成。模板根据目标结构根节点是否存在结构映射分别进行构造。根节点存在结构映射,利用样本结构映射的class属性匹配全文同类别节点,并利用相对路径覆盖父子关系和祖先后代关系,递归生成每层节点模板。根节点不存在结构映射,通过其子节点获取公共路径作为模板匹配的起点,由于该起点位置是唯一的,因此提取仅为样本数据。最后通过对比实验,验证了本文提取方法的有效性,证明了该方法提取效果优于现有的两种方法。当提取内容结构复杂时,提取规则具有较好的健壮性。同时实现了该方法的原型系统,通过系统演示表明,用户不仅能够直观的观测到信息提取的整个过程,而且可以及时确定提取结果是否准确并能够方便地进行修改。
【作者】王迎;
【导师】余建桥;
【作者基本信息】西南大学,计算机软件与理论,2014,硕士
【关键词】WEB信息提取;XML;用户自定义;Xpath;提取规则;

【参考文献】
[1]舒刚.基于生物医学文本挖掘技术的天然产物的靶标蛋白预测[D].复旦大学,计算机软件与理论,2012,硕士.
[2]高春芳.NAC在氧化应激对胎鼠肺泡Ⅱ型上皮细胞KGFR磷酸化及泛素化表达影响中的保护作用研究[D].华中科技大学,儿科学,2013,硕士.
[3]魏桃英,汪钊,魏瑞锋.发酵醪中添加酸性蛋白酶对黄酒稳定性的影响[J].食品与发酵工业.
[4]钟女娟.基于贝叶斯网络的农村肺结核病人DOTS效果评价[D].山东大学,流行病与卫生统计学,2013,硕士.
[5]赵奇栋.《淮南子》东汉注研究[D].华东师范大学,汉语言文字学,2004,硕士.
[6]应混娇.小学语文古诗词教学内容连续性的研究[D].宁波大学,学科教学(专业学位),2013,硕士.
[7]宋欢.DBA/2小鼠内耳增龄性退变及其发病机制的探讨[D].华中科技大学,耳鼻咽喉头颈外科学,2013,硕士.
[8]周哲颖.我国体育院校体育舞蹈课程内容资源开发的研究[D].北京体育大学,体育教学,2013,硕士.
[9]郭昕.华美广告公司市场营销策略研究[D].吉林大学,高级管理人员工商管理,2012,硕士.
[10]侯向艳.Cox比例风险模型的桥估计[D].辽宁师范大学,概率论与数理统计,2012,硕士.
[11]邵海燕.基于聚磷酸酯的两亲性聚酯的合成及其多功能化修饰[D].苏州大学,高分子化学与物理,2012,硕士.
[12]韩令贺,何兵寿.VTI介质一阶准P波方程正演模拟及边界条件[J].石油地球物理勘探,2010,06:819-825+936+784.
[13]张进之.压力AGC系统参数方程及变刚度轧机分析[J].冶金自动化,1984,01:24-31.
[14]易艳丽.户外健身娱乐设施的互动性设计研究[D].西南交通大学,艺术设计,2013,硕士.
[15]陈静.来华留学生写作(中级)教材之范文研究[D].安徽大学,汉语国际教育,2014,硕士.
[16]王朵阳.传统文化元素在中式服装展示设计中的应用[D].沈阳建筑大学,工业设计工程,2013,硕士.
[17]王超宇.CXCR2及其配体对腹主动脉瘤发生发展的影响[D].北京协和医学院,临床医学,2014,博士.
[18]李东成,姚朋,何东野,李松阳,李兴华,陈雪梅.带仓连皮闭式锻造齿轮坯预锻成形过程的CAE分析[J].锻压技术,2014,12:6-9.
[19]丛嘉益.山东省政策性农业保险发展模式研究[D].山东财经大学,金融学,2013,硕士.
[20]苏宏业,刘传文,褚健.流程工业企业综合自动化整体解决方案[J].电气时代,2004,03:18-21.
[21]倪佳.生物课堂教学中培养学生环境行为方法的研究[D].首都师范大学,课程与教学论,2004,硕士.
[22]宋虎.中国—“陆上东盟”复合型合作机制建构研究[D].苏州大学,国际关系,2014,硕士.
[23]杨婷婷.留学生“什么”反问句学习情况考察[D].华中师范大学,对外汉语教学,2013,硕士.
[24]刘斌.波浪荷载作用下深水桥梁的振动控制[D].西南交通大学,建筑与土木工程,2013,硕士.
[25]陈诚.职务侵占罪构成要件解析[D].南京师范大学,法律,2012,硕士.
[26]杨小龙.尾矿集料绿色高性能混凝土的配合比设计及应用研究[D].郑州大学,结构工程,2013,硕士.
[27]路平立.非线性系统的模糊辨识方法与应用研究[D].燕山大学,控制理论与控制工程,2003,硕士.
[28]支晓波.行政人员品德塑造机制研究[D].河海大学,马克思主义理论与思想政治教育,2004,硕士.
[29]张庆华.感性工学在SUV车身形态设计中的应用[D].东北大学,机械设计及理论,2010,硕士.
[30]卢昆.山东省海岛旅游开发研究[D].青岛大学,旅游管理,2004,硕士.
[31]李俊伟.空气悬架半挂牵引车操纵稳定性研究[D].湖南大学,车辆工程,2012,硕士.
[32]张家良,熊英,丁长新,王其昌.开发后期储层孔喉半径变化规律研究及治理对策[J].石油地球物理勘探,2006,S1:123-126+142+149.
[33]吴守军.CVD SiC涂层缺陷控制与C/SiC复合材料氧化行为研究[D].西北工业大学,材料学,2004,硕士.
[34]周志学.湖南移动通信公司服务营销的渠道模式研究[D].湖南大学,工商管理,2003,硕士.
[35]马庆芳.氧化锆内冠种植基台的适合性及不同粘结剂厚度对其剪切粘结强度影响的实验研究[D].浙江大学,口腔医学,2013,硕士.
[36]陈翔.基于Android平台的CAD标准图形交换文件浏览系统[D].苏州大学,机械工程(专业学位),2013,硕士.
[37]张素丽.基于车头时距稳定性影响阈值的常规公交系统优化[D].长安大学,交通运输规划与管理,2014,硕士.
[38]李媛.军队技术院校大学生职业心理现状研究[D].第四军医大学,应用心理学,2004,硕士.
[39]高巍巍.论以科学发展观为指导推进人的全面发展[D].安徽大学,马克思主义发展史,2013,硕士.
[40]俞茜.国际大宗商品价格波动对国内物价的传导机制[D].华东师范大学,金融学,2013,硕士.
[41]张世杰.微晶玻璃和RB-SiC力学行为及延性去除机理的实验研究[D].吉林大学,机械制造及其自动化,2013,硕士.
[42]李海霞.基于嵌入性视角的虚拟学习社区的知识互动研究[D].华中师范大学,现代教育技术,2014,硕士.
[43]毛凤林.我国滑动模板施工技术的新进展——新版《建筑施工手册》第23章内容精选[J].建筑技术.1997(04)
[44]张琼.生物氧化锰的形成及其与砷的交互作用[D].山西师范大学,植物学,2013,硕士.
[45]许菲.分散红343、分散蓝366和分散橙29在超临界CO_2中溶解度的测定与关联[D].浙江工业大学,2008.
[46]张小波.英语语篇类型及其翻译研究[D].湖南师范大学,英语语言文学,2003,硕士.
[47]高晶,李建中,张兆功,张艳秋.一种基于网格和密度的数据流高效聚类算法[A].中国计算机学会数据库专业委员会.第二十届全国数据库学术会议论文集(技术报告篇)[C].中国计算机学会数据库专业委员会:,2003:3.
[48]王春风,陈玉娟,卓克垒,王键吉.离子液体/石墨烯复合物修饰电极同时测定多巴胺和尿酸[J].河南师范大学学报(自然科学版),2013,02:187.
[49]王净.空间数据挖掘和知识发现与地理可视化的集成[J].测绘通报,2005,12:20-23.
[50]王华.基于分类用户的邮件过滤系统的研究与开发[D].北方工业大学,计算机应用技术,2004,硕士.

相关推荐
更多