基于DOM结构树和特征词的Web内容提取研究

基于DOM结构树和特征词的Web内容提取研究

作者:师大云端图书馆 时间:2023-05-06 分类:硕士论文 喜欢:2864
师大云端图书馆

【摘要】伴随着信息技术的飞速发展,互联网上的信息数量已经成爆炸式增长,文本信息的规模正在以指数形式急速扩大。丰富多彩的互联网为人们提供了海量的信息,Web是Internet上最重要的信息来源,且已经成为人们日常生活、工作中不可少的一部分。Web上的信息不仅仅只包含正文信息,还包含许多干扰信息,这样会降低Web信息的可利用性。如何在浩瀚如海的文本信息当中及时地获取有价值的信息,已经成为当今信息获取中亟待解决的问题。充分的利用数据挖掘和文本分类技术,能够很好的解决这一类问题。Web信息提取技术和短文本分类技术是文本信息挖掘领域中非常重要的研究内容。Web信息提取技术,首先对Web进行区域划分,然后利用算法从不同的区域间找到正文内容,最后将正文内容准确的提取出来。为了能够自动化提取Web信息,该类提取技术不应该需要大量的训练,而且应该具有较好的灵活性和正确率。在Web信息提取处理后,短文本分类处理是一个文本处理的重要步骤,经过短文本分类的处理,才能更好的给用户提供对其有价值的信息,保证工作的正确率和效率。本文介绍了Web信息提取技术和短文本分类技术的研究背景、研究意义、国内外研究现状、相关的理论知识。本文在总结了前辈们关于Web信息提取技术和短文本分类技术研究的基础上,分别提出了Web信息提取技术和短文本分类技术的新方法,具体的工作主要包括以下两个方面:提出了一种能够准确并且高效的Web文本信息提取方法,并且该方法可以将获取的文本信息按照原文的意思正确的分段。首先,该方法利用网页布局标签<table>和<div>构造一个DOM结构树,然后利用构造的DOM结构树所描述的布局标签的嵌套关系和层次关系,对文本内容区域进行判断取舍,提取出正确的正文内容,最后根据一些特殊标签属性,进行特殊的处理,实现正文内容的分段。实验证明,该方法易实现、效率高、灵活性强,能自动准确地提取正文内容。提出一种基于特征词相关度值的短文本分类方法。通过分析已有的短文本分类算法和所研究的领域,利用基于加权复杂网络的特征词提取方法,提出了一种新的基于特征词的相关度的短文本分类算法。首先对短文本进行分词和停用词处理,建立语料库,再利用特征词提取方法,获得短文本的特征词,最后利用特征词的相关度值,计算出文本相关程度,进行文本分类。实验结果表明,该算法具有很高的正确率,适合大量网页的自动化批量处理。
【作者】周建;
【导师】罗斌;
【作者基本信息】安徽大学,计算机应用技术,2014,硕士
【关键词】DOM结构树;语义标记;分段;加权复杂网路;特征词相关度;

【参考文献】
[1]毛军,郗艳红,高亮,杨国伟.腔室耗能型高速铁路风障的减载抗风性能[J].机械工程学报,2014,04:99-106.
[2].活力青年新杭氧人特辑[J].杭氧科技,2014,04:35-45.
[3]何建斌.心脏手术围术期血糖波动增加急性肾损伤的发生及阿司匹林的保护作用[D].第四军医大学,麻醉学(专业学位),2014,硕士.
[4]祝军.10kV 5Mvar链式STATCOM装置的研发[D].哈尔滨理工大学,高电压与绝缘技术,2013,硕士.
[5]丁桂春,邹慧娜.连续系统混合仿真中的数字校正问题[J].自动化学报,1982,01:39-48.
[6]韦廷真.提高VSC-HVDC系统向无源网络供电可靠性的方法探究[D].山东大学,电力电子与电力传动,2013,硕士.
[7]刘琦.宁夏银行不良资产处置研究[D].宁夏大学,工商管理(专业学位),2014,硕士.
[8]姜俊男.腹腔镜胃癌根治术学习曲线的研究[D].吉林大学,临床医学,2014,硕士.
[9]郭亮,王纯,叶斌,谢云恺,童明波.采用流动控制的超声速内埋物投放特性研究[J].航空学报.
[10]曹阳.语境顺应视角下《洗澡》的英译研究[D].内蒙古大学,外国语言学及应用语言学,2014,硕士.
[11]李群力.桥式起重机整机三维参数化快速设计系统的研究与开发[D].中北大学,机械制造及其自动化,2014,硕士.
[12]冯娟.从动态对等的视角看英译汉中的词类转译[D].湖南师范大学,翻译(专业学位),2013,硕士.
[13]张水波.拒不执行判决、裁定罪的司法认定[D].厦门大学,刑法学,2014,硕士.
[14]李敬.论对非法集资的综合法律防治[D].山东大学,法律(专业学位),2012,硕士.
[15]郭容邑.冻融环境下混凝土受弯构件的试验研究[D].扬州大学,结构工程,2011,硕士.
[16]唐璇.新形势下大学生民族精神的培育研究[D].渤海大学,思想政治教育,2013,硕士.
[17]陆翌,王朝亮,彭茂兰,赵成勇,裘鹏.一种模块化多电平换流器的子模块优化均压方法[J].电力系统自动化,2014,03:52-58.
[18]马银杏.以NF-κB为靶点筛选苓甲抗癌复方有效组分[D].兰州大学,细胞生物学,2013,硕士.
[19]邴纪全.基于民生改善的农村新型社区建设研究[D].天津商业大学,行政管理,2013,硕士.
[20]杨东虎.染料脱色细菌的筛选与脱色条件的研究[D].河北大学,微生物学,2003,硕士.
[21]尹苛鉴.口语交际课程内容表现性研究[D].西南大学,课程与教学论,2014,硕士.
[22]王军荣.中国软实力研究[D].复旦大学,东方管理学,2013,博士.
[23]刘丽楠.改性环氧树脂/氰酸酯液氧相容性及其力学性能研究[D].哈尔滨工业大学,材料工程,2013,硕士.
[24]刘云松,陈彤,周永胜.单层片状石墨烯促进体内异位成骨的实验研究[A].中华口腔医学会口腔生物医学专业委员会.2014全国口腔生物医学学术年会暨“西湖国际”口腔医学高峰论坛论文汇编[C].中华口腔医学会口腔生物医学专业委员会:,2014:2.
[25]张旭辉.AR和EGFR在后尿道腺瘤中的表达[D].山西医科大学,泌尿外科,2003,硕士.
[26]张君红.我国企业绿色营销研究[D].河海大学,技术经济及管理,2004,硕士.
[27]李晓锋.汽配行业跨境小额电子商务运作模式研究[D].广东财经大学,工商管理(专业学位),2014,硕士.
[28]孙旭.融合新闻的报道流程研究[D].华中科技大学,新闻与传播,2013,硕士.
[29]郑永伟,陈民铀,李闯,徐瑞林,徐鑫.自适应调节下垂系数的微电网控制策略[J].电力系统自动化,2013,07:6-11.
[30]高利霞.哈素海湿地鸟类群落的季节动态及物种多样性研究[D].内蒙古师范大学,动物学,2013,硕士.
[31]孙以栋,应华东.高等院校基于工作室制的艺术设计人才培养模式探索与实践[J].包装世界,2014,01:54-55.
[32]王宏昌.王原祁的绘画与山水画传统[D].华东师范大学,美术学,2013,硕士.
[33]宋亚男.三甲医院临床护士情绪智力与焦虑、抑郁的调查研究[D].郑州大学,护理学,2013,硕士.
[34]丁鉑凌.十八至十九世纪英国莎士比亚戏剧题材版画研究[D].华中师范大学,美术学,2014,硕士.
[35]罗丽丽.儒家德育思想视阈下大学生思想政治教育实效性研究[D].南京财经大学,思想政治教育,2012,硕士.
[36]王钠.雌激素及雌激素相关受体亚型γ在乳房肥大中的表达及意义[D].第四军医大学,外科学,2014,硕士.
[37]石兴念.城市轨道交通线网规划方法研究与实践[D].北京交通大学,交通运输工程(专业学位),2013,硕士.
[38]李阳.论三网融合趋势下我国有线电视产业的竞争战略[D].对外经济贸易大学,2003.
[39]卓其奇.石墨烯及其金属复合物的合成与应用[D].苏州大学,2013.
[40]魏君.粮食物流模式研究[D].大连海事大学,物流工程,2012,硕士.
[41]梁兴文,黄雅捷,杨其伟.钢筋混凝土框架结构基于位移的抗震设计方法研究[J].土木工程学报,2005,09:53-60.
[42]董超,周嘉明.铁路信号楼综合防雷系统方案设计[J].铁道通信信号.2005(07)
[43]顾网平.基于多传感器的窄间隙焊虚拟采集分析系统研究[D].南昌航空大学,材料加工工程,2013,硕士.
[44]张爱玲.我国西部少数民族地区高等教育入学机会均等问题的研究[D].兰州大学,教育学(专业学位),2013,硕士.
[45]龚报钧.基于多Agent的企业信息集成理论及应用研究[D].浙江大学,2001.
[46]张学冬.文化创意产业园发展模式研究[D].吉林大学,项目管理,2013,硕士.
[47]李建华,王渊,蒋国顺,李战鹰,黄莹.高压直流输电系统谐波计算软件包开发与应用[J].电力系统自动化,2009,04:96-99.
[48]李锋,谢俊,赵银凤,张小波,冯勇,李勇.基于IEC61850的智能变电站交换机IED信息模型[J].电力系统自动化,2012,07:76-80.
[49]任大卫.面向建筑用地的遥感影像变化检测方法技术研究[D].中国科学院研究生院(遥感应用研究所),地图学与地理信息系统,2004,硕士.
[50]边大伟.基于移动广播网的无线定位技术研究[D].辽宁工业大学,通信与信息系统,2013,硕士.

相关推荐
更多