基于垂直搜索引擎的文本挖掘系统研究与实现

基于垂直搜索引擎的文本挖掘系统研究与实现

作者:师大云端图书馆 时间:2016-05-24 分类:参考文献 喜欢:2658
师大云端图书馆

【摘要】通用搜索引擎能够为人们提供针对海量信息的检索服务,搜索结果“广而全”,但是对于特定领域的搜索,通用搜索引擎往往不能满足人们“精而深”的检索需求。于是出现了越来越多的针对各个领域的垂直搜索引擎,满足人们对于特定领域的信息检索需求。而随着互联网技术的不断发展和普及,网络上的文本信息资源急剧增长,如何对这些网页中的信息进行文本挖掘就显得尤为重要。因此,针对特定领域的文本进行挖掘及相关的分析处理具有重要的意义。本文主要是围绕垂直搜索引擎技术展开研究,运用文本挖掘算法,将文本聚类技术应用到实际的系统中,主要工作包括以下内容:(1)提出了一种基于Heritrix、Lucene和WebKit的垂直搜索引擎,实现了对特定领域的信息采集、预处理、索引和检索。在网络爬虫的关键技术方面,利用WebKit来解析动态网页,获取网页中的结构化信息。(2)介绍了用于文本挖掘的各种聚类算法,并在分析和研究的基础上,提出了一种改进的single-pass聚类算法,该方法结合了层次聚类的思想,先形成初步类后,再由single-pass算法完成聚类;并对改进后的算法进行了实验分析,实验结果显示,改进后的single-pass聚类算法,查准率提高了10%,查全率提高了12%,Fl-measure提高了11%。(3)详细介绍了基于垂直搜索引擎的文本挖掘系统的设计与实现。在系统设计方面,主要由文本信息采集模块、文本信息预处理模块、文本信息挖掘模块和文本信息服务模块四个部分组成。在系统实现方面,给出了系统的整体部署图和各模块详细的实现过程,并给出了系统运行的效果图,实现了对手机评论信息的文本挖掘和手机评测信息的垂直搜索服务。
【作者】郑秋辉;
【导师】王旭仁;
【作者基本信息】首都师范大学,计算机应用技术,2014,硕士
【关键词】垂直搜索引擎;文本挖掘;Lucene;Heritrix;Single-pass算法;

【参考文献】
[1]梁先庆.碳纳米材料的X射线吸收谱学研究[D].中国科学技术大学,2010.
[2]胡柳.冷泉渗漏声波测量装置主体研制与气泡—水声学特性的实验研究[D].广东工业大学,机械工程,2014,硕士.
[3]付立书.基于扭矩信号的电动助力转向器回正控制策略研究[D].沈阳理工大学,车辆工程,2013,硕士.
[4]季学纯,陈鹏,翟明玉.基于离线验证的电网模型维护框架及其流程设计[J].电力系统自动化,2011,06:51-54.
[5]蔡云松.C6140普通车床数控化改造[D].西南交通大学,机械电子工程,2014,硕士.
[6]高飞.金红石相TiO_2薄膜/ZnO纳米线复合材料的制备及其光电催化性能研究[D].上海大学,应用化学,2013,硕士.
[7]刘健.基于Windows平台的高帧频场景产生系统的设计与实现[D].西安电子科技大学,通信与信息系统,2012,硕士.
[8]谢业鹏.钢筋钢纤维混凝土梁弯曲疲劳性能试验研究[D].内蒙古工业大学,结构工程,2013,硕士.
[9]王艳锋.社区体育对构建和谐城市的作用[D].华中师范大学,体育教学,2013,硕士.
[10]吕晓涛,唐建维,何有才,段文贵,宋军平,许海龙,朱胜忠.西双版纳热带季节雨林的生物量及其分配特征[J].植物生态学报,2007,01:11-22.
[11]赵伦.试析草根网络文化在建设文化强国中的地位[J].传播与版权,2015,01:138-139.
[12]荣华.中国棘蝇属黄基棘蝇种团的系统分类研究(双翅目:蝇科)[D].沈阳师范大学,动物学,2014,硕士.
[13]庄宇飞,马广富,黄海滨.欠驱动刚性航天器时间最优轨迹规划设计[J].控制与决策,2010,10:1469-1473.
[14]杨志刚.基于ARM的汽车防酒后驾驶及防盗系统设计[D].中北大学,测试计量技术及仪器,2014,硕士.
[15]赫鹏飞.互联网对高校思想政治工作的影响分析及对策思考[D].河北师范大学,马克思主义理论与思想政治教育,2004,硕士.
[16]潘杰.环保产业领域应用合同能源管理模式研究[D].西南交通大学,环境工程,2014,硕士.
[17]李婉君.氧化铝改性聚合物整体柱的制备及其在色素分离分析中的应用[D].吉林大学,2014.
[18]刘雪飞.数据挖掘技术在入侵检测中的应用研究[D].南京理工大学,2005.
[19]刘佳.中英花卉词语文化内涵之对比研究[D].西安工业大学,外国语言学及应用语言学,2014,硕士.
[20]朱天宇.移动机器人路径规划的研究[D].重庆大学,机械电子工程,2014,硕士.
[21]赵冬松.锚杆受荷条件下的声学特性数值方法研究[D].河北科技大学,电机与电器,2013,硕士.
[22]杜俊.尖山磷矿层状边坡变形失稳模式研究[D].昆明理工大学,地质工程,2014,博士.
[23]唐汇.基于自然最近邻居的离群检测算法研究[D].重庆大学,计算机软件与理论,2014,硕士.
[24]杨春波.幼儿音乐教学及“语境”探析[D].云南艺术学院,音乐学,2013,硕士.
[25]张欣欣.基于压缩感知的WSN数据处理方法的研究[D].哈尔滨工业大学,控制工程,2014,硕士.
[26]崔晶晶.颅脑损伤的法医学鉴定[D].甘肃政法学院,诉讼法学,2012,硕士.
[27]路四海.嗜酸乳杆菌降低胆固醇作用及其机理研究[D].河南科技学院,农产品加工及贮藏工程,2012,硕士.
[28]石好.AZ91D镁合金镀前处理工艺的研究[D].哈尔滨工业大学,化学工程与技术,2013,硕士.
[29]董余兵.乳胶技术制备VGCNF/水性环氧树脂复合材料及性能研究[D].浙江理工大学,2013.
[30]苏晶.复发小细胞肺癌靶区勾画的回顾性分析[D].吉林大学,肿瘤学,2014,硕士.
[31]顾晓光,马义中,汪建均,吴锋.多元质量特性的满意参数设计[J].控制与决策,2014,06:1064-1070.
[32]刘霁.山东省行政事业单位资产管理改革研究[D].山东财经大学,会计(专业学位),2013,硕士.
[33]冷婧.限食下活性维生素D对大鼠寿命的影响[D].山西医科大学,心内科学,2013,硕士.
[34]施许斌.基于行为金融学的股市假日效应理论及实证研究[D].复旦大学,管理科学与工程,2012,硕士.
[35]曾款.科研团队内部粘滞知识的产生与转移机理研究[D].武汉理工大学,系统工程,2012,硕士.
[36]付豹.乳腺癌胸肌间淋巴结转移情况的临床分析[D].河北医科大学,外科学(专业学位),2013,硕士.
[37]于壮.食品农药残留快速检测技术研究[D].沈阳理工大学,物理电子学,2013,硕士.
[38]HAMMADALIASGHAR.巴基斯坦儿童外伤性白内障造成的视力影响[D].山东大学,OPHTHALMOLOGY,2012,硕士.
[39]王京萍.安森公司供应商管理研究[D].山东大学,工商管理(专业学位),2012,硕士.
[40]郭华伟.农药减量化使用技术在茶园中的集成与示范[D].浙江大学,植物保护(专业学位),2012,硕士.
[41]王凯.河北省利用外商直接投资相关问题探析[D].河北经贸大学,国际商务(专业学位),2014,硕士.
[42]耿晓红.背诵与默写在中学英语教学中的效果研究[D].安徽大学,英语语言文学,2014,硕士.
[43]黄晶晶.对当代写实油画的精神诉求与形式语言探析[D].西南大学,美术学,2013,硕士.
[44]邓净.发达国家知识产权信托法律制度比较及中国借鉴研究[D].华东交通大学,民商法学,2014,硕士.
[45]马培建.影响沙漠地区路基填土高度原因分析研究[D].西安建筑科技大学,建筑与土木工程,2004,硕士.
[46]李媛媛.相变储能复合材料的研究与制备[D].北京化工大学,材料科学与工程,2013,硕士.
[47]孙玺亮.DA465QA发动机曲轴箱强制通风系统设计[D].吉林大学,动力工程,2012,硕士.
[48]黄庆锦.支架取出术在下肢动脉粥样硬化闭塞症支架植入术后再闭塞中的初步疗效观察[D].福建医科大学,临床医学,2014,硕士.
[49]李斌,楼夲,瞿婷婷,魏泽庆,陈亚岗.致细菌性肝脓肿的肺炎克雷伯杆菌多位点序列分型及药敏分析[J].中国微生态学杂志,2014,07:802-804+820.
[50]林兴宝.陶行知“教学做合一”思想在高中生物课堂教学中的实践研究[D].苏州大学,学科教学(专业学位),2014,硕士.

相关推荐
更多