基于Mapreduce的大规模中文短文本聚类算法的设计与实现

基于Mapreduce的大规模中文短文本聚类算法的设计与实现

作者:师大云端图书馆 时间:2017-07-21 分类:参考文献 喜欢:1413
师大云端图书馆

【摘要】文本聚类是数据挖掘和信息检索领域的一个重要研究方向。如何挖掘网页上的海量文本信息已经成为计算机科学领域所面临的一个巨大挑战。文本聚类技术的出现为海量文本信息的分类管理提供了一条有效的途径。近年来文本聚类在信息检索、多文本自动摘要等互联网领域获得了广泛的应用。云计算的兴起,为分布式并行计算提供了更多的框架,文本挖掘技术的分布式实现也开始被越来越多的研究人员所关注。Hadoop是Apache的一款开源软件,它提供了包括分布式文件系统和MapReduce计算框架在内的云计算软件平台的基础架构,并且在其上整合了包括数据库、数据仓库等一系列组件,其已成为学术界和工业界进行云计算研究和应用的标准平台。本文重点研究了Hadoop软件框架中的HDFS、MapReduce、HBase等组件的核心架构及其运行机制,并分析了框架的不足,如¨HDFS、MapReduce的单点故障及安全性等问题,提出了相应的解决方案,并基于此搭建了高可靠安全的Hadoop环境。在高可靠安全的Hadoop平台上,结合传统聚类算法的特点给出了一种基于云计算的短文本聚类系统的设计方案,并对该系统的各层次的功能及该系统中的分类聚类模块进行了详细的阐述。本文主要研究工作包括:(1)搭建了一个适合文本聚类应用的Hadoop分布式平台,并通过Hadoop和Linux对系统进行调优。(2)根据短文本的特征,利用向量空间模型,TF-IDF计算公式和余弦公式等技术来设计了一种合适的聚类方法来实现对中文短文本的分析。(3)结合Eclipse开发工具,编写Java程序和Shell启动脚本整合系统并利用170万条实验数据对设计系统进行测试,并对实验结果进行了分析,提出了改进的方案。
【作者】杨羽飞;
【导师】王燕;
【作者基本信息】兰州理工大学,计算机技术,2014,硕士
【关键词】文本聚类;Hadoop;MapReduce;并行算法;数据挖掘;

【参考文献】
[1]张超.基于人工神经网络的中国股票市场预期收益率的实证分析[D].北京工业大学,2004.
[2]汤志勇,曹秉刚,李天石,史维祥.多输出非线性系统神经网络变结构控制的算法及其实现[J].控制与决策,1997,05:593-597.
[3]林育明.基于WEB的闽江学院研究生招生管理信息系统的设计和研究[D].电子科技大学,软件工程(专业学位),2012,硕士.
[4]叶雪.基于国内中高端消费者需求的沙发设计研究[D].浙江工业大学,2012.
[5]何彬.单层三角锯齿型石墨烯量子点的电子结构和磁性[D].湖北大学,2013.
[6]马丽玫.个性化版面初探[D].广西大学,新闻学,2003,硕士.
[7]刘芸芸.二维可控纳米孔的制备及其应用[D].温州大学,2014.
[8]冯玉帆.现代教育技术专业全日制教育硕士教学实践能力培训系统的建设[D].山东师范大学,教育技术学,2013,硕士.
[9]张林泉.改进高中生数学学习方式的研究[D].东北师范大学,教育,2003,硕士.
[10]沙文韬.虚假陈述侵权:英美法制度规则及其我国立法构想[D].华东政法学院,法律,2004,硕士.
[11]郭瑾.投射心理机制与电视广告的传播效果[D].广西大学,2004.
[12]王举辉.基于关联规则的数据挖掘技术研究与展望[J].信息技术与信息化,2005,05:43-44.
[13]蔡杰.机械式平地机燃油经济性仿真研究[D].长安大学,机械工程(专业学位),2014,硕士.
[14]贾爱芳.煤矿瓦斯远程监控系统的设计与研究[D].辽宁工程技术大学,安全管理工程,2012,硕士.
[15]黄治轶,耿非,李威.铁路客车侧墙大板工艺与侧墙小板工艺分析[J].城市轨道交通研究.2008(05)
[16]孙晓莉.某三级医院内科医患沟通现状及其影响因素研究[D].山东大学,公共卫生(专业学位),2012,硕士.
[17]吴强.集宁机务段检修质量监督控制系统方案[D].西南交通大学,电子与信息工程,2003,硕士.
[18]吕洪武.浦城县匡山景区旅游开发研究[D].福建农林大学,农村与区域发展,2012,硕士.
[19]杨芊夏.职业女性瑜伽锻炼与幸福感的相关研究[D].郑州大学,体育人文社会学,2013,硕士.
[20]白日午,王喜顺,王晓香,王旭.BRW-1H高精度比色红外光纤温度计的研制[J].冶金自动化,1995,05:10-14.
[21]马献忠.我国第二轮修志背景下地方史志管理研究[D].山东师范大学,公共管理(专业学位),2013,硕士.
[22]李盼.融入直方图相交核的局部稀疏编码图像分类算法研究[D].哈尔滨工业大学,计算机科学与技术,2014,硕士.
[23]胡星宇.木材染色计算机智能配色技术研究[D].杭州电子科技大学,电路与系统,2013,硕士.
[24]王丽婷.针刺配合髌骨推捏治疗膝骨性关节炎的临床研究[D].山西中医学院,针灸推拿,2013,硕士.
[25]赵聪.我国中小企业融资困境分析及对策研究[D].南昌大学,数量经济学,2012,硕士.
[26]王治香.小檗碱、地西他滨去甲基化调控急性髓系白血病细胞的逆转耐药作用及其机制探讨[D].南方医科大学,内科学,2014,博士.
[27]汤文俊,张国良,曾静,孙一杰,吴晋.一种适用于稀疏无线传感器网络的改进分布式UIF算法[J].自动化学报,2014,11:2490-2498.
[28]裴连君,谢佳析,常保银,陈建琪.单井化学示踪剂测残余油饱和度无漂移段塞解释模型(一)[J].吐哈油气.2001(02)
[29]刘冬梅.美国波普艺术与中国“政治波普”比较研究[D].内蒙古大学,美术学,2013,硕士.
[30]巩文亮.基于FPGA图像采集处理测量系统研究[D].燕山大学,机械电子工程,2014,硕士.
[31]成建国,杨小柳,魏传江,赵伟.论水安全[J].中国水利.2004(01)
[32]李允.学生人身伤害赔偿纠纷之行政调解研究[D].沈阳师范大学,教育法学,2014,硕士.
[33]王春辉.还原铁粉磁流变抛光液的合成及性能研究[D].东北大学,材料物理与化学,2011,硕士.
[34]尤玉飞.溶胶-凝胶制备Ag、V掺杂TiO_2纳米晶粉体及研究[D].河南科技大学,材料学,2014,硕士.
[35]赵子惠.《经济学家》若干选文翻译实践报告[D].吉林大学,翻译,2013,硕士.
[36]熊富强,桂卫华,阳春华,李勇刚.一种双种群协同进化算法在湿法炼锌过程中的应用[J].控制与决策,2013,04:590-594.
[37]雍娟.中央商务区产城融合规划研究[D].重庆大学,城市规划(专业学位),2014,硕士.
[38]杨静.基于价值工程的船用柴油机成本控制研究[D].江苏科技大学,工业工程(专业学位),2014,硕士.
[39]丁炜.氧还原非铂催化剂的研究[D].重庆大学,2014.
[40]孙盼峰.认知无线电频谱感知信号调制识别问题研究[D].宁波大学,通信与信息系统,2013,硕士.
[41]王丽.宋代元丰官制改革后吏部研究[D].河南大学,中国古代史,2014,博士.
[42]赵晶晶,沈灵佳,周建平,吕慧侠.纳米靶向给药系统载体材料的研究进展[J].药学进展,2015,03:161-169.
[43]梁良.多媒体辅助教学在听力障碍青少年羽毛球教学中的实验研究[D].吉林体育学院,体育教育训练学,2013,硕士.
[44]钱雪峰.产超广谱β-内酰胺酶大肠埃希菌和肺炎克雷伯菌耐药性及耐药基因分型的研究[D].苏州大学,病原生物学,2003,硕士.
[45]张兴.TL-Boost变换器/TL-NPC逆变器级联系统的研究[D].南京航空航天大学,电力电子与电力传动,2014,硕士.
[46]肖明明.经济法视角下的社会受益权研究[D].西南政法大学,经济法学,2012,硕士.
[47]杨炳君.碲化镉量子点对原代肝、肾细胞及氧化应激蛋白质的毒性研究[D].山东大学,环境科学,2014,博士.
[48]黄国创.过渡金属硫化物与石墨烯复合纳米材料的合成及其电化学储锂性能[D].浙江大学,2013.
[49]徐英涛,卢定平.一种改进的子波处理方法[J].石油地球物理勘探,1994,S2:173-176+238.
[50]郑宁来.美国研制成功氧化石墨烯碳纤维[J].合成纤维工业,2013,05:22.

相关推荐
更多