基于Hadoop云平台的分布式支持向量机研究

基于Hadoop云平台的分布式支持向量机研究

作者:师大云端图书馆 时间:2020-12-27 分类:硕士论文 喜欢:1281
师大云端图书馆

【摘要】支持向量机(SupportVectorMachine,SVM)是Vapnik等人提出的一种基于统计学理论的机器学习算法。该算法在建立在统计学习理论的VC维理论和最小化结构风险原理的基础上,在解决小样本、非线性以及高维模式识别问题中都表现出了良好的性能。因此,这种新型的机器学习方法越来越受到各个领域的专家和学者们的青睐,日益成为数据挖掘技术中解决分类和回归问题的一个强有力的工具。然而,随着数据集规模的逐渐增大,SVM算法在训练过程中寻找全局最优支持向量的过程变的十分缓慢,并且占用大量的计算机软硬件资源,甚至无法在有效的时间和实际环境允许的条件下得到训练模型。云计算的提出为海量数据挖掘技术的发展带来了曙光。凭借云平台分布式文件系统强大的存储能力,同时将传统的数据挖掘算法进行分布式并行化处理,给海量数据挖掘技术的发展提供了良好的契机。本文从Hadoop云平台的分布式文件系统(HadoopDistributedFileSystem,HDFS)和分布式编程框架MapReduce两个方面对当前最流行的开源云计算平台Hadoop进行了阐述,同时,对MapReduce计算框架的内部运行机制进行了深入剖析,并在Linux环境下基于Hadoop-1.0.0版本搭建了完全分布式的Hadoop云平台。Hadoop云平台依靠HDFS实现了对大规模数据集的分块存储。本文通过读取hdfs-site.xml配置文件中的dfs.block.size属性,将数据集按照容量大小进行了划分,然后,对分配在datanode节点上的每个block采用基于MapReduce编程框架的并行SVM算法进行并行化训练。传统的支持向量机算法在训练过程中的参数设置主要依赖于经验值的选取。本文在并行SVM算法训练过程中,采用了遗传算法对支持向量机的核函数类型、惩罚因子以及核函数参数进行了组合优化。实验结果分析表明,与依赖于经验值进行参数设置的传统SVM算法相比,采用遗传算法进行参数组合优化的SVM算法的预测精度得到了比较显著的提高。在UCI标准数据集上从训练时间、预测精度等方面对本文所提出的算法的可行性以及表现性能进行了的一系列实验分析,结果表明,并行化的SVM算法与传统的SVM算法相比,在不显著降低预测精度的前提下,训练时间复杂度得到了比较明显的降低。同时,本文使用加速比分析了并行算法所需的训练时间与Hadoop集群中计算节点数目之间的关系。实验结果分析表明,随着集群中计算节点数目的不断增加,加速比呈现出较快的上升趋势。
【作者】牛科;
【导师】贾郭军;
【作者基本信息】山西师范大学,计算机应用技术,2014,硕士
【关键词】Hadoop云平台;海量数据挖掘;遗传算法;支持向量机;

【参考文献】
[1]王保华.综合运输体系下快捷货物运输网络资源配置优化研究[D].北京交通大学,2010.
[2]朱红翔.PA1010/UHMWPE共混体系结构性能研究[D].长春工业大学,高分子化学与物理,2013,硕士.
[3]丁磊.基于MES的工厂自动化软件的设计与实现[D].西安电子科技大学,计算机应用技术,2011,硕士.
[4]刘成斌.血清对氧磷酶水平与冠心病关系的研究[D].吉林大学,内科学,2013,硕士.
[5]陈志道.镍基氢氧化物/石墨烯复合材料的制备及其超电容性能的研究[D].安徽工业大学,2013.
[6]张超.石墨烯复合材料的制备、结构及性能研究[D].复旦大学,高分子化学与物理,2013,博士.
[7]马力飞.发声任务在功能磁共振研究中的应用及汉字规则性效应的功能磁共振研究[D].浙江大学,精神病与精神卫生,2004,硕士.
[8]任文庆.原发性扭转痉挛遗传基因及神经干细胞治疗基础研究[D].第二军医大学,外科学(专业学位),2013,硕士.
[9]袁欢.高浓度Co、Cu共掺杂ZnO薄膜的制备及其光、磁性质研究[D].西南民族大学,材料物理与化学,2013,硕士.
[10]蒋思尝.基于受激布里渊散射的可调谐多波长光纤激光器[D].浙江大学,光学工程,2013,硕士.
[11]王林.黑龙江省秋皮沟铜多金属矿床地质地球化学特征及找矿方向[D].吉林大学,矿产资源经济与技术,2013,硕士.
[12]张顺.基于改进协同免疫算法的Flow Shop调度问题研究[D].华东理工大学,控制科学与工程,2013,硕士.
[13]李艳慧.Si、Ge在掺杂石墨烯上吸附的第一性原理研究[D].河南师范大学,2011.
[14]纪皓达.平面设计中商业广告摄影的艺术表现创意研究[D].湖北工业大学,设计艺术学,2013,硕士.
[15]任若凡.乙炔氢氯化UDH无汞催化剂中试研究[D].华东理工大学,化学工艺,2014,硕士.
[16]张继国,牟风明.VSP横波速度反演实用性研究[J].石油地球物理勘探,2006,06:697-701+612-613+725.
[17]连玮,梁彦,潘泉,程咏梅,张洪才.用于特征点配准的快速聚类凸集投影算法[J].自动化学报,2007,03:240-247.
[18]丁寅森.氧化锆纤维对氧化铝陶瓷抗热震性能的影响[D].济南大学,材料物理与化学,2012,硕士.
[19]赵胜文.中美建交后美国总统选举中涉华议题研究[D].中共中央党校,国际政治,2013,硕士.
[20]高妙永.全球化背景下的中国文化[D].福建师范大学,英语语言文学,2004,硕士.
[21]沈最意.循环序进应力加速寿命试验对数正态分布场合下的统计分析[D].华东师范大学,概率论与数理统计,2002,硕士.
[22]田洪现,郭威.基于AdHoc网络的智能路灯路由协议研究[J].测控技术,2015,03:93-96.
[23]高源.大黄酸在LPS活化巨噬细胞中发挥抗炎与促炎双向作用的机制研究[D].北京协和医学院,生药学,2014,博士.
[24]陈燕.民族院校本科教学质量保障研究[D].中南民族大学,教育经济与管理,2013,硕士.
[25]樊俊涛.新疆对外贸易与产业结构互动关系研究[D].新疆大学,政治经济学,2013,硕士.
[26]华磊.基于CCD的图像采集系统设计与实现[D].西安电子科技大学,软件工程,2012,硕士.
[27]王宏宇.论刑事审判简易程序[D].中国政法大学,诉讼法学,2004,硕士.
[28]杨起涛.碱性膜燃料电池用新型聚苯醚阴离子交换膜的制备与表征[D].北京化工大学,化学,2013,硕士.
[29]桓耀辉.QY50P汽车起重机吊臂系统研究[D].长安大学,机械工程,2013,硕士.
[30]韩培丽.卫星转发式干扰技术研究及性能分析[D].西安电子科技大学,通信与信息系统,2012,硕士.
[31]陈海龙.慢性脑缺血所致血管性痴呆与NF155的相关性研究[D].吉林大学,临床医学,2013,硕士.
[32]于印鑫.某型汽车变速器的动力学特性分析[D].东北大学,一般力学与力学基础,2010,硕士.
[33]苗大勇.郑州市给水管网管理探究[D].长安大学,环境工程,2013,硕士.
[34]杨晓玲.矿用高压开关微机综合保护若干问题的研究与应用[D].北京化工大学,2010.
[35]邵威豹.农村信用社小额信贷业务发展困境研究[D].河北经贸大学,金融学,2012,硕士.
[36]徐吉波.生态文明目标下舟山市城市环境管理职能研究[D].宁波大学,公共管理,2013,硕士.
[37]杜涛.转抗菌肽基因泡桐抗丛枝病的研究[D].华中农业大学,植物病理学,2001,硕士.
[38]郭兵.永磁同步发电机的电磁场分析[D].青岛大学,电力系统及其自动化,2013,硕士.
[39]刘松.Galectin-3、Survivin在甲状腺微小乳头状癌中的表达及意义[D].蚌埠医学院,肿瘤学,2013,硕士.
[40]陈洁.基于协商的大学英语教学及个案研究[D].杭州师范大学,课程与教学论,2006,硕士.
[41]柳影.法务会计专家证人制度与司法鉴定人制度的比较与借鉴[D].江西财经大学,会计学,2013,硕士.
[42]李兆宇.城市公园老年人户外活动空间设计探讨[D].西南大学,园林植物与观赏园艺,2013,硕士.
[43]万国华,陈宇晓.数据挖掘算法及其在股市技术分析中的应用[J].计算机应用,2004,11:104-106+109.
[44]笪丽芳.中国公共管理硕士(MPA)人才素质标准模型研究[D].安徽大学,行政管理,2013,硕士.
[45].浙江工业大学人文学院[J].浙江工业大学学报(社会科学版),2014,03:238+361.
[46]陈红星.HT信息公司发展战略研究[D].新疆大学,工商管理,2013,硕士.
[47]周丽丽.不同发育阶段杉木人工林养分内循环与周转利用效率的研究[D].福建农林大学,水土保持与荒漠化防治,2014,博士.
[48]黄容.从社会主义文学作品中看佐多稻子的“目的意识”[D].华中师范大学,日语语言文学,2014,硕士.
[49]彭旻昱.从目的论角度出发分析《哈利·波特与魔法石》中韩译本[D].北京外国语大学,外国语言学及应用语言学,2014,硕士.
[50]邹扬科.信息可视化及其在门票设计中的应用研究[D].西南交通大学,视觉传达,2013,硕士.

相关推荐
更多