基于抽样估计的MapReduce负载平衡研究

基于抽样估计的MapReduce负载平衡研究

作者:师大云端图书馆 时间:2016-12-12 分类:参考文献 喜欢:2182
师大云端图书馆

【摘要】从云计算的涌现到其目前发展得如此成熟都应归功于现实环境的促进和互联网技术的发展。首先,互联网在各行各业的迅速普及,使得数据量呈爆发式地增长。国际数据公司(IDC)的一项研究统计显示,全球2010年所产生的数据量约是1.3ZB,而第二年又增加了约0.6ZB,这就是说地球上每一个人产生的数据最少200GB大小,此后增长得更迅猛。数据量早已不是那个TB的时代,更大的数据级别即将到来。那么怎么合理地存储并处理这些海量数据是人们面临的一个重大难题。其次,由于云计算具有压倒性的成本优势,各大公司都把主要的战略投向云计算技术,也使得云计算的发展极为迅速。MapReduce已被证明在其上可以提供有效而且强大的并行处理方法,通过此模型,一些没有操作过并行程序处理的程序员同样可运用得游刃有余,可是MapReduce自身还存在着不足之处,那就是MapReduce的数据倾斜(DataSkew)在运行中普遍的存在。当大型数据集中数据分布不均衡时,会在运行时使得节点的负载不平衡,个别的任务会成为整个作业的“落后者”,从而导致整个系统的性能降低,整个作业运行时间也被延长了。本论文研究的问题就是如何高效地解决在MapReduce程序运行中Reduce阶段出现的数据倾斜情况,现有的一些方法都是异步的,这样降低了MapReduce的同步性,因此本论文主要采用“先预处理,后划分”的策略,使Reducer达到负载平衡。首先使用一种二层抽样的技术统计出数据集上key的基数分布情况,然后根据这个分布情况提前制定出分配策略,改善默认Hash分区的不足,采用了两种划分策略:小簇组合和大簇分割。小簇组合适用数据倾斜程度不太严重的情况下,而大簇分割在数据倾斜程度严重的情况表现出色。实验证明基于二层抽样的MapReduce负载平衡技术可以使Reduce阶段达到较好的负载平衡,进而提高系统的性能。
【作者】李海峰;
【导师】曲雯毓;孙圣斌;
【作者基本信息】大连海事大学,软件工程,2014,硕士
【关键词】云计算;MapReduce;抽样;数据倾斜;负载平衡;

【参考文献】
[1]雷唤.基于WebServices的文件管理和共享系统的研究与实现[D].浙江工业大学,2012.
[2]朱静薇,李红艳.大数据时代下图书馆的挑战及其应对策略[J].现代情报,2013,05:9-13.
[3]李虎.高速城市化时期城中村改造问题研究[D].湖北大学,人文地理学,2011,硕士.
[4]李登安.软法之治:和谐行政的路径选择[D].西南政法大学,行政管理,2012,硕士.
[5]宋彦龙.基于xPC电机台架的综合数据采集系统[D].吉林大学,无线电物理,2014,硕士.
[6]张弛.国内休闲旅游景区虚拟旅游应用研究[D].北京林业大学,设计艺术学,2013,硕士.
[7]谢贵重.边界积分方程的奇异性处理及其在断裂力学方面的应用[D].湖南大学,机械工程,2014,博士.
[8]郭菲.铁路集装箱物流中心之间集装箱班列运输组织研究[D].北京交通大学,2008.
[9]王浩.并联式混合动力实验台能量控制策略研究[D].吉林大学,机械工程,2014,硕士.
[10]黄成.基于Web服务的企业应用集成架构及引擎研究[D].浙江大学,2005.
[11]董义国.内蒙古雅布赖盆地侏罗系烃源岩评价[D].中国地质大学(北京),石油与天然气工程,2014,硕士.
[12]乔海.基于FPGA的永磁同步电机模糊控制研究[D].黑龙江大学,电路与系统,2013,硕士.
[13]李学勇.水泥颗粒形貌级配在生产中的应用研究[D].武汉理工大学,材料学,2003,硕士.
[14]晁媛.信息技术推动社会管理创新应用研究[D].西北大学,教育技术学,2014,硕士.
[15]李美玲.镁铝尖晶石等材料物性的理论研究[D].东北大学 ,2009.
[16]王文凯.“9·11”后美国与巴基斯坦关系探究[D].外交学院,国际关系,2014,硕士.
[17]李费菲.大学生职业社会化现状调查及促进建议[D].南昌大学,应用心理学,2012,硕士.
[18]马悦.美国联邦志愿服务制定法立法研究[D].大连海事大学,法律,2014,硕士.
[19]胡艳梅.关于一类带有扇区非线性和混合时滞的离散随机系统的控制问题研究[D].黑龙江大学,应用数学,2013,硕士.
[20]杨超.长江上游江津段德感坝河岸带周丛藻类群落结构特征及水质评价[D].西南大学,水产养殖,2014,硕士.
[21]王晓洁.“被”字句教学设计[D].吉林大学,汉语国际教育(专业学位),2014,硕士.
[22]李凌晖.通用智能试题库管理系统的构建[D].吉林大学,软件工程,2013,硕士.
[23]吕苗苗.基于遗传算法的自动组卷系统的设计与实现[D].南京理工大学,计算机技术,2012,硕士.
[24]贺华锋.讲故事  学英语——初中英语校本课程开发的探索[D].湖南师范大学,教育,2004,硕士.
[25]房康宁.基于矢量控制的异步电机效率优化控制研究[D].中国矿业大学,电力电子与电力传动,2014,硕士.
[26]李正阳,周爱国,王李波,孙丹丹.二维晶体MXene的制备与性能研究进展[J].硅酸盐通报,2013,08:1562-1566.
[27]张宇.通用船舶自动识别系统(AIS)及其关键技术研究[D].武汉理工大学,交通信息工程及控制,2004,硕士.
[28]唐广笛.全数字异步电机直接转矩控制系统的仿真与设计方法研究[D].湘潭大学,电力电子与电力传动,2003,硕士.
[29]赵韶韵.基于核心能力建设的卫生事业管理专业课程体系研究[D].山西医科大学,社会医学与卫生事业管理,2013,硕士.
[30]陈永锋,云庆夏,卢才武,聂兴信.三角连网的栈点空间法[J].金属矿山,2003,02:58-61.
[31]孙豪.脱氧雪腐镰刀菌烯醇对小鼠成骨细胞RUNX2基因表达的影响[D].泰山医学院,病原生物学,2012,硕士.
[32]张冬梅.论基于Web用户访问信息挖掘技术的个性化定制服务[J].图书馆杂志,2002,05:53-55.
[33]朱竑.连续镀锌线退火炉氢氮混合站控制[J].冶金自动化,2011,04:65-68.
[34]徐长波,鲁伟,李春文.大容量并联有源电力滤波器的模块化控制策略[J].电力系统自动化,2013,08:117-122.
[35]刘玉杰.利用新型全自动太阳光度计研究气溶胶光学和物理特性[D].南京气象学院,气象学,2004,硕士.
[36]梁丽梅.物流企业综合绩效评价研究[D].北京交通大学,2009.
[37]董小慧.高等教育层次与专业结构的经济效应分析[D].南京师范大学,西方经济学,2012,硕士.
[38]王丽.攀枝花构建区域性中心城市研究[D].西南交通大学,行政管理,2013,硕士.
[39]张豪夫.高速列车数据的多通道处理方法[D].西南交通大学,电力系统及其自动化,2014,硕士.
[40]尚洁.文化创意产业集群创新研究[D].厦门大学,网络经济学,2014,硕士.
[41]崔燕.内部控制信息披露与公司财务风险[D].天津财经大学,会计学,2012,硕士.
[42]贾胜伟.自适应神经模糊控制在两轮自平衡机器人中的应用研究[D].哈尔滨理工大学,控制理论与控制工程,2012,硕士.
[43]刘佳男.基于机器视觉的水果表面缺陷识别方法的研究[D].江南大学,机械电子工程,2012,硕士.
[44]宋霞.小檗碱联合多柔比星抗肿瘤作用的机制研究[D].福建中医药大学,中药学,2014,硕士.
[45]刘会.笔墨蕴精神 丹青绘鬼雄[D].山东理工大学,美术学,2013,硕士.
[46]李慧.权责发生制在我国高等学校会计核算中的应用研究[D].长安大学,会计学,2014,硕士.
[47]林飞.XX机电顾问企业发展战略研究[D].上海交通大学,工商管理,2013,硕士.
[48]王建瑞.日本阳明学在幕藩体制瓦解中的作用[D].宁波大学,日语语言文学,2013,硕士.
[49]赵丹,何丹妮,李玉菊,贾云雁.国内外医疗器械上市公司自创商誉的案例研究[J].现代商业,2014,30:156-157.
[50]王雪阳.SBS百皮秒脉冲压缩特性的研究[D].哈尔滨工业大学,物理电子学,2013,硕士.

相关推荐
更多