基于hadoop的连接算法中数据倾斜问题的研究

基于hadoop的连接算法中数据倾斜问题的研究

作者:师大云端图书馆 时间:2022-08-28 分类:参考文献 喜欢:3135
师大云端图书馆

【摘要】时至今日,随着各项科学技术的飞速发展,大数据处理的需求日益增长。hadoopmap/reduce作为一个并行数据处理框架,被越来越多的应用到分布式数据处理当中。map/reduce是一个高效的,可扩展的,高容错的并行编程模型,并且十分易于使用。连接操作作为数据处理中一种十分重要的操作,在传统数据库中已经得到了很多的研究,由于map/reduce自身框架的原因,它并不能很好地支持连接操作。如今已经有很多map/reduce框架下的连接算法,但是这些算法大多没有很好地处理数据倾斜问题,当数据倾斜存在时,会导致数据分布不均匀,降低了分布式算法的执行效率。本文首先简要的介绍了数据倾斜问题的影响。然后针对两表等值连接提出了分区连接算法,该算法基于分而治之的思想将倾斜数据和非倾斜数据区别对待,结合了传统连接算法、广播连接算法等算法思想,很好的解决了数据倾斜情况下任务负载分布不均匀的问题。接着,针对多表等值连接中的数据倾斜问题,我们利用范围哈希以及单轮map/reduce任务完成多表连接的算法,均匀了数据处理的负载,较好地解决了数据倾斜的影响。最后,我们根据算法进行了一系列实验,通过我们的算法和传统的连接算法,证明了算法的实用性。
【作者】吴磊;
【导师】李京;
【作者基本信息】中国科学技术大学,计算机软件与理论,2014,硕士
【关键词】大数据;map/reduce;连接算法;数据倾斜;

【参考文献】
[1]宁立红.活性炭及锰改性活性炭阴极去除氨氮的研究[D].黑龙江大学,环境科学,2013,硕士.
[2]崔永梅.基于生态学的公司控制权市场演化研究[D].北京交通大学,2008.
[3]张毅.基于分子作用网络的抗乙肝药物靶标发现[D].中国人民解放军军事医学科学院,2005.
[4]班淑俊.装载机驾驶室的工业设计研究[D].南京林业大学,机械设计及理论,2004,硕士.
[5]毛亚郎孙毅计时鸣单继宏.介质球间非限制料层夹持形态研究[J].中国机械工程,2014,23:.
[6]贺洋晶.我国个税递延型养老保险可行性研究[D].首都经济贸易大学,保险(专业学位),2013,硕士.
[7]冯春林.二级市场的情绪会影响一级市场询价吗?[D].厦门大学,投资学,2014,硕士.
[8]张珂,王澜静,焦玲洁,贺晶.产后盆底功能障碍性疾病与盆底肌收缩力及其相关因素分析[J].实用妇产科杂志,2014,10:757-759.
[9]岳晓帅.浅谈手稿的表现力在我油画创作中的应用[D].首都师范大学,美术,2014,硕士.
[10]王文.济南市茶叶流通市场的分析报告[D].山东大学,国际商务(专业学位),2013,硕士.
[11]谭喜堂,邢建华,朱琴跃.智能型电机绝缘检测装置的研制[J].城市轨道交通研究.2006(10)
[12]谢瑛波.聚双环戊二烯增韧阻燃研究[D].河南科技大学,高分子化学与物理,2013,硕士.
[13]全远丽.建筑物表面风压及周围风环境的数值模拟研究[D].暨南大学,2007.
[14]王艳辉.纠缠基础上的量子光刻和量子态制备[D].湖南师范大学,理论物理,2004,硕士.
[15]刘洋.现代高校学生公寓设计研究[D].湖南大学,建筑学,2011,硕士.
[16]马丽莉.人体体液/组织差异性甲基化片段的筛选[D].华中科技大学,法医遗传学,2013,硕士.
[17]朱秋萍,毛平平,罗俊.基于关联规则的入侵检测系统[J].计算机工程与应用,2004,26:160-162+173.
[18]江兴.碳纤维纳米管芯片问世[J].半导体信息,2013,02:13.
[19]吴长福.血管外支架的研制及性能研究[D].东华大学,纺织工程,2004,硕士.
[20]刘强.全钢子午线轮胎振动仿真分析及其影响因素研究[D].哈尔滨工业大学,工程力学,2014,硕士.
[21]吴娴.东证期货财富管理中心发展策略研究[D].兰州大学,工商管理(专业学位),2014,硕士.
[22]罗兰.从系统功能语法角度对汉语公益广告语篇人际意义的研究[D].武汉理工大学,外国语言学及应用语言学,2012,硕士.
[23]王宝磊.基于双目视觉反馈伺服的非完整移动机器人跟踪技术研究[D].上海理工大学,控制理论与控制工程,2012,硕士.
[24]丁雅婷.联邦快递和顺丰快递竞争优势比较分析[D].大连理工大学,物流工程(专业学位),2013,硕士.
[25]李霞.留守儿童感恩品质现状及教育对策[D].河北师范大学,马克思主义基本原理,2012,硕士.
[26]臧长海.上皮性钙粘附蛋白和β-连环素的表达与胆囊腺癌预后的关系[D].山西医科大学,免疫,2003,硕士.
[27]张明媛.乙肝病毒核心抗体与酒精性肝硬化病情进展相关性的回顾性研究[D].吉林大学,临床医学,2013,硕士.
[28]严蜀宇.火箭弹弹道方案优化技术研究[D].中北大学,火炮、自动武器与弹药工程,2014,硕士.
[29]刘小妹.V型切口脆断准则的理论研究与实验验证[D].合肥工业大学,固体力学,2004,硕士.
[30]顾海荣.高中历史心育探微[D].南京师范大学,2004.
[31]李志伟.威海市工业园污水排水系统布局规划研究[D].山东大学,建筑与土木工程(专业学位),2013,硕士.
[32]张贵军.论我国民事简易程序之重构[D].中国政法大学,法律,2003,硕士.
[33]杨爽.我国艺术体操初级训练阶段艺术训练内容体系的研究[D].河北师范大学,体育教学,2014,硕士.
[34]杨秀宽.新型型砂紧实率快速智能测试仪的开发[D].大连理工大学,机械设计及理论,2004,硕士.
[35]本报记者连晓东.数据挖掘:金融信息化新热点[N].中国电子报,2002-12-03.
[36]朱玮.表达草酸分解基因的成人骨髓间充质干细胞体外诱导分化为肝细胞的实验研究[D].广州医科大学,泌尿外科学,2014,硕士.
[37]杜林.成都市第三人民医院远程预约挂号诊疗系统设计与实现[D].电子科技大学,软件工程(专业学位),2012,硕士.
[38]范瑞祥,孙旻,贺之渊,严树刚.江西电网移动式直流融冰装置设计及其系统试验[J].电力系统自动化,2009,15:67-71.
[39]周芳.诉讼上抵销抗辩研究[D].西南政法大学,诉讼法学,2012,硕士.
[40]高程.从货币和制度的角度看西方世界的兴起[D].中国社会科学院研究生院,世界经济,2003,硕士.
[41]周勇,巩敦卫,张勇.混合性能指标优化问题的进化优化方法及应用[J].控制与决策,2007,03:352-356.
[42]谭民.对倪茂林、张汉国同志所提问题的答复[J].自动化学报,1993,06:757-758.
[43]刘文涵,秦延平,滕渊洁,袁荣辉,吴伊楠.激光拉曼光谱直接测定维生素C含量[J].徐州工程学院学报(自然科学版),2013,01:24-29.
[44]徐嘉祥.十六大以来中国共产党对解决民生问题的探索[D].曲阜师范大学,马克思主义中国化研究,2013,硕士.
[45]韩超.机制兰炭生产物流系统研究[D].长安大学,机械制造及其自动化,2013,硕士.
[46]韦博旭.车用大功率智能充电系统的研究与设计[D].上海工程技术大学,车辆工程,2014,硕士.
[47]鲁烈琴.三维叠前深度偏移技术在西部复杂地区的应用与效果[J].石油地球物理勘探,1997,05:703-708+750.
[48]王兵.高速公路通行费收费标准研究[D].武汉理工大学,交通运输工程,2003,硕士.
[49]姜慧奇.对外汉语教学中敬语的教学[D].黑龙江大学,汉语国际教育,2012,硕士.
[50]唐征海,郭宝春,张立群,贾德民.石墨烯/橡胶纳米复合材料[J].高分子学报,2014,07:865-877.

相关推荐
更多