基于MapReduce的连接方法研究

基于MapReduce的连接方法研究

作者:师大云端图书馆 时间:2020-01-20 分类:参考文献 喜欢:3133
师大云端图书馆

【摘要】伴随网络和云计算技术的飞速发展,全球数据倍增,数据量级已达TB、PB级,形象地被称为海量数据或者大数据。同时,数据背后隐藏的信息的价值也越来越高,不仅能为拥有这些数据的企业提供决策和商机,也能为人类享受更加方便、智能、快捷的服务提供支持。数据的种类越来越多,结构更加复杂,各种结构化、半结构化、无结构数据产生于各种各样的应用环境中,人类迎来了大数据时代。大数据时代背景下,数据的价值受到了前所未有的重视,人们将越来越多的目光投向大数据分析与处理。传统的关系数据管理和分析、并行计算技术由于其自身的限制不能应对大数据带来的挑战,需要新的理论和技术来支撑大数据的分析和处理。MapReduce作为新兴的数据密集型计算编程模型的代表,由于其具备良好的可扩展性,高的容错性和可使用廉价机器代替昂贵的服务器等优势,在大数据分析与处理方面发挥了不可替代的作用,但是它不直接支持连接,增加了分析和处理关系型数据的难度。连接是一种基础的关系代数运算,是分析和处理关系型数据的有效手段。现有的基于MapReduce的连接方法大多只关注等值连接,但是大数据的深度分析工作仅仅靠简单的等值连接是无法完成的,需要MapReduce有效处理更复杂的连接类型,比如叉积、θ-连接等。仅有的关注θ-连接方面的研究,或者描述不够详尽,难于理解和实现,或者不能适应多变的计算环境。基于以上原因,本文提出了一种简单而有效的θ-连接处理方法,简单体现在思想简单易懂,描述详尽;有效体现在能够根据不同输入设置Reducer个数,适应多变的计算环境。该方法命名为AdaptiveShareMapReduceTheta(ASMRT),含义为基于MapReduce的可调整份额的θ-连接算法。该算法包括MapReduceTheta(MRT)和AdaptiveShare(AS)两部分,AS算法根据各数据集的记录数量,设置合理的权衡因子,求解各数据集的份额和Reducer个数;MRT算法根据各数据集的份额和Reducer个数完成θ-连接。算法的理论模型MRT分区模型采用与连接记录无关的量对数据集进行逻辑划分,既符合MapReduce处理任意连接条件θ-连接的分区逻辑,使得MapReduce处理θ-连接成为可能,又可从本质上避免由于数据集中记录的键值分区不均而引发的数据偏移问题的发生。为验证MRT算法的可行性与AS算法的有效性,本文实现了ASMRT算法,构造有代表性的例子对AS的有效性进行了分析;从关系代数理论分析了MRT算法;结合抽象例子将MRT算法与SRJ算法进行对比分析,结果表明ASMRT能够利用一次MapReduce过程简单而有效地处理任意连接条件的多路θ-连接。
【作者】郭骐恺;
【导师】张长海;
【作者基本信息】吉林大学,计算机软件与理论,2014,硕士
【关键词】大数据;MapReduce;θ-连接;分区;云计算;

【参考文献】
[1]边守忠.20000安培立式电解成型机床及其刚性[J].航空工艺技术.1989(02)
[2]季芳,程勇.研究生职业生涯教育的思考与实践[J].高校辅导员,2014,04:21-25.
[3]李光文.石油工业部地震勘探会议在涿县召开[J].石油地球物理勘探,1986,04:364.
[4]尚晓晶.基于“导学案”教学模式的智能导学系统的设计开发与实证研究[D].渤海大学,教育技术学,2013,硕士.
[5]侯波.钣金热成形系统高温模具自动拆装车的研究与设计[D].沈阳航空航天大学,航空工程,2013,硕士.
[6]王宏真.网络整体效用影响下的物流战略通道选择决策研究[D].北京交通大学,2014.
[7]阚兰艳.氧化石墨烯基二维大分子刷的合成、表征及模板应用[D].浙江大学,2011.
[8]李松和.内燃机曲轴轴系扭振数字化测试系统[D].浙江大学,2005.
[9]周文杰.校园手机一卡通系统设计[D].河北科技大学,计算机技术,2012,硕士.
[10]杨颖慧.我国民事环境公益诉讼原告主体制度研究[D].内蒙古大学,法律,2014,硕士.
[11]朱永振.对普通高校体育教育专业足球普修课教学内容的探索研究[D].扬州大学,学科教学,2011,硕士.
[12]詹军成.微创手术器械力传感器设计[D].哈尔滨工业大学,机械工程,2013,硕士.
[13]宋佳益,张真继.国外铁路公益性运输的政策启示[J].价格理论与实践,2015,03:63-65.
[14]霍立军.耐火砖模具的再制造及疲劳性能研究[D].燕山大学,机械设计及理论,2014,硕士.
[15]张乃通,李晖,张钦宇.深空探测通信技术发展趋势及思考[J].宇航学报,2007,04:786-793.
[16]杨志桐.基于Liferay Portal的乡镇企业门户网站建设研究[D].吉林大学,软件工程,2012,硕士.
[17]郑静.高速列车轴箱轴承疲劳寿命研究[D].北京交通大学,2014.
[18]庄汉彬,邹穗生,王刚.知识资源管理:新世纪企业档案管理的发展趋势[J].中国档案,2004,10:41-42.
[19]吴炎.纳米颗粒微化工制备过程基于高速图像的控制系统研究[D].浙江大学,控制工程,2013,硕士.
[20]黄汝宏.建筑给排水管材的回顾与展望[J].中国住宅设施.2003(07)
[21]康美荣.TiO_2/石墨烯磁性复合材料的制备及性能研究[D].哈尔滨工业大学,2011.
[22]邓自立,刘玉梅.稳态Kalman滤波的一种统一格式[J].控制与决策,1999,01:26-30.
[23]林莘,温苗,沈文,冀田.复杂电场作用下换流变压器套管绝缘特性分析[J].高压电器,2015,04:1-6.
[24]孙志宏.河北经贸大学教师体质现状与运动干预研究[D].河北师范大学,体育教学,2012,硕士.
[25]李琴.SC公司基于战略地图的财务可持续增长研究[D].安徽大学,工商管理,2014,硕士.
[26]贺俊燕.中学思想政治课教学中师生心理环境优化的研究[D].华东师范大学,教育,2001,硕士.
[27]付明俊.痰湿型多囊卵巢综合征患者遗传因素和生活方式的分析[D].黑龙江中医药大学,中医妇科学(专业学位),2013,硕士.
[28]孙龙.城市居民大五人格与幸福感:社会支持的中介作用[D].华中科技大学,社会学,2013,硕士.
[29]金 杰1,王丽叶1,黄晓林1,孟祥宇1,陈蕴博2,高克玮3.复合离子束制备氮化物多层膜的抗冲蚀性能*[J].中国表面工程.
[30]胡华强,庄华夏,傅招旗,石佳乐,张俊芝.火成岩纤维掺量对水工混凝土抗氯离子侵蚀性能的影响[J].浙江水利科技,2014,04:66-68.
[31]李刚.路井凹陷的构造特征与油气远景分析[J].石油地球物理勘探,2004,04:443-449+500-367.
[32]唐伟军.LNG接收站建设工程安全风险管理研究[D].大连理工大学,项目管理(专业学位),2013,硕士.
[33]王群.加宽工程中旧路开挖方式控制技术研究[D].北京交通大学,道路与铁道工程,2013,硕士.
[34]程长胜.消费抚养比研究[D].复旦大学,社会保障学,2012,硕士.
[35]程华强.自适应张弦梁结构的控制理论与设计方法研究[D].浙江大学,结构工程,2014,博士.
[36]汤宇杰.社会管理创新视域下建立合理社会参与机制的探索[D].吉林大学,公共管理,2012,硕士.
[37]王游洋.CUBA男子篮球联赛2、3号位队员防守能力的研究[D].东北师范大学,体育教育训练学,2012,硕士.
[38]李亚莉.基于用户个性化需求的服务发现技术研究[D].宁波大学,计算机应用技术,2013,硕士.
[39]邢春霞.高钙生物污泥资源化利用开发[D].兰州理工大学,环境工程,2013,硕士.
[40]黄文鑫.中美广告教育比较研究[D].上海外国语大学,新闻学,2013,硕士.
[41]胡进军.地下地震动参数研究[D].中国地震局工程力学研究所,防灾减灾工程及防护工程,2003,硕士.
[42]丁英超.我国专业艺术院校民族器乐课程设置研究[D].中央民族大学,艺术教育,2004,硕士.
[43]王雅琴.帕金森病认知功能障碍及遗传易感性研究[D].中南大学,神经病学,2014,博士.
[44]张娟,岳小宝.基于RoughSet理论的医疗诊断方案的分析[J].天水师范学院学报,2004,05:58-61.
[45]李云帆.“国家为什么武装”的复证研究[D].复旦大学,国际关系,2012,硕士.
[46]刘俊.基于ARM和Linux的溶解无机碳(DIC)分析系统的研制[D].杭州电子科技大学,电路与系统,2013,硕士.
[47]王彬,肖国举,毛桂莲,岳自慧,许兴.燃煤烟气脱硫废弃物对盐碱土的改良效应及对向日葵生长的影响[J].植物生态学报,2010,10:1227-1235.
[48]唐秋明,王树民.DHC-12型多功能乳化炸药混装车及地面制备站的研究[J].有色金属(矿山部分).1992(06)
[49]刘云霞,詹晖.锂硫电池性能改进的研究进展[J].电池,2013,05:296-299.
[50]许婷婷.我国农业巨灾保险基金筹资机制研究[D].宁波大学,金融学,2014,硕士.

相关推荐
更多