基于HDFS的优化数据冗余策略的研究

基于HDFS的优化数据冗余策略的研究

作者:师大云端图书馆 时间:2021-10-30 分类:参考文献 喜欢:3216
师大云端图书馆

【摘要】互联网的发展及其应用的增多导致其业务数据的暴增,传统的数据存储和处理技术已经无法满足如此日益增长的海量数据的需求。近年来,新兴的云计算具有存储和处理海量数据的能力,以及高可扩展性、高可靠性等优势,利用云计算技术存储和处理海量数据已经成为必然趋势。为了提高容错性和数据的有效性,云存储系统中引入了冗余机制,但同时也给副本管理带来了很多新挑战。比如HDFS(HadoopDistributedFileSystem)引入了数据完全备份的冗余方式来解决容错问题,并且当备份被分散地存储到不同地理位置的节点上时,采用就近原则访问可以降低访问时延,然而,这种方式具有存储空间消耗大、数据不可修复等缺陷。为此,一些学者提出了在云存储系统中引入纠删码来增强其数据可靠性,但纠删码的编解码操作需要耗费更多的系统资源并增加用户访问时延。为了结合二者的优势,将纠删码与完全备份结合的冗余方案REPERA(Replication和Erasure的前三个字母)被提出,但是它没有给出副本数确定和副本放置的依据。本文针对HDFS原有冗余机制的不足,在分析现有改进方法的基础上,设计了结合完全备份和改进的RS(Read-Solomon)纠删码两种冗余方法的优化数据冗余策略RIRS(ReplicationImprovedRS)。该策略能够中和上述两种冗余方法的缺陷,有效地整合完全备份的低时延和纠删码冗余可靠性高的优势,并大大地节省存储空间。该策略还为用户提供了备份数以及纠删码冗余度等配置参数,用户可以根据需要进行设置以将系统调整为最佳状态。此外,该策略采用的纠删码算法也是经过实验分析符合HDFS的,具有很高的纠错能力和相对较低的编码时延,提高系统可靠性的同时减少了时延的增加。另外,针对RIRS中副本管理的不足,本文设计了动态副本管理优化模型DRMO(DynamicReplicationManagementOptimized),它能根据文件的有效性要求获取最小副本数并动态调节副本数以获取低成本、高效率的存储服务。其次,该模型在考虑每个节点的容量和阻塞率的基础上,设计了一种均衡的副本放置策略,将副本放置到阻塞率最小的数据节点上,以降低访问时延,实现负载均衡。最后,本文在对HDFS的源代码进行分析之后,利用上述策略和模型对源代码进行修改,实现了基于HDFS的优化数据冗余策略。然后在自主搭建的Hadoop云平台上分别对系统的功能和性能进行了测试,其中功能测试结果显示本系统能够实现相应的功能,包括编解码、副本数设置、副本位置选择以及动态副本管理功能,性能测试结果显示RIRS所选择的纠删码具有最佳性能,并且DRMO能够在满足系统有效性要求的基础上减少存储空间,而DRMO的读写性能测试结果虽然与理论结果不是完全一致,但是文中给出了导致这一结果的原因的具体分析。
【作者】付园;
【导师】李玲;
【作者基本信息】吉林大学,通信与信息系统,2014,硕士
【关键词】云计算;HDFS;纠删码;冗余策略;完全备份;

【参考文献】
[1]范斌.基于Web服务的分布式数据挖掘系统研究[D].武汉理工大学,计算机应用技术,2004,硕士.
[2]赵冰.莱钢数据制造执行系统的研究与应用[J].冶金自动化,2008,06:12.
[3]段练.株洲市农村养老保障问题研究[D].中南林业科技大学,农村与区域发展,2013,硕士.
[4]王祖鹏1,2,许伟2,邵荣2,韦萍1*.基于定点突变改善中性植酸酶催化特性及结构效应分析[J].食品科学.
[5]张廷柱.二厘米小功率标准的研制[J].宇航计测技术.1990(01)
[6]管莹.土地财政成因、区域效应与系统治理对策研究[D].江西财经大学,土地资源管理,2013,硕士.
[7]李建微,陈崇成,於其之,潘志庚.虚拟森林景观中林火蔓延模型及三维可视化表达[J].应用生态学报,2005,05:838-842.
[8]赵丽梅,张庆普.我国知识管理研究前沿演进趋势知识图谱[J].科学学与科学技术管理,2012,01:90-98.
[9]刘阳.情景教学法在高中英语阅读教学中的应用研究[D].渤海大学,学科教学(专业学位),2014,硕士.
[10]徐秀杰,张永德.现场总线PROFIBUS-PA智能从站模拟量输入接口模块设计[J].冶金自动化,2004,02:72.
[11]王娜.磷脂转运蛋白(PLTP)在妊娠期糖尿病(GDM)母儿血清中的水平及在胎盘中的表达变化[D].泰山医学院,妇产科学,2012,硕士.
[12]陆斯.基于静态特征的高速公路停车识别与多路视频并行处理研究与实现[D].重庆大学,控制工程(专业学位),2014,硕士.
[13]邓新喜.大鼠阴茎海绵体肌源性干细胞多向分化潜能的鉴定[D].苏州大学,外科学,2014,硕士.
[14]方青.基于本体论的中医药一体化语言系统[D].浙江大学,计算机应用,2004,硕士.
[15]孙宏丽.基于Internet变电站自动化软件的研究与实现[D].西安理工大学,电力电子与电力传动,2004,硕士.
[16]付振鹏.面向导弹测试的PXI可重构仪器研究[D].哈尔滨工业大学,仪器科学与技术,2014,硕士.
[17]保丽霞.深圳市综合交通信息平台系统设计与关键技术研究[D].吉林大学,2004.
[18]宫源.延边地区人口流出差异性分析[D].吉林大学,人口学,2014,硕士.
[19]陈雅莹.乳链菌肿瘤特异性标记系统及跨界thyA同源重组载体的构建[D].广州医科大学,消化内科,2014,硕士.
[20]耿革东.无线传感器网络管理系统设计与实现[D].首都经济贸易大学,产业经济学,2013,硕士.
[21]王文彦.大学生功利主义思想论析[D].大连海事大学,马克思主义理论,2013,硕士.
[22]王峰.网络新闻图片造假现象及成因分析[D].内蒙古大学,新闻与传播,2013,硕士.
[23]陶晓明.政府网络信息行为研究[D].安徽大学,行政管理,2013,硕士.
[24]孙红梅.变性台风强度变化的机理研究[D].中国气象科学研究院,气象学,2013,硕士.
[25]戴明.氧代(?)酮类天然产物的全合成及抗肿瘤活性研究[D].第二军医大学,药物化学,2013,硕士.
[26]张倩.唐代女子教育探析[D].山东师范大学,专门史,2013,硕士.
[27]戎艳增.我国法官文化构建策略研究[D].河北师范大学,马克思主义基本原理,2012,硕士.
[28]刘珈麟.民族地区人民调解制度研究[D].湖北民族学院,民族学,2014,硕士.
[29]马利衡,梁青槐,谷爱军,江辉.沪宁城际高速铁路路基段振动试验研究及数值分析[J].铁道学报,2014,01:88-93.
[30]马士强.无线传感器网络抗毁性研究[D].西安电子科技大学,应用数学,2012,硕士.
[31]吴沛玲.小学英语课堂情境教学研究[D].湖南师范大学,教育(专业学位),2014,硕士.
[32]龙壹飞.面向地域信息的问答系统研究与实现[D].西南交通大学,交通信息工程及控制,2013,硕士.
[33]范正伟.基于猫群算法的多目标混流装配线重排序问题研究[D].华中科技大学,机械制造及其自动化,2013,硕士.
[34]孔卓怡,钟莉,邱乐泉,钟卫鸿.基因工程策略强化生物法生产CoQ_(10)研究进展[J].黑龙江科学,2013,07:45-47.
[35]杨丹.一种简化的MELP算法与其可行性评估[D].青海师范大学,计算机应用技术,2012,硕士.
[36]方孝伍.水工涵闸工程混凝土裂缝成因与抗裂技术研究[D].河海大学,水工结构工程,2004,硕士.
[37]白肖瑞.俄耳甫斯教及其美学意蕴[D].西安电子科技大学,美学,2012,硕士.
[38]李宁.孙廷铨与《颜山杂记》研究[D].重庆大学,中国古代文学,2014,硕士.
[39]汲逢源,王戈亮,许亦农.抗氧化剂对农杆菌介导的大豆下胚轴GUS基因瞬时表达的影响[J].植物生态学报,2006,02:330-334.
[40]朱素梅.物业管理纠纷非诉讼解决机制研究[D].山东大学,法学理论,2013,硕士.
[41]刘隽.初级对外汉语教材生词注释问题研究[D].山东师范大学,汉语国际教育(专业学位),2013,硕士.
[42]陈凯.代谢综合征和男性勃起功能障碍的相关研究[D].广西医科大学,泌尿外科,2013,硕士.
[43]李铁克,孙林,杜景红,李兰英.炼钢车间MES中的生产调度系统[J].冶金自动化,2003,05:22-25.
[44]鞠顺祥.中空纤维膜接触器吸收烟气中二氧化碳的数值模拟及实验研究[D].重庆大学,动力工程及工程热物理,2014,硕士.
[45]吕真钰.城市社区卫生服务建设中的政府责任研究[D].青岛大学,行政管理,2012,硕士.
[46]刘栋.扰动不确定下柔性Job-Shop分批调度优化方法[D].合肥工业大学,工业工程,2013,硕士.
[47]赵杨群.新建地方性综合学院办学特色形成研究[D].西南师范大学,教育学原理,2004,硕士.
[48]孙超.癌相关成纤维细胞来源的IL-22对胃癌侵袭作用的影响和相关机制的研究[D].天津医科大学,内科学,2014,博士.
[49]胡淑洁.我国税收竞争力研究[D].山东财经大学,财政学,2012,硕士.
[50]张琳.词汇联想记忆策略在高中词汇教学中的应用[D].辽宁师范大学,学科教学(专业学位),2012,硕士.

相关推荐
更多