首页

基于hadoop的连接算法中数据倾斜问题的研究 08月28日

【摘要】时至今日,随着各项科学技术的飞速发展,大数据处理的需求日益增长。hadoopmap/reduce作为一个并行数据处理框架,被越来越多的应用到分布式数据处理当中。map/reduce是一个高效的,可扩展的,高容错的并行编程模型,并且十分易于使用。连接操作作为数据处理中一种十分重要的操作,在传统数据库中已经得到了很多的研究,由于map/reduce自身框架的原因,它并不能很好地支持连接操作。如 […]

【论文下载 - 中国知网/万方数据/维普/读秀/超星/国研/龙源/博看等资源库】

基于抽样估计的MapReduce负载平衡研究 12月12日

【摘要】从云计算的涌现到其目前发展得如此成熟都应归功于现实环境的促进和互联网技术的发展。首先,互联网在各行各业的迅速普及,使得数据量呈爆发式地增长。国际数据公司(IDC)的一项研究统计显示,全球2010年所产生的数据量约是1.3ZB,而第二年又增加了约0.6ZB,这就是说地球上每一个人产生的数据最少200GB大小,此后增长得更迅猛。数据量早已不是那个TB的时代,更大的数据级别即将到来。那么怎么合理 […]