小文本语料库在Hadoop平台上的存储策略研究

小文本语料库在Hadoop平台上的存储策略研究

作者:师大云端图书馆 时间:2025-04-24 分类:硕士论文 喜欢:2164
师大云端图书馆

【摘要】语料库是指基于不同目的收集起来的文本集合。在网络环境下收集的语料库,其包含的文本大小一般为KB级别,很少达到MB级别,故称之为小文本语料库。由于语料库中所包含的文本数据通常规模庞大,处理时计算量大,且许多操作具有并行性,因而产生了将文本处理迁移到分布式并行处理平台的趋势。近几年出现的Hadoop云平台,由于其具有良好的海量数据存储和高效计算能力,且是一个开源平台,因而被广泛应用于海量数据的分布式并行处理中。Hadoop的两个核心组件分别是:HDFS分布式文件系统和MapReduce并行计算模型。HDFS为MapReduce的计算提供了底层存储支持,其存储数据的方式决定了Hadoop的整体性能与MapReduce处理的速度。由于HDFS是为流式大文件设计的,其在处理小文本时,存在着一些客观问题:一是NameNode占用内存过大,可能会出现溢出,由于各小文本的元数据占据固定大小内存,小文本数量越大,内存占用越大,甚至溢出;二是大量读取小文本时,需在DataNode间频繁跳转,导致读取性能降低;三是相比同等大小的大文本,小文本语料库处理速度过慢。为了解决小文本语料库在Hadoop平台存储中,出现上述分布式存储与检索速度间的矛盾问题,本文提出了一种新的HSCS(HadoopSmalltextsCorpusStorage)存储策略。该策略首先使用小文本合并技术在HDFS架构中添加一层Merge_Client,将多个小文本文件合并为目录结构式的大文本文件,有效减少了内存压力和访问DataNode的次数;然后采用小文件检索技术,给合并后的大文本文件添加一个二级索引结构及设计索引记录的数据结构,并且添设一个索引文件阈值,当超过阈值时,使用虚拟内存技术,将使用频率最低的索引文件置换到对换区中,减少文件管理的空间复杂度,从而解决了在合并为目录结构式的大文本文件中,快速检索所需小文本问题,有效提高了小文本的检索速度。最后设计的实验,对比了小文本语料库合并前与合并后的写入速度和文本预处理速度,对比了采用HSCS方法和SequenceFile方法的文本检索速度,以及对比了采用虚拟存储技术后无需置换时与置换时的检索速度。实验结果表明,本文提出的新的HSCS存储策略在处理小文本语料库时是可行有效的。
【作者】郑丽洁;
【导师】陈利;
【作者基本信息】华中师范大学,计算机应用技术,2014,硕士
【关键词】小文本语料库;HSCS存储策略;Hadoop平台;合并;检索;

【参考文献】
[1]曹洪义.空投油料软体容器的试制与应用[J].特种橡胶制品.1990(03)
[2]张洁.企业社会责任信息披露对权益资本成本的影响研究[D].北京交通大学,2013.
[3]安光.高校毕业生自主创业问题研究[D].江西农业大学,教育经济与管理,2012,硕士.
[4]鲁建厦,景峰,董巧英.基于面向对象时间约束Petri网的加工-装配车间资源可调度性研究[J].轻工机械,2014,03:90-94+99.
[5]任童欣.中国特色社会主义正义观初探[D].吉林大学,马克思主义基本原理,2013,硕士.
[6]池仁勇,李瑜娟,刘娟芳.基于多维评价指标体系的集群品牌发展驱动模式研究——对浙江集群品牌的经验分析[J].科技进步与对策,2014,19:69-74.
[7]乌兰塔娜.蒙古族当代文学体制研究[D].内蒙古师范大学,中国少数民族语言文学,2013,硕士.
[8]胡强.基于EPR制度的逆向供应链协调与激励机制研究[D].浙江工业大学,管理科学与工程,2012,硕士.
[9]翟中杰.未成年人网络道德素质测评研究[D].湖南科技大学,马克思主义理论,2013,硕士.
[10]杨旭.我国农村村民自治现存的问题与对策[D].长春工业大学,行政管理,2013,硕士.
[11]张鑫.基于过程模拟法的地下水污染风险评价[D].吉林大学,水利工程,2014,硕士.
[12]孙思雨.盐酸安妥沙星眼用温度敏感原位凝胶的制备研究[D].蚌埠医学院,药理学,2013,硕士.
[13]王妮.型钢混凝土L形柱空间角节点抗震性能研究[D].广西大学,结构工程,2014,博士.
[14]彭辉.功能视角下吉林省农村信用社发展研究[D].吉林大学,农业经济管理,2013,硕士.
[15]黄晓诚.中国货币政策传导机制研究[D].河北经贸大学,西方经济学,2012,硕士.
[16]杨征.论色彩元素在现代平面广告设计上的运用[J].电子制作,2015,04:95.
[17]王海洋.信息时代的思维方式[D].吉林大学,马克思主义哲学,2004,硕士.
[18]庞鳕芙.西京大酒店人力资源管理体系研究[D].吉林大学,工商管理,2012,硕士.
[19]王琳.基于MES的机械产品装配过程可视化监测与控制系统研究[D].合肥工业大学,工业工程,2013,硕士.
[20]宋孝炳.粉粒体计量系统的自动称量装置研究[D].合肥工业大学,机械电子工程,2013,硕士.
[21]蔡方伟,吴章维,刘珧,魏成文.基于SIMADYND的宝钢热轧卷取机控制系统[J].冶金自动化,2002,02:43-46.
[22]刘义晗.山西省吕梁地区中老年人群特发性震颤的多因素分析[D].山西医科大学,神经病学(专业学位),2013,硕士.
[23]冯俊.论《五号屠场》的荒诞性[D].湖南师范大学,英语语言文学,2004,硕士.
[24]顾琳琳.遗产特留份制度研究[D].河北经贸大学,民商法学,2014,硕士.
[25]颜雪松,蔡之华.一种基于Apriori的高效关联规则挖掘算法的研究[J].计算机工程与应用,2002,10:209-211.
[26]龚鹄.基于“机器人教育”的幼儿结构游戏设计研究[D].湖南师范大学,学前教育(专业学位),2013,硕士.
[27]王旭辉.轴承齿轮材料接触疲劳试验系统的研制[D].北京交通大学,2015.
[28]白仁斗.混炼型ZnO/Al_2O_3填充硅橡胶导热复合材料的制备及性能[D].合肥工业大学,材料工程,2013,硕士.
[29]杨明.民国时期的《庄子·天下篇》研究[D].河北师范大学,中国古代文学,2014,硕士.
[30]贾媛媛.亚急性瘤胃酸中毒对山羊血液皮质醇浓度和肝脏脂代谢的影响及其机制研究[D].南京农业大学,基础兽医学,2013,硕士.
[31]李志英.小麦白粉菌无毒基因遗传分析及其遗传图谱的初步构建[D].中国农业大学,植物病理学,2004,硕士.
[32]堵亚光,赵大力,王友龙.铅淬火温度自适应控制[J].冶金自动化,1989,02:39-41.
[33]葛亮,张建华,余斌.智能变电站数据中心及其应用服务[J].电力系统自动化,2013,24:54-59.
[34]黎伟麟.乡镇土地编制规划信息系统的设计与实现[D].电子科技大学,软件工程(专业学位),2012,硕士.
[35]孙林,陈笑青,张亚中,李艳萍.多方法识别和预测盐下生物礁[J].石油地球物理勘探,2009,S1:79-83+167+4.
[36]金江子.房地产销售信息管理及BIM应用[D].华中科技大学,建筑与土木工程,2013,硕士.
[37]郑遗凡,赵娜,张杰,俞晓烨,莫卫民.WC/天然沸石纳米复合材料的微结构表征及性能[J].无机材料学报,2012,02:129-133.
[38]郝浩倩.基于多载波调制的水声通信系统研究[D].北京理工大学,电子与通信工程,2014,硕士.
[39]孙磊.论我国预期合同侵权的制度构建[D].辽宁大学,民商法学,2012,硕士.
[40]王飞跃.结合CI设计理念针对服装企业电子商务平台品牌推广进行优化的研究[D].吉林大学,服装设计与工程,2013,硕士.
[41]王国庆.α-生育酚非均相催化剂及制备反应工艺研究[D].天津大学,化学工艺,2013,硕士.
[42]文信连.广西区种子公司发展战略研究[D].中国农业大学,种植业,2004,硕士.
[43]李亚楼,穆清,安宁,胡晓波.直流电网模型和仿真的发展与挑战[J].电力系统自动化,2014,04:127-135.
[44]陈巧.CEO特征对R&D投入的影响[D].华东师范大学,会计学,2013,硕士.
[45]蒋希明.公共物业服务项目质量管理研究[D].东北石油大学,项目管理(专业学位),2013,硕士.
[46]曾俊华.骨痛膏外敷治疗家兔膝骨关节炎的骨内压和血液流变学的实验研究[D].湖北中医学院,中医骨伤科学,2004,硕士.
[47]苏俊霞.五种苏铁羽叶和羽片的生长发育[D].广西大学,作物栽培学与耕作学,2004,硕士.
[48]李文维.不锈钢着色液老化及杂质离子影响规律研究[D].湖北大学,应用化学,2012,硕士.
[49]李云.面向高性能应用的PCIE SSD的驱动研究与实现[D].国防科学技术大学,计算机科学与技术,2012,硕士.
[50]张华.基于Ajax技术藏/汉远程教育网络课程研究与应用[D].西北民族大学,计算机应用技术,2012,硕士.

相关推荐
更多