基于Hadoop的同源性搜索GO功能注释平台的研究

基于Hadoop的同源性搜索GO功能注释平台的研究

作者:师大云端图书馆 时间:2017-10-30 分类:硕士论文 喜欢:1874
师大云端图书馆

【摘要】随着第二代基因测序技术的广泛使用,基因测序速度得到了很大地提升。随之产生了海量的生物数据,这些数据需要通过分析、整理和注释之后才能使其具有生物学含义。目前,已经有大量的生物信息数据库用来高效地存储和管理这些庞大的信息。利用这些已经注释过的生物学数据来对新的数据进行注释,已成为生物信息学的一个重要领域。基因本体论GO,构建了一个跨物种的注释词汇库,从而精确定义了基因的功能及功能间的关系,在注释中得到了广泛的使用。同时,面对海量生物学数据,如何快速有效地实现它们的并行化处理,也成为了学术界研究的一个热点。目前,对于并行计算的处理框架有很多种,而Google公司提出的云计算概念和MapReduce并行框架以其可高扩展和高易用性,在大数据处理中得到了广泛的应用。Hadoop作为开源的云计算平台,实现了Google云计算的功能,被研究者们广泛使用。本文在结合生物信息学以及云计算技术的基础上,提出并设计了基于Hadoop的同源性搜索GO功能注释平台,为基因数据的研究提供了便利。本文的研究工作主要如下:(1)研究了基因本体的相关理论基础,以及GO本体论在生物信息学尤其是基因功能注释中所得到的应用。分析了目前已有的基因数据的注释手段,以及基于同源性序列相似度的功能注释所具备的理论基础。(2)研究了基于序列相似度比对的基因功能注释的流程。研究了打分矩阵和序列比对算法在发现同源性序列的过程中所起的作用。研究并实现了点矩阵、Needleman-Wunsch、Smith-Waterman等序列比对算法,并测试比较了它们的性能。(3)创新性地提出了基于Hadoop的基因功能注释平台的体系架构。通过整合GO数据库以及其他生物数据库,设计了本地基因注释的数据中心,并设计了用于功能注释的概念模型,用来实现本体与注释信息的关联通路。(4)分析了蛋白质数据库搜索算法BLASTP的算法理论,比较算法各个阶段所占的运行时间。结合Hadoop的MapReduce并行处理框架,以及在基因注释中比对算法的需求,设计了并行的蛋白质比对算法CGABlastP,通过实验证明其从本质上提高了基因注释的速度,适应了生物序列指数级增长的需求。
【作者】吴浩宇;
【导师】叶锡君;
【作者基本信息】南京农业大学,计算机应用技术,2013,硕士
【关键词】基因注释;基因本体;序列比对;云计算;Hadoop;MapReduce;

【参考文献】
[1]庄红.攀枝花炳三区城市风貌中的建筑形态研究[D].西南交通大学,土木工程与建筑,2013,硕士.
[2]王丽新.复合材料坝分析与坝面防渗材料试验[D].清华大学,水利工程,2013,硕士.
[3]刘佳海.基于物联网的农产品流通信息化研究[D].华中师范大学,农业推广,2014,硕士.
[4]丁云芝,苏建徽,周建.基于钳位双子模块的MMC故障清除和重启能力分析[J].电力系统自动化,2014,01:97-103.
[5]孟娜.地方政府建设用地指标管理创新实践研究[D].南京农业大学,土地资源管理,2012,硕士.
[6]王正仕,陈辉明.具有无功和谐波补偿功能的并网逆变器设计[J].电力系统自动化,2007,13:67-71.
[7]王欣萍.基于酶催化信号放大策略检测microRNA的新技术研究[D].华东理工大学,食品科学,2013,硕士.
[8]徐兴发.配电线路感应雷过电压计算与防护的研究[D].广东工业大学,电力系统及其自动化,2013,硕士.
[9]史吉胜.高河煤矿突出危险性区域划分技术研究[D].中国矿业大学,安全技术及工程,2014,硕士.
[10]李鹏.新型农村社区公共服务供给体系研究[D].长安大学,行政管理,2013,硕士.
[11]马文魁.虚拟制造中的农机件智能CAPP技术研究[D].河南农业大学,农业电气化与自动化,2012,硕士.
[12]黄薇.“老纽约”社会中的新女性[D].广西师范大学,英语语言文学,2003,硕士.
[13]陈旭峰.中小学教师教育信息能力的分析和发展对策研究[D].华东师范大学,课程与教学论,2004,硕士.
[14]杨瑒.施氮量对马铃薯根际土壤生物活性及晚疫病发生程度的影响[D].黑龙江八一农垦大学,植物病理学,2014,硕士.
[15]刘晓雷.吡嗪衍生物及其配合物的合成与性质及生物活性研究[D].西南交通大学,生物化工,2014,硕士.
[16]杨莲.青霉素菌渣混合堆肥过程生物特性分析[D].哈尔滨工业大学,市政工程,2014,硕士.
[17]徐碧赢.电力巡检系统中手抄器的设计[D].北方工业大学,信号与信息处理,2014,硕士.
[18]时正武.辽宁朝阳地区铁尾矿砂路面典型结构的研究[D].大连理工大学,道路与铁道工程,2013,硕士.
[19]牛淑艳.视觉导航智能车路径识别及控制算法研究[D].哈尔滨理工大学,控制理论与控制工程,2012,硕士.
[20]苏亚东.关键词广告中点击欺诈问题研究[D].重庆大学,企业管理,2014,硕士.
[21]张植勤.电解二氧化锰(一)[J].电池.1990(04)
[22]严泰来,张晓冬,王晓娜.关于土地信息系统数据库信息挖掘问题的思考[J].国土资源信息化,2003,03:8-10+33.
[23]梁爽.联苯类化合物的合成[D].天津大学,应用化学,2013,硕士.
[24]高隽.“阐释学”指导下的王维诗歌英译[D].河北师范大学,外国语言学及应用语言学,2014,硕士.
[25]丁国强,徐洁,周卫东,张志艳.SINS/CCD系统四元数中心差分姿态估计算法[J].华中科技大学学报(自然科学版),2014,09:19-23+48.
[26]代灵敏.中国税制优化研究[D].西南财经大学,财政学,2014,博士.
[27]郭甜.北方城市贴墙绿化方式初探[D].北京林业大学,园林植物与观赏园艺,2013,硕士.
[28]侯帆.城市成年居民呼出气一氧化氮和一氧化碳水平及其影响因素研究[D].华中科技大学,劳动卫生与环境卫生学,2013,硕士.
[29]李云岭.基于栅格模型的海洋渔业GIS研究[D].山东科技大学,2003.
[30]谢晋强.北大巴山推覆构造形成时代及其复合演化[D].西北大学,构造地质学,2014,博士.
[31]赵辉.高速公路自动发卡控制系统设计[D].南昌航空大学,电子与通信工程(专业学位),2014,硕士.
[32]李雪莉.谈康有为《广艺舟双楫》的书法批评观[D].内蒙古师范大学,文艺学,2012,硕士.
[33]陈沛.SK企业内部审计研究[D].南京大学,工商管理,2013,硕士.
[34]李峰.Ⅱ型糖尿病与胃癌发生及淋巴结转移的关系[D].山东大学,外科学(专业学位),2013,硕士.
[35]王静.冶炼厂下游河段底泥重金属形态分布及生态风险评价[D].郑州大学,环境工程,2013,硕士.
[36]刘晓辉.基于ArcGIS的北美地区臭氧时空特征分析[D].辽宁工程技术大学,地图制图学与地理信息工程,2012,硕士.
[37]侯瑞.宽严相济刑事司法政策在公诉权行使中的适用[D].甘肃政法学院,刑法学,2011,硕士.
[38]于莹.生物制剂处理苯胺废水的效果研究[D].吉林大学,环境工程,2013,硕士.
[39]孙岩.译者的“导演”角色[D].首都师范大学,英语语言文学,2014,硕士.
[40]张婷婷.组织运动二尖瓣环位移技术对冠心病患者左心室收缩功能的评价[D].山西医科大学,影像医学与核医学,2013,硕士.
[41]陈静.中国成品油定价机制改革研究[D].吉林大学,西方经济学,2013,硕士.
[42]成涛.ICH指数对急性脑出血患者预后的简易评估[D].山西医科大学,神经病学,2013,硕士.
[43]唐校福.微通道的制备及微通道中不互溶两相流体界面形态研究[D].哈尔滨工业大学,材料工程,2013,硕士.
[44]杨少斌.Neuronostatin对吗啡镇痛和福尔马林炎症痛觉的影响[D].兰州大学,生物化学与分子生物学,2013,硕士.
[45]吴文宇.长春中东大市场的物流分析与战略[D].吉林大学,工商管理,2004,硕士.
[46]李杨.试论郭象之“无为”[D].华中科技大学,中国哲学,2013,硕士.
[47]纪志成,朱芸,王艳.基于分段模糊Lyapunov方法的T-S模糊系统H_∞控制[J].控制与决策,2007,12:1357-1362.
[48]高林.基于射频识别技术的高校资产管理系统的设计与实现[D].吉林大学,软件工程,2014,硕士.
[49]马爱荣.S100在子宫内膜癌中表达的意义[D].青岛大学,妇产科,2004,硕士.
[50]赵芹.线粒体钙单向转运体对大鼠脑缺血再灌注损伤中线粒体能量代谢及细胞凋亡的影响[D].青岛大学,麻醉学,2013,硕士.

相关推荐
更多