计算方法识别必要基因的研究

计算方法识别必要基因的研究

作者:师大云端图书馆 时间:2015-11-13 分类:期刊论文 喜欢:3551
师大云端图书馆

【摘要】必要基因是维持物种存活、发育和繁殖所必需的最小基因集。由于对必要基因的研究具有非常重要的理论与实际意义,因此鉴定这类基因一直都是系统生物学与合成生物学的重要研究内容。先前的研究主要通过实验技术将基因随机或者系统地失活,进而基于物种的存活与否评价它们的必要性(例如:单基因敲除、RNA干扰、转座子突变等)。然而由于时间与资金的限制,此技术在许多物种中一时还难以实现(例如在基因组水平识别人类的必要基因集)。鉴于此,人们开始使用计算技术来辅助实验技术预测物种的必要基因,并且已证明在细菌与真菌上的应用具有可靠性。但是随着计算技术的广泛应用,一些新的问题开始浮现出来,例如如何筛选合适的训练集与特征参数。为了解决这些问题,本论文从以下三个方面开展研究。首先,本论文研究了训练集筛选对计算模型预测精度的影响,并提出四个筛选标准来提高预测精度。其次,本论文提出了一个新的用于基因必要性分类的方法,它能够显著提高计算技术预测必要基因的准确性与稳健性。最后,本论文在基因组水平识别了人类必要基因集,并且将其用于识别新的药物靶点的探索。第一部分:通过贝叶斯分类器对21个物种的必要基因进行相互预测与验证,本部分研究了训练集筛选对计算模型预测精度的影响。研究结果表明:1)选择不同的训练集会显著影响模型的预测精度。2)训练集必须至少占总基因集的10%才能够维持模型精确的预测。3)整合的训练集比单一训练集所构建的模型预测效果更优。4)基于我们提出的训练集筛选标准选择的训练集预测效果显著优于随机选取。结论:本研究针对训练集筛选提出四条标准:a)训练集中的基因必要性必须可靠;b)训练集和预测集中相关的生长条件需要保持一致;c)用来作为训练集的物种应该与被预测的物种尽量具有较近的亲缘关系;d)训练集和预测集对应的物种应该具有相似的表型和生活方式。第二部分:基于贝叶斯分类器,Logistic回归以及遗传算法,本研究提出了一个基于特征参数的加权贝叶斯模型(FWM),它能够显著提高预测精度。研究结果表明:1)基因特征间的共线性效应和物种间不同甚至相反的基因特征与基因重要性的相关关系会显著地影响模型的预测精度。2)FWM比其他分类器(即贝叶斯、支持向量机、Logistic回归三个分类器)有更好的性能(准确性、稳健性、适应性)。3)与普通贝叶斯分类器相比,FWM的预测精度能够提高2%~9%。结论:筛选用于构建必要基因预测模型的特征必须要非常慎重。并不是所有与基因重要性相关的特征都能够提高预测精度,相反,选择不恰当的特征会导致预测模型降低预测精度。FWM不仅能用于预测必要基因,还能用于其他的分类研究(例如用来识别疾病基因)。第三部分:基于两种类型的计算模型,本研究预测了7000个人类必要基因,然后通过与肿瘤必要基因以及致病菌的必要基因进行比较,我们识别了与治疗癌症相关的55个药物靶点,以及治疗与致病菌感染相关疾病的2046个药物靶点。研究结果表明:1)本研究识别的必要基因集具有较高的准确度(>0.73)。2)人类必要基因显著富集在一些核心的生物过程,例如:转录调控,大分子代谢以及binding活性。3)疾病基因中必要基因的比例显著超过背景水平,而且疾病基因和必要基因与其他基因相比要遭受更强的选择压力。结论:通过两类计算模型识别的人类必要基因集是非常可靠的。这项数据在识别潜在药物靶点上具有潜在的应用。总之,本论文综合运用计算机模拟、比较基因组、统计学、数据挖掘和生物信息学的分析方法,系统地研究了计算模型在必要基因预测上的应用。本论文为在基因组水平上预测必要基因提供了经验上的指导,为了解生命的最小基因集以及揭示新的药物靶点提供了新的研究思路。本论文提出的计算方法有望能够应用于人类基因的功能注释和人类疾病的诊断。
【作者】程健;
【导师】陶士珩;
【作者基本信息】西北农林科技大学,生物信息学,2014,博士
【关键词】必要基因;计算模型;训练集筛选;特征筛选;药物靶点;

【参考文献】
[1]MUHAMMADZUBAIRHANIF(祖拜尔).50位Stanford A型主动脉夹层的“孙式手术”病例的临床分析[D].山东大学,心血管外科(专业学位),2014,博士.
[2]赵亮.环境镉接触人群锌状态与镉损伤的关系[D].遵义医学院,卫生毒理学,2012,硕士.
[3]凌海峰,刘业政,杨善林.基于蚁群算法的用户导航模式挖掘的研究[J].合肥工业大学学报(自然科学版),2005,08:850-853.
[4]隋蕾.离退休再就业法律性质研究[D].吉林大学,法律,2013,硕士.
[5]张一弛.糖尿病大鼠心肌损伤的炎性机制及葛根素的干预作用研究[D].济南大学,药理学,2012,硕士.
[6]刘丰.Survivin与大肠癌细胞凋亡、增殖的关系[D].重庆医科大学,外科学,2004,硕士.
[7]李艳明.数据挖掘在读者阅读个性化推荐服务中的应用[D].河北科技大学,计算机技术,2012,硕士.
[8]甄真.宗教与美国妇女:妇女对政治的影响[D].上海外国语大学,英语语言文学,2013,硕士.
[9]祝晓云.台湾花蓟马和棕榈蓟马雄虫聚集信息素的提取分离鉴定[D].南京农业大学,农业昆虫与害虫防治,2012,硕士.
[10]曾露.论美国集团诉讼对我国证券民事诉讼之借鉴[D].湖南师范大学,国际法学,2004,硕士.
[11]万婷.李应存运用敦煌医方治疗肝病经验总结与思辨特点研究[D].甘肃中医学院,中医医史文献,2014,硕士.
[12]王新迪.新媒体下政治领域公众人物形象的传播[D].内蒙古大学,新闻与传播,2014,硕士.
[13]马艳玲.基于应变石墨烯的纳米器件设计[D].大连理工大学,2011.
[14]张均锦.上举牵引内收复位法在治疗肩关节前脱位中的应用[D].广西医科大学,骨外科(专业学位),2013,硕士.
[15]齐艳莉.企业股权融资偏好分析[D].天津财经学院,金融学,2004,硕士.
[16]陈芳芳.紫薯粉对面团烘焙特性的影响及其机理[D].华东理工大学,食品科学,2014,硕士.
[17]苏建杰.预加载活性粉末混凝土在硫酸盐作用下的耐久性研究[D].北京交通大学,2014.
[18]张佳倩.美国农村小规模学校再生研究[D].华东师范大学,比较教育学,2013,硕士.
[19]王文艳.新型办公空间家具设计研究[D].山东工艺美术学院,家具设计,2013,硕士.
[20]王丽.Google Earth在高中地理课程教学中的应用研究[D].扬州大学,现代教育技术,2012,硕士.
[21]江茜.化学复合镀Ni-P/Ni-P-PTFE的工艺优化及镀层性能研究[D].武汉理工大学,化学工艺,2012,硕士.
[22]李倩.mir-381在小鼠卵泡不同发育阶段的表达及其对颗粒细胞的影响[D].华中农业大学,特种经济动物饲养,2014,硕士.
[23]吴芳.大功率高压变频器的设计及应用[D].山东大学,电气工程(专业学位),2012,硕士.
[24]魏传军.基于地基GNSS观测数据的电离层延迟改正研究[D].长安大学,大地测量学与测量工程,2014,硕士.
[25]任桂娇.山区高速公路沥青路面大修关键技术研究[D].重庆交通大学,道路与铁道工程,2012,硕士.
[26]蒋显.线粒体释放细胞凋亡因子的机理研究[D].北京协和医学院,生物化学与分子生物学,2014,博士.
[27]黄立好.人民币国际化与中国对外投资关系的实证研究[D].山西财经大学,世界经济,2013,硕士.
[28]王艾娴.小流域水污染防治的法律对策研究[D].山西财经大学,环境与资源保护法,2014,硕士.
[29]胡学芹.基于遗传算法的集中供热网热量分配的研究[D].沈阳理工大学,计算机应用技术,2012,硕士.
[30]刘黎黎.软件外包企业的应收账款管理探讨[D].西南交通大学,工商管理(专业学位),2013,硕士.
[31]陈欢.30Cr1Mo1V钢转子锻件高温扩散工艺研究[D].燕山大学,材料加工工程,2014,硕士.
[32]丁强,臧斌宇,朱传琪.一种动态分布数组的数据划分模式[J].计算机工程与设计,2005,05:1135-1139+1143.
[33]易飞.脊柱转移瘤经皮椎体成形术疗效的MRI评价[D].苏州大学,影像医学与核医学,2013,硕士.
[34]赵静.关联顺应模式下商标名称英译的文化缺省研究[D].西北师范大学,英语语言文学,2013,硕士.
[35]王建平.“走出去”战略对我国文化产业影响的实证研究[J].管理世界,2014,12:178-179.
[36]刘全稳.Blin法的发展及在圈闭排序中的应用[J].石油地球物理勘探,1996,01:124-130+166.
[37]施英.离散可积系统的精确求解方法[D].上海大学,应用数学,2014,博士.
[38]刘慧.基于模糊划分的脱机手写汉字笔画特征提取方法[D].河北大学,计算机应用技术,2014,硕士.
[39]刘小莉.江汉湖群中小型湖泊湿地保护研究[D].湖北大学,自然地理学,2012,硕士.
[40]伍志波.生物柴油基微乳液的制备及其吸收甲苯废气的实验研究[D].广东工业大学,应用化学,2013,硕士.
[41]邓方安,刘三阳.模糊概念网络在故障诊断中的应用[J].控制与决策,2001,S1:834-836+839.
[42]徐基祥,吴律.拟真三维投影偏移[J].石油地球物理勘探,1998,04:453-466+572.
[43]白凤民.基于多信息融合的铝合金直流点焊质量监测系统[D].天津大学,材料加工工程,2004,硕士.
[44]喻伟,陈国青.基于时序数据的延迟关联规则的挖掘[J].计算机应用研究,2002,12:19-22.
[45]毕冉.千枚岩开挖弃料的级配特性研究[D].长安大学,岩土工程,2013,硕士.
[46]李佳.FGF7、10及其受体FGFR2Ⅲb在小鼠肾发育中的表达[D].辽宁医学院,人体解剖与组织胚胎学,2012,硕士.
[47]李娟.城市特色构建中城市家具的非同质化研究[D].齐鲁工业大学,设计艺术学,2014,硕士.
[48]刘建华.关于三类半环的研究[D].西北大学,基础数学,2013,硕士.
[49]赵国璧.基于.Net的工商案件管理信息系统的设计与实现[D].厦门大学,软件工程,2014,硕士.
[50]杨武,黄志真,李立新.一种基于粗糙集的多级安全数据库推理问题的量化分析方法[J].计算机科学,2005,08:75-76.

相关推荐
更多