转录因子结合位点识别问题的算法研究

转录因子结合位点识别问题的算法研究

作者:师大云端图书馆 时间:2015-10-02 分类:参考文献 喜欢:2366
师大云端图书馆

【摘要】转录是基因表达的第一阶段,也是基因调节的主要阶段,通过转录因子与特异的DNA序列结合,对基因的表达起抑制或增强的作用。识别DNA序列的中的这些结合区域,即转录因子结合位点识别,对了解基因的转录活性及理解基因表达有着重要意义,是现今生物信息学中最为广泛研究的问题之一。转录因子结合位点识别问题的难点在于,与大量长度几百或上千碱基的背景噪声序列相比,长度为十几或几十的模体信号相对较短,并且同一转录因子的模体实例还有可能部分发生变异。同时,随着序列长度和数量的增加,解空间大小也会飞速巨增,计算开销往往不切实际。此外,识别结合区域中的多个转录因子结合位点、寻找特定的共调控转录因子结合位点组合以及在全基因组范围内寻找结合位点,也是此问题所面临的巨大挑战。本论文针对转录因子结合位点识别问题中所使用的数学模型、优化技术、高效识别方法以及与新型生物实验结合的进一步发展等问题进行了深入的研究,将所提出的方法应用于模拟字符串数据、不同物种和组织的启动子序列和全基因组的DNA数据进行转录因子结合位点识别。主要工作可概括如下:(1)针对传统转录因子结合位点识别问题组合候选解集规模过大,经典的概率求解方法易于陷入局部最优解的情况,提出了定位投影求精算法。通过一个基于位置频率矩阵的定位投影过程,将数据集划分,聚类为不同的子集。从这些子集中过滤筛选出具有一定信息量和复杂度若干子集,分别作为期望最大化算法的初始状态并进行迭代求精。本论文通过对定位投影过程中阀值的设定,实现了对OOPS、ZOOPS、TCM三种模体实例不同分布模型的处理。同时,结合高阶马尔可夫模型作为背景加强模体特异性,使概率模型更加符合真实生物数据。此外,引入了相似函数对各子集输出结果进行评估,使得定位投影求精算法可以解决多模体识别问题。实验结果表明,该算法可以在多个真核物种的启动子序列中有效识别转录因子结合位点。(2)针对由转录因子结合位点识别问题衍生得到的(l,d)植入模体搜索问题,传统算法在效率和准确度上往往较难达到良好的平衡,并且难以解决挑战实例的情况,提出了一种基于期望最大化的启发式聚类算法CEM。通过参照序列的设定,该算法将数据集划分为不同的子集,并使用改进的期望最大化算法来探索子集中最好的局部最优解。CEM将精确方法与概率方法相结合,克服了传统期望最大化算法陷入不同局部解的缺点,可准确寻找到植入位点,对识别高退化性模体有较好的性能。模拟数据测试结果表明,CEM不但能准确识别一般实例中的植入模体信号,对于挑战实例的植入模体信号识别也有较高准确率。此外,真实数据实验证明该算法可有效应用于实际物种的转录因子结合位点识别问题。(3)针对全基因组范围的转录因子结合位点识别问题,提出了一种用于ChIP-seq数据的转录因子结合位点识别算法MMFChIP。该算法将精确方法和概率方法相结合,针对ChIP-seq的数据特点,通过对正负两个输入集合的比较,选出发生频率较高且相似的子序列生成位置频率矩阵,并结合模体内位置依赖性和高阶马尔可夫进行统计建模,利用错误发现率对预测实例进行控制。在输出时,还利用一个后处理过程聚类相似的模体。ChIP-seq数据测试证明,MMFChIP适用于处理大规模数据中的模体发现问题,不但可以发现数据中的多个模体成分,并且对这些数据中的潜在辅助因子也可以进行较好的预测。
【作者】张懿璞;
【导师】霍红卫;
【作者基本信息】西安电子科技大学,计算机应用技术,2014,博士
【关键词】转录因子结合位点;模体发现;期望最大化;染色体免疫共沉淀测序;

【参考文献】
[1]任欢.我国主板上市公司IPO前后经营绩效比较分析[D].兰州商学院,会计学,2013,硕士.
[2]陈春满.通信网络资源信道调度的研究与实现[D].东北大学,计算机技术,2011,硕士.
[3]滕威.日本人的集团意识的研究及其教育指导[D].渤海大学,课程与教学论,2014,硕士.
[4]徐洁.“五四”时期浪漫主义在中国的译介及现代化[D].上海外国语大学,比较文学与世界文学,2012,硕士.
[5]朱瑾.温州市食品安全现状和管理研究[D].西北农林科技大学,食品加工与安全,2012,硕士.
[6]崔娜.高职高专大学生体育参与、压力源及应对方式的实证研究[D].内蒙古师范大学,体育教育训练学,2012,硕士.
[7]周永志.合金熔体分形特性及其电输运性质研究[D].济南大学,材料物理与化学,2012,硕士.
[8]吕慧静.海洋动物实验信息保密存储系统的研究[D].燕山大学,控制理论与控制工程,2014,硕士.
[9]赵智鑫.地理教学反思的研究[D].河北师范大学,学科教学,2014,硕士.
[10]刘海珍.李大钊文化选择思想研究[D].西安科技大学,马克思主义中国化研究,2014,硕士.
[11]王静爽,李新永,曹尔晔.基于分散式信号采集的小电流选线装置[J].电力系统自动化,2007,16:92-93+98.
[12]李长丽.慢性肾脏病患者动态血压变化与中医辨证分型的相关性研究[D].湖北中医药大学,中医内科学(专业学位),2013,硕士.
[13]记者杨佼.股权激励临近石墨烯助涨中国宝安股价[N].第一财经日报,2012-01-13A14.
[14]张锦云.我国档案服务能力研究[D].安徽大学,档案学,2013,硕士.
[15]米阳,潘伟,井元伟.一类不确定时滞系统的模糊滑模控制[J].控制与决策,2006,11:1280-1283+1288.
[16]许莹.基于SOA架构的旅游管理系统的设计与实现[D].南京理工大学,计算机技术,2011,硕士.
[17]叶婷.基于C8051F单片机的煤矿井下监控分站的研究[D].武汉理工大学,测试计量技术与仪器,2013,硕士.
[18]吴桥,刘南,庞海云.结合期权合约与现货市场的原材料采购风险管理[J].控制与决策,2013,03:334-338.
[19]陈金润.以泡沫银为集流体的电沉积式锌电极及其电化学性能研究[D].哈尔滨工业大学,化学工程,2013,硕士.
[20]李庆康.《植物生态学报》“ICT”最佳论文奖及其赞助单位介绍[J].植物生态学报,2000,05:568.
[21]王银霞.内蒙古自治区体育产业发展政策研究[D].内蒙古师范大学,行政管理(专业学位),2012,硕士.
[22]王淑燕.新竞争形势下嘉峪关移动公司全业务运营营销策略研究[D].兰州大学,工商管理,2012,硕士.
[23]邓文青.大明宫遗址周边地铁站设计导则研究[D].西安建筑科技大学,建筑与土木工程,2013,硕士.
[24]池子龙.互联网P2P遭暴炒双重利好驱动怡亚通[J].股市动态分析,2014,36:42-43.
[25]黄文慧.潍坊坊子区党建信息管理系统的设计与实现[D].山东大学,软件工程(专业学位),2013,硕士.
[26]曹建农,关泽群,李德仁.基于DMN的高光谱图像分割方法研究[J].遥感学报,2005,05:596-603.
[27]冯腾.论城乡一体化背景下农民土地财产权的保障[D].山东建筑大学,马克思主义基本原理,2013,硕士.
[28]陈豹.员工工作满意度、工作投入和工作绩效的关系研究[D].云南财经大学,企业管理,2014,硕士.
[29]王颖.基于尺度空间技术的多边形近似[D].苏州大学,计算机应用技术,2013,硕士.
[30]刘淼.地方政府财政支出对居民消费需求的影响研究[D].重庆大学,产业经济学,2014,硕士.
[31]毕方.横窦及窦汇区的显微及内窥镜解剖[D].山东大学,神经外科,2013,硕士.
[32]陈亚娟,宋传恒,罗守山,杨义先.基于数据挖掘的用户键盘及鼠标检测模块[J].信息安全与通信保密,2002,12:31-33.
[33]尚志娟,周晖,王天华.带有储能装置的风电与水电互补系统的研究[J].电力系统保护与控制,2012,02:99-105.
[34]王涛伟,周必水.基于DHP的频繁遍历路径挖掘算法[J].杭州电子科技大学学报,2005,05:63-66.
[35]陈金.基于结合面的CKX53280铣车床整机动态特性分析[D].华中科技大学,机械工程,2013,硕士.
[36]张珮然.针刺联合血液灌流治疗维持性血液透析患者皮肤瘙痒的临床研究[D].北京中医药大学,中医内科学,2014,硕士.
[37]杨欣.《文心雕龙》中的道家思想元素[D].东北师范大学,文艺学,2012,硕士.
[38]王静.地肤子皂苷对HepG2人肝癌细胞凋亡和迁移侵袭的影响及其作用机制研究[D].西北农林科技大学,食品科学,2014,博士.
[39]李志清.电子作业自动批改中问题的研究[D].湘潭大学,计算机应用技术,2003,硕士.
[40]田辰.海底管线疲劳寿命评估方法研究[D].天津大学,船舶与海洋结构物设计制造,2004,硕士.
[41]郁秀峰.沈阳市沈北新区某中学学生抑郁状况及相关因素研究[D].吉林大学,公共卫生,2012,硕士.
[42]夏火松,蔡淑琴.基于电子商务的企业市场营销知识管理体系结构[J].情报杂志,2002,02:4-6.
[43]胡颜江.非小细胞肺癌中FasL、Caspase-8、FADD的表达及其相关性研究[D].苏州大学,外科学,2012,硕士.
[44]李德龙.基于山区道路的危险品运输路径决策及运输管理研究[D].长安大学,载运工具运用工程,2014,硕士.
[45]张玉新.苏格兰中小学创业教育研究及启示[D].河北师范大学,教育学原理,2012,硕士.
[46]廖炜.船舶航向控制系统规范化交互式设计平台[D].厦门大学,控制理论与控制工程,2014,硕士.
[47]吴革明.基于石墨烯异质结的光电性能研究[D].北京有色金属研究总院,2014.
[48]姜宏瑛.理化诱变提高乳酸菌STX2 γ-氨基丁酸产量的研究[D].南京农业大学,食品工程,2013,硕士.
[49]高月.皮神经阻滞技术治疗带状疱疹疗效影响因素的研究[D].首都医科大学,全科医学,2014,硕士.
[50]张晨.京津金融一体化的实施基础、制约因素及发展路径研究[D].首都经济贸易大学,金融学,2014,硕士.

相关推荐
更多