基于RNA测序技术的转录组从头拼接算法研究

基于RNA测序技术的转录组从头拼接算法研究

作者:师大云端图书馆 时间:2015-07-07 分类:期刊论文 喜欢:4134
师大云端图书馆

【摘要】生物信息学是一门新兴的交叉学科,它利用数学、信息学、统计学和计算机科学的方法来研究和解决生物学的问题。当前生物信息学所研究的问题主要集中在分子生物学领域,其中一个非常重要而又极具挑战性的问题就是转录组的从头拼接,即利用转录组的测序片段来拼接出整个转录组中的所有表达的转录体。本文主要研究如何利用经典的组合优化模型来解决复杂真核生物转录组的从头拼接问题,这对于研究包括癌症在内的许多与可变剪接相关的人类疾病,具有十分重要的意义。随着第二代测序技术的发展,特别是RNA测序(RNA-seq)的出现,给转录组的拼接在计算上提出了前所未有的挑战。目前的转录组的拼接算法主要分为两大类,一类是基于参考基因组的拼接方法,一类是从头拼接方法。尽管基于参考基因组的方法比从头拼接方法表现要好,但是它的一个致命的缺点是必须要有一个高质量的参考基因组。而事实上,绝大多数生物根本不存在一个已知的基因组可供参考,在这种情况下,从头拼接算法就显得尤为重要。转录组的从头拼接比基于参考基因组的拼接在计算上更具有挑战性,尽管目前已经有了一些算法,但是效果并不理想。本文在分析当前拼接算法的基础上,提出了一个全新的转录组从头拼接算法(命名为Bridger),巧妙地利用基于参考基因组算法的一些技巧来弥补目前从头拼接算法的不足。在狗、人和老鼠的RNA测序数据上的测试结果一致表明,Bridger比当前所有的从头拼接算法都要好。Bridger拼接出了更多的全长的转录体,而给出的候选转录体的数目却很少,暗示着Bridger不仅提高了从头拼接算法的敏感性,也大大降低了预测结果中的假阳性。另外,在时间和内存的使用方面,Bridger也比绝大多数从头拼接算法要少很多。更有意思的是,Bridger在敏感性和准确性上甚至可以跟当前最好的基于参考基因组的算法Cufflinks相媲美。本文的新算法Bridger主要有以下几个创新点:(1)放弃了通常使用的deBruijn图,由RNA的测序片段来直接构建一个能更好地反映出每一个基因可变剪接结构的图——剪接图。(2)构造图的过程中利用双端测序的信息,不仅使得到的剪接图更加准确、完整,而且有效地控制了图的规模,从而降低了在图中寻找对应转录体的路的难度。(3)通过引进一个辅助图——兼容图,成功地将一个经典的组合优化模型——最小路覆盖模型——应用到转录组的从头拼接中,相比于以前的穷举方法,可以大大降低结果的假阳性。(4)通过给模型加权,巧妙地将测序的深度信息整合到模型中,大大提高了拼接的准确性,据我们所知,这是测序的深度信息第一次被成功地用在从头拼接算法中。尽管Bridger算法有很多优点,但是也存在不足。第一,当前的Bridger的代码实现还有待进一步优化,在构造剪接图的过程中实现并行化计算是我们的一个努力方向。第二,算法中的最小路覆盖模型,并不是对于任何情况都非常有效,有些比较特殊例子,该模型也表现不太理想,这时可以通过一些技巧来克服算法的不足。本文通过两个例子展示了Bridger在实际应用中重要价值。一个例子是利用Bridger对肺癌病人的RNA测序数据进行分析,发现了与致癌基因相关的可变剪接转录体以及它们在不同样本中的表达差异。另一个例子是利用Bridger分析狗的RNA测序数据,发现了很多当前基因组中尚未注释的新的转录体。最后,本文还介绍了转录组拼接下游的一些研究工作以及我们今后的几个研究方向。Bridger已经用C++语言实现成一个开源的软件,可以通过以下网址下载:https://sourceforge.net/projects/rnaseqassembly/files/?source=navbar
【作者】常征;
【导师】李国君;徐鹰;
【作者基本信息】山东大学,运筹学与控制论,2014,博士
【关键词】生物信息学;可变剪接;第二代测序;转录组拼接;最小路覆盖算法;

【参考文献】
[1]余志和,张庆淮,邸志欣,徐锦玺,荆中书.滩海地区采集方法研究[J].石油地球物理勘探,2001,04:471-479+516.
[2]郝娜.城市轨道交通乘务排班问题研究[D].北京交通大学,2014.
[3]邓积杰.不确定环境下半导体制造系统瓶颈预测与调度方法研究[D].北京化工大学,控制科学与工程,2013,硕士.
[4]白玲.我国多层资本市场非对称交易机制设计研究[D].天津财经大学,统计学,2012,硕士.
[5]孟明明.粪便脱落细胞筛查大肠癌的方法学[D].大连医科大学,消化内科学,2012,硕士.
[6]袁芳,朱大奇,叶银忠.基于降阶卡尔曼滤波器的水下机器人滑模容错控制[J].控制与决策,2011,07:1031-1035.
[7]嵇天浩,孙妹,韩鹏.半导体/石墨烯纳米复合材料的制备及其应用进展[J].新型炭材料,2013,06:401-407.
[8]冯源.太原城市社区服务建设研究[D].山西财经大学,社会保障,2014,硕士.
[9]王昱潭.基于机器视觉的灵武长枣定位与成熟度判别方法研究[D].北京林业大学,2014.
[10]曾玉华.三氧化二砷、顺铂对人卵巢癌细胞株SKOV3的联合作用及相关机制的研究[D].重庆医科大学,妇产科学,2004,硕士.
[11]刘俊萍,吴正中,李珊.海塘工程安全评价体系指标权重确定的研究[J].中国水运(下半月),2014,03:324-326+329.
[12]杨立伟.通信栅格综合接入系统的策略研究[D].西安电子科技大学,通信与信息系统,2010,硕士.
[13]殷梦鑫.多水站监控系统的研究与应用[D].西安科技大学,控制理论与控制工程,2013,硕士.
[14]S.E.约翰森,尼尔斯·尼尔森,吕学谦.长震源或检波器组合——在动校正前或后加权[J].石油地球物理勘探,1979,S3:1-12.
[15]余浩.类黄酮生物合成途径核心位点的分子进化分析[D].西南大学,生物化学与分子生物学,2013,硕士.
[16]付从梅.人防工程三维可视化系统设计与实现[D].西安科技大学,地图学与地理信息系统,2014,硕士.
[17]许霜.我国上市公司区域差异研究[D].河北大学,区域经济,2014,硕士.
[18]张译.对外汉语教学课堂提问研究[D].西南大学,课程与教学论,2014,硕士.
[19]丁正伟.GIS在商业银行ATM网点选址中的应用[D].湖南大学,软件工程,2014,硕士.
[20]盛宪锋,山岚.基于元搜索引擎的专业式智能网络信息检索系统[J].计算机工程与设计,2004,01:69-73.
[21]牟秀芝.我国城管执法职能规制现状浅析[D].山东大学,法律(专业学位),2012,硕士.
[22]陆昌辉,邓苏,陈文伟,戴超凡,刘忠.基于旋转模式的多维数据建模方法的研究[J].计算机工程与应用,2002,11:209-211.
[23]罗凤麟.龙岗移动公司竞争战略研究[D].兰州大学,工商管理(专业学位),2013,硕士.
[24]盛婷.跟单信用证项下银行审单标准实务研究[D].江西财经大学,国际贸易学,2013,硕士.
[25]马非.重金属离子吸附材料的制备及性能研究[D].太原理工大学,2012.
[26]赵敬超.多种类军用情报信息综合处理技术研究[D].西安电子科技大学,计算机应用技术,2009,硕士.
[27]吕品.基于回归挖掘的金融业款额预测技术[J].湖北师范学院学报(自然科学版),2005,04:81-85.
[28]赵奇杰.马尔可夫调制的跳扩散模型下的可转换债券定价[D].宁波大学,应用数学,2014,硕士.
[29]张万厚.隧道窑车高温轴承的应用[J].轴承.1992(04)
[30]贾凌云,李冬妮,田云娜.基于混合蛙跳和遗传规划的跨单元调度方法[J].自动化学报,2015,05:936-948.
[31]耿向文记者邵晶岩.萝北石墨精粉半数就地深加工[N].黑龙江日报,2015-05-18002.
[32]高志远.加强高校科研经费财务管理的对策[J].品牌(下半月),2015,02:269.
[33]邓晓璇.《南方周末》绿色版新闻文本的框架研究[D].西北大学,新闻学,2013,硕士.
[34]应美群.CAFTA背景下中国与东盟贸易关系动态分析[D].浙江工业大学,2013.
[35]张颖.从“二拍”看凌濛初思想的矛盾性[D].河北大学,中国古代文学,2014,硕士.
[36]陈珊怡.文化创新的哲学思考[D].福建师范大学,马克思主义哲学,2013,硕士.
[37]王立强.直线永磁同步电机电感测试技术研究[D].哈尔滨工业大学,电机与电器,2014,硕士.
[38]郭莹莹.基于Scrum敏捷方法的测试管理策略研究[D].北京邮电大学,工商管理(专业学位),2012,硕士.
[39]张春元.合同法上不可抗力制度比较研究[D].华东政法大学,法律(专业学位),2012,硕士.
[40]杜薇.声音商标法律问题研究[D].内蒙古大学,民商法学,2014,硕士.
[41]赵嘉珩.长春市公务人员睡眠质量及其影响因素分析[D].吉林大学,社会医学与卫生事业管理,2013,硕士.
[42]张敏.儿童福利院集中分散式设计研究[D].南京大学,建筑学(专业学位),2013,硕士.
[43]王亮.HT公司MES系统项目建设质量控制[D].南京理工大学,项目管理,2011,硕士.
[44]王高伟.基于分布式ACR-S PPPoE的研究与实现[D].西南交通大学,电子与通信工程,2014,硕士.
[45]卢刚臣,李玉海,孔凡东.潜山勘探中应注意的一种构造样式[J].石油地球物理勘探,2001,01:18-25+133.
[46]陈韵竹.气溶胶光学厚度的数据融合研究[D].华东师范大学,地图学与地理信息系统,2013,硕士.
[47]谢新民,陈伯成,李英杰.一种非递推系统辨识算法的探讨[J].自动化学报,1989,02:190-192.
[48]吴乐勤.A公司低成本战略下的供应链管理研究[D].苏州大学,工商管理(专业学位),2013,硕士.
[49]王文莲,王树春.坚持科学发展观,构筑坚实的国家经济信息平台[J].中国管理信息化,2005,01:5-8.
[50]吴泽鹏.非制冷红外热成像系统关键技术研究[D].中国科学院研究生院(长春光学精密机械与物理研究所),机械工程,2013,硕士.

相关推荐
更多