基于集成学习与多标记学习的蛋白质分类方法研究

基于集成学习与多标记学习的蛋白质分类方法研究

作者:师大云端图书馆 时间:2019-09-17 分类:硕士论文 喜欢:3260
师大云端图书馆

【摘要】随着大量生物学数据的增长,仅仅利用传统的生物学实验来测定蛋白质结构或其他性质的方法不仅需要耗费大量人力物力,其时间的耗费也是相当大。因此,如何建立自动学习的方法来预测蛋白质,从而大大降低生物实验的成本是一个非常有意义的研究课题。另一方面,随着机器学习技术的快速发展,其应用领域也得到了不断的扩宽,特别是在生物学领域的应用,面对大量的生物信息机器学习得到了充分的应用。本文的主要内容包括以下几个方面:(1)引入了两种蛋白质特征提取方法。本文在蛋白质分类问题当中引入了两种有效的特征提取方法:一种为代表氨基酸组成成分即物理化学特性的混合特征,共计188维;另一种为代表蛋白质同源信息的基于位置特异性得分矩阵的特征,共计20维。两种特征提取方法各有优劣:188维特征提取速度快,但会牺牲一定的准确率;20维特征提取较为耗时,但却具有更高的预测精度。(2)提出了基于集成分类器的蛋白质折叠模式分类方法。蛋白质结构预测是生物信息学当中的重要课题,而蛋白质折叠模式的识别对蛋白质结构预测起到了关键作用。本文针对以往的蛋白质折叠模式分类准确率不高的情况,引入了集成分类器。本文的集成分类器基于投票的机制,最终预测结果集成了两种基分类器的分类结果,在公用数据集中取得了最佳的分类效果。(3)提出了基于多标签学习的双层酶分类模型。第一层模型预测给定的蛋白质序列是否是酶,若是酶,第二层则进一步预测酶的功能子类。多功能酶由于其特殊的性质成为了酶分类问题当中非常棘手的异类。本文利用了机器学习中的多标签分类,解决了以往研究者未曾涉足的多功能酶分类问题,并且取得了很好的分类效果。(4)开发了蛋白质折叠模式在线预测平台PPL以及酶在线预测平台IME。PPL和IME都具有在线预测功能,此外还提供程序的下载以便进行本地实验。网站中还提供本文所用到的数据集下载,方便用户使用与研究。
【作者】陈伟程;
【导师】邹权;
【作者基本信息】厦门大学,计算机应用技术,2014,硕士
【关键词】蛋白质分类;酶分类;多标记学习;

【参考文献】
[1]汪鹏,姜泽毅,张欣欣,耿心怡,郝诗宇.中国钢铁工业流程结构、能耗和排放长期情景预测[J].北京科技大学学报.
[2]毕墨玉.乒乓球运动员对来球落点判断反应时测试的研究[D].首都体育学院,体育教育训练学,2013,硕士.
[3]颜运.北泰方向集团商业地产项目投资机会研究[D].大连理工大学,工商管理,2004,硕士.
[4]任弘.医院环境监测系统中数据实时传输与存储方法的研究[D].沈阳工业大学,计算机应用技术,2013,硕士.
[5]练发良,楼炉焕,曹建春,沈洪涛,吕伟仲,陈建洪.新优地被植物小叶蚊母的园林性状比较分析[J].技术与市场.园林工程.2005(10)
[6]文春.社会工作视角下的农村女青年婚变问题研究[D].福建师范大学,社会工作(专业学位),2013,硕士.
[7]张立艳.网络化控制系统和多智能体系统的研究[D].天津大学,运筹学与控制论,2013,硕士.
[8]刘营科.填充墙对RC框架结构的抗震性能影响[D].兰州理工大学,结构工程,2014,硕士.
[9]王荣达.“网络化治理”理论视角下的政府购买居家养老服务问题研究[D].辽宁大学,行政管理,2012,硕士.
[10]陶佳.城市基层政府决策过程研究[D].南昌大学,公共管理(专业学位),2012,硕士.
[11]刘伟.CRM实施的几个问题探讨[J].信息技术与信息化,2005,06:72-74.
[12]吕少平.抗癫痫药物对成年男性癫痫患者甲状腺激素水平影响的研究[D].青岛大学,神经病学,2004,硕士.
[13]张莹莹.基于EST模型的全氟烷基化合物致心肌发育毒性作用及其定量蛋白质组学研究[D].浙江大学,药理学,2013,硕士.
[14]刘修远,王撼,刘全,周永力,巩源浩.碳纳米管振动频率对水合离子团阻塞的影响[J].桂林电子科技大学学报,2012,05:387-390.
[15]孙洁.轴类零件图结构识别及尺寸标注批改技术的研究[D].西北工业大学,机械设计及理论,2004,硕士.
[16]张雷.旋转活塞式发动机配气机构设计及特性研究[D].国防科学技术大学,机械工程,2012,硕士.
[17]肖玲.国际勘探地球物理学家协会第46届年会文摘选登[J].石油地球物理勘探,1977,06:51-67.
[18]周沛延.温拌沥青混合料的长期使用性能[D].哈尔滨工业大学,交通运输工程,2013,硕士.
[19]陈胜文.医疗卫生体制改革问题研究[D].湖南大学,公共管理,2010,硕士.
[20]王珂.民国时期教会大学职业教育研究(1912—1949)[D].河北大学,教育史,2014,硕士.
[21]孙娜.劳务中介服务协议的法律问题研究[D].广东财经大学,法律(专业学位),2014,硕士.
[22]赵训明.对货车超偏载的分析及对策[J].铁道运营技术.1996(02)
[23]张宇,薛永生,张延松,林坤辉,韩绍兵.应用ODS技术解决电子政务系统数据一致性问题[J].厦门大学学报(自然科学版),2004,S1:288-292.
[24]冯毛弟.FMS与等速力量测试在国家蹦床运动员预防损伤中的应用[D].北京体育大学,体育教育训练学,2013,硕士.
[25]李开言.我国铁路桥梁的发展与对策[J].中国铁路.2002(04)
[26]詹军.密集烘烤相关因素对烤烟上部叶质量的影响[D].河南农业大学,烟草学,2012,硕士.
[27]胡建国.功能化石墨烯纳米复合材料的制备及其电化学应用[D].浙江师范大学,2013.
[28]王露.浅谈建筑电气的节能[D].长安大学,控制理论与控制工程,2013,硕士.
[29]魏玉研,李亮.自支撑聚吡咯/氧化石墨烯复合纸的构筑[A].中国化学会、中国机械工程学会、中国材料研究学会.2012年全国高分子材料科学与工程研讨会学术论文集(上册)[C].中国化学会、中国机械工程学会、中国材料研究学会:,2012:2.
[30]张妍.美国对外政策决策中的新闻媒体因素分析[D].中共中央党校,国际政治,2004,硕士.
[31]段树萍.英汉一般疑问句的韵律结构对比研究[D].江苏科技大学,外国语言学及应用语言学,2013,硕士.
[32]明大阳.体能主导类健将级运动员人格特征与气质类型的分析研究[D].辽宁师范大学,体育教育训练学,2003,硕士.
[33]陈莉媛.叉车消声器性能研究[D].太原科技大学,机械设计及理论,2013,硕士.
[34]焦翠玲.DNA电化学生物传感器的构建及抗氧化活性研究[D].曲阜师范大学,分析化学,2013,硕士.
[35]周婷,金昭,高飞,蔡国林,陆健.阿拉伯木聚糖的氧化交联与啤酒大麦麦芽过滤性能的相关性研究[J].食品工业科技.
[36]蒋霞,倪健.西北干旱区10种荒漠植物地理分布与大气候的关系及其可能潜在分布区的估测[J].植物生态学报,2005,01:98-107.
[37]王金龙.循环流化床灰制备聚合双酸铝铁混凝剂的研究[D].辽宁工程技术大学,矿物加工工程,2012,硕士.
[38]范春卫.光纤激光切割机的运动控制方法研究与应用[D].东华大学,机械工程(专业学位),2014,硕士.
[39]李优树.全域开放战略的理论思考——成都市开放战略经验总结[J].云南民族大学学报(哲学社会科学版),2014,04:112-119.
[40]程勇.我国民间借贷监管制度研究[D].华中科技大学,法律,2013,硕士.
[41]程军勇.厚朴立体栽培模式及技术研究[D].华中农业大学,园林植物与观赏园艺,2008,硕士.
[42]郭斌.一种工作流异常处理模型研究[D].华中科技大学,2004.
[43]李婷婷.资产证券化相关问题研究[D].东北财经大学,会计学,2003,硕士.
[44]张骋.高填方路堤CFG桩网复合地基性状研究[D].西南交通大学,岩土工程,2014,硕士.
[45]张新蕊.铑催化的[6+2]环加成反应的研究和手性钌烯烃复分解催化剂的合成[D].天津大学,有机化学,2013,硕士.
[46]唐慧儒,黄镇宇,沈铭科,王智化,周俊虎,岑可法.褐煤脱水及水质净化研究[J].中国环境科学,2015,03:735-741.
[47]赵达维,刘天琪,唐健.基于路径和节点权重因子的黑启动路径寻优新方法[J].电力系统自动化,2012,20:13-18.
[48]李肇蕙.基于蚁群算法的变风量空调系统多参量控制研究[D].沈阳建筑大学,控制理论与控制工程,2012,硕士.
[49]郭欣欣.江汉平原浅层含水层系统中砷释放与迁移过程研究[D].中国地质大学,地下水科学与工程,2014,博士.
[50]冯小宇.蛋鸡J亚群禽白血病病毒的分离和部分序列测定[D].中国农业大学,基础兽医学,2004,硕士.

相关推荐
更多