多分类机器学习及其在蛋白质结构类预测中的应用

多分类机器学习及其在蛋白质结构类预测中的应用

作者:师大云端图书馆 时间:2022-04-12 分类:硕士论文 喜欢:3557
师大云端图书馆

【摘要】随着人类基因组计划的完成以及生物测序技术的发展,大量的蛋白质序列信息数据不断涌现出来。然而人们对蛋白质高级结构和功能的认识还不够,远远落后于对蛋白质序列的认识。同时通过传统的生物实验方法已经无法满足海量数据的处理需求,因此非常有必要探讨借助计算机的快速计算能力,来进行蛋白质结构和功能的理论研究,这也是摆在生命信息科学工作者面前的极具挑战的任务。蛋白质作为生命活动的主要表现者和承担者,通过研究其结构和功能的相互作用来揭秘生命的内在奥秘,是新世纪生物信息学研究的核心内容。而蛋白质结构类是人类研究蛋白质结构和功能的关键,所以本论文的主要内容是围绕着蛋白质结构类预测这个问题。主要从以下三个方面进行展开,蛋白质序列特征信息的提取及组合、蛋白质序列多特征信息的特征挑选以及基于机器学习的蛋白质结构类预测。为了进一步提高蛋白质结构类的预测精度,本研究主要从以下三个方面进行了尝试,现将本研究的主要工作及其创新之处总结如下:1)蛋白质序列特征信息的提取及组合特征信息的提取的好坏直接影响蛋白质结构类预测精度,为了更加全面的描述一条给定的蛋白质序列,本文提出了一套能够全面反映蛋白质序列的特征信息。具体包括以k-字统计频率和k-片段位置分布两种特征提取方法分别提取了蛋白质一级序列、蛋白质物理化学性质序列以及蛋白质二级序列的频率和位置信息。并将这些不同性质的特征信息进行融合,有效的克服了特征信息单一的缺点,为提高蛋白质结构类的预测精度打下了坚实的基础。2)蛋白质序列多特征信息的特征挑选虽然融合越多的不同性质的特征信息能够更加全面的描述蛋白质序列,但是实际情况是并不是特征维数越多,分类的精度就会越高。相反,由于高维的特征信息中包含的噪声和冗余性也越多,增加了分类模型的计算量和复杂度,反而不利于提分类器的分类精度和其推广能力。所以,本文采用基于遗传算法的特征信息选择算法,并将其应用于蛋白质序列的特征信息挑选。遗传算法的主要思想是“优胜劣汰,适者生存”,那些适应度差的特征随着迭代次数的增加就会被逐步丢弃,而那些适应度好的特征则会被保留下来,继续繁衍后代,经过遗传算法选择后的特征信息集中既保留了原特征信息集中的绝大部分信息,又降低了特征信息集的维数,有利于分类模型性能的改善。3)基于机器学习的蛋白质结构类预测在蛋白质结构类的预测研究中,机器学习算法是一个非常重要的环节,直接关系到结构类预测的成败。在本研究中,首先主要介绍了常见的三种单分类算法,分别为人工神经网络、贝叶斯算法以及支持向量机。但传统的单分类器算法存在着一些不足,在所有的单分类器算法中,没有任何一种分类算法能够对任意给定的的样本特征都具备很好的区分能力。紧接着介绍了四种常见的多分类器融合算法,分别为多数投票法、贝叶斯规则、平均值法和加权平均值法。但是常见的多分类器融合算法的单个分类器之间的决策结果是相互独立的,并没有通过单分类器之间的充分协商,造成了一些决策信息的丢失。鉴于此,本研究提出了一种新的多分类器融合算法—Ma_Ada算法。实验结果也表明,Ma_Ada多分类器融合算法能够较大程度的提高蛋白质结构类的预测精度。综上所述,本研究从生物信息学的角度出发,较为系统地解决了蛋白质序列信息提取及多特征信息融合、蛋白质序列多特征信息的特征挑选和蛋白质结构类预测等信息处理问题。这些研究成果有助于促进蛋白质的结构及功能的更进一步研究,同时也对蛋白质序列分析、机器学习领域的发展有很大的帮助。
【作者】郑斌;
【导师】厉力华;
【作者基本信息】杭州电子科技大学,控制工程,2014,硕士
【关键词】蛋白质结构类预测;特征提取;遗传算法;机器学习;多分类器融合算法;Ma_Ada融合算法;

【参考文献】
[1]施玉华.“郑农鸿运”蝴蝶兰的组培快繁与市场现状[D].郑州大学,植物保护(专业学位),2013,硕士.
[2]陈晨.森林公园的近自然设计研究[D].中南林业科技大学,森林培育,2014,硕士.
[3]王晶晶.过程写作法在高中英语写作课程中的应用[D].辽宁师范大学,学科教学(专业学位),2012,硕士.
[4]黄宇峰.交错桁架结构体系的楼板与钢桁架间的滑移性能研究[D].湖南大学,结构工程,2003,硕士.
[5]李汉良.BJ装修工程公司人力资源管理策略研究[D].华南理工大学,高级管理人员工商管理(专业学位),2013,硕士.
[6]张丽.论现代包装设计的情感诉求[D].东北师范大学,设计艺术学,2012,硕士.
[7]杨美欧.舆情监测系统及相关技术研究[D].辽宁科技大学,计算机技术,2011,硕士.
[8]薛珺.多种塔板传质性能的比较研究[D].华东理工大学,化学工程,2013,硕士.
[9]刘兰涛.台山市城市总体规划评估研究[D].兰州大学,城市与区域规划,2013,硕士.
[10]陈惠敏,高群,金佐尧.南翔自动化驼峰设备的开发与维修管理[J].铁道通信信号.2001(02)
[11]刘鹏.颅脑损伤早期外周血中性粒细胞氧化爆发和吞噬功能的研究[D].华中科技大学,创伤外科,2013,硕士.
[12]马伟元.C/EBPα调控角质形成细胞增殖和分化在寻常型银屑病皮损形成中的作用[D].山东大学,皮肤病与性病学,2014,博士.
[13]蒋浩,王磊,陆艳,黄学良.利用端子坐标进行静态拓扑的自动分析[J].电力系统自动化,2010,08:67-71.
[14]胡威.巴赫金狂欢诗学的双重性研究[D].信阳师范学院,文艺学,2014,硕士.
[15]严愉妙.广东钩藤属植物的活性成分含量测定及其药理作用的研究[D].南方医科大学,中药学,2012,硕士.
[16]林建平,朱元彬.横移输送链及堆垛机的改造[J].重型机械.2000(04)
[17]许皓,李彦,谢静霞,程磊,赵彦,刘冉.光合有效辐射与地下水位变化对柽柳属荒漠灌木群落碳平衡的影响[J].植物生态学报,2010,04:375-386.
[18]纪臻.电子提单流转模式之对比研究[D].山东大学,法律(专业学位),2013,硕士.
[19]任志瑞.半导体纳米晶的表面修饰及光电性能研究[D].天津理工大学,微电子学与固体电子学,2013,硕士.
[20]周惜.“A+H”股交叉上市对公司治理影响的研究[D].华中科技大学,企业管理,2012,硕士.
[21]舒畅,应向伟,龚杰,马凌飞,奚莱蕾,沈悦林,龚勤.浙江省科技论文发表情况分析(2011~2013年)[J].科技通报,2015,03:263-266.
[22]杜威.联苯二硫酚分子器件电输运性质的第一性原理研究[D].山东大学,凝聚态物理,2013,硕士.
[23]张迪.3号染色体的不同基因片段缺失对果蝇睡眠总时间的影响[D].黑龙江中医药大学,中药学,2013,硕士.
[24]林雪渊.资产证券化设计与定价研究[D].上海交通大学,工商管理,2013,硕士.
[25]张钟俊,施颂椒,胡庭姝.通过传递函数的状态空间实现求H~∞-范数[J].自动化学报,1991,02:215-219.
[26]吴存花.耳穴配合颈夹脊穴针刺治疗神经根型颈椎病的临床研究[D].甘肃中医学院,针灸推拿学,2014,硕士.
[27]戴文丽.基于鲁棒优化的逆向物流选址与路径问题研究[D].沈阳理工大学,系统工程,2012,硕士.
[28]李丹婷.转型期社会理想问题研究[D].河北师范大学,马克思主义基本原理,2012,硕士.
[29]辛棋.新形势下提升村级党组织政治功能研究[D].中共广东省委党校,中共党史,2013,硕士.
[30]刁庶.基于MSP430F1612的放射性检测系统设计[D].吉林大学,检测技术与自动化装置,2014,硕士.
[31]董焕程.影响我国饲料质量安全的因素及对策的研究[D].中国农业大学,预防兽医学,2004,硕士.
[32]何远.物联网知识产权问题的研究[D].浙江大学,知识产权法(专业学位),2012,硕士.
[33]杨铭贤.全球卫星移动通信的组成及呼叫程序[J].电信工程技术与标准化.1996(02)
[34]万娅敏.双能量CT对胃癌患者术前病理分级及分期的临床研究[D].郑州大学,影像医学与核医学(专业学位),2014,博士.
[35]缪丹丹.论债务人的破产申请权[D].苏州大学,经济法,2012,硕士.
[36]易海琼,程时杰,侯云鹤,倪以信.基于点估计的电力系统小扰动稳定概率分析[J].电力系统自动化,2007,23:1-4+29.
[37]杨增.基于.NET技术的云文职院协同工作管理系统的设计与实现[D].电子科技大学,软件工程(专业学位),2012,硕士.
[38]冯玲.基于能值理论的物流园区可持续发展对策研究[D].中南林业科技大学,企业管理,2014,硕士.
[39]孙小平.我国农村贫困线测定方法及实证分析[D].浙江工商大学,统计学,2012,硕士.
[40]陈福宇.从消费心理学的角度论商标翻译中的功能理论[D].四川师范大学,英语语言文学,2004,硕士.
[41]胡蕾.黄山市国际旅游业发展研究[D].安徽大学,国际贸易学,2013,硕士.
[42]杨晶东,杨敬辉,洪炳熔.一种有效的移动机器人里程计误差建模方法[J].自动化学报,2009,02:168-173.
[43]朱芳来,韩正之.非线性系统降维观测器设计[J].自动化学报,2004,04:613-618.
[44]邹德侬,隋建国,刘滨谊,于书典,单兰玉,曹春生.我们应该拥有一个怎样的家园[J].走向世界.1998(02)
[45]孙学奎.条分法有限元法在深基坑支护计算中的应用研究[D].辽宁工程技术大学,建筑与土木工程,2004,硕士.
[46]袁正.基于DOE的内燃机排气消声器设计方法研究[D].合肥工业大学,机械制造及其自动化,2013,硕士.
[47]徐莹莹.基于SVM的人脸特征定位方法研究[D].浙江大学,控制科学与工程,2014,硕士.
[48]赵继学,刘玉.天津轧钢三厂棒材轧线国产化飞剪控制系统[J].冶金自动化,2000,05:65-67.
[49]黄茶香.布里渊散射分布式光纤传感系统的传感信息提取方法研究[D].南昌航空大学,通信与信息系统,2013,硕士.
[50]胡军涛.视频高层结构分析和挖掘[D].中国人民解放军国防科学技术大学,2002.

相关推荐
更多