基于差异的半监督学习中有关算法和理论研究

基于差异的半监督学习中有关算法和理论研究

作者:师大云端图书馆 时间:2015-11-25 分类:期刊论文 喜欢:2387
师大云端图书馆

【摘要】传统的机器学习中,要获得一个良好的分类器需要足够的有标号数据。然而在很多现实任务中,如生物基因分析、Web数据挖掘等领域,随着数据收集和存储技术的发展,获得大量无标号的数据相当容易,而对数据进行标注却非常困难或者代价高昂。因此,如何在少量有标号数据上提高分类器的泛化能力,成为了当前机器学习领域倍受关注的重要问题之一半监督学习在有标号数据的基础上,结合无标号数据进行学习,可以有效地克服标注瓶颈问题,有着非常强的现实意义和广阔的发展前景。在半监督学习中,协同训练类算法对无标号数据的利用方式简单且易于控制,不需要额外的先验知识进行模型假设,便于结合现有的学习模型,是半监督学习中在实际应用取得广泛成功的一类算法。在另一方面,集成学习结合多个差异性的基分类器来提高系统的泛化能力,近年来出现了一些在集成学习中利用无标号数据的新算法。这些算法与协同训练类算法都是通过利用基分类器之间的差异来利用无标号数据,从而提高系统的泛化能力,我们把它们统称为基于差异的半监督学习算法。如何创造并有效利用基分类器之间的差异,以及如何控制伪标号数据中的噪声,是这类算法所面临的主要问题。本文主要基于协同训练算法,并结合集成学习,进行了一系列算法及相关理论方面的研究。主要研究内容与创新点可以归纳如下:第一,开展了在协同训练的框架下结合生成性方法和判别性方法的研究。通过这两类互补性很强的学习算法获得协同训练所需要的差异性,使协同训练算法不再依赖于现实中难以满足独立视角;本文还在协同训练算法中引入一种可回溯的机制,极大提高了对无标号数据利用的安全性。此外,本文采用一对线性权重参数来调节伪标号数据权重,避免了目标函数非凸而陷入局部最优解的问题,并定义了一个混合目标函数在迭代训练过程中动态估算权重参数的值。第二,在总结现有的协同训练类算法的基础上,本文提出一种更广泛意义上的多分类器、多差异来源的协同训练新框架Co-learning,并根据训练方式的不同提出两种具体的算法。此外,针对迭代训练过程中差异性减少的问题,本文提出一种通过操纵伪标号数据为基分类器创造差异的新方法。第三,研究了协同训练类算法和集成学习的结合,并根据集成方法的不同,提出两种针对性算法:SECL和PECL算法;提出一种结合置信度的投票边缘函数,用于伪标号数据的选择和最终分类。此外,本文还提出一种带权重的装袋算法,用于在迭代训练结束后生成分类器集合。第四,在理论方面,针对基于差异的半监督学习的特点,本文定义了一种分类噪音和分布噪音相混合的新噪声形式,HCAD噪声,并给出协同训练类算法在HCAD噪声下的概率近似正确(PAC)的理论分析;对于多分类器的结合,本文基于投票边缘函数,给出了在存在HCAD噪声的情况下,多分类器集成的泛化误差上界。
【作者】姜震;
【导师】张世永;
【作者基本信息】复旦大学,计算机应用,2012,博士
【关键词】半监督学习;集成学习;差异性;协同训练;分类;

【参考文献】
[1]玉海燕.习仲勋对中国特色社会主义理论初创时期的实践探索[D].兰州商学院,马克思主义基本原理,2013,硕士.
[2]郭鹏斐.超材料隐身天线罩研究[D].国防科学技术大学,电子科学与技术,2012,硕士.
[3]蔡善同,李玉娥,秦燕生.薄层色谱鉴别聚氨酯组分研究[J].特种橡胶制品.1990(05)
[4]韦旻辰.XML数据库节点存储的路径索引技术研究[D].华中科技大学,软件工程,2013,硕士.
[5]吴勇.Ad hoc网络中基于IPv6的多网关路由测试研究[D].郑州大学,计算机技术,2013,硕士.
[6]李杰.基于图像相关法的砂土直剪试验及其颗粒流数值模拟[D].青岛理工大学,工程力学,2012,硕士.
[7]肖时景.煤矿井下避难硐室的设计及位置优化的研究[D].河北工程大学,结构工程,2012,硕士.
[8]杨柳,邹珊,于剑,景丽萍.共享子空间的多标记学习方法[J].计算机科学与探索.
[9]蒋提.PACS存储系统设计与实现[D].山东大学,计算机技术(专业学位),2012,硕士.
[10]崔俊.预应力钢丝绳加固RC框架节点抗震性能试验研究[D].华侨大学,防灾减灾工程及防护工程,2013,硕士.
[11]马楠.5-6岁幼儿音乐节奏感培养的实践研究[D].华东师范大学,音乐学(专业学位),2013,硕士.
[12]单宏伟.基于极坐标的可见外壳生成技术研究[D].浙江大学,计算机应用,2004,硕士.
[13]蒙祖强,蔡自兴.一种新的基于遗传算法的数据分类方法[J].小型微型计算机系统,2004,04:690-693.
[14]朱云峰.保水剂对松苗抗旱及与抗松树枯梢病关系的研究[D].南京林业大学,森林保护学,2004,硕士.
[15]方相春.靶向下调大鼠脊髓背角内VGLUT2基因对外周痛觉信息传递的影响[D].第四军医大学,人体解剖与组织胚胎学,2014,硕士.
[16]符竣杰.化浊通脉方对兔动脉粥样硬化防治作用机制的研究[D].北京中医药大学,中西医结合临床,2014,硕士.
[17]梁毅菲.我国小额贷款公司社会绩效评估体系研究[D].北京工商大学,金融学,2012,硕士.
[18]李雪南.同伦摄动—再生核法求解二阶常微分方程初值问题[D].哈尔滨工业大学,应用数学,2013,硕士.
[19]计世在线孙永杰.网络营销技术后盾[N].计算机世界,2003-08-25E25.
[20]杨晴.失独空巢家庭的社会支持体系研究[D].苏州大学,社会工作(专业学位),2013,硕士.
[21]侯丽娜.航测数字化地形图数据质量控制的方法研究[D].西安科技大学,测绘工程,2014,硕士.
[22]孙利.基于CRM的XT人寿保险公司营销模型研究[D].西北大学,2003.
[23]娄晶.基于知识管理的电子政务信息平台研究[D].天津大学,2005.
[24]张媛英.中华蜜蜂谷胱甘肽S-转移酶和小分子热激蛋白基因的生物学功能分析[D].山东农业大学,生物化学与分子生物学,2014,博士.
[25]关少颖,夏莉,王光兴.基于双时钟的CDMA移动通信网络拥塞软处理方法[J].控制与决策,2004,03:339-341+345.
[26]周保平.北宋时期河南书院考证及其兴盛原因探析[J].河南大学学报(社会科学版),2014,05:115-120.
[27]邵山.茶润人和:论王旭烽“茶小说”的精神内涵[D].山东师范大学,文艺学,2013,硕士.
[28]王阳.后勤社会化进程中的大学生思想政治教育进公寓研究[D].中北大学,思想政治教育,2013,硕士.
[29]徐娟红.山西省清源镇彩门楼的地方性解读[D].辽宁大学,民俗学,2012,硕士.
[30]潘泓静.创业板财务特征、代理成本与股权激励水平[D].广东外语外贸大学,会计学,2014,硕士.
[31]乔世聪.药物治疗多囊卵巢综合征的系统评价[D].黑龙江中医药大学,中医学(专业学位),2013,硕士.
[32]鲍丹艳.桃核承气汤对脓毒症患者凝血—炎症网络部分因子的影响[D].广州中医药大学,中西医结合临床(专业学位),2013,硕士.
[33]余雪.书评与新闻纸的联动效应[D].复旦大学,新闻学,2012,硕士.
[34]孙东海.N-环己基马来酰亚胺耐热改性PMMA的研究[D].河北大学,高分子化学与物理,2002,硕士.
[35]刘颖.甘油连续生物歧化为1,3-丙二醇过程的多目标优化[D].渤海大学,应用数学,2014,硕士.
[36]邵海洋.铝/空气电池用Al-Ga/In-Mg-Sn-Si阳极材料研究[D].河南科技大学,材料学,2013,硕士.
[37]王戈.社会资本投资医疗机构的法律问题研究[D].上海交通大学,法律,2013,硕士.
[38]胡晓华.R2~*在正常人脑组织铁含量检测中的应用[D].扬州大学,影像医学与核医学,2012,硕士.
[39]王林强.面向信息物理系统的自适应实时可靠无线MAC协议[D].大连理工大学,计算机应用技术,2013,硕士.
[40]陈丽澧.社会公平与分配偏好对低经济地位群体群际威胁感影响的研究[D].西南大学,应用心理学,2014,硕士.
[41]黄飞雪.墨润苍雄 沉浑高洁[D].渤海大学,美术学,2013,硕士.
[42]安秀明.晋冀蒙交界地带区域经济一体化研究[D].燕山大学,公共管理,2012,硕士.
[43]翟正.HTiNbO_5纳米片及其可见光下降解罗丹明B的催化性能研究[D].南京大学,2011.
[44]刘倩.基于逆周期资本约束框架的商业银行资本充足率监管研究[D].山东财经大学,金融学,2012,硕士.
[45]贡琦.公司型创业投资基金之法律研究[D].外交学院,国际法学,2004,硕士.
[46]蒙贤秀.农村高中实施思想政治“综合探究”课的困境及对策研究[D].苏州大学,学科教学,2012,硕士.
[47]徐玉洁,廖福成.一类具有输入时滞的时变离散系统的预见控制[J].控制与决策,2013,03:466-470.
[48]胡超.新型城镇化背景下的土地财政改革研究[D].长安大学,土地资源管理,2014,硕士.
[49]郑佳.信息化背景下的中小企业物流系统集成模式研究[D].浙江工业大学,2012.
[50]陈泽永.改质沥青对电解铝用预焙阳极性能的影响研究[D].湖南大学,材料科学与工程,2010,硕士.

相关推荐
更多