半监督排序学习算法研究

半监督排序学习算法研究

作者:师大云端图书馆 时间:2022-09-26 分类:参考文献 喜欢:880
师大云端图书馆

【摘要】排序学习是当前信息检索与机器学习领域研究的热点问题之一,它在诸如文档检索、协同过滤、自然语言解析等领域有广泛的应用。排序学习的目标就是应用机器学习技术自动地从训练数据中学习出一个排序函数对目标对象进行排序。针对排序学习问题,目前人们已经提出了很多算法,根据输入表示以及损失函数的不同,它们大致可分为点级方法(pointwiseapproach)、对级方法(pairwiseapproach)和列表级方法(listwiseapproach)三类方法。排序学习是一种有监督学习,因此需要提供一个带标记训练数据集。但是在实际问题中,获取带标记的数据是费时而且昂贵的。为了在排序问题中利用大量存在的未标记样例,自然而然地产生了半监督排序学习问题。借助半监督学习技术从大量无标签数据集中发现隐含的排序信息,对于减少标注代价,提高排序算法的性能具有非常重大的实际意义。因此本文旨在将半监督学习技术应用于排序学习问题,从而开发出半监督情况下的排序学习算法。本研究的主要工作如下:首先,本文提出了正则化提升(RegularizedBoosting)学习方法的一般框架框。基于这一框架设计了基于RankBoost算法的半监督排序学习算法。正则化(regularization)是一种具有广泛应用的半监督学习技术,它通过使学习器优化带正则化惩罚项的损失函数,从而利用未标记样例来辅助提高学习性能。提升(boosting)是一种简单高效并且具有理论支持的集成学习方法,它通过渐进式地组合一系列简单的模型得到一个性能更优的模型。通过结合这两种重要的技术,把pairwise型排序学习算法RankBoost扩展到了半监督情况下。具体而言,我们在原有的损失函数中引入基于“光滑性假设”(smoothassumption)的正则化惩罚项,保证相似的样例获得接近的排序得分。进一步,通过理论分析得出损失函数最小化的提升算法。最终设计出的算法既合理地利用了已有的半监督学习假设又保留了boosting方法简单高效的优点。其次,本文提出了把listwise型排序学习算法扩展到半监督情况下的一般框架。在此框架下,首先用半监督学习技术为一部分无标记样例贴上伪标签,然后运行传统的listwise型的算法。基于这一框架我们把典型的listwise型排序算法AdaRank扩展到了半监督排序学习的情形。具体地,算法首先在每个查询内部通过标记传播(labelpropagation)算法给一部分无标记样例附上标签。然后在增加的数据集上运行改进的正则化形式的AdaRank算法。受益于listwise方法的优点,这种扩展listwise方法的半监督排序学习算法将会提高半监督排序算法的性能。最后,在公开数据集Letor上与已有的半监督排序学习算法进行比较实验,表明了本文所提出的框架的可行性与相应算法的有效性。
【作者】缪志高;
【导师】唐珂;
【作者基本信息】中国科学技术大学,计算机软件与理论,2014,硕士
【关键词】排序学习;半监督学习;正则化;提升;RankBoost;AdaRank;

【参考文献】
[1]吴建华,王庆民.微机在产品成本分析中的应用[J].冶金自动化,1989,01:60-61.
[2]于管天.三聚氰胺氰尿酸盐致SD大鼠肾脏损害的实验研究[D].南方医科大学,泌尿外科,2012,硕士.
[3]朱红.基于轨道交通模式下的长沙市商业空间重构研究[D].湖南大学,建筑学,2011,硕士.
[4]郭超超.基于学生满意度的行政管理专业人才培养研究[D].燕山大学,行政管理,2013,硕士.
[5]付莉莉.毕赤酵母表达HSA融合蛋白过程中降解的初步研究[D].江南大学,发酵工程,2012,硕士.
[6]王宪位.蛋白质分块量子化学计算方法的发展和振动斯塔克效应的研究[D].华东师范大学,原子与分子物理,2014,博士.
[7]李璇.IL-17、IFN-γ在HIV、梅毒及HIV/梅毒共感染中的表达特征探讨[D].大连医科大学,皮肤病与性病学,2012,硕士.
[8]张晨.山东中烟工业公司“泰山”品牌战略研究[D].山东大学,工商管理(专业学位),2013,硕士.
[9]赵清.碳量子点荧光探针的制备及其在重金属离子分析中的应用[D].中北大学,2014.
[10]董明鑫.基于Visual C++与ABAQUS二次开发的过程模拟系统开发[D].太原科技大学,机械设计及理论,2014,硕士.
[11]徐红.视频后处理芯片中模块的设计与探索[D].浙江大学,通信与信息系统,2004,硕士.
[12]郑飞.地方政府转变社会维稳方式研究[D].华南理工大学,行政管理,2014,硕士.
[13]江胜月.城市管线设施测量定位方法研究[D].湖北大学,地图学与地理信息系统,2012,硕士.
[14]谷时开.钢铁企业MES中的炼钢—连铸—热轧一体化计划编制[D].东北大学,系统工程,2010,硕士.
[15]蒋欣源.畜禽粪便还田暴雨浸泡天然雌激素流失污染风险研究[D].东华大学,环境工程(专业学位),2014,硕士.
[16]胡方超.小椭球粒子群旋转轴取向呈正态分布时的散射特征研究[D].南京气象学院,大气物理学与大气环境,2004,硕士.
[17]王敏超.高性能同轴电缆宽带接入测试系统的方案设计与编解码软件实现[D].西安电子科技大学,通信与信息系统,2011,硕士.
[18]林光云.基于Web的倒立摆远程监控系统研究[D].浙江工业大学,2004.
[19]林瑞君.机构投资者持股与上市公司信息披露透明度研究[D].广东外语外贸大学,会计学,2013,硕士.
[20]张瑞晨.夫妻离婚股权分割问题研究[D].兰州大学,民商法(专业学位),2013,硕士.
[21]屈宏顺.行政体制改革困境及对策研究[D].广西师范大学,行政管理,2013,硕士.
[22]马骋.试论技术和国际贸易对收入以及分配的影响[J].中国商贸,2014,28:130-131.
[23]徐登云.小型农田水利设施供给中农户自主合作研究[D].华中农业大学,行政管理,2014,硕士.
[24]李安.可运营可管理的HFC宽带接入网——华为HFC宽带接入网客户化解决方案[J].有线电视技术.2001(04)
[25]朱敏,朱钰方.《功能材料学》课程全英语教学改革初探[J].教育教学论坛,2015,03:61-62.
[26]耿玉彬.SrTiO_3(110)表面重构及其对C_(60)分子自组装的影响[D].燕山大学,材料学,2013,硕士.
[27]雷宾峰.乌司他丁对心脏不停跳心内直视术炎症反应的影响[D].广西医科大学,心胸外科,2004,硕士.
[28]邱梦.新型数字方向流量阀的设计及特性分析[D].重庆大学,机械电子工程,2014,硕士.
[29]毛鹏辉.并行快速椭圆偏振分析方法的研究[D].复旦大学,光学,2010,博士.
[30]王晶晶.聚合物改性石墨烯及电化学行为研究[D].武汉工程大学,2012.
[31]张兴.SWP线搜索下非线性共轭梯度法全局收敛性理论研究[D].广西大学,应用数学,2004,硕士.
[32]陈红亮,罗玉峰,杨廷力.对称三自由度并联机器人拓扑结构型综合与分类[J].农业机械学报.2008(01)
[33]王大海.特征结构配置能力的一致性[J].自动化学报,1988,01:55-60.
[34]田健.纳米二氧化钛基功能复合材料的研究及制备[D].合肥工业大学,材料工程(专业学位),2014,硕士.
[35]谢汶兵,马晓东,李中升,牛夏牧.基于备份控制流信息的缓冲区溢出监测技术[J].计算机工程与应用.
[36]李征.纳米TiO_2的掺杂和修饰及其用于光动力治疗的机理研究[D].复旦大学,光学,2013,博士.
[37]冯云倩.论荨麻疹的证治规律[D].黑龙江中医药大学,中医外科学(专业学位),2013,硕士.
[38]孙坤.NEMO网络路由和安全的优化与仿真实现[D].东北大学,计算机软件与理论,2011,硕士.
[39]朱瑜.社会排斥视角下的城市少数民族流动人口社区融合[D].中南民族大学,社会工作(专业学位),2013,硕士.
[40]孙丹.基于专调数据的彬县煤炭公路运输量统计分析[D].长安大学,物流工程与管理,2014,硕士.
[41]谢冰.基于LabWindows/CVI的某产品自动测试系统软件设计[D].中北大学,测试计量技术及仪器,2013,硕士.
[42]杨震中.通信网的路径结构[J].电信工程技术与标准化.1995(04)
[43]李尚武.河南省造纸工业现状与发展思路[J].造纸信息.2003(11)
[44]曾玮.文献排名预测算法及作者影响力评估算法研究[D].西南大学,计算机应用技术,2014,硕士.
[45]吕雯雯.三氟甲基取代的α-氟代偕二醇和醛的Knoevenagel反应研究[D].华东理工大学,有机化学,2013,硕士.
[46]熊艳,包吉山,肖慈珣.模糊神经网络预测储层及油气[J].石油地球物理勘探,2000,02:222-227.
[47]张军峰,胡寿松.基于一类局部固定核的支持向量回归建模[J].控制与决策,2008,06:660-664.
[48]蒋伟.活性炭纤维吸附—氮气解吸回收多组分有机废气的研究[D].华中科技大学,环境科学,2013,硕士.
[49]朱广帅.遗传算法在光纤光栅光谱分析中的应用研究[D].东北大学,检测技术与自动化装置,2011,硕士.
[50]胡发科.惯性边界下轴向运动梁的非线性振动分析[D].燕山大学,工程力学,2014,硕士.

相关推荐
更多