基于实例迁移学习的文本分类研究

基于实例迁移学习的文本分类研究

作者:师大云端图书馆 时间:2021-03-22 分类:参考文献 喜欢:1537
师大云端图书馆

【摘要】随着互联网技术的不断成熟,各种各样的资源以各种形式出现在网络中,而资源中蕴含的信息则开始呈现爆炸性增长。如何从这些海量信息中寻找那些人们所需要的信息自然而然地成为了让人们困扰不已的问题,数据挖掘技术作为解决这个问题的答案自然而然地受到了人们的追捧,自出现伊始就成为了学者们研究的热点问题。而在这些数量惊人的信息中,有相当一部分信息是以文本的形式储存的,而文本分类作为文本挖掘的一个重要应用也不可避免的吸引了人们热切的目光。针对文本分类技术的研究主要分为两个时期:基于知识工程方法的时期,以及基于机器学习方法的时期。基于知识工程的方法需要领域专家的参与,由他们来编写用于分类任务的规则。由于基于知识工程方法的低效性与局限性,这项技术虽说也取得了一些成果,但很快的就被人们所淘汰,而基于机器学习的方法则是用计算机来代替人工进行自动分类,将人力解放出来,这种方法的效率非常高且具有极强的可移植性,所以迅速地获得了人们的青睐。迄今为止,基于机器学习方法的文本分类技术已经趋向于成熟,取得了许多让世人瞩目的成果,但是,这种技术也有其自身的局限性,因为传统的机器学习方法是建立在统计学理论基础之上的,而这就必然要求用于训练分类器的训练集和测试分类器性能的测试集都要服从相同的分布。但有的时候,对于一个新领域的文本分类任务,我们可能无法得到足够的训练集样本,或者是由于收集这些样本代价巨大,或者是我们根本不能收集到任何样本。人们自然而然地想到能否利用以前学习过的其他领域的领域知识或任务知识来帮助改善这个领域的分类任务,而由于其自身的特质,传统的机器学习方法对此无能为力,迁移学习作为一个新的研究方向就是为了解决这个问题而提出的,它可以将先前学习过的其他领域的知识应用于新的领域,只要这两个领域足够相似,就可以取得比较让人满意的效果。在我们的论文中,我们首先描述了文本分类的一些已经成型的且比较成熟的理论,依次描述了文本分类过程的各个部分:文本预处理,包括文本的向量表示与对特征项的加权、特征抽取和目前较流行的文本分类算法,还总结了评估分类器的方法与标准;然后介绍了迁移学习的基本理论与研究进展;最后,我们设计了一个基于实例迁移的文本分类算法来完成文本分类任务,这种算法是对经典文本分类算法AdaBoost的扩展,它利用其他相似源领域的标记数据集中的样本,经过重新加权后来扩充目标领域的训练集,以生成一个精度比较高的分类器。它的基本思想是给那些能引起正迁移的源领域中的样本赋予更高的权重,而造成负迁移的源领域中的样本则赋予较低的权重,同时调整每个单独的样本的权重。经过实验证明,我们的算法在给定一些源领域的样本集合,这些源领域有的与目标领域相关,有的不相关,和一些较少的目标领域训练样本的情况下,我们能获得一个比较可信的分类器。
【作者】刘晓明;
【导师】彭涛;
【作者基本信息】吉林大学,计算机软件与理论,2014,硕士
【关键词】文本分类;迁移学习;实例迁移;

【参考文献】
[1]曹飞.动脉瘤性蛛网膜下腔出血后慢性脑积水临床分析[D].浙江大学,外科学,2004,硕士.
[2]严镇圣.一种测井资料的分层定厚方法[J].石油地球物理勘探,1981,02:76-80.
[3]赵茜.NF-κB通路激活在弥漫大B细胞淋巴瘤患者中的临床病理意义[D].第二军医大学,内科学(专业学位),2013,硕士.
[4]肖永欣,胡功臣,徐庆强.空位和B、N、Al、P掺杂对Li在石墨烯上吸附的影响[J].淮阴工学院学报,2013,01:1-7.
[5]刘俊.西安市城市道路路域土壤重金属污染状况研究[D].长安大学,环境工程,2013,硕士.
[6]王鲁梅.血管内皮生长因子、碱性成纤维细胞生长因子及细胞增殖性核抗原在尖锐湿疣中表达的研究[D].山西医科大学,皮肤性病学,2003,硕士.
[7]刘婧.和谐社会建设下群体性事件的防治研究[D].中北大学,思想政治教育,2013,硕士.
[8]吴疆.信托在资产证券化中运用的比较研究[D].外交学院,国际法,2004,硕士.
[9]谢立东.基于分层方法的复杂人体行为识别研究[D].厦门大学,计算机技术,2014,硕士.
[10]张惠民,陈丹柯.熔融炉渣流量计(摘译)[J].冶金自动化,1984,03:62-65.
[11]李萍萍.光谱法研究CdTe量子点与丝裂霉素和卟啉类化合物的相互作用及其分析应用[D].西南大学,物理化学,2013,硕士.
[12]金有伟.河北广电基于NGOD规范的交互式数字电视VOD点播系统[D].山东大学,软件工程(专业学位),2013,硕士.
[13]刘显龙.部分相干光束的传输及成像研究[D].苏州大学,光学,2013,硕士.
[14]毛万霞.利用共转化法改良稻米食味品质的研究[D].上海师范大学,遗传学,2004,硕士.
[15]曹黎.基于移动终端的车牌识别系统研究与实现[D].西安电子科技大学,电子与通信工程,2012,硕士.
[16]刘婷.辜鸿铭《论语》英译本中的主体间性研究[D].宁波大学,英语语言文学,2014,硕士.
[17]吴婉玲.多孔低鼻坎消力戽混合流消能的应用研究[D].浙江大学,市政工程,2004,硕士.
[18]岳陆游,丁建宁,杨继昌,殷恋飞,常甦华,胡荫.船闸蘑菇头和帽接触有限元计算与优化[J].农业机械学报.2006(09)
[19]郭霞.从《华商报》看“中国元素”在西安房地产广告中的运用[D].西北大学,传播学,2013,硕士.
[20]闫飞,田福礼,史忠科.城市区域交通信号迭代学习控制策略[J].控制与决策.
[21]马瑞刚.PVA-FRC对角斜筋小跨高比连梁受剪承载力试验研究和理论分析[D].西安建筑科技大学,建筑与土木工程,2013,硕士.
[22]徐佳晨.散杂居少数民族族群认同的变迁[D].中南民族大学,中国少数民族史,2013,硕士.
[23]鲁桂江.深圳农村商业银行的改革研究[D].西南交通大学,工商管理(专业学位),2013,硕士.
[24]余嘉乐.浑源县永安寺传法正宗殿壁画的艺术特色与价值研究[D].山西师范大学,美术学,2013,硕士.
[25]李鹏.基于PCS7平台湿法烟气脱硫仿真系统的研制[D].北方工业大学,控制理论与控制工程,2014,硕士.
[26]王盼盼.基于信道增益不确定性的认知无线电网络鲁棒功率控制算法[D].燕山大学,控制理论与控制工程,2014,硕士.
[27]孙占学.跳频电台频率合成器的设计与分析[D].天津大学,电子与通信工程,2004,硕士.
[28]王乐一,赵文虓.系统辨识:新的模式、挑战及机遇[J].自动化学报,2013,07:933-942.
[29]余晶.制造业与生产性服务业互动效率的测度研究[D].复旦大学,产业经济学,2013,博士.
[30]黄纲.论债权保全制度[D].湖南大学,经济法,2003,硕士.
[31]汪丽.白银市低丘缓坡土地建设开发适宜性评价研究[D].甘肃农业大学,土地资源管理,2013,硕士.
[32]徐俊.大学生网络成瘾的现状分析及其心理治疗与预防策略研究[D].武汉理工大学,马克思主义理论与思想政治教育,2004,硕士.
[33]沈小庆,盛炳义,方曙,吴妙莲,王珏.数据挖掘技术及其在医院药学中的应用[J].中国医院管理,2005,12:46-48.
[34]李强.一类面向多级过程系统的实时进化方法[D].北京化工大学,控制科学与工程,2013,硕士.
[35]王婷.我国上市公司股利政策研究[D].扬州大学,企业管理,2012,硕士.
[36].中国机械工程学会流体传动与控制分会第五届委员会委员名录[J].液压与气动,2014,09:133-137.
[37]高敬敬.HIV/AIDS与HIV/AIDS合并HBV感染抗病毒治疗前后CD_4~+T细胞计数、HGB及TGF-β_1的变化[D].遵义医学院,内科学(专业学位),2013,硕士.
[38]刘凤娟.非完整约束轮式移动机器人的运动控制研究[D].长安大学,控制理论与控制工程,2013,硕士.
[39]张光清.Java EE门户网站性能优化技术的研究与实现[D].湖南大学,计算机技术,2011,硕士.
[40]刘延越.邯郸工程方言形容词重叠研究[D].河北师范大学,汉语言文字学,2013,硕士.
[41]李燕.汉晋龙亢桓氏家族与文学[D].西北师范大学,中国古代文学,2013,硕士.
[42]刘兵.当代村庄社会精英功能及影响力研究[D].西北大学,社会学,2014,硕士.
[43]张兴丽.基于财务视角的G公司多元化经营问题研究[D].安徽大学,工商管理,2014,硕士.
[44]肖琼.基于层次哈希链的关系查询认证方法[D].东北大学,计算机系统结构,2010,硕士.
[45]王安银.叉枝鸦葱水溶性多糖的提取工艺及生物活性研究[D].塔里木大学,生物化学与分子生物学,2012,硕士.
[46]梁丹维.导电多层膜的层层自组装及其电学、电化学及光伏性能研究[D].中国海洋大学,2014.
[47]孙世杰.体育场上的高科技神器[J].第二课堂(B),2014,Z2:4-10.
[48]辛旭明.基于过程监控的数据挖掘系统及其应用[D].东华大学,2004.
[49]时溢.吉林东部古洞河构造岩浆杂岩带的基本特征及其演化[D].吉林大学,构造地质学,2013,硕士.
[50]曲艳斌.一种完全、洁净气体发生剂配方基础与作用原理研究[D].华北工学院,应用化学,2004,硕士.

相关推荐
更多