标记样本规模对半监督文本聚类算法的影响

标记样本规模对半监督文本聚类算法的影响

作者:师大云端图书馆 时间:2018-09-14 分类:参考文献 喜欢:3475
师大云端图书馆

【摘要】近年来,机器学习领域中半监督学习引起了广泛的关注。众所周知,有标记的样本的规模会显著地影响学习的结果。然而,究竟多少样本才完美符合是一个悬而未决的问题。在本文中,我们会尝试在文本聚类领域中揭示这个问题的规律以及最佳解决方案。在两种经典的的聚类算法k-均值和AP聚类的基础上,我们实现了五个改进的半监督文本聚类算法,分别是种子k-均值聚类算法(SeedK-means),约束k-均值聚类算法(ConstraintK-means),松散种子AP聚类算法(LooseSeedAffinityPropagation),紧密种子AP聚类算法(CompactSeedAffinityPropagation)以及3-集合种子AP聚类算法(SeedAffinityPropagation)来估算标记样本规模对半监督聚类算法的影响。我们将它们分别应用于两个文本挖掘领域中的标准数据集:路透社数据(Reuters-21578)和美国国家自然科学基金摘要数据(NSFResearchAwardAdstracts1990-2003)。数值结果显示标记样本的数量增长未必都有助于聚类算法来获得更高的准确率。当k均值系列算法的标记样本规模超过检验点35%时,AP聚类系列算法的标记样本规模超过检验点25%时,这些聚类算法的学习能力将会停止或者增长缓慢。上述实验结果将为半监督聚类算法的应用提供帮助,方便人们根据不同需求选择不同算法。
【作者】莫日根;
【导师】李瑛;管仁初;
【作者基本信息】吉林大学,软件工程,2014,硕士
【关键词】半监督聚类算法;标记样本;文本聚类;

【参考文献】
[1]张冲.从修辞角度分析英文广告语的劝说策略[D].华中师范大学,英语语言文学,2013,硕士.
[2]李超.《大象的眼泪》的生态解读[D].河北师范大学,英语语言文学,2012,硕士.
[3]朱林.基于ST壳资源价值重组利用的绩效研究[D].复旦大学,政治经济学,2012,硕士.
[4]陶婧.食品安全事件中的媒体报道效应[D].华东师范大学,广播电视艺术学,2013,硕士.
[5]周蓉.《森林动态理论─—森林演替模型的生态学原理》一书简介[J].植物生态学报,1994,01:103-104.
[6]王德平.世界优秀羽毛球男子单打运动员技战术特征的对比研究[D].西安体育学院,体育,2013,硕士.
[7]谢红.西藏特色经济发展研究[D].天津大学,企业管理,2004,硕士.
[8]李志明,郎占清.核心竞争力—企业获得竞争优势的源泉[J].一重技术.2001(01)
[9]李凌浩,林鹏,王其兵,贺金生,何建源,刘初钿,金昌善,陈仁华.武夷山甜槠林水文学效应的研究[J].植物生态学报,1997,05:2-11.
[10]宋思奇,杨雪梅,陈志新,张继宇.电梯运输策略[J].生物技术世界,2014,06:173.
[11]吕岗.基于复合材料的某飞机零部件轻量化研究[D].吉林大学,固体力学,2013,硕士.
[12]黄文鹏.无精子症患者睾丸生精功能与性激素的相关性研究[D].广西医科大学,内分泌(专业学位),2013,硕士.
[13]周舒.福利多元主义视角下孤残儿童福利供给问题研究[D].湖南师范大学,社会保障,2014,硕士.
[14]姜阳.GSM网络语音质量MOS提升策略研究[D].吉林大学,电子与通信工程,2014,硕士.
[15]于慧玲.中国菜名的认知语义研究[D].西南大学,英语语言文学,2013,硕士.
[16]张腾.小学《牛津英语(上海版)》教材在沈阳市的适应性研究[D].沈阳师范大学,课程与教学论,2013,硕士.
[17]刘海凤.《农业信息化》网络教学示范系统设计与实现[D].浙江海洋学院,农业信息化(专业学位),2014,硕士.
[18]彭惠平.复方991抗肝纤汤治疗肝纤维化的机制探讨[D].江西医学院,中西医结合临床,2003,硕士.
[19]林敏.小学六年级学生自我评价影响因素的研究[D].福建师范大学,发展与教育心理学,2004,硕士.
[20]李洪强.析佩拉的科学修辞学战略[D].山西大学,科学技术哲学,2004,硕士.
[21]叶茂,陈勇.基于分布模型的层次聚类算法[J].电子科技大学学报,2004,02:171-174.
[22]张丽琼.乌鲁木齐市第十五中学教务信息管理系统的设计[D].吉林大学,软件工程,2013,硕士.
[23]张毓姣.表皮细胞生长因子复合骨髓间充质干细胞促进大鼠β射线皮肤损伤创面愈合的实验研究[D].苏州大学,烧伤外科学,2013,硕士.
[24]李群河.DSS-10A地震仪相机走纸控制电路的改进[J].石油地球物理勘探,1995,S2:179-180+182.
[25]刘丽琴.M公司绿色供应链管理研究[D].北京交通大学,2013.
[26]孔栋.DNA纳剂量学模型影响因素研究[D].苏州大学,生物医学工程,2014,硕士.
[27]黄珍.城市新区发展的效益机制研究[D].武汉理工大学,结构工程,2003,硕士.
[28]张宪,李文昊,赵章风,钟江.基于ADAMS的单、双轴颚式破碎机性能研究[J].机电工程,2013,11:1317-1322.
[29]马志庆.FRP-混凝土—钢管组合方柱偏压性能研究[D].郑州大学,防灾减灾工程及防护工程,2013,硕士.
[30]谭伟田.沙尘环境参数监测平台设计与实现[D].宁夏大学,电子与通信工程(专业学位),2014,硕士.
[31]钮海丹.生产应用下的高效增粘系统的性能研究[D].东华大学,纺织工程(专业学位),2014,硕士.
[32]付君宜.附加粘滞阻尼器结构基于性能的抗震设计方法研究[D].长安大学,防灾减灾工程及防护,2014,硕士.
[33]赵美.基于压缩感知的图像编码研究[D].太原科技大学,电路与系统,2014,硕士.
[34]申迪.G显带和aCGH技术在检测早期自然流产妊娠物核型中的应用[D].山东大学,妇产科学,2013,硕士.
[35]刘伟.聂中明合唱指挥艺术研究[D].河南大学,音乐学,2004,硕士.
[36]董天阳,纪磊,刘思远,范菁,熊丽荣.个性化编辑的轻量化3维树木模型构建[J].中国图象图形学报,2014,07:1074-1084.
[37]罗道成,易平贵,陈安国.建筑和装饰材料的室内污染对人体危害及预防措施[J].中国安全科学学报.2003(03)
[38]斯日古楞.鸡包涵体肝炎过程中免疫细胞变化规律的研究[D].内蒙古农业大学,基础兽医学,2004,硕士.
[39]杨枫.微波快速合成石墨烯/纳米银及电化学传感应用[D].江南大学,2014.
[40]张大伟.GLP-1在十二指肠空肠旁路术治疗2型糖尿病中作用的研究[D].中南大学,临床医学,2013,博士.
[41]刘丹.我国环境税收制度研究[D].重庆大学,法律(专业学位),2014,硕士.
[42]徐文娟.PTFE/bronze复合材料的力学性能研究[D].天津大学,化工过程机械,2013,硕士.
[43]钟慧.上颌中切牙切三分之一冠横折断冠再接术后有限元分析[D].南方医科大学,口腔临床医学,2012,硕士.
[44]于思远.整数阶混沌系统与分数阶混沌系统的投影同步[D].安徽大学,应用数学,2013,硕士.
[45]杨开林.应当重视调水工程运行的计算机仿真研究[J].水利规划设计.2002(03)
[46]张仁同.基于支持向量回归的802.11室内定位技术研究[D].华中科技大学,计算机软件与理论,2013,硕士.
[47]邓迎春.湖北省城镇体系建设研究[D].华中师范大学,人文地理学,2013,硕士.
[48]张(龙天).不同载体负载Mn(Salen)催化剂的微波固相法制备及其在苯乙烯环氧化反应中催化性能的比较[D].湖南师范大学,有机化学,2004,硕士.
[49]黄静.自闭症儿童的语义加工[D].南京师范大学,语言学及应用语言学,2012,硕士.
[50]杨主格.中国电视新闻评论节目的话语转变[D].辽宁大学,新闻学,2012,硕士.

相关推荐
更多