基于特征选择及LDA模型的中文文本分类研究与实现

基于特征选择及LDA模型的中文文本分类研究与实现

作者:师大云端图书馆 时间:2025-06-04 分类:硕士论文 喜欢:1029
师大云端图书馆

【摘要】当前,科学技术突飞猛进,信息化进程不断加快,互联网日益普及,人们也因此有了越多越多的传播、获取、共享信息的渠道。但是,与此同时,人们也面临着巨大的挑战——“信息爆炸”。因此,人们急需找到一种方法,通过这种方法正确、方便地从海量信息中筛选真正对自己有用的信息。在这种情况下,文本分类应运而生。作为数据分析的一种重要形式,文本分类可对信息进行高效地管理,如今已被广泛应用于搜索引擎、数字图书馆、电子政务、邮件过滤等多个领域。作为文本处理的有效手段,文本分类包含了预处理、特征选择、文本表示、分类器选择、分类器训练、分类器测试以及分类效果的评估等步骤。简单来说,文本分类的作用是为文本预测类别标号。在文本分类的整个体系中,每一个环节都直接影响到最终的分类效果。预处理的作用是初步降维以减少冗余,这是为后面使用分类器所做的准备之一;特征选择能够去除噪声特征,同时也是文本降维的核心;文本表示能够将非格式化的文本转换为格式化的数据形式,以便计算机能高效地对其识别、处理;分类器担任判别类别标号的角色,通过训练使分类器学习到某个分类函数,这个分类函数能够将文本映射到某个类别,之后,使用训练得到的分类器对测试集进行预测,以检验分类器在新数据上的分类效果;分类效果评估则能够对整个分类体系作出全面、客观地评价。本文选取特征选择、文本表示作为研究重点,针对传统特征选择方法存在的不足,进行多方面的改进,并提出将特征选择方法和LDA模型相结合以弥补单独使用LDA存在的缺陷,从而进一步提高分类效果。首先,针对传统互信息特征选择方法忽视词频因素而存在的若干问题,本文提出了相对词频率、分散度以及绝对值最大因子。通过这三者改进传统互信息方法,以弥补其不足。其次,针对传统信息增益特征选择方法应用于不平衡数据集时,分类效果显著下降的情况,本文提出“最大词频率比”因子,得到一种改进的信息增益方法,其在平衡、倾斜数据集上均能获得较好的效果。最后,针对单独使用LDA主题模型所存在的分类精度不高的问题,本文提出将特征选择方法与此主题模型相结合进而进行文本分类的方法。作为主题模型,LDA不仅能够得到文本的主题概率表示,还能起到和特征选择方法类似的降维效果。但是单独使用LDA,分类精度并不高。因此,对于LDA,本文重点将其作为一种文本表示方法,在此之前,使用特征选择方法对文本进行处理,从而进一步提高分类效果。以上即为本文的主要研究工作。实验结果表明:本文所提出的改进的互信息特征选择方法、改进的信息增益特征选择方法能够弥补传统方法存在的不足。而且,与单独使用LDA相比,将改进的特征选择方法与LDA相结合能够得到更好的文本分类效果。
【作者】董露露;
【导师】郑诚;
【作者基本信息】安徽大学,计算机技术,2014,硕士
【关键词】文本分类;特征选择;LDA模型;互信息;信息增益;

【参考文献】
[1]张明.SPG膜微气泡曝气—生物膜反应器系统及运行优化研究[D].河北科技大学,环境工程,2014,硕士.
[2]许欢欢.关于“危险驾驶”罪的反思[D].复旦大学,法律,2012,硕士.
[3]李颖.冷弯薄壁型钢背靠式组合截面受弯构件静力性能的研究[D].北京交通大学,结构工程,2013,硕士.
[4]杨东.高效LED驱动电源的设计[D].南京理工大学,电子与通信工程,2012,硕士.
[5]袁莉.城市群协同发展机理、实现途径及对策研究[D].中南大学,管理科学与工程,2014,博士.
[6]盘昱良.肿瘤细胞凋亡检测及肿瘤细胞检测新方法研究[D].湖南大学,2013.
[7]甘泉.基于Oracle空间数据库的铁路工务WebGIS网上发布系统的研究[D].西南交通大学,2003.
[8]陈大为.基于改革视角的地方政府行政能力研究[D].西北工业大学,马克思主义理论与思想政治教育,2004,硕士.
[9]张锟.不同微造型内表面的钻井泥浆泵缸套的有限元分析[D].黑龙江八一农垦大学,机械设计及理论,2014,硕士.
[10]常明.Bi_2O_3-ZnO-B_2O_3低温无铅封接玻璃结构及性能研究[D].中国建筑材料科学研究总院,材料学,2014,硕士.
[11]喻蕾.家蚕生殖腺的蛋白质组学及+~P基因的SSR定位研究[D].安徽农业大学,特种经济动物饲养,2012,硕士.
[12]贾钗.季铵盐型Gemini表面活性及其复合粘土去除铜绿微囊藻的研究[D].湖北大学,分析化学,2011,硕士.
[13]吴亚坤.葵花秆/聚乙烯轻质复合材料制备工艺及性能研究[D].内蒙古农业大学,林业工程,2013,硕士.
[14]郭辉.项目管理在软交换建设工程中的应用研究[D].内蒙古大学,工商管理,2012,硕士.
[15]王曙燕,耿国华,李丙春.决策树算法在医学图像数据挖掘中的应用[J].西北大学学报(自然科学版),2005,03:262-265.
[16]潘绥铭,侯荣庭.中国艾滋病防治事业的价值理念[J].云南师范大学学报(哲学社会科学版),2014,04:113-119.
[17]邹宏.强制戒毒人群的吸毒特征及其与中医病理因素的相关性研究[D].福建中医药大学,中医内科学(专业学位),2014,硕士.
[18]王坚.动力环境集中监控系统及节能管理设计[D].西南交通大学,材料科学与工程(专业学位),2013,硕士.
[19]于东方.经皮椎体成形术治疗转移性肿瘤性和骨质疏松性椎体压缩骨折的临床疗效分析[D].苏州大学,骨外科,2013,硕士.
[20]陆寅.500W光伏独立/并网双模逆变器的研究[D].安徽大学,模式识别与智能系统,2013,硕士.
[21]赵朝红.论企业的环境刑事责任[D].中南林业科技大学,法学,2014,硕士.
[22]谢小荣,武云生,林惊涛,张银山,姜齐荣.采用遗传—模拟退火算法优化设计SVC次同步阻尼控制器[J].电力系统自动化,2009,19:11-14.
[23]刘亚玉.台湾女性导演研究1957-2000[D].上海大学,电影学,2014,博士.
[24]张娜.多体腔库系统中量子纠缠和量子关联的动力学演化特性[D].河北师范大学,凝聚态物理,2012,硕士.
[25]王陟.《沈约集校笺》音乐美学探微[D].西安音乐学院,音乐美学,2014,硕士.
[26]江方敏.基于多因子量化模型的A股投资组合选股分析[D].西南交通大学,金融学,2013,硕士.
[27]王海君.信息技术与高中《文化生活》教学整合的方法及案例研究[D].东北师范大学,现代教育技术,2011,硕士.
[28]裘晓莲.长江三角洲地域绿色住居可持续发展评价方法探讨研究[D].浙江大学,建筑设计及其理论,2004,硕士.
[29]孙玲玲.图文式临床护理路径在乳腺癌患者中的应用与研究[D].广西医科大学,护理学,2013,硕士.
[30]巩奇峰.生境营造模式:人工湿地公园基础设施规划设计研究[D].西安建筑科技大学,建筑与土木工程,2013,硕士.
[31]崔民元,顾锡庆.塔里木盆地卫星定位网的平差与应用[J].石油地球物理勘探,1987,05:612-615.
[32]王秀平.新型混合转子无刷双馈电机的电磁特性分析与实验研究[D].沈阳工业大学,电机与电器,2014,博士.
[33]岳红云.几类非线性系统的自适应Backstepping模糊控制研究[D].西安电子科技大学,应用数学,2014,博士.
[34]崔兴岩.船舶抵押权人利益保险问题研究[D].对外经济贸易大学,国际贸易学,2014,博士.
[35]闻爱华.基于半色调图像的抗打印扫描数字水印算法研究[D].北京印刷学院,信号与信息处理,2013,硕士.
[36]钱丽华.论我国刑法规定的滥用职权罪[D].苏州大学,法律,2003,硕士.
[37]马静.小升初过渡期学生准备状态的调查研究[D].东北师范大学,发展与教育心理学,2012,硕士.
[38]袁帅,王越超,席宁,于海波,焦念东,于鹏,刘连庆.机器人化微纳操作研究进展[J].科学通报,2013,S2:28-39.
[39]田爽.季节冻土区重载铁路路基填料与路基变形特性研究[D].哈尔滨工业大学,岩土工程,2014,硕士.
[40]谭爽.天津城建管理职业技术学院实训楼基建项目造价控制研究[D].吉林大学,工业工程,2012,硕士.
[41]王艺源.布尔可满足关键问题研究[D].吉林大学,计算机软件与理论,2014,硕士.
[42]王羽.基于层次结构的一种数据预处理设计[J].湖南经济管理干部学院学报,2005,01:108-109.
[43]刘燕珍,李永锋,杨永岗,温月芳,王茂章.低温热处理对氧化石墨烯薄膜的影响[J].新型炭材料,2011,01:41-45.
[44]袁志猛.WTO背景下中国外资银行监管的法律问题研究[D].大连海事大学,国际法学,2004,硕士.
[45]于瀚翔.高空作业车伸缩臂结构性能分析[D].西南交通大学,机械设计及理论,2013,硕士.
[46]高湛军,陈青,程婷婷,黄德斌,唐毅.应用于电网故障诊断的统一信息模型[J].电力系统自动化,2010,09:49-52.
[47]张秋华.基于成本、需求的债务布置结构选择问题研究[D].东北大学,会计学,2010,硕士.
[48]胡娟.路面液压发电装置中蓄能器性能研究[D].内蒙古科技大学,机械设计及理论,2014,硕士.
[49]屈碧香.基于RGB三色LED光源照明的DLP投影系统光路设计[D].浙江大学,2013.
[50]黄娜.兆瓦级高速永磁同步电动机的电磁设计与损耗分析[D].沈阳工业大学,电机与电器,2013,硕士.

相关推荐
更多