超高维两值数据的动态分类方法研究

超高维两值数据的动态分类方法研究

作者:师大云端图书馆 时间:2015-10-01 分类:毕业论文 喜欢:1952
师大云端图书馆

【摘要】随着科技的进步和大数据时代的到来,各种复杂多样的数据集不断涌现。这些数据往往呈现出海量、超高维、稀疏、时变结构等特点。统计学作为一项基本的数据分析工具,越来越多地得到社会各界的关注,也迎来了新的挑战。文本分类问题就是大数据时代的产物之一,各种分类方法应运而生。如何从复杂的文本数据中获取有用的信息,并实现自动分类,是本文主要研究的问题。本文提出了一种新的汉语文本分类方法,即动态朴素贝叶斯模型。这是一种数据驱动的方法。汉语文本数据集来自于长春市市长公开电话项目,其目的是将百姓的电话投诉文档自动地分配给政府的各个职能部门,然后使投诉事件得到及时地处理。为此,收集了该数据集中出现的大量汉语词汇。根据这些词在文档中是否出现,构造出了高维两值向量。由于这个数据集中出现的汉语词汇量是极其庞大的,这就导致了两值特征向量是超高维的。所以过去一直使用简单且高效的朴素贝叶斯方法对该数据集进行分类。然而,绝大多数词(或特征)是与类别无关的,不仅带来了大量的冗余计算,而且影响分类的精度。因此,特征选择问题就变得尤为重要.本文首先研究了超高维两值数据的特征选择问题,针对朴素贝叶斯模型,提出了一种基于Lo正则化的特征选择方法。该方法在模型选择的意义下是最优的。并从理论上和模拟数据分析分别验证了在超高维情况下该方法的特征选择相合性。然而,在实际问题中,特征是否与类别相关往往没有明确的界定,而是相关程度有强弱之分。在这种想法的驱动下,提出了一种特征加权的方法,使得分类精度得到进一步提高。研究经验表明,在每天的不同时间,投诉文档可能遵循不同的分类模式。不幸的是,标准的朴素贝叶斯方法并不能把这一重要信息考虑进来。为了解决这一问题,提出了动态朴素贝叶斯模型。这种新方法在每天的同一时间采用标准的朴素贝叶斯方法,而在不同时间允许按照不同的模式进行分类。这是通过让模型参数随时间平滑变化来实现的。本文应用非参数平滑技术(如核平滑方法)来估计参数,并提出了用BIC型模型选择准则来选择特征。此外,还给出了该方法的渐进性质,并通过模拟数据分析和实例分析证实了该方法的优越性能。尽管动态朴素贝叶斯方法是基于汉语文本数据集而提出的,但它还可应用于任何具有两值特征和时变结构的分类问题,也可以自然地推广到连续数据和其它离散数据。可以预见,该动态分类方法将具有广阔的应用前景。
【作者】官国宇;
【导师】郭建华;
【作者基本信息】东北师范大学,概率论与数理统计,2014,博士
【关键词】贝叶斯信息准则;超高维两值数据;动态朴素贝叶斯;汉语文本分类;L0正则化;筛选相合性;特征选择;特征指示器;

【参考文献】
[1]吴宝业.硫酸露点腐蚀用钢成分设计及耐蚀机理研究[D].华中科技大学,材料学,2013,硕士.
[2]袁君.有限p群的非内交换极大子群的交[D].山西师范大学,基础数学,2014,硕士.
[3]本刊编辑部.悼念曾国熙教授[J].岩土工程学报,2014,10:1837.
[4]张志朝,刘茂涛,徐攀腾,宋述波.云广特高压直流输电工程同极双阀组关联因素安全风险分析[J].电力系统自动化,2013,07:129-133.
[5]文治乾.海德格尔与哈贝马斯技术观比较研究[D].南京师范大学,科学技术哲学,2012,硕士.
[6]孙耀华.地震勘探技术在焉耆盆地勘探开发中的合理应用探讨[J].石油地球物理勘探,2003,01:17-21+114-115+112.
[7]张玉.湖北省流动人口结核病防治健康促进效果评价研究[D].武汉科技大学,流行病与卫生统计学,2012,硕士.
[8]傅书逷.IEEEPES2004会议电网安全问题综述及防止大面积停电事故建议[J].电力系统自动化,2005,08:1-4.
[9]肖英肖.外来务工人员子女英语学习现状的调查研究[D].河北师范大学,学科教学,2012,硕士.
[10]张旭萍.分数阶积微分发展方程初值问题mild解的存在性[D].西北师范大学,基础数学,2013,硕士.
[11]刘海涛.初中班级民主管理中的问题及对策研究[D].鲁东大学,教育管理(专业学位),2013,硕士.
[12]张春光.基于分块策略的虚拟场景建模算法的研究[D].太原理工大学,计算机应用,2004,硕士.
[13]陈子鸣,茹青,巴尔·A,福格特·V.综合浮选模拟器——第一部分数学模型[J].有色金属.1988(04)
[14]岳同启.面向大规模定制的客户需求信息系统研究[D].大连理工大学,2004.
[15]侯舟波.基于危险理论的智能轮毂单元状态检测方法研究[D].杭州电子科技大学,机械设计及理论,2013,硕士.
[16]尹韶华.基于局部敏感度信息在CBIR的研究[D].华南理工大学,计算机应用技术,2014,硕士.
[17]邹霞.高等中医教育模式下的名中医成才之路研究[D].南昌大学,公共管理(专业学位),2012,硕士.
[18]姜晓明,陈兴林.不确定性系统的非因果鲁棒学习控制[J].控制与决策,2014,12:2277-2281.
[19]薛羽.无线城市Web数据采集系统的设计与实现[D].北京邮电大学,计算机科学与技术,2013,硕士.
[20]陈飞飞.基于工程观测的沉降变形分析[D].河北工程大学,岩土工程,2012,硕士.
[21]高嫄.药物固体分散体和其磷脂载体的热力学研究[D].苏州大学,物理化学,2013,硕士.
[22]于龙华.原发性开角型青光眼中枢视通路形态和功能的磁共振成像研究[D].第三军医大学,影像医学与核医学,2014,博士.
[23]刘志雄,陈旭.中国与马来西亚双边贸易流量及贸易潜力研究[J].东南亚纵横,2014,07:36-41.
[24]程红太,张晓华.基于虚约束的Acrobot动态伺服控制统一设计方法[J].控制与决策,2012,06:923-928.
[25]古飒飒.微纳结构银粉的制备及其催化性能研究[D].华中科技大学,材料学,2013,硕士.
[26]胡志华,唐万生,李光泉,刘则毅.二维广义系统的实现方法[J].控制与决策,1996,06:681-685.
[27]徐文福,李成,梁斌,刘宇,强文义.空间机器人捕获运动目标的协调规划与控制方法[J].自动化学报,2009,09:1216-1225.
[28]钟俊.市场化背景下我国建筑类图书的生存与发展之道[D].湖南师范大学,传播学(专业学位),2014,硕士.
[29]李志,何平.微型计算机在锻压行业中的应用前景与对策[J].机械与电子.1986(03)
[30]陈华月,朱征宇.基于用户近期兴趣视图的个性化推荐[J].计算机工程,2005,20:177-179.
[31]李小丽.大学生孝道现状及其教育对策研究[D].海南大学,思想政治教育,2014,硕士.
[32]吴菲菲.哈佛分析框架下我国光伏企业财务分析[D].华东交通大学,会计(专业学位),2014,硕士.
[33]李月云.乳腺恶性肿瘤EpiData数据库构建与应用[D].青岛大学,临床医学,2013,硕士.
[34]吴海洲.56 kbps Modem技术研究与实现[D].河北大学,通信与信息系统,2003,硕士.
[35]张梦祎.基于云的安全数据管理系统的研究与实现[D].北京邮电大学,信息安全,2013,硕士.
[36]蒋优君.孕母患自身免疫性甲状腺疾病对婴儿甲状腺功能影响的多因素分析[D].浙江大学,儿科学,2004,硕士.
[37]李萌斐.威斯康星州进步主义运动研究:拉弗莱特与公共利益[D].上海外国语大学,英语语言文学,2012,硕士.
[38]黄香儿.增程式电动汽车辅助动力单元控制系统的研究[D].上海工程技术大学,车辆工程,2011,硕士.
[39]郄海艳.侵权补充责任研究[D].吉林大学,民商法学,2013,硕士.
[40]谈广平,蔡翔.PHS进入内涵式发展时代[J].世界电信.2005(02)
[41]胡四一,施勇.大型复杂防洪系统蓄泄后效的数值模拟[J].水利规划与设计.2004(S2)
[42]陈晓转.图像目标三维信息的快速提取及VRML三维重建的技术研究[D].南京理工大学,检测技术与自动化装置,2013,硕士.
[43]李海燕.靶向mTORC2信号通路抑制乳腺癌细胞迁移并促进凋亡[D].南方医科大学,细胞生物学,2012,硕士.
[44]赵冉.从语篇理解角度解析话语标记[D].北京交通大学,2014.
[45]彭海琳.二维狄拉克电子材料的控制生长与光电性质[A].中国化学会.中国化学会第29届学术年会摘要集——论坛七:中新青年化学家论坛[C].中国化学会:,2014:1.
[46]李莉.我国高新技术产业技术溢出效应研究[D].山东师范大学,区域经济学,2013,硕士.
[47]孙楠.网络环境下化学实验研究性学习模式的研究与应用[D].东北师范大学,现代教育技术,2012,硕士.
[48]梁瀚彬.维多利亚之风荡然无存[D].内蒙古大学,英语语言文学,2014,硕士.
[49]吕鹏翔.柳传志经营管理思想探析[D].广西大学,科学技术哲学,2004,硕士.
[50]刁浩峰.基于XFEM的裂纹扩展分析[D].浙江理工大学,车辆工程,2014,硕士.

相关推荐
更多