不确定数据流分类算法研究

不确定数据流分类算法研究

作者:师大云端图书馆 时间:2015-11-11 分类:期刊论文 喜欢:3775
师大云端图书馆

【摘要】在无线传感器网络、信用卡欺诈检测、网络监控等大量应用领域中,数据流数据持续、高速地产生,并且由于设备精度、重复抽样、值缺失、隐私等原因,产生数据普遍存在着不确定性。不确定数据流已逐渐成为一种常见的数据存在方式,针对不确定数据流的管理和挖掘技术也因此成为学术界前沿研究领域之一。数据流分类是数据流挖掘的重要问题之一,许多应用问题如网络入侵检测、环境监测、垃圾邮件过滤和信用卡欺诈检测等,都可以建模为数据流分类问题。然而,传统数据流分类算法大多数只能处理数据项为精确值的数据流,无法有效地应用于不确定性普遍存在的实际应用领域。本文主要关注不确定数据流分类分析问题,围绕快速不确定数据流分类,获取不确定数据流数据概率分布,概念漂移不确定数据流分类,以及正例与未标注学习场景下的不确定数据流分类等几方面技术展开研究。主要研究内容和成果包括:(1)为对快速不确定数据流分类,基于非常快速决策树(VeryFastDecisionTree,VFDT)算法,本文提出了uVFDTc算法。给出了在VFDT中处理持续到来不确定样本的方法,提出了从不确定样本中收集充分统计量的技术,并且针对不确定连续属性值,提出了高斯逼近,固定有序箱和等高直方图三种归纳算法,获取不确定数值流中数据项的概率分布。扩展了朴素贝叶斯模型为不确定朴素贝叶斯(UncertainNaveBayes,UNB)模型,使之能对不确定数据流分类。在训练阶段,uVFDTc算法在收集的统计量上计算不确定信息增益,并应用Hoeffding边界理论快速构造合理的决策树;在分类阶段,在叶子结点上采用UNB分类策略提高输出模型的分类性能。实验结果表明,Hoeffding边界理论可令uVFDTc快速产生规模小、准确率高的不确定决策树;叶子结点上应用UNB分类策略可显著提高uVFDTc的分类性能;与没有使用UNB分类策略的uVFDTc相比,使用了UNB的uVFDTc最高准确率高出3%;数据流不确定水平达30%情况下,uVFDTc的分类准确率仍能接近于使用确定样本学习的VFDT。(2)研究了不确定数据流近似分位归纳问题。为更准确获取不确定数据流的概率分布,基于GK算法,本文提出针对不确定数据流的近似分位归纳算法uGK,并应用到uVFDTc算法中。uGK算法使用与GK算法相同的内存结构(元组)存储归纳信息,与GK算法具有相似的空间复杂度;只需进行一遍扫描,就可将不确定数据流的概率分布信息归纳到少量元组中,且所获得的分布能以指定精度逼近不确定数据流的实际分布。实验结果表明,uGK算法能以远少于空间复杂度估算数目的元组归纳数据流;随着数据集的不确定水平上升,所需元组的数目不会随之增加,甚至有可能降低;归纳元组能够满足指定的分位查询精度;在数据流分类中,uGK可令uVFDTc获得更佳的分类准确率。(3)为对隐含概念漂移的不确定数据流分类,基于uVFDTc和CVFDT算法,本文提出可处理不确定数据流中概念漂移的非常快速决策树算法uCVFDTc。在训练阶段,uCVFDTc利用与uVFDTc相同的技术处理不确定样本、收集充分统计量和生长决策树,同时采用滑动窗口技术和备选子树替换技术,获得概念漂移处理的能力。在分类阶段,uCVFDTc同样在叶子结点上使用不确定朴素贝叶斯分类器,作为分类策略,进一步提高分类性能。实验结果表明,uCVFDTc具有很强的能力检测和适应不确定数据流中概念的变化;不确定朴素贝叶斯分类策略在uCVFDTc叶子结点上的应用,可明显提高uCVFDTc对不确定数据流的分类性能,特别是可提高对不确定性的健壮性和概念漂移的处理能力。(4)研究了正例与未标注学习场景下的不确定数据流分类问题。为对仅含正例与未标注样本的不确定数据流分类,本文提出了puuCVFDT算法。该算法仅利用不确定正例与未标注样本进行学习,构造非常快速决策树。首先给出了从仅含正例与未标注样本的不确定数据流中收集充分统计量的方法,提出了针对正例与未标注样本的不确定信息增益,并给出了在充分统计量上计算不确定信息增益的方法。接着应用Hoeffding边界理论,快速生成多棵不确定决策树。最后给出从多棵决策树中选择分类性能最佳决策树的技术,以及最佳决策树对未知样本分类的技术。实验结果表明,puuCVFDT具有很强的能力从仅含正例和未标注样本的,且隐含概念漂移的不确定数据流中学习非常快速决策树;在数据集不确定程度达30%,且其中正例样本比例仅为10%的情况下,puuCVFDT所输出决策树模型的分类准确率就可与使用全标注确定样本训练的CVFDT相匹敌。
【作者】梁春泉;
【导师】张阳;
【作者基本信息】西北农林科技大学,农业电气化与自动化,2014,博士
【关键词】不确定数据;数据流分类;快速决策树;概念漂移;正例与未标注学习;

【参考文献】
[1]李世兴.民办高校院系领导干部素质测评研究[D].华中师范大学,行政管理,2012,硕士.
[2]续龙.量刑规范化改革的应然进路[D].吉林大学,法律,2013,硕士.
[3]张贺.新疆阿吾拉勒山奴拉赛铜矿的矿床学研究[D].中国地质大学(北京),矿物学、岩石学、矿床学,2013,硕士.
[4]张玉.毛泽东新闻思想与新时期新闻实践[D].河南大学,新闻学,2004,硕士.
[5]郭雪然.浅议司法腐败与高薪养廉[J].内蒙古统战理论研究,2015,02:38-41.
[6]王伟,贺兴东.北京市停车管理问题分析与对策建议[J].综合运输,2014,06:76-79.
[7]邓称意.西北地区沥青路面结构研究[D].长安大学,道路与铁道工程,2013,硕士.
[8]邬岗.呼和浩特如意经济技术开发区政府职能研究[D].内蒙古大学,公共管理,2014,硕士.
[9]王昌云.硫化物合成及其在染敏太阳能电池中的应用[D].大连海事大学,2013.
[10]陈艳.高速公路上市公司财务风险评价与对策研究[D].长安大学,会计学,2014,硕士.
[11]殷超云.利用亚波长周期结构提升太赫兹波成像质量的实验研究[D].华中科技大学,光学工程,2013,硕士.
[12]商景怡.黑龙江省民办教育经费问题研究[D].黑龙江大学,教育经济与管理,2013,硕士.
[13]庞雄奇,付广,方祖康.地震资料用于盖层封闭油气的综合定量评价方法[J].石油地球物理勘探,1994,02:179-188+260.
[14]张湾.一场以名求实的探讨:对《南方周末》“在这里,读懂中国”的思考[D].安徽大学,新闻学,2013,硕士.
[15]王俊杰.基于中国国情的KMV模型修正与应用研究[D].山东大学,工程管理(专业学位),2013,硕士.
[16]冯亚利.对外汉语教学中常用动宾式惯用语研究[D].吉林大学,汉语国际教育,2013,硕士.
[17]郁琴芳.从研究报告到政策形成的教育政策制定模式之研究[D].华东师范大学,教育经济与管理,2004,硕士.
[18]鲁战光,孔倩茜,杨涛.一步电合成聚黄尿酸-电化学还原氧化石墨烯复合纳米材料用于高灵敏检测氯霉素[J].青岛科技大学学报(自然科学版),2014,04:331-335.
[19]梁丽娟.高幸福感女性教师婚姻历程的心理研究[D].河北师范大学,应用心理学,2012,硕士.
[20]周丽.基于模糊灰色关联分析的信息安全风险评估模型研究[D].西南大学,计算机软件与理论,2013,硕士.
[21]王丽娜.新课标下初中语文阅读有效教学的研究[D].内蒙古师范大学,学科教学(专业学位),2012,硕士.
[22]傅馨.我国湿地保护法制主要问题研究[D].中国海洋大学,环境与资源保护法学,2014,硕士.
[23]孟宪学.中国农业科技数据库系统建设研究[D].中国农业科学院,2002.
[24]庄兵,曾子维,李国瑞.信息挖掘技术在信息搜索中的应用[J].微型机与应用,2003,09:27-28.
[25]黄爱佳.团体男装定制中特体测量与号型归类研究[D].武汉纺织大学,艺术设计,2014,硕士.
[26]隋信策.可逆加成—断裂链转移(RAFT)法制备功能性聚合物[D].北京化工大学,高分子化学与物理,2011,博士.
[27]王燕华,罗劲,任荣,孙维林,沈之荃.磁性高分子金属络合物[J].高分子材料科学与工程,2014,02:139-144.
[28]刘亚莹.民事审前调解的实证分析[D].黑龙江大学,法律,2012,硕士.
[29]范子果.多核平台下CPU优先级调度算法的研究与模拟[D].华东师范大学,计算机应用技术,2013,硕士.
[30]陈重军,张蕊,吴伟祥.不同流态水培系统净化温室甲鱼养殖废水[J].生态学杂志,2014,06:1553-1558.
[31]朱娜.论兰福德·威尔逊社区戏剧中的现实主义与非现实主义特征[D].南京师范大学,英语语言文学,2012,硕士.
[32]王晓伟.裁剪和掺杂石墨烯纳米带电子输运性能研究[D].湖南大学,2014.
[33]王美玲.电化学法快速检测食品违禁色素添加剂的研究[D].常州大学,2013.
[34]焦景民,付开忠,佘广夫,张芮,孙黎鸿,蔡少华,王登刚,雷洪刚,宋敏,李国涛.攀钢1450mm热连轧机自动宽度控制(AWC)技术[J].冶金自动化,2006,03:29-33.
[35]李效栋.雨水利用技术实验研究与示范推广[J].中国水利.2004(17)
[36]顾媛媛.股东大会决议不成立若干法律问题研究[D].吉林大学,法律,2013,硕士.
[37]龚恒.碳素钢热处理温度非接触式测量系统研究[D].西南大学,农业机械化工程,2014,硕士.
[38]朱岩岩.《星际穿越》中无法穿越的情感和责任[J].电影文学,2015,02:95-97.
[39]杨霞.基于copula与co-copula的模糊蕴涵[D].山东大学,系统理论,2013,硕士.
[40]张彩祥.基于BLE的电子货架标签系统的研究与设计[D].广东工业大学,计算机应用技术,2014,硕士.
[41]胡映东.轨道交通枢纽过渡空间分析——以日本多个交通枢纽为例[J].建筑学报,2014,06:109-113.
[42]苏林佳.营改增对交通运输企业财务影响的研究[D].河北大学,会计学,2014,硕士.
[43]周彬.太岳山油松林人工林水文特征研究[D].北京林业大学,生态学,2013,硕士.
[44]黄淑慧.高中语文教材中的女性形象对学生人格的影响[D].辽宁师范大学,学科教学语文(专业学位),2012,硕士.
[45]于静.服务贸易总协定下我国公立医院面临的形势及对策[D].吉林大学,行政管理,2004,硕士.
[46]李聪.中国银行反垄断规制的管辖冲突及解决[D].天津大学,经济法学,2013,硕士.
[47]尹念.高校财务风险预警体系的构建研究[D].湘潭大学,工商管理,2011,硕士.
[48]许文丹.视频信号压缩及图像稳定性算法的研究[D].西安电子科技大学,电路与系统,2014,博士.
[49]郑泽伟,霍伟.平流层飞艇轨迹跟踪控制设计[J].控制与决策,2011,10:1479-1484+1492.
[50]郑月雯.小空间家具设计研究[D].齐鲁工业大学,工业设计工程,2014,硕士.

相关推荐
更多