分类数据中高维列联表可压缩性研究

分类数据中高维列联表可压缩性研究

作者:师大云端图书馆 时间:2020-01-29 分类:硕士论文 喜欢:4130
师大云端图书馆

【摘要】分类数据的统计分析方法是分析名义数据和有序数据的重要工具,在分类数据分析中,用列联表对数据进行分析是一种常用、直观的方法,例如,医学研究者按年龄和性别对病例进行分类建立列联表:教育工作研究人员按年龄、性别和家庭背景对学生进行分类建立列联表;经济研究者按照行业、地区、初始投资对企业成败进行分类建立列联表:市场研究者按年龄、性别和对商品的消费倾向进行分类建立列联表等。传统的分类数据分析方法主要是对列联表进行独立性检验,随着对数线性模型的提出以及广泛应用,使得分类数据分析方法经常用于分析高维列联表,但是国内外文献中缺少对高维列联表的详细分析方法。由于高维列联表数据资料的复杂性,在分析高维列联表的时候为了更好地分析数据中变量的相关性,需要通过一些方式对列联表进行降维,也即对列联表中变量进行压缩,但不合理的压缩会导致辛普森悖论、虚假相关、虚假独立三种现象的产生,这就增大了分析列联表的难度,所以研究列联表可压缩性的方法非常重要,国内外学者对三维列联表已经有些研究,但仍缺少对高维列联表的可压缩性方面的研究。本文通过基于交互作用与互信息、信息熵三种角度对列联表的可压缩性进行分析研究,深入探讨高维列联表可压缩的条件和实现途径,研究发现:1、对于三维列联表只要满足变量之间存在条件独立列联表就可压缩,但对于四维列联表,尽管变量之间存在条件独立并不能保证列联表可压缩;2、基于交互作用的对数线性模型与基于互信息的线性信息模型之间存在等价条件,两种模型分析的结果可以互相利用;3、给出了线性信息模型设定条件变量与不设定条件变量的模型选择方法,发现所拟合的线性信息模型比对数线性模型更加简洁,在交互作用下的模型显示不可压缩,但在互信息下的模型显示可以压缩;4、给出了基于互信息和信息熵列联表变量可压缩的方法,发现基于互信息的可压缩性方法是在考虑了变量相关性的角度对列联表进行的压缩,在压缩过程中允许损失部分不显著的相关信息;基于信息熵的可压缩性方法是在考虑变量含有不确定信息的多少而对列联表进行的压缩,在压缩的过程中不允许损失变量的任何信息;5、给出了两种分别基于互信息和信息熵对列联表变量重要性的排序方法,发现从列联表可压缩性的角度,基于互信息的变量重要性排序方法更加准确。而从变量含有的不确定信息多少的角度,基于信息熵的变量重要性排序方法更加准确。研究的成果对分类数据分析方法的研究深入发展做出新的贡献,对高维列联表的可压缩性方法提供了一些重要可实现的途径。
【作者】孙红艳;
【导师】钱争鸣;
【作者基本信息】厦门大学,统计学,2014,硕士
【关键词】列联表压缩;辛普森悖论;交互作用;互信息;信息熵;

【参考文献】
[1]沈思依.詹姆斯情节剧的电影改编[D].复旦大学,英语语言文学,2012,硕士.
[2]闫营.巴比妥酸及其衍生物超分子组装与性能研究[D].宁波大学,物理化学,2013,硕士.
[3]黄展杰.家用电梯的安全设计问题研究[J].电子制作,2015,03:205.
[4]齐佩.从关系过程看美国大报中的中国经济形象[D].河北师范大学,英语语言文学,2012,硕士.
[5]刘芹,史忠科.混合粒子群算法求解交通路网中的车辆调度问题[J].控制与决策,2006,11:1284-1288.
[6]黄爱萍.初中校本校规中的反教育性现象研究[D].西南大学,教育学原理,2014,硕士.
[7]张泽欣.上市公司年报财务重述的短期市场反应研究[D].河北经贸大学,会计学,2012,硕士.
[8]刘文存.新疆植棉业碳排放负外部效应测定研究[D].塔里木大学,农村与区域发展,2013,硕士.
[9]吴青.2012年亚特兰大急性胰腺炎严重程度分类临床用初探[D].广西医科大学,消化内科(专业学位),2013,硕士.
[10]赵淼.晋南地区寺观水陆壁画考察报告[D].渤海大学,美术学,2014,硕士.
[11]卜一珊.医院药品的现代物流管理研究[D].天津大学,工商管理,2004,硕士.
[12]池勤伟.企业社会责任信息披露的经济后果研究[D].云南财经大学,会计学,2014,硕士.
[13]张宇锋.基于虚拟仪器的交流电阻点焊工艺参数实时监测系统的研究[D].长春工业大学,材料加工工程,2013,硕士.
[14]李燕.河北省产业结构与经济增长的关系的实证研究[D].山西财经大学,国民经济学,2013,硕士.
[15]石洁.河北省动漫企业发展战略模式及选择研究[D].石家庄经济学院,企业管理,2011,硕士.
[16]罗克龙.大规模模拟电路软故障诊断方法研究[D].湖南大学,电气工程,2012,硕士.
[17]张鹏,王儒涛,刘永环,阎兴斌.三维石墨烯/非晶碳作为锂氧电池正极材料的性能研究[A].中国化学会.中国化学会第29届学术年会摘要集——第24分会:化学电源[C].中国化学会:,2014:2.
[18]赵义龙.基于可信应用的可信计算实现方案[D].吉林大学,软件工程,2013,硕士.
[19]宋晓婧.中国皮影艺术形式在我国幼儿书籍装帧设计中的研究与应用[D].中原工学院,设计艺术,2012,硕士.
[20]李霞,张田文,饶绍奇,李丽.特征基因挖掘的决策森林方法[J].哈尔滨工业大学学报,2004,04:480-483.
[21]王党朝.SiC基石墨烯材料制备及表征技术研究[D].西安电子科技大学,2012.
[22]程荣华.我国建筑企业国际工程承包动态能力演化研究[D].北京交通大学,2015.
[23]运敏敏.版权默示许可制度研究[D].西南政法大学,知识产权法学(专业学位),2012,硕士.
[24]黄梅.基于会计政策选择的企业纳税筹划研究[D].吉林大学,会计,2012,硕士.
[25]韩智强,姜久春,孙丙香,郑林锋,郑方丹.锂离子动力电池电路模型的频率特性分析[J].电源技术,2015,02:268-272.
[26]李宜航.论被害人过错对量刑的影响[D].沈阳师范大学,法律,2014,硕士.
[27]张冲,毛志强,孙中春,张健.玛河气田盐水泥浆侵入条件下双侧向测井电阻率校正方法[J].石油地球物理勘探,2010,05:757-761+792+623.
[28]王妍.鄂尔多斯富县及邻区马家沟组层序地层与岩相古地理研究[D].西北大学,矿产普查与勘探,2014,博士.
[29]曹俊青.六味地黄丸与中药熏洗联合治疗促进腰椎间盘突出症术后恢复的临床观察[D].湖北中医药大学,中医骨伤科学(专业学位),2013,硕士.
[30]李玲.鲁尔区工业废弃地再利用规划研究[D].中国矿业大学,城市规划与设计,2014,硕士.
[31]夏敦.不当督导对员工创新行为的影响研究[D].湖南大学,工商管理,2013,硕士.
[32]周久人.商标淡化问题研究[D].大连理工大学,民商法学,2013,硕士.
[33]刘昌平,范明钰,王光卫,马素丽.基于梯度算法的支持向量机参数优化方法[J].控制与决策,2008,11:1291-1295+1300.
[34]李陶.网络游戏外挂的著作权侵权责任研究[D].南京理工大学,民商法学,2013,硕士.
[35]郭振苗.农村生活污水土壤渗滤过程中氮素运移试验研究[D].清华大学,环境工程(专业学位),2012,硕士.
[36]李文迪.生育障碍夫妻性—生殖健康现状及对策研究[D].华中师范大学,动物学,2013,硕士.
[37]谢进栋.基于知识供应链的高校知识转移研究[D].南京理工大学,管理科学与工程,2012,硕士.
[38]董琳.企业技工学校“双师型”教师队伍建设的现状及策略研究[D].内蒙古师范大学,教育管理(专业学位),2012,硕士.
[39]范林强.汽车甩挂运输组织模式选择问题研究[D].西南交通大学,交通工程,2013,硕士.
[40]沈洁.基于可及性理论的英语母语者的汉语隐现句习得研究[D].南京大学,汉语国际教育(专业学位),2013,硕士.
[41]齐雯.大型风电场等值建模及其并网稳定性研究[D].北京交通大学,电气工程(专业学位),2013,硕士.
[42]赵春梅.华兹华斯诗歌中的有机自然观思想[D].对外经济贸易大学,英语,2004,硕士.
[43]张琼华.数字图书馆的服务质量[J].图书情报工作,2003,05:105-107+94.
[44]李海峰.英汉化妆品广告语篇人际意义实现的对比分析[D].广东外语外贸大学,商务英语研究,2013,硕士.
[45]张宁,贾自艳,史忠植.使用KNN算法的文本分类[J].计算机工程,2005,08:171-172+185.
[46]赵春雷.基于B/S模式的挖泥船远程监控系统[D].江苏科技大学,控制理论与控制工程,2014,硕士.
[47]黄慧鲜.马尔库塞人的发展思想研究[D].华中师范大学,马克思主义基本原理,2013,硕士.
[48]范裕,周涛发,袁峰,张乐骏,钱兵,马良,谢杰,杨西飞.宁芜盆地玢岩型铁矿床的成矿时代:金云母~(40)Ar-~(39)Ar同位素年代学研究[J].地质学报,2011,05:810-820.
[49]杨思嘉.宁波市新生儿乙型肝炎疫苗卫生经济学评价[D].宁波大学,流行病与卫生统计,2013,硕士.
[50]蒋缨,强海涛.数据挖掘在商业银行中的应用趋势分析[J].甘肃社会科学,2003,05:78-80.

相关推荐
更多