心血管病流行病调查中缺失数据填补方法的比较及模拟研究

心血管病流行病调查中缺失数据填补方法的比较及模拟研究

作者:师大云端图书馆 时间:2015-07-02 分类:开题报告 喜欢:4198
师大云端图书馆

【摘要】目的心血管疾病是世界范围内严重危害人类健康的疾病,近年来研究显示,其发病率和死亡率在发展中国家日益增高,针对这一类慢性疾病,很多大规模的流行病学调查研究开展起来,为心血管病的预防提供了新线索和大样本数据的证据。然而,由于人的社会属性和心理特点,常常导致一些科研资料存在不完整数据的情况,即存在缺失数据。对于缺失比例在一定范围内的数据,过去的做法多是直接删除,这种直接的做法虽然简单易行,但却会减少观测的样本量,从而影响分析结果的检验效能。近些年,插补类方法正得到越来越多专家和学者的认可,相应的新方法发展迅速。本研究利用单一插补和多重插补等方法处理缺失数据,重点对多重插补类方法之间的差别进行比较,期望寻找到适用于常规慢性流行病学调查研究中缺失数据的填补策略与方法。方法以心血管病领域的一个大样本、多变量数据集为基础,采用蒙特卡洛技术,按照完全随机缺失机制模拟该数据集在5%、10%、20%、30%四种缺失比例下,单个不同类型变量(包括连续变量、二值变量、有序变量和名义变量)的缺失情形,以及单调缺失模式两个变量缺失,或任意缺失模式两个变量缺失情形。每种缺失情形模拟500次。每次模拟中,分别采用单一插补、联合模型(jointmodeling,JM)多重插补策略、全条件定义(fullyconditionalspecification,FCS)多重插补策略对缺失后的数据集进行处理。然后,收集各次模拟时不同方法的处理效果评价指标取值,并对这些取值进行汇总分析,比较这些方法的处理效果。结果对于单变量缺失而言,联合模型(jointmodeling,JM)多重插补策略对缺失的单个连续变量插补时,可获得最为接近完整数据集的整体均数;联合模型(jointmodeling,JM)多重插补策略对缺失的单个名义变量插补时,可获得对缺失个体值最高的插补正确率。但全条件定义(fullyconditionalspecification,FCS)多重插补策略,则在对单个连续变量个体缺失值的插补方面精确度更高,插补后模型的参数偏差也更小;且全条件定义(fullyconditionalspecification,FCS)多重插补策略对单个二值变量个体缺失值的插补方面精确度方面也更高。对单个缺失的分类变量而言,判别分析法插补正确率高于logistic回归插补法。就多重插补次数而言,单个缺失的连续变量,插补15次效果最好,但10次以上效果提升幅度有限:单个缺失的二值变量、名义变量,插补5次效果最好。对于单调缺失模式多变量缺失,联合模型(jointmodeling,JM)多重插补策略对个体缺失值的插补方面精确度高于全条件定义(fullyconditionalspecification,FCS)多重插补策略。在连续变量与二值变量、连续变量与有序变量、连续变量与名义变量单调缺失的插补中,全条件定义(fullyconditionalspecification,FCS)多重插补策略对连续变量在个体缺失值的插补精确性方面高于联合模型(jointmodeling,JM)多重插补策略,但联合模型(jointmodeling,JM)多重插补策略对分类变量的插补正确率高于全条件定义(fullyconditionalspecification,FCS)多重插补策略。对于任意缺失模式多变量缺失,在连续变量与名义变量缺失的插补中,预测均数匹配法(regpmm)与判别函数法(discrim)联用,对连续变量在个体值的插补精确度上更好,对名义变量的插补准确率也较高。四种缺失比例情形综合考量,FCS(regpmm+discrim)插补5次处理效果整体最好。结论本研究以心血管病研究领域的一个大样本完整数据集为基础,采用模拟缺失的方法,构造了不同类型变量缺失情况。对于单个变量缺失,联合模型(jointmodeling,JM)多重插补策略适用于名义变量,而全条件定义(fullyconditionalspecification,FCS)多重插补策略适用于二值变量和连续型变量;对于单调缺失模式多个连续变量缺失,联合模型(jointmodeling,JM)多重插补策略精度更高,对于既有连续变量又有离散变量缺失,联合模型(jointmodeling,JM)多重插补适用于其中连续变量,全条件定义(fullyconditionalspecification,FCS)多重插补策略适用于其中离散变量;对于任意缺失模式多变量缺失,全条件定义(fullyconditionalspecification,FCS)多重插补策略精度较高。
【作者】解东方;
【导师】李卫;
【作者基本信息】北京协和医学院,流行病与卫生统计学,2014,博士
【关键词】缺失数据;缺失机制;缺失模式;心血管疾病;急性心肌梗死;随机模拟;

【参考文献】
[1]马佳宁.科技馆网站系统的设计与实现[D].厦门大学,软件工程,2014,硕士.
[2]胡蓉,周建中.基于数据挖掘的知识发现在水电站优化调度中的应用研究[J].计算机与现代化,2003,02:5-6+9.
[3]冯治棋.LaMO_3(M=Fe、Ni)纳米晶薄膜的制备及其在碱性水溶液中的电化学性能研究[D].兰州理工大学,材料物理与化学,2013,硕士.
[4]高静.大肠癌核基质蛋白变化的初步研究[D].重庆医科大学,病理学与病理生理学,2004,硕士.
[5]董梁飞.李建林手风琴作品分析及特征研究[D].河北师范大学,艺术学,2012,硕士.
[6]张立民,李晗.国外非营利组织监督机制研究综述[J].南京审计学院学报,2012,03:9-17.
[7]张慧.浏阳移动农村市场营销策略及保障体系研究[D].湖南师范大学,MBA(专业学位),2014,硕士.
[8]范玉雪.国产长篇动画的民族性问题研究[D].信阳师范学院,文艺学,2014,硕士.
[9]杨招军,黄立宏.部分信息下极大终止时期望对数效用及价值测算[J].控制与决策,2004,07:820-823.
[10]夏宜名.操纵理论视域下《金瓶梅》两个英译本翻译策略的比较研究[D].西北师范大学,英语语言文学,2014,硕士.
[11]戴汝为,张文生.从第14届国际自动控制联合会(IFAC)世界大会看中国自动控制发展的前景[J].冶金自动化,1999,06:1-5.
[12]段虎.高压处理对牛肉组织结构、腌制进程及酱牛肉贮藏特性的影响[D].河南科技学院,农产品加工及贮藏工程,2012,硕士.
[13]李强,魏建勤.”全空穴”模型中的非冷凝气质量分数研究[J].内燃机工程.
[14]韩卫喜.体育专业学生专项身体素质与体操技术动作形成的相关性研究[D].内蒙古师范大学,运动训练(专业学位),2012,硕士.
[15]刘亭亭.财务软件在中小企业中的应用研究[D].长安大学,会计(专业学位),2014,硕士.
[16]孟石.催化裂化装置三维教学培训系统的研究与开发[D].华东理工大学,化学工程,2014,硕士.
[17]彭有新.土家族非物质文化遗产传承研究综述[J].艺术科技,2013,12:106-107.
[18]刘琪璟,张国春,徐倩倩,王义东,王辉民.长白山高山苔原季节性雪斑土壤呼吸对温度响应的模拟研究[J].植物生态学报,2010,05:477-487.
[19]马超.投资者情绪对证券市场的影响研究[D].首都经济贸易大学,统计学,2014,硕士.
[20]纪效波,邓文韬.石墨烯超级电容器:含氧功能团对其性能的影响[A].中国化学会.中国化学会第28届学术年会第10分会场摘要集[C].中国化学会:,2012:1.
[21]杨馨蓉.钒钛掺杂碳纳米管改性LiFePO_4正极材料的制备与研究[D].哈尔滨工业大学,无机化学,2013,硕士.
[22]周国兵.重庆市主城区气象条件对空气污染影响分析及数值模拟研究[D].兰州大学,2014.
[23]王敏.基于Hirota方法的变系数非线性发展方程孤子解的研究[D].北方工业大学,应用数学,2013,硕士.
[24]杨茹.基于ARM的远程抄表系统研究与设计[D].中国地质大学(北京),控制理论与控制工程,2013,硕士.
[25]韩英义.哈尔滨上坞无人值班变电所电气系统研究与设计[D].东北农业大学,农业电气化与自动化,2003,硕士.
[26]曹长修,程小平.利用频域拟合冗余原理直接求取连续系统离散降阶模型[J].控制与决策,1994,06:408-414.
[27]王林强.面向信息物理系统的自适应实时可靠无线MAC协议[D].大连理工大学,计算机应用技术,2013,硕士.
[28]闫晨霞.《赎罪》中的立体主义叙述[D].河北师范大学,英语语言文学,2012,硕士.
[29]王珍.代理盲签名及其在电子商务中的应用研究[D].山东师范大学,计算机应用技术,2013,硕士.
[30]李学峤.中国稀土上市公司投资效率评价研究[D].内蒙古科技大学,企业管理,2013,硕士.
[31]谢亮.100MHz高精度频率合成器的设计与实现[D].中国科学院研究生院(国家授时中心),电子与通信工程,2013,硕士.
[32]于尚云.天然溶解性有机物对被动采样技术的影响与应用研究[D].北京交通大学,2015.
[33]王静.基于半定规划的WSAN分布式定位技术研究[D].西南交通大学,通信与信息系统,2013,硕士.
[34]陈敏.我国商品房预售登记制度研究[D].华中师范大学,法律,2013,硕士.
[35]范娜.基于IPTV的虚拟群组推荐研究[D].华东师范大学,计算机应用技术,2013,硕士.
[36]杨铁梅.基于混合智能的齿轮传动系统集成故障诊断方法研究[D].太原理工大学,2009.
[37]刘会贞.县域特色优势产业人才瓶颈问题研究[D].辽宁工程技术大学,产业经济学,2012,硕士.
[38]张坤林.手机用户选择移动IM影响因素的实证研究[D].北京邮电大学,企业管理,2012,硕士.
[39]杨兵.面向陶瓷模具制造订单与生产计划控制系统设计与开发[D].合肥工业大学,工业工程,2013,硕士.
[40]刘艳芳.煤工尘肺中医证候初步研究[D].北京中医药大学,中医内科学,2013,硕士.
[41]王星.18世纪孟加拉柴明达尔阶层探析[D].河北大学,世界史,2014,硕士.
[42]杜国丽.1953年梁漱溟与毛泽东的历史公案研究[D].天津大学,中共党史,2013,硕士.
[43]吴照.中国式财政分权对经济增长和收入差距的影响研究[D].中国科学技术大学,行政管理,2014,硕士.
[44]钟旭.ART2神经网络与化学模式聚类分析的研究[D].浙江大学,化工计算机仿真与系统工程,2004,硕士.
[45]张向红.低熔高强陶瓷结合剂超硬磨具的研究[D].燕山大学,材料学,2004,硕士.
[46]裴鹏义.日本法院附设调停制度研究[D].山东大学,法律(专业学位),2013,硕士.
[47]国兆果.明代保定府农业地理研究[D].安徽大学,历史地理学,2014,硕士.
[48]苏艳.企业业绩评价与EVA[D].对外经济贸易大学,会计,2004,硕士.
[49]裴广辉.诱导热休克蛋白减轻大鼠胰腺移植后缺血性再灌注损伤的实验研究[D].中国医科大学,外科学,2004,硕士.
[50]董庆伟.光伏系统的改进MPPT算法和三电平并网逆变器研究[D].华东交通大学,电力系统及其自动化,2013,硕士.

相关推荐
更多