邻近隐私保护与集成k-匿名算法的研究

邻近隐私保护与集成k-匿名算法的研究

作者:师大云端图书馆 时间:2015-11-24 分类:期刊论文 喜欢:3307
师大云端图书馆

【摘要】数据挖掘和数据发布是当前数据库应用的两个重要领域。一方面,数据挖掘和知识发现在各类数据应用范围中都起到非常重要的作用。数据挖掘的目的是从大量的无规律的数据中抽取出潜在的、有价值的知识、模型、规则等;另一方面,数据发布是把数据库中的数据通过相应的方式提供给用户,但在各种数据应用中,如果在数据发布过程中没有相应的方法对隐私数据进行保护,那么很有可能导致敏感信息的泄漏,因此会给数据所有者带来负面影响。例如在医院的病历数据中使用数据挖掘的相关算法进行挖掘,以进行相关疾病问题的研究。由于医院的病历数据包含了患者疾病的隐私信息,所以如何在数据的发布过程中,使用并且能够保护个人隐私成为了一个越来越严峻的问题。数据匿名化是实现隐私保护的一个有效手段,其基本思想是通过改变(概化、压缩等)原始数据中的部分数据,使改变后的数据无法和其他信息相结合而推理出关于任何个人的隐私信息。如何对针对含有隐私信息的数据进行相应的匿名化工作,现如今已经得到了越来越多的研究人员的兴趣。通常的说,实现隐私数据的保护主要是考虑以下两个问题:(1)保证数据使用的过程中不泄露用户隐私信息;(2)保证数据的实用性更好。因此,如何在保护隐私的同时获得更好的数据可用性,这是学术界和工业界都需要面对和要解决一个问题。因此,本文的主要工作重点集中在保证足够的隐私力度的前提下,如何提高数据的可用性。从匿名算法和匿名技术二个方面着手提高数据的可用性,本文研究成果主要有:(1)K-匿名模型是隐私保护中最重要的模型之一。其中概化技术是非常普遍使用的一种匿名技术。通常,基于概化的K-匿名算法共同遵守一个方法,来完成一张表的匿名化处理:把表划分成很多的分组(Ql-groups),且这些Ql-groups的大小至少是K。然而,我们发现当使用已存在的方法去匿名化和概化QI-groups时,在同一个QI-group中语义相近的一些敏感属性值的隐私会被泄露。为了解决这个问题,引入概念m-color约束,并在该概念的基础上提出相应的理论方法来防止类别属性邻近隐私的泄露,并给出了相应的概化算法。并用实验说明算法的效率和实用性,能大大的降低信息损失。(2)已有的隐私保护数据发布可被分为两类:理论类型和启发式类型。前者可从理论化的角度讨论数据发布过程中如何保证低信息损失。而后者在多数的情况下其在真实数据集上运行的效果良好,但在某些特殊的数据集上运行的效果并不理想可能会导致很大的信息损失。目前,人们已设计出大量的启发式算法满足一些隐私保护规则,如l-diversity,t-closeness等等。但是,理论类型的研究仅仅局限于k-匿名和l-diversity。基于上述问题,我们首次提出了(ε,m)-anonymity理论化问题的研究。首先,证明了(ε,m)-anonymity’*’最小化问题是一个NP-难问题,最后给出了问题的相应的算法。(3)在探讨了已有的匿名技术基础之上,提出了集成(EnsembleAlgorithmforPrivacyPreservation)隐私保护算法,它的特点是综合了概化(Generalization)和机器学习中的集成学习(EnsembleLearning)两种技术的特点,通过对几个k-匿名算法进行集成,最后输出由这几个算法集成而成的满足k-匿名的表,优化了数据的可用性,降低了信息损失。通过对集成隐私保护技术的分析表明,它是k-匿名技术的一种推广,能够提供比k-匿名更加好的隐私保护力度,更好地降低信息损失,应用范围也更加的广泛。
【作者】李宇佳;
【导师】汪卫;
【作者基本信息】复旦大学,计算机软件与理论,2013,博士
【关键词】隐私保护;k-匿名;m-color;NP-难;集成学习;

【参考文献】
[1]赵飞.热胁迫经历对麦长管蚜(Sitobion avenae)生活史性状的影响[D].中国农业科学院,作物生态学,2014,博士.
[2]孙藜玮.EGCG对小鼠H_(22)肿瘤生长及VEGF、PCNA表达的影响[D].青岛大学,营养与食品卫生学,2013,硕士.
[3]杨昆朋.基于深度信念网络的入侵检测模型[J].现代计算机(专业版),2015,02:10-14.
[4]李燕平.社会化媒体在英格索兰公司营销策略中的运用[D].上海外国语大学,工商管理,2013,硕士.
[5]黄如浩.矿业权评估中折现率确定问题的研究[D].石家庄经济学院,工商管理硕士,2014,硕士.
[6]尉询楷,李应红,张朴,路建明.基于支持向量机的时间序列预测模型分析与应用[J].系统工程与电子技术,2005,03:529-532.
[7]王欣.网络交际语言中的非汉字符号词研究[D].山东大学,语言学与应用语言学,2012,硕士.
[8]刘庆峰.基于源端的ATM网络ABR业务流量控制[D].燕山大学,电路与系统,2004,硕士.
[9]阳卉.复句中关联词语的教学[D].贵州师范大学,学科教学(专业学位),2014,硕士.
[10]李晓章,谢旭,张鹤.桥梁拉索用CFRP线材阻尼特性试验研究和理论分析[J].工程力学,2015,01:176-183.
[11]李勇.信息隐藏与数字指纹技术的研究[D].西安电子科技大学,通信与信息系统,2003,硕士.
[12]郭雪娇.医用臭氧治疗膝骨性关节炎的机制及临床研究进展[D].山东大学,麻醉学(专业学位),2013,硕士.
[13]刘祝君.《伟大的美国大学》(第十四章节选)翻译报告[D].四川外国语大学,翻译(专业学位),2013,硕士.
[14]傅新姝.城市群对夏季降水影响的观测分析和数值模拟研究[D].南京大学,气象学,2013,硕士.
[15]李英.日本高等教育大众化研究[D].河北大学,比较教育学,2003,硕士.
[16]葛宇洲.基于GPS交通信息的数据质量评估系统研究[D].西安工业大学,计算机系统结构,2014,硕士.
[17]郭树理,阎绍泽,黄琳.一类积分加权时滞型非线性微分包含的稳定性[J].控制与决策,2004,04:429-432.
[18]袁海丽.并行测试技术在CBTC系统中的应用研究[D].北京交通大学,2014.
[19]柏军洋.Android系统中Rootkit检测算法的研究[D].沈阳师范大学,计算机应用技术,2013,硕士.
[20]王晓艳.中国电视剧化妆造型审美特征分析[D].上海戏剧学院,戏剧戏曲学,2013,硕士.
[21]李克胜.试析人权视野中的我国社会保障制度[D].中共中央党校,科学社会主义,2004,硕士.
[22]王越.抗战时期延安文化思想运动初探[D].吉林大学,中共党史,2013,硕士.
[23]蒋鹏.第三方物流企业物流能力对顾客满意的影响研究[D].山东大学,企业管理,2013,硕士.
[24]梁文杏.体育竞赛产业的生产要素分析[D].北京体育大学,体育人文社会学,2013,硕士.
[25]向凤红.选矿厂生产物流递阶智能控制系统结构与复合模型研究[D].昆明理工大学,2002.
[26]商富咸.无碴轨道信号轨道电路传输问题的探讨[J].中国铁路.2005(05)
[27]于丽娟.中国企业技术创新支撑环境研究[D].东北大学,科学技术哲学,2010,硕士.
[28]耿兴元.基于GPS与GIS的导航系统研究与开发[D].浙江大学,控制理论与控制工程,2004,硕士.
[29]张晓燕.金融服务对工农业协调发展影响的比较研究[D].重庆大学,金融学,2014,硕士.
[30]李晓娟.GD公司薪酬体系研究[D].内蒙古大学,工商管理,2013,硕士.
[31]马国財.带钢在拉弯矫直过程中的行为分析[D].太原科技大学,机械设计及理论,2014,硕士.
[32]王亚庭.基于ARM与FPGA的高速数据采集技术研究[D].北京交通大学,2008.
[33]蒋慎言,马竹梧.鞍钢三炼钢ANS-OB钢水处理装置三电自动化系统[J].冶金自动化,2002,05:56-58.
[34]李永.MIC-1、PCNA在人脑星形细胞性肿瘤中的表达及意义[D].山西医科大学,外科学(专业学位),2013,硕士.
[35]顾卫兵.基于电子式电能表的全失压记录模块的实现[J].冶金自动化,2003,S1:315-317.
[36]戴怡乐.石墨烯和碳纳米管薄膜的FED阴极制备及其场发射性能研究[D].兰州理工大学,凝聚态物理,2014,硕士.
[37]孙仲.人口老龄化背景下我国城市社区居家养老模式研究[D].北京交通大学,2011.
[38]王远航,邓超,胡湘洪,高军,黄创绵.基于多故障模式的复杂机械设备预防性维修决策[J].计算机集成制造系统.
[39]张俊峰,李鹏,郭琦.PSS2A模型的负阻尼案例分析及检测方法[J].电力系统自动化,2014,02:127-130.
[40]白冰.药物及环境污染物的光谱及色谱行为研究[D].山西师范大学,药物分析学,2014,硕士.
[41]游静.以需求为导向的中轻度智障人士职业能力培训[D].西北大学,社会工作(专业学位),2014,硕士.
[42]张茜.青岛市热力景观变化研究[D].中国石油大学(华东),地图制图学与地理信息工程,2012,硕士.
[43]刘玉霜,张纪会,王丽丽.两种需求模式下报童模型的最优定价-订购联合决策[J].控制与决策,2013,09:1419-1422.
[44]王亓刚.淮南矿业集团发展战略分析[D].安徽大学,工商管理,2014,硕士.
[45]罗皓.从弗雷格、罗素到斯特劳森[D].湖南师范大学,外国哲学,2014,硕士.
[46]亚白杨.北京社稷坛建筑研究[D].天津大学,2005.
[47]乔辉.从日本地下空间的发展来看西安城市地下空间的利用[D].西安建筑科技大学,建筑设计及其理论,2013,硕士.
[48]李世宏.基于模糊控制和粒子群优化的智能末制导律研究[D].哈尔滨工业大学,控制科学与工程,2014,硕士.
[49]郭乃奎.精益生产在Y公司敷料生产车间中的应用研究[D].苏州大学,工商管理(专业学位),2013,硕士.
[50]刘洪泉.基于CBR技术的古籍修复中的隐性知识挖掘研究[D].沈阳师范大学,企业管理,2014,硕士.

相关推荐
更多