信息网络中的相似度搜索问题研究

信息网络中的相似度搜索问题研究

作者:师大云端图书馆 时间:2015-12-01 分类:期刊论文 喜欢:3791
师大云端图书馆

【摘要】现实生活中存在各种类型的实体,实体之间的相互联系共同构成了大规模的、互联的、复杂的交互网络,这些网络被统称为信息网络。信息网络实体之间的链接关系蕴涵着丰富的语义信息,分析这些信息有助于发现更多有价值的潜在知识。随着信息网络逐渐呈现大规模化和复杂化,设计开发一种有效的软件程序去探索网络潜在数据结构显得更加必要。信息网络方面的研究工作涉及到很多领域,如聚类、社区挖掘、离群点检测、相似度搜索等。相似度搜索作为信息网络研究中的一个重要方向,在近年已经受到了广泛关注。对于给定的查询实体,相似度搜索的主要任务是研究如何从信息网络中找到top-k个最相似的实体。相似度搜索问题研究对于很多实际应用具有现实意义,如推荐系统、链接关系预测、近似查询等。传统相似度搜索方法依据网络全局信息计算实体相似度,需要很高的时间开销和存储开销,不适用于大规模信息网络,SimRank、PSimRank、P-Rank等。具有X-Star模式的信息网络(简称X-Star网络)是一种重要类型的信息网络,在现实生活中越来越普遍。X-Star网络包括中心实体和属性实体,实体之间的链接关系包括中心实体之间的链接关系、中心实体与属性实体之间的链接关系。本文围绕X-Star网络中的相似度搜索问题展开研究。X-Star网络中的相似度搜索问题研究的主要任务是根据指定的查询(中心实体)找到top-k个最相似的中心实体。在X-Star网络中,相似的中心实体通常指向相似的属性实体或被相似的属性实体指向。基于这种直观意义,本文提出一种X-Star网络中的相似度搜索方案,针对相似度计算的效率和存储、在线查询处理的执行效率、相似度计算的精确度等几个方面存在的问题展开研究。本文主要研究工作概括如下:1.针对相似度计算的效率和存储问题,提出一种X-Star网络中的相似度计算模型(NetSim),解决了现有相似度计算模型中存在的计算效率低、存储开销大等问题。首先依据网络全局结构信息构建属性实体之间的链接关系,提出了属性网络构建算法。在属性网络基础上,通过借鉴SimRank基本思想计算属性实体相似度。结合属性实体相似度,提出了NetSim相似度计算模型,NetSim依据属性实体相似度计算中心实体相似度。在计算中心实体相似度时不需要物化所有网络实体之间的相似度,显著降低了相似度计算的时间开销和存储开销。在DBLP和Amazon两个数据集上做了大量的实验。实验结果显示,NetSim计算模型的时间开销和存储开销显著低于现有方法,并且具有很好的计算效果。2.针对在线查询处理的执行效率问题,提出一种X-Star网络中的top-k相似度搜索方法,显著降低在线查询处理的执行时间。首先提出了基于NetSim的在线查询处理基本算法(NetSim-baseline),分析了NetSim-baseline算法的时间复杂度,指出影响NetSim-baseline算法时间开销的主要因素。结合分析,提出了剪枝索引(Pruning-index),给出了剪枝索引构建算法。基于剪枝索引提出中心实体相似度近似计算公式,并提出一种基于NetSim的在线查询处理剪枝算法(NetSim-pruning)。对NetSim-pruning算法的相关性质进行了大量理论分析和证明,指出了NetSim-pruning精确度损失的理论上界。NetSim-pruning在保证精确度的前提下,显著降低了在线查询处理的时间开销。在DBLP和Amazo擞据集上的实验结果显示,NetSim-pruning算法的时间开销低,并且具有很好的查询效果。3.针对相似度计算的精确度问题,提出了一种信息网络中的相似度计算模型(E-Rank)。E-Rank计算模型的直观意义是:如果从两个实体出发能够到达共同的实体,那么这两个实体是相似的。E-Rank考虑了实体之间任意距离的相遇情况,同时强调了链接关系重要性,克服了现有方法存在的结构信息利用不充分和链接关系重要性考虑不足等问题。在Enron邮件网络和高能物理理论引文网络两个数据集上做了大量实验。实验结果显示,与现有相似度计算方法相比,E-Rank具有较高的精确度。结合E-Rank与NetSim,提出了一种新的中心实体相似度计算模型(ENetSim)。ENetSim在离线处理阶段采用E-Rank计算属性实体相似度,依据属性实体相似度计算中心实体相似度。在Amazon数据集上的实验结果显示,与NetSim相比,ENetSim提高了中心实体相似度计算结果的精确度。
【作者】张明西;
【导师】汪卫;
【作者基本信息】复旦大学,计算机软件与理论,2013,博士
【关键词】相似度搜索;信息网络;X-Star模式;NetSim;E-Rank;

【参考文献】
[1]刘飞,蔡胤.基于终端不变集的Maurkov跳变系统约束预测控制[J].自动化学报,2008,04:496-499.
[2]刘嘉辉.小庄矿主立井非全深冻结法施工解冻后井筒涌水机理及防治技术[D].西安科技大学,桥梁与隧道工程,2013,硕士.
[3]孔淑兰,张召生.带马尔科夫跳和乘积噪声的随机系统的最优控制(英文)[J].自动化学报,2012,07:1113-1118.
[4]苏占东,游福成,杨炳儒.基于知识发现复杂不确定性系统预测模型研究应用[J].装备指挥技术学院学报,2005,03:95-99.
[5]邓俊.基于Android平台的维吾尔文网页浏览器的设计与实现[D].新疆大学,计算机应用技术,2013,硕士.
[6]张媛.我国私人银行业务法律制度研究[D].云南财经大学,法律(专业学位),2014,硕士.
[7]马啸.CXCR4和CXCR7在食管鳞癌中的表达及意义[D].河北医科大学,外科学(专业学位),2014,硕士.
[8]周莉.不同变种甜瓜果实香气、颜色及相关的CmCCD1基因表达的研究[D].天津大学,遗传学,2013,硕士.
[9]马鹏.基于压电复合结构的主动吸声特性与灵敏度分析研究[D].华中科技大学,机械工程,2013,硕士.
[10]郭浩平.东莞市城管执法纠纷问题研究[D].兰州大学,公共管理,2012,硕士.
[11]林苑嘉.我国个人独资企业法若干问题研究[D].中共广东省委党校,科学社会主义与国际共产主义运动,2013,硕士.
[12]张子潇.开发区污水处理厂提级工程项目的成本管理研究[D].北京工业大学,项目管理(专业学位),2013,硕士.
[13]王君.磷腈为核膨胀型阻燃剂的合成及阻燃聚丙烯的研究[D].河北大学,高分子化学与物理,2014,硕士.
[14]梁利莉.数据挖掘技术在CRM中的应用研究[D].首都经济贸易大学,2005.
[15]刘玉珍.人高级别宫颈上皮内瘤变细胞的原代培养及其生物学特性的体外研究[D].山东大学,临床医学(专业学位),2014,博士.
[16]束隆梅.二阶微分方程多点边值问题特征值的结构[D].清华大学,数学,2013,硕士.
[17]徐元锋.从属求偿原则初论[D].中国政法大学,法律,2004,硕士.
[18]闾海鑫.基于供应链的船舶制造企业成本管理研究[D].江苏科技大学,会计学,2013,硕士.
[19]张赟.甘肃省基础设施建设与经济增长的实证研究[D].西北师范大学,区域经济学,2013,硕士.
[20]班兰凤.灰飞虱抗药性监测及对吡蚜酮的抗性风险评估[D].南京农业大学,农药学,2012,硕士.
[21]卢利平.美科学家首次用碳纳米管制造出石墨烯带[J].功能材料信息,2009,03:51.
[22]侯娟娟.城乡义务教育师资分布失衡问题及对策[D].河北大学,教育学原理,2014,硕士.
[23]曹慧颖.和谐河北建设中地方政府行为研究[D].燕山大学,行政管理,2013,硕士.
[24]赵利娜.中国对非洲直接投资问题研究[D].浙江工业大学,2012.
[25]万立明.革命根据地的科学与技术(1927—1949)[D].福建师范大学,中国近现代史,2004,硕士.
[26]董海峰,张学记.基于生物功能化纳米DNA探针及其传感策略[J].化学进展,2012,11:2247-2254.
[27]夏佳.满族传统纹样与中国元素的关系[D].大连工业大学,设计艺术学,2009,硕士.
[28]刘天增.快速货运动车组开行条件及开行方案研究[D].北京交通大学,2014.
[29]冯美娜.干扰素与硫唑嘌呤联合应用治疗多发性硬化的疗效评估[D].华中科技大学,神经病学,2013,硕士.
[30]张萍.我国无居民海岛使用权流转法律制度研究[D].中国海洋大学,环境与资源保护法学,2014,硕士.
[31]陈琳.低比特率宽带语音编码的研究[D].广西大学,计算机应用技术,2004,硕士.
[32]朱静.荚膜唾液酸参与猪链球菌2型与鼠巨噬细胞相互作用的分子机制研究[D].南京医科大学,病原生物学,2013,硕士.
[33]陈艾利.农业上市公司背农现象研究[D].中南林业科技大学,农村与区域发展,2014,硕士.
[34]郑珊.基于故障分析的动力刀架可靠性试验研究[D].吉林大学,机械工程,2013,硕士.
[35]宋云华.涡旋脉冲式反应器及其应用[D].北京化工大学,化工过程机械,2007,博士.
[36]蒋兰芳,胡昌国,刘红,沈开勇,郭超,鲁聪达.基于Ansysls-dyna的复合连续弯曲弯管的数值模拟[J].模具工业,2013,12:22-25.
[37]李翔.开源社区数据挖掘关键技术研究与设计[D].国防科学技术大学,计算机科学与技术,2012,硕士.
[38]高雅.服装卖场展陈设计对服装销售的影响研究[D].湖南师范大学,设计艺术学,2013,硕士.
[39]曹姝.关于模糊正规子群的研究[D].江南大学,应用数学,2012,硕士.
[40]孔敏,邓三鸿,王亚清.电子政务技术框架[J].现代图书情报技术,2004,01:72-75.
[41]刘翔.河南生态枣业研究[D].河南农业大学,农业科技组织与服务,2012,硕士.
[42]郭乙辉.在城农民工生活满意度影响因素研究[D].浙江大学,2008.
[43]刘卫军.基于区间模型的可靠性指标求解及稳健性优化设计[D].华中科技大学,桥梁与隧道工程,2013,硕士.
[44]魏治静.免标记的电化学免疫传感器的制备[D].青岛科技大学,2012.
[45]刘婷.枳朴汤促进妇科术后胃肠功能恢复的临床研究[D].湖北中医学院,中医妇科学,2004,硕士.
[46]蒲东东.温度对编织材料防护结构超高速撞击特性的影响[D].哈尔滨工业大学,人机与环境工程,2013,硕士.
[47]刘洪.当代社会思潮对大学生思想政治教育的影响及应对策略[D].山西财经大学,思想政治教育,2014,硕士.
[48]刘越.基于MapX长江流域增殖放流地理信息系统的开发与研究[D].南京农业大学,水产养殖,2011,硕士.
[49]刘晓昂.黔南州平塘县烟区土壤主要养分状况研究[D].湖南农业大学,作物,2012,硕士.
[50]毛海柱.并购重组市场与公告价值效应研究[D].复旦大学,财务管理,2012,硕士.

相关推荐
更多