首页

K-means算法与智能算法融合的研究 02月19日

【摘要】数据挖掘的基本含义就是从海量、不完全、有噪音的数据中获取对用户来说有直接或间接价值的信息。聚类分析的显著特征就是不需要任何先验知识或信息,只是根据事物之间的某些属性,把事物聚集成类,同时要尽可能满足同一个簇内和簇间的高内聚、低耦合要求,聚类是一种无导师监督的学习方法,聚类分析技术的迅速发展使得它被广泛地应用于科研和生活中的各个方面,是数据挖掘领域重要的分支之一。K-means算法是典型的一 […]

【论文下载 - 中国知网/万方数据/维普/读秀/超星/国研/龙源/博看等资源库】

基于hadoop的连接算法中数据倾斜问题的研究 08月28日

【摘要】时至今日,随着各项科学技术的飞速发展,大数据处理的需求日益增长。hadoopmap/reduce作为一个并行数据处理框架,被越来越多的应用到分布式数据处理当中。map/reduce是一个高效的,可扩展的,高容错的并行编程模型,并且十分易于使用。连接操作作为数据处理中一种十分重要的操作,在传统数据库中已经得到了很多的研究,由于map/reduce自身框架的原因,它并不能很好地支持连接操作。如 […]

基于MapReduce的海量点击流信息挖掘研究 05月08日

【摘要】随着互联网与电子商务的快速发展,网站产生的点击、商品、交易等数据呈现海量数据式增长。淘宝网(taobao.com)中的页面每天点击超过2亿次以上,商品成交超过5000万次/天。巨大的访问量带来了巨大的浏览记录与交易记录,挖掘这些记录中蕴含的用户信息成为时下网站建设者们最迫切的需求。点击流是用户在一个Session会话内点击URL链接而被记录的访问路径,挖掘点击流数据可以发现商品频繁点击序列 […]

基于MapReduce和遗传算法的粗糙集属性约简研究 10月30日

【摘要】随着互联网时代的蓬勃发展,以及物联网、云计算等新兴技术的涌现,大数据时代已经到来。如何有效地从大数据中挖掘知识,释放数据中隐含的巨大经济价值、科研价值和社会价值,成为当今学术界和产业界研究的重大课题。粗糙集理论是由波兰数学家PawlakZ.提出的一种数据推理方法,这个理论工具在研究不精确知识表达、不完整数据、学习、归纳等方面非常强大,尤其在知识分类和知识发现方面的数据挖掘具有强大的能力。属 […]

基于数据挖掘的红塔集团数据库营销系统的研究与实现 03月22日

【摘要】在互联网普及的今天,各企业已从信息时代进入大数据时代,企业们纷纷致力于寻找有效利用海量数据的方法,使之成为企业竞争的有力工具。红塔烟草(集团)有限责任公司在经历了几年的信息化建设后已经积累了大量业务数据,现在,集团将客户(消费者)数据的采集也纳入了日常营销规划,因为卷烟作为大众商品,其消费者地域分布非常广,对消费者数据的直接采集成为了集团的一个难点。同时,集团提出了以大规模数据分析结果作为 […]

基于Hadoop平台的重叠社区发现算法研究 10月31日

【摘要】网络已经成为研究关联对象系统的重要方法,在比如生物信息学和人类社区等多种研究领域都有重要应用。社区发现是研究网络结构的一个关键方法,相互间关联的节点集合组成了网络中有意义的子集,例如蛋白质复合体或者社交圈。真实网络中的社区往往是重叠的,也就是说网络中存在同时属于几个社区的节点,这样的节点称之为重叠节点。传统的社区发现算法是将社区定义为了节点的集合,而节点的全局层次结构无法捕捉到网络的重叠关 […]

基于MapReduce的连接方法研究 01月20日

【摘要】伴随网络和云计算技术的飞速发展,全球数据倍增,数据量级已达TB、PB级,形象地被称为海量数据或者大数据。同时,数据背后隐藏的信息的价值也越来越高,不仅能为拥有这些数据的企业提供决策和商机,也能为人类享受更加方便、智能、快捷的服务提供支持。数据的种类越来越多,结构更加复杂,各种结构化、半结构化、无结构数据产生于各种各样的应用环境中,人类迎来了大数据时代。大数据时代背景下,数据的价值受到了前所 […]

基于mongodb的倒排索引建立 09月25日

【摘要】随着Web2.0与云计算的兴起,越来越多的企业选择NoSQL作为企业应用的基本架构。作为非关系型数据库的典型代表,mongodb被更多的选择,用来处理海量数据的存储,因此必然越来越多的应用逐渐转向使用mongodb作为数据库来实现。全文索引检索就是其中的最基础的,典型的应用之一,而倒排索引表的构建正是其中最核心的技术之一。本课题旨在探究一种基于mongodb存储,用于中文全文检索的倒排表的 […]

基于Map/Reduce的分布式搜索模型研究 09月17日

【摘要】随着互联网的发展,数据呈现几何式的增长,如何能够从巨大的数据中快速寻找出对自己有用的数据,将会是大家面临的一个问题。搜索技术的出现方便了人们快速而且有效的获取信息。在搜索技术中,最突出的搜索工具就是搜索引擎,当然针对于一些特定数据的搜索工具,比如说在交叉学科领域的一些数据的检索工具也给人们带来了巨大的便利之处。本文正是基于这两个方面开展研究工作,并且从研究和设计的角度出发,对于分布式搜索领 […]

基于MapReduce的分布式聚类算法在社交网络上的应用研究 01月11日

【摘要】在信息爆炸的大数据时代,人们的生活、工作和思维方式逐渐在改变。对于数据分析而言,传统的抽样方法有悖于数据量的增长态势,使用全体数据取代随机抽样成为时代的发展需求。为了实现这个目标,仅仅依赖摩尔定律来提升计算性能是远远不够的,云计算等弹性计算体系架构逐渐受到关注。社交网络作为互联网发展史上的一个重要和成功的应用领域,也是大数据时代的重要数据来源之一。这不论对于社交网络服务提供商自身还是对其商 […]