基于MongoDB的网站日志分析系统的设计与实现
【摘要】随着互联网企业规模的壮大和扩展,网站的日志信息数量级也在同步增长。为了提供更好的服务、理解用户的访问特点和需求,需要对用户的访问行为进行分析,Web日志分析便由此产生。它将传统的数据挖掘技术与web日志结合起来,从大量的日志数据中提取出有用的信息,对用户的访问行为和访问量等进行统计分析,由此推断用户的访问模式。它在很多方面都能发挥作用,对于网络安全、网站的构建和电子商务的市场分析都有一定的帮助,是数据挖掘领域的一个新的研究方向。NoSQL是非关系型数据库的总称,它是为满足增长飞速的互联网应用需求而产生的数据存储技术。由于它易于扩展、在大的数据量下仍然有很高的读写性能、灵活的数据模型等各种特性,在一些应用场景得到了很好的发展,逐渐开始崭露头角。MongoDB便是NoSQL数据库的一个代表,它使用的面向文档的数据模型使其可以自动将数据拆分,然后分散存储在不同的机器上。这种自动分片机制实现了分布式扩展,可以将数据库中的集合、文档分布存储在多个数据库节点。MongoDB可适用的场合非常广泛,由于它这种良好的水平拓展性,适合存储低价值、大尺寸的文件,为互联网向云计算的发展提供了满足高并发、海量数据处理的数据管理技术。这种特点使其在Web日志分析领域中的发展如鱼得水。本文主要研究了基于MongoDB分布式数据库设计高效的Web日志分析方案。Web日志分析就是收集并存储用户访问网页时产生的日志信息,对这些日志数据转化、清洗和挖掘的过程。本文将MongoDB数据库与传统的关系型数据库进行比较,分析其优势与应用场景。其反范式的设计因嵌套避免了关联,使得对大数据的存储查询效率提高显著。通过将web日志存储在MongoDB中并直接用其内置的MapReduce并行地对日志进行分析统计,最后将分析结果存储为文件以供业务人员查询分析。旨在通过对web日志数据进行有效的数据挖掘,发掘隐藏在日志数据中的用户访问规律和模式,为优化网站结构和经营模式提供有用的信息。
【作者】孙思源;
【导师】辛晓辉;
【作者基本信息】中国地质大学(北京),计算机技术,2014,硕士
【关键词】日志分析;MongoDB;MapReduce;
【参考文献】
[1]李春喜.口语交际教学的理论与实践[D].福建师范大学,教育,2003,硕士.
[2]李秋成.《GeophysicalProspecting》1985年将出版8期[J].石油地球物理勘探,1985,03:313.
[3]薛金莲,孔庆忠,姚景利,汪勇.液压挂车装载运输强度、变形、预拱的校核及优化[J].一重技术.2001(01)
[4]雷明.三峡水库岸坡系统不同用地类型土壤生化特性研究[D].西南大学,生态学,2013,硕士.
[5]刘艳兰.全基因组关联研究中的上位性检测算法研究[D].湖南大学,计算机科学与技术,2012,硕士.
[6]宗凯.中国网络企业赢利模型研究[D].华东师范大学,情报学,2001,硕士.
[7]化信.等离子体所在低温等离子体制备纳米材料及应用方面取得重要进展[J].化工新型材料,2013,09:196.
[8]刘凯辉.集体林权制度改革的利益相关者博弈研究[D].新疆农业大学,土地资源管理,2012,硕士.
[9]朱晓辉.高速钢丝锥刃口钝化及攻丝试验研究[D].太原科技大学,机械制造及其自动化,2014,硕士.
[10]张侃.热休克预处理对新生大鼠急性乙醇中毒后HSP70表达及神经细胞凋亡的影响[D].浙江大学,内科学,2004,硕士.
[11]刘志华.实时数据库内核[D].华北电力大学(河北),计算机应用技术,2004,硕士.
[12]乔彦飞.基于粗糙集的RBF网络设计方法的研究[D].东北大学,运筹学与控制论,2010,硕士.
[13]陆丹丹.O-取代烷基羟胺及其衍生物的合成研究[D].南京理工大学,化学工艺,2013,硕士.
[14]黄源,张福炎.数据挖掘及其技术实现[J].计算机应用与软件,2001,12:1-4.
[15]张展光.中学艺术生心理现状分析与教学研究[D].河北师范大学,音乐学,2012,硕士.
[16]贺进.基于竹材加工剩余物分类利用的环保型竹基板材的研制[D].中南林业科技大学,林业工程,2013,硕士.
[17]苏蔚.媒介融合下《长沙晚报》的经营策略研究[D].湖南大学,新闻传播学,2013,硕士.
[18]程勖.地质统计学软件开发与应用[D].吉林大学,2009.
[19]刘学丽.国库集中支付动态监控体系研究[D].山东大学,工业工程(专业学位),2012,硕士.
[20]刘金鹏.面向大规模实值优化问题的CMA-ES算法及其分制策略研究[D].中国科学技术大学,计算机应用技术,2014,硕士.
[21]杨婷婷.基于活动理论的移动学习活动设计研究[D].山东师范大学,教育技术学,2013,硕士.
[22]张治红,何领好,康萌萌,林冬梅,张帅,董晓东,冯孝中.三维石墨烯-二氧化钛-聚吡咯纳米复合材料的制备及性能研究[A].河南省化学会.河南省化学会2014年学术年会论文摘要集[C].河南省化学会:,2014:1.
[23]陈勇.基于HAM的突发事件对股票市场冲击的传导机制研究[D].哈尔滨工业大学,金融学,2013,硕士.
[24]蔡晗.公路双洞隧道穿越高陡边坡加固对策研究[D].西南交通大学,建筑与土木工程,2014,硕士.
[25]马宏远.中国微型电脑应用协会重庆分会成立[J].冶金自动化,1982,05:10.
[26]漆小龙.声化学法制备格利雅试剂及其合成二甲基苄基甲醇的研究[D].广东工业大学,化学工艺,2004,硕士.
[27]易红燕.酒店组织学习、战略执行力与企业绩效之间的关系研究[D].湖南师范大学,旅游管理,2014,硕士.
[28]向翠丽,邹勇进,邱树君,褚海亮,孙立贤,徐芬.基于碳纳米材料载体的氢气传感器[J].化学进展,2013,Z1:270-275.
[29]吴昊.PBS的扩链改性合成及其降解性能研究[D].陕西科技大学,有机化学,2013,硕士.
[30]贺琼.探讨FTTX技术的应用与维护研究[J].电子制作,2015,04:143.
[31]杨正国.中国物业管理存在的主要问题及对策[D].华中师范大学,行政管理,2003,硕士.
[32]周文君.成功智力理论下的小学语文作业设计[D].山东师范大学,课程与教学论,2013,硕士.
[33]张萌.季节蓄热型太阳能—土壤耦合热泵系统的设计优化研究[D].西安建筑科技大学,供热、供燃气、通风及空调工程,2013,硕士.
[34]周映雪.基于生存分析的城市道路交通拥堵持续时间研究[D].北京交通大学,2013.
[35]王宗涛.微生物发酵动力系统的参数辨识与优化[D].大连理工大学,运筹学与控制论,2004,硕士.
[36]王敏.离子液体中酰化和酯化反应的研究[D].浙江工业大学,2012.
[37]陈杰平,陈无畏,祝辉,朱茂飞.基于Matlab/Simulink的随机路面建模与不平度仿真[J].农业机械学报,2010,03:11-15.
[38]赵妍.山奈酚对脂多糖诱导小鼠急性肺损伤的保护作用[D].东北农业大学,临床兽医学,2013,硕士.
[39]关小满.污水土地生态处理脱氮机理与效率的研究[D].贵州师范大学,环境科学,2004,硕士.
[40]吕园.区域城镇化空间格局、过程及其响应[D].西北大学,人文地理学,2014,博士.
[41]陆跟成.自适应模糊控制电弧传感器设计[D].河海大学,机械电子工程,2004,硕士.
[42]刘然.动画翻译的本土化争议[D].浙江工商大学,日语笔译(专业学位),2013,硕士.
[43]熊岳斌.H修船公司单船总管胜任力模型构建及应用研究[D].华东理工大学,工商管理(专业学位),2013,硕士.
[44]梁永新.主动脉内球囊反搏在心肌血管重建治疗中的临床应用与其研究进展[D].青岛大学,外科学,2004,硕士.
[45]胡婧.印度独立以来海洋战略的形成与发展[D].云南师范大学,世界史,2013,硕士.
[46]张晶晶.多层次造型在礼服中的设计运用[D].武汉纺织大学,设计艺术学,2013,硕士.
[47]魏渊源.CO/HO1调节莱茵衣藻汞毒害的作用机制[D].南京农业大学,海洋生物学,2010,硕士.
[48]李刚.投资者情绪指数、证券综合指数与投资决策:一个基于央视投资者情绪指数的实证研究[D].云南师范大学,概率论与数理统计,2013,硕士.
[49]俞卫华,童东绅,周春晖,徐天宁.类水滑石矿物的产品分析与应用[J].中国非金属矿工业导刊,2012,02:47-50.
[50]王志勤.日益崛起的无线业务增值平台——基于Client/Server的业务实现方式[J].电信网技术.2000(02)

- 下一篇: 井中三分量磁力仪的千米数传技术研究及其实现
- 上一篇: 高精度低功耗分布式地震采集站的研制
相关推荐
- 飞秒激光制瓣准分子激光原位角膜磨镶术后泪膜的变化
- 08月30日
- 基于网络的中职学校教务管理系统的研究与实现
- 07月21日
- 一维纳米材料增强聚乙烯醇纤维的制备及其性能研究
- 03月14日
- 爆炸载荷作用条件下装甲车辆的动态响应分析
- 02月05日