基于Hadoop的校园网站日志系统的设计与实现-论文.pdf

基于Hadoop的校园网站日志系统的设计与实现-论文.pdf

ID:53028455

大小:337.33 KB

页数:6页

时间:2020-04-14

基于Hadoop的校园网站日志系统的设计与实现-论文.pdf_第1页
基于Hadoop的校园网站日志系统的设计与实现-论文.pdf_第2页
基于Hadoop的校园网站日志系统的设计与实现-论文.pdf_第3页
基于Hadoop的校园网站日志系统的设计与实现-论文.pdf_第4页
基于Hadoop的校园网站日志系统的设计与实现-论文.pdf_第5页
资源描述:

《基于Hadoop的校园网站日志系统的设计与实现-论文.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第S1期华东师范大学学报(自然科学版)No.S12015年3月JournalofEastChinaNormalUniversity(NaturalScience)Mar.2015文章编号:1000-5641(2015)S1—0126—06基于Hadoop的校园网站日志系统的设计与实现姜开达,章思宇,孙强(上海交通大学网络信息中心,上海200240)摘要:每所高校校园网内成百上千的网站每天产生的Web访问日志量级都以千万计.利用大数据技术对这些海量、实时的数据进行集中搜集和长期存储,并通过后期大数据分析来挖掘这些日志的

2、价值,无论从管理运维角度,还是从信息安全视角都具有实际意义.本文以上海交通大学为例,介绍了利用Hadoop大数据平台,存储并分析校园网内数千网站日志的系统设计和实现.关键词:大数据;Hadoop;校园网站;日志系统中图分类号:TP393.08文献标识码:ADOI:10.3969/j.issn.1000—5641.20l5.z1.021Hadoop—basedcampuswebsitesloggingsystemdesignandimplementationJIANGKai~da,ZHANGSi—yu,SUNQiang

3、(NetvoorkInformationCenter,ShanghaiJiaoTongUniversity,Shanghai200240,China)Abstract:Webaccesslogsdailyproducedfromthehundredsofwebsitesofeachuniversitycam—pusnetworkcanbeasmuchastensofmillions,tocentrallycollectandstorethesemassivereal—timeandlong-termdatausing

4、bigdatatechnologyanddigthevalueoftheselogslaterusingbigdataanalysishavehugepracticalsignificancefromtheperspectivesofbothmanagementofopera—tionandmaintenanceandinformationsecurity.ThispapertakestheShanghaiJiaoTongUniver—sityasanexampleandintroducesCampusLogging

5、System’Sdesignandimplementationbysto—ringandanalyzingthousandsofwebsiteslogusingHadoopbigdataplatform.Keywords:bigdata;Hadoop;campuswebsite;loggingsystem0引言随着云计算等技术的兴起与发展,大数据正在深刻地影响着人们的工作、学习和生活,甚至左右着国家经济和社会发展,我们已经迈入了大数据时代.如何在教育信息化领域充分理解并迎接大数据技术带来的机遇和挑战,利用海量数据来挖

6、掘信息、判断趋势、提高效率?这是高校信息化部门未来建设数字化校园过程中必须面对的挑战.大数据作为一门还在快速发展中的技术,在校园网络应用中的落地需要一个渐进的过收稿日期:2014—10作者简介:姜开达(1980一),男,安徽池州人,硕士,工程师,主要研究方向为网络信息安全第S1期姜开达,等:基于Hadoop的校园网站日志系统的设计与实现127程.上海交通大学信息化部门建设了多个基于OpenStack和Hadoop的分布式云计算基础平台,给学校的科研工作和各类校园级应用提供了有力支撑,近年来也在利用Hadoop平台长期

7、存储和快速分析海量校园网站访问日志方向进行了一系列探索和实践.1校园网站的日志搜集需求从IT系统管理运维的角度出发,需要有统一的方案来监控全体服务器的运行数据,包括Web应用服务端程序的日志也值得集中分析和处理,以及时发现运行异常和评估网站服务状况.由于安全投入和重视普遍不足,高校网站一直是受黑客攻击的重灾区,面临着各种来源和不同类型的漏洞扫描、攻击入侵以及敏感数据泄露的威胁.彻底的网站El志分析可以及时发现安全薄弱点和已被入侵的站点,完整的网站日志在出现网络安全事件后可能也是回溯追踪的重要线索.对大型互联网公司诸多

8、网站产生的海量日志存储和分析,存在多种成熟的方案.一种流行的架构是使用Flume(采集)+Kafka(接人)+Storm(分析)+HDFS(存储)的组合.Flume是一个高可靠且分布式的海量El志采集、聚合和传输系统,可用于收集数据并在进行简单处理后写到各种数据接收方.ApacheKafka是Linkedln开源的高吞吐量分布式发布订阅消息系统

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。