欢迎来到天天文库
浏览记录
ID:50391753
大小:2.92 MB
页数:53页
时间:2020-03-05
《基于Hadoop的精细化分析及其应用.pdf》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、尸?.单位代码;10293密级:?I考皮《隹硕女讼w论文题目:基于Hadoop的精细化分析及其应用学号1212043024姓名琳琳纪导师郑彦教授专业学位类别工程硕±类型全日制专业(领域)计算机技术论文提交曰期二零_五年H月‘?..心、K口三.?.S'端准r矿南京邮电大学学位论文原创性声明本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了
2、文中特别加标注和致谢的地方外,论文中不包含其他人已经发表或撰写过。的研究成果,也不包含为获得南京邮电大学或其它教育机构的学位或证书而使用过的材料与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。一切相关的法律责任本人学位论文及涉及相关资料若有不实,愿意承担。¥同引巧研究生签名:知術满iL日期:南京邮电大学学位论文使用授权声明本人授权南京邮电大学可W保留并向国家有关部口或机构送交论文的复印件和电子文档;允许论文被查阅和借阅;可将学位论文的全部或部分
3、内容编入有关数据库进行检索;可W采用影印、缩印或扫描等复制手段保存、汇编本学位论文。本文电子文档的内容和纸质一论文的内容相。)研致论的公(大究生办理。文布包括刊登授权南京邮电学院。涉后适用密学位论文在解密本授权书-;?a研生签名灰/狐m导师签名I究牢[MeticulousAnalysisBasedonHadoopanditsApplicationThesisSubmittedtoNanjingUniversityofPostsandTelecommunicationsfortheD
4、egreeofMasterofEngineeringByLinlinJiSupervisor:Prof.YanZhengMarch2015摘要近年来,互联网已经逐步取代传统的传播媒体,如报纸、期刊等,成为全球最大的传播媒体。随着互联网类传播媒体的发展,广告展现与点击逐渐成为各种有趣的Web网站与应用的主要收入来源。且从容量方面来说,相比任何一种传统传播媒体,互联网可以为人们提供取之不尽、用之不竭的―page‖,因此Web广告越来越被网站主和广告主关注。Web广告与传统的广告展示不同,在Web上可以定制展
5、示广告,而硬煤介则不可以。Web上可以利用用户的信息来确定应该对哪些用户显示哪些广告,而不管他们在浏览哪个网页。在如今广告产业发展显示广告主在web网站从购买广告位逐渐转变为购买广告人群,所以精细化分析用户所属广告人群是众多广告产业企业面临的一大机遇也是挑战。然而,在如今互联网拥有数以亿计网民用户每天产生TB级甚至是PB级的海量行为数据,以及众多的广告主的广告投放需求,使用传统的单台主机对用户与广告进行存储匹配和分析已经无法满足对这样的极大规模数据进行快速处理的需求。因此采用分布式存储和计算成为了必然的
6、发展方向。此外,Hadoop是一个以HDFS分布式文件系统和MapReduce分布式计算框架为核心的,具有高可靠性、高扩展性、高效性、高容错性的,适用于大规模数据集分析处理的分布式计算平台。由于优势突出,基于Hadoop的应用已经在互联网领域遍地开花,如网络日志分析、搜索引擎、数据挖掘等,并且取得了非常突出的成绩。基于上述背景,本论文提出基于Hadoop分布式平台的核心技术以及数据挖掘聚类分析算法——CURE算法,研究设计并实现出准确、高效地根据网络用户的浏览广告行为、点击广告行为、下载广告行为、和转发
7、广告行为四个方面来精细化分析与计算用户所属的广告人群。充分利用了Map-Reduce在处理海量数据方面的优势,且将海量数据存储在适用于集群计算的大规模分布式文件系统HDFS中。关键词:人群精细化分析,Hadoop,HDFS,MapReduce,CURE聚类分析算法IAbstractInrecentyears,theInternethasgraduallyreplacedtraditionalmedia,suchasnewspapers,periodicals,etc.,tobecometheworld'
8、slargestmedia.WiththedevelopmentofInternetmedia,adsandclickhavegraduallybecomethemainsourceofincomeinavarietyofinterestingWebsitesandapplications.Comparedtoanykindoftraditionalmedia,theInternetcanprovideaninexhaustible"pag
此文档下载收益归作者所有