基于hadoop的etl部件在分布式数据挖掘引擎中的应用

基于hadoop的etl部件在分布式数据挖掘引擎中的应用

ID:35056935

大小:3.63 MB

页数:57页

时间:2019-03-17

基于hadoop的etl部件在分布式数据挖掘引擎中的应用_第1页
基于hadoop的etl部件在分布式数据挖掘引擎中的应用_第2页
基于hadoop的etl部件在分布式数据挖掘引擎中的应用_第3页
基于hadoop的etl部件在分布式数据挖掘引擎中的应用_第4页
基于hadoop的etl部件在分布式数据挖掘引擎中的应用_第5页
资源描述:

《基于hadoop的etl部件在分布式数据挖掘引擎中的应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、单位代码:10293密级:专业学位硕±论文,||靜顧今论文题目:基于Hadoop的ETL部件在分布式数据挖掘引擎中的应用:舉钟?,:'叫j、r入林、学号-1213043030手:巧:茲,姓名陈闯’并'导师^郑^彦兴<庭當如;:普兮巧抓細雄:拟'、;-专业学k类别;..工程硕±古i节1%#.單拍..'I.'’’.^’.V/中’类全曰制-*,’?'?,'、..,专业(领域)数据仓库与决策支持系统论文提交日期二零一六年三月^.讓義,'‘/备

2、'、.苗.;.窜^'?,1.'?■??,';,去一,’’,南京邮电大学学位论文原创性声明本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加W标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得南京邮电大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均己在论文中作了明确的说明并表示了谢意。一本人学位论文及涉及相关资料若有不实,愿意承担切相关的法律责任。?〇/j:、中93研究生签名:皆日期南京邮电大学学

3、位论文使用授权声明本人授权南京邮电大学可1^1>保留并向国家有关部口或机构送交论文的复印件和电子文档可;允许论文被查阅和借阅;可W将学位论文的全部或部分内容编入有关数据库进巧检索:论W采用影印、缩印或扫描等复制手段保存、汇编本学位论文。本文电子文档的内容和纸质文的内容相一致。论文的公布(包括刊登)授权南京邮电大学研究生院办理。涉密学位论文在解密后适用本授权签书。研巧生签名:j—_导师名、。毛地IApplicationofETLcomponentindistributeddataminingenginebasedonHadoopThesisSubm

4、ittedtoNanjingUniversityofPostsandTelecommunicationsfortheDegreeofMasterofEngineeringByChenChuangSupervisor:Prof.ZhengYanMarch2016摘要分布式数据挖掘引擎引擎系统随着互联网数据量不断的增加,把海量的数据逐渐成为数据沉淀数据挖掘出价值需求日益强烈的情况下产生。分布式数据挖掘引擎系统对多种源数据进行处理、数据分析挖掘为使用者提供决策的信息支撑。从当前的情况来看在网联网领域得数据者得天下,阿里巴巴通过海量的用户购买数据不断优化推荐与匹配规则;百度则通过海量的行为

5、数据进行推荐相关以及广告。分布式数据挖掘引擎系统已经应用各种场景并在持续发展中。本文从分布式数据挖掘引擎系统的整体架构和核心技术(数据仓库、数据挖掘、实体管理器)入手。主要介绍了数据仓库和实体管理器以及系统搜索系统,重点是基本Hadoop平台的ETL部件的设计与实现。ETL主要讲述了数据预处理、数据文件的上传、数据抽取、数据变换、数据加载到数据仓库、编码、数据接口以及ETL问题与解决等。关键词:ETL,Hadoop,实体,数据仓库,数据挖掘IAbstractDistributeddataminingengineenginesystemwithInternetdataquantity

6、unceasingincrease,thehugeamountsofdataisbecomingprecipitationdataminingthevaluedemandgrowingconditions.Distributeddataminingenginesystemofmultiplesourcedataanalysisprocessing,dataminingprovidestheuserwiththedecisioninformationsupport.Fromthepointofviewofthecurrentsituationinthefieldofnetworkda

7、tafortheworld,alibababyvastuserstobuydataconstantlyoptimizationrecommendationsandmatchingrules;Baiduistherecommendedbymassiveamountsofdataandtherelevantadvertising.Distributeddataminingenginesystemhasbeenusedinvariousscenariosandsustain

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。