基于hadoop的在线数据挖掘系统的设计与实现

基于hadoop的在线数据挖掘系统的设计与实现

ID:35057002

大小:4.39 MB

页数:86页

时间:2019-03-17

基于hadoop的在线数据挖掘系统的设计与实现_第1页
基于hadoop的在线数据挖掘系统的设计与实现_第2页
基于hadoop的在线数据挖掘系统的设计与实现_第3页
基于hadoop的在线数据挖掘系统的设计与实现_第4页
基于hadoop的在线数据挖掘系统的设计与实现_第5页
资源描述:

《基于hadoop的在线数据挖掘系统的设计与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、UNIVERSITYOFELECTRONICSCIENCEANDTECHNOLOGYOFCHNAI硕±学位论文IMASTERTHESIS爾i论文题目基于Hadoop的在线数据挖掘系统的mi计与实现设学科专业计算机软件与理论学号201321060205?作者姓名袁野指导教师傅彦教授分类号密级注1UDC基于Hadoop的在线数据挖掘系统的设计与实现指导教师傅彦教授电子科技大学成都申请学位级别硕士学科专业数据库与数据挖掘提交论文日

2、期2016.3.28论文答辩日期2016.5.18学位授予单位和日期电子科技大学2016年6月答辩委员会主席评阅人注1:注明《国际十进分类法UDC》的类号。DESIGNANDREALIZATIONOFAONLINEDATAMININGSYSTEMBASEDONHADOOPAMasterThesisSubmittedtoUniversityofElectronicScienceandTechnologyofChinaMajor:ComputerSoftware&TheoryAuthor:YuanYeAdvisor:Pro

3、f.FuYanSchool:SchoolofComputerScience&Engineering独剑性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作。及取得的研究成果据我所知,除了文中特别加W标注和致谢的地方夕h论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。作者签名:令曰期;石年月万《曰巧论文使用授权本学位论文作者完全了

4、解电子科技大学有关保留、使用学位论文的规定,,有权保留并向国家有关部口或机构送交论文的复印件和磁盘允许论文被查阅和借阅。本人授权电子科技大学可将学位论文的全1部或部分内容编入有关数据库进行检索,可^采用影印、缩印或扫描等复制手段保存、汇编学位论文。(保密的学位论文在解密后应遵守此规定)::导师签名作者签名_.又/><5〇7曰期:年月《曰摘要摘要分布式数据存储以及处理技术的发展,使得可较为廉价的从海量数据中发掘潜在价值。当前数据挖掘基础技术取得长足进展,基本满足了在多种场景下的需求。但当

5、前系统间集成度低,使用门槛较高,易用性尚显不足。本文以Hadoop为基础,设计并实现了在线数据挖掘系统,实现了一种通过拖拽可视化控件完成数据挖掘过程构建及验证的方式,降低了数据挖掘门槛,提高了挖掘过程构建效率。本文调研了数据挖掘一般过程以及大数据场景下的数据挖掘技术栈。本文以Hadoop以及相关服务组件为基础,将数据挖掘过程中的数据转换、数据建模、模型评估等多个环节的数据处理逻辑封装成为各个独立算子,通过数据流向将算子串联形成工作流,完成数据挖掘过程构建以及评估。本文主要工作内容有:(1)算子统一抽象与集成要实现算子的

6、灵活组合,最大程度满足数据挖掘需要,算子需要在统一的抽象基础上进行实现,并具有较好的可配置性以及可扩展性。本文以Hive表作为算子的数据模型,在统一接口规范下实现了包括数据输入输出、数据转换、数据建模以及模型评估等多个环节的算子,并提供良好的继承体系便于算子的扩展。(2)工作流的设计实现工作流作为系统对数据挖掘过程的抽象描述,需要解决工作流在描述、执行控制等多环节的问题。本文设计并实现了一套工作流控制服务,包括工作流分解服务、工作流数据管理服务、算子执行服务等多个模块,实现了零代码条件下的数据挖掘过程构建与运行。本文系

7、统已通过初步测试,并已部署运行,较好的满足了预设需求,降低了数据挖掘过程构建和验证时间。关键词:数据挖掘,Hadoop,机器学习,分布式计算ⅠABSTRACTABSTRACTTheconstantlydevelopmentofdistributeddatastorageandprocessingtechniqueenablesustoexplorepotentialvaluefrommassivedataatlowcost.Todaydataminingtechniquehasprogressedtothepointt

8、hatitmeetstheneedsofvariouskindsofapplicationscenarios.Howeverthelowintegrationofsystemsandhighthresholdforusersmakeitdifficulttouse.Inthethesis,wedesignedanonlinedat

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。