基于hadoop的网络大数据挖掘应用与实践

基于hadoop的网络大数据挖掘应用与实践

ID:10099920

大小:31.00 KB

页数:7页

时间:2018-05-25

基于hadoop的网络大数据挖掘应用与实践_第1页
基于hadoop的网络大数据挖掘应用与实践_第2页
基于hadoop的网络大数据挖掘应用与实践_第3页
基于hadoop的网络大数据挖掘应用与实践_第4页
基于hadoop的网络大数据挖掘应用与实践_第5页
资源描述:

《基于hadoop的网络大数据挖掘应用与实践》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于Hadoop的网络大数据挖掘应用与实践摘要:网络大数据是指“人、机、物”三元世界在网络空间(Cyberspace)中交互、融合所产生并在互联网上可获得的大数据。本文提出了基于Hadoop平台的关于大数据级协同数据挖掘系统的一系列关键技术和实践,通过选择一个具有代表性开放数据源作为处理对象,给出了处理的预测结果。关键词:大数据;Hadoop;数据挖掘中图分类号:TP311.13“大数据”时代的数据处理需要更强的决策力、洞察力和流程优化能力才能形成海量、高增长率和多样化的信息资产。从技术上看,大数据与云计算的关系就像一枚硬币的

2、正反面一样密不可分,由于大数据必然无法用单台的计算机进行处理,因此依托云计算的分布式处理、分布式数据库、云存储和虚拟化技术是解决大数据问题的关键技术。Hadoop作为一个分布式系统基础架构,用户可以在不了解分布式底层细节的情况下,开发分布式程序,从而充分利用集群的威力高速运算和存储。Hadoop实现了一个具有高容错性的分布式文件系统HDFS(HadoopDistributedFileSystem)。HDFS可以设计用来部署在低廉的(low-cost)硬件上;而它同时具有高传输率(high7throughput)来访问应用程序的

3、数据,适合那些有着超大数据集(largedataset)的应用程序,具有高可靠性、高扩展性和高效性的特点,是大数据数据挖掘处理比较理想的架构平台。1基于Hadoop的网络大数据挖掘应用设计1.1硬件设计实验的硬件平台由网络连接的若干台计算机组成,这些计算机分别属于两个机架,机架内部通过10GB的交换机连接。其中一台作为namenode,其余的作为datanode,由于每台计算机本地硬盘容量仅250G,这个值远远低于Hadoop在2010中采用的典型规格4T,每台计算机硬盘容量不足在很大程度上局限了后继计算工作的性能。1.2软件

4、设计基于上述硬件平台设计部署并配置Hadoop,配置环境及有关工具版本为:ubuntu10.04、hadoop0.20.2、jdk1.6.0_29。配置的核心组件包括:(1)GFS分布式文件系统,隐藏下层负载均衡,冗余复制等细节,对上层程序提供一个统一的文件系统API接口。GFS把文件分成64MB的块,分布在集群的机器上,使用Linux的文件系统存放。同时每块文件至少有3份以上的冗余。中心是一个Master节点,根据文件索引,找寻文件块。7(2)MapReduce。Map是把输入Input分解成中间的键值对,Reduce把键值

5、对合成最终输出Output。这两个函数由程序员提供给系统,下层设施把Map和Reduce操作分布在集群上运行,并把结果存储在GFS上。(3)BigTable大型分布式数据库,这个数据库不是关系式的数据库而是一个巨大的表格,用来存储结构化的数据。1.3挖掘工具选择Mahout是ApacheSoftwareFoundation(ASF)旗下的一个开源项目,Myhout提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。它包含许多实现,包括聚类、分类、推荐过滤、频繁子项挖掘,此外,通过使用Ap

6、ache的Hadoop库,Mahout可以有效地扩展到云中。在算法上,Mahout针对性很强,在小数量级别上运行顺利,但在计算机硬盘容量全部消耗完后可能会发生崩溃。1.4数据挖掘过程设计在搭建的平台上使用数据挖掘技术,可以设计成以下几个步骤:(1)对指定的训练数据通过算法进行训练。(2)评测待测试数据的数据进行分类。(3)统计分类的正确率。根据实验内容和实验的要求,算法需要实现对训练数据的训练,以及对测试数据的预测,并与原始测试数据进行比对计算正确率三个方面。72基于Hadoop的网络大数据挖掘应用实现根据设计,整个实验需要分

7、为三个部分进行,第一,选择适合的算法对训练数据集进行训练;第二,使用训练数据的模型对测试数据分类进行预测;第三,根据原始测试数据的分类,比对预测分类和原始分类的差异,计算准确率。2.1数据准备实验的原始数据是NetflixPrize提供的两个数据集,包括训练数据集和测试数据集。训练数据集是从Netflix网站1998年10月到2005年12月的电影评分数据中,随机抽样48万用户对1万7千多部电影的1亿多条评分记录,评分的分值在1-5之间。测试数据集供用户对预测结果的精度进行测试,该数据集的内容是从训练数据集抽取的一部分记录,但

8、是记录不包括评分部分。训练数据集的详细特性:(1)电影代号是1-17770的流水号。(2)用户代号的取值范围1-2649429,其中有空缺,共计480189个用户。(3)评分的分值1-5。(4)用户评分日期的格式为年一月一日。2.2算法选择及实现在本实验中,共选择了两种分类算

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。