基于r语言的数据挖掘算法研究

基于r语言的数据挖掘算法研究

ID:31359493

大小:115.50 KB

页数:11页

时间:2019-01-09

基于r语言的数据挖掘算法研究_第1页
基于r语言的数据挖掘算法研究_第2页
基于r语言的数据挖掘算法研究_第3页
基于r语言的数据挖掘算法研究_第4页
基于r语言的数据挖掘算法研究_第5页
资源描述:

《基于r语言的数据挖掘算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于R语言的数据挖掘算法研究  摘要:该文采用R语言作为研究工具以及聚类和决策树等数据挖掘算法,研究如何针对社交网站中的用户进行分类,挖掘最终可指导网站优化和提高服务质量的客户分类数据。采用网络爬虫从某社交网站中抓取数据,该文采用聚类算法中的DIANA算法对抽样样本计算并对数据进行初步的簇类划分;接着采用PAM算法对整体样本进行进一步的计算并提取出大聚类,接着采用分别CART和C4.5等决策树算法对决策树规则进行进一步的研究,最终对研究结果进行评估并用来指导实践。  关键词:R语言;数据挖掘;C4.5;Cart  中图分类号:TP393文献标识

2、码:A文章编号:1009-3044(2016)28-0016-03  随着互联网社交网站的繁荣和各种网络应用的不断深入,社交网站已成为互联网上的重要平台应用。伴随社交网络的发展,不同地域、性格和特质的用户群展现出了差异化的需求,面对这些群体和用户需求,如何细分市场识别并提供差异化的服务,以帮助企业在激烈的竞争中保持老用户,发展新用户。本文围绕社交网络理论和客户细分理论的研究,运用数据挖掘工具中的决策树算法,对社交网络客户细分进行了深入的探讨并最终得出可指导时间的社交网络客户细分规则。  1.1R语言11  R是一种在数据统计领域广泛使用的语言,

3、R语言是一种开源语言,该语言的前身是S语言,也可以说R语言是S语言的一种实现,R在语法上类似C语言。R是一个统计分析软件,既可以进行统计分析,又可以进行图形显示。R能进行复杂的数据存储和数据处理,利用数据、向量、矩阵的数学方法进行各种统计分析,并将统计分析结果以图形方式展示出来,因此R也是一种统计制图软件。R内嵌丰富的数学统计函数,从而使使用者能灵活的进行统计分析。它可以运行于UNIX,Windows和Macintosh的操作系统上,而且嵌入了一个非常方便实用的帮助系统。  R是一种功能强大的编程语言,就像传统的编程语言C和JAVA一样,R也可

4、以利用条件、循环等编程方法实现对数据的各种处理,从而实现数据统计目的。R作为一种开源的软件,被越来越多的用来代替SAS等软件进行数据统计分析。  R作为一个统计系统来使用,其中集成了用于经典和现代统计分析的各种算法和函数,这些算法和函数是以包的形式提供的。R内含了8个包,如果需要其他的包,可在官网上进行下载安装。  1.2数据挖掘  数据挖掘(Datamining),顾名思义就是从海量的数据中运用数据挖掘算法从中提取出隐含的、有用的信息。数据挖掘涉及统计学、人工智能和数据库等多种学科。近年来,随着计算机的发展,各个领域积累了海量的数据,这些数据

5、如何变废为宝,这就需要数据挖掘的帮助。因此数据挖掘在信息产业界广泛应用,比如市场决策和分析、科学研究、智能探索、商务管理等。11  数据挖掘是一个多学科的交叉领域,统计学、人工智能和数据库等多种学科为数据挖掘提供丰富的理论基础。包括统计学的概率分析、相关性、参数估计、聚类分析和假设检验等,以及机器学习、神经网络、模式识别、信息检索、知识库、并行计算、图形学、数据库等。同时数据挖掘也为这些领域提供了新的挑战和机遇。例如,数据挖掘提升了源于高性能(并行)计算的技术在处理海量数据集方面性能。随着数据挖掘的蓬勃发展,近几年分布式技术在处理海量数据方面也

6、变得越来越重要,尤其是Hadoop的发展极大的提高了数据挖掘的并行处理效率。  数据挖掘也同时促进了数据挖掘算法的发展,数据挖掘算法是根据数据创建数据挖掘模型的方法和计算方法,算法将首先分析数据源提供的数据,根据数据的特点和需求建立特定的数学模型。  根据数据挖掘模型的特点,可以选择相应的算法。在选择算法是,可根据实际情况选择划分聚类的算法,或选择决策树的算法。选择算法的不同可能对挖掘结果有一定的影响。  数据挖掘的步骤是首先确立挖掘目标,提出一个初步计划,估计用到的工具和技术;第二步是数据理解,即收集原始数据,并对数据进行描述和初步探索,检查

7、这些数据的质量;第三步是数据准备,包括数据选择、清洗、合并和格式化;第四步是建立数据模型,包括选择建模技术、测试方案设计、模型训练;第五步是模型评估,根据评估结果得出结论,确定是否部署该模型;第六步是模型部署;第七步是选择算法;最后是得出结论。  1.3C4.5算法11  C4.5是一种机器学习的方法,在数据挖掘分类中应用广泛,它的目标是监督学习。C4.5是在ID3的基础上衍生出来的。ID3是一种决策树算法。ID3衍生出C4.5和CART两种算法。  C4.5的算法思路是,在给定的数据集中,每一个元祖都是互斥的,每一个元组都能用一组属性值来描述

8、,每一个元组都属于某一类别。C4.5的目标是通过学习,建立一个从属性值到类别的映射关系,并且这个映射能够指导对新的类别进行分类。  C4.5是一种决策

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。