5种大数据挖掘工具分析报告比较

5种大数据挖掘工具分析报告比较

ID:37974633

大小:12.55 MB

页数:19页

时间:2019-06-04

5种大数据挖掘工具分析报告比较_第1页
5种大数据挖掘工具分析报告比较_第2页
5种大数据挖掘工具分析报告比较_第3页
5种大数据挖掘工具分析报告比较_第4页
5种大数据挖掘工具分析报告比较_第5页
资源描述:

《5种大数据挖掘工具分析报告比较》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、实用标准文案数据挖掘工具调查与研究姓名:马蕾学号:18082703文档大全实用标准文案5种数据挖掘工具分别为:1、IntelligentMiner2、SASEnterpreiseMiner3、SPSSClementine4、马克威分析系统5、GDMIntelligentMiner文档大全实用标准文案一、综述:IBM的ExterpriseMiner简单易用,是理解数据挖掘的好的开始。能处理大数据量的挖掘,功能一般,可能仅满足要求.没有数据探索功能。与其他软件接口差,只能用DB2,连接DB2以外的数据库时,如Oracle,SAS,SPSS需要安装DataJoi

2、ner作为中间软件。难以发布。结果美观,但同样不好理解。二、基本内容:一个挖掘项目可有多个发掘库组成;每个发掘库包含多个对象和函数对象:数据:由函数使用的输入数据的名称和位置。离散化:将记录分至明显可识别的组中的分发操作。名称映射:映射至类别字段名的值的规范。结果:由函数创建的结果的名称和位置。分类:在一个项目的不同类别之间的关联层次或点阵。值映射:映射至其它值的规范。函数:发掘:单个发掘函数的参数。预处理:单个预处理函数的参数。序列:可以在指定序列中启动的几个函数的规范。统计:单个统计函数的参数。统计方法和挖掘算法:单变量曲线,双变量统计,线性回归,因子

3、分析,主变量分析,分类,分群,关联,相似序列,序列模式,预测等。处理的数据类型:结构化数据(如:数据库表,数据库视图,平面文件)和半结构化或非结构化数据(如:顾客信件,在线服务,传真,电子邮件,网页等)。架构:它采取客户/服务器(C/S)架构,并且它的API提供了C++类和方法IntelligentMiner通过其独有的世界领先技术,例如自动生成典型数据集、发现关联、发现序列规律、概念性分类和可视化呈现,可以自动实现数据选择、数据转换、数据挖掘和结果呈现这一整套数据挖掘操作。若有必要,对结果数据集还可以重复这一过程,直至得到满意结果为止。三、现状:现在,I

4、BM的IntelligentMiner已形成系列,它帮助用户从企业数据资产中识别和提炼有价值的信息。它包括分析软件工具——IntelligentMinerforData和IBMIntelligentMinerforText,帮助企业选取以前未知的、有效的、可行的业务知识——文档大全实用标准文案如客户购买行为,隐藏的关系和新的趋势,数据来源可以是大型数据库和企业内部或Internet上的文本数据源。然后公司可以应用这些信息进行更好、更准确的决策,获得竞争优势。四、挖掘案例:(客户细分)1.商业需求::客户细分2.数据理解:根据用户基本信息(实际上还包括客户消

5、费行为,人口统计信息等,本示例为简单起见,只在这个表的数据基础上进行挖掘)进行客户细分3.数据准备:4.建模:选择挖掘模型(比如是分群,还是分类)确定模型输入,需要做的处理,结果分析选择模型输入字段:挖掘模型选择:神经分群发掘函数使用了一个Kohonen特征映射神经网络。Kohonen特征映射使用一个称作自组织的进程来将相似的输入记录组合在一起。您可以指定群集的数目和遍数。这些参数控制进程时间和将数据记录分配到群集时使用的粒度程度。分群的主任务是为每个群集查找中心。此中心也称为称为原型。对于每个在输入数据中的每个记录,神经分群发掘函数计算和记录计分最近的群

6、集原型。每个数据记录的计分是用到群集原型的欧几里得距离表示的。计分越靠近0,与群集原型的相似性程度就越高。计分越高,记录与群集原型就越不相似。输入数据的每个遍历,中心被调整来达到更好的整个分群模型质量。在发掘函数运行时,进度指示器显示每次遍历的质量改进状况。4.建模:选择模型:指定输入数据:文档大全实用标准文案选择分群方式:文档大全实用标准文案分群模型设置概要:5.运行模型:点击蓝色按钮运行模型,运行模型进程:6.模型结果分析:运行结果(群):文档大全实用标准文案运行结果,统计:从上面两个图中我们可以看出一些有意义的分群,根据consume_level和o

7、nline_duration分群有一定意义。而比如用gender进行的分群我们可以直接观察出来,意义不大,只有两个大类,可以直观地看出男女比例:consume_level(消费层次)的群特征信息:可以看出在第2、3类消费层次占的比重较大。文档大全实用标准文案在线通话时长的一点分析:从上面图中可以看出,大部分客户每一个月消费是50元以下的。50-200各区间逐步递文档大全实用标准文案减;而一个月消费300以上的,也从3%,8%,12%逐渐递增的态势。挖掘的这些消费分群信息,对有针对性的营销,提前对客户进行细分是很有意义的。6.保存调出模型:客户分类挖掘示例(

8、待续):采用一样的数据,对客户消费水平进行分类预测(consume

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。