数据挖掘常见算法

数据挖掘常见算法

ID:42294666

大小:1.67 MB

页数:37页

时间:2019-09-12

数据挖掘常见算法_第1页
数据挖掘常见算法_第2页
数据挖掘常见算法_第3页
数据挖掘常见算法_第4页
数据挖掘常见算法_第5页
资源描述:

《数据挖掘常见算法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、大数据挖掘严宇宇2013-4-18大数据处理技术的重要性Gartner(高德纳)公司研究认为,新产生的数据量每年正以50%的速度递增,而这个速度使得每年新增的数据量不到两年就会翻一番。大数据的基本特点大量化(Volume)多样化(Variety)快速化(Velocity)价值(Value)大数据的基本特点数据的可验证性(Verification)可变性(Variability)真实性(Veracity)邻近性(Vicinity)从数据分析到数据挖掘数据本身不同(数据量的不同,数据类型的不同)数据挖掘是在没有明确假设的前提下去挖掘信息

2、、发现知识。数据分析有明确目标的特点,数据挖掘是一个知识发现的过程。数据分析数据一般以文件形式或者单个数据库的方式组织,而数据挖掘必须建立在数据仓库或是分布式存储的基础之上。大数据挖掘是传统手工业式的数据分析的现代大工业形式。Web挖掘基于互联网的挖掘(Web挖掘)是利用数据挖掘技术从互联网上的文档中及互联网服务上自动发现并提取人们感兴趣的信息。可分为三类:内容挖掘结构挖掘用户访问模式挖掘数据挖掘的基本流程信息收集数据集成数据规约数据清理数据变换数据挖掘过程模式评估知识表示数据规约,数据清理,数据变换又合称数据预处理。在数据挖掘中,

3、至少60%的费用可能花费在信息收集阶段,而其中至少60%以上的精力和时间花在数据预处理的过程中。CRIAP-DM数据挖掘过程示意图业务理解数据理解数据准备建模评估部署数据挖掘的评估准确性性能功能性可用性辅助功能数据挖掘的应用发展营销领域的零售业直效行销界制造业业务金融保险通信业医疗服务业各种政府机关数据挖掘的应用发展尿不湿和啤酒某百货零售企业将强大的数据挖掘软件用在销售数据库上,得出了一个有意思的结论,那些前来为周末采购啤酒的男性客户往往会想起妻子让他们买纸尿裤,或者那些周末前来购买纸尿裤的男性客户会同时为自己购买啤酒,所以他们会将

4、两种商品都放入购物车里。于是该零售企业很快将销售纸尿裤和啤酒的柜台放到不远的地方,进而销售量大增。数据挖掘的应用发展Target和怀孕预测指数美国一名男子闯入他家附近的一家美国零售连锁超市Target店铺(美国第三大零售商塔吉特)进行抗议:"你们竟然给我17岁的女儿发婴儿尿片和童车的优惠券。"店铺经理立刻向来者承认错误,但是其实该经理并不知道这一行为是总公司运行数据挖掘的结果。如图2-1所示。一个月后,这位父亲来道歉,因为这时他才知道他的女儿的确怀孕了。Target比这位父亲知道他女儿怀孕的时间足足早了一个月。数据挖掘研究发展对于大

5、规模数据的存储、管理和使用,包括在分布式环境上建立数据仓库的方式方法。知识发现语言的形式化描述和算法,既研究专门用于知识发现的数据挖掘语言。数据挖掘过程中的可视化方法,使知识发现的过程能够更容易被用户理解,业便于在知识发现的过程中进行人机交互。生物信息和基因的数据挖掘。Web数据挖掘的各个方面。数据挖掘十大经典算法C4.5一种分类决策树算法TheK-meansalgorithm即k-means算法SVM(SupportVectorMachine)支持向量机TheAprioriAlgorithm最大期望(EM)算法PageRankAd

6、aBoostKNN,K最近邻分类算法NaiveBayes朴素贝叶斯CART,分类与回归树分类算法应用直邮营销客户流失模型垃圾邮件处理信用卡分级分类算法基于决策树的分类算法决策树其叶节点是类别名称,中间节点是带有分枝的属性,每个分枝对应该属性的某一可能值。if(obj.相貌==‘帅’)then{if(obj.财富>=1000000000)then{print(obj.Name+"高富帅");}else{print(obj.Name+“是帅哥");}else{if(obj.财富>=1000000000)then{print(obj.Na

7、me+”是高富");}else{print(obj.Name+"是屌丝");}}分类算法:决策树构建过程(1)我们先根据训练子集形成一个初始的决策树。(2)如果该树不能对所有对象给出正确的分类,那么选择一些例外加入到训练子集中。(3)重复该过程一直到形成正确的决策集。分类算法:神经网络神经网络是通过对人脑的基本单元————神经元的建模和链接,探索模拟人脑神经系统功能的模型,并研制一种具有学习、记忆和模式识别等智能信息处理功能的人工系统。神经元结构分类算法:神经网络简单BP神经网络蠓虫分类问题可概括叙述如下:生物学家试图对两种蠓虫(A

8、f与Apf)进行鉴别,依据的资料是触角和翅膀的长度,已经测得了9支Af和6支Apf的数据如下:Af:(1.24,1.27),(1.36,1.74),(1.38,1.64),(1.38,1.82),(1.38,1.90),(1.40,1

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。