数据挖掘基本概念与应用

数据挖掘基本概念与应用

ID:37791476

大小:1.57 MB

页数:55页

时间:2019-05-31

数据挖掘基本概念与应用_第1页
数据挖掘基本概念与应用_第2页
数据挖掘基本概念与应用_第3页
数据挖掘基本概念与应用_第4页
数据挖掘基本概念与应用_第5页
资源描述:

《数据挖掘基本概念与应用》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、数据挖掘基本概念与应用腾讯研究院数据分析研究室报告内容数据挖掘的基本概念数据挖掘与统计分析数据挖掘的基本算法数据挖掘实施方法论总结与讨论数据挖掘的基本概念改变未来世界的十大新兴技术《TechnologyReview》(麻省理工学院2002年1月出刊)机器与人脑的接口塑胶晶体管数据挖掘(DataMining)数字权利管理生物测定学(Biometrics)语言识别处理微光学技术(Microphotonics)解开程序代码(UntanglingCode)机器人设计微应用流体学(Microfluidics)什么是数据挖掘?DataInformat

2、ionKnowledgeWisdom存在太多数据挖掘的定义,但基本上有这样一种描述结构Tofind/discover/extract/dredge/harvest、、、Interesting/novel/useful/implicit/actable/meaningful、、、Information/knowledge/patterns/trends/rules/anomalies、、、Inmassivedata/largedataset/largedatabase/datawarehouse、、、Data+contextInformat

3、ion+rulesKnowledge+experience为什么会出现数据挖掘?数据爆炸性增长是数据挖掘技术应运而生的根本原因。只见树木,不见森林(Drowningindatabutstarvingforinformation)计算复杂度数据管理问题数据类型的多样性处理大容量数据是数据挖掘技术区别于其他数据分析方法的唯一标志吗?其他数据分析方法:统计学从处理数据的角度看、、、数据规模不同数据来源不同:观测数据(SecondaryAnalysis)VS试验数据(PrimaryAnalysis)数据类型不同(结构化数据、半结构化数据、非结构化

4、数据)从分析思想的角度看更关注实证性分析(EmpiricalAnalysis)而非探索性分析(ExploratoryAnalysis)更关注模型(Model)而非算法(Algorithm)但二者具有相当密切的联系从数据分析的角度,统计学现在是且仍将是数据挖掘最重要的技术支撑和思想源泉更加深入的渗透和交叉(如探索性数据分析,EDA)数据挖掘是数据驱动的探索性分析!数据挖掘:多学科的汇合数据挖掘数据库技术统计学其它学科信息科学机器学习可视化人工智能科学计算数据挖掘是一个过程“fromdataminingtoknowledgediscovery

5、indatabase”.U.fayyad,G.P.ShapiroandP.Smyth(1996)数据挖掘过程中的数据预处理数据清洗填充缺失值,修均噪声数据,识别或删除孤立点,并解决数据不一致问题主要分析方法:分箱(Binning)、聚类、回归数据集成多个数据库、数据方或文件的集成数据变换规范化与汇总数据简化减少数据量的同时,还可以得到相同或相近的分析结果主要分析方法:抽样、主成分分析数据离散化数据简化的一部分,但非常重要(尤其对于数值型数据来说)数据挖掘过程中的数据探索探索性数据分析(ExploratoryDataAnalysis,EDA

6、)探索性地查看数据,概括数据集的结构和关系对数据集没有各种严格假定“玩”数据主要任务数据可视化(apictureisworthathousandwords)残差分析(数据=拟合+残差)数据的重新表达(什么样的尺度-对数抑或平方根-会简化分析?)方法的耐抗性(对数据局部不良的不敏感性,如中位数耐抗甚于均值)常见方法统计量,如均值、方差、根方差、协方差、峰度、偏度、相关系数等统计图,如饼图、直方图、散点图、箱尾图等模型,如聚类什么不是数据挖掘?定量分析(QuantitativeAnalysis)的需要存在企业管理运行的各个侧面或环节,但并非所

7、有的定量分析问题都可以归结到数据挖掘范畴的问题。简单的报表、图表及多维分析仍是日常分析工作的主要内容小样本数据的分析传统统计分析方法更成熟有效,如趋势预测某些特定业务问题无法用数据挖掘算法加以解决,例如资源最优配置问题是个运筹学问题某些物流管理问题或者供应链管理问题是个随机规划问题营销预演本质是个系统仿真问题报告内容数据挖掘的基本概念数据挖掘与统计分析数据挖掘的基本算法数据挖掘实施方法论总结与讨论数据挖掘与统计分析统计学与数据挖掘的联系从处理数据数据挖掘中采用了大量统计学的思想、方法和工具聚类分析(无监督学习过程,统计分析中的主要技术)K

8、-MeansSelfOrganizingMap(SOM)数据分类(有监督学习过程)统计分类技术:距离判别,费雪判别,贝叶斯判别数据挖掘中的分类技术:决策树,神经网络其他方法相关分析主成分分析回

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。