数据挖掘讲义

数据挖掘讲义

ID:34147394

大小:1.87 MB

页数:387页

时间:2019-03-03

数据挖掘讲义_第1页
数据挖掘讲义_第2页
数据挖掘讲义_第3页
数据挖掘讲义_第4页
数据挖掘讲义_第5页
资源描述:

《数据挖掘讲义》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、数据挖掘主讲教师:王灿E-mail:wangcanh@hotmail.com教科书和参考书¢教科书ß数据挖掘:概念与技术,JiaweiHan和MichelineKamber著,机械工业出版社(2001)中文版英文影印版¢参考书ß数据挖掘原理,DavidHand,HeikkiMannila和PadhraicSmyth著,机械工业出版社(2003)主要内容¢数据挖掘综述¢数据仓库和数据挖掘的OLAP技术¢数据预处理数据挖掘的发展动力---需要是发明之母¢数据爆炸问题ß自动数据收集工具和成熟的数据库技术使得大量的数据被收集,存储在数据库、数据仓库或其他信息库中以待分析。¢我们

2、拥有丰富的数据,但却缺乏有用的信息¢解决方法:数据仓库技术和数据挖掘技术ß数据仓库(DataWarehouse)和在线分析处理(OLAP)ß数据挖掘:在大量的数据中挖掘感兴趣的知识(规则,规律,模式,约束)数据库技术的演化¢1960s和以前:ß文件系统¢1970s:ß层次数据库和网状数据库¢1980s早期:ß关系数据模型,关系数据库管理系统(RDBMS)的实现¢1980s晚期:ß各种高级数据库系统(扩展的关系数据库,面向对象数据库等等.)ß面向应用的数据库系统(spatial数据库,时序数据库,多媒体数据库等等)¢1990s:ß数据挖掘,数据仓库,多媒体数据库和网络数据

3、库¢2000sß流数据管理和挖掘ß基于各种应用的数据挖掘ßXML数据库和整合的信息系统什么是数据挖掘?¢数据挖掘(从数据中发现知识)ß从大量的数据中挖掘哪些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识ß挖掘的不仅仅是数据(所以“数据挖掘”并非一个精确的用词)¢数据挖掘的替换词ß数据库中的知识挖掘(KDD)、知识提炼、数据/模式分析、数据考古、数据捕捞、信息收获等等。¢并非所有东西都是“数据挖掘”ß查询处理.ß专家系统或是小型的数学计算/统计程序数据挖掘的应用¢数据分析和决策支持ß市场分析和管理¢目标市场,客户关系管理(CRM),市场占有量分析,交叉销售

4、,市场分割ß风险分析和管理¢风险预测,客户保持,保险业的改良,质量控制,竞争分析ß欺骗检测和异常模式的监测(孤立点)¢其他的应用ß文本挖掘(新闻组,电子邮件,文档)和WEB挖掘ß流数据挖掘ßDNA和生物数据分析数据挖掘应用——市场分析和管理(1)¢数据从那里来?ß信用卡交易,会员卡,商家的优惠卷,消费者投诉电话,公众生活方式研究¢目标市场ß构建一系列的“客户群模型”,这些顾客具有相同特征:兴趣爱好,收入水平,消费习惯,等等ß确定顾客的购买模式¢交叉市场分析ß货物销售之间的相互联系和相关性,以及基于这种联系上的预测数据挖掘应用——市场分析和管理(2)¢顾客分析ß哪类顾客购

5、买那种商品(聚类分析或分类预测)¢客户需求分析ß确定适合不同顾客的最佳商品ß预测何种因素能够吸引新顾客¢提供概要信息ß多维度的综合报告ß统计概要信息(数据的集中趋势和变化)数据挖掘应用——公司分析和风险管理¢财务计划ß现金流转分析和预测ß交叉区域分析和时间序列分析(财务资金比率,趋势分析等等)¢资源计划ß总结和比较资源和花费¢竞争ß对竞争者和市场趋势的监控ß将顾客按等级分组和基于等级的定价过程ß将定价策略应用于竞争更激烈的市场中数据挖掘应用——欺诈行为检测和异常模式的发现¢方法:对欺骗行为进行聚类和建模,并进行孤立点分析¢应用:卫生保健、零售业、信用卡服务、电信等ß汽车

6、保险:相撞事件的分析ß洗钱:发现可疑的货币交易行为ß医疗保险¢职业病人,医生以及相关数据分析¢不必要的或相关的测试ß电信:电话呼叫欺骗行为¢电话呼叫模型:呼叫目的地,持续时间,日或周呼叫次数.分析该模型发现与期待标准的偏差ß零售产业¢分析师估计有38%的零售额下降是由于雇员的不诚实行为造成的ß反恐怖主义其他应用¢体育竞赛ß美国NBA的29个球队中,有25个球队使用了IBM分析机构的数据挖掘工具,通过分析每个对手的数据(盖帽、助攻、犯规等数据)来获得比赛时的对抗优势。¢天文学ßJPL实验室和Palomar天文台就曾经在数据挖掘工具的帮助下发现了22颗新的恒星¢网上冲浪ß通

7、过将数据挖掘算法应用于网络访问日志,从与市场相关的网页中发现消费者的偏爱和行为,分析网络行销的有效性,改善网络站点组织。这就是新兴的WEB挖掘研究数据挖掘:数据库中的知识挖掘(KDD)模式评估ß数据挖掘——知识挖掘的核心数据挖掘任务相关数据数据仓库选数据清理数据集成数据库知识挖掘的步骤¢了解应用领域ß了解相关的知识和应用的目标¢创建目标数据集:选择数据¢数据清理和预处理:(这个可能要占全过程60%的工作量)¢数据缩减和变换ß找到有用的特征,维数缩减/变量缩减,不变量的表示。¢选择数据挖掘的功能ß数据总结,分类模型数据挖掘,回归分析,关联规

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。