数据仓库与数据挖掘1简介

数据仓库与数据挖掘1简介

ID:46233116

大小:2.96 MB

页数:45页

时间:2019-11-21

数据仓库与数据挖掘1简介_第1页
数据仓库与数据挖掘1简介_第2页
数据仓库与数据挖掘1简介_第3页
数据仓库与数据挖掘1简介_第4页
数据仓库与数据挖掘1简介_第5页
资源描述:

《数据仓库与数据挖掘1简介》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、数据仓库与数据挖掘DataWarehouseandDataMining数据仓库与数据挖掘动机:为什么要进行数据挖掘数据挖掘的步骤数据挖掘在什么数据上进行数据挖掘功能和分类一些新的研究方向2动机:需要是发明之母数据爆炸问题自动的数据收集工具和成熟的数据库技术导致大量数据存放在数据库、数据仓库和其它信息存储器中我们正被数据淹没,但却缺乏知识解决办法:数据仓库与数据挖掘数据仓库与联机分析处理(OLAP)从大型数据库的数据中提取有趣的知识(规则,规律性,模式,限制等)3什么是数据挖掘数据挖掘(数据库中知识发现)从大型数据库中提取有趣的(非平凡的、蕴

2、涵的、先前未知的且是潜在有用的)信息或模式其它名称数据库中知识发现(挖掘)(Knowledgediscoveryindatabases,KDD),知识提取(knowledgeextraction),数据/模式分析(data/patternanalysis),数据考古(dataarcheology),数据捕捞(datadredging),信息收获(informationharvesting),商务智能(businessintelligence)等4数据挖掘可能的应用数据库分析和决策支持市场分析和管理:针对销售(targetmarketing)

3、,顾客关系管理,购物篮分析,交叉销售(crossselling),市场分割(marketsegmentation)风险分析与管理:预测,顾客关系,改进保险,质量控制,竞争能力分析欺骗检测与管理5数据挖掘可能的应用其它应用文本挖掘(新闻组、email、文档资料)流数据挖掘(Streamdatamining)Web挖掘DNA数据分析6数据仓库与数据挖掘动机:为什么要进行数据挖掘数据挖掘的步骤数据挖掘在什么数据上进行数据挖掘功能和分类一些新的研究方向7数据挖掘的过程数据挖掘:KDD的核心数据清理数据集成数据仓库知识任务相关数据选择数据挖掘模式评估

4、8数据挖掘的过程数据挖掘:KDD的核心数据挖掘与任务相关的数据知识种类领域知识兴趣度量和阈值表示9KDD的步骤学习应用领域相关的先验知识和应用的目标创建目标数据集:数据选择数据清理和预处理(可能占全部工作的60%!)数据归约与变换发现有用的特征,维/变量归约,不变量的表示选择数据挖掘函数汇总,分类,回归,关联,聚类10KDD的步骤选择挖掘算法数据挖掘:搜索有趣的模式模式评估和知识表示可视化,变换,删除冗余模式,等发现知识的使用11典型的数据挖掘系统结构知识库图形用户界面模式评估数据挖掘引擎数据库或数据仓库服务器数据库数据仓库过滤数据清洗和集

5、成12数据仓库与数据挖掘动机:为什么要进行数据挖掘数据挖掘的步骤数据挖掘在什么数据上进行数据挖掘功能和分类一些新的研究方向13数据挖掘在什么数据上进行平面文件关系数据库包括面向对象和对象-关系数据库事务(交易)数据库异种数据库和遗产数据库14数据挖掘在什么数据上进行数据仓库数据源清洗、装载、转换、集成数据仓库查询及分析工具客户15数据挖掘在什么数据上进行数据仓库数据源数据挖掘文件数据库数据仓库网页……16数据挖掘在什么数据上进行数据仓库查询/报表分析数据挖掘输出OLAPserverOLAPserver监控管理数据仓库数据集市元数据存储清洗装

6、载转换集成操作型数据库外部数据源Toptier:前端工具Middletier:OLAPserverBottomtier:数据仓库server数据17数据挖掘在什么数据上进行多媒体数据库空间数据库18数据挖掘在什么数据上进行时间序列数据库19数据挖掘在什么数据上进行文本数据库WWW20数据仓库与数据挖掘动机:为什么要进行数据挖掘数据挖掘的步骤数据挖掘在什么数据上进行数据挖掘功能和分类一些新的研究方向21数据挖掘的功能概念描述:特征和区分概化,汇总,比较数据特征,如干燥和潮湿的地区关联(相关和因果关系)多维和单维关联age(X,“20..29”

7、)^income(X,“20..29K”)buys(X,“PC”)[support=2%,confidence=60%]contains(T,“computer”)contains(T,“software”)[support=1%,confidence=75%]22数据挖掘的功能分类和预测找出描述和识别类或概念的模型(函数),用于将来的预测例如根据气候对国家分类,或根据单位里程的耗油量对汽车分类表示:决策树(decision-tree),分类规则,神经元网络预测:预测某些未知或遗漏的数值23数据挖掘的功能聚类分析类标号(Classlab

8、el)未知:对数据分组,形成新的类。例如,对房屋分类,找出分布模式聚类原则:最大化类内的相似性,最小化类间的相似性24数据挖掘的功能孤立点(Outlier)分析孤立点:一个数据对

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。