欢迎来到天天文库
浏览记录
ID:13202696
大小:54.50 KB
页数:8页
时间:2018-07-21
《数据挖掘概念与技术》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、数据挖掘概念与技术一.什么是数据挖掘,数据挖掘的知识体系及应用范围1.定义:又称数据中的知识发现,从大量的数据中挖掘有趣模式和知识的过程。知识发现的过程: 1).数据清理:除噪声和删除不一致数据 2).数据集成:多种数据源的组合 3).数据选择:取和分析与任务相关的数据 4).数据变换:数据变换和统一成适合挖掘的形式 5).数据挖掘:使用智能方法提取数据格式 6).模式评估:识别代表知识的有趣模式 7).知识表示:使用可视化和知识表示技术,向用户提供挖掘的知识2.为什么要进行数据挖掘 未来将是大数
2、据时代,IDC(国际数据公司)研究报告指出2012年全球信息资料量为2.8ZB(2的40次方GB),而在2020年预计会达到40ZB,平均每人拥有5247GB的数据。庞大的数据量背后隐藏着巨大的潜在价值,人们手握巨量的数据却没有很好的手段去充分挖掘其中的价值,因此对数据挖掘的研究可以帮助我们将数据转化成知识。3.数据挖掘的知识体系 数据挖掘作为一个应用驱动的领域,吸纳了许多应用领域的技术,包括:统计学、机器学习、模式识别、数据库和数据仓库、信息检索、可视化、算法、高性能计算等。数据挖掘的任务分类:描
3、述性任务:刻画目标数据的一般性质预测性任务:归纳及做出预测数据挖掘功能:1).数据特征化与数据区分2).频繁模式3).关联和相关性挖掘4).分类和回归5).聚类分析6).离群点分析4.数据挖掘应用领域1.金融数据分析82.零售与电信业:例如分析零售数据有利于做出正确的决策;产品推荐;顾客保有及促销策略3.科学与工程数据挖掘4.网络数据挖掘:社交网络用户行为分析,多媒体、文本和web数据分析5.信息检索:搜索引擎、云计算、数据仓库 二.认识数据1.属性总结:标称属性:一些符号和事物的名称,如头发颜色和学历
4、是描述人的属性。二元属性:只有0、1两种状态序数属性:可能的值具有有意义的序,如教师职称数值属性:定量的,用实数值表示2.度量数据的相似性和相异性(即数据的邻近性)非对称二元属性:Jaccard属性数值属性:欧几里得距离、曼哈顿距离、闵可夫斯基距离、上确界距离相似性评估:余弦相似性(用于比较文档)、Tanimoto系数3.数据预处理1).数据清理:填补缺失值、光滑噪声、识别离群点、纠正数据不一致性,通常是一个两步迭代过程,包括偏差检测盒数据变换 处理缺失值:有忽略元组、人工填写、全局常量填充、
5、 均值或中位数填充、同类均值或中位数填充、最可能值填充六种方法。 噪声数据处理:分箱(考察近邻数据值,有箱均值、箱中位数、箱边界光滑方法) 回归、离群点分析2).数据集成:将来自多个数据源的数据整合成一致的数据存储实体识别问题:模式集成和对象匹配。如在一个系统中discount用于订单,而在另一个系统中用于商品,集成不正确导致商品不正确打折冗余和相关分析:冗余指一个属性能由另一个或另一组属性导出,则这个属性是冗余的,可用相关分析检测到。标称数据使用卡方
6、检验,数值属性用相关系数和协方差3).数据规约:简化数据集的表示,包括维规约和数值规约维规约:数据压缩技术(如小波变换和主成分分析),属性子集选择,属性构造数值规约:参数模型(如回归),非参数模型(聚类、抽样、直方图)4).数据变换:将数据变换成适于挖掘的形式变换策略包括:光滑,属性构造,聚集,规范化,离散化,由标称数据产生概念分层。 8 三.数据仓库与数据立方体技术1.数据仓库基本概念: 1).数据仓库定义:一个面向主题的、集成的、时变的、非易失的数据集合,支持管理者的决策过程。 2).数据库与数
7、据仓库的区别: 主要区别在于数据库是面向事务操作处理的,而数据仓库是面向分析信息处理的。 数据库的用户为数据库专业人员、处理日常操作,而数据仓库为主管和分析人员,为决策提供支持。 3).数据仓库体系架构:底层数据,中间层OLAP服务器,顶层前端工具 4).数据仓库模型: 企业仓库:提供企业范围内的数据集成,企业范围的 数据集市:包含企业范围数据的一个子集,对特定的用户群,咸鱼选定的主题,部门范围的。 虚拟仓库:操作数据库上视图的集合2.数据仓
8、库建模数据立方体:允许以多维数据建模和观察,由维(属性)和事实(数值)定义方体:给定诸维的每个可能的自己产生一个方体,结果形成方体的格,方体的格称作数据立方体。 多维模型: 星形模式:包括一个大的中心表(事实表)、一组小的附属表(维表),维表围绕中心表 雪花模式:是星形的表变种,某些维表被规范化费解到附加的表中,用于数据集市 事实星座:多个事实表分享维表,用于复杂的应用,常用于企业数据仓库3.典型O
此文档下载收益归作者所有