GDPU信管数据挖掘期末复习.doc

GDPU信管数据挖掘期末复习.doc

ID:48043163

大小:162.50 KB

页数:4页

时间:2020-01-20

GDPU信管数据挖掘期末复习.doc_第1页
GDPU信管数据挖掘期末复习.doc_第2页
GDPU信管数据挖掘期末复习.doc_第3页
GDPU信管数据挖掘期末复习.doc_第4页
资源描述:

《GDPU信管数据挖掘期末复习.doc》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第一章1.几个概念:Ø数据是“客观事物的属性、数量、位置及相互关系等的抽象表示”Ø信息是“数据所表示的语义”Ø知识是“以各种不同方式把多个信息关联在一起的信息结构”或者说知识是“多个信息之间的关联”。2.数据挖掘:把数据转换成有用的知识和信息3.KDD(知识发现):KnowledgeDiscoveryinDatabases。KDD就是要从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识。4.数据来源:关系数据库、事物数据库、文本数据库、多媒体数据库等5.数

2、据挖掘的步骤:1、数据清理:消除重复的、不完全的、违反语义约束的数据2、数据集成:多种数据源可以组合在一起3、数据选择:从数据库中检索与分析任务相关的数据4、数据变换:数据变换或统一成适合挖掘的形式,如通过汇总或聚集操作5、数据挖掘:使用智能方法提取数据模式6、模式评估:根据某种兴趣度度量,识别表示知识的真正有趣的模式7、知识表示:使用可视化和知识表示技术,向用户提供挖掘的知识6.最常用的数据挖掘技术有:统计方法,机器学习方法,神经计算,可视化7.数据挖掘功能----用于指定数据挖掘任务中要找的模式类型。数据挖掘任务-----

3、-描述和预测。第二章1.数据预处理的必要性----数据具有:²杂乱性(数据仓库里不同的数据库同一个属性用不同的标识符来表示)²重复性(同一个事务在数据库中有不同的物理描述,如姓名)²不完整性(数据值的丢失或不确定)²噪声数据(数据缺失且用默认值来填充缺失项)。2.数据预处理的功能:²数据清理(清洗)------可以去掉数据中的噪声,纠正不一致²数据集成-----将多个数据源合并成一致的数据存储,构成一个完整的数据集,如数据仓库或数据立方体²数据变换(转换)-----将一种格式的数据转换为另一格式的数据(如规范化)²数据归约(消

4、减)----可以通过聚集、删除冗余特性或聚类等方法来压缩数据3.数据清理(清洗):填充空缺的值,识别孤立点,消除噪声,纠正数据中的不一致a.遗漏数据的处理:忽略该元组,人工填写空缺值,使用一个全局常量填充空缺值,使用属性的平均值填充空缺值,利用同类别均值填补遗漏数据,使用最可能的值填充空缺值。b.噪声数据处理:分箱(参考相邻的值进行局部平滑);聚类;计算机和人工检查结合;回归;4.数据集成和变换:A.数据集成:用相关分析检测冗余问题:如果上式的值大于0,则A和B是正相关的,意味A的值随B的值增加而增加。该值越大,一个属性蕴涵另

5、一个的可能性越大。因此,一个很大的值表明A(或B)可以作为冗余而被去掉。如果结果等于0,则A和B是独立的,它们之间不相关。如果结果值小于0,则A和B是负相关的,一个值随另一个减少而增加。B.数据变换:主要是找到数据的特征表示,对数据进行规格化处理。用维变换或转换方式减少有效变量的数目或找到数据的不变式(1)平滑(smoothing):去掉数据中的噪声。这种技术包括分箱(Bin)、聚类和回归。(2)聚集:对数据进行汇总和聚集。例如,可以聚集日销售数据,计算月和年销售额。这一步用来为多粒度数据分析构造数据立方体(3)数据概化:使用

6、概念分层,用高层次概念替换低层次“原始”数据。例如,分类的属性,如street,可以概化为较高层的概念,如city或country。类似地,数值属性,如age映射到较高层概念,如young,middle-age和senior。(4)规范化(规格化):将属性数据按比例缩放,使之落入一个小的特定区间规格化的目的是将一个属性取值范围影射到一个特定范围之内,以消除数值性属性因大小不一而造成挖掘结果的偏差★最小-最大规范化:假定minA,和maxA分别为属性A的最小和最大值假定属性income的最小与最大值分别为$12000和$9800

7、0。我们想映射income到区间[0,1]。根据最小-最大规范化,income值$73000将变换为5.数据归约的意义:6.概念分层:数值属性的概念分层可以根据数据分布分析自动地构造。假定用户对于A11E1ectronics的维location选定了属性集:street,country,province_or_state和city、但没有指出属性之间的层次序。location的概念分层可以按如下步骤自动地产生。首先,根据每个属性的不同值个数,将属性按降序排列。其结果如下(每个属性的不同值数目在括号中):country(15),

8、province_or_state(365),city(3567),street(674339)。其次,按照排好的次序,自顶向下产生分层,第一个属性在最顶层,最后一个属性在最底层。------------------------------------------------

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。