北京工业大学-数据挖掘.docx

北京工业大学-数据挖掘.docx

ID:58371798

大小:1.10 MB

页数:18页

时间:2020-04-30

北京工业大学-数据挖掘.docx_第1页
北京工业大学-数据挖掘.docx_第2页
北京工业大学-数据挖掘.docx_第3页
北京工业大学-数据挖掘.docx_第4页
北京工业大学-数据挖掘.docx_第5页
资源描述:

《北京工业大学-数据挖掘.docx》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、数据挖掘老师范围最简知识点第一章数据仓库:是一个面向主题的,集成的,时变的,非易失的的数据集合数据挖掘:就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘分析方法:分类、估值、预言、相关性分组或关联规则、聚集、描述和可视化数据挖掘的过程:第二章数据属性:是一个数据字段,表示数据对象的一个特征属性类别:标称的二元的序数的数值的数据的中心趋势度量方法:均值、中位数、众数数据相似性和异度量方法:欧式距离:它是在m维空间中两个点之间的真实距离

2、曼哈顿距离:切比雪夫距离:例子上下为一题闵可夫斯基距离:第三章数据预处理:是指在主要的处理以前对数据进行的一些处理。比如缺项,噪声(工资=-100),不匹配(年龄和出生日期不匹配),冗余等等。原因:l不完备:丢失属性,缺少某个感兴趣的属性,或仅含累计值。l噪声:包含错误点和离群点l不一致:存在代码或者名称的分歧数据预处理中的主要任务:数据清理、数据集成、数据归纳、数据变换处理缺失值数据的方法:l忽略:删除带有缺失值的属性或者案例、适用于错误率低的数据l手工填充缺失值l自动填充缺失值(根据推理得到)离群点分析的方法:通过如聚类

3、来检测离群点聚类将类似的值组织成群或“簇”,落在簇集合之外的值被视为离群点如何对数据进行分箱:分箱方法通过考察数据的“临近”来光滑有序数据值l箱均值光滑l箱中位数光滑l箱边界光滑。第四章数据仓库与OLAP技术数据仓库概念:数据仓库是一个面向主题的、集成的、随时间而变化的、不容易丢失的数据集合,支持管理部门的决策过程数据仓库特点:面向主题的、集成的、随时间而变化的(反映历史变化)、不容易丢失(相对稳定)数据仓库的组成:l数据库l数据抽取工具(ETL)l元数据l访问工具l数据集市l数据仓库管理工具l信息发布系统数据仓库的体系结构

4、:三层数据仓库模型联系分析处理OLAP:概念:即联机分析处理,是数据仓库的核心部心,所谓数据仓库是对于大量已经由OLTP形成的数据的一种分析型的数据库,用于处理商业智能、决策支持等重要的决策信息OLAP特点:l快速性:快速反应能力l可分析性:OLAP系统应能处理与应用有关的任何逻辑分析和统计分析l多维性:系统必须提供对数据分析的多维视图和分析,包括对层次维和多重层次维的完全支持。l信息性:不论数据量有多大,也不管数据存储在何处,OLAP系统应能及时获得信息,并且管理大容量信息。第五章关联规则基本概念频繁模式:是频繁地出现在数

5、据集中的模式(如项集、子序列或子结构)频繁集项:根据特征提取器得到的特征向量给一个被测对象附一个类别标记。支持度(support)支持度:{X,Y}同时出现的概率,例如:{尿布,啤酒}同时出现的概率{尿布,啤酒}的支持度=800/10000=0.08{尿布,面包}的支持度=100/10000=0.01**{尿布,啤酒}的支持度等于{啤酒,尿布}的支持度,支持度没有先后顺序之分置信度(confidence)置信度:购买X的人,同时购买Y的概率,例如:购买尿布的人,同时购买啤酒的概率,而这个概率就是购买尿布时购买啤酒的置信度(尿

6、布->啤酒)的置信度=800/1000=0.8(啤酒->尿布)的置信度=800/2000=0.4支持度与置信度规则的支持度和置信度是两个规则兴趣度度量,它们分别反映发现规则的有用性和确定性Apriori算法:原理:Apriori使用一种称作逐层搜索的迭代方法,k-项集用于探索(k+1)-项集。首先,找出频繁1-项集的集合。该集合记作L1。L1用于找频繁2-项集的集合L2,而L2用于找L3,如此下去,直到不能找到频繁k-项集。找每个Lk需要一次数据库扫描。步骤简化:1.连接2.剪枝3.验证4.回到1,直到没有频繁集生成FP-t

7、ree算法:原理:FPTree算法改进了Apriori算法的I/O瓶颈,巧妙的利用了树结构来提高算法运行速度。利用内存数据结构以空间换时间。步骤:5.扫描数据,得到所有频繁一项集的的计数。然后删除支持度低于阈值的项,将1项频繁集放入项头表,并按照支持度降序排列。6.扫描数据,将读到的原始数据剔除非频繁1项集,并按照支持度降序排列。7.读入排序后的数据集,插入FP树,插入时按照排序后的顺序,插入FP树中,排序靠前的节点是祖先节点,而靠后的是子孙节点。如果有共用的祖先,则对应的公用祖先节点计数加1。插入后,如果有新节点出现,则项

8、头表对应的节点会通过节点链表链接上新节点。直到所有的数据都插入到FP树后,FP树的建立完成。8.从项头表的底部项依次向上找到项头表项对应的条件模式基。从条件模式基递归挖掘得到项头表项项的频繁项集。1.如果不限制频繁项集的项数,则返回步骤4所有的频繁项集,否则只返回满足项数要求的频繁项集。第

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。