数据挖掘作业62407

数据挖掘作业62407

ID:41470033

大小:59.11 KB

页数:3页

时间:2019-08-25

数据挖掘作业62407_第1页
数据挖掘作业62407_第2页
数据挖掘作业62407_第3页
资源描述:

《数据挖掘作业62407》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、数据挖掘简介统计学专业200812112孙亚林摘要:随着网络、数据库技术的迅速发畏以及数据库管理系统的广泛应用,人们积累的数据越来越多。数据挖掘(DataMining)就是从人址的实际应用数据中提取隐含信息和知识,它利用了数据库、人工智能和数理统计等多方面的技术,是--类深层次的数据分析方法。关键词:数据挖掘;知识;分析;市场营销;金融投资随着网络、数据库技术的迅速发展以及数据库管理系统的广泛应用,人们积累的数据越来越多。由此,数据挖掘技术应运而生。下面,本文对数据技术及其应用作简单介绍。一、数据挖掘定义数据挖掘(DataMining)就是从大量的、不完全的、有

2、噪声的、模糊的、随机的实际应用数据中,捉取隐含在其屮的、人们事先不知道的、但乂是潜在有用的信息和知识的过程。它是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。简而言Z,数据挖掘其实是-类深层次的数据分析方法。从这个角度数据挖掘也可以描述为:按企业制定的业务Id标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进有效的方法。二、数据挖掘技术数据挖掘技术是人们氏期对数据库技术进行研究和开发的结果,代写论文其中数据仓库技术的发展打数

3、据挖掘有着密切的关系。大部分情况下,数据挖掘都要先把数据从数据仓库中拿到数据挖掘库或数据集市中,因为数据仓库会対数据进行清理,并会解决数据的不一•致问题,这会给数据挖掘带來很多好处。此外数据挖掘还利川了人工智能(AI)和统计分析的进步所带来的好处,这两门学科都致力于模式发现和预测。数据库、人工智能和数理统计是数据挖掘技术的三大支柱。由于数据挖掘所发现的知识的不同,其所利用的技术也有所不同。1•广义知识。指类別特征的概括性描述知识。根据数据的微观特性发现其表征的、带有普遍性的、较高层次概念的、中观和宏观的知识,反映同类事物的共同性质,是对数据的概括、精炼和抽象。广

4、义知识的发现方法和实现技术有很多,如数据立方休等。数据立方体的基本思想是实现某些常用的代价较简的聚集函数的讣算,诸如计数、求和、平均、最大值等,并将这些实现视图储存在多维数据库中。而面向属性的归约是以类SQL语言来表示数据挖掘杳询,收集数据库中的相关数据集,然后在相关数据集上应用一系列数据推广技术进行数据推广,包括属性删除、概念树提升、属性阈值控制、计数及其他聚集函数传播等。2.关联知识。它反映一个事件和具他事件之间依赖或关联的知识。如果两项或多项属性之间存在关联,那么其屮一项的属性值就可以依据其他属性值进行预测。最为著名的关联规则发现方法是Prior算法和FP

5、-Growth算法。关联规则的发现可分为两步:第一步是迭代识别所冇的频繁项目集,要求频繁项1=1集的支持率不低于用户设定的最低值;第二步是从频繁项目集中构造可信度不低于用八设定的最低值的规则。识别或发现所有频繁项目集是关联规则发现算法的核心,也是计算量最大的部分。3.分类知识。它反映同类事物共同性质的特征型知识和不同事物之间的差异型特征知识。分类方法有决策树、朴索贝叶斯、神经网络、遗传算法、粗糙集方法、模糊集方法、线性冋归和K-Means划分等。其中最为典型的分类方法是决策树。它是从实例集中构造决策树,是一种有指导的学习方法。该方法先根据训练子集形成决策树,如果

6、该树不能对所有对象给岀正确的分类,那么选择一些例外加入到训练子集中,重复该过程一直到形成止确的决策集。最终结果是一棵树,其叶结点是类名,中间结点是带有分枝的屈性,该分枝对应该屈性的某一口J能值。2.预测型知识。它根据时间序列型数据,山历史的和当前的数据去推测未來的数据,也可以认为是以时间为关键属性的关联知识。冃前,时间序列预测方法有经典的统计方法、神经网络和机器学习等。1968年BoX和Jenkins提出了一套比较完善的时间序列建模理论和分析方法,这些经典的数学方法通过建立随机模型,进行时间序列的预测。由于人量的时I'可序列是非平稳的,其特征参数和数据分布随着吋

7、间的推移而发生变化。因此,仅仅通过对某段历史数据的训练,建立单一的神经网络预测模型,还无法完成准确的预测任务。为此,人们提出了基丁•统计学和基于精确性的再训练方法,当发现现存预测模型不再适用于当前数据时,对模型重新训练,获得新的权重参数,建立新的模型。3.偏差型知识。它是对差异和极端特例的描述,揭示事物偏离常规的异常现象,如标准类外的特例、数据聚类外的离群值等。所有这些知识都可以在不同的概念层次上被发现,并随着概念层次的提升,从微观到中观、到宏观,以满足不同用八不同层次决策的需要。三、数据挖掘流程数据挖掘是指一个完整的过程,该过程从大型数据库中挖掘先询未知的、有

8、效的、可实用的信息,代写

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。