欢迎来到天天文库
浏览记录
ID:34470393
大小:264.76 KB
页数:3页
时间:2019-03-06
《浅述数据挖掘》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、第26卷第9期甘肃科技If_26Ⅳ0.92010年5月GansuScienceandTechnolog3May.2010浅述数据挖掘孙峰(湖南工艺美术职业学院,湖南益阳413000)摘要:随着科技的迅速发展,数据挖掘技术已经成为当前一门新技术。介绍了数据挖掘的概念、功能常用技术和应用。关键词:数据挖掘;概念;功能;应用中图分类号:TP310数据挖掘与OLAP不同的地方是,数据挖掘不1数据挖掘的概念是用于验证某个假定的模式(模型)的正确性,而是数据挖掘是从大量数据中发现有趣模式,其中在数据库中自己寻找模型。他在本质上是一个归纳数据可以存放在数据库、数据仓库或其他信息库中。的过
2、程。比如,一个用数据挖掘工具的分析师想找这是一个年轻的跨学科领域,源于诸如数据库系统、到引起贷款拖欠的风险因素。数据挖掘工具可能帮数据仓库、统计学、机器学习、数据可视化、信息检索他找到高负债和低收入是引起这个问题的因素,甚和高性能计算。其他有贡献的领域包括神经网络、至还可能发现一些分析师从来没有想过或试过的其模式识别、空间数据分析、图像数据库、信号处理和他因素,比如年龄。许多应用领域,如商务、经济学和生物学等。数据挖数据挖掘和OLAP具有一定的互补性。在利用掘是一个知识发现的过程,是从数据集中识别出有数据挖掘出来的结论采取行动之前,你也许要验证效的、新颖的、潜在有用的,以及
3、最终可理解的模式一下如果采取这样的行动会给公司带来什么样的影的非平凡过程。知识发现将信息变为知识,从数据响,那么OLAP工具能回答你的这些问题。矿山中找到蕴藏的知识金块,将为知识创新和知识经济的发展作出贡献。2数据挖掘的功能一个经常问的问题是,数据挖掘和OLAP到底2.1自动预测趋势和行为有何不同。OLAP是决策支持领域的一部分。传统数据挖掘自动在大型数据库中寻找预测性信的查询和报表工具是告诉你数据库中都有什么,息,以往需要进行大量手工分析的问题如今可以迅OLAP则更进一步告诉你下一步会怎么样、和如果速直接由数据本身得出结论。一个典型的例子是市我采取这样的措施又会怎么样。用
4、户首先建立一个场预测问题,数据挖掘使用过去有关促销的数据来假设,然后用OLAP检索数据库来验证这个假设是寻找未来投资中回报最大的用户,其它可预测的问否正确。比如,一个分析师想找到什么原因导致了题包括预报破产以及认定对指定事件最可能作出反贷款拖欠,他可能先做一个初始的假定,认为低收人应的群体。的人信用度也低,然后用OLAP来验证他这个假设。2.2关联分析如果这个假设没有被证实,他可能去察看那些高负数据关联是数据库中存在的一类重要的可被发债的账户,如果还不行,他也许要把收入和负债一起现的知识。若两个或多个变量的取值之间存在某种考虑,一直进行下去,直到找到他想要的结果或放规律性,
5、就称为关联。关联可分为简单关联、时序关弃。也就是说,OLAP分析师是建立一系列的假设,联、因果关联。关联分析的目的是找出数据库中隐然后通过OLAP来证实或推翻这些假设来最终得到藏的关联网。有时并不知道数据库中数据的关联函自己的结论。OLAP分析过程在本质上是一个演绎数,即使知道也是不确定的,因此关联分析生成的规推理的过程。但是如果分析的变量达到几十或上百则带有可信度。个,那么再用OLAP手动分析验证这些假设将是一2.3聚类件非常困难和痛苦的事情。数据库中的记录可被化分为一系列有意义的子甘肃科技第26卷集,即聚类。聚类增强了人们对客观现实的认识,是述问题,出现了许多较好的改进
6、算法,如Schlimmer概念描述和偏差分析的先决条件。聚类技术主要包和Fisher设计了ID4递增式学习算法;钟鸣,陈文伟括传统的模式识别方法和数学分类学。80年代初,等提出了IBLE算法等。Mehalski提出了概念聚类技术物其要点是,在划分3.3遗传算法对象时不仅考虑对象之间的距离,还要求划分出的遗传算法是一种基于生物自然选择与遗传机理类具有某种内涵描述,从而避免了传统技术的某些的随机搜索算法,是一种仿生全局优化方法。遗传片面性。算法具有的隐含并行性、易于和其它模型结合等性2.4概念描述质使得它在数据挖掘中被加以应用。Sunil已成功概念描述就是对某类对象的内涵进行描
7、述,并地开发了一个基于遗传算法的数据挖掘工具,利用概括这类对象的有关特征。概念描述分为特征性描该工具对两个飞机失事的真实数据库进行了数据挖述和区别性描述,前者描述某类对象的共同特征,后掘实验,结果表明遗传算法是进行数据挖掘的有效者描述不同类对象之间的区别。生成一个类的特征方法之一。遗传算法的应用还体现在与神经网络、性描述只涉及该类对象中所有对象的共性。生成区粗集等技术的结合上。如利用遗传算法优化神经网络结构,在不增加错误率的前提下,删除多余的连接别性描述的方法很多,如决策树方法、遗传算法等。和隐层单元;用遗传算法和
此文档下载收益归作者所有