欢迎来到天天文库
浏览记录
ID:41574391
大小:60.64 KB
页数:5页
时间:2019-08-28
《一种新型数据分析技术》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、数据挖掘种新型数据分析技术摘要:首先介绍了数据挖掘的体系结构,并在此基础上提出了数据挖掘工程的一般方法和步骤,最后介绍了数据挖掘的应用前景。ANovelDataAnalysisTcchnology:DataMiningAbstract:Inthispaperthearchitectureofdataminingisoutlinedandthegeneralmethodsandprocedureofdataminingengineeringispresented・Atlast,thefutureapplicationofdataminingisintroduced.Key
2、words:dataminingj;datawarehouse;knowledgediscovery0引言随着世界上信息总量的不断增加,迫切需要有效的信息分析工具,它们能发现人量数据间隐藏的依赖关系,它们能从大量数据中抽取有用的信息或知识。尽管很早就出现了简单的数据统计技术,但先进的智能数据分析工具尚未成熟。因此,在数据生成和数据理解Z间存在很大的差距。数据挖掘就是为解决这一矛盾而出现的一种新型数据分析技术。数据挖掘旨在能从人型数据库中捉取隐藏的预测性倍息,是构建高效数据仓库的基木操作,乂称知识发现。它能发掘数据间潜在的模式,找出金业经营者可能忽视的信息,以便于理解和观
3、察的形式反映给用户,并为企业作出前摄的、基于知识的决策参考意见。日前国际上在该领域的研究相当活跃,无论在理论上,还是实用技术上都取得了喜人的成果,同时也开发出了各种专用或通用的商业数据挖掘软件。1数据挖掘的体系结构从广义上讲,数据挖掘分为三种类型:全自动、半自动和全交互式。对于全自动技术,一旦系统被创建,无需人的任何干预,它能在后台自动进行操作;对于半自动技术,系统或者在麻台操作,或者采用全交互方式;对于全交互式技术,是一种简单的数据挖掘,它由用户设置每次操作的参数,然后等待相应结果。数据挖掘的体系结构如图1所示:下面对其主耍组成部分分别进行详细说明。1.数据挖掘算法。
4、这部分是数据挖掘的核心部分。它可以综合利用各种人工智能技术。下而介绍儿种常用的数据挖掘技术。⑴粗集方法(RoughSct)o粗集理论是近年來才兴起的研究不精确、不确定性知识的表达、学习、归纳等方法。粗集方法是模拟人类的抽彖逻辑思维,它以各种更接近人们对事物的描述方式的定性、定量或者混合信息为输入,输入空间与输出空间的映射关系是通过简单的决策表简化得到的,它通过考察知识农达屮不同属性的重要性,來确定哪些知识是兀余的,哪些知识是有用的。进行简化知识表达空间是基丁不可分辨关系的思想和知识简化的方法,从数据屮推理逻辑规则作为知识系统的模型。它是基于一个机构(或一组机构)关于一些
5、现实的大量数据信息,以对观察和测量所得数据进行分类的能力为基础,从屮发现、推理知识和分辨系统的某些特点、过程、对象等。(2)遗传算法(GeneticAlgorithms)o遗传算法是基于达尔文的进化论屮基因重组、突变和白然选择等概念。这些算法作用于对某一特定问题的一组可能的解法。它们试图通过组合或“繁殖”现存的最好的解法来产生更好的解法。利用“适者生存”的概念使较差的解法被抛弃,从而导致解法的集合,即繁殖的结果得到改善。通常,解法的随机突变用來防止算法受阻于好的但非最优的解法。(3)神经网络(NeuralNetworks)o人工神经网络是模拟人类的形象直觉思维、是在生物
6、神经网络研究的基础上,根据生物神经元和神经网络的特点,通过简化、归纳、提炼总结出来的一类并行处理网络。利用其非线性映射的思想和并行处理的方法,用神经网络木身结构可以表达输入与输出的关联知识。它完成输入空间与输出空间的映射关系,是通过网络结构不断学习、调整,最后以网络的特定结构来表达的,没有显式函数表达。(4)聚类法(Clustering)o聚类算法是通过对变量的比较,把具有相似特征的数据归于一类。因此,通过聚类以后,数据集就转化为类集,在类集中同一类中数据具有相似的变量值,不同类之间数据的变量值不具有相似性。区分不同的类是属于数据挖掘过程的一-部分,这些类不是事先定义好
7、的,而是通过聚类算法采用全白动方式获得。通常,聚类过程是数据挖掘过程的笫一个阶段。它首先把数据区分于不同的类,以便于做进一步的分析。聚类法大至上可分为两种类型:a.分层聚类(Hierarchical)o分层聚类是基于数学的标准,对数据进行细分或聚合。这种类型适用于数值数据。b.概念聚类(Conceptual)。概念聚类是基于数据的非数值属性,対数据进行细分或聚合。这种类空适用于非数值数据。(5)分类法(Classification)o分类法是最普通的数据挖掘方法之一。它试图按照事先定义的标准(如:通过检查/没有通过检查等)对数据进行归类。
此文档下载收益归作者所有