数据挖掘技术的综述-论文.pdf

数据挖掘技术的综述-论文.pdf

ID:53033750

大小:198.85 KB

页数:2页

时间:2020-04-14

数据挖掘技术的综述-论文.pdf_第1页
数据挖掘技术的综述-论文.pdf_第2页
资源描述:

《数据挖掘技术的综述-论文.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、数据库技术·DataBaseTechnique数据挖掘技术的综述文/王雅轩顼聪二是人工智能领域中的机器学习型,通过训练掘、统计分析算法中,决策树最大的优点在于数据挖掘技术是当前数据库和学习大量的样品集获得需要的模式或参数。它所产生的一系列从树根到树枝(或树叶)的和人工智能领域研究的热点课题,规则,可以很容易地被分析师和业务人员理解,本文首先对数据挖掘技术的国内2.1遗传算法外总体研究情况进行概略介绍,而且这些典型的规则甚至不用整理(或稍加整包括数据挖掘技术产生背景、应遗传算法是基于生物进化过程组合优化理),就是现成的可以应用的业务优化策

2、略和用领域、分类;然后详细阐述了数据挖掘的各种技术方法,并对方法,它是和计算机科学与生物学结合的产物,业务优化路径。另外,决策树技术对数据的分数据挖掘的应用领域做了相关介由美国密西根大学教授D_J.Holland和他的同布甚至缺失非常宽容,不容易受到极值的影响。绍。事们在1975年首次提出。人们总结的遗传算国际上最有影响的决策树方法是由法基本思想分为两点:第一,将物种进化理论Quinlan研制的ID3方法。ID3(Iterative用于求解问题,物种进化又分为变异和遗传两Dichotomiser)算法其最大的特点在于自变量【关键词】数据

3、挖掘决策支持关联规则模个方面;第二,只有最能适应环境的物种才能的挑选标准是:基于信息增益的度量选择具有式生存下来,所以需要反复求解后才可以获得最最高信息增益的属性作为结点的分裂(分割)佳解。遗传算法按照规则产生经过基因编码最属性,其结果就是对分割后的结点进行分类所初群体,然后从代表问题可能潜在答案的初始需的信息量最小,这也是一种划分纯度的思想。1前言群体出发,选择适应度强的个体进行交换和变决策树技术在数据化运营中的主要用途数据挖掘含义是指从大量、模糊、随机异,目的是发现适应度更佳的个体,这样一代体现在:作为分类、预测问题的典型支持技术,

4、的实际应用数据中,提取隐藏在其内部中、人代地演化,得到最优个体,解码,该最佳个体它在用户划分、行为预测、规则梳理等方面具们原先不知晓的、却潜在有用的信息和编码就是对应的问题最佳解或近似最佳解。在有广泛的应用前景,决策树甚至可以作为其他知识的过程。我们把提取出的信息和知识表示遗传算法的使用上,它的优点是对问题要求信建模技术前期进行变量筛选的一种方法,即通为规律、概念、模式、规则等形式。数据挖掘息较少,比较高效性和灵活性。在数据挖掘中,过决策树的分割来筛选有效地输入自变量。被认为是一门跨多知识领域和学科的新兴课经常用于估测其它算法的适合度,

5、同时遗传算2.4粗糙集方法题,它为我们使用数据从简单查询将变为在数法擅长于数据聚类,通过和空间上类比和时间据里挖掘与发现知识从而产生对决策行为提供上类比,能够使大量复杂数据系统化、条理化,粗糙集理论定位为一种刻划不确定性和支持。为了能够满足人们从大量数据里发现知从而找出他们之间的内在联系,获得有用概念不完整性的数学工具,可以有效地分析和处理识的需求,来自不同领域的专家学者,都致力和模式。不一致、不精确、不完整等信息,以从中发现于研究这个热点课题一一数据挖掘,不断研究隐藏的不为所知的知识,揭示潜在的规律。该2.2关联分析和产生出新的研究成

6、果。自从加拿大蒙特利尔理论是由波兰学者Z.Pawlak教授在1982年提在1995年召开了首届KDD&DataMining国在大型数据库中,关联规则挖掘是最常见出的,从1992年至今,每年召开以RS为主际学术会议,此后每年举办一次。通过数年努的数据挖掘任务之一。关联规则挖掘就是从大题的国际会议,推动了RS理论的拓展和应用。力,数据挖掘技术研究取得了丰硕的成果,不量数据中发现项集之间的相关联系。最著名的粗糙集是处理模糊数据的有力工具,而少数据挖掘的软件产品,已在欧洲、北美等国关联规则挖掘算法是由Agrawal等于1994年要达到这样的目的

7、需要有两个重要的步骤来进家得到广泛的应用。目前,应用广泛的数据挖提出的Apriori算法,其基本思想是:第一找行处理~属性约简和值约简,属性约简是对粗掘系统有:IBM公司的IntelligentMiner、SGI出所有频繁1.项集集合U,使用L1查找频繁糙集合(那些不能区分的集合)进行纵向的简公司的SetMiner、SPSS公司的Clementine、2.项集集合L2,继而用L2用于L3,反复迭代,化,把不必要的属性去掉,即去掉这些属性也SAS公司的EnterpriseMiner、Sybase公司一直到不能找到频繁k一项集。并利用事先设

8、不会影响对象的区分能力,这样便于以后进一的WarehouseStudio、RuleQuestResearch公定好的最小支持度闽值进行筛选,将小于最小步的简约处理司的See5、还有CoverStory、EX

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。