欢迎来到天天文库
浏览记录
ID:10415461
大小:54.00 KB
页数:4页
时间:2018-07-06
《数据挖掘技术与用户知识获取 》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、数据挖掘技术与用户知识获取【摘要题】实践研究【正文】 1 数据挖掘技术概述 随着信息技术的迅速发展,数据库的规模不断扩大,从而产生了大量的数据。为给决策者提供一个统一的全局视角,在许多领域建立了数据仓库。但大量的数据往往使人们无法辨别隐藏在其中的能对决策提供支持的信息,而传统的查询、报表工具无法满足挖掘这些信息的需求。因此,需要一种新的数据分析技术处理大量数据,并从中抽取有价值的潜在知识,数据挖掘(DataMining)技术由此应运而生。数据挖掘技术也正是伴随着数据仓库技术的发展而逐步完善起来的。 数据挖掘是指从数据集合中自动抽
2、取隐藏在数据中的那些有用信息的非平凡过程,这些信息的表现形式为:规则、概念、规律及模式等。它可帮助决策者分析历史数据及当前数据,并从中发现隐藏的关系和模式,进而预测未来可能发生的行为。数据挖掘的过程也叫知识发现的过程,它是一门涉及面很广的交叉性新兴学科,涉及到数据库、人工智能、数理统计、可视化、并行计算等领域。数据挖掘是一种新的信息处理技术,其主要特点是对数据库中的大量数据进行抽取、转换、分析和其他模型化处理,并从中提取辅助决策的关键性数据。数据挖掘是KDD(KnowledgeDiscoveryinDatabase)中的重要技术,它并不是用规
3、范的数据库查询语言(如SQL)进行查询,而是对查询的内容进行模式的总结和内在规律的搜索。传统的查询和报表处理只是得到事件发生的结果,并没有深入研究发生的原因,而数据挖掘则主要了解发生的原因,并且以一定的置信度对未来进行预测,用来为决策行为提供有利的支持。 2 数据挖掘的常用技术 机器学习、数理统计等方法是数据挖掘进行知识学习的重要方法。数据挖掘算法的好坏将直接影响到所发现知识的好坏,目前对数据挖掘的研究也主要集中在算法及其应用方面。统计方法应用于数据挖掘主要是进行数据评估;机器学习是人工智能的另一个分支,也称为归纳推理,它通过学习
4、训练数据集,发现模型的参数,并找出数据中隐含的规则。其中关联分析法、人工神经元网络、决策树和遗传算法在数据挖掘中的应用很广泛。 1)关联分析法。从关系数据库中提取关联规则是几种主要的数据挖掘方法之一。挖掘关联是通过搜索系统中的所有事物,并从中找到出现条件概率较高的模式。关联实际上就是数据对象之间相关性的确定,用关联找出所有能将一组数据项和另一组数据项相联系的规则,这种规则的建立并不是确定的关系,而是一个具有一定置信度的可能值,即事件发生的概率。关联分析法直观、易理解,但对于关联度不高或相关性复杂的情况不太有效。 2)人工神经元网络(ANN
5、),是数据挖掘中应用最广泛的技术。神经网络的数据挖掘方法是通过模仿人的神经系统来反复训练学习数据集,从待分析的数据集中发现用于预测和分类的模式。神经元网络对于复杂情况仍能得到精确的预测结果,而且可以处理类别和连续变量,但神经元网络不适合处理高维变量,其最大的缺点是不透明性,因为其无法解释结果是如何产生的,及其在推理过程中所用的规则。神经元网络适合于结果比可理解性更重要的分类和预测的复杂情况,可用于聚类、分类和序列模式。 3)决策树(DT)是一种树型结构的预测模型,其中树的非终端节点表示属性,叶节点表示所属的不同类别。根据训练数据集中数据的不
6、同取值建立树的分支,形成决策树。与神经元网络最大的不同在于其决策制定的过程是可见的,可以解释结果是如何产生的。决策树一般产生直观、易理解的规则,而且分类不需太多计算时间,适于对记录分类或结果的预测,尤其适用于当目标是生成易理解、可翻译成SQL或自然语言的规则时。决策树也可用于聚类、分类及序列模式,其应用的典型例子是CART(回归决策树)方法。 4)遗传算法(GA)是一种基于生物进化理论的优化技术。其基本观点是“适者生存”原理,用于数据挖掘中则常把任务表示为一种搜索问题,利用遗传算法强大的搜索能力找到最优解。实际上遗传算法是模仿生物进化的过程
7、,反复进行选择、交叉和突变等遗传操作,直至满足最优解。遗传算法可处理许多数据类型,同时可并行处理各种数据,常用于优化神经元网络,解决其他技术难以解决的问题,但需要的参数太多,对许多问题编码困难,一般计算量大。 3 数据挖掘技术在用户知识获取中的应用 网络的发展为用户提供了多种新的信息服务,因特网以其丰富的内容、强大的功能以及简单的操作,在各种信息服务方式中脱颖而出,成为未来信息服务的主要方向。但当前因特网信息服务中更多的是单向、被动的服务模式,而网上用户信息需求的挖掘,可以改进因特网与用户的交互,使因特网与用户真正融为一体,不再是
8、操作与被操作的关系。数据挖掘技术的应用,使因特网能根据用户的需求采取更主动、更有针对性的服务。并且可以建立一种个性化的信息服务系统,针对不同用户的信息需求,提供不同
此文档下载收益归作者所有