资源描述:
《数据仓库与数据挖掘》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、数据仓库与数据挖掘引言数据是知识的源泉。但是,拥有大量的数据与拥有许多有用的知识完全是两回事。过去几年中,从数据库中发现知识这一领域发展的很快。广阔的市场和研究利益促使这一领域的飞速发展。计算机技术和数据收集技术的进步使人们可以从更加广泛的范围和几年前不可想象的速度收集和存储信息。收集数据是为了得到信息,然而大量的数据本身并不意味信息。尽管现代的数据库技术使我们很容易存储大量的数据流,但现在还没有一种成熟的技术帮助我们分析、理解并使数据以可理解的信息表示出来。在过去,我们常用的知识获取方法是由知识工程师把专家经验知识经过分析、筛选、比较、综合、再提取出知识和规则。然而,由于知识
2、工程师所拥有知识的有局限性,所以对于获得知识的可信度就应该打个折扣。目前,传统的知识获取技术面对巨型数据仓库无能为力,数据挖掘技术就应运而生。数据的迅速增加与数据分析方法的滞后之间的矛盾越来越突出,人们希望在对已有的大量数据分析的基础上进行科学研究、商业决策或者企业管理,但是目前所拥有的数据分析工具很难对数据进行深层次的处理,使得人们只能望“数”兴叹。数据挖掘正是为了解决传统分析方法的不足,并针对大规模数据的分析处理而出现的。数据挖掘通过在大量数据的基础上对各种学习算法的训练,得到数据对象间的关系模式,这些模式反映了数据的内在特性,是对数据包含信息的更高层次的抽象[1]。目前,
3、在需要处理大数据量的科研领域中,数据挖掘受到越来越多的关注,同时,在实际问题中,大量成功运用数据挖掘的实例说明了数据挖掘对科学研究具有很大的促进作用。数据挖掘可以帮助人们对大规模数据进行高效的分析处理,以节约时间,将更多的精力投入到更高层的研究中,从而提高科研工作的效率。目录一、数据仓库概念及特征二、数据仓库系统三、数据挖掘的概念及其技术过程四、数据仓库与数据挖掘的关系:五、结论数据仓库概念及特征1、数据仓库概念。数据仓库就是面向主题的、集成的、不可更新的(稳定的)、随时间不断变化的数据集合。与其他数据库应用不同的是,数据仓库更像一种过程,即对分布在企业内部各处的业务数据的整合
4、、加工和分析的过程,而不是一种可以购买的产品。2、数据仓库的特征:①面向主题。数据仓库中的数据是按照一定的主题域进行组织。主题是一个抽象的概念,是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。②集成的。数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上,经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。③相对稳定的。数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查
5、询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。④反映历史变化。数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点到目前各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。二、数据仓库系统数据仓库系统是指具有综合企业数据的能力,能够对大量企业数据进行快速和准确分析,辅助做出更好的商业决策的系统。见图二。它本身包括三部分内容:⑴数据层。实现对企业操作数据的抽取、转换、清洗和汇总,形成信息数据,并存储在企业级的中心信息数据库中。 ⑵应用层。通过联机分析处理,甚至是数据挖掘等应用处理,实现对信息数据的分析。 ⑶表现层。通
6、过前台分析工具,将查询报表、统计分析、多维联机分析和数据发掘的结论展现在用户面前。三、数据挖掘的概念及其技术过程数据挖掘,又称数据库中的知识发现,是指从大型数据库或数据仓库中提取隐含的、未知的、非平凡的及有潜在应用价值的信息或模式,它是数据库研究中的一个很有应用价值的新领域,融合了数据库、人工智能、机器学习、统计学等多个领域的理论和技术。随着人工智能技术在专家咨询、语言处理、娱乐游戏等模式识别领域的应用日益广泛。从选取专业学习、研究方向的实际出发,提出了将数据挖掘应用于辅助选取专业学习、研究方向的数据挖掘技术流程模型。1数据挖掘技术的过程数据挖掘技术是一个多步骤、可能需多次反复
7、的处理过程。主要包括以下几步:准备、数据选择、数据预处理、数据缩减、确定数据挖掘的目标、确定知识发现算法、数据挖掘(DataMining)、模式解释、知识评价,如图所示。其中最重要的一个步骤是数据挖掘,它是利用某些特定的知识发现算法,在可接受的运算效率的限制下,从有效数据中发现有关的知识。2数据挖掘技术主要有四种开采任务:(1)数据总结是对数据进行浓缩,给出它的紧凑描述。数据挖掘是从数据泛化的角度来讨论数据总结。(2)分类发现这是一项非常重要的任务,分类是运用分类器把数据库中的数据项映射到给