小论文格式数据挖掘

小论文格式数据挖掘

ID:23222094

大小:75.50 KB

页数:7页

时间:2018-11-05

小论文格式数据挖掘_第1页
小论文格式数据挖掘_第2页
小论文格式数据挖掘_第3页
小论文格式数据挖掘_第4页
小论文格式数据挖掘_第5页
资源描述:

《小论文格式数据挖掘》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、数据仓库与数据挖掘技术的研究现状2013级信息管理与信息系统专业1班2013051817郭东平摘要:讨论了数据仓库与数据挖掘技术的研究现状,分别从数据仓库、数据挖掘、数据粒度划分、联机分析处理、决策支持系统和数据仓库与数据挖掘在医院中的应用。通过解析目前数据仓库与数据挖掘技术的基本概念,浅显易懂的阐述了当前发张状况。关键词:数据仓库数据挖掘数据仓库技术是近年来出现的、发展迅速的一种技术,它通过把企业大量的历史数据整理集中到一个中央仓库中,将数据加以分析并呈现给用户来支持管理者的决策。数据仓库是一个整合式的、而向主题的、历史性的以及只读性的数据集合,其主要目的是提供给企业管理者作为管理决策

2、的参考依据。数据挖掘技术作为基于机器学习、模式识别、统计学等领域而发展起来的从数据中获取知识的技术也越来越得到人们的青睐。数据仓库使得人们只花很短的时间就能够从大量的历史数据中奔询出所需的数据,而数据挖掘则可以从这些数据中发现和预测出有价值的信息,数据仓库技术使我们从全新的视角认识了数据的价值。然而,从目前的情况看,在中国数据仓库推广还处于起步阶段,其应用所取得的成绩远不如商家们“炒作”得那么辉煌,仍然存在许多不成熟因素,如计算机应用水平较低、数据保存和管理不完善、人才缺乏、没有真正适合行业特点的应用技术等。但不管怎么说,数据仓库的应用对于中国企业未来加入国际竞争有着不可替代的作用。1数

3、据仓库与数据挖掘数据仓库是一个面向主题的集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。对于数据仓库的概念我们可以从两个层次予以理解:一,数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;二,数据仓库是对多个异构数据源的有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。企业数据仓库的建设是以现有企业业务系统和大量业务数据的积累为基础。数据仓库不是静态的概念,只有把信息及时交给需耍这些信息的使用者,供他们作出改善其业务经营的决策,信息冰能发挥作用,信息冰有意义。而把信息加以整理、归纳和重组,并及时提供给相应的管

4、理决策人员是数据仓库的根本任务。数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的但又是潜在有用的信息和知识的过程。原始数据可以是结构化的,如关系型数据库中的数据,也可以是半结构化的,如文本、图形、图像数据,甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。发现了的知识可以被用于信息管理、查询优化、决策支持、过程控制等,还可以用于数据自身的维护。因此,数据挖掘是一门广义的交叉学科,它汇聚了不同领域的研宄者,尤其是数据库、人工智能、数理统计、可视化、并行计算等方面的学者和工程技术人员2数

5、据仓库中数据粒度的划分确定粒度是数据仓库开发者需要面对的一个最重要的设计问题。如果数据仓库的粒度确定得合理,设计和实现中的其余方面就可以非常顺畅地进行;反之,如果粒度确定得不合理就会使得其它所有方面都很难进行。粒度对于数据仓库体系结构设计人员来说也非常重耍,因为粒度会影响到那些依赖于从中获得数据的数据仓库的所有环境。粒度的主耍问题是使其处于一个合适的级别,粒度的级别既不能太高也不能太低。低的粒度级别能提供详尽的数据,但要占用较多的存储空间和需耍较长的查询时间。高的粒度级别能快速方便的进行查询,但不能提供过细的数据。在选择合适粒度级别的过程中,要结合业务的特点,分析的类型、依据的总的存储空

6、间的等因素综合考虑。其中分析的类型是最主耍的因素。2.1数据仓库中的粒度模型所谓粒度,指的是数据仓库中数据单元的细节程度或综合程度的级别,是数据仓库中记录数据或对数据进行综合时所使用的时间段参数。它决定了数据仓库中所存储的数据单元在时间上的详细程度和级别。粒度可分为两种形式,第一种形式的粒度是对数据仓库中数据综合程度高低的一个度量,它既影响到数据仓库中数据量的多少,也能影响到数据仓库所能回答的讯问的种类。粒度越小,则详细程度越高,综合程度就越低,回答询问的种类也越多;相反,粒度越大,则详细程度越低,综合程度就越高,回答询问的种类也就越少。另一种形式的粒度是样木数据库粒度,与通常意义下的粒

7、度不同,样木数据库的粒度级别不是根据综合程度的不同来划分的,而是根据采样率的高低来划分的。采样粒度不同的样木数据库可以具有相同的综合级别。样木数据库一般是以一定的采样率从细节档案数据或轻度综合数据中抽取的一个子集。它不是一般目的的数据库,而是根据一定需求从数据源中获得的一个样木,因而也就不能回答一些细节性的问题。样木数据库的抽取可以按照数据的重要程度不同来进行。粒度的划分是数据仓库设计工作中一向重要内容。2.2粒度的划分在实际中,上

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。