大规模数据库的数据挖掘系统概述.pdf

大规模数据库的数据挖掘系统概述.pdf

ID:53017104

大小:196.99 KB

页数:2页

时间:2020-04-12

大规模数据库的数据挖掘系统概述.pdf_第1页
大规模数据库的数据挖掘系统概述.pdf_第2页
资源描述:

《大规模数据库的数据挖掘系统概述.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、187晨工案技术电子技术大规模数据库的数据挖掘系统概述张云峰’,宋艳(1.北华航天工业学院,河北廊坊065000;2.北奔重型汽车集团有限公司,内蒙古包头014032)摘要:随着信息技术的发展,数据库技术已经从最初的文件处理演变成一个复杂而且强大的数据库系统如何更快、更好的提取有用的信息是大数据领域的重要研究课题。本文探讨了大规模数据库的数据挖掘系统的构建构建数据挖掘系统可以进一步探讨基于大数据的数据库的功能,并且有利于决策者能够快速、准确地找到有用的资料。从而根据这些数据能做出最合理、有效的决策。关键词:大数据;数据挖掘;决策1数据挖掘技术根据本单位的特点,计算机集群分布。另一个独特的聚类算

2、法是基于密度的聚类算法。通过改进Dbscan算法,数据部门可以实现由小部1.1数据库的数据挖掘系统门集群,实现和算法的加速速度通过选择代表扩大种子点的相邻对象.数据库的挖掘在广义上是数据挖掘过程中从存储在数据库中的大和整个数据库集群实现样本数据的聚类。它使系统的聚类算法更有效。量数据中挖掘出有用的信息。从这个角度看,数据库挖掘系统包括以下几个部分。2基于大规模数据库的数据挖掘系统的构建方法(1)数据库:数据库可以恢复信息,它可以整理数据库中的2.1整体框架结构的设置数据;该系统集成了各种模块密切相关,形成数据结构层次,包括多个(2)数据仓库服务器:根据用户的数据挖掘需求,提取相关数独特的输出操

3、作功能,具有多数据源、多参数的特点。因此,每个挖据的数据仓库服务器;掘操作模块之间的可以是相互独立的,这可以产生更多的功能和更稳(3)知识库:它是一种领域知识用来评估结果的有趣程度模式或定的系统。作为一个集成系统,有一个协调统一的模块进行模块之间指导研究。这种知识库的概念是有层次的,包括了解用户的认可;的关联,从而提高并实现数据的传递、标准化系统的操作和数据源的(4)数据挖掘引擎:这是数据挖掘的重要组成部分,它是由一挖掘结果。组功能模块的组合,用来进行描述,分类,转换和偏差分析等;在数据挖掘系统的基础上考虑一个庞大的数据库,本系统的数据(5)数据评价模块:它通常是由有趣度去衡量,并且能够与数挖

4、掘的范围必须要扩大,因此实现挖掘对象不应该仅存在于数据库中,据挖掘模块进行交互,使得搜索专注于有趣程度的模型;也应该在文件中。因此,根据文件系统提供的信息处理方法。呈现更(6)图形用户界面:用户和数据挖掘系统在这个模块之间的容易挖掘结果,实现远程决策支持分析,该系统还具有自动恢复的功通信,这使得系统与用户进行交互,并且为数据搜索,提供信息,能挖掘结果,扩大应用范围。因为它是操作电脑的人,该系统配备了帮助搜索聚焦,和探索性数据挖掘。良好的操作界面,这能够很方便用户的操作和帮助决策者做决策分析1.2数据挖掘系统的功能并做出准确的决定。1.2.1清洗泛化2.2模块设置数据挖掘系统可以把现有的数据提高

5、到一个更高的水平。利用根据本系统的上述结构,以下模块设置是实现数据挖掘系统的相GDBR广义积分算法,通过空间和时间上的复杂性的相关性,然后采用关功能。N—gram方法可以有效地搜索和准确的重复记录系统中的相似信息,然后(1)挖掘模块可以实现挖掘工作功能,采集不同数据库中的数据。进行排序和测试。智能化操作,如规范的插入,删除,交换和置换可以每个挖掘模块是独立的。数据库管理模块可以控制单个模块。存储模处理常见的拼写错误,数据清洗。但也有一些偏差,采用精度检测正常块的数据源,通过挖掘读入相应的数据挖掘基础,为其他模块提供的消除基本算法,本系统提高了基本消除算法,利用统计原理,结合合理基础数据。的直接

6、和逆重复矩阵,能够提高拼写错误的检测和正确的修改。(2)在预处理模块的主要功能是过滤,定义和格式的数据源,1.2.2数据挖掘的功能进一步提高整个系统的可操作性和实用性。主要的子模块进行数据映根据相关的关联规则和序列规则,系统的分类以及数据聚集的数射操作,映射的列映射和类型映射。数据映射到地图源表成为身份类据挖掘方法,实现了数据挖掘系统的预期的应用目标。通过搜索与集型,并形成相应的对照表。不同的数据映射并形成一个统一的模块。成的频繁项目集之间的数据实现A_priori算法。频繁项集产生关联规则列映射到数据源中提取有用的柱,有利于减少数据量,加快了计算速的基本思想是:通过记录I的频繁项,并记录下I

7、所有非空子集内容。度。类型映射是将不同的数据源的类型强制性转换成统一数据库中的如果值的支持(I)/支持(a)大于最小置信度,规则=>(1-a)将数据类型,有利于挖掘。直接输出。如果I中的非空子集不符合条件,相关规则将不输出。换(3)存储模块操作整个数据库中的数据。然而,首先必须导入句话说,关联规则不是由a形成的,但时间序列规则往往与系统中的外部文件,然后存储和控制。采用ODBC技术底层界面。利用内

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。