一个面向大规模数据库的数据挖掘系统

一个面向大规模数据库的数据挖掘系统

ID:1195481

大小:327.92 KB

页数:6页

时间:2017-11-08

一个面向大规模数据库的数据挖掘系统_第1页
一个面向大规模数据库的数据挖掘系统_第2页
一个面向大规模数据库的数据挖掘系统_第3页
一个面向大规模数据库的数据挖掘系统_第4页
一个面向大规模数据库的数据挖掘系统_第5页
资源描述:

《一个面向大规模数据库的数据挖掘系统》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、1000-9825/2002/13(08)1540-06©2002JournalofSoftware软件学报Vol.13,No.8一个面向大规模数据库的数据挖掘系统Ã钱卫宁,魏藜,王焱,钱海蕾,周傲英(复旦大学计算机科学与工程系,上海200433);(复旦大学智能信息处理开放实验室,上海200433)E-mail:{wnqian,lwei,ayzhou}@fudan.edu.cnhttp://www.fudan.edu.cn摘要:数据挖掘融合了数据库技术、人工智能和统计学,是目前的研究热点.为了能够集成当前数据挖掘的主要技术并使它们协同工作,在进行数据挖掘基本算法研究的基础

2、上研制开发了一个数据挖掘系统——Golden-Eye.系统实现了在数据挖掘研究中的一些最新成果,集成了泛化、数据清洗这两个数据准备操作以及关联规则发现、例外规则发现、时序模式发现、分类器构造、聚类分析等基本数据挖掘操作,并实现了对挖掘操作的基本管理和结果的图形化显示.整个框架设计充分体现了系统的完整性、协调性和高效性:自底向上将存储控制模块、数据预处理模块、挖掘操作模块、挖掘库管理模块有机地结合在一起,在底层实现了对包括中间结果在内的数据的统一管理,在上层为用户提供了可视化的界面.实验结果表明,该系统能够在大规模数据库上成功地完成用户所指定的数据挖掘操作.关键词:数据挖掘;

3、系统;数据预处理;存储控制;挖掘库中图法分类号:TP311文献标识码:A数据挖掘(datamining)又被称作数据库中的知识发现(knowledgediscoveryindatabases),是指从数据库或数据仓库中提取隐含的、未知的和潜在的有用信息的非平凡过程.数据挖掘技术主要包括关联规则(associationrule)发现、分类(classification)、聚类(clustering)分析、泛化(generalization)和预测(prediction)等.当前,数据挖掘的研究热点在于提高挖掘所得的知识的准确度和可理解性、提高数据挖掘操作的可伸缩性、集成数据挖

4、掘操作和现有的数据存储和分析工具等.此外,作为数据挖掘准备工作的数据离散化、数据变换、数据清洗(datacleaning)和数据挖掘结果的可视化显示以及挖掘结果的评估等技术也属于数据挖掘研究的范畴.虽然数据挖掘包含诸多方面的工作,但在实际运用中,这些方面的技术往往需要相互协作,共同完成某项挖掘任务.这就需要数据挖掘工具能够集成各方面的技术,使它们能够协同工作,并统一管理各个挖掘步骤以及结果.Golden-Eye系统就是为此目的而开发的.本系统具有如下特点:•集成了泛化、数据清洗、关联规则发现、时序模式(sequentialpattern)发现、分类、聚类等多种基本数据挖掘操

5、作.•集成了一些新的操作和新的算法,比如改进的DBSCAN聚类算法以及例外规则发现、数据清洗、类别属性(categoricalattribute)聚类这些数据挖掘领域里较新的操作.•能处理大规模的数据集,测试的最大记录数目达到了1000000条.•在系统框架的设计上充分考虑到了系统的完整性、协调性和高效性.Ã收稿日期:2001-04-05;修改日期:2002-01-24基金项目:国家自然科学基金资助项目(60003016);国家重点基础研究发展规划973资助项目(G1998030414)作者简介:钱卫宁(1976-),男,浙江上虞人,博士生,主要研究领域为数据挖掘,聚类,W

6、eb数据管理;魏藜(1978-),女,江西南昌人,硕士生,主要研究领域为数据挖掘技术;王焱(1977-),女,江苏镇江人,硕士,主要研究领域为数据挖掘,Web数据管理;钱海蕾(1977-),女,上海人,硕士,主要研究领域为数据挖掘,聚类,Web数据管理;周傲英(1965-),男,安徽宣城人,博士,教授,博士生导师,主要研究领域为Web数据管理,数据挖掘,Web搜索.钱卫宁等:一个面向大规模数据库的数据挖掘系统1541•有一个友好的用户界面.1系统结构1.1系统框架如图1所示为Golden-Eye系统的框架.整个系统将①Interface不同的挖掘操作模块、数据预处理模块、存

7、储控制模块、挖掘库及挖掘库管理模块、数据库和外部文件紧密地结合在一起,构成了一个层次结构.系统框架的设计主要基②③于以下几点考虑:MiningoperationsMiningbasemanagement(1)数据挖掘系统包括很多方面的操作,这些操作所④Data要求的数据源形式不同、输出不同、所需参数不同,这就preprocessing使得实现这些操作的各个挖掘操作模块之间必须相对⑤独立.Miningbase(2)数据挖掘系统作为一个整体,必须能够协调各个⑥Storagemanagement操作模块之间的工作.系统使

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。