【doc】通用数据挖掘平台设计与实现

【doc】通用数据挖掘平台设计与实现

ID:37025309

大小:26.50 KB

页数:8页

时间:2019-05-15

【doc】通用数据挖掘平台设计与实现_第1页
【doc】通用数据挖掘平台设计与实现_第2页
【doc】通用数据挖掘平台设计与实现_第3页
【doc】通用数据挖掘平台设计与实现_第4页
【doc】通用数据挖掘平台设计与实现_第5页
资源描述:

《【doc】通用数据挖掘平台设计与实现》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、通用数据挖掘平台设计与实现2012年第2期(总第1l8期)信息通信INFORMATION&COMMUNICAT10NS20l2(Sum.No118)通用数据挖掘平台设计与实现王青峰,翟永刚,林楠(天津军事交通学院教育技术中心,天津300161)摘要:数据挖掘平台的实现为决策管理提供了清晰明确的价值信息,通过分析数据挖掘技术的特性,包括数据挖掘概述,数据预处理与关联分析等,重点阐明了基于数据挖掘技术采处理复杂问题的交换平台的研究.关键词:数据挖掘;数据仓库;设计实现;数据分析中图分类号:TP313.13文献标识码:A文章

2、编号:1673—1131(2012)02—0l14—021数据挖掘的基本理论1.1数据挖掘的概念数据挖掘是通过数理模式从大量随机的,模糊不完全的实际应用数据资料中,找出人们不易察觉的有用信息和知识的行为过程.数据挖掘为从海量数据中提取有价值的信息提供了决策支持,是数据库技术,统计学和人工智能技术交叉的学科.从商业角度来说,数据挖掘主要体现在对大量业务数据进行处理分析,为商业决策者提供有价值的数据信息.基于这种需求,数据挖掘一直是各个领域学者争相研究的热点.I.2数据挖掘工具的发展过程数据挖掘工具经历了独立数据挖掘软件,横向数据

3、挖掘工具集和纵向数据挖掘解决方案三个阶段.数据挖掘软件早期,虽然对数据算法有相当的了解,但仍然离不开对大量数据的处理工作.到了第二个阶段,数据挖掘工具提供了多种通用算法并实现了数据的转换和可视化.而到了近期,数据挖掘提供了针对特定应用系统的解决方案,极大地发挥了其在决策中的实际应用作用.1.3数据仓库数据仓库(DataWarehouse)作为一种数据存储和组织技术,为数据挖掘提供了广泛的数据源和支持平台,是由决策支持系统的衍生产品.反过来数据挖掘为数据仓库提供了更广泛的技术支持和更高的决策支持.数据仓库是数据挖掘平台的重要组成

4、部分,它的产生从侧面反映了决策者从基本事务的处理到信息战略决策分析的转变.2数据挖掘平台的设计与实现数据挖掘指将大量随机模糊的信息转变成可供决策参考信息的完整过程.下面分别对各个模块进行展开说明.2.1数据挖掘过程为避免数据挖掘的盲目性,在数据挖掘之前应该明确数据挖掘的目的,确保数据挖掘探索问题的预见性.数据挖掘的工作流程可分为数据回集,数据的存储处理,数据展现三个步骤.数据回集主要指将外部数据从外部脱机存储介质和联机事务处理系统中导入数据仓库的过程.汇集过程中包括对数据的复制,转换,调度和监控等工作流程.数据的存储与管理是数

5、据仓库的主要工作任务,数据仓库把不同来源的数据放在一起,解决这些数据的冲突问题,它所设计的数据量大且随着时间的推移不断积累.而数据仓库要实现对这些数据的治理和优化查询,为数据挖掘创造一个独立的数据环境.数据展现的方式主要包括查询,报表,可视化图标,统计分析,数据挖掘模型等.从数据分析的意义来说,以简洁明了114的方式叙述数据信息称为描述式数据挖掘;通过建立模型并预测数据集行为的表述称为猜测式数据挖掘.2.2数据预处理数据预处理是数据挖掘实现的首要环节.在进行预处理之前,数据挖掘平台需要先把所需要与业务对象有关联的数据信息从数据

6、仓库中转移到数据挖掘库中.数据预处理包括一下4个步骤:(1)数据清洗:包括增补遗漏的数据属性,识别和修改异常数据;(2)数据集成:将来自多个源的数据进行合并形成完整的数据集合;(3)数据转换:通过数据规格化处理等方式将筛选的数据转换成适合数据挖掘平台适用的数据形式;(4)数据消减:将转化后的数据通过维度消减和数据压缩等方式减小数据规模以保证研究数据的质量.2.3数据挖掘方法数据挖掘平台的挖掘原理基于以下几种方法:(1)遗传算:基于生物遗传原理的全局化搜索算法.具有易结合,隐含并行b.等特点.不足是次算法较为复杂,较早收敛问题还

7、有待解决.(2)神经网络方法:神经网络模型分为bp反向传播模型,用于模式识别和分类预测的神经网络模型等等.因其本身的白适应性,分布存储和并行处理特性较适合数据挖掘的研究,越来越受到人们的青睐.(3)粗集方法:不需额外信息,数据依赖程度较小,算法简单且易于操作.关系数据库管理系统和数据仓库管理系统的发展为粗集方法的应用奠定了坚实的基础.用集合论作为粗集方法的计算基础难以处理连续的数据信息.(4)覆盖正例排斥反例法:比较典型的有aql1,aql5算法,通过覆盖所有正例,排斥反例的方式来寻找规则.(5)决策树方法:通过数据分类从中筛

8、选出有利用价值的数据信息,此方法简单便捷,速度快,适合大量数据的处理工作.较有代表的便是着名的id3算法.(6)模糊集方法:基于模糊集和理论的模糊识别决策分析.系统复杂性越高,模糊性越强越有利于这种方法的使用..(7)统计分析方法:利用函数等统计学手段对数据库字段进行归类分析

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。