欢迎来到天天文库
浏览记录
ID:22290894
大小:103.00 KB
页数:6页
时间:2018-10-28
《数据挖掘技术在煤矿企业的应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、课程名称:数拋挖ft内数拋仓你技术课程编号:SZ0051F06课程类型:非学位课考核方式:考试、考査学科专业:计算机技术年级:2012级研•姓名:XXX学号:XXX河北工程大学2012〜2013学年第二学期研究生课程论文报告课程论文评语:成绩评阅教师签名评阅日期年月闩数据挖掘技术在煤矿企业的应用XXX摘要:数据挖掘是数据库研究中一个很有应用价值的课题,它融合了数据库、人工智能、机器学习等多个领域的理论和技水。文章首先阐述了数裾挖掘的相关概念,同时对数椐挖掘的过程和方法进行了简要介绍,然后就数据挖掘在煤矿企业中的应川进行了综述。关键字:数
2、据挖掘;数据仓库;煤矿企业1引言数据挖掘(DataMining),乂称数据库中的知识发现(KnowledgeDiscoveryinDatabase,KDD),就是从大fi的、不完全的、有噪声的、模糊的、随机的数裾中,捉取隐含在艽中的、人们事先不知道的、但又是潜迕有用的信息和知识的过程。它不仅是而句特定数据痄的简单检索查询调用,时且耍对这些数裾进行微观、中观乃至宏观的统计、分析、综合和推理,以指导实际闷题的求解,企阁发现事件间的相互关联,其至利川已有的数据对未来的活动进行预测。数据挖掘足一个新兴的多学科交叉领域,这其十主要涉及:数裾库系统
3、、数据仓厍、统计学、数据可视化、信息检索和高性能计算等,艽它学科还包括:人工神经M络模式识别、空间数裾分析、图像数裾库信兮处理和归纳逻辑编程。作为数据挖掘的数据源不一定必须是数据仑库,它讨以是任何数据文件或格式,但必须事先进行数裾预处理,处理成适合数裾挖掘的数据,这个预处理过程人用数椐挖掘全过程工作量的很人比重。数据挖掘是计算机技术的核心构成,W能够对计算机数据库资源深层次的挖掘处理,从而提炼出更奋价值的信息。早期煤矿企鼎在制定生产模式时,仅注重于现实人员的调配控制,对于计算机fi动化生产模式缺乏深刻的认识,A国内煤矿生产技术不断发展后
4、,计算机及其系统开始成为煤矿行业的主要构成,数裾挖掘技术也开始在煤矿行业得到多方iftf的运用。2数据挖掘的过程和方法2.1数据挖掘过程根据跨行业数据挖掘过程林准(Cross-industryStandardProcessforDataMining,CRISP-DM)将数据挖掘项目的生命周期描述为以下的儿个阶段[21。⑴确定业务对象数据挖掘的基础是理解数据和实际的业务需求,在这个基础之上提出14题,对H标存明确的定义。数裾挖掘的重要一步是认清数据挖掘的R的。因此必须清晰地定义出业务问题。挖掘的敁P结果是不讨预测的,但对耍探索的问题必须是
5、有预见的,为了数据挖掘时数据挖掘则带有肓R性,是不会成功的。⑵数据准备数据准备是保证数据挖掘得以成功的先决条件,数据准备在整个数据挖掘过程屮占存人景的T作S,大约是整个数裾挖掘工作虽的60%。数裾准备包括数裾选择、数裾预处理和数裾的转换。数据的选择就是搜索所有与业务对象有失的内部和外部的数据信息,获取原始的数据,从中选择岀适用于数裾挖掘应用的数裾,建立挖掘数掘库。数据预处理就要对数裾进行初步的整理,淸洗不完全的数据、不确定属性,为进一步的分析做准备,并确定将要进行的挖掘操作的类型。数据的转换足根据数据挖掘的目标和数据的特征,选择合适的模
6、型。这个模型是针对挖掘算法建立的。数据挖掘成功与否的关键是逮立一个真.11•:适合挖掘算法的分析模型。⑶数裾挖掘(模式评估)数据挖掘就是对所得到的数据预处理后的数裾进行挖掘,除了选择合适的挖掘算法外,其余工作应该能tl动地完成。选择实现算法宥W个考虑因素:一足不同的数据有不同的特征,因此需要川与之相关的算法来挖掘;二是根裾用户或实际系统的需求选取知识的表达力*式。杏的用户希望用荻取描述性的各易理解的知识,而齐的用户知识获取预测准确度从可能高的预测性的知识。根据选定的挖掘工具和算法,在数据预处理后的数据集上进行数据挖掘。⑷结果分析对数据挖
7、掘阶段构建出來的模型的有效性和可靠性进行解释和评估,经过评估对可能存在冗余或无关的模型,这吋需要将其剔除;也有可能榄型不满足川户要求,这吋则需要整个发现过程冋退到前一阶段,重新选取数据、采用新的数据变换方法、设定新的参数值,其至换•一种算法。另外,数裾挖掘是而向敁终川户的,因此发现的模型进行nP见化,或者耑要将结果转挽为川户易懂的表示。⑸知识的同化知识的同化就是将分析所得到的知识集成到业务倌息系统的组织结构中去,便于决策者根裾这些领域知识进行决策2.2数据挖掘方法为了完成挖掘任务,人们从统计学、人工智能和数据库等领域借川基础研究成果和工
8、具,提出了多种方法。主要的数据挖掘方法及其要点如K所述:⑴关联规则也称作亲和力分析或欠联分析,是当前数据挖掘研究的热点,主耍是发现大数据集中项之间的关联性或相关性的-•项数据挖掘任务。关联规则所研究的数裾项
此文档下载收益归作者所有