数据挖掘--课程报告(关联规则、聚类等)

数据挖掘--课程报告(关联规则、聚类等)

ID:47517988

大小:24.99 KB

页数:3页

时间:2020-01-12

数据挖掘--课程报告(关联规则、聚类等)_第1页
数据挖掘--课程报告(关联规则、聚类等)_第2页
数据挖掘--课程报告(关联规则、聚类等)_第3页
资源描述:

《数据挖掘--课程报告(关联规则、聚类等)》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、数据挖掘结课报告数据挖掘结课报告学院:专业:学号:姓名:摘要:数据挖掘(DataMining)是利用一种或多种计算机学习技术,从数据中自动分析并提取信息的处理过程。数据挖掘的目的是寻找和发掘数据中潜在的有价值的信息、知识、规律、联系和模式。它是当前热门的、具有广阔商业应用前景的一个研究领域。本文笔者结合专业所学,简单介绍了数据挖掘在本专业应用。并做了数据挖掘试验工作,分析了相应结果。关键词:数据挖掘;地球物理;分类预测;聚类分析;关联规则§1介绍国内外的数据挖掘技术的应用研究,均只是从数据驱动的角度实施挖掘过程,而忽略了领域专家的所具有的

2、专业背景知识,缺乏人机交互机制。因此,根据各种地球物理勘探数据的特征,从勘探领域模型驱动的角度出发,引入数据挖掘技术,确定其挖掘思路,建立各种挖掘方法之间的联系,利用其数学模型和数学分析方法从海量的数中获得最大增益信息来指导勘探,不仅是数据的需要,更重要的是为地球物理勘探提供了一种高效率、高精度、低成本、高回报的新方法[1]。在国内,部分学者将数据挖掘这门新方法在地球物理应用领域进行了积极探索[1-3]。李雄炎等[1](2009)在石油天然气勘探领域进行了数据挖掘应用探索。朱传华等[3](2010)应用数据挖掘技术,从滑坡灾害历史数据中挖

3、掘出有利于滑坡灾害预测预报的有效信息,为预警指挥系统服务。可以说,数据挖掘在地球物理方面的应用前景较好,但需要国内外学者进一步探索,发挥交叉学科作用,使数据挖掘可以服务于地球物理领域。本文仅利用老师提供的非地球物理资料样本,操作weka进行一些简单实验,熟悉数据挖掘方法。§2实验2.1分类预测分类是以寻找一个分类函数或者建立一个分类模型为目的[4-6]。其中决策树算法则是数据挖掘领域中研究分类问题最常见的方法,本文将以J48(C4.5)和NaiveBayes为例进行试验,本次实验笔者选择的数据样本均为zoo.arff,结果如下图1所示。数

4、据挖掘结课报告图1.决策树法和朴素贝叶斯法分类结果比较Fig1.Comparedtheclassificationresultsbetweendecisiontreeandnaivebayes分类算法J48(C4.5)NaiveBayes训练集校验准确率99.00%100%10折交叉验证准确率92.08%93.07%66%分离比校验准确率94.12%88.24%初步结果分析:针对相同数据,两种分类算法准确率都较高,特别是训练集校验准确率达到99%和100%,但是由于训练集校验法的检验数据为训练数据,所以对于模型在未来的未知数据中的表现的性

5、能,不能通过现在的分类正确率进行评估。66%分离比校验准确率中J48(C4.5)的分类效果较优于NaiveBayes。综合来看,针对不同的样本数据应当具体结合使用相应的分类算法。2.2聚类分析聚类是按照一组个体的相似性程度把它们聚成一些分离类别,使得类内部对象之间的相似度较大,而类与类之间对象的相似度较小,它的目的是尽量使得同类个体之间的距离达到最小,反之,不同类个体之间的距离则尽可能大,从而使同一类中的个体具有极高的相似性[4-5]。下面将以十大经典算法中的K均值算法为例进行试验,依据前面分类的情况,选择“SimpleKMeans”,我

6、修改“numClusters”为7,说明希望把这101条动物实例聚成7类,即K=7。下面的“seed”参数是要设置一个随机种子,依此产生一个随机数,用来得到K均值算法中第一次给出的K个簇中心的位置。我们不妨暂时让它就为10、50、100作对比实验,“Withinclustersumofsquarederrors:”即总聚类平方差的值,其值越小说明给的初值越好。我选中“ClusterMode”的是“Classestoclustersevaluation”进行试验,结果如下:①seed为10时,总聚类平方差的值为255.0,Correctly

7、ClusteredInstances:31.68%;②seed为50时,总聚类平方差的值为245.0,CorrectlyClusteredInstances:7.92%;③seed为100时,总聚类平方差的值为249.0,CorrectlyClusteredInstances:17.82%。可以从上述结果中得知,在这三种“seed”下,值为50为最佳聚类效果最好,误差小于8%,明显优于另外两个。我在下面做实验还用了“seed”为90、150、200等数值做了试验,发现精度先增加然后会再下降,限于篇幅此处不做陈述。我们可以看出选的“seed

8、”对分类结果影响较大。2.3关联规则关系数据库中存在着一种重要的关系:数据关联,这种关系其实是一种容易被人们发现的知识,可以进行相关学习。关联分析的目的是发掘海量数据中存在的数据之间的相关性。

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。