互联网大规模数据分析技术--封面

互联网大规模数据分析技术--封面

ID:31332294

大小:117.92 KB

页数:11页

时间:2019-01-08

互联网大规模数据分析技术--封面_第1页
互联网大规模数据分析技术--封面_第2页
互联网大规模数据分析技术--封面_第3页
互联网大规模数据分析技术--封面_第4页
互联网大规模数据分析技术--封面_第5页
资源描述:

《互联网大规模数据分析技术--封面》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、学号:1049721401349我Hh里三尢專《互联网大规模数据分析技术》论文课程名称《互联网大规模数据分析技术》学院计算机科学与技术学院专业软件工程班级计算机1402班姓名谷鹏指导教师李琳2014——2015学年第2学期基于kmeans算法的聚类分析引言数数据挖掘是数据库研究、开发和应用最活跃的分支科学么一,从人量数据中用非平凡的方法发现有用的知识和人们感兴趣的数据模式成了人们的一种口然需求。随着数据挖掘研究的蓬勃发展,对于庞大的数据我们通常需要将其局分为儿个类别,以方便对数据进行管理。因此出现很多数据挖掘的方法,其中聚簇是最基本的方法,它既可以独立地应用,也可以作为其他数

2、据挖掘方法的前期工作。在聚簇方法中,k-means算法是最著名和最常用的划分法2—,KMeans算法的基本思想是初始随机给定K个簇屮心,按照最邻近原则把待分类样本点分到各个簇。然后按平均法重新计算各个簇的质心,从而确定新的簇心。一直迭代,直到簇心的移动距离小于某个给定的值。摘要K-means算法是硬聚类算法,是典型的基于原型的目标函数聚类方法的代表,它是数据点到原型的某种距离作为优化的目标函数,利用函数求极值的方法得到迭代运算的调整规则。K-means算法以欧式距离作为相似度测度,它是求对应某一初始聚类中心向量V最优分类,使得评价指标J最小。算法采用误差平方和准则函数作为聚类

3、准则函数。本文主要对聚类分析中的kmeans算法加以分析。通过对一些样本观测数据运用kmeans算法,简略的将其划分成k个类,从而熟悉认识kmeans算法的原理思想和实现流程,并且掌握它的聚类优势和不足,对系统聚类有一个更深层的认识。关键词:系统聚类kmeans算法迭代相似度一问题提出与分析聚类主要是用来对一堆数据进行类聚,即把相似的对象归并到一起,形成一个簇。对于已知的给定对象个数n,想在给定想要划分的类别个数,即要聚的簇的个数。系统聚类分析就采用度量相似度的方法把相似度高的聚合成一个簇,从而达到聚类划分的目的。问题提出:因为平时对足球比较感兴趣,关注西甲赛事。所以在网上抓

4、取了部分西甲球员2014/2015赛季的的技术统计信息。以此用kmeans算法对这些球员进行聚类分析,将其划分成k个类。从而得到一个初步的判断,哪些球员在这个赛季的表现处于一流水平,二流水平等等,以及哪些球员的技术特点相似,在场上的作用相似等等。从而对各个球员有一个横向和纵向的对比分析。问题分析:这是一个典型的聚类问题。已知一堆数据,即这些球员的技术统计信息,包括进球数,助攻数,出场时间。这些可以作为衡量这个球员数据的三个指标,即每个数据是三维的。然后将这些数据抽象成一个一个的点,形成点阵,采用kmeans算法算欧氏距离,对其进行聚类分析,形成k个簇,即最终我们要划分的球员类

5、别,哪些球员可以归为一类,最终总的划分k类。二数学模型、原理及算法现有80个球员数据,每条数据包括球员姓名、进球数、助攻数、出场时间。可用公式表示X=();即对于一个数据他有p个指标,这里p的值为3,即每一个数据都是三维的。即有80个观测值现在样本总体为80,每个样本对象的维度为3。球员数据截图如下:■③球员数摇・txt・记事本文件(F)務(E)鈕(0)帮助询多411小纳尔罗西马卡列埃杜亚泽尔尔纳梅利朱®埃图科C.梅内巴格布阿苏本塞贝若哈诺曼帕比斯帕20曼斯斯奥斯^奇兹诺曰一一®马吉塔斯托基霍托亚04115i1•331斯1格S-德2•罗11431952393248712822

6、51323119257671228825283818640209930092325241320342848285113219919441698原理及算法:K・Mean分群法是一种分割式分群方法,其主要目标是要在大量高纬的资料点中找出具有代表性的资料点;这些资料点可以称为群中心,代表点;然后再根据这些群中心,进行后续的处理,这些处理可以包含1)资料压缩:以少数的资料点来代表大量的资料,达到资料压缩的功能;2)资料分类:以少数代表点来代表特点类别的资料,可以降低资料量及计算旦里;分割式分群法的目的是希望尽量減小每個群聚中,每一點與群中心的距離平方差(squareerror)。假設

7、我們現在有一組包含c個群聚的資料,其中第k個群聚可以用集合Gk來表示,假設Gk包含nk笔资料{xl,x2,・・・,xnk),此群聚中心為yk,則該群聚的平方差ek可以定义為:ek=Si

8、xi-yk

9、2,其屮xi是属于第k群的资料點。而這c個群聚的总和平方差E便是每個群聚的平方差總和:E=Sk=l^cek我們分群的方法,就變成是一個最佳化的問題,換句話說,我們要如何選取C個群聚以及相關的群中心,使得E的值為最小。算法流程:(1)从n个数据对象任意选择k个对象作为初始聚类中心;(2)循环(3)到(4)直到每

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。