周期性时间序列数据聚类算法的改进及研究

周期性时间序列数据聚类算法的改进及研究

ID:31478866

大小:878.00 KB

页数:3页

时间:2019-01-11

周期性时间序列数据聚类算法的改进及研究_第1页
周期性时间序列数据聚类算法的改进及研究_第2页
周期性时间序列数据聚类算法的改进及研究_第3页
资源描述:

《周期性时间序列数据聚类算法的改进及研究》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、28卷第10F微电子学与计算机VoL28No.102011年lO月MICROEI。ECTRONICS&COMPUTEROctobet2011周期性时间序列数据聚类算法的改进研究郭秀珍1,陆建峰1,汤九斌2(1南京理工大学计算机科学与技术学院,江苏南京210094;2中国电信江苏公司,江苏南京210037)摘要:聚类分析是时间数据序列分析的一种常用手段,现有的聚类算法通常从相似性度量方面进行改进.实际的时间序列数据往往具有一定的周期性和连续性。现有的算法往往忽略时间序列数据周期性和连续性特点对

2、聚类算法的影响.对此问题进行了研究,尝试采用延拓的方法来解决该问题,从而改善聚类的效果.初步的实验结果表明了该方法的可行性和有效性.关键词:时间序列;聚类;周期性;志均值;延拓中图分类号:TP311文献标识码:A文章编号:1000一7180(2011)10—0118一04ResearchonImprovementofClusteringAlgorithmforPeriodicTime-seriesDataGUOXiu-zhenl,LUJian-fen91,TANGJiu-bin2(1Scho

3、olofComputerScienceandTechnologyNanjingUniversityofScienceandTechnology,Nanjing210094,China;2ChinaTelecomJiangsuCorp.,Nanjing210037,China)Abstract:Clusteringanalysisisaconllnonmeansoftime-seriesdataanalysis.Theexistingclusteringalgorithmforthetime-

4、seriesdataiSimprovedfromthesimilaritymeasureaspects.buttheactualtime-seriesdatatendtOhaveacertainperiodicityandcontinuity.Theexistingalgorithmsoftenignoretheimpactofperiodicityandcontinuityontime-seriesdataclusteringalgorithms.Thisissueisresearche

5、dinthispaperandextensionmethodisusedproblem.Preliminaryresultsshowthefeasibilityandeffectiveness.-22thisKeyⅥ岫In蠡:time-series;clustering;periodicity;志一means;extensiontOsolve1引言聚类;黄超等[4J研究了基于多重分形的时间序列聚类.K均值聚类也被用于时序聚类[5],邵丹[6]等人应从统计上来讲,由不同时间重复测量得到的值或时间

6、的序列组成的数据就是时间序列数据.时间序列挖掘是从大量的时间序列数据中提取人们事先不知道的,但又是潜在有用的与时间属性相关的信息和知识‘11.时间序列聚类是将一组时间序列集合根据其相似性分类为几组,组与组之间的相似性尽可能小,组内各序列之间的相似性尽可能大.时间序列聚类的重要性引起了大家的重视,近年来也得到广泛的研究.翁颖钧oz】、段江娇【31等人将分层聚类应用于时序收稿日期:2011—04--30;修回日期:2011一06—28基金项目:江苏省自然基金项目(BK2009489);江苏省青蓝工程用模

7、糊K均值对电力负荷时序进行聚类.在对周期性时间序列数据的聚类中,常用的方法是将时间点上的数据先进行统计累加再进行聚类,这样就丢失了时间轴在聚类过程中的影响.如对于每小时的上网人数进行统计,第一天的24时和第二天凌晨的1时从时间轴来说是非常接近的,但是,如果用时间轴24小时制来表示进行统计的话.24时和1时的时间距离为1小时,但是在聚类中,这两点的距离通常会被计算为23小时,因此其距离值被不合理地扩大了,从而影响了聚类的效果.为解决这第10期郭秀珍,等:周期性时间序列数据聚类算法的改进研究119个问

8、题,本文以足均值聚类方法为例,应用延拓的方法对时间轴进行延拓,进而在延拓的时间轴上,建立现有聚类中心的映像,即把现有的k个聚类中心扩.4l2025充为2是个聚类中心,以解决时间连续性和周期性所带来的距离计算问题,从而改善聚类结果.2}均值算法图1聚类中心的延拓示意图假定聚类的对象共”个,样本集为X={z。,zz,…,z。),算法目的是把规个样本对象分为七个类.具体的步骤如下:①输入原始的数据,为每个聚类选取一个初始聚合中心Z,(D,歹=1,2

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。