欢迎来到天天文库
浏览记录
ID:12939695
大小:10.46 MB
页数:62页
时间:2018-07-19
《时间序列特征提取与聚类算法研究》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、中山大学硕士学位论文时间序列特征提取与聚类算法研究姓名:李伟申请学位级别:硕士专业:应用数学指导教师:张磊20080527 摘要金融、科学观测和工程等各个领域都广泛存在。时间序列数据反映了属性值在时前时间序列数据挖掘中重点的研究内容包括时间序列的模式表示、时间序列的相似性查询、时间序列的聚类和分类、时间序列的异常检测等。则等问题。本文的主要研究工作和成果概括如下:算法,对各种算法的特征做了分析比较。将聚类准则函数引入对聚类效果的评价当中,使得对聚类的研究工作更加清晰易懂。列特征提取方法之后,以分段特征提
2、取方法为基础,提出了分段混合特征提取的时间序列特征提取方法,将时间序列总体特征和变化模式引入特征提取当中,克服了现有的分段特征提取方法和其他方法都无法同时客观地描述时间序列的整体趋势和局部特征的问题。�砒�猠上两种算法直接处理原始时间序列的局限性和问题,分析了只借助距离度量的改分段混合特征提取算法引入层次聚类,实验结果显示本文所提出的分段混合特征提取算法能改进时间序列层次聚类的效果,提高了时间序列识别的效率,从而验证了本文所提出的分段混合特征提取算法的有效性。最后在总结全文的基础上,说明了今后需要继续的
3、工作。关键词:时间序列距离度量,时间序列聚类,特征提取,分段混合特征提取 前言���恚琹①�, ��论文的主要工作作为分析数据,这是知识发现数据库提供的一个研究课题,本文以目前时间序列聚类中比较常用的聚类算法为基础,首先采取最常用的欧氏距离作为距离度量对时间序列进行聚类,针对聚类效果不佳的问题,在总结和分析了多种时间序列特征提取与表示方法的基础上,借鉴分段线性模型中采取的特征提取方法,将时间序列分段,寻找满足实际应用所需的局部特征,同时将时间序列总体特征引入特征提取算法当中,并以此建立一种基于分段线
4、性模型的分段混合特征提取算法,最后,从计算效率和聚类效果两方面来验证本文所提出的算法的有效性。本文的主要研究工作和成果概括如下:◆分析讨论了适用于时间序列的距离度量,以及常用的时间序列聚类算法,对各种算法的特征做了分析比较。将聚类准则函数引入对聚类效果的评价当中,使得对聚类的研究工作更加清晰易懂。���时间序列数据集进行了分析研究。本文文提出的分段混合特征提取算法引入层次聚类,实验结果显示本文所提出的分段混合特征提取算法能改进时间序列层次聚类的效果,提高了时间序列识别的效率,从而验证了本文所提出的分段混
5、合特征提取算法的有效性。 第一章前言:第二章时间序列数据挖掘概述:第四章时间序列特征提取方法:介绍了几种比较常用的时间序列特征提取与表示方法,其中重点介绍了分段特征提取方法的思想,并且以这种方法为基础提出了一种分段混合特征提取算法,将时间序列的总体特征以及局部变化模式引入分段特征提取当中,以弥补分段特征提取造成序列元素数值本身信息的丢失。第四章的最后给出了分段混合特征提取的算法实现。第五章实验与讨论:首先介绍了实验数据来源及实验评价方法,接着介绍了实验目的和实验流然后,将本文提出的分段混合特征提取算法引
6、入层次聚类,并且实验证明该方法对时间序列聚类的有效性。 ��数据挖掘概述����,简称Ⅺ��暮诵牟街瑁琁①�����月于美国底特律召开的第�届国际人工智能联合会议专题讨论会上首次提出的。数据库中的知识发现是从海量数据中自动智能地获取有效的、新颖的、潜在有用的、最终可理解模式时间序列数据库����������⑹�莶挚����鎒������信息资源及文件系统等复杂对象。数据挖掘从理论和技术上继承了知识发现领域的成果,但数据挖掘更强调设计高效的算法以达到从海量数据中发现知识的目的。数据挖掘是一门交叉学科,涉及
7、到人工智能、数据库、统计学、机器学习、信息检索、数据可视化、高性能计算等多个领域。数据挖掘发现的知识可以用在信息管理、过程控制、科学研究、决策支持等多方面。图��数据挖掘研究课题 用的技术有决策树、分类、聚类、粗糙集、关联规则、神经网络、遗传算法等。数据挖掘根据�貲的目标,选取相应算法,分析数据,得到相应的知识模式类型。·评估模式应用领域的专家或决策者将挖掘出来的模式用于实践系统,根据知识本身描述的关系或结果对决策者提供技术支持。 传统的时间序列分析研究的内容主要是:研究时间序列观测值之间的依赖特性
8、。研究途径是建立随机动态模型,典型的应用如:利用一个时间序列在当前和历史时刻的有效观测值去预报在某个未来时刻该序列的值。例如,依据以前各个季度的销售数据来预测下一季度的预计销售额度,或者工农业生产中预测产量。 更加强调时间序列的形态特征,通常用形态特征来刻画时间序列中蕴含的规律,而传统时间序列分析技术通常用解析函数或者统计量刻画时间序列中蕴含的规由于时间序列的数据量庞大且数据类型极为复杂,直接在原始时间序列上进行数据挖掘不但效率低下,而
此文档下载收益归作者所有