资源描述:
《数据挖掘中趋势模型的建立与分析.docx》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、数据挖掘中趋势模型的建立与分析于晨捷袁晓洁马涛(天津南开大学计算机科学与技术系,天津3"""4%)5,./16:789:;2<1;=;7>8#9>.摘要当今,数值型数据在数据挖掘中被广泛应用,然而,多分析是基于布尔类型数据的。所以,文章介绍了一种新的模型去描述数值型数据,以便可以挖掘到隐藏的趋势信息。关键词数据序列数值型数据数据挖掘文章编号%""!,$33%,(!""!)"$,"%?$,"3文献标识码&中图分类号@A3%%!"#$%&’(%)#*+#,-#+./$)$"0%123"4252#%3",2
2、.)#6+%+3)#)#*7’!12#8)27’+#9)+"8)23+:+"(B;C/DE.;2E>FG>.C8E;DH91;29;/2I@;9:2>6>J7,K/2L/1M21N;DO1E7,@1/2<123"""4%)-;$%&+(%:K>P/I/7O,Q8/2E1E/E1N;N/68;O/D;P1I;678O;I12I/E/.1212J,:>P;N;D./27/2/67O1O.;E:>IO/D;R/O;I>2R>>6;/2N/68;O#@:1OC/C;D12ED>I89;O/2;P.>I;6E>
3、I1O9D;E;Q8/2E1E/E1N;I/E/O>E:/E1E9/2.12;:1II;2ED;2I12F>DS./E1>2#<2/="&,$:I/E/O;Q8;29;,Q8/2E1E/E1N;I/E/,I/E/.1212J%前言当今世界,数据每天都在迅猛地增长,如何有效地使用这些数据却成为了一个问题,常出现数据丰富而知识缺乏的现象。数据挖掘正是为解决这类问题而发展起来的一门技术,它是将隐藏在大型数据库中原来未知的数据模式发掘出来。典型的理论有特征规则挖掘、关联规则挖掘、分类规则挖掘、聚类规则挖掘、势
4、分析、间序列分析等。通过查阅大量文献资料可发现,目前的数据挖掘技术偏重于发现数据库中不同离散化属性值之间的关系,而对数值型属性之间变化趋势的相互影响分析不够,因此无法发现类似下述这种知识,如:价格下降多少,销售量才能上升多少;某种股票换手率变化了某个值会导致股票价格有什么变化等。采取以往的数据挖掘技术处理该问题时非常牵强,通常做法是,一些连续化的数值型数据进行聚类操作,将之转化成布尔型的数据,再对之进行关联规则等经典数据挖掘的操作。而有些情况下,要考虑的数值型数据又有随时间成不均匀变化的情况,例如:在
5、股票交易中,当分析股票之间的关系时,由于每一支股票都有自己的价格变化区间(股票&的价格可能一直在%"’!"元之间浮动,而股票(的价格可能在)"’*"元之间浮动),所以无法对所有的股票按照同样的情况进行聚类操作。同样实际中人们真正关心的是股票的价格涨了多少(一般用百分数表示),而不是当天的价格是多少,因此研究数值属性上的变化趋势显得尤为重要,例如,在第!个交易数据和第!+%个交易数据已知的情况下,要根据这种变化的趋势去预测第!+!个交易数据。基于上述考虑,笔者决定用一种新的模型去描述有关数值型数据的变化
6、情况,模型有效地解决了上面遇到的问题,并为在数值型数据上进行关联规则挖掘提供了很大的方便。!模型的建立这一模型主要是对数值型属性字段的数据进行处理,以变化趋势来取代原始数据,清楚起见,行如下定义:定义%:定"#$%%,%!,⋯,%&,⋯,%’,⋯(,"为所研究的数值型的数据按时间顺序排列的序列,其中%&为第&个元素的值。同样可以规定"!#$%!)*,%!)*+%,⋯,%!,⋯,%!+*,%,%!+*(,表示以第!个元素作为中心,与之相临的前*个元素和后*个元素组成的序列(后面的研究都是以这个序列作为
7、出发点)。由上面的定义可以看出,上述操作将实际数值型的元素按照时间的顺序组织成了序列的形式。例如:在股票交易中,人们很关心股票每日的收盘价,所以可以将一支股票的收盘价按照交易日的顺序组织成序列的形式"#$%%,%!,⋯,%&,⋯,%’,⋯(,其中%&为第&个交易日的收盘价。同样在研究股票收盘价的时候也是应该有一个界限标定实际研究的范围,所以一般在原始的序列"上采用滑动窗口技术将之演化成若干个"!,样为后面模型的描述奠定了基础。定义!:定*,-.!为以第!个元素为中心,在前*个元素(包含%!)中出现的最
8、大值;定*,-/!为以第!个元素为中心,在后*个元素(包含%!)中出现的最大值;定*,01!为以第!个元素为中心,在前*个元素(包含%!)中出现的最小值;定*,02!为以第!个元素为中心,在后*个元素(包含%!)中出现的最小值,即:*,-.!-./0%&!)*!&!!*,01!-.12%&!)*!&!!*,-/!-./0%&!!&!&+**,02!-.12%&!!&!!+*基金项目:教育部骨干教师资助计划基金资助作者简介:于晨捷,硕士生,主要研究领域为数