欢迎来到天天文库
浏览记录
ID:32210838
大小:5.99 MB
页数:47页
时间:2019-02-01
《面向高维数据的特征选择算法分析》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、韭丛2J堕厶‘茎{-自±』醴}堂垃监窑日建4ll集成聚类的一股过程..284I2集成聚类的有效{!_}!疑f’L3042眭r特征分层抽样的数据予空削的生成3l4.21州笑工作334.22算法描述3443址j二分层抽样的集成聚类364.4实验结粜及分析384.4l实验数据驶其描述3842对比实验4.43实验性能指标4044‘戈骑结果硬分析4()45奉章小结5结c^465l52沦文总结L怍展掣46参考文献47作者确1,J5I独创肚声}=』』学位论文数州集52531引言随肴信息技术的商速发展以及社会信息化的小断深入,人们积累帕数据一哇来越多,敬据的背
2、后舱蜮着rl:多重要信息,人们希望对北进”亚讨层j又帕分忻,以便坐直;I_地利川这些数_【l_:;数掘库系统可以高教地实现数槲的录入、修战、统计、盘咖等功能,f
3、_l无法发现数捌中存在的关系和规则,尤法根掘现有的数抖-}预测术来的发腥趋势.导毁了“数据爆炸但知识贫乏”的现象。存庞人的数据中,如何发现潜在有用的知识成为了信息技术领域的热点问题,数掘挖栅应运而生。数据挖掘的任务是多方面的.其巾包括关联规则、分类、聚娄等等⋯。随着因特网的快述发展.人趟的数据像Web页而、rI:l子邮什、牡因数荆、罔像等迅述增加。⋯r这些数据的半结j}{=
4、化甚至于无
5、结构化的特点,使得表示这些数据的特征向量高达几万维甚年J一儿十月维。特征维数的庞大引起了维度灾难(curseofdimensionality),这样的现实使得数据挖掘的任务越来越具有挑战.为了解决这一问题.许多学者开始对数据的特征降维进行研究。特征降维分为特dE提取和特征选择,特征提取是指通过将蟓始特征空『口J进行变换,重新生成一个维数亚低,择维度z
6、1jj亚独立的特征审川.特征提取分为线性干¨非线雎阿种.1-成分分析r_Ii(PCAl、独一成分仆析法(ICA)、奇异值分解SVD和线性判别分析法LDA、投b#追踪等口H足最常刚的线性特征提取方法
7、。非线性特征提墩方法主要有非线性PCA州络、Sammon投影、非线性区剐分析等。特征选择是从特征集rfl选择一介特征干集,特{正选择不改变原始特征空nU的性质,只是从原始空叫中选择部分重要特征,组成个新的最优特征子集”】。1】高维数据挖掘网络中的数据像各利·类型的贸易交易数据、Web文档、坫旧表达敛捌、文挡词频数掘、用产评分数柑、web使用数掘及多媒体数掘等,他们们维度成『_l:“维甚至更高,H前高维数据挖掘已成为数据挖掘的重点与难点,随着拙术f由进步使得数据收集变褂越柬越容封.导致数据库规模越柬越人、复a々陛越来越高。⋯于高维数据的普遍存在陛
8、,使得对高维数据挖掘的研究育着非常重要的意义.}h于“维度灾难”彤I帆,也使褂高维数据挖掘变得异常的刚难,许多f0统帕数槲挖掘算法丌始失效。常见的高维数据有基因芯片数据、文梢数捌、多媒体数州、时问序列数捌、Web访问数据等等,我们的]I作中主要是刑前l“l两种和多媒体数{
9、£}中的I訇豫城折:怍川充,F
10、f
11、i简要介绍r我们主要Ⅳf究帕砷}数扒。J!自i垒J堕厶生丝f:生也地坐——』生—i●基州苍片数掘我们在埘牡田袁达投槲进ii研究时.我们先台将迂种非结}{=I数钳站脚化,把这些数据表示成矩阵形式.一行就髭个样本.一列就是一个堆因。堆周工ll!
12、的一般任务娥址酋兜越健硪几{lI患者柏蛙阳样本进行采集,我们帕廿的就是识眺n与疾病夭系搬紧暂的致病璀⋯。壮Ij=_【通常“I成百I二下个梭许酸构成的,冈为恢汁酸按小旧的次序和睁列·lf以JI;成不同的牡圜,肇囡的种类繁多蛳Jjll了我们进行堆嘲分析的复杂rl。●文档龃掘在信息检索(IRl领域,文档经常用向量空问模型束表示,在这个模型中,娜个文档表示}J竞词审㈣中的一个向量。每个文档用词频向量dtr-(tfI,tf’.,if,,)束表示,蕻中嚆表示帮t个文}llirf·懿1个训H{现的次数:I}I于词汇数Fi众多.罔此打向祭审问模型中,文梢数捕:
13、是一种高维数据。●图像数据在网络中,黼像数据随处可见,进行图像检索,如果要鹰找出所有与给定图像相似的图形。通常的做法是从候选图像中提取出特征向量与Ff标图像的特征向量进行比较,从而得到与FI杯削睬柑t以ff,J剐形。H像经常用向量空州模型米表示,“这个腆,目rh啡个I引像嵌示战剧悔特“I:审问蚋个向耻.压l像的特“l点帕数¨众多,闯此圈缘【
14、土一利·高维数据。上文我们提到.网络-l-的数抛维度成千上九,使得商维数{{!}挖{l】
15、变僻异常l=I;
16、难。高维数捌对数据挖掘的影qi4分为州大类:第一类就足维数灾难,维数灾难¨题主要艟指数槲维数的增K
17、使得数撮分忻变得蚪常困难。第.癸就是商维数抑冲存在大量的噪声以及有些高维数据(文本数掘)的异常稀疏性垭料数掘分析其有挑l’出。2国内外研究现状最1f1
此文档下载收益归作者所有