欢迎来到天天文库
浏览记录
ID:23803141
大小:2.14 MB
页数:39页
时间:2018-11-10
《面向高维数据的并行非线性最小二乘分类器研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、1绪论类器将其他的未知数据映射到某一类别,最终实现分类的目的。分类技术[8,9】已经在统计学、机器学习、专家系统和神经网络等领域得到广泛的应用与研究,经过不断的发展,研究者提出并总结了很多有效的分类算法。比较常用的分类算法主要有K-近邻【10,Ii】、支持向量机盼13](SupportVectorMachine,SVM)、决策树∽羽、朴素贝叶斯分类器【15‘18】、遗传算法【19,201、神经网络【21倒等,以及基于以上经典方法的改进和优化方法。在实际应用过程中,利用这些算法已经成功地解决了很多关于数据分类的问题。1.1.2研究意义目前,随着科技
2、的进步,数据采集方式不断增加,逐渐趋向多样化,在网络通信、生物医学、科学研究、商业等诸多领域中出现了大量的高维数据[24,2,25,3】。比如,现实生活中就存在着如下几类比较常见的高维数据【26]:(1)购物篮数据每个百货公司的数据库中记录、存储着大量的交易信息,每条交易信息对应着一位顾客的一次购物经历。如果把商场的每一次交易信息视为一个二维表,其中所有商品的种类作为二维表格的列,而顾客的每次购物清单作为二维表格的行。例如某顾客购买了某一个商品,则在购买的相应商品列上用1进行标记,反之记为0。因此,购物篮数据是一个以顾客的具体交易行为为行,以商品
3、种类为列的二维表。由于商品种类繁多,交易行为复杂,由此可见购物篮数据是高维数据。(2)文本数据信息检索领域里,文本文档通常采用向量模型进行描述。每个文本文档对应一个向量,词频向量是最常用的表达方式,即庐(斫,班,...,砺),式中,斫是该文本文档第f个词出现的频率。每个文本文档包含大量的词汇,因此文本文档也是高维数据。(3)时间序列数据时间序列数据,顾名思义,是一系列数值随时间变化的序列数据。在气象预报、金融股票、动态产品加工过程、药物研究、科学实验等方面,时序数据被广泛应用。下面以金融股票数据为例,通常人们通过在历史数据中找到具有类似当前先期变
4、化情况的股票,然后根据历史情况的后期走势对当前股票可能的价格走势进行预测。某件事情在时间序列tl,h,...,岛上获得的测量值分别为xbx2,...,xn,这件事情可以表示成X-(xl,x2,...而),因此时序数据可以用一个挖维向量进行表示。在实际生活中,时序数据的时间长度很长,因此,时序数据属于高维数据。(4)基因表达数据1绪论基因芯片实验通过采集健康人和病患的基因样本,然后从两者的比较中,找到其致病基因,来实现对病人的治疗。实验过程中可产生大量的基因表达数据,为方便人们管理,一般也采用二维表格来表示基因表达数据,列表示样本中基因的值,行表示
5、样本。由于任何样本的基因都是由不同核苷酸通过不同顺序组合而来,因此,基因表达数据是高维数据。(5)多媒体数据多媒体数据的种类很多,一般包含音频、图像、视频和超文本等多种形态的多媒体数据,这些数据广泛被应用在生物学、地理学、气象学等诸多领域。基于数据相似性,人们来完成对图像的搜索。首先对超文本数据进行特征提取,再将特征数据映射到高维空间,然后通过最近邻方法来搜索多媒体数据,以此完成数据匹配。由上述过程可以看出,多媒体数据属于高维数据。(6)Web访问数据网站Web服务的运行过程中,该网站中的网页每天都会被大量的用户访问,访问行为被记录在Web服务器
6、的访问日志中。Web访问数据也可用二维表形式进行表示,列表示用户访问过的页面,行表示用户的一次访问过程。如果用户访问过该网页,就用1在对应的列上进行标记,否则用0标记,还可以记录用户访问该网页所花的时间。由于网页的数量很多,所以,w-eb访问数据是高维数据。可以预计,未来必然还有更多类型、维度更高的高维数据出现,这些高维数据与低维数据相比有很多完全不同的性质。尽管数据维数不断增大,但是有用的信息可能并不会相应增加,而且极有可能存在着大量的无关信息和冗余信息,甚至是大量的干扰信息,它们都会影响到数据的分类。如若使用上文所提到的分类方法处理高维数据,
7、则不但可能达不到所希望的效果,甚至无法完成分类。高维数据中有着很多潜在的、不易挖掘的重要信息,使用传统的方法已经难以满足高效获取有效信息的需求。因此,发展更为有效的分类方法,从高维数据中获取所需要的有用信息和知识,是如今知识经济和信息社会面临的基本问题,也是重大挑战。总结来说,基于高维数据存在高维的固有特点,对常见的分类方法提出几点挑战,如下:(1)分类的时间复杂度呈指数增加。现有的分类算法针对低维数据有着许多搜索技术,这些技术可以高效的对数据集进行搜索。但是,搜索技术的性能与数据的维数成反比,它会随着维数的增加而降低,最后降到与一般的顺序搜索水
8、平相当,从而分类的时间复杂度呈指数级增加。面对诸多高维数据的分类问题,常规的分类算法由于其过大的时间开销,往往导致分类无法正常进行。(2
此文档下载收益归作者所有