欢迎来到天天文库
浏览记录
ID:35093961
大小:6.05 MB
页数:53页
时间:2019-03-17
《稀疏学习及其在数据挖掘的应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、单位代码10602学号2013011531分类号TP391密级公开方心'?序◎吁錢V:::^GUANGXINORMALUNIVERSITY硕壬学化冷文稀疏学习及其在数据挖掘的应用SparselearninganditsalicationsinDataMininppg学院;计算机科学与信息工程学院专业:计算机应用技术研究方向:数据挖掘年级;2013级研究生:程德波指导教师;张师超教授完成日期:2016年4月稀疏学巧及其在數据挖據的应巧专业名舞:计算应用
2、技术申请人:程德波指导教卿:张师起论文答辩委员会、主席:和4兮妻11:AMl-—私征稀疏学习及其在数据挖掘的应用年级:2013级导师:张师超教授姓名:程德波专业:计算机应用技术研究方向:数据挖掘、机器学习摘要数据挖掘处理的数据经常含有噪音样本和高维属性,稀疏学习已经显示能非常有效地反映数据之间的相关关系,即在学习的过程中对相关的样本或者属性学习出大的权重系数,不相关的样本或属性学习出小权重或者零权重系数。本文研究和扩展现有稀疏学习框架,提出新的稀疏学习模型对k最近邻分类算法关于k值难W确定的公
3、开性问题和高维数一些问题进行研究据的属性选择算法存在的。具体地说,一kec1提出了种基于稀疏学习和决策树的最近邻分类算法(DisionTreekNearest()NeihborClassificationalorithmbasedonsarselearning,DTkNNC。k最近邻分类算法kggp)(NearestNeighborClass巧c她on,kNNC)由于简单易实现而旦效果显著被广泛的应用于数据分类问题,但是kNNC算法存在兰个缺陷:片)、kNNC算法的k值难W取定;(ii)、固定k值的kNNC
4、算法对数据分类时效果不能保证;片巧、改进的kNNC算法没有充分考虑数据的全局信息。因此,本文第H章提出的DTkNNC算法融合稀疏学习和样本自表达且与决策树技术结合来解决kNNC算法存在的不足。详细地说,DTkNNC算法利用稀疏学习来研究kNN算法存在k值难W取定的公开性难题,使用样本自表达技术考虑数据的全局信息来提高算法的效果,而且利用决策树的低时间复杂度来加速算法和提高分类效果。在真实数据的模拟实验中,DTkNNC算法比常见的ADkNN、LMNN、kNNC算法效果要好。提出的基于稀疏学习框架的目标函数不但在一定程度上丰富了现有稀
5、疏模型框架同时也扩充了其应用范围,即将稀疏学习应用于数据分类方面。一G2提出了种基于子空间学习和图稀疏学习的属性选择算法(rahsarselearnin()ppg一forFeatureSelectionalorithmbasedonSubsacelearnin,缩写为SGFS。属性选择是类gpg_)常见的用来处理髙维数据的方法,然而现有的属性选择方法存在W下缺階:简单地对所有一属性按某规则排序或者简单的通过稀疏学习获得属性之间的重要关系,没有很好的考虑到属性间的相关关系。本文第四章利用子空间学习的两种算法(线性
6、判别分析(LDA)和局部保持投影(LPP))考虑数据的全局特性和局部特性,同时将子空间学习算法嵌入现有基于稀疏学习的属性选择框架中)。该方法不仅具有子空间学习方法的优越性(即显著的分类效果还具有属性选择的优点(即可解释性)。在真实数据的模拟实验中,SGFS算法比NFS、_一PCA、LDA、LPP、LE、L21方法效果要好。提出的基于稀疏学习框架的目标函数在定程度上丰富了现有稀疏模型框架,同时也将稀疏学习推广应用于商维数据属性选揮方面。本文对数据挖掘领域中的kNNC算法关于k值的难W取定和髙维数据的属性选择两个方面进行了研究,即
7、首先使用稀疏学习的理论和方法来解决这两个方面现有算法存在的缺I陷,然后提出了两种新的数据挖掘算法。论文中提出的每种算法都使用了真实的公开数据集进行实验验证和分析,,在各个评价指标下本文提出的两种算法均优于现有的常见算法。关键词:数据挖掘;子空间学习属性选择;稀疏学习;kNN算法;样本自表达;决策树;IISparselearninganditsapplicationsinDataMiningMaor:ComputerApplicationTechnologyGrade:2013jSubect:Dat
8、aMining&MachineLearninName:DeboCHEN
此文档下载收益归作者所有