技术报告_SVD与LDA

技术报告_SVD与LDA

ID:38471343

大小:694.50 KB

页数:16页

时间:2019-06-13

技术报告_SVD与LDA_第1页
技术报告_SVD与LDA_第2页
技术报告_SVD与LDA_第3页
技术报告_SVD与LDA_第4页
技术报告_SVD与LDA_第5页
资源描述:

《技术报告_SVD与LDA》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、SVD与LDA一、矩阵的奇异值分解(SingularValueDecomposition,SVD)1.矩阵的奇异值定义设C是MxN实矩阵,称n阶方阵CTC的非0特征值的算术平方根为矩阵C的奇异值。2.矩阵的奇异值分解定理SVD(SingleValueDecomposition),即奇异值分解,是潜在语义索引的理论基础。它是线性代数中有关矩阵分解的一个理论。设A是秩为r的m´n阶实矩阵,则存在m阶正交阵U和n阶正交阵V,使得(1)其中,矩阵U、S和V分别为m´m、m´n和n´n维的矩阵。矩阵U的各列为AA

2、T的特征向量,矩阵V的各列为ATA的特征向量。且矩阵AAT和矩阵ATA的特征值均为l1,…,lr(li>0,i=1,2,…,r),设,则。即矩阵S为对角阵,S中的对角元素称为奇异值。图1给出了一个奇异值分解的示例。图1SVD分解图示Fig.1AnexampleofSVDSVD分解能被用来计算最优的low-rankapproximation,即SVD分解能得到原矩阵的最优低阶近似。这转化为一个近似问题,即:找到秩为k的矩阵Ak,使得(2)其中,称为Frobeniuserror,Ak和X均为m´n的矩阵。k

3、<

4、析中,低阶近似是为了使用低维的矩阵来表示一个高维的矩阵,并使两者之差尽可能的小。给定一个MxN矩阵C(其秩为r)和正整数k,我们希望找到一个MxN矩阵Ck,其秩不大于K。设X为C与Ck之间的差,X=C–Ck,X的F-范数为(5)当k远小于r时,称Ck为C的低阶近似,其中X也就是两矩阵之差的F范数要尽可能的小SVD可以被用与求低阶近似问题,步骤如下:(1)给定一个矩阵C,对其奇异值分解:(6)(2)构造,它是将的第k+1行至M行设为零,也就是把的最小的r-k个(ther-ksmallest)奇异值设为零。

5、(3)计算Ck:(7)对文本分类,SVD中的矩阵A即是词项-文本矩阵(term-documentvectormatrix),矩阵U即是词项-概念矩阵(term-conceptvectormatrix),V即是概念-文档矩阵(concept-documentvectormatrix),矩阵S是奇异值矩阵,它是对角阵。由于在文本中,词项-文本矩阵的维数(m,n)经常是几万维,矩阵的秩也是上千维。因此,采用TruncatedSVD的方式进行降维处理,在文本分类领域就显得尤为重要。实际中,通过利用Truncat

6、edSVD进行low-rankapproximations,矩阵的秩可以降到100-300维,同时,能保证分类的效果不出现明显的下降。潜在语义空间与原来的空间(VSM)相比,空间维数要小的多。因此,LSI其实是一种降维方法。通过采用TruncatedSVD,能使得特征空间的维度进一步的下降。但同时,LSI的特点是它获取的新的维度在直观上无法给出解释,这一点不同于特征选择的降维方法。4.潜在语义索引示例为了更好的理解潜在语义索引方法在文本分类领域的应用。下面举一个简单的例子。图3是一个词项-文本矩阵A。每

7、一行表示一个词项特征,每一列表示一篇文档。行列元素的值表示该词项是否在对应的文档中出现,如果出现,元素值为1,否则,元素值为0。图3词项-文档矩阵示例Fig.3Anterm-documentvectormatrix对该矩阵进行SVD分解,得到如下三个矩阵,即词项矩阵U、文本矩阵VT和奇异值矩阵S。图4,图5和图6分别表示这三个矩阵。图4词项-概念矩阵示例Fig.4Anterm-conceptvectormatrix图5概念-文档矩阵示例Fig.5Anconcept-documentvectormatri

8、x图6奇异值矩阵示例Fig.6Ansinglevaluevectormatrix其中,矩阵U和矩阵VT中的数字(1,2,…,5)是空间维度标号。采用TruncatedSVD的方法,只保留前2个最大的奇异值,得到新的奇异值矩阵S2,如图7所示。图7新的奇异值矩阵Fig.7Anewsinglevaluevectormatrix再次计算,得到新的矩阵A2,如图8所示。图8新的词项-文档矩阵Fig.8Thenewterm-documentvecto

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。