欢迎来到天天文库
浏览记录
ID:51126393
大小:521.00 KB
页数:25页
时间:2020-03-19
《主成分(pca)分析原理.doc》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、主成分分析(primarycomponentanalysis)问题:假设在IR中我们建立的文档•词项矩阵中,有两个词项为ulearn55和“study”,在传统的向量空间模型中,认为两考独立。然而从语义的角度來讲,两者是相似的,而且两者出现频率也类似,是不是对以合成为一个特征呢?《模型选择和规则化》谈到的特征选择的问题,就是要剔除的特征主要是和类标签无关的特征。比如“学牛的名字”就和他的“成绩”无关,使用的是互信息的方法。而这里的特征很多是和类标签有关的,但里面存在噪声或者冗余。在这种情况下,需要一种特征降维的方法来减少特征数,减少噪音和冗余,减少过度
2、拟合的可能性。PCA的思想是将n维特征映射到k维上(k3、值,然后对于所有的样例,都减去对应的均值。这里x的均值是1.81,y的均值是1.91,那么一个样例减去均值后即为(0.69,0.49),得到Xy.69.49-1.31-1.21.39.99.09.29DataAdjust=1.291.09.49.79.19・・31-.81-.81-.31・・31-.71-1.01第二步,求特征协方差矩阵,如果数据是3维,那么协方差矩阵是(c.ov{x.①)COV(;I:,“)c=Icov^y.x}c.ov^y,y)cov^z.x}cou(z「y).616555556.615444444这里只有X和y,求解得.61514、11111.716555556对角线上分别是x和y的方差,非对角线上是协方差。协方差是衡量两个变量同时变化的变化程度。协方差大于0表示x和y若一个增,另一个也增;小于0表示一个增,一个减。如果x和y是统计独立的,那么二者之间的协方差就是0;但是协方差是0,并不能说明x和y是独立的。协方差绝对值越大,两者对彼此的影响越大,反之越小。协方差是没有单位的量,因此,如果同样的两个变量所采用的量纲发生变化,它们的协方差也会产生树枝上的变化。第三步,求协方差的特征值和特征向量,得到.,(.04908339S9etgenvalues=】卫灿即了】).(-.73515、78(556-.677873399eigenvectors=.677873399-.735178656丿上面是两个特征值,下面是对应的特征向量,特征值0.0490833989对应特征向量为(773也8656恥"仍翊尸,这里的特征向量都归一化为单位向量。第四步,将特征值按照从大到小的顺序排序,选择其中最大的k个,然后将其对应的k个特征向量分别作为列向量组成特征向量矩阵。这里特征值只有两个,我们选择其中最大的那个,这里是1.28402771,对应的特征向量是(7仞附33刃-0/352九低尸。第五步,将样本点投影到选取的特征向量上。假设样例数为m,特征数为6、n,减去均值后的样木矩阵为DataAdjust(m*n),协方差矩阵是n*n,选取的k个特征向量组成的矩阵为EigenVectors(n*k)o那么投影后的数据FinalData为FlnalDsta(m#k)=*a)xEigenvectors^*k)这里是FinalData(10*1)=DataAdjust(10*2矩阵)x特征向量「az回*-決f8656)T得到结果是TransformedData(Singleeigenvector)x-.8279701861.77758033-.992197494-.274210416-1.67580142-.917、2949103.09910943751.14457216.4380461371.22382056这样,就将原始样例的n维特征变成了k维,这k维就是原始特征在k维上的投影。上面的数据ij以认为是learn和study特征融合为一个新的特征叫做LS特征,该特征基本上代表了这两个特征。上述过程有个图描述:正号表示预处理后的样本点,斜着的两条线就分别是正交的特征向量(由于协方差矩阵是对称的,因此其特征向量正交),最后一步的矩阵乘法就是将原始样本点分别往特征向量对应的轴上做投影。如果取的k=2,那么结果是Xy-.827970186-.1751153071.7778、58033.142857227-.992197494.384374989-.274210416
3、值,然后对于所有的样例,都减去对应的均值。这里x的均值是1.81,y的均值是1.91,那么一个样例减去均值后即为(0.69,0.49),得到Xy.69.49-1.31-1.21.39.99.09.29DataAdjust=1.291.09.49.79.19・・31-.81-.81-.31・・31-.71-1.01第二步,求特征协方差矩阵,如果数据是3维,那么协方差矩阵是(c.ov{x.①)COV(;I:,“)c=Icov^y.x}c.ov^y,y)cov^z.x}cou(z「y).616555556.615444444这里只有X和y,求解得.6151
4、11111.716555556对角线上分别是x和y的方差,非对角线上是协方差。协方差是衡量两个变量同时变化的变化程度。协方差大于0表示x和y若一个增,另一个也增;小于0表示一个增,一个减。如果x和y是统计独立的,那么二者之间的协方差就是0;但是协方差是0,并不能说明x和y是独立的。协方差绝对值越大,两者对彼此的影响越大,反之越小。协方差是没有单位的量,因此,如果同样的两个变量所采用的量纲发生变化,它们的协方差也会产生树枝上的变化。第三步,求协方差的特征值和特征向量,得到.,(.04908339S9etgenvalues=】卫灿即了】).(-.7351
5、78(556-.677873399eigenvectors=.677873399-.735178656丿上面是两个特征值,下面是对应的特征向量,特征值0.0490833989对应特征向量为(773也8656恥"仍翊尸,这里的特征向量都归一化为单位向量。第四步,将特征值按照从大到小的顺序排序,选择其中最大的k个,然后将其对应的k个特征向量分别作为列向量组成特征向量矩阵。这里特征值只有两个,我们选择其中最大的那个,这里是1.28402771,对应的特征向量是(7仞附33刃-0/352九低尸。第五步,将样本点投影到选取的特征向量上。假设样例数为m,特征数为
6、n,减去均值后的样木矩阵为DataAdjust(m*n),协方差矩阵是n*n,选取的k个特征向量组成的矩阵为EigenVectors(n*k)o那么投影后的数据FinalData为FlnalDsta(m#k)=*a)xEigenvectors^*k)这里是FinalData(10*1)=DataAdjust(10*2矩阵)x特征向量「az回*-決f8656)T得到结果是TransformedData(Singleeigenvector)x-.8279701861.77758033-.992197494-.274210416-1.67580142-.91
7、2949103.09910943751.14457216.4380461371.22382056这样,就将原始样例的n维特征变成了k维,这k维就是原始特征在k维上的投影。上面的数据ij以认为是learn和study特征融合为一个新的特征叫做LS特征,该特征基本上代表了这两个特征。上述过程有个图描述:正号表示预处理后的样本点,斜着的两条线就分别是正交的特征向量(由于协方差矩阵是对称的,因此其特征向量正交),最后一步的矩阵乘法就是将原始样本点分别往特征向量对应的轴上做投影。如果取的k=2,那么结果是Xy-.827970186-.1751153071.777
8、58033.142857227-.992197494.384374989-.274210416
此文档下载收益归作者所有