欢迎来到天天文库
浏览记录
ID:58679949
大小:1.26 MB
页数:80页
时间:2020-10-05
《第八章相关与回归分析ppt课件.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、第4章降維分析王海介紹變量(維數)較多,增加了分析問題的複雜性;數據豐富但知識匱乏:實際問題中,變量之間可能存在一定的相關性,因此,多變量中可能存在資訊的重疊。人們自然希望通過克服相關性、重疊性,用較少的變量來代替原來較多的變量,而這種代替可以反映原來多個變量的大部分資訊,這實際上是一種“降維”的思想。介紹為什麼要降維?找出規律,壓縮數據量幾維?Wc7/10/96Th7/11/96Fr7/12/96Sa7/13/96Su7/14/96ABCInc.11100DEFLtd.22200GHIInc.11100KLMCo.55500Smith00022Johnson00033Thompson0
2、0011DayCustomer降維看起來2維,其實1維看起來3維,其實2維降維方法匯總數據降維線性方法PCALDA非線性方法保留局部特徵保留全域特徵基於重建權值特徵:LLE鄰接圖:LoplocionElgenmops基於切空間HessionLLELTSA基於距離保持基於歐式距離:MDS基於測地線距離:Lsomop基於分數距離:Offlusionmaps基於核:核PCA基於神經網路:多層自動編碼內容特徵值與特徵向量PCA(主元素分析)Principal-ComponentAnalysisLDA(線性判別分析)因子分析SVD(奇異值分解)Singular-ValueDecompositionC
3、UR分解特徵值與特徵向量定義設A是n階矩陣,如果數λ和n維非零列向量x使關係式Ax=λx成立,則稱數λ為方陣A的特徵值,非零向量x稱為A的對應於特徵值λ的特徵向量。特徵值特徵向量說明特徵向量x≠0,特徵值問題是對方陣而言的;n階方陣A的特徵值,就是使其次線性方程組(A-λI)x=0有非零解的λ值,即滿足方程
4、A-λI
5、=0的λ都是矩陣A的特徵值特徵值λ:求A的特徵值λ就是求
6、A-λI
7、=0的根;特徵向量x:求A的相應於λ的特徵向量就是求(A-λI)x=0的非零解向量一般計算方法求矩陣A的特徵值及特徵向量問題就轉化為求解多項式方程以及齊次線性方程組的通解問題。解A的特徵多項式為例:求的特徵值
8、和特徵向量所以A的特徵值為當時,對應的特徵向量應滿足即解得x1=x2,所以對應的特徵向量可取為當時,由故相應於的全體特徵向量為解得x1=-x2,所以對應的特徵向量可取為故相應於的全體特徵向量為任選一個向量x0,遞迴誤差FrobeniusNorm足夠小時,停止這個xk就是A的主特徵向量,然後通過Ax=λx求λ再找第二個特徵對:在A中去掉第一個主特徵向量的因素然後類似計算。PowerIteration方法λ=xTAxA*=A-λxxT特徵向量矩陣特徵特徵向量是單位向量特徵向量之間正交特徵向量矩陣E的特點R實戰-矩陣函數操作函數操作matrix()生成矩陣chol()矩陣的Cholesky分解t
9、()矩陣轉置svd()矩陣奇異值分解+、-、*、%*%矩陣相加、減、乘qr()矩陣QR分解diag()矩陣對角元素kronecker()矩陣Kronecker積solve()矩陣求逆dim()/nrow()/ncol()矩陣的維數eigen()矩陣的特徵值與特徵向量…………>A=matrix(1:12,nrow=3,ncol=4)>A[,1][,2][,3][,4][1,]14710[2,]25811[3,]36912主成分分析主成分分析的基本思想主成分分析(PrincipalComponentsAnalysis)是由Hotelling於1933年首先提出的。由於多個變量之間往往存在著一定
10、程度的相關性。人們自然希望通過線性組合的方式,從這些指標中盡可能快地提取資訊。當這些變量的第一個線性組合不能提取更多的資訊時,再考慮用第二個線性組合繼續這個提取的過程,……,直到提取足夠多的資訊為止。這就是主成分分析的思想。主成分分析的基本思想主成分分析適用於原有變量之間存在較高程度相關的情況。在主成分分析適用的場合,一般可以用較少的主成分得到較多的信息量,從而得到一個更低維的向量。通過主成分既可以降低數據“維數”又保留了原數據的大部分資訊。例:斯通關於國民經濟的研究一項十分著名的工作是美國的統計學家斯通(Stone)在1947年關於國民經濟的研究。他曾利用美國1929一1938年各年的數
11、據,得到了17個反映國民收入與支出的變量要素,例如雇主補貼、消費數據和生產數據、純公共支出、淨增庫存、股息、利息外貿平衡等等。在進行主成分分析後,竟以97.4%的精度,用3個新變量就取代了原17個變量。主成分分析的幾何意義•••••••••••••••••••••••••••••••••••••如果僅考慮x1或x2中的任何一個分量,那麼包含在另一分量中的資訊將會損失,因此,直接捨棄x1或x2分量不是“降維”的有效辦法。x
此文档下载收益归作者所有