《《主成分分析 》PPT課件》由會員分享,可在線閱讀,更多相關(guān)《《主成分分析 》PPT課件(58頁珍藏版)》請在裝配圖網(wǎng)上搜索。
1、CH.10 主成分分析,主成分分析 主成分回歸 立體數(shù)據(jù)表的主成分分析,一項十分著名的工作是美國的統(tǒng)計學(xué)家斯通(stone)在1947年關(guān)于國民經(jīng)濟(jì)的研究。他曾利用美國1929一1938年各年的數(shù)據(jù),得到了17個反映國民收入與支出的變量要素,例如雇主補(bǔ)貼、消費(fèi)資料和生產(chǎn)資料、純公共支出、凈增庫存、股息、利息外貿(mào)平衡等等。,1 基本思想,在進(jìn)行主成分分析后,竟以97.4的精度,用三新變量就取代了原17個變量。根據(jù)經(jīng)濟(jì)學(xué)知識,斯通給這三個新變量分別命名為總收入F1、總收入變化率F2和經(jīng)濟(jì)發(fā)展或衰退的趨勢F3。更有意思的是,這三個變量其實都是可以直接測量的。斯通將他得到的主成分與實際測量的總收入I
2、、總收入變化率I以及時間t因素做相關(guān)分析,得到下表:,主成分分析是把各變量之間互相關(guān)聯(lián)的復(fù)雜關(guān)系進(jìn)行簡化分析的方法。 在社會經(jīng)濟(jì)的研究中,為了全面系統(tǒng)的分析和研究問題,必須考慮許多經(jīng)濟(jì)指標(biāo),這些指標(biāo)能從不同的側(cè)面反映我們所研究的對象的特征,但在某種程度上存在信息的重疊,具有一定的相關(guān)性。,主成分分析試圖在力保數(shù)據(jù)信息丟失最少的原則下,對這種多變量的截面數(shù)據(jù)表進(jìn)行最佳綜合簡化,也就是說,對高維變量空間進(jìn)行降維處理。 很顯然,識辨系統(tǒng)在一個低維空間要比在一個高維空間容易得多。,(1) 基于相關(guān)系數(shù)矩陣還是基于協(xié)方差矩陣做主成分分析。當(dāng)分析中所選擇的經(jīng)濟(jì)變量具有不同的量綱,變量水平差異很大,應(yīng)該
3、選擇基于相關(guān)系數(shù)矩陣的主成分分析。,在力求數(shù)據(jù)信息丟失最少的原則下,對高維的變量空間降維,即研究指標(biāo)體系的少數(shù)幾個線性組合,并且這幾個線性組合所構(gòu)成的綜合指標(biāo)將盡可能多地保留原來指標(biāo)變異方面的信息。這些綜合指標(biāo)就稱為主成分。要討論的問題是:,(2) 選擇幾個主成分。主成分分析的目的是簡化變量,一般情況下主成分的個數(shù)應(yīng)該小于原始變量的個數(shù)。關(guān)于保留幾個主成分,應(yīng)該權(quán)衡主成分個數(shù)和保留的信息。 (3)如何解釋主成分所包含的經(jīng)濟(jì)意義。,,,,,2 數(shù)學(xué)模型與幾何解釋,假設(shè)我們所討論的實際問題中,有p個指標(biāo),我們把這p個指標(biāo)看作p個隨機(jī)變量,記為X1,X2,,Xp,主成分分析就是要把這p個指標(biāo)的問
4、題,轉(zhuǎn)變?yōu)橛懻損個指標(biāo)的線性組合的問題,而這些新的指標(biāo)F1,F(xiàn)2,,F(xiàn)k(kp),按照保留主要信息量的原則充分反映原指標(biāo)的信息,并且相互獨立。,這種由討論多個指標(biāo)降為少數(shù)幾個綜合指標(biāo)的過程在數(shù)學(xué)上就叫做降維。主成分分析通常的做法是,尋求原指標(biāo)的線性組合Fi。,滿足如下的條件:,主成分之間相互獨立,即無重疊的信息。即,主成分的方差依次遞減,重要性依次遞減,即,每個主成分的系數(shù)平方和為1。即,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,主成分分析的幾何解釋,平移、旋轉(zhuǎn)坐標(biāo)軸,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
5、主成分分析的幾何解釋,平移、旋轉(zhuǎn)坐標(biāo)軸,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,主成分分析的幾何解釋,平移、旋轉(zhuǎn)坐標(biāo)軸,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,主成分分析的幾何解釋,平移、旋轉(zhuǎn)坐標(biāo)軸,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,為了方便,我們在二維空間中討論主成分的幾何意義。 設(shè)有n個樣品,每個樣品有兩個觀測變量xl和x2,在由變量xl和x2 所確定的二維平面中,n個樣本點所散布的情況如橢圓狀。由圖可以看出這n
6、個樣本點無論是沿著xl 軸方向或x2軸方向都具有較大的離散性,其離散的程度可以分別用觀測變量xl 的方差和x2 的方差定量地表示。顯然,如果只考慮xl和x2 中的任何一個,那么包含在原始數(shù)據(jù)中的經(jīng)濟(jì)信息將會有較大的損失。,如果我們將xl 軸和x2軸先平移,再同時按逆時針方向旋轉(zhuǎn)角度,得到新坐標(biāo)軸Fl和F2。Fl和F2是兩個新變量。,根據(jù)旋轉(zhuǎn)變換的公式:,旋轉(zhuǎn)變換的目的是為了使得n個樣品點在Fl軸方向上的離 散程度最大,即Fl的方差最大。變量Fl代表了原始數(shù)據(jù)的絕大 部分信息,在研究某經(jīng)濟(jì)問題時,即使不考慮變量F2也無損大局。經(jīng)過上述旋轉(zhuǎn)變換原始數(shù)據(jù)的大部分信息集中到Fl軸上,對數(shù)據(jù)中包含的信息
7、起到了濃縮作用。,Fl,F(xiàn)2除了可以對包含在Xl,X2中的信息起著濃縮作用之外,還具有不相關(guān)的性質(zhì),這就使得在研究復(fù)雜的問題時避免了信息重疊所帶來的虛假性。二維平面上的個點的方差大部分都?xì)w結(jié)在Fl軸上,而F2軸上的方差很小。Fl和F2稱為原始變量x1和x2的綜合變量。F簡化了系統(tǒng)結(jié)構(gòu),抓住了主要矛盾。,3 主成分的推導(dǎo)及性質(zhì),一、兩個線性代數(shù)的結(jié)論,1、若A是p階實對稱陣,則一定可以找到正交陣U,使,其中 是A的特征根。,2、若上述矩陣的特征根所對應(yīng)的單位特征向量為,,則實對稱陣 屬于不同特征根所對應(yīng)的特征向量是正交的,即有,,令,,,二、主成分的推導(dǎo),(一) 第一主成分,設(shè)X的協(xié)方差陣為
8、,由于x為非負(fù)定的對稱陣,則有利用線性代數(shù)的知識可得,必存在正交陣U,使得,其中1, 2,, p為x的特征根,不妨假設(shè)1 2 p 。而U恰好是由特征根相對應(yīng)的特征向量所組成的正交陣。,,下面我們來看,是否由U的第一列元素所構(gòu)成為原始 變量的線性組合是否有最大的方差。,設(shè)有P維正交向量,,,,,,當(dāng)且僅當(dāng)a1 =u1時,即 時, 有最大的方差1。因為Var(F1)=U1xU1=1。 如果第一主成分的信息不夠,則需要尋找第二主成分。,(二) 第二主成分,在約束條件 下,尋找第二主成分,因為 所以,,則,對p維向量 ,有,,,所以如果取線性變換:,則 的方差次大。,類推,
9、,寫為矩陣形式:,,,4 主成分的性質(zhì),一、均值,二、方差為所有特征根之和,說明主成分分析把P個隨機(jī)變量的總方差分解成為P個不相關(guān)的隨機(jī)變量的方差之和。 協(xié)方差矩陣的對角線上的元素之和等于特征根之和。,,三、精度分析,1)貢獻(xiàn)率:第i個主成分的方差在全部方差中所占比重 ,稱為貢獻(xiàn)率 ,反映了原來P個指標(biāo)多大的信息,有多大的綜合能力 。,2)累積貢獻(xiàn)率:前k個主成分共有多大的綜合能力,用這k個主成分的方差和在全部方差中所占比重 來描述,稱為累積貢獻(xiàn)率。,我們進(jìn)行主成分分析的目的之一是希望用盡可能少的主成分F1,F(xiàn)2,,F(xiàn)k(kp)代替原來的P個指標(biāo)。到底應(yīng)該選擇多少個主成分,在實際工作中,主
10、成分個數(shù)的多少取決于能夠反映原來變量80%以上的信息量為依據(jù),即當(dāng)累積貢獻(xiàn)率80%時的主成分的個數(shù)就足夠了。最常見的情況是主成分為2到3個。,,四、原始變量與主成分之間的相關(guān)系數(shù),,,,,,可見, 和 的相關(guān)的密切程度取決于對應(yīng)線性組合系數(shù)的大小。,五、原始變量被主成分的提取率,前面我們討論了主成分的貢獻(xiàn)率和累計貢獻(xiàn)率,他度量了F1,F(xiàn)2,,F(xiàn)m分別從原始變量X1,X2,XP中提取了多少信息。那么X1,X2,XP各有多少信息分別F1,F(xiàn)2,,F(xiàn)m被提取了。應(yīng)該用什么指標(biāo)來度量?我們考慮到當(dāng)討論F1分別與X1,X2,XP的關(guān)系時,可以討論F1分別與X1,X2,XP的相關(guān)系數(shù),但是由于相關(guān)系數(shù)有正
11、有負(fù),所以只有考慮相關(guān)系數(shù)的平方。,如果我們僅僅提出了m個主成分,則第i 原始變量信息的被提取率為:,,是Fj 能說明的第i 原始變量的方差,是Fj 提取的第i 原始變量信息的比重,例 設(shè) 的協(xié)方差矩陣為,,解得特征根為 , ,,,,,第一個主成分的貢獻(xiàn)率為5.83/(5.83+2.00+0.17)=72.875%,盡管第一個主成分的貢獻(xiàn)率并不小,但在本題中第一主成分不含第三個原始變量的信息,所以應(yīng)該取兩個主成分。,,,,,定義:如果一個主成分僅僅對某一個原始變量有作用,則稱為特殊成分。如果一個主成分所有的原始變量都起作用稱為公共成分。,(該題無公共因子),六、載荷矩陣,,,5 主成分分
12、析的步驟,在 實際問題中,X的協(xié)方差通常是未知的,樣品有 的,,第一步:由X的協(xié)方差陣x,求出其特征根,即解方程 ,可得特征根 。,一、基于協(xié)方差矩陣,第二步:求出分別所對應(yīng)的特征向量U1,U2,,Up,,第三步:計算累積貢獻(xiàn)率,給出恰當(dāng)?shù)闹鞒煞謧€數(shù)。,第四步:計算所選出的k個主成分的得分。將原始數(shù)據(jù)的中心化值: 代入前k個主成分的表達(dá)式,分別計算出各單位k個主成分的得分,并按得分值的大小排隊。,二、基于相關(guān)系數(shù)矩陣 如果變量有不同的量綱,則必須基于相關(guān)系數(shù)矩陣進(jìn)行主成分分析。不同的是計算得分時應(yīng)采用標(biāo)準(zhǔn)化后的數(shù)據(jù)。,例子(中學(xué)生身體四項指標(biāo)的主成分分析),在某中學(xué)隨機(jī)抽取
13、某年級30名學(xué)生,測量起身高(X1),體重(X2),胸圍(X3)和坐高(X4),數(shù)據(jù)如下表。試對這30名中學(xué)生身體四項指標(biāo)數(shù)據(jù)做主成分分析。,,對數(shù)據(jù)的相關(guān)陣作主成分分析,有, pr.stud summary(pr.stud,loadings=TRUE) Importance of components: Comp.1 Comp.2 Comp.3 Comp.4 Standard deviation 1.8817805 0.55980636 0.28179594 0.25711844 Proportion of Variance 0.8852745 0.07834579 0.
14、01985224 0.01652747 Cumulative Proportion 0.8852745 0.96362029 0.98347253 1.00000000 Loadings: Comp.1 Comp.2 Comp.3 Comp.4 X1 -0.497 0.543 -0.450 0.506 X2 -0.515 -0.210 -0.462 -0.691 X3 -0.481 -0.725 0.175 0.461 X4 -0.507 0.368 0.744 -0.232 其中Standard deviation為主成分的標(biāo)準(zhǔn)差,即方差的開方,也就是相應(yīng)的特征值的開方。Proportio
15、n of Variane表示方差的貢獻(xiàn)率,而Cumulative Proportion表示方差的累計貢獻(xiàn)率。Loadings=FALSE或缺省就不列出loadings。,,分析:從主成分分析結(jié)果可看出前兩個主成分的累計貢獻(xiàn)率高達(dá)96%,選擇兩個主成分。 第一個主成分對應(yīng)系數(shù)的符號都相同,其值在0.5左右,反映了中學(xué)生身材的魁梧程度,身材高大的學(xué)生,他的四個部分的尺寸都比較大,因此第一主成分的值就較小。 而身材矮小的同學(xué)他的四部分都比較小,第一主成分的值較大。 第一主成分為大小因子。 第二主成分是高度和圍度之差,比較大表明該學(xué)生細(xì)高,比較小為“矮胖”,稱第二因子為形體因子。 看一下各樣本的主成份
16、值,,畫第一個主成分的散點圖,可看出10, 11,15,29值較大,說明學(xué)生比較瘦小,而3,5,25值較小,說明學(xué)生比較高大. predict(pr.stud)-score plot(1:30, score,1) plot(1:30, score,2),,,,,從這個圖很容易看出,那些學(xué)生屬于高大魁梧型,比如25號學(xué)生,3,5號學(xué)生,那些學(xué)生屬于高瘦型比如23,19,4.等等.,根據(jù)主成分分析的定義及性質(zhì),我們已大體上能看出主成分分析的一些應(yīng)用。概括起來說,主成分分析主要有以下幾方面的應(yīng)用。 1主成分分析能降低所研究的數(shù)據(jù)空間的維數(shù)。即用研究m維的Y空間代替p維的X空間(mp),而低維的Y
17、空間代替 高維的x空間所損失的信息很少。即:使只有一個主成分Yl(即 m1)時,這個Yl仍是使用全部X變量(p個)得到的。例如要計算Yl的均值也得使用全部x的均值。在所選的前m個主成分中,如果某個Xi的系數(shù)全部近似于零的話,就可以把這個Xi刪除,這也是一種刪除多余變量的方法。,6 主成分分析主要有以下幾方面的應(yīng)用,,2有時可通過因子負(fù)荷aij的結(jié)構(gòu),弄清X變量間的某些關(guān)系。 3. 多維數(shù)據(jù)的一種圖形表示方法。我們知道當(dāng)維數(shù)大于3時便不能畫出幾何圖形,多元統(tǒng)計研究的問題大都多于3個變量。要把研究的問題用圖形表示出來是不可能的。然而,經(jīng)過主成分分析后,我們可以選取前兩個主成分或其中某兩個主成分,根據(jù)主成分的得分,畫出n個樣品在二維平面上的分布況,由圖形可直觀地看出各樣品在主分量中的地位。,4由主成分分析法構(gòu)造回歸模型。即把各主成分作為新自變量代替原來自變量x做回歸分析。 5用主成分分析篩選回歸變量?;貧w變量的選擇有著重的實際意義,為了使模型本身易于做結(jié)構(gòu)分析、控制和預(yù)報,好從原始變量所構(gòu)成的子集合中選擇最佳變量,構(gòu)成最佳變量集合。用主成分分析篩選變量,可以用較少的計算量來選擇量,獲得選擇最佳變量子集合的效果。,