《主成分分析》PPT課件

上傳人：san****019 文檔編號(hào)：16510737 上傳時(shí)間：2020-10-05 格式：PPT 頁(yè)數(shù)：58 大?。?.35MB

收藏版權(quán)申訴舉報(bào) 下載

第1頁(yè) / 共58頁(yè)

第2頁(yè) / 共58頁(yè)

第3頁(yè) / 共58頁(yè)

下載文檔到電腦，查找使用更方便

14.9 積分

下載資源

還剩頁(yè)未讀，繼續(xù)閱讀

資源描述：

《《主成分分析》PPT課件》由會(huì)員分享，可在線閱讀，更多相關(guān)《《主成分分析》PPT課件（58頁(yè)珍藏版）》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。

1、CH.10 主成分分析,主成分分析主成分回歸立體數(shù)據(jù)表的主成分分析,一項(xiàng)十分著名的工作是美國(guó)的統(tǒng)計(jì)學(xué)家斯通(stone)在1947年關(guān)于國(guó)民經(jīng)濟(jì)的研究。他曾利用美國(guó)1929一1938年各年的數(shù)據(jù)，得到了17個(gè)反映國(guó)民收入與支出的變量要素，例如雇主補(bǔ)貼、消費(fèi)資料和生產(chǎn)資料、純公共支出、凈增庫(kù)存、股息、利息外貿(mào)平衡等等。,1 基本思想,在進(jìn)行主成分分析后，竟以97.4的精度，用三新變量就取代了原17個(gè)變量。根據(jù)經(jīng)濟(jì)學(xué)知識(shí)，斯通給這三個(gè)新變量分別命名為總收入F1、總收入變化率F2和經(jīng)濟(jì)發(fā)展或衰退的趨勢(shì)F3。更有意思的是，這三個(gè)變量其實(shí)都是可以直接測(cè)量的。斯通將他得到的主成分與實(shí)際測(cè)量的總收入I

2、、總收入變化率I以及時(shí)間t因素做相關(guān)分析，得到下表：,主成分分析是把各變量之間互相關(guān)聯(lián)的復(fù)雜關(guān)系進(jìn)行簡(jiǎn)化分析的方法。在社會(huì)經(jīng)濟(jì)的研究中，為了全面系統(tǒng)的分析和研究問(wèn)題，必須考慮許多經(jīng)濟(jì)指標(biāo)，這些指標(biāo)能從不同的側(cè)面反映我們所研究的對(duì)象的特征，但在某種程度上存在信息的重疊，具有一定的相關(guān)性。,主成分分析試圖在力保數(shù)據(jù)信息丟失最少的原則下，對(duì)這種多變量的截面數(shù)據(jù)表進(jìn)行最佳綜合簡(jiǎn)化，也就是說(shuō)，對(duì)高維變量空間進(jìn)行降維處理。很顯然，識(shí)辨系統(tǒng)在一個(gè)低維空間要比在一個(gè)高維空間容易得多。,(1) 基于相關(guān)系數(shù)矩陣還是基于協(xié)方差矩陣做主成分分析。當(dāng)分析中所選擇的經(jīng)濟(jì)變量具有不同的量綱，變量水平差異很大，應(yīng)該

3、選擇基于相關(guān)系數(shù)矩陣的主成分分析。,在力求數(shù)據(jù)信息丟失最少的原則下，對(duì)高維的變量空間降維，即研究指標(biāo)體系的少數(shù)幾個(gè)線性組合，并且這幾個(gè)線性組合所構(gòu)成的綜合指標(biāo)將盡可能多地保留原來(lái)指標(biāo)變異方面的信息。這些綜合指標(biāo)就稱為主成分。要討論的問(wèn)題是：,（2）選擇幾個(gè)主成分。主成分分析的目的是簡(jiǎn)化變量，一般情況下主成分的個(gè)數(shù)應(yīng)該小于原始變量的個(gè)數(shù)。關(guān)于保留幾個(gè)主成分，應(yīng)該權(quán)衡主成分個(gè)數(shù)和保留的信息。（3）如何解釋主成分所包含的經(jīng)濟(jì)意義。,,,,,2 數(shù)學(xué)模型與幾何解釋,假設(shè)我們所討論的實(shí)際問(wèn)題中，有p個(gè)指標(biāo)，我們把這p個(gè)指標(biāo)看作p個(gè)隨機(jī)變量，記為X1，X2，，Xp，主成分分析就是要把這p個(gè)指標(biāo)的問(wèn)

4、題，轉(zhuǎn)變?yōu)橛懻損個(gè)指標(biāo)的線性組合的問(wèn)題，而這些新的指標(biāo)F1，F(xiàn)2，，F(xiàn)k(kp），按照保留主要信息量的原則充分反映原指標(biāo)的信息，并且相互獨(dú)立。,這種由討論多個(gè)指標(biāo)降為少數(shù)幾個(gè)綜合指標(biāo)的過(guò)程在數(shù)學(xué)上就叫做降維。主成分分析通常的做法是，尋求原指標(biāo)的線性組合Fi。,滿足如下的條件：,主成分之間相互獨(dú)立，即無(wú)重疊的信息。即,主成分的方差依次遞減，重要性依次遞減，即,每個(gè)主成分的系數(shù)平方和為1。即,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,主成分分析的幾何解釋,平移、旋轉(zhuǎn)坐標(biāo)軸,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,

5、主成分分析的幾何解釋,平移、旋轉(zhuǎn)坐標(biāo)軸,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,主成分分析的幾何解釋,平移、旋轉(zhuǎn)坐標(biāo)軸,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,主成分分析的幾何解釋,平移、旋轉(zhuǎn)坐標(biāo)軸,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,為了方便，我們?cè)诙S空間中討論主成分的幾何意義。設(shè)有n個(gè)樣品，每個(gè)樣品有兩個(gè)觀測(cè)變量xl和x2，在由變量xl和x2 所確定的二維平面中，n個(gè)樣本點(diǎn)所散布的情況如橢圓狀。由圖可以看出這n

6、個(gè)樣本點(diǎn)無(wú)論是沿著xl 軸方向或x2軸方向都具有較大的離散性，其離散的程度可以分別用觀測(cè)變量xl 的方差和x2 的方差定量地表示。顯然，如果只考慮xl和x2 中的任何一個(gè)，那么包含在原始數(shù)據(jù)中的經(jīng)濟(jì)信息將會(huì)有較大的損失。,如果我們將xl 軸和x2軸先平移，再同時(shí)按逆時(shí)針方向旋轉(zhuǎn)角度，得到新坐標(biāo)軸Fl和F2。Fl和F2是兩個(gè)新變量。,根據(jù)旋轉(zhuǎn)變換的公式：,旋轉(zhuǎn)變換的目的是為了使得n個(gè)樣品點(diǎn)在Fl軸方向上的離散程度最大，即Fl的方差最大。變量Fl代表了原始數(shù)據(jù)的絕大部分信息，在研究某經(jīng)濟(jì)問(wèn)題時(shí)，即使不考慮變量F2也無(wú)損大局。經(jīng)過(guò)上述旋轉(zhuǎn)變換原始數(shù)據(jù)的大部分信息集中到Fl軸上，對(duì)數(shù)據(jù)中包含的信息

7、起到了濃縮作用。,Fl，F(xiàn)2除了可以對(duì)包含在Xl，X2中的信息起著濃縮作用之外，還具有不相關(guān)的性質(zhì)，這就使得在研究復(fù)雜的問(wèn)題時(shí)避免了信息重疊所帶來(lái)的虛假性。二維平面上的個(gè)點(diǎn)的方差大部分都?xì)w結(jié)在Fl軸上，而F2軸上的方差很小。Fl和F2稱為原始變量x1和x2的綜合變量。F簡(jiǎn)化了系統(tǒng)結(jié)構(gòu)，抓住了主要矛盾。,3 主成分的推導(dǎo)及性質(zhì),一、兩個(gè)線性代數(shù)的結(jié)論,1、若A是p階實(shí)對(duì)稱陣，則一定可以找到正交陣U，使,其中是A的特征根。,2、若上述矩陣的特征根所對(duì)應(yīng)的單位特征向量為,,則實(shí)對(duì)稱陣屬于不同特征根所對(duì)應(yīng)的特征向量是正交的，即有,,令,,,二、主成分的推導(dǎo),（一）第一主成分,設(shè)X的協(xié)方差陣為

8、,由于x為非負(fù)定的對(duì)稱陣，則有利用線性代數(shù)的知識(shí)可得，必存在正交陣U，使得,其中1， 2，， p為x的特征根，不妨假設(shè)1 2 p 。而U恰好是由特征根相對(duì)應(yīng)的特征向量所組成的正交陣。,,下面我們來(lái)看，是否由U的第一列元素所構(gòu)成為原始變量的線性組合是否有最大的方差。,設(shè)有P維正交向量,,,,,,當(dāng)且僅當(dāng)a1 =u1時(shí)，即時(shí)，有最大的方差1。因?yàn)閂ar(F1)=U1xU1=1。如果第一主成分的信息不夠，則需要尋找第二主成分。,（二）第二主成分,在約束條件下，尋找第二主成分,因?yàn)?所以,,則，對(duì)p維向量，有,,,所以如果取線性變換：,則的方差次大。,類推,

9、,寫為矩陣形式：,,,4 主成分的性質(zhì),一、均值,二、方差為所有特征根之和,說(shuō)明主成分分析把P個(gè)隨機(jī)變量的總方差分解成為P個(gè)不相關(guān)的隨機(jī)變量的方差之和。協(xié)方差矩陣的對(duì)角線上的元素之和等于特征根之和。,,三、精度分析,1）貢獻(xiàn)率：第i個(gè)主成分的方差在全部方差中所占比重，稱為貢獻(xiàn)率，反映了原來(lái)P個(gè)指標(biāo)多大的信息，有多大的綜合能力。,2）累積貢獻(xiàn)率：前k個(gè)主成分共有多大的綜合能力，用這k個(gè)主成分的方差和在全部方差中所占比重來(lái)描述，稱為累積貢獻(xiàn)率。,我們進(jìn)行主成分分析的目的之一是希望用盡可能少的主成分F1，F(xiàn)2，，F(xiàn)k（kp）代替原來(lái)的P個(gè)指標(biāo)。到底應(yīng)該選擇多少個(gè)主成分，在實(shí)際工作中，主

10、成分個(gè)數(shù)的多少取決于能夠反映原來(lái)變量80%以上的信息量為依據(jù)，即當(dāng)累積貢獻(xiàn)率80%時(shí)的主成分的個(gè)數(shù)就足夠了。最常見的情況是主成分為2到3個(gè)。,,四、原始變量與主成分之間的相關(guān)系數(shù),,,,,,可見，和的相關(guān)的密切程度取決于對(duì)應(yīng)線性組合系數(shù)的大小。,五、原始變量被主成分的提取率,前面我們討論了主成分的貢獻(xiàn)率和累計(jì)貢獻(xiàn)率，他度量了F1，F(xiàn)2，，F(xiàn)m分別從原始變量X1，X2，XP中提取了多少信息。那么X1，X2，XP各有多少信息分別F1，F(xiàn)2，，F(xiàn)m被提取了。應(yīng)該用什么指標(biāo)來(lái)度量？我們考慮到當(dāng)討論F1分別與X1，X2，XP的關(guān)系時(shí)，可以討論F1分別與X1，X2，XP的相關(guān)系數(shù)，但是由于相關(guān)系數(shù)有正

11、有負(fù)，所以只有考慮相關(guān)系數(shù)的平方。,如果我們僅僅提出了m個(gè)主成分，則第i 原始變量信息的被提取率為：,,是Fj 能說(shuō)明的第i 原始變量的方差,是Fj 提取的第i 原始變量信息的比重,例設(shè) 的協(xié)方差矩陣為,,解得特征根為，，,，，,第一個(gè)主成分的貢獻(xiàn)率為5.83/（5.83+2.00+0.17）=72.875%，盡管第一個(gè)主成分的貢獻(xiàn)率并不小，但在本題中第一主成分不含第三個(gè)原始變量的信息，所以應(yīng)該取兩個(gè)主成分。,,,,,定義：如果一個(gè)主成分僅僅對(duì)某一個(gè)原始變量有作用，則稱為特殊成分。如果一個(gè)主成分所有的原始變量都起作用稱為公共成分。,(該題無(wú)公共因子）,六、載荷矩陣,,,5 主成分分

12、析的步驟,在實(shí)際問(wèn)題中，X的協(xié)方差通常是未知的，樣品有的,,第一步：由X的協(xié)方差陣x，求出其特征根，即解方程，可得特征根。,一、基于協(xié)方差矩陣,第二步：求出分別所對(duì)應(yīng)的特征向量U1，U2，，Up，,第三步：計(jì)算累積貢獻(xiàn)率，給出恰當(dāng)?shù)闹鞒煞謧€(gè)數(shù)。,第四步：計(jì)算所選出的k個(gè)主成分的得分。將原始數(shù)據(jù)的中心化值: 代入前k個(gè)主成分的表達(dá)式，分別計(jì)算出各單位k個(gè)主成分的得分，并按得分值的大小排隊(duì)。,二、基于相關(guān)系數(shù)矩陣如果變量有不同的量綱，則必須基于相關(guān)系數(shù)矩陣進(jìn)行主成分分析。不同的是計(jì)算得分時(shí)應(yīng)采用標(biāo)準(zhǔn)化后的數(shù)據(jù)。,例子（中學(xué)生身體四項(xiàng)指標(biāo)的主成分分析）,在某中學(xué)隨機(jī)抽取

13、某年級(jí)30名學(xué)生，測(cè)量起身高（X1），體重（X2），胸圍（X3）和坐高（X4），數(shù)據(jù)如下表。試對(duì)這30名中學(xué)生身體四項(xiàng)指標(biāo)數(shù)據(jù)做主成分分析。,,對(duì)數(shù)據(jù)的相關(guān)陣作主成分分析，有, pr.stud summary(pr.stud,loadings=TRUE) Importance of components: Comp.1 Comp.2 Comp.3 Comp.4 Standard deviation 1.8817805 0.55980636 0.28179594 0.25711844 Proportion of Variance 0.8852745 0.07834579 0.

14、01985224 0.01652747 Cumulative Proportion 0.8852745 0.96362029 0.98347253 1.00000000 Loadings: Comp.1 Comp.2 Comp.3 Comp.4 X1 -0.497 0.543 -0.450 0.506 X2 -0.515 -0.210 -0.462 -0.691 X3 -0.481 -0.725 0.175 0.461 X4 -0.507 0.368 0.744 -0.232 其中Standard deviation為主成分的標(biāo)準(zhǔn)差，即方差的開方，也就是相應(yīng)的特征值的開方。Proportio

15、n of Variane表示方差的貢獻(xiàn)率，而Cumulative Proportion表示方差的累計(jì)貢獻(xiàn)率。Loadings=FALSE或缺省就不列出loadings。,,分析：從主成分分析結(jié)果可看出前兩個(gè)主成分的累計(jì)貢獻(xiàn)率高達(dá)96%,選擇兩個(gè)主成分。第一個(gè)主成分對(duì)應(yīng)系數(shù)的符號(hào)都相同，其值在0.5左右，反映了中學(xué)生身材的魁梧程度，身材高大的學(xué)生，他的四個(gè)部分的尺寸都比較大，因此第一主成分的值就較小。而身材矮小的同學(xué)他的四部分都比較小，第一主成分的值較大。第一主成分為大小因子。第二主成分是高度和圍度之差，比較大表明該學(xué)生細(xì)高，比較小為“矮胖”，稱第二因子為形體因子。看一下各樣本的主成份

16、值,,畫第一個(gè)主成分的散點(diǎn)圖，可看出10, 11，15，29值較大,說(shuō)明學(xué)生比較瘦小,而3,5,25值較小,說(shuō)明學(xué)生比較高大. predict(pr.stud)-score plot(1:30, score,1) plot(1:30, score,2),,,,,從這個(gè)圖很容易看出,那些學(xué)生屬于高大魁梧型,比如25號(hào)學(xué)生,3,5號(hào)學(xué)生,那些學(xué)生屬于高瘦型比如23,19,4.等等.,根據(jù)主成分分析的定義及性質(zhì)，我們已大體上能看出主成分分析的一些應(yīng)用。概括起來(lái)說(shuō)，主成分分析主要有以下幾方面的應(yīng)用。 1主成分分析能降低所研究的數(shù)據(jù)空間的維數(shù)。即用研究m維的Y空間代替p維的X空間(mp)，而低維的Y

17、空間代替高維的x空間所損失的信息很少。即：使只有一個(gè)主成分Yl(即 m1)時(shí)，這個(gè)Yl仍是使用全部X變量(p個(gè))得到的。例如要計(jì)算Yl的均值也得使用全部x的均值。在所選的前m個(gè)主成分中，如果某個(gè)Xi的系數(shù)全部近似于零的話，就可以把這個(gè)Xi刪除，這也是一種刪除多余變量的方法。,6 主成分分析主要有以下幾方面的應(yīng)用,,2有時(shí)可通過(guò)因子負(fù)荷aij的結(jié)構(gòu)，弄清X變量間的某些關(guān)系。 3. 多維數(shù)據(jù)的一種圖形表示方法。我們知道當(dāng)維數(shù)大于3時(shí)便不能畫出幾何圖形，多元統(tǒng)計(jì)研究的問(wèn)題大都多于3個(gè)變量。要把研究的問(wèn)題用圖形表示出來(lái)是不可能的。然而，經(jīng)過(guò)主成分分析后，我們可以選取前兩個(gè)主成分或其中某兩個(gè)主成分，根據(jù)主成分的得分，畫出n個(gè)樣品在二維平面上的分布況，由圖形可直觀地看出各樣品在主分量中的地位。,4由主成分分析法構(gòu)造回歸模型。即把各主成分作為新自變量代替原來(lái)自變量x做回歸分析。 5用主成分分析篩選回歸變量?；貧w變量的選擇有著重的實(shí)際意義，為了使模型本身易于做結(jié)構(gòu)分析、控制和預(yù)報(bào)，好從原始變量所構(gòu)成的子集合中選擇最佳變量，構(gòu)成最佳變量集合。用主成分分析篩選變量，可以用較少的計(jì)算量來(lái)選擇量，獲得選擇最佳變量子集合的效果。,

展開閱讀全文

溫馨提示:
1: 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

關(guān)于我們 - 網(wǎng)站聲明 - 網(wǎng)站地圖 - 資源地圖 - 友情鏈接 - 網(wǎng)站客服 - 聯(lián)系我們

備案號(hào):蜀ICP備2024067431號(hào)-1 川公網(wǎng)安備51140202000466號(hào)

本站為文檔C2C交易模式，即用戶上傳的文檔直接被用戶下載，本站只是中間服務(wù)平臺(tái)，本站所有文檔下載所得的收益歸上傳人(含作者)所有。裝配圖網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)上載內(nèi)容本身不做任何修改或編輯。若文檔所含內(nèi)容侵犯了您的版權(quán)或隱私，請(qǐng)立即通知裝配圖網(wǎng)，我們立即給予刪除！

《主成分分析》PPT課件

最新文檔

相關(guān)資源

相關(guān)搜索

《主成分分析 》PPT課件

最新文檔

相關(guān)資源

相關(guān)搜索

《主成分分析》PPT課件