《典型相關(guān)系數(shù)》PPT課件.ppt

上傳人：tia****nde

文檔編號：7807440

上傳時間：2020-03-24

格式：PPT

頁數(shù)：90

大小：796.81KB

《《典型相關(guān)系數(shù)》PPT課件.ppt》由會員分享，可在線閱讀，更多相關(guān)《《典型相關(guān)系數(shù)》PPT課件.ppt（90頁珍藏版）》請在裝配圖網(wǎng)上搜索。

第七章典型相關(guān)與對應(yīng)分析 7 1典型相關(guān)分析7 2對應(yīng)分析 7 1典型相關(guān)分析7 1 1典型相關(guān)分析的概念與步驟7 1 2用INSIGHT模塊實現(xiàn)典型相關(guān)分析7 1 3用分析家實現(xiàn)典型相關(guān)分析7 1 4用CANCORR過程實現(xiàn)典型相關(guān)分析 7 1 1典型相關(guān)分析的概念與步驟1 典型相關(guān)分析的基本思想典型相關(guān)分析采用主成分的思想濃縮信息根據(jù)變量間的相關(guān)關(guān)系尋找少數(shù)幾對綜合變量實際觀測變量的線性組合用它們替代原始觀測變量從而將二組變量的關(guān)系集中到少數(shù)幾對綜合變量的關(guān)系上通過對這些綜合變量之間相關(guān)性的分析回答兩組原始變量間相關(guān)性的問題除了要求所提取的綜合變量所含的信息量盡可能大以外提取時還要求第一對綜合變量間的相關(guān)性最大第二對次之依次類推這些綜合變量被稱為典型變量或典則變量第1對典型變量間的相關(guān)系數(shù)則被稱為第1典型相關(guān)系數(shù) 典型相關(guān)系數(shù)能簡單完整地描述兩組變量間關(guān)系的指標(biāo) 當(dāng)兩個變量組均只有一個變量時典型相關(guān)系數(shù)即為簡單相關(guān)系數(shù) 當(dāng)其中的一組只有一個變量時典型相關(guān)系數(shù)即為復(fù)相關(guān)系數(shù) 2 典型相關(guān)系數(shù)與典型相關(guān)變量設(shè)X X1 X2 Xp Y Y1 Y2 Yq 是兩個隨機向量利用主成分思想尋找第i對典型相關(guān)變量 Ui Vi Ui ai1X1 ai2X2 aipXp ai XVi bi1Y1 bi2Y2 biqYq bi Yi 1 2 m min p q 稱ai 和bi 為第i對典型變量系數(shù)或典型權(quán)重記第一對典型相關(guān)變量間的典型相關(guān)系數(shù)為 CanR1 Corr U1 V1 使U1與V1間最大相關(guān) 第二對典型相關(guān)變量間的典型相關(guān)系數(shù)為 CanR2 Corr U2 V2 與U1 V1無關(guān) 使U2與V2間最大相關(guān) 第m對典型相關(guān)變量間的典型相關(guān)系數(shù)為 CanRm Corr Um Vm 與U1 V1 Um 1 Vm 1無關(guān) Um與Vm間最大相關(guān) 3 典型相關(guān)變量的性質(zhì)各對典型相關(guān)變量所包括的相關(guān)信息互不交叉且滿足 1 U1 U2 Um互不相關(guān) V1 V2 Vm互不相關(guān) 即其相關(guān)系數(shù)為 2 同一對典型相關(guān)變量Ui和Vi之間的相關(guān)系數(shù)為CanRi 不同對的典型相關(guān)變量之間互不相關(guān) 即 3 Ui和Vi的均值為0 方差為1 i 1 m 4 1 CanR1 CanR2 CanRm 0 4 典型相關(guān)系數(shù)的求解步驟1 求X Y變量組的相關(guān)陣R 2 求矩陣A R11 1R12 R22 1R21和B R22 1R21 R11 1R12 可以證明A B有相同的非零特征值 3 求A或B的特征值 i與CanRi A或B的特征值即為典型相關(guān)系數(shù)的平方 i CanRi 2 i 1 m 4 求A B關(guān)于 i的特征向量設(shè)ai為A關(guān)于 i的特征向量 bi為B關(guān)于 i的特征向量則ai 和bi 為第i對典型變量系數(shù) 即第i對典型相關(guān)變量 Ui Vi Ui ai X ai1X1 ai2X2 aipXp Vi bi Y bi1Y1 bi2Y2 biqYq i 1 2 m min p q 其中X Y 為原變量組的標(biāo)準(zhǔn)化 5 特征根特征根 eigenvalue 是方差分析和多元檢驗的基礎(chǔ) 特征根與典型相關(guān)系數(shù)之間的數(shù)量關(guān)系為上式可以理解為第i對典型變量表示觀測變量總方差作用的指標(biāo) 它的值越大說明表示作用越大 6 典型相關(guān)系數(shù)的標(biāo)準(zhǔn)誤7 典型相關(guān)系數(shù)的假設(shè)檢驗典型相關(guān)系數(shù)的假設(shè)檢驗包括對全部總體典型相關(guān)系數(shù)的檢驗和對部分總體典型相關(guān)系數(shù)的檢驗對數(shù)據(jù)的要求 1 兩個變量組均應(yīng)服從多維正態(tài)分布 X Y Np q 2 2 n p q 1 全部總體典型相關(guān)系數(shù)為0H0 CanRi 0 i 1 mH1 至少有一個CanRi 0檢驗的似然比統(tǒng)計量為對于充分大的n 當(dāng)H0成立時統(tǒng)計量近似服從自由度為pq的 2分布 2 部分總體典型相關(guān)系數(shù)為0僅對較小的典型相關(guān)作檢驗 H0 CanRi 0 i s m 2 s mH1 至少有一個CanRi 0其檢驗的統(tǒng)計量為對于充分大的n 當(dāng)H0成立時統(tǒng)計量近似服從自由度為 p k q k 的 2分布 7 1 2用INSIGHT模塊實現(xiàn)典型相關(guān)分析1 實例例7 1 1985年中國28省市城市男生 19 22歲的調(diào)查數(shù)據(jù) 見表7 1 其中6項形態(tài)指標(biāo) 身高 cm 坐高體重 kg 胸圍肩寬盆骨寬分別記為x1 x2 x6 5項機能指標(biāo) 脈搏次分收縮壓 mmHg 舒張壓變音舒張壓消音肺活量 ml 分別記為y1 y2 y5 表7 1城市男生 19 22歲形態(tài)與機能調(diào)查數(shù)據(jù)設(shè)表中數(shù)據(jù)已經(jīng)存放在數(shù)據(jù)集Mylib xtyjn中試分析形態(tài)指標(biāo)和機能指標(biāo)這兩組變量間的相關(guān)性 2 分析設(shè)置在INSIGHT模塊中打開數(shù)據(jù)集Mylib xtyjn 1 選擇菜單 Analyze Multivariate YX 多元分析打開 Multivariate YX 對話框 2 將6項形態(tài)指標(biāo) x1至x6選為X變量將5項機能指標(biāo) y1至y5選為Y變量如圖7 1左所示 3 單擊 Output 按鈕在打開的對話框中選中 CanonicalCorrelationAnalysis 典型相關(guān)分析復(fù)選框單擊下面的 CanonicalCorrelationOptions 典型相關(guān)選項按鈕打開 CanonicalCorrelationOptions 對話框并按下圖右所示設(shè)置 4 三次單擊 OK 按鈕得到分析結(jié)果 3 結(jié)果分析 1 典型相關(guān)系數(shù)第1典型相關(guān)系數(shù)為0 939573 校正值為0 908276 標(biāo)準(zhǔn)誤差為0 026207 典型相關(guān)系數(shù)的平方為0 882797 第2典型相關(guān)系數(shù)為0 877842 校正值為0 842459 標(biāo)準(zhǔn)誤差為0 051294 典型相關(guān)系數(shù)的平方為0 770606 如圖所示前兩個典型相關(guān)系數(shù)比形態(tài)指標(biāo)和機能指標(biāo)兩組間的任何一個相關(guān)系數(shù)都大 2 典型變量所解釋的變異第二部分是的5個特征根 Eigenvalues 包括特征根相鄰兩個特征根之差特征根所占方差信息量的比例和累積方差信息量的比例從中可以看出前兩對典型變量所能解釋的變異占總變異方差的91 18 如圖7 4所示其它三個典型相關(guān)變量的作用很小一共只解釋了總變異的9 可以不予考慮 3 典型相關(guān)系數(shù)的檢驗用似然比法檢驗典型相關(guān)系數(shù)與零的差別是否顯著其原假設(shè)為小于此對典型變量典型相關(guān)系數(shù)的所有典型相關(guān)系數(shù)都為0 其p值依次為0 0010 0 0509和0 5089等等如圖7 5所示說明前兩對典型相關(guān)系數(shù)基本具有顯著意義在 0 0509的顯著水平下因此兩組變量相關(guān)性的研究可轉(zhuǎn)化為研究前兩對典型相關(guān)變量的相關(guān)性 4 典型相關(guān)結(jié)構(gòu)典型相關(guān)結(jié)構(gòu) 下圖分別是各組原始變量與典型變量兩兩之間的相關(guān)系數(shù)矩陣從相關(guān)系數(shù)判斷形態(tài)指標(biāo)中除x5 0 0514 x6 0 2433 外各變量與第一典型變量間的相關(guān)性都比較高機能指標(biāo)中除y2 0 0975 外各變量與第一典型變量間的相關(guān)性也都比較高 x5與第二典型變量間的相關(guān)性比較高 y2與第二典型變量間的相關(guān)性比較高 y1與前兩個典型變量的相關(guān)系數(shù)為負(fù)值說明第一對典型變量對肩寬x5和收縮壓y2的解釋作用不大另外從形態(tài)指標(biāo)組的變量和機能指標(biāo)組的典型變量之間以及機能指標(biāo)組的變量和形態(tài)指標(biāo)組的典型變量之間的相關(guān)系數(shù)可見各組變量與前兩對典型變量之間均有較強的相關(guān) 5 標(biāo)準(zhǔn)化變量的典型相關(guān)變量的系數(shù)輸出結(jié)果中還給出標(biāo)準(zhǔn)化變量的典型變量系數(shù) 如圖所示來自機能指標(biāo)的第一典型變量CY1為原始變量的右上角帶表示為標(biāo)準(zhǔn)化變量 CY1 0 071672y1 0 789642y2 0 567178y3 0 508332y4 0 533496y5 容易看出 CY1主要代表了舒張壓變音舒張壓消音肺活量等指標(biāo) 來自形態(tài)指標(biāo)的第一典型變量CX1為 CX1 0 4287x1 0 09696x2 0 16210 x3 0 93745x4 0 23498x5 0 18696x6 易知 CX1主要代表了胸圍身高和肩寬等指標(biāo) 關(guān)于第二典型變量有 CY2 0 026533y1 1 213436y2 0 535038y3 0 186048y4 0 455870y5 CX2 0 70270 x1 0 39985x2 0 84359x3 0 99063x4 0 06829x5 0 48310 x6 可見 CY2代表了收縮壓和肺活量等指標(biāo) CX2代表了身高體重盆骨寬等指標(biāo) 6 典型冗余分析典型冗余分析 canonicalredundancyanalysis 表明兩對典型變量仍不能全面預(yù)測配對的那組變量來自形態(tài)指標(biāo)的標(biāo)準(zhǔn)方差被對方兩個典型變量 CY1 CY2 解釋的累積方差比例為55 86 來自機能指標(biāo)的標(biāo)準(zhǔn)方差被對方兩個典型變量 CX1 CX2 解釋的累積方差比例為44 61 如圖所示 7 1 3用分析家實現(xiàn)典型相關(guān)分析1 實例例7 2 某康復(fù)俱樂部對20名中年人測量了3項生理指標(biāo) 體重 weight 腰圍 waist 脈搏 pulse 和3項運動指標(biāo) 引體向上 chins 起坐次數(shù) situps 跳躍次數(shù) jumps 其數(shù)據(jù)列于表7 2中表7 2某康復(fù)俱樂部測量的生理指標(biāo)和運動指標(biāo)設(shè)表中數(shù)據(jù)已經(jīng)存放在數(shù)據(jù)集Mylib slzb中試分析生理指標(biāo)和運動指標(biāo)這兩組變量間的相關(guān)性 2 分析設(shè)置1 在分析家中打開數(shù)據(jù)集Mylib slzb 2 選擇菜單 Statistics 統(tǒng)計 Multivariate 多元分析 CanonicalCorrelation 典型相關(guān)分析打開 CanonicalCorrelation 對話框 3 在對話框中將生理指標(biāo)選為Set1 運動指標(biāo)選為Set2 如圖所示 4 單擊 Statistics 統(tǒng)計按鈕打開 CanonicalCorrelation Statistics 對話框選中 Canonicalredundancystatistics 復(fù)選框并選擇3個典型變量如圖所示兩次單擊 OK 按鈕得到計算結(jié)果 3 結(jié)果分析 1 典型相關(guān)系數(shù)及顯著性檢驗第一部分的4列依次是典型相關(guān)系數(shù) 校正的典型相關(guān)系數(shù) 近似的標(biāo)準(zhǔn)誤以及典型相關(guān)系數(shù)的平方從圖7 10中可以看出本例提取了3個典型相關(guān)系數(shù) 第一個典型相關(guān)系數(shù)CanR1 0 795608 其校正值為0 754056 標(biāo)準(zhǔn)誤為0 084197 CanR12 0 632992 第一典型相關(guān)系數(shù)表示的是第一對典型相關(guān)變量之間的相關(guān)性第二個典型相關(guān)系數(shù)為0 200556 第三個為0 072570 第二部分是特征根以及相應(yīng)的統(tǒng)計量如圖所示可以看出第一對典型變量所能解釋的變異已占總變異的97 34 其它兩個典型相關(guān)變量的作用很小一共只解釋了總變異的3 可以不予考慮右邊4列給出對典型相關(guān)系數(shù)的檢驗結(jié)果表明第一行的F值2 05 p值為0 0635 在0 07的檢驗水平下應(yīng)拒絕原假設(shè) 認(rèn)為第一相關(guān)系數(shù)以及比它小的兩個相關(guān)系數(shù)不為0 后兩行檢驗的p值都遠(yuǎn)大于顯著水平0 05 故可以認(rèn)為只有第一個典型相關(guān)系數(shù)不為0 第三部分輸出的是用四種多元統(tǒng)計方法進行的所有典型相關(guān)系數(shù)均為0的F檢驗結(jié)果如圖所示四種方法中一般參照Wilks Lambda檢驗的結(jié)果本例中的Wilks Lambda檢驗結(jié)果與前述完全一致表明至少有一個典型相關(guān)系數(shù)在 0 0635的顯著水平下非0 2 典型變量系數(shù)與典型結(jié)構(gòu)第四部分給出的是用原始變量表達的典型變量系數(shù) 典型權(quán)重如圖所示因6個變量沒有使用相同單位進行測量因此考慮分析標(biāo)準(zhǔn)化后的系數(shù) 第五部分給出的是用標(biāo)準(zhǔn)化變量對原始變量標(biāo)準(zhǔn)化表達的典型變量系數(shù) 如圖所示 V1 0 7754weight 1 5793waist 0 0591pulse 它近似地是waist 和weight 的加權(quán)差在waist 上權(quán)重更大些 V1在pulse 上系數(shù)近似為0 W1 0 3495chins 1 0540situps 0 7164jumps 它在situps 上的系數(shù)最大這一對典型變量主要是反映waist 和situps 的負(fù)相關(guān)關(guān)系第六部分為典型結(jié)構(gòu) 分別是各組原始變量與典型變量兩兩之間的相關(guān)系數(shù)矩陣如圖所示可以看出在原始變量與本組的典型變量的相關(guān)關(guān)系典型載荷中生理指標(biāo)的典型變量V1與腰圍waist的相關(guān)系數(shù)最大 0 9254 說明這個典型變量主要反映人的肥胖程度運動指標(biāo)的典型變量W1與起坐次數(shù)situps和引體向上次數(shù)chins有較大的負(fù)相關(guān)關(guān)系 0 7276 0 8177 說明這個典型變量主要反映人不適合運動的程度在原始變量與配對組的典型變量的相關(guān)關(guān)系典型交叉載荷的分析結(jié)果中腰圍waist與運動指標(biāo)的第1典型變量W1的相關(guān)性較強這也說明了腰圍大體形較胖則運動能力差起坐次數(shù)和引體向上與生理指標(biāo)的第1典型變量V1呈一定的負(fù)相關(guān)系數(shù) 說明人的體形肥胖程度對這兩種運動能力有負(fù)面影響 3 典型冗余分析第七部分給出典型冗余分析的結(jié)果上圖是變量的原始方差通過它的典型變量和配對的典型變量所解釋的方差比例下圖是變量的標(biāo)準(zhǔn)化方差通過它的典型變量和配對的典型變量所解釋的方差比例圖中看出生理指標(biāo)通過它的第一個典型變量解釋的共享方差的比例是45 08 而被對方第一個典型變量W1解釋的方差比例為28 54 其比值28 54 45 08 0 6330恰為CanR2 運動指標(biāo)通過它的第一個典型變量解釋的共享方差的比例是40 81 而被對方個典型變量V1解釋的方差比例為25 84 其比值也是0 6330 第八部分給出各原始變量和配對組的典型變量間的復(fù)相關(guān)系數(shù) MultipleCorrelations 的平方圖7 18 即原始變量與典型變量的判定系數(shù) 如weight與第1典型變量W1的相關(guān)系數(shù)為0 4938 見圖7 15 則其復(fù)相關(guān)系數(shù)平方為0 49382 0 2438 由復(fù)相關(guān)系數(shù)的平方可看出生理指標(biāo)的第一典型變量W1對chins 0 3351 和situps 0 4233 有一定解釋能力但對jumps 0 0167 幾乎沒有解釋能力而來自運動指標(biāo)的第一典型變量V1對waist 0 5421 有相當(dāng)好的解釋能力對weight 0 2438 較差而對pulse 0 0701 幾乎沒有解釋能力其中運動指標(biāo)的第一典型變量對生理指標(biāo)中的腰圍指標(biāo)解釋能力最強可以說明運動對體形影響較大加強體育鍛煉可以減肥 7 1 4用CANCORR過程實現(xiàn)典型相關(guān)分析1 CANCORR過程CANCORR過程的常用語法格式如下 PROCCANCORR WITH VAR RUN 其中PROCCANCORR語句 WITH語句是每個過程中必不可少的其余語句可視情況使用下面分別介紹各語句的用法和功能 1 PROCCANCORR語句標(biāo)示典型相關(guān)分析開始可以規(guī)定輸入輸出數(shù)據(jù)集指定分析方法和控制輸出結(jié)果的顯示等語句中可設(shè)置的常用選項及其功能見表7 3 2 VAR語句列出要進行典型相關(guān)分析的第一組變量變量必須是數(shù)值型的如果VAR語句被忽略所有未被其他語句提到的數(shù)值型變量都將被視為第一組變量 3 WITH語句列出要進行典型相關(guān)分析的第二組變量變量必須是數(shù)值型的該語句是每一個PROCCANCORR中必不可少的表7 3常用選項及其功能 2 使用CANCORR過程例7 3 家庭特征與家庭消費之間的關(guān)系為了了解家庭的特征與其消費模式之間的關(guān)系調(diào)查了70個家庭的下面兩組變量 x1 每年去餐館就餐的頻率 x2 每年外出看電影的頻率 y1 戶主的年齡 y2 家庭的年收入 y3 戶主受教育程度試分析兩組變量之間的關(guān)系假定變量的相關(guān)系數(shù)陣如表所示如下代碼利用變量的相關(guān)系數(shù)矩陣作典型相關(guān)分析 DATAjt TYPE CORR INPUTNAME 1 2 X1X2Y1 Y3 6 CARDS X11 000 800 260 670 34X20 801 000 330 590 34Y10 260 331 000 370 21Y20 670 590 371 000 35Y30 340 340 210 351 00 PROCCANCORREDF 70REDUNDANCY VARX1X2 WITHY1 Y3 RUN 說明 1 在數(shù)據(jù)集名jt后用TYPE CORR表明數(shù)據(jù)的類型為相關(guān)矩陣而不是原始數(shù)據(jù) 2 INPUT語句中用 NAME 讀取左側(cè)的變量名 1 2 表示變量名的字符落在第1 2列上 X1X2Y1 Y4 表示各列數(shù)據(jù)所對應(yīng)的變量名 6 表示讀取數(shù)據(jù)的寬度均為6列其中相關(guān)系數(shù)占4位其后的空格占2位 3 選擇項EDF n 1 為典型相關(guān)分析提供一個計算誤差自由度的參考值因為該過程中沒有合適的選擇項可以將原始數(shù)據(jù)的樣本含量n準(zhǔn)確地送入如果忽略這一選擇項將以缺省值n 10000作為樣本含量參與有關(guān)計算和統(tǒng)計檢驗顯然不妥 4 選項REDUNDANCY表示輸出典型冗余分析的結(jié)果 3 結(jié)果分析 1 典型相關(guān)系數(shù)及顯著性檢驗第一部分的4列依次是典型相關(guān)系數(shù) 校正的典型相關(guān)系數(shù) 近似的標(biāo)準(zhǔn)誤以及典型決定系數(shù) 典型相關(guān)系數(shù)的平方從中可以看出本例提取了2個典型相關(guān)系數(shù) 第一個典型相關(guān)系數(shù)CanR1 0 687948 其校正值為0 673671 標(biāo)準(zhǔn)誤為0 062956 CanR12 0 473272 第二個典型相關(guān)系數(shù)為0 186865 第二部分是特征根以及相應(yīng)的統(tǒng)計量從中可以看出第一對典型變量所能解釋的變異已占總變異的96 13 另一對典型相關(guān)變量的作用很小只解釋了總變異的3 87 可以不予考慮右邊4列給出對典型相關(guān)系數(shù)的檢驗具體采用似然比法所求的似然比統(tǒng)計量近似服從F分布第一行檢驗的是第一相關(guān)系數(shù)以及比它小的兩個相關(guān)系數(shù)是否為0 第一行的F值8 86 p值 0 0001 后一行檢驗的p值遠(yuǎn)大于置信水平0 05 故可以認(rèn)為只有第一個典型相關(guān)系數(shù)有統(tǒng)計學(xué)意義第三部分圖7 21 輸出的是按照多元分析的原理進行的所有典型相關(guān)系數(shù)是否為0的檢驗四種方法中一般參照Wilks Lambda檢驗的結(jié)果本例中4種方法的檢驗結(jié)果與前述完全一致 2 典型變量系數(shù)與典型結(jié)構(gòu)第四部分圖左給出的是用原始變量表達的典型變量系數(shù) 考慮標(biāo)準(zhǔn)化后的系數(shù) 即第五部分圖右給出的典型變量和標(biāo)準(zhǔn)化變量對原始變量標(biāo)準(zhǔn)化間的換算公式由于使用原始變量的相關(guān)系數(shù)陣作為輸入數(shù)據(jù) 所以這兩部分相同來自消費模式指標(biāo)的第一典型變量V1為原始變量的右上角帶表示為標(biāo)準(zhǔn)化變量 V1 0 7689x1 0 2721x2 它是x1 每年去餐館就餐的頻率和x2 每年外出看電影的頻率的加權(quán)和在x1 上的權(quán)重更大些來自家庭特征指標(biāo)的第一典型變量W1為 W1 0 0491y1 0 8975y2 0 1900y3 它在y2 家庭的年收入上的系數(shù)最大這一對典型變量主要是反映x1 每年去餐館就餐的頻率和y2 家庭的年收入的相關(guān)關(guān)系第六部分圖7 24 為典型相關(guān)結(jié)構(gòu) 分別是各組原始變量與典型變量兩兩之間的相關(guān)系數(shù)矩陣可以看出 x1和x2與第1典型變量V1的相關(guān)系數(shù)皆為正值分別為0 9866和0 8872 可見V1可以作為消費特性的指標(biāo) 家庭特征指標(biāo)的所有變量與第1典型變量W1的相關(guān)系數(shù)分別為 0 4211 0 9822和0 5145 可見典型變量W1主要代表了了家庭收入 V1和W1的典型相關(guān)系數(shù)為0 6879 這就說明家庭的消費與一個家庭的收入之間其關(guān)系是很密切的第二對典型變量中V2與x2的相關(guān)系數(shù)為0 4614 可以看出V2可以作為文化消費特性的指標(biāo) 第二對典型變量中W2與y1和y3之間的分別相關(guān)系數(shù)為0 8464和0 3013 可見典型變量W2主要代表了家庭成員的年齡特征和教育程度 V2和W2的相關(guān)系數(shù)為0 1869 說明文化消費與年齡和受教育程度之間有一定關(guān)系 3 典型冗余分析第七部分給出典型冗余分析的結(jié)果圖7 25 7 26 由于本例是對相關(guān)系數(shù)矩陣作分析故兩個結(jié)果相同兩對典型變量解釋配對變量組方差的累計比例分別為42 08 和23 157 消費指標(biāo)通過它的第一個典型變量解釋的共享方差的比例是88 03 而被對方第一個典型變量W1解釋的方差比例為41 66 其比值41 66 88 03 0 4733恰為CanR2 CanonicalR Square 通過它的第二個典型變量解釋的共享方差的比例是11 97 被對方第二個典型變量W2解釋的方差比例為0 42 其比值為0 0349 家庭特征指標(biāo)通過它的第一個典型變量解釋的共享方差的比例是46 89 而被對方第一個典型變量V1解釋的方差比例為22 19 通過它的第二個典型變量解釋的共享方差的比例是27 31 而被對方第二個典型變量V2解釋的方差比例為0 95 第八部分給出各原始變量和配對組的典型變量間的復(fù)相關(guān)系數(shù) MultipleCorrelations 的平方即原始變量與典型變量的判定系數(shù) 如x1與第1典型變量W1的相關(guān)系數(shù)為0 6787 則其判定系數(shù)為0 67872 0 4607 由復(fù)相關(guān)系數(shù)的平方可看出消費指標(biāo)的典型變量V1對y2 0 4566 有一些預(yù)測能力但對y1 0 0839 和y3 0 1253 有微弱的預(yù)測能力而來自家庭特征指標(biāo)的典型變量W1對x1 0 4607 和x2 0 3725 有較好的預(yù)測能力 7 2對應(yīng)分析7 2 1對應(yīng)分析的基本概念7 2 2使用CORRESP過程實現(xiàn)對應(yīng)分析 7 2 1對應(yīng)分析的基本概念1 對應(yīng)分析的方法概述對應(yīng)分析也稱相應(yīng)分析它是尋求樣品行與變量列之間聯(lián)系的低維圖示法其關(guān)鍵是利用一種數(shù)據(jù)變換方法使含有n個樣品m個變量的原始數(shù)據(jù)矩陣變成另一個矩陣并使SR Z Z 分析變量之間關(guān)系的協(xié)方差矩陣與SQ ZZ 分析樣品之間關(guān)系的協(xié)方差矩陣具有相同的非零特征根它們相應(yīng)的特征向量之間也有密切的關(guān)系對協(xié)方差矩陣SR SQ進行因子分析分別提取兩個最重要的公因子R1 R2與Q1 Q2 由于采取的是一種特殊變換方法公因子R1與Q1在本質(zhì)上是相同的同理 R2與Q2在本質(zhì)上也是相同的故可用dim1作為R1 Q1的統(tǒng)一標(biāo)志用dim2作為R2 Q2的統(tǒng)一標(biāo)志于是可將 R1 Q1 和 R2 Q2 兩組數(shù)據(jù)點畫在由 dim2 dim2 組成的同一個直角坐標(biāo)系中這樣便于考察變量與樣品之間的相互關(guān)系 2 對應(yīng)分析的步驟設(shè)原始數(shù)據(jù)矩陣X xij nm i 1 2 n n為樣品數(shù) j 1 2 m m為變量數(shù) 1 計算過渡矩陣Z zij nm 1 其中 Xi 為第i行的合計 X j為第j列的合計 X 為全部數(shù)據(jù)的合計 2 對SR Z Z作因子分析計算協(xié)差陣SR Z Z的特征值又稱為慣量 1 2 m 按其累積百分比取前p個特征值主慣量通常p取2 并計算相應(yīng)的單位特征向量u1 u2 從而得到因子載荷陣在兩因子軸平面上作變量點圖 3 對SQ ZZ 作因子分析對上述2個特征值計算SQ中相應(yīng)的單位特征向量v1 Zu1 v2 Zu2 從而得到因子載荷陣在上述因子平面上作樣品點圖說明對應(yīng)分析的提出最初是為了研究兩個或多個屬性變量之間的相關(guān)關(guān)系即用于列聯(lián)表參見第9章數(shù)據(jù)的分析此時行變量的各個水平相當(dāng)于各個樣品列變量的各個水平相當(dāng)于不同的變量 7 2 2使用CORRESP過程實現(xiàn)對應(yīng)分析1 CORRESP過程PROCCORRESP VAR TABLES ID RUN 其中的PROCCORRESP語句 TABLES語句或者VAR語句是必須使用的除了這兩個語句其他語句都是可以選擇的下面分別介紹各語句的用法和功能 1 PROCCORRESP語句標(biāo)示對應(yīng)分析開始可以規(guī)定輸入輸出數(shù)據(jù)集指定分析方法和控制輸出結(jié)果的顯示等語句中可設(shè)置的常用選項及其功能見表7 5 2 VAR語句輸入數(shù)據(jù)為表格格式時使用不能與TABLES同時使用變量必須是數(shù)值型的 3 ID語句ID語句只能與VAR語句一起使用如果使用了TABLES或者MCA選項就不能使用該語句該語句只能規(guī)定一個字符變量自動用ID語句的變量值作為輸出表格列的標(biāo)簽并且保存在輸出數(shù)據(jù)集中 4 TABLES語句TABLES語句用行變量和列變量構(gòu)造一個列聯(lián)表行變量和列變量之間用逗號分隔不可與ID和VAR語句同時使用 2 對二維列聯(lián)表數(shù)據(jù)的對應(yīng)分析例7 4 調(diào)查了三個民族的血型分布資料如表7 6所示試作對應(yīng)分析表7 6三個民族不同血型出現(xiàn)的頻數(shù)假定上述數(shù)據(jù)已經(jīng)存放在數(shù)據(jù)集Mylib xx中 1 SAS代碼對應(yīng)分析的代碼如下 proccorrespdata Mylib xxout result varDZWZTJZ idType run optionsps 40 procplotdata result plotdim2 dim1 Type boxhaxis 0 2to0 3by0 1vaxis 0 1to0 3by0 1HREF 0VREF 0 run 2 主要輸出結(jié)果及其解釋1 慣量與卡方分解圖7 28的第一列為Z的奇異值最有用的是第2列主慣量即矩陣SR Z Z的特征值原始數(shù)據(jù)有4行3列這里提取2個特征值即可完全解釋數(shù)據(jù)的信息量第一個特征值解釋了信息量的78 07 第二個特征值解釋了21 93 前兩個特征值的累積貢獻率已達100 以第一維度為主自由度變量數(shù) 1 樣品數(shù) 1 6 2 樣品點坐標(biāo) 如圖7 29所示相當(dāng)于因子分析中的公因子載荷表示樣品在公因子Dim1和Dim2上的坐標(biāo) 其結(jié)果可表示為血型A 0 1918Dim1 0 0706Dim2血型B 0 1283Dim1 0 0303Dim2血型O 0 1582Dim1 0 0201Dim2血型AB 0 1941Dim1 0 2528Dim2在以dim1與dim2作為橫軸與縱軸的直角坐標(biāo)系內(nèi) 每個樣品就是1個點如血型A點的坐標(biāo)為 0 1918 0 0706 顯然血型A在第3象限內(nèi) 血型B在第1象限內(nèi) 血型O在第4象限內(nèi) 血型AB在第2象限內(nèi) 3 樣品點的匯總統(tǒng)計量如圖7 30所示 Quality為每個變量上兩個公因子貢獻率樣品點的余弦平方值中各行數(shù)值之和若此值接近于1 則表明對應(yīng)的樣品點所包含的信息由兩個公因子就可很好地反映出來 Mass為原始數(shù)據(jù)中各列數(shù)據(jù)之和占總合計的百分比 Inertia為每個樣品對總特征值0 03599貢獻的百分比由此列數(shù)值可看出 A O AB三種血型貢獻的百分比比較接近 4 樣品點局部慣量貢獻如圖7 31所示 A型血對第1公因子貢獻最大 AB型血對第2公因子貢獻最大 5 對樣品點慣量貢獻最大的坐標(biāo)標(biāo)號這是各樣品的坐標(biāo)對特征值貢獻最多的標(biāo)志貢獻少中多依次用0 1 2來表示如圖7 32所示 6 樣品點的余弦平方值如圖7 33所示為每個樣品點上兩個公因子各自的貢獻率各行數(shù)值之和應(yīng)近似為1 因為用兩個公因子已經(jīng)表示所有的信息故各行之和均為1 由各行數(shù)值可看出除了AB型之外其他三個血型的信息主要由第1公因子給出而AB型的信息則主要由第2個公因子來反映以上對樣品的統(tǒng)計又對變量作了一遍結(jié)果如下 7 變量點坐標(biāo)與變量點的匯總統(tǒng)計量如圖所示在以dim1與dim2作為橫軸與縱軸的直角坐標(biāo)系內(nèi) 每個變量也是1個點傣族位于第一象限中佤族位于第二象限中土家族位于第三象限中 4個點變量中任何兩點之間的歐氏距離如下顯然佤族與土家族之間的距離最短傣族與佤族之間的距離最長說明這2個民族在血型的出現(xiàn)頻率上具有較高的正相關(guān)關(guān)系 8 變量點局部慣量貢獻如圖左所示圖左上半部分是每個變量對公因子的貢獻率各列數(shù)值之和為1 顯然傣族對第1公因子貢獻最大其他兩個民族對第2公因子貢獻較大 9 變量點的余弦平方值如圖右所示表示公因子對變量的貢獻率第一公因子主要影響傣族和佤族分別貢獻了95 28 和75 79 而第二公因子主要影響土家族貢獻率為86 76 3 分析結(jié)果A型血對第1公因子貢獻最大 AB型血對第2公因子貢獻最大它們的點所對應(yīng)的坐標(biāo) dim1 dim2 分別為 A 0 1918 0 0706 AB 0 1941 0 2528 每個分類在坐標(biāo)系中分得很開佤族和AB型血同在第二象限而且兩個點在Dim1上差別很小說明兩者有聯(lián)系而土家族和A型血同在第三象限傣族和B型血同在第一象限在Dim1上差別很小如圖所示說明對應(yīng)分析的輸出結(jié)果有很多最主要的是看第一部分中各個維度以及各個維度解釋的百分比樣品點及變量點的坐標(biāo) 對圖形的輸出結(jié)果首先要看兩個方向的區(qū)分情況如三個民族在第一維度上分得很開區(qū)分很好而血型則在第二維度上區(qū)分較好但由于第一維度攜帶了近80 的信息量遠(yuǎn)大于第二維度所以解釋以第一維度為主還可以比較各個點在空間的分布情況距離較近的點彼此有聯(lián)系散點間的距離越近說明關(guān)聯(lián)的傾向越明顯 3 類別數(shù)較多的例子例7 5 疾病與人的基因型密切有關(guān) 而不同民族各種基因出現(xiàn)的頻率不盡相同下面是某研究者收集到的資料試分析各種基因頻率與民族之間的關(guān)系各民族下面的小數(shù)是36種基因出現(xiàn)的頻率表7 7民族各種基因出現(xiàn)的頻率 1 SAS代碼設(shè)數(shù)據(jù)文件名為mzjy 位于邏輯庫Mylib中對應(yīng)分析的代碼如下 optionsnodatenonumberps 500 proccorrespdata Mylib mzjyout result varznyh idjy run optionsps 50 procplotdata result plotdim2 dim1 jy boxhaxis 1 1to1 1by0 2vaxis 1 0to1 0by0 2HREF 0VREF 0 run 2 主要輸出結(jié)果及其解釋1 慣量與卡方分解如圖7 38所示這里第一列為Z的奇異值最有用的是第2列主慣量即矩陣SR Z Z的特征值由于前兩個特征值的累積貢獻率已達82 54 所以只需取前兩個特征值將根據(jù)前兩個較大的特征值分別算出與樣品基因型變量民族對應(yīng)的特征向量 2 變量點坐標(biāo) 如圖7 39所示這是每個變量指Z N Y H 在兩個公因子上的載荷其結(jié)果可表示為 Z 0 3316Dim1 0 0193Dim2N 0 4068Dim1 0 6030Dim2Y 0 5310Dim1 0 6257Dim2H 0 5604Dim1 0 0542Dim2在以dim1與dim2作為橫軸與縱軸的直角坐標(biāo)系內(nèi) 每個變量就是1個點如Z 藏族點的坐標(biāo)為 0 3316 0 0193 顯然 Z 藏族 H 漢族兩個點在第2象限內(nèi) N 尼泊爾點在第4象限內(nèi) Y 印度點在第1象限內(nèi) 在以dim1與dim2作為橫軸與縱軸的直角坐標(biāo)系內(nèi) 4個點變量中任何兩點之間的歐氏距離如下顯然藏族與漢族之間的距離最短說明這2個民族在多數(shù)基因的出現(xiàn)頻率上具有較高的正相關(guān)關(guān)系 3 變量坐標(biāo)點的匯總統(tǒng)計量如圖7 40所示 Quality為每個變量上兩個公因子貢獻率即下文中變量坐標(biāo)點的平方余弦值表中各行數(shù)值之和若此值接近于1 則表明對應(yīng)的變量所包含的信息由兩個公因子就可很好地反映出來 Mass為原始數(shù)據(jù)中各列數(shù)據(jù)之和占總合計的百分比 Inertia為每個變量對總特征值0 49399貢獻的百分比由此列數(shù)值可看出后三個民族貢獻的百分比比較接近 4 變量坐標(biāo)點局部慣量貢獻如圖所示這是每個公因子上每個變量的貢獻率各列數(shù)值之和為1 顯然漢族對第1公因子貢獻最大尼泊爾印度這2個民族對第2公因子貢獻最大 5 對變量坐標(biāo)點慣量貢獻最大的坐標(biāo)標(biāo)號如圖所示這是各變量的坐標(biāo)對特征值貢獻最多的標(biāo)志貢獻少中多依次用0 1 2來表示 6 變量坐標(biāo)點的平方余弦值如圖7 43所示這是每個變量上兩個公因子各自的貢獻率各行數(shù)值之和應(yīng)近似為1 因為只用了兩個主要的公因子與最小特征值0 08624對應(yīng)的公因子的貢獻未給出故少了一些信息由各行數(shù)值可看出尼泊爾印度這2個民族的信息幾乎完全可由這2個公因子反映出來而藏族的信息則不能很好地由這2個公因子來反映 3 分析結(jié)果B46對第1公因子貢獻最大 B48 C6對第2公因子貢獻最大它們的點所對應(yīng)的坐標(biāo) dim1 dim2 分別為 B46 1 0770 0 0529 B48 0 3626 0 9077 C6 0 7278 0 8463 顯然 B46點落在第2象限內(nèi) B48與C6這兩點落在第4象限內(nèi) 且距離較近再結(jié)合上面關(guān)于 ColumnCoordinates 部分的解釋可知藏族與漢族接近主要表現(xiàn)在B46基因型上有較高的一致性因為這3點都落在第2象限內(nèi) 且距離較近而尼泊爾族與B48 C6兩種基因型上有較高的一致性因為這3點都落在第4象限內(nèi) 且距離較近由散點圖圖7 44 可以看出三大類民族各自有著特征基因群分別位于第一第二和第四象限中與漢族藏族最接近的基因為C3 與尼泊爾族最接近的基因為B48 與印度族最接近的基因是B8

下載提示(請認(rèn)真閱讀)

1.請仔細(xì)閱讀文檔，確保文檔完整性，對于不預(yù)覽、不比對內(nèi)容而直接下載帶來的問題本站不予受理。
2.下載的文檔，不會出現(xiàn)我們的網(wǎng)址水印。
3、該文檔所得收入（下載+內(nèi)容+預(yù)覽）歸上傳者、原創(chuàng)作者；如果您是本文檔原作者，請點此認(rèn)領(lǐng)！既往收益都?xì)w您。

同意并開始全文預(yù)覽

文檔包含非法信息？點此舉報后獲取現(xiàn)金獎勵！

文檔加載中……請稍候！
如果長時間未打開，您也可以點擊刷新試試。

下載文檔到電腦，查找使用更方便

14.9 積分

還剩頁未讀，繼續(xù)閱讀

舉報

版權(quán)申訴 word格式文檔無特別注明外均可編輯修改；預(yù)覽文檔經(jīng)過壓縮，下載后原文更清晰！ 立即下載

配套講稿：: 如PPT文件的首頁顯示word圖標(biāo)，表示該PPT已包含配套word講稿。雙擊word圖標(biāo)可打開word文檔。
特殊限制：: 部分文檔作品中含有的國旗、國徽等圖片，僅作為作品整體效果示例展示，禁止商用。設(shè)計者僅對作品中獨創(chuàng)性部分享有著作權(quán)。
關(guān) 鍵詞：: 典型相關(guān)系數(shù) 典型相關(guān)系數(shù) PPT 課件

溫馨提示:
1: 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

裝配圖網(wǎng)所有資源均是用戶自行上傳分享，僅供網(wǎng)友學(xué)習(xí)交流，未經(jīng)上傳用戶書面授權(quán)，請勿作他用。

關(guān)于本文

本文標(biāo)題：《典型相關(guān)系數(shù)》PPT課件.ppt
鏈接地址：http://m.jqnhouse.com/p-7807440.html

相關(guān)資源更多

正為您匹配相似的精品文檔

相關(guān)搜索

典型相關(guān)系數(shù) 典型 相關(guān)系數(shù) PPT 課件

關(guān)于我們 - 網(wǎng)站聲明 - 網(wǎng)站地圖 - 資源地圖 - 友情鏈接 - 網(wǎng)站客服 - 聯(lián)系我們

備案號:蜀ICP備2024067431號-1 川公網(wǎng)安備51140202000466號

本站為文檔C2C交易模式，即用戶上傳的文檔直接被用戶下載，本站只是中間服務(wù)平臺，本站所有文檔下載所得的收益歸上傳人(含作者)所有。裝配圖網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對上載內(nèi)容本身不做任何修改或編輯。若文檔所含內(nèi)容侵犯了您的版權(quán)或隱私，請立即通知裝配圖網(wǎng)，我們立即給予刪除！

《典型相關(guān)系數(shù)》PPT課件.ppt

最新文檔