《典型相關(guān)系數(shù)》PPT課件.ppt
《《典型相關(guān)系數(shù)》PPT課件.ppt》由會員分享,可在線閱讀,更多相關(guān)《《典型相關(guān)系數(shù)》PPT課件.ppt(90頁珍藏版)》請在裝配圖網(wǎng)上搜索。
第七章典型相關(guān)與對應(yīng)分析 7 1典型相關(guān)分析7 2對應(yīng)分析 7 1典型相關(guān)分析7 1 1典型相關(guān)分析的概念與步驟7 1 2用INSIGHT模塊實現(xiàn)典型相關(guān)分析7 1 3用 分析家 實現(xiàn)典型相關(guān)分析7 1 4用CANCORR過程實現(xiàn)典型相關(guān)分析 7 1 1典型相關(guān)分析的概念與步驟1 典型相關(guān)分析的基本思想典型相關(guān)分析采用主成分的思想濃縮信息 根據(jù)變量間的相關(guān)關(guān)系 尋找少數(shù)幾對綜合變量 實際觀測變量的線性組合 用它們替代原始觀測變量 從而將二組變量的關(guān)系集中到少數(shù)幾對綜合變量的關(guān)系上 通過對這些綜合變量之間相關(guān)性的分析 回答兩組原始變量間相關(guān)性的問題 除了要求所提取的綜合變量所含的信息量盡可能大以外 提取時還要求第一對綜合變量間的相關(guān)性最大 第二對次之 依次類推 這些綜合變量被稱為典型變量 或典則變量 第1對典型變量間的相關(guān)系數(shù)則被稱為第1典型相關(guān)系數(shù) 典型相關(guān)系數(shù)能簡單 完整地描述兩組變量間關(guān)系的指標(biāo) 當(dāng)兩個變量組均只有一個變量時 典型相關(guān)系數(shù)即為簡單相關(guān)系數(shù) 當(dāng)其中的一組只有一個變量時 典型相關(guān)系數(shù)即為復(fù)相關(guān)系數(shù) 2 典型相關(guān)系數(shù)與典型相關(guān)變量設(shè)X X1 X2 Xp Y Y1 Y2 Yq 是兩個隨機向量 利用主成分思想尋找第i對典型相關(guān)變量 Ui Vi Ui ai1X1 ai2X2 aipXp ai XVi bi1Y1 bi2Y2 biqYq bi Yi 1 2 m min p q 稱ai 和bi 為 第i對 典型變量系數(shù)或典型權(quán)重 記第一對典型相關(guān)變量間的典型相關(guān)系數(shù)為 CanR1 Corr U1 V1 使U1與V1間最大相關(guān) 第二對典型相關(guān)變量間的典型相關(guān)系數(shù)為 CanR2 Corr U2 V2 與U1 V1無關(guān) 使U2與V2間最大相關(guān) 第m對典型相關(guān)變量間的典型相關(guān)系數(shù)為 CanRm Corr Um Vm 與U1 V1 Um 1 Vm 1無關(guān) Um與Vm間最大相關(guān) 3 典型相關(guān)變量的性質(zhì)各對典型相關(guān)變量所包括的相關(guān)信息互不交叉 且滿足 1 U1 U2 Um互不相關(guān) V1 V2 Vm互不相關(guān) 即其相關(guān)系數(shù)為 2 同一對典型相關(guān)變量Ui和Vi之間的相關(guān)系數(shù)為CanRi 不同對的典型相關(guān)變量之間互不相關(guān) 即 3 Ui和Vi的均值為0 方差為1 i 1 m 4 1 CanR1 CanR2 CanRm 0 4 典型相關(guān)系數(shù)的求解步驟1 求X Y變量組的相關(guān)陣R 2 求矩陣A R11 1R12 R22 1R21和B R22 1R21 R11 1R12 可以證明A B有相同的非零特征值 3 求A或B的特征值 i與CanRi A或B的特征值即為典型相關(guān)系數(shù)的平方 i CanRi 2 i 1 m 4 求A B關(guān)于 i的特征向量 設(shè)ai為A關(guān)于 i的特征向量 bi為B關(guān)于 i的特征向量 則ai 和bi 為 第i對 典型變量系數(shù) 即第i對典型相關(guān)變量 Ui Vi Ui ai X ai1X1 ai2X2 aipXp Vi bi Y bi1Y1 bi2Y2 biqYq i 1 2 m min p q 其中X Y 為原變量組的標(biāo)準(zhǔn)化 5 特征根特征根 eigenvalue 是方差分析和多元檢驗的基礎(chǔ) 特征根與典型相關(guān)系數(shù)之間的數(shù)量關(guān)系為 上式可以理解為第i對典型變量表示觀測變量總方差作用的指標(biāo) 它的值越大說明表示作用越大 6 典型相關(guān)系數(shù)的標(biāo)準(zhǔn)誤7 典型相關(guān)系數(shù)的假設(shè)檢驗典型相關(guān)系數(shù)的假設(shè)檢驗包括對全部總體典型相關(guān)系數(shù)的檢驗和對部分總體典型相關(guān)系數(shù)的檢驗 對數(shù)據(jù)的要求 1 兩個變量組均應(yīng)服從多維正態(tài)分布 X Y Np q 2 2 n p q 1 全部總體典型相關(guān)系數(shù)為0H0 CanRi 0 i 1 mH1 至少有一個CanRi 0檢驗的似然比統(tǒng)計量為對于充分大的n 當(dāng)H0成立時 統(tǒng)計量近似服從自由度為pq的 2分布 2 部分總體典型相關(guān)系數(shù)為0僅對較小的典型相關(guān)作檢驗 H0 CanRi 0 i s m 2 s mH1 至少有一個CanRi 0其檢驗的統(tǒng)計量為對于充分大的n 當(dāng)H0成立時 統(tǒng)計量近似服從自由度為 p k q k 的 2分布 7 1 2用INSIGHT模塊實現(xiàn)典型相關(guān)分析1 實例 例7 1 1985年中國28省市城市男生 19 22歲 的調(diào)查數(shù)據(jù) 見表7 1 其中6項形態(tài)指標(biāo) 身高 cm 坐高 體重 kg 胸圍 肩寬 盆骨寬 分別記為x1 x2 x6 5項機能指標(biāo) 脈搏 次 分 收縮壓 mmHg 舒張壓 變音 舒張壓 消音 肺活量 ml 分別記為y1 y2 y5 表7 1城市男生 19 22歲 形態(tài)與機能調(diào)查數(shù)據(jù)設(shè)表中數(shù)據(jù)已經(jīng)存放在數(shù)據(jù)集Mylib xtyjn中 試分析形態(tài)指標(biāo)和機能指標(biāo)這兩組變量間的相關(guān)性 2 分析設(shè)置在INSIGHT模塊中打開數(shù)據(jù)集Mylib xtyjn 1 選擇菜單 Analyze Multivariate YX 多元分析 打開 Multivariate YX 對話框 2 將6項形態(tài)指標(biāo) x1至x6選為X變量 將5項機能指標(biāo) y1至y5選為Y變量 如圖7 1左所示 3 單擊 Output 按鈕 在打開的對話框中選中 CanonicalCorrelationAnalysis 典型相關(guān)分析 復(fù)選框 單擊下面的 CanonicalCorrelationOptions 典型相關(guān)選項 按鈕 打開 CanonicalCorrelationOptions 對話框 并按下圖右所示設(shè)置 4 三次單擊 OK 按鈕 得到分析結(jié)果 3 結(jié)果分析 1 典型相關(guān)系數(shù)第1典型相關(guān)系數(shù)為0 939573 校正值為0 908276 標(biāo)準(zhǔn)誤差為0 026207 典型相關(guān)系數(shù)的平方為0 882797 第2典型相關(guān)系數(shù)為0 877842 校正值為0 842459 標(biāo)準(zhǔn)誤差為0 051294 典型相關(guān)系數(shù)的平方為0 770606 如圖所示 前兩個典型相關(guān)系數(shù)比形態(tài)指標(biāo)和機能指標(biāo)兩組間的任何一個相關(guān)系數(shù)都大 2 典型變量所解釋的變異第二部分是的5個特征根 Eigenvalues 包括 特征根 相鄰兩個特征根之差 特征根所占方差信息量的比例和累積方差信息量的比例 從中可以看出 前兩對典型變量所能解釋的變異占總變異 方差 的91 18 如圖7 4所示 其它三個典型相關(guān)變量的作用很小 一共只解釋了總變異的9 可以不予考慮 3 典型相關(guān)系數(shù)的檢驗用似然比法檢驗典型相關(guān)系數(shù)與零的差別是否顯著 其原假設(shè)為小于此對典型變量典型相關(guān)系數(shù)的所有典型相關(guān)系數(shù)都為0 其p值依次為0 0010 0 0509和0 5089等等 如圖7 5所示 說明前兩對典型相關(guān)系數(shù)基本具有顯著意義 在 0 0509的顯著水平下 因此 兩組變量相關(guān)性的研究可轉(zhuǎn)化為研究前兩對典型相關(guān)變量的相關(guān)性 4 典型相關(guān)結(jié)構(gòu)典型相關(guān)結(jié)構(gòu) 下圖 分別是各組原始變量與典型變量兩兩之間的相關(guān)系數(shù)矩陣 從相關(guān)系數(shù)判斷 形態(tài)指標(biāo)中除x5 0 0514 x6 0 2433 外各變量與第一典型變量間的相關(guān)性都比較高 機能指標(biāo)中除y2 0 0975 外各變量與第一典型變量間的相關(guān)性也都比較高 x5與第二典型變量間的相關(guān)性比較高 y2與第二典型變量間的相關(guān)性比較高 y1與前兩個典型變量的相關(guān)系數(shù)為負(fù)值 說明 第一對典型變量對肩寬x5和收縮壓y2的解釋作用不大 另外 從形態(tài)指標(biāo)組的變量和機能指標(biāo)組的典型變量之間 以及機能指標(biāo)組的變量和形態(tài)指標(biāo)組的典型變量之間的相關(guān)系數(shù)可見 各組變量與前兩對典型變量之間均有較強的相關(guān) 5 標(biāo)準(zhǔn)化變量的典型相關(guān)變量的系數(shù)輸出結(jié)果中還給出標(biāo)準(zhǔn)化變量的典型變量系數(shù) 如圖所示 來自機能指標(biāo)的第一典型變量CY1為 原始變量的右上角帶 表示為標(biāo)準(zhǔn)化變量 CY1 0 071672y1 0 789642y2 0 567178y3 0 508332y4 0 533496y5 容易看出 CY1主要代表了舒張壓變音 舒張壓消音 肺活量等指標(biāo) 來自形態(tài)指標(biāo)的第一典型變量CX1為 CX1 0 4287x1 0 09696x2 0 16210 x3 0 93745x4 0 23498x5 0 18696x6 易知 CX1主要代表了胸圍 身高和肩寬等指標(biāo) 關(guān)于第二典型變量有 CY2 0 026533y1 1 213436y2 0 535038y3 0 186048y4 0 455870y5 CX2 0 70270 x1 0 39985x2 0 84359x3 0 99063x4 0 06829x5 0 48310 x6 可見 CY2代表了收縮壓和肺活量等指標(biāo) CX2代表了身高 體重 盆骨寬等指標(biāo) 6 典型冗余分析典型冗余分析 canonicalredundancyanalysis 表明 兩對典型變量仍不能全面預(yù)測配對的那組變量 來自形態(tài)指標(biāo)的標(biāo)準(zhǔn)方差被對方兩個典型變量 CY1 CY2 解釋的累積方差比例為55 86 來自機能指標(biāo)的標(biāo)準(zhǔn)方差被對方兩個典型變量 CX1 CX2 解釋的累積方差比例為44 61 如圖所示 7 1 3用 分析家 實現(xiàn)典型相關(guān)分析1 實例 例7 2 某康復(fù)俱樂部對20名中年人測量了3項生理指標(biāo) 體重 weight 腰圍 waist 脈搏 pulse 和3項運動指標(biāo) 引體向上 chins 起坐次數(shù) situps 跳躍次數(shù) jumps 其數(shù)據(jù)列于表7 2中 表7 2某康復(fù)俱樂部測量的生理指標(biāo)和運動指標(biāo)設(shè)表中數(shù)據(jù)已經(jīng)存放在數(shù)據(jù)集Mylib slzb中 試分析生理指標(biāo)和運動指標(biāo)這兩組變量間的相關(guān)性 2 分析設(shè)置1 在 分析家 中打開數(shù)據(jù)集Mylib slzb 2 選擇菜單 Statistics 統(tǒng)計 Multivariate 多元分析 CanonicalCorrelation 典型相關(guān)分析 打開 CanonicalCorrelation 對話框 3 在對話框中將生理指標(biāo)選為Set1 運動指標(biāo)選為Set2 如圖所示 4 單擊 Statistics 統(tǒng)計 按鈕 打開 CanonicalCorrelation Statistics 對話框 選中 Canonicalredundancystatistics 復(fù)選框 并選擇3個典型變量 如圖所示 兩次單擊 OK 按鈕 得到計算結(jié)果 3 結(jié)果分析 1 典型相關(guān)系數(shù)及顯著性檢驗第一部分的4列依次是 典型相關(guān)系數(shù) 校正的典型相關(guān)系數(shù) 近似的標(biāo)準(zhǔn)誤以及典型相關(guān)系數(shù)的平方 從圖7 10中可以看出 本例提取了3個典型相關(guān)系數(shù) 第一個典型相關(guān)系數(shù)CanR1 0 795608 其校正值為0 754056 標(biāo)準(zhǔn)誤為0 084197 CanR12 0 632992 第一典型相關(guān)系數(shù)表示的是第一對典型相關(guān)變量之間的相關(guān)性 第二個典型相關(guān)系數(shù)為0 200556 第三個為0 072570 第二部分是特征根以及相應(yīng)的統(tǒng)計量 如圖所示 可以看出 第一對典型變量所能解釋的變異已占總變異的97 34 其它兩個典型相關(guān)變量的作用很小 一共只解釋了總變異的3 可以不予考慮 右邊4列給出對典型相關(guān)系數(shù)的檢驗 結(jié)果表明 第一行的F值2 05 p值為0 0635 在0 07的檢驗水平下 應(yīng)拒絕原假設(shè) 認(rèn)為第一相關(guān)系數(shù)以及比它小的兩個相關(guān)系數(shù)不為0 后兩行檢驗的p值都遠(yuǎn)大于顯著水平0 05 故可以認(rèn)為只有第一個典型相關(guān)系數(shù)不為0 第三部分輸出的是用四種多元統(tǒng)計方法進行的所有典型相關(guān)系數(shù)均為0的F檢驗結(jié)果 如圖所示 四種方法中一般參照Wilks Lambda檢驗的結(jié)果 本例中的Wilks Lambda檢驗結(jié)果與前述完全一致 表明至少有一個典型相關(guān)系數(shù)在 0 0635的顯著水平下非0 2 典型變量系數(shù)與典型結(jié)構(gòu)第四部分給出的是用原始變量表達的典型變量系數(shù) 典型權(quán)重 如圖所示 因6個變量沒有使用相同單位進行測量 因此考慮分析標(biāo)準(zhǔn)化后的系數(shù) 第五部分給出的是用標(biāo)準(zhǔn)化變量 對原始變量標(biāo)準(zhǔn)化 表達的典型變量系數(shù) 如圖所示 V1 0 7754weight 1 5793waist 0 0591pulse 它近似地是waist 和weight 的加權(quán)差 在waist 上權(quán)重更大些 V1在pulse 上系數(shù)近似為0 W1 0 3495chins 1 0540situps 0 7164jumps 它在situps 上的系數(shù)最大 這一對典型變量主要是反映waist 和situps 的負(fù)相關(guān)關(guān)系 第六部分為典型結(jié)構(gòu) 分別是各組原始變量與典型變量兩兩之間的相關(guān)系數(shù)矩陣 如圖所示 可以看出 在原始變量與本組的典型變量的相關(guān)關(guān)系 典型載荷 中 生理指標(biāo)的典型變量V1與腰圍waist的相關(guān)系數(shù)最大 0 9254 說明這個典型變量主要反映人的肥胖程度 運動指標(biāo)的典型變量W1與起坐次數(shù)situps和引體向上次數(shù)chins有較大的負(fù)相關(guān)關(guān)系 0 7276 0 8177 說明這個典型變量主要反映人不適合運動的程度 在原始變量與配對組的典型變量的相關(guān)關(guān)系 典型交叉載荷 的分析結(jié)果中 腰圍waist與運動指標(biāo)的第1典型變量W1的相關(guān)性較強 這也說明了腰圍大 體形較胖 則運動能力差 起坐次數(shù)和引體向上與生理指標(biāo)的第1典型變量V1呈一定的負(fù)相關(guān)系數(shù) 說明人的體形肥胖程度對這兩種運動能力有負(fù)面影響 3 典型冗余分析第七部分給出典型冗余分析的結(jié)果上圖是變量的原始方差通過它的典型變量和配對的典型變量所解釋的方差比例 下圖是變量的標(biāo)準(zhǔn)化方差通過它的典型變量和配對的典型變量所解釋的方差比例 圖中看出 生理指標(biāo)通過它的第一個典型變量解釋的共享方差的比例是45 08 而被對方第一個典型變量W1解釋的方差比例為28 54 其比值28 54 45 08 0 6330恰為CanR2 運動指標(biāo)通過它的第一個典型變量解釋的共享方差的比例是40 81 而被對方個典型變量V1解釋的方差比例為25 84 其比值也是0 6330 第八部分給出各原始變量和配對組的典型變量間的復(fù)相關(guān)系數(shù) MultipleCorrelations 的平方 圖7 18 即原始變量與典型變量的判定系數(shù) 如weight與第1典型變量W1的相關(guān)系數(shù)為0 4938 見圖7 15 則其復(fù)相關(guān)系數(shù)平方為0 49382 0 2438 由復(fù)相關(guān)系數(shù)的平方可看出 生理指標(biāo)的第一典型變量W1對chins 0 3351 和situps 0 4233 有一定解釋能力 但對jumps 0 0167 幾乎沒有解釋能力 而來自運動指標(biāo)的第一典型變量V1對waist 0 5421 有相當(dāng)好的解釋能力 對weight 0 2438 較差 而對pulse 0 0701 幾乎沒有解釋能力 其中 運動指標(biāo)的第一典型變量對生理指標(biāo)中的腰圍指標(biāo)解釋能力最強 可以說明運動對體形影響較大 加強體育鍛煉可以減肥 7 1 4用CANCORR過程實現(xiàn)典型相關(guān)分析1 CANCORR過程CANCORR過程的常用語法格式如下 PROCCANCORR WITH VAR RUN 其中PROCCANCORR語句 WITH語句是每個過程中必不可少的 其余語句可視情況使用 下面分別介紹各語句的用法和功能 1 PROCCANCORR語句 標(biāo)示典型相關(guān)分析開始 可以規(guī)定輸入輸出數(shù)據(jù)集 指定分析方法和控制輸出結(jié)果的顯示等 語句中可設(shè)置的常用選項及其功能見表7 3 2 VAR語句 列出要進行典型相關(guān)分析的第一組變量 變量必須是數(shù)值型的 如果VAR語句被忽略 所有未被其他語句提到的數(shù)值型變量都將被視為第一組變量 3 WITH語句 列出要進行典型相關(guān)分析的第二組變量 變量必須是數(shù)值型的 該語句是每一個PROCCANCORR中必不可少的 表7 3常用選項及其功能 2 使用CANCORR過程 例7 3 家庭特征與家庭消費之間的關(guān)系 為了了解家庭的特征與其消費模式之間的關(guān)系 調(diào)查了70個家庭的下面兩組變量 x1 每年去餐館就餐的頻率 x2 每年外出看電影的頻率 y1 戶主的年齡 y2 家庭的年收入 y3 戶主受教育程度 試分析兩組變量之間的關(guān)系 假定變量的相關(guān)系數(shù)陣如表所示 如下代碼 利用變量的相關(guān)系數(shù)矩陣作典型相關(guān)分析 DATAjt TYPE CORR INPUTNAME 1 2 X1X2Y1 Y3 6 CARDS X11 000 800 260 670 34X20 801 000 330 590 34Y10 260 331 000 370 21Y20 670 590 371 000 35Y30 340 340 210 351 00 PROCCANCORREDF 70REDUNDANCY VARX1X2 WITHY1 Y3 RUN 說明 1 在數(shù)據(jù)集名jt后用TYPE CORR表明數(shù)據(jù)的類型為相關(guān)矩陣 而不是原始數(shù)據(jù) 2 INPUT語句中用 NAME 讀取左側(cè)的變量名 1 2 表示變量名的字符落在第1 2列上 X1X2Y1 Y4 表示各列數(shù)據(jù)所對應(yīng)的變量名 6 表示讀取數(shù)據(jù)的寬度均為6列 其中相關(guān)系數(shù)占4位 其后的空格占2位 3 選擇項EDF n 1 為典型相關(guān)分析提供一個計算誤差自由度的參考值 因為該過程中沒有合適的選擇項可以將原始數(shù)據(jù)的樣本含量n準(zhǔn)確地送入 如果忽略這一選擇項 將以缺省值n 10000作為樣本含量參與有關(guān)計算和統(tǒng)計檢驗 顯然不妥 4 選項REDUNDANCY表示輸出典型冗余分析的結(jié)果 3 結(jié)果分析 1 典型相關(guān)系數(shù)及顯著性檢驗第一部分的4列依次是 典型相關(guān)系數(shù) 校正的典型相關(guān)系數(shù) 近似的標(biāo)準(zhǔn)誤以及典型決定系數(shù) 典型相關(guān)系數(shù)的平方 從中可以看出 本例提取了2個典型相關(guān)系數(shù) 第一個典型相關(guān)系數(shù)CanR1 0 687948 其校正值為0 673671 標(biāo)準(zhǔn)誤為0 062956 CanR12 0 473272 第二個典型相關(guān)系數(shù)為0 186865 第二部分是特征根以及相應(yīng)的統(tǒng)計量 從中可以看出 第一對典型變量所能解釋的變異已占總變異的96 13 另一對典型相關(guān)變量的作用很小 只解釋了總變異的3 87 可以不予考慮 右邊4列給出對典型相關(guān)系數(shù)的檢驗 具體采用似然比法 所求的似然比統(tǒng)計量近似服從F分布 第一行檢驗的是第一相關(guān)系數(shù)以及比它小的兩個相關(guān)系數(shù)是否為0 第一行的F值8 86 p值 0 0001 后一行檢驗的p值遠(yuǎn)大于置信水平0 05 故可以認(rèn)為只有第一個典型相關(guān)系數(shù)有統(tǒng)計學(xué)意義 第三部分 圖7 21 輸出的是按照多元分析的原理進行的所有典型相關(guān)系數(shù)是否為0的檢驗 四種方法中一般參照Wilks Lambda檢驗的結(jié)果 本例中4種方法的檢驗結(jié)果與前述完全一致 2 典型變量系數(shù)與典型結(jié)構(gòu)第四部分 圖左 給出的是用原始變量表達的典型變量系數(shù) 考慮標(biāo)準(zhǔn)化后的系數(shù) 即第五部分 圖右 給出的典型變量和標(biāo)準(zhǔn)化變量 對原始變量標(biāo)準(zhǔn)化 間的換算公式 由于使用原始變量的相關(guān)系數(shù)陣作為輸入數(shù)據(jù) 所以這兩部分相同 來自消費模式指標(biāo)的第一典型變量V1為 原始變量的右上角帶 表示為標(biāo)準(zhǔn)化變量 V1 0 7689x1 0 2721x2 它是x1 每年去餐館就餐的頻率 和x2 每年外出看電影的頻率 的加權(quán)和 在x1 上的權(quán)重更大些 來自家庭特征指標(biāo)的第一典型變量W1為 W1 0 0491y1 0 8975y2 0 1900y3 它在y2 家庭的年收入 上的系數(shù)最大 這一對典型變量主要是反映x1 每年去餐館就餐的頻率 和y2 家庭的年收入 的相關(guān)關(guān)系 第六部分 圖7 24 為典型相關(guān)結(jié)構(gòu) 分別是各組原始變量與典型變量兩兩之間的相關(guān)系數(shù)矩陣 可以看出 x1和x2與第1典型變量V1的相關(guān)系數(shù)皆為正值 分別為0 9866和0 8872 可見V1可以作為消費特性的指標(biāo) 家庭特征指標(biāo)的所有變量與第1典型變量W1的相關(guān)系數(shù)分別為 0 4211 0 9822和0 5145 可見典型變量W1主要代表了了家庭收入 V1和W1的典型相關(guān)系數(shù)為0 6879 這就說明家庭的消費與一個家庭的收入之間其關(guān)系是很密切的 第二對典型變量中V2與x2的相關(guān)系數(shù)為0 4614 可以看出V2可以作為文化消費特性的指標(biāo) 第二對典型變量中W2與y1和y3之間的分別相關(guān)系數(shù)為0 8464和0 3013 可見典型變量W2主要代表了家庭成員的年齡特征和教育程度 V2和W2的相關(guān)系數(shù)為0 1869 說明文化消費與年齡和受教育程度之間有一定關(guān)系 3 典型冗余分析第七部分給出典型冗余分析的結(jié)果 圖7 25 7 26 由于本例是對相關(guān)系數(shù)矩陣作分析故兩個結(jié)果相同 兩對典型變量解釋配對變量組方差的累計比例分別為42 08 和23 157 消費指標(biāo)通過它的第一個典型變量解釋的共享方差的比例是88 03 而被對方第一個典型變量W1解釋的方差比例為41 66 其比值41 66 88 03 0 4733恰為CanR2 CanonicalR Square 通過它的第二個典型變量解釋的共享方差的比例是11 97 被對方第二個典型變量W2解釋的方差比例為0 42 其比值為0 0349 家庭特征指標(biāo)通過它的第一個典型變量解釋的共享方差的比例是46 89 而被對方第一個典型變量V1解釋的方差比例為22 19 通過它的第二個典型變量解釋的共享方差的比例是27 31 而被對方第二個典型變量V2解釋的方差比例為0 95 第八部分給出各原始變量和配對組的典型變量間的復(fù)相關(guān)系數(shù) MultipleCorrelations 的平方 即原始變量與典型變量的判定系數(shù) 如x1與第1典型變量W1的相關(guān)系數(shù)為0 6787 則其判定系數(shù)為0 67872 0 4607 由復(fù)相關(guān)系數(shù)的平方可看出 消費指標(biāo)的典型變量V1對y2 0 4566 有一些預(yù)測能力 但對y1 0 0839 和y3 0 1253 有微弱的預(yù)測能力 而來自家庭特征指標(biāo)的典型變量W1對x1 0 4607 和x2 0 3725 有較好的預(yù)測能力 7 2對應(yīng)分析7 2 1對應(yīng)分析的基本概念7 2 2使用CORRESP過程實現(xiàn)對應(yīng)分析 7 2 1對應(yīng)分析的基本概念1 對應(yīng)分析的方法概述對應(yīng)分析 也稱相應(yīng)分析 它是尋求樣品 行 與變量 列 之間聯(lián)系的低維圖示法 其關(guān)鍵是利用一種數(shù)據(jù)變換方法 使含有n個樣品m個變量的原始數(shù)據(jù)矩陣變成另一個矩陣 并使SR Z Z 分析變量之間關(guān)系的協(xié)方差矩陣 與SQ ZZ 分析樣品之間關(guān)系的協(xié)方差矩陣 具有相同的非零特征根 它們相應(yīng)的特征向量之間也有密切的關(guān)系 對協(xié)方差矩陣SR SQ進行因子分析 分別提取兩個最重要的公因子R1 R2與Q1 Q2 由于采取的是一種特殊變換方法 公因子R1與Q1在本質(zhì)上是相同的 同理 R2與Q2在本質(zhì)上也是相同的 故可用dim1作為R1 Q1的統(tǒng)一標(biāo)志 用dim2作為R2 Q2的統(tǒng)一標(biāo)志 于是可將 R1 Q1 和 R2 Q2 兩組數(shù)據(jù)點畫在由 dim2 dim2 組成的同一個直角坐標(biāo)系中 這樣 便于考察變量與樣品之間的相互關(guān)系 2 對應(yīng)分析的步驟設(shè)原始數(shù)據(jù)矩陣X xij nm i 1 2 n n為樣品數(shù) j 1 2 m m為變量數(shù) 1 計算過渡矩陣Z zij nm 1 其中 Xi 為第i行的合計 X j為第j列的合計 X 為全部數(shù)據(jù)的合計 2 對SR Z Z作因子分析 計算協(xié)差陣SR Z Z的特征值 又稱為慣量 1 2 m 按其累積百分比取前p個特征值 主慣量 通常p取2 并計算相應(yīng)的單位特征向量u1 u2 從而得到因子載荷陣 在兩因子軸平面上作變量點圖 3 對SQ ZZ 作因子分析 對上述2個特征值計算SQ中相應(yīng)的單位特征向量v1 Zu1 v2 Zu2 從而得到因子載荷陣 在上述因子平面上作樣品點圖 說明 對應(yīng)分析的提出最初是為了研究兩個或多個屬性變量之間的相關(guān)關(guān)系 即用于列聯(lián)表 參見第9章 數(shù)據(jù)的分析 此時行變量的各個水平相當(dāng)于各個樣品 列變量的各個水平相當(dāng)于不同的變量 7 2 2使用CORRESP過程實現(xiàn)對應(yīng)分析1 CORRESP過程PROCCORRESP VAR TABLES ID RUN 其中的PROCCORRESP語句 TABLES語句或者VAR語句是必須使用的 除了這兩個語句 其他語句都是可以選擇的 下面分別介紹各語句的用法和功能 1 PROCCORRESP語句標(biāo)示對應(yīng)分析開始 可以規(guī)定輸入輸出數(shù)據(jù)集 指定分析方法和控制輸出結(jié)果的顯示等 語句中可設(shè)置的常用選項及其功能見表7 5 2 VAR語句輸入數(shù)據(jù)為表格格式時使用 不能與TABLES同時使用 變量必須是數(shù)值型的 3 ID語句ID語句只能與VAR語句一起使用 如果使用了TABLES或者MCA選項 就不能使用該語句 該語句只能規(guī)定一個字符變量 自動用ID語句的變量值作為輸出表格列的標(biāo)簽 并且保存在輸出數(shù)據(jù)集中 4 TABLES語句TABLES語句用行變量和列變量構(gòu)造一個列聯(lián)表 行變量和列變量之間用逗號分隔 不可與ID和VAR語句同時使用 2 對二維列聯(lián)表數(shù)據(jù)的對應(yīng)分析 例7 4 調(diào)查了三個民族的血型分布資料如表7 6所示 試作對應(yīng)分析 表7 6三個民族不同血型出現(xiàn)的頻數(shù)假定上述數(shù)據(jù)已經(jīng)存放在數(shù)據(jù)集Mylib xx中 1 SAS代碼對應(yīng)分析的代碼如下 proccorrespdata Mylib xxout result varDZWZTJZ idType run optionsps 40 procplotdata result plotdim2 dim1 Type boxhaxis 0 2to0 3by0 1vaxis 0 1to0 3by0 1HREF 0VREF 0 run 2 主要輸出結(jié)果及其解釋1 慣量與卡方分解圖7 28的第一列為Z的奇異值 最有用的是第2列 主慣量 即矩陣SR Z Z的特征值 原始數(shù)據(jù)有4行3列 這里提取2個特征值 即可完全解釋數(shù)據(jù)的信息量 第一個特征值解釋了信息量的78 07 第二個特征值解釋了21 93 前兩個特征值的累積貢獻率已達100 以第一維度為主 自由度 變量數(shù) 1 樣品數(shù) 1 6 2 樣品點坐標(biāo) 如圖7 29所示 相當(dāng)于因子分析中的公因子載荷 表示 樣品 在公因子Dim1和Dim2上的坐標(biāo) 其結(jié)果可表示為 血型A 0 1918Dim1 0 0706Dim2血型B 0 1283Dim1 0 0303Dim2血型O 0 1582Dim1 0 0201Dim2血型AB 0 1941Dim1 0 2528Dim2在以dim1與dim2作為橫軸與縱軸的直角坐標(biāo)系內(nèi) 每個樣品就是1個點 如血型A點的坐標(biāo)為 0 1918 0 0706 顯然 血型A在第3象限內(nèi) 血型B在第1象限內(nèi) 血型O在第4象限內(nèi) 血型AB在第2象限內(nèi) 3 樣品點的匯總統(tǒng)計量 如圖7 30所示 Quality為每個變量上兩個公因子貢獻率 樣品點的余弦平方值中各行數(shù)值 之和 若此值接近于1 則表明對應(yīng)的樣品點所包含的信息由兩個公因子就可很好地反映出來 Mass為原始數(shù)據(jù)中各列數(shù)據(jù)之和占總合計的百分比 Inertia為每個樣品對總特征值0 03599貢獻的百分比 由此列數(shù)值可看出 A O AB三種血型貢獻的百分比比較接近 4 樣品點局部慣量貢獻 如圖7 31所示 A型血對第1公因子貢獻最大 AB型血對第2公因子貢獻最大 5 對樣品點慣量貢獻最大的坐標(biāo)標(biāo)號 這是各樣品的坐標(biāo)對特征值貢獻最多的標(biāo)志 貢獻少 中 多依次用0 1 2來表示 如圖7 32所示 6 樣品點的余弦平方值 如圖7 33所示 為每個樣品點上兩個公因子各自的貢獻率 各行數(shù)值之和應(yīng)近似為1 因為用兩個公因子已經(jīng)表示所有的信息 故各行之和均為1 由各行數(shù)值可看出 除了AB型之外 其他三個血型的信息主要由第1公因子給出 而AB型的信息則主要由第2個公因子來反映 以上對樣品的統(tǒng)計又對變量作了一遍 結(jié)果如下 7 變量點坐標(biāo)與變量點的匯總統(tǒng)計量 如圖所示 在以dim1與dim2作為橫軸與縱軸的直角坐標(biāo)系內(nèi) 每個變量也是1個點 傣族位于第一象限中 佤族位于第二象限中 土家族位于第三象限中 4個點 變量 中任何兩點之間的歐氏距離如下 顯然 佤族與土家族之間的距離最短 傣族與佤族之間的距離最長 說明這2個民族在血型的出現(xiàn)頻率上具有較高的正相關(guān)關(guān)系 8 變量點局部慣量貢獻 如圖左所示 圖左上半部分是每個變量對公因子的貢獻率 各列數(shù)值之和為1 顯然 傣族對第1公因子貢獻最大 其他兩個民族對第2公因子貢獻較大 9 變量點的余弦平方值 如圖右所示 表示公因子對變量的貢獻率 第一公因子主要影響傣族和佤族 分別貢獻了95 28 和75 79 而第二公因子主要影響土家族 貢獻率為86 76 3 分析結(jié)果A型血對第1公因子貢獻最大 AB型血對第2公因子貢獻最大 它們的點所對應(yīng)的坐標(biāo) dim1 dim2 分別為 A 0 1918 0 0706 AB 0 1941 0 2528 每個分類在坐標(biāo)系中分得很開 佤族和AB型血同在第二象限 而且兩個點在Dim1上差別很小 說明兩者有聯(lián)系 而土家族和A型血同在第三象限 傣族和B型血同在第一象限 在Dim1上差別很小 如圖所示 說明 對應(yīng)分析的輸出結(jié)果有很多 最主要的是看第一部分中各個維度以及各個維度解釋的百分比 樣品點及變量點的坐標(biāo) 對圖形的輸出結(jié)果首先要看兩個方向的區(qū)分情況 如三個民族在第一維度上分得很開 區(qū)分很好 而血型則在第二維度上區(qū)分較好 但由于第一維度攜帶了近80 的信息量 遠(yuǎn)大于第二維度 所以解釋以第一維度為主 還可以比較各個點在空間的分布情況 距離較近的點彼此有聯(lián)系 散點間的距離越近 說明關(guān)聯(lián)的傾向越明顯 3 類別數(shù)較多的例子 例7 5 疾病與人的基因型密切有關(guān) 而不同民族各種基因出現(xiàn)的頻率不盡相同 下面是某研究者收集到的資料 試分析各種基因頻率與民族之間的關(guān)系 各民族下面的小數(shù)是36種基因出現(xiàn)的頻率 表7 7民族各種基因出現(xiàn)的頻率 1 SAS代碼設(shè)數(shù)據(jù)文件名為mzjy 位于邏輯庫Mylib中 對應(yīng)分析的代碼如下 optionsnodatenonumberps 500 proccorrespdata Mylib mzjyout result varznyh idjy run optionsps 50 procplotdata result plotdim2 dim1 jy boxhaxis 1 1to1 1by0 2vaxis 1 0to1 0by0 2HREF 0VREF 0 run 2 主要輸出結(jié)果及其解釋1 慣量與卡方分解 如圖7 38所示 這里第一列為Z的奇異值 最有用的是第2列 主慣量 即矩陣SR Z Z的特征值 由于前兩個特征值的累積貢獻率已達82 54 所以只需取前兩個特征值 將根據(jù)前兩個較大的特征值分別算出與樣品 基因型 變量 民族 對應(yīng)的特征向量 2 變量點坐標(biāo) 如圖7 39所示 這是每個變量 指Z N Y H 在兩個公因子上的載荷 其結(jié)果可表示為 Z 0 3316Dim1 0 0193Dim2N 0 4068Dim1 0 6030Dim2Y 0 5310Dim1 0 6257Dim2H 0 5604Dim1 0 0542Dim2在以dim1與dim2作為橫軸與縱軸的直角坐標(biāo)系內(nèi) 每個變量就是1個點 如Z 藏族 點的坐標(biāo)為 0 3316 0 0193 顯然 Z 藏族 H 漢族 兩個點在第2象限內(nèi) N 尼泊爾 點在第4象限內(nèi) Y 印度 點在第1象限內(nèi) 在以dim1與dim2作為橫軸與縱軸的直角坐標(biāo)系內(nèi) 4個點 變量 中任何兩點之間的歐氏距離如下 顯然 藏族與漢族之間的距離最短 說明這2個民族在多數(shù)基因的出現(xiàn)頻率上具有較高的正相關(guān)關(guān)系 3 變量坐標(biāo)點的匯總統(tǒng)計量 如圖7 40所示 Quality為每個變量上兩個公因子貢獻率 即下文中變量坐標(biāo)點的平方余弦值表中各行數(shù)值 之和 若此值接近于1 則表明對應(yīng)的變量所包含的信息由兩個公因子就可很好地反映出來 Mass為原始數(shù)據(jù)中各列數(shù)據(jù)之和占總合計的百分比 Inertia為每個變量對總特征值0 49399貢獻的百分比 由此列數(shù)值可看出 后三個民族貢獻的百分比比較接近 4 變量坐標(biāo)點局部慣量貢獻 如圖所示 這是每個公因子上每個變量的貢獻率 各列數(shù)值之和為1 顯然 漢族對第1公因子貢獻最大 尼泊爾 印度這2個民族對第2公因子貢獻最大 5 對變量坐標(biāo)點慣量貢獻最大的坐標(biāo)標(biāo)號 如圖所示 這是各變量的坐標(biāo)對特征值貢獻最多的標(biāo)志 貢獻少 中 多依次用0 1 2來表示 6 變量坐標(biāo)點的平方余弦值 如圖7 43所示 這是每個變量上兩個公因子各自的貢獻率 各行數(shù)值之和應(yīng)近似為1 因為只用了兩個主要的公因子 與最小特征值0 08624對應(yīng)的公因子的貢獻未給出 故少了一些信息 由各行數(shù)值可看出 尼泊爾 印度這2個民族的信息幾乎完全可由這2個公因子反映出來 而藏族的信息則不能很好地由這2個公因子來反映 3 分析結(jié)果B46對第1公因子貢獻最大 B48 C6對第2公因子貢獻最大 它們的點所對應(yīng)的坐標(biāo) dim1 dim2 分別為 B46 1 0770 0 0529 B48 0 3626 0 9077 C6 0 7278 0 8463 顯然 B46點落在第2象限內(nèi) B48與C6這兩點落在第4象限內(nèi) 且距離較近 再結(jié)合上面關(guān)于 ColumnCoordinates 部分的解釋可知 藏族與漢族接近主要表現(xiàn)在B46基因型上有較高的一致性 因為這3點都落在第2象限內(nèi) 且距離較近 而尼泊爾族與B48 C6兩種基因型上有較高的一致性 因為這3點都落在第4象限內(nèi) 且距離較近 由散點圖 圖7 44 可以看出三大類民族各自有著特征基因群 分別位于第一 第二和第四象限中 與漢族 藏族最接近的基因為C3 與尼泊爾族最接近的基因為B48 與印度族最接近的基因是B8- 1.請仔細(xì)閱讀文檔,確保文檔完整性,對于不預(yù)覽、不比對內(nèi)容而直接下載帶來的問題本站不予受理。
- 2.下載的文檔,不會出現(xiàn)我們的網(wǎng)址水印。
- 3、該文檔所得收入(下載+內(nèi)容+預(yù)覽)歸上傳者、原創(chuàng)作者;如果您是本文檔原作者,請點此認(rèn)領(lǐng)!既往收益都?xì)w您。
下載文檔到電腦,查找使用更方便
14.9 積分
下載 |
- 配套講稿:
如PPT文件的首頁顯示word圖標(biāo),表示該PPT已包含配套word講稿。雙擊word圖標(biāo)可打開word文檔。
- 特殊限制:
部分文檔作品中含有的國旗、國徽等圖片,僅作為作品整體效果示例展示,禁止商用。設(shè)計者僅對作品中獨創(chuàng)性部分享有著作權(quán)。
- 關(guān) 鍵 詞:
- 典型相關(guān)系數(shù) 典型 相關(guān)系數(shù) PPT 課件
鏈接地址:http://m.jqnhouse.com/p-7807440.html