《典型相關(guān)系數(shù)》PPT課件.ppt
《《典型相關(guān)系數(shù)》PPT課件.ppt》由會(huì)員分享,可在線(xiàn)閱讀,更多相關(guān)《《典型相關(guān)系數(shù)》PPT課件.ppt(90頁(yè)珍藏版)》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。
第七章典型相關(guān)與對(duì)應(yīng)分析 7 1典型相關(guān)分析7 2對(duì)應(yīng)分析 7 1典型相關(guān)分析7 1 1典型相關(guān)分析的概念與步驟7 1 2用INSIGHT模塊實(shí)現(xiàn)典型相關(guān)分析7 1 3用 分析家 實(shí)現(xiàn)典型相關(guān)分析7 1 4用CANCORR過(guò)程實(shí)現(xiàn)典型相關(guān)分析 7 1 1典型相關(guān)分析的概念與步驟1 典型相關(guān)分析的基本思想典型相關(guān)分析采用主成分的思想濃縮信息 根據(jù)變量間的相關(guān)關(guān)系 尋找少數(shù)幾對(duì)綜合變量 實(shí)際觀測(cè)變量的線(xiàn)性組合 用它們替代原始觀測(cè)變量 從而將二組變量的關(guān)系集中到少數(shù)幾對(duì)綜合變量的關(guān)系上 通過(guò)對(duì)這些綜合變量之間相關(guān)性的分析 回答兩組原始變量間相關(guān)性的問(wèn)題 除了要求所提取的綜合變量所含的信息量盡可能大以外 提取時(shí)還要求第一對(duì)綜合變量間的相關(guān)性最大 第二對(duì)次之 依次類(lèi)推 這些綜合變量被稱(chēng)為典型變量 或典則變量 第1對(duì)典型變量間的相關(guān)系數(shù)則被稱(chēng)為第1典型相關(guān)系數(shù) 典型相關(guān)系數(shù)能簡(jiǎn)單 完整地描述兩組變量間關(guān)系的指標(biāo) 當(dāng)兩個(gè)變量組均只有一個(gè)變量時(shí) 典型相關(guān)系數(shù)即為簡(jiǎn)單相關(guān)系數(shù) 當(dāng)其中的一組只有一個(gè)變量時(shí) 典型相關(guān)系數(shù)即為復(fù)相關(guān)系數(shù) 2 典型相關(guān)系數(shù)與典型相關(guān)變量設(shè)X X1 X2 Xp Y Y1 Y2 Yq 是兩個(gè)隨機(jī)向量 利用主成分思想尋找第i對(duì)典型相關(guān)變量 Ui Vi Ui ai1X1 ai2X2 aipXp ai XVi bi1Y1 bi2Y2 biqYq bi Yi 1 2 m min p q 稱(chēng)ai 和bi 為 第i對(duì) 典型變量系數(shù)或典型權(quán)重 記第一對(duì)典型相關(guān)變量間的典型相關(guān)系數(shù)為 CanR1 Corr U1 V1 使U1與V1間最大相關(guān) 第二對(duì)典型相關(guān)變量間的典型相關(guān)系數(shù)為 CanR2 Corr U2 V2 與U1 V1無(wú)關(guān) 使U2與V2間最大相關(guān) 第m對(duì)典型相關(guān)變量間的典型相關(guān)系數(shù)為 CanRm Corr Um Vm 與U1 V1 Um 1 Vm 1無(wú)關(guān) Um與Vm間最大相關(guān) 3 典型相關(guān)變量的性質(zhì)各對(duì)典型相關(guān)變量所包括的相關(guān)信息互不交叉 且滿(mǎn)足 1 U1 U2 Um互不相關(guān) V1 V2 Vm互不相關(guān) 即其相關(guān)系數(shù)為 2 同一對(duì)典型相關(guān)變量Ui和Vi之間的相關(guān)系數(shù)為CanRi 不同對(duì)的典型相關(guān)變量之間互不相關(guān) 即 3 Ui和Vi的均值為0 方差為1 i 1 m 4 1 CanR1 CanR2 CanRm 0 4 典型相關(guān)系數(shù)的求解步驟1 求X Y變量組的相關(guān)陣R 2 求矩陣A R11 1R12 R22 1R21和B R22 1R21 R11 1R12 可以證明A B有相同的非零特征值 3 求A或B的特征值 i與CanRi A或B的特征值即為典型相關(guān)系數(shù)的平方 i CanRi 2 i 1 m 4 求A B關(guān)于 i的特征向量 設(shè)ai為A關(guān)于 i的特征向量 bi為B關(guān)于 i的特征向量 則ai 和bi 為 第i對(duì) 典型變量系數(shù) 即第i對(duì)典型相關(guān)變量 Ui Vi Ui ai X ai1X1 ai2X2 aipXp Vi bi Y bi1Y1 bi2Y2 biqYq i 1 2 m min p q 其中X Y 為原變量組的標(biāo)準(zhǔn)化 5 特征根特征根 eigenvalue 是方差分析和多元檢驗(yàn)的基礎(chǔ) 特征根與典型相關(guān)系數(shù)之間的數(shù)量關(guān)系為 上式可以理解為第i對(duì)典型變量表示觀測(cè)變量總方差作用的指標(biāo) 它的值越大說(shuō)明表示作用越大 6 典型相關(guān)系數(shù)的標(biāo)準(zhǔn)誤7 典型相關(guān)系數(shù)的假設(shè)檢驗(yàn)典型相關(guān)系數(shù)的假設(shè)檢驗(yàn)包括對(duì)全部總體典型相關(guān)系數(shù)的檢驗(yàn)和對(duì)部分總體典型相關(guān)系數(shù)的檢驗(yàn) 對(duì)數(shù)據(jù)的要求 1 兩個(gè)變量組均應(yīng)服從多維正態(tài)分布 X Y Np q 2 2 n p q 1 全部總體典型相關(guān)系數(shù)為0H0 CanRi 0 i 1 mH1 至少有一個(gè)CanRi 0檢驗(yàn)的似然比統(tǒng)計(jì)量為對(duì)于充分大的n 當(dāng)H0成立時(shí) 統(tǒng)計(jì)量近似服從自由度為pq的 2分布 2 部分總體典型相關(guān)系數(shù)為0僅對(duì)較小的典型相關(guān)作檢驗(yàn) H0 CanRi 0 i s m 2 s mH1 至少有一個(gè)CanRi 0其檢驗(yàn)的統(tǒng)計(jì)量為對(duì)于充分大的n 當(dāng)H0成立時(shí) 統(tǒng)計(jì)量近似服從自由度為 p k q k 的 2分布 7 1 2用INSIGHT模塊實(shí)現(xiàn)典型相關(guān)分析1 實(shí)例 例7 1 1985年中國(guó)28省市城市男生 19 22歲 的調(diào)查數(shù)據(jù) 見(jiàn)表7 1 其中6項(xiàng)形態(tài)指標(biāo) 身高 cm 坐高 體重 kg 胸圍 肩寬 盆骨寬 分別記為x1 x2 x6 5項(xiàng)機(jī)能指標(biāo) 脈搏 次 分 收縮壓 mmHg 舒張壓 變音 舒張壓 消音 肺活量 ml 分別記為y1 y2 y5 表7 1城市男生 19 22歲 形態(tài)與機(jī)能調(diào)查數(shù)據(jù)設(shè)表中數(shù)據(jù)已經(jīng)存放在數(shù)據(jù)集Mylib xtyjn中 試分析形態(tài)指標(biāo)和機(jī)能指標(biāo)這兩組變量間的相關(guān)性 2 分析設(shè)置在INSIGHT模塊中打開(kāi)數(shù)據(jù)集Mylib xtyjn 1 選擇菜單 Analyze Multivariate YX 多元分析 打開(kāi) Multivariate YX 對(duì)話(huà)框 2 將6項(xiàng)形態(tài)指標(biāo) x1至x6選為X變量 將5項(xiàng)機(jī)能指標(biāo) y1至y5選為Y變量 如圖7 1左所示 3 單擊 Output 按鈕 在打開(kāi)的對(duì)話(huà)框中選中 CanonicalCorrelationAnalysis 典型相關(guān)分析 復(fù)選框 單擊下面的 CanonicalCorrelationOptions 典型相關(guān)選項(xiàng) 按鈕 打開(kāi) CanonicalCorrelationOptions 對(duì)話(huà)框 并按下圖右所示設(shè)置 4 三次單擊 OK 按鈕 得到分析結(jié)果 3 結(jié)果分析 1 典型相關(guān)系數(shù)第1典型相關(guān)系數(shù)為0 939573 校正值為0 908276 標(biāo)準(zhǔn)誤差為0 026207 典型相關(guān)系數(shù)的平方為0 882797 第2典型相關(guān)系數(shù)為0 877842 校正值為0 842459 標(biāo)準(zhǔn)誤差為0 051294 典型相關(guān)系數(shù)的平方為0 770606 如圖所示 前兩個(gè)典型相關(guān)系數(shù)比形態(tài)指標(biāo)和機(jī)能指標(biāo)兩組間的任何一個(gè)相關(guān)系數(shù)都大 2 典型變量所解釋的變異第二部分是的5個(gè)特征根 Eigenvalues 包括 特征根 相鄰兩個(gè)特征根之差 特征根所占方差信息量的比例和累積方差信息量的比例 從中可以看出 前兩對(duì)典型變量所能解釋的變異占總變異 方差 的91 18 如圖7 4所示 其它三個(gè)典型相關(guān)變量的作用很小 一共只解釋了總變異的9 可以不予考慮 3 典型相關(guān)系數(shù)的檢驗(yàn)用似然比法檢驗(yàn)典型相關(guān)系數(shù)與零的差別是否顯著 其原假設(shè)為小于此對(duì)典型變量典型相關(guān)系數(shù)的所有典型相關(guān)系數(shù)都為0 其p值依次為0 0010 0 0509和0 5089等等 如圖7 5所示 說(shuō)明前兩對(duì)典型相關(guān)系數(shù)基本具有顯著意義 在 0 0509的顯著水平下 因此 兩組變量相關(guān)性的研究可轉(zhuǎn)化為研究前兩對(duì)典型相關(guān)變量的相關(guān)性 4 典型相關(guān)結(jié)構(gòu)典型相關(guān)結(jié)構(gòu) 下圖 分別是各組原始變量與典型變量?jī)蓛芍g的相關(guān)系數(shù)矩陣 從相關(guān)系數(shù)判斷 形態(tài)指標(biāo)中除x5 0 0514 x6 0 2433 外各變量與第一典型變量間的相關(guān)性都比較高 機(jī)能指標(biāo)中除y2 0 0975 外各變量與第一典型變量間的相關(guān)性也都比較高 x5與第二典型變量間的相關(guān)性比較高 y2與第二典型變量間的相關(guān)性比較高 y1與前兩個(gè)典型變量的相關(guān)系數(shù)為負(fù)值 說(shuō)明 第一對(duì)典型變量對(duì)肩寬x5和收縮壓y2的解釋作用不大 另外 從形態(tài)指標(biāo)組的變量和機(jī)能指標(biāo)組的典型變量之間 以及機(jī)能指標(biāo)組的變量和形態(tài)指標(biāo)組的典型變量之間的相關(guān)系數(shù)可見(jiàn) 各組變量與前兩對(duì)典型變量之間均有較強(qiáng)的相關(guān) 5 標(biāo)準(zhǔn)化變量的典型相關(guān)變量的系數(shù)輸出結(jié)果中還給出標(biāo)準(zhǔn)化變量的典型變量系數(shù) 如圖所示 來(lái)自機(jī)能指標(biāo)的第一典型變量CY1為 原始變量的右上角帶 表示為標(biāo)準(zhǔn)化變量 CY1 0 071672y1 0 789642y2 0 567178y3 0 508332y4 0 533496y5 容易看出 CY1主要代表了舒張壓變音 舒張壓消音 肺活量等指標(biāo) 來(lái)自形態(tài)指標(biāo)的第一典型變量CX1為 CX1 0 4287x1 0 09696x2 0 16210 x3 0 93745x4 0 23498x5 0 18696x6 易知 CX1主要代表了胸圍 身高和肩寬等指標(biāo) 關(guān)于第二典型變量有 CY2 0 026533y1 1 213436y2 0 535038y3 0 186048y4 0 455870y5 CX2 0 70270 x1 0 39985x2 0 84359x3 0 99063x4 0 06829x5 0 48310 x6 可見(jiàn) CY2代表了收縮壓和肺活量等指標(biāo) CX2代表了身高 體重 盆骨寬等指標(biāo) 6 典型冗余分析典型冗余分析 canonicalredundancyanalysis 表明 兩對(duì)典型變量仍不能全面預(yù)測(cè)配對(duì)的那組變量 來(lái)自形態(tài)指標(biāo)的標(biāo)準(zhǔn)方差被對(duì)方兩個(gè)典型變量 CY1 CY2 解釋的累積方差比例為55 86 來(lái)自機(jī)能指標(biāo)的標(biāo)準(zhǔn)方差被對(duì)方兩個(gè)典型變量 CX1 CX2 解釋的累積方差比例為44 61 如圖所示 7 1 3用 分析家 實(shí)現(xiàn)典型相關(guān)分析1 實(shí)例 例7 2 某康復(fù)俱樂(lè)部對(duì)20名中年人測(cè)量了3項(xiàng)生理指標(biāo) 體重 weight 腰圍 waist 脈搏 pulse 和3項(xiàng)運(yùn)動(dòng)指標(biāo) 引體向上 chins 起坐次數(shù) situps 跳躍次數(shù) jumps 其數(shù)據(jù)列于表7 2中 表7 2某康復(fù)俱樂(lè)部測(cè)量的生理指標(biāo)和運(yùn)動(dòng)指標(biāo)設(shè)表中數(shù)據(jù)已經(jīng)存放在數(shù)據(jù)集Mylib slzb中 試分析生理指標(biāo)和運(yùn)動(dòng)指標(biāo)這兩組變量間的相關(guān)性 2 分析設(shè)置1 在 分析家 中打開(kāi)數(shù)據(jù)集Mylib slzb 2 選擇菜單 Statistics 統(tǒng)計(jì) Multivariate 多元分析 CanonicalCorrelation 典型相關(guān)分析 打開(kāi) CanonicalCorrelation 對(duì)話(huà)框 3 在對(duì)話(huà)框中將生理指標(biāo)選為Set1 運(yùn)動(dòng)指標(biāo)選為Set2 如圖所示 4 單擊 Statistics 統(tǒng)計(jì) 按鈕 打開(kāi) CanonicalCorrelation Statistics 對(duì)話(huà)框 選中 Canonicalredundancystatistics 復(fù)選框 并選擇3個(gè)典型變量 如圖所示 兩次單擊 OK 按鈕 得到計(jì)算結(jié)果 3 結(jié)果分析 1 典型相關(guān)系數(shù)及顯著性檢驗(yàn)第一部分的4列依次是 典型相關(guān)系數(shù) 校正的典型相關(guān)系數(shù) 近似的標(biāo)準(zhǔn)誤以及典型相關(guān)系數(shù)的平方 從圖7 10中可以看出 本例提取了3個(gè)典型相關(guān)系數(shù) 第一個(gè)典型相關(guān)系數(shù)CanR1 0 795608 其校正值為0 754056 標(biāo)準(zhǔn)誤為0 084197 CanR12 0 632992 第一典型相關(guān)系數(shù)表示的是第一對(duì)典型相關(guān)變量之間的相關(guān)性 第二個(gè)典型相關(guān)系數(shù)為0 200556 第三個(gè)為0 072570 第二部分是特征根以及相應(yīng)的統(tǒng)計(jì)量 如圖所示 可以看出 第一對(duì)典型變量所能解釋的變異已占總變異的97 34 其它兩個(gè)典型相關(guān)變量的作用很小 一共只解釋了總變異的3 可以不予考慮 右邊4列給出對(duì)典型相關(guān)系數(shù)的檢驗(yàn) 結(jié)果表明 第一行的F值2 05 p值為0 0635 在0 07的檢驗(yàn)水平下 應(yīng)拒絕原假設(shè) 認(rèn)為第一相關(guān)系數(shù)以及比它小的兩個(gè)相關(guān)系數(shù)不為0 后兩行檢驗(yàn)的p值都遠(yuǎn)大于顯著水平0 05 故可以認(rèn)為只有第一個(gè)典型相關(guān)系數(shù)不為0 第三部分輸出的是用四種多元統(tǒng)計(jì)方法進(jìn)行的所有典型相關(guān)系數(shù)均為0的F檢驗(yàn)結(jié)果 如圖所示 四種方法中一般參照Wilks Lambda檢驗(yàn)的結(jié)果 本例中的Wilks Lambda檢驗(yàn)結(jié)果與前述完全一致 表明至少有一個(gè)典型相關(guān)系數(shù)在 0 0635的顯著水平下非0 2 典型變量系數(shù)與典型結(jié)構(gòu)第四部分給出的是用原始變量表達(dá)的典型變量系數(shù) 典型權(quán)重 如圖所示 因6個(gè)變量沒(méi)有使用相同單位進(jìn)行測(cè)量 因此考慮分析標(biāo)準(zhǔn)化后的系數(shù) 第五部分給出的是用標(biāo)準(zhǔn)化變量 對(duì)原始變量標(biāo)準(zhǔn)化 表達(dá)的典型變量系數(shù) 如圖所示 V1 0 7754weight 1 5793waist 0 0591pulse 它近似地是waist 和weight 的加權(quán)差 在waist 上權(quán)重更大些 V1在pulse 上系數(shù)近似為0 W1 0 3495chins 1 0540situps 0 7164jumps 它在situps 上的系數(shù)最大 這一對(duì)典型變量主要是反映waist 和situps 的負(fù)相關(guān)關(guān)系 第六部分為典型結(jié)構(gòu) 分別是各組原始變量與典型變量?jī)蓛芍g的相關(guān)系數(shù)矩陣 如圖所示 可以看出 在原始變量與本組的典型變量的相關(guān)關(guān)系 典型載荷 中 生理指標(biāo)的典型變量V1與腰圍waist的相關(guān)系數(shù)最大 0 9254 說(shuō)明這個(gè)典型變量主要反映人的肥胖程度 運(yùn)動(dòng)指標(biāo)的典型變量W1與起坐次數(shù)situps和引體向上次數(shù)chins有較大的負(fù)相關(guān)關(guān)系 0 7276 0 8177 說(shuō)明這個(gè)典型變量主要反映人不適合運(yùn)動(dòng)的程度 在原始變量與配對(duì)組的典型變量的相關(guān)關(guān)系 典型交叉載荷 的分析結(jié)果中 腰圍waist與運(yùn)動(dòng)指標(biāo)的第1典型變量W1的相關(guān)性較強(qiáng) 這也說(shuō)明了腰圍大 體形較胖 則運(yùn)動(dòng)能力差 起坐次數(shù)和引體向上與生理指標(biāo)的第1典型變量V1呈一定的負(fù)相關(guān)系數(shù) 說(shuō)明人的體形肥胖程度對(duì)這兩種運(yùn)動(dòng)能力有負(fù)面影響 3 典型冗余分析第七部分給出典型冗余分析的結(jié)果上圖是變量的原始方差通過(guò)它的典型變量和配對(duì)的典型變量所解釋的方差比例 下圖是變量的標(biāo)準(zhǔn)化方差通過(guò)它的典型變量和配對(duì)的典型變量所解釋的方差比例 圖中看出 生理指標(biāo)通過(guò)它的第一個(gè)典型變量解釋的共享方差的比例是45 08 而被對(duì)方第一個(gè)典型變量W1解釋的方差比例為28 54 其比值28 54 45 08 0 6330恰為CanR2 運(yùn)動(dòng)指標(biāo)通過(guò)它的第一個(gè)典型變量解釋的共享方差的比例是40 81 而被對(duì)方個(gè)典型變量V1解釋的方差比例為25 84 其比值也是0 6330 第八部分給出各原始變量和配對(duì)組的典型變量間的復(fù)相關(guān)系數(shù) MultipleCorrelations 的平方 圖7 18 即原始變量與典型變量的判定系數(shù) 如weight與第1典型變量W1的相關(guān)系數(shù)為0 4938 見(jiàn)圖7 15 則其復(fù)相關(guān)系數(shù)平方為0 49382 0 2438 由復(fù)相關(guān)系數(shù)的平方可看出 生理指標(biāo)的第一典型變量W1對(duì)chins 0 3351 和situps 0 4233 有一定解釋能力 但對(duì)jumps 0 0167 幾乎沒(méi)有解釋能力 而來(lái)自運(yùn)動(dòng)指標(biāo)的第一典型變量V1對(duì)waist 0 5421 有相當(dāng)好的解釋能力 對(duì)weight 0 2438 較差 而對(duì)pulse 0 0701 幾乎沒(méi)有解釋能力 其中 運(yùn)動(dòng)指標(biāo)的第一典型變量對(duì)生理指標(biāo)中的腰圍指標(biāo)解釋能力最強(qiáng) 可以說(shuō)明運(yùn)動(dòng)對(duì)體形影響較大 加強(qiáng)體育鍛煉可以減肥 7 1 4用CANCORR過(guò)程實(shí)現(xiàn)典型相關(guān)分析1 CANCORR過(guò)程CANCORR過(guò)程的常用語(yǔ)法格式如下 PROCCANCORR WITH VAR RUN 其中PROCCANCORR語(yǔ)句 WITH語(yǔ)句是每個(gè)過(guò)程中必不可少的 其余語(yǔ)句可視情況使用 下面分別介紹各語(yǔ)句的用法和功能 1 PROCCANCORR語(yǔ)句 標(biāo)示典型相關(guān)分析開(kāi)始 可以規(guī)定輸入輸出數(shù)據(jù)集 指定分析方法和控制輸出結(jié)果的顯示等 語(yǔ)句中可設(shè)置的常用選項(xiàng)及其功能見(jiàn)表7 3 2 VAR語(yǔ)句 列出要進(jìn)行典型相關(guān)分析的第一組變量 變量必須是數(shù)值型的 如果VAR語(yǔ)句被忽略 所有未被其他語(yǔ)句提到的數(shù)值型變量都將被視為第一組變量 3 WITH語(yǔ)句 列出要進(jìn)行典型相關(guān)分析的第二組變量 變量必須是數(shù)值型的 該語(yǔ)句是每一個(gè)PROCCANCORR中必不可少的 表7 3常用選項(xiàng)及其功能 2 使用CANCORR過(guò)程 例7 3 家庭特征與家庭消費(fèi)之間的關(guān)系 為了了解家庭的特征與其消費(fèi)模式之間的關(guān)系 調(diào)查了70個(gè)家庭的下面兩組變量 x1 每年去餐館就餐的頻率 x2 每年外出看電影的頻率 y1 戶(hù)主的年齡 y2 家庭的年收入 y3 戶(hù)主受教育程度 試分析兩組變量之間的關(guān)系 假定變量的相關(guān)系數(shù)陣如表所示 如下代碼 利用變量的相關(guān)系數(shù)矩陣作典型相關(guān)分析 DATAjt TYPE CORR INPUTNAME 1 2 X1X2Y1 Y3 6 CARDS X11 000 800 260 670 34X20 801 000 330 590 34Y10 260 331 000 370 21Y20 670 590 371 000 35Y30 340 340 210 351 00 PROCCANCORREDF 70REDUNDANCY VARX1X2 WITHY1 Y3 RUN 說(shuō)明 1 在數(shù)據(jù)集名jt后用TYPE CORR表明數(shù)據(jù)的類(lèi)型為相關(guān)矩陣 而不是原始數(shù)據(jù) 2 INPUT語(yǔ)句中用 NAME 讀取左側(cè)的變量名 1 2 表示變量名的字符落在第1 2列上 X1X2Y1 Y4 表示各列數(shù)據(jù)所對(duì)應(yīng)的變量名 6 表示讀取數(shù)據(jù)的寬度均為6列 其中相關(guān)系數(shù)占4位 其后的空格占2位 3 選擇項(xiàng)EDF n 1 為典型相關(guān)分析提供一個(gè)計(jì)算誤差自由度的參考值 因?yàn)樵撨^(guò)程中沒(méi)有合適的選擇項(xiàng)可以將原始數(shù)據(jù)的樣本含量n準(zhǔn)確地送入 如果忽略這一選擇項(xiàng) 將以缺省值n 10000作為樣本含量參與有關(guān)計(jì)算和統(tǒng)計(jì)檢驗(yàn) 顯然不妥 4 選項(xiàng)REDUNDANCY表示輸出典型冗余分析的結(jié)果 3 結(jié)果分析 1 典型相關(guān)系數(shù)及顯著性檢驗(yàn)第一部分的4列依次是 典型相關(guān)系數(shù) 校正的典型相關(guān)系數(shù) 近似的標(biāo)準(zhǔn)誤以及典型決定系數(shù) 典型相關(guān)系數(shù)的平方 從中可以看出 本例提取了2個(gè)典型相關(guān)系數(shù) 第一個(gè)典型相關(guān)系數(shù)CanR1 0 687948 其校正值為0 673671 標(biāo)準(zhǔn)誤為0 062956 CanR12 0 473272 第二個(gè)典型相關(guān)系數(shù)為0 186865 第二部分是特征根以及相應(yīng)的統(tǒng)計(jì)量 從中可以看出 第一對(duì)典型變量所能解釋的變異已占總變異的96 13 另一對(duì)典型相關(guān)變量的作用很小 只解釋了總變異的3 87 可以不予考慮 右邊4列給出對(duì)典型相關(guān)系數(shù)的檢驗(yàn) 具體采用似然比法 所求的似然比統(tǒng)計(jì)量近似服從F分布 第一行檢驗(yàn)的是第一相關(guān)系數(shù)以及比它小的兩個(gè)相關(guān)系數(shù)是否為0 第一行的F值8 86 p值 0 0001 后一行檢驗(yàn)的p值遠(yuǎn)大于置信水平0 05 故可以認(rèn)為只有第一個(gè)典型相關(guān)系數(shù)有統(tǒng)計(jì)學(xué)意義 第三部分 圖7 21 輸出的是按照多元分析的原理進(jìn)行的所有典型相關(guān)系數(shù)是否為0的檢驗(yàn) 四種方法中一般參照Wilks Lambda檢驗(yàn)的結(jié)果 本例中4種方法的檢驗(yàn)結(jié)果與前述完全一致 2 典型變量系數(shù)與典型結(jié)構(gòu)第四部分 圖左 給出的是用原始變量表達(dá)的典型變量系數(shù) 考慮標(biāo)準(zhǔn)化后的系數(shù) 即第五部分 圖右 給出的典型變量和標(biāo)準(zhǔn)化變量 對(duì)原始變量標(biāo)準(zhǔn)化 間的換算公式 由于使用原始變量的相關(guān)系數(shù)陣作為輸入數(shù)據(jù) 所以這兩部分相同 來(lái)自消費(fèi)模式指標(biāo)的第一典型變量V1為 原始變量的右上角帶 表示為標(biāo)準(zhǔn)化變量 V1 0 7689x1 0 2721x2 它是x1 每年去餐館就餐的頻率 和x2 每年外出看電影的頻率 的加權(quán)和 在x1 上的權(quán)重更大些 來(lái)自家庭特征指標(biāo)的第一典型變量W1為 W1 0 0491y1 0 8975y2 0 1900y3 它在y2 家庭的年收入 上的系數(shù)最大 這一對(duì)典型變量主要是反映x1 每年去餐館就餐的頻率 和y2 家庭的年收入 的相關(guān)關(guān)系 第六部分 圖7 24 為典型相關(guān)結(jié)構(gòu) 分別是各組原始變量與典型變量?jī)蓛芍g的相關(guān)系數(shù)矩陣 可以看出 x1和x2與第1典型變量V1的相關(guān)系數(shù)皆為正值 分別為0 9866和0 8872 可見(jiàn)V1可以作為消費(fèi)特性的指標(biāo) 家庭特征指標(biāo)的所有變量與第1典型變量W1的相關(guān)系數(shù)分別為 0 4211 0 9822和0 5145 可見(jiàn)典型變量W1主要代表了了家庭收入 V1和W1的典型相關(guān)系數(shù)為0 6879 這就說(shuō)明家庭的消費(fèi)與一個(gè)家庭的收入之間其關(guān)系是很密切的 第二對(duì)典型變量中V2與x2的相關(guān)系數(shù)為0 4614 可以看出V2可以作為文化消費(fèi)特性的指標(biāo) 第二對(duì)典型變量中W2與y1和y3之間的分別相關(guān)系數(shù)為0 8464和0 3013 可見(jiàn)典型變量W2主要代表了家庭成員的年齡特征和教育程度 V2和W2的相關(guān)系數(shù)為0 1869 說(shuō)明文化消費(fèi)與年齡和受教育程度之間有一定關(guān)系 3 典型冗余分析第七部分給出典型冗余分析的結(jié)果 圖7 25 7 26 由于本例是對(duì)相關(guān)系數(shù)矩陣作分析故兩個(gè)結(jié)果相同 兩對(duì)典型變量解釋配對(duì)變量組方差的累計(jì)比例分別為42 08 和23 157 消費(fèi)指標(biāo)通過(guò)它的第一個(gè)典型變量解釋的共享方差的比例是88 03 而被對(duì)方第一個(gè)典型變量W1解釋的方差比例為41 66 其比值41 66 88 03 0 4733恰為CanR2 CanonicalR Square 通過(guò)它的第二個(gè)典型變量解釋的共享方差的比例是11 97 被對(duì)方第二個(gè)典型變量W2解釋的方差比例為0 42 其比值為0 0349 家庭特征指標(biāo)通過(guò)它的第一個(gè)典型變量解釋的共享方差的比例是46 89 而被對(duì)方第一個(gè)典型變量V1解釋的方差比例為22 19 通過(guò)它的第二個(gè)典型變量解釋的共享方差的比例是27 31 而被對(duì)方第二個(gè)典型變量V2解釋的方差比例為0 95 第八部分給出各原始變量和配對(duì)組的典型變量間的復(fù)相關(guān)系數(shù) MultipleCorrelations 的平方 即原始變量與典型變量的判定系數(shù) 如x1與第1典型變量W1的相關(guān)系數(shù)為0 6787 則其判定系數(shù)為0 67872 0 4607 由復(fù)相關(guān)系數(shù)的平方可看出 消費(fèi)指標(biāo)的典型變量V1對(duì)y2 0 4566 有一些預(yù)測(cè)能力 但對(duì)y1 0 0839 和y3 0 1253 有微弱的預(yù)測(cè)能力 而來(lái)自家庭特征指標(biāo)的典型變量W1對(duì)x1 0 4607 和x2 0 3725 有較好的預(yù)測(cè)能力 7 2對(duì)應(yīng)分析7 2 1對(duì)應(yīng)分析的基本概念7 2 2使用CORRESP過(guò)程實(shí)現(xiàn)對(duì)應(yīng)分析 7 2 1對(duì)應(yīng)分析的基本概念1 對(duì)應(yīng)分析的方法概述對(duì)應(yīng)分析 也稱(chēng)相應(yīng)分析 它是尋求樣品 行 與變量 列 之間聯(lián)系的低維圖示法 其關(guān)鍵是利用一種數(shù)據(jù)變換方法 使含有n個(gè)樣品m個(gè)變量的原始數(shù)據(jù)矩陣變成另一個(gè)矩陣 并使SR Z Z 分析變量之間關(guān)系的協(xié)方差矩陣 與SQ ZZ 分析樣品之間關(guān)系的協(xié)方差矩陣 具有相同的非零特征根 它們相應(yīng)的特征向量之間也有密切的關(guān)系 對(duì)協(xié)方差矩陣SR SQ進(jìn)行因子分析 分別提取兩個(gè)最重要的公因子R1 R2與Q1 Q2 由于采取的是一種特殊變換方法 公因子R1與Q1在本質(zhì)上是相同的 同理 R2與Q2在本質(zhì)上也是相同的 故可用dim1作為R1 Q1的統(tǒng)一標(biāo)志 用dim2作為R2 Q2的統(tǒng)一標(biāo)志 于是可將 R1 Q1 和 R2 Q2 兩組數(shù)據(jù)點(diǎn)畫(huà)在由 dim2 dim2 組成的同一個(gè)直角坐標(biāo)系中 這樣 便于考察變量與樣品之間的相互關(guān)系 2 對(duì)應(yīng)分析的步驟設(shè)原始數(shù)據(jù)矩陣X xij nm i 1 2 n n為樣品數(shù) j 1 2 m m為變量數(shù) 1 計(jì)算過(guò)渡矩陣Z zij nm 1 其中 Xi 為第i行的合計(jì) X j為第j列的合計(jì) X 為全部數(shù)據(jù)的合計(jì) 2 對(duì)SR Z Z作因子分析 計(jì)算協(xié)差陣SR Z Z的特征值 又稱(chēng)為慣量 1 2 m 按其累積百分比取前p個(gè)特征值 主慣量 通常p取2 并計(jì)算相應(yīng)的單位特征向量u1 u2 從而得到因子載荷陣 在兩因子軸平面上作變量點(diǎn)圖 3 對(duì)SQ ZZ 作因子分析 對(duì)上述2個(gè)特征值計(jì)算SQ中相應(yīng)的單位特征向量v1 Zu1 v2 Zu2 從而得到因子載荷陣 在上述因子平面上作樣品點(diǎn)圖 說(shuō)明 對(duì)應(yīng)分析的提出最初是為了研究?jī)蓚€(gè)或多個(gè)屬性變量之間的相關(guān)關(guān)系 即用于列聯(lián)表 參見(jiàn)第9章 數(shù)據(jù)的分析 此時(shí)行變量的各個(gè)水平相當(dāng)于各個(gè)樣品 列變量的各個(gè)水平相當(dāng)于不同的變量 7 2 2使用CORRESP過(guò)程實(shí)現(xiàn)對(duì)應(yīng)分析1 CORRESP過(guò)程PROCCORRESP VAR TABLES ID RUN 其中的PROCCORRESP語(yǔ)句 TABLES語(yǔ)句或者VAR語(yǔ)句是必須使用的 除了這兩個(gè)語(yǔ)句 其他語(yǔ)句都是可以選擇的 下面分別介紹各語(yǔ)句的用法和功能 1 PROCCORRESP語(yǔ)句標(biāo)示對(duì)應(yīng)分析開(kāi)始 可以規(guī)定輸入輸出數(shù)據(jù)集 指定分析方法和控制輸出結(jié)果的顯示等 語(yǔ)句中可設(shè)置的常用選項(xiàng)及其功能見(jiàn)表7 5 2 VAR語(yǔ)句輸入數(shù)據(jù)為表格格式時(shí)使用 不能與TABLES同時(shí)使用 變量必須是數(shù)值型的 3 ID語(yǔ)句ID語(yǔ)句只能與VAR語(yǔ)句一起使用 如果使用了TABLES或者M(jìn)CA選項(xiàng) 就不能使用該語(yǔ)句 該語(yǔ)句只能規(guī)定一個(gè)字符變量 自動(dòng)用ID語(yǔ)句的變量值作為輸出表格列的標(biāo)簽 并且保存在輸出數(shù)據(jù)集中 4 TABLES語(yǔ)句TABLES語(yǔ)句用行變量和列變量構(gòu)造一個(gè)列聯(lián)表 行變量和列變量之間用逗號(hào)分隔 不可與ID和VAR語(yǔ)句同時(shí)使用 2 對(duì)二維列聯(lián)表數(shù)據(jù)的對(duì)應(yīng)分析 例7 4 調(diào)查了三個(gè)民族的血型分布資料如表7 6所示 試作對(duì)應(yīng)分析 表7 6三個(gè)民族不同血型出現(xiàn)的頻數(shù)假定上述數(shù)據(jù)已經(jīng)存放在數(shù)據(jù)集Mylib xx中 1 SAS代碼對(duì)應(yīng)分析的代碼如下 proccorrespdata Mylib xxout result varDZWZTJZ idType run optionsps 40 procplotdata result plotdim2 dim1 Type boxhaxis 0 2to0 3by0 1vaxis 0 1to0 3by0 1HREF 0VREF 0 run 2 主要輸出結(jié)果及其解釋1 慣量與卡方分解圖7 28的第一列為Z的奇異值 最有用的是第2列 主慣量 即矩陣SR Z Z的特征值 原始數(shù)據(jù)有4行3列 這里提取2個(gè)特征值 即可完全解釋數(shù)據(jù)的信息量 第一個(gè)特征值解釋了信息量的78 07 第二個(gè)特征值解釋了21 93 前兩個(gè)特征值的累積貢獻(xiàn)率已達(dá)100 以第一維度為主 自由度 變量數(shù) 1 樣品數(shù) 1 6 2 樣品點(diǎn)坐標(biāo) 如圖7 29所示 相當(dāng)于因子分析中的公因子載荷 表示 樣品 在公因子Dim1和Dim2上的坐標(biāo) 其結(jié)果可表示為 血型A 0 1918Dim1 0 0706Dim2血型B 0 1283Dim1 0 0303Dim2血型O 0 1582Dim1 0 0201Dim2血型AB 0 1941Dim1 0 2528Dim2在以dim1與dim2作為橫軸與縱軸的直角坐標(biāo)系內(nèi) 每個(gè)樣品就是1個(gè)點(diǎn) 如血型A點(diǎn)的坐標(biāo)為 0 1918 0 0706 顯然 血型A在第3象限內(nèi) 血型B在第1象限內(nèi) 血型O在第4象限內(nèi) 血型AB在第2象限內(nèi) 3 樣品點(diǎn)的匯總統(tǒng)計(jì)量 如圖7 30所示 Quality為每個(gè)變量上兩個(gè)公因子貢獻(xiàn)率 樣品點(diǎn)的余弦平方值中各行數(shù)值 之和 若此值接近于1 則表明對(duì)應(yīng)的樣品點(diǎn)所包含的信息由兩個(gè)公因子就可很好地反映出來(lái) Mass為原始數(shù)據(jù)中各列數(shù)據(jù)之和占總合計(jì)的百分比 Inertia為每個(gè)樣品對(duì)總特征值0 03599貢獻(xiàn)的百分比 由此列數(shù)值可看出 A O AB三種血型貢獻(xiàn)的百分比比較接近 4 樣品點(diǎn)局部慣量貢獻(xiàn) 如圖7 31所示 A型血對(duì)第1公因子貢獻(xiàn)最大 AB型血對(duì)第2公因子貢獻(xiàn)最大 5 對(duì)樣品點(diǎn)慣量貢獻(xiàn)最大的坐標(biāo)標(biāo)號(hào) 這是各樣品的坐標(biāo)對(duì)特征值貢獻(xiàn)最多的標(biāo)志 貢獻(xiàn)少 中 多依次用0 1 2來(lái)表示 如圖7 32所示 6 樣品點(diǎn)的余弦平方值 如圖7 33所示 為每個(gè)樣品點(diǎn)上兩個(gè)公因子各自的貢獻(xiàn)率 各行數(shù)值之和應(yīng)近似為1 因?yàn)橛脙蓚€(gè)公因子已經(jīng)表示所有的信息 故各行之和均為1 由各行數(shù)值可看出 除了AB型之外 其他三個(gè)血型的信息主要由第1公因子給出 而AB型的信息則主要由第2個(gè)公因子來(lái)反映 以上對(duì)樣品的統(tǒng)計(jì)又對(duì)變量作了一遍 結(jié)果如下 7 變量點(diǎn)坐標(biāo)與變量點(diǎn)的匯總統(tǒng)計(jì)量 如圖所示 在以dim1與dim2作為橫軸與縱軸的直角坐標(biāo)系內(nèi) 每個(gè)變量也是1個(gè)點(diǎn) 傣族位于第一象限中 佤族位于第二象限中 土家族位于第三象限中 4個(gè)點(diǎn) 變量 中任何兩點(diǎn)之間的歐氏距離如下 顯然 佤族與土家族之間的距離最短 傣族與佤族之間的距離最長(zhǎng) 說(shuō)明這2個(gè)民族在血型的出現(xiàn)頻率上具有較高的正相關(guān)關(guān)系 8 變量點(diǎn)局部慣量貢獻(xiàn) 如圖左所示 圖左上半部分是每個(gè)變量對(duì)公因子的貢獻(xiàn)率 各列數(shù)值之和為1 顯然 傣族對(duì)第1公因子貢獻(xiàn)最大 其他兩個(gè)民族對(duì)第2公因子貢獻(xiàn)較大 9 變量點(diǎn)的余弦平方值 如圖右所示 表示公因子對(duì)變量的貢獻(xiàn)率 第一公因子主要影響傣族和佤族 分別貢獻(xiàn)了95 28 和75 79 而第二公因子主要影響土家族 貢獻(xiàn)率為86 76 3 分析結(jié)果A型血對(duì)第1公因子貢獻(xiàn)最大 AB型血對(duì)第2公因子貢獻(xiàn)最大 它們的點(diǎn)所對(duì)應(yīng)的坐標(biāo) dim1 dim2 分別為 A 0 1918 0 0706 AB 0 1941 0 2528 每個(gè)分類(lèi)在坐標(biāo)系中分得很開(kāi) 佤族和AB型血同在第二象限 而且兩個(gè)點(diǎn)在Dim1上差別很小 說(shuō)明兩者有聯(lián)系 而土家族和A型血同在第三象限 傣族和B型血同在第一象限 在Dim1上差別很小 如圖所示 說(shuō)明 對(duì)應(yīng)分析的輸出結(jié)果有很多 最主要的是看第一部分中各個(gè)維度以及各個(gè)維度解釋的百分比 樣品點(diǎn)及變量點(diǎn)的坐標(biāo) 對(duì)圖形的輸出結(jié)果首先要看兩個(gè)方向的區(qū)分情況 如三個(gè)民族在第一維度上分得很開(kāi) 區(qū)分很好 而血型則在第二維度上區(qū)分較好 但由于第一維度攜帶了近80 的信息量 遠(yuǎn)大于第二維度 所以解釋以第一維度為主 還可以比較各個(gè)點(diǎn)在空間的分布情況 距離較近的點(diǎn)彼此有聯(lián)系 散點(diǎn)間的距離越近 說(shuō)明關(guān)聯(lián)的傾向越明顯 3 類(lèi)別數(shù)較多的例子 例7 5 疾病與人的基因型密切有關(guān) 而不同民族各種基因出現(xiàn)的頻率不盡相同 下面是某研究者收集到的資料 試分析各種基因頻率與民族之間的關(guān)系 各民族下面的小數(shù)是36種基因出現(xiàn)的頻率 表7 7民族各種基因出現(xiàn)的頻率 1 SAS代碼設(shè)數(shù)據(jù)文件名為mzjy 位于邏輯庫(kù)Mylib中 對(duì)應(yīng)分析的代碼如下 optionsnodatenonumberps 500 proccorrespdata Mylib mzjyout result varznyh idjy run optionsps 50 procplotdata result plotdim2 dim1 jy boxhaxis 1 1to1 1by0 2vaxis 1 0to1 0by0 2HREF 0VREF 0 run 2 主要輸出結(jié)果及其解釋1 慣量與卡方分解 如圖7 38所示 這里第一列為Z的奇異值 最有用的是第2列 主慣量 即矩陣SR Z Z的特征值 由于前兩個(gè)特征值的累積貢獻(xiàn)率已達(dá)82 54 所以只需取前兩個(gè)特征值 將根據(jù)前兩個(gè)較大的特征值分別算出與樣品 基因型 變量 民族 對(duì)應(yīng)的特征向量 2 變量點(diǎn)坐標(biāo) 如圖7 39所示 這是每個(gè)變量 指Z N Y H 在兩個(gè)公因子上的載荷 其結(jié)果可表示為 Z 0 3316Dim1 0 0193Dim2N 0 4068Dim1 0 6030Dim2Y 0 5310Dim1 0 6257Dim2H 0 5604Dim1 0 0542Dim2在以dim1與dim2作為橫軸與縱軸的直角坐標(biāo)系內(nèi) 每個(gè)變量就是1個(gè)點(diǎn) 如Z 藏族 點(diǎn)的坐標(biāo)為 0 3316 0 0193 顯然 Z 藏族 H 漢族 兩個(gè)點(diǎn)在第2象限內(nèi) N 尼泊爾 點(diǎn)在第4象限內(nèi) Y 印度 點(diǎn)在第1象限內(nèi) 在以dim1與dim2作為橫軸與縱軸的直角坐標(biāo)系內(nèi) 4個(gè)點(diǎn) 變量 中任何兩點(diǎn)之間的歐氏距離如下 顯然 藏族與漢族之間的距離最短 說(shuō)明這2個(gè)民族在多數(shù)基因的出現(xiàn)頻率上具有較高的正相關(guān)關(guān)系 3 變量坐標(biāo)點(diǎn)的匯總統(tǒng)計(jì)量 如圖7 40所示 Quality為每個(gè)變量上兩個(gè)公因子貢獻(xiàn)率 即下文中變量坐標(biāo)點(diǎn)的平方余弦值表中各行數(shù)值 之和 若此值接近于1 則表明對(duì)應(yīng)的變量所包含的信息由兩個(gè)公因子就可很好地反映出來(lái) Mass為原始數(shù)據(jù)中各列數(shù)據(jù)之和占總合計(jì)的百分比 Inertia為每個(gè)變量對(duì)總特征值0 49399貢獻(xiàn)的百分比 由此列數(shù)值可看出 后三個(gè)民族貢獻(xiàn)的百分比比較接近 4 變量坐標(biāo)點(diǎn)局部慣量貢獻(xiàn) 如圖所示 這是每個(gè)公因子上每個(gè)變量的貢獻(xiàn)率 各列數(shù)值之和為1 顯然 漢族對(duì)第1公因子貢獻(xiàn)最大 尼泊爾 印度這2個(gè)民族對(duì)第2公因子貢獻(xiàn)最大 5 對(duì)變量坐標(biāo)點(diǎn)慣量貢獻(xiàn)最大的坐標(biāo)標(biāo)號(hào) 如圖所示 這是各變量的坐標(biāo)對(duì)特征值貢獻(xiàn)最多的標(biāo)志 貢獻(xiàn)少 中 多依次用0 1 2來(lái)表示 6 變量坐標(biāo)點(diǎn)的平方余弦值 如圖7 43所示 這是每個(gè)變量上兩個(gè)公因子各自的貢獻(xiàn)率 各行數(shù)值之和應(yīng)近似為1 因?yàn)橹挥昧藘蓚€(gè)主要的公因子 與最小特征值0 08624對(duì)應(yīng)的公因子的貢獻(xiàn)未給出 故少了一些信息 由各行數(shù)值可看出 尼泊爾 印度這2個(gè)民族的信息幾乎完全可由這2個(gè)公因子反映出來(lái) 而藏族的信息則不能很好地由這2個(gè)公因子來(lái)反映 3 分析結(jié)果B46對(duì)第1公因子貢獻(xiàn)最大 B48 C6對(duì)第2公因子貢獻(xiàn)最大 它們的點(diǎn)所對(duì)應(yīng)的坐標(biāo) dim1 dim2 分別為 B46 1 0770 0 0529 B48 0 3626 0 9077 C6 0 7278 0 8463 顯然 B46點(diǎn)落在第2象限內(nèi) B48與C6這兩點(diǎn)落在第4象限內(nèi) 且距離較近 再結(jié)合上面關(guān)于 ColumnCoordinates 部分的解釋可知 藏族與漢族接近主要表現(xiàn)在B46基因型上有較高的一致性 因?yàn)檫@3點(diǎn)都落在第2象限內(nèi) 且距離較近 而尼泊爾族與B48 C6兩種基因型上有較高的一致性 因?yàn)檫@3點(diǎn)都落在第4象限內(nèi) 且距離較近 由散點(diǎn)圖 圖7 44 可以看出三大類(lèi)民族各自有著特征基因群 分別位于第一 第二和第四象限中 與漢族 藏族最接近的基因?yàn)镃3 與尼泊爾族最接近的基因?yàn)锽48 與印度族最接近的基因是B8- 1.請(qǐng)仔細(xì)閱讀文檔,確保文檔完整性,對(duì)于不預(yù)覽、不比對(duì)內(nèi)容而直接下載帶來(lái)的問(wèn)題本站不予受理。
- 2.下載的文檔,不會(huì)出現(xiàn)我們的網(wǎng)址水印。
- 3、該文檔所得收入(下載+內(nèi)容+預(yù)覽)歸上傳者、原創(chuàng)作者;如果您是本文檔原作者,請(qǐng)點(diǎn)此認(rèn)領(lǐng)!既往收益都?xì)w您。
下載文檔到電腦,查找使用更方便
14.9 積分
下載 |
- 配套講稿:
如PPT文件的首頁(yè)顯示word圖標(biāo),表示該P(yáng)PT已包含配套word講稿。雙擊word圖標(biāo)可打開(kāi)word文檔。
- 特殊限制:
部分文檔作品中含有的國(guó)旗、國(guó)徽等圖片,僅作為作品整體效果示例展示,禁止商用。設(shè)計(jì)者僅對(duì)作品中獨(dú)創(chuàng)性部分享有著作權(quán)。
- 關(guān) 鍵 詞:
- 典型相關(guān)系數(shù) 典型 相關(guān)系數(shù) PPT 課件
鏈接地址:http://m.jqnhouse.com/p-7807440.html