SAS系統(tǒng)和數(shù)據(jù)分析協(xié)方差分析
《SAS系統(tǒng)和數(shù)據(jù)分析協(xié)方差分析》由會(huì)員分享,可在線閱讀,更多相關(guān)《SAS系統(tǒng)和數(shù)據(jù)分析協(xié)方差分析(22頁珍藏版)》請?jiān)谘b配圖網(wǎng)上搜索。
1、第二十六課協(xié)方差分析 當(dāng)定量的影響因素對觀察結(jié)果有難以控制的影響,甚至還有交互作用時(shí),采用協(xié)方差分 析,這些影響變量稱為協(xié)變量,扣除(或消除)協(xié)變量的影響,可以得到修正后的均值估計(jì)。 協(xié)方差分析概述 1. 協(xié)方差分析概念 協(xié)方差分析 (analysis of covarianee)又稱帶有協(xié)變量的方差分析 (analysis of varianee with covariates),是將回歸分析與方差分析結(jié)合起來使用的一種分析方法。 在各種試驗(yàn)設(shè)計(jì)中, 對 主要變量y研究時(shí),常常希望其他可能影響和干擾 y的變量保持一致以到達(dá)均衡或可比,使 試驗(yàn)誤差的估計(jì)降到最低限度,從而可以準(zhǔn)確
2、地獲得處理因素的試驗(yàn)效應(yīng)。但是有時(shí),這些 變量難以控制,或者根本不能控制。為此需要在試驗(yàn)中同時(shí)記錄這些變量的值,把這些變量 看作自變量,或稱協(xié)變量(covariate),建立因變量y隨協(xié)變量變化的回歸方程,這樣就可以 利用回歸分析把因變量 y中受協(xié)變量影響的因素扣除掉,從而,能夠較合理地比較定性的影 響因素處在不同水平下,經(jīng)過回歸分析手段修正以后的因變量的總體均值之間是否有顯著性 的差別。簡單地說,協(xié)方差分析是扣除協(xié)變量的影響,或者將這些協(xié)變量處理成相等,再對 修正的y的均值作方差分析。 2. 協(xié)方差分析的假定 協(xié)方差分析需要滿足的假定為: ① 各樣本來自具有相同方差 匚2的正態(tài)分布總
3、體,即要求各組方差齊性。 ② 協(xié)變量與主要變量 y間的總體回歸系數(shù)不等于 0。 ③ 各組的回歸線平等,即回歸系數(shù) 打二■-2 =…… 如果上述的假定滿足,就作協(xié)方差分析。前述的各種試驗(yàn)設(shè)計(jì),如完全隨機(jī)化設(shè)計(jì)、隨 機(jī)區(qū)組設(shè)計(jì)、析因設(shè)計(jì)、拉丁方設(shè)計(jì)等,都可以帶一個(gè)或多個(gè)協(xié)變量,按設(shè)計(jì)方案扣除協(xié)變 量的影響后,對主要變量 y的修正均值作比較,得出統(tǒng)計(jì)結(jié)論。 3. 協(xié)方差分析的模型 最簡單的單因素一元協(xié)方差分析的模型,是由單因素效應(yīng)模型 變量的影響因素 "xq -x)而得出: (26.1) 其中,X為協(xié)變量, yij =」? a ? : (xq -X) ;q Xq為協(xié)變量在分類水平i
4、和j上的記錄值,X為所有協(xié)變量的平均 值,1為相關(guān)的回歸系數(shù)。設(shè) 飛---X,為平均截距。上式可以化簡成: 上海財(cái)經(jīng)大學(xué)經(jīng)濟(jì)信息管理系IS/SHUFE Page 1 of 16 yij = -0 * ai ■ -Xj ■ ;j (26.2) 設(shè)p二-o ai,上式可以化簡成: yj = *「冷;j (26.3) 很明顯 ri是第i組回歸線的截距,等于回歸線的平均截距 -0加上本組的效應(yīng)ai。這個(gè) 式揭示了,觀察值 yjj的模型可以表示成一組相似的回歸線,且各組具有共同的回歸系數(shù) 1 , 和各組自己的截距 p =飛-ai。 用SAS中的glm過程進(jìn)行協(xié)方差分析時(shí),要注
5、意不同試驗(yàn)設(shè)計(jì)時(shí) class語句和model語 句的寫法。設(shè)分類變量為 A、B,協(xié)變量為X,觀察值為Y,則有: ① 單因素k水平設(shè)計(jì)的協(xié)方差分析模型 class A; model X A ; ② 隨機(jī)區(qū)組設(shè)計(jì)的協(xié)方差分析模型 class A B; model X A B ; ③ 兩因素析因設(shè)計(jì)的協(xié)方差分析模型 class A B; model X A B A*B; 二、實(shí)例分析 1. 一元協(xié)方差分析 例26.1研究牡蠣在不同溫度的水中不同位置上的生長情況。有人做了如下試驗(yàn):分別 在通向發(fā)電站的入口處(溫度較低)不同位置(底部和表層)和出口處(溫度較高)不同位 置(底部
6、和表層)及電站附近的深水處(底部和表層的中間)總共 5個(gè)不同位置點(diǎn)上,隨機(jī) 地各放4袋牡蠣(每袋中有10個(gè)),共5X 4=20袋。在將每袋牡蠣放入位置點(diǎn)之前,先洗干 凈稱出每袋的初始體重,放在 5個(gè)不同點(diǎn)一個(gè)月后再稱出最后體重。試驗(yàn)結(jié)果數(shù)據(jù)如表 26.1 所示。 表26.1 牡蠣在不同溫度和位置上的生長數(shù)據(jù) 位置 trt 重復(fù)數(shù)rep (x為初始體重,y為最后體重) 1 2 3 4 X y X y X y X y 1 (入口底部) 27.2 32.6 32.0 36.6 33.0 37.7 26.8 31.0 2 (入口頂部) 28.6
7、 33.8 26.8 31.7 26.5 30.7 26.8 30.4 3 (出口底部) 28.6 35.2 22.4 29.1 23.2 28.9 24.4 30.2 4 (出口頂部) 29.3 35.0 21.8 27.0 30.3 36.4 24.3 30.5 5 (附近中部) 20.4 24.6 19.6 23.4 25.1 30.3 18.1 21.8 上海財(cái)經(jīng)大學(xué)經(jīng)濟(jì)信息管理系IS/SHUFE Page 3 of 16 程序如下: data growth; do trt=1 to 5; do
8、 rep=1 to 4; input x y @@; output; end; end; cards; 27.2 32.6 32.0 36.6 33.0 37.7 26.8 31.0 28.6 33.8 26.8 31.7 26.5 30.7 26.8 30.4 28.6 35.2 22.4 29.1 23.2 28.9 24.4 30.2 29.3 35.0 21.8 27.0 30.3 36.4 24.3 30.5 20.4 24.6 19.6 23.4 25.1 30.3 18.1 21.8 proc anova data=growth; class trt;
9、model y=trt; proc glm data=growth; class trt; model y=trt x /solution; means trt; lsmeans trt /stderr tdiff; contrast trt12 vs trt34 trt -1 -1 1 1 0; estimate trt1 adj mean intercept 1 trt 1 0 0 0 0 x 25.76; estimate trt2 adj mean intercept 1 trt 0 1 0 0 0 x 25.76; estimate adj trt diff trt
10、 1 -1 0 0 0; estimate trt1 unadj mean intercept 1 trt 1 0 0 0 0 x 29.75; estimate trt2 unadj mean intercept 1 trt 0 1 0 0 0 x 27.175; estimate unadj trt diff trt 1 -1 0 0 0 x 2.575; run; 程序說明:定性變量 trt的5個(gè)不同位置點(diǎn)對 y可能有較大的影響,因此 class語句中分 組變量為trt,先選用anova過程進(jìn)行方差分析。然而,牡蠣的初始體重 x對牡蠣的最后體重 y可能也有一定的影響,故適合
11、選用 glm過程進(jìn)行協(xié)方差分析,在 model語句中不僅包括分 組變量trt,而且應(yīng)包括協(xié)變量 x。選擇項(xiàng)solution要求輸出回歸系數(shù)的估計(jì)值及其標(biāo)準(zhǔn)誤差和 假設(shè)檢驗(yàn)等結(jié)果。 means和lsmeans語句要求輸出分組變量 trt各水平下y的未修正均值和修 正后的均值,選擇項(xiàng) stderr要求輸出y的修正均值的標(biāo)準(zhǔn)誤差、各修正均值與 0比較的假設(shè) 檢驗(yàn)結(jié)果;選擇項(xiàng)tdiff要求輸出y的各修正均值之間兩兩比較所對應(yīng)的 t值和p值。 Contrast語句是用來比較入口處底部和頂部均值之和與出口處底部和頂部均值之和是否 相等。前三條 estimate語句是用來估計(jì)入口處底部和頂部調(diào)整后的均
12、值及它們之差,并假設(shè) 檢驗(yàn)是否為0,后三條estimate語句是用來估計(jì)入口處底部和頂部未調(diào)整的均值及它們之差, 并假設(shè)檢驗(yàn)是否為 0。程序輸出的主要結(jié)果如表 26.2( a)、表26.2(b)、表26.2(c)所示。 上海財(cái)經(jīng)大學(xué)經(jīng)濟(jì)信息管理系IS/SHUFE Page 7 of 16 The SAS System Analysis of Variance Procedure Dependent Variable: Y Source DF Sum of Squares Mean Square F Value Pr > F Model 4 198.407
13、00000 49.60175000 4.64 0.0122 Error 15 160.26250000 10.68416667 Corrected Total 19 358.66950000 R-Square C.V. Root MSE Y Mean 0.553175 10.59706 3.26866436 30.84500000 Source DF Anova SS Mean Square F Value Pr > F TRT 4 198.40700000 49.60175000 4.64 0.0122 General
14、 Linear Models Procedure Dependent Variable: Y Source DF Sum of Squares Mean Square F Value Pr > F Model 5 354.44717675 70.88943535 235.05 0.0001 Error 14 4.22232325 0.30159452 Corrected Total 19 358.66950000 R-Square C.V. Root MSE Y Mean 0.988228 1.780438 0.54917622
15、 30.84500000 Source DF Type I SS Mean Square F Value Pr > F TRT 4 198.40700000 49.60175000 164.47 0.0001 X 1 156.04017675 156.04017675 517.38 0.0001 Source DF Type III SS Mean Square F Value Pr > F TRT 4 12.08935928 3.02233982 10.02 0.0005 X 1 156.04017675 156.04017675
16、 517.38 0.0001 T for H0: Pr > |T| Std Error of Parameter Estimate Parameter=0 Estimate INTERCEPT 2.494859769 B 2.43 0.0293 1.02786287 表26.2(a)中結(jié)果分析:對分組變量 trt的方差分析表明,即使當(dāng)初始體重 x不考慮,各分 組最后體重均值的區(qū)別也統(tǒng)計(jì)顯著 (0.0122<0.05),其中分組變量trt的平方和為198.40700000。 而在協(xié)方差分析中,分組變量 trt的類型1的平方和等于方差分析中的平方和 198.40
17、700000, 分組變量trt的類型3的平方和為12.08935928,大大小于類型 1的平方和,是因?yàn)轭愋?3的 平方和反映了經(jīng)過共同的協(xié)變量 x調(diào)整后的平方和,減去了協(xié)變量的影響,所以平方和大幅 減小。類型1是一種未經(jīng)過調(diào)整的平方和,因?yàn)樗膬?yōu)先級高于協(xié)變量的調(diào)整。更進(jìn)一步分 析,我們注意到方差分析中均方誤差為 10.68416667,而協(xié)方差分析中卻縮小到 0.30159452, 相應(yīng)地分組變量trt的F統(tǒng)計(jì)量從4.64增加到10.02,說明包含了協(xié)變量后分組的區(qū)別更加顯 著,原因是簡單方差分析中,大多數(shù)的誤差是由于初始體重 x的變異造成的。 表中的最后一部分是選擇項(xiàng) solu
18、tion的輸出結(jié)果,對模型中的截距、各分組變量和協(xié)變 量的回歸系數(shù)進(jìn)行估計(jì)和檢驗(yàn), 在這個(gè)單因素trt的情況下,估計(jì)是以最后一個(gè)水平 trt5( trt=5) 為對照組,并且設(shè)置它的系數(shù)為 0,因此截距intercept的估計(jì)值是分組trt5的估計(jì)值。其他四 個(gè)分組trt的系數(shù)估計(jì)是每一個(gè)與 trt5進(jìn)行比較而得到的。注意,出口處的 trt3和trt4分組不 同于trt5分組。協(xié)變量x的系數(shù)是合并各組內(nèi) y和x所得到的回歸系數(shù),即由 5個(gè)獨(dú)立的trt 分組分別回歸y和x后得到回歸系數(shù)然后加權(quán)平均。協(xié)變量 x的系數(shù)估計(jì)值表明,初始體重 變動(dòng)1個(gè)單位,最后,體重 y相關(guān)地要變動(dòng)1.083
19、179819單位。 表26.2( b) 未調(diào)整均值和調(diào)整均值及均值之間的比較 The SAS System General Linear Models Procedure Level of Y X I z\ TRT N Mean SD Mean SD 1 4 34.4750000 3.18891309 29.7500000 3.20572405 2 4 31.6500000 1.53731367 27.1750000 0.96046864 3 4 30.8500000 2.95578529 24.650
20、0000 2.75862284 4 4 32.2250000 4.29757684 26.4250000 4.04917687 5 4 25.0250000 3.69898635 20.8000000 3.02103735 Least Squares Means TRT Y Std Err Pr > |T| LSMEAN LSMEAN LSMEAN H0:L SMEAN=0 Number 1 30.1531125 0.3339174 0.0001 1 2 30.1173006 0.2827350 0.
21、0001 2 3 32.0523296 0.2796295 0.0001 3 4 31.5046854 0.2764082 0.0001 4 表26.2( b)中結(jié)果分析:means語句要求計(jì)算按trt每個(gè)水平分組的未調(diào)整的 y和x的均 值。如 y1 ,=34.475=(32.6+36.6+37.7+31)/4,x^=29.75=(27.2+32+33+26.8)/4。Lsmeans 語句要 求計(jì)算調(diào)整后的y的均值,或稱最小二乘均值估計(jì), 我們可以由公式(26.1)求分組平均得到: (26.4) 」y = yj _心_x)?川 yj%.- :(x「
22、x) 再由公式(25.2)求分組平均代入上式: "?-阮 x 2爪-阪宀) (26.5) 例如,初始體重的整體平均值為 x =( 29.750+27.175+24.650+26.425+20.800)/5=25.76 , 以 trt1 分組為例,調(diào)整后 丫1 .=30.1531125=34.475 — 1.083179819X( 29.75- 25.76)。tdiff 選擇 項(xiàng)要求對已調(diào)整均值的兩兩比較采用 Isd檢驗(yàn),可以使用adjust= duncan/waller等選項(xiàng)替代Isd 檢驗(yàn),獲得其他多重比較的檢驗(yàn)結(jié)果。從最后的 5x 5修正均值比較結(jié)果表中,可得到 (、、兀兀
23、■)中的任何一個(gè)與(y^,y4.)中的任何一個(gè)之間有顯著或非常顯著性差別。 表 26.2 (c) 有計(jì)劃的均值對比和參數(shù)估計(jì) The SAS System Dependent Variable: Y Contrast DF Contrast SS Mean Square F Value Pr > F trt12 vs trt34 1 8.59108077 8.59108077 28.49 0.0001 T for H0: Pr > |T| Std Error of Parameter Estimate Parameter=0 Estimate trt1 adj
24、 mean 30.1531125 trt2 adj mean 30.1173006 90.30 0.0001 0.33391743 106.52 0.0001 0.28273504 adj trt diff 0.0358120 0.09 0.9312 0.40722674 表26.2 (c)中結(jié)果分析:contrast語句通過其后的參數(shù)項(xiàng)設(shè)置,用來假設(shè)檢驗(yàn)我們自己 計(jì)劃的原假設(shè) H0 :刃.+『2.=『3. +『4.,結(jié)果顯示非常顯著(0.0001<0.05),即入口處底部 和頂部均值之和與出口處底部和頂部均值之和是有顯著差異的,說明水中的溫度不同對牡蠣 生長是不同的。本
25、程序中的 estimate語句,有計(jì)劃地設(shè)計(jì)了對入口處的底部和頂部調(diào)整后均 值進(jìn)行估計(jì),及它們之差是否為 0的假設(shè)檢驗(yàn),結(jié)果為不顯著。但如果對未調(diào)整均值之差是 否為0進(jìn)行假設(shè)檢驗(yàn),結(jié)果卻為非常顯著。因此,我們可以看到使用調(diào)整后均值進(jìn)行估計(jì)是 必要的。 2. 多元協(xié)方差分析 例26.2研究男女兒童的體表面積是否相同。 考慮到兒童的身高和體重對表面積可能有影 響,在某地測量了男女各 15名初生至3周歲兒童的身高、體重和體表面積,得到測量數(shù)據(jù)如 表26.3所示。 表26.3 3周歲男女兒童的身高、體重和體表面積 男(male) 女(female) 身高(x1) 體重(x2) 表面
26、積(y) 身高(x1) 體重(x2) 表面積(y) 54.0 3.00 2446.2 54.0 3.00 2117.3 50.5 2.25 1928.4 53.0 2.25 2200.2 51.0 2.50 2094.5 51.5 2.50 1906.2 56.5 3.50 2506.7 51.0 3.00 1850.3 52.0 3.00 2121.0 51.0 3.00 1632.5 76.0 9.50 3845.9 77.0 7.50 3934.0 80.0 9.00 4380.8 77.0 10.0
27、 4180.4 74.0 9.50 4314.2 77.0 9.50 4246.1 80.0 9.00 4078.4 74.0 9.00 3358.8 76.0 8.00 4134.5 73.0 7.50 3809.7 96.0 13.5 5830.2 91.0 12.0 5358.4 97.0 14.0 6013.6 91.0 13.0 5601.7 99.0 16.0 6410.6 94.0 15.0 6074.9 92.0 11.0 5283.3 92.0 12.0 5299.4 上海財(cái)經(jīng)大學(xué)經(jīng)濟(jì)
28、信息管理系IS/SHUFE Page # of 16 94.0 15.0 6101.6 91.0 12.5 5291.5 程序如下: proc format; value sexname 1= male 2= female data child; do i=1 to 15; do sex=1 to 2; input x1 x2 y @@; format sex sexname.; output; end; end; cards; 54.0 3.00 2446.2 54.0 3.00 2117.3 50.5 2.25 1928.4
29、 53.0 2.25 2200.2 51.0 2.50 2094.5 51.5 2.50 1906.2 56.5 3.50 2506.7 51.0 3.00 1850.3 52.0 3.00 2121.0 51.0 3.00 1632.5 76.0 9.50 3845.9 77.0 7.50 3934.0 80.0 9.00 4380.8 77.0 10.0 4180.4 74.0 9.50 4314.2 77.0 9.50 4246.1 80.0 9.00 4078.4 74.0 9.00 3358.8 76.0 8.00 4134.5 73.0 7.50 3
30、809.7 96.0 13.5 5830.2 91.0 12.0 5358.4 97.0 14.0 6013.6 91.0 13.0 5601.7 99.0 16.0 6410.6 94.0 15.0 6074.9 92.0 11.0 5283.3 92.0 12.0 5299.4 94.0 15.0 6101.6 91.0 12.5 5291.5 proc glm data=child; class sex; model y=sex x1 x2 /solution; lsmeans sex /stderr tdiff; run; 程序說明:本例為帶有兩個(gè)協(xié)
31、變量 x1和x2,一個(gè)分組變量sex的完全隨機(jī)化設(shè)計(jì)的多元 協(xié)方差分析。data步中為了便于讀入數(shù)據(jù), sex分組變量取值為1和2,但又為了顯示清楚, 用format過程自定義了 sex name格式,用于sex變量的顯示格式。在 class語句中只能有 sex 分組變量,而在 model語句中應(yīng)把觀察指標(biāo)放在等號的左邊,分組變量和協(xié)變量放在等號的 右邊,solution選項(xiàng)求回歸方程的系數(shù)估計(jì)。lsmeans語句求修正后均值,stderr選項(xiàng)求均值的 標(biāo)準(zhǔn)誤差,tdiff選項(xiàng)求均值對比的t值和p值。程序輸出的主要結(jié)果如表 26.4所示。 表26.4 單因素的多元協(xié)方差分析 The
32、 SAS System 0.984690 5.131187 202.42755197 3945.04333333 Source DF Type I SS Mean Square F Value Pr > F SEX 714100.40833333 714100.40833333 17.43 0.0003 Dependent Variable: Y Source DF Sum of Squares Mean Square F Value Pr > F Model 3 68523072.11494280 22841024.03831420 557.41
33、 0.0001 Error 26 1065399.75872373 40976.91379707 Corrected Total 29 69588471.87366650 General Linear Models Procedure R-Square C.V. Root MSE Y Mean 上海財(cái)經(jīng)大學(xué)經(jīng)濟(jì)信息管理系IS/SHUFE Page 13 of 16 X2 1 368954.78952901 368954.78952901 9.00 0.0059 Source DF Type III SS Mean Square
34、 F Value Pr > F SEX 1 139769.33971381 139769.33971381 3.41 0.0762 X1 1 938153.70360865 938153.70360865 22.89 0.0001 X2 1 368954.78952901 368954.78952901 9.00 0.0059 T for H0: Pr > |T| Std Error of X1 1 67440016.91708050 Parameter Estimate Parameter=0 Estimate 674
35、40016.91708050 1645.81 0.0001 INTERCEPT -1118.730592 B -2.25 0.0331 497.2296650 SEX female -136.828607 B -1.85 0.0762 74.0867551 X1 X2 male 0.000000 B 54.477217 130.645108 4.78 3.00 0.0001 0.0059 11.3853803 43.5387744 NOTE: The XX matrix has been found to be singular and a g
36、eneralized inverse was used to solve 表26.4中結(jié)果分析:由類型 3的平方和計(jì)算結(jié)果表明,身高、體重對體表面積都有非常 顯著性的影響(0.0001<0.05,0.0059<0.05),而男、女兩性之間無顯著性差別( 0.0762>0.05 )。 由回歸分析 的結(jié)果 可知道,與x1、x2相對應(yīng)的公共偏回歸系數(shù)為「= 54.477217、 :2 =130.645108,它們與0之間差別的檢驗(yàn)結(jié)果為 p=0.0001和p=0.0059。男、女兩性體表面 積的修正均值分別為 52.32694和52.32694,兩者之間無顯著性差別(p=0.0762)
37、。 第二十七課 符號檢驗(yàn)和 Wilcoxon符號秩 檢驗(yàn) 在統(tǒng)計(jì)推斷和假設(shè)檢驗(yàn)中,傳統(tǒng)的檢驗(yàn)統(tǒng)計(jì)量都叫做參數(shù)檢驗(yàn),因?yàn)樗鼈兌家蕾囉诖_定 的概率分布,這個(gè)分布帶有一組自由的參數(shù)。參數(shù)檢驗(yàn)被認(rèn)為是依賴于分布假定的。通常情 況下,我們對數(shù)據(jù)進(jìn)行分析時(shí),總是假定誤差項(xiàng)服從正態(tài)分布,這是人們易于接受的事實(shí), 因?yàn)檎龖B(tài)分布的原始出發(fā)點(diǎn)就是來自于誤差分布,至于當(dāng)樣本相當(dāng)大時(shí),數(shù)據(jù)的正態(tài)近似, 這是由于大樣本理論所保證的。但有些資料不一定滿足上述要求,或不能測量具體數(shù)值,其觀察結(jié)果往往只有程度上的區(qū)別,如顏色的深淺、反應(yīng)的強(qiáng)弱等,此時(shí)就不適用參數(shù)檢驗(yàn)的 方法,而只能用非參數(shù)統(tǒng)計(jì)方法( non-
38、parametric statistical analysis )來處理。這種方法對數(shù)據(jù) 來自的總體不作任何假設(shè)或僅作極少的假設(shè),因此在實(shí)用中頗有價(jià)值,適用面很廣。 三、 單樣本的符號檢驗(yàn) 符號檢驗(yàn)(sign test)是一種最簡單的非參數(shù)檢驗(yàn)方法。它是根據(jù)正、負(fù)號的個(gè)數(shù)來假設(shè) 檢驗(yàn)。首先需要將原始觀察值按設(shè)定的規(guī)則,轉(zhuǎn)換成正、負(fù)號,然后計(jì)數(shù)正、負(fù)號的個(gè)數(shù)作 出檢驗(yàn)。該檢驗(yàn)可用于樣本中位數(shù)和總體中位數(shù)的比較,數(shù)據(jù)的升降趨勢的檢驗(yàn),特別適用 于總體分布不服從正態(tài)分布或分布不明的配對資料, 有時(shí)當(dāng)配對比較的結(jié)果只能定性的表示, 如試驗(yàn)前后比較結(jié)果為顏色從深變淺、程度從強(qiáng)變?nèi)?,成績從一般?/p>
39、優(yōu)秀,即不能獲得具體 數(shù)字,也可用符號檢驗(yàn),例如用正號表示顏色從深變淺,用負(fù)號表示顏色從淺變深。 用于配對資料時(shí),符號檢驗(yàn)的計(jì)算步驟為:首先定義成對數(shù)據(jù)指定正號或負(fù)號的規(guī)則, 然后計(jì)數(shù)正號的個(gè)數(shù) s ?及負(fù)號的個(gè)數(shù) s—,由于在具體比較配對資料時(shí),可能存在配對資料 的前后沒有變化,或等于假設(shè)中的中位數(shù),此時(shí)僅需要將這些觀察值從資料中剔除,當(dāng)然樣 本大小n也隨之減少,故修正樣本大小 n二S ? S 一。當(dāng)樣本n較小時(shí),應(yīng)使用二項(xiàng)分布確切 概率計(jì)算法,當(dāng)樣本 n較大時(shí),常利用二項(xiàng)分布的正態(tài)近似。 1.小樣本時(shí)的二項(xiàng)分布概率計(jì)算 當(dāng)n _ 20時(shí),S ?或S 一的檢驗(yàn)p值由精確計(jì)算尺度
40、二項(xiàng)分布的卷積獲得。 在比較配對資 料試驗(yàn)前后有否變化,或增加或減小的假設(shè)檢驗(yàn)時(shí),如果我們定義試驗(yàn)后比試驗(yàn)前增加為正 號,反之為負(fù)號,那么對于原假設(shè):試驗(yàn)前后無變化來說, 正號的個(gè)數(shù)s ?和負(fù)號的個(gè)數(shù)s—可 能性應(yīng)當(dāng)相等,即正號出現(xiàn)的概率 p =0.5,于是S ?與均服從二項(xiàng)分布 B(n,0.5),對于太 大的S木目應(yīng)太小的S _,或者太大的S 一相應(yīng)太小的S,都將拒絕接受原假設(shè); 對于原假設(shè): 試驗(yàn)后比試驗(yàn)前有增加來說,正號的個(gè)數(shù) s ?大于負(fù)號的個(gè)數(shù)的可能性應(yīng)該大,即正號出 現(xiàn)的概率p 0.5,對于太小的S ?相應(yīng)太大的,將拒絕接受原假設(shè);對于原假設(shè):試驗(yàn) 后比試驗(yàn)前減小來說,正
41、號的個(gè)數(shù) s ?小于等于負(fù)號的個(gè)數(shù) S 一的可能性應(yīng)該大,即正號出現(xiàn) 的概率p < 0.5,對于太大的S相應(yīng)太小的S_,將拒絕接受原假設(shè)。 例27.1有一種提高學(xué)生某種素質(zhì)的訓(xùn)練,有人說它是無效的,有人說它是有效的,那么 真實(shí)情況究竟應(yīng)該是怎樣的呢?隨機(jī)地選取 15名學(xué)生作為試驗(yàn)樣本,在訓(xùn)練開始前做了一次 測驗(yàn),每個(gè)學(xué)生的素質(zhì)按優(yōu)、良、中、及格、差打分,經(jīng)過三個(gè)月訓(xùn)練后,再做一次測試對 每個(gè)學(xué)生打分。數(shù)據(jù)如表 27.1所示。我們將素質(zhì)提高用正號表示,反之用負(fù)號表示,沒有變 化用0表示。顯著性水平取 0.1。 表27.1 訓(xùn)練前后的素質(zhì)比較 學(xué)生編號 訓(xùn)練之前 訓(xùn)練之后 差
42、異符號 1 中 優(yōu) + 2 及格 良 + 3 良 中 一 4 差 中 + 5 良 良 0 6 中 優(yōu) + 7 差 及格 + 8 良 優(yōu) + 9 中 差 一 10 差 中 + 11 中 優(yōu) + 12 及格 良 + 13 中 及格 一 14 中 優(yōu) + 15 差 中 + 從表27.1中15名學(xué)生訓(xùn)練前后的差異分析可得出:有 14名學(xué)生有差異,其中 S =11, S—=3。 1名學(xué)生無差異(學(xué)生編號為 5),應(yīng)該從分析中去掉,所以 n =15-仁14。假設(shè)檢驗(yàn) 為: H
43、。: p豈0.5即訓(xùn)練之后學(xué)生素質(zhì)沒有提高。 H1 : p 0.5即訓(xùn)練之后學(xué)生素質(zhì)有提高。 由于試驗(yàn)的結(jié)果只有兩種可能,正號或負(fù)號,對每一個(gè)學(xué)生試驗(yàn)出現(xiàn)正號的假定概率為 p=0.5,負(fù)號為1- p=0.5,這樣整個(gè)試驗(yàn)的概率是相同的,并且每一個(gè)試驗(yàn)是相互獨(dú)立的。 因此在n =14次獨(dú)立的試驗(yàn)中,正號出現(xiàn)的次數(shù)服從二項(xiàng)分布 B(14,0.5),如表27.2所示。 表27.2 二項(xiàng)分布的概率和累計(jì)概率 n=14,p=0.5 正號出現(xiàn)的次數(shù) 正號出現(xiàn)的概率 累計(jì)概率 0 0.0001 0.0001 1 0.0009 0.0009 2 0.0056 0.0065
44、3 0.0222 0.0287 4 0.0611 0.0898 5 0.1222 0.2120 6 0.1833 0.3953 7 0.2095 0.6047 8 0.1833 0.7880 9 0.1222 0.9102 10 0.0611 0.9713 11 0.0222 0.9935 12 0.0056 0.9991 13 0.0009 0.9999 14 0.0001 1.0000 從表27.2的累計(jì)概率列中我們看到, 正號出現(xiàn)的次數(shù)大于 10的概率為1 — 0.9713=0.0287, 或者換一種方
45、法計(jì)算為 =0.0001+0.0009+0.0056+0.0222=0.0287 ,二者的微小差異是因?yàn)樾?shù)點(diǎn) 后舍入問題造成的。而試驗(yàn)的結(jié)果:正號出現(xiàn)的次數(shù)為 11,大于10,出現(xiàn)的概率不會(huì)超過 0.0287,我們開始設(shè)定的顯著性水平為 0.1,由于0.0287<0.1,所以我們拒絕原假設(shè),接受備 選假設(shè)。如果我們的原假設(shè)為 p=0.5,既訓(xùn)練前后學(xué)生素質(zhì)相等,那么就是雙側(cè)檢驗(yàn),應(yīng)該 加上正號出現(xiàn)的次數(shù)小于 4的概率0.0287,即2 X 0.0287=0.0574<0.1 ,同樣是拒絕原假設(shè), 接 受區(qū)間為4次到10次,而拒絕區(qū)間為小于等于 3次(小于4次)或大于等于11次(大于1
46、0 次)。 2.大樣本時(shí)的正態(tài)近似概率計(jì)算 當(dāng)n ? 20時(shí),樣本可以認(rèn)為是大樣本。我們可以利用二項(xiàng)分布的正態(tài)近似,即對于 S ~ B(n, p),二項(xiàng)分布的期望均值為 np,方差為np(1 - p),當(dāng)n比較大時(shí),且np和n(1 - p) 大于5,可以近似地認(rèn)為: S - np 、np(1 - p) ~ N (0,1) (27.1) 公式中的S表示正號或者負(fù)號的個(gè)數(shù),符號檢驗(yàn)時(shí), p =0.5代入式(27.1 )中,得到大 樣本時(shí)的正態(tài)近似統(tǒng)計(jì)量: S 二 0.5n 0.5 - n ~ N(0,1) (27.2) 當(dāng)S>n/2時(shí),
47、應(yīng)該修正S為S — 0.5;當(dāng)S 48、和小于0的信息,即正號和負(fù)號的信息,而對差異大小所
包含的信息卻未加利用, 但Wilcoxon符號秩檢驗(yàn)方法既考慮了正、 負(fù)號,又利用了差值大小,
故效率較符號檢驗(yàn)法高。
例27.2某制造商想要比較兩種不同的生產(chǎn)方法所花費(fèi)的生產(chǎn)時(shí)間是否有差異。隨機(jī)地選 取了 11個(gè)工人,每一個(gè)工人都分別使用兩種不同的生產(chǎn)方法來完成一項(xiàng)相同的任務(wù), 每一個(gè)
工人開始選用的生產(chǎn)方法是隨機(jī)的,即可以先使用生產(chǎn)方法 1再使用生產(chǎn)方法 2,也可以先
上海財(cái)經(jīng)大學(xué)經(jīng)濟(jì)信息管理系IS/SHUFE
Page 11 of 16
用生產(chǎn)方法2再使用生產(chǎn)方法1。這樣,在樣本中的每一個(gè)工人都提供了一個(gè)配對觀察。數(shù) 49、據(jù)如表27.3所示。任務(wù)完成時(shí)間的正差值表示生產(chǎn)方法 1需要更多的時(shí)間,負(fù)差值表示生產(chǎn)
方法2需要更多的時(shí)間。
表27.3 兩種不同生產(chǎn)方法完成任務(wù)的時(shí)間(分鐘)
工人編號
n
生產(chǎn)方法M
差值D
絕對差值
秩次
R
符號秩次R
M1
M2
D=M1 — M2
|D|
一
+
1
10.2
9.5
0.7
0.7
8
8
2
9.6
9.8
—0.2
0.2
2
2
3
9.2
8.8
0.4
0.4
3.5
3.5
4
10.6
10.1
0.5
0.5
5.5
5.5
5
9.9
50、10.3
—0.4
0.4
3.5
3.5
6
10.2
9.3
0.9
0.9
10
10
7
10.6
10.5
0.1
0.1
1
1
8
10.0
10.0
0
0
一
一
一
9
11.2
10.6
0.6
0.6
7
7
10
10.7
10.2
0.5
0.5
5.5
5.5
11
10.6
9.8
0.8
0.8
9
9
符號秩次總和 T _=5.5, 丁+=49.5
5.5
49.5
為了比較兩種方法的任務(wù)完成時(shí)間是否有顯著差異,假設(shè)檢驗(yàn)為:
H 51、。:任務(wù)完成時(shí)間的兩個(gè)總體是相同的。
Hi :任務(wù)完成時(shí)間的兩個(gè)總體是不相同的。
使用Wilcox on符號秩檢驗(yàn)方法的主要步驟見表 27.3中每列的計(jì)算方法和過程, 先求出每
對數(shù)據(jù)的差值D,按差值絕對值|D|由小到大排列并給秩 R,從秩1開始到秩10,注意工人編 號為8的配對數(shù)據(jù),由于差值為 0,在排秩中丟棄,樣本數(shù)目修正為 n =11 —仁10。在給秩值
時(shí),遇到相等|D|,也稱為結(jié)值(tied),使用平均秩,如工人編號 3和5具有相同的絕對差值
0.4,所以平分秩3和秩4,各為秩3.5。一旦絕對差值的秩值 R給出后,然后將 R分成正和
負(fù)差值的兩個(gè)部分秩值R ■和R-,最后 52、求符號秩和T ■ = 7 R , T「- 7 R—,如
T 一=2+3.5=5.5。
對于樣本數(shù)目有 n個(gè),T ■與T 一的最小可能值為 0,而最大可能值為(1+2 +…+n)
= n(n+1)/2。顯然,應(yīng)當(dāng)有 T +T _= n(n +1)/2,如本例 5.5+49.5=55=10(10+1)/2。那么符號秩的 平均值為n(n+1)/4。構(gòu)造 Wilcox on符號秩統(tǒng)計(jì)量為:
n(n 1)
S =T (2:
4
顯然如果原假設(shè)為真,T ?與T 一應(yīng)該有相同的值,等于 n(n +1)/4,因此太大的S值或太
小的S值都是我們拒絕的依據(jù)。在實(shí)際工作中便于計(jì)算常取 W=min 53、(T , T~), W服從所謂
的 Wilcox on 符號秩分布,對于本例 n =10,S = 49.5 — 10(10+1)/4=22 , W= mi n(49.5 , 5.5)=5.5 , 查表可得在顯著水平 :-0.05, n =10的雙側(cè)檢驗(yàn)的臨界值為 8,即W值的拒絕區(qū)域?yàn)?0到8, 接受區(qū)域?yàn)?到27.5。由于5.5<8,我們拒絕原假設(shè)。
對于n>20,當(dāng)原假設(shè)為真時(shí),統(tǒng)計(jì)量 T =T — T 一接近于0,統(tǒng)計(jì)量T的方差為:
2
n(n 1)(2 n 1)
6
(27.4)
n
八(R -0)2
i 4
構(gòu)造檢驗(yàn)統(tǒng)計(jì)量:
T -0
n(n 1)(2 n 1 54、)
~ N(0,1)
(27.5)
上海財(cái)經(jīng)大學(xué)經(jīng)濟(jì)信息管理系IS/SHUFE
Page 19 of 16
近似于標(biāo)準(zhǔn)正態(tài)分布。 因?yàn)門 +T _= n(n +1)/2 ,所以T =T ■ — T _=2T — n(n +1)/2 ,我們可以 將(27.5)式中的T改寫為T ?的形式:
T n(n 1)
(27.5)
"n(n 1)(2n 1)~呵
24
我們以本例的數(shù)據(jù)來計(jì)算一下,z =(49.5 - 5.5)/...10 11 21/6 =2.24 , p=2 x
0.01246=0.249。標(biāo)準(zhǔn)正態(tài)分布使用顯著水平 :-=0.05時(shí),拒絕區(qū)域?yàn)?z 55、<— 1.96和z>1.96,因
為2.24>1.96,所以拒絕原假設(shè)。
五、實(shí)例分析
例27.1的SAS程序如下: data study.training ;
input before after; d= after-before; cards;
3 5
2 4
4 3
1 3
4 4
3 5
1 2
4 5
3 1
3 5
2 4
3 2
3 5
1 3
proc univariate data=study.training; var d;
run;
程序說明:建立輸入數(shù)據(jù)集 training ,首先要對定性資料進(jìn)行量化。本例把學(xué)生成績按 5
56、
分計(jì)量,設(shè)定優(yōu)=5分,良=4分,中=3分,及格=2分,差=1分。把提高學(xué)生某種素質(zhì)的訓(xùn)練 前成績和訓(xùn)練后成績分別存放在變量 before和after中,變量d等于配對的訓(xùn)練后成績減去訓(xùn)
練前成績。注意只能調(diào)用 uni variate過程,而不能調(diào)用 mea ns過程來進(jìn)行符號檢驗(yàn)。分析變量
為單樣本數(shù)據(jù)集training中的d變量。輸出的主要結(jié)果如表 27.4所示。
表27.4 用univariate過程進(jìn)行符號檢驗(yàn)的輸出結(jié)果
Uni variate Procedure
Variable=D
Moments
Quantiles(Def=5)
N
15 Sum W 57、gts
15
100% Max 2
99%
2
Mean
1.066667 Sum
16
75% Q3 2
95%
2
Std Dev
1.387015 Variance
1.92381
50% Med
2
90% 2
Skewness
-1.24756 Kurtosis
0.181317
25% Q1
0
10% -1
USS
44 CSS 26.93333
0% Min -2
5%
-2
CV 130.0326 Std Mean
0.358126
1%
-2
T:Mean=0
2.978471 Pr>|T|
0.010 58、0
Range 4
Num A= 0
14 Num > 0
11
Q3-Q1 2
M(Sign)
4 Pr>=|M| 0.0574
Mode 2
Sgn Rank
38 Pr>=|S|
0.0154
Extremes
Lowest Obs Highest
Obs
-2( 9) 2( 10)
結(jié)果說明:符號檢驗(yàn)統(tǒng)計(jì)量 M(Sign)=4,它是取正符號和負(fù)符號兩者之間的小者作為檢
驗(yàn)統(tǒng)計(jì)量,Pr>=|M|計(jì)算的概率是二項(xiàng)分布的兩尾概率之和,因此它是雙側(cè)檢驗(yàn),檢驗(yàn)正符號 和負(fù)符號是否相同, 結(jié)果為0 59、.0574。在顯著水平設(shè)定為 0.1時(shí),由于0.0574<0.1,拒絕原假設(shè)。
符號檢驗(yàn)的缺點(diǎn)是丟失了差值 d大小的信息,如果設(shè)定檢驗(yàn)的顯著水平為 0.05,那么本例檢
驗(yàn)結(jié)果卻由于0.0574>0.05,改變?yōu)椴荒芫芙^原假設(shè)。但是,如果我們用考慮差值 d大小的信
息的Wilcox on符號秩檢驗(yàn),即 Sgn Rank,由于0.0154<0.05,仍然得到拒絕原假設(shè)的檢驗(yàn)結(jié) 果。
例27.2的SAS程序如下:
data study.time ;
上海財(cái)經(jīng)大學(xué)經(jīng)濟(jì)信息管理系IS/SHUFE
Page # of 16
Uni variate Procedure
Varia 60、ble=D
Moments
Quantiles(Def=5)
N
11 Sum Wgts
11
100% Max
0.9
99%
0.9
Mean
0.354545 Sum
3.9
75% Q3
0.7
95%
0.9
Std Dev
0.422761 Variance
0.178727
50% Med
0.5
90% 0.8
Skewness -0.56332 Kurtosis
-0.80699
25% Q1
0 10% -0.2
USS
3.17 CSS 1.787273
0% Min
-0.4
5%
-0.4 61、
CV
119.2404 Std Mean
0.127467
1%
-0.4
T:Mean=0 2.78146 Pr>|T|
0.0194
Range
1.3
Num A=
0 10 Num > 0
8
Q3-Q1
0.7
M(Sign)
3 Pr>=|M| 0.1094
Mode
0.5
Sgn Rank 22 Pr>=|S| 0.0234
W:Normal 0.942951 Pr 62、-0.2(
2)
0.6(
9)
0(
8)
0.7(
1)
0.1(
7)
0.8(
11)
0.4(
3)
0.9(
6)
input m1 m2; d= m1-m2; cards;
10.2 9.5
9.6 9.8
9.2 8.8
10.6 10.1
9.9 10.3
10.2 9.3
10.6 10.5
10.0 10.0
11.2 10.6
10.7 10.2
10.6 9.8
proc univariate data=study.time normal; var d;
run;
程序說明:建立輸入數(shù)據(jù)集 time,數(shù)據(jù) 63、的輸入和配對 t檢驗(yàn)相同,即數(shù)據(jù)一對一對的輸
入,然后求出差值 d。過程步也和配對 t檢驗(yàn)類同,但必須調(diào)用 uni variate過程。本例用了
“normal ”選項(xiàng)對差值作正態(tài)性檢驗(yàn)。輸出的主要結(jié)果如表 27.5所示。
表27.5 用univariate過程進(jìn)行 Wilcoxon符號秩檢驗(yàn)的輸出結(jié)果
結(jié)果說明:配對資料如果其差值不是具體數(shù)字,只能用符號檢驗(yàn)。但如果差值有具體數(shù) 字,而使用符號檢驗(yàn),相當(dāng)于只利用了它的“ +”、“ — ”,而對數(shù)字大小中所包含信息卻未
加利用。此時(shí),應(yīng)該使用配對資料的 t檢驗(yàn)或配對資料的 Wilcoxon符號秩檢驗(yàn)。如果我們有
理由相信配對資料符 64、合正態(tài)分布且正態(tài)性檢驗(yàn)也不能拒絕差值 d具有正態(tài)性,那么應(yīng)該使用
t檢驗(yàn),這也是本程序需要“ normal”選項(xiàng)的原因。但是,如果我們沒有任何理由相信配對資 料符合正態(tài)分布,即使在正態(tài)性檢驗(yàn)也不能拒絕差值 d具有正態(tài)性的情況下,建議還是使用
Wilcox on符號秩檢驗(yàn)。差值d的正態(tài)性檢驗(yàn)的結(jié)果為 0.5338>0.05,因此不能拒絕差值 d具有
正態(tài)性。因?yàn)橹圃焐叹芙^相信差值 d具有正態(tài)性,所以我們采用 Wilcox on符號秩檢驗(yàn)。
Wilcoxon符號秩統(tǒng)計(jì)量 S( Sgn Rank)=22。SAS系統(tǒng)在n <20時(shí),Pr>=|S|的概率由S的 精確分布計(jì)算,而 S的分布是尺度二項(xiàng)分布的卷積,所以精確結(jié)果為 p=0.0234<0.05,拒絕原
假設(shè),即兩種不同的生產(chǎn)方法所花費(fèi)的生產(chǎn)時(shí)間是有差異的。
當(dāng)n >20時(shí),將符號秩統(tǒng)計(jì)量 S標(biāo)準(zhǔn)化成自由度為 n — 1的t統(tǒng)計(jì)量來計(jì)算顯著水平。 注
意,跟我們上面所介紹的轉(zhuǎn)換成標(biāo)準(zhǔn)正態(tài)分布略有不同,原因是當(dāng) n較大時(shí),t分布漸近標(biāo)
準(zhǔn)正態(tài)分布。另外,SAS系統(tǒng)在計(jì)算秩統(tǒng)計(jì)量 S的方差時(shí),用結(jié)值來修正方差。拒絕原假設(shè), 即兩種不同的生產(chǎn)方法所花費(fèi)的生產(chǎn)時(shí)間是有差異的。
上海財(cái)經(jīng)大學(xué)經(jīng)濟(jì)信息管理系IS/SHUFE
Page 21 of 16
- 溫馨提示:
1: 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 6.煤礦安全生產(chǎn)科普知識競賽題含答案
- 2.煤礦爆破工技能鑒定試題含答案
- 3.爆破工培訓(xùn)考試試題含答案
- 2.煤礦安全監(jiān)察人員模擬考試題庫試卷含答案
- 3.金屬非金屬礦山安全管理人員(地下礦山)安全生產(chǎn)模擬考試題庫試卷含答案
- 4.煤礦特種作業(yè)人員井下電鉗工模擬考試題庫試卷含答案
- 1 煤礦安全生產(chǎn)及管理知識測試題庫及答案
- 2 各種煤礦安全考試試題含答案
- 1 煤礦安全檢查考試題
- 1 井下放炮員練習(xí)題含答案
- 2煤礦安全監(jiān)測工種技術(shù)比武題庫含解析
- 1 礦山應(yīng)急救援安全知識競賽試題
- 1 礦井泵工考試練習(xí)題含答案
- 2煤礦爆破工考試復(fù)習(xí)題含答案
- 1 各種煤礦安全考試試題含答案