《協(xié)方差分析與混合線性模型.ppt》由會員分享,可在線閱讀,更多相關(guān)《協(xié)方差分析與混合線性模型.ppt(38頁珍藏版)》請在裝配圖網(wǎng)上搜索。
1、第9講 協(xié)方差分析與混合線性模型,理學(xué)院 汪曉銀 教授,華中農(nóng)業(yè)大學(xué)數(shù)學(xué)建模創(chuàng)新實踐基地課件,如果在單因素、雙因素或多因素試驗中有無法控制的因素x影響試驗的結(jié)果Y,且x可以測量、x與Y之間又有顯著的線性回歸時,常常利用線性回歸來矯正Y的觀測值、消去x的差異對Y的影響。 例如,研究施肥對蘋果樹產(chǎn)量的影響,由于蘋果樹的長勢不齊,必須消去長勢對產(chǎn)量的影響。又如,研究飼料對動物增重的影響,由于動物的初重不同,必須消去初重對增重的影響。,協(xié)方差分析,這種不是在試驗中控制某個因素,而是在試驗后對該因素的影響進(jìn)行估計,并對試驗指標(biāo)的值作出調(diào)整的方法稱為統(tǒng)計控制,可以作為試驗控制的輔助手段。以統(tǒng)計控制為目的
2、,綜合線性回歸分析與方差分析所得到的統(tǒng)計分析方法,稱為協(xié)方差分析,所需要統(tǒng)計控制的一個或多個因素,例如蘋果樹的長勢,又如動物的初重等等稱為協(xié)變量。,1 協(xié)方差分析思想原理,2 單因素協(xié)方差分析-理論,2 單因素協(xié)方差分析-理論,2 單因素協(xié)方差分析-理論,2 單因素協(xié)方差分析-理論,2 單因素協(xié)方差分析-計算,data ex; do a=1 to 3;do i=1 to 8; input x y ;output ;end;end; cards; 47 54 58 66 53 63 46 51 49 56 56 66 54 61 44 50 52 54 53 53 64 67 58 62 59
3、62 61 63 63 64 66 69 44 52 48 58 46 54 50 61 59 70 57 64 58 69 53 66 ; proc glm;class a;model y=x a/solution; lsmeans a/stderr pdiff;run;,2 單因素協(xié)方差分析-計算,2 單因素協(xié)方差分析-計算,施用三種肥料的產(chǎn)量矯正后有極顯著的差異,2 單因素協(xié)方差分析-計算,3雙因素協(xié)方差分析-不考慮交互作用,,3雙因素協(xié)方差分析-不考慮交互作用,data ex;do a=1 to 3 ;do b=1 to 5 ; input x y ;output; end; end;
4、 cards; 8 2.85 10 4.24 12 3.00 11 4.94 10 2.88 10 3.14 12 4.50 7 2.75 12 5.84 10 4.06 12 3.88 10 3.86 9 2.82 10 4.94 9 2.89 ; proc glm;class a b ;model y=x a b/solution; lsmeans a b/stderr pdiff;run;,3雙因素協(xié)方差分析-不考慮交互作用,3雙因素協(xié)方差分析-不考慮交互作用,各小區(qū)的產(chǎn)量矯正后沒有顯著的差異,各品種的產(chǎn)量矯正后有極顯著的差異。,3雙因素協(xié)方差分析-不考慮交互作用,4雙因素協(xié)方差分析-考
5、慮交互作用,4雙因素協(xié)方差分析-考慮交互作用,data ex; do a=1 to 4; do b=1 to 2; do i=1 to 2;input x y;output;end;end;end; cards; 14.6 97.8 12.1 94.2 19.5 11.2 18.8 110.1 1.6 100.3 12.9 98.5 18.5 119.4 12.2 114.7 12.8 99.2 10.7 89.612.2 122.2 16.9 105.3 12.0 102.1 12.4 103.8 16.4 117.2 17.2 117.9 proc glm; class a b;model
6、 y=x a b a*b/solution;lsmeans a b/stderr pdiff; run;,4雙因素協(xié)方差分析-考慮交互作用,4雙因素協(xié)方差分析-考慮交互作用,A與B的交互作用矯正后不顯著,促生長劑之間的差異極顯著,試驗批次間的差異不顯著,4雙因素協(xié)方差分析-考慮交互作用,3.混合線性模型,通過一個例子講述混合線性模型的使用 艾滋病療法的評價 艾滋病是當(dāng)前人類社會最嚴(yán)重的瘟疫之一,從1981年發(fā)現(xiàn)以來的20多年間,它已經(jīng)吞噬了近3000萬人的生命。 艾滋病的醫(yī)學(xué)全名為“獲得性免疫缺損綜合癥”,英文簡稱AIDS,它是由艾滋病毒(醫(yī)學(xué)全名為“人體免疫缺損病毒”, 英文簡稱HIV)引起
7、的。這種病毒破壞人的免疫系統(tǒng),使人體喪失抵抗各種疾病的能力,從而嚴(yán)重危害人的生命。人類免疫系統(tǒng)的CD4細(xì)胞在抵御HIV的入侵中起著重要作用,當(dāng)CD4被HIV感染而裂解時,其數(shù)量會急劇減少,HIV將迅速增加,導(dǎo)致AIDS發(fā)作。,3.混合線性模型,艾滋病治療的目的,是盡量減少人體內(nèi)HIV的數(shù)量,同時產(chǎn)生更多的CD4,至少要有效地降低CD4減少的速度,以提高人體免疫能力。 迄今為止人類還沒有找到能根治AIDS的療法,目前的一些AIDS療法不僅對人體有副作用,而且成本也很高。許多國家和醫(yī)療組織都在積極試驗、尋找更好的AIDS療法。,3.混合線性模型,請你完成以下問題: (1)利用附件1的數(shù)據(jù),預(yù)測繼續(xù)
8、治療的效果,或者確定最佳治療終止時間(繼續(xù)治療指在測試終止后繼續(xù)服藥,如果認(rèn)為繼續(xù)服藥效果不好,則可選擇提前終止治療)。 (2)利用附件2的數(shù)據(jù),評價4種療法的優(yōu)劣(僅以CD4為標(biāo)準(zhǔn)),并對較優(yōu)的療法預(yù)測繼續(xù)治療的效果,或者確定最佳治療終止時間。 (3) 艾滋病藥品的主要供給商對不發(fā)達(dá)國家提供的藥品價格如下:600mg zidovudine 1.60美元,400mg didanosine 0.85美元,2.25 mg zalcitabine 1.85美元,400 mg nevirapine 1.20美元。如果病人需要考慮4種療法的費用,對(2)中的評價和預(yù)測(或者提前終止)有什么改變。,3.混
9、合線性模型,ID 療法 年齡 時間 Log(CD4 count+1) 1236.427103.1355 1236.42717.57143.0445 1236.427115.57142.7726 1236.427123.57142.8332 1236.427132.57143.2189 1236.4271403.0445 2447.846703.0681 2447.846783.8918 2447.8467163.9703 2447.8467233.6109 2447.846730.71433.3322 2447.8467393.0910 3160.287503.7377 4336.
10、596904.1190 4336.59697.14294.1109 4336.596916.14294.7095,3.混合線性模型,1對4種療法的療效評價的分析 對題目所給的附件2的數(shù)據(jù)進(jìn)行分析可知,決定病人的CD4的濃度的因素有年齡,檢查的時刻,治療方案這三個因素。因此我們將年齡分成5類,檢查的時刻分為4個時間段,治療方案有4種。而問題是以CD4的濃度為標(biāo)準(zhǔn)來評價療效的優(yōu)劣,即CD4的濃度越大,那么療效越好。由于考慮題中所給的樣本有6000多個(病人的個數(shù)*各個病人檢查的次數(shù)),因此我們考慮用MIXED(混合線性模型)。下面我們就混合線性模型的原理進(jìn)行說明。,3.混合線性模型,混合線性模型過
11、程是擬合許多不同數(shù)據(jù)的混合線性模型,并利用所擬合的模型對數(shù)據(jù)進(jìn)行統(tǒng)計推斷。 首先混合線性模型的主要假設(shè)是數(shù)據(jù)服從正態(tài)分布,由于本題所給的數(shù)據(jù)的樣本容量有6000多個,因此,我們可認(rèn)為它服從正態(tài)分布。又由于正態(tài)分布的數(shù)據(jù)可完全有均值和方差確定,因此一個混合線性模型是由兩個模型決定的。分別是均值模型和方差模型。MIXED使用約束最大似然的方法來擬合數(shù)據(jù)的。一旦數(shù)據(jù)的模型已經(jīng)建立,我們可以使用該模型通過固定效應(yīng)參數(shù)和協(xié)方差參數(shù)進(jìn)行統(tǒng)計推斷。用這些統(tǒng)計量可以對模型進(jìn)行評價。,3.混合線性模型,再者,該分析的重要假設(shè)是數(shù)據(jù)是正態(tài)分布的,由于我們將附錄2的數(shù)據(jù)進(jìn)行了分類。由于數(shù)據(jù)出現(xiàn)在類(如可能是同一年齡
12、段中),那可能的情況是來自同一年齡段的這些CD4的值是相關(guān)的,不是獨立的。鑒于此,由于附錄2所給的數(shù)據(jù)是高度數(shù)據(jù)(即樣本容量很大),那么考慮這種因素是相關(guān)。因此我們對這些因素進(jìn)行相關(guān)性建模,我們使用隨機效用。在本題中,我們規(guī)定年齡、檢查時刻為隨機效應(yīng),即使得具有相同年齡水平或相同檢查時刻的水平之間存在共同的相關(guān)性,那么,此模型才較為合理。,3.混合線性模型,2 對4種療法的療效模型的建立 1)數(shù)據(jù)的處理 a、所有病人的年齡是在14.9021,74.193的區(qū)間內(nèi),以(74.193-14.9021)/5=11.85818為區(qū)間長度。我們將患者按照年齡階段分為5級,分別記作1至5(如表4所示);
13、b、我們將患者所接受的治療方法分為4種,分別記作1至4; c、我們將病人的檢查的時刻0,40以10為區(qū)間長度,分為4級,分別記作1至4,3.混合線性模型,3.混合線性模型,2)確定固定效應(yīng)和隨機效應(yīng) 固定效用是設(shè)計者所研究的因素,在此題中為4種療法。因為病人的年齡是隨機的,并且病人接受檢驗的時刻是也是隨機進(jìn)行的,故病人的年齡和病人接受檢驗的治療時刻應(yīng)該為隨機效應(yīng)。,3.混合線性模型,3)協(xié)方差結(jié)構(gòu)的選擇 模型中具體選用哪種結(jié)構(gòu)矩陣:在相同模型結(jié)構(gòu)下,選擇幾個不同結(jié)構(gòu)的協(xié)方差矩陣,從中選取似然比統(tǒng)計量(-2Log Likeli-hood)、Akaikes Information Schwartz
14、 Bayesian三個指標(biāo)均較小的一個,通常以AIC為主要判斷指標(biāo)。依據(jù)專業(yè)知識和既往文獻(xiàn),在此模型中選用符合對稱結(jié)構(gòu)CS、不規(guī)則結(jié)構(gòu)UN、一階自回歸結(jié)構(gòu)AR(1)、空間冪相關(guān)結(jié)構(gòu) SP(POW)。,3.混合線性模型,4)建立混合線性模型的線性模型,如下:,3.混合線性模型,data ex;input name a x1 x2 y ; if x1<26.76 then x1=1;if 26.76<=x1<41.662 then x1=2; if 41.662<=x1<56.56 then x1=3;if 56.56<=x1<71.467 then x1=4; if 71.467<=x1 the
15、n x1=5;if x2<10 then x2=1; if 10<=x2<20 then x2=2;if 20<=x2<30 then x2=3;if 30<=x2 then x2=4; cards; 1 2 36.4271 0 3.1355 1 2 36.4271 7.5714 3.0445 1 2 36.4271 15.5714 2.7726 1 2 36.4271 23.5714 2.8332,3.混合線性模型,1313 1 15.8412 20 4.4067 1313 1 15.8412 27 3.5553 1313 1 15.8412 35 3.4657 ; proc glm;class a x1 x2;model y=a x1 x2; means a/duncan; proc mixed;class a x1 x2;model y=a; random x1 x2; lsmeans a;run;,3.混合線性模型,3.混合線性模型,3.混合線性模型,