《協(xié)方差分析(AnalysisofCovariance).ppt》由會(huì)員分享,可在線閱讀,更多相關(guān)《協(xié)方差分析(AnalysisofCovariance).ppt(34頁珍藏版)》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。
1、,協(xié)方差分析,Analysis of Covariance ALBERT R.WLDT OLLI AHT 報(bào)告人:白寅,Mslab TianjinUniv,我們先來看一個(gè)問題:,芬蘭由幾十個(gè)小的自治區(qū)組成。在芬蘭,白酒的批發(fā)和零售是國家壟斷的。幾個(gè)世紀(jì)以來,法律規(guī)定白酒只能在城市自治區(qū)中銷售。 但是去年這條法律要做修改了,該國的相關(guān)部門嘗試性地在農(nóng)村自治區(qū)銷售白酒,進(jìn)而研究白酒的銷售方式是否會(huì)影響當(dāng)?shù)氐慕煌ㄊ鹿柿?在去年夏天,他們?nèi)芜x12個(gè)農(nóng)業(yè)自治區(qū),在其中4個(gè)開設(shè)了白酒專賣店;另外4個(gè)授權(quán)飯店銷售白酒;余下的4個(gè)保持原來的狀態(tài),即禁止銷售白酒。,,,,,,,,,,,,,,,,,,,開設(shè)白酒專
2、賣店,授權(quán)飯店銷售,保持禁銷白酒,12個(gè)實(shí)驗(yàn)自治區(qū),為比較銷售白酒對(duì)交通事故是否有影響,我們搜集到三組實(shí)驗(yàn)區(qū)域一年后的交通事故發(fā)生數(shù):,,銷售白酒對(duì)當(dāng)?shù)氐慕煌ㄊ鹿视杏绊憜幔?認(rèn)為白酒的銷售沒有影響交通事故率。真的是這樣嗎?,我們用學(xué)過的方差分析來比較一下各組均值,他們是:186.25,206.50,214.50,F=2.079343<4.256495,接受原假設(shè), 即H0:u1=u2=u3,,,實(shí)驗(yàn)前后,同一地區(qū)的交通事故量應(yīng)該有某種聯(lián)系!回歸關(guān)系 銷售白酒后交通事故多的地區(qū)有可能是因?yàn)槠湓瓉斫煌ㄊ鹿示捅绕渌貐^(qū)多!,是不是有些地區(qū)即使不賣白酒交通事故也會(huì)比其他地區(qū)多?,稍加分析我們就會(huì)發(fā)現(xiàn),
3、我們的分析有問題,直接收集統(tǒng)計(jì)資料的有兩種方式:實(shí)驗(yàn)式和非實(shí)驗(yàn)式。 如果條件可以完全控制的話(只一個(gè)因素變化,其他因素統(tǒng)一)實(shí)驗(yàn)式收集數(shù)據(jù)進(jìn)行方差分析理論上是可以保證精度的。 但是實(shí)驗(yàn)條件不能完全控制的時(shí)候就要采取統(tǒng)計(jì)控制,即用統(tǒng)計(jì)的方法排除數(shù)據(jù)中的干擾因素從而提高精度。我們知道,就算12個(gè)地區(qū)白酒的銷售方式是隨機(jī)指定的,由于每組僅僅有四個(gè)地區(qū),很難保證三組地區(qū)的交通事故只與白酒的銷售有關(guān)而其他因素統(tǒng)一水平。 協(xié)方差分析可以解決這類問題。,各地的交通事故僅僅與飲酒有關(guān)嗎?,,各組數(shù)據(jù)可比嗎?,比如人口多的地區(qū),車輛多的地區(qū),雨雪多的地區(qū)交通事故就會(huì)多,,,,協(xié)方差分析是如何解決這個(gè)問題的呢?,
4、第i組第j個(gè)觀測值,隨機(jī)誤差,第i組的組效應(yīng),一般均值,方差分析的前提是除隨機(jī)誤差外,水平變量是影響觀測值的唯一變量,對(duì)于芬蘭白酒專賣的問題,交通事故顯然不是僅僅與銷售方式有關(guān),而把其他變量都?xì)w為隨機(jī)誤差又太過粗糙這樣。我們就想到了引入其他變量在協(xié)方差分析的模型中,我們稱之為協(xié)變量,下面我們?cè)倏磪f(xié)方差分析數(shù)據(jù)結(jié)構(gòu):,首先,我們看看方差分析數(shù)據(jù)結(jié)構(gòu):,,“遺傳”效應(yīng),,觀測值=一般均值+水平影響+協(xié)變量影響+隨機(jī)誤差,協(xié)變量,回歸系數(shù),,,協(xié)變量效應(yīng),可見,協(xié)方差分析將方差分析與回歸分析結(jié)合了起來.,方差分析,回歸分析,,,,,,從離差分解的角度我們來解釋協(xié)方差分析,對(duì)于方差分析: 總離差=分組
5、變量離差+隨機(jī)誤差(組內(nèi)離差) 對(duì)于協(xié)方差分析: 總離差=分組變量離差+協(xié)變量離差+隨機(jī)誤差,在方差分析中,協(xié)變量離差包含在了隨機(jī)誤差中. 在協(xié)方差分析中,單獨(dú)將其分離出來.,,于是,我們用協(xié)變量對(duì)觀測值進(jìn)行修正,去掉“遺傳”因素,下面的問題是,如何計(jì)算回歸系數(shù),協(xié)變量修正后的觀測值,,去除遺傳效應(yīng),總思路,,在觀測值中去除協(xié)變量的影響之后,應(yīng)用方差分析,,我們把回歸系數(shù)的計(jì)算分為兩種情況,計(jì)算總離差平方和時(shí): 我們最終要檢驗(yàn)的是分組自變量對(duì)因變量有無顯著作用.原假設(shè)是無顯著作用.假設(shè)檢驗(yàn)以原命題為真為基礎(chǔ)進(jìn)行的.因此,這里我們認(rèn)為ti=0,即,用回歸模型計(jì)算回歸系數(shù).其最小二乘無偏估計(jì)值為,
6、由此我們可以計(jì)算總離差平方和的修正值:,總離差平方和修正值的定義和計(jì)算式如下:,,,Y的回歸線,,與回歸線的離差平方和,回歸平方和,,如果X對(duì)Y無作用 ,b=0,該項(xiàng)則為0,,,為了簡化表示,我們定義,,,,當(dāng)計(jì)算組內(nèi)離差平方和時(shí),我們使用組內(nèi)回歸系數(shù)它的計(jì)算如下:,組內(nèi)離差平方和的修正值計(jì)算如下:,在這里我們實(shí)際上是假設(shè)各組內(nèi)的回歸系數(shù)相等(協(xié)方差分析基本假設(shè))因而求出了一個(gè)統(tǒng)一的組內(nèi)回歸系數(shù).,,Yi的回歸線,,與回歸線的殘差平方和,組內(nèi)總離差平方和,回歸平方和,,,同樣為了簡化表示,我們定義,組內(nèi)總離差平方和,從回歸角度看,,組內(nèi)殘差平方和,組內(nèi)回歸平方和,,,接著就要計(jì)算組間平方和了。
7、它反映的是各個(gè)水平之間的差異,有了這三個(gè)修正的平方和,我們就可以進(jìn)行組間無差異的檢驗(yàn)了。,,,回頭從離差分解的角度我們來解釋協(xié)方差分析,總離差=分組變量離差+協(xié)變量離差+隨機(jī)誤差,分組變量離差 =總離差 - 協(xié)變量離差 - 隨機(jī)誤差,,,,可解釋部分,不可解釋部分,我們回頭看協(xié)方差分析的模型,使用該方法進(jìn)行分析的前提是每組的回歸系數(shù)相等,且不為零。回歸系數(shù)反映的是協(xié)變量對(duì)觀測值的影響。只有這種影響的作用形式相同,才能用該模型。 當(dāng)然,如果回歸系數(shù)為零的話,用協(xié)方差分析也沒有意義了。因此我們?cè)谧鰠f(xié)方差分析前要做兩個(gè)假設(shè)檢驗(yàn) 協(xié)變量對(duì)因變量的影響對(duì)與個(gè)組來說都是相同的,即各組回歸系數(shù)相等: 這些相
8、等的回歸系數(shù)不為零:,,,,,,檢驗(yàn)各組的回歸系數(shù)相等時(shí)要先按回歸系數(shù)不相等表示模型:,然后我們比較按照回歸系數(shù)相等和回歸系數(shù)不等計(jì)算出的誤差平方和是否有顯著差異,,,,,,,,,如果F值小于臨界值則說明 之間無顯著差異。,在進(jìn)行協(xié)方差分析時(shí),這個(gè)檢驗(yàn)是最先進(jìn)行的,構(gòu)造回歸系數(shù)非零的假設(shè)檢驗(yàn)時(shí)我們回顧一下一元線性回歸顯著性檢驗(yàn):,到這里我們把單因素的協(xié)方差分析的方法模型介紹完了。 回頭看芬蘭白酒專賣的例子。,,,,為了更具體地進(jìn)行協(xié)方差分析,我們回過頭來看芬蘭白酒專賣的例子:,我們當(dāng)時(shí)的觀測數(shù)據(jù)來自12個(gè)不同的自治區(qū),同一個(gè)自治區(qū)應(yīng)該有其一定的特殊性,這樣就使得個(gè)地區(qū)觀測值的可比性降低了。那
9、么,怎么樣去除這種特殊性呢?這種地區(qū)的特殊性在統(tǒng)計(jì)上表現(xiàn)為觀測前一年的數(shù)據(jù)()和觀測年的數(shù)據(jù)具有回歸關(guān)系。這里面就是協(xié)變量,在協(xié)方差分析中可以分離出協(xié)變量效應(yīng),從而提高分析結(jié)果的精度為此我們收集到前一年,也就是各個(gè)自治區(qū)都沒有銷售白酒的那一年交通事故的數(shù)據(jù),并把他們整理在下表中:,,要進(jìn)行協(xié)方差分析,我們要先進(jìn)行兩個(gè)前提假設(shè):,回歸系數(shù)一致性檢驗(yàn):,,,先計(jì)算各組內(nèi),的交叉作用平方和,,再計(jì)算各組內(nèi)作用的平方和,,用這些值我們就可以分別求出各組的回歸系數(shù):,,最后計(jì)算總的組內(nèi)離差平方和,,有了這些項(xiàng)就可以計(jì)算了:,最后計(jì)算值:,得到這個(gè)值,我們沒有理由拒絕等回歸系數(shù)的假設(shè)條件 第二個(gè)需要檢驗(yàn)的
10、假設(shè)是這個(gè)相等的回歸系數(shù)不等于:,,,,為此我們計(jì)算以下項(xiàng)目:,得到這個(gè)值,回歸系數(shù)為的假設(shè)被拒絕了,我們繼續(xù)分析白酒的銷售對(duì)交通事故是否有影響,為了得到F統(tǒng)計(jì)量,我們要求出組間離差平方和的修正值和組內(nèi)離差平方和的修正值。為此我們要求出,,,,,總離差平方和,它表示沒有X的影響,單純考察數(shù)據(jù)中Y的變動(dòng)情況。,表示各 的變動(dòng)程度,該變動(dòng)是由于回歸直線中 各Xi 的變動(dòng)所引起的,并且通過X對(duì)Y的線性影響表現(xiàn)出來。,圖9-5 總平方和分解圖,表示各Yi圍繞所擬合的回歸直線的變動(dòng)程度,,回歸平方和,誤差平方和,SSTO=SSR+SSE,,,,,,,N項(xiàng),有兩個(gè)約束條件,DF=N-2,,,N項(xiàng),K+1個(gè)約束df-=N-k-1,,,,,