《抽樣誤差與假設(shè)檢驗(yàn)》由會員分享,可在線閱讀,更多相關(guān)《抽樣誤差與假設(shè)檢驗(yàn)(38頁珍藏版)》請?jiān)谘b配圖網(wǎng)上搜索。
1、,單擊此處編輯母版標(biāo)題樣式,單擊此處編輯母版文本樣式,第二級,第三級,第四級,第五級,*,流行病與衛(wèi)生統(tǒng)計(jì)學(xué)教研室,金英良,第四章 抽樣誤差與假設(shè)檢驗(yàn),本章主要內(nèi)容,:,第一節(jié) 均數(shù)的抽樣誤差與標(biāo)準(zhǔn)誤差,第二節(jié) 總體均數(shù)的估計(jì),第三節(jié) 假設(shè)檢驗(yàn)的意義和步驟,第一節(jié) 均數(shù)的抽樣誤差與標(biāo)準(zhǔn)誤差,假定某年某地所有13歲女學(xué)生身高服從總體均數(shù),=155.4cm,,總體標(biāo)準(zhǔn)差,=5.3cm,的正態(tài)分布,N(155.4,5.3,2,)。,隨機(jī)抽取30人為一個樣本(,n=30),,并計(jì)算樣本的均數(shù)和標(biāo)準(zhǔn)差,共抽取100次,可以得到100份樣本,每份樣本可以計(jì)算相應(yīng)的均數(shù)和標(biāo)準(zhǔn)差。,1.156.7,5.16,
2、158.1,5.21,155.6,5.32,99.154.6,5.15,100.156.6,5.25,=155.4cm,=5.3cm,X S,一百個樣本,抽樣誤差,(smpling error),這種由抽樣造成的,樣本統(tǒng)計(jì)量,與,總體參數(shù),之間的差異成為抽樣誤差,.,總體,樣本,隨機(jī)抽樣,統(tǒng)計(jì)量,參 數(shù),只要有個體變異和隨機(jī)抽樣研究,抽樣誤差就是,不可避免,的。,若從正態(tài)總體,N(,,2,),中,反復(fù)多次隨機(jī)抽取樣本含量固定為,n,的樣本,那么這些樣本均數(shù),也服從正態(tài)分布。樣本均數(shù),的總體均數(shù)仍為,,,樣本均數(shù)的標(biāo)準(zhǔn)差為,其計(jì)算公式為:,中心極限定理,SAMPLE 1,:,x,11,x,12,
3、x,13,x,14,.x,1n,SAMPLE 2,:,x,21,x,22,x,23,x,24,.x,2n,SAMPLE k,:,x,k1,x,k2,x,k3,x,k4,.x,kn,原始,總體,k,個樣本均數(shù)的頻數(shù)分布圖,標(biāo)準(zhǔn)誤,(standard error,SE),樣本均數(shù)的標(biāo)準(zhǔn)差。,它反映了來自同一總體的樣本均數(shù)之間的離散程度以及樣本均數(shù)和總體均數(shù)的差異程度,即均數(shù)的抽樣誤差的大小。,統(tǒng)計(jì)上用標(biāo)準(zhǔn)誤來衡量抽樣誤差的大小!,由于在實(shí)際工作中,總體標(biāo)準(zhǔn)差,往往未知,而是用樣本標(biāo)準(zhǔn)差,S,來代替,,,故只能求得樣本均數(shù)標(biāo)準(zhǔn)誤的估計(jì)值,S,X,,,其計(jì)算公式為:,估計(jì),例 4.1 某市隨機(jī)抽查成年
4、男子1,40,人,得紅細(xì)胞均數(shù),4.7710,12,/L,,標(biāo)準(zhǔn)差,0.3810,12,/L,,計(jì)算其標(biāo)準(zhǔn)誤。,第二節(jié) 總體均數(shù)的估計(jì),1.,統(tǒng)計(jì)推斷(,statistical inference,),在總體中隨機(jī)抽取一定數(shù)量觀察單位作為樣本進(jìn)行抽樣研究,然后由樣本信息推斷總體特征,這一過程稱為統(tǒng)計(jì)推斷。,一、可信區(qū)間的概念,統(tǒng)計(jì)推斷,參數(shù)估計(jì),假設(shè)檢驗(yàn),點(diǎn)估計(jì),區(qū)間估計(jì)(可信區(qū)間),2.,參數(shù)估計(jì)(,parameter estimation,),是指由樣本統(tǒng)計(jì)量估計(jì)總體參數(shù),是統(tǒng)計(jì)推斷的一個重要內(nèi)容。,(,1,)點(diǎn)估計(jì)(,point estimation,),用樣本統(tǒng)計(jì)量直接作為總體參數(shù)的估
5、計(jì)值。,(,2,)區(qū)間估計(jì)(,interval estimation,),又稱可信區(qū)間(置信區(qū)間,,CI),按預(yù)先給定的概率,計(jì)算出一個區(qū)間,使它能夠包含未知的總體均數(shù)。,=155.4cm,身高(,cm),總體均數(shù)的95%可信區(qū)間,平均有95個可信區(qū)間包括了總體均數(shù),,,只有5個可信區(qū)間不包括,,,即估計(jì)錯誤。,進(jìn)行100次抽樣,每次樣本量為,n=30,,利用樣本均數(shù)和標(biāo)準(zhǔn)差估計(jì)總體均數(shù)范圍。,3.,可信區(qū)間有兩個要素:,(,1,),準(zhǔn)確度(,accuracy),可信度的大小,即可信區(qū)間包容,的概率大?。?-,)。,(,2,),精密度(,precision),反映在區(qū)間的長度,區(qū)間長度越小精密
6、度越高。,一般情況下,95%的可信區(qū)間更為常用。,在可信度確定的情況下,增加樣本量,可減少區(qū)間長度,提高精密度。,t,分布,是,t,檢驗(yàn)的基礎(chǔ),亦稱,student t,檢驗(yàn),是計(jì)量資料中最常用的假設(shè)檢驗(yàn)方法。,戈塞特,(,William Sealey Gosset),英國著名統(tǒng)計(jì)學(xué)家。出生于英國肯特郡坎特伯雷市,求學(xué)于曼徹斯特學(xué)院和牛津大學(xué),主要學(xué)習(xí)化學(xué)和數(shù)學(xué)。,二、總體均數(shù)可信區(qū)間的計(jì)算,1899年作為一名釀酒師進(jìn)入愛爾蘭的都柏林一家啤酒廠工作,在那里他涉及到有關(guān)釀造過程的數(shù)據(jù)處理問題。,由于釀酒廠的規(guī)定禁止戈塞特發(fā)表關(guān)于釀酒過程變化性的研究成果,因此戈塞特不得不于1908年,首次以“學(xué)生
7、”(,Student),為筆名,在生物計(jì)量學(xué)雜志上發(fā)表了“平均數(shù)的概率誤差”。,Gosset,在文章中使用,Z,統(tǒng)計(jì)量來檢驗(yàn)常態(tài)分配母群的平均數(shù)。由于這篇文章提供了“學(xué)生,t,檢驗(yàn)”的基礎(chǔ),為此,許多統(tǒng)計(jì)學(xué)家把1908年看作是統(tǒng)計(jì)推斷理論發(fā)展史上的里程碑。,隨機(jī)變量,X,N,(,m,,,s,2,),標(biāo)準(zhǔn)正態(tài)分布,N(0,1,2,),u,變換,當(dāng)總體均數(shù)與標(biāo)準(zhǔn)差未知時(shí),均數(shù),標(biāo)準(zhǔn)正態(tài)分布,N(0,1,2,),在實(shí)際工作中,往往未知,常用 代替進(jìn)行變換,即,不服從標(biāo)準(zhǔn)正態(tài)分布!,而服從自由度,=n-1,的,t,分布,f,(,t,),=(,標(biāo)準(zhǔn)正態(tài)曲線,),=5,=1,0.1,0.2,-4,-3,-
8、2,-1,0,1,2,3,4,0.3,t,分布,1、以0為中心,左右對稱的單峰分布。,2、,t,分布曲線是一簇曲線,其形態(tài)變化與自由度,的大小有關(guān)系(,=,n-1)。,t,分布的特征:,自由度越小,,t,分布的峰越低,而兩側(cè)尾部翹得越高;,自由度逐漸增大時(shí),,t,分布逐漸逼近標(biāo)準(zhǔn)正態(tài)分布,當(dāng)自由度為無窮大時(shí),,t,分布就是標(biāo)準(zhǔn)正態(tài)分布,。,為便于使用,統(tǒng)計(jì)學(xué)家編制了不同自由度,對應(yīng)的,t,界值表。,t,分布的用途:,主要用于總體均數(shù)的區(qū)間估計(jì)及,t,檢驗(yàn)。,s,未知 且,n,較小,(,n50,)按,u,分布,s,已知,按,u,分布,總體均數(shù)可信區(qū)間的計(jì)算方法,隨總體標(biāo)準(zhǔn)差,s,是否已知,以及樣
9、本含量,n,的大小而異。,通常有,t,分布和,u,分布,兩類方法:,(一),已知,u,變換公式:,-1.96,+1.96,2.5%,2.5%,95%,(二),未知,1.n,較小(,n50),例4.,2,某醫(yī)生測得,25,名動脈粥樣硬化患者血漿纖維蛋白原含量的均數(shù)為,3.32g/L,,標(biāo)準(zhǔn)差為,0.57g/L,,試計(jì)算該種病人血漿纖維蛋白原含量總體均數(shù)的,95%,可信區(qū)間。,該種病人血漿纖維蛋白原含量總體均數(shù)的,95%,可信區(qū)間為,3.09g/L,3.56g/L,例4.,3,試計(jì)算例,4.1,中該地成年男子紅細(xì)胞總體均數(shù)的,95%,可信區(qū)間。,該地成年男子紅細(xì)胞總體均數(shù)的,95%,可信區(qū)間為,4
10、.7110,12,/L,4.8310,12,/L,第三節(jié) 假設(shè)檢驗(yàn)的意義和步驟,一、假設(shè)檢驗(yàn)的基本思想,“反證法”的思想,先根據(jù)研究目的建立假設(shè),從,H,0,假設(shè)出發(fā),先假設(shè)它是正確的,再分析樣本提供的信息是否與,H,0,有較大矛盾,即是否支持,H,0,,若樣本信息不支持,H,0,,便拒絕之并接受,H,1,,否則不拒絕,H,0,。,例4.4 以往通過大規(guī)模調(diào)查已知某地新生兒出生體重為,3.30kg.,從該地難產(chǎn)兒中隨機(jī)抽取,35,名新生兒作為研究樣本,平均出生體重為,3.42kg,標(biāo)準(zhǔn)差為,0.40kg,。,問該地難產(chǎn)兒出生體重是否與一般新生兒體重不同?,0,=3.30kg,次/分,已知總體,
11、未知總體,n=35,=3.42kg,S=0.40kg,與,0,之間的差異(不相等),有兩種可能:,1、,=,0,,,僅因?yàn)橛?去估計(jì),時(shí)存在抽樣誤差,所以導(dǎo)致了,與,0,之間的差異。,2、,與,0,本身就不相等,所以導(dǎo)致了,與,之間的差異。,假設(shè)檢驗(yàn)的基本原理,:,抽樣誤差所致,P0.05,(來自同一總體),?,假設(shè)檢驗(yàn)回答,本身存在差別,P,0,(,單側(cè)檢驗(yàn),),0,(,單側(cè)檢驗(yàn),),=,0.05,例如:要比較經(jīng)常參加體育鍛煉的中學(xué)男生心率是否低于一般中學(xué)男生的心率,就屬于單側(cè)檢驗(yàn)。,H,1,:,0,,雙側(cè),,0,都有可能,H,1,:,0,,單側(cè),H,1,:,,,則接受,H,0,,,拒絕,H,1,檢驗(yàn)水準(zhǔn),確定的,P,值,1.,對于,H,0,只能說拒絕與不拒絕,而對,H,1,只能說接受。,2.,P,,則拒絕,H,0,,接受,H,1,,差異有統(tǒng)計(jì)學(xué)意義,可認(rèn)為,不同或不等。,3.,P,,則不拒絕,H,0,,差異無統(tǒng)計(jì)學(xué)意義,尚不能認(rèn)為,不同或不等。,4.,應(yīng)事先確定,。選,0.05,只是一種習(xí)慣,而不是絕對的標(biāo)準(zhǔn)。,關(guān)于假設(shè)檢驗(yàn)的幾個觀點(diǎn),