數(shù)學:第三章《統(tǒng)計案例》教案(1)(新人教A版選修2-3)
《數(shù)學:第三章《統(tǒng)計案例》教案(1)(新人教A版選修2-3)》由會員分享,可在線閱讀,更多相關《數(shù)學:第三章《統(tǒng)計案例》教案(1)(新人教A版選修2-3)(22頁珍藏版)》請在裝配圖網(wǎng)上搜索。
第三章 統(tǒng)計案例 3.1回歸分析的基本思想及其初步應用 (共計4課時) 授課類型:新授課 一、教學內容與教學對象分析 學生將在必修課程學習統(tǒng)計的基礎上,通過對典型案例的討論,了解和使用一些常用的統(tǒng)計方法,進一步體會運用統(tǒng)計方法解決實際問題的基本思想,認識統(tǒng)計方法在決策中的作用。 二、學習目標 1、知識與技能 通過本節(jié)的學習,了解回歸分析的基本思想,會對兩個變量進行回歸分析,明確建立回歸模型的基本步驟,并對具體問題進行回歸分析,解決實際應用問題。 2、過程與方法 本節(jié)的學習,應該讓學生通過實際問題去理解回歸分析的必要性,明確回歸分析的基本思想,從散點圖中點的分布上我們發(fā)現(xiàn)直接求回歸直線方程存在明顯的不足,從中引導學生去發(fā)現(xiàn)解決問題的新思路—進行回歸分析,進而介紹殘差分析的方法和利用R的平方來表示解釋變量對于預報變量變化的貢獻率,從中選擇較為合理的回歸方程,最后是建立回歸模型基本步驟。 3、情感、態(tài)度與價值觀 通過本節(jié)課的學習,首先讓顯示了解回歸分析的必要性和回歸分析的基本思想,明確回歸分析的基本方法和基本步驟,培養(yǎng)我們利用整體的觀點和互相聯(lián)系的觀點,來分析問題,進一步加強數(shù)學的應用意識,培養(yǎng)學生學好數(shù)學、用好數(shù)學的信心。加強與現(xiàn)實生活的聯(lián)系,以科學的態(tài)度評價兩個變量的相關系。教學中適當?shù)卦黾訉W生合作與交流的機會,多從實際生活中找出例子,使學生在學習的同時。體會與他人合作的重要性,理解處理問題的方法與結論的聯(lián)系,形成實事求是的嚴謹?shù)闹螌W態(tài)度和鍥而不舍的求學精神。培養(yǎng)學生運用所學知識,解決實際問題的能力。 三、教學重點、難點 教學重點:熟練掌握回歸分析的步驟;各相關指數(shù)、建立回歸模型的步驟;通過探究使學生體會有些非線性模型通過變換可以轉化為線性回歸模型,了解在解決實際問題的過程中尋找更好的模型的方法。 教學難點:求回歸系數(shù) a , b ;相關指數(shù)的計算、殘差分析;了解常用函數(shù)的圖象特點,選擇不同的模型建模,并通過比較相關指數(shù)對不同的模型進行比較。 四、教學策略: 教學方法:誘思探究教學法 學習方法:自主探究、觀察發(fā)現(xiàn)、合作交流、歸納總結。 教學手段:多媒體輔助教學 五、教學過程: (一)、復習引入:回歸分析是對具有相關關系的兩個變量進行統(tǒng)計分析的一種常用方法。 (二)、新課: 探究:對于一組具有線性相關關系的數(shù)據(jù): () , () ,…, (), 我們知道其回歸方程的截距和斜率的最小二乘估計公式分別為: (1) (2) 其中,()成為樣本點的中心. 注:回歸直線過樣本中心. 你能推導出這兩個計算公式嗎? 從我們已經(jīng)學過的知識知道,截距和斜率分別是使 取到最小值時的值. 由于 注意到 . 在上式中,后兩項和無關,而前兩項為非負數(shù),因此要使Q取得最小值,當且僅當前兩項的值均為0,即有 這正是我們所要推導的公式. 下面我們從另一個角度來推導的公式. 人教A版選修2-2P37習題1.4A組第4題: 用測量工具測量某物體的長度,由于工具的精度以及測量技術的原因,測得n個數(shù)據(jù) . 證明:用這個數(shù)據(jù)的平均值 表示這個物體的長度,能使這n個數(shù)據(jù)的方差 最?。? 思考:這個結果說明了什么?通過這個問題,你能說明最小二乘法的基本原理嗎? 證明:由于,所以 , 令, 得。 可以得到, 是函數(shù)的極小值點,也是最小值點. 這個結果說明,用n個數(shù)據(jù)的平均值表示這個物體的長度是合理的,這就是最小二乘法的基本原理. 由最小二乘法的基本原理即得 定理 設,,則 (*) 當且僅當時取等號. (*)式說明, 是任何一個實數(shù)與的差的平方的平均數(shù)中最小的數(shù).從而說明了方差具有最小性,也即定義標準差的合理性. 下面借助(*)式求的最小值. , 由(*)式知, 當且僅當,且時, 達到最小值 . 由此得到,其中是回歸直線的斜率,是截距. 借助和配方法,我們給出了人教A版必修3的第二章統(tǒng)計第三節(jié)變量間的相關關系中回歸直線方程的一個合理的解釋 1、回歸分析的基本步驟: (1) 畫出兩個變量的散點圖. (2) 求回歸直線方程. (3) 用回歸直線方程進行預報. 下面我們通過案例,進一步學習回歸分析的基本思想及其應用 2、舉例: 例1. 從某大學中隨機選取 8 名女大學生,其身高和體重數(shù)據(jù)如表 編號 1 2 3 4 5 6 7 8 身高/cm 165 165 157 170 175 165 155 170 體重/kg 48 57 50 54 64 61 43 59 求根據(jù)女大學生的身高預報體重的回歸方程,并預報一名身高為 172 cm 的女大學生的體重. 解:由于問題中要求根據(jù)身高預報體重,因此選取身高為自變量 x ,體重為因變量 y . 作散點圖(圖3 . 1 一 1) 從圖3. 1一1 中可以看出,樣本點呈條狀分布,身高和體重有比較好的線性相關關系,因此可以用線性回歸方程來近似刻畫它們之間的關系 根據(jù)探究中的公式(1)和(2 ) ,可以得到. 于是得到回歸方程 . 因此,對于身高172 cm 的女大學生,由回歸方程可以預報其體重為 ( kg ) . 是斜率的估計值,說明身高 x 每增加1個單位時,體重y就增加0.849 位,這表明體重與身高具有正的線性相關關系.如何描述它們之間線性相關關系的強弱? 在必修 3 中,我們介紹了用相關系數(shù);來衡量兩個變量之間線性相關關系的方法本相關系數(shù)的具體計算公式為 當r>0時,表明兩個變量正相關;當r<0時,表明兩個變量負相關.r的絕對值越接近1,表明兩個變量的線性相關性越強;r的絕對值接近于0時,表明兩個變量之間幾乎不存在線性相關關系.通常,當r的絕對值大于0. 75 時認為兩個變量有很強的線性相關關系 在本例中,可以計算出r =0. 798.這表明體重與身高有很強的線性相關關系,從而也表明我們建立的回歸模型是有意義的 顯然,身高172cm 的女大學生的體重不一定是60. 316 kg,但一般可以認為她的體重接近于60 . 316 kg .圖3 . 1 一 2 中的樣本點和回歸直線的相互位置說明了這一點 由于所有的樣本點不共線,而只是散布在某一條直線的附近,所以身高和體重的關系可用下面的線性回歸模型來表示: , ( 3 ) 這里 a 和 b 為模型的未知參數(shù),e是 y 與之間的誤差.通常e為隨機變量,稱為隨機誤差,它的均值 E (e)=0,方差D(e)=>0 .這樣線性回歸模型的完整表達式為: (4) 在線性回歸模型(4)中,隨機誤差e的方差護越小,通過回歸直線 (5) 預報真實值y的精度越高.隨機誤差是引起預報值與真實值 y 之間的誤差的原因之一,大小取決于隨機誤差的方差. 另一方面,由于公式(1)和(2)中 和為截距和斜率的估計值,它們與真實值a和b之間也存在誤差,這種誤差是引起預報值與真實值y之間誤差的另一個原因. 思考:產(chǎn)生隨機誤差項e的原因是什么? 一個人的體重值除了受身高的影響外,還受許多其他因素的影響.例如飲食習慣、是否喜歡運動、度量誤差等.事實上,我們無法知道身高和體重之間的確切關系是什么,這里只是利用線性回歸方程來近似這種關系.這種近似以及上面提到的影響因素都是產(chǎn)生隨機誤差 e 的原因. 因為隨機誤差是隨機變量,所以可以通過這個隨機變量的數(shù)字特征來刻畫它的一些總體特征.均值是反映隨機變量取值平均水平的數(shù)字特征,方差是反映隨機變量集中于均值程度的數(shù)字特征,而隨機誤差的均值為0,因此可以用方差來衡量隨機誤差的大?。? 為了衡量預報的精度,需要估計護的值.一個自然的想法是通過樣本方差來估計總體方差.如何得到隨機變量的樣本呢?由于模型(3)或(4)中的隱含在預報變量 y 中,我們無法精確地把它從 y 中分離出來,因此也就無法得到隨機變量的樣本. 解決問題的途徑是通過樣本的估計值來估計.根據(jù)截距和斜率的估計公式(1)和(2 ) , 可以建立回歸方程 , 因此是(5)中的估計量.由于隨機誤差,所以是的估計量.對于樣本點() , () ,…, () 而言,相應于它們的隨機誤差為 , 其估計值為 , 稱為相應于點的殘差(residual ).類比樣本方差估計總體方差的思想,可以用 作為的估計量, 其中和由公式(1) (2)給出,Q( ,)稱為殘差平方和(residual sum of squares ).可以用衡量回歸方程的預報精度.通常,越小,預報精度越高. 在研究兩個變量間的關系時,首先要根據(jù)散點圖來粗略判斷它們是否線性相關,是否可以用線性回歸模型來擬合數(shù)據(jù)然后,可以通過殘差 來判斷模型擬合的效果,判斷原始數(shù)據(jù)中是否存在可疑數(shù)據(jù).這方面的分析工作稱為殘差分析.表3一 2 列出了女大學生身高和體重的原始數(shù)據(jù)以及相應的殘差數(shù)據(jù)。 編號 1 2 3 4 5 6 7 8 身高/cm 165 165 157 170 175 165 155 170 體重/kg 48 57 50 54 64 61 43 59 殘差 -6.373 2.627 2.419 -4.618 1.137 6.627 -2.883 0.382 我們可以利用圖形來分析殘差特性作圖時縱坐標為殘差,橫坐標可以選為樣本編號,或身高數(shù)據(jù),或體重的估計值等,這樣作出的圖形稱為殘差圖.圖 3 . 1 一 3 是以樣本編號為橫坐標的殘差圖。 從圖3 . 1 一 3 中可以看出,第 1 個樣本點和第 6 個樣本點的殘差比較大,需要確認在采集這兩個樣本點的過程中是否有人為的錯誤.如果數(shù)據(jù)采集有錯誤,就予以糾正,然后再重新利用線性回歸模型擬合數(shù)據(jù);如果數(shù)據(jù)采集沒有錯誤,則需要尋找其他的原因.另外,殘差點比較均勻地落在水平的帶狀區(qū)域中,說明選用的模型比較合適.這樣的帶狀區(qū)域的寬度越窄,說明模型擬合精度越高,回歸方程的預報精度越高.另外,我們還可以用相關指數(shù)來刻畫回歸的效果,其計算公式是: 顯然,取值越大,意味著殘差平方和越小,也就是說模型的擬合效果越好.在線性回歸模型中,表示解釋變量對于預報變量變化的貢獻率. 越接近于1,表示回歸的效果越好(因為越接近于1,表示解釋變量和預報變量的線性相關性越強).如果對某組數(shù)據(jù)可能采取幾種不同的回歸方程進行回歸分析,也可以通過比較幾個,選擇大的模型作為這組數(shù)據(jù)的模型。 在例 1 中,=0. 64 ,表明“女大學生的身高解釋了64 %的體重變化”,或者說“女大學生的體重差異有 64 %是由身高引起的” 用身高預報體重時,需要注意下列問題: 1.回歸方程只適用于我們所研究的樣本的總體.例如,不能用女大學生的身高和體重之間的回歸方程,描述女運動員的身高和體重之間的關系.同樣,不能用生長在南方多雨地區(qū)的樹木的高與直徑之間的回歸方程,描述北方干旱地區(qū)的樹木的高與直徑之間的關系。 2.我們所建立的回歸方程一般都有時間性.例如,不能用 20 世紀 80 年代的身高體重數(shù)據(jù)所建立的回歸方程,描述現(xiàn)在的身高和體重之間的關系。 3.樣本取值的范圍會影響回歸方程的適用范圍.例如,我們的回歸方程是由女大學生身高和體重數(shù)據(jù)建立的,那么用它來描述一個人幼兒時期的身高和體重之間的關系就不恰當(即在回歸方程中,解釋變量 x 的樣本的取值范圍為[155cm,170cm〕 ,而用這個方程計算 x-70cm 時的y值,顯然不合適。) 4.不能期望回歸方程得到的預報值就是預報變量的精確值.事實上,它是預報變量的可能取值的平均值. 一般地,建立回歸模型的基本步驟為: (1)確定研究對象,明確哪個變量是解釋變量,哪個變量是預報變量; (2)畫出確定好的解釋變量和預報變量的散點圖,觀察它們之間的關系(如是否存在線性關系等) (3)由經(jīng)驗確定回歸方程的類型(如我們觀察到數(shù)據(jù)呈線性關系,則選用線性回歸方程 y=bx+a ) (4)按一定規(guī)則估計回歸方程中的參數(shù)(如最小二乘法); (5)得出結果后分析殘差圖是否有異常(個別數(shù)據(jù)對應殘差過大,或殘差呈現(xiàn)不隨機的規(guī)律性等等),若存在異常,則檢查數(shù)據(jù)是否有誤,或模型是否合適等 例2.現(xiàn)收集了一只紅鈴蟲的產(chǎn)卵數(shù)y和溫度x之間的7組觀測數(shù)據(jù)列于下表: 溫度xoC 21 23 25 27 29 32 35 產(chǎn)卵數(shù)y/個 7 11 21 24 66 115 325 (1)試建立y與x之間的回歸方程;并預測溫度為28oC時產(chǎn)卵數(shù)目。 (2)你所建立的模型中溫度在多大程度上解釋了產(chǎn)卵數(shù)的變化? 探究: 方案1(學生實施): (1)選擇變量,畫散點圖。 (2)通過計算器求得線性回歸方程:=19.87x-463.73 (3)進行回歸分析和預測: R2=r2≈0.8642=0.7464 預測當氣溫為28 時,產(chǎn)卵數(shù)為92個。這個線性回歸模型中溫度解釋了74.64%產(chǎn)卵數(shù)的變化。 困惑:隨著自變量的增加,因變量也隨之增加,氣溫為28 時,估計產(chǎn)卵數(shù)應該低于66個,但是從推算的結果來看92個比66個卻多了26個,是什么原因造成的呢? 方案2: (1)找到變量t=x 2,將y=bx2+a轉化成y=bt+a; (2)利用計算器計算出y和t的線性回歸方程:y=0.367t-202.54 (3)轉換回y和x的模型: (4)y=0.367x2 -202.54 (5)計算相關指數(shù)R2≈0.802這個回歸模型中溫度解釋了80.2%產(chǎn)卵數(shù)的變化。 預測:當氣溫為28 時,產(chǎn)卵數(shù)為85個。 困惑:比66還多19個,是否還有更適合的模型呢? 方案3: (1)作變換z=lgy,將轉化成z=c2x+lgc1(線性模型)。 (2)利用計算器計算出z和x的線性回歸方程: z=0.118x-1.672 (3)轉換回y和x的模型: (4)計算相關指數(shù)R2≈0.985這個回歸模型中溫度解釋了98.5%產(chǎn)卵數(shù)的變化。 預測:當氣溫為28 時,產(chǎn)卵數(shù)為4 2個。 解:根據(jù)收集的數(shù)據(jù)作散點圖(圖3. 1一4 ) . 在散點圖中,樣本點并沒有分布在某個帶狀區(qū)域內,因此兩個變量不呈線性相關關系,所以不能直接利用線性回歸方程來建立兩個變量之間的關系.根據(jù)已有的函數(shù)知識,可以發(fā)現(xiàn)樣本點分布在某一條指數(shù)函數(shù)曲線的周圍,其中和是待定參數(shù).現(xiàn)在,問題變?yōu)槿绾喂烙嫶▍?shù)和.我們可以通過對數(shù)變換把指數(shù)關系變?yōu)榫€性關系.令,則變換后樣本點應該分布在直線的周圍.這樣,就可以利用線性回歸模型來建立 y 和 x 之間的非線性回歸方程了. 由表3一3 的數(shù)據(jù)可以得到變換后的樣本數(shù)據(jù)表 3一4 ,圖3.1一5 給出了表 3 一 4 中數(shù)據(jù)的散點圖.從圖3.1一5 中可以看出,變換后的樣本點分布在一條直線的附近,因此可以用線性回歸方程來擬合. x 21 23 25 27 29 32 35 z 1.946 3.398 3.045 3.178 4.190 4.745 5.784 由表 3 一 4 中的數(shù)據(jù)得到線性回歸方程 . 因此紅鈴蟲的產(chǎn)卵數(shù)對溫度的非線性回歸方程為 . ( 6 ) 另一方面,可以認為圖3. 1一4 中樣本點集中在某二次曲線的附近,其中和為待定參數(shù).因此可以對溫度變量做變換,即令,然后建立y與t之間的線性回歸方程,從而得到y(tǒng)與x之間的非線性回歸方程.表3一5 是紅鈴蟲的產(chǎn)卵數(shù)和對應的溫度的平方,圖3 . 1一6 是相應的散點圖. t 441 529 625 729 841 1024 1225 x 7 11 21 24 66 115 325 從圖3.1一6 中可以看出,y與t的散點圖并不分布在一條直線的周圍,因此不宜用線性回歸方程來擬合它,即不宜用二次曲線來擬合 y 和 x 之間的關系.這個結論還可以通過殘差分析得到,下面介紹具體方法. 為比較兩個不同模型的殘差,需要建立兩個相應的回歸方程.前面我們已經(jīng)建立了y 關于x 的指數(shù)回歸方程,下面建立y關于x的二次回歸方程.用線性回歸模型擬合表 3 一 5 中的數(shù)據(jù),得到 y 關于 t 的線性回歸方程 , 即 y 關于 x 的二次回歸方程為 . ( 7 ) 可以通過殘差來比較兩個回歸方程( 6 )和( 7 )的擬合效果.用 xi表示表3一3 中第 1 行第 i 列的數(shù)據(jù),則回歸方程( 6 )和( 7 )的殘差計算公式分別為 ; . 表3一6 給出了原始數(shù)據(jù)及相應的兩個回歸方程的殘差.從表中的數(shù)據(jù)可以看出模型 ( 6 )的殘差的絕對值顯然比模型( 7 )的殘差的絕對值小,因此模型( 6 )的擬合效果比模型( 7 ) 的擬合效果好. x 21 23 25 27 29 32 35 y 7 11 21 24 66 115 325 0.557 -0.101 1.875 -8.950 9.230 -13.381 34.675 47.696 19.400 -5.832 -41.000 -40.1.4 -58.265 77.968 在一般情況下,比較兩個模型的殘差比較困難.原因是在某些樣本點上一個模型的殘差的絕對值比另一個模型的小,而另一些樣本點的情況則相反.這時可以通過比較兩個模型的殘差平方和的大小來判斷模型的擬合效果.殘差平方和越小的模型,擬合的效果越好.由表 3 一 6 容易算出模型( 6 )和( 7 )的殘差平方和分別為 . 因此模型(6)的擬合效果遠遠優(yōu)于模型(7). 類似地,還可以用尸來比較兩個模型的擬合效果,R2越大,擬合的效果越好.由表 3 一 6 容易算出模型(6)和(7)的R2分別約為 0 . 98 和 0 . 80 ,因此模型( 6 )的效果好于模型(7) 的效果. 對于給定的樣本點() , () ,…, (),兩個含有未知參數(shù)的模型 和, 其中 a 和 b 都是未知參數(shù).可以按如下的步驟來比較它們的擬合效果: (1)分別建立對應于兩個模型的回歸方程與, ,其中和分別是參數(shù)a和b的估計值; (2)分別計算兩個回歸方程的殘差平方和與; ( s )若,則的效果比的好;反之,的效果不如的好. 例2:(提示后做練習、作業(yè))研究某灌溉渠道水的流速y與水深x之間的關系,測得一組數(shù)據(jù)如下: 水深xm 1.40 1.50 1.60 1.70 1.80 1.90 2.00 2.10 流速ym/s 1.70 1.79 1.88 1.95 2.03 2.10 2.16 2.21 (1)求y對x的回歸直線方程; (2)預測水深為1。95m 時水的流速是多少? 解:依題意,把溫度作為解釋變量x ,產(chǎn)卵個數(shù)y作為預報變量 , 作散點圖,由觀察知兩個變量不呈線性相關關系。但樣本點分布在某一條指數(shù)函數(shù) y=c1ec2 x 周圍. 令 z=lny , a=lnc1 , b=c2 則 z=bx+a 此時可用線性回歸來擬合 z=0.272x-3.843 因此紅鈴蟲的產(chǎn)卵數(shù)對溫度的非線性回歸方程為 Y=e0.272x-3.843. 3、從上節(jié)課的例1提出的問題引入線性回歸模型: Y=bx+a+e 解釋變量x 預報變量y 隨機誤差 e 4、(1) 相關指數(shù): 相關系數(shù) r (公式) , r>0 正相關. R<0 負相關 R絕對值接近于1相關性強接 r絕對值 近于0 相關性幾乎無 5、回憶建立模型的基本步驟 ① 例2 問題背景分析 畫散點圖。 ② 觀察散點圖,分析解釋變量與預報變量更可能是什么函數(shù)關系。 ③ 學生討論后建立自己的模型 ④ 引導學生探究如果不是線性回歸模型如何估計參數(shù)。能否利用回歸模型 通過探究體會有些不是線性的模型通過變換可以轉化為線性模型 ⑤ 對數(shù)據(jù)進行變換后,對數(shù)據(jù)(新)建立線性模型 ⑥ 轉化為原來的變量模型,并通過計算相關指數(shù)比較幾個不同模型的擬合效果 ⑦ 總結建模的思想。鼓勵學生大膽創(chuàng)新。 ⑧ 布置課后作業(yè): 習題1.1 1、 6、復習與鞏固:練習1:某班5名學生的數(shù)學和化學成績如下表所示,對x與y進行回歸分析,并預報某學生數(shù)學成績?yōu)?5分時,他的化學成績。 A B C D E 數(shù)學x 88 76 73 66 63 化學y 78 65 71 64 61 解略。 練習2:某醫(yī)院用光電比色計檢驗尿汞時,得尿汞含量 (mg/l) 與消光系數(shù)的結果如下: 尿汞含量x 2 4 6 8 10 消光系數(shù)y 64 138 205 285 360 (1)求回歸方程。(2)求相關指數(shù)R2。 解:略。 (三) 課堂小結 1.知識梳理: 2規(guī)律小結:(1)回歸直線方程;(2)樣本相關系數(shù);(3)樣本殘差分析;(4)樣本指數(shù); (5)建立回歸模型的基本步驟。 (四) 作業(yè): (五) 課后反思: 本節(jié)內容對回歸分析的探討過程很精彩,學生討論很熱烈,激發(fā)了學生的學習熱情。但對殘差分析學生只能欣賞它的過程,計算量太大,思維的跳躍性太強! 3.2 獨立性檢驗的基本思想及其初步應用 (共計3課時) 授課類型:新授課 一、教學內容與教學對象分析 通過典型案例,學習下列一些常用的統(tǒng)計方法,并能初步應用這些方法解決一些實際問題。 ① 通過對典型案例(如“患肺癌與吸煙有關嗎”等)的探究。了解獨立性檢驗(只要求2×2列聯(lián)表)的基本思想、方法及初步應用。 ② 通過對典型案例(如“人的體重與身高的關系”等)的探究,了解回歸的基本思想、 方法及其初步應用。 二. 學習目標 1、知識與技能 通過本節(jié)知識的學習,了解獨立性檢驗的基本思想和初步應用,能對兩個分類變量是否有關做出明確的判斷。明確對兩個分類變量的獨立性檢驗的基本思想具體步驟,會對具體問題作出獨立性檢驗。 2、過程與方法 在本節(jié)知識的學習中,應使學生從具體問題中認識進行獨立性檢驗的作用及必要性,樹立學好本節(jié)知識的信心,在此基礎上學習三維柱形圖和二維柱形圖,并認識它們的基本作用和存在的不足,從而為學習下面作好鋪墊,進而介紹K的平方的計算公式和K的平方的觀測值R的求法,以及它們的實際意義。從中得出判斷“X與Y有關系”的一般步驟及利用獨立性檢驗來考察兩個分類變量是否有關系,并能較準確地給出這種判斷的可靠程度的具體做法和可信程度的大小。最后介紹了獨立性檢驗思想的綜合運用。 3、情感、態(tài)度與價值觀 通過本節(jié)知識的學習,首先讓學生了解對兩個分類博變量進行獨立性檢驗的必要性和作用,并引導學生注意比較與觀測值之間的聯(lián)系與區(qū)別,從而引導學生去探索新知識,培養(yǎng)學生全面的觀點和辨證地分析問題,不為假想所迷惑,尋求問題的內在聯(lián)系,培養(yǎng)學生學習數(shù)學、應用數(shù)學的良好的數(shù)學品質。加強與現(xiàn)實生活相聯(lián)系,從對實際問題的分析中學會利用圖形分析、解決問題及用具體的數(shù)量來衡量兩個變量之間的聯(lián)系,學習用圖形、數(shù)據(jù)來正確描述兩個變量的關系。明確數(shù)學在現(xiàn)實生活中的重要作用和實際價值。教學中,應多給學生提供自主學習、獨立探究、合作交流的機會。養(yǎng)成嚴謹?shù)膶W習態(tài)度及實事求是的分析問題、解決問題的科學世界觀,并會用所學到的知識來解決實際問題。 三.教學重點、難點 教學重點:理解獨立性檢驗的基本思想;獨立性檢驗的步驟。 教學難點;1、理解獨立性檢驗的基本思想; 2、了解隨機變量K2的含義; 3、獨立性檢驗的步驟。 四、教學策略 教學方法:誘思探究教學法 學習方法:自主探究、觀察發(fā)現(xiàn)、合作交流、歸納總結。 教學手段:多媒體輔助教學 五、教學過程: 對于性別變量,其取值為男和女兩種.這種變量的不同“值”表示個體所屬的不同類別,像這類變量稱為分類變量.在現(xiàn)實生活中,分類變量是大量存在的,例如是否吸煙,宗教信仰,國籍,等等.在日常生活中,我們常常關心兩個分類變量之間是否有關系.例如,吸煙與患肺癌是否有關系?性別對于是否喜歡數(shù)學課程有影響?等等. 為調查吸煙是否對肺癌有影響,某腫瘤研究所隨機地調查了9965人,得到如下結果(單位:人) 表3-7 吸煙與肺癌列聯(lián)表 不患肺癌 患肺癌 總計 不吸煙 7775 42 7817 吸煙 2099 49 2148 總計 9874 91 9965 那么吸煙是否對患肺癌有影響嗎? 像表3一7 這樣列出的兩個分類變量的頻數(shù)表,稱為列聯(lián)表.由吸煙情況和患肺癌情況的列聯(lián)表可以粗略估計出:在不吸煙者中,有0.54 %患有肺癌;在吸煙者中,有2.28%患有肺癌.因此,直觀上可以得到結論:吸煙者和不吸煙者患肺癌的可能性存在差異. 與表格相比,三維柱形圖和二維條形圖能更直觀地反映出相關數(shù)據(jù)的總體狀況.圖3. 2 一1 是列聯(lián)表的三維柱形圖,從中能清晰地看出各個頻數(shù)的相對大?。? 圖3.2一2 是疊在一起的二維條形圖,其中淺色條高表示不患肺癌的人數(shù),深色條高表示患肺癌的人數(shù).從圖中可以看出,吸煙者中患肺癌的比例高于不吸煙者中患肺癌的比例. 為了更清晰地表達這個特征,我們還可用如下的等高條形圖表示兩種情況下患肺癌的比例.如圖3.2一3 所示,在等高條形圖中,淺色的條高表示不患肺癌的百分比;深色的條高表示患肺癌的百分比. 通過分析數(shù)據(jù)和圖形,我們得到的直觀印象是“吸煙和患肺癌有關”.那么我們是否能夠以一定的把握認為“吸煙與患肺癌有關”呢? 為了回答上述問題,我們先假設 H0:吸煙與患肺癌沒有關系.用A表示不吸煙, B表示不患肺癌,則“吸煙與患肺癌沒有關系”獨立”,即假設 H0等價于 PAB)=P(A)+P(B) . 把表3一7中的數(shù)字用字母代替,得到如下用字母表示的列聯(lián)表: 表3-8 吸煙與肺癌列聯(lián)表 不患肺癌 患肺癌 總計 不吸煙 a b a+b 吸煙 c d c+d 總計 a+c b+d a+b+c+d 在表3一8中,a恰好為事件AB發(fā)生的頻數(shù);a+b 和a+c恰好分別為事件A和B發(fā)生的頻數(shù).由于頻率近似于概率,所以在H0成立的條件下應該有 , 其中為樣本容量, (a+b+c+d)≈(a+b)(a+c) , 即ad≈bc. 因此,|ad-bc|越小,說明吸煙與患肺癌之間關系越弱;|ad -bc|越大,說明吸煙與患肺癌之間關系越強. 為了使不同樣本容量的數(shù)據(jù)有統(tǒng)一的評判標準,基于上面的分析,我們構造一個隨機變量 (1) 其中為樣本容量. 若 H0 成立,即“吸煙與患肺癌沒有關系”,則 K “應該很?。鶕?jù)表3一7中的數(shù)據(jù),利用公式(1)計算得到 K “的觀測值為 , 這個值到底能告訴我們什么呢? 統(tǒng)計學家經(jīng)過研究后發(fā)現(xiàn),在 H0成立的情況下, . (2) (2)式說明,在H0成立的情況下,的觀測值超過 6. 635 的概率非常小,近似為0 . 01,是一個小概率事件.現(xiàn)在的觀測值≈56.632 ,遠遠大于6. 635,所以有理由斷定H0不成立,即認為“吸煙與患肺癌有關系”.但這種判斷會犯錯誤,犯錯誤的概率不會超過0.01,即我們有99%的把握認為“吸煙與患肺癌有關系” 在上述過程中,實際上是借助于隨機變量的觀測值建立了一個判斷H0是否成立的規(guī)則: 如果≥6. 635,就判斷H0不成立,即認為吸煙與患肺癌有關系;否則,就判斷H0成立,即認為吸煙與患肺癌沒有關系 在該規(guī)則下,把結論“H0 成立”錯判成“H0 不成立”的概率不會超過 , 即有99%的把握認為從不成立. 上面解決問題的想法類似于反證法.要確認是否能以給定的可信程度認為“兩個分類變量有關系”,首先假設該結論不成立,即 H0:“兩個分類變量沒有關系” 成立.在該假設下我們所構造的隨機變量應該很?。绻捎^測數(shù)據(jù)計算得到的的觀測值k很大,則在一定可信程度上說明H0不成立,即在一定可信程度上認為“兩個分類變量有關系”;如果k的值很小,則說明由樣本觀測數(shù)據(jù)沒有發(fā)現(xiàn)反對H0 的充分證據(jù) 怎樣判斷的觀測值 k 是大還是小呢?這僅需確定一個正數(shù),當時就認為 的觀測值k大.此時相應于的判斷規(guī)則為: 如果,就認為“兩個分類變量之間有關系”;否則就認為“兩個分類變量之間沒有關系”. 我們稱這樣的為一個判斷規(guī)則的臨界值.按照上述規(guī)則,把“兩個分類變量之間沒有關系”錯誤地判斷為“兩個分類變量之間有關系”的概率為. 在實際應用中,我們把解釋為有的把握認為“兩個分類變量之間有關系”;把解釋為不能以的把握認為“兩個分類變量之間有關系”,或者樣本觀測數(shù)據(jù)沒有提供“兩個分類變量之間有關系”的充分證據(jù).上面這種利用隨機變量來確定是否能以一定把握認為“兩個分類變量有關系”的方法,稱為兩個分類變量的獨立性檢驗 利用上面結論,你能從列表的三維柱形圖中看出兩個變量是否相關嗎? 一般地,假設有兩個分類變量X和Y,它們的可能取值分別為{}和{}, 其樣本頻數(shù)列聯(lián)表(稱為2×2列聯(lián)表)為: 表3一 9 2×2列聯(lián)表 總計 總計 若要推斷的論述為 Hl:X與Y有關系, 可以按如下步驟判斷結論Hl 成立的可能性: 1.通過三維柱形圖和二維條形圖,可以粗略地判斷兩個分類變量是否有關系,但是這種判斷無法精確地給出所得結論的可靠程度. ① 在三維柱形圖中,主對角線上兩個柱形高度的乘積ad 與副對角線上的兩個柱形高度的乘積bc相差越大,H1成立的可能性就越大. ② 在二維條形圖中,可以估計滿足條件X=的個體中具有Y=的個體所占的比例,也可以估計滿足條件X=的個體中具有Y=,的個體所占的比例.“兩個比例的值相差越大,Hl 成立的可能性就越大. 2.可以利用獨立性檢驗來考察兩個分類變量是否有關系,并且能較精確地給出這種判斷的可靠程度.具體做法是: ① 根據(jù)實際問題需要的可信程度確定臨界值; ② 利用公式( 1 ) ,由觀測數(shù)據(jù)計算得到隨機變量的觀測值; ③ 如果,就以的把握認為“X與Y有關系”;否則就說樣本觀測數(shù)據(jù)沒有提供“X與Y有關系”的充分證據(jù). 在實際應用中,要在獲取樣本數(shù)據(jù)之前通過下表確定臨界值: 表3一10 0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001 0.455 0.708 1.323 2.072 1.323 2.706 3.841 5.024 6.635 10.828 (四)、舉例: 例1.在某醫(yī)院,因為患心臟病而住院的 665 名男性病人中,有 214 人禿頂,而另外 772 名不是因為患心臟病而住院的男性病人中有 175 人禿頂. (1)利用圖形判斷禿頂與患心臟病是否有關系. (2)能夠以 99 %的把握認為禿頂與患心臟病有關系嗎?為什么? 解:根據(jù)題目所給數(shù)據(jù)得到如下列聯(lián)表: (1)相應的三維柱形圖如圖3.2一4所示.比較來說,底面副對角線上兩個柱體高度的乘積要大一些,可以在某種程度上認為“禿頂與患心臟病有關”. (2)根據(jù)列聯(lián)表3一11中的數(shù)據(jù),得到 ≈16.373>6 . 因此有 99 %的把握認為“禿頂與患心臟病有關” . 例2.為考察高中生的性別與是否喜歡數(shù)學課程之間的關系,在某城市的某校高中生中隨機抽取300名學生,得到如下列聯(lián)表: 表3一12 性別與喜歡數(shù)學課程列聯(lián)表 喜歡數(shù)學課程 不喜歡數(shù)學課程 總計 男 37 85 122 女 35 143 178 總計 72 228 300 由表中數(shù)據(jù)計算得的觀測值.能夠以95%的把握認為高中生的性別與是否喜歡數(shù)學課程之間有關系嗎?請詳細闡明得出結論的依據(jù). 解:可以有約95%以上的把握認為“性別與喜歡數(shù)學課之間有關系”.作出這種判斷的依據(jù)是獨立性檢驗的基本思想,具體過程如下: 分別用a , b , c , d 表示樣本中喜歡數(shù)學課的男生人數(shù)、不喜歡數(shù)學課的男生人數(shù)、喜歡數(shù)學課的女生人數(shù)、不喜歡數(shù)學課的女生人數(shù).如果性別與是否喜歡數(shù)學課有關系,則男生中喜歡數(shù)學課的比例與女生中喜歡數(shù)學課的人數(shù)比例應該相差很多,即 應很大. 將上式等號右邊的式子乘以常數(shù)因子 , 然后平方得 , 其中.因此越大,“性別與喜歡數(shù)學課之間有關系”成立的可能性越大. 另一方面,在假設“性別與喜歡數(shù)學課之間沒有關系”的前提下,事件A ={≥3. 841}的概率為P (≥3. 841) ≈0.05, 因此事件 A 是一個小概率事件.而由樣本數(shù)據(jù)計算得的觀測值k=4.514,即小概率事件 A發(fā)生.因此應該斷定“性別與喜歡數(shù)學課之間有關系”成立,并且這種判斷結果出錯的可能性約為5 %.所以,約有95 %的把握認為“性別與喜歡數(shù)學課之間有關系”. 補充例題1:打鼾不僅影響別人休息,而且可能與患某種疾病有關,下表是一次調查所得的數(shù)據(jù),試問:每一晚都打鼾與患心臟病有關嗎? 患心臟病 未患心臟病 合計 每一晚都打鼾 30 224 254 不打鼾 24 1355 1379 合計 54 1579 1633 解:略。 補充例題2: 對196個接受心臟搭橋手術的病人和196個接受血管清障手術的病人進行3年跟蹤研究,調查他們是否又發(fā)作過心臟病,調查結果如下表所示: 又發(fā)作過心臟病 未發(fā)作過心臟病 合計 心臟搭橋手術 39 157 196 血管清障手術 29 167 196 合計 68 324 392 試根據(jù)上述數(shù)據(jù)比較兩種手術對病人又發(fā)作心臟病的影響有沒有差別。 解略 (四) 課堂小結 1.知識梳理 2.規(guī)律小結 (1)三維柱形圖與二維條形圖 (2)獨立性檢驗的基本思想 (3)獨立性檢驗的一般方法 (五) 作業(yè) 五 課后反思: 本節(jié)內容對獨立性檢驗的探討過程學生基本沒什么困難,還有學生提出了新的探討路徑和思想,學生思維活潑!對獨立性檢驗的作用,本節(jié)課也作了系統(tǒng)總結比較。 - 22 -- 配套講稿:
如PPT文件的首頁顯示word圖標,表示該PPT已包含配套word講稿。雙擊word圖標可打開word文檔。
- 特殊限制:
部分文檔作品中含有的國旗、國徽等圖片,僅作為作品整體效果示例展示,禁止商用。設計者僅對作品中獨創(chuàng)性部分享有著作權。
- 關 鍵 詞:
- 統(tǒng)計案例 數(shù)學 第三 統(tǒng)計 案例 教案 新人 選修
裝配圖網(wǎng)所有資源均是用戶自行上傳分享,僅供網(wǎng)友學習交流,未經(jīng)上傳用戶書面授權,請勿作他用。
鏈接地址:http://m.jqnhouse.com/p-1381537.html