《高三文科數學 通用版二輪復習:第1部分 專題3 突破點8 回歸分析、獨立性檢驗 Word版含解析》由會員分享,可在線閱讀,更多相關《高三文科數學 通用版二輪復習:第1部分 專題3 突破點8 回歸分析、獨立性檢驗 Word版含解析(11頁珍藏版)》請在裝配圖網上搜索。
1、
突破點8 回歸分析、獨立性檢驗
提煉1 變量的相關性 (1)正相關:在散點圖中,點散布在從左下角到右上角的區(qū)域.
(2)負相關:在散點圖中,點散布在從左上角到右下角的區(qū)域.
(3)相關系數r:當r>0時,兩變量正相關;當r<0時,兩變量負相關;當|r|≤1且|r|越接近于1,相關程度越高,當|r|≤1且|r|越接近于0,相關程度越低.
提煉2 線性回歸方程 方程=x+稱為線性回歸方程,其中=,=-.(,)稱為樣本中心點.
提煉3 獨立性檢驗 (1)確定分類變量,獲取樣本頻數,得到列聯(lián)表.
(2)求觀測值:k=.
(3)根據臨界值表,作出正確判斷.如果k≥kα,就
2、推斷“X與Y有關系”,這種推斷犯錯誤的概率不超過α,否則就認為在犯錯誤的概率不超過α的前提下不能推斷“X與Y有關系”.
回訪1 變量的相關性
1.(20xx全國卷Ⅱ)根據下面給出的2004年至我國二氧化硫年排放量(單位:萬噸)柱形圖,以下結論中不正確的是( )
圖81
A.逐年比較,減少二氧化硫排放量的效果最顯著
B.我國治理二氧化硫排放顯現成效
C.以來我國二氧化硫年排放量呈減少趨勢
D.以來我國二氧化硫年排放量與年份正相關
D 對于A選項,由圖知從到二氧化硫排放量下降得最多,故A正確.對于B選項,由圖知,由到矩形高度明顯下降,因此B正確.對于C選項,由圖知從以后除
3、稍有上升外,其余年份都是逐年下降的,所以C正確.由圖知以來我國二氧化硫年排放量與年份負相關,故選D.]
2.(20xx全國卷)在一組樣本數據(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散點圖中,若所有樣本點(xi,yi)(i=1,2,…,n)都在直線y=x+1上,則這組樣本數據的樣本相關系數為( )
A.-1 B.0
C. D.1
D 樣本點都在直線上時,其數據的估計值與真實值是相等的,即yi=i,代入相關系數公式r==1.]
3.(20xx全國卷Ⅰ)某公司為確定下一年度投入某種產品的宣傳費,需了解年宣傳費x(單位:千元
4、)對年銷售量y(單位:t)和年利潤z(單位:千元)的影響.對近8年的年宣傳費xi和年銷售量yi(i=1,2,…,8)數據作了初步處理,得到下面的散點圖及一些統(tǒng)計量的值.
圖82
(xi-)2
(wi-)2
(xi-)(yi-)
(wi-)(yi-)
46.6
563
6.8
289.8
1.6
1 469
108.8
表中wi=,w]=wi.
(1)根據散點圖判斷,y=a+bx與y=c+d哪一個適宜作為年銷售量y關于年宣傳費x的回歸方程類型?(給出判斷即可,不必說明理由)
(2)根據(1)的判斷結果及表中數據,建立y關于x的回歸方程;
(
5、3)已知這種產品的年利潤z與x,y的關系為z=0.2y-x.根據(2)的結果回答下列問題:
①年宣傳費x=49時,年銷售量及年利潤的預報值是多少?
②年宣傳費x為何值時,年利潤的預報值最大?
附:對于一組數據(u1,v1),(u2,v2),…,(un,vn),其回歸直線v=α+βu的斜率和截距的最小二乘估計分別為=,=-.
解] (1)由散點圖可以判斷,y=c+d適宜作為年銷售量y關于年宣傳費x的回歸方程類型.2分
(2)令w=,先建立y關于w的線性回歸方程.
由于===68,
=- =563-686.8=100.6,4分
所以y關于w的線性回歸方程為=100.6+68w,
6、因此y關于x的回歸方程為=100.6+68.6分
(3)①由(2)知,當x=49時,
年銷售量y的預報值=100.6+68=576.6,
年利潤z的預報值=576.60.2-49=66.32.8分
②根據(2)的結果知,年利潤z的預報值
=0.2(100.6+68)-x=-x+13.6+20.12.10分
所以當==6.8,即x=46.24時,取得最大值.
故年宣傳費為46.24千元時,年利潤的預報值最大.12分
回訪2 獨立性檢驗
4.(20xx遼寧高考)電視傳媒公司為了解某地區(qū)電視觀眾對某類體育節(jié)目的收視情況,隨機抽取了100名觀眾進行調查.下面是根據調查結果繪制的觀眾日
7、均收看該體育節(jié)目時間的頻率分布直方圖:
圖83
將日均收看該體育節(jié)目時間不低于40分鐘的觀眾稱為“體育迷”.
根據已知條件完成下面的22列聯(lián)表,并據此資料你是否認為“體育迷”與性別有關?
非體育迷
體育迷
合計
男
女
10
55
合計
解] 由頻率分布直方圖可知,在抽取的100人中,“體育迷”有25人,從而22列聯(lián)表如下:
非體育迷
體育迷
合計
男
30
15
45
女
45
10
55
合計
75
25
100
4分
將22列聯(lián)表中的數據代入公式計算,得
k===≈3.030.因為3.030<
8、3.841,所以沒有理由認為“體育迷”與性別有關.10分
熱點題型1 回歸分析
題型分析:高考命題常以實際生活為背景,重在考查回歸分析中散點圖的作用、回歸方程的求法和應用,難度中等.
在一次抽樣調查中測得樣本的5組數據,得到一個變量y關于x的回歸方程模型,其對應的數值如下表:
x
0.25
0.5
1
2
4
y
16
12
5
2
1
(1)試作出散點圖,根據散點圖判斷,y=a+bx與y=+m哪一個適宜作為變量y關于x的回歸方程模型?(給出判斷即可,不必說明理由)
(2)根據(1)的判斷結果及表中數據,建立變量y關于x的回歸方程;
(3)根據(2)
9、中所求的變量y關于x的回歸方程預測:當x=3時,對應的y值為多少?(保留四位有效數字)
解] (1)作出變量y與x之間的散點圖,如圖所示,
2分
由圖可知變量y與x近似地呈反比例函數關系,
那么y=+m適宜作為變量y關于x的回歸方程模型.4分
(2)由(1)知y=+m適宜作為變量y關于x的回歸方程模型,令t=,則y=kt+m,由y與x的數據表可得y與t的數據表如下:
t
4
2
1
0.5
0.25
y
16
12
5
2
1
……………6分
作出y與t的散點圖,如圖所示.
8分
由圖可知y與t近似地呈線性相關關系.
又=1.55,=7.
10、2,iyi=94.25,=21.312 5,
所以k==≈4.134 4,m=-k=7.2-4.134 41.55≈0.8,
所以y=4.134 4t+0.8,
所以y關于x的回歸方程為y=+0.8.10分
(3)由(2)得y關于x的回歸方程是y=+0.8,
當x=3時,可得y=+0.8≈2.178.12分
1.正確理解計算,的公式和準確的計算,是求線性回歸方程的關鍵.其中線性回歸方程必過樣本中心點(,).
2.在分析兩個變量的相關關系時,可根據樣本數據作出散點圖來確定兩個變量之間是否具有相關關系,若具有線性相關關系,則可通過線性回歸方程估計和預測變量的值.
變式訓練1]
11、(20xx石家莊二模)為了解某地區(qū)某種農產品的年產量x(單位:噸)對價格y(單位:千元/噸)和年利潤z的影響,對近五年該農產品的年產量和價格統(tǒng)計如下表:
x
1
2
3
4
5
y
7.0
6.5
5.5
3.8
2.2
(1)求y關于x的線性回歸方程=x+;
(2)若每噸該農產品的成本為2千元,假設該農產品可全部賣出,預測當年產量為多少時,年利潤z取到最大值?(保留兩位小數)
參考公式:==,=-.
解] (1)=3,=5,2分
i=15,i=25,iyi=62.7,=55,
解得=-1.23,=8.69,4分
所以=8.69-1.23x.6分
(2)
12、年利潤z=x(8.69-1.23x)-2x=-1.23x2+6.69x,10分
所以當x=2.72,即年產量為2.72噸時,年利潤z取得最大值.12分
熱點題型2 獨立性檢驗
題型分析:盡管全國卷Ⅰ在近幾年未在該點命題,但其極易與分層抽樣、古典概型等知識交匯,是潛在的命題點之一,須引起足夠的重視.
(20xx河南省名校期中)微信是騰訊公司推出的一種手機通訊軟件,它支持發(fā)送語音短信、視頻、圖片和文字,一經推出便風靡全國,甚至涌現出一批在微信的朋友圈內銷售商品的人(被稱為微商).為了調查每天微信用戶使用微信的時間,某經銷化妝品的微商在一廣場隨機采訪男性、女性用戶各50名,其中每天玩微信超
13、過6小時的用戶列為“微信控”,否則稱其為“非微信控”,調查結果如下:
微信控
非微信控
總計
男性
26
24
50
女性
30
20
50
總計
56
44
100
(1)根據以上數據,能否有60%的把握認為“微信控”與“性別”有關?
(2)現從調查的女性用戶中按分層抽樣的方法選出5人贈送營養(yǎng)面膜1份,求所抽取5人中“微信控”和“非微信控”的人數;
(3)從(2)中抽取的5人中再隨機抽取2人贈送200元的護膚品套裝,求這2人中至少有1人為“非微信控”的概率.
參考公式:K2=,其中n=a+b+c+d.
參考數據:
P(K2≥k0)
0.50
14、0.40
0.25
0.05
0.025
0.010
k0
0.455
0.708
1.323
3.841
5.024
6.635
解題指導] 計算k下結論求“微信控”及“非微信控”人數求得概率.
解] (1)由列聯(lián)表可得k==≈0.649 35<0.708,2分
所以沒有60%的把握認為“微信控”與“性別”有關.3分
(2)依題意可知,所抽取的5位女性中,
“微信控”有5=3(人),“非微信控”有5=2(人).5分
(3)記5人中的“微信控”為a,b,c,“非微信控”為D,E,
則所有可能的基本事件為(a,b),(a,c),(a,D),(a,E),(b,c
15、),(b,D),(b,E),(c,D),(c,E),(D,E),共10種,8分
其中至少有1人為“非微信控”的基本事件有(a,D),(a,E),(b,D),(b,E),(c,D),(c,E),(D,E),共7種,10分
所以這2人中至少有1人為“非微信控”的概率為.12分
求解獨立性檢驗問題時要注意:一是22列聯(lián)表中的數據與公式中各個字母的對應,不能混淆;二是注意計算得到k之后的結論.
變式訓練2] 某高校共有學生15 000人,其中男生10 500人,女生4 500人.為調查該校學生每周平均體育運動時間的情況,采用分層抽樣的方法,收集300位學生每周平均體育運動時間的樣本數據(單
16、位:小時).
(1)應收集多少位女生的樣本數據?
(2)根據這300個樣本數據,得到學生每周平均體育運動時間的頻率分布直方圖(如圖所示),其中樣本數據的分組區(qū)間為:0,2],(2,4],(4,6],(6,8],(8,10],(10,12].估計該校學生每周平均體育運動時間超過4小時的概率;
(3)在樣本數據中,有60位女生的每周平均體育運動時間超過4小時,請完成每周平均體育運動時間與性別列聯(lián)表,并判斷是否有95%的把握認為“該校學生的每周平均體育運動時間與性別有關”.
附:K2=,
P(K2≥k0)
0.10
0.05
0.010
0.005
k0
2.706
3.84
17、1
6.635
7.879
解] (1)300=90,所以應收集90位女生的樣本數據.2分
(2)由頻率分布直方圖得1-2(0.100+0.025)=0.75,所以該校學生每周平均體育運動時間超過4小時的概率的估計值為0.75.5分
(3)由(2)知,300位學生中有3000.75=225人的每周平均體育運動時間超過4小時,75人的每周平均體育運動時間不超過4小時.又因為樣本數據中有210份是關于男生的,90份是關于女生的,所以每周平均體育運動時間與性別列聯(lián)表如下:
每周平均體育運動時間與性別列聯(lián)表:
男生
女生
總計
每周平均體育運動時間不超過4小時
45
30
75
每周平均體育運動時間超過4小時
165
60
225
總計
210
90
300
8分
結合列聯(lián)表可算得k==≈4.762>3.841.10分
所以有95%的把握認為“該校學生的每周平均體育運動時間與性別有關”.12分