2019-2020年高中數(shù)學 知識梳理 回歸分析的基本思想及其初步應用 北師大版選修2-3.doc
2019-2020年高中數(shù)學 知識梳理 回歸分析的基本思想及其初步應用 北師大版選修2-3
一.線性回歸方程的確定
如果一組具有相關關系的數(shù)據(jù) 作出散點圖大致分布在一條直線附近,那么我們稱這樣的變量之間的關系為線性相關關系(也稱一元線性相關),這條直線就是回歸直線,記為.
那么如何求得參數(shù)使得各點與此直線的距離的平方和為最小,即如何求得線性回歸方程呢?
在所求回歸直線方程中,當取時,與實際收集到的數(shù)據(jù)之間的偏差為,偏差的平方為(如圖1).
即 來刻畫出個點與回歸直線在整體上的偏差的平方和,顯然Q取最小值時的的值就是我們所求的:
其中為樣本數(shù)據(jù),為樣本平均數(shù),稱為樣本點中心,且所求線性回歸直線經(jīng)過樣本點中心(如圖2所示).
當回歸直線斜率時,為線性正相關, 時為線性負相關.
應注意,這個最小距離不是通常所指的各數(shù)據(jù)的點到直線的距離,而是各數(shù)據(jù)點沿平行y軸方向到直線的距離(如圖1所示).
y
圖1
y
圖2
對于上面參數(shù)的求法原理及方法是簡單的,但是運算量較大,需要將展開,再合并,然后配方整理,從而求得.
例如,當取怎樣實數(shù)時, 的值為最小,顯然當時最小值為,像這樣配方求最值的方法是經(jīng)常用到的, 線性回歸方程中的參數(shù)就是這樣求出的.
教材中用了添項法較為簡捷的求出了截距和斜率分別是使取最小值時的值.
求得,的值,請同學們體會其解法.
線性回歸方程的確定是進行回歸分析的基礎
二.回歸分析:是對具有相關關系的兩個變量進行統(tǒng)計分析的一種常用方法.
1.線性相關關系的強弱
兩個變量之間線性相關關系的樣本相關系數(shù)衡量線性相性關系的強弱,由于分子與斜率的分子一樣,因此,當時,兩個變量正相關;當時兩個變量負相關.當?shù)慕^對值接近1,表明兩個變量的線性相關性很強;當?shù)慕^對值接近0,表明兩個變量之間幾乎不存在線性相關關系.規(guī)定當時,我們認為兩個變量有很強的線性相關關系.
2.解釋變量與隨機誤差對預報精度的影響以及殘差分析
圖3
y
(1)有關概念
線性回歸模型 其中
和為模型的未知參數(shù);稱為解釋變
量,稱為預報變量;是與
之間的誤差,叫隨機誤差。隨機誤差的
估計值為
稱為相應于樣本點的殘差(如圖3).
(2)隨機誤差的方差估計值衡量回歸方程的預報精度
由于隨機誤差的均值=0,
因此,可以用隨機誤差的方差估計值=?。ㄆ渲?,殘差平方和為)衡量回歸方程的預報精度,顯然越小,預報精度越高。
(3)通過殘差分析判斷模型擬合效果
由計算出殘差,,…,,然后選取橫坐標為編號、或解釋變量或預報變量,縱坐標為殘差作出殘差圖.通過圖形分析,如果樣本點的殘差較大,就要分析樣本數(shù)據(jù)的采集是否有錯誤;另一方面,可以通過殘差點分布的水平帶狀區(qū)域的寬窄,說明模型擬合效果,反映回歸方程的預報精度.
3.相關指數(shù)反應模型的擬合效果
=
(1)變量理解:
為總偏差平方和,表示解釋變量和隨機誤差產(chǎn)生的總的效應;
為殘差平方和,表示了隨機誤差效應;
,表示了解釋變量效應.
(2)模型擬合效果
,反映了隨機誤差對預報變量(總效應)的貢獻率;
反映了解釋變量對預報變量(總效應)的貢獻率; 因此,越接近1(即越接近0),表示回歸的效果越好,即解釋變量和預報變量的線性相關性越強.
三.非線性回歸的問題轉(zhuǎn)化為線性回歸問題
圖4
(1)作散點圖確定曲線模型
根據(jù)收集的數(shù)據(jù)作散點圖(如圖4),可見
兩個變量不呈線性相關關系.而是分布在某一條
指數(shù)函數(shù)曲線的周圍,也可以認為樣本
點集中在某二次曲線的附近.
(2)非線性轉(zhuǎn)化為線性
這時通過對數(shù)變換把指數(shù)關系變?yōu)榫€性關系;通過換元把二次函數(shù)關系變換為線性關系. 在這兩種情況下就可以利用線性回歸模型,建立和之間的非線性回歸方程了.
(3)比較兩種模型的擬合效果
對于給定的樣本點
ⅰ可以通過轉(zhuǎn)換后的對應數(shù)表作散點圖來確定線性回歸的擬合情況,判斷選用哪一種曲線模型較為合適;
ⅱ可以通過原始數(shù)據(jù)及和之間的非線性回歸方程列出殘差對比分析表,一般通過殘差平方和比較兩種模型的擬合效果,顯然殘差平方和較小的擬合效果較好;
ⅲ還可以用來比較兩個模型的擬合效果,越大(越接近1),擬合效果越好。