《散點圖、相關(guān)系數(shù).ppt》由會員分享,可在線閱讀,更多相關(guān)《散點圖、相關(guān)系數(shù).ppt(49頁珍藏版)》請在裝配圖網(wǎng)上搜索。
1、1,SPSS基礎(chǔ)與Access數(shù)據(jù)庫,姓名:鄭戟明電話:67703855E-mail:shift_zjm@答疑地點:學(xué)院樓B421答疑時間:,商務(wù)信息學(xué)院計算機教學(xué)部,均值比較比較樣本均值與總體均值之間的差異單樣本T檢驗獨立樣本T檢驗配對樣本T檢驗,上節(jié)回顧,3,第11講散點圖、相關(guān)系數(shù),4,相關(guān)概念,5,一、相關(guān)的概念,變量之間關(guān)系的概念客觀世界中,事物之間存在相互依存、相互制約、相互影響的關(guān)系。用于描述事物數(shù)量特征的變量之間也存在一定的關(guān)系。這些關(guān)系分為兩種:(1)函數(shù)關(guān)系:變量之間的一一對應(yīng)的關(guān)系,當(dāng)自變量x取一定值時,因變量y依據(jù)函數(shù)關(guān)系取唯一的值。如:在單價確定時,銷售量與銷售額之間
2、的關(guān)系:y=f(x)銷售額=價格*銷售量圓的面積與圓的半徑之間的關(guān)系:圓面積=3.14*半徑^2,,,6,一、相關(guān)的概念,關(guān)系的概念(2)相關(guān)關(guān)系:如果變量之間存在密切的關(guān)系,但又不能由一個或幾個變量的值確定另一個變量的值,當(dāng)自變量x取一定值時,因變量y的值可能有多個,這種變量之間的非一一對應(yīng)的、不確定的關(guān)系,稱之為相關(guān)關(guān)系。如:子女身高與父母身高之間的關(guān)系證券指數(shù)與利率之間的關(guān)系,7,一、相關(guān)的概念,相關(guān)關(guān)系的分類(1)按相關(guān)的程度分為:完全相關(guān):一個變量的取值完全取決于另一個變量,數(shù)據(jù)點落在一條直線(或曲線)上相關(guān):一個變量的取值部分取決于另一個變量,數(shù)據(jù)點圍繞分布在一條直線(或曲線)上不
3、相關(guān):兩個變量的數(shù)據(jù)點分布很分散,無任何規(guī)律,8,一、相關(guān)的概念,相關(guān)關(guān)系的分類(2)按相關(guān)的表現(xiàn)形式分為:線性相關(guān):兩個變量之間的關(guān)系近似地表現(xiàn)為一條直線非線性相關(guān):兩個變量之間的關(guān)系近似地表現(xiàn)為一條曲線,9,一、相關(guān)的概念,相關(guān)關(guān)系的分類(3)按相關(guān)的方向分為:正相關(guān):一個變量增加(減少),導(dǎo)致另一個變量增加(減少)負(fù)相關(guān):一個變量增加(減少),導(dǎo)致另一個變量減少(增加),10,一、相關(guān)的概念,線性相關(guān)程度的四種相關(guān)關(guān)系強正線性相關(guān):一個變量x增加,導(dǎo)致另一個變量y明顯增加,說明x是影響變量y的主要因素弱正線性相關(guān):一個變量x增加,導(dǎo)致另一個變量y增加,但不明顯,說明x是影響變量y的因素,
4、但不是唯一的影響因素強負(fù)線性相關(guān):一個變量x增加,導(dǎo)致另一個變量y明顯減少,說明x是影響變量y的主要因素弱負(fù)線性相關(guān):一個變量x增加,導(dǎo)致另一個變量y減少,但不明顯,說明x是影響變量y的因素,但不是唯一的影響因素,11,一、相關(guān)的概念,相關(guān)分析的概念相關(guān)分析就是描述兩個或兩個以上變量間關(guān)系密切程度的統(tǒng)計方法,有效地揭示事物之間相關(guān)關(guān)系的強弱程度。相關(guān)分析的方法圖形(散點圖):常用的一種直觀的分析方法,將樣本數(shù)據(jù)點繪制在二維平面或三維空間上,根據(jù)這些數(shù)據(jù)點的分布特征,能夠直觀地研究變量間的統(tǒng)計關(guān)系以及它們的強弱程度和數(shù)據(jù)對的可能走向。數(shù)值(相關(guān)系數(shù)):變量間關(guān)系的密切程度常以一個數(shù)量性指標(biāo)描述,
5、這個指標(biāo)稱相關(guān)系數(shù),r=0.8,12,一、相關(guān)的概念,SPSS提供了三種相關(guān)分析的方法二元變量分析(Bivariate):偏相關(guān)分析(Partial):距離相關(guān)分析(Distances):,,,13,相關(guān)分析的方法,14,二、相關(guān)分析的方法,散點圖散點圖是相關(guān)分析過程中常用的一種直觀的分析方法;將樣本數(shù)據(jù)點繪制在二維平面或三維空間上,根據(jù)數(shù)據(jù)點的分布特征,直觀的研究變量之間的統(tǒng)計關(guān)系以及強弱程度。,就兩個變量而言,如果變量之間的關(guān)系近似地表現(xiàn)為一條直線,則稱為線性相關(guān),如圖(a)和(b);如果變量之間的關(guān)系近似地表現(xiàn)為一條曲線,則稱為非線性相關(guān)或曲線相關(guān),如圖(c);如果兩個變量的觀測點很分散
6、,無任何規(guī)律,則表示變量之間沒有相關(guān)關(guān)系,如圖(d)。,15,二、相關(guān)分析的方法,相關(guān)系數(shù)散點圖能夠直觀地反映變量之間的關(guān)系,但不精確。相關(guān)系數(shù)以數(shù)值的方式精確地反映了變量之間線性關(guān)系的強弱程度。相關(guān)系數(shù)通過正、負(fù)表示相關(guān)的方向,相關(guān)系數(shù)r的取值在-1~+1之間:下表中是通過相關(guān)系數(shù)來描述相關(guān)程度不同類型的變量采用不同的相關(guān)系數(shù)指標(biāo),但取值范圍和含義都是相同的,16,二、相關(guān)分析的方法,相關(guān)系數(shù)的分類Pearson簡單相關(guān)系數(shù)(皮爾遜)用來度量正態(tài)分布的定距變量間的線性相關(guān)關(guān)系Pearson簡單相關(guān)系數(shù)不能用于度量變量之間的非線性關(guān)系Spearman秩相關(guān)系數(shù)(斯皮爾曼)采用非參數(shù)檢驗方法來度
7、量定序變量間的線性相關(guān)關(guān)系由于數(shù)據(jù)為非定距變量,因此不能直接采用原始數(shù)據(jù),而是利用數(shù)據(jù)的秩Kendallτ秩相關(guān)系數(shù)(肯德爾)采用非參數(shù)檢驗方法來度量定序變量間的線性相關(guān)關(guān)系,看備注頁,17,二、相關(guān)分析的方法,利用相關(guān)系數(shù)進行變量之間線性關(guān)系的分析利用相關(guān)系數(shù)進行變量之間線性關(guān)系的分析分兩步:(1)利用樣本數(shù)據(jù)計算樣本相關(guān)系數(shù)r;(2)對樣本的總體是否存在顯著的線性關(guān)系進行推測。注:顯著的相關(guān)性并不能導(dǎo)出任何因果結(jié)論。,18,二、相關(guān)分析的方法,對樣本的線性關(guān)系進行推測步驟由于存在抽樣的隨機性以及樣本數(shù)量較少等原因,通常樣本相關(guān)系數(shù)不能直接反映樣本是否存在顯著的線性相關(guān)關(guān)系,需要通過假設(shè)檢驗
8、的方式對樣本的總體進行統(tǒng)計推測。推測步驟(1)提出零假設(shè)H0:兩總體線性不相關(guān)(或相關(guān)系數(shù)與0無顯著性差異)(2)選擇檢驗統(tǒng)計量:對不同變量采用不同的相關(guān)系數(shù),同時也采用不同的檢驗統(tǒng)計量(3)計算統(tǒng)計量的觀測值和對應(yīng)的概率p值;(4)對總體的相關(guān)性進行推斷,19,二、相關(guān)分析的方法,根據(jù)概率P進行解釋檢驗統(tǒng)計量的概率p值小于給定的顯著性水平α值(0.05),拒絕零假設(shè),認(rèn)為總體相關(guān)。若檢驗統(tǒng)計量的概率p值大于給定的顯著性水平α值(0.05),接受零假設(shè),認(rèn)為總體不相關(guān)。通常認(rèn)為α<0.05,認(rèn)為總體相關(guān);α<0.01,認(rèn)為總體顯著相關(guān)。,20,二元變量分析,21,三、二元變量分析,概念二元變量
9、分析(Bivariate)是研究和分析兩個變量之間相關(guān)程度的統(tǒng)計方法。應(yīng)用很多時候都是通過兩個變量進行相關(guān)分析,所以兩個變量之間相關(guān)程度的分析應(yīng)用十分廣泛。如:家庭收入與家庭消費支出之間關(guān)系是否相關(guān)商品銷售價格與商品銷售額之間關(guān)系是否相關(guān)客戶滿意度與商業(yè)企業(yè)綜合競爭力之間關(guān)系是否相關(guān)廣告投入和銷售額之間關(guān)系是否相關(guān),22,三、二元變量分析,SPSS操作及案例分析例一:為了研究某項職業(yè)技能和員工年齡之間的關(guān)系,對員工進行職業(yè)技能測試,得到有關(guān)上述兩變量的數(shù)據(jù)表?,F(xiàn)以年齡作為自變量x,職業(yè)技能測試得分為因變量y,以兩變量數(shù)據(jù)為依據(jù),繪制散點圖分析兩變量之間的相關(guān)關(guān)系。注意:通過散點圖只是初步分析兩
10、變量之間的相關(guān)關(guān)系通常用散點圖描述相關(guān)關(guān)系的表達方式:完全相關(guān)較強(正/負(fù))相關(guān)較弱(正/負(fù))相關(guān)不相關(guān),23,三、二元變量分析,SPSS操作及案例分析結(jié)果分析:從散點圖中可以看出,點的分布比較分散,在擬合線上或周圍的點分布較少,說明兩變量之間相關(guān)程度較弱。從擬合線的趨勢來看,職業(yè)技能和員工年齡之間之間有一定的相關(guān)關(guān)系,而且是隨著年齡的增加,職業(yè)技能測試得分會隨之上升,但上升幅度較小。所以上述兩變量之間具有較弱正相關(guān)的關(guān)系。通過對散點圖的編輯,可以添加擬合線,,24,三、二元變量分析,SPSS操作及案例分析操作步驟Graphs→Scatter/Dot…數(shù)據(jù)文件:8-Bivariate_age.
11、sav保存文件:8-Bivariate_age.spo,常用的散點圖類型簡單散點圖重疊散點圖矩陣散點圖三維散點圖單點散點圖,25,三、二元變量分析,SPSS操作及案例分析散點圖的其他應(yīng)用(1)在散點圖中設(shè)置散點標(biāo)記。,26,三、二元變量分析,SPSS操作及案例分析散點圖的其他應(yīng)用(2)在散點圖中設(shè)置散點標(biāo)簽。,,,,1,2,6,,,3,4,5,,,,SPSS操作及案例分析散點圖的其他應(yīng)用(3)在散點圖中添加擬合線。,27,三、二元變量分析,1.雙擊該圖區(qū),SPSS操作及案例分析散點圖的其他應(yīng)用(4)計算相關(guān)系數(shù)。Analyze→Correlate→Bivariate...,28,三、二元變量分
12、析,解釋:1.Sig.=0.041<0.05,拒絕H0假設(shè),表明兩變量之間是相關(guān)的。2.由于r=0.229<0.3,為微弱正相關(guān)。,29,三、二元變量分析,SPSS操作及案例分析例二:在有氧訓(xùn)練中,人的耗氧量y(毫升/分*千克體重)是衡量人的身體狀況的重要指標(biāo),它與多項指標(biāo)有關(guān)。為了研究人的耗氧量與多項指標(biāo)之間的關(guān)系,對31名測試者進行測試?,F(xiàn)以人的耗氧量y為因變量,多項指標(biāo)中之一1.5英里跑所用時間x3為自變量,通過散點圖和相關(guān)系數(shù),分析研究耗氧量y與1.5英里跑所用時間x3之間的相關(guān)關(guān)系。,30,三、二元變量分析,SPSS操作及案例分析結(jié)果分析:從散點圖中可以看出,耗氧量y與1.5英里跑所
13、用時間x3之間存在較強負(fù)相關(guān)的關(guān)系,即1.5英里跑所用時間增加,耗氧量會隨之降低。伴隨概率P=0.000<0.01,說明兩變量之間是相關(guān)關(guān)系;在相關(guān)系數(shù)表中,r=-0.832,說明兩變量之間高度負(fù)相關(guān)。,,31,三、二元變量分析,SPSS操作及案例分析結(jié)果分析:擬合線。,32,三、二元變量分析,SPSS操作及案例分析操作步驟:(1)散點圖:Graphs→Scatter/Dot…數(shù)據(jù)文件:8-Bivariate.sav保存文件:8-Bivariate1.spo,33,三、二元變量分析,SPSS操作及案例分析操作步驟:(2)相關(guān)系數(shù):Analyze→Correlate→Bivariate…數(shù)據(jù)文件
14、:8-Bivariate.sav保存文件:8-Bivariate2.spo,34,三、二元變量分析,SPSS操作及案例分析例三:利用例二的數(shù)據(jù),分析因變量y(人的耗氧量),與自變量x1、x2、x3、x4、x5、x6之間的關(guān)系。與耗氧量有關(guān)的因素年齡x1(歲)體重x2(次/分)1.5英里跑所用時間x3(分)靜止時心跳速率x4(次/分)跑步時心跳速率x5(次/分)跑步時最大心跳速率x6(次/分),35,三、二元變量分析,SPSS操作及案例分析結(jié)果圖:,36,三、二元變量分析,SPSS操作及案例分析結(jié)果分析:從相關(guān)系數(shù)計算結(jié)果來看:(1)耗氧量y與1.5英里跑所用時間x3、靜止時心跳速率x4、跑步時
15、心跳速率x5相關(guān)程度較高,其中耗氧量與1.5英里跑所用時間的r=-0.832,伴隨概率P=0.000<0.01,屬于顯著相關(guān);其他兩項r=-0.436,r=-0.420,伴隨概率P分別等于0.014和0.019大于0.01,但小于0.05也屬于相關(guān);(2)上述三個變量與耗氧量之間的關(guān)系都屬于負(fù)相關(guān)。結(jié)論:跑步速度快、靜止時心跳速率慢、跑步時心跳速率慢的人,耗氧量大;反之,耗氧量小。,37,三、二元變量分析,SPSS操作及案例分析操作步驟:操作步驟:Analyze→Correlate→Bivariate…數(shù)據(jù)文件:8-Bivariate.sav保存文件:8-Bivariate_all.spo,3
16、8,偏相關(guān)分析,39,四、偏相關(guān)分析,概念在多元相關(guān)分析中,由于受到其他變量的影響,在計算某兩個變量之間的相關(guān)系數(shù)時,得到的結(jié)果往往不能真實反映變量之間的相關(guān)關(guān)系所以在多元相關(guān)分析中,通常將其他變量固定(控制),而計算某兩個變量之間的相關(guān)系數(shù),稱為偏相關(guān)系數(shù)。偏相關(guān)分析用于計算變量之間的偏相關(guān)系數(shù),可以判斷自變量對因變量的影響程度,舍棄影響較小的自變量,保留影響較大的自變量,從而更準(zhǔn)確地判斷變量之間的相關(guān)關(guān)系和相關(guān)程度。,40,四、偏相關(guān)分析,SPSS操作及案例分析例四:以數(shù)據(jù)文件“Cars.sav”為例,分析在油耗不變的情況下、汽車馬力(horse)和加速度(accel)的偏相關(guān)系數(shù)。,41
17、,四、偏相關(guān)分析,SPSS操作及案例分析結(jié)果分析汽車馬力和加速度的偏相關(guān)系數(shù)為-0.622,有效樣本數(shù)為389,顯著性水平為0.000,這兩個變量的偏相關(guān)系數(shù)小于0.01,屬于顯著負(fù)相關(guān)關(guān)系。結(jié)論:在油耗量不變的情況下,汽車發(fā)動機功率越大,汽車加速到某個速度的時間越短。,,42,四、偏相關(guān)分析,SPSS操作及案例分析同樣是上述例子,(1)不考慮油耗量汽車馬力和加速度的相關(guān)系數(shù)為-0.701,顯著性水平為0.000(即:Analyze→Correlate→Bivariate…)(2)考慮油耗量汽車馬力和加速度的偏相關(guān)系數(shù)為-0.622,顯著性水平為0.000(即:Analyz→Correlate
18、→Partial…),,,43,四、偏相關(guān)分析,SPSS操作及案例分析操作步驟:不考慮油耗相關(guān)Analyz→Correlate→Bivariate…數(shù)據(jù)文件:8-Cars.sav保存文件:8-Cars1.spo,44,四、偏相關(guān)分析,SPSS操作及案例分析操作步驟:考慮油耗偏相關(guān)Analyz→Correlate→Partial…數(shù)據(jù)文件:8-Cars.sav保存文件:8-Cars2.spo,45,思考題,P146第1題數(shù)據(jù)文件:8-World95.sav保存文件:8-World95.spo第2題數(shù)據(jù)文件:8-Bivariate_mouse.sav保存文件:8-Bivariate_mouse.s
19、po(包含散點圖)第3題數(shù)據(jù)文件:8-Bivariate_mark.sav保存文件:8-Bivariate_mark.spo(包含散點圖),46,思考題,第4題(補充)已知有某河流的一年月平均流量觀測數(shù)據(jù)和該河流所在地區(qū)當(dāng)年的月平均雨量和月平均溫度觀測數(shù)據(jù),試分析溫度與河水流量之間的相關(guān)關(guān)系。分別用相關(guān)分析和偏相關(guān)分析方法分別計算相關(guān)系數(shù)和偏相關(guān)系數(shù),并對計算結(jié)果進行對比分析。(提示:河水流量除了和溫度有關(guān)外,降雨量也是影響流量的一個因素,在進行偏相關(guān)分析時,可以將雨量作為控制變量,進行分析。)數(shù)據(jù)文件:8-flow.sav保存文件:8-flow.spo,思考題,第5題(補充)銷售商對產(chǎn)品的銷售業(yè)績的影響因素進行研究,現(xiàn)在通過調(diào)查獲取了銷售人員從事本行業(yè)的時間(年)和銷售人員年齡的數(shù)據(jù),試?yán)闷嚓P(guān)分析方法計算偏相關(guān)系數(shù),并對計算結(jié)果進行對比分析。(提示:通常認(rèn)為從事本行業(yè)的時間和銷售業(yè)績是有關(guān)的,請分析如果考慮年齡因素是否會影響上述判斷)數(shù)據(jù)文件:8-sales.sav保存文件:8-sales.spo,48,回歸概念、回歸系數(shù)研究一個或者多個變量的變動對另一個變量的變動的影響程度的方法線性回歸分析曲線估計非線性回歸分析,下節(jié)展望,49,謝,結(jié)束,謝,