商業(yè)分析第9章商業(yè)信息可視化
《商業(yè)分析第9章商業(yè)信息可視化》由會(huì)員分享,可在線閱讀,更多相關(guān)《商業(yè)分析第9章商業(yè)信息可視化(124頁(yè)珍藏版)》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。
1、-商業(yè)數(shù)據(jù)的分析、挖掘和應(yīng)用華東師范大學(xué)出版社 數(shù)據(jù)可視化的定義,分類(lèi)及工具。 根據(jù)類(lèi)別分別闡述了數(shù)據(jù)可視化的方法和具體實(shí)現(xiàn)過(guò)程。 多維信息可視化的定義,分類(lèi)及實(shí)現(xiàn)。 數(shù)據(jù)可視化包含科學(xué)可視化與信息可視化兩個(gè)分支。 信息可視化技術(shù)通過(guò)對(duì)數(shù)據(jù)進(jìn)行交互的可視化表達(dá),以增強(qiáng)認(rèn)知,并從中發(fā)現(xiàn)規(guī)律和獲取知識(shí)。 信息可視化的工具有很多,本章主要介紹Excel和R兩種工具的繪圖方法。 基于比較的繪圖 基于分布的繪圖 基于組合的繪圖 基于關(guān)系的繪圖 基于時(shí)間的繪圖 用來(lái)比較的變量通常是條目相關(guān)或者是事件相關(guān)的變量。 對(duì)于條目相關(guān)變量,較適合使用柱形圖或條形圖; 對(duì)于時(shí)間相關(guān)變量,較適合使用柱形圖或折線圖。 柱
2、形圖用來(lái)顯示不同時(shí)間內(nèi)數(shù)據(jù)的變化情況,或用于對(duì)各項(xiàng)數(shù)據(jù)進(jìn)行比較,是最普通的商用圖表種類(lèi)。 主要由圖表標(biāo)題、坐標(biāo)軸標(biāo)題、圖例、主體等構(gòu)成。 按形狀分,可以分為二維柱形圖、三維柱形圖、圓柱圖、圓錐圖以及棱錐圖等;按功能分,柱形圖包括簇狀柱形圖、堆積柱形圖、百分比堆積柱形圖等。 下面分別介紹這幾種圖形及其示例。 簇狀柱形圖主要用于比較各個(gè)時(shí)間、各個(gè)類(lèi)別的數(shù)值,它以二維垂直矩形顯示數(shù)值。除二維簇狀柱形圖外,簇狀柱形圖還可以用三維格式顯示,三維簇狀柱形圖可以變形為三維簇狀圓柱圖、三維簇狀圓錐圖和三維簇狀棱錐圖幾種形式。 簇狀柱形圖三維簇狀柱形圖 三維簇狀圓柱圖 三維簇狀圓錐圖三維簇狀棱錐圖圖9-1. 簇
3、狀柱形圖 堆積柱形圖將每個(gè)類(lèi)別的所有序列在單個(gè)柱形中堆積顯示。每個(gè)柱形的高度由相應(yīng)類(lèi)別的所有序列值的總和確定。 堆積柱形圖只要用于表征單個(gè)項(xiàng)目和整體之間的關(guān)系,能夠比較每個(gè)類(lèi)別的每個(gè)數(shù)值所占總數(shù)值的大小,特別適合具有多個(gè)數(shù)據(jù)系列且希望強(qiáng)調(diào)總數(shù)值的場(chǎng)合。 堆積柱形圖 三維堆積柱形圖 三維堆積圓柱圖 三維堆積圓錐圖 三維堆積棱錐圖 圖9-2. 堆積柱形圖 百分比堆積柱形圖將每個(gè)類(lèi)別的所有序列在單個(gè)柱形中堆積顯示,每個(gè)柱形始終與圖表等高,其序列值按每個(gè)柱形的百分比形式顯示。 百分比堆積柱形圖是以百分比形式比較各類(lèi)別的值在總和中的分布情況,這種圖表也可以以三維效果顯示,包括三維百分比堆積柱形圖、三維百
4、分比堆積圓柱圖、三維百分比堆積圓錐圖、三維百分比堆積棱錐圖4種形式。 百分比堆積柱形圖三維百分比堆積柱形圖三維百分比堆積圓柱圖三維百分比堆積圓錐圖 三維百分比堆積棱錐圖圖9-3. 百分比堆積柱形圖 三維柱形圖使用可修改的三個(gè)軸(水平軸、垂直軸、深度軸),來(lái)對(duì)沿水平軸和深度軸分布的數(shù)據(jù)點(diǎn)進(jìn)行比較。在需要對(duì)均勻分布在各類(lèi)別和各系列的數(shù)據(jù)進(jìn)行比較時(shí),可以使用三維柱形圖。 三維柱形圖三維圓柱圖三維圓錐圖三維棱錐圖圖9-4. 三維柱形圖 見(jiàn)word文檔 柱形圖的創(chuàng)建.doc 條形圖可以對(duì)多個(gè)項(xiàng)目進(jìn)行對(duì)比,顯示各個(gè)項(xiàng)目之間的比較情況。這是唯一一種可以水平方式顯示的數(shù)據(jù)的圖表類(lèi)型,主要由標(biāo)題、圖例、坐標(biāo)軸、
5、主體等構(gòu)成。條形圖是用于比較多個(gè)值的最佳圖表類(lèi)型。 條形圖將序列顯示為若干組水平圖條,其中的數(shù)據(jù)具有一定的可比性。 簇狀條形圖主要用于比較各個(gè)類(lèi)別的數(shù)值,它還可以用三維效果顯示(即三維簇狀條形圖),這種圖表將每個(gè)序列分別顯示在三維圖表的單獨(dú)行中。 三維簇狀條形圖也有多種變體,它們是用圓柱體表示圖條的簇狀水平圓柱圖、用圓錐體表示圖條的簇狀水平圓錐圖和用棱錐體表示圖條的簇狀水平棱錐圖。 三維簇狀條形圖 三維簇狀圓柱條形圖三維簇狀圓錐條形圖三維簇狀棱錐條形圖圖9-5. 簇狀條形圖 堆積條形圖將每個(gè)類(lèi)別的所有序列在單個(gè)條形中堆積顯示。每個(gè)條形的長(zhǎng)度由相應(yīng)類(lèi)別的所有序列值的總和確定。 堆積條形圖只要用于
6、表征單個(gè)項(xiàng)目和整體之間的關(guān)系,能夠比較每個(gè)類(lèi)別的每個(gè)數(shù)值所占總數(shù)值的大小,特別適合具有多個(gè)數(shù)據(jù)系列且希望強(qiáng)調(diào)總數(shù)值的場(chǎng)合。 堆積條形圖也可以用三維效果的形式顯示。(即三維堆積條形圖) 堆積條形圖三維堆積條形圖堆積水平圓柱圖堆積水平圓錐圖 堆積水平棱錐圖圖9-6. 堆積條形圖 百分比堆積條形圖是一種包括多個(gè)序列垂直堆積并占滿圖表區(qū)的條形圖,它以百分比形式比較各類(lèi)別的值在總和中的分布情況。 百分比堆積條形圖也可以以三維效果顯示,即三維百分比堆積條形圖,如圖所示。三維百分比堆積條形圖有3種變體,它們分別是百分比堆積水平柱形圖、百分比堆積水平圓錐圖、百分比堆積水平棱錐圖 百分比堆積條形圖三維百分比堆積
7、條形圖 百分比堆積水平柱形圖百分比堆積水平圓錐圖 百分比堆積水平棱錐圖圖9-7. 百分比堆積條形圖 見(jiàn)word文檔 條形圖的創(chuàng)建.doc 折線圖是一種用直線段將各數(shù)據(jù)點(diǎn)連接起來(lái)而組成的圖形,它以折線方式顯示數(shù)據(jù)的變化趨勢(shì)。折線圖可以顯示隨時(shí)間(根據(jù)常用比例設(shè)置)而變化的連續(xù)數(shù)據(jù),因此非常適用于顯示在相等時(shí)間間隔下數(shù)據(jù)的趨勢(shì)。 折線圖主要由標(biāo)題、坐標(biāo)軸、圖例和主題構(gòu)成。 在折線圖中,類(lèi)別數(shù)據(jù)沿水平軸均勻分布,所有值數(shù)據(jù)沿垂直軸均勻分布。 折線圖的種類(lèi)很多,有折線圖和帶數(shù)據(jù)標(biāo)記的折線圖、堆積折線圖和帶數(shù)據(jù)標(biāo)記的堆積折線圖、百分比堆積折線圖及帶數(shù)據(jù)標(biāo)記的百分比堆積折線圖以及三維折線圖等。 折線圖顯示
8、了數(shù)值隨時(shí)間變化的趨勢(shì),為了清晰地表明單個(gè)數(shù)據(jù)值的點(diǎn),可以使用帶數(shù)據(jù)標(biāo)記的直線圖。類(lèi)別順序很重要或者存在許多數(shù)據(jù)點(diǎn)的情況適宜使用。折線圖 帶數(shù)據(jù)標(biāo)記的折線圖圖9-7. 折線圖 積折線圖用于顯示每一數(shù)值所占大小隨時(shí)間或有序類(lèi)別變化的趨勢(shì)。因?yàn)槎逊e折線圖難于閱讀,所以可以考慮改用堆積面積圖。堆積折線圖帶數(shù)據(jù)標(biāo)記的堆積折線圖圖9-8. 堆積折線圖 百分比堆積折線圖用于顯示每一數(shù)值所占百分比隨時(shí)間或有序類(lèi)別而變化的趨勢(shì) 百分比堆積折線圖帶數(shù)據(jù)標(biāo)記的百分比堆積折線圖圖9-9. 百分比折線圖 在三個(gè)坐標(biāo)軸上,以三維條帶的形式顯示每個(gè)數(shù)據(jù)行或數(shù)據(jù)列,包含可修改的水平軸、垂直軸和深度軸。 圖9-10. 三維折
9、線圖 見(jiàn)word文檔 折線圖的創(chuàng)建.doc 散點(diǎn)圖將系列顯示為一組點(diǎn),其值由點(diǎn)在圖表空間中的位置表示,類(lèi)別由圖表中的不同點(diǎn)表示。散點(diǎn)圖一般用于比較跨類(lèi)別的不同值。 散點(diǎn)圖主要由標(biāo)題、坐標(biāo)軸和主體構(gòu)成。 散點(diǎn)圖將工作表中的列/行數(shù)據(jù)以數(shù)據(jù)點(diǎn)的形式繪制到圖中,這種圖表表征了多個(gè)數(shù)據(jù)系列中各數(shù)值之間的關(guān)系,它包括帶數(shù)據(jù)標(biāo)記的散點(diǎn)圖、帶直線的散點(diǎn)圖、帶直線和數(shù)據(jù)標(biāo)記的散點(diǎn)圖、帶平滑線的散點(diǎn)圖、帶平滑線和數(shù)據(jù)標(biāo)記的散點(diǎn)圖。 我們將以公司產(chǎn)量情況表(數(shù)據(jù)自編)為例來(lái)制作相關(guān)圖形,見(jiàn)下頁(yè)。 時(shí)間A公司產(chǎn)量(萬(wàn)噸)B公司產(chǎn)量(萬(wàn)噸)2 0 0 5 2 3 4 72 0 0 6 2 2 4 32 0 0 7 2
10、 5 4 02 0 0 8 2 5 4 12 0 0 9 2 5 3 92 0 1 0 3 5 3 62 0 1 1 2 6 3 22 0 1 2 2 5 3 82 0 1 3 2 5 3 8 僅帶數(shù)據(jù)標(biāo)記的散點(diǎn)圖根據(jù)值系列的X值和Y值將每個(gè)值系列顯示為圖表空間中的不同數(shù)據(jù)點(diǎn)。典型的散點(diǎn)圖包含有值得非聚合表達(dá)式,值圖表區(qū)中X的表達(dá)式和類(lèi)別組的表達(dá)式通常也是相同的。雖然類(lèi)別組和系別組是可選的,但是必須至少選擇其中一個(gè)組,才能在圖表中顯示有意義的數(shù)據(jù)。 圖9-11. 散點(diǎn)圖示例 折線散點(diǎn)圖的數(shù)據(jù)點(diǎn)之間可以顯示也可以不顯示折線。顯示連接線時(shí)可以顯示標(biāo)記,也可以不顯示標(biāo)記。帶折線的散點(diǎn)圖帶折線和數(shù)據(jù)標(biāo)
11、記的散點(diǎn)圖圖9-12. 帶折線的散點(diǎn)圖示例 平滑線散點(diǎn)圖的數(shù)據(jù)點(diǎn)用曲線連接,顯示連接線時(shí)可以顯示標(biāo)記,也可以不顯示標(biāo)記。 帶平滑線的散點(diǎn)圖帶平滑線和數(shù)據(jù)標(biāo)記的散點(diǎn)圖 見(jiàn)word文檔 散點(diǎn)圖的創(chuàng)建.doc 氣泡圖可以將數(shù)據(jù)序列顯示為一組符號(hào),其不同的值由相應(yīng)點(diǎn)在圖表空間中的位置以及符號(hào)的大小表示,類(lèi)別在圖表中以不同的符號(hào)形式表示。 構(gòu)成要素主要由標(biāo)題、圖例、坐標(biāo)軸和主體等構(gòu)成。 氣泡圖分為普通氣泡圖和三維氣泡圖兩種類(lèi)型。 通氣泡圖在圖表空間中根據(jù)值序列的X值和Y值以數(shù)據(jù)點(diǎn)的形式顯示各個(gè)值序列。另一個(gè)值Z確定數(shù)據(jù)點(diǎn)的符號(hào)的大小。雖然類(lèi)別組和序列組是可選的,但是必須選擇其中一種,才能在圖表中顯示有意
12、義的數(shù)據(jù)。 圖9-13. 氣泡圖示例 維氣泡圖以3個(gè)數(shù)值為一組對(duì)數(shù)據(jù)進(jìn)行比較,且可以三維效果顯示。氣泡的大小為數(shù)據(jù)標(biāo)記表示第3個(gè)變量的值。 圖9-14. 三維氣泡圖示例 見(jiàn)word文檔 氣泡圖的創(chuàng)建.doc 對(duì)于組合型數(shù)據(jù),數(shù)據(jù)類(lèi)型可分為靜態(tài)(Static)與時(shí)變(Changing Over Time)兩種。 當(dāng)數(shù)據(jù)處?kù)o態(tài)時(shí),若強(qiáng)調(diào)部分在總量中的比例,可選擇餅圖;若強(qiáng)調(diào)部分中的部分,可使用帶有子部件的完全堆砌柱形圖。 當(dāng)數(shù)據(jù)處時(shí)變時(shí),若周期數(shù)較多,適合使用堆砌柱形圖或完全堆砌柱形圖;若周期數(shù)較少,適合使用堆砌面積圖或完全堆砌面積圖。 餅圖一般用于顯示組成數(shù)據(jù)系列的項(xiàng)目在項(xiàng)目總和中所占的比例。在
13、餅圖中,一般只顯示出一個(gè)數(shù)據(jù)系列。餅圖非常適合需要強(qiáng)調(diào)數(shù)據(jù)中的某個(gè)重要元素的場(chǎng)合。 餅圖一般由圖表標(biāo)題、圖例和主體構(gòu)成(沒(méi)有坐標(biāo)軸)。 餅圖顯示了各個(gè)值在總和中的分布情況,即將數(shù)據(jù)顯示為整體的一定比例。餅圖上沒(méi)有軸,在其中放置上某個(gè)數(shù)值字段后,這種圖表會(huì)計(jì)算每個(gè)值相對(duì)總計(jì)的百分比。餅圖也有多種變體形式,常見(jiàn)的有分離型餅圖、復(fù)合餅圖、復(fù)合條餅圖、三維餅圖和分離型三維餅圖。 離型餅圖的所有切片均從餅圖中心向外發(fā)散。這種餅圖顯示了各個(gè)值在總和中的分布情況,同時(shí)強(qiáng)調(diào)了各個(gè)值的重要性。 圖9-15. 分離型餅圖 復(fù)合餅圖將用戶定義的值提取出來(lái),然后顯示在另一個(gè)餅圖中。 圖9-16. 復(fù)合餅圖 復(fù)合條餅圖
14、可以將用戶定義的數(shù)據(jù)提取出來(lái),然后顯示在另一個(gè)堆積條形圖中。 圖9-17. 復(fù)合條餅圖 三維餅圖是普通的立體化表示形式,這種餅圖的特點(diǎn)是立體感較強(qiáng),能使數(shù)據(jù)更具有視覺(jué)沖擊力。 圖9-18.三維餅圖 分離型三維餅圖是分離型餅圖的立體化表示形式圖9-19.分離型三維餅圖 見(jiàn)word文檔 餅圖的創(chuàng)建.doc 面積圖可以強(qiáng)調(diào)值的大小隨時(shí)間的變化情況,可用于引起人們對(duì)總趨勢(shì)的注意。面積圖將數(shù)據(jù)序列表示為一組由一條線連接的點(diǎn),而且填充連接線下方的所有區(qū)域,從而直觀地顯示所有出有序的總計(jì)以及每個(gè)序列在總計(jì)中所占的比例。 面積圖主要由標(biāo)題、坐標(biāo)軸、圖例和主體構(gòu)成。 面積圖包括普通面積圖、堆積面積圖和百分比堆積
15、面積圖,每種面積圖都有二維圖形和三維圖形之分。 面積圖能夠很好地顯示數(shù)值隨時(shí)間或類(lèi)別的變化趨勢(shì),它也可以采用三維圖形來(lái)表示。通過(guò)顯示已繪制的值的總和,面積圖還可以顯示部分與整體的關(guān)系。 將以2000年至2012年的全國(guó)職工平均工資(數(shù)據(jù)來(lái)自上海統(tǒng)計(jì)網(wǎng))為例,見(jiàn)表2。 年份職工平均工資(元)2 0 0 0 1 5 4 2 02 0 0 1 1 7 7 6 42 0 0 2 1 9 4 7 32 0 0 3 2 2 1 6 02 0 0 4 2 4 3 9 82 0 0 5 2 6 8 2 32 0 0 6 2 9 5 6 92 0 0 7 3 4 7 0 72 0 0 8 3 9 5 0 22
16、0 0 9 4 2 7 8 92 0 1 0 4 6 7 5 7 2 0 1 1 5 1 9 6 82 0 1 2 5 6 3 0 0 圖9-20.面積圖圖9-21.三維面積圖 如果多個(gè)序列中的值相似,普通面積圖的面積可能會(huì)發(fā)生重疊,從而遮擋重要的數(shù)據(jù)點(diǎn)值。這種情況下,可以使用堆積面積圖,以便在面積圖上顯示多個(gè)序列。堆積面積圖用于顯示各個(gè)值的分布隨時(shí)間或類(lèi)別的變化趨勢(shì),它也可以用三維效果表示。 將以2000年至2012年的全國(guó)國(guó)有單位、集體單位、其他單位的職工平均工資(數(shù)據(jù)來(lái)自上海統(tǒng)計(jì)網(wǎng))為例。 國(guó)有單位工資(元)集體單位(元)其他單位(元)2 0 0 0 1 5 7 3 7 8 0 4 1
17、1 7 9 4 22 0 0 1 1 7 8 2 0 8 5 2 5 2 0 8 6 52 0 0 2 1 9 7 7 7 8 7 0 7 2 1 8 8 62 0 0 3 2 2 5 4 1 9 8 4 4 2 4 3 5 92 0 0 4 2 4 7 2 6 1 1 5 3 9 2 6 2 7 02 0 0 5 2 8 8 0 3 1 2 8 1 9 2 6 7 9 22 0 0 6 3 6 0 1 0 1 5 2 0 9 2 7 4 5 92 0 0 7 4 6 4 2 6 1 9 2 4 4 3 0 6 8 72 0 0 8 5 3 5 5 4 2 1 7 8 7 3 5 1 8 02
18、 0 0 9 6 2 3 9 0 2 5 3 9 0 3 7 1 0 42 0 1 0 7 0 5 8 5 2 8 2 2 5 4 0 3 9 7 2 0 1 1 7 9 5 4 1 4 2 0 1 0 4 6 3 1 42 0 1 2 8 6 0 4 2 4 5 9 9 0 5 1 0 3 5 圖9-22.堆積面積圖 圖9-23.三維堆積面積圖 分比堆積面積圖將多個(gè)序列垂直堆積,從而占滿整個(gè)圖表區(qū),這種圖表以百分比方式顯示各個(gè)值的分布時(shí)間或類(lèi)別的變化趨勢(shì),百分比堆積面積圖也可以用三維效果表示。 圖9-24.百分比堆積面積圖 圖9-25.三維百分比堆積面積圖 見(jiàn)word文檔 面積圖的創(chuàng)建.do
19、c 對(duì)于分布型圖表,當(dāng)只有一個(gè)變量時(shí),可以選擇使用直方圖、 核密度圖或箱線圖;當(dāng)有兩個(gè)變量時(shí),可以選擇散點(diǎn)圖。 這節(jié)主要講直方圖、核密度圖以及箱線圖的概念和繪制方法。 直方圖通過(guò)在X 軸上將值域分割為一定數(shù)量的組,在Y 軸上顯示相應(yīng)值的頻數(shù),展示了連續(xù)型變量的分布 用R語(yǔ)言繪制直方圖可以使用如下函數(shù): hist() require(stats) set.seed(14) x - rchisq(100, df=4) hist(x, freq=FALSE, ylim=c(0,0.2) curve(dchisq(x, df=4), col=2, lty=2, lwd=2, add=TRUE) 其中的
20、x是一個(gè)由數(shù)據(jù)值組成的數(shù)值向量。參數(shù)freq=FALSE表示根據(jù)概率密度而不是頻數(shù)繪制圖形。參數(shù)breaks用于控制組的數(shù)量。在定義直方圖中的單元時(shí),默認(rèn)將生成等距切分。 用R語(yǔ)言繪制直方 圖.doc Histogram of x x Den sity 0 5 10 15 0.00 0.05 0.10 0.15 0.20這幅圖按概率密度繪制圖形。在組的數(shù)量方面,采用的是 默認(rèn)等距切分,也可以根據(jù)需要控制組數(shù)圖9-26.R語(yǔ)言繪制直方圖 核密度估計(jì)是用于估計(jì)隨機(jī)變量概率密度函數(shù)的一種非參數(shù)方法輸入數(shù)據(jù)。核密度圖是用來(lái)觀察連續(xù)型變量分布的有效方法。 用R語(yǔ)言繪制核密 度圖.doc 在R語(yǔ)言中輸入表
21、4所示的各地人口和GDP情況表代碼如下: address - c(“a”,”b”,”c”,”d”,”e”,”f”,”g”) population - c(15,37,74,71,38,45,97) ty - c(1,1,2,2,1,1,2) patientdata - data.frame(address,population,ty)地名人口(萬(wàn)人)城市大小a 1 5 1b 3 7 1c 7 4 2d 7 1 2e 3 8 1f 4 5 1g 9 7 2表4:城市人口數(shù)據(jù) 我們首先將地名中的值賦值給address,將人口賦值給population,將城市大小賦值給ty,就會(huì)自動(dòng)創(chuàng)建一個(gè)數(shù)據(jù)框。
22、 繪制核密度圖一般使用格式為: Plot(density(x)其中的x是一個(gè)數(shù)值型向量。由于plot()函數(shù)會(huì)創(chuàng)建一幅新的圖形,所以要向一幅已經(jīng)存在的圖形上疊加一條密度曲線,可以使用lines()函數(shù) par(mfrow=c(2,1) d-density(patientdata$population) plot(d,main=各城市人口的核密度) polygon(d,col=red,border=blue) rug(patientdata$population,col=brown)在第一幅圖中,你看到的是完全使用默認(rèn)設(shè)置創(chuàng)建的最簡(jiǎn)圖形。在第二幅圖中,你添加了一個(gè)標(biāo)題,將曲線修改為藍(lán)色,使用實(shí)心
23、紅色填充了曲線下方的區(qū)域,并添加 了棕色的軸須圖。圖9-27.R語(yǔ)言繪制核密度圖 通過(guò)繪制連續(xù)型變量的五數(shù)總括,即最小值、下四分位數(shù)(第25百分位數(shù))、中位數(shù)(第50百分位數(shù))、上四分位數(shù)(第75百分位數(shù))以及最大值,描述了連續(xù)型變量的分布。箱線圖能夠顯示出可能為離群點(diǎn)(范圍1.5*IQR以外的值,IQR表示四分位距,即上四分位數(shù)與下四分位數(shù)的差值)的觀測(cè)。 在R語(yǔ)言中輸入表4(同前例)所示的各地人口和GDP情況表;在R語(yǔ)言中輸入以上數(shù)據(jù),需要?jiǎng)?chuàng)建一個(gè)數(shù)據(jù)框。由于不同的列可以包含不同模式(數(shù)值型、字符型的等)的數(shù)據(jù),數(shù)據(jù)框的概念較矩陣來(lái)說(shuō)更為一般??赏ㄟ^(guò)函數(shù)data.frame()創(chuàng)建數(shù)據(jù)框。
24、一般使用格式為:mydata-data.frame(col1,col2,col3,) 其中的列向量col1, col2, col3, 可為任何類(lèi)型(如字符型、數(shù)值型或邏輯型)。每一列的名稱(chēng)可由函數(shù)names指定如圖所示的代碼演示了創(chuàng)建矩陣mymatrix的過(guò)程。地名人口(萬(wàn)人)城市大小a 1 5 1b 3 7 1c 7 4 2d 7 1 2e 3 8 1f 4 5 1g 9 7 2 用R語(yǔ)言繪制箱線 圖.doc address - c(“a”,”b”,”c”,”d”,”e”,”f”,”g”) population - c(15,37,74,71,38,45,97) ty - c(1,1,2,2
25、,1,1,2) patientdata - data.frame(address,population,ty) 我們可以繪制單個(gè)變量或分組變量的箱線圖,其格式是:Boxplot(formula,data=dataframe) 其中的formula是一個(gè)公式,dataframe代表提供數(shù)據(jù)的數(shù)據(jù)框(或列表)。一個(gè)示例公式為y A,這將為類(lèi)別型變量A的每個(gè)值并列地生成數(shù)值型變量y的箱線圖。公式y(tǒng) A*B則將為類(lèi)別型變量A和B所有水平的兩兩組合生成數(shù)值型變量y的箱線圖。 添加參數(shù)varwidth=TRUE 將使箱線圖的寬度與其樣本大小的平方根成正比。參數(shù)horizontal=TRUE可以反轉(zhuǎn)坐標(biāo)軸的
26、方向。 在以下代碼中,我們使用并列箱線圖研究了各城市人口對(duì)城市大小的影響 boxplot(populationty,data=patientdata,main=各城市人口及大小,xlab=城市大小,ylab=城市人口) 圖9-28.R語(yǔ)言繪制箱線圖 箱線圖靈活多變,通過(guò)添加notch=TRUE,可以得到含凹槽的箱線圖。若兩個(gè)箱的凹槽互不重疊,則表明它們的中位數(shù)有顯著差異。 以下代碼將為我們的城市人口大小創(chuàng)建一幅含凹槽的箱線圖。 用R語(yǔ)言繪制帶凹 槽的箱線圖.doc boxplot(populationty,data=patientdata,notch=TRUE,varwidth=TRUE,co
27、l=red,main=各城市人口及大小,xlab=城市大小,ylab=城市人口)參數(shù)col以紅色填充了箱線圖,而varwidth=TRUE則使箱線圖的寬度與它們各自的樣本大小成正比。從圖中我們可以看到,城市人口越多,城市越大。 圖9-29.R語(yǔ)言繪制帶凹槽的箱線圖 小提琴圖是箱線圖與核密度圖的結(jié)合。你可以使用vioplot包中的vioplot()函數(shù)繪制它。請(qǐng)?jiān)诘谝淮问褂弥跋劝惭bvioplot包。 vioplot()函數(shù)的使用格式為: voiplot(x1,x2,names=.col)其中x1, x2, 表示要繪制的一個(gè)或多個(gè)數(shù)值向量(將為每個(gè)向量繪制一幅小提琴圖)。參數(shù)names是小提琴圖
28、中標(biāo)簽的字符向量,而col是一個(gè)為每幅小提琴圖指定顏色的向量。 address - c(“a”,”b”,”c”,”d”,”e”,”f”,”g”) population - c(15,37,74,71,38,45,97) ty - c(1,1,2,2,1,1,2) patientdata - data.frame(address,population,ty) library(sm) library(vioplot) x1 - patientdata$populationpatientdata$ty=1 x2 - patientdata$populationpatientdata$ty=2 vio
29、plot(x1,x2,names=c(“小城市”,”大城市”),col=”gold”) title(“各城市人口及大小的小提琴圖”)小提琴圖基本上是核密度圖以鏡像方式在箱線圖上的疊加。在圖中,白點(diǎn)是中位數(shù),黑色盒型的范圍是下四分位點(diǎn)到上四分位點(diǎn),細(xì)黑線表示須。外部形狀即為核密度估計(jì)。 用R語(yǔ)言繪制小提 琴圖.doc 圖9-30.R語(yǔ)言繪制小提琴圖 基于時(shí)間的繪圖按照時(shí)間數(shù)據(jù)可以分為離散時(shí)間和延續(xù)時(shí)間兩種。在離散型時(shí)間數(shù)據(jù)中,數(shù)據(jù)來(lái)自于某個(gè)具體的時(shí)間點(diǎn)或者時(shí)間段,可能的數(shù)值也是有限的。比如說(shuō),人們每年的考試通過(guò)率就是離散型時(shí)間數(shù)據(jù)。而類(lèi)似溫度這樣的數(shù)據(jù)則是延續(xù)型的,在一天中的任何時(shí)刻,它都是變化
30、的。 離散型時(shí)間數(shù)據(jù)的繪圖主要有:柱形圖、散點(diǎn)圖。延續(xù)型時(shí)間數(shù)據(jù)的繪圖主要有:折線圖、階梯圖和LOESS曲線。 本章主要講解階梯圖和LOESS曲線的概念和繪制方法。 階梯圖并不是直接連接兩個(gè)點(diǎn),它的曲線會(huì)保持在同一數(shù)值,知道發(fā)生變化,那時(shí)在直接向上或者向下跳躍到下一個(gè)數(shù)值。 圖9-31.階梯圖示例 在R中創(chuàng)建階梯圖,需要用到plot()函數(shù)。將time的值作為x軸坐標(biāo)、cost的值作為y軸坐標(biāo),然后將類(lèi)型設(shè)定為S,就可以繪制出階梯圖,其用法如下 plot(time,cost,type=s) 以1991-2010年美國(guó)郵政資費(fèi)數(shù)據(jù)為例,繪制階梯圖:time -c(1991,1995,1999,2
31、001,2002,2006,2007,2008,2009,2010)price - c(0.29,0.32,0.33,0.34,0.37,0.39,0.41,0.42,0.44,0.44)plot(time,price,type=s,lwd=2,main=美國(guó)郵費(fèi)階梯圖,xlab=time,ylab=price) 用R語(yǔ)言繪制階梯 圖.doc圖9-32.R語(yǔ)言繪制階梯圖 如果你手中有太多的數(shù)據(jù),或者數(shù)據(jù)雜亂無(wú)章,這是我們需要繪制一條線穿過(guò)盡可能多的數(shù)據(jù)點(diǎn)。但當(dāng)你的數(shù)據(jù)趨勢(shì)不是線性時(shí),你就需要用到LOESS,即局部加權(quán)散點(diǎn)平滑法。通過(guò)它,你可以用曲線來(lái)你和數(shù)據(jù)。 圖9-33.LOSS曲線 在R中
32、,輸入1到50,作為x軸,隨機(jī)生成50個(gè)均值為5,標(biāo)準(zhǔn)差為3的值。之后擬合LOESS曲線。代碼如下:set.seed(1234)x - c(1:50)y- rnorm(50,mean = 5, sd = 3)plot (x,y)scatter.smooth(x,y,degree=2,span=0.4)title(main=LOESS曲線) 用R語(yǔ)言繪制LOE SS曲線.doc 圖9-34.R語(yǔ)言繪制LOSS曲線圖 本例數(shù)據(jù)采用的是關(guān)于美國(guó)好市多超市門(mén)店地理位置分布情況的經(jīng)緯坐標(biāo)數(shù)據(jù)。這里我們需要maps工具包來(lái)完成,次包自帶的有美國(guó)地圖。 Install.packages(“maps”) li
33、brary(maps) costcosread.csv(http:/ 可以看到好市多門(mén)店的地理位置都在地圖上用圓圈進(jìn)行了標(biāo)記圖9-35.地圖應(yīng)用 有時(shí)候,如果地圖上點(diǎn)的順序存在關(guān)聯(lián),那么可能需要將點(diǎn)連接起來(lái)進(jìn)行關(guān)聯(lián)。這里我們利用line()函數(shù)來(lái)完成畫(huà)線,數(shù)據(jù)采用的是網(wǎng)上發(fā)布的一個(gè)虛構(gòu)特工7天7夜的旅行軌跡。faketrace=read.csv(http:/ 如圖所示 ,該特工7天的蹤跡已經(jīng)在圖中表現(xiàn)出來(lái)圖9-36.地圖中畫(huà)線 有些時(shí)候,我們手上并不只有位置數(shù)據(jù),可能還會(huì)有其他的數(shù)值,列如銷(xiāo)售數(shù)據(jù)或者城市人口等。我們依然要在地圖上繪制圓點(diǎn),但這時(shí)候我們需要的是大小不等的氣泡。這次我們采用的數(shù)據(jù)
34、是網(wǎng)上提供的關(guān)于未成年人生育率的數(shù)據(jù),也就是沒(méi)1000名15-19歲年齡段女性中的生育數(shù)量。代碼如下:fertility=read.csv(http:/ 可以很清晰的看到非洲國(guó)家的未成年人生育率比較高,而歐洲國(guó)家相對(duì)來(lái)說(shuō)比較低。圖9-37.地圖中加氣泡 常用的高維可視化呈現(xiàn)方法包括基于點(diǎn)的方法、基于線的方法、基于區(qū)域的方法、基于樣本的方法?;邳c(diǎn)的方法以點(diǎn)為基礎(chǔ)展現(xiàn)單個(gè)數(shù)據(jù)點(diǎn)與其他數(shù)據(jù)點(diǎn)之間的關(guān)系(相似性、距離、聚類(lèi)等信息)。基于線的方法采用軸坐標(biāo)編碼各個(gè)維度的數(shù)據(jù)屬性值,將單個(gè)數(shù)據(jù)屬性布局于坐標(biāo)軸空間,并采用折線段編碼單個(gè)數(shù)據(jù)點(diǎn),以便體現(xiàn)各個(gè)屬性間的關(guān)聯(lián)。基于區(qū)域的方法將全部數(shù)據(jù)點(diǎn)的全部屬性
35、以區(qū)域填充的方式在二維平面布局,并采用顏色等視覺(jué)通道呈現(xiàn)數(shù)據(jù)屬性的具體值?;跇颖镜姆椒ú捎脠D標(biāo)或基本的統(tǒng)計(jì)圖表方法編碼單個(gè)高維數(shù)據(jù)點(diǎn),并將所有數(shù)據(jù)點(diǎn)在空間中布局排列,以便用戶進(jìn)行對(duì)比。 散點(diǎn)圖通常是用于顯示和比較數(shù)值,例如科學(xué)數(shù)據(jù)、統(tǒng)計(jì)數(shù)據(jù)和工程數(shù)據(jù)。當(dāng)欲同時(shí)考察多個(gè)變量間的相關(guān)關(guān)系時(shí),若一一繪制它們間的簡(jiǎn)單散點(diǎn)圖,十分麻煩。此時(shí)可利用散點(diǎn)圖矩陣來(lái)同時(shí)繪制各自變量間的散點(diǎn)圖,這樣可以快速發(fā)現(xiàn)多個(gè)變量間的主要相關(guān)性,這一點(diǎn)在進(jìn)行多元線性回歸時(shí)顯得尤為重要。 R語(yǔ)言中有很多創(chuàng)建散點(diǎn)圖矩陣的實(shí)用函數(shù),比如paris(),scattterplotMatrix()函數(shù)和gclus包,在這里用paris
36、()做簡(jiǎn)單示例:pairs(mpg+disp+drat+wt,data=mtcars,main=散點(diǎn)圖矩陣) mpg 100 300 2 3 4 5 10 20 30 100 300 disp drat 3.0 4.0 5.0 10 20 30 2 3 4 5 3.0 4.0 5.0 wt 散點(diǎn)圖矩陣你可以看到所有指定變量間二元關(guān)系。列如,mpg和disp的散點(diǎn)圖可在兩變量的行列交叉處找到。值得注意的是,主對(duì)角線的上方和下方的六幅散點(diǎn)圖是相同的,這也是為了方便擺放圖形的緣故。通過(guò)調(diào)整參數(shù),可以只展示下三角或者上三角的圖形。 圖9-38.散點(diǎn)圖矩陣 線圖本質(zhì)上是一種單變量的可視方法?;诰€的高維
37、可視化一般是將多個(gè)線圖合并到一個(gè)圖中,通過(guò)使用不同的視覺(jué)通道(如線條的粗細(xì)、類(lèi)型、顏色等)區(qū)分不同的數(shù)據(jù) attach(iris)num-c(1:150)Species-as.numeric(Species)xrange-range(0:9)range-range(1:150)plot(yrange,xrange,type=n,xlab=記錄個(gè)數(shù),ylab=大小,font.lab=2,abline(h=c(1,2)lines(num,Sepal.Length,type=l,lwd=2,lty=1,col=yellow)lines(num,Sep.Width,type=l,lwd=2,lty=1
38、,col=pink1)lines(num,Petal.Width,type=l,lwd=2,lty=1,col=red1)lines(num,Petal.Length,type=l,lwd=2,lty=1,col=blue)abline(h=seq(0,8,1),lwd=1.5,lty=2,col=gray)legend(topleft,c(花萼長(zhǎng),花萼寬,花瓣長(zhǎng),花瓣寬),cex=1,lwd=2,lty=1,col=c(yellow,pink1,red1,blue)detach(iris) 在一個(gè)線圖中的線條有很多時(shí),我們有可能會(huì)發(fā)現(xiàn)數(shù)據(jù)的范圍會(huì)重疊,難以看清單個(gè)數(shù)據(jù)。將數(shù)據(jù)點(diǎn)根據(jù)一個(gè)維度上
39、的數(shù)值排序會(huì)很好地解決這個(gè)問(wèn)題。如果不同維度的單位不同,或者單位的意義不同,可能一個(gè)縱坐標(biāo)很難將數(shù)據(jù)意義表示清楚,這時(shí)我們可以在左右兩側(cè)同時(shí)引入縱坐標(biāo),從而減少歧義。圖9-39.線圖 平行坐標(biāo)的思想非常簡(jiǎn)單、直觀,它是在橫坐標(biāo)上取 p 個(gè)點(diǎn),依次表示各個(gè)指標(biāo)(即變量);縱坐標(biāo)上則對(duì)應(yīng)各個(gè)指標(biāo)的值(或者經(jīng)過(guò)標(biāo)準(zhǔn)化變換后的值),然后將每一組數(shù)據(jù)對(duì)應(yīng)的點(diǎn)依次連接即可。 parallelplot() 函數(shù)可以輕松繪出輪平行坐標(biāo)。繼續(xù)利用 iris 數(shù)據(jù),以下代碼可以畫(huà)出其平行坐標(biāo)圖 。library(lattice)parallelplot(iris1:105,1:4, iris,lty=c(1,3,
40、5),lwd=2, groups = Species,horizontal.axis = FALSE) Min Max Sepal.Length Sepal.Width Petal.Length Petal.Width 采用平行坐標(biāo)展現(xiàn)了多屬性數(shù)據(jù)的基本原理是線的密度能呈現(xiàn)不同數(shù)據(jù)屬性的關(guān)系。在圖9-40中,密集的線的位置表示了明顯的維度之間的相關(guān)關(guān)系,交叉的線代表了維度之間的對(duì)立關(guān)系,相對(duì)獨(dú)立的或者線段斜度大的線則對(duì)應(yīng)了獨(dú)立的維度關(guān)系,走勢(shì)相近的線可以看成具有相同類(lèi)別的數(shù)據(jù)聚類(lèi)。和散點(diǎn)圖比較,平行坐標(biāo)的優(yōu)點(diǎn)在于可展現(xiàn)維度組之間的關(guān)系。此外,通過(guò)交互的用戶選取可過(guò)濾數(shù)據(jù),更清晰地展現(xiàn)各個(gè)維度的
41、分布。 圖9-40.平行坐標(biāo)線圖 徑向軸技術(shù)是平行坐標(biāo)的徑向排列的版本:以圓周為中心作為坐標(biāo)軸,沿圓周繪圖。徑向軸線圖技術(shù)可用來(lái)呈現(xiàn)周期性規(guī)律。徑向圖常見(jiàn)的有雷達(dá)圖(蜘蛛網(wǎng)圖)和星狀圖。 星狀圖(蜘蛛網(wǎng)圖)和雷達(dá)圖本質(zhì)上是一類(lèi)圖形,它們都用線段離中心的長(zhǎng)度來(lái)表示變量值的大小,它們區(qū)別在于星狀圖用來(lái)展示很多個(gè)多變量個(gè)體,各個(gè)個(gè)體的圖形相互獨(dú)立,從而整幅圖形看起來(lái)就像很多星星,雷達(dá)圖(蜘蛛網(wǎng)圖)將多個(gè)多變量個(gè)體放在同一張圖形上,看起來(lái)就像是雷達(dá)或蜘蛛網(wǎng)的形狀。簡(jiǎn)單說(shuō)來(lái),就是星狀圖有若干個(gè)中心,而蛛網(wǎng)圖和雷達(dá)圖只有一個(gè)中心。 R中星狀圖的函數(shù)為stars(),其用法如下:palette(rainbo
42、w(12, s = 0.6, v = 0.75)stars(mtcars, 1:7, len = 0.8, key.loc = c(14,1),nrow =5,main = Motor Trend Cars, draw.segments = TRUE) 上圖描述了Motor Trend雜志1974年的汽車(chē)數(shù)據(jù),我們可以看到豐田花冠(Toyota Corolla)的每加侖行駛的英里數(shù)(mpg)在眾多汽車(chē)品牌中是最長(zhǎng)的,它在星狀圖中紅色的扇形也最大。徑向軸線圖的優(yōu)點(diǎn)是有利于比較徑向上的數(shù)據(jù),但不便于比較相鄰的數(shù)據(jù)元素。其他的徑向軸線圖類(lèi)型有:采用極坐標(biāo)的點(diǎn)圖;在基線上繪制柱狀圖的圓形柱狀圖;線和基
43、線之間面積采用顏色或者紋理填充的圓形填充圖等。這些方法都采 用多個(gè)圓周作為線圖的坐標(biāo)軸,圓周的環(huán)繞方式可以是不同半徑的同心圓,也可以是連續(xù)的螺旋線。圖9-41. R中星狀圖 面向高維數(shù)據(jù)的柱狀圖可視化有多種類(lèi)型。其中堆疊柱狀圖是最常用的方式。它通常是將同一數(shù)據(jù)的多個(gè)屬性的數(shù)值堆疊成一個(gè)長(zhǎng)方柱,用不同顏色、紋理等可視化元素區(qū)分這些屬性。 R中堆疊柱狀圖的函數(shù)為barplot(),其用法如下:a-head(mtcars) b-as.matrix(a) d-t(b) barplot(d,col = rainbow(11),legend =rownames(d),ylim = c(0, 600),fo
44、nt=2) 我們選取了R語(yǔ)言內(nèi)置數(shù)據(jù)mtcars中的前六個(gè)品牌的汽車(chē)數(shù)據(jù),繪制了堆疊柱狀圖。圖9-42. R中堆疊柱狀圖 多維數(shù)據(jù)經(jīng)常以表格的形式存儲(chǔ),對(duì)應(yīng)的可視化方法可以采取表格形式,配合敏捷的用戶交互功能,以實(shí)現(xiàn)對(duì)數(shù)據(jù)的快速理解。 熱力圖是一種將規(guī)則化數(shù)據(jù)轉(zhuǎn)換為顏色色調(diào)的常用可視化方法,其中每個(gè)規(guī)則單元對(duì)應(yīng)數(shù)據(jù)的某些屬性,屬性的值通過(guò)顏色映射表轉(zhuǎn)換為不同的色調(diào)并填充規(guī)則單元。 R中熱力圖圖的函數(shù)為heatmap(),其用法如下:require(graphics)x - as.matrix(mtcars)rc - rainbow(nrow(x), start = 0, end = .3)cc
45、 - rainbow(ncol(x), start = 0, end = .3)hv - heatmap(x, col = cm.colors(256), scale = column, RowSideColors = rc, ColSideColors = cc, margins = c(5,10), xlab = specification variables, ylab = Car Models, main = Heat map of Mtcars) 在這個(gè)圖中,藍(lán)色越深,值越?。蛔仙缴?,值越大;白色代表中間值。我們可以看到代表瑪莎拉蒂寒風(fēng)雙門(mén)跑車(chē)(Maserati Bora)的汽化器
46、(Carb)的格子顏色是紫色,是最大值。上圖中還將數(shù)值相似的聚成一類(lèi)。Mazda RX4和 Mazda RX4 Wag的汽車(chē)各個(gè)屬性基本相似,顏色都為紅色(左側(cè)的一列格子),所以這兩個(gè)品牌的車(chē)子最為相似。 圖9-43. R中熱力圖 馬賽克圖是一種可以用于兩種以上類(lèi)別型變量的可視化方法。在馬賽克圖中,嵌套矩形面積正比于單元格頻率,其中該頻率即多維列聯(lián)表中的頻率。顏色和陰影可表示擬合模型的殘差值。 我們以R語(yǔ)言內(nèi)置數(shù)據(jù)集UCBAdmissions(它是在加州大學(xué)伯克利分校的招生情況表)數(shù)據(jù)列表為例,來(lái)探討如何制作馬賽克圖、怎樣讀懂馬賽克圖。 利用下面的代碼,獲得該數(shù)據(jù)的相關(guān)系數(shù):Ftable(UC
47、BAdmissions) Dept A B C D E FAdmit Gender Admitted Male 512 353 120 138 53 22 Female 89 17 202 131 94 24Rejected Male 313 207 205 279 138 351 Female 19 8 391 244 299 317 安裝vcd包,vcd包中的mosaic()函數(shù)可以繪制馬賽克圖,代碼如下:library(vcd)mosaic(UCBAdmissions,shade=TRUE,legend=TRUE)其中添加選項(xiàng)shade = TRUE將根據(jù)擬合模型的皮爾遜殘差值對(duì)圖形上色
48、,添加選項(xiàng)legend = TRUE將展示殘差的圖例。ftable(UCBAdmissions)library(vcd)mosaic(UCBAdmissions,shade=TRUE,legend=TRUE) 馬賽克圖隱含著大量的數(shù)據(jù)信息。例如:該大學(xué)錄取的男生比例比女生高;F專(zhuān)業(yè)錄取率比其他?。辉贐專(zhuān)業(yè)錄取的女生遠(yuǎn)比男生多。繼續(xù)觀察,你將發(fā)現(xiàn)更多有趣的信息。擴(kuò)展的馬賽克圖添加了不同的線條區(qū)域來(lái)表示擬合模型的殘差值。在本例中,右斜線區(qū)域表明,在假定錄取率與 性別和專(zhuān)業(yè)無(wú)關(guān)的條件下,該類(lèi)別下的生存率通常超過(guò)預(yù)期值。豎線區(qū)域則含義相反。一定要運(yùn)行該例子的代碼,這樣你可以真實(shí)感受圖形的效果。圖形表明
49、,在模型的獨(dú)立條件下,A專(zhuān)業(yè)錄取男生超過(guò)模型預(yù)期值。如果在模型的獨(dú)立條件下,F(xiàn)專(zhuān)業(yè)錄取率比模型預(yù)期值低。圖9-44. R中馬賽克圖 切爾諾夫臉譜圖采用人臉特征編碼不同的數(shù)據(jù)屬性。人臉的每一個(gè)部位,例如眼睛、耳朵、嘴巴和鼻子都代表不同的數(shù)據(jù)屬性。每一個(gè)部位的變化表現(xiàn)數(shù)值的大小,例如形狀、大小、轉(zhuǎn)向和擺放。這種方法利用了人們對(duì)臉部特征的熟識(shí)和分辨微小變化的敏感性。由于臉部每一個(gè)部位對(duì)于識(shí)別的準(zhǔn)確性不同,需謹(jǐn)慎設(shè)置數(shù)據(jù)的屬性。 安裝aplpack包和tcltk包,aplpack包中的faces()函數(shù)可以繪制臉譜圖,代碼如下:windows(width =15, height =10) #將繪圖窗口
50、為15*10的大小library(aplpack)library(tcltk)faces(mtcars,face.type=1) 參數(shù)說(shuō)明:effect of variables: modified item var “height of face” “mpg” “width of face” “cyl” “structure of face” “disp” “height of mouth” “hp” “width of month” “drat” “smiling” “wt” “height of eyes” “qsec” “width of eyes” “vs” “heigh of ha
51、ir” “am” “width of hair” “gear” “style of hair” “carb” “height of nose” “mpg” “width of nose” “cyl” “width of ear” “disp” “height of ear” “ hp”圖9-45. R中臉譜圖 上圖顯示了Motor Trend雜志1974年汽車(chē)數(shù)據(jù)的切爾諾夫臉譜圖??梢郧逦乜吹?,代表Mazda RX4、Mazda RX4 Wag的小人臉譜極為相似,說(shuō)明這兩種汽車(chē)品牌的各個(gè)參數(shù)十分相似。代表Merc 450SL、Merc 450SLC和Cadillac Fleetwood的小人
52、臉譜也非常相似,但是Cadillac Fleetwood小人的耳朵比前兩個(gè)小人寬,說(shuō)明Cadillac Fleetwood汽車(chē)的disp比前兩個(gè)汽車(chē)品牌大。 郵票圖表方法將高維數(shù)據(jù)的多個(gè)視圖以郵票大小按一定順序排列,從而將不同時(shí)間和空間的一系列高維數(shù)據(jù)擺放于同一個(gè)視圖。該方法為比較多個(gè)數(shù)據(jù)屬性提供了一個(gè)直接的方案。郵票圖表方法的優(yōu)勢(shì)非常突出,常被用于屬性數(shù)目不多的情形。與切爾諾夫圖情況一樣,這里不做詳細(xì)介紹了 文本與文檔可視化是商業(yè)信息可視化的主要研究?jī)?nèi)容之一,是通過(guò)對(duì)文本資源的分析、發(fā)現(xiàn)特定信息、并利用計(jì)算機(jī)技術(shù)將其以圖形化方式呈現(xiàn)出來(lái)的一種方法。文本與文檔可視化屬于文本挖掘的范疇,結(jié)合了信
53、息檢索、自然語(yǔ)言處理、人機(jī)交互、以及可視化技術(shù)等,需要在文本處理、可視化映射、交互的基礎(chǔ)上進(jìn)行,以豐富的圖形或圖像揭示以文本為載體的信息內(nèi)容,文本與文檔可視化包括單文本內(nèi)容可視化和多文檔可視化。 詞云:詞云,又稱(chēng)文本云或標(biāo)簽云。詞云是對(duì)網(wǎng)絡(luò)文本中出現(xiàn)頻率較高的“關(guān)鍵詞”予以視覺(jué)上的突出,形成“關(guān)鍵詞云層”或“關(guān)鍵詞渲染”,從而過(guò)濾掉大量的文本信息,使瀏覽網(wǎng)頁(yè)者只要一眼掃過(guò)文本就可以領(lǐng)略文本的主旨。它是最直觀、最常見(jiàn)的對(duì)文本關(guān)鍵字進(jìn)行可視化的方法。通常以字號(hào)和顏色來(lái)映射文字的相關(guān)屬性。權(quán)重越大的關(guān)鍵詞的字號(hào)越大,顏色越顯著。 用R語(yǔ)言繪制英文詞云,一般會(huì)用到wordcloud包,需要安裝和導(dǎo)入。
54、其用法如下:wordcloud(words,freq,scale=c(4,.5),min.freq=3,max.words=Inf,random.order=TRUE,random.color=FALSE, rot.per=.1,colors=black,ordered.colors=FALSE,use.r.layout=FALSE,.) R語(yǔ)言繪制英文詞 云.doc words關(guān)鍵詞列表 frep關(guān)鍵詞對(duì)應(yīng)的詞頻列表 scale字號(hào)列表。c(最大字號(hào), 最小字號(hào)) min.freq最小限制頻數(shù)。低于此頻數(shù)的關(guān)鍵詞將不會(huì)被顯示。 max.words限制詞云圖上關(guān)鍵詞的數(shù)量。最后出現(xiàn)在詞云圖上的
55、關(guān)鍵詞數(shù)量不超過(guò)此限制。 random.order控制關(guān)鍵詞在圖上的排列順序。T:關(guān)鍵詞隨機(jī)排列;F:關(guān)鍵詞按頻數(shù)從圖中心位置往外降序排列,即頻數(shù)大的詞出現(xiàn)在中心位置。 random.color控制關(guān)鍵詞的字體顏色。T:字體顏色隨機(jī)分配;F:根據(jù)頻數(shù)分配字體顏色。 rot.per控制關(guān)鍵詞擺放角度。T:水平擺放;F:旋轉(zhuǎn)90度。 colors字體顏色列表 ordered.colors控制字體顏色使用順序。T:按照指定的順序給出每個(gè)關(guān)鍵詞字體顏色,(似乎是要求顏色列表中每個(gè)顏色一一對(duì)應(yīng)關(guān)鍵詞列表);F:任意給出字體顏色。 library(tm)library(wordcloud)data(cru
56、de) crude - tm_map(crude, removePunctuation) crude - tm_map(crude,function(x)removeWords(x,stopwords()wordcloud(crude) weakgulfimportsoilprice1987alsabah arabcorp onealso 1986 accordsayeffective next hisham sincethree unitedfree texaco decembermln bringsbillionsellprotectsixremain emergency reserves
57、 indonesias hold market saying measures two lower januaryback low levelsincrease mckiernan sharpaddress rise bank revenuecan new produc er set international arabia s due 13nati on qatarthey weeks last howeveryear will meeting today day lowered smaller nazer fixed official ceilingprojected bbl says e
58、xpenditure alqabas exchange ship exploration production inc barrels severalstudy boost trading kuwai ts saudireduced quoted petroleum sheikh energy sector agency week appears company fall agreed reiteratedefp 19858 6 ability minister called rule commitment fell way must refinery among but quota loca
59、l moves posted denied expected agreement traders announced budget slightly emirateschange reserve opecs bpd problem asked future abdulaziz buyers 150 estimate crude revenues years growth made februarynamed kingdoms arabia economicreal cut compared plans now around producing spa analysts states may p
60、ressure according march intermediate published transaction the alidlrsper decrease main domes tic guard groupreuter alkhalifa plantdollars pct average strateg ic 158 de velopm ent officials yesterdaybarrel countrys arabian indonesia output governmentstate month industry never export current policy h
61、igher demand world added opec riyals spokeswoman april york recent prese nt power daily prices contractposition kuwait meetexports president economy total this nymex foreignresearch help 1985 sweet much sources companies memb ers pumpi ng grade reportfutures four estimatessaid west texas markets miz
62、rahi high 198788 兩個(gè)tm_map()函數(shù)分別用于去掉標(biāo)點(diǎn)符號(hào)和停用詞,然后用wordcloud()函數(shù)繪制一幅簡(jiǎn)單的詞云圖,字體越大,表示關(guān)鍵詞頻率越大,由此可見(jiàn)該文檔中oil和said最為關(guān)鍵。圖9-46. 英文詞云 #1.讀取數(shù)據(jù)庫(kù)setwd(d:R)#設(shè)置目錄在d盤(pán)R文件夾中csv - read.csv(train.csv,header=T, stringsAsFactors=F)mystopwords- unlist (read.table(StopWords.txt,stringsAsFactors=F)#這里先定義了地址、然后讀取文檔、最后定義停用詞#2.數(shù)據(jù)預(yù)處
63、理(包括中文分詞和停用詞處理)#分詞library(tm)library (rJava) library (rmmseg4j) #removeNumbers = function(x) ret = gsub(0-9,x) tmp -as.character(csv2)tmp-mmseg4j(tmp)#建立語(yǔ)料庫(kù)ovid - Corpus(VectorSource(tmp) #meta(ovid,cluster) - csv$type#unique_type - unique(csv$type) #去掉停用詞stop-c() #停用詞data_stw=read.table(file=d:/R/t
64、xtmining/stopword.txt,colClasses=character)for(i in 1:dim(data_stw)1)stop=c(stop,data_stwi,1) ovid- tm_map(ovid, removeWords,stop) #創(chuàng)建詞條-文檔矩陣sample.dtm- DocumentTermMatrix(ovid, control = list(wordLengths = c(2, Inf)#3.畫(huà)出云圖library(wordcloud)library(Rcpp)library(RColorBrewer)m - as.matrix(sample.dtm)
65、v - sort(colSums(m), decreasing=TRUE) myNames - names(v)d - data.frame(word=myNames, freq=v)wordcloud(d$word, d$freq, min.freq=50) 圖9-47. 中文詞云 單詞樹(shù)不僅能夠使關(guān)鍵詞可視化,還能使語(yǔ)句上下文信息可視化。其中,樹(shù)的根節(jié)點(diǎn)是用戶自選定的單詞或短語(yǔ),而樹(shù)的各個(gè)分支是與根節(jié)點(diǎn)處的單詞或短語(yǔ)有上下文關(guān)系的單詞或短語(yǔ)。詞頻越大,字號(hào)就越大。下圖顯示了泰戈?duì)柕脑?shī)歌“The furthest distance in the world”的單詞樹(shù)可視化結(jié)果。 圖9-48.
66、 單詞樹(shù) 多個(gè)文檔構(gòu)成的文檔集合蘊(yùn)含著豐富的文本信息,關(guān)系復(fù)雜,多文檔可視化可以幫助我們理解不同主題在文檔集合中的分布、多文檔之間的關(guān)系等隱藏的信息。多文檔可視化主要有星系視圖、主題山地、新聞地圖等方法,其中星系視圖和主題山地將文檔之間的關(guān)系分別用星系圖和地形圖的形式表現(xiàn)出來(lái),而新聞地圖則是基于樹(shù)圖的布局對(duì)新聞文檔進(jìn)行分類(lèi),并表現(xiàn)出它們的相對(duì)重要性。 星系視圖是將文檔集合中的文檔按照主題相似性進(jìn)行布局,并采用宇宙星系進(jìn)行可視隱喻的可視化形式。在星系視圖中,單個(gè)文檔是圖中的星星,其在圖中的位置按照某種相似性計(jì)算規(guī)則投影到二維平面中,主題越相似的文本距離越近,反之亦然。主題相似的文檔在距離上較為靠近,可以聚攏成一個(gè)密集的星簇,每個(gè)星簇代表一類(lèi)主題,星簇越密集表明該類(lèi)主題的文檔數(shù)量越多。 圖9-49. 星系視圖 主題山地可看做是星系視圖的改進(jìn),它使用了抽象的三維山地景觀視圖來(lái)隱喻文檔集合中各個(gè)文檔主題的分布,其中高度和顏色用來(lái)編碼相似主題的文檔的密度。如圖所示,每個(gè)文檔被映射成視圖中的點(diǎn),點(diǎn)在視圖中的距離映射成其所代表的文檔主題之間的相似性,主題越相似,則距離越近,反之亦然。點(diǎn)分布越密集表明
- 溫馨提示:
1: 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025《增值稅法》高質(zhì)量發(fā)展的增值稅制度規(guī)范增值稅的征收和繳納
- 深入學(xué)習(xí)《中華人民共和國(guó)科學(xué)技術(shù)普及法》推進(jìn)實(shí)現(xiàn)高水平科技自立自強(qiáng)推動(dòng)經(jīng)濟(jì)發(fā)展和社會(huì)進(jìn)步
- 激揚(yáng)正氣淬煉本色踐行使命廉潔從政黨課
- 加強(qiáng)廉潔文化建設(shè)夯實(shí)廉政思想根基培育風(fēng)清氣正的政治生態(tài)
- 深入學(xué)習(xí)2024《突發(fā)事件應(yīng)對(duì)法》全文提高突發(fā)事件預(yù)防和應(yīng)對(duì)能力規(guī)范突發(fā)事件應(yīng)對(duì)活動(dòng)保護(hù)人民生命財(cái)產(chǎn)安全
- 2023年四年級(jí)數(shù)學(xué)上冊(cè)第一輪單元滾動(dòng)復(fù)習(xí)第10天平行四邊形和梯形作業(yè)課件新人教版
- 2023年四年級(jí)數(shù)學(xué)上冊(cè)第14單元階段性綜合復(fù)習(xí)作業(yè)課件新人教版
- 2023年四年級(jí)數(shù)學(xué)上冊(cè)易錯(cuò)清單十五課件新人教版
- 2023年四年級(jí)數(shù)學(xué)上冊(cè)易錯(cuò)清單七課件西師大版
- 2023年五年級(jí)數(shù)學(xué)下冊(cè)易錯(cuò)清單六作業(yè)課件北師大版
- 2023年五年級(jí)數(shù)學(xué)下冊(cè)易錯(cuò)清單二作業(yè)課件北師大版
- 2023年五年級(jí)數(shù)學(xué)下冊(cè)四分?jǐn)?shù)的意義和性質(zhì)第10課時(shí)異分母分?jǐn)?shù)的大小比較作業(yè)課件蘇教版
- 2023年五年級(jí)數(shù)學(xué)下冊(cè)周周練四作業(yè)課件北師大版
- 2023年五年級(jí)數(shù)學(xué)下冊(cè)六折線統(tǒng)計(jì)圖單元復(fù)習(xí)卡作業(yè)課件西師大版
- 2023年四年級(jí)數(shù)學(xué)上冊(cè)6除數(shù)是兩位數(shù)的除法單元易錯(cuò)集錦一作業(yè)課件新人教版