《第九章-數(shù)據(jù)挖掘和數(shù)據(jù)可視化》由會員分享,可在線閱讀,更多相關(guān)《第九章-數(shù)據(jù)挖掘和數(shù)據(jù)可視化(45頁珍藏版)》請在裝配圖網(wǎng)上搜索。
1、單擊此處編輯母版標(biāo)題樣式,單擊此處編輯母版文本樣式,第二級,第三級,第四級,第五級,*,決策支持系統(tǒng),決策支持系統(tǒng),第九章,數(shù)據(jù)挖掘與數(shù)據(jù)可視化,本章學(xué)習(xí)目的與要求,理解數(shù)據(jù)挖掘的基本概念;,掌握數(shù)據(jù)挖掘常用的算法;,理解數(shù)據(jù)可視化的基本概念;,內(nèi)容提示,第一節(jié) 數(shù)據(jù)挖掘,第二節(jié) 數(shù)據(jù)可視化,第一節(jié) 數(shù)據(jù)挖掘,第一節(jié) 數(shù)據(jù)挖掘,數(shù)據(jù)挖掘的概念;,數(shù)據(jù)挖掘的任務(wù)。,(一)數(shù)據(jù)挖掘概念,-,前言,信息產(chǎn)業(yè)的發(fā)展引發(fā)了數(shù)據(jù)的大量聚集,如,一個中等規(guī)模企業(yè)每天要產(chǎn)生,100MB,以上來自各生產(chǎn)經(jīng)營等多方面的商業(yè)數(shù)據(jù);在科研方面,以美國宇航局的數(shù)據(jù)庫為例,每天從衛(wèi)星下載的數(shù)據(jù)量就達(dá),34TB,之多,。,
2、據(jù)估計,,1993,年全球數(shù)據(jù)存貯容量約為二千,TB,,到,2000,年增加到三百萬,TB,,面對這極度膨脹的數(shù)據(jù)信息量,人們受到“信息爆炸”、“混沌信息空間”和“數(shù)據(jù)過?!钡木薮髩毫Α?前言,人類的各項(xiàng)活動都是基于人類的智慧和知識,即對外部世界的觀察和了解,做出正確的判斷和決策以及采取正確的行動,;,而數(shù)據(jù)僅僅是人們用各種工具和手段觀察外部世界所得到的原始材料,它本身沒有任何意義。,從數(shù)據(jù)到知識到智慧,需要經(jīng)過分析加工處理精煉的過程。,前言,數(shù)據(jù)與知識間的關(guān)系,數(shù)據(jù)到知識的轉(zhuǎn)變,數(shù)據(jù)倉庫,的出現(xiàn),為更深入對數(shù)據(jù)進(jìn)行分析提供了條件,,它不同于管理日常工作數(shù)據(jù)的數(shù)據(jù)庫,它更便于分析針對特定主題的
3、集成化的、時變的的數(shù)據(jù),且這些數(shù)據(jù)一旦存入就不再發(fā)生變化,;,OLAP,是數(shù)據(jù)分析手段的一大進(jìn)步,以往的分析工具所得到的報告結(jié)果只能回答“什么”(,WHAT,),而,OLAP,的分析結(jié)果能回答“為什么”(,WHY,)。,數(shù)據(jù)到知識的轉(zhuǎn)變,但,O,LAP,是建立在用戶對深藏在數(shù)據(jù)中的某種知識有預(yù)感和假設(shè)的前提下,由用戶指導(dǎo)的信息分析與知識發(fā)現(xiàn)過程,;,由于數(shù)據(jù)倉庫,中的數(shù)據(jù)來,源于多個數(shù)據(jù)源,因此其中埋藏著豐富的不為用戶所知的有用信息和知識,而要使企業(yè)能及時準(zhǔn)確地做出科學(xué)的經(jīng)營決策,就需要有基于計算機(jī)與信息技術(shù)的智能化自動工具,來幫助挖掘,隱藏在數(shù)據(jù)中的各類知識,。,數(shù)據(jù)挖掘的產(chǎn)生,九十年代中期
4、以來,許多軟件開發(fā)商,基于數(shù)理統(tǒng)計、人工智能、機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、進(jìn)化計算和模式識別等多種技術(shù)和市場需求,開發(fā)了許多數(shù)據(jù)挖掘與知識發(fā)現(xiàn)軟件工具,從而形成了近年來軟件開發(fā)市場的熱點(diǎn)。,目前數(shù)據(jù)挖掘工具已開始向智能化整體數(shù)據(jù)分析解決方案發(fā)展,這是從數(shù)據(jù)到知識演化過程中的一個重要里程碑,。,數(shù)據(jù)挖掘的產(chǎn)生,數(shù)據(jù)到知識的演化過程示意圖,(一)數(shù)據(jù)挖掘的概念,數(shù)據(jù)挖掘,(,Data Mining,DM,):又名數(shù)據(jù)庫中的,知識發(fā)現(xiàn),(,Knowledge discovery from database,簡稱,KDD,),,它是一個從大量數(shù)據(jù)中抽取挖掘出,未知的、有價值,的模式或規(guī)律等知識的復(fù)雜過程,。,
5、簡單地講就是從大量數(shù)據(jù)中挖掘或抽取出知識。,數(shù)據(jù)挖掘的步驟,數(shù)據(jù)挖掘過程示意圖,數(shù)據(jù)挖掘的過程,整個知識挖掘過程是由若干挖掘步驟組成,而數(shù)據(jù)挖掘僅是其中的一個主要步驟。整個知識挖掘的主要步驟有:,(,1,),數(shù)據(jù)清洗,:清除數(shù)據(jù)噪聲和與挖掘主題明顯無關(guān)的數(shù)據(jù);,(,2,),數(shù)據(jù)集成,:將來自多數(shù)據(jù)源中的相關(guān)數(shù)據(jù)組合到一起;,(,3,),數(shù)據(jù)轉(zhuǎn)換,:將數(shù)據(jù)轉(zhuǎn)換為易于進(jìn)行數(shù)據(jù)挖掘的數(shù)據(jù)存儲形式。,數(shù)據(jù)挖掘的過程,(,4,),數(shù)據(jù)挖掘,:利用智能方法挖掘數(shù)據(jù)模式或規(guī)律知識;,(,5,),模式評估,:根據(jù)一定評估標(biāo)準(zhǔn)從挖掘結(jié)果篩選出有意義的模式知識;,(,6,),知識表示,:,利用可視化和知識表達(dá)技術(shù)
6、,向用戶展示所挖掘出的相關(guān)知識,。,(二)數(shù)據(jù)挖掘的任務(wù),利用數(shù)據(jù)挖掘技術(shù)可以幫助獲得決策所需的多種知識。在許多情況下,用戶并不知道數(shù)據(jù)存在哪些有價值的信息知識,因此對于一個數(shù)據(jù)挖掘系統(tǒng)而言,它應(yīng)該能夠同時搜索發(fā)現(xiàn)多種模式的知識,以滿足用戶的期望和實(shí)際需要,。,(二)數(shù)據(jù)挖掘的任務(wù),數(shù)據(jù)挖掘功能以及所能夠挖掘的知識類型說明描述如下:,(,1,)關(guān)聯(lián)分析;,(,2,)分類與預(yù)測;,(,3,)聚類分析;,(,4,)異類分析;,(,5,)演化分析,。,(,1,)關(guān)聯(lián)分析,關(guān)聯(lián)分析(,association analysis,)就是從給定的數(shù)據(jù)集發(fā)現(xiàn)頻繁出現(xiàn)的項(xiàng)集模式知識(又稱為關(guān)聯(lián)規(guī)則,,assoc
7、iation rules,)。,關(guān)聯(lián)分析廣泛用于市場營銷、事務(wù)分析等應(yīng)用領(lǐng)域。,通常關(guān)聯(lián)規(guī)則具有:,X Y,形式,表示“數(shù)據(jù)庫中的滿足,X,中條件的記錄也一定滿足,Y,中的條件”,。,關(guān)聯(lián)分析示例,一個數(shù)據(jù)挖掘系統(tǒng)可以從一個商場的銷售,(,交易事務(wù)處理,),記錄數(shù)據(jù)中,挖掘出如下所示的關(guān)聯(lián)規(guī)則:,Age(X,”20-29”)income(X,“20K-30K”)buys(X,”MP3”),support=2%,confidence=60%,上述關(guān)聯(lián)規(guī)則表示:該商場有,2%,的顧客年齡在,20,歲到,29,歲且收入在,2,萬到,3,萬之間,這群顧客中有,60%,的人購買了,MP3,,或者說這群顧
8、客購買,MP3,的概率為,60%,。,(,2,)分類與預(yù)測,分類(,classification,)就是找出一組能夠描述數(shù)據(jù)集合典型特征的模型(或函數(shù)),以便能夠分類識別未知數(shù)據(jù)的歸屬或類別(,class,),即將未知事例映射到某種離散類別之一。,分類模型(或函數(shù))可以通過分類挖掘算法從一組訓(xùn)練樣本數(shù)據(jù)(其類別歸屬已知)中學(xué)習(xí)獲得。,(,2,)分類與預(yù)測,分類通常用于預(yù)測未知數(shù)據(jù)實(shí)例的歸屬類別(有限離散值),如一個銀行客戶的信用等級是屬于,A,級、,B,級還是,C,級。,但在一些情況下,需要預(yù)測某數(shù)值屬性的值(連續(xù)數(shù)值),這樣的分類就被稱為預(yù)測(,prediction,)。,盡管預(yù)測既包括連續(xù)
9、數(shù)值的預(yù)測,也包括有限離散值的分類;但一般還是使用,預(yù)測來表示對連續(xù)數(shù)值的預(yù)測,;而使用,分類來表示對有限離散值的預(yù)測,分類與預(yù)測示例,表中給出打高爾夫球與天氣的關(guān)系,要求根據(jù)條件屬性的不同取值來決定是否可以打高爾夫球。,ID,Outlook,Temperature,Humidity,Windy,Class,1,Overcast,Hot,High,Not,N,2,Overcast,Hot,High,Very,N,3,Overcast,Hot,High,Medium,N,38,Sunny,Hot,High,Medium,P,39,Rain,Mild,High,Not,N,40,Rain,Mild
10、,High,Medium,N,分類與預(yù)測示例,分類結(jié)果(決策樹),(,3,)聚類分析,聚類分析(,clustering analysis,)與分類預(yù)測方法明顯不同之處在于:,分類所學(xué)習(xí)獲取分類預(yù)測模型所使用的數(shù)據(jù)是已知類別歸屬,屬于有教師監(jiān)督學(xué)習(xí)方法;,而聚類分析所處理的數(shù)據(jù)均是無類別歸屬。因此聚類分析屬于無教師監(jiān)督學(xué)習(xí)方法。,聚類原則:類內(nèi)距離最小,類間距離最大。,(,4,)異類分析,一個數(shù)據(jù)庫中的數(shù)據(jù)一般不可能都符合分類預(yù)測或聚類分析所獲得的模型。那些不符合大多數(shù)數(shù)據(jù)對象所構(gòu)成的規(guī)律(模型)的數(shù)據(jù)對象就被稱為異類(,outlier,)。,對異類數(shù)據(jù)的分析處理通常就稱為異類挖掘。,(,4,)
11、異類分析,之前許多數(shù)據(jù)挖掘方法都在正式進(jìn)行數(shù)據(jù)挖掘之前就將這些異類作為噪聲或意外而將其排除在數(shù)據(jù)挖掘的分析處理范圍之內(nèi)。,但在一些應(yīng)用場合,如各種商業(yè)欺詐行為的自動檢測,小概率發(fā)生的事件(數(shù)據(jù))往往比經(jīng)常發(fā)生的事件(數(shù)據(jù))更有挖掘價值。,例如:可以根據(jù)購買的發(fā)生地點(diǎn)、購買商品類型和購買頻率等發(fā)現(xiàn)屬于信用卡詐騙的購買行為(異類數(shù))。,(,5,)演化分析,數(shù)據(jù)演化分析(,evolution analysis,)就是對隨時間變化的數(shù)據(jù)對象的變化規(guī)律和趨勢進(jìn)行建模描述。,這一建模手段包括:概念描述、對比概念描述、關(guān)聯(lián)分析、分類分析、時間相關(guān)數(shù)據(jù)分析(這其中又包括:時序數(shù)據(jù)分析、序列或周期模式匹配,以及
12、基于相似性的數(shù)據(jù)分析,),。,演化分析示例,例如:利用演化分析方法可對股市主要股票交易數(shù)據(jù)(時序數(shù)據(jù))進(jìn)行分析,以便獲得整個股票市場的股票演化規(guī)律,以及一個特定股票的變化規(guī)律,這種規(guī)律或許能夠幫助預(yù)測股票市場上的股票價格,從而有效提高投資回報率。,第二節(jié) 數(shù)據(jù)可視化,第二節(jié) 數(shù)據(jù)可視化,數(shù)據(jù)可視化的概念;,數(shù)據(jù)可視化的意義。,(一)數(shù)據(jù)可視化的概念,數(shù)據(jù)可視化是關(guān)于,數(shù)據(jù),之視覺表現(xiàn)形式的研究,。,數(shù)據(jù)可視化是當(dāng)前的一個熱點(diǎn)問題,特別在交互設(shè)計領(lǐng)域,如何把數(shù)據(jù),特別是大規(guī)模的數(shù)據(jù)進(jìn)行可視化就成為了一個非常熱門的問題,。,(一)數(shù)據(jù)可視化的概念,可視化,(,Visualization,):利用計
13、算機(jī)圖形學(xué)和圖像處理技術(shù),將數(shù)據(jù)轉(zhuǎn)換成圖形或圖像在屏幕上顯示出來,并進(jìn)行交互處理的理論、方法和技術(shù)。,它涉及到計算機(jī)圖形學(xué)、圖像處理、計算機(jī)視覺、計算機(jī)輔助設(shè)計等多個領(lǐng)域,成為研究數(shù)據(jù)表示、數(shù)據(jù)處理、決策分析等一系列問題的綜合技術(shù),。,數(shù)據(jù)可視化主要旨在借助于圖形化手段,清晰有效地傳達(dá)與溝通信息。,當(dāng)前,在研究、教學(xué)和開發(fā)領(lǐng)域,數(shù)據(jù)可視化乃是一個極為活躍而又關(guān)鍵的方面,。,通過數(shù)據(jù)可視化技術(shù),可以發(fā)現(xiàn)大量金融、通信和商業(yè)數(shù)據(jù)中隱含的規(guī)律,從而為決策提供依據(jù)。,(一)數(shù)據(jù)可視化的概念,(二)數(shù)據(jù)可視化的意義,數(shù)據(jù)可視化為我們提供了一條清晰有效地傳達(dá)與溝通信息的渠道:,(,1,)交互性。用戶可以方
14、便地以交互的方式管理和開發(fā)數(shù)據(jù);,(,2,)多維性??梢钥吹奖硎緦ο蠡蚴录臄?shù)據(jù)的多個屬性或變量,而數(shù)據(jù)可以按其每一維的值,將其分類、排序、組合和顯示;,(,3,)可視性。數(shù)據(jù)可以用圖象、曲線、二維圖形、三維體和動畫來顯示,并可對其模式和相互關(guān)系進(jìn)行可視化分析。,數(shù)據(jù)可視化的應(yīng)用,(,1,)醫(yī)學(xué):,長期以來人類就有認(rèn)識自身內(nèi)部結(jié)構(gòu)的愿望。直到,70,年代計算機(jī)斷層掃描(,CT,)和核磁共振圖像(,MRI,)技術(shù)和可視化技術(shù)的出現(xiàn),才使獲取人體內(nèi)部數(shù)據(jù)的愿望成為現(xiàn)實(shí)。,可視化人體計劃(,VHP,)數(shù)據(jù)集的出現(xiàn),標(biāo)志計算機(jī)三維重構(gòu)圖像和虛擬現(xiàn)實(shí)技術(shù)進(jìn)入了醫(yī)學(xué)領(lǐng)域,從而大大促進(jìn)了醫(yī)學(xué)的發(fā)展和普及。,
15、人類大腦的三維圖像,數(shù)據(jù)可視化的應(yīng)用,(,2,)油氣勘探:,目前石油工業(yè)面臨的一個嚴(yán)峻問題是:如何尋找規(guī)模小而埋藏深的油氣田。油氣勘探的主要方式,是通過天然地震波或人工爆炸產(chǎn)生的聲波在地質(zhì)構(gòu)造中的傳播,來重構(gòu)大范圍內(nèi)的地質(zhì)構(gòu)造,并通過測井?dāng)?shù)據(jù)了解局部區(qū)域的地層結(jié)構(gòu),探明油藏氣藏位置及其分布,估計蘊(yùn)藏量及其勘探價值。由于地震數(shù)據(jù)及測井?dāng)?shù)據(jù)的數(shù)據(jù)量極其龐大,而且分布不均勻,因而無法根據(jù)紙面上的數(shù)據(jù)作出分析。利用可視化技術(shù)可以從大量的地質(zhì)勘探數(shù)據(jù)或測井?dāng)?shù)據(jù)中,構(gòu)造出感興趣的等值面、等值線,并顯示其范圍及走向,并用不同顏色顯示出多種參數(shù)及其 相互關(guān)系,從而使專業(yè)人員能對原始數(shù)據(jù)作出正確解釋,得到礦藏是
16、否存在、礦藏位置及儲量大小等重要信息。,數(shù)據(jù)可視化的應(yīng)用,油藏三維圖,數(shù)據(jù)可視化的應(yīng)用,(,3,)氣象預(yù)報:,氣象預(yù)報的準(zhǔn)確性依賴于對大量數(shù)據(jù)的計算和對計算結(jié)果的分析。,一方面,科學(xué)計算可視化可將大量的數(shù)據(jù)轉(zhuǎn)換為圖像,在屏幕上顯示出某一時刻的等壓面、等溫面、旋渦、云層的位置及運(yùn)動、暴雨區(qū)的位置及其強(qiáng)度、風(fēng)力的大小及方向等,使預(yù)報人員能對未來的天氣作出準(zhǔn)確的分析和預(yù)測。,另一方面,根據(jù)全球的氣象監(jiān)測數(shù)據(jù)和計算結(jié)果,可將不同時期全球的氣溫分布、氣壓分布、雨量分布及風(fēng)力風(fēng)向等以圖像形式表示出來,從而對全球的氣象情況及其變化趨勢進(jìn)行研究和預(yù)測。,天氣預(yù)報圖,包括云狀,液態(tài)水和風(fēng),數(shù)據(jù)可視化的應(yīng)用,(,4,)工程:,計算機(jī)輔助工程(,CAE,)包括計算機(jī)輔助設(shè)計(,CAD,)、計算機(jī)輔助制造(,CAM,)和計算機(jī)輔助運(yùn)行等多項(xiàng)內(nèi)容。,可視化技術(shù)有助于整個工程過程一體化和流線化,并能使工程的領(lǐng)導(dǎo)和技術(shù)人員看到和了解過程中參數(shù)變化對整體的動態(tài)影響,從而達(dá)到縮短研制周期、節(jié)省工程全壽命費(fèi)用的目的。,美國航空航天局阿姆斯研究中心的虛擬風(fēng)洞,思考與練習(xí),1,)數(shù)據(jù)挖掘技術(shù)的概念?,2,)數(shù)據(jù)可視化技術(shù)的概