數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的決策支持

上傳人:y****n 文檔編號:253243728 上傳時間:2024-12-09 格式:PPT 頁數(shù):122 大?。?49KB
收藏 版權(quán)申訴 舉報 下載
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的決策支持_第1頁
第1頁 / 共122頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的決策支持_第2頁
第2頁 / 共122頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的決策支持_第3頁
第3頁 / 共122頁

下載文檔到電腦,查找使用更方便

14.9 積分

下載資源

還剩頁未讀,繼續(xù)閱讀

資源描述:

《數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的決策支持》由會員分享,可在線閱讀,更多相關(guān)《數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的決策支持(122頁珍藏版)》請在裝配圖網(wǎng)上搜索。

1、,,,,,,,單擊此處編輯母版標(biāo)題樣式,,單擊此處編輯母版文本樣式,,第二級,,第三級,,第四級,,第五級,,,*,第5章,,數(shù)據(jù)倉庫與數(shù)據(jù)挖掘,,的決策支持,,,5.1 數(shù)據(jù)倉庫的基本原理,5.1.1 數(shù)據(jù)倉庫概念,,5.1.2 數(shù)據(jù)倉庫結(jié)構(gòu),,5.1.3 數(shù)據(jù)集市,,5.1.4 元數(shù)據(jù),,5.1.1 數(shù)據(jù)倉庫的概念,(1)在《建立數(shù)據(jù)倉庫》一書中,對數(shù)據(jù)倉庫的定義為:,,,數(shù)據(jù)倉庫是面向,主題的,、,集成的,、,穩(wěn)定的,,,不同時間,的數(shù)據(jù)集合,用于支持經(jīng)營管理中,決策制定,過程。,,,1、數(shù)據(jù)倉庫的概念,(2)SAS軟件研究所定義:,,,數(shù)據(jù)倉庫是一種,管理技術(shù),,旨在通過,通暢,、,合

2、理,、,全面,的信息管理,達到有效的決策支持。,,1、數(shù)據(jù)倉庫的概念,,傳統(tǒng)數(shù)據(jù)庫用于事務(wù)處理,也叫,操作型處理,,是指對數(shù)據(jù)庫聯(lián)機進行日常操作,即對一個或一組記錄的查詢和修改,主要為企業(yè),特定的應(yīng)用,服務(wù)的。用戶關(guān)心的是響應(yīng)時間,數(shù)據(jù)的安全性和完整性。,,數(shù)據(jù)倉庫用于決策支持,也稱,分析型處理,,用于決策分析,它是建立決策支持系統(tǒng)(DSS)的基礎(chǔ)。,,操作型數(shù)據(jù)(DB數(shù)據(jù))與,,分析型數(shù)據(jù)(DW數(shù)據(jù))之間的差別為:,,2、數(shù)據(jù)倉庫特點,(1)數(shù)據(jù)倉庫是面向主題的,,主題是數(shù)據(jù),歸類,的標(biāo)準(zhǔn),每一個主題基本對應(yīng)一個宏觀的分析領(lǐng)域。,,例如,銀行的數(shù)據(jù)倉庫的主題:客戶,,DW的客戶數(shù)據(jù)來源:,,

3、從,銀行儲蓄DB、信用卡DB、貸款DB,等三個DB中抽取同一客戶的數(shù)據(jù)整理而成。,,在,D,W,中分析客戶數(shù)據(jù),可決定是否繼續(xù)給予貸款,,2、數(shù)據(jù)倉庫特點,(2)數(shù)據(jù)倉庫是集成的,,數(shù)據(jù)進入數(shù)據(jù)倉庫之前,必須經(jīng)過加工與集成,,對,不同的,數(shù)據(jù)來源進行統(tǒng)一數(shù)據(jù)結(jié)構(gòu)和編碼,,統(tǒng)一原始數(shù)據(jù)中的所有,矛盾,之處,如字段的,同名異義,,,異名同義,,單位不統(tǒng)一,字長不一致等。,,,總之,,,將原始數(shù)據(jù)結(jié)構(gòu)做一個從,面向應(yīng)用,到,面向主題,的大轉(zhuǎn)變。,,2、數(shù)據(jù)倉庫特點,(3)數(shù)據(jù)倉庫是穩(wěn)定的,,數(shù)據(jù)倉庫中包括了大量的歷史數(shù)據(jù)。數(shù)據(jù)經(jīng)集成進入數(shù)據(jù)倉庫后是,極少,或,根本,不更新的。,,(4)數(shù)據(jù)倉庫是隨時

4、間變化的,,數(shù)據(jù)倉庫內(nèi)的數(shù)據(jù)時限在,5,~,10,年,故數(shù)據(jù)的鍵碼包含時間項,標(biāo)明數(shù)據(jù)的歷史時期,這適合DSS進行,時間趨勢分析,。,,,數(shù)據(jù)庫只包含當(dāng)前數(shù)據(jù),即存取某一時間的正確的有效的數(shù)據(jù)。,,2、數(shù)據(jù)倉庫特點,,(5)數(shù)據(jù)倉庫的數(shù)據(jù)量大.,,,大型DW是一個TB(1000GB)級數(shù)據(jù)庫問題(一般為10GB級相當(dāng)于一般數(shù)據(jù)庫100MB的100倍),,,(6)數(shù)據(jù)倉庫的硬件要求較高,,,需要一個巨大的硬件平臺需要一個并行的數(shù)據(jù)庫系統(tǒng).,,,最好的數(shù)據(jù)倉庫是大的和昂貴的。,,,近期基本數(shù)據(jù):,是最近時期的業(yè)務(wù)數(shù)據(jù),是數(shù)據(jù)倉庫用戶,最感興趣,的部分,數(shù)據(jù)量大。,,,歷史基本數(shù)據(jù):,近期基本數(shù)據(jù),

5、隨時間的推移,由數(shù)據(jù)倉庫的,時間控制機制,轉(zhuǎn)為歷史基本數(shù)據(jù)。,,,輕度綜合數(shù)據(jù):,是從,近期基本數(shù)據(jù),中提取出的,這層數(shù)據(jù)是按時間段選取,或者按數(shù)據(jù)屬性(attributes)和內(nèi)容(contents)進行綜合。,,高度綜合數(shù)據(jù)層:,這一層的數(shù)據(jù)是在,輕度綜合數(shù)據(jù),基礎(chǔ)上的再一次綜合,是一種準(zhǔn)決策數(shù)據(jù)。,5.1.2 數(shù)據(jù)倉庫結(jié)構(gòu),,,元數(shù)據(jù):,整個數(shù)據(jù)倉庫的組織結(jié)構(gòu)由元數(shù)據(jù)組織,它不包含數(shù)據(jù)倉庫中的,實際數(shù)據(jù)信息,。,,,作用:,,(1)定位數(shù)據(jù)倉庫的目錄內(nèi)容,,(2)數(shù)據(jù)從,業(yè)務(wù)環(huán)境,向,數(shù)據(jù)倉庫環(huán)境,傳遞時數(shù)據(jù)倉庫的目錄內(nèi)容,,(3)指導(dǎo)從,當(dāng)前基本數(shù)據(jù),到,輕度綜合數(shù)據(jù),到,高度綜合數(shù)

6、據(jù),的綜合算法的選擇。,,,組成:,,,(1)數(shù)據(jù)結(jié)構(gòu),,(2)用于綜合的算法,,(3)從業(yè)務(wù)環(huán)境到DW規(guī)劃,5.1.2 數(shù)據(jù)倉庫結(jié)構(gòu),,數(shù)據(jù)倉庫結(jié)構(gòu)圖,,1.數(shù)據(jù)集市的產(chǎn)生,,數(shù)據(jù)倉庫工作范圍和成本常常是巨大的。開發(fā)數(shù)據(jù)庫是,代價很高,、,時間較長,的大項目。提供更緊密集成的數(shù)據(jù)集市就應(yīng)運產(chǎn)生。,,目前,全世界對數(shù)據(jù)倉庫,總投資的一半,以上均集中在數(shù)據(jù)集市上。,5.1.3 數(shù)據(jù)集市(Data Mart),,,數(shù)據(jù)集市(Data Marts)是一種,更小,、,更集中,的數(shù)據(jù)倉庫,為公司提供分析商業(yè)數(shù)據(jù)的一條廉價途徑。,,數(shù)據(jù)集市是指具有,特定應(yīng)用,的數(shù)據(jù)倉庫,主要針對某個應(yīng)用或者具體部門級

7、的應(yīng)用,支持用戶獲得競爭優(yōu)勢或者找到進入新市場的具體解決方案,2.數(shù)據(jù)集市概念,,3.數(shù)據(jù)集市與數(shù)據(jù)倉庫的,關(guān)系,數(shù)據(jù)集市不等于數(shù)據(jù)倉庫,多個數(shù)據(jù)集市簡單合并起來不能成為數(shù)據(jù)倉庫。,,各數(shù)據(jù)集市之間對詳細數(shù)據(jù)和歷史數(shù)據(jù)的存儲,存在大量冗余,。,,同一個問題在不同的數(shù)據(jù)集市的查詢結(jié)果,可能不一致,甚至互相矛盾。,,各數(shù)據(jù)集市之間以及與源數(shù)據(jù)庫系統(tǒng)之間,難以管理,。,,1、規(guī)模小,,2、特定的應(yīng)用,,3、面向部門,,4、由業(yè)務(wù)部門定義,設(shè)計和開發(fā),,5、由業(yè)務(wù)部門管理和維護,,6、快速實現(xiàn),,7、購買較便宜,,8、投資快速回收,,9、工具集的緊密集成,,10、更詳細的、預(yù)先存在的數(shù)據(jù)倉庫的摘要子集

8、,,11、可升級到完整的數(shù)據(jù)倉庫,4.數(shù)據(jù)集市的特性,,,5.兩種數(shù)據(jù)集市結(jié)構(gòu),從屬數(shù)據(jù)集市(Dependent Data Mart),,從屬:,數(shù)據(jù)直接來自中央數(shù)據(jù)庫,能夠保持?jǐn)?shù)據(jù)的一致性。,,關(guān)鍵業(yè)務(wù)部門建立從屬的數(shù)據(jù)集市,可以很好的查詢反應(yīng)速度。,,,5.兩種數(shù)據(jù)集市結(jié)構(gòu),獨立數(shù)據(jù)集市(Independent Data Mart),獨立:,數(shù)據(jù)直接來自各生產(chǎn)系統(tǒng)。,,從投資考慮,用來解決各個部門比較迫切的決策問題。,,6.數(shù)據(jù)集市與數(shù)據(jù)倉庫的,差別,數(shù)據(jù)倉庫是基于,整個企業(yè),的數(shù)據(jù)模型建立的,它面向企業(yè)范圍的主題;,,數(shù)據(jù)集市是按照,某一特定部門,的數(shù)據(jù)模型建立的,由于每個部門有自己特定

9、的需求,因此,對他們對數(shù)據(jù)集市的期望也不一樣,也稱作部門級數(shù)據(jù)倉庫,,部門的主題與企業(yè)的主題之間可能存在關(guān)聯(lián),也可能不存在關(guān)聯(lián)。,,數(shù)據(jù)集市的數(shù)據(jù)組織一般采用星形模型,大型數(shù)據(jù)倉庫的數(shù)據(jù)組織采用第三范式。,,,元數(shù)據(jù),是數(shù)據(jù)倉庫的重要組成部分。元數(shù)據(jù)描述了數(shù)據(jù)倉庫的數(shù)據(jù)和環(huán)境,即,關(guān)于數(shù)據(jù)的數(shù)據(jù),(meta data)。,元數(shù)據(jù),就相當(dāng)于數(shù)據(jù)庫系統(tǒng)中的,數(shù)據(jù)字典,,元數(shù)據(jù)包括四種元數(shù)據(jù),,關(guān)于,數(shù)據(jù)源,的元數(shù)據(jù),,關(guān)于,數(shù)據(jù)模型,的元數(shù)據(jù),,關(guān)于,數(shù)據(jù)倉庫映射,的元數(shù)據(jù),,關(guān)于,數(shù)據(jù)倉庫使用,的元數(shù)據(jù),5.1.4 元數(shù)據(jù),,它是現(xiàn)有的業(yè)務(wù)系統(tǒng)的數(shù)據(jù)源的描述信息。這類元數(shù)據(jù)是對,不同平臺,上的

10、數(shù)據(jù)源的,物理結(jié)構(gòu),和,含義,的,描述,。具體為:,,(1)數(shù)據(jù)源中所有物理數(shù)據(jù)結(jié)構(gòu),包括所有的數(shù)據(jù)項及數(shù)據(jù)類型。,,(2)所有數(shù)據(jù)項的業(yè)務(wù)定義。,,(3)每個數(shù)據(jù)項更新的頻率,以及由誰或哪個過程更新的說明。,,(4)每個數(shù)據(jù)項的有效值。,1、關(guān)于,數(shù)據(jù)源,的元數(shù)據(jù),,,這類元數(shù)據(jù)描述了數(shù)據(jù)倉庫中有什么數(shù)據(jù)以及數(shù)據(jù)之間的關(guān)系,它們是用戶使用管理數(shù)據(jù)倉庫的基礎(chǔ)。這類元數(shù)據(jù)可以,支持用戶,從數(shù)據(jù)倉庫中,獲取數(shù)據(jù)。,,,,數(shù)據(jù)倉庫的數(shù)據(jù)模型是星型模型。,,通常,企業(yè)數(shù)據(jù)模型,被用作建立倉庫數(shù)據(jù)模型的,起始點,,再對模型加以修改和變換。,,2、關(guān)于,數(shù)據(jù)模型,的元數(shù)據(jù),,,這類元數(shù)據(jù)是數(shù)據(jù)源與數(shù)據(jù)倉庫

11、數(shù)據(jù)間的映射。,,,當(dāng)數(shù)據(jù)源中的一個數(shù)據(jù)項與數(shù)據(jù)倉庫建立了映射關(guān)系,就應(yīng)該記下這些數(shù)據(jù)項發(fā)生的任何變換或變動。,即用元數(shù)據(jù)反映數(shù)據(jù)倉庫中的數(shù)據(jù)項是從哪個特定的數(shù)據(jù)源填充的,經(jīng)過那些轉(zhuǎn)換、變換和加載過程,3、關(guān)于,數(shù)據(jù)倉庫映射,的元數(shù)據(jù),,3、關(guān)于,數(shù)據(jù)倉庫映射,的元數(shù)據(jù),一個抽取要經(jīng)過以下幾個步聚,,獲取,,過濾,,驗證,,融合,,綜合,,裝載,,存檔,從源系統(tǒng)的數(shù)據(jù)到數(shù)據(jù)倉庫中的目標(biāo)數(shù)據(jù)的轉(zhuǎn)移是一項復(fù)雜的工作,其工作量占整個數(shù)據(jù)倉庫開發(fā)的,70%,,這類元數(shù)據(jù)是數(shù)據(jù)倉庫中信息的使用情況描述。,,數(shù)據(jù)倉庫的用戶最關(guān)心的是兩類元數(shù)據(jù):,,,(1)元數(shù)據(jù)告訴數(shù)據(jù)倉庫中有什么數(shù)據(jù),它們從哪里來。即,

12、如何按主題查看數(shù)據(jù)倉庫的內(nèi)容,。,,(2)元數(shù)據(jù)提供,已有的可重復(fù)利用的查詢語言信息,。如果某個查詢能夠滿足他們的需求,或者與他們的愿望相似,他們就可以再次使用那些查詢而不必從頭開始編程。,,關(guān)于數(shù)據(jù)倉庫使用的元數(shù)據(jù)能幫助用戶到數(shù)據(jù)倉庫查詢所需要的信息,用于解決企業(yè)問題。,4、關(guān)于,數(shù)據(jù)倉庫使用,的元數(shù)據(jù),,5.2 數(shù)據(jù)倉庫系統(tǒng),,5.2.1數(shù)據(jù)倉庫系統(tǒng)結(jié)構(gòu),,,數(shù)據(jù)倉庫系統(tǒng)由數(shù)據(jù)倉庫(DW)、倉庫管理和分析工具三部分組成,,1、數(shù)據(jù)倉庫管理系統(tǒng),(1)定義部分,,,用于定義和建立數(shù)據(jù)倉庫系統(tǒng)。它包括:,,設(shè)計和定義數(shù)據(jù)倉庫的數(shù)據(jù)庫,,定義數(shù)據(jù)來源,,確定從源數(shù)據(jù)向數(shù)據(jù)倉庫復(fù)制數(shù)據(jù)時的清理和

13、增強規(guī)則,,(,2,)數(shù)據(jù)獲取部分,,,該部件把數(shù)據(jù)從源數(shù)據(jù)中提取出來,依定義部件的規(guī)則,抽取、轉(zhuǎn)化和裝載數(shù)據(jù)進入數(shù)據(jù)倉庫。,,,,(3)管理部分,,它用于管理數(shù)據(jù)倉庫的工作,包括:,,對數(shù)據(jù)倉庫中數(shù)據(jù)的維護,,把倉庫數(shù)據(jù)送出給分散的倉庫服務(wù)器或,DSS,用戶,,對倉庫數(shù)據(jù)的安全、歸檔、備份、恢復(fù)等處理工作,,1、數(shù)據(jù)倉庫管理系統(tǒng),,(4)信息目錄部件(元數(shù)據(jù)),,,數(shù)據(jù)倉庫的目錄數(shù)據(jù)是元數(shù)據(jù),由三部分組成:,,,技術(shù)目錄:,由定義部件生成,關(guān)于數(shù)據(jù)源、目標(biāo)、清理規(guī)則、變換規(guī)則以及數(shù)據(jù)源和倉庫之間的映象信息。,,,業(yè)務(wù)目錄:,由倉庫管理員生成,關(guān)于倉庫數(shù)據(jù)的來源及當(dāng)前值;預(yù)定義的查詢和報表細節(jié)

14、;合法性要求等。,,,信息引導(dǎo)器:,使用戶容易訪問倉庫數(shù)據(jù)。利用固定查詢或建立新的查詢,生成暫時的或永久的倉庫數(shù)據(jù)集合的能力等。,,(5)DBMS部分,,,DW的存儲形式仍為關(guān)系型數(shù)據(jù)庫。,1、數(shù)據(jù)倉庫管理系統(tǒng),,,分析工具集分兩類工具:,,(1)查詢工具,,數(shù)據(jù)倉庫的查詢不是指對記錄級數(shù)據(jù)的查詢,而是指對分析要求的查詢。,,一般包含:,,,可視化工具:,以圖形化方式展示數(shù)據(jù),可以幫助了解數(shù)據(jù)的結(jié)構(gòu)、關(guān)系以及動態(tài)性。,2、數(shù)據(jù)倉庫,工具集,,,多維分析工具(OLAP工具):,,通過對信息的多種可能的觀察形式進行快速、一致和交互性的存取,這樣便利用戶對數(shù)據(jù)進行深入的分析和觀察。,,多維數(shù)據(jù)的每一

15、維代表對數(shù)據(jù)的一個特定的觀察視角,如時間、地域、業(yè)務(wù)等。,2、數(shù)據(jù)倉庫工具集,,(2)數(shù)據(jù)挖掘工具,,,從大量數(shù)據(jù)中挖掘具有規(guī)律性知識,需要利用數(shù)據(jù)挖掘(Data Mining)工具。,2、數(shù)據(jù)倉庫工具集,,3、數(shù)據(jù)倉庫的,運行結(jié)構(gòu),,數(shù)據(jù)倉庫應(yīng)用是一個典型的客戶/服務(wù)器(C/S)結(jié)構(gòu)形式,,數(shù)據(jù)倉庫采用服務(wù)器結(jié)構(gòu),客戶端所做的工作有:客戶交互、格式化查詢、結(jié)果顯示、報表生成等。,,服務(wù)器端完成各種輔助決策的SQL查詢、復(fù)雜的計算和各類綜合功能等。,,現(xiàn)在,越來越普通的一種形式是三層C/S結(jié)構(gòu)形式,即在客戶與數(shù)據(jù)倉庫服務(wù)器之間增加一個多維數(shù)據(jù)分析(OLAP)服務(wù)器。,,,OLAP服務(wù)器將,加強

16、,和,規(guī)范化,決策支持的服務(wù)工作,集中和簡化了原客戶端和數(shù)據(jù)倉庫服務(wù)器的部分工作,,降低了系統(tǒng)數(shù)據(jù)傳輸量,。,,,這種結(jié)構(gòu)形式工作效率更高。,三層C/S結(jié)構(gòu),,5.2.2 數(shù)據(jù)倉庫的存儲,數(shù)據(jù)倉庫存儲采用多維數(shù)據(jù)模型。,,維就是相同類數(shù)據(jù)的集合,商店、時間和產(chǎn)品都是維,,各個商店的集合是一維,時間的集合是一維,商品的集合是一維。每一個商店、每一段時間、每一種商品就是某一維的一個成員。,,每一個銷售事實由一個特定的商品、一個特定的時間、一個特定的商品組成。,,兩維表,如通常的電子表格。三維構(gòu)成立方體,若再增加一維,則圖形很難想象,也不容易在屏幕上畫出來。,,,數(shù)據(jù)倉庫是以多維表型的“維表—事實

17、表”結(jié)構(gòu)形式組織的,共有三種形式:,,1、星型模型,,大多數(shù)的數(shù)據(jù)倉庫都采用“星型模型”。星型模型是由“事實表”(大表)以及多個“維表”(小表)所組成。,,“事實表”中存放大量關(guān)于企業(yè)的事實數(shù)據(jù)(數(shù)量數(shù)據(jù))。,,例如:多個時期的數(shù)據(jù)可能會出現(xiàn)在同一個“事實表”中。,,“維表”中存放描述性數(shù)據(jù),維表是圍繞事實表建立的較小的表,5.2.2 數(shù)據(jù)倉庫的存儲,,,2、雪花模型,,雪花模型是對星型模型的擴展,雪花模型對星型模型的維表進一步層次化,,原來的各維表可能被擴展為小的事實表,,形成一些局部的“層次”區(qū)域。,,它的優(yōu)點是最大限度地,減少,數(shù)據(jù)存儲量,以及把,較小,的維表聯(lián)合在一起來改善查詢性能。

18、,,在上面星型模型的數(shù)據(jù)中 ,對“產(chǎn)品表”“日期表”“地區(qū)表”進行擴展形成雪花模型數(shù)據(jù)見下圖。,5.2.2 數(shù)據(jù)倉庫的存儲,,,3、星網(wǎng)模型,,星網(wǎng)模型是將多個星型模型連接起來形成網(wǎng)狀結(jié)構(gòu)。多個星型模型通過相同的維,如時間維,連接多個事實表。,5.2.2 數(shù)據(jù)倉庫的存儲,,第(,2)部分,,5.3 聯(lián)機分析處理(OLAP),,,,5.4 數(shù)據(jù)倉庫的決策支持,,,5.3 聯(lián)機分析處理,聯(lián)機分析處理(On Line Analytical Processing,OLAP),的概念最早是由關(guān)系數(shù)據(jù)庫之父(科德)于1993年提出的。,,在數(shù)據(jù)倉庫系統(tǒng)中,聯(lián)機分析處理是重要的數(shù)據(jù)分析工具,。,,OLA

19、P的基本思想是從,多方面,和,多角度,以多維的形式來觀察企業(yè)的狀態(tài)和了解企業(yè)的變化。,,,5.3.1,基本概念,OLAP,是在,OLTP,(聯(lián)機事務(wù)處理系統(tǒng) )的基礎(chǔ)上發(fā)展起來的。,,OLTP,是以數(shù)據(jù)庫為基礎(chǔ)的,面對的是操作人員和低層管理人員,對基本數(shù)據(jù)的查詢和增、刪、改等進行處理。,,OLAP,是以數(shù)據(jù)倉庫為基礎(chǔ)的數(shù)據(jù)分析處理。它有兩個特點:,,一是在線性(On Line),由客戶機/服務(wù)器這種體系結(jié)構(gòu)來完成的;,,二是多維分析,這也是OLAP的核心所在。,,1、OLAP的定義,聯(lián)機分析處理是共享多維信息的快速分析。,,它體現(xiàn)了四個特征:,,(1)快速性,:用戶對OLAP的快速反應(yīng)能力有很

20、高的要求。,,(2)可分析性,:OLAP系統(tǒng)應(yīng)能處理任何邏輯分析和統(tǒng)計分析。,,(3)多維性,:系統(tǒng)必須提供對數(shù)據(jù)分析的多維視圖和分析。,,(4)信息性,:OLAP系統(tǒng)應(yīng)能及時獲得信息,并且管理大容量的信息。,,,2、OLAP準(zhǔn)則,,1993年,提出OLAP的12條準(zhǔn)則,其主要的準(zhǔn)則有:,,,1)多維數(shù)據(jù)分析;,,2)客戶/服務(wù)器結(jié)構(gòu);,,3)多用戶支持;,,4)一致的報表性能等。,,,,2、OLAP準(zhǔn)則,,多維概念視圖,,企業(yè)的數(shù)據(jù)空間本身就是多維的。因此,OLAP,的概念模型也應(yīng)是多維的。,,用戶可以對多維數(shù)據(jù)模型進行,切片、切塊、旋轉(zhuǎn)坐標(biāo)或進行多維的聯(lián)合,(概括和聚集)分析。,,,,穩(wěn)定

21、的報表性能,,報表操作,不應(yīng),隨維數(shù)增加而削弱,即當(dāng)數(shù)據(jù)維數(shù)和數(shù)據(jù)的綜合層次增加時,,提供的報表能力和響應(yīng)速度不應(yīng)該有明顯的降低,。,,2、OLAP準(zhǔn)則,,,,客戶,/,服務(wù)器體系結(jié)構(gòu),,,OLAP,是建立在客戶,/,服務(wù)器體系結(jié)構(gòu)上的。,,要求多維數(shù)據(jù)庫服務(wù)器能夠被不同的應(yīng)用和工具所訪問。,2、OLAP準(zhǔn)則,,,,多用戶支持,,,當(dāng)多個用戶要在同一分析模式上并行工作,需要這些功能的支持。,,靈活的報表生成,,,報表必須,充分反映,數(shù)據(jù)分析模型的,多維特征,,并可按用戶需要的方式來顯示它。,,2、OLAP準(zhǔn)則,,,3、OLAP的基本概念,OLAP是針對特定問題的聯(lián)機數(shù)據(jù)訪問和分析。,,,(1)

22、變量,:變量是數(shù)據(jù)的實際意義,即描述數(shù)據(jù)“是什么”。,,,(2)維,:維是人們觀察數(shù)據(jù)的特定角度。如產(chǎn)品維、顧客維、時間維等。,,,(3)維的層次,:數(shù)據(jù)的細節(jié)不同程度為維的層次。如日、月、季、年是時間維的層次。,,,(4)維成員,:維的一個取值稱為該維的一個維成員。如“某年某月某日”是時間維的一個成員。,,3、OLAP的基本概念,5)多維數(shù)組,:一個多維數(shù)組可以表示為:,,(維1,維2,……,維n,變量),,一個5維的結(jié)構(gòu),即(產(chǎn)品,地區(qū),時間,銷售渠道,銷售額)。,,(6)數(shù)據(jù)單元(單元格),:,,多維數(shù)組的取值稱為數(shù)據(jù)單元。,,如:5維數(shù)據(jù)單元(牙膏,上海,1998年12月,批發(fā),銷售額

23、為100000)。,,,,4、OLAP與OLTP的關(guān)系與比較,(1)OLTP,(聯(lián)機事務(wù)處理系統(tǒng) ),,OLTP是低層人員利用計算機網(wǎng)絡(luò)對數(shù)據(jù)庫中的數(shù)據(jù)進行查詢、增、刪、改等操作,以完成事務(wù)處理工作。,,OLTP利用數(shù)據(jù)庫快速地處理具體業(yè)務(wù)。OLTP應(yīng)用要求多個查詢并行。,,,,4、OLAP與OLTP的關(guān)系與比較,(2)OLAP,,OLAP是高層人員對數(shù)據(jù)倉庫進行信息分析處理。,,①存取大量的數(shù)據(jù),,②包含聚集的數(shù)據(jù),,③按層次對比不同時間周期的聚集數(shù)據(jù),,④以不同的方式來表現(xiàn)數(shù)據(jù),,⑤要包含數(shù)據(jù)元素之間的復(fù)雜的計算,,⑥能夠快速的響應(yīng)用戶的查詢,,,,4、OLAP與OLTP的關(guān)系與比較,(3

24、)OLAP與OLTP對比(對比表),,OLTP,,OLAP,,數(shù)據(jù)庫數(shù)據(jù),,數(shù)據(jù)倉庫數(shù)據(jù),,細節(jié)性數(shù)據(jù),,綜合性數(shù)據(jù),,當(dāng)前數(shù)據(jù),,歷史數(shù)據(jù),,一次性處理的數(shù)據(jù)量小,,一次處理的數(shù)據(jù)量大,,對響應(yīng)時間要求高,,響應(yīng)時間合理,,用戶數(shù)量大,,用戶相對較少,,面向應(yīng)用,事務(wù)驅(qū)動,,面向分析,分析驅(qū)動,,,,5.3.2 OLAP的數(shù)據(jù)組織,,MOLAP(多維OLAP),和,ROLAP(關(guān)系OLAP),是OLAP的兩種具體形式:,,ROLAP,是基于,關(guān)系數(shù)據(jù)庫,存儲方式建立的OLAP。多維數(shù)據(jù)映射成平面型的關(guān)系表。采用星型模型。,,MOLAP,是基于,多維數(shù)據(jù)庫,存儲方式建立的OLAP;表現(xiàn)為“超立

25、方”結(jié)構(gòu),類似于多維數(shù)組的結(jié)構(gòu)。,,在分析中,需要“旋轉(zhuǎn)”數(shù)據(jù)立方體以及“切片” 、“切塊”等操作。,,,MOLAP和ROLAP的對比表,MOLAP,ROLAP,,固定維,,可變維,,維交叉計算,,多維視圖,,行級計算,,超大型數(shù)據(jù)庫,,讀-寫應(yīng)用,,維數(shù)據(jù)變化速度快,,數(shù)據(jù)集市,,數(shù)據(jù)倉庫,,,例如,以“產(chǎn)品、城市、時間”三維數(shù)據(jù),如圖,,5.3.3 OLAP的決策支持:,,OLAP多維數(shù)據(jù)分析,,1、基本功能:切片和切塊,,對三維數(shù)據(jù),通過“切片” ,分別從城市和產(chǎn)品等不同的角度觀察銷售情況:,,,2)鉆 取,鉆取:例如,1995年各部門銷售收入表如下:,,對時間維進行下鉆操作,獲得新表如

26、下:,鉆 ?。ɡm(xù)),,旋轉(zhuǎn)前的數(shù)據(jù),旋 轉(zhuǎn),,,旋轉(zhuǎn)后的數(shù)據(jù),旋 轉(zhuǎn)(續(xù)),,,旋轉(zhuǎn)后再切片,,,假設(shè)有一個5維數(shù)據(jù)模型,5個維分別為:商店,方案,部門,時間,銷售。,,,,1.三維表查詢,,在指定“商店=ALL,方案=現(xiàn)有”情況的三維表(行為部門,列為時間和銷售量),、OLAP實例,,,,,1994,,1995,,%,增長率,,銷售量,,利潤增長,%,,銷售量,,利潤增長,%,,銷售量,,利潤增長,,服裝,,234,670,,27.2,,381,102,,21.5,,62.4,,(20.0),,家具,,62,548,,33.8,,66,005,,31.1,,5.6,,(8.0),,汽車,,3

27、75,098,,22.4,,325,402,,27.2,,(13.2),,21.4,,所有其它,,202,388,,21.3,,306,677,,21.7,,50.7,,1.9,,指定商店、方案后的三維表,,,,,1994,,1995,,%增長率,,銷售,,利潤增長%,,銷售,,利潤增長%,,銷售,,利潤增長,,汽車,,375,098,,22.4,,325,402,,27.2,,(13.2),,21.4,,維修,,195,051,,14.2,,180,786,,15.0,,(7.3),,5.6,,附件,,116,280,,43.9,,122,545,,47.5,,5.3,,8.2,,音樂,,6

28、3,767,,8.2,,22,071,,14.2,,(63.4),,7.3,,2、向下鉆取,,對汽車部門向下鉆取出具體項目的銷售情況和利潤增長情況。,,,,,1995,,Sales,,服裝,,381,102,,家具,,66,005,,汽車,,325,402,,所有其它,,306,677,,3、切片表,,切片(Slice)操作是除去一些列或行不顯示,,,,,1995,,銷售量,,現(xiàn)有,,計劃,,差量,,差量%,,服裝,,381,102,,350,000,,31,102,,8.9,,家具,,66,005,,69,000,,(2,995),,(4.3),,汽車,,325,402,,300,000,,

29、25,402,,8.5,,所有其它,,306,677,,350,000,,(44,322),,12.7,,4、旋轉(zhuǎn)表,,這次旋轉(zhuǎn)操作得到1995年的交叉表方案為:現(xiàn)有、計劃、 差量、差量%。,,5.4.2 數(shù)據(jù)倉庫的決策支持,美國著名的NCR數(shù)據(jù)倉庫公司對數(shù)據(jù)倉庫總結(jié)5種決策支持能力。,,,1、報表,,2、隨機分析,,3、預(yù)測,,4、實時決策,,5、事件觸發(fā)的自動決策,,,1、報表,數(shù)據(jù)倉庫所面臨的,最大挑戰(zhàn)是數(shù)據(jù)集成,。傳統(tǒng)的環(huán)境經(jīng)常有上百個數(shù)據(jù)源,每一數(shù)據(jù)源都有各自定義的標(biāo)準(zhǔn)和實施技術(shù)。,,建立的數(shù)據(jù)倉庫是通過收集各種來源的數(shù)據(jù),來,回答預(yù)先設(shè)置的一些問題,告訴決策者“發(fā)生了什么”,。它為

30、以后數(shù)據(jù)倉庫的發(fā)展奠定了基礎(chǔ)。,,,,2、隨機分析,數(shù)據(jù)倉庫應(yīng)用的第二種決策支持是,,從“發(fā)生了什么”轉(zhuǎn)向“為什么會發(fā)生”。,分析活動就是了解報表數(shù)據(jù)的涵義,需要更多更詳細的數(shù)據(jù)進行各種角度的分析。在第二階段的數(shù)據(jù)倉庫主要用于隨機分析。,,,,3、預(yù)測,數(shù)據(jù)倉庫的第三種決策支持是幫助決策者來預(yù)測未來,,回答“將要發(fā)生什么”,。,,數(shù)據(jù)倉庫需要利用歷史資料創(chuàng)建預(yù)測模型。,,4、實時決策,數(shù)據(jù)倉庫的第4種決策支持是企業(yè)需要準(zhǔn)確了解,“正在發(fā)生什么”,,從而需要建立動態(tài)數(shù)據(jù)倉庫(實時數(shù)據(jù)庫),用于支持戰(zhàn)術(shù)型決策,即實時決策。有效地解決當(dāng)前的實際問題。,,第1到第3種決策支持的數(shù)據(jù)倉庫都以支持企業(yè),內(nèi)

31、部戰(zhàn)略性決策為重點,,幫助企業(yè)制定發(fā)展戰(zhàn)略。,,,第4種決策支持側(cè)重在戰(zhàn)術(shù)性決策支持。,,動態(tài)數(shù)據(jù)倉庫能夠逐項產(chǎn)品、逐個店鋪、逐秒地作出最佳決策支持。,,,5、事件觸發(fā)的自動決策,數(shù)據(jù)倉庫的第5種決策支持是由事件觸發(fā),利用動態(tài)數(shù)據(jù)庫自動決策,,達到“希望發(fā)生什么”,。,,例如,電子貨架標(biāo)簽技術(shù)結(jié)合動態(tài)數(shù)據(jù)倉庫,可以幫助企業(yè)按照自己的意愿實現(xiàn)復(fù)雜的價格管理自動化,以便以最低的損耗售出最多的存貨。,,,5.5 知識發(fā)現(xiàn)與數(shù)據(jù)挖掘,,,5.6 數(shù)據(jù)挖掘的決策支持及應(yīng)用,第(3)部分,,演變階段,商業(yè)問題,支持技術(shù),產(chǎn)品廠家,產(chǎn)品特點,數(shù)據(jù)搜集(20,,世紀(jì)60年代),數(shù)據(jù)訪問(20,,世紀(jì)80年代)

32、,數(shù)據(jù)倉庫決策,,支持(20世紀(jì),,90年代,數(shù)據(jù)挖掘(正,,在流行),“過去五年中整個有關(guān),,聯(lián)鎖超市總收入是,,多少?”,“聯(lián)鎖超市第一分部去,,年三月的銷售額是,,多少?”,“聯(lián)鎖超市第一分部去,,年三月的銷售額是多,,少?第二分部據(jù)此可,,得出什么結(jié)論?”,“下個月第二分部的,,銷售會怎么樣?,,為什么?”,計算機、磁帶和磁盤,關(guān)系數(shù)據(jù)庫,,(RDBMS),,,查詢語言(SQL),,,ODBC,OLAP、多維數(shù)據(jù)庫和,,數(shù)據(jù)倉庫,高級算法、多處理器,,計算機和海量數(shù)據(jù)庫,IBM和CDC,Oracle、Sybase,,、Informix、,,IBM和,,Microsoft,Pilot、C

33、omshare,,、Arbor、,,Cognos和,,Microstrategy,Pilot、Lockheed,,、IBM、SGI,,和其他初創(chuàng)公司,提供歷史性的靜態(tài),,的數(shù)據(jù),在記錄級提供歷史性,,動態(tài)數(shù)據(jù),在各種層次上提供,,回溯的動態(tài)數(shù)據(jù),提供預(yù)測性信息,表5-1 數(shù)據(jù)挖掘的演變進程,,產(chǎn) 品,Clementine,Darwin,Data mining Workstation,Data Engine,IBM Intelligent Miner,F-DBMS,IDIS,Information Harvester,Knowledge Seeker,Neural Ware,Priso

34、n,Re Mind,技 術(shù),供應(yīng)商,規(guī)則歸納,神經(jīng)網(wǎng)絡(luò)、遺傳算法等,神經(jīng)網(wǎng)絡(luò),神經(jīng)網(wǎng)絡(luò)、模糊邏輯、信號處理,多種技術(shù),分?jǐn)?shù)維,規(guī)則發(fā)現(xiàn),模糊專家系統(tǒng),規(guī)則發(fā)現(xiàn)、決策樹,神經(jīng)網(wǎng)絡(luò),神經(jīng)網(wǎng)絡(luò),基于實例的推理、歸納邏輯,Ingegral Solutions,Thinking Machines Corp.,HNC Software Inc.,MIT Gmbh,IBM Corp.,Cross/Z International Inc.,Informational Discovery Inc.,Informational Harvesting,Angoss Software Int’1 Ltd..

35、,Neural Ware Inc.,Nestor Inc.,Cognitive Systems,表5-2 一些主要的數(shù)據(jù)挖掘產(chǎn)品,,數(shù)據(jù)挖掘的興起,(1)80年在美國召開了第一屆國際機器學(xué)習(xí)研討會;,,(2)89年8月于美國底特律市召開的第一屆KDD國際學(xué)術(shù)會議;,,(3)95年在加拿大召開了第一屆知識發(fā)現(xiàn)和數(shù)據(jù)挖掘國際學(xué)術(shù)會議;,,(4)我國于87年召開了第一屆全國機器學(xué)習(xí)研討會。,,5.5.1 知識發(fā)現(xiàn)與數(shù)據(jù)挖掘概念,知識發(fā)現(xiàn)(KDD):,從數(shù)據(jù)中發(fā)現(xiàn)有用知識的整個過程。,,KDD過程定義:,,,從數(shù)據(jù)集中提取出可信的、新穎的、潛在有用的,以及最終可理解的,模式,的高級處理過程。,,,“模

36、式”,可以看成是,“知識”,的雛形,經(jīng)過驗證、完善后形成知識。,,數(shù)據(jù)挖掘(DM):,KDD過程中的一個特定步驟,它用專門算 法從數(shù)據(jù)中抽取模式(patterns)。,,,數(shù)據(jù)源,數(shù)據(jù),數(shù)據(jù)集成,目標(biāo)數(shù)據(jù),預(yù)處理后,,數(shù)據(jù),轉(zhuǎn)換數(shù)據(jù),模式,知識,數(shù)據(jù)選擇,預(yù)處理,數(shù)據(jù)挖掘,數(shù)據(jù)轉(zhuǎn)換,結(jié)果表達和解釋,數(shù)據(jù)準(zhǔn)備,數(shù)據(jù)挖掘,結(jié)果表達和解釋,KDD過程,,5.5.2 數(shù)據(jù)挖掘方法和技術(shù),(一)歸納學(xué)習(xí)方法,,分為兩大類:信息論方法(決策樹方法)和集合論方法,,,1、信息論方法(決策樹方法),,利用信息論的原理建立決策樹或者是決策規(guī)則樹。,,,(1)ID3方法:,Quiula

37、n研制的ID3方法是利用信息論中互信息建立決策樹。,,,(2)IBLE方法:,我們研制的IBLE方法,是利用信息論中信道容量,尋找數(shù)據(jù)庫中信息量大的多個字段的取值建立決策規(guī)則樹。,,2、集合論方法,,,(1)粗糙集(Rough Set)方法,,對數(shù)據(jù)庫中的條件屬性集與決策屬性集建立上下近似關(guān)系,對下近似集合建立確定性規(guī)則,對上近似集合建立不確定性規(guī)則(含可信度)。,,(2)關(guān)聯(lián)規(guī)則挖掘,,,在交易事務(wù)數(shù)據(jù)庫中,挖掘出不同商品集的關(guān)聯(lián)關(guān)系,即發(fā)現(xiàn)哪些商品頻繁地被顧客同時購買。,5.5.2 數(shù)據(jù)挖掘方法和技術(shù),,(二)仿生物技術(shù),,仿生物技術(shù)典型的方法是神經(jīng)網(wǎng)絡(luò)方法和遺傳算法。,,,1、神經(jīng)網(wǎng)絡(luò)方

38、法:,包括:前饋式網(wǎng)絡(luò)、反饋式網(wǎng)絡(luò)、自組織網(wǎng)絡(luò)等多個神經(jīng)網(wǎng)絡(luò)方法。,,,2、遺傳算法:,這是模擬生物進化過程的算法。,,它由三個基本算子組成:,,繁殖(選擇)、交叉(重組)、變異(突變),,遺傳算法起到產(chǎn)生優(yōu)良后代的作用,經(jīng)過若干代的遺傳,將得到滿足要求的后代(問題的解)。,5.5.2 數(shù)據(jù)挖掘方法和技術(shù),,(三)公式發(fā)現(xiàn),,,在工程和科學(xué)數(shù)據(jù)庫中對若干數(shù)據(jù)項(變量) 進行一定的數(shù)學(xué)運算,求得相應(yīng)的數(shù)學(xué)公式。,,,,1.物理定律發(fā)現(xiàn)系統(tǒng)BACON,,,BACON發(fā)現(xiàn)系統(tǒng)完成了物理學(xué)中大量定律的重新發(fā)現(xiàn)。,,,,2.經(jīng)驗公式發(fā)現(xiàn)系統(tǒng)FDD,,,我們研制了FDD發(fā)現(xiàn)系統(tǒng),尋找由數(shù)據(jù)項的初等函數(shù)或復(fù)

39、合函數(shù)組合成的經(jīng)驗公式。,,,,5.5.2 數(shù)據(jù)挖掘方法和技術(shù),,(四)統(tǒng)計分析方法,,,利用統(tǒng)計學(xué)原理通過對總體中的樣本數(shù)據(jù)進行分析得出描述和推斷該總體信息和知識的方法。,,(五)模糊數(shù)學(xué)方法,,,利用模糊集合理論進行數(shù)據(jù)挖掘,如模糊聚類、模糊分類等。,,(六)可視化技術(shù),,,利用可視化技術(shù)分析數(shù)據(jù)庫,找到潛在的有用信息。,5.5.2 數(shù)據(jù)挖掘方法和技術(shù),,5.5.3 數(shù)據(jù)挖掘的知識表示(一),主要有四種:,規(guī)則、決策樹、濃縮數(shù)據(jù)、公式。,,,1、規(guī)則,,規(guī)則知識由,前提條件,和,結(jié)論,兩部分組成,,,前提條件,由字段項(屬性)的取值的合?。ㄅc,?,)

40、 和析?。ɑ??,)組合而成。,,,,結(jié)論,為決策字段項(屬性)的取值或者類別組成。,,,,2、決策樹,,例如:上例的人群數(shù)據(jù)庫,按ID3方法得到的決策樹如下:,,數(shù)據(jù)挖掘的知識表示(二),,3、知識基(濃縮數(shù)據(jù)),,,例如上例的人群數(shù)據(jù)庫,通過計算可以得出,身高,是不重要的字段,刪除它后,再合并相同數(shù)據(jù)元組,得到濃縮數(shù)據(jù)如下表:,數(shù)據(jù)挖掘的知識表示(三),,5、公式,,例如,太陽系行星運動數(shù)據(jù)中包含行星運動周期(旋轉(zhuǎn)一周所需時間,天),以及它與太陽的距離(圍繞太陽旋轉(zhuǎn)的橢圓軌道的長半軸,百萬公里),數(shù)據(jù)如下表:,發(fā)現(xiàn)的公式為:d,3,/p,2,=25,數(shù)據(jù)挖掘的知識表示(五),,

41、5.6 數(shù)據(jù)挖掘的決策支持及應(yīng)用,,5.6.1 數(shù)據(jù)挖掘的決策支持分類有:,,關(guān)聯(lián)分析、時序模式、聚類、分類、偏差檢測、預(yù)測。,,1、關(guān)聯(lián)分析,,若兩個或多個數(shù)據(jù)項的取值之間,重復(fù)出現(xiàn),且,概率很高,時,它就存在某種關(guān)聯(lián),可以建立起這些數(shù)據(jù)項的關(guān)聯(lián)規(guī)則。,,2、時序模式,,通過,時間序列,搜索出,重復(fù)發(fā)生,概率較高的模式。這里強調(diào)時間序列的影響。,,,3、聚類:,在數(shù)據(jù)庫中找出一系列有意義的子集,即類。,,,,4、分類:,對數(shù)據(jù)庫中的類,找出該類別的概念描述規(guī)則。,,,,5、偏差檢測:,,在數(shù)據(jù)庫中找出異常數(shù)據(jù)。,,,6、預(yù)測:,利用歷史數(shù)據(jù)找出變化規(guī)律的模型,并用此模型預(yù)測未來。,5.6 數(shù)

42、據(jù)挖掘的決策支持及應(yīng)用,,5.6.2 決策樹及其應(yīng)用,1、決策樹概念:,,,決策樹是用樣本的,屬性,作為結(jié)點,用屬性的,取值,作為分支的樹結(jié)構(gòu)。它是利用信息論原理對大量樣本的屬性進行分析和歸納而產(chǎn)生的。,,根結(jié)點是所有樣本中信息量最大的屬性,.,,中間節(jié)點是該結(jié)點為根據(jù)的子樹所包含的樣本子集中信息量最大的屬性,.,每個內(nèi)部節(jié)點表示在一個屬性上的測試,,每個分枝代表一個測試輸出,,,每個樹葉節(jié)點是樣本的類別值,.,,5.6.2 決策樹及其應(yīng)用,決策樹對新樣本的分類過程:,,,即通過新樣本屬性值的測試,,從根結(jié)點開始按照樣本屬性的取值,,,逐漸沿著決策樹向下,,,直到樹的葉結(jié)點,,,該葉結(jié)點表示的

43、類別就是新樣本的類別,.,,,數(shù)據(jù)挖掘的,決策樹方法的原理是信息論,,信息論是,為解決,信息傳遞,(通信)過程問題而建立的理論,也稱為統(tǒng)計通信理論。,,一個傳遞信息的系統(tǒng)是由,發(fā)送端(信源),和,接收端(信宿),以及連接兩者的,通道(信道),三者組成。,,信息論把通信過程看做是在,隨機干擾,的環(huán)境中傳遞信息的過程。在這個通信模型中,信息源和干擾(噪聲)都被理解為某種,隨機過程,或,隨機序列,。,5.6.2 決策樹及其應(yīng)用,,在進行實際的通信之前,收信者(信宿),不可能確切,了解信源究竟會發(fā)出什么樣的具體信息,不可能判斷信源會處于什么樣的狀態(tài)。這種情形就稱為,信宿對于信源狀態(tài)具有不確定性,。而且

44、這種不確定性是存在于通信之前的。因而又叫做,先驗不確定性,。,,在進行了通信之后,信宿收到了信源發(fā)來的信息,這種先驗不確定性才會被消除或者被減少。,,如果干擾很小,信源發(fā)出的信息能夠被信宿全部收到,在這種情況下,信宿的先驗不確定性就會被完全消除。,5.6.2 決策樹及其應(yīng)用,,在一般情況下,干擾總會對信源發(fā)出的信息造成某種破壞,使信宿收到的信息不完全。因此,先驗不確定性不能全部被消除,只能部分地消除。,,通信結(jié)束之后,信宿還仍然具有一定程度的不確定性。這就是,后驗不確定性,。,,顯然,后驗不確定性總要小于先驗不確定性,不可能大于先驗不確定性。,5.6.2 決策樹及其應(yīng)用,,如果后驗不確定性的大

45、小正好等于先驗不確定性的大小,這就表示,信宿,根本沒有收到信息。,,如果后驗不確定性的大小等于零,這就表示信宿收到了全部信息。,,可見,,信息是用來消除(隨機)不確定性的度量。信息量的大小,由所消除的不確定性的大小來計量。,5.6.2 決策樹及其應(yīng)用,,信息論基本概念,,定義,1,:若存在,n,個相同概率的消息,則每個消息的概率,p,是,1/n,,一個消息傳遞的信息量為,-Log,2,(1/n),,概率越大,,,信息量越小,,,如英語有,26,個字母,,,假如每個字母在文章中出現(xiàn)的次數(shù)平均的話,,,每個字母的信息量為,:,,I(e,)=-log,2,1/26=4.7,,如常用漢字有,2500,

46、個,,,假如每個漢字在文章中出現(xiàn)的次數(shù)平均的話,,,每個漢字的信息量為,:,,I(e,)=-log,2,1/2500=11.3,,5.6.2 決策樹及其應(yīng)用,,定義,2,:若有,n,個消息,其給定概率分布為,P=(p1,p2…,pn,),,則由該,分布傳遞的信息量,稱為,P,的熵,記為,定義,3,:若一個記錄集合,T,根據(jù)類別,屬性,的值被分成互相獨立的類,C1,C2..Ck,,,,則識別,T,的一個元素所屬哪個類所需要的信息量為,Info(T,)=,I(p,),,其中,P,為,C1,C2…Ck,的概率分布,即,P=(|C,1,|/|T|,…..|C,k,|/|T|),5.6.2 決策樹及其應(yīng)

47、用,,定義4:若先根據(jù)非類別屬性X的值將T分成集合T,1,, T,2,, … T,n,,則確定T中一個元素類的信息量可通過確定T,i,的,加權(quán)平均值,來得到,即Info(T,i,)的加權(quán)平均值為:,,,Info(X, T)= ((|T,i,|/|T|)Info(T,i,)),,5.6.2 決策樹及其應(yīng)用,定義,5,:信息增益度是兩個信息量之間的差值,其中一個信息量是需確定,T,的一個元素的信息量,另一個信息量是在已得到的屬性,X,的值后需確定的,T,一個元素的信息量,信息增益度公式為:,,,Gain(X,, T)=,Info(T)-Info(X,, T),,2、ID3算法,

48、當(dāng)前國際上最有影響的示例學(xué)習(xí)方法首推,的,ID3,。,,,ID3,以信息論為基礎(chǔ),,,以,互信息,(,信息增益,,,Inf,,ormation,gain,),和信息熵為衡量標(biāo)準(zhǔn),,,從而實現(xiàn)對數(shù)據(jù)的歸類分類,.,,2、ID3算法,工作過程,:,,首先找出最有判別力,(,信息增益,,information gain),的屬性,,,把數(shù)據(jù)分成多個子集,,,每個子集又選擇最有判別力的屬性進行劃分,,,一直進行到所有子集僅包含同一類型的數(shù)據(jù)為止,.,,最后得到一棵決策樹,,,可用它來對新的實例進行分類,.,,訓(xùn)練集,,PE、NE,取子集建窗口,窗口,,PE`、NE,`,生成,,決策樹,測試,,PE、N

49、E,擴展窗口,,PE`=PE`+PE``NE`=NE`+NE``,此決策樹為最后結(jié)果,存在錯判的,,PE``,NE``嗎,是,否,ID3主算法流程,(一)主算法,,1、,從訓(xùn)練集中隨機選擇一個既含,正例,又含,反例,的子集(稱為"窗口");,,2、,用“建樹算法”對當(dāng)前窗口形成一棵,決策樹,;,,3、,對訓(xùn)練集(窗口除外)中例子用所得決策樹進行類別判定,找出,錯判,的例子;,,4、,若存在錯判的例子,把它們插入窗口,轉(zhuǎn)2,否則結(jié)束。,主算法中每迭代循環(huán)一次,生成的決策樹將會不相同。,,(二)建樹算法,,,1、,對當(dāng)前例子集合,計算各特征的,互,信息;,,,2、,選擇互信息最大的特征,Ak,;,

50、,,3、,把在Ak處取值相同的例子歸于同一子集,Ak取幾個值就得幾個子集;,,,4、,對既含正例又含反例的子集,遞歸調(diào)用建樹算法;,,,5、,若子集僅含正例或反例,對應(yīng)分枝標(biāo)上P或N,返回調(diào)用處。,二、ID3算法,,,在一實體世界中,每個實體用多個特征來描述。每個特征限于在一個離散集中取,互斥,的值。例如,設(shè)實體是某天早晨,分類任務(wù)是關(guān)于氣候的類型,特征為:,,,,天氣,取值為: 晴,多云,雨,,,氣溫,取值為: 冷 ,適中,熱,,,濕度,取值為: 高 ,正常,,,風(fēng),取值為: 有風(fēng), 無風(fēng),某天早晨氣候描述為:,,,天氣,: 多云,,,氣溫,: 冷,,,濕度,: 正常,

51、,,風(fēng),: 無風(fēng),3、ID3方法應(yīng)用實例,,它屬于哪類氣候呢,?,,每個實體屬于不同的類別,為簡單起見,假定僅有兩個類別,分別為,P,,,N,。,在這種兩個類別的歸納任務(wù)中,,P,類和,N,類的實體分別稱為概念的正例和反例,,,將一些已知的正例和反例放在一起便得到訓(xùn)練集。,,,下表給出一個訓(xùn)練集。由,ID3,算法得出一棵正確分類訓(xùn)練集中每個實體的決策樹,見圖。,3、ID3方法應(yīng)用實例,,NO.,屬性,,,,類別,,天氣,氣溫,濕度,風(fēng),,1,晴,熱,高,無風(fēng),N,2,晴,熱,高,有風(fēng),N,3,多云,熱,高,無風(fēng),P,4,雨,適中,高,無風(fēng),P,5,雨,冷,正常,無風(fēng),P,6,雨,冷,正常,有

52、風(fēng),N,7,多云,冷,正常,有風(fēng),P,8,晴,適中,高,無風(fēng),N,9,晴,冷,正常,無風(fēng),P,10,雨,適中,正常,無風(fēng),P,11,晴,適中,正常,有風(fēng),P,12,多云,適中,高,有風(fēng),P,13,多云,熱,正常,無風(fēng),P,14,雨,適中,高,有風(fēng),N,,天 氣,濕 度,風(fēng),晴,雨,多云,高,正常,有風(fēng),無風(fēng),P,N,N,P,P,ID3決策樹,決策樹葉子為類別名,即,P,或者,N,。,其它結(jié)點由實體的特征組成,每個特征的不同取值對應(yīng)一分枝。,,若要對一實體分類,從樹根開始進行測試,按特征的取值分枝向下進入下層結(jié)點,對該結(jié)點進行測試,過程一直進行到葉結(jié)點,實體被判為屬于該葉結(jié)點所標(biāo)記的類別。,

53、,能正確分類訓(xùn)練集的決策樹不止一棵。,,Quinlan,的,ID3,算法能得出結(jié)點最少的決策樹。,,3、ID3方法應(yīng)用實例,,對于氣候分類問題進行具體計算有:,,⒈ 信息熵的計算,,信息熵:,,類別出現(xiàn)概率:,,|S|表示例子集,S,的總數(shù),|u,i,|表示類別u,i,的例子數(shù)。,,對9個正例和5個反例有:,,P(u,1,)=9/14 P(u,2,)=5/14,,H(U,)=(9/14)log,2,(14/9)+(5/14)log,2,(14/5),,=0.94bit,3、ID3方法應(yīng)用實例,,條件熵:,⒉ 條件熵計算,屬性A,1,取值v,j,時,類別u,i,的條件概率:,,A,1,=天氣

54、 取值 v,1,=晴,v,2,=多云,v,3,=雨,,在A,1,處,取值晴,的例子5個,,取值多云,的例子4個,,取值雨,的例子5個,故,,,P(v,1,)=5/14 P(v,2,)=4/14 P(v,3,)=5/14,,取值為晴,的5個例子中有2個正例、3個反例,故:,,,P(u,1,/v,1,)=2/5, P(u,2,/v,1,)=3/5,,同理有:,P(u,1,/v,2,)=4/4, P(u,2,/v,2,)=0,,,P(u,1,/v,3,)=2/5, P(u,2,/v,3,)=3/5,,H(U/V)=(5/14)(,(2/5)log(5/2)+(3/5)log(5/3)),+,,

55、,(4/14),((4/4)log(4/4)+0,),+,,,(5/14),((2/5)log(5/2)+(3/5)log(5/3)),,= 0.694bit,,⒊ 互信息計算,,,對 A,1,=天氣 處有:,,,I(天氣)=H(U)- H(U|V)= 0.94 - 0.694 = 0.246 bit,,,類似可得:,,I(氣溫)=0.029 bit,,I(濕度)=0.151 bit,,I(風(fēng))=0.048 bit,,,⒋ 建決策樹的樹根和分枝,,,ID3算法將選擇,互信息最大的特征天氣作為樹根,,在14個例子中對天氣的3個取值進行分枝,3 個分枝對應(yīng)3 個子集,分別是:,,,F1={1,2,

56、8,9,11},F(xiàn)2={3,7,12,13},F(xiàn)3={4,5,6,10,14},,,其中F2中的例子全屬于P類,因此對應(yīng)分枝標(biāo)記為P,其余兩個子集既含有正例又含有反例,將遞歸調(diào)用,建樹算法,。,,⒌ 遞歸建樹,,,分別對F1和F3子集利用ID3算法,在每個子集中對各特征(仍為四個特征)求互信息.,,,(1),F1中的天氣全取晴值,則H(U)=H(U|V),有I(U|V)=0,在余下三個特征中求出,濕度,互信息,最大,以它為該分枝的根結(jié)點,再向下分枝。濕度取高的例子全為N類,該分枝標(biāo)記N。取值正常的例子全為P類,該分枝標(biāo)記P。,,,(2),在F3中,對四個特征求互信息,得到,風(fēng),特征,互信息,最

57、大,則以它為該分枝根結(jié)點。再向下分枝,風(fēng)取有風(fēng)時全為N類,該分枝標(biāo)記N。取無風(fēng)時全為P類,該分枝標(biāo)記P。,天 氣,濕 度,風(fēng),晴,雨,多云,高,正常,有風(fēng),無風(fēng),P,N,N,P,P,ID3決策樹,,4、C4.5算法,,ID3算法在數(shù)據(jù)挖掘中占有非常重要的地位。但是,在應(yīng)用中,ID3算法不能夠處理,連續(xù)屬性,、計算信息增益時偏向于選擇取值,較多的屬性,等不足。,,C4.5是在ID3基礎(chǔ)上發(fā)展起來的決策樹生成算法,由在1993年提出。C4.5克服了ID3在應(yīng)用中存在的不足。,,,C4.5的進步,,,(1),用,信息增益率,來選擇屬性,它克服了用信息增益選擇屬性時偏向選擇,取值多,的屬性的不足;

58、,,,(2),在樹構(gòu)造過程中或者構(gòu)造完成之后,進行,剪枝,;,,,(3),能夠完成對,連續(xù)屬性,的離散化處理;,,,(4),能夠?qū)?不完整,數(shù)據(jù)的處理,例如未知的屬性值;,,,(5),C4.5采用的知識表示形式為決策樹,并最終可以形成產(chǎn)生式規(guī)則。,4、C4.5算法,,C4.5構(gòu)造決策樹的算法,Quinlan在ID3中使用信息論中的信息增益(gain)來選擇屬性,而C4.5采用屬性的信息增益率(gain ratio)來選擇屬性。,,信息增益率,,,理論和實驗表明,采用“信息增益率”(C4.5方法)比采用“信息增益”(ID3方法)更好,,主要是克服了ID3方法選擇偏向取值多的屬性。,,5.6.3

59、決策規(guī)則樹及應(yīng)用,IBLE方法:,,IBLE方法是利用信息論中,信道容量,來選擇屬性,比互信息更好。IBLE方法建決策規(guī)則樹,每個結(jié)點由,多個屬性,取值組成,提高了屬性組合的識別效果。,,屬性的選取通過計算各屬性信道容量進行,.,,各屬性的正例標(biāo)準(zhǔn)值由譯碼函數(shù)決定,.,,結(jié)點中判別正反例的閾值,(,wn,wp,),是由實例中權(quán)值變化的規(guī)律來確定的,.,,IBLE,比,ID3,識別率提高了,10,個百分點。,,5.6.4 數(shù)據(jù)挖掘的決策支持應(yīng)用領(lǐng)域,1、金融,,(1)“數(shù)據(jù)清理”、金融市場分析和預(yù)測,,(2)帳戶分類、銀行擔(dān)保和信用評估。,,,2、醫(yī)療保健,,任務(wù)是進行數(shù)據(jù)清理,預(yù)測醫(yī)療保健費用。,,,3、市場業(yè),,,進行市場定位和消費者分析,輔助制定市場策略。,,5.6.4 數(shù)據(jù)挖掘的決策支持應(yīng)用領(lǐng)域,4、零售業(yè),,目前主要應(yīng)用于銷售預(yù)測、庫存需求、零售點選擇和價格分析。,,,5、制造業(yè),,進行零部件故障診斷、資源優(yōu)化、生產(chǎn)過程分析等。,,,6、司法,,應(yīng)用在案件調(diào)查、詐騙監(jiān)測、洗錢認(rèn)證、犯罪組織分析等工作。,,

展開閱讀全文
溫馨提示:
1: 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

相關(guān)資源

更多
正為您匹配相似的精品文檔
關(guān)于我們 - 網(wǎng)站聲明 - 網(wǎng)站地圖 - 資源地圖 - 友情鏈接 - 網(wǎng)站客服 - 聯(lián)系我們

copyright@ 2023-2025  zhuangpeitu.com 裝配圖網(wǎng)版權(quán)所有   聯(lián)系電話:18123376007

備案號:ICP2024067431-1 川公網(wǎng)安備51140202000466號


本站為文檔C2C交易模式,即用戶上傳的文檔直接被用戶下載,本站只是中間服務(wù)平臺,本站所有文檔下載所得的收益歸上傳人(含作者)所有。裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對上載內(nèi)容本身不做任何修改或編輯。若文檔所含內(nèi)容侵犯了您的版權(quán)或隱私,請立即通知裝配圖網(wǎng),我們立即給予刪除!

五月丁香婷婷狠狠色,亚洲日韩欧美精品久久久不卡,欧美日韩国产黄片三级,手机在线观看成人国产亚洲