數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)課件



《數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)課件》由會(huì)員分享,可在線閱讀,更多相關(guān)《數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)課件(106頁珍藏版)》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。
1、單擊此處編輯母版標(biāo)題樣式,,單擊此處編輯母版文本樣式,,第二級(jí),,第三級(jí),,第四級(jí),,第五級(jí),,*,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),*,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)-李春葆),2024/11/27,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),數(shù)據(jù)倉庫-數(shù)據(jù)挖掘的有效平臺(tái)。,數(shù)據(jù)倉庫中的數(shù)據(jù)清理和數(shù)據(jù)集成,是數(shù)據(jù)挖掘的重要數(shù)據(jù)預(yù)處理步驟。,,數(shù)據(jù)倉庫提供OLAP工具,可用于不同粒度的數(shù)據(jù)分析。,,很多數(shù)據(jù)挖掘功能都可以和OLAP操作集成,以提供不同概念層上的知識(shí)發(fā)現(xiàn)。,,分類,,預(yù)測,,關(guān)聯(lián),,聚集,2.1 什么是數(shù)據(jù)倉庫,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OL
2、AP技術(shù)(武漢大學(xué)李春葆),20世紀(jì)80年代中期,“數(shù)據(jù)倉庫”這個(gè)名詞首次出現(xiàn)在號(hào)稱“數(shù)據(jù)倉庫之父”W.H.Inmon的《Building Data Warehouse》一書中。,,在該書中,W.H.Inmon把數(shù)據(jù)倉庫定義為“,一個(gè)面向主題的、集成的、穩(wěn)定的、隨時(shí)間變化的數(shù)據(jù)的集合,以用于支持管理決策過程,”。,2.1.1 數(shù)據(jù)倉庫的定義,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),數(shù)據(jù)倉庫還有許多不同的定義,如:,,“,數(shù)據(jù)倉庫是融合方法、技術(shù)和工具以在完整的平臺(tái)上將數(shù)據(jù)提交給終端用戶的一種手段,”。,,“,數(shù)據(jù)倉庫是對(duì)分布在企業(yè)內(nèi)部各處的業(yè)務(wù)數(shù)據(jù)的整合、加工和分析的過程,”
3、。,,“,數(shù)據(jù)倉庫是一種具有集成性、穩(wěn)定性和提供決策支持的處理,”。,,“,為查詢和分析(不是事務(wù)處理)而設(shè)計(jì)的關(guān)系數(shù)據(jù)庫,”,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),在眾多的數(shù)據(jù)倉庫定義中,公認(rèn)的仍然是W.H.Inmon的定義,該定義指出了數(shù)據(jù)倉庫,面向主題、集成、穩(wěn)定、隨時(shí)間變化,這4個(gè)最重要的特征。,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),(1)面向主題,,,主題,就是在一個(gè)較高的管理層次上對(duì)信息系統(tǒng)的數(shù)據(jù)按照某一具體的管理對(duì)象進(jìn)行綜合、歸類所形成的分析對(duì)象。,如顧客、供應(yīng)商、產(chǎn)品和銷售組織等,。,,從數(shù)據(jù)組織的角度看,,主題是一些數(shù)據(jù)集合,,這些數(shù)據(jù)集合對(duì)分
4、析對(duì)象作了比較完整的、一致的描述,這種描述不僅涉及到數(shù)據(jù)自身,而且涉及到數(shù)據(jù)之間的關(guān)系。,,面向主題的數(shù)據(jù)組織方式,就是在較高層次上對(duì)分析對(duì)象的數(shù)據(jù)的一個(gè)完整、一致的描述,能完整、統(tǒng)一地刻畫各個(gè)分析對(duì)象所涉及的企業(yè)的各項(xiàng)數(shù)據(jù),以及數(shù)據(jù)之間的聯(lián)系。,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),(2)集成,,數(shù)據(jù)倉庫中存儲(chǔ)的數(shù)據(jù)一般從企業(yè)原來已建立的數(shù)據(jù)庫系統(tǒng)中提取出來,但并不是原有數(shù)據(jù)的簡單拷貝,而是經(jīng)過了,抽取、篩選、清理、綜合,等工作。這是因?yàn)椋?,1) 原有數(shù)據(jù)庫系統(tǒng)記錄的是每一項(xiàng)業(yè)務(wù)處理的流水帳,這些數(shù)據(jù)不適合于分析處理。在進(jìn)入數(shù)據(jù)倉庫之前必須經(jīng)過綜合、計(jì)算,同時(shí)拋棄一些分析處
5、理不需要的數(shù)據(jù)項(xiàng),必要時(shí)還要增加一些可能涉及的外部數(shù)據(jù)。,,2) 數(shù)據(jù)倉庫每一個(gè)主題所對(duì)應(yīng)的源數(shù)據(jù)在源分散數(shù)據(jù)庫中有許多重復(fù)或不一致之處,必須將這些數(shù)據(jù)轉(zhuǎn)換成全局統(tǒng)一的定義,消除不一致和錯(cuò)誤之處,以保證數(shù)據(jù)的質(zhì)量;顯然,對(duì)不準(zhǔn)確,甚至不正確的數(shù)據(jù)分析得出的結(jié)果將不能用于指導(dǎo)企業(yè)做出科學(xué)的決策。,,3) 源數(shù)據(jù)加載到數(shù)據(jù)倉庫后,還要根據(jù)決策分析的需要對(duì)這些數(shù)據(jù)進(jìn)行概括、聚集處理。,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),(3)穩(wěn)定性即非易失的,,業(yè)務(wù)系統(tǒng)的數(shù)據(jù)庫中一般只存儲(chǔ)短期數(shù)據(jù),因此在數(shù)據(jù)庫系統(tǒng)中數(shù)據(jù)是不穩(wěn)定的,它記錄的是系統(tǒng)中數(shù)據(jù)變化的瞬態(tài)。,,但對(duì)于決策分析而言,歷史數(shù)據(jù)是
6、相當(dāng)重要的,許多分析方法必須以大量的歷史數(shù)據(jù)為依托。沒有大量歷史數(shù)據(jù)的支持是難以進(jìn)行企業(yè)的決策分析的,因此,數(shù)據(jù)倉庫中的數(shù)據(jù)大多表示過去某一時(shí)刻的數(shù)據(jù),,主要用于查詢、分析,不像業(yè)務(wù)系統(tǒng)中的數(shù)據(jù)庫那樣,要經(jīng)常進(jìn)行修改、添加,除非數(shù)據(jù)倉庫中的數(shù)據(jù)是錯(cuò)誤的。,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),(4)隨時(shí)間而變化即時(shí)變的,,數(shù)據(jù)倉庫中數(shù)據(jù)是批量載入的,是穩(wěn)定的,這使得數(shù)據(jù)倉庫中的數(shù)據(jù)總是擁有時(shí)間維度。,,從這個(gè)角度,,數(shù)據(jù)倉庫實(shí)際是記錄了系統(tǒng)的各個(gè)瞬態(tài),,并通過將各個(gè)瞬態(tài)連接起來形成動(dòng)畫,從而在數(shù)據(jù)分析的時(shí)候再現(xiàn)系統(tǒng)運(yùn)動(dòng)的全過程。數(shù)據(jù)批量載入(提?。┑闹芷趯?shí)際上決定了動(dòng)畫間隔的時(shí)
7、間,數(shù)據(jù)提取的周期短,則動(dòng)畫的速度快。,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),2.1.2 數(shù)據(jù)倉庫與操作數(shù)據(jù)庫系統(tǒng)的區(qū)別,操作數(shù)據(jù)庫系統(tǒng)的主要任務(wù)是聯(lián)機(jī)事務(wù)處理OLTP,,日常操作: 購買,庫存,銀行,制造,工資,注冊(cè),記帳等。,,數(shù)據(jù)倉庫的主要任務(wù)是聯(lián)機(jī)分析處理OLAP,,數(shù)據(jù)分析和決策支持,支持以不同的形式顯示數(shù)據(jù)以滿足不同的用戶需要。,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),OLTP 和OLAP的比較 (1/3),用戶和系統(tǒng)的面向性,,面向顧客(事務(wù)),?,面向市場(分析)。,,數(shù)據(jù)內(nèi)容,,當(dāng)前的、詳細(xì)的數(shù)據(jù),?,歷史的、匯總的數(shù)據(jù)。,,數(shù)據(jù)庫設(shè)計(jì),,實(shí)體-
8、聯(lián)系模型(ER)和面向應(yīng)用的數(shù)據(jù)庫設(shè)計(jì),?,星型/雪花模型和面向主題的數(shù)據(jù)庫設(shè)計(jì)。,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),OLTP 和OLAP的比較(2),數(shù)據(jù)視圖,,當(dāng)前的、企業(yè)內(nèi)部的數(shù)據(jù),?,經(jīng)過演化的、集成的數(shù)據(jù)。,,訪問模式,,事務(wù)操作,?,只讀查詢(但很多是復(fù)雜的查詢),,任務(wù)單位,,簡短的事務(wù),?,復(fù)雜的查詢。,,訪問數(shù)據(jù)量,,數(shù)十個(gè),?,數(shù)百萬個(gè)。,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),OLTP和OLAP的比較(3),用戶數(shù),,數(shù)千個(gè),?,數(shù)百個(gè)。,,數(shù)據(jù)庫規(guī)模,,100M~數(shù)GB,?,100GB~數(shù)TB。,,設(shè)計(jì)優(yōu)先性,,高性能、高可用性,?,高
9、靈活性、端點(diǎn)用戶自治。,,度量,,事務(wù)吞吐量,?,查詢吞吐量、響應(yīng)時(shí)間。,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),2.1.3 為什么需要一個(gè)分離的數(shù)據(jù)倉庫?,提高兩個(gè)系統(tǒng)的性能,,DBMS是為OLTP而設(shè)計(jì)的:存儲(chǔ)方式、索引、 并發(fā)控制和 恢復(fù)。,,數(shù)據(jù)倉庫是為OLAP而設(shè)計(jì):復(fù)雜的 OLAP查詢、 多維視圖和匯總。,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),不同的功能和不同的數(shù)據(jù):,,歷史數(shù)據(jù):決策支持需要?dú)v史數(shù)據(jù),而這些數(shù)據(jù)在操作數(shù)據(jù)庫中一般不會(huì)去維護(hù)。,,數(shù)據(jù)匯總:決策支持需要將來自異種源的數(shù)據(jù)統(tǒng)一(如聚集和匯總)。,,數(shù)據(jù)質(zhì)量:不同的源使用不一致的數(shù)據(jù)表示、編
10、碼和格式,對(duì)這些數(shù)據(jù)進(jìn)行有效的分析需要將他們轉(zhuǎn)化后進(jìn)行集成。,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),2.1.4 數(shù)據(jù)倉庫中的關(guān)鍵名詞,,1. ETL(Extract/Transformation/Load)—數(shù)據(jù)抽取、轉(zhuǎn)換、加載工具,,ETL工具就是進(jìn)行數(shù)據(jù)的抽取、轉(zhuǎn)換和加載工具。,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),(1)數(shù)據(jù)提?。―ata Extract),,從業(yè)務(wù)數(shù)據(jù)庫只需提取出系統(tǒng)分析必需的那一部分?jǐn)?shù)據(jù)。例如,某超市確定以分析客戶的購買行為為主題建立數(shù)據(jù)倉庫,則我們只需將與客戶購買行為相關(guān)的數(shù)據(jù)提取出來,而超市服務(wù)員工的數(shù)據(jù)就沒有必要放進(jìn)數(shù)據(jù)倉庫。,
11、,現(xiàn)有的數(shù)據(jù)倉庫產(chǎn)品幾乎都提供各種關(guān)系型數(shù)據(jù)接口,提供提取引擎,從關(guān)系型數(shù)據(jù)中提取數(shù)據(jù)。,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),,(2)數(shù)據(jù)轉(zhuǎn)換(Data Transform),,由于業(yè)務(wù)系統(tǒng)可能使用不同的數(shù)據(jù)庫廠商的產(chǎn)品,比如IBM DB2、Oracle、Informix、Sybase、 NCR Teradata、 SQL Server等,各種數(shù)據(jù)庫產(chǎn)品提供的數(shù)據(jù)類型可能不同,因此需要將不同格式的數(shù)據(jù)轉(zhuǎn)換成統(tǒng)一的數(shù)據(jù)格式。如時(shí)間格式“年/月/日”,“月/日/年”、“日-月-年”的不一致問題等。,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),,,(3)數(shù)據(jù)清洗(Data
12、 Clean),,所謂“清洗”就是將錯(cuò)誤的、不一致的數(shù)據(jù)在進(jìn)入數(shù)據(jù)倉庫之前予以更正或刪除,以免影響決策支持系統(tǒng)決策的正確性。,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),(4) 數(shù)據(jù)加載(Data Load),,數(shù)據(jù)加載部件負(fù)責(zé)將數(shù)據(jù)按照物理數(shù)據(jù)模型定義的表結(jié)構(gòu)裝入數(shù)據(jù)倉庫,包括清空數(shù)據(jù)域、填充空格、有效性檢查等步驟。,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),,2. 元數(shù)據(jù)(MetaData),,“什么是元數(shù)據(jù)?”元數(shù)據(jù)是,描述數(shù)據(jù)的數(shù)據(jù),。,,在數(shù)據(jù)倉庫中,元數(shù)據(jù)是定義數(shù)據(jù)倉庫對(duì)象的數(shù)據(jù)。元數(shù)據(jù)包括相應(yīng)數(shù)據(jù)倉庫的數(shù)據(jù)名和定義、數(shù)據(jù)提取操作時(shí)被提取數(shù)據(jù)的時(shí)間和地點(diǎn)以及數(shù)
13、據(jù)清理或數(shù)據(jù)集成過程添加的字段等。它提供了有關(guān)數(shù)據(jù)的環(huán)境,用于構(gòu)造、維持、管理、和使用數(shù)據(jù)倉庫,在數(shù)據(jù)倉庫中尤為重要。,CREATE TABLE student,,{ no int;,,name char(10);,,sex char(2);,,class char(8);,,},no,name,sex,class,1,張三,男,1301,…,…,…,…,,,,,數(shù)據(jù),數(shù)據(jù)的數(shù)據(jù):元數(shù)據(jù),,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),,3. 數(shù)據(jù)集市(Data Market),,數(shù)據(jù)倉庫中存放的是整個(gè)企業(yè)的信息,并且數(shù)據(jù)是按照不同主題來組織的。比如市場發(fā)展規(guī)律的分析主題主要由市場
14、部門的人員使用,我們可以在邏輯上或者物理上將這部分?jǐn)?shù)據(jù)分離出來,當(dāng)市場部門人員需要信息時(shí),不需要到數(shù)據(jù)倉庫的巨量數(shù)據(jù)中檢索,而只需在相應(yīng)的部門數(shù)據(jù)上進(jìn)行分析,因此從效率和處理速度的角度出發(fā),這種劃分是合算的。,,,這種面向企業(yè)中的某個(gè)部門(主題)而,在邏輯上或物理上劃分出來的數(shù)據(jù)倉庫中的數(shù)據(jù)子集,稱為,數(shù)據(jù)集市,。換句話說,數(shù)據(jù)集市包含了用于特殊目的數(shù)據(jù)倉庫的部分?jǐn)?shù)據(jù)。,,數(shù)據(jù)倉庫面向整個(gè)企業(yè),而數(shù)據(jù)集市則是面向企業(yè)中的某個(gè)部門。典型示例是銷售部門、庫存和發(fā)貨部門、財(cái)務(wù)部門和高級(jí)管理部門等的數(shù)據(jù)集市。數(shù)據(jù)倉庫中存放了企業(yè)的整體信息,而數(shù)據(jù)集市只存放了某個(gè)主題需要的信息,其目的是減少數(shù)據(jù)處理量,
15、使信息的利用更快捷、靈活。,,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),4. OLAP,,OLAP(On-line Analytical Processing,在線分析處理或聯(lián)機(jī)分析處理)就是一個(gè)應(yīng)用廣泛的數(shù)據(jù)倉庫使用技術(shù)。,,它可以根據(jù)分析人員的要求,迅速靈活地對(duì)大量的數(shù)據(jù)進(jìn)行復(fù)雜的查詢處理,并以直觀的容易理解的形式將查詢結(jié)果提供給各種決策人員,使他們能夠迅速準(zhǔn)確地掌握企業(yè)的運(yùn)營情況,了解市場的需求。,,,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),2.2 多維數(shù)據(jù)模型,2.2.1 由表到數(shù)據(jù)立方體,數(shù)據(jù)倉庫和OLAP工具基于多維數(shù)據(jù)模型。,,在多維數(shù)據(jù)模型中,數(shù)據(jù)
16、以數(shù)據(jù)立方體(data cube)的形式存在。,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),數(shù)據(jù)立方體允許以多維數(shù)據(jù)建模和觀察。它由維和事實(shí)定義。,,維是人們觀察數(shù)據(jù)的特定角度,是考慮問題時(shí)的一類屬性。屬性的集合構(gòu)成一個(gè)維(如時(shí)間維、機(jī)構(gòu)維等)。,,維分層:同一維度還可以在細(xì)節(jié)程度不同的各個(gè)描述方面(如時(shí)間維可包含年、季度、月份和日期等)。,,維屬性:維的一個(gè)取值,是數(shù)據(jù)項(xiàng)在某維中位置的描述(如2013年11月2日在時(shí)間維上位置的描述),。,,每個(gè)維都有一個(gè)表與之相關(guān)聯(lián),稱為維表。,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),一個(gè)數(shù)據(jù)立方體:,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP
17、技術(shù)(武漢大學(xué)李春葆),多維數(shù)據(jù)模型圍繞中心主題組織,該主題用事實(shí)表表示,。,,事實(shí)表包括事實(shí)的名稱或度量以及每個(gè)相關(guān)維表的關(guān)鍵字。,,事實(shí)指的是一些數(shù)字度量。,學(xué)生,課程,分?jǐn)?shù),1001,2001,89,1002,2002,83,1005,2004,90,┇,┇,┇,學(xué)號(hào),姓名,班號(hào),1,張三,1201,┇,┇,┇,學(xué)生,1001,┇,課程,編號(hào),名稱,2001,1,C++,┇,┇,┇,學(xué)生維表,成績事實(shí)表,課程維表,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),OLTP系統(tǒng)是為了快速回答簡單查詢,而不是為了存儲(chǔ)分析趨勢的歷史數(shù)據(jù)而創(chuàng)建的。一般的OLTP提供了大量的原始數(shù)據(jù),這些數(shù)據(jù)
18、不易被分析。,查詢某人買房記錄。,,查詢某房的價(jià)值。,,…,一個(gè)英國房屋銷售系統(tǒng):,兩個(gè)系統(tǒng)數(shù)據(jù)組織模式比較示例1,,來源于事務(wù)型的數(shù)據(jù)庫,如采用關(guān)系型數(shù)據(jù)庫進(jìn)行數(shù)據(jù)存儲(chǔ),,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),數(shù)據(jù)倉庫需要回答更復(fù)雜的查詢,而不僅僅是一些像“英國主要城市的商品平均銷售價(jià)格是多少”之類的簡單聚集數(shù)據(jù)查詢。,,數(shù)據(jù)倉庫需要回答的查詢類型可以是簡單的查詢,也可以是,高度復(fù)雜,的,且還與終端用戶使用的查詢工具相關(guān)。,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),2008年第三季度,整個(gè)英格蘭的總收入是多少?,,2007年英國每一類房產(chǎn)銷售的總收入是多少?,,20
19、08年租借房產(chǎn)業(yè)務(wù)中每個(gè)城市哪個(gè)地域最受歡迎?與過去的兩年相比有何不同?,,每個(gè)分支機(jī)構(gòu)本月的房產(chǎn)銷售月收入是多少,并與剛過去的12個(gè)月相比較。,,如果對(duì)于10萬英鎊以上的房產(chǎn),法定價(jià)格上升3.5%而政府稅收下降1.5%,對(duì)英國不同區(qū)域的銷售會(huì)產(chǎn)生什么影響?,,在英國主要城市中,哪種類型的房產(chǎn)銷售價(jià)格高于平均房產(chǎn)銷售價(jià)格?這與人口統(tǒng)計(jì)數(shù)據(jù)有何聯(lián)系?,英國房屋銷售數(shù)據(jù)倉庫系統(tǒng):,,來源于已處理的或匯總的數(shù)據(jù),要預(yù)先采用數(shù)據(jù)結(jié)構(gòu)如多維模型存放這些匯總的數(shù)據(jù)。,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),,兩個(gè)系統(tǒng)數(shù)據(jù)組織模式比較示例2,數(shù)據(jù)庫系統(tǒng),,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢
20、大學(xué)李春葆),,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),面向“商品”、“供應(yīng)商”和“顧客”的數(shù)據(jù)倉庫系統(tǒng),商品數(shù)據(jù)倉庫結(jié)構(gòu),供應(yīng)商數(shù)據(jù)倉庫結(jié)構(gòu),顧客數(shù)據(jù)倉庫結(jié)構(gòu),,來源于的前面的多個(gè)表的數(shù)據(jù),,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),從上述實(shí)例,不難看出:,在從面向應(yīng)用到面向主題的轉(zhuǎn)變過程中,丟棄了原來有的但不必要的、不適于分析的信息;,,在原有的數(shù)據(jù)庫模式中,有關(guān)商品的信息分散在各個(gè)子系統(tǒng)之中;面向主題的數(shù)據(jù)組織方式所強(qiáng)調(diào)的就是要形成關(guān)于主題一致的信息集合;,,不同主題之間有重疊內(nèi)容。,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),2.2.2 多維數(shù)據(jù)模型,
21、,,time_key,,day,,day_of_the_week,,month,,quarter,,year,time 維表,location_key,,street,,city,,state_or_province,,country,location 維表,Sales 事實(shí)表,,time_key,item_key,,branch_key,,location_key,,units_sold,,dollars_sold,item_key,,item_name,,brand,,type,,supplier_type,item 維表,branch_key,,branch_name,,branch_
22、type,branch 維表,數(shù)據(jù)倉庫:事實(shí)表+維表,度量,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),在數(shù)據(jù)倉庫中,數(shù)據(jù)立方體是n-D的(n維),,(關(guān)系表和電子表格是幾維的?),,多維數(shù)據(jù)模型為不同角度上的數(shù)據(jù)建模和觀察提供了一個(gè)良好的基礎(chǔ)。,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),示例,,AllElectronics的銷售數(shù)據(jù)按維time, item的2-D視圖。,location=“Vancouver“,(,溫哥華 ),item,(,類型,),time,(,季度,),家庭娛樂,,計(jì)算機(jī) 電話 安全,Q1 605 825 14 4
23、00,,Q2 680 952 31 512,,Q3 812 1023 30 501,,Q4 927 1038 38 580,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),AllElectronics的銷售數(shù)據(jù)按維time, item和location的3-D視圖。,location,= “Chicage”,,item,time,,家庭娛樂 計(jì)算機(jī) 電話 安全,Q1 854 882 89 623,,Q2 943 890 64 698,,Q3 1032 924 59 789,,Q4 1
24、129 992 63 870,location= “New York”,,item,time,家庭娛樂 計(jì)算機(jī) 電話 安全,Q1 1087 968 38 623,,Q2 943 890 64 698,,Q3 1032 924 59 789,,Q4 1129 992 63 870,...,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),AllElectronics的銷售數(shù)據(jù)按維time、 item和location的3-D視圖的3-D數(shù)據(jù)立方體表示。,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),銷售數(shù)據(jù)的4-D立方體表示。,4維分別是time、item
25、、location和supplier。,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),一個(gè)n維的數(shù)據(jù)的立方體叫做,基本立方體,。,,給定一個(gè)維的集合,我們可以構(gòu)造一個(gè)立方體的格,每個(gè)都在不同的匯總級(jí)或不同的數(shù)據(jù)子集顯示數(shù)據(jù),立方體的格稱為,數(shù)據(jù)立方體,。0維立方體存放最高層的匯總,稱作頂點(diǎn)立方體;而存放最底層匯總的立方體則稱為基本立方體。,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),數(shù)據(jù)立方體格,all,time,item,location,supplier,time,item,time,location,time,supplier,item,location,item,su
26、pplier,location,supplier,time,item,location,time,item,supplier,time,location,supplier,item,location,supplier,time, item, location, supplier,0維-頂點(diǎn)立方體,1維-立方體,2維-立方體,3維-立方體,4維-基本立方體,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),,,,,,,i,-1維立方體,i,維立方體,,上卷,下鉆,i,越大,數(shù)據(jù)越細(xì),,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),2.2.3 數(shù)據(jù)倉庫的概念模型,最流行的數(shù)據(jù)倉庫概念模
27、型是多維數(shù)據(jù)模型。這種模型可以以星型模式、雪花模式、或事實(shí)星座模式的形式存在。,,星型模式(Star schema),: 事實(shí)表在中心,周圍圍繞地連接著維表(每維一個(gè)),事實(shí)表含有大量數(shù)據(jù),沒有冗余。,1. 星型模式,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),星型模式實(shí)例,,,time_key,,day,,day_of_the_week,,month,,quarter,,year,time,location_key,,street,,city,,state_or_province,,country,location,sales事實(shí)表,,time_key,item_key,,bra
28、nch_key,,location_key,,units_sold,,dollars_sold,item_key,,item_name,,brand,,type,,supplier_type,item,branch_key,,branch_name,,branch_type,branch,維表,度量,維表,維表,維表,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),雪花模式(Snowflake schema),: 是星型模式的變種,其中某些維表是規(guī)范化的,因而把數(shù)據(jù)進(jìn)一步分解到附加表中。結(jié)果,模式圖形成類似于雪花的形狀。,2. 雪花
29、模式,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),雪花模式實(shí)例,,time_key,,day,,day_of_the_week,,month,,quarter,,year,time,location_key,,street,,city_key,location,sales事實(shí)表,,time_key,item_key,,branch_key,,location_key,,units_sold,,dollars_sold,item_key,,item_name,,brand,,type,,supplier_key,item,branch_key,,branch_name,,branch_
30、type,branch,supplier_key,,supplier_type,supplier,city_key,,city,,state_or_province,,country,city,星型模式,雪花模式,維表規(guī)格化,維表,度量,維表,維表,維表,維表,維表,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),,,,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),事實(shí)星座(Fact constellations),: 多個(gè)事實(shí)表共享維表, 這種模式可以看作星型模式集,因此稱為星系模式(galaxy schema),或者事實(shí)星座(fact constellation) 。,,2.
31、 事實(shí)星座模式,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),事實(shí)星座模式實(shí)例,,time_key,,day,,day_of_the_week,,month,,quarter,,year,time,location_key,,street,,city,,province_or_state,,country,location,sales事實(shí)表,,time_key,item_key,,branch_key,,location_key,,units_sold,,dollars_sold,item_key,,item_name,,brand,,type,,supplier_type,item,
32、branch_key,,branch_name,,branch_type,branch,,航運(yùn)事實(shí)表,,time_key,item_key,,shipper_key,,from_location,,to_location,,dollars_cost,,units_shipped,shipper_key,,shipper_name,,location_key,,shipper_type,shipper,,星型/雪花模式,事實(shí)模式,多個(gè)事實(shí)表共享維表,度量,維表,維表,維表,維表,維表,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),2.2.4 一種數(shù)據(jù)倉庫查詢語言: DMQL,DMQL首先
33、包括定義數(shù)據(jù)倉庫和數(shù)據(jù)集市的語言原語,這包括兩種原語定義:一種是立方體定義,一種是維定義,,立方體定義 (事實(shí)表),,define cube []: ,,維定義 (維表),,define dimension as (),,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),實(shí)例:使用DMQL定義星型模式,define cube,sales_star [time, item, branch, location]:,,dollars_sold = sum(sales_in_dollars), avg_sales = avg(
34、sales_in_dollars), units_sold = count(*),,define dimension,time,as (,time_key, day, day_of_week, month, quarter, year),,define dimension,item,as,(item_key, item_name, brand, type, supplier_type),,define dimension,branch,as,(branch_key, branch_name, branch_type),,define dimension,location,as,(locatio
35、n_key, street, city, province_or_state, country),,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),星型模式實(shí)例,,,time_key,,day,,day_of_the_week,,month,,quarter,,year,time,location_key,,street,,city,,state_or_province,,country,location,sales事實(shí)表,,time_key,item_key,,branch_key,,location_key,,units_sold,,dollars_sold,item_key,,ite
36、m_name,,brand,,type,,supplier_type,item,branch_key,,branch_name,,branch_type,branch,維表,度量,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),實(shí)例:使用DMQL定義雪花模式,define cube,sales_snowflake [time, item, branch, location]:,,dollars_sold = sum(sales_in_dollars), avg_sales = avg(sales_in_dollars), units_sold = count(*),,define dim
37、ension,time,as,(time_key, day, day_of_week, month, quarter, year),,define dimension,item,as,(item_key, item_name, brand, type,,supplier(supplier_key, supplier_type)),,define dimension,branch,as,(branch_key, branch_name, branch_type),,define dimension,location,as,(location_key, street,,city(city_key,
38、 province_or_state, country)),,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),雪花模式實(shí)例,,time_key,,day,,day_of_the_week,,month,,quarter,,year,time,location_key,,street,,city_key,location,sales事實(shí)表,,time_key,item_key,,branch_key,,location_key,,units_sold,,dollars_sold,,,item_key,,item_name,,brand,,type,,supplier_key,item,bra
39、nch_key,,branch_name,,branch_type,branch,supplier_key,,supplier_type,supplier,city_key,,city,,state_or_province,,country,city,星型模式,雪花模式,維表規(guī)格化,維表,度量,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),實(shí)例:使用DMQL定義事實(shí)星座模式,define cube,sales [time, item, branch, location]:,,dollars_sold = sum(sales_in_dollars), avg_sales = avg(sa
40、les_in_dollars), units_sold = count(*),,define dimension,time,as,(time_key, day, day_of_week, month, quarter, year),,define dimension,item,as,(item_key, item_name, brand, type, supplier_type),,define dimension,branch,as,(branch_key, branch_name, branch_type),,define dimension,location,as,(location_k
41、ey, street, city, province_or_state, country),,define cube,shipping [time, item, shipper, from_location, to_location]:,,dollar_cost = sum(cost_in_dollars), unit_shipped = count(*),,define dimension,time,as,time,in cube,sales,,define dimension,item,as,item,in cube,sales,,define dimension,shipper,as,(
42、shipper_key, shipper_name, location,as,location,in cube,sales, shipper_type),,define dimension,from_location,as,location,in cube,sales,,define dimension,to_location,as,location,in cube,sales,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),事實(shí)星座模式實(shí)例,,time_key,,day,,day_of_the_week,,month,,quarter,,year,time,location_key,,
43、street,,city,,province_or_state,,country,location,sales事實(shí)表,,time_key,item_key,,branch_key,,location_key,,units_sold,,dollars_sold,item_key,,item_name,,brand,,type,,supplier_type,item,branch_key,,branch_name,,branch_type,branch,,航運(yùn)事實(shí)表,,time_key,item_key,,shipper_key,,from_location,,to_location,,dolla
44、rs_cost,,units_shipped,shipper_key,,shipper_name,,location_key,,shipper_type,shipper,星型/雪花模式,事實(shí)模式,多個(gè)事實(shí)表共享維表,維表,度量,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),2.2.5 度量的分類,一個(gè)數(shù)據(jù)立方體的度量是一個(gè),數(shù)值函數(shù),,該函數(shù)可以對(duì)數(shù)據(jù)立方體的每一個(gè)點(diǎn)求值。,,度量可以根據(jù)其所用的聚集函數(shù)分為三類:,,分布的:將函數(shù)用于n個(gè)聚集值得到的結(jié)果和將函數(shù)用于所有數(shù)據(jù)得到的結(jié)果一樣。,,比如:count(),sum(),min(),max()等,,代數(shù)的:函數(shù)可以由一個(gè)帶M個(gè)參
45、數(shù)的代數(shù)函數(shù)計(jì)算(M為有界整數(shù)),而每個(gè)參數(shù)值都可以由一個(gè)分布的聚集函數(shù)求得。,,比如:avg(),min_N(),standard_deviation(),,整體的:描述函數(shù)的子聚集所需的存儲(chǔ)沒有一個(gè)常數(shù)界。,,比如:median(),mode(),rank(),,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),2.2.6 概念分層,,一個(gè),概念分層,(concept hierarchy)定義一個(gè)映射序列,將低層概念映射到更一般的高層概念,,例如表示location的概念:杭州,?浙江?中國?亞洲。,,概念分層允許我們?cè)诟鞣N抽象級(jí)審查和處理數(shù)據(jù)。,,概念分層可以由系統(tǒng)用戶、領(lǐng)域?qū)<?、?/p>
46、識(shí)工程師人工地提供,也可以根據(jù)數(shù)據(jù)分布的統(tǒng)計(jì)分析自動(dòng)地產(chǎn)生。,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),概念分層 : location維的一個(gè)概念分層,all,Europe,North_America,Mexico,Canada,Spain,Germany,Vancouver,M. Wind,L. Chan,...,...,...,...,...,...,all,region,office,country,Toronto,Frankfurt,city,許多概念分層的定義隱含在數(shù)據(jù)庫的模式中。比如:location維的定義,office 47、性 按一個(gè)全序相關(guān),形成一個(gè)層次結(jié)構(gòu):,year,day,quarter,month,week,維的屬性也可以組成一個(gè)偏序,形成一個(gè)格:,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),price屬性上的概念分層,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),概念層次是一個(gè)偏序集(H,<),其中,H是概念的一個(gè)有限集,<是關(guān)于H的一個(gè)偏序。,年,月,季度,日,星期,,,,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),概念分層 ——使用,概念分層為不同級(jí)別上的數(shù)據(jù)匯總提供了一個(gè)良好的基礎(chǔ),,綜合概念分層和多維數(shù)據(jù)模型的潛力,可以對(duì)數(shù)據(jù)獲得更深入的洞察力,,通過在多維數(shù)據(jù)模 48、型中,在不同的維上定義概念分層,使得用戶在不同的維上從不同的層次對(duì)數(shù)據(jù)進(jìn)行觀察成為可能。,,多維數(shù)據(jù)模型(數(shù)據(jù)立方體)使得從不同的角度對(duì)數(shù)據(jù)進(jìn)行觀察成為可能,而概念分層則提供了從不同層次對(duì)數(shù)據(jù)進(jìn)行觀察的能力;結(jié)合這兩者的特征,我們可以在多維數(shù)據(jù)模型上定義各種OLAP操作,為用戶從不同角度不同層次觀察數(shù)據(jù)提供了靈活性。,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),2.2.7 多維數(shù)據(jù)模型上的OLAP操作,上卷(roll-up):匯總數(shù)據(jù),,通過一個(gè)維的概念分層向上攀升或者通過維歸約。,,當(dāng)用維歸約進(jìn)行上卷時(shí),一個(gè)或多個(gè)維由給定的數(shù)據(jù)立方體刪除。,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武 49、漢大學(xué)李春葆),示例:OLAP 操作-上卷,在 location上卷(由 cities 到 countries匯總),,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),下鉆(drill-down):上卷的逆操作,,由不太詳細(xì)的數(shù)據(jù)到更詳細(xì)的數(shù)據(jù),可以通過沿維的概念分層向下或引入新的維來實(shí)現(xiàn) (為給定數(shù)據(jù)添加更多細(xì)節(jié))。,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),示例: OLAP 操作-下鉆,在 time下鉆 (由 quarters 到 months細(xì)化),,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),切片和切塊(slice and dice),,,切片操作在給定的數(shù)據(jù)立 50、方體的,一個(gè)維,上進(jìn)行選擇,導(dǎo)致一個(gè)子方切塊操作通過對(duì)兩個(gè)或多個(gè)維進(jìn)行選擇,定義子方。,,切塊操作在給定的數(shù)據(jù)立方體的,多個(gè)維,上進(jìn)行選擇,導(dǎo)致一個(gè)子方切塊操作通過對(duì)兩個(gè)或多個(gè)維進(jìn)行選擇,定義子方。,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),示例: OLAP 操作-切片,切片條件: time=“Q2”,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),示例: OLAP 操作- 切塊,切塊條件: (location=“Montreal” or “Vancouver”) and (time=“Q1” or “Q2”) and (item=“home entertainment” 51、or “computer”),,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),轉(zhuǎn)軸(pivot),,立方體的重定位,可視化,或?qū)⒁粋€(gè)3維立方體轉(zhuǎn)化為一個(gè)2維平面序列。,,轉(zhuǎn)軸是一種可視化操作,通過轉(zhuǎn)動(dòng)當(dāng)前數(shù)據(jù)的視圖來提供一個(gè)數(shù)據(jù)的替代表示。,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),示例: OLAP 操作-轉(zhuǎn)軸,轉(zhuǎn)軸,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),其他OLAP操作,,鉆過(drill_across):執(zhí)行涉及多個(gè)事實(shí)表的查詢。,,鉆透(drill_through):使用關(guān)系SQL機(jī)制,鉆到數(shù)據(jù)立方體的底層,到后端關(guān)系表。,,其他OLAP操作可能包括列出 52、表中最高或最低的N項(xiàng),以及計(jì)算移動(dòng)平均值、增長率、利潤、統(tǒng)計(jì)函數(shù)等等。,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),2.3 數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu),2.3.1 數(shù)據(jù)倉庫的設(shè)計(jì)步驟和結(jié)構(gòu),設(shè)計(jì)和構(gòu)造數(shù)據(jù)倉庫、三層數(shù)據(jù)倉庫結(jié)構(gòu)。,介紹中小型數(shù)據(jù)倉庫的一般設(shè)計(jì)方法。,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),數(shù)據(jù)倉庫給商業(yè)分析專家提供了什么?,,通過提供相關(guān)數(shù)據(jù)與信息,獲得競爭優(yōu)勢。,,通過有效地收集精確地描述組織的數(shù)據(jù),獲得生產(chǎn)力的提高。,,通過提供不同級(jí)別(部門、市場、商業(yè))的客戶視圖,協(xié)助客戶關(guān)系管理。,,通過追蹤長期趨勢、異常等,降低成本。,,有效構(gòu)建數(shù)據(jù)倉庫的關(guān)鍵:理解 53、和分析商業(yè)需求,,通過提供一個(gè)商業(yè)分析框架,綜合各種不同的數(shù)據(jù)使用者的視圖。,1. 數(shù)據(jù)倉庫設(shè)計(jì):一個(gè)商務(wù)分析框架,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),數(shù)據(jù)倉庫設(shè)計(jì)的四種視圖,,自頂向下視圖,,允許我們選擇數(shù)據(jù)倉庫所需的相關(guān)信息。,,數(shù)據(jù)源視圖,,揭示被操作數(shù)據(jù)庫系統(tǒng)所捕獲、存儲(chǔ)和管理的信息。,,數(shù)據(jù)倉庫視圖,,由事實(shí)表和維表所組成。,,商務(wù)查詢視圖,,從最終用戶的角度透視數(shù)據(jù)倉庫中的數(shù)據(jù)。,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),2. 數(shù)據(jù)倉庫的設(shè)計(jì)過程,自頂向下法、自底向上法或者兩者的混合方法,,自頂向下法:由總體設(shè)計(jì)和規(guī)劃開始,,在技術(shù)成熟、商業(yè)理解透徹的 54、情況下使用。,,自底向上法:以實(shí)驗(yàn)和原型開始,,常用在模型和技術(shù)開發(fā)的初期,可以有效的對(duì)使用的技術(shù)和模型進(jìn)行評(píng)估,降低風(fēng)險(xiǎn)。,,混合方法:上述兩者的結(jié)合,,從軟件工程的觀點(diǎn),,瀑布式方法:在進(jìn)行下一步前,每一步都進(jìn)行結(jié)構(gòu)化和系統(tǒng)的分析。,,螺旋式方法:功能漸增的系統(tǒng)的快速產(chǎn)生,相繼版本之間間隔很短。,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),典型的數(shù)據(jù)倉庫設(shè)計(jì)過程,,選取待建模的商務(wù)過程,,找到所構(gòu)建的數(shù)據(jù)倉庫的主題,比如:銷售、貨運(yùn)、訂單等等。,,選取商務(wù)過程的顆粒度,,數(shù)據(jù)起始于多細(xì)的顆粒度,比如,記錄每條詳細(xì)訂單,或是開始于每日的匯總數(shù)據(jù)。,,選取用于每個(gè)事實(shí)表記錄的維,,常 55、用的維有:時(shí)間、貨物、客戶、供應(yīng)商等。,,選取將安放在事實(shí)表中的度量,,常用的數(shù)字度量包括:售價(jià)、貨物數(shù)量等。,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),2.3.2 三層數(shù)據(jù)倉庫架構(gòu),,數(shù)據(jù)倉庫,,,,提取,,清理,,轉(zhuǎn)換,,裝入,,刷新,OLAP服務(wù)器,查詢報(bào)告,,分析,,數(shù)據(jù)挖掘,監(jiān)控、,,整合,,,,元數(shù)據(jù),,存儲(chǔ),數(shù)據(jù)源,前端工具,輸出,,,,,,數(shù)據(jù)集市,,,,,,,操作數(shù)據(jù)庫,其他外部信息源,,,,數(shù)據(jù)倉庫服務(wù)器,,,,,OLAP服務(wù)器,底層 中間層 前端層,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)( 56、武漢大學(xué)李春葆),,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),底層:數(shù)據(jù)倉庫的數(shù)據(jù)庫服務(wù)器,,關(guān)注的問題:如何從這一層提取數(shù)據(jù)來構(gòu)建數(shù)據(jù)倉庫(通過網(wǎng)關(guān)(ODBC,JDBC,OLE/DB等)來提?。?。,,中間層:OLAP服務(wù)器,,關(guān)注的問題:OLAP服務(wù)器如何實(shí)施(關(guān)系型OLAP,多維OLAP等)。,,前端客戶工具層,,關(guān)注的問題:查詢工具、報(bào)表工具、分析工具、挖掘工具等。,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),從體系結(jié)構(gòu)的角度去看,數(shù)據(jù)倉庫模型有以下三種:,,企 57、業(yè)倉庫,,搜集關(guān)于跨越整個(gè)組織的主題的所有信息。,,數(shù)據(jù)集市,,企業(yè)范圍數(shù)據(jù)的一個(gè)子集,對(duì)于特定的客戶是有用的。其范圍限于選定的主題,比如一個(gè)商場的數(shù)據(jù)集市。,,獨(dú)立的數(shù)據(jù)集市 VS. 非獨(dú)立的數(shù)據(jù)集市(數(shù)據(jù)來自于企業(yè)數(shù)據(jù)倉庫)。,,虛擬倉庫,,操作數(shù)據(jù)庫上的一系列視圖。,,只有一些可能的匯總視圖被物化。,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),數(shù)據(jù)倉庫開發(fā)上的困難,,自頂向下的開發(fā)方法從全系統(tǒng)的角度提供解決方案,使得(模塊)集成的問題最??;但是該方法十分昂貴,需要對(duì)組織進(jìn)行長期研究和建模分析。,,自底向上方法提供了更多的開發(fā)靈活性,價(jià)格便宜;但往往會(huì)遇到集成問題(每個(gè)模塊單獨(dú)運(yùn) 58、行都沒有問題,但是一集成就出異常)。,,解決方法,,使用遞增性、演化性的開發(fā)方法,,高層數(shù)據(jù)模型,?,企業(yè)倉庫和數(shù)據(jù)集市并行開發(fā),?,通過分布式模型集成各數(shù)據(jù)集市,?,多層數(shù)據(jù)倉庫。,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),2.3.3 OLAP服務(wù)器類型,邏輯上,OLAP服務(wù)器從數(shù)據(jù)倉庫或數(shù)據(jù)集市中給商業(yè)用戶提供多維數(shù)據(jù),,物理上,OLAP的底層數(shù)據(jù)存儲(chǔ)實(shí)現(xiàn)可以有多種不同的方式,,關(guān)系OLAP服務(wù)器(ROLAP),,使用關(guān)系數(shù)據(jù)庫或擴(kuò)展的關(guān)系數(shù)據(jù)庫存放并管理數(shù)據(jù)倉庫的數(shù)據(jù),而用OLAP中間件支持其余部分。,,包括每個(gè)DBMS后端優(yōu)化,聚集導(dǎo)航邏輯的實(shí)現(xiàn),附加的工具和服務(wù)。,,較大 59、的可擴(kuò)展性。,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),多維OLAP服務(wù)器(MOLAP),,基于數(shù)組的多維存儲(chǔ)引擎(稀疏矩陣技術(shù))。,,能對(duì)預(yù)計(jì)算的匯總數(shù)據(jù)快速索引。,,混合OLAP服務(wù)器(HOLAP),,結(jié)合上述兩種技術(shù),更大的使用靈活性。,,特殊的SQL服務(wù)器,,在星型和雪花模型上支持SQL查詢。,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),2.4 數(shù)據(jù)倉庫的實(shí)現(xiàn),數(shù)據(jù)倉庫中的OLAP查詢是一種海量數(shù)據(jù)計(jì)算 (想象一下對(duì)過去10年各地區(qū)的軟件產(chǎn)品銷售的匯總查詢),,用戶卻希望這個(gè)計(jì)算能在數(shù)秒鐘內(nèi)完成,,解決方法在于給出一種有效的計(jì)算數(shù)據(jù)立方體的方法,,匯總的數(shù)據(jù)立方 60、體可以被看成是一個(gè)立方體的格,,最底層的立方體是基本立方體,,最頂端的立方體(頂點(diǎn))只包含一個(gè)單元的值,,一個(gè)n維的數(shù)據(jù)立方體,每維L,i,層,可能產(chǎn)生的立方體總數(shù)是多少?,2.4.1 數(shù)據(jù)立方體的有效計(jì)算,1表示原始數(shù)據(jù)即all層,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),編號(hào),日期,商品,地區(qū),數(shù)量,1,2011.5.10,長虹電視機(jī),南京市…,1,2,2011.5.20,美的微波爐,上海市…,2,3,2011.6.2,…,…,1,4,2011.6.10,…,…,2,5,2011.7.12,…,…,3,6,2011.8.18,…,…,2,…,…,…,…,…,事實(shí)表(可看成是基本 61、立方體):,一個(gè)立方體是某種匯總的結(jié)果,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),地區(qū)維(上卷到省市),日期維(上卷到季度),商品維(上卷到商品類別),,一個(gè)立方體(3維),立方體是OLAP的基礎(chǔ)。例如:,,對(duì)比江蘇和上海在2010二季度的日用品銷售情況,,當(dāng)上述立方體存在時(shí),其計(jì)算過程就非???。,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),,(商品),(地區(qū)),(),(日期),(地區(qū),商品),(地區(qū),日期),(商品,日期),(地區(qū),商品,日期),當(dāng),L,i,=1時(shí)(沒有概念分層),,T,=2,n,,這里有8個(gè)立方體。 62、,立方體格:,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),則立方體總數(shù),T,=(4+1)×(3+1)×(2+1)=60個(gè),,盡管立方體可以提高OLAP的效率,但事先產(chǎn)生所有的立方體是不現(xiàn)實(shí)的。,年,月,季度,日,假設(shè)日期:,,4層,假設(shè)地區(qū):,假設(shè)商品:,商品大類,商品小類,省,市,縣,,3層,,2層,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),數(shù)據(jù)立方體的物化,數(shù)據(jù)立方體的物化可以有以下三種選擇:,,全物化,,預(yù)先計(jì)算所有立方體。對(duì)于n維數(shù)據(jù)立方體,可能產(chǎn)生的立方體總數(shù)是T=(L,1,+1)(L,2,+1)…(L,n,+1),L,i,表示維i的層次數(shù),例如,n=10,每維 63、10層,則立方體總數(shù)約為9800000個(gè)。,,日用品涉及的立方體,例:求2010一季度的日用品,通常,這種選擇需要海量存儲(chǔ)空間來存放所有預(yù)計(jì)算的立方體。,,優(yōu)點(diǎn)是OLAP速度快。,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),不物化,,不預(yù)先計(jì)算任何“非基本”立方體,,,,,,,,,,,,,,,,,,,,,,,事實(shí)表,匯總,涉及大量上卷操作(表連接),,這可能導(dǎo)致回答查詢時(shí),因進(jìn)行昂貴的多維聚集計(jì)算,速度非常慢。,維災(zāi)難?。?!,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),部分物化,,有選擇的計(jì)算一個(gè)所有立方體的適當(dāng)子集,,考慮因素,:(1),確定要物化的立方體;(2)在查詢時(shí) 64、利用物化的立方體;(3)在裝載和刷新時(shí),有效地更新物化的立方體,,有選擇地計(jì)算整個(gè)可能的立方體集中一個(gè)適當(dāng)?shù)淖蛹2糠治锘谴鎯?chǔ)空間和響應(yīng)時(shí)間兩者之間的很好折衷。,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),確定物化哪些立方體,,考慮工作負(fù)荷下的查詢、它們的頻率和它們的開銷等等。,日用品涉及的立方體,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),立方體的操作,DMQL中的立方體定義和計(jì)算,,define cube sales[item, city, year]: sum(sales_in_dollars),,compute cube sales,,上述的compute cub 65、e子句可以轉(zhuǎn)化為一個(gè)類似于SQL的語句,,SELECT item, city, year, SUM (amount),,FROM SALES,,CUBE BY item, city, year,,這個(gè)相當(dāng)于SQL中以下的group by子句,,(item, city, year) -3D,,(item, city), (item year), (city, year)-2D,,(item), (city), (year) -1D,,() - 0D,,(item),(city),(),(year),(city, item),(city, year),(item, year),(city, ite 66、m, year),,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),假設(shè)為AllElectrics定義了維和數(shù)據(jù)立方體。,,查詢:,對(duì){brand,province_or_state}查詢year=2004。,,有4個(gè)立方體可用:,,立方體1:{year,item_name,city},,立方體2:{year,brand,country},,立方體3:{year,brand,prvoince_or_state},,立方體4:{item_name,province_or_state},其中year=2004,,以上4個(gè)立方體,應(yīng)當(dāng)選擇哪一個(gè)處理查詢?,立方體2不能用:較細(xì)粒度的數(shù)據(jù)不能由較粗粒度的數(shù)據(jù)產(chǎn)生??捎昧⒎襟w1、3和4。,立方體3最佳,。,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)李春葆),立方體計(jì)算:ROLAP和MOLAP,立方體計(jì)算的挑戰(zhàn):海量數(shù)據(jù),有限的內(nèi)存和時(shí)間。,,基于ROLAP的方法(底層使用關(guān)系模型存儲(chǔ)數(shù)據(jù)),,將排序、散列(hashing)和分組操作應(yīng)用于維的屬性,以便對(duì)相關(guān)元組重新排序和聚類。,,在某些子聚集上分組,作為“部分分組步驟”。,,可以由以前計(jì)算
- 溫馨提示:
1: 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年度組織生活會(huì)個(gè)人“4個(gè)方面”對(duì)照檢查材料文稿
- 2024年組織生活會(huì)個(gè)人對(duì)照檢查發(fā)言材料(普通黨員)例文
- 2025年旅游業(yè)高質(zhì)量發(fā)展行動(dòng)方案文稿
- 2025年機(jī)關(guān)組織生活會(huì)班子對(duì)照檢查材料范文
- 普通黨員2024年組織生活會(huì)個(gè)人發(fā)言提綱(圍繞“四個(gè)帶頭”方面)文稿
- 鄉(xiāng)班子領(lǐng)導(dǎo)干部2024年度民主生活會(huì)“四個(gè)帶頭”對(duì)照檢查發(fā)言材料文稿
- 2024年度黨員領(lǐng)導(dǎo)干部民主生活會(huì)整改落實(shí)方案例文
- 關(guān)于2024年度民主生活會(huì)個(gè)人問題的整改方案例文
- 2025年醫(yī)療保障工作要點(diǎn)范文
- 青年人才“育苗蹲苗”培養(yǎng)實(shí)施方案范文
- 2025駐村第一書記組織生活會(huì)對(duì)照檢查材料例文
- 國企公司2025年安全生產(chǎn)工作要點(diǎn)范文
- 2024年度國企個(gè)人組織生活會(huì)前準(zhǔn)備情況、上年度整改落實(shí)情況范文
- 2024年度組織生活會(huì)黨支部委員會(huì)全年工作開展情況匯報(bào)例文
- 機(jī)關(guān)黨組2024年度從案件中汲取教訓(xùn)做好以案促改專題民主生活會(huì)整改落實(shí)情況報(bào)告例文
相關(guān)資源
更多