數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘



《數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘》由會(huì)員分享,可在線閱讀,更多相關(guān)《數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘(29頁(yè)珍藏版)》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。
1、,單擊此處編輯母版標(biāo)題樣式,單擊此處編輯母版文本樣式,第二級(jí),第三級(jí),第四級(jí),第五級(jí),*,第12章數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘,基本概念,數(shù)據(jù)倉(cāng)庫(kù)定義,數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)面向決策主題的、集成的、時(shí)變的、非易失、以讀為主的數(shù)據(jù)集合。,數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的分類,Web數(shù)據(jù)倉(cāng)庫(kù);并行數(shù)據(jù)倉(cāng)庫(kù);多維數(shù)據(jù)倉(cāng)庫(kù);壓縮數(shù)據(jù)倉(cāng)庫(kù)等。,OLAP定義,OLAP是針對(duì)某個(gè)特定的主題進(jìn)行聯(lián)機(jī)數(shù)據(jù)訪問(wèn)、處理和分析,通過(guò)直觀的方式從多個(gè)維度、多種數(shù)據(jù)綜合程度將系統(tǒng)的運(yùn)營(yíng)情況展現(xiàn)給用戶。,面向決策主題的,數(shù)據(jù)倉(cāng)庫(kù)圍繞一些主題,排除對(duì)于決策無(wú)用的數(shù)據(jù),提供特定主體的簡(jiǎn)明視圖。,集成的,構(gòu)造數(shù)據(jù)倉(cāng)庫(kù)是將多個(gè)異種數(shù)據(jù)源集成在一起,確保命名約定,編碼
2、結(jié)構(gòu),屬性度量等一致性。,時(shí)變的,數(shù)據(jù)存儲(chǔ)從歷史的角度提供信息.在數(shù)據(jù)倉(cāng)庫(kù),隱式或顯式地包含時(shí)間元素。,非易失的,數(shù)據(jù)倉(cāng)庫(kù)總是物理地分離存放數(shù)據(jù);由于這種分離,數(shù)據(jù)倉(cāng)庫(kù)不需要事務(wù)處理,恢復(fù)和并發(fā)控制。通常數(shù)據(jù)倉(cāng)庫(kù)只需要兩種數(shù)據(jù)訪問(wèn):數(shù)據(jù)的初始化裝入和數(shù)據(jù)訪問(wèn)。,以讀為主的,數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)主要是提供決策進(jìn)行查詢,一般不一定都需要即時(shí)更新,可以定期刷新或按需刷新。,數(shù)據(jù)倉(cāng)庫(kù)基本特性,數(shù)據(jù)倉(cāng)庫(kù)項(xiàng)目流程管理及系統(tǒng)性能管理和監(jiān)控,OLTP,數(shù)據(jù)源,數(shù)據(jù)倉(cāng)庫(kù),數(shù)據(jù)集市,數(shù)據(jù)采集及整合,數(shù)據(jù)的映射規(guī)則、模型,。,(元數(shù)據(jù)管理),數(shù)據(jù)展現(xiàn)及決策,生產(chǎn),財(cái)務(wù),結(jié)算,外部,地區(qū),分析,總量,分析,市場(chǎng),分析,E
3、,T,L,數(shù)據(jù)分析、DM,終端用戶,終端用戶,數(shù)據(jù)倉(cāng)庫(kù)體系結(jié)構(gòu),數(shù)據(jù)倉(cāng)庫(kù)的結(jié)構(gòu),早期細(xì)節(jié)級(jí),當(dāng)前細(xì)節(jié)級(jí),輕度綜合級(jí),數(shù)據(jù)集市,高度綜合級(jí),元數(shù)據(jù),操作型轉(zhuǎn)換,數(shù)據(jù)倉(cāng)庫(kù)中的幾個(gè)重要概念,ETL,ETL(Extract/Transformation/Load),用戶從數(shù)據(jù)源抽取出所需的數(shù)據(jù),經(jīng)過(guò)數(shù)據(jù)清洗、轉(zhuǎn)換,最終按照預(yù)先定義好的數(shù)據(jù)倉(cāng)庫(kù)模型,將數(shù)據(jù)加載到數(shù)據(jù)倉(cāng)庫(kù)中去。,元數(shù)據(jù),關(guān)于數(shù)據(jù)的數(shù)據(jù),指在數(shù)據(jù)倉(cāng)庫(kù)建設(shè)過(guò)程中所產(chǎn)生的有關(guān)數(shù)據(jù)源定義、目標(biāo)定義、轉(zhuǎn)換規(guī)則等相關(guān)的關(guān)鍵數(shù)據(jù)。同時(shí)元數(shù)據(jù)還包含關(guān)于數(shù)據(jù)含義的商業(yè)信息。,Data Mart,數(shù)據(jù)集市-小型的,面向部門或工作組級(jí)數(shù)據(jù)倉(cāng)庫(kù),。,Operat
4、ion Data Store,操作數(shù)據(jù)存儲(chǔ),ODS,是能支持企業(yè)日常的全局應(yīng)用的數(shù)據(jù)集合,是不同于,DB,的一種新的數(shù)據(jù)環(huán)境,是,DW,擴(kuò)展后得到的一個(gè)混合形式。四個(gè)基本特點(diǎn):面向主題的(,Subject-Oriented)、,集成的、可變的、當(dāng)前或接近當(dāng)前的。,粒度,數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)單元中保存數(shù)據(jù)的細(xì)化或綜合程度的級(jí)別。細(xì)化程度越高,粒度級(jí)就越?。幌喾?,細(xì)化程度越低,粒度級(jí)就越大。,分割,結(jié)構(gòu)相同的數(shù)據(jù)可以被分成多個(gè)數(shù)據(jù)物理單元。任何給定的數(shù)據(jù)單元屬于且僅屬于一個(gè)分割。,數(shù)據(jù)倉(cāng)庫(kù)中的幾個(gè)重要概念,(續(xù)),操作數(shù)據(jù)庫(kù)與數(shù)據(jù)倉(cāng)庫(kù)的區(qū)別,操作數(shù)據(jù)庫(kù)系統(tǒng)的主要任務(wù)是聯(lián)機(jī)事務(wù)處理OLTP,數(shù)據(jù)倉(cāng)庫(kù)在數(shù)據(jù)
5、分析和決策方面為用戶提供服務(wù),這種系統(tǒng)稱為聯(lián)機(jī)分析處理OLAP,基本數(shù)據(jù)模式,星型模式,日期維表,TimeID,Day,Month,Year,銷售事實(shí)表,TimeID,ProductID,RegionID,Sales,Quantity,產(chǎn)品維表,ProductID,ProductName,ClassID,ClassName,CategoryID,CategoryName,地區(qū)維表,RegionD,City,Province,Country,基本數(shù)據(jù)模式(續(xù)1),雪花模式,銷售事實(shí)表,TimeID,ProductID,RegionID,Sales,Quantity,日期維表,TimeID,day
6、,Month,產(chǎn)品維表,ProductID,ProductName,ClassID,ClassName,地區(qū)維表,RegionID,City,Province,月表,Month,Year,類別表,ClassID,Category ID,CategoryName,省份表,Province,Country,基本數(shù)據(jù)模式(續(xù)2),多維模型,Cube,(,D,1,D,2,Dn,M,1,M,2,M,m,),數(shù)據(jù)倉(cāng)庫(kù)的主要應(yīng)用,信息處理,支持查詢和基本的統(tǒng)計(jì)分析,并使用表或圖進(jìn)行報(bào)告。,分析處理,支持基本的OLAP操作,在匯總的和細(xì)節(jié)的歷史數(shù)據(jù)上操作。,數(shù)據(jù)挖掘,支持知識(shí)發(fā)現(xiàn),包括找出隱藏的模式和關(guān)聯(lián),構(gòu)
7、造分析模型,進(jìn)行分類和預(yù)測(cè),并用可視化工具提供挖掘結(jié)果.,OLAP發(fā)展背景,60年代,關(guān)系數(shù)據(jù)庫(kù)之父E.F.Codd提出了關(guān)系模型,促進(jìn)了聯(lián)機(jī)事務(wù)處理(OLTP)的發(fā)展(數(shù)據(jù)以表格的形式而非文件方式存儲(chǔ))。1993年,E.F.Codd提出了OLAP概念,認(rèn)為OLTP已不能滿足終端用戶對(duì)數(shù)據(jù)庫(kù)查詢分析的需要,SQL對(duì)大型數(shù)據(jù)庫(kù)進(jìn)行的簡(jiǎn)單查詢也不能滿足終端用戶分析的要求。用戶的決策分析需要對(duì)關(guān)系數(shù)據(jù)庫(kù)進(jìn)行大量計(jì)算才能得到結(jié)果,而查詢的結(jié)果并不能滿足決策者提出的需求。因此,E.F.Codd提出了多維數(shù)據(jù)庫(kù)和多維分析的概念,即OLAP。,OLTP數(shù)據(jù) OLAP數(shù)據(jù),原始數(shù)據(jù) 導(dǎo)出數(shù)據(jù),細(xì)節(jié)性數(shù)據(jù) 綜合
8、性和提煉性數(shù)據(jù),當(dāng)前值數(shù)據(jù) 歷史數(shù)據(jù),可更新 不可更新,但周期性刷新,一次處理的數(shù)據(jù)量小 一次處理的數(shù)據(jù)量大,面向應(yīng)用,事務(wù)驅(qū)動(dòng) 面向分析,分析驅(qū)動(dòng),面向操作人員,支持日常操作 面向決策人員,支持管理需要,什么是OLAP?,定義1:OLAP(聯(lián)機(jī)分析處理)是針對(duì)特定問(wèn)題的聯(lián)機(jī)數(shù)據(jù)訪問(wèn)和分析。通過(guò)對(duì)信息(維數(shù)據(jù))的多種可能的觀察形式進(jìn)行快速、穩(wěn)定一致和交互性的存取,允許管理決策人員對(duì)數(shù)據(jù)進(jìn)行深入觀察。,定義2:OLAP(聯(lián)機(jī)分析處理)是使分析人員、管理人員或執(zhí)行人員能夠從多種角度對(duì)從原始數(shù)據(jù)中轉(zhuǎn)化出來(lái)的、能夠真正為用戶所理解的、并真實(shí)反映企業(yè)維特性的信息進(jìn)行快速、一致、交互地存取,從而獲得對(duì)數(shù)據(jù)
9、的更深入了解的一類軟件技術(shù)。(OLAP委員會(huì)的定義),OLAP的目標(biāo)是滿足決策支持或多維環(huán)境特定的查詢和報(bào)表需求,它的技術(shù)核心是“維”這個(gè)概念,因此OLAP也可以說(shuō)是多維數(shù)據(jù)分析工具的集合。,OLAP相關(guān)基本概念,1)維:是人們觀察數(shù)據(jù)的特定角度,是考慮問(wèn)題時(shí)的一類屬性,屬性集合構(gòu)成一個(gè)維(時(shí)間維、地理維等)。,2)維的層次:人們觀察數(shù)據(jù)的某個(gè)特定角度(即某個(gè)維)還可以存在細(xì)節(jié)程度不同的各個(gè)描述方面(時(shí)間維:日期、月份、季度、年)。,3)維的成員:維的一個(gè)取值。是數(shù)據(jù)項(xiàng)在某維中位置的描述。(“某年某月某日”是在時(shí)間維上位置的描述),4)多維數(shù)組:維和變量的組合表示。一個(gè)多維數(shù)組可以表示為:(維
10、1,維2,維n,變量)。(時(shí)間,地區(qū),產(chǎn)品,銷售額),5)數(shù)據(jù)單元(單元格):多維數(shù)組的取值。(2000年1月,上海,筆記本電腦,$100000,),OLAP特性,(1)快速性:,用戶對(duì)OLAP的快速反應(yīng)能力有很高的要求。系統(tǒng)應(yīng)能在5秒內(nèi)對(duì)用戶的大部分分析要求做出反應(yīng)。,(2)可分析性:,OLAP系統(tǒng)應(yīng)能處理與應(yīng)用有關(guān)的任何邏輯分析和統(tǒng)計(jì)分析。,(3)多維性:,多維性是OLAP的關(guān)鍵屬性。系統(tǒng)必須提供對(duì)數(shù)據(jù)的多維視圖和分析,包括對(duì)層次維和多重層次維的完全支持。,(4)信息性:,不論數(shù)據(jù)量有多大,也不管數(shù)據(jù)存儲(chǔ)在何處,OLAP系統(tǒng)應(yīng)能及時(shí)獲得信息,并且管理大容量信息。,OLAP基本操作,上卷操作
11、:通過(guò)維層次,在數(shù)據(jù)立方體上進(jìn)行聚集。,下鉆操作:是上卷操作的逆操作,由不太詳細(xì)的數(shù)據(jù)到更詳細(xì)的數(shù)據(jù)。,切片和切塊:切片在給定的數(shù)據(jù)立方體的一個(gè)維上進(jìn)行選擇,切塊則是在兩個(gè)或兩個(gè)以上的維進(jìn)行選擇。,旋轉(zhuǎn)操作:是改變維度的位置關(guān)系,使最終用戶可以從其他視角來(lái)觀察多維數(shù)據(jù)。,OLTP和OLAP的區(qū)別,用戶和系統(tǒng)的面向性:,OLTP是面向顧客的,用于事務(wù)和查詢處理;,OLAP是面向市場(chǎng)的,用于數(shù)據(jù)分析。,數(shù)據(jù)內(nèi)容:,OLTP系統(tǒng)管理當(dāng)前數(shù)據(jù);,OLAP系統(tǒng)管理大量歷史數(shù)據(jù),提供匯總和聚集機(jī)制。,數(shù)據(jù)庫(kù)設(shè)計(jì):,OLTP采用實(shí)體-聯(lián)系ER模型和面向應(yīng)用的數(shù)據(jù)庫(kù)設(shè)計(jì);,OLAP采用星型或雪花模型和面向主題
12、的數(shù)據(jù)庫(kù)設(shè)計(jì)。,視圖:,OLTP主要關(guān)注一個(gè)企業(yè)或部門內(nèi)部的當(dāng)前數(shù)據(jù),不涉及歷史數(shù)據(jù)或不同組織的數(shù)據(jù);,OLAP則相反,不僅關(guān)注本企業(yè)或組織內(nèi)部的當(dāng)前數(shù)據(jù),而且更多地涉及到歷史數(shù)據(jù)和其他組織的數(shù)據(jù)。,訪問(wèn)模式,:,OLTP系統(tǒng)的訪問(wèn)主要由短的原子事務(wù)組成,這種系統(tǒng)需要并行和恢復(fù)機(jī)制。,OLAP系統(tǒng)的訪問(wèn)大部分是只讀操作。,OLTP和OLAP的區(qū)別(續(xù)),OLAP,的分析方法(一)切片、切塊,OLAP,的分析方法(二)鉆取,按時(shí)間維向下鉆取,按時(shí)間維向上鉆取,60,OLAP,的分析方法(三)旋轉(zhuǎn),OLAP服務(wù)器類型,關(guān)系OLAP(,ROLAP,)模型,使用關(guān)系或擴(kuò)充關(guān)系DBMS存放并管理數(shù)據(jù)倉(cāng)庫(kù)
13、。,多維OLAP(MOLAP)服務(wù)器,這些服務(wù)器通過(guò)基于數(shù)組的多維存儲(chǔ),支持?jǐn)?shù)組的多維視圖。,混合OLAP(HOLAP)服務(wù)器,結(jié)合ROLAP和MOLAP技術(shù),得宜于ROLAP的可伸縮性和MOLAP的快速計(jì)算。,數(shù)據(jù)組織形式,RDB,數(shù)據(jù)組織,MDDB,數(shù)據(jù)組織 關(guān)系表中綜合數(shù)據(jù)的存放,多維數(shù)據(jù)庫(kù)中綜合數(shù)據(jù)的存放,產(chǎn)品名稱,地區(qū),銷售量,冰箱,東北,50,冰箱,西北,60,冰箱,華北,100,彩電,東北,40,彩電,西北,70,彩電,華北,80,空調(diào),東北,90,空調(diào),西北,120,空調(diào),華北,140,東北,西北,華北,冰箱,50,60,100,彩電,40,70,80,空調(diào),90,120,14
14、0,產(chǎn)品名稱,地區(qū),銷售量,冰箱,東北,50,冰箱,西北,60,冰箱,華北,100,冰箱,總和,210,彩電,東北,40,彩電,西北,70,彩電,華北,80,彩電,總和,190,空調(diào),東北,90,空調(diào),西北,120,空調(diào),華北,140,空調(diào),總和,350,總和,東北,180,總和,西北,250,總和,華北,320,總和,總和,750,東北,西北,華北,總和,冰箱,50,60,100,210,彩電,40,70,80,190,空調(diào),90,120,140,350,總和,180,250,320,750,ROLAP體系結(jié)構(gòu),SQL,Result,Set,Info.,Request,Result,Set,
15、Database Server,R,DBMS,Front-end Tool,ROALP Architecture,ROLAP Server,Metadata,Request,Processing,MOLAP體系結(jié)構(gòu),SQL,Result,Set,Info.,Request,Result,Set,Load,Database Server,RDBMS,Front-end Tool,MOALP Architecture,MOLAP Server,Metadata,Request,Processing,HOLAP體系結(jié)構(gòu)(續(xù)),Result Set,SQL Query,SQL,Result,Set,I
16、nfo.,Request,Result,Set,Load,Database Server,RDBMS,Front-end Tool,Hybrid Architecture,MOLAP Server,用戶圖形界面API,數(shù)據(jù)庫(kù),數(shù)據(jù)倉(cāng)庫(kù),數(shù)據(jù)庫(kù),元數(shù)據(jù),OLAM,引擎,OLAP,引擎,MDDB,數(shù)據(jù)方API,數(shù)據(jù)庫(kù)API,基于約束的數(shù)據(jù)挖掘,數(shù)據(jù)清理,過(guò)濾,挖掘結(jié)果,數(shù)據(jù)集成,數(shù)據(jù)過(guò)濾,數(shù)據(jù)集成,第一層,數(shù)據(jù)存儲(chǔ),第二層,多維數(shù)據(jù)庫(kù),第三層,OLAP/OLAM,第四層,用戶界面,一個(gè)集成的OLAM和OLAP結(jié)構(gòu),OLAP的Web表現(xiàn)方式,靜態(tài)方法,靜態(tài)HTML報(bào)表,動(dòng)態(tài)方法,通過(guò)HTML模板及元數(shù)據(jù)動(dòng)態(tài)生成報(bào)表,改進(jìn)方法,使用Java或ActiveX,CGI,API,HTML,Java Scrip,ActiveX,客戶瀏覽器,Web服務(wù)器應(yīng)用,OLAP Server,基于Web的OLAP結(jié)構(gòu),Database Server,
- 溫馨提示:
1: 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 專題黨課講稿:以高質(zhì)量黨建保障國(guó)有企業(yè)高質(zhì)量發(fā)展
- 廉政黨課講稿材料:堅(jiān)決打好反腐敗斗爭(zhēng)攻堅(jiān)戰(zhàn)持久戰(zhàn)總體戰(zhàn)涵養(yǎng)風(fēng)清氣正的政治生態(tài)
- 在新錄用選調(diào)生公務(wù)員座談會(huì)上和基層單位調(diào)研座談會(huì)上的發(fā)言材料
- 總工會(huì)關(guān)于2025年維護(hù)勞動(dòng)領(lǐng)域政治安全的工作匯報(bào)材料
- 基層黨建工作交流研討會(huì)上的講話發(fā)言材料
- 糧食和物資儲(chǔ)備學(xué)習(xí)教育工作部署會(huì)上的講話發(fā)言材料
- 市工業(yè)園區(qū)、市直機(jī)關(guān)單位、市紀(jì)委監(jiān)委2025年工作計(jì)劃
- 檢察院政治部關(guān)于2025年工作計(jì)劃
- 辦公室主任2025年現(xiàn)實(shí)表現(xiàn)材料
- 2025年~村農(nóng)村保潔員規(guī)范管理工作方案
- 在深入貫徹中央8項(xiàng)規(guī)定精神學(xué)習(xí)教育工作部署會(huì)議上的講話發(fā)言材料4篇
- 開(kāi)展深入貫徹規(guī)定精神學(xué)習(xí)教育動(dòng)員部署會(huì)上的講話發(fā)言材料3篇
- 在司法黨組中心學(xué)習(xí)組學(xué)習(xí)會(huì)上的發(fā)言材料
- 國(guó)企黨委關(guān)于推動(dòng)基層黨建與生產(chǎn)經(jīng)營(yíng)深度融合工作情況的報(bào)告材料
- 副書記在2025年工作務(wù)虛會(huì)上的發(fā)言材料2篇
相關(guān)資源
更多