數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)第2章

上傳人:y****n 文檔編號:253311084 上傳時間:2024-12-11 格式:PPT 頁數(shù):54 大小:2.72MB
收藏 版權(quán)申訴 舉報 下載
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)第2章_第1頁
第1頁 / 共54頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)第2章_第2頁
第2頁 / 共54頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)第2章_第3頁
第3頁 / 共54頁

下載文檔到電腦,查找使用更方便

14.9 積分

下載資源

還剩頁未讀,繼續(xù)閱讀

資源描述:

《數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)第2章》由會員分享,可在線閱讀,更多相關(guān)《數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)第2章(54頁珍藏版)》請在裝配圖網(wǎng)上搜索。

1、單擊此處編輯母版標(biāo)題樣式,,單擊此處編輯母版文本樣式,,第二級,,第三級,,第四級,,第五級,,*,*,第二章 數(shù)據(jù)倉庫的分析,,主要內(nèi)容,,如何建立數(shù)據(jù)倉庫的需求模型?,,影響數(shù)據(jù)倉庫成功的因素有哪些?,,數(shù)據(jù)倉庫開發(fā)各階段的任務(wù)是什么?,,數(shù)據(jù)倉庫的基本體系結(jié)構(gòu)是怎樣的?,,數(shù)據(jù)倉庫的邏輯結(jié)構(gòu)是怎樣的?,12/11/2024,1,,1、如何建立數(shù)據(jù)倉庫的需求模型?,——是數(shù)據(jù)倉庫的分析中首要解決的問題,12/11/2024,2,,圖2.1 數(shù)據(jù)倉庫的需求分析模型,12/11/2024,3,,2、影響數(shù)據(jù)倉庫成功的因素有哪些?,12/11/2024,4,,影響因素,數(shù)據(jù)存儲的組織方式,決

2、定了數(shù)據(jù)的可獲取性與有用性,進(jìn)而決定了數(shù)據(jù)的價值。,,數(shù)據(jù)倉庫的數(shù)據(jù)庫結(jié)構(gòu)有以下要求:(P44表2.1),,反映靜態(tài)數(shù)據(jù),,存儲歷史數(shù)據(jù),,在時間上是可見的、明確的,,數(shù)據(jù)的粒度是詳細(xì)的可導(dǎo)出的匯總,,定期的、計劃的更新,,支持的任務(wù)是不可預(yù)期的,,對數(shù)據(jù)庫的靈活性要求高,12/11/2024,5,,12/11/2024,6,,12/11/2024,7,,3、數(shù)據(jù)倉庫開發(fā)各階段的任務(wù)是什么?,12/11/2024,8,,傳統(tǒng)的操作型系統(tǒng)的生命周期,,System Development Life Cycle,,,SDLC,系統(tǒng)開發(fā)生命周期,,,需求驅(qū)動,的開發(fā)生命周期,12/11/2024,9

3、,,數(shù)據(jù)倉庫的生命周期CLDS,,CLDS,數(shù)據(jù)驅(qū)動,的開發(fā)生命周期(SDLC的逆序),,實(shí)現(xiàn)數(shù)據(jù)倉庫,,集成數(shù)據(jù),,檢驗(yàn)偏差,,針對數(shù)據(jù)編程,,設(shè)計DSS系統(tǒng),,分析結(jié)果和,,理解需求,,參見P45圖2.5,12/11/2024,10,,12/11/2024,11,,1.數(shù)據(jù)倉庫計劃與準(zhǔn)備階段,,用戶需求分析,,可行性研究,,用戶的認(rèn)可,,建設(shè)數(shù)據(jù)倉庫的協(xié)調(diào)與阻力分析,,開發(fā)項目計劃制定,,關(guān)鍵資源管理,12/11/2024,12,,(1)用戶需求分析內(nèi)容,用戶如何處理其事務(wù),,如何衡量用戶的工作表現(xiàn),,用戶需要什么屬性(在信息方面),,應(yīng)用于這些屬性的業(yè)務(wù)層次結(jié)構(gòu)是什么,,用戶現(xiàn)在使用什么

4、數(shù)據(jù),以及需要什么數(shù)據(jù),,用戶需要什么水平的細(xì)節(jié)或匯總數(shù)據(jù),12/11/2024,13,,12/11/2024,14,,(2)可行性研究,,三個重要分析,,技術(shù)可行性,,操作可行性,,經(jīng)濟(jì)可行性,12/11/2024,15,,(3)用戶認(rèn)可(User buy in),重要因素,,用戶大力支持不可少,其與上層的支持是不同的,,不能完全改變決策方式,只能改變決策信息的獲取方法,改進(jìn)用戶獲取信息的方法,,數(shù)據(jù)倉庫必須經(jīng)常集成其中應(yīng)用軟件的數(shù)據(jù),理解用戶的看法,12/11/2024,16,,(4)建設(shè)數(shù)據(jù)倉庫的協(xié)調(diào)與阻力分析,12/11/2024,17,,(5)開發(fā)項目計劃制定,12/11/2024,

5、18,,(6)創(chuàng)建數(shù)據(jù)倉庫所使用的關(guān)鍵資源,,人才,,業(yè)務(wù)分析員,,確定和定義目的和目標(biāo)用戶群,,確定滿足組織戰(zhàn)略性商業(yè)目標(biāo),,數(shù)據(jù)體系結(jié)構(gòu)設(shè)計師,,數(shù)據(jù)的采集、轉(zhuǎn)換、分配和加載,,定義數(shù)據(jù)模型,,信息系統(tǒng)服務(wù)人員,,最終用戶支持人員,,領(lǐng)導(dǎo)和管理人員,,項目領(lǐng)導(dǎo),,項目經(jīng)理,,硬件,,軟件,12/11/2024,19,,2.數(shù)據(jù)倉庫的其他階段,,12/11/2024,20,,數(shù)據(jù)倉庫的系統(tǒng)分析,,系統(tǒng)分析的目標(biāo)是了解當(dāng)前實(shí)際是如何工作的,以使得系統(tǒng)的操作可在將來得到改善。,,原型法,,注意:不能與其所有可操作數(shù)據(jù)源相連,數(shù)據(jù)仍然需要做數(shù)據(jù)凈化、傳送等工作,,開發(fā)方法,,數(shù)據(jù)驅(qū)動法,,應(yīng)用驅(qū)動

6、法,12/11/2024,21,,數(shù)據(jù)驅(qū)動方法,,數(shù)據(jù)源:連續(xù)的數(shù)據(jù)源,,次序:自頂向下,,優(yōu)點(diǎn):每一個階段在技術(shù)上都很簡單,只涉及一個文件或數(shù)據(jù)庫類型映射到數(shù)據(jù)倉庫數(shù)據(jù)庫之中,每個附加數(shù)據(jù)源只有在其前面的附加數(shù)據(jù)源處理完之后才添加。,,缺點(diǎn):數(shù)據(jù)資源不能利落地映射到商業(yè)查詢中。,12/11/2024,22,,應(yīng)用驅(qū)動方法,,數(shù)據(jù)源:來自幾個操作系統(tǒng)的數(shù)據(jù),,次序:自頂向下,,優(yōu)點(diǎn):在第一階段就提供有用的信息,,缺點(diǎn):到達(dá)這一階段要花費(fèi)較長的時間、并且需要的活動很多很復(fù)雜,12/11/2024,23,,數(shù)據(jù)倉庫系統(tǒng)設(shè)計,,重點(diǎn):設(shè)計數(shù)據(jù)倉庫的元素,即數(shù)據(jù)庫和數(shù)據(jù)分析,,如何選擇數(shù)據(jù)庫體系結(jié)構(gòu),

7、,按照哪種系統(tǒng)結(jié)構(gòu)設(shè)計,,如何安排數(shù)據(jù)庫,,定義數(shù)據(jù)如何使用所有的數(shù)據(jù)源都被映射傳送到數(shù)據(jù)倉庫,,描述數(shù)據(jù)倉庫何時及時如何更新并回答程序員遇到的無數(shù)多個”我該怎么辦”,12/11/2024,24,,數(shù)據(jù)倉庫的測試,,適用于順序測試,,確保對源文件提取記錄及字段的正確性,,證明傳送和凈化工作正常,對比元數(shù)據(jù),檢查數(shù)據(jù)倉庫內(nèi)容以確保整個加載過程有效,可能要測試有關(guān)已知誰的回答的分析。,,增強(qiáng)維護(hù),增強(qiáng)用戶支持,12/11/2024,25,,思考,查閱賽迪網(wǎng),閱讀和比較不同的數(shù)據(jù)倉庫的解決方案。明確數(shù)據(jù)驅(qū)動法與應(yīng)用驅(qū)動法兩種方法在數(shù)據(jù)倉庫實(shí)施中的不同表現(xiàn)。,12/11/2024,26,,4、數(shù)據(jù)倉庫

8、的基本體系結(jié)構(gòu)是怎樣的?,12/11/2024,27,,數(shù)據(jù)倉庫基本體系結(jié)構(gòu),12/11/2024,28,,數(shù)據(jù)倉庫體系結(jié)構(gòu),數(shù)據(jù)是從各種內(nèi)外部的源系統(tǒng)文件或數(shù)據(jù)庫中抽取得到,不同源系統(tǒng)中的數(shù)據(jù)在加載到數(shù)據(jù)倉庫之前需要被轉(zhuǎn)換和集成,建立為決策支持服務(wù)的數(shù)據(jù)庫,即數(shù)據(jù)倉庫,它通常會同時包括詳細(xì)的和概括的數(shù)據(jù),數(shù)據(jù)倉庫,用戶通過SQL查詢語言、分析工具或數(shù)據(jù)挖掘工具訪問數(shù)據(jù)倉庫,12/11/2024,29,,數(shù)據(jù)倉庫體系結(jié)構(gòu),,12/11/2024,30,,數(shù)據(jù)分級,,Data Staging,,提取,轉(zhuǎn)化,凈化,加載,,,數(shù)據(jù)倉庫不直接存儲事務(wù)數(shù)據(jù),,提取時必須將事務(wù)數(shù)據(jù)進(jìn)行轉(zhuǎn)換成數(shù)據(jù)倉庫的數(shù)據(jù)

9、結(jié)構(gòu)和內(nèi)部格式,為了保證數(shù)據(jù)的品質(zhì),還要對數(shù)據(jù)進(jìn)行凈化,將凈化后的數(shù)據(jù)加載到數(shù)據(jù)倉庫中。,12/11/2024,31,,ETL(提取—轉(zhuǎn)換—加載),,數(shù)據(jù)的提取—轉(zhuǎn)換—加載(ETL)是用來實(shí)現(xiàn)異構(gòu)數(shù)據(jù)源的數(shù)據(jù)集成,即完成數(shù)據(jù)的抓取/抽取、清洗、轉(zhuǎn)換、加載與索引等數(shù)據(jù)調(diào)和工作。,,ETL是數(shù)據(jù)倉庫系統(tǒng)中最重要的處理工具之一,它的主要任務(wù)是建立、維護(hù)數(shù)據(jù)倉庫,通過與操作型數(shù)據(jù)源的映像關(guān)系執(zhí)行數(shù)據(jù)提取—轉(zhuǎn)換—加載的任務(wù)。其中涉及各種各樣的技術(shù)和處理,比如,數(shù)據(jù)清洗及其準(zhǔn)備結(jié)構(gòu)的設(shè)計和處理、映像技術(shù)和方法、粒度的考慮,以及數(shù)據(jù)的提取、轉(zhuǎn)換、追加、加載作業(yè)控制等一系列問題。,操作型系統(tǒng),數(shù)據(jù)倉庫,提取,

10、集結(jié)地,清洗,轉(zhuǎn)換,加載與索引,拒絕數(shù)據(jù)的信息,有關(guān)拒絕數(shù)據(jù)的信息,12/11/2024,32,,元數(shù)據(jù),,元數(shù)據(jù)Metadata,,“有關(guān)數(shù)據(jù)的數(shù)據(jù)”,,“數(shù)據(jù)倉庫的元數(shù)據(jù)是要解決何人在何時何地為了什么原因及怎樣使用數(shù)據(jù)倉庫的問題”。 可對數(shù)據(jù)倉庫中的各種數(shù)據(jù)進(jìn)行詳細(xì)的描述與說明,說明每個數(shù)據(jù)的上下文關(guān)系,使每個數(shù)據(jù)具有符合現(xiàn)實(shí)的真實(shí)含義,使最終用戶了解這些數(shù)據(jù)之間的關(guān)系。,,作用:,,,通過元數(shù)據(jù)進(jìn)行數(shù)據(jù)倉庫的管理;,,通過元數(shù)據(jù)來使用數(shù)據(jù)倉庫。,12/11/2024,33,,,技術(shù)元數(shù)據(jù),:用于對數(shù)據(jù)倉庫進(jìn)行管理的元數(shù)據(jù),,是數(shù)據(jù)倉庫的設(shè)計和管理人員用于數(shù)據(jù)倉庫開發(fā)和日常管理數(shù)據(jù)倉庫時使

11、用的元數(shù)據(jù)。它包括數(shù)據(jù)源信息、數(shù)據(jù)轉(zhuǎn)換的描述、數(shù)據(jù)倉庫對象和數(shù)據(jù)結(jié)構(gòu)的定義、數(shù)據(jù)清理和數(shù)據(jù)更新時采用的規(guī)則、源數(shù)據(jù)到目的數(shù)據(jù)的映射、用戶訪問權(quán)限、數(shù)據(jù)備份歷史紀(jì)錄、數(shù)據(jù)導(dǎo)入歷史紀(jì)錄、信息發(fā)布?xì)v史紀(jì)錄等。,,商業(yè)元數(shù)據(jù),:幫助使用數(shù)據(jù)倉庫的元數(shù)據(jù),,從商業(yè)業(yè)務(wù)的角度描述了數(shù)據(jù)倉庫中的數(shù)據(jù)。它包括業(yè)務(wù)主題的描述,以及對所包含的數(shù)據(jù)、查詢、報表的描述,等等。,12/11/2024,34,,元數(shù)據(jù)為訪問數(shù)據(jù)倉庫提供了一個信息目錄,,數(shù)據(jù)倉庫中都有些什么數(shù)據(jù),,這些數(shù)據(jù)是怎么得到的,,誰在管轄,,怎么訪問這些數(shù)據(jù),,其他更多的信息,,可通過查詢工具得知元數(shù)據(jù)的有關(guān)資料,,元數(shù)據(jù)是數(shù)據(jù)倉庫運(yùn)行和維護(hù)的中心

12、,數(shù)據(jù)倉庫服務(wù)器必須利用元數(shù)據(jù)來存儲和更新數(shù)據(jù),用戶必須通過元數(shù)據(jù)來了解和訪問數(shù)據(jù)。,12/11/2024,35,,數(shù)據(jù)倉庫數(shù)據(jù)庫,,是整個數(shù)據(jù)倉庫環(huán)境的核心,是數(shù)據(jù)存放的地方,提供對數(shù)據(jù)的支持和快速檢索的支持,,相對于操縱型數(shù)據(jù)庫來說,其突出的特點(diǎn)是,對海量數(shù)據(jù)的支持和快速的檢索技術(shù),。,,包含,,明細(xì)數(shù)據(jù)和匯總數(shù)據(jù),12/11/2024,36,,查詢工具,,查詢工具通常包括一個用于向數(shù)據(jù)庫提出問題的最終用戶接口,此接口位于,聯(lián)機(jī)分析處理OLAP,的程序中。,12/11/2024,37,,4、數(shù)據(jù)倉庫的邏輯結(jié)構(gòu)是怎樣的?,12/11/2024,38,,數(shù)據(jù)倉庫的粒度,,粒度是指數(shù)據(jù)倉庫的數(shù)據(jù)

13、單位中保存數(shù)據(jù)細(xì)化或綜合程度的級別。,12/11/2024,39,,數(shù)據(jù)倉庫的粒度,粒度,,粒度越小,細(xì)節(jié)程度越高,綜合程度越低,回答查詢的種類就越多反之,粒度的增大將會提高查詢效率,但同時也造成回答細(xì)節(jié)問題能力的下降。,,低粒度級(高細(xì)節(jié)級),,高粒度級(低細(xì)節(jié)級),,例如:電訊公司數(shù)據(jù)倉庫中,保存一個顧客一個月內(nèi)每個電話的細(xì)節(jié)——高細(xì)節(jié)級,低粒度級,假設(shè)有200個記錄,包含本月內(nèi)200個電話的任何信息;保存一個顧客一個月內(nèi)每天電話的匯總——輕度綜合,較高粒度級,只有30或31條記錄,只能回答匯總查詢的問題。保存一個顧客一個月內(nèi)的電話的綜合——低細(xì)節(jié)級,高粒度級,只有一條記錄。,12/11/

14、2024,40,,輕度綜合數(shù)據(jù),,12/11/2024,41,,數(shù)據(jù)倉庫的粒度,,雙重粒度,,指輕度綜合數(shù)據(jù)和真實(shí)細(xì)節(jié)數(shù)據(jù)級(最低粒度級),,大部分的分析數(shù)據(jù)是針對被壓縮的、存取效率高的輕度粒度級數(shù)據(jù)進(jìn)行的。,,需要分析更低的細(xì)節(jié)數(shù)據(jù)時才訪問最低粒度級數(shù)據(jù)。,12/11/2024,42,,12/11/2024,43,,數(shù)據(jù)倉庫中的數(shù)據(jù)分割,,把數(shù)據(jù)分散到各自小的物理單元中去,,任何給定的單元屬于一個分割,,數(shù)據(jù)分割后的數(shù)據(jù)單元稱為分片,,分割后的單元具有,靈活性,,能夠?qū)崿F(xiàn)重構(gòu)、索引、順序掃描、重組、恢復(fù)、監(jiān)控等,12/11/2024,44,,數(shù)據(jù)分割,,12/11/2024,45,,12/1

15、1/2024,46,,數(shù)據(jù)倉庫中數(shù)據(jù)組織,,簡單堆積結(jié)構(gòu),,輪轉(zhuǎn)綜合數(shù)據(jù)存儲,,簡單直接文件,,連續(xù)組織,12/11/2024,47,,簡單堆積結(jié)構(gòu),,從操作型環(huán)境中取出每天的事務(wù)數(shù)據(jù),,根據(jù)主題來綜合成數(shù)據(jù)倉庫記錄,12/11/2024,48,,輪轉(zhuǎn)綜合數(shù)據(jù)存儲,只有在輪轉(zhuǎn)綜合文件中的數(shù)據(jù)才能被輸入到不同的結(jié)構(gòu)形式中,而操作型數(shù)據(jù)到數(shù)據(jù)倉庫環(huán)境中的數(shù)據(jù)處理方法簡單的堆積結(jié)構(gòu)相同。,方式:每天進(jìn)行數(shù)據(jù)綜合,每周累加,月底將每周的數(shù)據(jù)加到一起,并放于第一個每月響應(yīng)的數(shù)據(jù)位置處,然后每周數(shù)據(jù)位置清零。到了年底,將每月數(shù)據(jù)累加,放入第一個年度響應(yīng)的數(shù)據(jù)位置處,然后每月數(shù)據(jù)位置清零。,12/11/20

16、24,49,,簡單堆積與輪轉(zhuǎn)綜合的比較,12/11/2024,50,,簡單直接文件組織,,把數(shù)據(jù)從操作型環(huán)境拖入數(shù)據(jù)倉庫環(huán)境中,無任何累積,以較長時間為單位的,,它是間隔一定時間的操作型數(shù)據(jù)的一個快照,12/11/2024,51,,連續(xù)數(shù)據(jù)組織,,依據(jù)兩個或更多的簡單直接文件快照進(jìn)行合并創(chuàng)建或追加的,12/11/2024,52,,快照,,是為一些事件的發(fā)生而產(chǎn)生的,,事件的類型,,隨機(jī)發(fā)生的離散活動,,在規(guī)定時間點(diǎn),,事件觸發(fā)快照,其基本結(jié)構(gòu)由四個部分組成,,鍵碼(Key),,時間單元(描述事件已發(fā)生或捕捉數(shù)據(jù)的時間),,只和關(guān)鍵碼相關(guān)的初始數(shù)據(jù),,與關(guān)鍵碼無直接關(guān)系的二次數(shù)據(jù),12/11/2024,53,,課堂練習(xí),,充分認(rèn)識數(shù)據(jù)倉庫中幾個關(guān)鍵術(shù)語,說明它們的概念與意義,,ETL,,元數(shù)據(jù),,粒度,,數(shù)據(jù)分割,,快照,,輪轉(zhuǎn)綜合數(shù)據(jù)存儲,12/11/2024,54,,

展開閱讀全文
溫馨提示:
1: 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

相關(guān)資源

更多
正為您匹配相似的精品文檔
關(guān)于我們 - 網(wǎng)站聲明 - 網(wǎng)站地圖 - 資源地圖 - 友情鏈接 - 網(wǎng)站客服 - 聯(lián)系我們

copyright@ 2023-2025  zhuangpeitu.com 裝配圖網(wǎng)版權(quán)所有   聯(lián)系電話:18123376007

備案號:ICP2024067431-1 川公網(wǎng)安備51140202000466號


本站為文檔C2C交易模式,即用戶上傳的文檔直接被用戶下載,本站只是中間服務(wù)平臺,本站所有文檔下載所得的收益歸上傳人(含作者)所有。裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對上載內(nèi)容本身不做任何修改或編輯。若文檔所含內(nèi)容侵犯了您的版權(quán)或隱私,請立即通知裝配圖網(wǎng),我們立即給予刪除!

五月丁香婷婷狠狠色,亚洲日韩欧美精品久久久不卡,欧美日韩国产黄片三级,手机在线观看成人国产亚洲