數(shù)據(jù)倉庫數(shù)據(jù)集市概念區(qū)別.doc
《數(shù)據(jù)倉庫數(shù)據(jù)集市概念區(qū)別.doc》由會員分享,可在線閱讀,更多相關(guān)《數(shù)據(jù)倉庫數(shù)據(jù)集市概念區(qū)別.doc(7頁珍藏版)》請在裝配圖網(wǎng)上搜索。
數(shù)據(jù)集市≠數(shù)據(jù)倉庫 NCR公司可擴展數(shù)據(jù)倉庫解決方案小組 王闖舟 編譯 我們知道,決策支持系統(tǒng)(DSS)主要有兩種實現(xiàn)方式,即建立一個數(shù)據(jù)集市或者一個數(shù) 據(jù)倉庫。到底哪一種更能滿足決策支持的要求并且適合企業(yè)今后的發(fā)展,是近兩年來學(xué)術(shù)界和有關(guān)供應(yīng)商激烈爭論的一個話題。 在數(shù)據(jù)集市領(lǐng)域,主要的供應(yīng)商和擁護者以美國紅磚(Red Brick)公司為代表,其總裁Ralph Kimball在1997年12月的一篇論文中提出,"數(shù)據(jù)倉庫只不過是一些數(shù)據(jù)集市的集合而已"。認為企業(yè)多建立一些數(shù)據(jù)集市,將來自然就形成了數(shù)據(jù)倉庫。而業(yè)界公認的數(shù)據(jù)倉庫之父 Bill Inmon在今年1月立即撰文反駁,旗幟鮮明地指出,"你可以在大海中捕到很多的小魚并堆積起來,但它們?nèi)匀徊皇泅L"。在5月份的《數(shù)據(jù)管理綜述》(DataManagement Review)中,Bill Inmon又發(fā)表了"數(shù)據(jù)集市不等于數(shù)據(jù)倉庫"的論文,進一步闡述兩者在本質(zhì)上的區(qū)別以及各自的適用場合,本文就是根據(jù)這篇論文的主要內(nèi)容編譯而成的。 問題的提出 現(xiàn)在,各企業(yè)IT部門的經(jīng)理所面臨的最主要問題之一是先建立數(shù)據(jù)倉庫還是先建立數(shù)據(jù)集市。長期以來,數(shù)據(jù)集市供應(yīng)商們不斷地給他們灌輸這樣的觀念,即建立數(shù)據(jù)倉庫比較復(fù)雜,投資過大,設(shè)計與開發(fā)周期太長,難以集成和管理企業(yè)范圍內(nèi)的各種源數(shù)據(jù);并認為,基于數(shù)據(jù)倉庫的DSS投資方案難以得到企業(yè)管理層的批準。數(shù)據(jù)集市供應(yīng)商們給業(yè)界描繪了一幅數(shù)據(jù)倉庫前景暗淡的圖畫,這完全是出于自身的目的,是不正確的。 數(shù)據(jù)集市供應(yīng)商們把數(shù)據(jù)倉庫當(dāng)成其增加營業(yè)收入的絆腳石,自然要避開和攻擊數(shù)據(jù)倉庫。事實上,他們在銷售時強調(diào)數(shù)據(jù)集市的建設(shè)周期短,是以企業(yè)信息系統(tǒng)結(jié)構(gòu)的長期規(guī)劃為代價的。 持數(shù)據(jù)集市主張的人認為,決策支持系統(tǒng)的成功實現(xiàn),除了數(shù)據(jù)倉庫以外,還有更簡便、更有效的其它途徑。方法之一就是建立多個數(shù)據(jù)集市,當(dāng)它們增加得足夠大時,那就是所謂的數(shù)據(jù)倉庫了。這些人聲稱,建立數(shù)據(jù)集市要快得多也便宜得多,因為當(dāng)考慮建立一個數(shù)據(jù)集市時,不必考慮各部門之間的區(qū)別,也不必設(shè)立部門之間協(xié)調(diào)的規(guī)則,更不存在結(jié)構(gòu)設(shè)計上的長期規(guī)劃問題。 不幸的是,這種方法雖然避免了建立數(shù)據(jù)倉庫存在的部門協(xié)調(diào)與規(guī)劃上的問題,卻完全偏離了數(shù)據(jù)倉庫的要點。當(dāng)企業(yè)的信息結(jié)構(gòu)完全由數(shù)據(jù)集市構(gòu)成時,其整個組織將變得更加混亂。因為在建立決策支持系統(tǒng)以前,我們可能只是原來的生產(chǎn)系統(tǒng)有些凌亂,現(xiàn)在的狀況則可能是凌亂的生產(chǎn)系統(tǒng)再加上雜亂的數(shù)據(jù)集市。由于企業(yè)內(nèi)所有的決策支持系統(tǒng)均是數(shù)據(jù)集市,相互之間沒有集成,其結(jié)果可想而知——沒有集成的決策支持系統(tǒng)就像沒有骨骼的人體一樣,是沒有實用價值的。 方式的改變 早期,數(shù)據(jù)集市供應(yīng)商們宣稱數(shù)據(jù)集市和數(shù)據(jù)倉庫是相同的系統(tǒng),試圖通過這種偷梁換柱的方式來進入數(shù)據(jù)倉庫市場。在各種展示會期間,他們不遺余力地進行著各種宣傳,從而混淆了數(shù)據(jù)集市與數(shù)據(jù)倉庫的概念。 由于這種錯誤概念的傳播,使一些客戶建立了數(shù)據(jù)集市而非真正的數(shù)據(jù)倉庫。但隨著時間的推移,數(shù)據(jù)集市結(jié)構(gòu)上的缺陷開始暴露出來,主要體現(xiàn)在以下幾點: 1) 各數(shù)據(jù)集市之間對詳細數(shù)據(jù)和歷史數(shù)據(jù)的存儲存在大量冗余; 2) 同一個問題在不同數(shù)據(jù)集市的查詢結(jié)果可能不一致甚至相互矛盾; 3) 各數(shù)據(jù)集市之間以及與源生產(chǎn)系統(tǒng)之間難以管理。 總之,業(yè)界已經(jīng)普遍認同,一個沒有數(shù)據(jù)倉庫而建立的決策支持系統(tǒng)是很難達到預(yù)期效果的。 大量事實表明,為了處理決策支持方面的需求,建立數(shù)據(jù)集市不是正確的途徑。在這種情況下,數(shù)據(jù)集市供應(yīng)商們及其代言人稍微改變了一些原來的說法,向客戶承諾成功實施決策支持系統(tǒng)的新方式。和原來不同的是,他們現(xiàn)在宣稱,數(shù)據(jù)倉庫只不過是多個數(shù)據(jù)集市的集成而已。這從另外一方面混淆了數(shù)據(jù)倉庫與數(shù)據(jù)集市的概念。事實上,這樣的論斷是矛盾的。因為數(shù)據(jù)集市的實質(zhì)就是每個部門擁有自己的數(shù)據(jù),最終用戶各自負責(zé)自己的業(yè)務(wù),相互之間沒有關(guān)系,各集市之間沒必要也沒辦法相互集成。 為了理解為什么數(shù)據(jù)集市不能轉(zhuǎn)變?yōu)閿?shù)據(jù)倉庫,我們首先必須搞清楚兩者的定義。 框架的不同 1. 什么是數(shù)據(jù)集市 一般說來,一個數(shù)據(jù)集市是按照某一特定部門的決策支持需求而組織起來的、針對一組主題的應(yīng)用系統(tǒng)。例如,財務(wù)部擁有自己的數(shù)據(jù)集市,用來進行財務(wù)方面的報表和分析,市場推廣部、銷售部等也擁有各自專用的數(shù)據(jù)集市,用來為本部門的決策支持提供輔助手段。 這些部門數(shù)據(jù)集市之間相似之處很少,但最嚴重的缺點是,每個部門獨立擁有自己的硬件平臺、軟件平臺、數(shù)據(jù)和應(yīng)用程序。這種關(guān)系使得部門之間沒有任何約束,而許多數(shù)據(jù)在整個企業(yè)內(nèi)原本應(yīng)該是相互制約、相互協(xié)調(diào)的。這種獨立最終導(dǎo)致了不一致性。 由于每個部門有自己特定的需求,因此他們對數(shù)據(jù)集市的期望也不一樣。一般說來,數(shù)據(jù)集市中數(shù)據(jù)庫的設(shè)計采用星形連接 (Star-Join)的結(jié)構(gòu),這種結(jié)構(gòu)對部門用戶而言是最優(yōu)的,但對企業(yè)范圍而言則不然。為了提高星形連接的性能,必須事先收集齊該部門業(yè)務(wù)用戶的需求。數(shù)據(jù)集市中包含的歷史數(shù)據(jù)不很全,其詳細程度也不夠,數(shù)據(jù)選取的基本原則是能滿足本部門的需求。數(shù)據(jù)集市大都采用多維數(shù)據(jù)庫技術(shù),這種技術(shù)對數(shù)據(jù)的分析而言也許是最優(yōu)的,但肯定不適合于大量數(shù)據(jù)的存儲,因為多維數(shù)據(jù)庫的數(shù)據(jù)冗余度很高。為了提高速度,對數(shù)據(jù)集市中的數(shù)據(jù)一般都建立大量的索引。換言之,數(shù)據(jù)集市中往往靠對數(shù)據(jù)的預(yù)處理來換取運行時的高速度,當(dāng)業(yè)務(wù)部門提出新的問題時,如果不在原來設(shè)計的范圍內(nèi),則需要數(shù)據(jù)庫管理員對數(shù)據(jù)庫作許多調(diào)整和優(yōu)化處理。 業(yè)界有兩種數(shù)據(jù)集市,即從屬數(shù)據(jù)集市和獨立數(shù)據(jù)集市。前者的數(shù)據(jù)來源于中央的數(shù)據(jù)倉庫,后者的數(shù)據(jù)則直接來源于源應(yīng)用環(huán)境。所有的從屬數(shù)據(jù)集市都從屬于同一個數(shù)據(jù)倉庫,各子系統(tǒng)的數(shù)據(jù)均能保持一致,因此這種數(shù)據(jù)集市的結(jié)構(gòu)是可行的。而每個獨立數(shù)據(jù)集市都從各源生產(chǎn)系統(tǒng)中單獨提取數(shù)據(jù),無法保證數(shù)據(jù)的一致性;從長遠來看,這種結(jié)構(gòu)是不穩(wěn)定也是不可行的。圖1清楚地說明了兩者在結(jié)構(gòu)上的區(qū)別。遺憾的是,獨立數(shù)據(jù)集市的這些問題在開始往往反映不出來,企業(yè)只有在建立了多個獨立數(shù)據(jù)集市之后才能認識到其缺點。數(shù)據(jù)集市供應(yīng)商們所大力宣傳的其實正是這種獨立數(shù)據(jù)集市,因此在本文的討論中,我們所指的數(shù)據(jù)集市也是獨立數(shù)據(jù)集市。 @@0489400.JPG;圖1@@ 2. 什么是數(shù)據(jù)倉庫 數(shù)據(jù)倉庫與數(shù)據(jù)集市之間具有很大的差異。數(shù)據(jù)倉庫是基于整個企業(yè)的數(shù)據(jù)模型建立的,它面向企業(yè)范圍內(nèi)的主題。一般來講,數(shù)據(jù)倉庫是由一個中央的協(xié)調(diào)組織 (例如傳統(tǒng)的IT部門)來建立和管理。數(shù)據(jù)倉庫完全是整個企業(yè)共同努力的結(jié)果。 某個部門的主題與企業(yè)的主題之間可能存在也可能不存在關(guān)聯(lián)。數(shù)據(jù)倉庫中存儲整個企業(yè)內(nèi)非常詳細的數(shù)據(jù),相對而言,數(shù)據(jù)集市中數(shù)據(jù)的詳細程度要低一些,相反,它包含了許多概要和累加數(shù)據(jù)。數(shù)據(jù)倉庫的數(shù)據(jù)模型一般是規(guī)范的,比較多的是符合第三范式。其數(shù)據(jù)的結(jié)構(gòu)和內(nèi)容反映的不是某個特定部門的特殊要求,它代表的是整個企業(yè)對于數(shù)據(jù)的需求。數(shù)據(jù)倉庫中的數(shù)據(jù)量與數(shù)據(jù)集市差別很大,因此,數(shù)據(jù)倉庫中的索引很少。這和傳統(tǒng)的OLTP數(shù)據(jù)庫有很大的區(qū)別。數(shù)據(jù)倉庫中包含有相對穩(wěn)定的歷史數(shù)據(jù),所有數(shù)據(jù)都是從許多操作數(shù)據(jù)源中經(jīng)一定的業(yè)務(wù)規(guī)則轉(zhuǎn)換并集中進來的。簡而言之,在數(shù)據(jù)倉庫與數(shù)據(jù)集市中,無論是數(shù)據(jù)的結(jié)構(gòu)還是其內(nèi)容都存在著顯著的差別。圖2形象地說明了這種區(qū)別。左邊的數(shù)據(jù)集市是星形連接結(jié)構(gòu),而右邊的數(shù)據(jù)倉庫是正則結(jié)構(gòu),各實體之間通過外鍵(Foreign Key)連接。 @@0489401.JPG;圖2@@ 由于數(shù)據(jù)倉庫中的數(shù)據(jù)是詳細的、集成的和歷史的,其中的數(shù)據(jù)量一般都很大,而且隨著時間的推移,增長速度也非???。因此,建立數(shù)據(jù)倉庫最好是分步進行,否則建設(shè)周期將非常長。即使從最早的文獻來看,學(xué)術(shù)界就幾乎公認建立數(shù)據(jù)倉庫必須使最終用戶能盡快看到具體、明確的結(jié)果。直到現(xiàn)在,有關(guān)的專欄作者和咨詢顧問們還是一致認為數(shù)據(jù)倉庫的建設(shè)速度必須很快,盡量避免冗長、龐大的投資行為。當(dāng)然,這并不意味著數(shù)據(jù)倉庫的投資小,正確的理解是,數(shù)據(jù)倉庫一般是從小處著手, 取得一定成效后再逐步完善。世界上許多成功的1000GB (指用戶數(shù)據(jù)量而非數(shù)據(jù)庫大小)級以上的數(shù)據(jù)倉庫在開始時的規(guī)模都不大,這就是所謂的"全盤考慮,逐步完善"的思想。 圖3給出了建立數(shù)據(jù)倉庫的正確途徑。從圖中可以看出,數(shù)據(jù)倉庫的建設(shè)是分步進行的,每步都能取得階段性的成果,不需要等到二、三年后才能訪問數(shù)據(jù)倉庫中的信息。 @@0489402.JPG;圖3@@ 目前,數(shù)據(jù)集市的理論是,先建立一個或多個數(shù)據(jù)集市,然后把它們集成起來,當(dāng)它們增長到一定規(guī)模時就變成了數(shù)據(jù)倉庫。遺憾的是,這種理論在很多方面都站不住腳: 1) 數(shù)據(jù)集市是設(shè)計用來滿足部門需求的,各部門的目標可能差別很大,這也是為什么企業(yè)內(nèi)各部門擁有結(jié)構(gòu)和特征都不同的數(shù)據(jù)集市的原因。數(shù)據(jù)倉庫則是設(shè)計用來滿足企業(yè)綜合需求的。一個設(shè)計方案可以是對一個特定部門最優(yōu)的,也可以是對一個企業(yè)最優(yōu)的,但不可能對兩者均是最優(yōu)方案。針對企業(yè)的設(shè)計目標和針對部門的差別很大。 2) 數(shù)據(jù)集市與數(shù)據(jù)倉庫中數(shù)據(jù)的詳細程度也完全不同。數(shù)據(jù)集市中包含有許多概要和累計數(shù)據(jù),而數(shù)據(jù)倉庫中則包含有大量的詳細數(shù)據(jù)。顯然,你可以從詳細數(shù)據(jù)中計算出概要和累加數(shù)據(jù),但反之則不行。對業(yè)務(wù)分析而言,詳細數(shù)據(jù)在很多場合都非常重要。 綜上所述,我們可以歸納出以下要點: 數(shù)據(jù)集市和數(shù)據(jù)倉庫中的數(shù)據(jù)模型不同,前者一般采用星形連接結(jié)構(gòu),后者則用第三范式為主; 數(shù)據(jù)集市中的歷史數(shù)據(jù)信息量比數(shù)據(jù)倉庫少很多; 數(shù)據(jù)集市中的主題和數(shù)據(jù)倉庫中的主題關(guān)聯(lián)并不很多; 數(shù)據(jù)集市中的關(guān)系與數(shù)據(jù)倉庫中的關(guān)系不同; 數(shù)據(jù)集市中的查詢類型與數(shù)據(jù)倉庫中的查詢類型差別很大; 數(shù)據(jù)集市中的用戶類型 (較低層次)和數(shù)據(jù)倉庫中的用戶類型 (較高層次)差別很大; 數(shù)據(jù)集市的主要結(jié)構(gòu)與數(shù)據(jù)倉庫的主要結(jié)構(gòu)具有顯著的區(qū)別。 小結(jié) 數(shù)據(jù)集市與數(shù)據(jù)倉庫應(yīng)用環(huán)境的差別很大,如果認為一個數(shù)據(jù)集市在增長到一定程度時能轉(zhuǎn)換成數(shù)據(jù)倉庫,那無異于說小草可以長成橡樹。雖然這兩種綠色植物在生長的某個階段具有一些相同的特征,但這并不能遮蓋兩者的區(qū)別。這畢竟是現(xiàn)實世界,數(shù)據(jù)集市與數(shù)據(jù)倉庫的道理是一樣的。- 1.請仔細閱讀文檔,確保文檔完整性,對于不預(yù)覽、不比對內(nèi)容而直接下載帶來的問題本站不予受理。
- 2.下載的文檔,不會出現(xiàn)我們的網(wǎng)址水印。
- 3、該文檔所得收入(下載+內(nèi)容+預(yù)覽)歸上傳者、原創(chuàng)作者;如果您是本文檔原作者,請點此認領(lǐng)!既往收益都歸您。
下載文檔到電腦,查找使用更方便
9.9 積分
下載 |
- 配套講稿:
如PPT文件的首頁顯示word圖標,表示該PPT已包含配套word講稿。雙擊word圖標可打開word文檔。
- 特殊限制:
部分文檔作品中含有的國旗、國徽等圖片,僅作為作品整體效果示例展示,禁止商用。設(shè)計者僅對作品中獨創(chuàng)性部分享有著作權(quán)。
- 關(guān) 鍵 詞:
- 數(shù)據(jù)倉庫 數(shù)據(jù) 集市 概念 區(qū)別
鏈接地址:http://m.jqnhouse.com/p-6644944.html