《基于數(shù)據(jù)倉庫的聯(lián)機分析處理技術》由會員分享,可在線閱讀,更多相關《基于數(shù)據(jù)倉庫的聯(lián)機分析處理技術(3頁珍藏版)》請在裝配圖網上搜索。
1、基于數(shù)據(jù)倉庫的聯(lián)機分析處理技術
摘 要:摘要:數(shù)據(jù)倉庫是信息業(yè)界的明日之星,數(shù)據(jù)倉庫與聯(lián)機事務處理(OLAP)是過去十幾年來最熱門的信息領域,它們的目標是以計算機來取代許多當前的作業(yè)。文章首先介紹了數(shù)據(jù)倉庫和聯(lián)機分析處理技術的基本概念,比較并分析了它們同傳統(tǒng)的數(shù)據(jù)庫的差異,最后介紹并探討了聯(lián)機分析處理技術的發(fā)展領域。
關鍵詞:關鍵詞:數(shù)據(jù)倉庫;聯(lián)機分析處理;聯(lián)機事務處理;傳統(tǒng)數(shù)據(jù)庫
中圖分類號:TP392文獻標志碼:A文章編號:引言:隨著市場競爭的日趨激烈,信息對于企業(yè)的生存和發(fā)展發(fā)揮著越來越重要的作用。與此同時,在各個領域產生了大量的數(shù)據(jù),但是面對不斷增加如潮水
2、般的數(shù)據(jù),傳統(tǒng)的數(shù)據(jù)庫管理系統(tǒng)已無法滿足決策支持系統(tǒng)對數(shù)據(jù)的要求,因此人們提出了更深層次的問題:能不能從數(shù)據(jù)中 提取信息或者知識為決策服務。在這種情況下,一種適用于決策支持系統(tǒng)的數(shù)據(jù)組織與管理技術—數(shù)據(jù)倉庫1技術應運而生。1.數(shù)據(jù)倉庫技術1.1 數(shù)據(jù)庫到數(shù)據(jù)倉庫的演變傳統(tǒng)的數(shù)據(jù)庫與OLTP(On-Line Transaction Process)平臺并不是為了分析數(shù)據(jù)而設計的,用戶可以在一個OLTP平臺上安裝數(shù)個應用系統(tǒng),它在數(shù)據(jù)共享、數(shù)據(jù)與應用程序的獨立性、維護數(shù)據(jù)的一致性和完整行及數(shù)據(jù)的安全保密性等方面提供了有效的手段。但是當它與分析型應用結合時,卻出現(xiàn)了許多問題。首先,利用傳統(tǒng)的數(shù)據(jù)庫進
3、行數(shù)據(jù)分析,分析的結果缺乏可靠性。其次,利用傳統(tǒng)的數(shù)據(jù)庫進行數(shù)據(jù)處理,其效率很低。第三,傳統(tǒng)的數(shù)據(jù)庫難以將數(shù)據(jù)轉化成信息。第四,傳統(tǒng)的數(shù)據(jù)庫系統(tǒng)主要用于事務處理,而在事務處理型的應用環(huán)境中直接構建分析決策型應用是不可能的。所以,為了提高分析和決策的效率和有效性,面向分析決策型應用的數(shù)據(jù)處理及其數(shù)據(jù)必須與事務處理型應用環(huán)境分離,建立單獨的分析決策型應用環(huán)境。數(shù)據(jù)倉庫正是為了解決這一問題而誕生的一種數(shù)據(jù)存儲和組織技術。數(shù)據(jù)倉庫與傳統(tǒng)的數(shù)據(jù)庫的不同之處在于數(shù)據(jù)倉庫是一個面向主題的、集成的、不可更新的、隨時間不斷變化的數(shù)據(jù)集合,它可以支持企業(yè)或組織的決策分析處理2。2. 聯(lián)機分析處理技術聯(lián)機分析處理O
4、LAP(On-Line Analytical Processing)技術3是基于數(shù)據(jù)倉庫進行數(shù)據(jù)分析的一種技術。OLAP可使企業(yè)數(shù)據(jù)分析人員、企業(yè)經理及企業(yè)其他管理人員通過對企業(yè)信息的多種可能的觀察角度進行快速、一致和交互性的存取,以獲得對信息的深入理解。2.1 OLAP的基本特性OLAP是數(shù)據(jù)處理的一種技術概念,其定義簡單的概括為:共享多維信息的快速分析。OLAP通過對多維信息以很多種可能的觀察方式進行快速、穩(wěn)定一致和交互性的存取,允許管理決策人對數(shù)據(jù)進行深入觀察。其特點4有四個方面:(1)快速性。用戶對OLAP的快速反應能力有很高的要求。要求系統(tǒng)能在幾秒鐘內對用戶的多數(shù)分析要求做出反應;(
5、2)可分析性。OLAP系統(tǒng)應能處理與應用有關的任何邏輯分析和統(tǒng)計分析;(3)多維性。多維性是OLAP的關鍵屬性和靈魂,系統(tǒng)能夠提供對數(shù)據(jù)分析的多維視圖和分析,包括層次維和多重層次維的支持。(4)信息性。OLAP系統(tǒng)能夠及時獲得信息,并且管理大容量信息;(5)共享性。共享性是在大量用戶間實現(xiàn)潛在地共享秘密數(shù)據(jù)所必須的安全需求。2.2 OLAP的基本分析操作OLAP的基本操作是指通過對多維形式組織起來的數(shù)據(jù)進行切片、切塊、聚合、鉆取、旋轉等分析動作,以求剖析數(shù)據(jù)使用戶能夠從多種維度、多個側面、多種數(shù)據(jù)綜合度查看數(shù)據(jù),從而深入地了解包含在數(shù)據(jù)中的信息、內涵。(1)切片(Slicing)。切片操作就是
6、在某個或某些維上選定一個屬性成員,而在其他維上取一定區(qū)間的屬性成員,或全部屬性成員來觀察數(shù)據(jù)的一種分析方式。(2)切塊(Dicing)。切塊就是在各個維上取一定區(qū)間的成員屬性,或全部成員屬性來觀察數(shù)據(jù)的一種分析方式。從另一個角度講,切塊可以看成是在切片的基礎上,進一步確定各個屬性成員的區(qū)間得到的片段體,也即由多個切片疊合起來。(3)鉆取(Drilling)。鉆取包含向下鉆(Drill-down)和向上鉆(Drill-up) /上卷(Roll-up)操作。下鉆指從概括性的數(shù)據(jù)出發(fā)獲得相應的更詳細的數(shù)據(jù),上鉆則相反。鉆取的深度與維度所劃分的層次相對應。(4)旋轉(Pivoting)。旋轉即改變一個
7、報告或頁面顯示的維方向。旋轉可能包含交換行和列,或是把某一個行維移到列為中去,或包頁面顯示中的一個維和頁面外的維進行交換。3. OLAP與數(shù)據(jù)倉庫在數(shù)據(jù)倉庫中 ,OLAP和數(shù)據(jù)倉庫是密不可分的,但是兩者是不同的概念。數(shù)據(jù)倉庫是一個包含企業(yè)歷史數(shù)據(jù)的大規(guī)模數(shù)據(jù)庫,這些歷史數(shù)據(jù)要用于對企業(yè)的經營決策提供分析和支持。數(shù)據(jù)倉庫中的數(shù)據(jù)是不能用于OLTP的,而OLAP則利用數(shù)據(jù)倉庫中的數(shù)據(jù)進行聯(lián)機分析,將復雜的分析查詢結果快速地返回用戶。OLAP利用多維數(shù)據(jù)集和數(shù)據(jù)聚集技術對數(shù)據(jù)倉庫中的數(shù)據(jù)進行組織和匯總,用聯(lián)機分析和可視化工具對這些數(shù)據(jù)迅速進行評價。OLAP可用多級結構表示數(shù)據(jù)倉庫中的數(shù)據(jù),創(chuàng)建組織和
8、匯總數(shù)據(jù)的立方體,這樣才能有效的提高用戶復雜查詢的要求。因此數(shù)據(jù)倉庫的結構將直接影響立方體的設計和構造,也就影響了OLAP的工作效率。從OLAP使用的效率角度考慮,在設計數(shù)據(jù)倉庫時應該考慮一下幾個因素:(1)盡可能使用星型架構,如果采用雪花結構,就要最小化事實表底層維度表以后的維度表數(shù)量。(2)為用戶設計包含事實表的維度表,這些維度表應該包含有意義的、用戶希望了解的信息。(3)度表的設計應該符合通常意義上的范式約束,維度表中不要出現(xiàn)無關的數(shù)據(jù)。(4)事實表中不要包含匯總數(shù)據(jù),事實表中包含的用戶需要訪問的數(shù)據(jù)應該具有必需的粒度,這些數(shù)據(jù)應該是同一層次的數(shù)據(jù)。(5)對事實表和維度表中的關鍵字必須創(chuàng)
9、建索引,同一中數(shù)據(jù)盡可能使用一個事實表。(6)保證數(shù)據(jù)的參考完整性,使事實表中的所有數(shù)據(jù)都出現(xiàn)在所有的維度表中,避免事實表中的某些數(shù)據(jù)行在立方體進行聚集運算時沒有參加過來。4. OLAP的發(fā)展OLAP技術5是在市場競爭日益激烈,決策人員迫切需要準確及時并且可以靈活訪問的決策信息的背景下興起的。其主要的發(fā)展領域為:(1)市場和銷售分析幾乎每個商業(yè)公司都需要此類軟件,但其大規(guī)模分布在:生活消費品行業(yè)、零售業(yè)、金融服務業(yè)。此類行業(yè)通常都需要用發(fā)哦OLAP能夠對大量數(shù)據(jù)進行復雜的分析和統(tǒng)計功能。(2)電子
商務分析電子商務網站記錄了用戶在網上的所有行為,為更精細的分析用戶行為提供了可能。一個典型
10、的商業(yè)網站每天都產生大量的數(shù)據(jù),簡單手工分析顯然難以勝任,用多維、分層OLAP可以很好的把這些數(shù)據(jù)組織起來。(3)基于歷史數(shù)據(jù)的營銷通過各種不同的歷史數(shù)據(jù),用數(shù)據(jù)挖掘或統(tǒng)計的方法,找到針對某項服務或商品的銷售對象。雖然傳統(tǒng)上不是OLAP的范圍,但是通過多維數(shù)據(jù)分析的引入,會取得更好的效果。(4)預算預算通常是從下到上提交和從上到下約束的反復過程,OLAP工具可以在這個過程中提供分析能力。預算制定者利用OLAP提供的工具瀏覽市場、銷售、生成及合并計劃等企業(yè)全方位的數(shù)據(jù),得到一個較合理的方案,也可以利用這些數(shù)據(jù)自動制定出方案。(5)財務報告與整合早起的財務報告整合系統(tǒng)與現(xiàn)在OLAP相似,但是OLA
11、P利用對多維數(shù)據(jù)的分析能夠更好的對其進行管理。(6)管理報告(7)利益率分析(8)質量分析5. 小結數(shù)據(jù)倉庫和聯(lián)機分析處理技術在市場競爭日益激烈的的背景下逐漸興起,目前正處于快速發(fā)展的階段。文章首先對數(shù)據(jù)倉庫和聯(lián)機分析處理技術做了詳細介紹并將它們和傳統(tǒng)的數(shù)據(jù)庫做了對比,得出數(shù)據(jù)倉庫和聯(lián)機分析處理技術是在傳統(tǒng)數(shù)據(jù)庫無法到達設計者需求下產生的。文章最后對聯(lián)機分析處理技術的發(fā)展領域做了介紹和分析。相信在不久的將來基于數(shù)據(jù)倉庫的聯(lián)機分析處理技術定會成為處理數(shù)據(jù)的主流技術。
參考文獻: HanJiawei,LuHongjun:The Leeture of Datamining and DatawarehouseSP Onsoredby:IBM China University RelationshiPs,1995年
基金項目:國家自然科學基金青年基金(61103195);國家博士后基金項目(20100480048)