數(shù)據(jù)倉庫與數(shù)據(jù)挖掘.ppt
《數(shù)據(jù)倉庫與數(shù)據(jù)挖掘.ppt》由會員分享,可在線閱讀,更多相關《數(shù)據(jù)倉庫與數(shù)據(jù)挖掘.ppt(46頁珍藏版)》請在裝配圖網(wǎng)上搜索。
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘,,,日常生活的問題:人們在日常生活中經(jīng)常會遇到這樣的情況:超市的經(jīng)營者希望將經(jīng)常被同時購買的商品放在一起,以增加銷售;保險公司想知道購買保險的客戶一般具有哪些特征;醫(yī)學研究人員希望從已有的成千上萬份病歷中找出患某種疾病的病人的共同特征,從而為治愈這種疾病提供一些幫助;,企業(yè)面臨的問題經(jīng)過多年的計算機應用和市場積累,許多企業(yè)保存了大量原始數(shù)據(jù)和各種業(yè)務數(shù)據(jù),它是企業(yè)生產經(jīng)營活動的真實記錄,由于缺乏集中存儲和管理,這些數(shù)據(jù)不能為本企業(yè)加以利用,不能進行有效的統(tǒng)計、分析及評估,無法將這些數(shù)據(jù)轉換成企業(yè)有用的信息,數(shù)據(jù)爆炸:自動的數(shù)據(jù)收集工具和成熟的數(shù)據(jù)庫技術導致巨大的數(shù)據(jù)存儲在文件系統(tǒng)、數(shù)據(jù)庫和其它的信息庫中。我們會淹死在數(shù)據(jù)中,但卻為信息、知識所餓!,面臨的問題如何使企業(yè)或組織在激烈的市場競爭中保持對客戶的吸引力?如何預先發(fā)現(xiàn)和避免企業(yè)運作過程中不易察覺的商業(yè)風險?如何在堆積如山的企業(yè)交易數(shù)據(jù)中發(fā)現(xiàn)具有商業(yè)價值的閃光點?,不同層次的信息處理需求,事物處理需求分析處理需求,事務處理需求(OLTP),不同的事務處理子系統(tǒng)采購子系統(tǒng):訂單、訂單細則、供應商銷售子系統(tǒng):顧客、銷售庫存子系統(tǒng):出庫領料單、進料入庫單、庫存臺帳人事子系統(tǒng):員工、部門各種事務處理需求一筆訂購、一筆銷售、一次進料、一次出料要求強調多用戶并發(fā)環(huán)境,數(shù)據(jù)的一致性、完整性,分析處理需求(OLAP),今年銷售量下降的因素(時間、地區(qū)、商品、銷售部門)某種商品今年的銷售情況與以往相比,有怎樣的變化?每年的第一季度商品銷售在各類商品上的分布情況怎樣?要求多個子系統(tǒng)中的數(shù)據(jù)(數(shù)據(jù)集成)歷史數(shù)據(jù)匯總、綜合的數(shù)據(jù),隨著數(shù)據(jù)庫技術的應用普及和發(fā)展,人們不再僅僅滿足于一般的業(yè)務處理,而對系統(tǒng)提出了更高的要求:提供決策支持,數(shù)據(jù)庫數(shù)據(jù)倉庫數(shù)據(jù)庫系統(tǒng)能夠很好的用于事務處理,但它對分析處理的支持一直不能令人滿意。特別是當以業(yè)務處理為主的聯(lián)機事務處理(OLTP)應用和以分析處理為主的決策支持系統(tǒng)(DSS)應用共存于一個數(shù)據(jù)庫系統(tǒng)時,就會產生許多問題(混亂現(xiàn)象)。例如,事務處理應用一般需要的是當前數(shù)據(jù),主要考慮較短的響應時間;而分析處理應用需要是歷史的、綜合的、集成的數(shù)據(jù),它的分析處理過程可能持續(xù)幾個小時,從而消耗大量的系統(tǒng)資源。,,人們逐漸認識到直接用事務處理環(huán)境來支持DSS是行不通的。要提高分析和決策的有效性,分析型處理及其數(shù)據(jù)必須與操作型處理及其數(shù)據(jù)分離(不能都在一個數(shù)據(jù)庫環(huán)境中)。必須把分析型數(shù)據(jù)從事務處理環(huán)境中提取出來,按照DSS處理的需要進行重新組織,建立單獨的分析處理環(huán)境。數(shù)據(jù)倉庫技術正是為了構建這種新的分析處理環(huán)境而出現(xiàn)的一種數(shù)據(jù)存儲和組織技術。,數(shù)據(jù)倉庫的定義,數(shù)據(jù)倉庫是一種面向主題的數(shù)據(jù)管理技術,它提供集成化的、歷史的數(shù)據(jù)管理功能,支持綜合性的數(shù)據(jù)分析,特別是戰(zhàn)略分析。數(shù)據(jù)倉庫構成了DSS和DBMS的技術基礎,它必將推動DSS研究的全面發(fā)展和方法的實用性化。,通俗的解釋,人們專門為業(yè)務的統(tǒng)計分析建立一個數(shù)據(jù)中心,它的數(shù)據(jù)可以從聯(lián)機的事務處理系統(tǒng)、異構的外部數(shù)據(jù)源、脫機的歷史業(yè)務數(shù)據(jù)中得到;它是一個聯(lián)機的系統(tǒng),專門為分析統(tǒng)計和決策支持應用服務,通過它可滿足決策支持和聯(lián)機分析應用所要求的一切。這個數(shù)據(jù)中心就叫作數(shù)據(jù)倉庫。,特征及體系結構,數(shù)據(jù)倉庫的特征數(shù)據(jù)倉庫的體系結構,數(shù)據(jù)倉庫的體系結構,一個完整的數(shù)據(jù)倉庫結構一般由6個基本層次組成1)數(shù)據(jù)源層。2)數(shù)據(jù)后端處理層。3)數(shù)據(jù)倉庫及其管理層(包括源數(shù)據(jù)管理)。4)數(shù)據(jù)集市層。5)數(shù)據(jù)倉庫應用層(或稱前端處理層)。6)數(shù)據(jù)展示層。,數(shù)據(jù)倉庫層次結構示意圖,數(shù)據(jù)展示層,數(shù)據(jù)倉庫應用層,數(shù)據(jù)集市層,數(shù)據(jù)倉庫及管理層,數(shù)據(jù)后端處理層,數(shù)據(jù)源層,數(shù)據(jù)挖掘,定義:數(shù)據(jù)挖掘(DataMining),就是從存放在數(shù)據(jù)庫,數(shù)據(jù)倉庫或其他信息庫中的大量的數(shù)據(jù)中獲取有效的、新穎的、潛在有用的、最終可理解的模式的非平凡過程。,經(jīng)典案例——尿布與啤酒,在一家超市中,人們發(fā)現(xiàn)了一個特別有趣的現(xiàn)象:尿布與啤酒這兩種風馬牛不相及的商品居然擺在一起。但這一奇怪的舉措居然使尿布和啤酒的稍量大幅增加了。這可不是一個笑話,而是一直被商家所津津樂道的發(fā)生在美國沃爾瑪連鎖超市的真實案例。原來,美國的婦女通常在家照顧孩子,所以她們經(jīng)常會囑咐丈夫在下班回家的路上為孩子買尿布,而丈夫在買尿布的同時又會順手購買自己愛喝的啤酒。這個發(fā)現(xiàn)為商家?guī)砹舜罅康睦麧?,但是如何從浩如煙海卻又雜亂無章的數(shù)據(jù)中,發(fā)現(xiàn)啤酒和尿布銷售之間的聯(lián)系呢?這又給了我們什么樣的啟示呢?,數(shù)據(jù)挖掘能做以下七種分析方法,分類(Classification)估計(Estimation)預測(Prediction)相關性分組或關聯(lián)規(guī)則(Affinitygroupingorassociationrules)聚類(Clustering)描述和可視化(DescriptionandVisualization)復雜數(shù)據(jù)類型挖掘(Text,Web,圖形圖像,視頻,音頻等),數(shù)據(jù)挖掘分類,直接數(shù)據(jù)挖掘:目標是利用可用的數(shù)據(jù)建立一個模型,這個模型對剩余的數(shù)據(jù),對一個特定的變量(可以理解成數(shù)據(jù)庫中表的屬性,即列)進行描述。間接數(shù)據(jù)挖掘:目標中沒有選出某一具體的變量,用模型進行描述;而是在所有的變量中建立起某種關系分類、估值、預言屬于直接數(shù)據(jù)挖掘;后三種屬于間接數(shù)據(jù)挖掘。,數(shù)據(jù)挖掘過程和主要步驟,數(shù)據(jù)挖掘過程簡介,(1).確定業(yè)務對象(2).數(shù)據(jù)準備1)、數(shù)據(jù)的選擇2)、數(shù)據(jù)的預處理3)、數(shù)據(jù)的轉換(3).數(shù)據(jù)挖掘(4).結果分析(5).知識的同化,數(shù)據(jù)挖掘的發(fā)展前景,當前數(shù)據(jù)挖掘應用主要集中在電信、零售、農業(yè)、網(wǎng)絡日志、銀行、電力、生物、天體、化工、醫(yī)藥等方面??此茝V泛,實際應用還遠沒有普及。而據(jù)Gartner的報告也指出,數(shù)據(jù)挖掘會成為未來10年內重要的技術之一。而數(shù)據(jù)挖掘,也已經(jīng)開始成為一門獨立的專業(yè)學科。具體發(fā)展趨勢和應用方向主要有:對知識發(fā)現(xiàn)方法的研究進一步發(fā)展,如對Bayes和Boosting方法的研究和提高;商業(yè)工具軟件不斷產生和完善,注重建立解決問題的整體系統(tǒng),例如Weka等軟件。數(shù)據(jù)挖掘的發(fā)展應是挖掘工具在先進理論指導下的改進,而就國內情況而言,還有至少20年的發(fā)展空間。,謝謝觀賞,,決策支持系統(tǒng)(decisionsupportsystem,簡稱DSS)是輔助決策者通過數(shù)據(jù)、模型和知識,以人機交互方式進行半結構化或非結構化決策的計算機應用系統(tǒng)。它是管理信息系統(tǒng)(MIS)向更高一級發(fā)展而產生的先進信息管理系統(tǒng)。它為決策者提供分析問題、建立模型、模擬決策過程和方案的環(huán)境,調用各種信息資源和分析工具,幫助決策者提高決策水平和質量。,,應具備的特性,效率足夠高數(shù)據(jù)質量可靠可擴展性,數(shù)據(jù)倉庫的四個主要特征,數(shù)據(jù)的時變性數(shù)據(jù)的非易失性數(shù)據(jù)是集成的面向主題,,subject-oriented(面向主題性),面向主題表示了數(shù)據(jù)倉庫中數(shù)據(jù)組織的基本原則,數(shù)據(jù)倉庫中的數(shù)據(jù)都是圍繞著某一主題組織展開的。例如,企業(yè)中的客戶、產品、供應商等都可以作為主題看待。從信息管理的角度看,主題就是在一個較高的管理層次上對信息系統(tǒng)的數(shù)據(jù)按照某一具體的管理對象進行綜合、歸類所形成的分析對象。從數(shù)據(jù)組織的角度看,主題是一些數(shù)據(jù)集合,這些數(shù)據(jù)集合對分析對象作了比較完整的、一致的描述,這種描述不僅涉及到數(shù)據(jù)自身,而且涉及到數(shù)據(jù)之間的關系。確定主題是組織數(shù)據(jù)倉庫中數(shù)據(jù)的前提。,,integrated(數(shù)據(jù)集成性),數(shù)據(jù)倉庫的集成性是指根據(jù)決策分析的要求,將分散于各處的源數(shù)據(jù)進行抽取、篩選、清理、綜合等工作,使數(shù)據(jù)倉庫的數(shù)據(jù)具有集成性。數(shù)據(jù)倉庫在從業(yè)務處理系統(tǒng)那里獲取數(shù)據(jù)時,并不能將源數(shù)據(jù)庫中的數(shù)據(jù)直接加載到數(shù)據(jù)倉庫中,而是需要進行一系列的數(shù)據(jù)預處理,即數(shù)據(jù)的抽取、篩選、清理、綜合等集成工作。,,time-variant數(shù)據(jù)的時變性,數(shù)據(jù)倉庫的時變性,就是數(shù)據(jù)應該隨著時間的推移而變化。盡管數(shù)據(jù)倉庫中的數(shù)據(jù)并不像業(yè)務數(shù)據(jù)庫那樣反映業(yè)務處理的實際狀況,但是數(shù)據(jù)也不能長期不變,如果依據(jù)10前的數(shù)據(jù)進行決策分析,那決策所帶來的后果將是十分可怕的。,,non-volatile數(shù)據(jù)的非易失性,數(shù)據(jù)倉庫的非易失性是指數(shù)據(jù)倉庫的數(shù)據(jù)不進行更新處理,而是一旦數(shù)據(jù)進入數(shù)據(jù)倉庫以后,就會保持一個相當長的時間。原因是數(shù)據(jù)倉庫中數(shù)據(jù)大多表示過去某一時刻的數(shù)據(jù),主要用于查詢、分析,不像業(yè)務系統(tǒng)中的數(shù)據(jù)庫那樣,要經(jīng)常進行修改、添加,除非數(shù)據(jù)倉庫中的數(shù)據(jù)是錯誤的。,,數(shù)據(jù)源,數(shù)據(jù)源是數(shù)據(jù)倉庫的數(shù)據(jù)來源,它是多種OLTP系統(tǒng)及外部文件,一個數(shù)據(jù)倉庫往往可以含多個數(shù)據(jù)源,這些數(shù)據(jù)源可以有多種不同數(shù)據(jù)結構類型,可以有桌面式數(shù)據(jù)庫如Access,也可以是對象關系數(shù)據(jù)庫、面向對象數(shù)據(jù)庫.同時,數(shù)據(jù)源也可以包括各種數(shù)據(jù)文件如Excel、Word以及基于WWW的HTML、XML等文件形式。數(shù)據(jù)源一般可以分布于網(wǎng)絡的各個結點,通過網(wǎng)絡中的數(shù)據(jù)接口與數(shù)據(jù)倉庫相互連接。,,數(shù)據(jù)后端處理,數(shù)據(jù)后端處理:數(shù)據(jù)源中數(shù)據(jù)經(jīng)提取、清洗、轉換最終成為數(shù)據(jù)倉庫所需的數(shù)據(jù)。它的主要工作是為數(shù)據(jù)倉庫提供統(tǒng)一的數(shù)據(jù)并按階段及時更新這些數(shù)據(jù)。,數(shù)據(jù)后端處理,一個完整的后端處理包括下面5個方面1)數(shù)據(jù)提取2)數(shù)據(jù)清洗3)數(shù)據(jù)轉換4)數(shù)據(jù)加載5)數(shù)據(jù)刷新,后端處理4個環(huán)節(jié)的流程圖,,數(shù)據(jù)倉庫及管理層,1.數(shù)據(jù)倉庫數(shù)據(jù)倉庫是存儲分析與決策數(shù)據(jù)的實體。它一般以關系結構形式存儲,能支持數(shù)據(jù)共享。,數(shù)據(jù)倉庫及管理,數(shù)據(jù)倉庫管理系統(tǒng)(DWMS)是一種專門于管理數(shù)據(jù)倉庫的軟件,包括數(shù)據(jù)倉庫中的數(shù)據(jù)結構構建;數(shù)據(jù)操縱;數(shù)據(jù)維護、控制、數(shù)據(jù)服務等內容。其具體功能如下:(1)、數(shù)據(jù)倉庫數(shù)據(jù)模式定義它能定義數(shù)據(jù)倉庫的關系結構,包括數(shù)據(jù)模式、數(shù)據(jù)子模式。,數(shù)據(jù)倉庫及管理,(2)數(shù)據(jù)倉庫的數(shù)據(jù)操縱在數(shù)據(jù)倉庫中能向用戶直接提供的只有一種操作,即只讀(或稱查詢)操作。(3)數(shù)據(jù)倉庫的數(shù)據(jù)控制數(shù)據(jù)倉庫具有完整性約束控制、數(shù)據(jù)授權和數(shù)據(jù)安全以及數(shù)據(jù)并發(fā)控制、故障恢復能力,均與傳統(tǒng)數(shù)據(jù)庫類似。,數(shù)據(jù)倉庫及管理,(4)數(shù)據(jù)倉庫的數(shù)據(jù)服務數(shù)據(jù)倉庫管理系統(tǒng)提供對數(shù)據(jù)倉庫中數(shù)據(jù)的多種服務功能,如數(shù)據(jù)拷貝,轉儲,性能監(jiān)測及網(wǎng)絡監(jiān)控等功能。,,數(shù)據(jù)集市,數(shù)據(jù)集市是一種特殊形式的數(shù)據(jù)倉庫。數(shù)據(jù)倉庫是面向整個企業(yè)決策的數(shù)據(jù)集合,面向多種應用,具有全局性;而數(shù)據(jù)集市則是面向企業(yè)中部門決策的數(shù)據(jù)集合,面向特定應用,具有局部性;由此可見,數(shù)據(jù)集市是由數(shù)據(jù)倉庫派生而出,針對特定應用的規(guī)模更小的,結構更集中的決策數(shù)據(jù)集合體。數(shù)據(jù)倉庫與數(shù)據(jù)集市的有效結合可以使數(shù)據(jù)倉庫更能適應多種應用的不同需求。,,數(shù)據(jù)倉庫應用層,數(shù)據(jù)倉庫應用層又稱前端處理層。該層主要是以數(shù)據(jù)倉庫為基礎的應用。目前,該層主要包括有兩種應用:(1)分析、決策應用分析、決策應用主要是歸納型的分析、決策。即是以數(shù)據(jù)倉庫中的數(shù)據(jù)為對象作歸納以獲得分析、決策的模式(pattern)或規(guī)則(rule)。,數(shù)據(jù)倉庫應用層,(2)統(tǒng)一平臺的建立與應用除了分析、決策應用外,數(shù)據(jù)倉庫還具有為企業(yè)已有的多種平臺、多種結構、多種語法/語義、多種接口建立統(tǒng)一數(shù)據(jù)平臺的功能,并在該平臺上建立企業(yè)級應用。,,數(shù)據(jù)展示層,在數(shù)據(jù)倉庫應用層之上是數(shù)據(jù)展示層,即是將應用結果,特別是分析、決策結果以多種媒體形式表示,它還可以通過Web發(fā)布數(shù)據(jù)倉庫的數(shù)據(jù)展示具有多種固定的圖板,即固定的表示形式,而每個圖板又有多種不同靈活表現(xiàn)手段。圖板的類型有多種不同的直方圖、條狀圖、餅圖、報表、曲線等。,數(shù)據(jù)展示層,在Web方式下一般還有安全授權功能以控制結果數(shù)據(jù)的安全性。目前市場上有多種數(shù)據(jù)展示工具,有名的有BRIO、BO等,當然也可以通過工具以編程方式實現(xiàn)。,,OLTP技術,聯(lián)機事務處理系統(tǒng)(OLTP)也稱為面向交易的處理系統(tǒng),其基本特征是顧客的原始數(shù)據(jù)可以立即傳送到計算中心進行處理,并在很短的時間內給出處理結果。最大優(yōu)點:即輸即答,具有實效性。重要性能指標:系統(tǒng)性能,具體體現(xiàn)為實時響應時間。例如民航定票系統(tǒng)和銀行ATM機是聯(lián)機事務處理系統(tǒng)。,,,,,OLAP技術,數(shù)據(jù)倉庫是管理決策分析的基礎,要有效地利用數(shù)據(jù)倉庫的信息資源,必須要有強大的工具對數(shù)據(jù)倉庫的信息進行分析決策。OLAP,即On-lineAnalyticalProcessing(在線分析處理或聯(lián)機分析處理),就是一個應用廣泛的數(shù)據(jù)倉庫使用技術。它可以根據(jù)分析人員的要求,迅速靈活地對大量的數(shù)據(jù)進行復雜的查詢處理,并以直觀的容易理解的形式將查詢結果提供給各種決策人員,使他們能夠迅速準確地掌握企業(yè)的運營情況,了解市場的需求。,,- 配套講稿:
如PPT文件的首頁顯示word圖標,表示該PPT已包含配套word講稿。雙擊word圖標可打開word文檔。
- 特殊限制:
部分文檔作品中含有的國旗、國徽等圖片,僅作為作品整體效果示例展示,禁止商用。設計者僅對作品中獨創(chuàng)性部分享有著作權。
- 關 鍵 詞:
- 數(shù)據(jù)倉庫 數(shù)據(jù) 挖掘
裝配圖網(wǎng)所有資源均是用戶自行上傳分享,僅供網(wǎng)友學習交流,未經(jīng)上傳用戶書面授權,請勿作他用。
相關資源
更多
正為您匹配相似的精品文檔
相關搜索
鏈接地址:http://m.jqnhouse.com/p-11536358.html