數(shù)據(jù)倉庫和數(shù)據(jù)挖掘



《數(shù)據(jù)倉庫和數(shù)據(jù)挖掘》由會員分享,可在線閱讀,更多相關(guān)《數(shù)據(jù)倉庫和數(shù)據(jù)挖掘(39頁珍藏版)》請在裝配圖網(wǎng)上搜索。
1、,單擊此處編輯母版標(biāo)題樣式,單擊此處編輯母版文本樣式,第二層,第三層,第四層,第五層,*,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘,1,第六章 數(shù)據(jù)倉庫和數(shù)據(jù)挖掘,第一節(jié) 數(shù)據(jù)倉庫的原理,第二節(jié) 數(shù)據(jù)倉庫體系結(jié)構(gòu),第三節(jié) 數(shù)據(jù)倉庫的開發(fā),第四節(jié) 聯(lián)機(jī)分析處理,OLAP,第五節(jié) 數(shù)據(jù)挖掘技術(shù),第六節(jié) 數(shù)據(jù)挖掘的方法和工具,2,第一節(jié)數(shù)據(jù)倉庫的原理,一、數(shù)據(jù)倉庫的基本定義,1.基本定義,數(shù)據(jù)倉庫專家的描述:,數(shù)據(jù)倉庫是一個,面向主題的,(,Subject Oriented)、,集成的,(,Integrate)、,相對穩(wěn)定的,(,Non-Volatile)、,隨時間,不斷變化,(,Time Variant),的,數(shù)據(jù)集合
2、,,用于支持管理決策。,3,第一節(jié)數(shù)據(jù)倉庫的原理,一、數(shù)據(jù)倉庫的基本定義,Informix,公司的負(fù)責(zé)人定義數(shù)據(jù)倉庫為:,數(shù)據(jù)倉庫將分布在企業(yè)網(wǎng)絡(luò)中不同職能部門的,業(yè)務(wù)數(shù)據(jù)集成,,并存儲在一個單一的,集成關(guān)系型數(shù)據(jù)庫,中。,利用這種集成信息,可方便用戶對信息的訪問,更可使決策人員對一段時間的歷史數(shù)據(jù)進(jìn)行分析,研究事物發(fā)展走勢。,4,第一節(jié)數(shù)據(jù)倉庫的原理,2.數(shù)據(jù)倉庫中的一些基本概念,粒度,粒度是數(shù)據(jù)倉庫的數(shù)據(jù)單位中保存數(shù)據(jù)的細(xì)化或綜合程度的級別;,分割,就是將數(shù)據(jù)分散到各自的物理單元中去,使它們能被獨(dú)立地處理;,維,是人們觀察數(shù)據(jù)的特定角度,是數(shù)據(jù)的視圖,。,5,第一節(jié)數(shù)據(jù)倉庫的原理,二、數(shù)據(jù)
3、倉庫的特點(diǎn),面向主題的,集成的,相對穩(wěn)定的,隨時間變化的,6,第一節(jié)數(shù)據(jù)倉庫的原理,面向主題的,數(shù)據(jù)倉庫中的數(shù)據(jù)是按一定的主題進(jìn)行組織的,為按主題進(jìn)行決策的過程提供信息。,集成的,數(shù)據(jù)倉庫中數(shù)據(jù)是來源于分散的數(shù)據(jù)庫數(shù)據(jù),它們進(jìn)入數(shù)據(jù)倉庫中時必須通過一定的方法來使之在數(shù)據(jù)倉庫中有統(tǒng)一的形式和含義。,T,或,F,轉(zhuǎn) 換,T、F,是、否,0、1,(,a),集成,7,第一節(jié)數(shù)據(jù)倉庫的原理,相對穩(wěn)定的,也稱為非易失性。數(shù)據(jù)倉庫的數(shù)據(jù)主要供企業(yè)決策分析之用,某個數(shù)據(jù)一旦進(jìn)入數(shù)據(jù)倉庫,只要它沒有數(shù)據(jù)倉庫的數(shù)據(jù)存儲期限,一般就不會被更新。,插入,刪除,訪問,修改,數(shù)據(jù)庫,抽取、載入,時間維,數(shù)據(jù)倉庫,(,b)
4、,非易失性,8,第一節(jié)數(shù)據(jù)倉庫的原理,隨時間變化的,數(shù)據(jù)倉庫隨著時間的變化,不斷增加新的數(shù)據(jù)。,支持決策系統(tǒng),數(shù)據(jù)倉庫組織的根本目的在于對決策的支持。,9,第一節(jié)數(shù)據(jù)倉庫的原理,三、數(shù)據(jù)倉庫中的層次結(jié)構(gòu),一個典型的企業(yè)數(shù)據(jù)倉庫系統(tǒng)3層結(jié)構(gòu):,數(shù)據(jù)獲取層、,數(shù)據(jù)存儲與管理層,、,數(shù)據(jù)訪問層,10,第一節(jié)數(shù)據(jù)倉庫的原理,數(shù)據(jù)獲取層,對,MIS、,網(wǎng)管和其他外部數(shù)據(jù)源中的數(shù)據(jù)進(jìn)行抽取、清洗、轉(zhuǎn)換,并加載到數(shù)據(jù)倉庫。,數(shù)據(jù)存儲與管理層,實(shí)現(xiàn)對數(shù)據(jù)倉庫中數(shù)據(jù)和源數(shù)據(jù)的集中存儲與管理,進(jìn)行抽取、清理和有效集成,按照主題進(jìn)行組織,并可根據(jù)需求建立面向部門和主題的部門級數(shù)據(jù)倉庫,或稱為數(shù)據(jù)集市。,采用在線分析
5、處理(,OnLine Analysis Processing,OLAP),服務(wù)器技術(shù)對數(shù)據(jù)進(jìn)行有效集成和組織,以便進(jìn)行多角度、多層次的分析,并發(fā)現(xiàn)趨勢。,11,第一節(jié)數(shù)據(jù)倉庫的原理,數(shù)據(jù)訪問層,通過多樣化的前端分析展示工具(主要包括各種報表工具、查詢工具、數(shù)據(jù)分析工具、數(shù)據(jù)挖掘工具以及各種基于數(shù)據(jù)倉庫或數(shù)據(jù)集市的應(yīng)用開發(fā)工具),實(shí)現(xiàn)對數(shù)據(jù)倉庫中數(shù)據(jù)的分析和處理,形成市場經(jīng)營和決策工作所需要的科學(xué)、準(zhǔn)確、及時的業(yè)務(wù)信息和知識。,12,第一節(jié)數(shù)據(jù)倉庫的原理,四、數(shù)據(jù)倉庫與數(shù)據(jù)庫的區(qū)別,13,第二節(jié)數(shù)據(jù)倉庫體系結(jié)構(gòu),一、數(shù)據(jù)倉庫的體系結(jié)構(gòu),通常包括4個部分:,源數(shù)據(jù)、管理部分、數(shù)據(jù)倉庫和應(yīng)用部分,。
6、,14,第二節(jié)數(shù)據(jù)倉庫體系結(jié)構(gòu),二、數(shù)據(jù)倉庫體系結(jié)構(gòu)中的重要組件,1.數(shù)據(jù)抽取、轉(zhuǎn)換、裝載工具,ETL(Extract/Transformation/Load),它是把數(shù)據(jù)從不同的操作型數(shù)據(jù)庫中拿出來,進(jìn)行必要的轉(zhuǎn)化、整理,再存放到數(shù)據(jù)倉庫內(nèi)。,15,第二節(jié)數(shù)據(jù)倉庫體系結(jié)構(gòu),2.元數(shù)據(jù),元數(shù)據(jù)在數(shù)據(jù)倉庫中的,用途,有:,起到輔助決策分析過程中,定位,數(shù)據(jù)倉庫的,目錄,作用,數(shù)據(jù)從業(yè)務(wù)環(huán)境向數(shù)據(jù)倉庫環(huán)境傳送時數(shù)據(jù)倉庫的,目錄內(nèi)容,指導(dǎo)從近期基本數(shù)據(jù)到輕度綜合數(shù)據(jù)和到高度綜合數(shù)據(jù)的,綜合算法選擇,16,第二節(jié)數(shù)據(jù)倉庫體系結(jié)構(gòu),3.數(shù)據(jù)集市(,Data Marts),為了特定的應(yīng)用目的或應(yīng)用范圍,而
7、從數(shù)據(jù)倉庫中獨(dú)立出來的一部分?jǐn)?shù)據(jù),也可稱為部門數(shù)據(jù)或主題數(shù)據(jù)(,Subject data),4.數(shù)據(jù)倉庫管理工具,數(shù)據(jù)倉庫管理工具的主要內(nèi)容有:安全和特權(quán)管理;跟蹤數(shù)據(jù)的更新;數(shù)據(jù)質(zhì)量檢查;管理和更新元數(shù)據(jù);審計和報告數(shù)據(jù)倉庫的使用和狀態(tài);刪除數(shù)據(jù);復(fù)制、分割和分發(fā)數(shù)據(jù);備份和恢復(fù);存儲管理,17,第三節(jié)數(shù)據(jù)倉庫的開發(fā),一、數(shù)據(jù)倉庫的數(shù)據(jù)模式,1.,星式模式,一個簡單的星式模式(,Star Schema),是由一個事實(shí)表和多個維表組成。復(fù)雜的星式模式包含若干個事實(shí)表和維表。,18,第三節(jié)數(shù)據(jù)倉庫的開發(fā),2.雪花模式,雪花模式(,Snow Flake Schema),是對星式模式的擴(kuò)展,它的每個
8、維表都可以向外面連接多個維。,19,第三節(jié)數(shù)據(jù)倉庫的開發(fā),二、數(shù)據(jù)倉庫的設(shè)計方法,在設(shè)計數(shù)據(jù)倉庫時一般采用的方法有自頂向下方法、自底向上方法、自頂向下和自底向上綜合的方法。,1.,自頂向下方法,自頂向下方法是從商業(yè)需求出發(fā)直接構(gòu)建全局?jǐn)?shù)據(jù)倉庫,即從原來分散存儲的已有的企業(yè),OLTP,數(shù)據(jù)庫中通過數(shù)據(jù)提取、凈化、轉(zhuǎn)換和聚集等處理建立全局?jǐn)?shù)據(jù)倉庫。,20,第三節(jié)數(shù)據(jù)倉庫的開發(fā),2.自底向上方法,自底向上方法是從實(shí)驗(yàn)和基于技術(shù)的原型入手,選擇一個部門或特定商業(yè)問題的數(shù)據(jù)集市開始,全局?jǐn)?shù)據(jù)倉庫則建立在數(shù)據(jù)集市的基礎(chǔ)上。,21,第三節(jié)數(shù)據(jù)倉庫的開發(fā),三、數(shù)據(jù)倉庫的設(shè)計過程,1.需求分析,了解用戶建立數(shù)據(jù)
9、倉庫的商業(yè)目標(biāo)、使用數(shù)據(jù)倉庫的操作環(huán)境、數(shù)據(jù)倉庫應(yīng)具有的功能、特征和開發(fā)投資;,2.概念模型設(shè)計,確定各個主題域的內(nèi)容以及它們之間的關(guān)系,建立,E-R,圖;,3.邏輯模型設(shè)計,將概念模型轉(zhuǎn)換為邏輯模型,主要工作有分析主題域、確定粒度劃分層次、確定數(shù)據(jù)分割策略、確定關(guān)系模式、定義記錄系統(tǒng);,4.物理模型的設(shè)計,確定數(shù)據(jù)的存儲結(jié)構(gòu)、索引策略、數(shù)據(jù)的存儲位置和存儲分配;,22,第三節(jié)數(shù)據(jù)倉庫的開發(fā),四、數(shù)據(jù)倉庫生命周期,數(shù)據(jù)倉庫的整個生命周期:,調(diào)查需求,,分析環(huán)境,,確定體系結(jié)構(gòu),,數(shù)據(jù)倉庫具體設(shè)計,,數(shù)據(jù)倉庫的運(yùn)行和數(shù)據(jù)管理,23,第三節(jié)數(shù)據(jù)倉庫的開發(fā),5個過程可分為兩大階段:,數(shù)據(jù)倉庫生成階段
10、,這一階段的工作主要是將數(shù)據(jù)從操作型的數(shù)據(jù)庫系統(tǒng)裝載到數(shù)據(jù)倉庫中來,如何正確抽取、綜合、轉(zhuǎn)換數(shù)據(jù)是要考慮的主要問題。,數(shù)據(jù)倉庫的運(yùn)行和維護(hù)階段,24,第四節(jié)聯(lián)機(jī)分析處理,OLAP,一、,OLAP,的基本概念,聯(lián)機(jī)分析處理:,是一種使分析人員能迅速、一致、交互地從各個方面觀察信息,以達(dá)到深入理解數(shù)據(jù)的目的的軟件技術(shù)。,是一種基于關(guān)系數(shù)據(jù)庫并對數(shù)據(jù)進(jìn)行分析的交互式?jīng)Q策方法。,25,第四節(jié)聯(lián)機(jī)分析處理,OLAP,OLAP,的,功能特征,:,具有多維數(shù)據(jù)庫,OLAP,給出了數(shù)據(jù)倉庫中數(shù)據(jù)的多維邏輯視圖,這種視圖通過一種更為直觀的分析模型,使得模型設(shè)計和分析就像是在層次之間與層次內(nèi)部的計算一樣便利。,2
11、6,第四節(jié)聯(lián)機(jī)分析處理,OLAP,交互式的快速響應(yīng)查詢,OLAP,采用了細(xì)剖較低層的詳細(xì)數(shù)據(jù)或統(tǒng)攬較高層的概括性和聚集數(shù)據(jù)來進(jìn)行交互式查詢,同時為了提高查詢和響應(yīng)速度,它還采用了數(shù)據(jù)的矩陣存儲技術(shù)和一系列的數(shù)據(jù)壓縮技術(shù)。,動態(tài)數(shù)據(jù)分析,OLAP,則是側(cè)重于動態(tài)數(shù)據(jù)的分析,并可以在其內(nèi)部對數(shù)據(jù)進(jìn)行自動轉(zhuǎn)換,使得用戶可以在交互過程中獲得明確的分析結(jié)果,切片功能、鉆探功能,27,第四節(jié)聯(lián)機(jī)分析處理,OLAP,多維檢索功能,OLAP,能檢索并顯示二維或三維表格、圖表和圖表中的數(shù)據(jù),并能容易地變換為基準(zhǔn)軸,從而能綜合不同角度分析到的數(shù)據(jù),更好地支持決策,28,第四節(jié)聯(lián)機(jī)分析處理,OLAP,二、,OLAP
12、,實(shí)例,29,第四節(jié)聯(lián)機(jī)分析處理,OLAP,二、,OLAP,實(shí)例,30,第四節(jié)聯(lián)機(jī)分析處理,OLAP,三、,OLAP,和,OLTP,的區(qū)別,OLTP,OLAP,數(shù)據(jù)源,數(shù)據(jù)庫原始數(shù)據(jù),數(shù)據(jù)庫導(dǎo)出數(shù)據(jù)或數(shù)據(jù)倉庫數(shù)據(jù),數(shù)據(jù)類型,細(xì)節(jié)性數(shù)據(jù),綜合性數(shù)據(jù),更新次數(shù),經(jīng)常更新,不可更新,但要周期性地刷新,用戶數(shù)量,數(shù)量大,相對較少,面向?qū)ο?面向操作人員,支持日常操作,面向決策人員,支持管理需要,31,第五節(jié)數(shù)據(jù)挖掘技術(shù),一、數(shù)據(jù)挖掘的基本概念,1.數(shù)據(jù)挖掘的定義,數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊和隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取,隱含的、目前未知但潛在有用的模式的非平凡,過程,;,數(shù)據(jù)挖掘作為
13、知識發(fā)現(xiàn)過程的一個特定步驟,它是對大容量數(shù)據(jù)和數(shù)據(jù)間關(guān)系進(jìn)行考察和建模的方法集;,它的,目標(biāo),是將大容量數(shù)據(jù)轉(zhuǎn)化為有用的知識信息,這些信息對預(yù)測趨勢和決策行為是至關(guān)重要的。,32,第五節(jié)數(shù)據(jù)挖掘技術(shù),2.數(shù)據(jù)挖掘的過程,數(shù)據(jù)挖掘的過程一般由3階段組成:,數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)挖掘、結(jié)果的解釋評估,。數(shù)據(jù)挖掘可以描述為這3個階段的反復(fù),.,33,第五節(jié)數(shù)據(jù)挖掘技術(shù),3.數(shù)據(jù)挖掘的分類,根據(jù)數(shù)據(jù)挖掘的任務(wù)分:,預(yù)測模型挖掘、總結(jié)規(guī)則挖掘、關(guān)聯(lián)規(guī)則挖掘、聚類規(guī)則挖掘、趨勢分析、偏差分析等;,根據(jù)數(shù)據(jù)挖掘的對象分:,關(guān)系數(shù)據(jù)庫、面向?qū)ο髷?shù)據(jù)庫、空間數(shù)據(jù)庫、時態(tài)數(shù)據(jù)庫、文本數(shù)據(jù)源、多媒體數(shù)據(jù)、異質(zhì)數(shù)據(jù)庫、遺產(chǎn)(
14、,legacy),數(shù)據(jù)庫,以及,Web,數(shù)據(jù)源;,根據(jù)數(shù)據(jù)挖掘的方法分:,決策樹法、人工神經(jīng)網(wǎng)絡(luò)方法、統(tǒng)計分析方法、遺傳方法和數(shù)據(jù)庫方法。,34,第五節(jié)數(shù)據(jù)挖掘技術(shù),二、數(shù)據(jù)挖掘的功能,自動預(yù)測趨勢和行為,關(guān)聯(lián)分析,聚類,概念描述,偏差檢測,35,第五節(jié)數(shù)據(jù)挖掘技術(shù),三、數(shù)據(jù)挖掘與,OLAP,數(shù)據(jù)挖掘和,OLAP,是兩種不同基于數(shù)據(jù)倉庫的應(yīng)用工具,它們的,用途不同,,基于的,技術(shù)也大相徑庭,;,OLAP,是,驗(yàn)證式,的工具,,OLAP,分析過程是一個,演繹推理,的過程;,數(shù)據(jù)挖掘與,OLAP,不同的地方是,數(shù)據(jù)挖掘不是用于驗(yàn)證某個假定的模型的正確性,而是在數(shù)據(jù)庫中自己,尋找模型,;,數(shù)據(jù)挖掘過
15、程是一個,歸納,的過程。,36,第六節(jié) 數(shù)據(jù)挖掘的方法和工具,一、數(shù)據(jù)挖掘的方法,數(shù)據(jù)挖掘的方法大致可分為4類:,機(jī)器學(xué)習(xí)方法:,歸納學(xué)習(xí)方法、基于范例的推理,CBR、,遺傳算法、貝葉斯信念網(wǎng)絡(luò)等,統(tǒng)計方法:,回歸分析、判別分析、探索性分析、以及模糊集、粗糙集、支持向量機(jī)等方法,神經(jīng)網(wǎng)絡(luò)方法:,前向神經(jīng)網(wǎng)絡(luò)、自組織神經(jīng)網(wǎng)絡(luò),數(shù)據(jù)庫方法:,基于可視化的維數(shù)據(jù)分析或,OLAP,方法,37,第六節(jié)數(shù)據(jù)挖掘的方法和工具,二、數(shù)據(jù)挖掘的系統(tǒng),Enterprise Miner,(,SAS,公司),Intelligent Miner,(,IBM,公司),SetMiner,(,SGI,公司),Clementine,(,SPSS,公司),Warehouse Studio,(,Sybase,公司),See5,(,RuleQuest,Research,公司)等。,38,第六節(jié)數(shù)據(jù)挖掘的方法和工具,三、數(shù)據(jù)挖掘的應(yīng)用,零售,/,市場,識別顧客的購買模式,發(fā)現(xiàn)顧客人口統(tǒng)計特征方面的關(guān)聯(lián),預(yù)測對郵寄促銷活動的反映,市場購物分析,銀行,發(fā)現(xiàn)偽信用卡使用模式,識別誠信顧客,預(yù)測可能更換信用卡的顧客,確定不同顧客群使用信用卡消費(fèi)的情況,保險,需求分析,預(yù)測購買新險種的顧客,39,
- 溫馨提示:
1: 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 專題黨課講稿:以高質(zhì)量黨建保障國有企業(yè)高質(zhì)量發(fā)展
- 廉政黨課講稿材料:堅決打好反腐敗斗爭攻堅戰(zhàn)持久戰(zhàn)總體戰(zhàn)涵養(yǎng)風(fēng)清氣正的政治生態(tài)
- 在新錄用選調(diào)生公務(wù)員座談會上和基層單位調(diào)研座談會上的發(fā)言材料
- 總工會關(guān)于2025年維護(hù)勞動領(lǐng)域政治安全的工作匯報材料
- 基層黨建工作交流研討會上的講話發(fā)言材料
- 糧食和物資儲備學(xué)習(xí)教育工作部署會上的講話發(fā)言材料
- 市工業(yè)園區(qū)、市直機(jī)關(guān)單位、市紀(jì)委監(jiān)委2025年工作計劃
- 檢察院政治部關(guān)于2025年工作計劃
- 辦公室主任2025年現(xiàn)實(shí)表現(xiàn)材料
- 2025年~村農(nóng)村保潔員規(guī)范管理工作方案
- 在深入貫徹中央8項規(guī)定精神學(xué)習(xí)教育工作部署會議上的講話發(fā)言材料4篇
- 開展深入貫徹規(guī)定精神學(xué)習(xí)教育動員部署會上的講話發(fā)言材料3篇
- 在司法黨組中心學(xué)習(xí)組學(xué)習(xí)會上的發(fā)言材料
- 國企黨委關(guān)于推動基層黨建與生產(chǎn)經(jīng)營深度融合工作情況的報告材料
- 副書記在2025年工作務(wù)虛會上的發(fā)言材料2篇
相關(guān)資源
更多