《數(shù)據(jù)倉庫原理、設(shè)計與應(yīng)用》教案-第1章.ppt
《《數(shù)據(jù)倉庫原理、設(shè)計與應(yīng)用》教案-第1章.ppt》由會員分享,可在線閱讀,更多相關(guān)《《數(shù)據(jù)倉庫原理、設(shè)計與應(yīng)用》教案-第1章.ppt(28頁珍藏版)》請在裝配圖網(wǎng)上搜索。
第1章數(shù)據(jù)倉庫與數(shù)據(jù)挖掘概述,隨著信息技術(shù)的不斷推廣和應(yīng)用,許多企業(yè)都已經(jīng)在使用管理信息系統(tǒng)處理管理事務(wù)和日常業(yè)務(wù)。這些管理信息系統(tǒng)為企業(yè)積累了大量的信息。企業(yè)管理者開始考慮如何利用這些信息海洋對企業(yè)的管理決策提供支持。因此,產(chǎn)生了與傳統(tǒng)數(shù)據(jù)庫有很大差異的數(shù)據(jù)環(huán)境要求和從這些海洋數(shù)據(jù)中獲取特殊知識的工具需要。 本章目標: (1)了解數(shù)據(jù)倉庫的發(fā)展與展望 。 (2) 理解數(shù)據(jù)倉庫的體系結(jié)構(gòu)和參照結(jié)構(gòu)。 (3) 初步了解數(shù)據(jù)挖掘技術(shù)、數(shù)據(jù)挖掘技術(shù)與工具 。 (4) 掌握數(shù)據(jù)挖掘的應(yīng)用 。,數(shù)據(jù)倉庫與數(shù)據(jù)挖掘概述,1.1數(shù)據(jù)倉庫的發(fā)展與展望 1.2數(shù)據(jù)倉庫的體系結(jié)構(gòu) 1.3數(shù)據(jù)倉庫的參照結(jié)構(gòu) 1.4數(shù)據(jù)挖掘技術(shù)概述 1.5數(shù)據(jù)挖掘技術(shù)與工具 1.6數(shù)據(jù)挖掘的應(yīng)用 練 習(xí),1.1數(shù)據(jù)倉庫的發(fā)展與展望,1.1.1從傳統(tǒng)數(shù)據(jù)庫到數(shù)據(jù)倉庫 隨著市場競爭的加劇,信息系統(tǒng)的用戶已經(jīng)不滿足于僅僅用計算機去處理每天所發(fā)生的事務(wù)數(shù)據(jù),而是需要信息——能夠支持決策的信息,去幫助管理決策。這就需要一種能夠?qū)⑷粘I(yè)務(wù)處理中所收集到的各種數(shù)據(jù)轉(zhuǎn)變?yōu)榫哂猩虡I(yè)價值信息的技術(shù),傳統(tǒng)數(shù)據(jù)庫系統(tǒng)無法承擔(dān)這一責(zé)任。因為傳統(tǒng)數(shù)據(jù)庫的處理方式和決策分析中的數(shù)據(jù)需求不相稱。這些不相稱性主要表現(xiàn)在決策處理中的系統(tǒng)響應(yīng)問題、決策數(shù)據(jù)需求的問題和決策數(shù)據(jù)操作的問題。,1.1數(shù)據(jù)倉庫的發(fā)展與展望,1.決策處理的系統(tǒng)響應(yīng)問題 2.決策數(shù)據(jù)需求的問題 3.決策數(shù)據(jù)操作的問題 4.數(shù)據(jù)倉庫與傳統(tǒng)數(shù)據(jù)庫的對比,1.1數(shù)據(jù)倉庫的發(fā)展與展望,,定義: “一個面向主題的、集成的、隨時間變化的、非易失性數(shù)據(jù)的集合,用于支持管理層的決策過程”。 特性: 面向主題性 數(shù)據(jù)集成性 數(shù)據(jù)的時變性 數(shù)據(jù)的非易失性 數(shù)據(jù)的集合性 支持決策作用。,1.1.2 數(shù)據(jù)倉庫的定義與基本特性,1.1.3 數(shù)據(jù)倉庫的未來發(fā)展 基于關(guān)系對象數(shù)據(jù)庫的數(shù)據(jù)倉庫 網(wǎng)絡(luò)的影響 操作型數(shù)據(jù)倉庫要求 Web中的代理技術(shù),1.2 數(shù)據(jù)倉庫的體系結(jié)構(gòu),1.2.1 數(shù)據(jù)倉庫的概念結(jié)構(gòu) 從數(shù)據(jù)倉庫的概念結(jié)構(gòu)看,應(yīng)該包含:數(shù)據(jù)源、數(shù)據(jù)準備區(qū)、數(shù)據(jù)倉庫數(shù)據(jù)庫、數(shù)據(jù)集市/知識挖掘庫以及各種管理工具和應(yīng)用工具。,1.2.2 虛擬數(shù)據(jù)倉庫結(jié)構(gòu) 虛擬數(shù)據(jù)倉庫利用描述了業(yè)務(wù)系統(tǒng)中數(shù)據(jù)位置和抽取數(shù)據(jù)算法的元數(shù)據(jù)直接從業(yè)務(wù)系統(tǒng)中抽取查詢的數(shù)據(jù)進行概括、聚合操作后,將最終結(jié)果提供給用戶,1.2.3 數(shù)據(jù)集市結(jié)構(gòu) 數(shù)據(jù)集市結(jié)構(gòu)或稱為主題結(jié)構(gòu)的數(shù)據(jù)倉庫是按照主題進行構(gòu)思所形成的數(shù)據(jù)倉庫,沒有一個獨立的數(shù)據(jù)倉庫。系統(tǒng)的數(shù)據(jù)不存儲在同一數(shù)據(jù)倉庫中,每個主題有自己的物理存儲區(qū)。,1.2.4 單一數(shù)據(jù)倉庫結(jié)構(gòu) 將所有的主題都集中到一個大型數(shù)據(jù)庫中的體系結(jié)構(gòu)。數(shù)據(jù)源中數(shù)據(jù)被按照同一標準抽取到獨立的數(shù)據(jù)倉庫中,用戶在使用時再根據(jù)主題將數(shù)據(jù)倉庫中的數(shù)據(jù)發(fā)布到數(shù)據(jù)集市中。,1.2.5 分布式數(shù)據(jù)倉庫結(jié)構(gòu) 在企業(yè)各個分公司具有相當(dāng)大的獨立性時,企業(yè)總部設(shè)置一個全局數(shù)據(jù)倉庫,各個分公司設(shè)置各自的局部數(shù)據(jù)倉庫。局部數(shù)據(jù)倉庫主要存儲各自的未經(jīng)轉(zhuǎn)換的細節(jié)數(shù)據(jù),全局數(shù)據(jù)倉庫中主要存儲經(jīng)過轉(zhuǎn)換的綜合數(shù)據(jù),站點A 站點B 站點C 站點D,全局數(shù)據(jù)倉庫,總部,1.3數(shù)據(jù)倉庫的參照結(jié)構(gòu),數(shù)據(jù)倉庫的基本功能包含:數(shù)據(jù)抽取,數(shù)據(jù)篩選、清理,清理后的數(shù)據(jù)加載,設(shè)立數(shù)據(jù)集市,完成數(shù)據(jù)倉庫的查詢、決策分析和知識的挖掘等操作。 數(shù)據(jù)倉庫的管理層分成數(shù)據(jù)管理與元數(shù)據(jù)管理兩部分,主要負責(zé)對數(shù)據(jù)倉庫中的數(shù)據(jù)抽取、清理、加載、更新與刷新等操作進行管理。 數(shù)據(jù)倉庫環(huán)境支持層包含數(shù)據(jù)傳輸和數(shù)據(jù)倉庫基礎(chǔ)兩部分。,1.3.1 數(shù)據(jù)倉庫基本功能層,數(shù)據(jù)來源主要包含:業(yè)務(wù)數(shù)據(jù)、歷史數(shù)據(jù)、辦公數(shù)據(jù)、Web數(shù)據(jù)、外部數(shù)據(jù)以及數(shù)據(jù)源元數(shù)據(jù) 數(shù)據(jù)準備區(qū)的功能結(jié)構(gòu)部分由數(shù)據(jù)標準化處理、數(shù)據(jù)的過濾與匹配、數(shù)據(jù)的凈化處理、標明數(shù)據(jù)的時間戳、確認數(shù)據(jù)質(zhì)量與元數(shù)據(jù)抽取和創(chuàng)建等操作組成 數(shù)據(jù)倉庫的功能結(jié)構(gòu)部分由數(shù)據(jù)重整和數(shù)據(jù)倉庫創(chuàng)建以及元數(shù)據(jù)管理組成 數(shù)據(jù)集市/知識挖掘庫的功能結(jié)構(gòu)與數(shù)據(jù)倉庫的功能結(jié)構(gòu)極為相似 數(shù)據(jù)倉庫的數(shù)據(jù)存取與使用結(jié)構(gòu)主要為數(shù)據(jù)倉庫的最終用戶提供進行決策分析和挖掘知識的功能。數(shù)據(jù)倉庫的數(shù)據(jù)存取與使用結(jié)構(gòu)應(yīng)該包含數(shù)據(jù)倉庫存取與檢索、元數(shù)據(jù)管理以及數(shù)據(jù)倉庫分析與報告,1.3.2 數(shù)據(jù)倉庫的管理層,數(shù)據(jù)管理層中的數(shù)據(jù)抽取、新數(shù)據(jù)需求與查詢管理主要負責(zé)完成從數(shù)據(jù)源中抽取數(shù)據(jù)的管理。 數(shù)據(jù)倉庫中的數(shù)據(jù)加載、存儲、刷新和更新系統(tǒng)則負責(zé)對從數(shù)據(jù)源中所抽取的數(shù)據(jù)在完成篩選、凈化處理以后,將這些數(shù)據(jù)加載、存儲到數(shù)據(jù)倉庫中;捕獲數(shù)據(jù)源中的數(shù)據(jù)變化,用最新數(shù)據(jù)充實數(shù)據(jù)倉庫;根據(jù)用戶的需求和數(shù)據(jù)倉庫管理的要求對數(shù)據(jù)倉庫進行更新等工作。 安全性與用戶授權(quán)管理系統(tǒng)主要負責(zé)數(shù)據(jù)倉庫的安全管理工作。 數(shù)據(jù)倉庫的數(shù)據(jù)歸檔、恢復(fù)及凈化系統(tǒng)主要負責(zé)定期對數(shù)據(jù)倉庫中的數(shù)據(jù)進行歸檔、備份。凈化系統(tǒng)則負責(zé)對從數(shù)據(jù)源所抽取的數(shù)據(jù)進行數(shù)據(jù)的篩選、數(shù)據(jù)標準的統(tǒng)一、數(shù)據(jù)內(nèi)容的統(tǒng)一等各種求精、重整凈化工作的管理。,1.3.3 數(shù)據(jù)倉庫的元數(shù)據(jù)管理層,負責(zé)管理數(shù)據(jù)倉庫所使用的元數(shù)據(jù),其中包括: 數(shù)據(jù)倉庫、數(shù)據(jù)集市/知識挖掘庫和詞匯表管理 元數(shù)據(jù)抽取、創(chuàng)建、存儲和更新管理 預(yù)定義的查詢和報表以及索引管理 刷新與復(fù)制管理,登錄、歸檔、恢復(fù)與凈化管理,1.3.4 數(shù)據(jù)倉庫的環(huán)境支持層,數(shù)據(jù)傳輸層包含了: 數(shù)據(jù)傳輸和傳送網(wǎng)絡(luò) 客戶/服務(wù)器代理和中間件 復(fù)制系統(tǒng) 數(shù)據(jù)傳輸?shù)陌踩U舷到y(tǒng),1.4數(shù)據(jù)挖掘技術(shù)概述,1.4.1 數(shù)據(jù)挖掘的發(fā)展 在促進數(shù)據(jù)挖掘誕生、發(fā)展和應(yīng)用的眾多原因中主要有: 超大規(guī)模數(shù)據(jù)庫的出現(xiàn) 先進的計算機技術(shù) 經(jīng)營管理的實際需要 數(shù)據(jù)的精深計算能力。,,1.4.2 數(shù)據(jù)挖掘的定義 從技術(shù)角度看,數(shù)據(jù)挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機的實際數(shù)據(jù)中,提取隱含在其中的、人們所不知道的、但又是潛在有用的信息和知識的過程。 從商業(yè)應(yīng)用角度看,數(shù)據(jù)挖掘是一種嶄新的商業(yè)信息處理技術(shù),其主要特點是對商業(yè)數(shù)據(jù)庫中的大量業(yè)務(wù)數(shù)據(jù)進行抽取、轉(zhuǎn)化、分析和模式化處理,從中提取輔助商業(yè)決策的關(guān)鍵知識。,,數(shù)據(jù)挖掘工具與傳統(tǒng)數(shù)據(jù)分析工具的比較,1.5 數(shù)據(jù)挖掘技術(shù)與工具,1.5.1 常用數(shù)據(jù)挖掘技術(shù) 數(shù)據(jù)挖掘的發(fā)展受到數(shù)據(jù)庫系統(tǒng)、統(tǒng)計學(xué)、機器學(xué)習(xí)、可視化技術(shù)、信息技術(shù)以及其它學(xué)科的影響,例如神經(jīng)網(wǎng)絡(luò)、模糊/粗糙集理論、知識表示、歸納技術(shù)與高性能計算等。 從常用的數(shù)據(jù)挖掘技術(shù)來看可以分成三大類: 傳統(tǒng)分析類 知識發(fā)現(xiàn)類 其它最新發(fā)展的一些數(shù)據(jù)挖掘技術(shù)。,1.5.2 常用數(shù)據(jù)挖掘工具,數(shù)據(jù)挖掘工具按照使用方式,可以分成:決策方案生成工具、商業(yè)分析工具和研究分析工具三大類。 按照數(shù)據(jù)挖掘的技術(shù)可以分成:基于神經(jīng)網(wǎng)絡(luò)的工具、基于規(guī)則和決策樹的工具、基于模糊邏輯的工具和綜合性數(shù)據(jù)挖掘工具等。 按照數(shù)據(jù)挖掘的應(yīng)用范圍可以將挖掘工具分成專用型數(shù)據(jù)挖掘工具和通用型數(shù)據(jù)挖掘工具。,1.5.3 數(shù)據(jù)挖掘工具的評價標準,模式種類的數(shù)量 解決復(fù)雜問題的能力 操作性能 數(shù)據(jù)獲取能力 挖掘結(jié)果的輸出 噪聲數(shù)據(jù)的處理及挖掘工具的魯棒性,1.5.4 常用數(shù)據(jù)挖掘工具選擇,1.6 數(shù)據(jù)挖掘的應(yīng)用,1.6.1 數(shù)據(jù)挖掘與數(shù)據(jù)倉庫 大多數(shù)數(shù)據(jù)挖掘工具需要在集成的、一致的、經(jīng)過清理的數(shù)據(jù)上進行挖掘。 數(shù)據(jù)挖掘過程中所需要的數(shù)據(jù)處理與分析工具完全可以在數(shù)據(jù)倉庫的數(shù)據(jù)處理與數(shù)據(jù)分析工具中找到, 數(shù)據(jù)倉庫中的OLAP完全可以為數(shù)據(jù)挖掘提供有關(guān)的數(shù)據(jù)操作支持 數(shù)據(jù)挖掘技術(shù)在數(shù)據(jù)倉庫中的應(yīng)用,正好彌補了數(shù)據(jù)倉庫只能提供大量數(shù)據(jù),而無法進行深度信息分析的缺陷。,1.6.2 數(shù)據(jù)挖掘過程,確定挖掘?qū)ο?準備數(shù)據(jù) 建立模型 數(shù)據(jù)挖掘 結(jié)果分析 知識應(yīng)用階段,,業(yè)務(wù)對象,源數(shù)據(jù),集成數(shù)據(jù),目標數(shù)據(jù),預(yù)處理數(shù)據(jù),商業(yè)模式,知識,應(yīng)用方案,業(yè)務(wù)分析人員 數(shù)據(jù)分析人員 數(shù)據(jù)管理人員,1.6.3 數(shù)據(jù)挖掘的用戶,練 習(xí),1.為什么不能依靠傳統(tǒng)的業(yè)務(wù)處理系統(tǒng)進行決策分析? 2.在將數(shù)據(jù)源中的數(shù)據(jù)加載到數(shù)據(jù)倉庫之前需要完成那些工作?為什么要進行這些工作? 3.如果創(chuàng)建一個數(shù)據(jù)倉庫,主要是分析關(guān)于客戶的人口統(tǒng)計(收入、家庭人口、家庭位置、愛好等)。數(shù)據(jù)倉庫的目的在于將特定的產(chǎn)品推銷給合適的潛在客戶群。這個數(shù)據(jù)倉庫應(yīng)該從哪些地方獲取數(shù)據(jù)源,數(shù)據(jù)倉庫的體系結(jié)構(gòu)應(yīng)該包含哪些部分。,4.從數(shù)據(jù)挖掘與數(shù)據(jù)庫、統(tǒng)計學(xué)、機器學(xué)習(xí)的關(guān)系來討論什么是數(shù)據(jù)挖掘? 5.在數(shù)據(jù)挖掘過程中需要涉及到哪些過程? 6.在現(xiàn)實中有哪些人需要使用數(shù)據(jù)挖掘技術(shù)來幫助他的工作?,- 1.請仔細閱讀文檔,確保文檔完整性,對于不預(yù)覽、不比對內(nèi)容而直接下載帶來的問題本站不予受理。
- 2.下載的文檔,不會出現(xiàn)我們的網(wǎng)址水印。
- 3、該文檔所得收入(下載+內(nèi)容+預(yù)覽)歸上傳者、原創(chuàng)作者;如果您是本文檔原作者,請點此認領(lǐng)!既往收益都歸您。
下載文檔到電腦,查找使用更方便
9.9 積分
下載 |
- 配套講稿:
如PPT文件的首頁顯示word圖標,表示該PPT已包含配套word講稿。雙擊word圖標可打開word文檔。
- 特殊限制:
部分文檔作品中含有的國旗、國徽等圖片,僅作為作品整體效果示例展示,禁止商用。設(shè)計者僅對作品中獨創(chuàng)性部分享有著作權(quán)。
- 關(guān) 鍵 詞:
- 數(shù)據(jù)倉庫原理、設(shè)計與應(yīng)用 數(shù)據(jù)倉庫 原理 設(shè)計 應(yīng)用 教案
鏈接地址:http://m.jqnhouse.com/p-2749830.html