數(shù)據(jù)倉庫與數(shù)據(jù)挖掘課件



《數(shù)據(jù)倉庫與數(shù)據(jù)挖掘課件》由會員分享,可在線閱讀,更多相關(guān)《數(shù)據(jù)倉庫與數(shù)據(jù)挖掘課件(46頁珍藏版)》請在裝配圖網(wǎng)上搜索。
1、單擊此處編輯母版標(biāo)題樣式,單擊此處編輯母版文本樣式,第二級,第三級,第四級,第五級,*,數(shù)據(jù)倉庫與數(shù)據(jù)挖掘,講解人,:,李婧潔,講稿設(shè)計,:,曾國強(qiáng),劉歡,資料收集,:,吳婷婷,李冰潔,劉婧桃,杜曉霜,數(shù)據(jù)倉庫與數(shù)據(jù)挖掘講解人:,1,日常生活,的問題:,人們在日常生活中經(jīng)常會遇到這樣的情況:,超市的經(jīng)營者希望將經(jīng)常被同時購買的商品放在一起,以增加銷售;,保險公司想知道購買保險的客戶一般具有哪些特征;,醫(yī)學(xué)研究人員希望從已有的成千上萬份病歷中找出患某種疾病的病人的共同特征,從而為治愈這種疾病提供一些幫助;,日常生活的問題:,2,企業(yè)面臨的問題,經(jīng)過多年的計算機(jī)應(yīng)用和市場積累,許多企業(yè)保存了大量原
2、始數(shù)據(jù)和各種業(yè)務(wù)數(shù)據(jù),它是企業(yè)生產(chǎn)經(jīng)營活動的真實記錄,由于缺乏集中存儲和管理,這些數(shù)據(jù)不能為本企業(yè)加以利用,不能進(jìn)行有效的統(tǒng)計、分析及評估,無法將這些數(shù)據(jù)轉(zhuǎn)換成企業(yè)有用的信息,企業(yè)面臨的問題,3,數(shù)據(jù)爆炸:,自動的數(shù)據(jù)收集工具和成熟的數(shù)據(jù)庫技術(shù)導(dǎo)致巨大的數(shù)據(jù)存儲在文件系統(tǒng)、數(shù)據(jù)庫和其它的信息庫中。,我們會淹死在數(shù)據(jù)中,但卻為信息、知識所餓!,數(shù)據(jù)爆炸:,4,面臨的問題,如何使企業(yè)或組織在激烈的市場競爭中保持對客戶的吸引力?,如何預(yù)先發(fā)現(xiàn)和避免企業(yè)運作過程中不易察覺的商業(yè)風(fēng)險?,如何在堆積如山的企業(yè)交易數(shù)據(jù)中發(fā)現(xiàn)具有商業(yè)價值的閃光點?,面臨的問題,5,不同層次的信息處理需求,事物處理需求,分析處
3、理需求,不同層次的信息處理需求事物處理需求,6,事務(wù)處理需求(,OLTP,),不同的事務(wù)處理子系統(tǒng),采購子系統(tǒng):,訂單、訂單細(xì)則、供應(yīng)商,銷售子系統(tǒng):,顧客、銷售,庫存子系統(tǒng):,出庫領(lǐng)料單、進(jìn)料入庫單、庫存臺帳,人事子系統(tǒng):,員工、部門,各種事務(wù)處理需求,一筆訂購、一筆銷售、一次進(jìn)料、一次出料,要求,強(qiáng)調(diào)多用戶并發(fā)環(huán)境,數(shù)據(jù)的一致性、完整性,事務(wù)處理需求(OLTP)不同的事務(wù)處理子系統(tǒng),7,分析處理需求(,OLAP,),今年銷售量下降的因素(時間、地區(qū)、商品、銷售部門),某種商品今年的銷售情況與以往相比,有怎樣的變化?每年的第一季度商品銷售在各類商品上的分布情況怎樣?,要求,多個子系統(tǒng)中的數(shù)據(jù)
4、(數(shù)據(jù)集成),歷史數(shù)據(jù),匯總、綜合的數(shù)據(jù),分析處理需求(OLAP)今年銷售量下降的因素(時間、地區(qū)、商,8,隨著數(shù)據(jù)庫技術(shù)的應(yīng)用普及和發(fā)展,人們不再僅僅滿足于一般的業(yè)務(wù)處理,而對系統(tǒng)提出了更高的要求:,提供決策支持,隨著數(shù)據(jù)庫技術(shù)的應(yīng)用普及和發(fā)展,人們不再僅僅滿足于一般的業(yè)務(wù),9,數(shù)據(jù)庫 數(shù)據(jù)倉庫,數(shù)據(jù)庫系統(tǒng)能夠很好的用于事務(wù)處理,但它對分析處理的支持一直不能令人滿意。特別是當(dāng)以業(yè)務(wù)處理為主的聯(lián)機(jī)事務(wù)處理(OLTP)應(yīng)用和以分析處理為主的決策支持系統(tǒng)(DSS)應(yīng)用共存于一個數(shù)據(jù)庫系統(tǒng)時,就會產(chǎn)生許多問題(混亂現(xiàn)象)。,例如,事務(wù)處理應(yīng)用一般需要的是當(dāng)前數(shù)據(jù),主要考慮較短的響應(yīng)時間;而分析處理應(yīng)
5、用需要是歷史的、綜合的、集成的數(shù)據(jù),它的分析處理過程可能持續(xù)幾個小時,從而消耗大量的系統(tǒng)資源。,數(shù)據(jù)庫 數(shù)據(jù)倉庫,10,人們逐漸認(rèn)識到直接用事務(wù)處理環(huán)境來支持DSS是行不通的。要提高分析和決策的有效性,分析型處理及其數(shù)據(jù)必須與操作型處理及其數(shù)據(jù)分離(不能都在一個數(shù)據(jù)庫環(huán)境中)。必須把分析型數(shù)據(jù)從事務(wù)處理環(huán)境中提取出來,按照DSS處理的需要進(jìn)行重新組織,建立單獨的分析處理環(huán)境。,數(shù)據(jù)倉庫技術(shù)正是為了構(gòu)建這種新的分析處理環(huán)境而出現(xiàn)的一種,數(shù)據(jù)存儲,和,組織技術(shù)。,人們逐漸認(rèn)識到直接用事務(wù)處理環(huán)境來支持DSS是行不通的。要提,11,數(shù)據(jù)倉庫的定義,數(shù)據(jù)倉庫,是一種面向主題的數(shù)據(jù)管理技術(shù),它提供集成化
6、的、歷史的數(shù)據(jù)管理功能,支持綜合性的數(shù)據(jù)分析,特別是戰(zhàn)略分析。,數(shù)據(jù)倉庫構(gòu)成了DSS 和DBMS的技術(shù)基礎(chǔ),它必將推動DSS研究的全面發(fā)展和方法的實用性化。,數(shù)據(jù)倉庫的定義數(shù)據(jù)倉庫是一種面向主題的數(shù)據(jù)管理技術(shù),它提供集,12,通俗的解釋,人們專門為業(yè)務(wù)的統(tǒng)計分析建立一個數(shù)據(jù)中心,它的數(shù)據(jù)可以從聯(lián)機(jī)的事務(wù)處理系統(tǒng)、異構(gòu)的外部數(shù)據(jù)源、脫機(jī)的歷史業(yè)務(wù)數(shù)據(jù)中得到;它是一個聯(lián)機(jī)的系統(tǒng),專門為分析統(tǒng)計和決策支持應(yīng)用服務(wù),通過它可滿足決策支持和聯(lián)機(jī)分析應(yīng)用所要求的一切。這個數(shù)據(jù)中心就叫作數(shù)據(jù)倉庫。,通俗的解釋人們專門為業(yè)務(wù)的統(tǒng)計分析建立一個數(shù)據(jù)中心,它的數(shù)據(jù),13,特征及體系結(jié)構(gòu),數(shù)據(jù)倉庫的特征,數(shù)據(jù)倉庫的
7、體系結(jié)構(gòu),特征及體系結(jié)構(gòu)數(shù)據(jù)倉庫的特征,14,數(shù)據(jù)倉庫的體系結(jié)構(gòu),一個完整的數(shù)據(jù)倉庫結(jié)構(gòu)一般由6個基本層次組成,1)數(shù)據(jù)源層。,2)數(shù)據(jù)后端處理層。,3)數(shù)據(jù)倉庫及其管理層(包括源數(shù)據(jù)管理)。,4)數(shù)據(jù)集市層。,5)數(shù)據(jù)倉庫應(yīng)用層,(或稱前端處理層)。,6)數(shù)據(jù)展示層。,數(shù)據(jù)倉庫的體系結(jié)構(gòu)一個完整的數(shù)據(jù)倉庫結(jié)構(gòu)一般由6個基本層次組,15,數(shù)據(jù)倉庫層次結(jié)構(gòu)示意圖,數(shù)據(jù)展示層,數(shù)據(jù)倉庫應(yīng)用層,數(shù)據(jù)集市層,數(shù)據(jù)倉庫及管理層,數(shù)據(jù)后端處理層,數(shù)據(jù)源層,數(shù)據(jù)倉庫層次結(jié)構(gòu)示意圖數(shù)據(jù)展示層數(shù)據(jù)倉庫應(yīng)用層數(shù)據(jù)集市層數(shù)據(jù),16,數(shù)據(jù)挖掘,定義:,數(shù)據(jù)挖掘(Data Mining,),就是從存放在數(shù)據(jù)庫,數(shù)據(jù)倉庫
8、或其他信息庫中的大量的數(shù)據(jù)中獲取有效的、新穎的、潛在有用的、最終可理解的模式的非平凡過程。,數(shù)據(jù)挖掘定義:數(shù)據(jù)挖掘(Data Mining),就是從存放,17,經(jīng)典案例尿布與啤酒,在一家超市中,人們發(fā)現(xiàn)了一個特別有趣的現(xiàn)象:尿布與啤酒這兩種風(fēng)馬牛不相及的商品居然擺在一起。但這一奇怪的舉措居然使尿布和啤酒的稍量大幅增加了。這可不是一個笑話,而是一直被商家所津津樂道的發(fā)生在美國沃爾瑪連鎖超市的真實案例。,原來,美國的婦女通常在家照顧孩子,所以她們經(jīng)常會囑咐丈夫在下班回家的路上為孩子買尿布,而丈夫在買尿布的同時又會順手購買自己愛喝的啤酒。這個發(fā)現(xiàn)為商家?guī)砹舜罅康睦麧?,但是如何從浩如煙海卻又雜亂無章
9、的數(shù)據(jù)中,發(fā)現(xiàn)啤酒和尿布銷售之間的聯(lián)系呢?這又給了我們什么樣的啟示呢?,經(jīng)典案例尿布與啤酒在一家超市中,人們發(fā)現(xiàn)了一個特別有趣的,18,數(shù)據(jù)挖掘能做以下七種分析方法,分類(Classification),估計(Estimation),預(yù)測(Prediction),相關(guān)性分組或關(guān)聯(lián)規(guī)則(Affinity grouping or association rules),聚類(Clustering),描述和可視化(Description and Visualization),復(fù)雜數(shù)據(jù)類型挖掘(Text,Web,圖形圖像,視頻,音頻等),數(shù)據(jù)挖掘能做以下七種分析方法分類(Classificati,19,
10、數(shù)據(jù)挖掘分類,直接數(shù)據(jù)挖掘,:目標(biāo)是利用可用的數(shù)據(jù)建立一個模型,這個模型對剩余的數(shù)據(jù),對一個特定的變量(可以理解成數(shù)據(jù)庫中表的屬性,即列)進(jìn)行描述。,間接數(shù)據(jù)挖掘,:目標(biāo)中沒有選出某一具體的變量,用模型進(jìn)行描述;而是在所有的變量中建立起某種關(guān)系,分類、估值、預(yù)言屬于直接數(shù)據(jù)挖掘;后三種屬于間接數(shù)據(jù)挖掘,。,數(shù)據(jù)挖掘分類直接數(shù)據(jù)挖掘:目標(biāo)是利用可用的數(shù)據(jù)建立一個模型,,20,數(shù)據(jù)挖掘過程和主要步驟,數(shù)據(jù)挖掘過程和主要步驟,21,數(shù)據(jù)挖掘過程簡介,(1).確定業(yè)務(wù)對象,(2).數(shù)據(jù)準(zhǔn)備,1)、數(shù)據(jù)的選擇,2)、數(shù)據(jù)的預(yù)處理,3)、數(shù)據(jù)的轉(zhuǎn)換,(3).,數(shù)據(jù)挖掘,(4).,結(jié)果分析,(5).,知識的
11、同化,數(shù)據(jù)挖掘過程簡介 (1).確定業(yè)務(wù)對象,22,數(shù)據(jù)挖掘的發(fā)展前景,當(dāng)前數(shù)據(jù)挖掘應(yīng)用主要集中在電信、零售、農(nóng)業(yè)、網(wǎng)絡(luò)日志、銀行、電力、生物、天體、化工、醫(yī)藥等方面。看似廣泛,,實際應(yīng)用還遠(yuǎn)沒有普及,。而據(jù)Gartner的報告也指出,數(shù)據(jù)挖掘會成為未來10年內(nèi)重要的技術(shù)之一。而數(shù)據(jù)挖掘,也已經(jīng)開始成為一門獨立的專業(yè)學(xué)科。,具體發(fā)展趨勢和應(yīng)用方向主要有:,對知識發(fā)現(xiàn)方法的研究進(jìn)一步發(fā)展,,如對Bayes和Boosting方法的研究和提高;商業(yè)工具軟件不斷產(chǎn)生和完善,注重建立解決問題的整體系統(tǒng),例如Weka等軟件。,數(shù)據(jù)挖掘的發(fā)展應(yīng)是,挖掘工具,在先進(jìn)理論指導(dǎo)下的,改進(jìn),,而就國內(nèi)情況而言,還有
12、至少,20年,的發(fā)展空間。,數(shù)據(jù)挖掘的發(fā)展前景 當(dāng)前數(shù)據(jù)挖掘應(yīng)用主要集中在電,23,謝謝觀賞,謝謝觀賞,24,決策支持系統(tǒng),(decision support system,簡稱DSS)是輔助決策者通過數(shù)據(jù)、模型和知識,以,人機(jī)交互方式,進(jìn)行半結(jié)構(gòu)化或非結(jié)構(gòu)化決策的計算機(jī)應(yīng)用系統(tǒng)。,它是管理信息系統(tǒng)(MIS)向更高一級發(fā)展而產(chǎn)生的,先進(jìn)信息管理系統(tǒng),。它為決策者提供分析問題、建立模型、模擬決策過程和方案的環(huán)境,調(diào)用各種信息資源和分析工具,幫助決策者,提高決策水平和質(zhì)量,。,決策支持系統(tǒng)(decision support system,25,應(yīng)具備的特性,效率足夠高,數(shù)據(jù)質(zhì)量可靠,可擴(kuò)展性,應(yīng)具
13、備的特性效率足夠高,26,數(shù)據(jù)倉庫的四個主要特征,數(shù)據(jù)的時變性,數(shù)據(jù)的非易失性,數(shù)據(jù)是集成的,面向主題,數(shù)據(jù)倉庫的四個主要特征數(shù)據(jù)的時變性,27,subject-oriented(面向主題性),面向主題,表示了數(shù)據(jù)倉庫中數(shù)據(jù)組織的基本原則,數(shù)據(jù)倉庫中的數(shù)據(jù)都是圍繞著某一主題組織展開的。例如,企業(yè)中的客戶、產(chǎn)品、供應(yīng)商等都可以作為主題看待。,從信息管理的角度看,,主題就是在一個較高的管理層次上對信息系統(tǒng)的數(shù)據(jù)按照某一具體的管理對象進(jìn)行綜合、歸類所形成的分析對象。,從數(shù)據(jù)組織的角度看,,主題是一些數(shù)據(jù)集合,這些數(shù)據(jù)集合對分析對象作了比較完整的、一致的描述,這種描述不僅涉及到數(shù)據(jù)自身,而且涉及到數(shù)據(jù)
14、之間的關(guān)系。,確定主題,是組織數(shù)據(jù)倉庫中數(shù)據(jù)的,前提,。,subject-oriented(面向主題性)面向主題表,28,integrated(數(shù)據(jù)集成性),數(shù)據(jù)倉庫的,集成性,是指根據(jù)決策分析的要求,將分散于各處的源數(shù)據(jù)進(jìn)行,抽取、篩選、清理、綜合,等工作,使數(shù)據(jù)倉庫的數(shù)據(jù)具有集成性。,數(shù)據(jù)倉庫在從業(yè)務(wù)處理系統(tǒng)那里獲取數(shù)據(jù)時,并不能將源數(shù)據(jù)庫中的數(shù)據(jù)直接加載到數(shù)據(jù)倉庫中,而是需要進(jìn)行一系列的,數(shù)據(jù)預(yù)處理,,即數(shù)據(jù)的抽取、篩選、清理、綜合等集成工作。,integrated(數(shù)據(jù)集成性)數(shù)據(jù)倉庫的集成性是指根據(jù),29,time-variant 數(shù)據(jù)的時變性,數(shù)據(jù)倉庫的,時變性,,就是數(shù)據(jù)應(yīng)該隨著
15、時間的推移而變化。,盡管數(shù)據(jù)倉庫中的數(shù)據(jù)并不像業(yè)務(wù)數(shù)據(jù)庫那樣反映業(yè)務(wù)處理的實際狀況,但是數(shù)據(jù)也不能長期不變,如果依據(jù)10前的數(shù)據(jù)進(jìn)行決策分析,那決策所帶來的后果將是十分可怕的。,time-variant 數(shù)據(jù)的時變性數(shù)據(jù)倉庫的時變性,就,30,non-volatile,數(shù)據(jù)的非易失性,數(shù)據(jù)倉庫的,非易失性,是指數(shù)據(jù)倉庫的數(shù)據(jù)不進(jìn)行更新處理,而是一旦數(shù)據(jù)進(jìn)入數(shù)據(jù)倉庫以后,就會,保持一個相當(dāng)長的時間,。原因是數(shù)據(jù)倉庫中數(shù)據(jù)大多表示過去某一時刻的數(shù)據(jù),主要用于查詢、分析,不像業(yè)務(wù)系統(tǒng)中的數(shù)據(jù)庫那樣,要經(jīng)常進(jìn)行修改、添加,除非數(shù)據(jù)倉庫中的數(shù)據(jù)是錯誤的。,non-volatile 數(shù)據(jù)的非易失性數(shù)據(jù)倉庫
16、的非易失性是,31,數(shù)據(jù)源,數(shù)據(jù)源是數(shù)據(jù)倉庫的,數(shù)據(jù)來源,,它是多種OLTP系統(tǒng)及外部文件,,一個數(shù)據(jù)倉庫往往可以含多個數(shù)據(jù)源,這些數(shù)據(jù)源可以有多種不同數(shù)據(jù)結(jié)構(gòu)類型,可以有桌面式數(shù)據(jù)庫如Access,也可以是對象關(guān)系數(shù)據(jù)庫、面向?qū)ο髷?shù)據(jù)庫.同時,數(shù)據(jù)源也可以包括各種數(shù)據(jù)文件如Excel、Word以及基于WWW的HTML、XML等文件形式。,數(shù)據(jù)源一般可以分布于網(wǎng)絡(luò)的各個結(jié)點,通過網(wǎng)絡(luò)中的數(shù)據(jù)接口與數(shù)據(jù)倉庫相互連接。,數(shù)據(jù)源數(shù)據(jù)源是數(shù)據(jù)倉庫的數(shù)據(jù)來源,它是多種OLTP系統(tǒng)及外部,32,數(shù)據(jù)后端處理,數(shù)據(jù)后端處理:數(shù)據(jù)源中數(shù)據(jù)經(jīng)提取、清洗、轉(zhuǎn)換最終成為數(shù)據(jù)倉庫所需的數(shù)據(jù)。,它的主要工作是為數(shù)據(jù)倉庫提供統(tǒng)一的數(shù)據(jù)并按階段及時更新這些數(shù)據(jù)。,數(shù)據(jù)后端處理,33,數(shù)據(jù)后端處理,一個完整的后端處理包括下面5個方面,1)數(shù)據(jù)提取,2)數(shù)據(jù)清洗,3)數(shù)據(jù)轉(zhuǎn)換,4)數(shù)據(jù)加載,5)數(shù)據(jù)刷新,數(shù)據(jù)后端處理一個完整的后端處理包括下面5個方面,34,后端處理4個環(huán)節(jié)的流程圖,后端處理4個環(huán)節(jié)的流程圖,35,數(shù)據(jù)倉庫及管理層,1數(shù)據(jù)倉庫,數(shù)據(jù)倉庫是存儲分析與決策數(shù)據(jù)的實體。它一般以關(guān)系結(jié)構(gòu)形式存儲,能支持?jǐn)?shù)據(jù)共享
- 溫馨提示:
1: 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 深入學(xué)習(xí)貫徹中央八項規(guī)定精神交流發(fā)言材料范文(三篇)
- 學(xué)習(xí)中央八項規(guī)定精神心得體會范文(三篇)
- 2024年度組織生活會個人“4個方面”對照檢查材料文稿
- 2024年組織生活會個人對照檢查發(fā)言材料(普通黨員)例文
- 2025年旅游業(yè)高質(zhì)量發(fā)展行動方案文稿
- 2025年機(jī)關(guān)組織生活會班子對照檢查材料范文
- 普通黨員2024年組織生活會個人發(fā)言提綱(圍繞“四個帶頭”方面)文稿
- 鄉(xiāng)班子領(lǐng)導(dǎo)干部2024年度民主生活會“四個帶頭”對照檢查發(fā)言材料文稿
- 2024年度黨員領(lǐng)導(dǎo)干部民主生活會整改落實方案例文
- 關(guān)于2024年度民主生活會個人問題的整改方案例文
- 2025年醫(yī)療保障工作要點范文
- 青年人才“育苗蹲苗”培養(yǎng)實施方案范文
- 2025駐村第一書記組織生活會對照檢查材料例文
- 國企公司2025年安全生產(chǎn)工作要點范文
- 2024年度國企個人組織生活會前準(zhǔn)備情況、上年度整改落實情況范文