大數(shù)據(jù)倉庫與大數(shù)據(jù)挖掘課程設(shè)計(jì).doc
《大數(shù)據(jù)倉庫與大數(shù)據(jù)挖掘課程設(shè)計(jì).doc》由會(huì)員分享,可在線閱讀,更多相關(guān)《大數(shù)據(jù)倉庫與大數(shù)據(jù)挖掘課程設(shè)計(jì).doc(15頁珍藏版)》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。
目錄 1. 緒論 2 1.1項(xiàng)目背景 2 1.2 提出問題 2 2 數(shù)據(jù)庫倉庫與數(shù)據(jù)集的概念介紹 2 2.1數(shù)據(jù)倉庫 2 2.2數(shù)據(jù)集 2 3 數(shù)據(jù)倉庫 3 3.1 數(shù)據(jù)倉庫的設(shè)計(jì) 3 3.1.1數(shù)據(jù)倉庫的概念模型設(shè)計(jì) 3 3.1.2數(shù)據(jù)倉庫的邏輯模型設(shè)計(jì) 3 3.2 數(shù)據(jù)倉庫的建立 3 3.2.1數(shù)據(jù)倉庫數(shù)據(jù)集 3 3.2.2建立維表 4 4.數(shù)據(jù)挖掘操作 4 4.1數(shù)據(jù)預(yù)處理 4 4.1.1描述性數(shù)據(jù)匯總 4 4.2決策樹 4 5、實(shí)驗(yàn)心得 12 6、大總結(jié) 12 1. 緒論 1.1項(xiàng)目背景 在現(xiàn)在大數(shù)據(jù)時(shí)代,各行各業(yè)需要對(duì)商品及相關(guān)關(guān)節(jié)的數(shù)據(jù)進(jìn)行收集處理,尤其零售行業(yè),于企業(yè)對(duì)產(chǎn)品的市場需求進(jìn)行科學(xué)合理的分析,從而預(yù)測出將來的市場,制定出高效的決策,給企業(yè)帶來經(jīng)濟(jì)收益。 1.2 提出問題 對(duì)于超市的商品的購買時(shí)期和購買數(shù)量的如何決定,才可以使銷售量最大,不積壓商品,不缺貨,對(duì)不同時(shí)期季節(jié)和不同人群制定不同方案,使企業(yè)收益最大,通過數(shù)據(jù)挖掘?qū)?shù)據(jù)進(jìn)行決策樹分析,關(guān)聯(lián)分析,順序分析與決策分析等可以制定出最佳方案。 2 數(shù)據(jù)庫倉庫與數(shù)據(jù)集的概念介紹 2.1數(shù)據(jù)倉庫 數(shù)據(jù)倉庫是為企業(yè)所有級(jí)別的決策制定過程提供支持的所有類型數(shù)據(jù)的戰(zhàn)略集合。它是單個(gè)數(shù)據(jù)存儲(chǔ),出于分析性報(bào)告和決策支持的目的而創(chuàng)建。 為企業(yè)提供需要業(yè)務(wù)智能來指導(dǎo)業(yè)務(wù)流程改進(jìn)和監(jiān)視時(shí)間、成本、質(zhì)量和控制。 數(shù)據(jù)倉庫是決策系統(tǒng)支持(dss)和聯(lián)機(jī)分析應(yīng)用數(shù)據(jù)源的結(jié)構(gòu)化數(shù)據(jù)環(huán)境。數(shù)據(jù)倉庫研究和解決從數(shù)據(jù)庫中獲取信息的問題。數(shù)據(jù)倉庫的特征在于面向主題、集成性、穩(wěn)定性和時(shí)變性。 2.2數(shù)據(jù)集 數(shù)據(jù)集是指一種由數(shù)據(jù)所組成的集合。Data set(或dataset)是一個(gè)數(shù)據(jù)的集合,通常以表格形式出現(xiàn)。每一列代表一個(gè)特定變量。每一行都對(duì)應(yīng)于某一成員的數(shù)據(jù)集的問題。它列出的價(jià)值觀為每一個(gè)變量,如身高和體重的一個(gè)物體或價(jià)值的隨機(jī)數(shù)。每個(gè)數(shù)值被稱為數(shù)據(jù)資料。對(duì)應(yīng)于行數(shù),該數(shù)據(jù)集的數(shù)據(jù)可能包括一個(gè)或多個(gè)成員。 3 數(shù)據(jù)倉庫 3.1 數(shù)據(jù)倉庫的設(shè)計(jì) 3.1.1數(shù)據(jù)倉庫的概念模型設(shè)計(jì) 概念模型的設(shè)計(jì)是整個(gè)概念模型開發(fā)過程的三階段。設(shè)計(jì)階段依據(jù)概念模型分析以及分析過程中收集的任何數(shù)據(jù),完成星型模型和雪花型模型的設(shè)計(jì)。如果僅依賴ERD,那只能對(duì)商品、銷售、客戶主題設(shè)計(jì)成如圖所示的概念模型。這種模型適合于傳統(tǒng)的數(shù)據(jù)庫設(shè)計(jì),但不適合于數(shù)據(jù)倉庫的設(shè)計(jì)。 3.1.2數(shù)據(jù)倉庫的邏輯模型設(shè)計(jì) 邏輯建模是數(shù)據(jù)倉庫實(shí)施中的重要一環(huán),因?yàn)樗苤苯臃从吵龈鱾€(gè)業(yè)務(wù)的需求,同時(shí)對(duì)系統(tǒng)的物理實(shí)施有著重要的指導(dǎo)作用,它的作用在于可以通過實(shí)體和關(guān)系勾勒出企業(yè)的數(shù)據(jù)藍(lán)圖,數(shù)據(jù)倉庫的邏輯模型設(shè)計(jì)任務(wù)主要有:分析主題域,確定要裝載到數(shù)據(jù)倉庫的主題、確認(rèn)粒度層次劃分、確認(rèn)數(shù)據(jù)分割策略、關(guān)系模式的定義和記錄系統(tǒng)定義、確認(rèn)數(shù)據(jù)抽取模型等。邏輯模型最終設(shè)計(jì)成果包括每個(gè)主題的邏輯定義,并將相關(guān)內(nèi)容記錄在數(shù)據(jù)倉庫的元數(shù)據(jù)中、粒度劃分、數(shù)據(jù)分割策略、表劃分和數(shù)據(jù)來源等。 3.2 數(shù)據(jù)倉庫的建立 3.2.1數(shù)據(jù)倉庫數(shù)據(jù)集 一般說來,一個(gè)數(shù)據(jù)集市是按照某一特定部門的決策支持需求而組織起來的、針對(duì)一組主題的應(yīng)用系統(tǒng)。例如,財(cái)務(wù)部擁有自己的數(shù)據(jù)集市,用來進(jìn)行財(cái)務(wù)方面的報(bào)表和分析,市場推廣部、銷售部等也擁有各自專用的數(shù)據(jù)集市,用來為本部門的決策支持提供輔助手段。數(shù)據(jù)集市大都采用多維數(shù)據(jù)庫技術(shù),這種技術(shù)對(duì)數(shù)據(jù)的分析而言也許是最優(yōu)的,但肯定不適合于大量數(shù)據(jù)的存儲(chǔ),因?yàn)槎嗑S數(shù)據(jù)庫的數(shù)據(jù)冗余度很高。為了提高速度,對(duì)數(shù)據(jù)集市中的數(shù)據(jù)一般都建立大量的索引。換言之,數(shù)據(jù)集市中往往靠對(duì)數(shù)據(jù)的預(yù)處理來換取運(yùn)行時(shí)的高速度,當(dāng)業(yè)務(wù)部門提出新的問題時(shí),如果不在原來設(shè)計(jì)的范圍內(nèi),則需要數(shù)據(jù)庫管理員對(duì)數(shù)據(jù)庫作許多調(diào)整和優(yōu)化處理。 3.2.2建立維表 維是分析問題的角度,度量是要分析的問題。 多維視圖:用包含度量和維的表的數(shù)據(jù)結(jié)構(gòu)可以創(chuàng)建一個(gè)多維視圖,用試題和維創(chuàng)建的多維模型稱為星型模型,星型模型生成的主要表格被稱為事實(shí)表。事實(shí)表的屬性值幾乎都有連續(xù)值。事實(shí)表是規(guī)范化的。與維表不同不是隨時(shí)間的推移變化,而是不斷變大。 維表:星型模型也具有非常小的表,用來裝載描述信息。維表是逆規(guī)范化的。如果把維表置于第二范式中,這樣的表稱為雪花模型。 維表包括主鍵,通常對(duì)應(yīng)事實(shí)表的外部鍵。如果維表的主鍵不在實(shí)事表中,這個(gè)主鍵字便被稱作退化的維。 創(chuàng)建維表:有3種方法:星型模型、雪花模型和星暴模型。星暴模型含有兩張以上的事實(shí)表?;居行┏洚?dāng)維事實(shí)表。 星型模型:所有信息維都放在同一個(gè)維表中。維表信息包含一個(gè)唯一的標(biāo)識(shí)符(ID)和通過這個(gè)維表建立的所有維所需的屬性。星型模型由小的維表與大的事實(shí)表組成,多稱為“小表和大表”。事實(shí)表一般是標(biāo)準(zhǔn)表。 雪花模型:把信息分為3種標(biāo)準(zhǔn)格式。產(chǎn)品表、類別表、子類別表。把這些信息放到一起需要一定數(shù)據(jù)的連接。雪花模型比星型模型效率低,占空間少。所有的事實(shí)表都有一個(gè)與之相關(guān)的時(shí)間維表。 4.數(shù)據(jù)挖掘操作 4.1數(shù)據(jù)預(yù)處理 4.1.1描述性數(shù)據(jù)匯總 對(duì)于許多數(shù)據(jù)預(yù)處理任務(wù),希望知道關(guān)于數(shù)據(jù)的中心趨勢和離中趨勢特征。中心趨勢度量包括均值(mean)、中位數(shù)(median)、眾數(shù)(mode)和中列數(shù)(midrange),而數(shù)據(jù)離中趨勢度量包括四分位數(shù)(quartiles)、四分位數(shù)極差(interquartile range, IQR)和方差(variance)。這些描述性統(tǒng)計(jì)量有助于理解數(shù)據(jù)的分布。 4.2決策樹 (1) 讀取文本數(shù)據(jù) 使用變量文件節(jié)點(diǎn)讀取定界文本數(shù)據(jù)。可以從選項(xiàng)板中添加變量文件節(jié)點(diǎn),方法是單擊源選項(xiàng)卡找到此節(jié)點(diǎn),或者使用收藏夾選項(xiàng)卡(默認(rèn)情況下,其中包含此節(jié)點(diǎn))。然后,雙擊新添加的節(jié)點(diǎn)以打開相應(yīng)的對(duì)話框。如圖1所示。 圖1 單擊緊挨“導(dǎo)入文件”框右邊以省略號(hào)“...”標(biāo)記的按鈕,瀏覽到系統(tǒng)中的 Clementine 安裝目錄。打開目標(biāo)文件目錄,然后選擇名為sales.xls的文件。選擇從文件讀取字段名,并注意已載入此對(duì)話框中的字段和值。如圖2所示。 圖2 單擊過濾選項(xiàng),可以把用不到的信息給過濾掉。如圖3所示。 圖3 類型選項(xiàng)卡可幫助了解數(shù)據(jù)中的更多字段類型。還可以選擇讀取值來查看各個(gè)字段的實(shí)際值,具體取決于在值列中的選擇。此過程稱為實(shí)例化。如圖4所示。 圖4 (2)添加表 現(xiàn)在已載入數(shù)據(jù)文件,可以瀏覽一下某些記錄的值。其中一個(gè)方法就是構(gòu)建一個(gè)包含表節(jié)點(diǎn)的流。要將表節(jié)點(diǎn)添加到流中,可雙擊選項(xiàng)板中的表節(jié)點(diǎn)圖標(biāo)或?qū)⑵渫戏诺焦ぷ鲄^(qū)。如圖5所示。 圖5 雙擊選項(xiàng)板中的某個(gè)節(jié)點(diǎn)后,該節(jié)點(diǎn)將自動(dòng)與流工作區(qū)中的選定節(jié)點(diǎn)相連接。此外,如果尚未連接節(jié)點(diǎn),則可以使用鼠標(biāo)中鍵將源節(jié)點(diǎn)與表節(jié)點(diǎn)相連接。要模擬鼠標(biāo)中鍵操作,請(qǐng)?jiān)谑褂檬髽?biāo)時(shí)按下 Alt 鍵。如圖6所示。 圖6 要查看表,請(qǐng)單擊工具欄上的綠色箭頭按鈕執(zhí)行流,或者右鍵單擊表節(jié)點(diǎn),然后選擇執(zhí)行。如圖7所示。 圖7 (3) 創(chuàng)建分布圖 將分布節(jié)點(diǎn)添加到流,并將其與源節(jié)點(diǎn)相連接,然后雙擊該節(jié)點(diǎn)以編輯要顯示的選項(xiàng)。選擇商品名稱作為要顯示其分布的目標(biāo)字段。然后,在對(duì)話框中單擊執(zhí)行。如圖8所示。 圖8 最終圖表將有助于查看數(shù)據(jù)的“結(jié)構(gòu)”。結(jié)果表明,商品300g壺瓶棗和400g沁州黃賣的最多。如圖9所示。 圖9 此外,還可以在“輸出”選項(xiàng)卡中找到數(shù)據(jù)審核節(jié)點(diǎn)。如圖10所示。 圖10 添加并執(zhí)行數(shù)據(jù)審核節(jié)點(diǎn),同時(shí)快速瀏覽所有字段的分布圖和直方圖。如圖11所示。 圖11 (4) 創(chuàng)建散點(diǎn)圖 現(xiàn)在我們來看一下有哪些因素會(huì)對(duì)商品出售(目標(biāo)變量)產(chǎn)生影響。作為一名消費(fèi)者,我們一定知道銷售模式對(duì)銷售數(shù)量有著重要的影響。所以創(chuàng)建一個(gè)關(guān)于商品名稱和銷售模式的散點(diǎn)圖。將散點(diǎn)圖節(jié)點(diǎn)放在工作區(qū)中,并將其與源節(jié)點(diǎn)相連接,然后雙擊該節(jié)點(diǎn)對(duì)其進(jìn)行編輯。如圖12所示。 圖12 在“散點(diǎn)圖”選項(xiàng)卡中,選擇商品名稱作為X字段,選擇銷售模式作為Y字段,并選擇銷售金額作為交疊字段。然后單擊執(zhí)行。如圖13所示。 圖13 此散點(diǎn)圖清楚地顯示商品在零售和特價(jià)模式下銷售金額的不同。商品在特價(jià)的銷售模式下,銷售金額明顯高于零售模式下的銷售金額。如圖14所示。 圖14 (5) 創(chuàng)建直方圖 因很多數(shù)據(jù)不能夠直接顯示,所以我們要建立直方圖,直方圖能夠很清晰的顯示數(shù)據(jù)。首先,將網(wǎng)絡(luò)節(jié)點(diǎn)與您工作區(qū)中的源節(jié)點(diǎn)相連接。如圖15所示。 圖15 在“直方圖”選項(xiàng)卡中,選擇商品序號(hào)作為X字段,選擇銷售數(shù)量作為交疊字段。然后單擊執(zhí)行。如圖16所示。 圖16 此直方圖能夠清楚地顯示不同商品銷售數(shù)量的不同。由圖可以看出序號(hào)為1的商品銷售數(shù)量最多,序號(hào)為9的商品銷售數(shù)量最少。如圖17所示。 圖17 5、實(shí)驗(yàn)心得 在本次實(shí)驗(yàn)中,從新建工作流一直到獲得最終結(jié)果,整個(gè)流程讓我對(duì)數(shù)據(jù)挖掘中數(shù)據(jù)分析處理的基本方法有了深入的了解,特別是決策樹模型應(yīng)用的理解,同時(shí),也學(xué)會(huì)了如何使用決策樹通過建模和直觀化顯示發(fā)現(xiàn)數(shù)據(jù)庫中的關(guān)系(即鏈接)以及利用這些鏈接與數(shù)據(jù)中的案例組相對(duì)應(yīng)關(guān)系可以通過建??稍敿?xì)研究這些組并描繪其特征,增強(qiáng)了運(yùn)用決策樹模型和聚類分析模型的能力。 通過這次學(xué)習(xí)讓我意識(shí)到,對(duì)于數(shù)據(jù)我們不僅要能利用統(tǒng)計(jì)來分析它的規(guī)律,也要能會(huì)通過數(shù)據(jù)挖掘軟件來挖掘數(shù)據(jù)當(dāng)中的潛在信息,并且利用數(shù)據(jù)挖掘所得到的有利信息更好的服務(wù)于數(shù)據(jù)使用者。 6、大總結(jié) 堅(jiān)持好一段時(shí)間,終于把完成了任務(wù),通過這幾次實(shí)驗(yàn)報(bào)告的實(shí)踐操作,我收獲很大,不但學(xué)習(xí)相關(guān)數(shù)據(jù)挖掘的知識(shí),關(guān)于SPSS了解更多,操作也比原來熟練多了。雖然過程中有點(diǎn)折磨過,但當(dāng)你克服了,耐心去一步一步操作,那些煩躁的心情就會(huì)慢慢消失,還得要有耐心,認(rèn)真的態(tài)度去操作,才能有結(jié)果。 關(guān)聯(lián)分析是一個(gè)很有用的數(shù)據(jù)挖掘模型,能夠幫助企業(yè)做很多很有用的產(chǎn)品組合推薦、優(yōu)惠促銷組合,同時(shí)也能指導(dǎo)貨架擺放是否合理,還能夠找到更多的潛在客戶,的確真正的把數(shù)據(jù)挖掘落到實(shí)處。關(guān)聯(lián)分析具體能用來做什么呢?可以一句話來概括:最大限度地從你口袋里面掏出更多的錢買我的產(chǎn)品。 1.通過關(guān)聯(lián)規(guī)則,推出相應(yīng)的促銷禮包或優(yōu)惠組合套裝,快速幫助提高銷售額。如自行車針對(duì)不同人群,來制定有效的銷售方案。 2.零售超市或商場,可以通過產(chǎn)品關(guān)聯(lián)程度大小,指導(dǎo)產(chǎn)品合理擺放,方便顧客最購買更多其所需要的產(chǎn)品。最常見的就是超市里面購買肉和購買蔬菜水果等貨架會(huì)擺放得很近,目前就是很多人會(huì)同時(shí)購買肉與蔬菜,產(chǎn)品的合理擺放也是提高銷售的一個(gè)關(guān)鍵。 3.進(jìn)行相關(guān)產(chǎn)品推薦或者挑選相應(yīng)的關(guān)聯(lián)產(chǎn)品進(jìn)行精準(zhǔn)營銷。最常見的是你在亞馬遜或京東購買產(chǎn)品的時(shí)候,旁邊會(huì)出現(xiàn)購買該商品的人,有百分之多少還會(huì)購買如下的產(chǎn)品,快速幫助顧客找到其共同愛好的產(chǎn)品。物以類聚,人以群分。例如,窮人一般和窮人在一起,富人也喜歡和富人在一起。還有數(shù)據(jù)挖掘的人喜歡和數(shù)據(jù)挖掘的人打交道,都離不開這些鳥道理。 4.尋找更多潛在的目標(biāo)客戶。例如:100人里面,購買A的有60人,購買B的有40人,同時(shí)購買A和B的有30人,說明A里面有一半的顧客會(huì)購買B,反推而言。如果推出類似B的產(chǎn)品,除了向產(chǎn)品B的用戶推薦(因?yàn)樾庐a(chǎn)品與B的功能效果比較類似)之外,還可以向A的客戶進(jìn)行推薦,這樣就能最大限度地尋找更多的目標(biāo)客戶。 決策樹分析法是常用的風(fēng)險(xiǎn)分析決策方法。該方法是一種用樹形圖來描述各方案在未來收益的計(jì)算。比較以及選擇的方法,其決策是以期望值為標(biāo)準(zhǔn)的。人們對(duì)未來可能會(huì)遇到好幾種不同的情況。每種情況均有出現(xiàn)的可能,人們目前無法確知,但是可以根據(jù)以前的資料來推斷各種自然狀態(tài)出現(xiàn)的概率。在這樣的條件下,人們計(jì)算的各種方案在未來的經(jīng)濟(jì)效果只能是考慮到各種自然狀態(tài)出現(xiàn)的概率的期望值,與未來的實(shí)際收益不會(huì)完全相等。 決策樹法是管理人員和決策分析人員經(jīng)常采用的一種行之有效的決策工具。它具有下列優(yōu)點(diǎn): 1.決策樹列出了決策問題的全部可行方案和可能出現(xiàn)的各種自然狀態(tài),以及各可行方法在各種不同狀態(tài)下的期望值。 2.能直觀地顯示整個(gè)決策問題在時(shí)間和決策順序上不同階段的決策過程。 3.在應(yīng)用于復(fù)雜的多階段決策時(shí),階段明顯,層次清楚,便于決策機(jī)構(gòu)集體研究,可以周密地思考各種因素,有利于作出正確的決策。 當(dāng)然,決策樹法也不是十全十美的,它也有缺點(diǎn),如使用范圍有限,無法適用于一些不能用數(shù)量表示的決策;對(duì)各種方案的出現(xiàn)概率的確定有時(shí)主觀性較大,可能導(dǎo)致決策失誤;等等 預(yù)測分析法是根據(jù)客觀對(duì)象的已知信息而對(duì)事物在將來的某些特征、發(fā)展?fàn)顩r的一種估計(jì)、測算活動(dòng)。運(yùn)用各種定性和定量的分析理論與方法,對(duì)事物未來發(fā)展的趨勢和水平進(jìn)行判斷和推測的一種活動(dòng)。 預(yù)測的實(shí)質(zhì)是根據(jù)事物的過去和現(xiàn)在估計(jì)未來,根據(jù)已知預(yù)測未知,從而減少對(duì)未來事物認(rèn)識(shí)的不確定性,以指導(dǎo)我們的決策行動(dòng),減少?zèng)Q策的盲目性。預(yù)測學(xué)的出現(xiàn)不是孤立的、它是在人類社會(huì)生產(chǎn)力和科學(xué)技術(shù)日益發(fā)達(dá)的基礎(chǔ)上應(yīng)運(yùn)而生的,它與其它的學(xué)科諸如經(jīng)濟(jì)學(xué)、數(shù)學(xué)、系統(tǒng)工程學(xué)、統(tǒng)計(jì)學(xué)、電子計(jì)算機(jī)技術(shù)等都有密切的關(guān)系。 總而言之,數(shù)據(jù)倉庫與數(shù)據(jù)挖掘這門課程很有學(xué)習(xí)的意思,以后的用處很大,隨著市場競爭的越來越激烈,商業(yè)環(huán)境中的信息越來越密集,企業(yè)必須能夠深入靈活利用積累的大量數(shù)據(jù)挖掘潛在的規(guī)律,提高決策質(zhì)量,把握和發(fā)現(xiàn)市場機(jī)遇,提升企業(yè)的競爭力。 8.任務(wù)分配- 1.請(qǐng)仔細(xì)閱讀文檔,確保文檔完整性,對(duì)于不預(yù)覽、不比對(duì)內(nèi)容而直接下載帶來的問題本站不予受理。
- 2.下載的文檔,不會(huì)出現(xiàn)我們的網(wǎng)址水印。
- 3、該文檔所得收入(下載+內(nèi)容+預(yù)覽)歸上傳者、原創(chuàng)作者;如果您是本文檔原作者,請(qǐng)點(diǎn)此認(rèn)領(lǐng)!既往收益都?xì)w您。
下載文檔到電腦,查找使用更方便
9.9 積分
下載 |
- 配套講稿:
如PPT文件的首頁顯示word圖標(biāo),表示該P(yáng)PT已包含配套word講稿。雙擊word圖標(biāo)可打開word文檔。
- 特殊限制:
部分文檔作品中含有的國旗、國徽等圖片,僅作為作品整體效果示例展示,禁止商用。設(shè)計(jì)者僅對(duì)作品中獨(dú)創(chuàng)性部分享有著作權(quán)。
- 關(guān) 鍵 詞:
- 數(shù)據(jù)倉庫 數(shù)據(jù) 挖掘 課程設(shè)計(jì)
鏈接地址:http://m.jqnhouse.com/p-6664582.html