數(shù)據(jù)挖掘概念與分類算法(適配主題)課件

上傳人：陳** 文檔編號：252630592 上傳時間：2024-11-18 格式：PPT 頁數(shù)：42 大?。?79.50KB

收藏版權(quán)申訴舉報下載

第1頁 / 共42頁

第2頁 / 共42頁

第3頁 / 共42頁

下載文檔到電腦，查找使用更方便

15 積分

下載資源

還剩頁未讀，繼續(xù)閱讀

資源描述：

《數(shù)據(jù)挖掘概念與分類算法(適配主題)課件》由會員分享，可在線閱讀，更多相關(guān)《數(shù)據(jù)挖掘概念與分類算法(適配主題)課件（42頁珍藏版）》請在裝配圖網(wǎng)上搜索。

1、單擊此處編輯母版標題樣式,單擊此處編輯母版文本樣式,第二級,第三級,第四級,第五級,單擊此處編輯母版標題樣式,單擊此處編輯母版文本樣式,第二級,第三級,第四級,第五級,數(shù)據(jù)挖掘基本概念與算法介紹,目錄,數(shù)據(jù)挖掘的基本概念,數(shù)據(jù)挖掘與統(tǒng)計分析,數(shù)據(jù)挖掘的基本算法,數(shù)據(jù)挖掘?qū)嵤┓椒ㄕ?數(shù)據(jù)挖掘的基本概念,什么是數(shù)據(jù)挖掘？,Data,Information,Knowledge,Wisdom,存在太多數(shù)據(jù)挖掘的定義，但基本上有這樣一種描述結(jié)構(gòu),To find/discover/extract /dredge/harvest,、,Interesting/novel/useful/implicit/act

2、able/meaningful,、,Information/knowledge/patterns/trends/rules/anomalies,、,In massive data/large data set/large database/data warehouse,、,Data+context,Information+rules,Knowledge+experience,其他數(shù)據(jù)分析方法：商業(yè)智能,的數(shù)據(jù)分析模型,絕對模型（,Categorical Model,）：依據(jù)預定義路徑尋找原因，如查詢,解釋模型（,Exegetical Model,）：依據(jù)多層次路徑尋找原因，如多維分析,思考模型

3、（,Contemplative Model,）：參數(shù)化路徑，如場景分析,公式模型（,Formulaic Model,）：模型化路徑，如數(shù)據(jù)挖掘,Reporting,Ad Hoc Queries,Predictive Modeling,What happened?,Why did it happen?,What will happen?,ROI,應用復雜性,Stage 3,Stage 2,Stage 1,Human Discovery,Machine-assisted Discovery,現(xiàn)象模型誤差,數(shù)據(jù)挖掘?qū)ふ业氖悄Ｐ?!,數(shù)據(jù)挖掘是一個過程,“from data mining to k

4、nowledge discovery in database”.U.fayyad,G.P.Shapiro and P.Smyth(1996),數(shù)據(jù)挖掘過程中的數(shù)據(jù)預處理,數(shù)據(jù)清洗,填充缺失值,修均噪聲數(shù)據(jù),識別或刪除孤立點,并解決數(shù)據(jù)不一致問題,主要分析方法：分箱（,Binning,）、聚類、回歸,數(shù)據(jù)集成,多個數(shù)據(jù)庫、數(shù)據(jù)方或文件的集成,數(shù)據(jù)變換,規(guī)范化與匯總,數(shù)據(jù)簡化,減少數(shù)據(jù)量的同時,還可以得到相同或相近的分析結(jié)果,主要分析方法：抽樣、主成分分析,數(shù)據(jù)離散化,數(shù)據(jù)簡化的一部分,但非常重要,(,尤其對于數(shù)值型數(shù)據(jù)來說,),數(shù)據(jù)挖掘過程中的數(shù)據(jù)探索,探索性數(shù)據(jù)分析（,Exploratory

5、Data Analysis,EDA,）,探索性地查看數(shù)據(jù)，概括數(shù)據(jù)集的結(jié)構(gòu)和關(guān)系,對數(shù)據(jù)集沒有各種嚴格假定,“玩”數(shù)據(jù),主要任務,數(shù)據(jù)可視化（,a picture is worth a thousand words,）,殘差分析（數(shù)據(jù)擬合,+,殘差）,數(shù)據(jù)的重新表達（什么樣的尺度對數(shù)抑或平方跟會簡化分析？）,方法的耐抗性（對數(shù)據(jù)局部不良的不敏感性，如中位數(shù)耐抗甚于均值）,常見方法,統(tǒng)計量，如均值、方差、根方差、協(xié)方差、峰度、偏度、相關(guān)系數(shù)等,統(tǒng)計圖，如餅圖、直方圖、散點圖、箱尾圖等,模型，如聚類,什么不是數(shù)據(jù)挖掘？,定量分析（,Quantitative Analysis,）的需要存在企業(yè)管理運

6、行的各個側(cè)面或環(huán)節(jié)，但并非所有的定量分析問題都可以歸結(jié)到數(shù)據(jù)挖掘范疇的問題。,簡單的報表、圖表及多維分析仍是日常分析工作的主要內(nèi)容,小樣本數(shù)據(jù)的分析傳統(tǒng)統(tǒng)計分析方法更成熟有效，如趨勢預測,某些特定業(yè)務問題無法用數(shù)據(jù)挖掘算法加以解決，例如,資源最優(yōu)配置問題是個運籌學問題,某些物流管理問題或者供應鏈管理問題是個隨機規(guī)劃問題,營銷預演本質(zhì)是個系統(tǒng)仿真問題,目錄,數(shù)據(jù)挖掘的基本概念,數(shù)據(jù)挖掘與統(tǒng)計分析,數(shù)據(jù)挖掘的基本算法,數(shù)據(jù)挖掘?qū)嵤┓椒ㄕ?數(shù)據(jù)挖掘與統(tǒng)計分析,統(tǒng)計學與數(shù)據(jù)挖掘的聯(lián)系,從處理數(shù)據(jù)數(shù)據(jù)挖掘中采用了大量統(tǒng)計學的思想、方法和工具,聚類分析（無監(jiān)督學習過程，統(tǒng)計分析中的主要技術(shù)）,K-Mean

7、s,Self Organizing Map(SOM),數(shù)據(jù)分類（有監(jiān)督學習過程）,統(tǒng)計分類技術(shù)：距離判別，費雪判別，貝葉斯判別,數(shù)據(jù)挖掘中的分類技術(shù)：決策樹，神經(jīng)網(wǎng)絡,其他方法,相關(guān)分析,主成分分析,回歸分析,序列分析,統(tǒng)計學與數(shù)據(jù)挖掘的區(qū)別,數(shù)據(jù),樣本數(shù)量不同（在統(tǒng)計學中樣本數(shù)量大于,30,，則成為大樣本）,數(shù)據(jù)來源和質(zhì)量不同,數(shù)據(jù)挖掘既可以處理結(jié)構(gòu)化數(shù)據(jù)，也可以處理非結(jié)構(gòu)化和異型數(shù)據(jù),方法,數(shù)據(jù)挖掘的前提是占有大量數(shù)據(jù)，統(tǒng)計中的實驗設計、抽樣設計并不適用,有些數(shù)據(jù)挖掘的分析方法是統(tǒng)計學中沒有的，如強調(diào)實時分析,統(tǒng)計分析方法在對大規(guī)模數(shù)據(jù)處理時占用系統(tǒng)的資源和時間太多，不適宜采用，因此數(shù)據(jù)挖

8、掘大量采用神經(jīng)網(wǎng)絡、遺傳算法等人工智能方法,模型（模式）,模型（統(tǒng)計學）,VS,模式（數(shù)據(jù)挖掘）,統(tǒng)計建模強調(diào)模型的普適性，數(shù)據(jù)挖掘強調(diào)從數(shù)據(jù)中發(fā)現(xiàn)模式,算法,統(tǒng)計學強調(diào)模型，運算量居于次要地位,數(shù)據(jù)挖掘的精華在于結(jié)果的未知性，強調(diào)探索性分析，與之對應的是算法而不是模型,方法論,統(tǒng)計學：以數(shù)學為基礎，每種方法有嚴格的證明體系,數(shù)據(jù)挖掘：采用實驗方法，不具有很強的嚴謹性,數(shù)據(jù)挖掘相對于統(tǒng)計學的特點,使用數(shù)據(jù)挖掘工具無須具備太專業(yè)的統(tǒng)計知識，處理大量的實際數(shù)據(jù)更有優(yōu)勢，使得數(shù)據(jù)挖掘人員可以集中精力在業(yè)務建模方面,數(shù)據(jù)挖掘從大型數(shù)據(jù)庫提取所需數(shù)據(jù)，利用專屬計算機軟件進行分析，更能滿足企業(yè)的需求,從理

9、論的角度來看，數(shù)據(jù)挖掘與統(tǒng)計學不同，其目的在于方便企業(yè)的末端使用者應用，而非為統(tǒng)計學家提供檢驗工具,目錄,數(shù)據(jù)挖掘的基本概念,數(shù)據(jù)挖掘與統(tǒng)計分析,數(shù)據(jù)挖掘的基本算法,數(shù)據(jù)挖掘?qū)嵤┓椒ㄕ?數(shù)據(jù)挖掘的基本算法,幾個基本概念,模型（,Model,）,vs,模式（,Pattern,）,數(shù)據(jù)挖掘的根本目的就是把樣本數(shù)據(jù)中隱含的結(jié)構(gòu)泛化（,Generalize,）到總體（,Population,）上去,模型：對數(shù)據(jù)集的一種全局性的整體特征的描述或概括，適用于數(shù)據(jù)空間中的所有點，例如聚類分析,模式：對數(shù)據(jù)集的一種局部性的有限特征的描述或概括，適用于數(shù)據(jù)空間的一個子集，例如關(guān)聯(lián)分析,算法（,Algorithm

10、,）：一個定義完備（,well-defined,）的過程，它以數(shù)據(jù)作為輸入并產(chǎn)生模型或模式形式的輸出,描述型挖掘（,Descriptive,）,vs,預測型挖掘（,Predictive,）,描述型挖掘：對數(shù)據(jù)進行概括，以方便的形式呈現(xiàn)數(shù)據(jù)的重要特征,預測型挖掘：根據(jù)觀察到的對象特征值來預測它的其他特征值,描述型挖掘可以是目的，也可以是手段,幾類基本的挖掘算法,關(guān)聯(lián)規(guī)則（模式、描述型）,發(fā)現(xiàn)數(shù)據(jù)集中的頻繁模式,例如：,buy(x,”diapers”),buy(x,”beers”)0.5%,60%,分類與預測（模型、預測型）,發(fā)現(xiàn)能夠區(qū)分或預測目標變量（唯一的）的規(guī)則或者函數(shù),分類的目標變量一般是

11、范疇型的，而預測則是數(shù)量型的，并不必然帶有任何時間延續(xù)型的暗示,例如：股票市值的預測，病人病情的判斷,聚類（模型、描述型）,對數(shù)據(jù)分組以形成新類，類標記是未知的,例如：市場細分,孤立點探測（,Outlier Detection,）（模式、預測型）,分析異?；蛟肼晹?shù)據(jù)的行為模式,例如：欺詐檢測,廣東移動數(shù)據(jù)挖掘項目中的數(shù)據(jù)挖掘算法,客戶流失,(,分類模型、,Logistic,回歸算法,),彩鈴,WAP,購買傾向預測,(,分類模型、,Logistic,回歸算法,),彩信增量銷售預測,(,分類模型、,Logistic,回歸算法,),彩鈴用戶流失預測,(,分類模型、,Logistic,回歸算法,),客

12、戶價值增長預測,(,分類模型、,Logistic,回歸算法,),競爭對手流失預測,(,分類模型、,Logistic,回歸算法,),集團客戶分群,(,聚類模型、,K-Means,算法,),集團客戶級別打分,(,分類模型、,Logistic,回歸算法,),產(chǎn)品關(guān)聯(lián)分析,(,關(guān)聯(lián)規(guī)則,),個人客戶分群分析,(,聚類模型、,K-Means,算法,),集團客戶流失預警模型,(AHP,方法,+Logistic,回歸算法,),分類問題的基本定義,給定一數(shù)據(jù)集合（訓練集）,數(shù)據(jù)記錄由一系列變量組成,其中有一個變量是目標分類標簽,尋找一模型，使目標分類變量值是其他變量值的一個函數(shù),利用上述函數(shù)，一未知分類變量值

13、的數(shù)據(jù)記錄能夠盡可能準確地被判定到某一類別中去,一般會有另一獨立地數(shù)據(jù)集（測試集）用以驗證所構(gòu)建分類函數(shù)的準確性，避免過度擬合,分類過程示意,訓練集,分類學習,訓練集,分類器,IF rank=professor,OR years 6,THEN tenured=yes,Jef is YES!,先回顧簡單的二元線性回歸問題,y,=,b,0,+,b,1,x,+,u,y,稱為被解釋變量或者因變量，是一個,連續(xù)變量,X,稱為解釋變量或者自變量，是一個連續(xù)變量,b,0,、,b,1,稱為回歸系數(shù),u,是隨機誤差，一般假設服從標準正態(tài)分布,y,x,y,=,b,0,+,b,1,x,+,u,.,.,.,.,.,.

14、,.,.,Logistic,回歸進行分類和預測,LOGISTIC,回歸是一種特殊的回歸模型，與古典的線性回歸模型不同，其響應變量（,Response Variable,）是一分類變量（,Categorical Variable,）而非連續(xù)變量（,Continuous Variable,）。響應變量是一個二值化的變量，通常以,10,表示某一事件發(fā)生或者不發(fā)生。,應用,Logistic,回歸得到的概率,p,通常表示在將來某段時間后某一事件發(fā)生的概率。,Odds:,目標事件發(fā)生的數(shù)量,/,非目標事件發(fā)生的數(shù)量,.,Odds ratio=prob(,目標事件,)/prob(,非目標事件,)=p/(1-

15、p),p=prob(,目標事件,),prob,表示事件發(fā)生的概率,Logit:log of odds ratio=log(p/(1-p),Logistic,回歸,:,擬合下面的模型,logit=a0+a1*X1+ak*Xk,p=prob(,目標事件,)=exp(logit)/(1+exp(logit),p,的取值范圍,:0,1,p,流失類模型案例,建模目的：預測某一段時間之后客戶流失的概率。,確定時間窗口：,確定目標變量：定義在,Data Window,中正常而在,Forecast Window,中流失的客戶為,0,，而沒有流失的客戶為,1,。,選擇自變量：在電信的客戶流失模型中，我們一般使用

16、下面幾種類型的變量。,客戶流失指標,客戶信息數(shù)據(jù)（人口統(tǒng)計學數(shù)據(jù)、合同數(shù)據(jù)）,呼叫數(shù)據(jù),計費和支持數(shù)據(jù),一些轉(zhuǎn)換之后得到的變量,其它數(shù)據(jù),Data Window,Forecast Window,Time Lag,M,M-1,M-2,M-3,M,M-5,M+1,M+2,流失類模型案例,模型的評價,Lift,值,R,方,ROC,曲線,K-S,值,模型的應用,P,值大的客戶具有更高的流失傾向,模型的評分分布,劃定,Cut Off Line,。對,Cut Off Line,的劃定可以采用更多的市場數(shù)據(jù)進行參考，如正確挽留一個客戶準備的平均收益和成本，錯誤挽留一個客戶的平均成本，客戶流失的平均損失等。有了這些數(shù)據(jù)可以進一步使用貝葉斯方法建立數(shù)量化的分類模型，以確定對,Cut Off Line,的劃定。,頻數(shù),評分,0,10000,Cut Off Line,非流失,流失,分類中的決策樹（,Decision Tree,）歸納,決策樹,類似于流程圖的樹型結(jié)構(gòu),內(nèi)部節(jié)點代表對某個屬性的一次測試,分支代表測試的輸出結(jié)果,葉節(jié)點代表分類標簽或分布,決策樹的生成包括兩個階段,樹的創(chuàng)建,首先,所有訓練樣本都位于

展開閱讀全文

溫馨提示:
1: 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

點擊下載此資源

數(shù)據(jù)挖掘概念與分類算法(適配主題)課件

最新文檔

相關(guān)資源

相關(guān)搜索