《數(shù)據(jù)挖掘概念與分類算法(適配主題)課件》由會員分享,可在線閱讀,更多相關(guān)《數(shù)據(jù)挖掘概念與分類算法(適配主題)課件(42頁珍藏版)》請在裝配圖網(wǎng)上搜索。
1、單擊此處編輯母版標題樣式,單擊此處編輯母版文本樣式,第二級,第三級,第四級,第五級,單擊此處編輯母版標題樣式,單擊此處編輯母版文本樣式,第二級,第三級,第四級,第五級,數(shù)據(jù)挖掘基本概念與算法介紹,目錄,數(shù)據(jù)挖掘的基本概念,數(shù)據(jù)挖掘與統(tǒng)計分析,數(shù)據(jù)挖掘的基本算法,數(shù)據(jù)挖掘?qū)嵤┓椒ㄕ?數(shù)據(jù)挖掘的基本概念,什么是數(shù)據(jù)挖掘?,Data,Information,Knowledge,Wisdom,存在太多數(shù)據(jù)挖掘的定義,但基本上有這樣一種描述結(jié)構(gòu),To find/discover/extract /dredge/harvest,、,Interesting/novel/useful/implicit/act
2、able/meaningful,、,Information/knowledge/patterns/trends/rules/anomalies,、,In massive data/large data set/large database/data warehouse,、,Data+context,Information+rules,Knowledge+experience,其他數(shù)據(jù)分析方法:商業(yè)智能,的數(shù)據(jù)分析模型,絕對模型(,Categorical Model,):依據(jù)預定義路徑尋找原因,如查詢,解釋模型(,Exegetical Model,):依據(jù)多層次路徑尋找原因,如多維分析,思考模型
3、(,Contemplative Model,):參數(shù)化路徑,如場景分析,公式模型(,Formulaic Model,):模型化路徑,如數(shù)據(jù)挖掘,Reporting,Ad Hoc Queries,Predictive Modeling,What happened?,Why did it happen?,What will happen?,ROI,應用復雜性,Stage 3,Stage 2,Stage 1,Human Discovery,Machine-assisted Discovery,現(xiàn)象 模型 誤差,數(shù)據(jù)挖掘?qū)ふ业氖悄P?!,數(shù)據(jù)挖掘是一個過程,“from data mining to k
4、nowledge discovery in database”.U.fayyad,G.P.Shapiro and P.Smyth(1996),數(shù)據(jù)挖掘過程中的數(shù)據(jù)預處理,數(shù)據(jù)清洗,填充缺失值,修均噪聲數(shù)據(jù),識別或刪除孤立點,并解決數(shù)據(jù)不一致問題,主要分析方法:分箱(,Binning,)、聚類、回歸,數(shù)據(jù)集成,多個數(shù)據(jù)庫、數(shù)據(jù)方或文件的集成,數(shù)據(jù)變換,規(guī)范化與匯總,數(shù)據(jù)簡化,減少數(shù)據(jù)量的同時,還可以得到相同或相近的分析結(jié)果,主要分析方法:抽樣、主成分分析,數(shù)據(jù)離散化,數(shù)據(jù)簡化的一部分,但非常重要,(,尤其對于數(shù)值型數(shù)據(jù)來說,),數(shù)據(jù)挖掘過程中的數(shù)據(jù)探索,探索性數(shù)據(jù)分析(,Exploratory
5、Data Analysis,EDA,),探索性地查看數(shù)據(jù),概括數(shù)據(jù)集的結(jié)構(gòu)和關(guān)系,對數(shù)據(jù)集沒有各種嚴格假定,“玩”數(shù)據(jù),主要任務,數(shù)據(jù)可視化(,a picture is worth a thousand words,),殘差分析(數(shù)據(jù)擬合,+,殘差),數(shù)據(jù)的重新表達(什么樣的尺度對數(shù)抑或平方跟會簡化分析?),方法的耐抗性(對數(shù)據(jù)局部不良的不敏感性,如中位數(shù)耐抗甚于均值),常見方法,統(tǒng)計量,如均值、方差、根方差、協(xié)方差、峰度、偏度、相關(guān)系數(shù)等,統(tǒng)計圖,如餅圖、直方圖、散點圖、箱尾圖等,模型,如聚類,什么不是數(shù)據(jù)挖掘?,定量分析(,Quantitative Analysis,)的需要存在企業(yè)管理運
6、行的各個側(cè)面或環(huán)節(jié),但并非所有的定量分析問題都可以歸結(jié)到數(shù)據(jù)挖掘范疇的問題。,簡單的報表、圖表及多維分析仍是日常分析工作的主要內(nèi)容,小樣本數(shù)據(jù)的分析傳統(tǒng)統(tǒng)計分析方法更成熟有效,如趨勢預測,某些特定業(yè)務問題無法用數(shù)據(jù)挖掘算法加以解決,例如,資源最優(yōu)配置問題是個運籌學問題,某些物流管理問題或者供應鏈管理問題是個隨機規(guī)劃問題,營銷預演本質(zhì)是個系統(tǒng)仿真問題,目錄,數(shù)據(jù)挖掘的基本概念,數(shù)據(jù)挖掘與統(tǒng)計分析,數(shù)據(jù)挖掘的基本算法,數(shù)據(jù)挖掘?qū)嵤┓椒ㄕ?數(shù)據(jù)挖掘與統(tǒng)計分析,統(tǒng)計學與數(shù)據(jù)挖掘的聯(lián)系,從處理數(shù)據(jù)數(shù)據(jù)挖掘中采用了大量統(tǒng)計學的思想、方法和工具,聚類分析(無監(jiān)督學習過程,統(tǒng)計分析中的主要技術(shù)),K-Mean
7、s,Self Organizing Map(SOM),數(shù)據(jù)分類(有監(jiān)督學習過程),統(tǒng)計分類技術(shù):距離判別,費雪判別,貝葉斯判別,數(shù)據(jù)挖掘中的分類技術(shù):決策樹,神經(jīng)網(wǎng)絡,其他方法,相關(guān)分析,主成分分析,回歸分析,序列分析,統(tǒng)計學與數(shù)據(jù)挖掘的區(qū)別,數(shù)據(jù),樣本數(shù)量不同(在統(tǒng)計學中樣本數(shù)量大于,30,,則成為大樣本),數(shù)據(jù)來源和質(zhì)量不同,數(shù)據(jù)挖掘既可以處理結(jié)構(gòu)化數(shù)據(jù),也可以處理非結(jié)構(gòu)化和異型數(shù)據(jù),方法,數(shù)據(jù)挖掘的前提是占有大量數(shù)據(jù),統(tǒng)計中的實驗設計、抽樣設計并不適用,有些數(shù)據(jù)挖掘的分析方法是統(tǒng)計學中沒有的,如強調(diào)實時分析,統(tǒng)計分析方法在對大規(guī)模數(shù)據(jù)處理時占用系統(tǒng)的資源和時間太多,不適宜采用,因此數(shù)據(jù)挖
8、掘大量采用神經(jīng)網(wǎng)絡、遺傳算法等人工智能方法,模型(模式),模型(統(tǒng)計學),VS,模式(數(shù)據(jù)挖掘),統(tǒng)計建模強調(diào)模型的普適性,數(shù)據(jù)挖掘強調(diào)從數(shù)據(jù)中發(fā)現(xiàn)模式,算法,統(tǒng)計學強調(diào)模型,運算量居于次要地位,數(shù)據(jù)挖掘的精華在于結(jié)果的未知性,強調(diào)探索性分析,與之對應的是算法而不是模型,方法論,統(tǒng)計學:以數(shù)學為基礎,每種方法有嚴格的證明體系,數(shù)據(jù)挖掘:采用實驗方法,不具有很強的嚴謹性,數(shù)據(jù)挖掘相對于統(tǒng)計學的特點,使用數(shù)據(jù)挖掘工具無須具備太專業(yè)的統(tǒng)計知識,處理大量的實際數(shù)據(jù)更有優(yōu)勢,使得數(shù)據(jù)挖掘人員可以集中精力在業(yè)務建模方面,數(shù)據(jù)挖掘從大型數(shù)據(jù)庫提取所需數(shù)據(jù),利用專屬計算機軟件進行分析,更能滿足企業(yè)的需求,從理
9、論的角度來看,數(shù)據(jù)挖掘與統(tǒng)計學不同,其目的在于方便企業(yè)的末端使用者應用,而非為統(tǒng)計學家提供檢驗工具,目錄,數(shù)據(jù)挖掘的基本概念,數(shù)據(jù)挖掘與統(tǒng)計分析,數(shù)據(jù)挖掘的基本算法,數(shù)據(jù)挖掘?qū)嵤┓椒ㄕ?數(shù)據(jù)挖掘的基本算法,幾個基本概念,模型(,Model,),vs,模式(,Pattern,),數(shù)據(jù)挖掘的根本目的就是把樣本數(shù)據(jù)中隱含的結(jié)構(gòu)泛化(,Generalize,)到總體(,Population,)上去,模型:對數(shù)據(jù)集的一種全局性的整體特征的描述或概括,適用于數(shù)據(jù)空間中的所有點,例如聚類分析,模式:對數(shù)據(jù)集的一種局部性的有限特征的描述或概括,適用于數(shù)據(jù)空間的一個子集,例如關(guān)聯(lián)分析,算法(,Algorithm
10、,):一個定義完備(,well-defined,)的過程,它以數(shù)據(jù)作為輸入并產(chǎn)生模型或模式形式的輸出,描述型挖掘(,Descriptive,),vs,預測型挖掘(,Predictive,),描述型挖掘:對數(shù)據(jù)進行概括,以方便的形式呈現(xiàn)數(shù)據(jù)的重要特征,預測型挖掘:根據(jù)觀察到的對象特征值來預測它的其他特征值,描述型挖掘可以是目的,也可以是手段,幾類基本的挖掘算法,關(guān)聯(lián)規(guī)則(模式、描述型),發(fā)現(xiàn)數(shù)據(jù)集中的頻繁模式,例如:,buy(x,”diapers”),buy(x,”beers”)0.5%,60%,分類與預測(模型、預測型),發(fā)現(xiàn)能夠區(qū)分或預測目標變量(唯一的)的規(guī)則或者函數(shù),分類的目標變量一般是
11、范疇型的,而預測則是數(shù)量型的,并不必然帶有任何時間延續(xù)型的暗示,例如:股票市值的預測,病人病情的判斷,聚類(模型、描述型),對數(shù)據(jù)分組以形成新類,類標記是未知的,例如:市場細分,孤立點探測(,Outlier Detection,)(模式、預測型),分析異?;蛟肼晹?shù)據(jù)的行為模式,例如:欺詐檢測,廣東移動數(shù)據(jù)挖掘項目中的數(shù)據(jù)挖掘算法,客戶流失,(,分類模型、,Logistic,回歸算法,),彩鈴,WAP,購買傾向預測,(,分類模型、,Logistic,回歸算法,),彩信增量銷售預測,(,分類模型、,Logistic,回歸算法,),彩鈴用戶流失預測,(,分類模型、,Logistic,回歸算法,),客
12、戶價值增長預測,(,分類模型、,Logistic,回歸算法,),競爭對手流失預測,(,分類模型、,Logistic,回歸算法,),集團客戶分群,(,聚類模型、,K-Means,算法,),集團客戶級別打分,(,分類模型、,Logistic,回歸算法,),產(chǎn)品關(guān)聯(lián)分析,(,關(guān)聯(lián)規(guī)則,),個人客戶分群分析,(,聚類模型、,K-Means,算法,),集團客戶流失預警模型,(AHP,方法,+Logistic,回歸算法,),分類問題的基本定義,給定一數(shù)據(jù)集合(訓練集),數(shù)據(jù)記錄由一系列變量組成,其中有一個變量是目標分類標簽,尋找一模型,使目標分類變量值是其他變量值的一個函數(shù),利用上述函數(shù),一未知分類變量值
13、的數(shù)據(jù)記錄能夠盡可能準確地被判定到某一類別中去,一般會有另一獨立地數(shù)據(jù)集(測試集)用以驗證所構(gòu)建分類函數(shù)的準確性,避免過度擬合,分類過程示意,訓練集,分類學習,訓練集,分類器,IF rank=professor,OR years 6,THEN tenured=yes,Jef is YES!,先回顧簡單的二元線性回歸問題,y,=,b,0,+,b,1,x,+,u,y,稱為被解釋變量或者因變量,是一個,連續(xù)變量,X,稱為解釋變量或者自變量,是一個連續(xù)變量,b,0,、,b,1,稱為回歸系數(shù),u,是隨機誤差,一般假設服從標準正態(tài)分布,y,x,y,=,b,0,+,b,1,x,+,u,.,.,.,.,.,.
14、,.,.,Logistic,回歸進行分類和預測,LOGISTIC,回歸是一種特殊的回歸模型,與古典的線性回歸模型不同,其響應變量(,Response Variable,)是一分類變量(,Categorical Variable,)而非連續(xù)變量(,Continuous Variable,)。響應變量是一個二值化的變量,通常以,10,表示某一事件發(fā)生或者不發(fā)生。,應用,Logistic,回歸得到的概率,p,通常表示在將來某段時間后某一事件發(fā)生的概率。,Odds:,目標事件發(fā)生的數(shù)量,/,非目標事件發(fā)生的數(shù)量,.,Odds ratio=prob(,目標事件,)/prob(,非目標事件,)=p/(1-
15、p),p=prob(,目標事件,),prob,表示事件發(fā)生的概率,Logit:log of odds ratio=log(p/(1-p),Logistic,回歸,:,擬合下面的模型,logit=a0+a1*X1+ak*Xk,p=prob(,目標事件,)=exp(logit)/(1+exp(logit),p,的取值范圍,:0,1,p,流失類模型案例,建模目的:預測某一段時間之后客戶流失的概率。,確定時間窗口:,確定目標變量:定義在,Data Window,中正常而在,Forecast Window,中流失的客戶為,0,,而沒有流失的客戶為,1,。,選擇自變量:在電信的客戶流失模型中,我們一般使用
16、下面幾種類型的變量。,客戶流失指標,客戶信息數(shù)據(jù)(人口統(tǒng)計學數(shù)據(jù)、合同數(shù)據(jù)),呼叫數(shù)據(jù),計費和支持數(shù)據(jù),一些轉(zhuǎn)換之后得到的變量,其它數(shù)據(jù),Data Window,Forecast Window,Time Lag,M,M-1,M-2,M-3,M,M-5,M+1,M+2,流失類模型案例,模型的評價,Lift,值,R,方,ROC,曲線,K-S,值,模型的應用,P,值大的客戶具有更高的流失傾向,模型的評分分布,劃定,Cut Off Line,。對,Cut Off Line,的劃定可以采用更多的市場數(shù)據(jù)進行參考,如正確挽留一個客戶準備的平均收益和成本,錯誤挽留一個客戶的平均成本,客戶流失的平均損失等。有了這些數(shù)據(jù)可以進一步使用貝葉斯方法建立數(shù)量化的分類模型,以確定對,Cut Off Line,的劃定。,頻數(shù),評分,0,10000,Cut Off Line,非流失,流失,分類中的決策樹(,Decision Tree,)歸納,決策樹,類似于流程圖的樹型結(jié)構(gòu),內(nèi)部節(jié)點代表對某個屬性的一次測試,分支代表測試的輸出結(jié)果,葉節(jié)點代表分類標簽或分布,決策樹的生成包括兩個階段,樹的創(chuàng)建,首先,所有訓練樣本都位于