數(shù)據(jù)挖掘概念與分類算法(適配主題)課件
單擊此處編輯母版標(biāo)題樣式,單擊此處編輯母版文本樣式,第二級,第三級,第四級,第五級,單擊此處編輯母版標(biāo)題樣式,單擊此處編輯母版文本樣式,第二級,第三級,第四級,第五級,數(shù)據(jù)挖掘基本概念與算法介紹,目錄,數(shù)據(jù)挖掘的基本概念,數(shù)據(jù)挖掘與統(tǒng)計(jì)分析,數(shù)據(jù)挖掘的基本算法,數(shù)據(jù)挖掘?qū)嵤┓椒ㄕ?數(shù)據(jù)挖掘的基本概念,什么是數(shù)據(jù)挖掘?,Data,Information,Knowledge,Wisdom,存在太多數(shù)據(jù)挖掘的定義,但基本上有這樣一種描述結(jié)構(gòu),To find/discover/extract /dredge/harvest,、,Interesting/novel/useful/implicit/actable/meaningful,、,Information/knowledge/patterns/trends/rules/anomalies,、,In massive data/large data set/large database/data warehouse,、,Data+context,Information+rules,Knowledge+experience,其他數(shù)據(jù)分析方法:商業(yè)智能,的數(shù)據(jù)分析模型,絕對模型(,Categorical Model,):依據(jù)預(yù)定義路徑尋找原因,如查詢,解釋模型(,Exegetical Model,):依據(jù)多層次路徑尋找原因,如多維分析,思考模型(,Contemplative Model,):參數(shù)化路徑,如場景分析,公式模型(,Formulaic Model,):模型化路徑,如數(shù)據(jù)挖掘,Reporting,Ad Hoc Queries,Predictive Modeling,What happened?,Why did it happen?,What will happen?,ROI,應(yīng)用復(fù)雜性,Stage 3,Stage 2,Stage 1,Human Discovery,Machine-assisted Discovery,現(xiàn)象 模型 誤差,數(shù)據(jù)挖掘?qū)ふ业氖悄P?!,數(shù)據(jù)挖掘是一個過程,“from data mining to knowledge discovery in database”.U.fayyad,G.P.Shapiro and P.Smyth(1996),數(shù)據(jù)挖掘過程中的數(shù)據(jù)預(yù)處理,數(shù)據(jù)清洗,填充缺失值,修均噪聲數(shù)據(jù),識別或刪除孤立點(diǎn),并解決數(shù)據(jù)不一致問題,主要分析方法:分箱(,Binning,)、聚類、回歸,數(shù)據(jù)集成,多個數(shù)據(jù)庫、數(shù)據(jù)方或文件的集成,數(shù)據(jù)變換,規(guī)范化與匯總,數(shù)據(jù)簡化,減少數(shù)據(jù)量的同時,還可以得到相同或相近的分析結(jié)果,主要分析方法:抽樣、主成分分析,數(shù)據(jù)離散化,數(shù)據(jù)簡化的一部分,但非常重要,(,尤其對于數(shù)值型數(shù)據(jù)來說,),數(shù)據(jù)挖掘過程中的數(shù)據(jù)探索,探索性數(shù)據(jù)分析(,Exploratory Data Analysis,EDA,),探索性地查看數(shù)據(jù),概括數(shù)據(jù)集的結(jié)構(gòu)和關(guān)系,對數(shù)據(jù)集沒有各種嚴(yán)格假定,“玩”數(shù)據(jù),主要任務(wù),數(shù)據(jù)可視化(,a picture is worth a thousand words,),殘差分析(數(shù)據(jù)擬合,+,殘差),數(shù)據(jù)的重新表達(dá)(什么樣的尺度對數(shù)抑或平方跟會簡化分析?),方法的耐抗性(對數(shù)據(jù)局部不良的不敏感性,如中位數(shù)耐抗甚于均值),常見方法,統(tǒng)計(jì)量,如均值、方差、根方差、協(xié)方差、峰度、偏度、相關(guān)系數(shù)等,統(tǒng)計(jì)圖,如餅圖、直方圖、散點(diǎn)圖、箱尾圖等,模型,如聚類,什么不是數(shù)據(jù)挖掘?,定量分析(,Quantitative Analysis,)的需要存在企業(yè)管理運(yùn)行的各個側(cè)面或環(huán)節(jié),但并非所有的定量分析問題都可以歸結(jié)到數(shù)據(jù)挖掘范疇的問題。,簡單的報表、圖表及多維分析仍是日常分析工作的主要內(nèi)容,小樣本數(shù)據(jù)的分析傳統(tǒng)統(tǒng)計(jì)分析方法更成熟有效,如趨勢預(yù)測,某些特定業(yè)務(wù)問題無法用數(shù)據(jù)挖掘算法加以解決,例如,資源最優(yōu)配置問題是個運(yùn)籌學(xué)問題,某些物流管理問題或者供應(yīng)鏈管理問題是個隨機(jī)規(guī)劃問題,營銷預(yù)演本質(zhì)是個系統(tǒng)仿真問題,目錄,數(shù)據(jù)挖掘的基本概念,數(shù)據(jù)挖掘與統(tǒng)計(jì)分析,數(shù)據(jù)挖掘的基本算法,數(shù)據(jù)挖掘?qū)嵤┓椒ㄕ?數(shù)據(jù)挖掘與統(tǒng)計(jì)分析,統(tǒng)計(jì)學(xué)與數(shù)據(jù)挖掘的聯(lián)系,從處理數(shù)據(jù)數(shù)據(jù)挖掘中采用了大量統(tǒng)計(jì)學(xué)的思想、方法和工具,聚類分析(無監(jiān)督學(xué)習(xí)過程,統(tǒng)計(jì)分析中的主要技術(shù)),K-Means,Self Organizing Map(SOM),數(shù)據(jù)分類(有監(jiān)督學(xué)習(xí)過程),統(tǒng)計(jì)分類技術(shù):距離判別,費(fèi)雪判別,貝葉斯判別,數(shù)據(jù)挖掘中的分類技術(shù):決策樹,神經(jīng)網(wǎng)絡(luò),其他方法,相關(guān)分析,主成分分析,回歸分析,序列分析,統(tǒng)計(jì)學(xué)與數(shù)據(jù)挖掘的區(qū)別,數(shù)據(jù),樣本數(shù)量不同(在統(tǒng)計(jì)學(xué)中樣本數(shù)量大于,30,,則成為大樣本),數(shù)據(jù)來源和質(zhì)量不同,數(shù)據(jù)挖掘既可以處理結(jié)構(gòu)化數(shù)據(jù),也可以處理非結(jié)構(gòu)化和異型數(shù)據(jù),方法,數(shù)據(jù)挖掘的前提是占有大量數(shù)據(jù),統(tǒng)計(jì)中的實(shí)驗(yàn)設(shè)計(jì)、抽樣設(shè)計(jì)并不適用,有些數(shù)據(jù)挖掘的分析方法是統(tǒng)計(jì)學(xué)中沒有的,如強(qiáng)調(diào)實(shí)時分析,統(tǒng)計(jì)分析方法在對大規(guī)模數(shù)據(jù)處理時占用系統(tǒng)的資源和時間太多,不適宜采用,因此數(shù)據(jù)挖掘大量采用神經(jīng)網(wǎng)絡(luò)、遺傳算法等人工智能方法,模型(模式),模型(統(tǒng)計(jì)學(xué)),VS,模式(數(shù)據(jù)挖掘),統(tǒng)計(jì)建模強(qiáng)調(diào)模型的普適性,數(shù)據(jù)挖掘強(qiáng)調(diào)從數(shù)據(jù)中發(fā)現(xiàn)模式,算法,統(tǒng)計(jì)學(xué)強(qiáng)調(diào)模型,運(yùn)算量居于次要地位,數(shù)據(jù)挖掘的精華在于結(jié)果的未知性,強(qiáng)調(diào)探索性分析,與之對應(yīng)的是算法而不是模型,方法論,統(tǒng)計(jì)學(xué):以數(shù)學(xué)為基礎(chǔ),每種方法有嚴(yán)格的證明體系,數(shù)據(jù)挖掘:采用實(shí)驗(yàn)方法,不具有很強(qiáng)的嚴(yán)謹(jǐn)性,數(shù)據(jù)挖掘相對于統(tǒng)計(jì)學(xué)的特點(diǎn),使用數(shù)據(jù)挖掘工具無須具備太專業(yè)的統(tǒng)計(jì)知識,處理大量的實(shí)際數(shù)據(jù)更有優(yōu)勢,使得數(shù)據(jù)挖掘人員可以集中精力在業(yè)務(wù)建模方面,數(shù)據(jù)挖掘從大型數(shù)據(jù)庫提取所需數(shù)據(jù),利用專屬計(jì)算機(jī)軟件進(jìn)行分析,更能滿足企業(yè)的需求,從理論的角度來看,數(shù)據(jù)挖掘與統(tǒng)計(jì)學(xué)不同,其目的在于方便企業(yè)的末端使用者應(yīng)用,而非為統(tǒng)計(jì)學(xué)家提供檢驗(yàn)工具,目錄,數(shù)據(jù)挖掘的基本概念,數(shù)據(jù)挖掘與統(tǒng)計(jì)分析,數(shù)據(jù)挖掘的基本算法,數(shù)據(jù)挖掘?qū)嵤┓椒ㄕ?數(shù)據(jù)挖掘的基本算法,幾個基本概念,模型(,Model,),vs,模式(,Pattern,),數(shù)據(jù)挖掘的根本目的就是把樣本數(shù)據(jù)中隱含的結(jié)構(gòu)泛化(,Generalize,)到總體(,Population,)上去,模型:對數(shù)據(jù)集的一種全局性的整體特征的描述或概括,適用于數(shù)據(jù)空間中的所有點(diǎn),例如聚類分析,模式:對數(shù)據(jù)集的一種局部性的有限特征的描述或概括,適用于數(shù)據(jù)空間的一個子集,例如關(guān)聯(lián)分析,算法(,Algorithm,):一個定義完備(,well-defined,)的過程,它以數(shù)據(jù)作為輸入并產(chǎn)生模型或模式形式的輸出,描述型挖掘(,Descriptive,),vs,預(yù)測型挖掘(,Predictive,),描述型挖掘:對數(shù)據(jù)進(jìn)行概括,以方便的形式呈現(xiàn)數(shù)據(jù)的重要特征,預(yù)測型挖掘:根據(jù)觀察到的對象特征值來預(yù)測它的其他特征值,描述型挖掘可以是目的,也可以是手段,幾類基本的挖掘算法,關(guān)聯(lián)規(guī)則(模式、描述型),發(fā)現(xiàn)數(shù)據(jù)集中的頻繁模式,例如:,buy(x,”diapers”),buy(x,”beers”)0.5%,60%,分類與預(yù)測(模型、預(yù)測型),發(fā)現(xiàn)能夠區(qū)分或預(yù)測目標(biāo)變量(唯一的)的規(guī)則或者函數(shù),分類的目標(biāo)變量一般是范疇型的,而預(yù)測則是數(shù)量型的,并不必然帶有任何時間延續(xù)型的暗示,例如:股票市值的預(yù)測,病人病情的判斷,聚類(模型、描述型),對數(shù)據(jù)分組以形成新類,類標(biāo)記是未知的,例如:市場細(xì)分,孤立點(diǎn)探測(,Outlier Detection,)(模式、預(yù)測型),分析異?;蛟肼晹?shù)據(jù)的行為模式,例如:欺詐檢測,廣東移動數(shù)據(jù)挖掘項(xiàng)目中的數(shù)據(jù)挖掘算法,客戶流失,(,分類模型、,Logistic,回歸算法,),彩鈴,WAP,購買傾向預(yù)測,(,分類模型、,Logistic,回歸算法,),彩信增量銷售預(yù)測,(,分類模型、,Logistic,回歸算法,),彩鈴用戶流失預(yù)測,(,分類模型、,Logistic,回歸算法,),客戶價值增長預(yù)測,(,分類模型、,Logistic,回歸算法,),競爭對手流失預(yù)測,(,分類模型、,Logistic,回歸算法,),集團(tuán)客戶分群,(,聚類模型、,K-Means,算法,),集團(tuán)客戶級別打分,(,分類模型、,Logistic,回歸算法,),產(chǎn)品關(guān)聯(lián)分析,(,關(guān)聯(lián)規(guī)則,),個人客戶分群分析,(,聚類模型、,K-Means,算法,),集團(tuán)客戶流失預(yù)警模型,(AHP,方法,+Logistic,回歸算法,),分類問題的基本定義,給定一數(shù)據(jù)集合(訓(xùn)練集),數(shù)據(jù)記錄由一系列變量組成,其中有一個變量是目標(biāo)分類標(biāo)簽,尋找一模型,使目標(biāo)分類變量值是其他變量值的一個函數(shù),利用上述函數(shù),一未知分類變量值的數(shù)據(jù)記錄能夠盡可能準(zhǔn)確地被判定到某一類別中去,一般會有另一獨(dú)立地數(shù)據(jù)集(測試集)用以驗(yàn)證所構(gòu)建分類函數(shù)的準(zhǔn)確性,避免過度擬合,分類過程示意,訓(xùn)練集,分類學(xué)習(xí),訓(xùn)練集,分類器,IF rank=professor,OR years 6,THEN tenured=yes,Jef is YES!,先回顧簡單的二元線性回歸問題,y,=,b,0,+,b,1,x,+,u,y,稱為被解釋變量或者因變量,是一個,連續(xù)變量,X,稱為解釋變量或者自變量,是一個連續(xù)變量,b,0,、,b,1,稱為回歸系數(shù),u,是隨機(jī)誤差,一般假設(shè)服從標(biāo)準(zhǔn)正態(tài)分布,y,x,y,=,b,0,+,b,1,x,+,u,.,.,.,.,.,.,.,.,Logistic,回歸進(jìn)行分類和預(yù)測,LOGISTIC,回歸是一種特殊的回歸模型,與古典的線性回歸模型不同,其響應(yīng)變量(,Response Variable,)是一分類變量(,Categorical Variable,)而非連續(xù)變量(,Continuous Variable,)。響應(yīng)變量是一個二值化的變量,通常以,10,表示某一事件發(fā)生或者不發(fā)生。,應(yīng)用,Logistic,回歸得到的概率,p,通常表示在將來某段時間后某一事件發(fā)生的概率。,Odds:,目標(biāo)事件發(fā)生的數(shù)量,/,非目標(biāo)事件發(fā)生的數(shù)量,.,Odds ratio=prob(,目標(biāo)事件,)/prob(,非目標(biāo)事件,)=p/(1-p),p=prob(,目標(biāo)事件,),prob,表示事件發(fā)生的概率,Logit:log of odds ratio=log(p/(1-p),Logistic,回歸,:,擬合下面的模型,logit=a0+a1*X1+ak*Xk,p=prob(,目標(biāo)事件,)=exp(logit)/(1+exp(logit),p,的取值范圍,:0,1,p,流失類模型案例,建模目的:預(yù)測某一段時間之后客戶流失的概率。,確定時間窗口:,確定目標(biāo)變量:定義在,Data Window,中正常而在,Forecast Window,中流失的客戶為,0,,而沒有流失的客戶為,1,。,選擇自變量:在電信的客戶流失模型中,我們一般使用下面幾種類型的變量。,客戶流失指標(biāo),客戶信息數(shù)據(jù)(人口統(tǒng)計(jì)學(xué)數(shù)據(jù)、合同數(shù)據(jù)),呼叫數(shù)據(jù),計(jì)費(fèi)和支持?jǐn)?shù)據(jù),一些轉(zhuǎn)換之后得到的變量,其它數(shù)據(jù),Data Window,Forecast Window,Time Lag,M,M-1,M-2,M-3,M,M-5,M+1,M+2,流失類模型案例,模型的評價,Lift,值,R,方,ROC,曲線,K-S,值,模型的應(yīng)用,P,值大的客戶具有更高的流失傾向,模型的評分分布,劃定,Cut Off Line,。對,Cut Off Line,的劃定可以采用更多的市場數(shù)據(jù)進(jìn)行參考,如正確挽留一個客戶準(zhǔn)備的平均收益和成本,錯誤挽留一個客戶的平均成本,客戶流失的平均損失等。有了這些數(shù)據(jù)可以進(jìn)一步使用貝葉斯方法建立數(shù)量化的分類模型,以確定對,Cut Off Line,的劃定。,頻數(shù),評分,0,10000,Cut Off Line,非流失,流失,分類中的決策樹(,Decision Tree,)歸納,決策樹,類似于流程圖的樹型結(jié)構(gòu),內(nèi)部節(jié)點(diǎn)代表對某個屬性的一次測試,分支代表測試的輸出結(jié)果,葉節(jié)點(diǎn)代表分類標(biāo)簽或分布,決策樹的生成包括兩個階段,樹的創(chuàng)建,首先,所有訓(xùn)練樣本都位于