數(shù)據(jù)挖掘與客戶關(guān)系管理

上傳人:無*** 文檔編號(hào):253199811 上傳時(shí)間:2024-11-30 格式:PPT 頁數(shù):125 大小:1.58MB
收藏 版權(quán)申訴 舉報(bào) 下載
數(shù)據(jù)挖掘與客戶關(guān)系管理_第1頁
第1頁 / 共125頁
數(shù)據(jù)挖掘與客戶關(guān)系管理_第2頁
第2頁 / 共125頁
數(shù)據(jù)挖掘與客戶關(guān)系管理_第3頁
第3頁 / 共125頁

下載文檔到電腦,查找使用更方便

10 積分

下載資源

還剩頁未讀,繼續(xù)閱讀

資源描述:

《數(shù)據(jù)挖掘與客戶關(guān)系管理》由會(huì)員分享,可在線閱讀,更多相關(guān)《數(shù)據(jù)挖掘與客戶關(guān)系管理(125頁珍藏版)》請?jiān)谘b配圖網(wǎng)上搜索。

1、單擊此處編輯母版標(biāo)題樣式,,單擊此處編輯母版文本樣式,,第二級(jí),,第三級(jí),,第四級(jí),,第五級(jí),,,*,吉林師范大學(xué)管理學(xué)院,數(shù)據(jù)挖掘與客戶關(guān)系管理,,案例 卓越亞馬遜的推薦系統(tǒng),,學(xué)習(xí)目標(biāo),通過本章的學(xué)習(xí),將能夠:,,理解數(shù)據(jù)挖掘的含義,,熟悉數(shù)據(jù)挖掘的功能,,熟悉數(shù)據(jù)挖掘的主要技術(shù),,掌握數(shù)據(jù)挖掘的業(yè)務(wù)流程,,了解客戶關(guān)系管理對數(shù)據(jù)挖掘的需求,,理解數(shù)據(jù)挖掘在客戶關(guān)系管理中的作用,,CRM,與數(shù)據(jù)挖掘,10,.1,數(shù)據(jù)挖掘概述,,10.2,數(shù)據(jù)挖掘的任務(wù)、技術(shù)和實(shí)施過程,,10.3,,數(shù)據(jù)挖掘,在,CRM,中應(yīng)用,,10.4,CRM,數(shù)據(jù)挖掘應(yīng)用實(shí)例,,10.5,,數(shù)據(jù)挖掘軟件在,CRM,中

2、的應(yīng)用示例,,10.1,數(shù)據(jù)挖掘概述,10.1.1,數(shù)據(jù)挖掘的產(chǎn)生,,10.1.2,數(shù)據(jù)挖掘的定義,,10.1.3,數(shù)據(jù)挖掘的技術(shù),,10.1.4,數(shù)據(jù)挖掘的功能,,10.1.5,數(shù)據(jù)挖掘的流程,,10.1.,6,數(shù)據(jù)挖掘的,發(fā)展方向,,10.1.1,數(shù)據(jù)挖掘,的產(chǎn)生,數(shù)據(jù)爆炸但知識(shí)貧乏,,支持?jǐn)?shù)據(jù)挖掘技術(shù)的基礎(chǔ),,數(shù)據(jù)挖掘逐漸演變的過程,,數(shù)據(jù)挖掘,數(shù)據(jù)庫越來越大,有價(jià)值的知識(shí),可怕的數(shù)據(jù),數(shù)據(jù)爆炸但知識(shí)貧乏,,數(shù)據(jù)挖掘的出現(xiàn),數(shù)據(jù)爆炸,知識(shí)貧乏,苦惱: 淹沒在數(shù)據(jù)中 ; 不能制定合適的決策!,數(shù)據(jù),知識(shí),決策,模式,,趨勢,,事實(shí),,關(guān)系,,模型,,關(guān)聯(lián)規(guī)則,,序列,目標(biāo)市場,,資金分配,

3、,貿(mào)易選擇,,在哪兒做廣告,,銷售的地理位置,金融,,經(jīng)濟(jì),,政府,,POS.,,人口統(tǒng)計(jì),,生命周期,數(shù)據(jù)爆炸但知識(shí)貧乏,,,,更大,更便宜的存儲(chǔ)器,,,-- 磁盤密度以,Moore’s law,增長,,-- 存儲(chǔ)器價(jià)格飛快,,下降更快,更便宜的信息處理器,,-,- 分析更多的數(shù)據(jù),,-- 適應(yīng)更多復(fù)雜的模型,,-- 引起更多查詢技術(shù),,-- 激起更強(qiáng)的可視化技術(shù),,數(shù)據(jù)挖掘處理技術(shù),,--,數(shù)理統(tǒng)計(jì),,-- 人工智能,,-- 機(jī)器學(xué)習(xí),支持?jǐn)?shù)據(jù)挖掘技術(shù)的基礎(chǔ),,數(shù)據(jù)挖掘,的演化,,機(jī)器學(xué)習(xí),,數(shù)據(jù)庫中的知識(shí)發(fā)現(xiàn),,數(shù)據(jù)挖掘,,10.1.2,數(shù)據(jù)挖掘的定義,SAS,研究所(199,10,):

4、“在大量相關(guān)數(shù)據(jù)基礎(chǔ)之上進(jìn)行數(shù)據(jù)探索和建立相關(guān)模型的先進(jìn)方法”。,,Bhavani(1999):“,使用模式識(shí)別技術(shù)、統(tǒng)計(jì)和數(shù)學(xué)技術(shù),在大量的數(shù)據(jù),7,天連鎖酒店,中發(fā)現(xiàn)有意義的新關(guān)系、模式和趨勢的過程”。,,Hand et al(2000):“,數(shù)據(jù)挖掘就是在大型數(shù)據(jù)庫中尋找有意義、有價(jià)值信息的過程”。,,數(shù)據(jù)挖掘的定義,技術(shù)角度的含義,,商業(yè)角度的含義,,與傳統(tǒng)方法的區(qū)別,,數(shù)據(jù)挖掘的技術(shù)上的定義,數(shù)據(jù)挖掘(,Data Mining,),就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過程。,,這個(gè)定義包括好幾

5、層含義(1)數(shù)據(jù)源必須是真實(shí)的、大量的、含噪聲的;(2)發(fā)現(xiàn)的是用戶感興趣的知識(shí);(3)發(fā)現(xiàn)的知識(shí)要可接受、可理解、可運(yùn)用;(4)并不要求發(fā)現(xiàn)放之四海皆準(zhǔn)的知識(shí),僅支持特定的發(fā)現(xiàn)問題。,,,數(shù)據(jù)挖掘的商業(yè)角度的定義,按企業(yè)既定業(yè)務(wù)目標(biāo),對大量的企業(yè)數(shù)據(jù)進(jìn)行探索和分析,揭示隱藏的、未知的或驗(yàn)證已知的規(guī)律性,并進(jìn)一步將其模型化的先進(jìn)有效的方法。,,,,客戶接觸,,客戶信息,客戶數(shù)據(jù)庫,統(tǒng)計(jì)分析與數(shù)據(jù)挖掘,,客戶知識(shí)發(fā)現(xiàn),,客戶管理,知識(shí)發(fā)現(xiàn):從數(shù)據(jù)中深入抽取隱含的、未知的和有潛在用途的信息,從商業(yè)數(shù)據(jù)到商業(yè)智能,,數(shù)據(jù)挖掘與傳統(tǒng)分析方法的區(qū)別,數(shù)據(jù)挖掘與傳統(tǒng)的數(shù)據(jù)分析,(,如查詢、報(bào)表、聯(lián)機(jī)應(yīng)用分

6、析,),的本質(zhì)區(qū)別是數(shù)據(jù)挖掘是在沒有明確假設(shè)的前提下去挖掘信息、發(fā)現(xiàn)知識(shí),.,。數(shù)據(jù)挖掘所得到的信息應(yīng)具有先未知,有效和可實(shí)用三個(gè)特征,.,,先前未知的信息是指,,該信息是預(yù)先未曾預(yù)料到的,既數(shù)據(jù)挖掘是要發(fā)現(xiàn)那些不能靠直覺發(fā)現(xiàn)的信息或知識(shí),甚至是違背直覺的信息或知識(shí),挖掘出的信息越是出乎意料,就可能越有價(jià)值。在商業(yè)應(yīng)用中最典型的例子就是一家連鎖店通過數(shù)據(jù)挖掘發(fā)現(xiàn)了小孩尿布和啤酒之間有著驚人的聯(lián)系,,,10.1.3,數(shù)據(jù)挖掘的功能,,自動(dòng)預(yù)測趨勢和行為,,關(guān)聯(lián)分析,,對象分類,,聚類分析,,概念描述,,偏差檢測,,數(shù)據(jù)挖掘功能,—,預(yù)測,數(shù)據(jù)挖掘自動(dòng)在大型數(shù)據(jù)庫中尋找預(yù)測性信息,以往需要進(jìn)行大量

7、手工分析的問題如今可以迅速直接由數(shù)據(jù)本身得出結(jié)論。一個(gè)典型的例子是市場預(yù)測問題,數(shù)據(jù)挖掘使用過去有關(guān)促銷的數(shù)據(jù)來尋找未來投資中回報(bào)最大的用戶,其它可預(yù)測的問題包括預(yù)報(bào)破產(chǎn)以及認(rèn)定對指定事件最可能作出反應(yīng)的群體。,,,數(shù)據(jù)挖掘功能,—,關(guān)聯(lián)分析,數(shù)據(jù)關(guān)聯(lián)是數(shù)據(jù)庫中存在的一類重要的可被發(fā)現(xiàn)的知識(shí)。,,若兩個(gè)或多個(gè)變量的取值之間存在某種規(guī)律性,就稱為關(guān)聯(lián)。,,關(guān)聯(lián)可分為簡單關(guān)聯(lián)、時(shí)序關(guān)聯(lián)、因果關(guān)聯(lián)。,,關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫中隱藏的關(guān)聯(lián)網(wǎng)。有時(shí)并不知道數(shù)據(jù)庫中數(shù)據(jù)的關(guān)聯(lián)函數(shù),即使知道也是不確定的,因此關(guān)聯(lián)分析生成的規(guī)則帶有可信度。,,關(guān)聯(lián)是某種事物發(fā)生時(shí)其他事物會(huì)發(fā)生的這樣一種聯(lián)系。例如:每天購

8、買啤酒的人也有可能購買香煙,比重有多大,可以通過關(guān)聯(lián)的支持度和可信度來描述。,,時(shí)序關(guān)聯(lián),是一種縱向的聯(lián)系。例如:今天銀行調(diào)整利率,明天股市的變化。,,數(shù)據(jù)挖掘功能,—,分類,按照分析對象的屬性、特征,建立不同的組類來描述事物。例如:銀行部門根據(jù)以前的數(shù)據(jù)將客戶分成了不同的類別,現(xiàn)在就可以根據(jù)這些來區(qū)分新申請貸款的客戶,以采取相應(yīng)的貸款方案。,,數(shù)據(jù)挖掘功能,—,聚類,,數(shù)據(jù)庫中的記錄可被化分為一系列有意義的子集,即聚類。聚類增強(qiáng)了人們對客觀現(xiàn)實(shí)的認(rèn)識(shí),是概念描述和偏差分析的先決條件。聚類技術(shù)主要包括傳統(tǒng)的模式識(shí)別方法和數(shù)學(xué)分類學(xué)。聚類技術(shù)在劃分對象時(shí)不僅考慮對象之間的距離,還要求劃分出的類具

9、有某種內(nèi)涵描述,從而避免了傳統(tǒng)技術(shù)的某些片面性。,,數(shù)據(jù)挖掘功能,—,概念描述,概念描述就是對某類對象的內(nèi)涵進(jìn)行描述,并概括這類對象的有關(guān)特征。概念描述分為特征性描述和區(qū)別性描述,前者描述某類對象的共同特征,后者描述不同類對象之間的,7,天連鎖酒店,區(qū)別。生成一個(gè)類的特征性描述只涉及該類對象中所有對象的共性。生成區(qū)別性描述的方法很多,如決策樹方法、遺傳算法等。,,數(shù)據(jù)挖掘功能,—,偏差檢測,數(shù)據(jù)庫中的數(shù)據(jù)常有一些異常記錄,從數(shù)據(jù)庫中檢測這些偏差很有意義。偏差包括很多潛在的知識(shí),如分類中的反常實(shí)例、不滿足規(guī)則的特例、觀測結(jié)果與模型預(yù)測值的偏差、量值隨時(shí)間的變化等。偏差檢測的基本方法是,尋找觀測結(jié)

10、果與參,,照值之間有意義的差別。,,偏差檢測,對分析對象的少數(shù)的、極端的特例的描述,揭示內(nèi)在的原因。例如:在銀行的100萬筆交易中有500例的欺詐行為,銀行為了穩(wěn)健經(jīng)營,就要發(fā)現(xiàn)這500例的內(nèi)在因素,減小以后經(jīng)營的風(fēng)險(xiǎn)。,,,10.1.4,數(shù)據(jù)挖掘應(yīng)用,,應(yīng)用領(lǐng)域:銀行、電信、保險(xiǎn)、交通、零售等商業(yè)領(lǐng)域,,能解決的典型商業(yè)問題包括:,,數(shù)據(jù)庫營銷(,Database Marketing),,客戶群體劃分(,Customer,Segmentation&Classification,),,背景分析(,Profile Analysis),,交叉銷售(,Cross-selling),,客戶流失性分析(

11、,Churn Analysis),,客戶信用記分(,Credit Scoring),,欺詐發(fā)現(xiàn)(,Fraud Detection),,各行業(yè)電子商務(wù)網(wǎng)站,算,,法,,層,商,,業(yè),,邏,,輯,,層,行,,業(yè),,應(yīng),,用,,層,商業(yè)應(yīng)用,商業(yè)模型,挖掘算法,CRM,,產(chǎn)品推薦,,客戶細(xì)分,,客戶流失,,客戶利潤,,客戶響應(yīng),關(guān)聯(lián)規(guī)則、序列模式、分類、聚集、神經(jīng)元網(wǎng)絡(luò)、偏差分析…,,WEB,挖掘,,,網(wǎng)站結(jié)構(gòu)優(yōu)化,,網(wǎng)頁推薦,,商品推薦,,。。。,基因挖掘,,,基因表達(dá)路徑分析,,基因表達(dá)相似性分析,,基因表達(dá)共發(fā)生分析,,。。。,銀行,,電信,,零售,,保險(xiǎn),制藥,,生物信息,,科學(xué)研究,,。。

12、。,相關(guān)行業(yè),數(shù)據(jù)挖掘的應(yīng)用,,Debt<10% of Income,Debt=0%,Good,,Credit,,Risks,Bad,,Credit,,Risks,Good,,Credit,,Risks,Yes,Yes,Yes,NO,NO,NO,Income>$40K,Q,Q,Q,Q,I,I,1,2,3,4,5,6,factor 1,factor 2,factor n,神經(jīng)網(wǎng)絡(luò),Neural Networks,聚類分析,Clustering,Open,,Accn’t,Add New,,Product,Decrease,,Usage,???,Time,序列分析,Sequence Analysis

13、,決策樹,Decision Trees,傾向性分析,客戶保留,,客戶生命周期管理,,目標(biāo)市場,,價(jià)格彈性分析,客戶細(xì)分,,市場細(xì)分,傾向性分析,,客戶保留,,目標(biāo)市場,,欺詐檢測,關(guān)聯(lián)分析,Association,市場組合分析,,,套裝產(chǎn)品分析,,目錄設(shè)計(jì),,交叉銷售,數(shù)據(jù)挖掘的應(yīng)用,,10.1.5,數(shù)據(jù)挖掘未來研究方向,,發(fā)現(xiàn)語言的形式化描述,即研究專門用于知識(shí)發(fā)現(xiàn)的數(shù)據(jù)挖掘語言,也許會(huì)像,SQL,語言一樣走向形式化和標(biāo)準(zhǔn)化;,,尋求數(shù)據(jù)挖掘過程中的可視化方法,使知識(shí)發(fā)現(xiàn)的過程能夠被用戶理解,也便于在知識(shí)發(fā)現(xiàn)的過程中進(jìn)行人機(jī)交互;,,研究在網(wǎng)絡(luò)環(huán)境下的數(shù)據(jù)挖掘技術(shù)(,WebMining,),

14、,特別是在因特網(wǎng)上建立,DMKD,服務(wù)器,并且與數(shù)據(jù)庫服務(wù)器配合,實(shí)現(xiàn),WebMining,;,,加強(qiáng)對各種非結(jié)構(gòu)化數(shù)據(jù)的開采(,DataMiningforAudio,&,Video,),,如對文本數(shù)據(jù)、圖形數(shù)據(jù)、視頻圖像數(shù)據(jù)、聲音數(shù)據(jù)乃至綜合多媒體數(shù)據(jù)的開采;,,處理的數(shù)據(jù)將會(huì)涉及到更多的數(shù)據(jù)類型,這些數(shù)據(jù)類型或者比較復(fù)雜,或者是結(jié)構(gòu)比較獨(dú)特。為了處理這些復(fù)雜的數(shù)據(jù),就需要一些新的和更好的分析和建立模型的方法,同時(shí)還會(huì)涉及到為處理這些復(fù)雜或獨(dú)特?cái)?shù)據(jù)所做的費(fèi)時(shí)和復(fù)雜數(shù)據(jù)準(zhǔn)備的一些工具和軟件。,,交互式發(fā)現(xiàn)和知識(shí)的維護(hù)更新。,,,10.2,數(shù)據(jù)挖掘的任務(wù)、技術(shù)、方法和實(shí)施過程,10.2.1,數(shù)據(jù)

15、挖掘任務(wù),,數(shù)據(jù)總結(jié),,分類發(fā)現(xiàn),,聚類分析,,關(guān)聯(lián)規(guī)則發(fā)現(xiàn),,10.2.2,數(shù)據(jù)挖掘技術(shù),數(shù)據(jù)挖掘的方法很多,大致可分為:統(tǒng)計(jì)方法、機(jī)器學(xué)習(xí)方法、神經(jīng)網(wǎng)絡(luò)方法和數(shù)據(jù)庫方法。其中,統(tǒng)計(jì)方法可細(xì)分為:回歸分析(多元回歸、自回歸等)、判別分析(貝葉斯判別、費(fèi)歇爾判別、非參數(shù)判別等)、聚類分析(系統(tǒng)聚類、動(dòng)態(tài)聚類等)、探索性分析(主元分析法、相關(guān)分析法等)、以及模糊集、粗糙集、支持向量機(jī)等。機(jī)器學(xué)習(xí)中,可細(xì)分為:歸納學(xué)習(xí)方法(決策樹、規(guī)則歸納等)、基于范例的推理,CBR,、,遺傳算法、貝葉斯信念網(wǎng)絡(luò)等。神經(jīng)網(wǎng)絡(luò)方法,可細(xì)分為:前向神經(jīng)網(wǎng)絡(luò)(,BP,算法等)、自組織神經(jīng)網(wǎng)絡(luò)(自組織特征映射、競爭學(xué)習(xí)等

16、)等。數(shù)據(jù)庫方法主要是基于可視化的多維數(shù)據(jù)分析或,OLAP,方法,另外還有面向?qū)傩缘臍w納方法。,,,●,數(shù)據(jù)挖掘技術(shù)的分類,——,回顧分析:注重解決過去和現(xiàn)在的問題,如:兩年來不同地區(qū)、人口和產(chǎn)品情況下的各銷售部門銷售業(yè)績分析,——,預(yù)測分析:在歷史信息的基礎(chǔ)上預(yù)測某些事件和行為,如:建立預(yù)測模型來描述客戶的流失率,——,分類:根據(jù)某種標(biāo)準(zhǔn)將數(shù)據(jù)庫記錄分類到許多預(yù)先定義好的類別,如:信用卡公司將客戶記錄分為好、中、差三類,,分類可以產(chǎn)生規(guī)則:如果一個(gè)客戶收入超過,5000,萬元,年齡在,45,-,55,歲之間,居住在某地區(qū),那么他的信用等級(jí)為好。,數(shù)據(jù)挖掘技術(shù),,●,數(shù)據(jù)挖掘技術(shù)的分類,——,

17、聚類:根據(jù)某些屬性將數(shù)據(jù)庫分割為一些子集和簇,,如:在了解客戶的過程中,嘗試使用從未使用過的屬性分割人群以發(fā)現(xiàn)潛在客戶的簇,——,關(guān)聯(lián):通過考察記錄來識(shí)別數(shù)據(jù)間的密切關(guān)系,關(guān)聯(lián)關(guān)系常常表現(xiàn)為規(guī)則,常用于超市購物籃分析,,如:所有包含,A,和,B,的記錄中有,60,%同時(shí)包含,C,。,——,時(shí)間序列:用于幫助識(shí)別與時(shí)間有關(guān)的模式,,如:通過對客戶多次購物行為的分析可以發(fā)現(xiàn)購物行為在時(shí)間上的關(guān)系 常用于產(chǎn)品目錄營銷的分析,數(shù)據(jù)挖掘的一般目的就是,檢測、解釋和預(yù)測,數(shù)據(jù)中定性的和/或定量的模式,數(shù)據(jù)挖掘技術(shù),,●,數(shù)據(jù)挖掘方法學(xué),——,模式,,數(shù)據(jù)庫中一個(gè)事件或事件的結(jié)合,這些事件比預(yù)期的

18、要經(jīng)常發(fā)生,其實(shí)際發(fā)生率明顯不同于隨機(jī)情況下的可期望發(fā)生率。,,模式是數(shù)據(jù)驅(qū)動(dòng)的,一般只反映數(shù)據(jù)本身,——,模型,,對構(gòu)建事件的源時(shí)的歷史數(shù)據(jù)庫的描述,并且能夠成功地應(yīng)用于新的數(shù)據(jù),以便對缺少的數(shù)據(jù)作出預(yù)測或?qū)ζ谕臄?shù)據(jù)作出說明。,模型的一般表現(xiàn)形式,數(shù)學(xué)方程式,描述各客戶段的規(guī)則集,計(jì)算機(jī)表示方式,,模式可視化,數(shù)據(jù)挖掘技術(shù),,●,數(shù)據(jù)挖掘方法學(xué),——,取樣,,根據(jù)問題的需要采用隨機(jī)取樣的方法從數(shù)據(jù)庫中抽取數(shù)據(jù)進(jìn)行挖掘,有助于迅速發(fā)現(xiàn)模式、創(chuàng)建模型,,數(shù)據(jù)本身的處理過程需要驗(yàn)證,——,驗(yàn)證模型,,模型創(chuàng)建過程需要保證正確,,模型應(yīng)用的驗(yàn)證,,在依據(jù)一些歷史數(shù)據(jù)建造模型后,將模型應(yīng)用于未參與建

19、造模型的其他類似的歷史數(shù)據(jù),比較其模型輸出結(jié)果與實(shí)際結(jié)果。,數(shù)據(jù)挖掘技術(shù),,人工神經(jīng)網(wǎng)絡(luò),神經(jīng)網(wǎng)絡(luò)近來越來越受到人們的關(guān)注,因?yàn)樗鼮榻鉀Q大復(fù)雜度問題提供了一種相對來說比較有效的簡單方法。神經(jīng)網(wǎng)絡(luò)可以很容易的解決具有上百個(gè)參數(shù)的問題(當(dāng)然實(shí)際生物體中存在的神經(jīng)網(wǎng)絡(luò)要比我們這里所說的程序模擬的神經(jīng)網(wǎng)絡(luò)要復(fù)雜的多)。神經(jīng)網(wǎng)絡(luò)常用于兩類問題:分類和回歸。,,決策樹,決策樹把數(shù)據(jù)歸入可能對一個(gè)目標(biāo)變量有不同效果的規(guī)則組。例如,我們希望發(fā)現(xiàn)可能會(huì)對直郵有反應(yīng)的個(gè)人特點(diǎn)。這些特點(diǎn)可以解釋為一組規(guī)則。,,決策樹,假設(shè)您是一個(gè)銷售一種新的銀行服務(wù)的直郵計(jì)劃研究的負(fù)責(zé)人。為最大程度地獲益,您希望確定基于前次促銷活

20、動(dòng)的家庭細(xì)分最有可能響應(yīng)相似的促銷活動(dòng)。通常這可以通過查找最能把響應(yīng)前次促銷的家庭和沒有響應(yīng)的家庭區(qū)分開的人口統(tǒng)計(jì)信息變量的組合來實(shí)現(xiàn)。,,決策樹為您提供諸如誰會(huì)最好地響應(yīng)新的促銷等重要線索,并通過只郵寄給最有可能響應(yīng)的人來最大程度地獲得直郵效益,提高整體響應(yīng)率,并極有希望同時(shí)增加銷售。,,決策樹建立,決策樹中最上面的節(jié)點(diǎn)稱為根節(jié)點(diǎn),是整個(gè)決策樹的開始。本例把響應(yīng)客戶作為根節(jié)點(diǎn)。,可以看到所有收到直郵信件的人中有,10%,有響應(yīng)。,,然后根據(jù)記錄字段的不同取值建立樹的分支,,如分為有住房和無住房兩組,則15%的租戶有響應(yīng),而房主則只有5%。,,還可以在每個(gè)分支子集中重復(fù)建立下層結(jié)點(diǎn)和分支。,我

21、們可以繼續(xù)分組來發(fā)現(xiàn)最有可能響應(yīng)的組群。這一組群可以表示為一個(gè)規(guī)則,如,“,如果收件人是租戶,有較高的家庭收入,沒有儲(chǔ)蓄存款賬戶,那么他有45%的響應(yīng)概率,”,。簡單地說,有這些特點(diǎn)的組群中有45%可能會(huì)對直郵有響應(yīng)。,,決策樹圖,,決策樹應(yīng)用,決策樹也是分析消耗(流線性生產(chǎn))、發(fā)現(xiàn)交叉銷售機(jī)會(huì)、進(jìn)行促銷、信用風(fēng)險(xiǎn)或破產(chǎn)分析和發(fā)覺欺詐行為的得力工具。,,聚類分析,聚類如同通常所說的“物以類聚”,是把一組個(gè)體按照相似性歸成若干類別。,,它的目的是使屬于同一類別的個(gè)體之間的距離盡可能的小,而不同類別上的個(gè)體間的距離盡可能的大。它反映同類事物共同性質(zhì)的特征型知識(shí)和不同事物之間的差異性質(zhì)的特征型知識(shí)。

22、,,通過聚類,數(shù)據(jù)庫中的記錄可被劃分為一系列有意義的子集。聚類增強(qiáng)了人們對客觀現(xiàn)實(shí)的認(rèn)識(shí),是進(jìn)行概念描述和偏差分析的先決條件。,,聚類分析,簇(,Cluster):,一個(gè)數(shù)據(jù)對象的集合,,在同一個(gè)類中,對象之間具有相似性;,,不同類的對象之間是相異的。,,聚類分析,,把一個(gè)給定的數(shù)據(jù)對象集合分成不同的簇;,,聚類是一種無監(jiān)督分類法: 沒有預(yù)先指定的類別;,,典型的應(yīng)用,,作為一個(gè)獨(dú)立的分析工具,用于了解數(shù)據(jù)的分布;,,作為其它算法的一個(gè)數(shù)據(jù)預(yù)處理步驟;,,,聚類分析應(yīng)用,市場銷售:,幫助市場人員發(fā)現(xiàn)客戶中的不同群體,然后用這些知識(shí)來開展一個(gè)目標(biāo)明確的市場計(jì)劃;,,土地使用:,在一個(gè)陸地觀察數(shù)據(jù)

23、庫中標(biāo)識(shí)那些土地使用相似的地區(qū);,,保險(xiǎn):,對購買了汽車保險(xiǎn)的客戶,標(biāo)識(shí)那些有較高平均賠償成本的客戶;,,城市規(guī)劃:,根據(jù)類型、價(jià)格、地理位置等來劃分不同類型的住宅;,,地震研究:,根據(jù)地質(zhì)斷層的特點(diǎn)把已觀察到的地震中心分成不同的類;,,聚類分析的評判,一個(gè)好的聚類方法要能產(chǎn)生高質(zhì)量的聚類結(jié)果,——,簇,這些簇要具備以下兩個(gè)特點(diǎn):,,高的簇內(nèi)相似性,,低的簇間相似性,,聚類結(jié)果的好壞取決于該聚類方法采用的相似性評估方法以及該方法的具體實(shí)現(xiàn);,,聚類方法的好壞還取決與該方法是能發(fā)現(xiàn)某些還是所有的隱含模式;,,遺傳算法,遺傳算法,(,Genetic Algorithms),是,J.H.Hollan

24、d,根據(jù)生物進(jìn)化的模型提出的一種優(yōu)化算法,。,雖然,GA,剛提出時(shí)沒有受到重視,但近年來,人們把它應(yīng)用于學(xué)習(xí)、優(yōu)化、自適應(yīng)等問題中。模擬生物進(jìn)化過程的算法,由繁殖,(,選擇,),、交叉,(,重組,),、,,變異,(,突變,),三個(gè)基本算子組成。遺傳算法已在優(yōu)化計(jì)算、分類、機(jī)器學(xué)習(xí)等方面發(fā)揮了顯著作用。遺傳算法是基于進(jìn)化理論,并采用遺傳結(jié)合、遺傳變異、以及自然選擇等設(shè)計(jì)方法的優(yōu)化技術(shù)。,,,遺傳算法,GA,的算法首先在解空間中取一群點(diǎn),作為遺傳開始的第一代。每個(gè)點(diǎn)(基因)用一二進(jìn)制的數(shù)字串表示,其優(yōu)劣程度用一目標(biāo)函數(shù)(,Fitness function,),來衡量。在向下一代的遺傳演變中,首先把

25、前一代中的每個(gè)數(shù)字串根據(jù)由其目標(biāo)函數(shù)值決定的概率分配到配對池中。好的數(shù)字串以高的概率被復(fù)制下來,劣的數(shù)字串被淘汰掉。然后將配對池中的數(shù)字任意配對,并對每一數(shù)字串進(jìn)行交叉操作,產(chǎn)生新的子孫(數(shù)字串)。最后對新的數(shù)字串的某一位進(jìn)行變異。這樣就產(chǎn)生了新的一代。按照同樣的方法,經(jīng)過數(shù)代的遺傳演變后,在最后一代中得到全局最優(yōu)解或近似最優(yōu)解。,,,規(guī)則推導(dǎo),規(guī)則推導(dǎo),從統(tǒng)計(jì)意義上對數(shù)據(jù)中的“如果-那么”規(guī)則進(jìn)行尋找和推導(dǎo),得到關(guān)聯(lián)規(guī)則。,,關(guān)聯(lián)規(guī)則挖掘發(fā)現(xiàn)大量數(shù)據(jù)中項(xiàng)集之間有趣的關(guān)聯(lián)或相關(guān)聯(lián)系。,,可視化技術(shù),用圖表等方式把數(shù)據(jù)特征用直觀地表述出來,如直方圖等,這其中運(yùn)用的許多描述統(tǒng)計(jì)的方法。可視化技術(shù)面

26、對的一個(gè)難題是高維數(shù)據(jù)的可視化。,,信息可視化和數(shù)據(jù)挖掘是兩個(gè)可互為補(bǔ)充利用的相關(guān)研究領(lǐng)域。當(dāng)信息可視化作為數(shù)據(jù)挖掘的技術(shù)之一時(shí),同其它技術(shù)相比,它有一個(gè)獨(dú)特之處:能極大地發(fā)揮用戶的主動(dòng)參預(yù)性。由于對數(shù)據(jù)進(jìn)行了可視化,用戶愿意進(jìn)行探索(,Explore),,在探索過程中有可能發(fā)現(xiàn)意外的知識(shí)。,,其他技術(shù),近鄰算法,將數(shù)據(jù)集合中每一個(gè)記錄進(jìn)行分類的方法。,,統(tǒng)計(jì)分析方法,在數(shù)據(jù)庫字段項(xiàng)之間存在兩種關(guān)系:函數(shù)關(guān)系(能用函數(shù)公式表示的確定性關(guān)系)和相關(guān)關(guān)系(不能用函數(shù)公式表示,但仍是相關(guān)確定性關(guān)系),對它們的分析可采用回歸分析、相關(guān)分析、主成分分析等方法。,,模糊論方法,利用模糊集合理論,對實(shí)際問題

27、進(jìn)行模糊判斷、模糊決策、模糊模式識(shí)別、模糊簇聚分析。,,●,經(jīng)典方法,——,統(tǒng)計(jì),,統(tǒng)計(jì)可以通過對類似下列問題的回答獲得模式,○,在我的數(shù)據(jù)庫中存在什么模式,○,某個(gè)事件發(fā)生的可能性是什么,○,那些模式是重要的模式,,統(tǒng)計(jì)的一個(gè)重要價(jià)值就是它提供了對數(shù)據(jù)庫的高層視圖,這種視圖提供了有用的信息,但不要求在細(xì)節(jié)上理解數(shù)據(jù)庫的每一條記錄。,10.2.3,數(shù)據(jù)挖掘方法,,,●,經(jīng)典方法,——,最近鄰,,通過檢測與預(yù)測對象最接近的對象的狀況對預(yù)測對象進(jìn)行預(yù)測,,原理:,,某一特定對象可能與其他某一或某些對象比其 它一些第三對象更接近;,,相互之間“接近”的對象會(huì)有相似的取值,,根據(jù)其中一個(gè)對象的取值,預(yù)

28、測其最近鄰對象的預(yù)測值,,商業(yè),,應(yīng)用:,文獻(xiàn)檢索,市場籃子分析,,應(yīng)用,,評價(jià):,,最近鄰的數(shù)量,最近鄰的距離,決定最近鄰預(yù)測的可信度,數(shù)據(jù)挖掘方法,,●,現(xiàn)代方法,——,基礎(chǔ)理論,有指導(dǎo)的學(xué)習(xí),(Supervised Learning),歸納 概念 分類標(biāo)準(zhǔn)與模型 分類,有指導(dǎo)的學(xué)習(xí)的目的:建立分類模型,用模型確定新數(shù)據(jù)實(shí)例的類別,訓(xùn)練數(shù)據(jù)(,Training Data,),與檢驗(yàn)集,(Test Set),用于創(chuàng)建模型的數(shù)據(jù)實(shí)例稱為訓(xùn)練數(shù)據(jù),用于檢驗(yàn)?zāi)P偷臏?zhǔn)確度的數(shù)據(jù)實(shí)例稱為檢驗(yàn)集,數(shù)據(jù)挖掘方法,,,有指導(dǎo)的學(xué)習(xí),(Super

29、vised Learning),患者代碼,嗓子痛,發(fā)燒,淋巴腫,充血,頭痛,診斷結(jié)果,1,Yes,yes,Yes,Yes,Yes,咽炎,2,No,No,No,Yes,Yes,敏感癥,3,Yes,Yes,No,Yes,No,感冒,4,Yes,No,Yes,No,No,咽炎,5,No,Yes,No,Yes,No,感冒,6,No,No,No,Yes,No,敏感癥,10,No,No,Yes,No,No,咽炎,8,Yes,No,No,Yes,Yes,敏感癥,9,No,Yes,No,Yes,Yes,感冒,10,yes,Yes,no,Yes,Yes,感冒,淋巴腫,數(shù)據(jù)挖掘方法,患者代碼,嗓子痛,發(fā)燒,淋巴腫

30、,充血,頭痛,診斷結(jié)果,11,No,No,Yes,Yes,Yes,?,12,Yes,Yes,No,No,Yes,?,13,No,No,No,No,Yes,?,,,,,,,,,有指導(dǎo)的學(xué)習(xí),(Supervised Learning),患者代碼,嗓子痛,發(fā)燒,淋巴腫,充血,頭痛,診斷結(jié)果,1,Yes,yes,Yes,Yes,Yes,咽炎,2,No,No,No,Yes,Yes,敏感癥,3,Yes,Yes,No,Yes,No,感冒,4,Yes,No,Yes,No,No,咽炎,5,No,Yes,No,Yes,No,感冒,6,No,No,No,Yes,No,敏感癥,10,No,No,Yes,No,No,咽

31、炎,8,Yes,No,No,Yes,Yes,敏感癥,9,No,Yes,No,Yes,Yes,感冒,10,yes,Yes,No,Yes,Yes,感冒,淋巴腫,發(fā) 燒,No,No,Yes,Yes,咽炎,敏感癥,感冒,淋巴腫、發(fā)燒是有意義的屬性,嗓子痛、充血、頭痛是無意義的屬性,數(shù)據(jù)挖掘方法,,,有指導(dǎo)的學(xué)習(xí),(Supervised Learning),淋巴腫,發(fā) 燒,No,No,Yes,Yes,咽炎,敏感癥,感冒,患者代碼,嗓子痛,發(fā)燒,淋巴腫,充血,頭痛,診斷結(jié)果,11,No,No,Yes,Yes,Yes,?,12,Yes,Yes,No,No,Yes,?,13,No,No,No,No,Yes,?

32、,,,,,,,,未知分類的數(shù)據(jù)實(shí)例(檢驗(yàn)集),數(shù)據(jù)挖掘方法,,無指導(dǎo)的學(xué)習(xí),(Unsupervised Learning),為沒有預(yù)先定義分類標(biāo)準(zhǔn)的數(shù)據(jù)建立模型,客戶,ID,客戶類型,交易保證金帳戶,交易方法,交易數(shù)/月,性別,年齡,嗜好,年收入,1005,聯(lián)合,No,Online,12.5,F,30-39,網(wǎng)球,4,-,5.9,萬,1013,委托保管,No,Broke,0.5,F,50-59,滑雪,8,-,9.9,萬,1245,聯(lián)合,No,Online,3.6,M,20-29,高爾夫,2,-,3.9,萬,2110,個(gè)人,Yes,Broke,22.3,M,30-39,釣魚,4,-,5.9,萬,

33、1001,個(gè)人,Yes,Online,5.0,M,40-49,高爾夫,6,-,10.9,萬,ABC,投資公司客戶表,數(shù)據(jù)挖掘方法,,無指導(dǎo)的學(xué)習(xí),(Unsupervised Learning),區(qū)分在線投資者和經(jīng)紀(jì)人投資者的特征是什么,一個(gè)新客戶未開設(shè)交易保證金帳戶,如何確定其將來是否會(huì)開設(shè)這種帳戶,能建立一個(gè)預(yù)測新投資者月均交易數(shù)的模型嗎,女性和男性投資者有什么不同的特征,交易方式,交易保證金帳戶,月均交易數(shù),性別,數(shù) 據(jù) 挖 掘 問 題,屬 性,哪些屬性相似性決定,ABC,公司的客戶分組,屬性值的哪些不同之處分隔了客戶數(shù)據(jù)庫,有指導(dǎo)的學(xué)習(xí),無指導(dǎo)的學(xué)習(xí),數(shù)據(jù)挖掘方法,,●,現(xiàn)代方法,—

34、—,決策樹(,Decision Tree,),決策樹是一種有指導(dǎo)學(xué)習(xí)的數(shù)據(jù)挖掘方法,決策樹的組成,決策節(jié)點(diǎn)、分支、葉子,———,根節(jié)點(diǎn),分支,———,葉子,Debt<10% of Income,Debt=0%,Good,,Credit,,Risks,Bad,,Credit,,Risks,Good,,Credit,,Risks,Yes,Yes,Yes,NO,NO,NO,Income>$40K,節(jié)點(diǎn),,決策樹的分支過程就是對數(shù)據(jù)進(jìn)行分類的過程,利用幾個(gè)變量(每個(gè)變量對應(yīng)一個(gè)問題)來判斷數(shù)據(jù)所屬的類別。在分支后,要使不同分支之間數(shù)據(jù)的差異盡可能大、同一分支內(nèi)的數(shù)據(jù)盡量相同。這一分割過程也就是數(shù)據(jù)的“

35、純化”過程。,數(shù)據(jù)挖掘方法,,決,,策,,樹,,的,,算,,法,,步,,驟,○假設(shè),T,為訓(xùn)練實(shí)例集,,○選擇一個(gè)最能區(qū)別,T,中實(shí)例的屬性,,○創(chuàng)建一個(gè)決策節(jié)點(diǎn),它的值為所選擇的屬性,,○創(chuàng)建該節(jié)點(diǎn)的分支,每個(gè)分支代表所選屬性的一個(gè)唯一值,,○使用分支的值,將數(shù)據(jù)實(shí)例分割為子類,,○對于步驟,5,所創(chuàng)建的各個(gè)子類:,,★如果子類中的數(shù)據(jù)實(shí)例滿足以下條件,可按此決策樹對新數(shù)據(jù)實(shí)例指定類別,,☆分割中只包含一條數(shù)據(jù)實(shí)例,,☆分割中所有數(shù)據(jù)實(shí)例的屬性都相同,,☆繼續(xù)分割得到的改進(jìn)不明顯,,★如果子類不滿足上述條件,則設(shè),T’,為當(dāng)前子類數(shù)據(jù)實(shí)例集合,返回步驟,2,數(shù)據(jù)挖掘方法,,決策樹的屬性選取,

36、屬性選取標(biāo)準(zhǔn):,最大化反映數(shù)據(jù)差異,使樹的層次和節(jié)點(diǎn)數(shù)最小,患者代碼,嗓子痛,發(fā)燒,淋巴腫,充血,頭痛,診斷結(jié)果,1,Yes,yes,Yes,Yes,Yes,咽炎,2,No,No,No,Yes,Yes,敏感癥,3,Yes,Yes,No,Yes,No,感冒,4,Yes,No,Yes,No,No,咽炎,5,No,Yes,No,Yes,No,感冒,6,No,No,No,Yes,No,敏感癥,10,No,No,Yes,No,No,咽炎,8,Yes,No,No,Yes,Yes,敏感癥,9,No,Yes,No,Yes,Yes,感冒,10,yes,Yes,no,Yes,Yes,感冒,淋巴腫,發(fā) 燒,No,N

37、o,Yes,Yes,咽炎,敏感癥,感冒,數(shù)據(jù)挖掘方法,,患者代碼,嗓子痛,發(fā)燒,淋巴腫,充血,頭痛,診斷結(jié)果,1,Yes,yes,Yes,Yes,Yes,咽炎,2,No,No,No,Yes,Yes,敏感癥,3,Yes,Yes,No,Yes,No,感冒,4,Yes,No,Yes,No,No,咽炎,5,No,Yes,No,Yes,No,感冒,6,No,No,No,Yes,No,敏感癥,10,No,No,Yes,No,No,咽炎,8,Yes,No,No,Yes,Yes,敏感癥,9,No,Yes,No,Yes,Yes,感冒,10,yes,Yes,no,Yes,Yes,感冒,淋巴腫,發(fā) 燒,No,No,

38、Yes,Yes,敏感癥,敏感癥,咽炎,No,Yes,頭 痛,淋巴腫,感冒,發(fā) 燒,淋巴腫,No,Yes,咽炎,No,Yes,數(shù)據(jù)挖掘方法,決策樹的屬性選取,屬性選取標(biāo)準(zhǔn):,最大化反映數(shù)據(jù)差異,使樹的層次和節(jié)點(diǎn)數(shù)最小,,信用卡促銷數(shù)據(jù)庫,收入段,壽險(xiǎn)促銷,信用卡保險(xiǎn),性別,年齡,4-5,萬,No,No,M,45,3-4,萬,Yes,No,F,40,4-5,萬,No,No,M,42,3-4,萬,Yes,Yes,M,43,5-6,萬,Yes,No,F,38,2-3,萬,No,No,F,55,3-4,萬,Yes,Yes,M,35,2-3,萬,No,No,M,210,3-4,萬,No,No,F,43

39、,3-4,萬,Yes,No,F,41,4-5,萬,Yes,No,M,43,2-3,萬,Yes,No,F,29,5-6,萬,Yes,No,F,39,4-5,萬,No,No,M,55,2-3,萬,Yes,Yes,F,19,○選取收入段為根節(jié)點(diǎn),○選取壽險(xiǎn)促銷為輸出屬性,○沿著每個(gè)分支有兩個(gè)類,選取最頻繁出現(xiàn)的類,,收入段,2Yes2No,4Yes1No,3No 1Yes,2Yes,2—3,萬,3—4,萬,4—5,萬,5—6,萬,○訓(xùn)練集分類的正確性為,11,/,15,=,103,%,數(shù)據(jù)挖掘方法,,——,決策樹(,Decision Tree,):,例,信用卡促銷數(shù)據(jù)庫,○選取信用卡保險(xiǎn)為根節(jié)點(diǎn),

40、○選取壽險(xiǎn)促銷為輸出屬性,○沿著每個(gè)分支有兩個(gè)類,選取最頻繁出現(xiàn)的類,信用卡保險(xiǎn),6Yes6No,3Yes 0No,No,Yes,○訓(xùn)練集分類的正確性為,9,/,15,=,60,%,數(shù)據(jù)挖掘方法,收入段,壽險(xiǎn)促銷,信用卡保險(xiǎn),性別,年齡,4-5,萬,No,No,M,45,3-4,萬,Yes,No,F,40,4-5,萬,No,No,M,42,3-4,萬,Yes,Yes,M,43,5-6,萬,Yes,No,F,38,2-3,萬,No,No,F,55,3-4,萬,Yes,Yes,M,35,2-3,萬,No,No,M,210,3-4,萬,No,No,F,43,3-4,萬,Yes,No,F,41,4-

41、5,萬,Yes,No,M,43,2-3,萬,Yes,No,F,29,5-6,萬,Yes,No,F,39,4-5,萬,No,No,M,55,2-3,萬,Yes,Yes,F,19,,——,決策樹(,Decision Tree,):,例,信用卡促銷數(shù)據(jù)庫,○選取數(shù)值型屬性年齡為根節(jié)點(diǎn),○選取壽險(xiǎn)促銷為輸出屬性,○依照年齡排序,對照輸出屬性進(jìn)行數(shù)據(jù)分割,選擇數(shù)據(jù)分割點(diǎn),年 齡,9Yes3No,0Yes 3No,≤,43,>,43,○以年齡≤,43,結(jié)合壽險(xiǎn)促銷=,Yes,,,訓(xùn)練集分類的正確性為,12,/,15,=,80,%,110,210,29,35,38,39,40,41,42,43,43,4

42、3,45,55,55,Y,N,Y,Y,Y,Y,Y,Y,N,Y,Y,N,N,N,N,數(shù)據(jù)挖掘方法,收入段,壽險(xiǎn)促銷,信用卡保險(xiǎn),性別,年齡,4-5,萬,No,No,M,45,3-4,萬,Yes,No,F,40,4-5,萬,No,No,M,42,3-4,萬,Yes,Yes,M,43,5-6,萬,Yes,No,F,38,2-3,萬,No,No,F,55,3-4,萬,Yes,Yes,M,35,2-3,萬,No,No,M,210,3-4,萬,No,No,F,43,3-4,萬,Yes,No,F,41,4-5,萬,Yes,No,M,43,2-3,萬,Yes,No,F,29,5-6,萬,Yes,No,F,39

43、,4-5,萬,No,No,M,55,2-3,萬,Yes,Yes,F,19,,——,決策樹(,Decision Tree,):,例,信用卡促銷數(shù)據(jù)庫,年 齡,Yes,(,6,/,1,),No,(,2,/,1,),≤,43,>,43,性 別,F M,信用卡保險(xiǎn),Yes,(,2,/,0,),No,(,3,/,0,),No Yes,信用卡數(shù)據(jù)庫的三節(jié)點(diǎn)決策樹,○訓(xùn)練集分類的正確性為,13,/,15,=,810,%,數(shù)據(jù)挖掘方法,收入段,壽險(xiǎn)促銷,信用卡保險(xiǎn),性別,年齡,4-5,萬,No,No,M,45,3-4,萬,Yes,No,F,40,4-5,萬,No,No,

44、M,42,3-4,萬,Yes,Yes,M,43,5-6,萬,Yes,No,F,38,2-3,萬,No,No,F,55,3-4,萬,Yes,Yes,M,35,2-3,萬,No,No,M,210,3-4,萬,No,No,F,43,3-4,萬,Yes,No,F,41,4-5,萬,Yes,No,M,43,2-3,萬,Yes,No,F,29,5-6,萬,Yes,No,F,39,4-5,萬,No,No,M,55,2-3,萬,Yes,Yes,F,19,,——,決策樹(,DecisionTree,):,例,信用卡促銷數(shù)據(jù)庫,收入段,壽險(xiǎn)促銷,信用卡保險(xiǎn),性別,年齡,4-5,萬,No,No,M,45,3-4,萬

45、,Yes,No,F,40,4-5,萬,No,No,M,42,3-4,萬,Yes,Yes,M,43,5-6,萬,Yes,No,F,38,2-3,萬,No,No,F,55,3-4,萬,Yes,Yes,M,35,2-3,萬,No,No,M,210,3-4,萬,No,No,F,43,3-4,萬,Yes,No,F,41,4-5,萬,Yes,No,M,43,2-3,萬,Yes,No,F,29,5-6,萬,Yes,No,F,39,4-5,萬,No,No,M,55,2-3,萬,Yes,Yes,F,19,信用卡保險(xiǎn),Yes,(,5,/,2,),No,(,4,/,1,),No,Yes,性 別,F

46、 M,Yes,(,3,/,0,),信用卡數(shù)據(jù)庫的兩節(jié)點(diǎn)決策樹,○訓(xùn)練集分類的正確性為,12,/,15,=,80,%,數(shù)據(jù)挖掘方法,,——,決策樹(,Decision Tree,):,例,信用卡促銷數(shù)據(jù)庫檢驗(yàn)集,收入段,壽險(xiǎn)促銷,信用卡保險(xiǎn),性別,年齡,檢驗(yàn)結(jié)果,4-5,萬,No,No,M,42,正確,2-3,萬,No,No,M,210,正確,3-4,萬,No,No,M,43,正確,2-3,萬,Yes,No,M,29,錯(cuò)誤,年 齡,Yes,(,6,/,1,),No,(,2,/,1,),≤,43,>,43,性 別,F M,信用卡保險(xiǎn),Yes,(,2,/,0,

47、),No,(,3,/,0,),No Yes,信用卡數(shù)據(jù)庫的三節(jié)點(diǎn)決策樹,數(shù)據(jù)挖掘方法,,●,現(xiàn)代方法,——K,-,平均值算法,,K-,平均值算法是一種簡單而有效的無指導(dǎo)學(xué)習(xí)的統(tǒng)計(jì)聚類方法,將一組數(shù)據(jù)劃分為不相關(guān)的簇,算 法 步 驟,○選擇一個(gè),K,值,用以確定簇的總數(shù),○在數(shù)據(jù)集中任意選擇,K,個(gè),數(shù)據(jù)實(shí)例,作為初始的簇中心,○試用簡單的歐氏距離將其它數(shù)據(jù)實(shí)例賦予距離它們最近的簇中心,○試用每個(gè)簇中的數(shù)據(jù)實(shí)例,計(jì)算每個(gè)簇的新的平均值,○如果新的平均值等于次迭代的平均值,終止該過程。否則,用新平均值作為簇中心并重復(fù)步驟,3,-,5,。,點(diǎn),A(x1,y1),與點(diǎn),B(x2,y2)

48、,之間的歐氏距離計(jì)算式為,數(shù)據(jù)挖掘方法,,K,-,平均值算法:例,K-,平均值輸入屬性,實(shí)例,X,Y,1(C1),1.0,1.5,2,1.0,4.5,3(C2),2.0,1.5,4,2.0,3.5,5,3.0,2.5,6,5.0,6.0,1.,選擇,K=2,,,即將所有數(shù)據(jù)實(shí)例分為兩個(gè)簇,2.,選擇實(shí)例,1,作為第,1,個(gè)簇的中心,實(shí)例,3,作為第,2,個(gè)簇的中心,3.,計(jì)算各數(shù)據(jù)實(shí)例與,C1,、,C2,之間的歐氏距離,Dist(C1,-,1)=0.00 Dist(C2,-,1)=1.00 C1,,Dist(C1,-,2)=3.00 Dist(C2,-,2)=

49、3.16 C1,,Dist(C1,-,3)=1.00 Dist(C2,-,3)=0.00 C2,,Dist(C1,-,4)=2.24 Dist(C2,-,4)=2.00 C2,,Dist(C1,-,5)=2.24 Dist(C2,-,5)=1.41 C2,,Dist(C1,-,6)=6.02 Dist(C2,-,6)=5.41 C2,4.,迭代結(jié)果得到以下兩個(gè)簇,,簇,C1,包含實(shí)例,1,、,2,,簇,C2,包含實(shí)例,3,、,4,、,5,、,6,Y,X,數(shù)據(jù)挖掘方法,,——K,-,平均值算法:例,

50、K-,平均值輸入屬性,實(shí)例,X,Y,1(C1),1.0,1.5,2,1.0,4.5,3(C2),2.0,1.5,4,2.0,3.5,5,3.0,2.5,6,5.0,6.0,5.,重新計(jì)算每個(gè)簇的中心,對于,C1,:,x=(1.0+1.0)/2=1.0,,y=(1.5+4.5)/2=3.0,,,對于,C2,:,x=(2.0+2.0+3.0+5.0)/4=3.0,,y=(1.5+3.5+2.5+6.0)/4=3.3105,,,因此,新的簇中心為,C1=(1.0,,,3.0),,C2=(3.0,,,3.3105),Y,X,6.,由于簇中心改變,進(jìn)行第,2,次迭代,,K,-,平均值算法:例,K-,平均

51、值輸入屬性,實(shí)例,X,Y,1(C1),1.0,1.5,2,1.0,4.5,3(C2),2.0,1.5,4,2.0,3.5,5,3.0,2.5,6,5.0,6.0,Dist(C1,-,1)=1.50 Dist(C2,-,1)=2.104 C1,,Dist(C1,-,2)=1.50 Dist(C2,-,2)=2.29 C1,,Dist(C1,-,3)=1.80 Dist(C2,-,3)=2.125 C1,,Dist(C1,-,4)=1.12 Dist(C2,-,4)=1.01 C2,,Dist(C1,-,5)=2.06

52、 Dist(C2,-,5)=0.8105 C2,,Dist(C1,-,6)=5.00 Dist(C2,-,6)=3.30 C2,第,2,次迭代的結(jié)果導(dǎo)致了簇的變化:,,C1,包含實(shí)例,1,、,2,和,3,,,C2,包含,4,、,5,和,6,Y,X,,K,-,平均值算法:例,K-,平均值輸入屬性,實(shí)例,X,Y,1(C1),1.0,1.5,2,1.0,4.5,3(C2),2.0,1.5,4,2.0,3.5,5,3.0,2.5,6,5.0,6.0,10.,重新計(jì)算每個(gè)簇的中心,對于,C1,:,x=(1.0+1.0,+,2.0)/3=1.33,,y=(1.5+4.5,+

53、,1.5)/3=2.50,,,對于,C2,:,x=(2.0+3.0+5.0)/3=3.33,,y=(3.5+2.5+6.0)/3=4.00,,,因此,新的簇中心為,C1=(1.33,,,2.50),,C2=(3.33,,,4.00),8.,由于簇中心改變,繼續(xù)進(jìn)行第,3,次迭代,Y,X,,K,-,平均值算法:例,數(shù)據(jù)實(shí)例與它們所對應(yīng)的簇中心之間的誤差平方和最小,K,-,平均值算法的幾個(gè)應(yīng)用,K,-,平均值算法的最優(yōu)聚類標(biāo)準(zhǔn),輸出結(jié)果,簇,中心,簇點(diǎn),均方誤差,1,(2.610, 4.610),,(2.00, 1.83),2, 4, 6,,1, 3, 5,14.50,2,(1.5, 1.5),,

54、(2.105, 4.125),1, 3,,2, 4, 5, 6,15.94,3,(1.8, 2.10),,(5, 6),1, 2, 3, 4, 5,,6,9.60,Y,X,Y,X,Y,X,,●,現(xiàn)代方法,——,關(guān)聯(lián)規(guī)則(,Association Rules,),關(guān)聯(lián)規(guī)則的表現(xiàn)形式,,關(guān)聯(lián)規(guī)則是一種無指導(dǎo)學(xué)習(xí)的數(shù)據(jù)挖掘中最普遍的知識(shí)發(fā)現(xiàn),是指在行為上具有某種關(guān)聯(lián)的多個(gè)事物在一次事件中可能同時(shí)出現(xiàn),從而在多個(gè)事物中建立聯(lián)系規(guī)則的方法。,,“如果怎么樣、怎么樣、怎么樣,那么就會(huì)怎么樣”,,,關(guān)聯(lián)規(guī)則的構(gòu)成,前件,——,“,如果怎么樣、怎么樣、怎么樣”,,后件,——,“,那么就怎么樣”,,,——,如

55、果買了西裝,就會(huì)買領(lǐng)帶,,——,如果買精顯彩電,,,就會(huì)買家庭影院系統(tǒng),,規(guī)則的構(gòu)成,如果怎么樣、怎么樣、怎么樣,就會(huì)怎么樣,前件,激發(fā)條件,后件,結(jié)果,規(guī)則表現(xiàn)為在前件所有條件成立的前提下,后件結(jié)果會(huì)以某一正確概率出現(xiàn),關(guān)聯(lián)規(guī)則(,Association Rules,),,規(guī)則的置信度和支持度,關(guān)聯(lián)規(guī)則(,Association Rules,),規(guī)則的,置信度,又稱為規(guī)則的,正確率,,是指在前提出現(xiàn)的情況下,后件出現(xiàn)的概率,規(guī)則的,支持度,又稱為規(guī)則的,覆蓋率,,是指包含規(guī)則出現(xiàn)的屬性值的交易占所有交易的百分比,例:如果客戶買牛奶,那么他們也會(huì)買面包,置信度:在,10000,次交易中客戶

56、購買了牛奶,而且其中的,5000,個(gè)交易也同時(shí)購買了面包,則上述規(guī)則的置信度為,5000,/,10000,=,50,%,,支持度:在超市一個(gè)月的客戶交易中,共有,600000,次交易,其中購買牛奶的交易為,60000,次,支持度為,60000,/,600000,=,10,%,,,規(guī)則的生成,——,關(guān)聯(lián)規(guī)則(,Association Rules,),決策樹方法,規(guī)則,1,:如果客戶參加了信用卡保險(xiǎn),那么他就會(huì)參加壽險(xiǎn)促銷(置信度=,3,/,3,=,100,%,支持度=,3,/,15,=,20,%),規(guī)則,2,:如果一個(gè)男性客戶沒有參加信用卡保險(xiǎn),那么他也不會(huì)參加壽險(xiǎn) 促銷(置信度=,4,/,5

57、,=,80,%,支持度=,5,/,15,=,33,%),,,,規(guī)則,3,:如果一個(gè)女性客戶沒有參加信用卡保險(xiǎn),那么她可能會(huì)參加壽險(xiǎn)促銷(置信度=,5,/,10,=,101,%,支持度=,10,/,15,=,410,%),,規(guī)則,4,:如果是一個(gè)女性客戶,那么她可能會(huì)參加壽險(xiǎn)促銷(置信度=,6,/,8,=,105,%,支持度=,8,/,15,=,53,%),信用卡保險(xiǎn),Yes,(,5,/,2,),No,(,4,/,1,),No,Yes,性 別,F M,Yes,(,3,/,0,),,規(guī)則的生成,●,現(xiàn)代方法,——,關(guān)聯(lián)規(guī)則(,Association Rules,),最

58、近鄰方法,規(guī)則:如果一個(gè)客戶處于,●,的狀況,那么他可能是一個(gè)逃款者,關(guān)聯(lián)規(guī)則可以使用傳統(tǒng)的方法生成,但適當(dāng)提供的屬性很多時(shí),因?yàn)槊織l規(guī)則的結(jié)果可能包含大量的前提條件,使用傳統(tǒng)方法會(huì)變得不切實(shí)際。,,規(guī)則的生成,●,現(xiàn)代方法,——,關(guān)聯(lián)規(guī)則(,Association Rules,),,apriori,方法,,apriori,方法步驟:,,1.,設(shè)置最小的屬性-值支持度要求,,apriori,方法是通過生成條目集,按照一定的準(zhǔn)則要求從中選擇規(guī)則的方法。,條目集是指符合一定支持度要求的“屬性-值”的組合,,2.,生成條目集,,3.,使用生成的條目集來創(chuàng)建規(guī)則,,規(guī)則的生成,●,現(xiàn)代方法,——,關(guān)

59、聯(lián)規(guī)則(,Association Rules,),雜志促銷,手表促銷,壽險(xiǎn)促銷,信用卡保險(xiǎn),性別,Y,N,N,N,M,Y,Y,Y,N,F,N,N,N,N,M,Y,Y,Y,Y,M,Y,N,Y,N,F,N,N,N,N,F,Y,N,Y,Y,M,N,Y,N,N,M,Y,N,N,N,M,Y,Y,Y,N,M,,apriori,方法,:,例,1.,設(shè)置最小的屬性-值支持度要求(>,30,%),,2.,生成條目集,單項(xiàng)集合,條目數(shù),雜志促銷=,Y,10,手表促銷=,Y,4,手表促銷=,N,6,壽險(xiǎn)促銷=,Y,5,壽險(xiǎn)促銷=,N,5,信用卡保險(xiǎn)=,N,8,性別=,M,6,性別=,F,4,單項(xiàng)條目集合,,規(guī)則的

60、生成,●,現(xiàn)代方法,——,關(guān)聯(lián)規(guī)則(,Association Rules,),雜志促銷,手表促銷,壽險(xiǎn)促銷,信用卡保險(xiǎn),性別,Y,N,N,N,M,Y,Y,Y,N,F,N,N,N,N,M,Y,Y,Y,Y,M,Y,N,Y,N,F,N,N,N,N,F,Y,N,Y,Y,M,N,Y,N,N,M,Y,N,N,N,M,Y,Y,Y,N,M,,apriori,方法,:,例,雙項(xiàng)條目集合,雙項(xiàng)集合,條目數(shù),雜志促銷=,Y,&,手表促銷=,N,4,雜志促銷=,Y,&,壽險(xiǎn)促銷=,Y,5,雜志促銷=,Y,&,信用卡保險(xiǎn)=,N,5,雜志促銷=,Y,&,性別=,M,4,手表促銷=,N,&,壽險(xiǎn)促銷=,N,4,手表促銷=

61、,N,&,信用卡保險(xiǎn)=,N,5,手表促銷=,N,&,性別=,M,4,壽險(xiǎn)促銷=,N,&,信用卡保險(xiǎn)=,N,5,壽險(xiǎn)促銷=,N,&,性別=,M,4,新英卡保險(xiǎn)=,N,&,性別=,M,4,信用卡保險(xiǎn)=,N,&,性別=,F,4,,規(guī)則的生成,●,現(xiàn)代方法,——,關(guān)聯(lián)規(guī)則(,Association Rules,),雜志促銷,手表促銷,壽險(xiǎn)促銷,信用卡保險(xiǎn),性別,Y,N,N,N,M,Y,Y,Y,N,F,N,N,N,N,M,Y,Y,Y,Y,M,Y,N,Y,N,F,N,N,N,N,F,Y,N,Y,Y,M,N,Y,N,N,M,Y,N,N,N,M,Y,Y,Y,N,M,,apriori,方法,:,例,確定最小置

62、信度(如>,50,%),利用雙項(xiàng)條目集合生成規(guī)則,3.,使用生成的條目集來創(chuàng)建規(guī)則,規(guī)則,1,:如果雜志促銷=,Y,,,那么壽險(xiǎn)促銷=,Y,(,5,/,10,),,,置信度=,5,/,10,=,101,%,支持度=,10,/,10,=,100,%,規(guī)則,2,:如果壽險(xiǎn)促銷=,Y,,,那么雜志促銷=,Y,(,5,/,5,),,,置信度=,5,/,5,=,100,%,支持度=,5,/,10,=,50,%,,規(guī)則的生成,——,關(guān)聯(lián)規(guī)則(,Association Rules,),,市場籃子分析就是一種關(guān)聯(lián)規(guī)則的表現(xiàn),,時(shí)間序列分析是一種反映客戶行為在時(shí)間上的關(guān)聯(lián)性的關(guān)聯(lián)規(guī)則,,,,,,,,,,,規(guī)則

63、的應(yīng)用,——,關(guān)聯(lián)規(guī)則(,Association Rules,),——,以前件為目標(biāo),——,歸納所有前件一樣的規(guī)則,——,分析后件的營銷效果,——,設(shè)計(jì)促銷方案(完善前件),——,例,——,收集所有前件為文具、復(fù)讀機(jī)的規(guī)則,分析這些商品打折是否促進(jìn)其他高利潤商品的銷售,從而調(diào)整商品結(jié)構(gòu)、設(shè)計(jì)促銷方案,,規(guī)則的應(yīng)用,——,關(guān)聯(lián)規(guī)則(,Association Rules,),——,以后件為目標(biāo),——,歸納所有后件一樣的規(guī)則,——,分析什么因素與后件有關(guān)或?qū)蠹杏绊?——,設(shè)計(jì)前件促成后件,——,例,——,收集到所有后件為西裝的規(guī)則,可以幫助我們了解西裝的銷售受哪些因素的影響或與哪些因素相關(guān),

64、從而可以考慮將這些因素集合在一起而產(chǎn)生促銷效果。,,規(guī)則的應(yīng)用,——,關(guān)聯(lián)規(guī)則(,Association Rules,),,置信度低,置信度高,支持度高,,,支持度低,,,規(guī)則的置信度和支持度,規(guī)則很少是正確的,但可以經(jīng)常使用,規(guī)則很少是正確的,而且很少被使用,規(guī)則多數(shù)情況下是正確,但很少被使用,規(guī)則多數(shù)情況下是正確的,而且可以經(jīng)常使用,——,以置信度或支持度為目標(biāo),,10.2.4,數(shù)據(jù)挖掘的流程,,,數(shù)據(jù)挖掘的流程,確定業(yè)務(wù)對象,,數(shù)據(jù)準(zhǔn)備,,數(shù)據(jù)挖掘,,結(jié)果分析和知識(shí)同化,,數(shù)據(jù)挖掘的流程-確定業(yè)務(wù)對象,清晰地定義出業(yè)務(wù)問題,認(rèn)清數(shù)據(jù)挖掘的目的是數(shù)據(jù)挖掘的重要一步。挖掘的最后結(jié)構(gòu)是不可預(yù)

65、測的,但要探索的問題應(yīng)是有預(yù)見的,為了數(shù)據(jù)挖掘而數(shù)據(jù)挖掘則帶有盲目性,是不會(huì)成功的。,,,數(shù)據(jù)挖掘的流程-數(shù)據(jù)準(zhǔn)備,數(shù)據(jù)的選擇:搜索所有與業(yè)務(wù)對象有關(guān)的內(nèi)部和外部數(shù)據(jù)信息,并從中選擇出適用于數(shù)據(jù)挖掘應(yīng)用的數(shù)據(jù)。,,數(shù)據(jù)的預(yù)處理:研究數(shù)據(jù)的質(zhì)量,為進(jìn)一步的分析作準(zhǔn)備.并確定將要進(jìn)行的挖掘操作的類型。,,數(shù)據(jù)的轉(zhuǎn)換:將數(shù)據(jù)轉(zhuǎn)換成一個(gè)分析模型,.,這個(gè)分析模型是針對挖掘算法建立的,.,建立一個(gè)真正適合挖掘算法的分析模型是數(shù)據(jù)挖掘成功的關(guān)鍵。,,,數(shù)據(jù)挖掘的流程-數(shù)據(jù)挖掘,對所得到的經(jīng)過轉(zhuǎn)換的數(shù)據(jù)進(jìn)行挖掘,.,除了完善從選擇合適的挖掘算法外,其余一切工作都能自動(dòng)地完成。,,,數(shù)據(jù)挖掘的流程-分析和同化

66、,結(jié)果分析:解釋并評估結(jié)果,其使用的分析方法一般應(yīng)作數(shù)據(jù)挖掘操作而定,通常會(huì)用到可視化技術(shù)。,,知識(shí)的同化:將分析所得到的知識(shí)集成到業(yè)務(wù)信息系統(tǒng)的組織結(jié)構(gòu)中去。,,,數(shù)據(jù)挖掘過程工作量,,在數(shù)據(jù)挖掘中被研究的業(yè)務(wù)對象是整個(gè)過程的基礎(chǔ),它驅(qū)動(dòng)了整個(gè)數(shù)據(jù)挖掘過程,也是檢驗(yàn)最后結(jié)果和指引分析人員完成數(shù)據(jù)挖掘的依據(jù)。數(shù)據(jù)挖掘的過程并不是自動(dòng)的,絕大多數(shù)的工作需要人工完成。其中60%的時(shí)間用在數(shù)據(jù)準(zhǔn)備上,這說明了數(shù)據(jù)挖掘?qū)?shù)據(jù)的嚴(yán)格要求,而后挖掘工作僅占總工作量的10%.,,數(shù)據(jù)挖掘過程工作量,,,數(shù)據(jù)挖掘需要的人員,,數(shù)據(jù)挖掘過程的分步實(shí)現(xiàn),不同的步會(huì)需要是有不同專長的人員,他們大體可以分為三類。,,業(yè)務(wù)分析人員:要求精通業(yè)務(wù),能夠解釋業(yè)務(wù)對象,并根據(jù)各業(yè)務(wù)對象確定出用于數(shù)據(jù)定義和挖掘算法的業(yè)務(wù)需求。,,數(shù)據(jù)分析人員:精通數(shù)據(jù)分析技術(shù),并對統(tǒng)計(jì)學(xué)有較熟練的掌握,有能力把業(yè)務(wù)需求轉(zhuǎn)化為數(shù)據(jù)挖掘的各步操作,并為每步操作選擇合適的技術(shù)。,,數(shù)據(jù)管理人員:精通數(shù)據(jù)管理技術(shù),并從數(shù)據(jù)庫或數(shù)據(jù)倉庫中收集數(shù)據(jù)。,,,10.3,數(shù)據(jù)挖掘,

展開閱讀全文
溫馨提示:
1: 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

相關(guān)資源

更多
正為您匹配相似的精品文檔
關(guān)于我們 - 網(wǎng)站聲明 - 網(wǎng)站地圖 - 資源地圖 - 友情鏈接 - 網(wǎng)站客服 - 聯(lián)系我們

copyright@ 2023-2025  zhuangpeitu.com 裝配圖網(wǎng)版權(quán)所有   聯(lián)系電話:18123376007

備案號(hào):ICP2024067431號(hào)-1 川公網(wǎng)安備51140202000466號(hào)


本站為文檔C2C交易模式,即用戶上傳的文檔直接被用戶下載,本站只是中間服務(wù)平臺(tái),本站所有文檔下載所得的收益歸上傳人(含作者)所有。裝配圖網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對上載內(nèi)容本身不做任何修改或編輯。若文檔所含內(nèi)容侵犯了您的版權(quán)或隱私,請立即通知裝配圖網(wǎng),我們立即給予刪除!

五月丁香婷婷狠狠色,亚洲日韩欧美精品久久久不卡,欧美日韩国产黄片三级,手机在线观看成人国产亚洲