數(shù)據(jù)挖掘算法培訓(xùn)ppt課件



《數(shù)據(jù)挖掘算法培訓(xùn)ppt課件》由會(huì)員分享,可在線閱讀,更多相關(guān)《數(shù)據(jù)挖掘算法培訓(xùn)ppt課件(35頁珍藏版)》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。
1、Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,*,*,單擊此處編輯母版標(biāo)題樣式,單擊此處編輯母版文本樣式,第二級(jí),第三級(jí),第四級(jí),第五級(jí),*,*,Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,*,*,大數(shù)據(jù),BIG DATA,大
2、數(shù)據(jù)BIG DATA,1,3.1,數(shù)據(jù)挖掘概述,第三章數(shù)據(jù)挖掘算法,3.2,分類,3.3,聚類,3.1,數(shù)據(jù)挖掘概述,3.5,預(yù)測規(guī)模,習(xí)題,3.6,數(shù)據(jù)挖掘算法綜合應(yīng)用,3.4,關(guān)聯(lián)規(guī)則,of,65,2,3.1數(shù)據(jù)挖掘概述第三章數(shù)據(jù)挖掘算法3.2分類3.3,2,3.4,關(guān)聯(lián)規(guī)則,關(guān)聯(lián)規(guī)則是數(shù)據(jù)挖掘中最活躍的研究方法之一,是指搜索業(yè)務(wù)系統(tǒng)中的所有細(xì)節(jié)或事務(wù),找出所有能把一組事件或數(shù)據(jù)項(xiàng)與另一組事件或數(shù)據(jù)項(xiàng)聯(lián)系起來的規(guī)則,以獲得存在于數(shù)據(jù)庫中的不為人知的或不能確定的信息,它側(cè)重于確定數(shù)據(jù)中不同領(lǐng)域之間的聯(lián)系,也是在無指導(dǎo)學(xué)習(xí)系統(tǒng)中挖掘本地模式的最普通形式。,More,應(yīng)用市場:,市場貨籃分析、交
3、叉銷售(,Crossing Sale,)、部分分類(,Partial Classification,)、金融服務(wù)(,Financial Service,),以及通信、互聯(lián)網(wǎng)、電子商務(wù),第三章 數(shù)據(jù)挖掘算法,of,65,3,3.4 關(guān)聯(lián)規(guī)則關(guān)聯(lián)規(guī)則是數(shù)據(jù)挖掘中最活躍的研究方法之一,是,3,3.4,關(guān)聯(lián)規(guī)則,第三章 數(shù)據(jù)挖掘算法,一般來說,關(guān)聯(lián)規(guī)則挖掘是指從一個(gè)大型的數(shù)據(jù)集(,Dataset,)發(fā)現(xiàn)有趣的關(guān)聯(lián)(,Association,)或相關(guān)關(guān)系(,Correlation,),即從數(shù)據(jù)集中識(shí)別出頻繁出現(xiàn)的屬性值集(,Sets of Attribute Values,),也稱為頻繁項(xiàng)集(,Freq
4、uent Itemsets,,頻繁集),然后利用這些頻繁項(xiàng)集創(chuàng)建描述關(guān)聯(lián)關(guān)系的規(guī)則的過程。,3.4.1,關(guān)聯(lián)規(guī)則的概念,關(guān)聯(lián)規(guī)則挖掘問題,:,發(fā)現(xiàn)所有的頻繁項(xiàng)集是形成關(guān)聯(lián)規(guī)則的基礎(chǔ)。通過用戶給定的最小支持度,尋找所有支持度大于或等于,Minsupport,的頻繁項(xiàng)集。,通過用戶給定的最小可信度,在每個(gè)最大頻繁項(xiàng)集中,尋找可信度不小于,Minconfidence,的關(guān)聯(lián)規(guī)則。,發(fā)現(xiàn)頻繁項(xiàng)集,生成關(guān)聯(lián)規(guī)則,如何迅速高效地發(fā)現(xiàn)所有頻繁項(xiàng)集,是關(guān)聯(lián)規(guī)則挖掘的核心問題,也是衡量關(guān)聯(lián)規(guī)則挖掘算法效率的重要標(biāo)準(zhǔn)。,of,65,4,3.4 關(guān)聯(lián)規(guī)則第三章 數(shù)據(jù)挖掘算法一般來說,關(guān)聯(lián)規(guī)則挖掘是,4,3.4,關(guān)聯(lián)
5、規(guī)則,第三章 數(shù)據(jù)挖掘算法,3.4.2,頻繁項(xiàng)集的產(chǎn)生及其經(jīng)典算法,格結(jié)構(gòu)(,Lattice Structure,)常常被用來枚舉所有可能的項(xiàng)集。,圖,3-10,項(xiàng)集的格,of,65,5,3.4 關(guān)聯(lián)規(guī)則第三章 數(shù)據(jù)挖掘算法3.4.2 頻繁項(xiàng)集的產(chǎn),5,3.4,關(guān)聯(lián)規(guī)則,第三章 數(shù)據(jù)挖掘算法,3.4.2,頻繁項(xiàng)集的產(chǎn)生及其經(jīng)典算法,格結(jié)構(gòu)(,Lattice Structure,)常常被用來枚舉所有可能的項(xiàng)集。,查找頻繁項(xiàng)目集,經(jīng)典的查找策略,基于精簡集的查找策略,基于最大頻繁項(xiàng)集的查找策略,按照挖掘的策略不同,經(jīng)典的挖掘完全頻繁項(xiàng)集方法,基于廣度優(yōu)先搜索策略的關(guān)聯(lián)規(guī)則算法,基于深度優(yōu)先搜索策略
6、,的算法,Apriori,算法,、,DHP,算法,FP-Growth,算法,、,ECLAT,算法,COFI,算法,與,經(jīng)典,查找不同,方法,基于精簡集的方法,基于最大頻繁項(xiàng)目集的方法,A-close,算法,MAFIA,算法、,GenMax,算法,DepthProject,算法,of,65,6,3.4 關(guān)聯(lián)規(guī)則第三章 數(shù)據(jù)挖掘算法3.4.2 頻繁項(xiàng)集的產(chǎn),6,3.4,關(guān)聯(lián)規(guī)則,第三章 數(shù)據(jù)挖掘算法,3.4.2,頻繁項(xiàng)集的產(chǎn)生及其經(jīng)典算法,1,Apriori,算法,Apriori,算法基于頻繁項(xiàng)集性質(zhì)的先驗(yàn)知識(shí),使用由下至上逐層搜索的迭代方法,即從頻繁,1,項(xiàng)集開始,采用頻繁,k,項(xiàng)集搜索頻繁,k
7、,+1,項(xiàng)集,直到不能找到包含更多項(xiàng)的頻繁項(xiàng)集為止。,Apriori,算法由以下步驟組成,其中的核心步驟是連接步和剪枝步:,生成頻繁,1,項(xiàng)集,L,1,連接步,剪枝步,生成頻繁,k,項(xiàng)集,L,k,重復(fù)步驟(,2,)(,4,),直到不能產(chǎn)生新的頻繁項(xiàng)集的集合為止,算法中止。,性能瓶頸,Apriori,算法是一個(gè)多趟搜索算法,可能產(chǎn)生龐大的候選項(xiàng)集,of,65,7,3.4 關(guān)聯(lián)規(guī)則第三章 數(shù)據(jù)挖掘算法3.4.2 頻繁項(xiàng)集的產(chǎn),7,3.4,關(guān)聯(lián)規(guī)則,第三章 數(shù)據(jù)挖掘算法,3.4.2,頻繁項(xiàng)集的產(chǎn)生及其經(jīng)典算法,2,FP-Growth,算法,頻繁模式樹增長算法(,Frequent Pattern Tr
8、ee Growth,)采用分而治之的基本思想,將數(shù)據(jù)庫中的頻繁項(xiàng)集壓縮到一棵頻繁模式樹中,同時(shí)保持項(xiàng)集之間的關(guān)聯(lián)關(guān)系。然后將這棵壓縮后的頻繁模式樹分成一些條件子樹,每個(gè)條件子樹對(duì)應(yīng)一個(gè)頻繁項(xiàng),從而獲得頻繁項(xiàng)集,最后進(jìn)行關(guān)聯(lián)規(guī)則挖掘。,FP-Growth,算法由以下步驟組成:,掃描事務(wù)數(shù)據(jù)庫,D,,生成頻繁,1,項(xiàng)集,L,1,將頻繁,1,項(xiàng)集,L,1,按照支持度遞減順序排序,得到排序后的項(xiàng)集,L,1,構(gòu)造,FP,樹,通過后綴模式與條件,FP,樹產(chǎn)生的頻繁模式連接實(shí)現(xiàn)模式增長,1,2,3,4,圖,3-11 FP,樹的構(gòu)造,of,65,8,3.4 關(guān)聯(lián)規(guī)則第三章 數(shù)據(jù)挖掘算法3.4.2 頻繁項(xiàng)集的產(chǎn)
9、,8,3.4,關(guān)聯(lián)規(guī)則,第三章 數(shù)據(jù)挖掘算法,3.4.2,頻繁項(xiàng)集的產(chǎn)生及其經(jīng)典算法,3,辛普森悖論,雖然關(guān)聯(lián)規(guī)則挖掘可以發(fā)現(xiàn)項(xiàng)目之間的有趣關(guān)系,在某些情況下,隱藏的變量可能會(huì)導(dǎo)致觀察到的一對(duì)變量之間的聯(lián)系消失或逆轉(zhuǎn)方向,這種現(xiàn)象就是所謂的辛普森悖論(,Simpsons Paradox,)。,為了避免辛普森悖論的出現(xiàn),就需要斟酌各個(gè)分組的權(quán)重,并以一定的系數(shù)去消除以分組數(shù)據(jù)基數(shù)差異所造成的影響。同時(shí)必須了解清楚情況,是否存在潛在因素,綜合考慮。,of,65,9,3.4 關(guān)聯(lián)規(guī)則第三章 數(shù)據(jù)挖掘算法3.4.2 頻繁項(xiàng)集的產(chǎn),9,3.4,關(guān)聯(lián)規(guī)則,第三章 數(shù)據(jù)挖掘算法,3.4.3,分類技術(shù),分類技
10、術(shù)或分類法(,Classification,)是一種根據(jù)輸入樣本集建立類別模型,并按照類別模型對(duì)未知樣本類標(biāo)號(hào)進(jìn)行標(biāo)記的方法。,根據(jù)所采用的分類模型不同,基于決策樹模型的數(shù)據(jù)分類,基于統(tǒng)計(jì)模型的數(shù)據(jù)分類,基于神經(jīng)網(wǎng)絡(luò)模型的數(shù)據(jù)分類,基于案例推理的數(shù)據(jù)分類,基于實(shí)例的數(shù)據(jù)分類,1,決策樹,決策樹就是通過一系列規(guī)則對(duì)數(shù)據(jù)進(jìn)行分類的過程。,決策樹分類算法通常分為兩個(gè)步驟:構(gòu)造決策樹和修剪決策樹。,of,65,10,3.4 關(guān)聯(lián)規(guī)則第三章 數(shù)據(jù)挖掘算法3.4.3 分類技術(shù)分類,10,3.4,關(guān)聯(lián)規(guī)則,第三章 數(shù)據(jù)挖掘算法,3.4.3,分類技術(shù),構(gòu)造決策樹,修剪決策樹,根據(jù)實(shí)際需求及所處理數(shù)據(jù)的特性,選
11、擇類別標(biāo)識(shí)屬性和決策樹的決策屬性集,在決策屬性集中選擇最有分類標(biāo)識(shí)能力的屬性作為決策樹的當(dāng)前決策節(jié)點(diǎn),根據(jù)當(dāng)前決策節(jié)點(diǎn)屬性取值的不同,將訓(xùn)練樣本數(shù)據(jù)集劃分為若干子集,子集中的所有元組都屬于同一類。,該子集是已遍歷了所有決策屬性后得到的。,子集中的所有剩余決策屬性取值完全相同,已不能根據(jù)這些決策屬性進(jìn)一步劃分子集。,針對(duì)上一步中得到的每一個(gè)子集,重復(fù)進(jìn)行,以上,兩個(gè)步驟,直到最后的子集符合約束的,3,個(gè)條件之一,根據(jù)符合條件不同生成葉子節(jié)點(diǎn),對(duì)決策樹進(jìn)行修剪,除去不必要的分枝,同時(shí)也能使決策樹得到簡化。,常用的決策樹修剪策略,基于代價(jià)復(fù)雜度的修剪,悲觀修剪,最小描述長度,修剪,按照修剪的先后順序
12、,先剪枝(,Pre-pruning,),后剪枝(,Post-pruning,),of,65,11,3.4 關(guān)聯(lián)規(guī)則第三章 數(shù)據(jù)挖掘算法3.4.3 分類技術(shù)構(gòu)造,11,3.4,關(guān)聯(lián)規(guī)則,第三章 數(shù)據(jù)挖掘算法,3.4.3,分類技術(shù),2,k-,最近鄰,最臨近分類基于類比學(xué)習(xí),是一種基于實(shí)例的學(xué)習(xí),它使用具體的訓(xùn)練實(shí)例進(jìn)行預(yù)測,而不必維護(hù)源自數(shù)據(jù)的抽象(或模型)。它采用,n,維數(shù)值屬性描述訓(xùn)練樣本,每個(gè)樣本代表,n,維空間的一個(gè)點(diǎn),即所有的訓(xùn)練樣本都存放在,n,維空間中。若給定一個(gè)未知樣本,,k-,最近鄰分類法搜索模式空間,計(jì)算該測試樣本與訓(xùn)練集中其他樣本的鄰近度,找出最接近未知樣本的,k,個(gè)訓(xùn)練樣本
13、,這,k,個(gè)訓(xùn)練樣本就是未知樣本的,k,個(gè)“近鄰”。其中的“鄰近度”一般采用歐幾里得距離定義:兩個(gè)點(diǎn),和,的,Euclid,距離是,。,最近鄰分類是基于要求的或懶散的學(xué)習(xí)法,即它存放所有的訓(xùn)練樣本,并且直到新的(未標(biāo)記的)樣本需要分類時(shí)才建立分類。其優(yōu)點(diǎn)是可以生成任意形狀的決策邊界,能提供更加靈活的模型表示。,of,65,12,3.4 關(guān)聯(lián)規(guī)則第三章 數(shù)據(jù)挖掘算法3.4.3 分類技術(shù)2,12,3.4,關(guān)聯(lián)規(guī)則,第三章 數(shù)據(jù)挖掘算法,3.4.4,案例:保險(xiǎn)客戶風(fēng)險(xiǎn)分析,1,挖掘目標(biāo),由過去大量的經(jīng)驗(yàn)數(shù)據(jù)發(fā)現(xiàn)機(jī)動(dòng)車輛事故率與駕駛者及所駕駛的車輛有著密切的關(guān)系,影響駕駛?cè)藛T安全駕駛的主要因素有年齡、
14、性別、駕齡、職業(yè)、婚姻狀況、車輛車型、車輛用途、車齡等。因此,客戶風(fēng)險(xiǎn)分析的挖掘目標(biāo)就是上述各主要因素與客戶風(fēng)險(xiǎn)之間的關(guān)系,等等。,2,數(shù)據(jù)預(yù)處理,數(shù)據(jù)準(zhǔn)備與預(yù)處理是數(shù)據(jù)挖掘中的首要步驟,高質(zhì)量的數(shù)據(jù)是獲得高質(zhì)量決策的先決條件。在實(shí)施數(shù)據(jù)挖掘之前,及時(shí)有效的數(shù)據(jù)預(yù)處理可以解決噪聲問題和處理缺失的信息,將有助于提高數(shù)據(jù)挖掘的精度和性能。,去除數(shù)據(jù)集之中的噪聲數(shù)據(jù)和無關(guān)數(shù)據(jù),處理遺漏數(shù)據(jù)和清洗“臟”數(shù)據(jù)等,。,數(shù)據(jù)清洗處理通常包括處理噪聲數(shù)據(jù)、填補(bǔ)遺漏數(shù)據(jù)值,/,除去異常值、糾正數(shù)據(jù)不一致的問題,等等。,在處理完噪聲數(shù)據(jù)后,就可以對(duì)數(shù)據(jù)進(jìn)行轉(zhuǎn)化,主要的方法有,:,聚集,忽略無關(guān)屬性,連續(xù)型屬性離散
15、化等。,數(shù)據(jù)清洗,數(shù)據(jù)轉(zhuǎn)化,of,65,13,3.4 關(guān)聯(lián)規(guī)則第三章 數(shù)據(jù)挖掘算法3.4.4 案例:保險(xiǎn)客,13,3.4,關(guān)聯(lián)規(guī)則,第三章 數(shù)據(jù)挖掘算法,3.4.4,案例:保險(xiǎn)客戶風(fēng)險(xiǎn)分析,3,關(guān)聯(lián)規(guī)則挖掘,影響駕駛?cè)藛T安全駕駛的主要因素,年齡,性別,駕齡,職業(yè),婚姻狀況,車輛車型,車輛用途,車齡,其他,根據(jù)前述關(guān)聯(lián)規(guī)則的生成方法,得到挖掘出來的客戶風(fēng)險(xiǎn)關(guān)聯(lián)規(guī)則,序號(hào),關(guān)聯(lián)規(guī)則,支持度,置信度,1,駕齡(,X,,,A,)被保車輛的價(jià)值(,X,,,A,),年賠付金額(,X,,,B,),0.1825,0.2965,2,投保人年齡(,X,,,A,)駕齡(,X,,,A,),年賠付次數(shù)(,X,,,B,)
16、,0.1679,0.2571,3,駕齡(,X,,,B,)車輛用途(,X,,,A,),年賠付金額(,X,,,B,),0.1663,0.3337,4,駕齡(,X,,,B,)車輛用途(,X,,,B,),年賠付次數(shù)(,X,,,A,),0.1789,0.4851,5,駕齡(,X,,,B,)被保車輛的價(jià)值(,X,,,C,),年賠付金額(,X,,,C,),0.1809,0.3003,6,駕齡(,X,,,C,)車輛用途(,X,,,B,),年賠付次數(shù)(,X,,,A,),0.1994,0.5864,7,駕齡(,X,,,C,)被保車輛的價(jià)值(,X,,,C,)車輛用途(,X,,,C,),年賠付次數(shù)(,X,,,A,),0.1031,0.6639,8,駕齡(,X,,,A,)被保車輛的價(jià)值(,X,,,A,)車輛用途(,X,,,B,),年賠付金額(,X,,,B,),0.1025,0.3654,9,投保人年齡(,X,,,B,)駕齡(,X,,,A,)被保車輛的價(jià)值(,X,,,D,),年賠付金額(,X,,,D,),0.0934,0.4546,10,駕齡(,X,,,B,)被保車輛的價(jià)值(,X,,,A,)車輛用途(,X,,,A
- 溫馨提示:
1: 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 深入學(xué)習(xí)貫徹中央八項(xiàng)規(guī)定精神交流發(fā)言材料范文(三篇)
- 學(xué)習(xí)中央八項(xiàng)規(guī)定精神心得體會(huì)范文(三篇)
- 2024年度組織生活會(huì)個(gè)人“4個(gè)方面”對(duì)照檢查材料文稿
- 2024年組織生活會(huì)個(gè)人對(duì)照檢查發(fā)言材料(普通黨員)例文
- 2025年旅游業(yè)高質(zhì)量發(fā)展行動(dòng)方案文稿
- 2025年機(jī)關(guān)組織生活會(huì)班子對(duì)照檢查材料范文
- 普通黨員2024年組織生活會(huì)個(gè)人發(fā)言提綱(圍繞“四個(gè)帶頭”方面)文稿
- 鄉(xiāng)班子領(lǐng)導(dǎo)干部2024年度民主生活會(huì)“四個(gè)帶頭”對(duì)照檢查發(fā)言材料文稿
- 2024年度黨員領(lǐng)導(dǎo)干部民主生活會(huì)整改落實(shí)方案例文
- 關(guān)于2024年度民主生活會(huì)個(gè)人問題的整改方案例文
- 2025年醫(yī)療保障工作要點(diǎn)范文
- 青年人才“育苗蹲苗”培養(yǎng)實(shí)施方案范文
- 2025駐村第一書記組織生活會(huì)對(duì)照檢查材料例文
- 國企公司2025年安全生產(chǎn)工作要點(diǎn)范文
- 2024年度國企個(gè)人組織生活會(huì)前準(zhǔn)備情況、上年度整改落實(shí)情況范文
相關(guān)資源
更多