《數(shù)據(jù)挖掘及其應(yīng)用講義》應(yīng)用關(guān)聯(lián)規(guī)則課件

上傳人:陳** 文檔編號:253351820 上傳時(shí)間:2024-12-11 格式:PPT 頁數(shù):29 大?。?80KB
收藏 版權(quán)申訴 舉報(bào) 下載
《數(shù)據(jù)挖掘及其應(yīng)用講義》應(yīng)用關(guān)聯(lián)規(guī)則課件_第1頁
第1頁 / 共29頁
《數(shù)據(jù)挖掘及其應(yīng)用講義》應(yīng)用關(guān)聯(lián)規(guī)則課件_第2頁
第2頁 / 共29頁
《數(shù)據(jù)挖掘及其應(yīng)用講義》應(yīng)用關(guān)聯(lián)規(guī)則課件_第3頁
第3頁 / 共29頁

下載文檔到電腦,查找使用更方便

15 積分

下載資源

還剩頁未讀,繼續(xù)閱讀

資源描述:

《《數(shù)據(jù)挖掘及其應(yīng)用講義》應(yīng)用關(guān)聯(lián)規(guī)則課件》由會員分享,可在線閱讀,更多相關(guān)《《數(shù)據(jù)挖掘及其應(yīng)用講義》應(yīng)用關(guān)聯(lián)規(guī)則課件(29頁珍藏版)》請?jiān)谘b配圖網(wǎng)上搜索。

1、,單擊此處編輯母版標(biāo)題樣式,*,單擊此處編輯母版文本樣式,第二級,單擊此處編輯母版標(biāo)題樣式,單擊此處編輯母版文本樣式,第二級,*,關(guān)聯(lián)規(guī)則應(yīng)用,1,關(guān)聯(lián)規(guī)則,設(shè),I=I,1,I,2,I,m,是一組數(shù)據(jù)項(xiàng)集合,D,是與任務(wù)相關(guān)的數(shù)據(jù)集合,也稱為交易數(shù)據(jù)庫。其中每個(gè),交易,T,是一個(gè)數(shù)據(jù)項(xiàng)子集,,TI,。關(guān)聯(lián)規(guī)則是如下形式的一種蘊(yùn)含,:,A B,表示,If conditions then result,其中,AI,BI,且,AB=,。一般用,支持度、可信度、期望可信度、作用度,4,個(gè)參數(shù)來描述一個(gè)關(guān)聯(lián)規(guī)則的屬性。,可信度,:,在屬性集,A,出現(xiàn)的前提下,B,出現(xiàn)的,概率,P(B|A),支持度,:,

2、屬性集,A,B,同時(shí)出現(xiàn)的概率,P(AB),期望可信度,:,屬性集,B,出現(xiàn)的概率,P(B),作用度,:,可信度對期望可信度的比值,P(B|A)/P(B),可信度,是對關(guān)聯(lián)規(guī)則準(zhǔn)確度的衡量,支持度,是對關(guān)聯(lián)規(guī)則重要性的衡量。顯然,支持度越大,關(guān)聯(lián)規(guī)則越重要。有些關(guān)聯(lián)規(guī)則可信度雖然很高,但支持度卻很低,說明該關(guān)聯(lián)規(guī)則實(shí)用的機(jī)會很小,因此也不重要。,作用度,描述屬性集,A,的出現(xiàn)對屬性集,B,的出現(xiàn)有多大影響。作用度越大,說明屬性集,B,受屬性集,A,的影響越大。一般情況,有用的關(guān)聯(lián)規(guī)則的作用度都應(yīng)大于,1,只有關(guān)聯(lián)規(guī)則的可信度大于期望可信度,才說明,A,的出現(xiàn)對,B,的出現(xiàn)有促進(jìn)作用,也說明了它

3、們之間某種程度的相關(guān)性,如果作用度不大于,1,則此關(guān)聯(lián)規(guī)則就沒有意義。,2,關(guān)聯(lián)規(guī)則算法(,Apriori,算法),2.1,概念介紹,項(xiàng)集,:一個(gè)數(shù)據(jù)項(xiàng)的集合;,K,項(xiàng)集,:一個(gè)包含,k,個(gè)數(shù)據(jù)項(xiàng)的項(xiàng)集;,項(xiàng)集頻度,:整個(gè)交易數(shù)據(jù)庫,D,中,包含該項(xiàng)集的交易記錄數(shù),也稱為該項(xiàng)集的支持度。,頻繁項(xiàng)集,:滿足最小支持度的項(xiàng)集。,若一個(gè)項(xiàng)集的出現(xiàn)頻度大于最小支持度閾值乘以交易記錄集,D,中的記錄數(shù),就稱該項(xiàng)集滿足最小支持度閾值;滿足最小支持度閾值所對應(yīng)的交易記錄數(shù)稱為最小支持頻度。,返回,2.2 Apriori算法,Apriori,算法是一個(gè)基于兩階段頻繁項(xiàng)集的數(shù)據(jù)挖掘方法,將關(guān)聯(lián)規(guī)則挖掘算法分為兩

4、部分,:,一是找到所有支持度大于最小支持度的項(xiàng)集,稱為頻繁項(xiàng)集,二是使用第一步找到的頻繁項(xiàng)集產(chǎn)生期望規(guī)則,.,Apriori,算法的性質(zhì):如果一個(gè)項(xiàng)集是頻繁的,則它的所有子集也是頻繁的。,首先,給定最小支持度及最小可信度。,返回,第一步,:,找頻繁項(xiàng)集,由數(shù)據(jù)庫讀入所有的交易,得出候選單項(xiàng)集的支持度,再找出頻繁單項(xiàng)集,并利用這些頻繁單項(xiàng)集的結(jié)合,產(chǎn)生候選,2,項(xiàng)集,若候選,2,項(xiàng)集的支持度大于或等于最小支持度,則該候選項(xiàng)集為頻繁項(xiàng)集,即為頻繁,2,項(xiàng)集,并利用頻繁,2,項(xiàng)集的結(jié)合,產(chǎn)生候選,3,項(xiàng)集,若候選,3,項(xiàng)集的支持度大于或等于最小支持度,則該候選項(xiàng)集為頻繁,3,項(xiàng)集,并利用高頻,3,項(xiàng)

5、集的結(jié)合,產(chǎn)生候選,4,項(xiàng),,,最后產(chǎn)生頻繁多項(xiàng)集,再結(jié)合產(chǎn)生下一級候選項(xiàng)集,,直到新產(chǎn)生的候選項(xiàng)集的支持度小于給定的最小支持度,,則不再結(jié)合產(chǎn)生新的候選項(xiàng)集,算法結(jié)束。,第二步,:,由頻繁項(xiàng)集產(chǎn)生期望規(guī)則,(1),對于每個(gè),頻繁項(xiàng)集,L,產(chǎn)生,L,的所有非空子集,;,(2),對于,L,的每個(gè),非空子集,S,如果其可信度大,于最小可信度,則輸出規(guī)則,”,s,L-s,”,(,一,)Apriori,算法在學(xué)生成績分析中的應(yīng)用研究,學(xué)生的各科考試成績一直以來作為國內(nèi)各高等院校評價(jià)學(xué)生學(xué)業(yè)以及綜合素質(zhì)的重要指標(biāo),各高校經(jīng)過長期的積累都儲存了大量的學(xué)生成績信息,但對成績的分析處理一般還停留在簡單的查詢和

6、統(tǒng)計(jì)階段,例如統(tǒng)計(jì)優(yōu)、良、及格、不及格等級別的人數(shù)以及計(jì)算平均成績、標(biāo)準(zhǔn)差等指標(biāo),而對于學(xué)生取得這些,成績與課程之間的關(guān)系,有無關(guān)聯(lián)往往沒有深入了解。如果能夠合理開發(fā)利用這些數(shù)據(jù),找到,課程之間的相關(guān)關(guān)系對學(xué)生成績的影響,,必將對課程的設(shè)置與安排具有重大的指導(dǎo)意義。,1 研究對象,以沈陽農(nóng)業(yè)大學(xué),01,屆計(jì)算機(jī)專業(yè)學(xué)生在校四年的學(xué)習(xí)成績作為數(shù)據(jù)源,選取成績數(shù)據(jù)庫中,計(jì)算機(jī)網(wǎng)絡(luò),、,外語,、,工科高數(shù),、,計(jì)算機(jī)基礎(chǔ),、,操作系統(tǒng),等,8,門課程作為研究對象,挖掘出某門課程對于其他課程的影響程度,為教務(wù)人員以后安排課程提供參考,為學(xué)生選課提供指導(dǎo)。,2,數(shù)據(jù)預(yù)處理,2.1,數(shù)據(jù)清理,原始數(shù)據(jù)庫中

7、包含全校各個(gè)專業(yè)、各個(gè)年級、各門課程的所有成績,某些記錄難免會有一些差錯(cuò)或者從經(jīng)驗(yàn)上看沒有關(guān)聯(lián),為了便于進(jìn)行數(shù)據(jù)挖掘,只選取,01,屆計(jì)算機(jī)專業(yè)學(xué)生的,計(jì)算機(jī)網(wǎng)絡(luò),等,8,門課程成績作為挖掘?qū)ο?,去掉所有其他不必要的字段,刪除空白以及數(shù)據(jù)有缺失的記錄。清理后的數(shù)據(jù)表部分?jǐn)?shù)據(jù)如圖,1,所示。,圖,1,原始數(shù)據(jù)表,2.2 數(shù)據(jù)轉(zhuǎn)換,學(xué)生成績是以數(shù)值形式表示的,不便于進(jìn)行數(shù)據(jù)挖掘,因此對各科成績進(jìn)行離散化處理,即轉(zhuǎn)換為優(yōu)、良、中、及格、不及格,5,個(gè)等級。大于,90,分的為,“,優(yōu),”,,,80,90,分之間的為,“,良,”,,,70,80,分之間的為,“,中,”,,,60,70,分之間的為,“,及

8、格,”,,小于,60,分的為,“,不及格,”,。,“,優(yōu)、良、中、及格、不及格,”,5,個(gè)等級分別用數(shù)字,“,1,、,2,、,3,、,4,、,5,”,表示,,用,“,A,”,表示計(jì)算機(jī)網(wǎng)絡(luò),,“,B,”,表示數(shù)據(jù)結(jié)構(gòu),,“,C,”,表示計(jì)算機(jī)基礎(chǔ),,“,D,”,表示外語,以此類推。將各科目字段設(shè)置為字符型,轉(zhuǎn)換后的數(shù)據(jù)表部分?jǐn)?shù)據(jù)如圖,2,所示。,圖,2,轉(zhuǎn)換后數(shù)據(jù)表,3,研究方法,3,2 Apriori,算法應(yīng)用,用寬度優(yōu)先的迭代搜索方法,首先找出頻繁,1-,項(xiàng)集,L1,,用,L1,查找頻繁,2-,項(xiàng)集,L2,,以此類推,直到求出所有的頻繁項(xiàng)目集。若發(fā)現(xiàn)某頻繁項(xiàng)集的數(shù)目為零,則停止計(jì)算。最后,

9、輸出所有項(xiàng)目的頻繁集。在該程序中依然運(yùn)用了,Apriori,算法的性質(zhì):如果一個(gè)項(xiàng)集是頻繁的,則它的所有子集也是頻繁的。設(shè)最小支持度為,0.3,,產(chǎn)生頻繁項(xiàng)目集,56,個(gè),從產(chǎn)生的頻繁項(xiàng)集中確定它們的子集,然后根據(jù)關(guān)聯(lián)規(guī)則挖掘算法原理,設(shè)最小可信度為,0.6,,由程序得出關(guān)聯(lián)規(guī)則,18,個(gè),部分規(guī)則如表,1,所示。,4,結(jié)果與分析,規(guī)則,1,說明,,數(shù)據(jù)結(jié)構(gòu),成績在,80,90,分之間,,高級語言程序設(shè)計(jì),成績也在,80,90,分之間的支持度為,66.8%,置信度為,89.2%,說明學(xué)好,數(shù)據(jù)結(jié)構(gòu),課程對學(xué)好,高級語言課程,起到關(guān)鍵作用,以后安排課程時(shí)可以將,數(shù)據(jù)結(jié)構(gòu),安排在前,教師授課中要督

10、促學(xué)生學(xué)好這門課程,打好基礎(chǔ)。,規(guī)則,3,說明,外語,成績在,70,80,分之間,,高級語言程序設(shè)計(jì),成績在,80,90,分之間的支持度為,61.6%,置信度為,79.8%,,,規(guī)則,4,說明,計(jì)算機(jī)基礎(chǔ),成績在,70,80,分之間,,高級語言程序設(shè)計(jì),在,80,90,分之間的支持度為,72.6%,,置信度為,85.7%,;這兩個(gè)規(guī)則表示公共基礎(chǔ)課程,外語,和,計(jì)算機(jī)基礎(chǔ),對學(xué)好計(jì)算機(jī)專業(yè)課也很重要,同時(shí)可以看出,計(jì)算機(jī)基礎(chǔ),成績和,外語,成績相對偏低,需要引起重視。,規(guī)則,5,說明,數(shù)據(jù)庫原理,成績在,80,90,分之間,,計(jì)算機(jī)網(wǎng)絡(luò),也在,80,90,分之間的支持度為,58.4%,置信度為

11、,76.5%,規(guī)則,6,說明,高級語言程序設(shè)計(jì),在,80,90,分之間,,計(jì)算機(jī)網(wǎng)絡(luò),也在,80,90,分之間的支持度為,56.9%,置信度為,83.4%,這兩個(gè)規(guī)則雖然可信度和置信度都較高,但實(shí)際究竟有無關(guān)聯(lián)需要深入探討。,規(guī)則,2,說明,計(jì)算機(jī)基礎(chǔ),成績在,70,80,分之間,,工科高數(shù),在,80,90,分之間的支持度為,55.8%,置信度為,87.2%,雖然可信度和置信度都達(dá)到了要求,但根據(jù)實(shí)際經(jīng)驗(yàn),兩者并無直接關(guān)聯(lián),實(shí)際工作中可以不予考慮。其他規(guī)則同樣如此,需要決策者根據(jù)實(shí)際情況具體研究,有分析地借鑒參考。,5,結(jié)語,高等學(xué)校學(xué)生信息量巨大,運(yùn)用關(guān)聯(lián)規(guī)則挖掘算法進(jìn)行數(shù)據(jù)挖掘,能夠得到很

12、多有價(jià)值的信息,挖掘出的規(guī)則對教務(wù)人員以及教師具有重大意義。舉一反三,如果從其他信息中能夠挖掘出更多的規(guī)則,例如個(gè)人成績與班級、專業(yè)之間的關(guān)系;個(gè)人成績與家庭、地域之間的關(guān)系等,必然對教學(xué)工作起到積極的指導(dǎo)作用。,Apriori算法的應(yīng)用,例,:,假設(shè)數(shù)據(jù)項(xiàng)集合,I=I,1,I,2,I,3,I,4,I,5,共有,5,個(gè)數(shù)據(jù)項(xiàng),表,1,給出含有這,5,個(gè)數(shù)據(jù)項(xiàng)的,9,條交易數(shù)據(jù)庫,第一列是交易數(shù)據(jù)的標(biāo)識號,第二列是交易數(shù)據(jù)所包含的項(xiàng)目,假定,最小支持度是,2,最小可信度為,50%,求最大頻繁項(xiàng)目集及其期望規(guī)則,.,表,1,交易數(shù)據(jù)集,注,:,支持度,=,項(xiàng)集頻度,選擇有且只有一個(gè)相同元素的兩個(gè),

13、2_,項(xiàng)頻繁集進(jìn),行連接,生成,3_,項(xiàng)候選集是,I1,I2,I3,I1,I2,I5,I1,I3,I5,I2,I3,I4,I2,I3,I5,I2,I4,I5,I1,I2,I4,如果一個(gè)項(xiàng)集是頻繁的,則它的所有子集也是頻,繁的。所以只考慮,I1,I2,I3,I1,I2,I5.,生成,4_,項(xiàng)候選集是,I1,I2,I3,I5,而,I2,I3,I5,不是頻繁集,所以不存在,4_,項(xiàng)頻繁集,.,從兩個(gè)最大頻繁集,I1,I2,I3,和,I1,I2,I5,可推出侯選關(guān)聯(lián)規(guī)則,再從侯選關(guān)聯(lián)規(guī)則中選出大于最小可信度的關(guān)聯(lián)規(guī)則即為期望的規(guī)則,.,從最大頻繁項(xiàng)集中可得候選關(guān)聯(lián)規(guī)則,大于最小可信度的為關(guān)聯(lián)規(guī)則,(*),同理,從六個(gè),2_,項(xiàng)頻繁集可推出侯選關(guān)聯(lián)規(guī)則,再從侯選關(guān)聯(lián)規(guī)則中選出大于最小可信度的關(guān)聯(lián)規(guī)則即為期望的規(guī)則,.,SQL Server 2005:,最低支持,:,此參數(shù)是關(guān)聯(lián)規(guī)則的最小支持,低于此值的對象組將會被過濾,;,最小項(xiàng)集大小,:,項(xiàng)集的對象數(shù)低于此值將會被過濾,;,最小概率,:,此參數(shù)是關(guān)聯(lián)規(guī)則的最小可信度,低于此值的規(guī)則將會被過濾,;,最低重要性,:,此參數(shù)是關(guān)聯(lián)規(guī)則的作用度,通過對數(shù)的方式來取得,大于零,指標(biāo)越大,規(guī)則越顯著,小于零,指標(biāo)越小,.,

展開閱讀全文
溫馨提示:
1: 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

相關(guān)資源

更多
正為您匹配相似的精品文檔
關(guān)于我們 - 網(wǎng)站聲明 - 網(wǎng)站地圖 - 資源地圖 - 友情鏈接 - 網(wǎng)站客服 - 聯(lián)系我們

copyright@ 2023-2025  zhuangpeitu.com 裝配圖網(wǎng)版權(quán)所有   聯(lián)系電話:18123376007

備案號:ICP2024067431-1 川公網(wǎng)安備51140202000466號


本站為文檔C2C交易模式,即用戶上傳的文檔直接被用戶下載,本站只是中間服務(wù)平臺,本站所有文檔下載所得的收益歸上傳人(含作者)所有。裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對上載內(nèi)容本身不做任何修改或編輯。若文檔所含內(nèi)容侵犯了您的版權(quán)或隱私,請立即通知裝配圖網(wǎng),我們立即給予刪除!

五月丁香婷婷狠狠色,亚洲日韩欧美精品久久久不卡,欧美日韩国产黄片三级,手机在线观看成人国产亚洲