廈門(mén)大學(xué)數(shù)據(jù)挖掘數(shù)據(jù)的排序即有向聚類(lèi)分析課件

上傳人:仙*** 文檔編號(hào):253071451 上傳時(shí)間:2024-11-28 格式:PPT 頁(yè)數(shù):68 大小:2.96MB
收藏 版權(quán)申訴 舉報(bào) 下載
廈門(mén)大學(xué)數(shù)據(jù)挖掘數(shù)據(jù)的排序即有向聚類(lèi)分析課件_第1頁(yè)
第1頁(yè) / 共68頁(yè)
廈門(mén)大學(xué)數(shù)據(jù)挖掘數(shù)據(jù)的排序即有向聚類(lèi)分析課件_第2頁(yè)
第2頁(yè) / 共68頁(yè)
廈門(mén)大學(xué)數(shù)據(jù)挖掘數(shù)據(jù)的排序即有向聚類(lèi)分析課件_第3頁(yè)
第3頁(yè) / 共68頁(yè)

下載文檔到電腦,查找使用更方便

10 積分

下載資源

還剩頁(yè)未讀,繼續(xù)閱讀

資源描述:

《廈門(mén)大學(xué)數(shù)據(jù)挖掘數(shù)據(jù)的排序即有向聚類(lèi)分析課件》由會(huì)員分享,可在線閱讀,更多相關(guān)《廈門(mén)大學(xué)數(shù)據(jù)挖掘數(shù)據(jù)的排序即有向聚類(lèi)分析課件(68頁(yè)珍藏版)》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。

1、,,,,,,,單擊此處編輯母版標(biāo)題樣式,,單擊此處編輯母版文本樣式,,第二級(jí),,第三級(jí),,第四級(jí),,第五級(jí),,*,*,第五章,數(shù)據(jù)的排序及有向聚類(lèi)分析,,§5.1,引言,,,§5.2,事務(wù)項(xiàng)的排序標(biāo)準(zhǔn),,,§5.3,屬相項(xiàng)的排序標(biāo)準(zhǔn),,,§5.4,數(shù)據(jù)的衍生,,,§5.5,有序近鄰聚類(lèi)分析,,,§5.6,有序平均秩效應(yīng)聚類(lèi)分析,11/28/2024,§5.1,引 言,,數(shù)據(jù)排序在數(shù)據(jù)挖掘中顯得尤為重要,但往往被人們所忽視,.,因?yàn)樵跀?shù)據(jù)量較少時(shí),對(duì)于排序看起來(lái)不是什么問(wèn)題,也無(wú)需專(zhuān)門(mén)去研究和討論,.,然而,對(duì)于海量數(shù)據(jù)的分析,排序問(wèn)題就不是那么簡(jiǎn)單了,.,可以想象利用,Web,的有關(guān)資料,

2、我們?nèi)绾螌⒕W(wǎng)絡(luò)廣告、街頭廣告、報(bào)刊廣告等對(duì)電視廣告的影響程度排序呢?又如,在大學(xué)生成長(zhǎng)和發(fā)展過(guò)程,因素,q,1,,q,2,,...,q,25,所起的作用大小又是如何呢?,這些問(wèn)題的解決不僅為進(jìn)一步的數(shù)據(jù)挖掘提供適合的數(shù)據(jù)形式,而且為數(shù)據(jù)分析過(guò)程中的算法改進(jìn)、提高精度、增強(qiáng)有效性奠定了理論基礎(chǔ),.,11/28/2024,,數(shù)據(jù)排序必須要有,研究對(duì)象,,即我們是對(duì)屬性項(xiàng),(,變量,),進(jìn)行排序,還是對(duì)事務(wù)項(xiàng),(,樣本,),進(jìn)行排序,這一點(diǎn)必須要明確,.,研究對(duì)象要根據(jù)問(wèn)題的研究目的和內(nèi)容來(lái)確定,.,,,,在明確了排序的對(duì)象后,進(jìn)行排序前還要確定一個(gè),排序標(biāo)準(zhǔn),,標(biāo)準(zhǔn)不一樣,排序的結(jié)果不一樣,.,排

3、序標(biāo)準(zhǔn)的確定不是那么輕而易舉的,如果標(biāo)準(zhǔn)確定不好,不僅反映不出實(shí)際問(wèn)題,而且還有可能誤導(dǎo)人們對(duì)問(wèn)題的認(rèn)識(shí),.,因此,排序標(biāo)準(zhǔn)的確定既要建立在一定的理論基礎(chǔ)上,而且又要有一定的實(shí)際背景,.,這方面的內(nèi)容我們將在后面詳細(xì)探討,.,11/28/2024,,隨著對(duì)數(shù)據(jù)的進(jìn)一步考慮,我們將會(huì)發(fā)現(xiàn),,排序后數(shù)據(jù)之間的“距離”,(包括相似的概念,以后不再?gòu)?qiáng)調(diào)),并不相等,,也就是排序后數(shù)據(jù)的稀疏程度不均勻.由于數(shù)據(jù)量過(guò)大,我們自然要關(guān)心的是對(duì)一個(gè)數(shù)據(jù)集合進(jìn)行分析,,這樣就提出了如何對(duì)排序資料進(jìn)行聚類(lèi)分析.,11/28/2024,,我們知道聚類(lèi)分析源于許多研究領(lǐng)域,包括數(shù)據(jù)挖掘、統(tǒng)計(jì)學(xué)、生物學(xué)以及機(jī)器學(xué)習(xí),,

4、但對(duì)有序樣品的聚類(lèi)分析的理論內(nèi)容并不多,,(,胡國(guó)定,張潤(rùn)楚,(1989), 286-319),,而且所研究的內(nèi)容立足點(diǎn)是,已知變量,(,或樣品,),具有一定的順序,其順序在聚類(lèi)中是不能打亂的,即只能按其順序分成若干類(lèi),.,例如,欲了解兒童的生長(zhǎng)發(fā)育規(guī)律,對(duì)所獲得的兒童的體重按發(fā)育階段進(jìn)行分類(lèi),這里很清楚,只能按年齡由小到大分成若干個(gè)發(fā)育階段,如果按不同的年齡,(,非順序性,),將兒童的體重進(jìn)行聚類(lèi)分析,這樣的結(jié)果不適合生長(zhǎng)發(fā)育規(guī)律的要求,.,這類(lèi)有序變量,(,或樣品,),是客觀現(xiàn)實(shí)中存在的,這種有序我們稱(chēng)為,客觀有序,.,,11/28/2024,,對(duì)于非有序數(shù)據(jù)進(jìn)行聚類(lèi)分析,這在數(shù)據(jù)挖掘中已

5、經(jīng)成為一個(gè)非?;钴S的研究課題 (Trespv,V. (2001),Van,,Hulle,M.M.(2000),Gardner,M.,,,,Lalmas,M.and Ruthven,I.(2001),Friedman,J.H.,,(1997)).但是根據(jù)我們研究的內(nèi)容和聚類(lèi)的目的,將數(shù)據(jù)排序后,再進(jìn)行聚類(lèi)分析,這樣不僅會(huì)對(duì)聚類(lèi)的結(jié)果有更細(xì)致深刻的認(rèn)識(shí),還會(huì)大大提高聚類(lèi)的運(yùn)算速度.,在這里我們所涉及到的有序數(shù)據(jù)是根據(jù)某一研究的目的排列而成的,這種有序我們稱(chēng)為目的有序.,11/28/2024,§5.2.1,以信息源為標(biāo)準(zhǔn)的排序,§5.2,事務(wù)項(xiàng)(樣品)的排序標(biāo)準(zhǔn),11/28/2024,11/28/2

6、024,§5.2.2,以綜合屬性項(xiàng)為標(biāo)準(zhǔn)的排序,11/28/2024,11/28/2024,11/28/2024,11/28/2024,11/28/2024,§5.2.3,移動(dòng)通訊用戶綜合費(fèi)用排序,,我們已經(jīng)對(duì)某地區(qū)中國(guó)移動(dòng)通訊用戶數(shù)據(jù)庫(kù)進(jìn)行了壓縮分析,得到了關(guān)于屬性子集,A={,本地話費(fèi)、長(zhǎng)途話費(fèi)、漫游費(fèi),},的壓縮信息系統(tǒng),.,現(xiàn)在將利用上面的方法對(duì)移動(dòng)通訊用戶的消費(fèi)情況進(jìn)行綜合評(píng)價(jià),以,2001,年,10,月的壓縮信息系統(tǒng)為例分析,.,計(jì)算出綜合評(píng)價(jià)指標(biāo),Z,,將其可視化得到,2001,年,10,月移動(dòng)通訊用戶消費(fèi)屬性綜合評(píng)價(jià)分布,(,圖,1-b),,比較接近用戶消費(fèi)概率分布,,(,圖,

7、1-a),,綜合排序以后的分布見(jiàn)圖,2,,由于圖,2,反映出排序以后前,20,位的綜合指標(biāo)較大,將其事務(wù)項(xiàng)列出見(jiàn)下表,.,11/28/2024,圖,1-a,圖,1-b,移動(dòng)通訊用戶消費(fèi)概率分布與綜合屬性評(píng)價(jià)分布比較,11/28/2024,圖,2,移動(dòng)通訊用戶消費(fèi)綜合屬性評(píng)價(jià)排序,11/28/2024,11/28/2024,,通過(guò)分析我們可以挖掘出以下知識(shí):,,,,,i).,以此排序結(jié)果看,該地區(qū)移動(dòng)手機(jī)用戶平均消費(fèi)最大的綜合評(píng)價(jià)指標(biāo)值是,0.9865,,即本地話費(fèi)在,3,檔上,(100-300,元,),,長(zhǎng)途話費(fèi)和漫游費(fèi)的消費(fèi)在,2,檔上,(0-100,元,).,從總體上,該地區(qū)的移動(dòng)手機(jī)用戶

8、的本地話費(fèi)消費(fèi)群體集中在,3,檔,長(zhǎng)途話費(fèi)和漫游費(fèi)的消費(fèi)群體集中在,2,檔上,處于中低檔消費(fèi)水平,.,,ii).,這里需要特別說(shuō)明的是,所有的,1,檔消費(fèi)群體綜合評(píng)價(jià)指標(biāo)值為,0.0513,,排在第,13,位,這些消費(fèi)者雖然擁有手機(jī)但沒(méi)有消費(fèi),它直接影響著該地區(qū)移動(dòng)通訊的業(yè)務(wù)總收入量,這部分消費(fèi)者具有潛在流失傾向,公司應(yīng)該針對(duì)此情況采取措施,.,我們對(duì)以后的幾個(gè)月進(jìn)行分析,發(fā)現(xiàn)這種情形越發(fā)嚴(yán)重,.,這種異?,F(xiàn)象的發(fā)現(xiàn),充分體現(xiàn)了數(shù)據(jù)挖掘的特點(diǎn),.,11/28/2024,§5.3,屬性項(xiàng),(,變量,),的排序標(biāo)準(zhǔn),11/28/2024,§5.3.1,以平均水平為標(biāo)準(zhǔn)的排序,11/28/2024,

9、11/28/2024,11/28/2024,§5.3.2,以秩效應(yīng)為標(biāo)準(zhǔn)的排序,11/28/2024,11/28/2024,11/28/2024,11/28/2024,11/28/2024,§5.4,數(shù)據(jù)的衍生,§5.4.1,數(shù)據(jù)矩陣,,,聚類(lèi)分析是一種重要的人類(lèi)行為,通過(guò)聚類(lèi)人們能夠識(shí)別密集和稀疏的區(qū)域,因而發(fā)現(xiàn)全局的分布模式,以及數(shù)據(jù)屬性之間有趣的相互關(guān)系,.,聚類(lèi)分析作為數(shù)據(jù)挖掘的一種功能,不僅能獨(dú)立地來(lái)獲得數(shù)據(jù)分布情況,觀察每個(gè)族的特點(diǎn),集中對(duì)待定的某些族作出進(jìn)一步的分析,而且還是進(jìn)行其它數(shù)據(jù)分析,(,如回歸、分類(lèi)、網(wǎng)絡(luò)分析等,),的預(yù)處理過(guò)程,(Owen, A. B. (1999))

10、.,可以說(shuō),聚類(lèi)分析不論在理論上,還是在應(yīng)用上正在蓬勃發(fā)展,有貢獻(xiàn)的研究領(lǐng)域包括數(shù)據(jù)挖掘,(,Trespv,, V. (2001)),、統(tǒng)計(jì)學(xué),(Van,Der,Ark, L. A., Van,Der,,Heijden,, P. G. M. and,Sikkel,, D. (1999)),、機(jī)器學(xué)習(xí),(Krieger, A. M. and Green, P. E. (1999)),、空間數(shù)據(jù)庫(kù)技術(shù),(Nelson, D. E. (2001)),、生物學(xué),(Segal, E. and,Koller,, D.),以及市場(chǎng)營(yíng)銷(xiāo),(,Yun,, C. H.,,Chuang,, K. T. and

11、Chen, M. S.),等,.,由于數(shù)據(jù)庫(kù)中收集了大量的數(shù)據(jù),聚類(lèi)分析的研究工作已經(jīng)涉及到大型數(shù)據(jù)庫(kù)的有效和實(shí)際的聚類(lèi)分析尋找適當(dāng)?shù)姆椒ㄉ?.,那么,聚類(lèi)分析所針對(duì)的數(shù)據(jù)類(lèi)型如何呢?這一問(wèn)題的明確,將會(huì)為聚類(lèi)分析的方法研究澄清思路,.,11/28/2024,11/28/2024,§5.4.2,相異度矩陣,11/28/2024,11/28/2024,11/28/2024,11/28/2024,§5.5,有序近鄰聚類(lèi)分析,§5.5.1,相似指標(biāo)的確定及聚類(lèi)分析,11/28/2024,11/28/2024,11/28/2024,11/28/2024,§5.5.2 Fisher,最優(yōu)求解法與有序近

12、鄰方法的比較,11/28/2024,11/28/2024,11/28/2024,11/28/2024,11/28/2024,11/28/2024,11/28/2024,11/28/2024,11/28/2024,11/28/2024,11/28/2024,11/28/2024,§5.6,有序平均秩效應(yīng)聚類(lèi)分析,§5.6.1,平均秩效應(yīng)原則及聚類(lèi)方法,11/28/2024,11/28/2024,11/28/2024,11/28/2024,11/28/2024,11/28/2024,,11/28/2024,11/28/2024,11/28/2024,,通過(guò)上面的計(jì)算結(jié)果我們可以挖掘出一下知識(shí):,,

13、,,i).,第一類(lèi)與第二類(lèi)所包含水平的影響程度明顯地高于平均影響程度,而且第一類(lèi)遠(yuǎn)遠(yuǎn)高于其他類(lèi)對(duì)大學(xué)生成長(zhǎng)與發(fā)展的影響,,說(shuō)明個(gè)人對(duì)未來(lái)的發(fā)展動(dòng)機(jī)與家庭狀況對(duì)自己的成長(zhǎng)與發(fā)展影響最大,.,第二類(lèi)僅次于平均影響程度,說(shuō)明大學(xué)生對(duì)專(zhuān)業(yè)知識(shí)的加強(qiáng)在自己的成長(zhǎng)與發(fā)展中起著相當(dāng)重要的作用,.,,ii).,第三類(lèi)包括社會(huì)政治環(huán)境、報(bào)刊雜志的內(nèi)容、兄弟姐妹言行、校風(fēng)學(xué)風(fēng)狀況,.,由于報(bào)刊雜志的內(nèi)容、兄弟姐妹言行、校風(fēng)學(xué)風(fēng)狀況均與社會(huì)環(huán)境的好壞有著密切的關(guān)系,,我們可以將這一類(lèi)概括為在現(xiàn)社會(huì)大環(huán)境因素,它對(duì)大學(xué)生成長(zhǎng)和發(fā)展的影響與平均影響程度沒(méi)有顯著性的差異,.,,iii).,第四類(lèi)、第五類(lèi)與第六類(lèi)所包含水平

14、的影響程度均低于平均影響程度,.,11/28/2024,,第四類(lèi)所包括的內(nèi)容從兩個(gè)方面影響大學(xué)生的成長(zhǎng)與發(fā)展,即一是對(duì)物質(zhì)方面的追求,二是老師言行及典型人物的影響,例如科學(xué)家和英雄人物,.,,,第五類(lèi)包括校園文化活動(dòng)、學(xué)校管理制度和學(xué)校周?chē)h(huán)境,.,說(shuō)明學(xué)校的各種狀況對(duì)大學(xué)生成長(zhǎng)與發(fā)展有一定的影響,.,,,第六類(lèi)所包括的水平有一般性的學(xué)術(shù)講座、學(xué)校政治思想工作、同班同學(xué)言行舉止、錄像或電影內(nèi)容、老鄉(xiāng)的各種行為,這一類(lèi)涉及的內(nèi)容比較廣,稱(chēng)其為綜合水平,.,其中老鄉(xiāng)的各種行為影響程度最小,而且它與其它水平影響程度的差異比較大,說(shuō)明老鄉(xiāng)的各種行為在大學(xué)生成長(zhǎng)與發(fā)展中作用極小,.,在這里需要強(qiáng)調(diào)的是,

15、一般性的學(xué)術(shù)講座和學(xué)校政治思想工作的影響程度略低于第五類(lèi),表明它們對(duì)大學(xué)生成長(zhǎng)與發(fā)展有影響,但這種影響遠(yuǎn)遠(yuǎn)低于平均影響程度,.,這就要求學(xué)校有針對(duì)性的開(kāi)展一般性的學(xué)術(shù)活動(dòng)和政治思想工作,.,11/28/2024,,最后需要說(shuō)明的是,平均秩效應(yīng)聚類(lèi)分析是建立在秩分析基礎(chǔ)之上的,類(lèi)與類(lèi)之間可以比較影響程度的大小,從中可以尋找出主要因素類(lèi)和次要因素類(lèi),為解決實(shí)際問(wèn)題提供較為可靠的依據(jù),.,為了特別地突出主次之分,在平均秩效應(yīng)聚類(lèi)過(guò)程中,以,1/2,的平均影響程度或以,3/2,的平均影響程度為標(biāo)準(zhǔn)進(jìn)行聚類(lèi)分析,.,為了分析的更加細(xì)膩,可以將這些標(biāo)準(zhǔn)聯(lián)合運(yùn)用進(jìn)行平均秩效應(yīng)聚類(lèi)分析,.,11/28/2024,聚類(lèi)分析的效應(yīng)檢驗(yàn),11/28/2024,,11/28/2024,,11/28/2024,,11/28/2024,參考文獻(xiàn),11/28/2024,11/28/2024,本章結(jié)束,11/28/2024,

展開(kāi)閱讀全文
溫馨提示:
1: 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

相關(guān)資源

更多
正為您匹配相似的精品文檔
關(guān)于我們 - 網(wǎng)站聲明 - 網(wǎng)站地圖 - 資源地圖 - 友情鏈接 - 網(wǎng)站客服 - 聯(lián)系我們

copyright@ 2023-2025  zhuangpeitu.com 裝配圖網(wǎng)版權(quán)所有   聯(lián)系電話:18123376007

備案號(hào):ICP2024067431號(hào)-1 川公網(wǎng)安備51140202000466號(hào)


本站為文檔C2C交易模式,即用戶上傳的文檔直接被用戶下載,本站只是中間服務(wù)平臺(tái),本站所有文檔下載所得的收益歸上傳人(含作者)所有。裝配圖網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)上載內(nèi)容本身不做任何修改或編輯。若文檔所含內(nèi)容侵犯了您的版權(quán)或隱私,請(qǐng)立即通知裝配圖網(wǎng),我們立即給予刪除!

五月丁香婷婷狠狠色,亚洲日韩欧美精品久久久不卡,欧美日韩国产黄片三级,手机在线观看成人国产亚洲