DK7732數(shù)控高速走絲電火花線切割機及控制系統(tǒng)【說明書+CAD】
DK7732數(shù)控高速走絲電火花線切割機及控制系統(tǒng)【說明書+CAD】,說明書+CAD,DK7732數(shù)控高速走絲電火花線切割機及控制系統(tǒng)【說明書+CAD】,dk7732,數(shù)控,高速,電火花,切割機,控制系統(tǒng),說明書,仿單,cad
不完整測量數(shù)據(jù)的概念建構(gòu)
王壽宏,王海
摘要: 對資料挖掘來說,未經(jīng)加工的調(diào)查數(shù)據(jù)通常是不完整的。資料挖掘中缺失數(shù)據(jù)的問題在知識發(fā)現(xiàn)過程中常被忽略。這篇文章介紹了在不完整調(diào)查數(shù)據(jù)中資料挖掘的基礎(chǔ)概念,以及計劃知識發(fā)現(xiàn)中的咨詢過程,和在調(diào)查資料挖掘咨詢功能在概念解釋上的發(fā)展趨勢。這篇文章通過一個事例,論證了通過使用人工智力工具譬如自組織映射,不完整數(shù)據(jù)的概念解釋可以完成。
1.引言
數(shù)據(jù)挖掘就是分析數(shù)據(jù)以圖從中找出有用模型的過程。而數(shù)據(jù)挖掘與傳統(tǒng)的
統(tǒng)計分析有所不同,因為數(shù)據(jù)挖掘的目的是找出對數(shù)據(jù)所有者或數(shù)據(jù)挖掘員有價
值而又確定的關(guān)系。鑒于數(shù)據(jù)的維數(shù)和數(shù)據(jù)量本身的巨大,傳統(tǒng)的的統(tǒng)計分析方
法在數(shù)據(jù)挖掘時有其局限性。為滿足數(shù)據(jù)挖掘的最新需要,在數(shù)據(jù)挖掘領(lǐng)域里面
已經(jīng)廣泛采用基于人-機互動技術(shù)的人工智能技術(shù)。
數(shù)據(jù)挖掘時有很多非統(tǒng)計技術(shù)?;贙ohonen神經(jīng)網(wǎng)絡(luò)的自組織映射(SOM)法是其中一種比較有前途的方法?;诩杭夹g(shù)的SOM法對其他方法來說有優(yōu)勢。通常數(shù)據(jù)挖掘技術(shù)處理一些十分高維的數(shù)據(jù),也就是說做數(shù)據(jù)挖掘的數(shù)據(jù)庫通常是由很多變量決定的?!熬S數(shù)災(zāi)難”使得對數(shù)據(jù)關(guān)系的統(tǒng)計分析變得毫無意義,這也使得統(tǒng)計方法變得無能為力了。然而SOM方法并不依賴任何假定的統(tǒng)計測試,因而被認(rèn)為是處理多維數(shù)據(jù)的有效方法。更為重要的是SOM方法提供了多維可視化數(shù)據(jù)串的基礎(chǔ)。這種特色是其他任何數(shù)據(jù)分析方法都不具備的。它允許數(shù)據(jù)挖掘者分析該問題域中的集群。
測量只是數(shù)據(jù)采集中的一種普通數(shù)據(jù)獲取方法。在數(shù)據(jù)挖掘的中,我們得到的調(diào)研數(shù)據(jù)集通常很難滿足每個變量都有填寫完全的觀測結(jié)果。一般地,被調(diào)查者只部分地完成調(diào)研和問卷調(diào)查的內(nèi)容。當(dāng)事實上我們無法再次面向被調(diào)查者完成調(diào)研和問卷調(diào)查的全部內(nèi)容時,我們并不知道缺失數(shù)據(jù)的嚴(yán)重性,但這是數(shù)據(jù)掘中有待發(fā)現(xiàn)的最重要部分之一。事實上,在知識工程領(lǐng)域缺失數(shù)據(jù)是一個重要而具有爭議的問題。
通過集群分析在挖掘由不完整數(shù)據(jù)構(gòu)成的調(diào)查數(shù)據(jù)庫過程中,缺失數(shù)據(jù)的類
型及缺失數(shù)據(jù)對數(shù)據(jù)挖掘的潛在影響是一門學(xué)問。例如,數(shù)據(jù)挖掘者通常希望能
知道集群分析的可信程度;一些有價值的類型通常是什么時候和怎樣丟失的;以
及丟失有價值數(shù)據(jù)的時候哪些變量與之有關(guān)系。這些有價值東西在缺失數(shù)據(jù)集部
分被充分發(fā)掘之后才能發(fā)現(xiàn)。
這篇文章討論了知識發(fā)現(xiàn)中在發(fā)掘調(diào)研數(shù)據(jù)庫過程中數(shù)據(jù)缺失的問題,并介
紹了概念解釋的概念基礎(chǔ),以及建議設(shè)立基于SOM數(shù)據(jù)挖掘概念解釋查詢功能。以下部分是這樣安排的:第二部分討論數(shù)據(jù)缺失與數(shù)據(jù)挖掘的關(guān)系問題;第三部分介紹數(shù)據(jù)挖掘中SOM的概念解釋;第四部分說明了挖掘不完整數(shù)據(jù)的4個概念的知識發(fā)現(xiàn);并提供了應(yīng)用SOM挖掘不完整數(shù)據(jù)的概念解釋的圖解。第五部分建立用于操控SOM的概念解釋查詢工具。第六部分介紹一個例子,該例子應(yīng)用咨詢工具對一個學(xué)生判斷測量的數(shù)據(jù)集進行熟練操作SOM系統(tǒng)的概念建構(gòu)。最后,第七部分作了結(jié)束語。
2 數(shù)據(jù)缺失問題
不完整數(shù)據(jù)集普遍存在于數(shù)據(jù)挖掘中。數(shù)據(jù)缺失的解決辦法有許多種,其中對付不完整數(shù)據(jù)的一種方便辦法是將那些已記錄沒有價值的數(shù)據(jù)集排除掉。然而這忽略了這些記錄中潛在的有用信息。萬一缺失數(shù)據(jù)的比重較大,從篩選過的數(shù)據(jù)中得出的結(jié)論就會有偏頗或引起誤導(dǎo)。
另一種處理丟失數(shù)據(jù)的簡單方法是用一類通用的“未知”來代替所有丟失數(shù)
據(jù)項。數(shù)據(jù)挖掘中,不確定的“未知”通常在丟失數(shù)據(jù)項中引起混亂和誤解。
對付缺失數(shù)據(jù)的第三種辦法是排除數(shù)據(jù)域中沒有價值的數(shù)據(jù)。對于時序數(shù)列,可觀察到的相鄰數(shù)據(jù)點可以插補。一般情況下,數(shù)據(jù)域中預(yù)期值可用于統(tǒng)計測量。然而,數(shù)據(jù)挖掘中,調(diào)研數(shù)據(jù)類型通常是隊、類,有多項選擇的,二進制的。這些例子中,插補及特殊缺失數(shù)據(jù)變量的使用通常是不夠的。更為重要的是,
研究表明,解決缺失數(shù)據(jù)的有效辦法應(yīng)該總是獨立于問題之外去研究。
新近,發(fā)現(xiàn)損缺失數(shù)據(jù)集的合計概念方向有了精確的方法。這些方法與傳統(tǒng)
逼近法處理缺失數(shù)據(jù)截然不同,它著眼于缺失數(shù)據(jù)的整體,而不是個別缺失的價
值。這些方法的這個高級特征使不完整數(shù)據(jù)的數(shù)據(jù)挖掘得以加強。然而這些統(tǒng)計
方法有其局限性。首先,得假定缺失價值存在于隨機方式或者新遵循一定的分配
儀式。這些關(guān)于數(shù)據(jù)分配嚴(yán)格假定通常是無效的,特別對不完善數(shù)據(jù)的測定。第
二,這些數(shù)學(xué)模型通常是數(shù)據(jù)驅(qū)動,而不是“問題領(lǐng)域驅(qū)動”。實際上,由于數(shù)
據(jù)挖掘的目標(biāo)常常與具體問題域有關(guān)聯(lián),一個單獨普通概念建構(gòu)算法不足以應(yīng)付
數(shù)據(jù)挖掘的多樣目標(biāo)。
數(shù)據(jù)庫的知識發(fā)現(xiàn)是鑒別有效的、新奇的、有潛在作用并最終可以理解的數(shù)
據(jù)模式的有實際意義的過程。根據(jù)這個定義,這項研究強調(diào)利用不完整數(shù)據(jù)進行
數(shù)據(jù)挖掘概念構(gòu)建的兩個方面。首先,利用不完整數(shù)據(jù)進行數(shù)據(jù)挖掘中,有效、
新奇、有用的標(biāo)準(zhǔn)隨問題而定。那就是,一個數(shù)據(jù)模式不單獨依賴于該模式估計
的統(tǒng)計力,也依賴于數(shù)據(jù)挖掘者。第二,通過對建立于計算機和人類認(rèn)識理論的
組合空間的啟發(fā)式研究,可以完成基于不完整數(shù)據(jù)的概念建構(gòu)。人機協(xié)作進行概
念建構(gòu)就是在數(shù)據(jù)挖掘者和計算機之間發(fā)掘出新奇、似是而非、有用的、相關(guān)的
和有趣味性與缺失數(shù)據(jù)相關(guān)的知識的人機交互式過程。
照我們看來,數(shù)據(jù)挖掘與傳統(tǒng)統(tǒng)計在處理缺失數(shù)據(jù)方面有很多不同。
(1)數(shù)據(jù)挖掘試圖從數(shù)據(jù)中去發(fā)掘出無疑的、潛在的有用模式,是由于數(shù)據(jù)挖掘者的新奇目標(biāo)在于缺失數(shù)據(jù)而不在于估計個別缺失數(shù)據(jù)的價值。
(2)數(shù)據(jù)挖掘是人類知識發(fā)現(xiàn)環(huán)道中心環(huán)節(jié)工具,該過程是通過人機交互而認(rèn)
識到由集合水平上缺失數(shù)據(jù)引起的沖擊,更甚于僅用基于未經(jīng)證實的假設(shè)的數(shù)學(xué)
方法得出的結(jié)論。
3.概念建構(gòu)的工具:自映射組織(SOM)
假如有一個很大多維集調(diào)研的例子,通常就會有很大一部分觀察資料丟失
價值,然而并非所有的缺失數(shù)據(jù)都引起數(shù)據(jù)挖掘者的興趣。因此,對于一個有巨
大數(shù)據(jù)來說,任何簡單的強力搜索缺失數(shù)據(jù)的方法都是不可行,而且,當(dāng)數(shù)據(jù)挖
掘者通過數(shù)據(jù)挖掘僅為了找出問題或者發(fā)展概念時該方法是沒有用的。為明確問
題或創(chuàng)建概念,數(shù)據(jù)挖掘者需要一種工具來觀察可利用數(shù)據(jù)與缺失數(shù)據(jù)的確定模
式。
由于自映射組織(SOM)比流行的k-群集算法在計算方面更有效率,因此在群集分組中廣泛應(yīng)用。更為重要的是,SOM為數(shù)據(jù)挖掘者提供數(shù)據(jù)的可視化,用來觀察多維數(shù)據(jù)。研究表明,SOM在數(shù)據(jù)挖掘中鑒別未可懷疑的數(shù)據(jù)模式中很有效。特別是,SOM可用在多變量測量數(shù)據(jù)的集群分析。這個研究更進一步,把SOM作為有關(guān)缺失數(shù)據(jù)的概念建構(gòu)的工具。不完整數(shù)據(jù)的概念建構(gòu)是為了研究缺失數(shù)據(jù)的模式,如同這些缺失數(shù)據(jù)對基于完整數(shù)據(jù)的挖掘結(jié)果的潛在沖擊。下面例子說明,SOM提供一種人機協(xié)作從缺失價值的數(shù)據(jù)中建構(gòu)概念的機制。
SOM能輸入模式中,通過無人監(jiān)督(競爭的)學(xué)習(xí)過程,學(xué)會一定有用的特征,
以及把多維數(shù)據(jù)繪制到低維圖片,這樣數(shù)據(jù)挖掘者可觀測到集群圖片。圖1描述了研究中應(yīng)用二層SOM的神經(jīng)網(wǎng)絡(luò)。低層節(jié)點(輸入節(jié)點)通過采樣數(shù)據(jù)點接收輸入數(shù)值。高層節(jié)點(輸出節(jié)點)在無人監(jiān)督學(xué)習(xí)后回饋輸入的組織映象。每個低層節(jié)點都經(jīng)過一個可變聯(lián)接權(quán)量,聯(lián)結(jié)到每個高層節(jié)點。
SOM無人監(jiān)督學(xué)習(xí)過程可簡要如下所述。開始時聯(lián)結(jié)承載較小隨機數(shù)學(xué)。輸入節(jié)點接收由采樣數(shù)據(jù)點引入的輸入代表向量。輸入向量經(jīng)過聯(lián)接傳送到輸出節(jié)點。激活的輸出節(jié)點依賴于輸入。在勝者通吃的競爭制度中,與輸入向量有最相似的權(quán)量的輸出節(jié)點被激活。在學(xué)習(xí)階段,權(quán)量依照Kohonen的學(xué)習(xí)規(guī)則更新。
權(quán)量更新僅存在于激活的輸出節(jié)點以及拓撲鄰點(如圖1)。在這種一維空間輸出事例中,我們假定了一個線性鄰域。該鄰域開始很大,尺寸隨時間慢慢減小。因為學(xué)習(xí)速度將趨于零,學(xué)習(xí)進程也將最終集于一點。
引入足夠的輸入向量后,權(quán)量將指定群集以便本地群集密度函數(shù)趨于接近輸
入向量的密度函數(shù)。由于共享相似拓撲的節(jié)點對相似輸入敏感,所以權(quán)量得組織。因而SOM的輸出節(jié)點要組織,同時,在預(yù)先并不了解聚類中心的情況下,也體現(xiàn)真實自映射組織聚類。讀者可到12章中看更詳細內(nèi)容。
4、不完整數(shù)據(jù)的概念建構(gòu)
這篇文章中,不完整數(shù)據(jù)的概念建構(gòu)通過兩個階段來完成的。首先,SOM應(yīng)用于完整數(shù)據(jù)的數(shù)據(jù)集中,顯示了引入聚類的數(shù)據(jù)的不同尋常的模式。基于這些聚類,數(shù)據(jù)挖掘者能鑒別出明確的數(shù)據(jù)模式,并清晰說清楚問題。其次,與正被討論的聚類有關(guān)聯(lián)的缺失價值的不完整數(shù)據(jù),構(gòu)造出新概念。這一段中,數(shù)據(jù)挖掘者估計了缺失數(shù)據(jù)對問題鑒別以及發(fā)展與缺失數(shù)據(jù)相關(guān)的知識的沖擊。第一階段的任務(wù)跟大部分SOM在聚類鑒別的應(yīng)用一樣。這篇文章集中目標(biāo)于第二階段,并計劃了不完整數(shù)據(jù)數(shù)據(jù)挖掘的概念建構(gòu)的方法。下一步,我們建造四個概念作為不完整數(shù)據(jù)數(shù)據(jù)挖掘的知識發(fā)現(xiàn)。如同本文后面所講的,通過人協(xié)作和基于SOM的可視化數(shù)據(jù),這些概念能夠建造出來。
4.1 可靠性
依照正被調(diào)查的問題,可靠性概念顯示了缺失數(shù)據(jù)的范圍。有兩個指數(shù)應(yīng)用
于該概念。
C1:/ 是缺失價值數(shù)據(jù)采樣的數(shù)量,是使用的聚類鑒定的完整價值的數(shù)據(jù)采樣的數(shù)量。顯然,/的值越高,聚類的觀測可靠性越低。
C2:(i)/(i) (i)是變量i的缺失數(shù)值,(i)是使用的聚類鑒定的采樣變量i的數(shù)值。再則,根據(jù)變量i,(i)/(i)的值越大,聚類的觀測可靠性越低。
4.2 隱匿
隱匿的概念揭示一次觀測結(jié)果的值在一定范圍內(nèi)變化意味著將在另一個變量中丟失價值。
C3: (i)|x(j)=(a,b) (i)是變量i的漏測值,x(j)是變量j的值,而(a,b)是x(j)的值的范圍。
索引揭示了測量疑問的不確定答案的程度,例如“未知”和“中立的”,或者組織缺失數(shù)據(jù)的意圖,例如“不想告訴”。
4.3 反求運算
反求運算的概念揭示了變量同時更可能缺失值。
C4:(i,j)/(i) (i,j)是變量i和j的漏測值, (i)是變量i的漏測值。C4這個概念揭示兩個變量的漏測值的相互關(guān)系。(i,j)/(i)的值越大,漏測值之間的相互關(guān)系越緊密。
4.4、條件效應(yīng)
條件效應(yīng)這個概念揭示了聚類鑒別的潛在變化,若缺失價值已完成。
C5: |=k是數(shù)據(jù)挖掘者感覺到的聚類的變化量,代表變量i的所有漏測值,而k是測量中可能出現(xiàn)的可能值。特別地,k={max,min,p},max是刻度的最大值,min是刻度的最小值,而p是隨機變量在完整數(shù)據(jù)中的同種分布函數(shù)的值。對漏測值來說,賦予k不同的值,數(shù)據(jù)挖掘者可能觀測到聚類的變化,然后重新限定問題。
簡言之,不完整數(shù)據(jù)的概念建構(gòu)是一門學(xué)問的發(fā)展過程。不完整數(shù)據(jù)中建造一個新概念,需要數(shù)據(jù)挖掘者去明確建構(gòu)中的特別問題。漏測值的四個概念是可靠性、隱匿性、求反運算及條件效應(yīng)。下一步我們逐步展開不完整數(shù)據(jù)概念建構(gòu)中的質(zhì)疑。我們質(zhì)疑的目的是使數(shù)據(jù)挖掘者能夠通過使用SOM來操作實驗過程,從而建造出新的與問題相關(guān)的概念。
5、概念建構(gòu)的詢問處理
結(jié)構(gòu)化查詢語言(SQL)這種查詢工具具有特征,這種標(biāo)準(zhǔn)查詢語言常用于相關(guān)數(shù)據(jù)庫管理系統(tǒng)。對于數(shù)據(jù)挖掘,由于數(shù)據(jù)庫信息檢索的最終目標(biāo)是通過應(yīng)用多變技術(shù)的明確表達的知識,創(chuàng)造一種單純的標(biāo)準(zhǔn)查詢語言能滿足數(shù)據(jù)挖掘的各個目的是不太可能的。然而,為了維持人機協(xié)作高效運轉(zhuǎn),數(shù)據(jù)挖掘中可視化詢問處理很必要。這個研究通過基于SOM的聚類分析,發(fā)展一套查詢函數(shù)來幫助數(shù)據(jù)挖掘者建造與缺失數(shù)據(jù)相關(guān)的概念。
基于SOM數(shù)據(jù)挖掘的計算環(huán)境是微軟的Excel。這使資料庫、SOM程序與詢問處理有可能整合為一個單純環(huán)境。應(yīng)用微軟的Excel,依靠電子表格,數(shù)據(jù)得以儲存;通過宏指令(VBA)SOM程序得以執(zhí)行;圖形函數(shù)支持?jǐn)?shù)據(jù)可視化;宏指令也使得查詢處理函數(shù)能夠運行。圖2描述了系統(tǒng)結(jié)構(gòu)的技術(shù)細節(jié)。解決了基于PC的軟件問題,系統(tǒng)結(jié)構(gòu)變得簡單而易于執(zhí)行。然而,從實際應(yīng)用的觀點來看,軟件系統(tǒng)限制了數(shù)據(jù)挖掘中數(shù)據(jù)庫的規(guī)模。
七組查詢函數(shù)已發(fā)展起來,對應(yīng)于上一節(jié)所描述數(shù)據(jù)挖掘中的四個概念以及一般操作函數(shù)。通過圖形用戶界面,數(shù)據(jù)挖掘者使用詢問處理系統(tǒng)。
5.1 獲得完整數(shù)據(jù)的聚類
數(shù)據(jù)挖掘者使用查詢函數(shù)來觀測聚類及鑒定不用懷疑的完整價值數(shù)據(jù)集模式?;谀切┚垲悾瑪?shù)據(jù)挖掘者明確問題所在。數(shù)據(jù)挖掘者能夠選擇適合SOM數(shù)據(jù)庫的變量,并設(shè)置拓撲和SOM參數(shù)便于管理的聚類的號碼。聚類的數(shù)量非常依賴于自然數(shù)據(jù)和SOM參數(shù)間的復(fù)雜關(guān)系。然而,通過減少SOM輸出節(jié)點的數(shù)量及調(diào)整巨大的學(xué)習(xí)率和初始化領(lǐng)域,數(shù)據(jù)挖掘者通常能夠減少聚類的數(shù)量;反之亦然。
應(yīng)用這個查詢函數(shù),數(shù)據(jù)挖掘者能夠描繪所查詢的SOM聚類。由于一個聚類的邊界線在圖中通常是模糊不清的,對聚類的描繪只能基于他或她對聚類的感知。在內(nèi)部,對應(yīng)觀測采樣,輪廓與聚類的SOM輸出節(jié)點相關(guān)。這使電腦程序追溯聚類到數(shù)據(jù)成為可能。查詢函數(shù)返回該聚類的變量的值的范圍。
5.2 SOM的保存和更正
查詢是為了保存和更正的SOM的一般操作,如同設(shè)置數(shù)據(jù)樣值的參數(shù)、變量。數(shù)據(jù)挖掘者能夠把一系列的SOM結(jié)果與不完整數(shù)據(jù)的概念建構(gòu)相比較。
5.3 查明 C1:/
通過SOM選定變量和確認(rèn)聚類后,數(shù)據(jù)挖掘者想知道的是觀測到的聚類的可靠性如何。這個查詢允許數(shù)據(jù)挖掘者去查明/中SOM培訓(xùn)所用變量。如果/的值大,數(shù)據(jù)挖掘者能夠發(fā)現(xiàn)個別變量的可靠性,如下面所述的。
5.4 查明C2: (i)/(i)
數(shù)據(jù)挖掘者可能對某一變量感興趣。應(yīng)用這個查詢,他能夠根據(jù)這個別的變量來核查聚類的觀測是否可靠。
5.5 查明C3: (i)/x(j)=(a,b)
該查詢函數(shù)能夠讓數(shù)據(jù)挖掘者查明一個變量的缺失值與別一變量的值的范圍之間的相互關(guān)系。這種關(guān)系提供如數(shù)值什么時候會丟失之類的信息。應(yīng)用該查詢,數(shù)據(jù)挖掘者詳細查明兩個變量如缺失值之間可能的相互關(guān)系、已一個變量知值的范圍及在其他變量中發(fā)現(xiàn)有缺失值的觀測的數(shù)量。
5.6 查明C4: (I,j)/(i)
該查詢函數(shù)能夠讓數(shù)據(jù)挖掘者找出兩個變量間缺失值的相互聯(lián)系。應(yīng)用該查詢,數(shù)據(jù)挖掘者首先選擇兩個與問題相關(guān)的變量進行調(diào)查,然后查明這兩個變量可能總共多久一次丟失值。
5.7 查明C5:=k
該查詢函數(shù)允許數(shù)據(jù)挖掘者用假定值代替缺失值,及觀察聚類的變化。假定值可能是最大與最小值中間的任何數(shù)。與返回詳細數(shù)據(jù)不同,查詢函數(shù)返回多樣的映射以便數(shù)據(jù)挖掘者用不同的k值比較聚類?;诩俣ǚ治鲈囼灒瑪?shù)據(jù)挖掘者能夠在感知缺失值在確定問題中的沖擊。
6、用一個例子來學(xué)習(xí)概念建構(gòu)
這一節(jié)中我們用一個例子來闡明不完整測量數(shù)據(jù)的概念建構(gòu)中基于SOM的查詢系統(tǒng)的應(yīng)用。學(xué)生的教師調(diào)查法在大學(xué)中廣泛應(yīng)用于估評教授的教學(xué)質(zhì)量。研究中沿用的數(shù)據(jù)來自加拿大大學(xué)一個學(xué)生對教師調(diào)查法(附件A)。在這個例子中二十一個問題描述了一個教師的表現(xiàn)特征。每個問題都有五個等級的答案讓學(xué)生回答。一個問題得高分表明問題的答案是積極的。這些問題的加權(quán)平均數(shù)由聯(lián)系于評價教學(xué)效果的多種數(shù)據(jù)組成。學(xué)校教學(xué)中心的一個任務(wù)是了解教學(xué)中的問題,以便采取相應(yīng)方法(例如,教學(xué)研究會及研究所)去攻克這些問題。
由于二十個問題與一個班級學(xué)期教學(xué)效果評估相關(guān),二十個變量組成SOM的多維數(shù)。最后一個問題與教師分級相關(guān)。研究中,該變量用于與低效教學(xué)相關(guān)的選擇,而這些教學(xué)基于該問題全部測量數(shù)據(jù)的中間值。
表1
概念建構(gòu)的例子
聚類
(采樣%)
問題相關(guān)變量
基于完整數(shù)據(jù)的問題鑒別
不完整數(shù)據(jù)的概念建構(gòu)
1 (24.8)
V16,v18
學(xué)生測試結(jié)果需要更
多令人信服的解釋
測試和分配不能夠?qū)?
學(xué)生提供反饋作用
對即時分級不滿意的學(xué)生,
通常對他們能否得到對
工作有益注解漠不關(guān)心
2 (26.6)
V14
應(yīng)該更好規(guī)劃測試和分配
對課程學(xué)習(xí)經(jīng)驗忽略看法
的學(xué)生通常對適當(dāng)測試或
者布置規(guī)劃漠不關(guān)心
3 (12.7)
V1,v20
不能很好描述困難概念;特
別是,課本沒有給出太多幫
助時
雖然v20的缺失值率最高,
缺失值對問題鑒定不具
嚴(yán)重沖擊
收集3823個無效教學(xué)質(zhì)量觀測采樣數(shù)據(jù)后可確認(rèn)這個學(xué)校的教學(xué)問題。這些數(shù)據(jù)中,2788個是完整的。
SOM聚類分析方法應(yīng)用于預(yù)先確認(rèn)完整數(shù)據(jù)中的問題。使用300個SOM輸出節(jié)點、200個初始化領(lǐng)域節(jié)點后,初始學(xué)習(xí)率是0.01,2000個學(xué)習(xí)疊代后,SOM顯示四出聚類。一個聚類表明有一組存在低值,該值在進一步分析后排除幾乎所有變量后得出的。三個聚類有蘊含意義。
根據(jù)聚類分析,發(fā)現(xiàn)接收到低值的變量v1,v14,v16,v18和v20比較特別,與無效教學(xué)有關(guān),如表1中前三行所述。
然后不完整數(shù)據(jù)用于建造該問題的新概念。
6.1 C1:/
雖然觀測資料的不完整率達對整個測量來說高達37%,根據(jù)關(guān)系密切的變量(v1,v14,v16,v18和v20),/是5.2%,這說明最初識別的問題通常有效的。
6.2 C2:(i)/
在這五個變量中,缺失值率最高是v20,達8.6%,這說明這變量(例如,無用的課本和教學(xué)材料)指示的無效教學(xué)的可靠性可能不如其他相關(guān)變量可靠。
6.3 C3:=(a,b)
v16的缺失值率是2.2%。然而,52.1%的缺失值來自觀測函數(shù)x(v15)=[1,3]。這說明不滿意即時分級通常對他們能否收到對他們工作有益意見漠不關(guān)心。
6.4 C4:
v14的缺失值率是3.7%。然而v14與v10由式子=33.6%緊密相聯(lián)在一塊。這說明忽略課程學(xué)習(xí)經(jīng)驗的看法的學(xué)生,通常對測試或分配要適當(dāng)計劃漠不關(guān)心。
6.5. C5: =k
這個例子中,v20缺失值最高(達8.6%)。數(shù)據(jù)挖掘者可能想了解缺失數(shù)據(jù)的潛在沖擊。在完整數(shù)據(jù)中,V20的最小值是1,最大值是5,v20的概率分布是{0.11|v20=1,0.16|v20=2,0.21|v20=3,0.28|v20=4,0.24|v20=5}。設(shè)置好v20的缺失值的這些值之后,新的試驗數(shù)據(jù)用來為SOM繪制示意圖。在完整數(shù)據(jù)中應(yīng)用相同的SOM拓撲,假定分析試驗是引導(dǎo)。 如圖3所示,這個例子的全部的結(jié)論是,v20的缺失值對問題鑒定不具嚴(yán)重沖擊。
這個例子中,缺失值新的概念建構(gòu)在表1的第四欄中總結(jié)出來了。
這個例子闡述了被提議的概念建構(gòu)方法的使用,并提供一個提議方案的實驗試驗。容易看出,這個例子研究的數(shù)據(jù)挖掘的數(shù)值范圍相當(dāng)小。一般來說,比起這個例子來,數(shù)據(jù)挖掘應(yīng)用于在規(guī)模和維數(shù)大得多的數(shù)據(jù)集。
7. 結(jié)論
在數(shù)據(jù)挖掘領(lǐng)域,不完整數(shù)據(jù)通常受到不公正對待。這篇文章提議不完整數(shù)據(jù)的概念建構(gòu),并提及了四個種類的缺失值概念。對于問題鑒別、數(shù)據(jù)隱藏意圖、兩個變量的缺失值求反運算以及缺失數(shù)據(jù)的條件效應(yīng),這些是可靠的。由于SOM在聚類和數(shù)據(jù)可視化方面的優(yōu)勢,而被選作概念建構(gòu)的工具?;赟OM聚類分析,這篇文章接著建議七類查詢函數(shù)來建構(gòu)不完整數(shù)據(jù)概念。使用這些查詢函數(shù),數(shù)據(jù)挖掘者能夠建構(gòu)與數(shù)據(jù)挖掘問題鑒別相關(guān)的新的概念。雖然與真實事例不同,但它已被證明,概念建構(gòu)的模式能更好用在知識發(fā)現(xiàn)方面。
知識發(fā)現(xiàn)在數(shù)據(jù)庫是個正在成長的領(lǐng)域。一般來說,知識發(fā)現(xiàn)開始于原始的問題鑒別。然而問題鑒別典型地證實為數(shù)據(jù)庫和一般統(tǒng)計算法力所不及的。在知識發(fā)現(xiàn)過程中,必須建造新的概念使數(shù)據(jù)不那么神秘。總之,不完整數(shù)據(jù)的概念建構(gòu)為知識發(fā)展提供有效的技術(shù),因而,基于數(shù)據(jù)細節(jié)問題領(lǐng)域和挖掘者的對缺失數(shù)據(jù)的感知,他能夠說明數(shù)據(jù)挖掘的結(jié)果。以后的工作包括在數(shù)據(jù)庫系統(tǒng)主機上執(zhí)行軟件系統(tǒng),并進一步評估被提議在更大范圍的數(shù)據(jù)集的方法。
收藏
編號:20697269
類型:共享資源
大?。?span id="esigem8" class="font-tahoma">2.29MB
格式:ZIP
上傳時間:2021-04-14
40
積分
- 關(guān) 鍵 詞:
-
說明書+CAD
DK7732數(shù)控高速走絲電火花線切割機及控制系統(tǒng)【說明書+CAD】
dk7732
數(shù)控
高速
電火花
切割機
控制系統(tǒng)
說明書
仿單
cad
- 資源描述:
-
DK7732數(shù)控高速走絲電火花線切割機及控制系統(tǒng)【說明書+CAD】,說明書+CAD,DK7732數(shù)控高速走絲電火花線切割機及控制系統(tǒng)【說明書+CAD】,dk7732,數(shù)控,高速,電火花,切割機,控制系統(tǒng),說明書,仿單,cad
展開閱讀全文
- 溫馨提示:
1: 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
裝配圖網(wǎng)所有資源均是用戶自行上傳分享,僅供網(wǎng)友學(xué)習(xí)交流,未經(jīng)上傳用戶書面授權(quán),請勿作他用。