《數(shù)據(jù)挖掘的清洗》由會員分享,可在線閱讀,更多相關(guān)《數(shù)據(jù)挖掘的清洗(46頁珍藏版)》請?jiān)谘b配圖網(wǎng)上搜索。
1、單擊此處編輯母版標(biāo)題樣式,單擊此處編輯母版文本樣式,第二級,第三級,第四級,第五級,*,數(shù)據(jù)預(yù)處理,為什么需要數(shù)據(jù)預(yù)處理?,數(shù)據(jù)清洗,數(shù)據(jù)集成與轉(zhuǎn)換,數(shù)據(jù)歸約,數(shù)據(jù)離散化與概念層次的構(gòu)建,本章小結(jié),為什么需要數(shù)據(jù)預(yù)處理?,在現(xiàn)實(shí)社會中,存在著大量的“臟”數(shù)據(jù),不完整性,(數(shù)據(jù)結(jié)構(gòu)的設(shè)計(jì)人員、數(shù)據(jù)采集設(shè)備和數(shù)據(jù)錄入人員),缺少感興趣的屬性,感興趣的屬性缺少部分屬性值,僅僅包含聚合數(shù)據(jù),沒有詳細(xì)數(shù)據(jù),噪音數(shù)據(jù)(采集數(shù)據(jù)的設(shè)備、數(shù)據(jù)錄入人員、數(shù)據(jù)傳輸),數(shù)據(jù)中包含錯誤的信息,存在著部分偏離期望值的孤立點(diǎn),不一致性(數(shù)據(jù)結(jié)構(gòu)的設(shè)計(jì)人員、數(shù)據(jù)錄入人員),數(shù)據(jù)結(jié)構(gòu)的不一致性,Label的不一致性,數(shù)據(jù)值的
2、不一致性,為什么需要數(shù)據(jù)預(yù)處理?,數(shù)據(jù)挖掘的數(shù)據(jù)源可能是多個互相獨(dú)立的數(shù)據(jù)源,關(guān)系數(shù)據(jù)庫,多維數(shù)據(jù)庫(Data Cube),文件、文檔數(shù)據(jù)庫,數(shù)據(jù)轉(zhuǎn)換,為了數(shù)據(jù)挖掘的方便,海量數(shù)據(jù)的處理,數(shù)據(jù)歸約(在獲得相同或者相似結(jié)果的前提下),為什么需要數(shù)據(jù)預(yù)處理?,沒有高質(zhì)量的數(shù)據(jù),就沒有高質(zhì)量的挖掘結(jié)果,高質(zhì)量的決策必須基于高質(zhì)量的數(shù)據(jù)基礎(chǔ)上,數(shù)據(jù)倉庫是在高質(zhì)量數(shù)據(jù)上的集成,數(shù)據(jù)預(yù)處理的主要任務(wù),數(shù)據(jù)清理,填入缺失數(shù)據(jù),平滑噪音數(shù)據(jù),確認(rèn)和去除孤立點(diǎn),解決不一致性,數(shù)據(jù)集成,多個數(shù)據(jù)庫、Data Cube和文件系統(tǒng)的集成,數(shù)據(jù)轉(zhuǎn)換,規(guī)范化、聚集等,數(shù)據(jù)歸約,在可能獲得相同或相似結(jié)果的前提下,對數(shù)據(jù)的容
3、量進(jìn)行有效的縮減,數(shù)據(jù)離散化,對于一個特定的連續(xù)屬性,尤其是連續(xù)的數(shù)字屬性,可以把屬性值劃分成若干區(qū)間,以區(qū)間值來代替實(shí)際數(shù)據(jù)值,以減少屬性值的個數(shù).,數(shù)據(jù)預(yù)處理的形式,數(shù)據(jù)清理,數(shù)據(jù)集成,數(shù)據(jù)轉(zhuǎn)換,數(shù)據(jù)歸約,主要內(nèi)容,為什么需要數(shù)據(jù)預(yù)處理?,數(shù)據(jù)清洗,數(shù)據(jù)集成與轉(zhuǎn)換,數(shù)據(jù)歸約,數(shù)據(jù)離散化與概念層次的構(gòu)建,本章小結(jié),數(shù)據(jù)清洗,主要任務(wù),補(bǔ)充缺失數(shù)據(jù),識別孤立點(diǎn),平滑噪音數(shù)據(jù),處理不一致的數(shù)據(jù),缺失數(shù)據(jù)的處理,部分?jǐn)?shù)據(jù)通常是不可用的,在許多元組中部分屬性值為空。如:在客戶表中的客戶收入為空。,導(dǎo)致數(shù)據(jù)缺失的原因,數(shù)據(jù)采集設(shè)備的故障,由于與其它信息的數(shù)據(jù)存在不一致性,因此數(shù)據(jù)項(xiàng)被刪除,由于不理解或
4、者不知道而未能輸入,在當(dāng)時數(shù)據(jù)輸入的時候,該數(shù)據(jù)項(xiàng)不重要而忽略,數(shù)據(jù)傳輸過程中引入的錯誤,缺失數(shù)據(jù)通常需要經(jīng)過合理的推斷予以添加,缺失數(shù)據(jù)的處理方法,忽略該記錄(元組),通常在進(jìn)行分類、描述、聚類等挖掘,但是元組缺失類標(biāo)識時,該種方法通常不是最佳的,尤其是缺失數(shù)據(jù)比例比較大的時候,手工填入空缺的值,枯燥、費(fèi)時,可操作性差,不推薦使用,使用一個全局的常量填充空缺數(shù)值,給定一個固定的屬性值如:未知、不祥、Unknown、Null等,簡單,但是沒有意義,使用屬性的平均值填充空缺數(shù)值,簡單方便、挖掘結(jié)果容易產(chǎn)生不精確的結(jié)果,使用與給定元組同一個類別的所有樣本的平均值,分類非常重要,尤其是分類指標(biāo)的選擇
5、,使用最有可能的值予以填充,利用回歸、基于推導(dǎo)的使用貝葉斯形式化的方法的工具或者判定樹歸納確定,利用屬性之間的關(guān)系進(jìn)行推斷,保持了屬性之間的聯(lián)系,缺失數(shù)據(jù)的處理方法(續(xù)),噪音數(shù)據(jù),噪音數(shù)據(jù):一個度量(指標(biāo))變量中的隨機(jī)錯誤或者偏差,主要原因,數(shù)據(jù)采集設(shè)備的錯誤,數(shù)據(jù)錄入問題,數(shù)據(jù)傳輸問題,部分技術(shù)的限制,數(shù)據(jù)轉(zhuǎn)換中的不一致,數(shù)據(jù)清理中所需要處理的其它問題,重復(fù)的記錄,不完整的數(shù)據(jù),不一致的數(shù)據(jù),噪音數(shù)據(jù)的處理,分箱(Binning)的方法,聚類方法,檢測并消除異常點(diǎn),線性回歸,對不符合回歸的數(shù)據(jù)進(jìn)行平滑處理,人機(jī)結(jié)合共同檢測,由計(jì)算機(jī)檢測可疑的點(diǎn),然后由用戶確認(rèn),處理噪音數(shù)據(jù):分箱方法,分箱
6、(Binning)方法:,基本思想:通過考察相鄰數(shù)據(jù)的值,來平滑存儲數(shù)據(jù)的值,基本步驟:,首先,對數(shù)據(jù)進(jìn)行排序,并分配到具有相同寬度/深度的不同的“箱子”中,其次,通過箱子的平均值(Means)、中值(Median)、或者邊界值等來進(jìn)行平滑處理,分箱(,Binning)方法舉例,對數(shù)據(jù)進(jìn)行排序:4,8,9,15,21,21,24,25,26,28,29,34,對數(shù)據(jù)進(jìn)行分割(相同深度):,-Bin 1:4,8,9,15,-Bin 2:21,21,24,25,-Bin 3:26,28,29,34,根據(jù)bin中的平均值進(jìn)行離散化:,-Bin 1:9,9,9,9,-Bin 2:23,23,23,23
7、,-Bin 3:29,29,29,29,基于聚類分析的平滑處理,通過線性回歸的平滑處理,x,y,y=x+1,X1,Y1,Y1,主要內(nèi)容,為什么需要數(shù)據(jù)預(yù)處理,數(shù)據(jù)清洗,數(shù)據(jù)集成與轉(zhuǎn)換,數(shù)據(jù)歸約,數(shù)據(jù)離散化與概念層次的構(gòu)建,本章小結(jié),數(shù)據(jù)集成,數(shù)據(jù)集成的概念,將多個數(shù)據(jù)源中的數(shù)據(jù)結(jié)合起來存放在一個一致的數(shù)據(jù)存儲中,數(shù)據(jù)源包括:多個數(shù)據(jù)庫、多維數(shù)據(jù)庫和一般的文件,數(shù)據(jù)集成也是數(shù)據(jù)倉庫建設(shè)中的一個重要問題,數(shù)據(jù)集成的內(nèi)容,模式集成,利用數(shù)據(jù)庫和數(shù)據(jù)倉庫的元數(shù)據(jù)信息,主要工作是識別現(xiàn)實(shí)世界中的實(shí)體定義,冗余數(shù)據(jù)的處理,檢測和解決數(shù)值沖突,對于現(xiàn)實(shí)世界中的同一實(shí)體,來自于不同數(shù)據(jù)源的屬性值可能不同,主要
8、原因:不同的數(shù)據(jù)表示、度量單位、編碼方式以及語義的不同,數(shù)據(jù)集成,數(shù)據(jù)集成的概念,將多個數(shù)據(jù)源中的數(shù)據(jù)結(jié)合起來存放在一個一致的數(shù)據(jù)存儲中,數(shù)據(jù)源包括:多個數(shù)據(jù)庫、多維數(shù)據(jù)庫和一般的文件,數(shù)據(jù)集成也是數(shù)據(jù)倉庫建設(shè)中的一個重要問題,數(shù)據(jù)集成的內(nèi)容,模式集成,利用數(shù)據(jù)庫和數(shù)據(jù)倉庫的元數(shù)據(jù)信息,主要工作是識別現(xiàn)實(shí)世界中的實(shí)體定義,冗余數(shù)據(jù)的處理,檢測和解決數(shù)值沖突,對于現(xiàn)實(shí)世界中的同一實(shí)體,來自于不同數(shù)據(jù)源的屬性值可能不同,主要原因:不同的數(shù)據(jù)表示、度量單位、編碼方式以及語義的不同,模式集成,數(shù)據(jù)類型沖突,性別:string(Male、Female)、Char(M、F)、Interger(0、1),日
9、期:Date、DateTime、String,數(shù)據(jù)標(biāo)簽沖突:解決同名異義、異名同義,學(xué)生成績、分?jǐn)?shù),度量單位沖突,學(xué)生成績,百分制:100 0,五分制:A、B、C、D、E,字符表示:優(yōu)、良、及格、不及格,概念不清,最近交易額:前一個小時、昨天、本周、本月?,聚集沖突:根源在于表結(jié)構(gòu)的設(shè)計(jì),冗余數(shù)據(jù)的處理,從多個數(shù)據(jù)源中抽取不同的數(shù)據(jù),容易導(dǎo)致數(shù)據(jù)的冗余,不同的屬性在不同的數(shù)據(jù)源中是不同的命名方式,有些屬性可以從其它屬性中導(dǎo)出,,例如:銷售額單價銷售量,有些冗余可以通過相關(guān)分析檢測到,其中:,n,是元組的個數(shù),和 分別是A和B的平均值,,和 分別是A和B的標(biāo)準(zhǔn)差,元組級的“重復(fù)”,也是數(shù)據(jù)冗余的
10、一個重要方面,減少冗余數(shù)據(jù),可以大大提高數(shù)據(jù)挖掘的性能,數(shù)據(jù)轉(zhuǎn)換,平滑處理:從數(shù)據(jù)中消除噪音數(shù)據(jù),聚集操作:對數(shù)據(jù)進(jìn)行綜合,類似于Data Cube的構(gòu)建,數(shù)據(jù)概化:構(gòu)建概念層次,數(shù)據(jù)規(guī)范化:將數(shù)據(jù)集中到一個較小的范圍之中,最大-最小規(guī)范化,z-score(零均值)規(guī)范化,小數(shù)范圍規(guī)范化(01規(guī)范化),屬性構(gòu)造,構(gòu)造新的屬性并添加到屬性集中,以幫助數(shù)據(jù)挖掘,數(shù)據(jù)轉(zhuǎn)換:規(guī)范化,最大-最小規(guī)范化,對原始數(shù)據(jù)進(jìn)行線性變換,保持了原始數(shù)據(jù)值之間的關(guān)系,當(dāng)有新的輸入,落在原數(shù)據(jù)區(qū)之外,該方法將面臨,“,越界,”,錯誤,受到孤立點(diǎn)的影響可能會比較大,數(shù)據(jù)轉(zhuǎn)換:規(guī)范化(續(xù)),z-score(零均值)規(guī)范化,
11、屬性基于平均值和標(biāo)準(zhǔn)差規(guī)范化,當(dāng)屬性的最大值和最小值未知,或者孤立點(diǎn)左右了最大最小規(guī)范化時,該方法有效,0-1規(guī)范化(小數(shù)定標(biāo)規(guī)范化),通過移動屬性的小數(shù)點(diǎn)位置進(jìn)行規(guī)范化,例如A的值為125,那么|A|=125,則j=3,有v=0.125。,Where,j,is the smallest integer such that Max(|),Reduced attribute set:A1,A4,A6,Y,Y,Y,N,N,N,數(shù)據(jù)壓縮,數(shù)據(jù)壓縮:應(yīng)用數(shù)據(jù)編碼或變換,以便得到數(shù)據(jù)的歸約或壓縮表示,無損壓縮:原數(shù)據(jù)可以由壓縮數(shù)據(jù)重新構(gòu)造而不丟失任何信息,字符串壓縮是典型的無損壓縮,現(xiàn)在已經(jīng)有許多很好的
12、方法但是它們只允許有限的數(shù)據(jù)操作,有損壓縮:只能重新構(gòu)造原數(shù)據(jù)的近似表示,影像文件的壓縮是典型的有損壓縮,典型的方法:小波變換、主要成分分析,數(shù)值歸約,數(shù)值歸約:通過選擇替代的、“較小”的數(shù)據(jù)表示形式來減少數(shù)據(jù)量,有參的方法,假設(shè)數(shù)據(jù)符合某些模型,通過評估模型參數(shù),僅需要存儲參數(shù),不需要存儲實(shí)際數(shù)據(jù)(孤立點(diǎn)也可能被存放),典型方法:對數(shù)線性模型,它估計(jì)離散的多維概率分布,無參的方法,不存在假想的模型,典型方法:直方圖、聚類和抽樣,直方圖,類似于分箱技術(shù),是一種流行的數(shù)據(jù)歸約方式,將屬性值劃分為不相交的子集,或“桶”,桶安放在水平軸上,而桶的高度(和面積)是該桶所代表的值的平均頻率。,每個桶只表
13、示單個屬性值,則稱其為“單桶”。通常,“桶”表示給定屬性的一個連續(xù)空間,可以通過編程,動態(tài)修改部分參數(shù),進(jìn)行合理構(gòu)造。,count,5,10,15,20,25,30,1,2,3,4,5,6,7,8,9,10,1-10,11-20,21-30,5,10,15,20,25,13,25,15,Price,Price,count,主要內(nèi)容,為什么需要數(shù)據(jù)預(yù)處理?,數(shù)據(jù)清洗,數(shù)據(jù)集成與轉(zhuǎn)換,數(shù)據(jù)歸約,數(shù)據(jù)離散化與概念層次的構(gòu)建,本章小結(jié),數(shù)據(jù)離散化和概念層次,屬性值分類,枚舉型,有序的,無序的,連續(xù)型:如 Real類型,數(shù)據(jù)離散化,對于一個特定的連續(xù)屬性,可以把屬性值劃分成若干區(qū)間,以區(qū)間值來代替實(shí)際數(shù)
14、據(jù)值,以減少屬性值的個數(shù)。,概念層次,利用高層的概念(如兒童、青年、中年、老年等)來代替低層的實(shí)際數(shù)據(jù)值(實(shí)際年齡),以減少屬性值的個數(shù)。,數(shù)值數(shù)據(jù)的離散化和概念分層建立的方法,分箱(Binning),直方圖分析,聚類分析的方法,根據(jù)自然分類進(jìn)行分割,分箱方法:一種簡單的離散化技術(shù),相同寬度,(距離)數(shù)據(jù)分割,將數(shù)據(jù)分成N等份,各個等份數(shù)據(jù)之間具有相同的距離,如果 A 和 B 分別為屬性值中的最大值和最小值,那么各個數(shù)據(jù)等份之間的距離為:W=(B-A)/N.,異常點(diǎn)將會扮演很重要的角色,傾斜的數(shù)據(jù)不能很好的解決,相同深度,(頻率)數(shù)據(jù)分割,將數(shù)據(jù)分成N等份,各個等份具有相同的數(shù)據(jù)個數(shù)。,具有較
15、好的可伸縮性,適合于數(shù)據(jù)分類的情況,離散化:直方圖方法,將數(shù)據(jù)分割到若干個桶之中,用桶中的平均值(或求和等)來表示各個桶。,可以通過編程,動態(tài)修改部分參數(shù),進(jìn)行合理構(gòu)造。,count,5,10,15,20,25,30,1,2,3,4,5,6,7,8,9,10,1-10,11-20,21-30,5,10,15,20,25,13,25,15,Price,Price,count,離散化:聚類分析方法,將數(shù)據(jù)按照,“,類內(nèi)最大相似度,類間最小相似度的原則,”,對數(shù)據(jù)進(jìn)行有效聚類,利用聚類的中心點(diǎn)來表示該類所包含的對象,數(shù)據(jù)聚類將非常有效,但是必須保證數(shù)據(jù)中沒有噪音數(shù)據(jù),按照自然分類進(jìn)行數(shù)據(jù)分割,利用3
16、-4-5 法則對數(shù)字型數(shù)據(jù)分類,將數(shù)據(jù)分成若干個,“,自然,”,的區(qū)間:,如果在所有數(shù)字的最高位覆蓋 3,6,7或9個不同的值,則將數(shù)據(jù)分成3段。3(1,1,1)6(2,2,2)7(2,3,2)9(3,3,3),如果在所有數(shù)字的最高位覆蓋 2,4,8個不同的值,則將數(shù)據(jù)分成4 段。,如果在所有數(shù)字的最高位覆蓋 1,5,10個不同的值,則將數(shù)據(jù)分成 5 段。,3-4-5 法則舉例,例,1,:包含數(shù)據(jù):,101,、,110,、,203,、,222,、,305,、,315,方法:最高位包含,3,個值(,1,、,2,、,3,),分成,100,,,200,),,200,,,300,),,300,,,400,)三段,例,2,:包含數(shù)據(jù):,101,、,110,、,103,、,422,、,405,、,415,,,400,方法:最高位包含,2,個值(,1,、,4,),分成,100,,,150,),,150,,,200,),,400,,,450,),,450,,,500,)四段,例,3,:包含數(shù)據(jù):,101,、,210,、,203,、,322,、,305,、,415,,,500,方法:最高位包含,5,個值