數(shù)據(jù)挖掘與數(shù)據(jù)倉庫知識點總結(jié).doc
《數(shù)據(jù)挖掘與數(shù)據(jù)倉庫知識點總結(jié).doc》由會員分享,可在線閱讀,更多相關《數(shù)據(jù)挖掘與數(shù)據(jù)倉庫知識點總結(jié).doc(8頁珍藏版)》請在裝配圖網(wǎng)上搜索。
1、數(shù)據(jù)倉庫定義:數(shù)據(jù)倉庫是一種新的數(shù)據(jù)處理體系結(jié)構(gòu),它與組織機構(gòu)的操作數(shù)據(jù)庫分別維護,允許將各種應用系統(tǒng)一起,為統(tǒng)一的歷史數(shù)據(jù)分析提供堅實的平臺,對信息處理提供支持。數(shù)據(jù)倉庫是面向主題的、集成的、相對穩(wěn)定的、反映歷史變化的數(shù)據(jù)集合,為企業(yè)決策支持系統(tǒng)提供所需的集成信息。設計和構(gòu)造步驟:1)選取待建模的商務處理;2)選取商務處理的粒變;3)選取用于每個事實表記錄的維;4)選取事實表中每條記錄的變量 系統(tǒng)結(jié)構(gòu):(1)底層是倉庫數(shù)據(jù)服務器,總是關系數(shù)據(jù)庫系統(tǒng)。(2)中間層是OLAP服務器,有ROLAP和MOLAP,它將對多維數(shù)據(jù)的操作映射為標準的關系操作(3)頂層是前端客戶端,它包括查詢和報表工具、分析工具和數(shù)據(jù)挖掘工具 2、數(shù)據(jù)倉庫的多維數(shù)據(jù)模型:(1)星形模式:在此模型下,數(shù)據(jù)倉庫包括一個大的包含大批數(shù)據(jù)并且不含冗余的中心表,一組小的附屬表,維表圍繞中心事實表顯示的射線上。特征:星型模型四周的實體是維度實體,其作用是限制和過濾用戶的查詢結(jié)果,縮小訪問范圍。每個維表都有自己的屬性,維表和事實表通過關鍵字相關聯(lián)?!纠樱簊ales數(shù)據(jù)倉庫的星形模式,此模式包含一個中心事實表sales,它包含四個維time, item, branch和location。 (2)雪花型模式:它是星形模式的變種,其中某些維表是規(guī)范化的,因而把數(shù)據(jù)進一步分解到附加的表中。特征:雪花模型通過最大限度地減少數(shù)據(jù)存儲量和聯(lián)合較小的維表來改善查詢性能,增加了用戶必須處理的表數(shù)量和某些查詢的復雜性,但同時提高了處理的靈活性,可以回答更多的商業(yè)問題,特別適合系統(tǒng)的逐步建設要求。【例子同上,只不過把其中的某些維給擴展了。 (3)事實星座形:復雜的應用可能需要多個事實表共享維表,這種模式可看作星形模式的匯集。 特征:事實星座模型能對多個相關的主題建模。例子:有兩個事實表sales和shipping,它們可以共享維表time, item和location。 3、OLAP:即聯(lián)機分析處理,是在OLTP基礎上發(fā)展起來的、以數(shù)據(jù)倉庫基礎上的、面向高層管理人員和專業(yè)分析人員、為企業(yè)決策支持服務。特點:1.實時性要求不是很高。2.數(shù)據(jù)量大。3.因為重點在于決策支持,所以查詢一般是動態(tài)的,也就是說允許用戶隨機提出查詢要求。 OLAP操作:上卷:通過沿一個維的概念分層向上攀登,或者通過維歸約,對數(shù)據(jù)立方體進行類聚。下鉆:是上卷的逆操作,它由不太詳細的數(shù)據(jù)得到更詳細的數(shù)據(jù),下鉆可以通過沿維的概念分層向下或引入附加的維來實現(xiàn)。切片:對給定方體的一個維進行進行選擇,導致一個子立方體。切塊:通過對兩個或多個維執(zhí)行選擇,定義子立方體。轉(zhuǎn)軸:是一種可視化操作,它轉(zhuǎn)動數(shù)據(jù)的視角,提供數(shù)據(jù)的替代表示。 OLTP:即聯(lián)機事務處理,是以傳統(tǒng)數(shù)據(jù)庫為基礎、面向操作人員和低層管理人員、對基本數(shù)據(jù)進行查詢和增、刪、改等的日常事務處理。OLTP的特點有:a.實時性要求高;b.數(shù)據(jù)量不是很大。C.交易一般是確定的,是對確定性數(shù)據(jù)進行存取。d.并發(fā)性要求高且嚴格的要求事務的完整性,安全性。 OLTP和OLAP的區(qū)別:1)用戶和系統(tǒng)的面向性:OLTP面向顧客,而OLAP面向市場;2)數(shù)據(jù)內(nèi)容:OLTP系統(tǒng)管理當前數(shù)據(jù),而OLAP管理歷史的數(shù)據(jù);3)數(shù)據(jù)庫設計:OLTP系統(tǒng)采用實體-聯(lián)系(ER)模型和面向應用的數(shù)據(jù)庫設計,而OLAP系統(tǒng)通常采用星形和雪花模型;4)視圖:OLTP系統(tǒng)主要關注一個企業(yè)或部門內(nèi)部的當前數(shù)據(jù),而OLAP 系統(tǒng)主要關注匯總的統(tǒng)一的數(shù)據(jù);5)訪問模式:OLTP訪問主要有短的原子事務組成,而OLAP系統(tǒng)的訪問大部分是只讀操作,盡管許多可能是復雜的查詢。 7、PageRank算法 原理:1)在初始階段:構(gòu)建Web圖,每個頁面初始設置相同的PageRank值,通過迭代計算,會得到每個頁面所獲得的最終PageRank值。2)在一輪中更新頁面PageRank得分的計算方法:每個頁面將其當前的PageRank值平均分配到本頁面包含的出鏈上。每個頁面將所有指向本頁面的入鏈所傳入的權(quán)值求和,即可得到新的PageRank得分。 優(yōu)點:是一個與查詢無關的靜態(tài)算法,所有網(wǎng)頁的PageRank值通過離線計算獲得;有效減少在線查詢時的計算量,極大降低了查詢響應時間。 缺點:1)人們的查詢具有主題特征,PageRank忽略了主題相關性,導致結(jié)果的相關性和主題性降低。2)舊的頁面等級會比新頁面高。因為即使是非常好的新頁面也不會有很多上游鏈接,除非它是某個站點的子站點。 5、分類:指把數(shù)據(jù)樣本映射到一個事先定義的類中的學習過程,即給定一組輸入的屬性向量及其對應的類。過程:①在已知訓練數(shù)據(jù)集上,根據(jù)屬性特征,為每一種類別找到一個合理的描述或模型,即分類規(guī)則;②然后根據(jù)規(guī)則對新數(shù)據(jù)進行分類。 分類的方法有哪些,給出你所了解的評估分類器的方法和特點? 分類方法:用基于歸納的學習算法,k-最近鄰分類,人工神經(jīng)網(wǎng)絡法、粗糙集法和遺傳算法。用判定樹歸納分類;貝葉斯分類;后向傳播分類;基于規(guī)則的分類;關聯(lián)分類,SVM支持向量機等。 分類和預測的評估方法:預測的準確率、速度、強壯性、可規(guī)模性、可解釋性。 評估方法:(1)保持方法,給定數(shù)據(jù)隨機地劃分成兩個獨立的集合:訓練集和測試集。通常,三分之二的數(shù)據(jù)分配到訓練集,其余三分之一分配到測試集。使用訓練集導出分類法,其準確率用測試集評估。評估是保守的,因為只有一部分初始數(shù)據(jù)用于導出的分類法。 (2)交叉確認:在k-折交叉確認中,初試數(shù)據(jù)被劃分成 k 個互不相交的子集或“折”S 1,S 2,...,S k,每個折的大小大致相等。訓練和測試進行 k次。在第 i次迭代,S i用作測試集,其余的子集都用于訓練分類法。其它方法包括解靴帶(bootstrapping)和留一。前者使用一致的、帶放回的選樣,選取給定的訓練實例;后者是 k-折交叉確認,這里 k 為初始樣本數(shù) s。一般地,建議使用調(diào)整的 10-折交叉確認,因為它具有相對低的偏置和方差。 (3)袋裝:給定 s 個樣本的集合 S,對于迭代 t ( t = 1,2,...,T ),訓練集 S t采用放回選樣,由原始樣本集 S 選取。由于使用放回選樣,S 的某些樣本可能不在 St中,而其它的可能出現(xiàn)多次。由每個訓練集 S t學習,得到一個分類法 C t。為對一個未知的樣本 X 分類,每個分類法 C t返回它的類預測,算作一票。裝袋的分類法 C*統(tǒng)計得票,并將得票最高的類賦予 X。通過取得票的平均值,而不是多數(shù),裝袋也可以用于連續(xù)值的預測。 (4)推進:每個訓練樣本賦予一個權(quán)。學習得到一系列分類法。學習得到分類法 Ct后,更新權(quán),使得隨后的分類法 C t+1 “更關注” C t的分類錯誤。最終的推進分類法 C*組合每個分類法的表決,這里每個分類法的表決是其準確率的函數(shù)。推進算法也可以擴充到連續(xù)值預測。 應用領域:是數(shù)據(jù)挖掘領域中研究和應用最為廣泛的技術之一,許多分類算法被包含在統(tǒng)計分析工具的軟件包中,作為專門的分類工具來使用。分類問題在商業(yè)、銀行業(yè)、生物學、文本挖掘、因特網(wǎng)篩選等領域都有廣泛應用。例如在因特網(wǎng)篩選中,分類方法可以協(xié)助網(wǎng)絡工作人員將正常郵件和垃圾郵件進行分類,從而制定有效的垃圾郵件過濾機制,防止垃圾郵件干擾人們的正常生活。 8、決策樹歸納算法及其優(yōu)缺點 決策樹定義:是用樣本的屬性作為結(jié)點,用屬性的取值作為分支的樹結(jié)構(gòu)。它是利用信息論原理對大量樣本的屬性進行分析和歸納而產(chǎn)生的。決策樹的根結(jié)點是所有樣本中信息量最大的屬性。樹的中間結(jié)點是以該結(jié)點為根的子樹所包含的樣本子集中信息量最大的屬性。決策樹的葉結(jié)點是樣本的類別值。 歸納算法過程:①創(chuàng)建節(jié)點N,若劃分D中所有元組屬于同一個類C,返回N,并用C標記②若屬性表為空,返回N并以D中多數(shù)類標記 ③從屬性表中找到最優(yōu)屬性a,標記節(jié)點N ④如果a是離散的且允許多路劃分,則從屬性表中刪除a ⑤對屬性a在D上的每個劃分Dj,若Dj為空,則加一個樹葉到N并標記D中的多數(shù)類,否則遞歸調(diào)用本算法處理Dj,返回的節(jié)點加到N ⑥返回N 優(yōu)點:①更高的準確性②可以生成可理解的規(guī)則③計算量不是很大④可以處理連續(xù)和種類字段⑤可以清晰顯示哪些字段比較重要⑥容易轉(zhuǎn)化成分類規(guī)則:只要沿著樹根向下一直走到葉子,沿途的分裂條件就能夠唯一的決定一條分類的謂詞 缺點:①缺乏伸縮性,由于進行深度優(yōu)先搜索,所以算法受內(nèi)存大小限制,難于處理大訓練集②為了處理大數(shù)據(jù)集的種種算法(離散化、取樣)不僅增加了分類算法的額外開銷,而且降低了分類的準確性。 6.聚類分析的功能,主要的聚類方法及其特點。 聚類:【不知道數(shù)據(jù)的分類,甚至連分成幾類也不知道】將物理或抽象對象的集合分成由類似的對象組成的多個類的過程被稱為聚類。由聚類所生成的簇是一組數(shù)據(jù)對象的集合,這些對象與同一個簇中的對象彼此相似,與其他簇中的對象相異。是無指導的學習。 聚類與分類的主要區(qū)別:和分類學習相比,聚類的樣本沒有標記,需要由聚類學習算法來自動確定。聚類分析是研究如何在沒有訓練集的條件下把樣本劃分為若干類。在分類中,對于目標數(shù)據(jù)庫中存在哪些類是知道的,要做的就是將每一條記錄分別屬于哪一類標記出來。 主要的聚類方法:1)劃分方法:給定n個對象或數(shù)據(jù)元組的數(shù)據(jù)庫,劃分方法構(gòu)建數(shù)據(jù)的K個劃分,每個劃分表示一個簇,k<=n. 構(gòu)建不同劃分。如K均值、K中心點算法等。缺點是需要窮舉所有可能劃分,適用于中小規(guī)模數(shù)據(jù)庫 2) 層次方法:對給定數(shù)據(jù)庫對象進行層次分解,如Diana,Agnes、BIRCH、ROCK、CAMELEON等,缺點在于一旦一個步驟(合并或分裂)完成,就不能撤銷 3) 基于密度的方法。基于連接和密度函數(shù),如DBSCAN和OPTICS 4) 基于網(wǎng)格的方法,基于多層粒度函數(shù),如STING、WaveCluster、CLIQUE等,把對象空間量化為有限個單元,形成網(wǎng)格結(jié)構(gòu),聚類都在網(wǎng)格上進行。處理速度快,處理時間依賴于量化空間每一維的單元數(shù)目 5) 基于模型的方法,為每個簇假定一個模型,尋找數(shù)據(jù)對給定模型的最佳擬合,如EM、SOM、COBWEB算法等 6) 基于頻繁模式的聚類:從頻繁出現(xiàn)的維數(shù)自己中提取不同的頻繁模式。 7) 基于約束的聚類:結(jié)合用戶指定或面向應用的約束進行聚類。 應用領域:是數(shù)據(jù)挖掘應用的主要技術之一,它可以作為一個獨立的工具來使用,將未知類標號的數(shù)據(jù)集劃分為多個類別之后,觀察每個類別中數(shù)據(jù)樣本的特點,并且對某些特定的類別作進一步的分析。此外,聚類分析還可以作為其他數(shù)據(jù)挖掘技術(例如分類學習、關聯(lián)規(guī)則挖掘等)的預處理工作。 4、人工神經(jīng)網(wǎng)絡:是一個函數(shù),主要在于這個函數(shù)的自學習過程,在學習過程中,它根據(jù)正確結(jié)果不停的校正自己的網(wǎng)絡結(jié)構(gòu)。 分類方法:1.依學習策略分類主要有:監(jiān)督式學習網(wǎng)絡為主、無監(jiān)督式學習網(wǎng)絡、混合式學習網(wǎng)絡、聯(lián)想式學習網(wǎng)絡、最適化學習網(wǎng)絡2.依網(wǎng)絡架構(gòu)分類主要有:前向式架構(gòu)、回饋式架構(gòu)、強化式架構(gòu) 優(yōu)點:預測準確性高、對噪聲數(shù)據(jù)的高承受力(訓練樣本差錯時仍可工作)、輸出離散值、快速評估目標 缺點:1、需要很長的訓練時間 2、難以與域知識合作3、可解釋性差 BP網(wǎng)絡:是一種按誤差逆?zhèn)鞑ニ惴ㄓ柧毜亩鄬忧梆伨W(wǎng)絡。BP網(wǎng)絡能學習和存貯大量的輸入-輸出模式映射關系,而無需事前揭示描述這種映射關系的數(shù)學方程。BP算法由數(shù)據(jù)流的前向計算(正向傳播)和誤差信號的反向傳播兩個過程構(gòu)成。 BP神經(jīng)網(wǎng)絡的學習過程:神經(jīng)網(wǎng)絡在外界輸入樣本的刺激下不斷改變網(wǎng)絡連接的權(quán)值,閾值。以使網(wǎng)絡的輸出不斷地接近期望的輸出。學習的本質(zhì):對各連接權(quán)值、閾值的動態(tài)調(diào)整。學習規(guī)則:權(quán)值、閾值調(diào)整規(guī)則,即在學習過程中網(wǎng)絡中各神經(jīng)元的連接權(quán)變化所依據(jù)的一定的調(diào)整規(guī)則 BP學習算法的步驟: 選定學習的數(shù)據(jù),p=1,…,P, 隨機確定初始權(quán)矩陣W(0); 用學習數(shù)據(jù)計算網(wǎng)絡輸出;反向修正,直到用完所有學習數(shù)據(jù)。 BP神經(jīng)網(wǎng)絡算法步驟:1初始化,依據(jù)實際問題給出網(wǎng)絡連接結(jié)構(gòu),隨機設置所有連接權(quán)值。2提供訓練樣本,如果輸入變量為n個,輸出變量為m個,則每個訓練樣本形式為(x1,x2,…,xn;t1,t2,…,tm)。這里t1,t2,…,tm是輸入為x1,x2,…,xn的期望輸出。3計算實際輸出,利用非純屬函數(shù)逐級計算各層節(jié)點的輸入值。4權(quán)值調(diào)整,用遞歸方法從輸出節(jié)點開始返回到隱層節(jié)點。5返回第二步,重復執(zhí)行,直到達到滿意誤差。 BP網(wǎng)絡的缺點:易陷入局部最小點;收斂速度慢;學習過程容易出現(xiàn)震蕩; 9、提升Adaboost:在提升方法中,權(quán)重賦予每個訓練元組。迭代地學習k個分類器序列。學習得到分類器Mi之后,更新權(quán)重,使得其后的分類器Mi+1“更關注”Mi誤分類的訓練元組。最終提升的分類器M*組合每個個體分類器,其中每個分類器投票的權(quán)重是其準確率的函數(shù)。 過程:給定數(shù)據(jù)集D,包含d個類標記的元組(X1,y1),(X2,y2),……,(Xd,yd),其中,yi是元組Xi的類標號。Adaboost對每個訓練元組賦予相等的權(quán)重1/d。在第i輪中:從D中元組抽樣,形成大小為d的訓練集Di。每個元組被選中的機會由它的權(quán)重決定。從訓練元組Di導出分類模型Mi。使用Di作為檢驗集計算Mi的誤差。調(diào)整訓練元組D的權(quán)重:如果元組不正確地分類,則它的權(quán)重增加。如果元組正確分類,則它的權(quán)重減少。元組的權(quán)重反應對它們分類的困難程度——權(quán)重越高,越可能錯誤地分類。分類器使用這些權(quán)重產(chǎn)生下一輪的訓練樣本。如果分類器Mi的性能太差,誤差率超過0.5,則丟棄它。 AdaBoost算法的優(yōu)點:一是訓練的錯誤率上界,隨著迭代次數(shù)的增加,會逐漸下降;二是adaboost算法即使訓練次數(shù)很多,也不會出現(xiàn)過擬合的問題。 10、DBSCAN算法的特點和算法描述 DBSCAN 原理:(具有噪聲的基于密度的聚類應用),這類方法將簇卸任是數(shù)據(jù)空間中被低密度區(qū)域分割開的稠密數(shù)據(jù)對象區(qū)域。它將簇定義為密度相連的點的最大集合??稍诰哂性肼暤目臻g數(shù)據(jù)庫中發(fā)現(xiàn)任意開關的聚類?;诿芏鹊拇厥腔诿芏瓤蛇_性的密度相連的點的最大集合。 算法描述:(1)任選一未處理過的點p為種子點;(2)如果p為核心對象,則查找點p直接密度可達的點,將其中未標記的點標記簇標號,并且將未處理的其它核心點加入種子列表;否則,轉(zhuǎn)到(1);(3) 將種子列表的點依次執(zhí)行操作(2)直到列表為空,一個簇形成;(4) 重復(1)-(3),直到?jīng)]有點可以加到任何一個簇中,聚類完成,剩余的點為噪聲點。 優(yōu)點:1如果用戶定義的參數(shù)設置的恰當,該算法可以有效地找出任意形狀的簇。同時,DBSCAN能夠識別出噪聲點。2DBSCAN對于數(shù)據(jù)庫中的樣本的順序不敏感。但是,對于處于簇類之間邊界樣本,可能會根據(jù)哪個簇類優(yōu)先被探測到而其歸屬有所擺動。 缺點:1聚類質(zhì)量對參數(shù)非常敏感;2需要較大的內(nèi)存和輸入輸出支持。3使用全局密度參數(shù),不能處理多密度數(shù)據(jù)集。 4、支持向量機(SVM)思想:使用一種非線性映射,將原訓練集映射到較高的維,在新的維上,它搜索最佳分離超平面,使用一個適合的對足夠高維的非線性映射,兩類數(shù)據(jù)總可以被超平面分開。優(yōu)點:(1)對復雜的非線性決策邊界的建模能力是高度準確的(2)不太容易過分擬合(3)提供了學習模型的緊湊表示。(4)可以用來預測和分類。缺點:訓練時間長。特點 :SVM是一種有堅實理論基礎的小樣本學習方法 ; SVM最終決策函數(shù)只由少數(shù)的支持向量所確定,計算復雜度和支持向量的數(shù)目有關。算法具有較好的“魯棒”性。SVM可以有效處理非線性分類和回歸問題; SVM可以確定所建模型的推廣能力的上界 ;核函數(shù)的選取和參數(shù)優(yōu)化仍需要解決 5、EM:(定義)EM(期望最大化)算法是一種流行的迭代求精算法,可以用來求得參數(shù)的估計值,它可看作是k均值算法的一種擴展,基于簇的均值把對象指派到最相似的簇中。EM不是把每個對象指派到特定的簇,而是根據(jù)一個代表隸屬概率的權(quán)重將每個對象指派到簇。(步驟)(1)期望步:對每簇計算對象x的簇隸屬概率(2)最大化步:利用前面得到的概率估計重新估計模型參數(shù)(優(yōu)點)簡單和穩(wěn)定,收斂快(缺點)達不到局部最優(yōu) 4、關聯(lián)規(guī)則:定義:最初由R.Agrawal 等人提出,用來發(fā)現(xiàn)超級市場中用戶購買的商品之間的隱含關聯(lián)關系,并用規(guī)則的形式表示出來,稱為關聯(lián)規(guī)則。應用:關聯(lián)規(guī)則除了可以發(fā)現(xiàn)超市購物中隱含的關聯(lián)關系之外,還可以應用于其他很多領域。關聯(lián)規(guī)則的應用還包括文本挖掘、商品廣告郵寄分析、網(wǎng)絡故障分析等。分類:(1)基于規(guī)則中涉及到的數(shù)據(jù)的維數(shù),關聯(lián)規(guī)則可以分為單維的和多維的。(2)基于規(guī)則中數(shù)據(jù)的抽象層次,可以分為單層關聯(lián)規(guī)則和多層關聯(lián)規(guī)則。(3)基于規(guī)則中處理的變量的類型不同,關聯(lián)規(guī)則可以分為布爾型和數(shù)值型。 挖掘步驟:1)找出交易數(shù)據(jù)庫中所有大于或等于用戶指定的最小支持度的頻繁項集;(2)利用頻繁項集生成所需要的關聯(lián)規(guī)則,根據(jù)用戶設定的最小可信度進行取舍,產(chǎn)生強關聯(lián)規(guī)。 3、樸素貝葉斯分類:定義:貝葉斯分類法是統(tǒng)計學分類方法,可以預測類成員關系的可能性。樸素貝葉斯分類法假定一個屬性值對給定類的影響獨立于其他屬性值。它表示屬性子集間的依賴 主要思想:設為一個類別未知的數(shù)據(jù)樣本,H為某個假設,若數(shù)據(jù)樣本X屬于一個特定的類別C,分類問題就是決定P(H|X),即在獲得數(shù)據(jù)樣本X時假設成立的概率。 優(yōu)點:(1)理論上,貝葉斯分類具有最小的錯誤率(2)可以用來為不直接使用貝葉斯定理的其他分類法提供理論判定(3)有著堅實的數(shù)學基礎,以及穩(wěn)定的分類效率(4)模型所需估計的參數(shù)很少,對缺失數(shù)據(jù)不太敏感,算法也比較簡單(5)網(wǎng)格結(jié)構(gòu)一旦確定下來后,添加新變量容易(5)適合處理不完整的數(shù)據(jù)(6)對過分擬合問題魯棒。 缺點:(1)實際上,由于對其使用的假定的不正確性,以及缺乏可用的概率,此分類法并不具有最小的錯誤率(2)有可能遇到零概率值,需要修正(3)構(gòu)造網(wǎng)格費時、費力 為什么樸素:樸素貝葉斯分類假定一個屬性值對給定類的影響獨立于其它屬性的值。該假定稱作類條件獨立。做此假定是為了簡化所需計算,并在此意義下稱為“樸素的” 2、簡述數(shù)值數(shù)據(jù)根據(jù)直觀劃分離散化的3-4-5規(guī)則 (1)如果一個區(qū)間在最高有效位包括3, 6,7或 9 個不同的值,則將該區(qū)間劃分為3個區(qū)間(對于3,6和9 ,劃分為3個等寬的區(qū)間;對于7,按2-3-2劃分為3個區(qū)間)。 (2)如果最高位包含2,4,8個不同值,則將區(qū)間劃分為4個等寬區(qū)間。 (3)如果最高位包含1 ,5或10個不同的值,則將區(qū)間劃分為5個等寬的區(qū)間。 最高分層一般在第5個百分位到第95個百分位上進行。 2、急切學習法是在接收待分類的新元組(如檢驗元組)之前,利用訓練集,構(gòu)造泛化模型,即分類器。學習后的模型已經(jīng)就緒,并急于對先前未見過的元組進行分類。常見的急切學習法主要有支持向量機,決策樹歸納,貝葉斯分類,基于規(guī)則的分類等。 3、惰性學習法是當給定一組訓練元組時,簡單地存儲它,僅當給出檢驗元組時,才利用存儲的訓練元組的相似性對該元組進行分類,不像急切學習法,惰性學習法在提供訓練元組時只做少量工作,而在進行分類或預測時才做更多的工作。常見的惰性學習法有K最近鄰和基于案例的推理分類法。 急切學習法和惰性學習法的優(yōu)缺點:急切學習法訓練分類器時需耗費大量時間,但對檢驗元組進行分類或預測時速度較快,且占用空間少; 惰性學習法不需要建立模型,但是在對檢驗元組進行分類或預測時,需要將所有訓練元組與檢驗元組進行運算,計算開銷可能相當大,耗費大量時間。 1、后向傳播是一種神經(jīng)網(wǎng)絡學習算法;神經(jīng)網(wǎng)絡是一組連接的輸入/輸出單元,每個連接都與一個權(quán)相連。在學習階段,通過調(diào)整神經(jīng)網(wǎng)絡的權(quán),使得能夠預測輸入樣本的正確標號來學習。優(yōu)點:預測精度總的來說較高、健壯性好,訓練樣本中包含錯誤時也可正常工作、輸出可能是離散值、連續(xù)值或者是離散或量化屬性的向量值、對目標進行分類較快 缺點:訓練(學習)時間長、蘊涵在學習的權(quán)中的符號含義很難理解、很難根專業(yè)領域知識相整合 34、KNN定義:即K最近鄰分類法,它是基于類比學習,即通過給定的檢驗元組與和他相似的訓練元組進行比較來學習。 優(yōu)點1)算法簡單直觀,易于實現(xiàn);(2)不需要產(chǎn)生額外的數(shù)據(jù)來描述規(guī)則,并且可以存在噪音;(3)可以較好地避免樣本數(shù)量的不平衡問題;(4)減少了類別特征選擇不當對分類結(jié)果造成的不利影響,可以最大程度地減少分類過程中的誤差項(5)適合增量學習 缺點:1)分類速度慢(2)樣本庫容量依賴性較強(3)必須指定K值,K值選擇不當則分類精度不能保證。k值的設定,k太小,分類結(jié)果易受噪聲點影響,k值太大,近鄰中又可能包含太多的其它類別的點(4)計算開銷大(5)需要有效的存儲技術和并行硬件的支撐。 1、數(shù)據(jù)預處理過程:數(shù)據(jù)清理:旨在消除或減少數(shù)據(jù)噪音和處理遺漏值的數(shù)據(jù)預處理。相關性分析:數(shù)據(jù)中許多屬性可能與分類和預測任務不相關。數(shù)據(jù)變換:數(shù)據(jù)可以泛化到較高層概念。 3.數(shù)據(jù)倉庫的特點和操作數(shù)據(jù)庫和數(shù)據(jù)倉庫的區(qū)別: 數(shù)據(jù)倉庫的特點:(1)面向主題的:數(shù)據(jù)倉庫圍繞一些主題,如顧客、供應商、產(chǎn)品和銷售組織。數(shù)據(jù)倉庫關注決策者的數(shù)據(jù)建模與分析,而不是構(gòu)造組織機構(gòu)的日常操作和事務處理。因此,數(shù)據(jù)倉庫排除對于決策無用的數(shù)據(jù),提供特定主題的簡明視圖。(2)集成的:通常,構(gòu)造數(shù)據(jù)倉庫是將多個異種數(shù)據(jù)源,如關系數(shù)據(jù)庫、一般文件和聯(lián)機事務處理記錄,集成在一起。使用數(shù)據(jù)清理和數(shù)據(jù)集成技術,確保命名約定、編碼結(jié)構(gòu)、屬性度量的一致性。 (3)時變的:數(shù)據(jù)存儲從歷史的角度(例如,過去 5-10 年)提供信息。數(shù)據(jù)倉庫中的關鍵結(jié)構(gòu),隱式或顯式地包含時間元素。 (4)非易失的:數(shù)據(jù)倉庫總是物理地分離存放數(shù)據(jù);這些數(shù)據(jù)源于操作環(huán)境下的應用數(shù)據(jù)。由于這種分離,數(shù)據(jù)倉庫不需要事務處理、恢復和并行控制機制。通常,它只需要兩種數(shù)據(jù)訪問:數(shù)據(jù)的初始化裝入和數(shù)據(jù)訪問。 操作數(shù)據(jù)庫和數(shù)據(jù)倉庫的區(qū)別: ? (1)用戶和系統(tǒng)的面向性:OLTP 是面向顧客的,用于辦事員、客戶、和信息技術專業(yè)人員的事務和查詢處理。OLAP 是面向市場的,用于知識工人(包括經(jīng)理、主管、和分析人員)的數(shù)據(jù)分析。(2)數(shù)據(jù)內(nèi)容:OLTP 系統(tǒng)管理當前數(shù)據(jù)。通常,這種數(shù)據(jù)太瑣碎,難以方便地用于決策。OLAP 系統(tǒng)管理大量歷史數(shù)據(jù),提供匯總和聚集機制,并在不同的粒度級別上存儲和管理信息。這些特點使得數(shù)據(jù)容易用于見多識廣的決策。(3)數(shù)據(jù)庫設計:通常,OLTP 系統(tǒng)采用實體-聯(lián)系(ER)模型和面向應用的數(shù)據(jù)庫設計。而 OLAP 系統(tǒng)通常采用星形或雪花模型(2.2.2小節(jié)討論)和面向主題的數(shù)據(jù)庫設計。(4)視圖:OLTP系統(tǒng)主要關注一個企業(yè)或部門內(nèi)部的當前數(shù)據(jù),而不涉及歷史數(shù)據(jù)或不同組織的數(shù)據(jù)。相比之下,由于組織的變化,OLAP 系統(tǒng)常??缭綌?shù)據(jù)庫模式的多個版本。OLAP 系統(tǒng)也處理來自不同組織的信息,由多個數(shù)據(jù)存儲集成的信息。由于數(shù)據(jù)量巨大,OLAP 數(shù)據(jù)也存放在多個存儲介質(zhì)上。(5)訪問模式:OLTP 系統(tǒng)的訪問主要由短的、原子事務組成。這種系統(tǒng)需要并行控制和恢復機制。然而,對 OLAP 系統(tǒng)的訪問大部分是只讀操作(由于大部分數(shù)據(jù)倉庫存放歷史數(shù)據(jù),而不是當前數(shù)據(jù)),盡管許多可能是復雜的查詢。 1、 概念分層及作用,舉例說明。 一個概念分層定義一個映射序列,將低層概念到更一般的高層概念。概念分層也可以通過將給定維或?qū)傩缘闹惦x散化或分組來定義,產(chǎn)生集合分組分層??梢栽谥到M間定義全序或偏序。例子如圖關于維 price 的集合分組概念分層。其中,區(qū)間($X...$Y ]表示由$X(不包括)到$Y(包括)。概念分層可以由系統(tǒng)用戶、領域?qū)<?、知識工程師人工地提供,也可以根據(jù)數(shù)據(jù)分布的統(tǒng)計分析自動地產(chǎn)生。對于一個給定的屬性或維,根據(jù)不同的用戶視圖,可能有多個概念分層。例如,用戶可能愿意用 inepensive, moderately_priced和 expensive 來組織price。 6.ID3算法基本思想和算法描述,C4.5算法增加了那些功能? 基本思想:首先找出最有判別力的因素,然后把數(shù)據(jù)分成多個子集,每個子集又選擇最有判別力的因素進一步劃分,一直進行到所有子集僅包含同一類型的數(shù)據(jù)為止。最后得到一棵決策樹,可以用它來對新的樣例進行分類。 算法描述:①從訓練集中隨機選擇一個既含正例又含反例的子集(稱為窗口);②用“建樹算法”對當前窗口形成一棵決策樹;③對訓練集(窗口除外)中例子用所得決策樹進行類別判定,找出錯判的例子;④若存在錯判的例子,把它們插入窗口,重復步驟②,否則結(jié)束。 優(yōu)點:1、理論清晰,算法簡單,很有實用價值的示例學習算法。2、計算時間是例子個數(shù)、特征屬性個數(shù)、節(jié)點個數(shù)之積的線性函數(shù),總預測準確率較令人滿意 缺點:(1)ID3算法在選擇根結(jié)點和各內(nèi)部結(jié)點中的分枝屬性時,使用信息增益作為評價標準。信息增益的缺點是傾向于選擇取值較多的屬性,在有些情況下這類屬性可能不會提供太多有價值的信息(2)ID3算法只能對描述屬性為離散型屬性的數(shù)據(jù)集構(gòu)造決策樹 C4.5是機器學習算法中的另一個分類決策樹算法,基于ID3算法進行改進后的一種重要算法,相比于ID3算法,改進有如下幾個要點: (1)用信息增益率來選擇屬性。ID3選擇屬性用的是子樹的信息增益,這里可以用很多方法來定義信息,ID3使用的是熵(entropy, 熵是一種不純度度量準則),也就是熵的變化值,而C4.5用的是信息增益率。 (2)在決策樹構(gòu)造過程中進行剪枝,因為某些具有很少元素的結(jié)點可能會使構(gòu)造的決策樹過適應(Overfitting),如果不考慮這些結(jié)點可能會更好。 (3)對非離散數(shù)據(jù)也能處理。 (4)能夠?qū)Σ煌暾麛?shù)據(jù)進行處理。 8、劃分算法的描述 1、K均值:輸入:簇的數(shù)目 k 和包含 n 個對象的數(shù)據(jù)庫。輸出:k 個簇,使平方誤差最小方法:(1),隨機地選擇k個對象作為初始簇中心(2)根據(jù)簇中對象的均值,將每個對象再只拍到最相似的簇(3)更新簇均值,即計算每個簇中對象的均值;(4)重復(2)(3)步,直到簇中心點不再發(fā)生變化。 優(yōu)點:(1)思想簡單易行;相對有效:O(tkn),n是多有對象的數(shù)目,K是簇的數(shù)目,t是迭代的次數(shù),通常k,t<- 配套講稿:
如PPT文件的首頁顯示word圖標,表示該PPT已包含配套word講稿。雙擊word圖標可打開word文檔。
- 特殊限制:
部分文檔作品中含有的國旗、國徽等圖片,僅作為作品整體效果示例展示,禁止商用。設計者僅對作品中獨創(chuàng)性部分享有著作權(quán)。
- 關 鍵 詞:
- 數(shù)據(jù) 挖掘 數(shù)據(jù)倉庫 知識點 總結(jié)
裝配圖網(wǎng)所有資源均是用戶自行上傳分享,僅供網(wǎng)友學習交流,未經(jīng)上傳用戶書面授權(quán),請勿作他用。
相關資源
更多
正為您匹配相似的精品文檔
相關搜索
鏈接地址:http://m.jqnhouse.com/p-6488336.html