《數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘習(xí)題.doc》由會(huì)員分享,可在線閱讀,更多相關(guān)《數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘習(xí)題.doc(9頁(yè)珍藏版)》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。
數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘 習(xí)題
1.1什么是數(shù)據(jù)挖掘?在你的回答中,強(qiáng)調(diào)以下問(wèn)題:
(a) 它是又一個(gè)騙局嗎?
(b) 它是一種從數(shù)據(jù)庫(kù),統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)發(fā)展的技術(shù)的簡(jiǎn)單轉(zhuǎn)換嗎?
(c) 解釋數(shù)據(jù)庫(kù)技術(shù)發(fā)展如何導(dǎo)致數(shù)據(jù)挖掘
(d) 當(dāng)把數(shù)據(jù)挖掘看作知識(shí)發(fā)現(xiàn)過(guò)程時(shí),描述數(shù)據(jù)挖掘所涉及的步驟。
1.2 給出一個(gè)例子,其中數(shù)據(jù)挖掘?qū)τ谝环N商務(wù)的成功至關(guān)重要的。這種商務(wù)需要什么數(shù)據(jù)挖掘功能?他們能夠由數(shù)據(jù)查詢處理或簡(jiǎn)單的統(tǒng)計(jì)分析來(lái)實(shí)現(xiàn)嗎?
1.3 假定你是Big-University的軟件工程師,任務(wù)是設(shè)計(jì)一個(gè)數(shù)據(jù)挖掘系統(tǒng),分析學(xué)校課程數(shù)據(jù)庫(kù)。該數(shù)據(jù)庫(kù)包括如下信息:每個(gè)學(xué)生的姓名,地址和狀態(tài)(例如,本科生或研究生),所修課程,以及他們累積的GPA(學(xué)分平均)。描述你要選取的結(jié)構(gòu)。該結(jié)構(gòu)的每個(gè)成分的作用是什么?
1.4 數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)庫(kù)有何不同?它們有那些相似之處?
1.5簡(jiǎn)述以下高級(jí)數(shù)據(jù)庫(kù)系統(tǒng)和應(yīng)用:面向?qū)ο髷?shù)據(jù)庫(kù),空間數(shù)據(jù)庫(kù),文本數(shù)據(jù)庫(kù),多媒體數(shù)據(jù)庫(kù)和WWW。
1.6 定義以下數(shù)據(jù)挖掘功能:特征化,區(qū)分,關(guān)聯(lián),分類,預(yù)測(cè),聚類和演變分析。使用你熟悉的現(xiàn)實(shí)生活中的數(shù)據(jù)庫(kù),給出每種數(shù)據(jù)挖掘的例子。
1.7 區(qū)分和分類的差別是什么?特征化和聚類的差別是什么?分類和預(yù)測(cè)呢?對(duì)于每一對(duì)任務(wù),它們有何相似之處?
1.8 根據(jù)你的觀察,描述一種可能的知識(shí)類型,它需要由數(shù)據(jù)挖掘方法發(fā)現(xiàn),但未在本章中列出。它需要一種不同于本章列舉的數(shù)據(jù)挖掘技術(shù)嗎?
1. 9 描述關(guān)于數(shù)據(jù)挖掘方法和用戶交互問(wèn)題的三個(gè)數(shù)據(jù)挖掘的挑戰(zhàn)。
1. 10 描述關(guān)于性能問(wèn)題的兩個(gè)數(shù)據(jù)挖掘的挑戰(zhàn)。
2.1 試述對(duì)于多個(gè)異種信息源的集成,為什么許多公司寧愿使用更新驅(qū)動(dòng)的方法(構(gòu)造使用數(shù)據(jù)倉(cāng)庫(kù)),而不愿使用查詢驅(qū)動(dòng)的方法(使用包裝程序和集成程序)。描述一些情況,其中查詢驅(qū)動(dòng)方法比更新驅(qū)動(dòng)方法更受歡迎。
2.2 簡(jiǎn)略比較以下概念,可以用例子解釋你的觀點(diǎn)
(a) 雪花模式、事實(shí)星座、星型網(wǎng)查詢模型
(b) 數(shù)據(jù)清理、數(shù)據(jù)變換、刷新
(c) 發(fā)現(xiàn)驅(qū)動(dòng)數(shù)據(jù)立方體、多特征方、虛擬倉(cāng)庫(kù)
2.3 假定數(shù)據(jù)倉(cāng)庫(kù)包含三個(gè)維time,doctor和patient,兩個(gè)度量count 和charge,其中charge是醫(yī)生對(duì)一位病人的一次診治的收費(fèi)。
(a) 列舉三種流行的數(shù)據(jù)倉(cāng)庫(kù)建模模式。
(b) 使用(a)列舉的模式之一,畫出上面數(shù)據(jù)倉(cāng)庫(kù)的模式圖。
(c) 由基本方體[day,doctor,patient]開(kāi)始,為列出2000年每位醫(yī)生的收費(fèi)總數(shù),應(yīng)當(dāng)執(zhí)行哪些 OLAP操作?
(d) 為得到同樣的結(jié)果,寫一個(gè)SQL查詢。假定數(shù)據(jù)存放在關(guān)系數(shù)據(jù)庫(kù)中,其模式如下:
fee(day,month,year, doctor,hospital,patient,count,charge)
2.4 假定Big_University的數(shù)據(jù)倉(cāng)庫(kù)包含如下4個(gè)維student, course, semester和instructor,2個(gè)度量count和avg_grade。在最低的概念層(例如對(duì)于給定的學(xué)生、課程、學(xué)期和教師的組合),度量avg_grade存放學(xué)生的實(shí)際成績(jī)。在較高的概念層,avg_grade存放給定組合的平均成績(jī)。
(a) 為數(shù)據(jù)倉(cāng)庫(kù)畫出雪花模式圖;
(b) 由基本方體 [student, course, semester, instructor]開(kāi)始,為列出Big_University每個(gè)學(xué)生的CS課程的平均成績(jī),應(yīng)當(dāng)使用哪些OLAP操作(如由 semester上卷到y(tǒng)ear);
(c) 如果每維有5層(包括all),如student
2.5 假定數(shù)據(jù)倉(cāng)庫(kù)包含4個(gè)維date,spectator,location和game,2個(gè)度量count和charge。其中charge是觀眾在給定的日期觀看節(jié)目的付費(fèi)。觀眾可以是學(xué)生、成年人或老人,每類觀眾有不同的收費(fèi)標(biāo)準(zhǔn)。
(a ) 畫出該數(shù)據(jù)倉(cāng)庫(kù)的星型模式圖;
(b) 由基本方體[date,spectator,location,game]開(kāi)始,為列出2000年學(xué)生觀眾在GM-Place的總付費(fèi),應(yīng)當(dāng)執(zhí)行哪些OLAP操作?
(c) 對(duì)于數(shù)據(jù)倉(cāng)庫(kù),位圖索引是有用的。以該數(shù)據(jù)立方體為例,簡(jiǎn)略討論使用位圖索引結(jié)構(gòu)的優(yōu)點(diǎn)和問(wèn)題。
2.6 為地區(qū)氣象局設(shè)計(jì)一個(gè)數(shù)據(jù)倉(cāng)庫(kù)。氣象局大約有1000觀察點(diǎn),散步在該地區(qū)的陸地、海洋,收集基本氣象數(shù)據(jù),包括每小時(shí)的氣壓、溫度、降雨量。所有的數(shù)據(jù)都送到中心站,那里已收集了這種數(shù)據(jù)長(zhǎng)達(dá)十年。你的設(shè)計(jì)應(yīng)當(dāng)有利于有效的查詢和聯(lián)機(jī)分析處理,有利于有效地導(dǎo)出多維空間的一般天氣模式。
2.7 關(guān)于數(shù)據(jù)立方體中的度量計(jì)算:
(a) 根據(jù)計(jì)算數(shù)據(jù)立方體所用的聚集函數(shù),列出度量的三種分類;
(b) 對(duì)于具有三個(gè)維time,location和product的數(shù)據(jù)立方體,函數(shù)variance屬于哪一類?如果立方體被分割成一些塊,描述如何計(jì)算它;
(c) 假定函數(shù)是"最高的10個(gè)銷售額"。討論如何在數(shù)據(jù)立方體里有效的計(jì)算該度量。
2.8 假定需要在數(shù)據(jù)立方體中記錄三種度量:min,average和median。給定的數(shù)據(jù)立方體允許遞增的刪除(即每次一小部分),為每種度量設(shè)計(jì)有效的計(jì)算和存儲(chǔ)方法。
2.9 數(shù)據(jù)倉(cāng)庫(kù)實(shí)現(xiàn)的流行方法是構(gòu)造一個(gè)稱為數(shù)據(jù)立方體的多維數(shù)據(jù)庫(kù)。不幸的是,這常常產(chǎn)生大的、稀疏的多維矩陣。
(a) 給出一個(gè)例子,解釋這種大的、稀疏的數(shù)據(jù)立方體;
(b) 設(shè)計(jì)一種實(shí)現(xiàn)方法,可以很好的克服這種稀疏矩陣問(wèn)題。注意,需要詳細(xì)解釋你的數(shù)據(jù)結(jié)構(gòu),討論空間需求量,以及如何由你的結(jié)構(gòu)中檢索數(shù)據(jù);
(c) 修改你在(b)的設(shè)計(jì),處理遞增的數(shù)據(jù)更新。給出你的新設(shè)計(jì)的理由。
2.10 假定數(shù)據(jù)倉(cāng)庫(kù)包含20個(gè)維,每個(gè)維有5級(jí)粒度。
(a)用戶感興趣的主要是4個(gè)特定的維,每維有3個(gè)上卷、下鉆頻繁訪問(wèn)的級(jí)。你如何設(shè)計(jì)數(shù)據(jù)立方結(jié)構(gòu),有效地對(duì)此予以支持?
(b)用戶時(shí)常想由一兩個(gè)特定的維鉆透數(shù)據(jù)立方體,到原始數(shù)據(jù)。你如何支持這一特征?
2.11 假定基本立方體有三個(gè)維A,B,C,其單元數(shù)如下:|A|=1000000, |B|=100,|C|=1000。假定分塊將每維分成10部分。
(a)假定每維只有一層,畫出完整的立方體的格。
(b)如果每個(gè)立方單元存放一個(gè)4字節(jié)的度量,若方是稠密的,所計(jì)算的立方體有多大?
(c)指出立方體中空間需求量最小的塊計(jì)算次序,并對(duì)計(jì)算2-維平面所需要的內(nèi)存空間計(jì)算空間量。
3.1 數(shù)據(jù)的質(zhì)量可以用精確性,完整性和一致性來(lái)評(píng)估。提出兩種數(shù)據(jù)質(zhì)量的其他尺度。
3.2 在現(xiàn)實(shí)世界的數(shù)據(jù)中,元組在某些屬性上缺少值是常有的。描述處理該問(wèn)題的各種方法。
3.3 假定用于分析的數(shù)據(jù)包含屬性age。數(shù)據(jù)元組中age的值如下(按遞增序):13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52, 70
(a) 使用按箱平均值平滑對(duì)以上數(shù)據(jù)進(jìn)行平滑,箱的深度是3。解釋你的步驟。評(píng)論對(duì)于給定的數(shù)據(jù),該技術(shù)的效果
(b) 你怎樣確定數(shù)據(jù)中的孤立點(diǎn)?
(c) 對(duì)于數(shù)據(jù)平滑,還有那些其他方法?
3.4 討論數(shù)據(jù)集成需要考慮的問(wèn)題。
(1) 模式識(shí)別:這主要是實(shí)體識(shí)別問(wèn)題
(2) 冗余:一個(gè)屬性是冗余的,即它能由另一個(gè)表導(dǎo)出,如果屬性或唯的命名不一致,也可能導(dǎo)致冗余,可以用相關(guān)分析來(lái)檢測(cè)
(3) 數(shù)據(jù)值沖突的檢測(cè)與處理:有些屬性因表示比例或編碼不同,會(huì)導(dǎo)致屬性不同
3.5 使用習(xí)題3。3給出的age數(shù)據(jù),回答以下問(wèn)題:
(a) 使用最小-最大規(guī)范化,將age值35轉(zhuǎn)換到[0。0,1。0]區(qū)間
(b) 使用z-score規(guī)范化轉(zhuǎn)換age 值35,其中age的標(biāo)準(zhǔn)差為12。94年
(c) 使用小數(shù)定標(biāo)規(guī)范化轉(zhuǎn)換age值35。
(d) 指出對(duì)于給定的數(shù)據(jù),你愿意使用哪種方法。陳述你的理由。
3.6 使用流程圖概述如下屬性子集選擇過(guò)程
(a) 逐步向前選擇
(b) 逐步向后刪除
(c) 逐步向前選擇和逐步向后刪除的結(jié)合
3.7 使用習(xí)題3.3給出的age數(shù)據(jù)
(a)畫一個(gè)寬度為10的等寬直方圖。
(b)為如下每種選樣技術(shù)勾畫例子: SRSWOR, SRSWR, 聚類選擇,分層選擇。使用長(zhǎng)度為5的樣本和層"young","middle_aged"和"senior"。
3.8 對(duì)如下問(wèn)題,使用偽代碼或你喜歡用的程序設(shè)計(jì)語(yǔ)言,給出算法:
(a)對(duì)于分類數(shù)據(jù),基于給定模式中屬性的不同值得個(gè)數(shù),自動(dòng)產(chǎn)生概念分層。
(b)對(duì)于數(shù)值數(shù)據(jù),基于等寬劃分規(guī)則,自動(dòng)產(chǎn)生概念分層。
(c)對(duì)于數(shù)值數(shù)據(jù),基于等深劃分規(guī)則,自動(dòng)產(chǎn)生概念分層。
4.1列出和描述說(shuō)明數(shù)據(jù)挖掘任務(wù)的五種原語(yǔ)。
4.2 說(shuō)明為什么概念分層在數(shù)據(jù)挖掘中是有用的。
4.3 概念分層的四種主要類型是:模式分層,集合分組分層,操作導(dǎo)出的分層和基于規(guī)則的分層。
a)簡(jiǎn)略定義每種類型的分層。
b)對(duì)于每種類型的分層,給出一個(gè)不在本章中出現(xiàn)的例子。
4.4 考慮下面的由Big-University 的學(xué)生數(shù)據(jù)庫(kù)挖掘的關(guān)聯(lián)規(guī)則major (X,"science")=>status(X,"undergrad") (4.8)
假定學(xué)校的學(xué)生人數(shù)(即任務(wù)相關(guān)的元組數(shù))為5000,其中56%的在校本科生的專業(yè)是科學(xué),64%的學(xué)生注冊(cè)本科學(xué)位課程,70%的學(xué)生主修科學(xué)。
a) 計(jì)算規(guī)則(4.8)的支持度和置信度。
b)考慮下面的規(guī)則(4.9):
major(X,"biology")=>status(X,"undergrad") [17%,80%] (4.9)
假定主攻科學(xué)的學(xué)生30%專業(yè)為biology。與規(guī)則(4.8)對(duì)比,你認(rèn)為規(guī)則(4.9)新穎嗎? 解釋你的結(jié)論。
4.5 語(yǔ)句可以用于挖掘特征化,區(qū)分,關(guān)聯(lián)和分類規(guī)則。為聚類的挖掘提出一個(gè)語(yǔ)法定義。
4.6 論建立標(biāo)準(zhǔn)化的數(shù)據(jù)挖掘查詢語(yǔ)言的重要性。涉及這一任務(wù)的一些潛在好處和挑戰(zhàn)是什么?列舉一些該領(lǐng)域的最近提議。
4.7 下面的練習(xí)涉及定義概念分層的DMQL語(yǔ)法。
(a) 典型情況,對(duì)于模式date(day,month,quarter,year),數(shù)據(jù)挖掘系統(tǒng)有一個(gè)預(yù)定義的概念分層。使用DMQL提供該概念分層的定義。
(b) 概念分層定義可能涉及多個(gè)關(guān)系。例如,iterm_hierachy可以涉及兩個(gè)關(guān)系item和supplier,由如下模式定義:
item(item_ID, brand, type, place_made, supplier)
supplier(name, type, headquarter_location, owner, size, assets, revenue)
5.1.對(duì)于類特征化, 基于數(shù)據(jù)立方體的實(shí)現(xiàn)與諸如面向?qū)傩詺w納的關(guān)系實(shí)現(xiàn)之間的主要不同是什么?討論哪種方法最有效,在什么條件下最有效。
5.2 假定下面的表從面向?qū)傩缘臍w納導(dǎo)出
class &n bsp; birth--- place count
&n bsp; Cannada &nbs p; 180
programmer others ; 120
&nbs p; Cannada &nbs p; 20
Dba &n bsp; others ; 80
(a) 將該表轉(zhuǎn)換成現(xiàn)實(shí)相關(guān)t-權(quán)和d-權(quán)的交叉表
(b) 將類Programmer轉(zhuǎn)換成(雙向的)量化描述規(guī)則。例如 (birth_place(X)="Canada"∧...)[t:x%,d:y%]...∨(...)([t:w%,d:z%]。?X,Programmer(X)
5.3 討論為什么需要解析特征化和如何進(jìn)行。比較兩種歸納方法的結(jié)果:(I)包含相關(guān)分析和(ii)不包含相關(guān)分析。
5.4 對(duì)于數(shù)據(jù)離散的特征化,另外給出三個(gè)常用統(tǒng)計(jì)度量(未在本章說(shuō)明),并討論如何在大型數(shù)據(jù)庫(kù)中有效地計(jì)算它們。
5.5 假定分析數(shù)據(jù)包含屬性age.數(shù)據(jù)元組的age值(以遞增次序)是:13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70
A 該數(shù)據(jù)的平均值是多少?中位數(shù)是多少?
B 該數(shù)據(jù)的模是多少?評(píng)論數(shù)據(jù)的模態(tài)性(即雙模態(tài),三模態(tài)等).
C 數(shù)據(jù)的中列數(shù)是什么
D 你能找出(粗略地)數(shù)據(jù)的第一個(gè)四分位數(shù)(q1)和第三個(gè)四分位數(shù)(Q3)嗎?
E 給出數(shù)據(jù)的五數(shù)概括
F 畫出數(shù)據(jù)的盒圖
G 分位數(shù)-分位數(shù)圖與分位數(shù)圖的不同之處是什么?
5.6 給定由數(shù)據(jù)庫(kù)DB導(dǎo)出的概化關(guān)系R,假定元組的集合△ DB需要從DB中刪除,簡(jiǎn)要給出用于R的必要?jiǎng)h除的增量更新過(guò)程。
5.7 簡(jiǎn)要給出挖掘解析類比較的基于數(shù)據(jù)立方體的增量算法。
5.8 簡(jiǎn)要給出數(shù)據(jù)立方體環(huán)境下數(shù)據(jù)離散統(tǒng)計(jì)度量的(ⅰ)并行和( ⅱ)分布式挖掘方法。
6.1 Apriori 算法使用子集支持度性質(zhì)的先驗(yàn)知識(shí)
a) 證明頻繁項(xiàng)集的所有非空子集必須也是頻繁的。
b) 證明項(xiàng)集s的任意非空子集s`的支持度至少和s的支持度一樣大。
c) 給定頻繁項(xiàng)集l和l的子集s,證明規(guī)則"s=>(l-s)"的置信度不可能大于"s=>(l-s)"的置信度。其中,s是s的子集。
d) Apriori的一種變形將事務(wù)數(shù)據(jù)庫(kù)D中的事務(wù)劃分成n個(gè)不重疊的部分。證明在D中是頻繁的任何項(xiàng)集至少在D的一個(gè)部分中是頻繁的。
6.2 數(shù)據(jù)庫(kù)有4個(gè)事務(wù)。設(shè)min_sup = 60%,min_conf = 80%。
TID DATE ITEMS_BOUGHT
T100 10/15/99 {K, A, D, B}
T200 10/15/99 {D, A, C, E, B}
T300 10/19/99 {C, A, B, E}
T400 10/22/99 {B, A, D}
A) 分別使用Apriori 和FP- 增長(zhǎng)算法找出頻繁項(xiàng)集。比較兩種挖掘過(guò)程的有效性。
B) 列出所有強(qiáng)關(guān)聯(lián)規(guī)則,他們與下面的元規(guī)則匹配,其中,X 是代表顧客的變量,item 時(shí)表示項(xiàng)的變量: " x∈transaction, buys(X, item1)∧buys(X, item2) => buys(X, item3) [s, c]
6.3 在挖掘?qū)咏徊骊P(guān)聯(lián)規(guī)則時(shí),假定發(fā)現(xiàn)項(xiàng)集"{IBM desktop computer, printer}"不滿足最小支持度。這一信息可以用來(lái)剪去諸如"{IBM desktop computer, b/w printer}"的"后代"項(xiàng)集的挖掘嗎?給出一個(gè)一般規(guī)則,解釋這一信息如何用于對(duì)搜索空間剪枝。
6.4 給出一個(gè)短例子,表明強(qiáng)關(guān)聯(lián)規(guī)則中的項(xiàng)可能實(shí)際上是負(fù)相關(guān)的。
6.5 下面的相依表匯總了超級(jí)市場(chǎng)的事務(wù)數(shù)據(jù),其中,hot dogs 表示包含熱狗的事務(wù),~hotdogs 表示不包含熱狗的事務(wù),hamburgers 表示包含漢堡包的事務(wù),~hamburgers 表示不包含漢堡包的事務(wù)。
Hotdogs ~hotdogs
Hamburgers 2000 500 2500
~hamburgers 1000 1500 2500
∑ col 3000 2000 5000
A) 假定發(fā)現(xiàn)關(guān)聯(lián)規(guī)則"hotdogs=>hamburgers "。給定最小支持度閾值25% ,最小置信度閾值 50% ,該關(guān)聯(lián)規(guī)則是強(qiáng)的嗎?
B) 根據(jù)給定的數(shù)據(jù),買hotdog 獨(dú)立于買hamburgers 嗎?如果不是,二者之間存在何種相關(guān)聯(lián)系?
6.6 數(shù)據(jù)庫(kù)有4 個(gè)事務(wù),設(shè) min_sup = 60% , min_conf = 80% 。
Cust_ID TID Items_bought(以brand- item_category形式)
01 T100 {Kings-Carb, Sunset-Milk, Dairyland-Cheese, best-Bread}
02 T200 {Best-Cheese, Dairyland-Milk, Goldenfarm-Apple, Tasty-Pie, Wonder-Bread}
01 T300 {Westcoast-Apple, Dairyland- Milk, Wonder-Bread, Tasty-Pie}
03 T400 {Wonder-Bread, Sunset-Milk, Dairyland-Cheese}
a) 在 item_category 粒度(例如,itemi 可以是"milk" ),對(duì)于下面規(guī)則模板
" x∈transaction, buys(X, item1)∧buys(X, item2) => buys(X, item3) [s, c]
對(duì)于最大的k,列出頻繁k-項(xiàng)集和包含最大的k的頻繁k-項(xiàng)集的所有強(qiáng)關(guān)聯(lián)規(guī)則。
b) 在brand-item_category 粒度(例如:item 可以是"sunset-milk "),對(duì)于下面的規(guī)則模板:
" x∈customer, buys(X, item1)∧buys(X, item2) => buys(X, item3)
對(duì)最大的k,列出頻繁k-項(xiàng)集。注意:不打印任何規(guī)則。
6.7 假定一個(gè)大型存儲(chǔ)具有分布在4個(gè)站點(diǎn)的事務(wù)數(shù)據(jù)庫(kù)。每個(gè)成員數(shù)據(jù)庫(kù)中的事務(wù)具有相同的格式Tj:{i1,...,im};其中,Tj是事務(wù)標(biāo)示符,而ik(1<=k<=m)是事務(wù)中購(gòu)買的商品標(biāo)識(shí)符。提出一個(gè)有效的算法,挖掘全局關(guān)聯(lián)規(guī)則(不考慮多層關(guān)聯(lián)規(guī)則)??梢越o出你的算法的要點(diǎn)。你的算法不必將所有的數(shù)據(jù)移到一個(gè)站點(diǎn),并且不造成過(guò)度的網(wǎng)絡(luò)通信開(kāi)銷。
6.8 假定大型事務(wù)數(shù)據(jù)庫(kù)DB的頻繁項(xiàng)集已經(jīng)存儲(chǔ)。討論:如果新的事務(wù)集△DB(增量地)加進(jìn),在相同的最小支持度閾值下,如何有效地挖掘(全局)關(guān)聯(lián)規(guī)則?
6.9 提出并給出挖掘多層關(guān)聯(lián)規(guī)則的層共享挖掘方法的要點(diǎn)。其中,每個(gè)項(xiàng)用它的層位置編碼,一次初始數(shù)據(jù)庫(kù)掃描收集每個(gè)概念層的每個(gè)項(xiàng)的計(jì)數(shù),識(shí)別頻繁和子頻繁項(xiàng)集。將用該方法挖掘多層關(guān)聯(lián)規(guī)則與挖掘單層關(guān)聯(lián)規(guī)則的花費(fèi)進(jìn)行比較。
6.10 證明:包含項(xiàng)h和其祖先h的項(xiàng)集H的支持度與項(xiàng)集H-h的支持度相同。解釋如何將它用于層交叉關(guān)聯(lián)規(guī)則挖掘。
6.11 提出一種挖掘混合維關(guān)聯(lián)規(guī)則(多維關(guān)聯(lián)規(guī)則帶有重復(fù)謂詞)的方法。
6.12 序列模式可以用類似于關(guān)聯(lián)規(guī)則挖掘的方法挖掘。設(shè)計(jì)一個(gè)有效的算法,由事務(wù)數(shù)據(jù)庫(kù)挖掘多層序列模式。這種模式的一個(gè)例子如下:"買PC的顧客在三個(gè)月內(nèi)將買Microsoft軟件",在其上,可以下鉆,發(fā)現(xiàn)該模式的更詳細(xì)的版本,如"買Pentium PC的顧客在三個(gè)月內(nèi)將買Microsoft Office"。
6.13 商店里每種商品的價(jià)格是非負(fù)的。商店經(jīng)理只關(guān)心如下形式的規(guī)則:"一件免費(fèi)商品可能觸發(fā)在同一事務(wù)中$200的總購(gòu)物"。陳述如何有效地挖掘這種規(guī)則。
6.14 商店里每種商品的價(jià)格是非負(fù)的。對(duì)于以下每種情況,識(shí)別它們提供的約束類型,并簡(jiǎn)略討論如何有效地挖掘這種關(guān)聯(lián)規(guī)則。
(a) 至少包含一件Nintendo游戲。
(b) 包含一些商品,它們的單價(jià)和小于$150。
(c) 包含一件免費(fèi)商品,并且其它商品的單價(jià)和至少是$200。
(d) 所有商品的平均價(jià)格在$100和$500之間。
7.1 簡(jiǎn)述判定樹(shù)分類的主要步驟。
7.2 在判定樹(shù)歸納中,為什么樹(shù)剪枝是有用的?用一個(gè)單獨(dú)的樣本集計(jì)值剪枝的缺點(diǎn)是什么?
7.3 為什么樸素貝葉斯分類稱為"樸素"的?簡(jiǎn)述樸素貝葉斯分類的主要思想。
7.4 比較急切分類(如判定樹(shù)、貝葉斯、神經(jīng)網(wǎng)絡(luò))相對(duì)于懶散分類(如,k-最臨近、基于案例的推理)的優(yōu)缺點(diǎn)。
7.5 通過(guò)對(duì)預(yù)測(cè)變量的變換,有些非線性回歸模型可以轉(zhuǎn)換成線性的。指出如何將非線性回歸方程Y=aXb轉(zhuǎn)換成可以用最小平方法求解的線性回歸方程。
7.6 什么是推進(jìn)?陳述它為何能提高判定樹(shù)歸納的準(zhǔn)確性。
的表決,這里每個(gè)分類法的表決是其準(zhǔn)確率的函數(shù)。推進(jìn)算法也可以擴(kuò)充到連續(xù)值預(yù)測(cè)。
7.7 證明準(zhǔn)確率是靈敏性和特效性度量的函數(shù),即證明( 7.31 )式。
7.8 當(dāng)一個(gè)數(shù)據(jù)對(duì)象可以同時(shí)屬于多個(gè)類時(shí),很難評(píng)估分類的準(zhǔn)確率。陳述在這種情況下,你將使用何種標(biāo)準(zhǔn)比較在相同數(shù)據(jù)上的建模的不同分類方法。
7.9 給定判定樹(shù),你有選擇:(a)將判定樹(shù)轉(zhuǎn)換成規(guī)則,然后對(duì)結(jié)果規(guī)則剪枝,或(b) 對(duì)判定樹(shù)剪枝,然后將剪枝后的樹(shù)轉(zhuǎn)換成規(guī)則。相對(duì)于(b),(a)的優(yōu)點(diǎn)是什么?
7.10 給定k和描述每個(gè)樣本的屬性數(shù)n,寫一個(gè)k-最臨近分類算法。
7.11 下表給出課程數(shù)據(jù)庫(kù)中學(xué)生的期中和期末考試成績(jī)。
X
其中考試 Y
期末考試
72 84
50 63
81 77
74 78
94 90
86 75
59 49
83 79
65 7 7
33 52
88 74
81 90
(a) 繪數(shù)據(jù)圖。X和Y看上去具有線性聯(lián)系嗎?
(b) 使用最小二乘法,求由學(xué)生的期中成績(jī)預(yù)測(cè)學(xué)生的期末成績(jī)的方程式。
(c) 預(yù)測(cè)期中成績(jī)?yōu)?6分的學(xué)生的期末成績(jī)。
7.12 下表有雇員數(shù)據(jù)庫(kù)的訓(xùn)練數(shù)據(jù)組成。數(shù)據(jù)已概化。對(duì)于給定的行, count表示department,status, age和salary在該行上具有給定值的元組數(shù)。
department Status Age Salary count
sales senior 31...35 46K...50K 30
sales& nbsp;junior 26...30 26K...30K 40
sales junior 31...35 31K...35K 40
systems juni or 21...25 46K...50K 20
systems senior 31...35 66K...70K 5
systems junior 26...30 46K...50K 3
systems senior 41...45 66K...70K 3
marketing senior 36...40 46K...50K 10
marketing junior 31...35 41K...45K 4
secretary senior 46...50&nbs p;36K...40K 4
secretary junior 26...30 26K...30K 6
設(shè)salary是類標(biāo)號(hào)屬性。
(a) 你將如何修改ID3算法,以便考慮每個(gè)概化數(shù)據(jù)元組(即每一行)的count?
(b) 使用你修改過(guò)的ID3算法,構(gòu)造給定數(shù)據(jù)的判定樹(shù)。
(c) 給定一個(gè)數(shù)據(jù)樣本,它在屬性department,status和age上的值分別為"systems","junior"和"20...24"。該樣本的salary的樸素貝葉斯分類是什么?
(d) 為給定的數(shù)據(jù)設(shè)計(jì)一個(gè)多層前饋神經(jīng)網(wǎng)絡(luò)。標(biāo)記輸入和輸出層節(jié)點(diǎn)。
(e) 使用上面得到的多層前饋神經(jīng)網(wǎng)絡(luò),給定訓(xùn)練實(shí)例"(sales,senior,31...35,46K...50K)",給出后向傳播算法一次迭代后的權(quán)值。指出你使用的初始權(quán)值和偏置以及學(xué)習(xí)率。
8.1 給定年齡 age 的變量的如下度量值:18 ,22 , 25 ,42 ,28 , 43 ,33 ,35 , 56 ,28 通過(guò)如下的方法進(jìn)行變量標(biāo)準(zhǔn)化:
a) 計(jì)算age 的平均絕對(duì)誤差。
b) 計(jì)算頭四個(gè)值的z -score 。
8.2 給定兩個(gè)對(duì)象,分別用元組(22 ,1 , 42 ,10 )和(20 , 0 ,36 ,8 )表示
a) 計(jì)算兩個(gè)對(duì)象之間的歐幾里的距離
b) 計(jì)算兩個(gè)對(duì)象之間的曼哈坦距離
計(jì)算兩個(gè)對(duì)象間的明考斯基距離,q=3。
8.3 什么是聚類?簡(jiǎn)單描述下列聚類方法:劃分方法,層次方法,基于密度的方法,基于網(wǎng)格的方法,以及基于模型的方法。為每種方法給出例子。
8.4 假設(shè)數(shù)據(jù)挖掘的任務(wù)是將如下8 個(gè)點(diǎn)(用(x , y )代表位置)聚類為3 個(gè)簇:
A1 ( 2 ,10 ),A2 ( 2 ,5 ),A3 ( 8 ,4 ),
B1 ( 5 ,8 ),B2 ( 7 ,5 ),B3 ( 6 ,4 ),
C1 ( 1 ,2 ),C2 ( 4 ,9 )
距離函數(shù)是歐幾里的距離。假設(shè)初始選擇A1 ,B1 , C1 分別為每個(gè)聚類的中心。請(qǐng)用K 平均算法給出
a) 第一次循環(huán)執(zhí)行后的三個(gè)聚類中心;
b) 最后的三個(gè)簇。
8.5 人眼在判斷聚類方法對(duì)二位數(shù)據(jù)的聚類質(zhì)量上是快速而有效的。你能否設(shè)計(jì)出一個(gè)數(shù)據(jù)可視的方法類似數(shù)據(jù)聚類可視化和幫助人們判斷三維數(shù)據(jù)的聚類質(zhì)量。對(duì)更高維的數(shù)據(jù)如何?
8.6 給出如何集成特定聚類算法的例子,例如,什么情況下一個(gè)聚類算法被用作另一個(gè)算法的預(yù)處理。
9.1異構(gòu)數(shù)據(jù)庫(kù)系統(tǒng)由多個(gè)數(shù)據(jù)庫(kù)系統(tǒng)組成,這些數(shù)據(jù)庫(kù)的定義是相互獨(dú)立的,但彼此間需要一定的信息交換,能夠處理局部和全局查詢。試述在這種系統(tǒng)中如何使用基于概化的方法處理描述性挖掘查詢。
9.2對(duì)象立方體的建立,可以在執(zhí)行多維概化之前通過(guò)把面向?qū)ο蟮臄?shù)據(jù)庫(kù)概化為結(jié)構(gòu)化數(shù)據(jù)來(lái)完成。試述如何在對(duì)象立方體中處理集合值數(shù)據(jù)。
9.3 空間關(guān)聯(lián)挖掘可以至少按如下兩種方式加以實(shí)現(xiàn):(i)基于挖掘查詢的要求,可以動(dòng)態(tài)計(jì)算不同空間對(duì)象之間的空間關(guān)聯(lián)關(guān)系;(ii)預(yù)先計(jì)算出空間對(duì)象間的空間距離,使得關(guān)聯(lián)挖掘可以基于這些預(yù)計(jì)算結(jié)果求得。試述(i)如何高效實(shí)現(xiàn)上述方法;(ii)各方法的適用條件。
9.4假設(shè)某城市的交通部門需要規(guī)劃高速公路的建設(shè),為此希望根據(jù)每天不同時(shí)刻收集到的交通數(shù)據(jù)進(jìn)行有關(guān)高速公路大通方面的數(shù)據(jù)分析。
(a)設(shè)計(jì)一存儲(chǔ)高速公路交通信息的空間數(shù)據(jù)倉(cāng)庫(kù),可以方便地支持人們按高速公路、按一天的時(shí)間和按工作日查看平均的和高峰時(shí)間的交通流量,以及在發(fā)生重大交通事故時(shí)的交通狀況。
(b)可以從該空間數(shù)據(jù)倉(cāng)庫(kù)中挖掘什么樣的信息用于支持城市規(guī)劃人員?
(c)該數(shù)據(jù)倉(cāng)庫(kù)既包含了空間數(shù)據(jù),也包含了時(shí)態(tài)數(shù)據(jù)。設(shè)計(jì)一種挖掘技術(shù),可以高效地從該空間-時(shí)態(tài)數(shù)據(jù)倉(cāng)庫(kù)挖掘有意義的模式。
9.5 多媒體中的相似檢索已經(jīng)成為多媒體數(shù)據(jù)檢索系統(tǒng)開(kāi)發(fā)中的主要內(nèi)容。然而,許多多媒體數(shù)據(jù)挖掘方法只是基于孤立的簡(jiǎn)單多媒體特征分析,如顏色、形狀、描述、關(guān)鍵字,等等。
(a)請(qǐng)指出將數(shù)據(jù)挖掘與基于相似性的檢索結(jié)合,可以給多媒體數(shù)據(jù)挖掘帶來(lái)重要的進(jìn)步??梢杂萌我粩?shù)據(jù)挖掘技術(shù)為例,如多維分析、分類、關(guān)聯(lián)或聚類等。
(b)請(qǐng)概述應(yīng)用基于相似性的搜索方法增強(qiáng)多媒體數(shù)據(jù)中聚類質(zhì)量的實(shí)現(xiàn)技術(shù)。
9.6假設(shè)一供電站保存了按時(shí)間和按地區(qū)的能源消耗量,和每一地區(qū)每一用戶的能源使用信息。討論在這一時(shí)序數(shù)據(jù)庫(kù)中,如何解決如下問(wèn)題:
(a)找出星期五某一給定地區(qū)的相似的能源消耗曲線;
(b)當(dāng)能源消耗曲線急劇上升時(shí),20分鐘內(nèi)會(huì)發(fā)生什么情況?
(c)如何找出可以區(qū)分穩(wěn)定能源消耗地區(qū)與不穩(wěn)定能源消耗地區(qū)的最突出特征?
9.7假設(shè)某連鎖餐廳想挖掘出與主要體育事件相關(guān)的顧客行為,如"每當(dāng)電視播出法裔加拿大人的曲棍球比賽時(shí),肯德雞的銷量會(huì)在比賽前一小時(shí)上升20%"。
(a)給出一種找出這種模式的有效方法。
(b )大部分與時(shí)間相關(guān)的關(guān)聯(lián)挖掘算法都使用了類Apriori算法來(lái)挖掘此類模式。6.2.4節(jié)中介紹的基于數(shù)據(jù)庫(kù)投影的頻繁模式(FP)增長(zhǎng)方法,對(duì)挖掘頻繁項(xiàng)集是十分有效的??煞駭U(kuò)展FP-增長(zhǎng)方法去找出此類與時(shí)間相關(guān)的模式?
9.8一個(gè)電子郵件數(shù)據(jù)庫(kù)是指包含了大量電子郵件(e-mail)信息的數(shù)據(jù)庫(kù)。它可以被視為主要包含文本數(shù)據(jù)的半結(jié)構(gòu)化數(shù)據(jù)庫(kù)。討論以下問(wèn)題:
(a)如何使一個(gè)e-mail數(shù)據(jù)庫(kù)變成結(jié)構(gòu)化的,以便支持多維檢索,如按發(fā)送者、接受者、主題和時(shí)問(wèn)等的檢索。
(b)從e-mail數(shù)據(jù)庫(kù)中可以挖掘什么信息?
(c )假設(shè)對(duì)以前的一組e-mail 信息有一個(gè)粗略的對(duì)類,如junk (垃圾),unimportant (不重要),normal (一般),或important (重要),試論述一數(shù)據(jù)挖掘系統(tǒng)如何以此為訓(xùn)練集來(lái)自動(dòng)分類新的e-mail 消息或反分類(unclassify )e-mail 信息。
10.1. 給出一個(gè)數(shù)據(jù)挖掘的例子,并且討論在此應(yīng)用中如何使用各種不同的數(shù)據(jù)挖掘方法
10.2.假設(shè)要在市場(chǎng)上購(gòu)買一個(gè)數(shù)據(jù)挖掘系統(tǒng)
(a)考慮數(shù)據(jù)挖掘系統(tǒng)與數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)耦合方式,試述無(wú)耦合、松耦合、半緊耦合和緊耦合之間的區(qū)別;
(b)行可伸縮性和列可伸縮性之間的區(qū)別是什么?
(c)當(dāng)選擇一個(gè)數(shù)據(jù)挖掘系統(tǒng)時(shí),在以上列出的諸多特征中,哪些是你要關(guān)心的?
10.3、考察一個(gè)現(xiàn)存的商品化數(shù)據(jù)挖掘系統(tǒng)。從多個(gè)不同角度來(lái)看,分析這一系統(tǒng)的主要特征,包括可處理的數(shù)據(jù)類型,系統(tǒng)體系結(jié)構(gòu),數(shù)據(jù)源,數(shù)據(jù)挖掘功能,數(shù)據(jù)挖掘方法,與數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的耦合度,可伸縮性,可視化工具,和圖形用戶界面。能否對(duì)該系統(tǒng)提出一些改進(jìn)意見(jiàn),并且概述其實(shí)現(xiàn)方法?
10.4、提出幾種對(duì)音頻數(shù)據(jù)挖掘的實(shí)現(xiàn)方法??煞駥⒁纛l數(shù)據(jù)挖掘與可視化數(shù)據(jù)挖掘結(jié)合起來(lái),使得數(shù)據(jù)挖掘有趣而強(qiáng)大?
10.5、基于現(xiàn)有的對(duì)數(shù)據(jù)挖掘系統(tǒng)和應(yīng)用的只是,你認(rèn)為數(shù)據(jù)挖掘會(huì)成為一個(gè)巨大的市場(chǎng)嗎?數(shù)據(jù)挖掘研究與開(kāi)發(fā)的瓶頸是什么?你認(rèn)為目前數(shù)據(jù)挖掘的方法會(huì)贏得巨大的系統(tǒng)應(yīng)用市場(chǎng)份額嗎?如果不是,你能提出一些建議嗎?
10.6、直接查詢應(yīng)答與智能查詢應(yīng)答之間的區(qū)別是什么?假設(shè)一個(gè)用戶要查詢某度假區(qū)的旅館的價(jià)格、地址和等級(jí)。舉例來(lái)說(shuō)明用直接查詢應(yīng)答與智能查詢應(yīng)答處理此查詢的情況。
10.7、為什么說(shuō)理論基礎(chǔ)的建立對(duì)數(shù)據(jù)挖掘十分重要的?列出并且描述現(xiàn)在已經(jīng)提出的數(shù)據(jù)挖掘的主要理論基礎(chǔ)。評(píng)論一下每一種理論是如何滿足(或者不滿足)數(shù)據(jù)挖掘的理想理論框架的要求。
10.8、通用計(jì)算機(jī)加上于領(lǐng)域獨(dú)立的關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)在過(guò)去的幾十年中,已經(jīng)形成一個(gè)巨大的市場(chǎng)。對(duì)數(shù)據(jù)挖掘而言,我們應(yīng)該致力于開(kāi)發(fā)獨(dú)立于領(lǐng)域的數(shù)據(jù)挖掘系統(tǒng),還是應(yīng)當(dāng)開(kāi)發(fā)特定領(lǐng)域的數(shù)據(jù)挖掘系統(tǒng)?請(qǐng)說(shuō)出理由。
鏈接地址:http://m.jqnhouse.com/p-6593487.html