數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘習(xí)題.doc

上傳人：xin****828

文檔編號(hào)：6593487

上傳時(shí)間：2020-02-29

格式：DOC

頁(yè)數(shù)：9

大?。?2KB

《數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘習(xí)題.doc》由會(huì)員分享，可在線閱讀，更多相關(guān)《數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘習(xí)題.doc（9頁(yè)珍藏版）》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。

數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘習(xí)題 1.1什么是數(shù)據(jù)挖掘？在你的回答中，強(qiáng)調(diào)以下問(wèn)題： (a) 它是又一個(gè)騙局嗎？ (b) 它是一種從數(shù)據(jù)庫(kù)，統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)發(fā)展的技術(shù)的簡(jiǎn)單轉(zhuǎn)換嗎？ (c) 解釋數(shù)據(jù)庫(kù)技術(shù)發(fā)展如何導(dǎo)致數(shù)據(jù)挖掘 (d) 當(dāng)把數(shù)據(jù)挖掘看作知識(shí)發(fā)現(xiàn)過(guò)程時(shí)，描述數(shù)據(jù)挖掘所涉及的步驟。 1.2 給出一個(gè)例子，其中數(shù)據(jù)挖掘?qū)τ谝环N商務(wù)的成功至關(guān)重要的。這種商務(wù)需要什么數(shù)據(jù)挖掘功能？他們能夠由數(shù)據(jù)查詢處理或簡(jiǎn)單的統(tǒng)計(jì)分析來(lái)實(shí)現(xiàn)嗎？ 1.3 假定你是Big-University的軟件工程師，任務(wù)是設(shè)計(jì)一個(gè)數(shù)據(jù)挖掘系統(tǒng)，分析學(xué)校課程數(shù)據(jù)庫(kù)。該數(shù)據(jù)庫(kù)包括如下信息：每個(gè)學(xué)生的姓名，地址和狀態(tài)（例如，本科生或研究生），所修課程，以及他們累積的GPA（學(xué)分平均）。描述你要選取的結(jié)構(gòu)。該結(jié)構(gòu)的每個(gè)成分的作用是什么？ 1.4 數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)庫(kù)有何不同？它們有那些相似之處？ 1．5簡(jiǎn)述以下高級(jí)數(shù)據(jù)庫(kù)系統(tǒng)和應(yīng)用：面向?qū)ο髷?shù)據(jù)庫(kù)，空間數(shù)據(jù)庫(kù)，文本數(shù)據(jù)庫(kù)，多媒體數(shù)據(jù)庫(kù)和WWW。 1．6 定義以下數(shù)據(jù)挖掘功能：特征化，區(qū)分，關(guān)聯(lián)，分類，預(yù)測(cè)，聚類和演變分析。使用你熟悉的現(xiàn)實(shí)生活中的數(shù)據(jù)庫(kù)，給出每種數(shù)據(jù)挖掘的例子。 1．7 區(qū)分和分類的差別是什么？特征化和聚類的差別是什么？分類和預(yù)測(cè)呢？對(duì)于每一對(duì)任務(wù)，它們有何相似之處？ 1．8 根據(jù)你的觀察，描述一種可能的知識(shí)類型，它需要由數(shù)據(jù)挖掘方法發(fā)現(xiàn)，但未在本章中列出。它需要一種不同于本章列舉的數(shù)據(jù)挖掘技術(shù)嗎？ 1. 9 描述關(guān)于數(shù)據(jù)挖掘方法和用戶交互問(wèn)題的三個(gè)數(shù)據(jù)挖掘的挑戰(zhàn)。 1. 10 描述關(guān)于性能問(wèn)題的兩個(gè)數(shù)據(jù)挖掘的挑戰(zhàn)。 2.1 試述對(duì)于多個(gè)異種信息源的集成，為什么許多公司寧愿使用更新驅(qū)動(dòng)的方法（構(gòu)造使用數(shù)據(jù)倉(cāng)庫(kù)），而不愿使用查詢驅(qū)動(dòng)的方法（使用包裝程序和集成程序）。描述一些情況，其中查詢驅(qū)動(dòng)方法比更新驅(qū)動(dòng)方法更受歡迎。 2.2 簡(jiǎn)略比較以下概念，可以用例子解釋你的觀點(diǎn) （a）雪花模式、事實(shí)星座、星型網(wǎng)查詢模型（b）數(shù)據(jù)清理、數(shù)據(jù)變換、刷新（c）發(fā)現(xiàn)驅(qū)動(dòng)數(shù)據(jù)立方體、多特征方、虛擬倉(cāng)庫(kù) 2.3 假定數(shù)據(jù)倉(cāng)庫(kù)包含三個(gè)維time，doctor和patient，兩個(gè)度量count 和charge，其中charge是醫(yī)生對(duì)一位病人的一次診治的收費(fèi)。（a）列舉三種流行的數(shù)據(jù)倉(cāng)庫(kù)建模模式。（b）使用（a）列舉的模式之一，畫出上面數(shù)據(jù)倉(cāng)庫(kù)的模式圖。（c）由基本方體[day，doctor，patient]開(kāi)始，為列出2000年每位醫(yī)生的收費(fèi)總數(shù)，應(yīng)當(dāng)執(zhí)行哪些 OLAP操作？（d）為得到同樣的結(jié)果，寫一個(gè)SQL查詢。假定數(shù)據(jù)存放在關(guān)系數(shù)據(jù)庫(kù)中，其模式如下： fee（day，month，year， doctor，hospital，patient，count，charge） 2.4 假定Big_University的數(shù)據(jù)倉(cāng)庫(kù)包含如下4個(gè)維student, course, semester和instructor，2個(gè)度量count和avg_grade。在最低的概念層（例如對(duì)于給定的學(xué)生、課程、學(xué)期和教師的組合），度量avg_grade存放學(xué)生的實(shí)際成績(jī)。在較高的概念層，avg_grade存放給定組合的平均成績(jī)。（a）為數(shù)據(jù)倉(cāng)庫(kù)畫出雪花模式圖；（b）由基本方體 [student, course, semester, instructor]開(kāi)始，為列出Big_University每個(gè)學(xué)生的CS課程的平均成績(jī)，應(yīng)當(dāng)使用哪些OLAP操作（如由 semester上卷到y(tǒng)ear）；（c）如果每維有5層（包括all），如student 2.5 假定數(shù)據(jù)倉(cāng)庫(kù)包含4個(gè)維date，spectator，location和game，2個(gè)度量count和charge。其中charge是觀眾在給定的日期觀看節(jié)目的付費(fèi)。觀眾可以是學(xué)生、成年人或老人，每類觀眾有不同的收費(fèi)標(biāo)準(zhǔn)。（a ）畫出該數(shù)據(jù)倉(cāng)庫(kù)的星型模式圖；（b）由基本方體[date，spectator，location，game]開(kāi)始，為列出2000年學(xué)生觀眾在GM-Place的總付費(fèi)，應(yīng)當(dāng)執(zhí)行哪些OLAP操作？（c）對(duì)于數(shù)據(jù)倉(cāng)庫(kù)，位圖索引是有用的。以該數(shù)據(jù)立方體為例，簡(jiǎn)略討論使用位圖索引結(jié)構(gòu)的優(yōu)點(diǎn)和問(wèn)題。 2.6 為地區(qū)氣象局設(shè)計(jì)一個(gè)數(shù)據(jù)倉(cāng)庫(kù)。氣象局大約有1000觀察點(diǎn)，散步在該地區(qū)的陸地、海洋，收集基本氣象數(shù)據(jù)，包括每小時(shí)的氣壓、溫度、降雨量。所有的數(shù)據(jù)都送到中心站，那里已收集了這種數(shù)據(jù)長(zhǎng)達(dá)十年。你的設(shè)計(jì)應(yīng)當(dāng)有利于有效的查詢和聯(lián)機(jī)分析處理，有利于有效地導(dǎo)出多維空間的一般天氣模式。 2.7 關(guān)于數(shù)據(jù)立方體中的度量計(jì)算：（a）根據(jù)計(jì)算數(shù)據(jù)立方體所用的聚集函數(shù)，列出度量的三種分類；（b）對(duì)于具有三個(gè)維time，location和product的數(shù)據(jù)立方體，函數(shù)variance屬于哪一類？如果立方體被分割成一些塊，描述如何計(jì)算它；（c）假定函數(shù)是"最高的10個(gè)銷售額"。討論如何在數(shù)據(jù)立方體里有效的計(jì)算該度量。 2.8 假定需要在數(shù)據(jù)立方體中記錄三種度量：min，average和median。給定的數(shù)據(jù)立方體允許遞增的刪除（即每次一小部分），為每種度量設(shè)計(jì)有效的計(jì)算和存儲(chǔ)方法。 2.9 數(shù)據(jù)倉(cāng)庫(kù)實(shí)現(xiàn)的流行方法是構(gòu)造一個(gè)稱為數(shù)據(jù)立方體的多維數(shù)據(jù)庫(kù)。不幸的是，這常常產(chǎn)生大的、稀疏的多維矩陣。（a）給出一個(gè)例子，解釋這種大的、稀疏的數(shù)據(jù)立方體；（b）設(shè)計(jì)一種實(shí)現(xiàn)方法，可以很好的克服這種稀疏矩陣問(wèn)題。注意，需要詳細(xì)解釋你的數(shù)據(jù)結(jié)構(gòu)，討論空間需求量，以及如何由你的結(jié)構(gòu)中檢索數(shù)據(jù)；（c）修改你在（b）的設(shè)計(jì)，處理遞增的數(shù)據(jù)更新。給出你的新設(shè)計(jì)的理由。 2.10 假定數(shù)據(jù)倉(cāng)庫(kù)包含20個(gè)維，每個(gè)維有5級(jí)粒度。（a）用戶感興趣的主要是4個(gè)特定的維，每維有3個(gè)上卷、下鉆頻繁訪問(wèn)的級(jí)。你如何設(shè)計(jì)數(shù)據(jù)立方結(jié)構(gòu)，有效地對(duì)此予以支持？（b）用戶時(shí)常想由一兩個(gè)特定的維鉆透數(shù)據(jù)立方體，到原始數(shù)據(jù)。你如何支持這一特征？ 2.11 假定基本立方體有三個(gè)維A，B，C，其單元數(shù)如下：|A|=1000000， |B|=100，|C|=1000。假定分塊將每維分成10部分。（a）假定每維只有一層，畫出完整的立方體的格。（b）如果每個(gè)立方單元存放一個(gè)4字節(jié)的度量，若方是稠密的，所計(jì)算的立方體有多大？（c）指出立方體中空間需求量最小的塊計(jì)算次序，并對(duì)計(jì)算２－維平面所需要的內(nèi)存空間計(jì)算空間量。 3．1 數(shù)據(jù)的質(zhì)量可以用精確性，完整性和一致性來(lái)評(píng)估。提出兩種數(shù)據(jù)質(zhì)量的其他尺度。 3．2 在現(xiàn)實(shí)世界的數(shù)據(jù)中，元組在某些屬性上缺少值是常有的。描述處理該問(wèn)題的各種方法。 3．3 假定用于分析的數(shù)據(jù)包含屬性age。數(shù)據(jù)元組中age的值如下（按遞增序）：13，15，16，16，19，20，20，21，22，22，25，25，25，25，30，33，33，35，35，35，35，36，40，45，46，52， 70 (a) 使用按箱平均值平滑對(duì)以上數(shù)據(jù)進(jìn)行平滑，箱的深度是3。解釋你的步驟。評(píng)論對(duì)于給定的數(shù)據(jù)，該技術(shù)的效果 (b) 你怎樣確定數(shù)據(jù)中的孤立點(diǎn)？ (c) 對(duì)于數(shù)據(jù)平滑，還有那些其他方法？ 3．4 討論數(shù)據(jù)集成需要考慮的問(wèn)題。 (1) 模式識(shí)別：這主要是實(shí)體識(shí)別問(wèn)題 (2) 冗余：一個(gè)屬性是冗余的，即它能由另一個(gè)表導(dǎo)出，如果屬性或唯的命名不一致，也可能導(dǎo)致冗余，可以用相關(guān)分析來(lái)檢測(cè) (3) 數(shù)據(jù)值沖突的檢測(cè)與處理：有些屬性因表示比例或編碼不同，會(huì)導(dǎo)致屬性不同 3．5 使用習(xí)題3。3給出的age數(shù)據(jù)，回答以下問(wèn)題： (a) 使用最小-最大規(guī)范化，將age值35轉(zhuǎn)換到[0。0，1。0]區(qū)間 (b) 使用z-score規(guī)范化轉(zhuǎn)換age 值35，其中age的標(biāo)準(zhǔn)差為12。94年 (c) 使用小數(shù)定標(biāo)規(guī)范化轉(zhuǎn)換age值35。 (d) 指出對(duì)于給定的數(shù)據(jù)，你愿意使用哪種方法。陳述你的理由。 3．6 使用流程圖概述如下屬性子集選擇過(guò)程 (a) 逐步向前選擇 (b) 逐步向后刪除 (c) 逐步向前選擇和逐步向后刪除的結(jié)合 3.7　使用習(xí)題3.3給出的age數(shù)據(jù) (a)畫一個(gè)寬度為10的等寬直方圖。 (b)為如下每種選樣技術(shù)勾畫例子: SRSWOR, SRSWR, 聚類選擇，分層選擇。使用長(zhǎng)度為5的樣本和層"young"，"middle_aged"和"senior"。 3.8 對(duì)如下問(wèn)題，使用偽代碼或你喜歡用的程序設(shè)計(jì)語(yǔ)言，給出算法： (a)對(duì)于分類數(shù)據(jù)，基于給定模式中屬性的不同值得個(gè)數(shù)，自動(dòng)產(chǎn)生概念分層。 (b)對(duì)于數(shù)值數(shù)據(jù)，基于等寬劃分規(guī)則，自動(dòng)產(chǎn)生概念分層。 (c)對(duì)于數(shù)值數(shù)據(jù)，基于等深劃分規(guī)則，自動(dòng)產(chǎn)生概念分層。 4.1列出和描述說(shuō)明數(shù)據(jù)挖掘任務(wù)的五種原語(yǔ)。 4.2 說(shuō)明為什么概念分層在數(shù)據(jù)挖掘中是有用的。 4.3 概念分層的四種主要類型是：模式分層，集合分組分層，操作導(dǎo)出的分層和基于規(guī)則的分層。 a)簡(jiǎn)略定義每種類型的分層。 b)對(duì)于每種類型的分層，給出一個(gè)不在本章中出現(xiàn)的例子。 4.4 考慮下面的由Big-University 的學(xué)生數(shù)據(jù)庫(kù)挖掘的關(guān)聯(lián)規(guī)則major (X,"science")=>status(X,"undergrad") (4.8) 假定學(xué)校的學(xué)生人數(shù)（即任務(wù)相關(guān)的元組數(shù)）為5000，其中56%的在校本科生的專業(yè)是科學(xué)，64%的學(xué)生注冊(cè)本科學(xué)位課程，70%的學(xué)生主修科學(xué)。 a) 計(jì)算規(guī)則(4.8)的支持度和置信度。 b)考慮下面的規(guī)則(4.9)： major(X,"biology")=>status(X,"undergrad") [17%,80%] (4.9) 假定主攻科學(xué)的學(xué)生30%專業(yè)為biology。與規(guī)則(4.8)對(duì)比，你認(rèn)為規(guī)則(4.9)新穎嗎？解釋你的結(jié)論。 4.5 語(yǔ)句可以用于挖掘特征化，區(qū)分，關(guān)聯(lián)和分類規(guī)則。為聚類的挖掘提出一個(gè)語(yǔ)法定義。 4.6 論建立標(biāo)準(zhǔn)化的數(shù)據(jù)挖掘查詢語(yǔ)言的重要性。涉及這一任務(wù)的一些潛在好處和挑戰(zhàn)是什么？列舉一些該領(lǐng)域的最近提議。 4.7 下面的練習(xí)涉及定義概念分層的DMQL語(yǔ)法。 (a) 典型情況，對(duì)于模式date(day,month,quarter,year)，數(shù)據(jù)挖掘系統(tǒng)有一個(gè)預(yù)定義的概念分層。使用DMQL提供該概念分層的定義。 (b) 概念分層定義可能涉及多個(gè)關(guān)系。例如，iterm_hierachy可以涉及兩個(gè)關(guān)系item和supplier，由如下模式定義： item(item_ID, brand, type, place_made, supplier) supplier(name, type, headquarter_location, owner, size, assets, revenue) 5.1．對(duì)于類特征化，基于數(shù)據(jù)立方體的實(shí)現(xiàn)與諸如面向?qū)傩詺w納的關(guān)系實(shí)現(xiàn)之間的主要不同是什么？討論哪種方法最有效，在什么條件下最有效。 5.2 假定下面的表從面向?qū)傩缘臍w納導(dǎo)出 class &n bsp; birth--- place count &n bsp; Cannada &nbs p; 180 programmer others ; 120 &nbs p; Cannada &nbs p; 20 Dba &n bsp; others ; 80 （a）將該表轉(zhuǎn)換成現(xiàn)實(shí)相關(guān)t-權(quán)和d-權(quán)的交叉表（b）將類Programmer轉(zhuǎn)換成（雙向的）量化描述規(guī)則。例如 (birth_place(X)="Canada"∧...)[t:x%,d:y%]...∨(...)([t:w%,d:z%]。?X,Programmer(X) 5.3 討論為什么需要解析特征化和如何進(jìn)行。比較兩種歸納方法的結(jié)果：（I）包含相關(guān)分析和（ii）不包含相關(guān)分析。 5.4 對(duì)于數(shù)據(jù)離散的特征化，另外給出三個(gè)常用統(tǒng)計(jì)度量（未在本章說(shuō)明），并討論如何在大型數(shù)據(jù)庫(kù)中有效地計(jì)算它們。 5.5 假定分析數(shù)據(jù)包含屬性age.數(shù)據(jù)元組的age值（以遞增次序）是：13，15，16，16，19，20，20，21，22，22，25，25，25，25，30，33，33，35，35，35，35，36，40，45，46，52，70 A 該數(shù)據(jù)的平均值是多少？中位數(shù)是多少? B 該數(shù)據(jù)的模是多少?評(píng)論數(shù)據(jù)的模態(tài)性(即雙模態(tài),三模態(tài)等). C 數(shù)據(jù)的中列數(shù)是什么 D 你能找出(粗略地)數(shù)據(jù)的第一個(gè)四分位數(shù)(q1)和第三個(gè)四分位數(shù)(Q3)嗎? E 給出數(shù)據(jù)的五數(shù)概括 F 畫出數(shù)據(jù)的盒圖 G 分位數(shù)-分位數(shù)圖與分位數(shù)圖的不同之處是什么? 5.6 給定由數(shù)據(jù)庫(kù)DB導(dǎo)出的概化關(guān)系R,假定元組的集合△ DB需要從DB中刪除，簡(jiǎn)要給出用于R的必要?jiǎng)h除的增量更新過(guò)程。 5.7 簡(jiǎn)要給出挖掘解析類比較的基于數(shù)據(jù)立方體的增量算法。 5.8 簡(jiǎn)要給出數(shù)據(jù)立方體環(huán)境下數(shù)據(jù)離散統(tǒng)計(jì)度量的(ⅰ)并行和( ⅱ)分布式挖掘方法。 6．1 Apriori 算法使用子集支持度性質(zhì)的先驗(yàn)知識(shí) a) 證明頻繁項(xiàng)集的所有非空子集必須也是頻繁的。 b) 證明項(xiàng)集s的任意非空子集s`的支持度至少和s的支持度一樣大。 c) 給定頻繁項(xiàng)集l和l的子集s，證明規(guī)則"s=>(l-s)"的置信度不可能大于"s=>(l-s)"的置信度。其中，s是s的子集。 d) Apriori的一種變形將事務(wù)數(shù)據(jù)庫(kù)D中的事務(wù)劃分成n個(gè)不重疊的部分。證明在D中是頻繁的任何項(xiàng)集至少在D的一個(gè)部分中是頻繁的。 6．2 數(shù)據(jù)庫(kù)有4個(gè)事務(wù)。設(shè)min_sup = 60%，min_conf = 80%。 TID DATE ITEMS_BOUGHT T100 10/15/99 {K, A, D, B} T200 10/15/99 {D, A, C, E, B} T300 10/19/99 {C, A, B, E} T400 10/22/99 {B, A, D} A）分別使用Apriori 和FP- 增長(zhǎng)算法找出頻繁項(xiàng)集。比較兩種挖掘過(guò)程的有效性。 B）列出所有強(qiáng)關(guān)聯(lián)規(guī)則，他們與下面的元規(guī)則匹配，其中，X 是代表顧客的變量，item 時(shí)表示項(xiàng)的變量： " x∈transaction, buys(X, item1)∧buys(X, item2) => buys(X, item3) [s, c] 6．3 在挖掘?qū)咏徊骊P(guān)聯(lián)規(guī)則時(shí)，假定發(fā)現(xiàn)項(xiàng)集"{IBM desktop computer, printer}"不滿足最小支持度。這一信息可以用來(lái)剪去諸如"{IBM desktop computer, b/w printer}"的"后代"項(xiàng)集的挖掘嗎？給出一個(gè)一般規(guī)則，解釋這一信息如何用于對(duì)搜索空間剪枝。 6．4 給出一個(gè)短例子，表明強(qiáng)關(guān)聯(lián)規(guī)則中的項(xiàng)可能實(shí)際上是負(fù)相關(guān)的。 6．5 下面的相依表匯總了超級(jí)市場(chǎng)的事務(wù)數(shù)據(jù)，其中，hot dogs 表示包含熱狗的事務(wù)，~hotdogs 表示不包含熱狗的事務(wù)，hamburgers 表示包含漢堡包的事務(wù)，~hamburgers 表示不包含漢堡包的事務(wù)。 Hotdogs ~hotdogs Hamburgers 2000 500 2500 ~hamburgers 1000 1500 2500 ∑ col 3000 2000 5000 A）假定發(fā)現(xiàn)關(guān)聯(lián)規(guī)則"hotdogs=>hamburgers "。給定最小支持度閾值25% ，最小置信度閾值 50% ，該關(guān)聯(lián)規(guī)則是強(qiáng)的嗎？ B）根據(jù)給定的數(shù)據(jù)，買hotdog 獨(dú)立于買hamburgers 嗎？如果不是，二者之間存在何種相關(guān)聯(lián)系？ 6．6 數(shù)據(jù)庫(kù)有4 個(gè)事務(wù)，設(shè) min_sup = 60% ， min_conf = 80% 。 Cust_ID TID Items_bought（以brand- item_category形式） 01 T100 {Kings-Carb, Sunset-Milk, Dairyland-Cheese, best-Bread} 02 T200 {Best-Cheese, Dairyland-Milk, Goldenfarm-Apple, Tasty-Pie, Wonder-Bread} 01 T300 {Westcoast-Apple, Dairyland- Milk, Wonder-Bread, Tasty-Pie} 03 T400 {Wonder-Bread, Sunset-Milk, Dairyland-Cheese} a) 在 item_category 粒度（例如，itemi 可以是"milk" ），對(duì)于下面規(guī)則模板 " x∈transaction, buys(X, item1)∧buys(X, item2) => buys(X, item3) [s, c] 對(duì)于最大的k，列出頻繁k-項(xiàng)集和包含最大的k的頻繁k-項(xiàng)集的所有強(qiáng)關(guān)聯(lián)規(guī)則。 b) 在brand-item_category 粒度（例如：item 可以是"sunset-milk "），對(duì)于下面的規(guī)則模板： " x∈customer, buys(X, item1)∧buys(X, item2) => buys(X, item3) 對(duì)最大的k，列出頻繁k-項(xiàng)集。注意：不打印任何規(guī)則。 6.7 假定一個(gè)大型存儲(chǔ)具有分布在4個(gè)站點(diǎn)的事務(wù)數(shù)據(jù)庫(kù)。每個(gè)成員數(shù)據(jù)庫(kù)中的事務(wù)具有相同的格式Tj:{i1,...,im}；其中，Tj是事務(wù)標(biāo)示符，而ik(1<=k<=m)是事務(wù)中購(gòu)買的商品標(biāo)識(shí)符。提出一個(gè)有效的算法，挖掘全局關(guān)聯(lián)規(guī)則（不考慮多層關(guān)聯(lián)規(guī)則）?？梢越o出你的算法的要點(diǎn)。你的算法不必將所有的數(shù)據(jù)移到一個(gè)站點(diǎn)，并且不造成過(guò)度的網(wǎng)絡(luò)通信開(kāi)銷。 6.8 假定大型事務(wù)數(shù)據(jù)庫(kù)DB的頻繁項(xiàng)集已經(jīng)存儲(chǔ)。討論：如果新的事務(wù)集△DB（增量地）加進(jìn)，在相同的最小支持度閾值下，如何有效地挖掘（全局）關(guān)聯(lián)規(guī)則？ 6.9 提出并給出挖掘多層關(guān)聯(lián)規(guī)則的層共享挖掘方法的要點(diǎn)。其中，每個(gè)項(xiàng)用它的層位置編碼，一次初始數(shù)據(jù)庫(kù)掃描收集每個(gè)概念層的每個(gè)項(xiàng)的計(jì)數(shù)，識(shí)別頻繁和子頻繁項(xiàng)集。將用該方法挖掘多層關(guān)聯(lián)規(guī)則與挖掘單層關(guān)聯(lián)規(guī)則的花費(fèi)進(jìn)行比較。 6.10 證明：包含項(xiàng)h和其祖先h的項(xiàng)集H的支持度與項(xiàng)集H-h的支持度相同。解釋如何將它用于層交叉關(guān)聯(lián)規(guī)則挖掘。 6.11 提出一種挖掘混合維關(guān)聯(lián)規(guī)則（多維關(guān)聯(lián)規(guī)則帶有重復(fù)謂詞）的方法。 6.12 序列模式可以用類似于關(guān)聯(lián)規(guī)則挖掘的方法挖掘。設(shè)計(jì)一個(gè)有效的算法，由事務(wù)數(shù)據(jù)庫(kù)挖掘多層序列模式。這種模式的一個(gè)例子如下："買PC的顧客在三個(gè)月內(nèi)將買Microsoft軟件"，在其上，可以下鉆，發(fā)現(xiàn)該模式的更詳細(xì)的版本，如"買Pentium PC的顧客在三個(gè)月內(nèi)將買Microsoft Office"。 6.13 商店里每種商品的價(jià)格是非負(fù)的。商店經(jīng)理只關(guān)心如下形式的規(guī)則："一件免費(fèi)商品可能觸發(fā)在同一事務(wù)中$200的總購(gòu)物"。陳述如何有效地挖掘這種規(guī)則。 6.14 商店里每種商品的價(jià)格是非負(fù)的。對(duì)于以下每種情況，識(shí)別它們提供的約束類型，并簡(jiǎn)略討論如何有效地挖掘這種關(guān)聯(lián)規(guī)則。 (a) 至少包含一件Nintendo游戲。 (b) 包含一些商品，它們的單價(jià)和小于$150。 (c) 包含一件免費(fèi)商品，并且其它商品的單價(jià)和至少是$200。 (d) 所有商品的平均價(jià)格在$100和$500之間。 7.1 簡(jiǎn)述判定樹(shù)分類的主要步驟。 7.2 在判定樹(shù)歸納中，為什么樹(shù)剪枝是有用的？用一個(gè)單獨(dú)的樣本集計(jì)值剪枝的缺點(diǎn)是什么？ 7.3 為什么樸素貝葉斯分類稱為"樸素"的？簡(jiǎn)述樸素貝葉斯分類的主要思想。 7.4 比較急切分類（如判定樹(shù)、貝葉斯、神經(jīng)網(wǎng)絡(luò)）相對(duì)于懶散分類（如，k-最臨近、基于案例的推理）的優(yōu)缺點(diǎn)。 7.5 通過(guò)對(duì)預(yù)測(cè)變量的變換，有些非線性回歸模型可以轉(zhuǎn)換成線性的。指出如何將非線性回歸方程Y=aXb轉(zhuǎn)換成可以用最小平方法求解的線性回歸方程。 7.6 什么是推進(jìn)？陳述它為何能提高判定樹(shù)歸納的準(zhǔn)確性。的表決，這里每個(gè)分類法的表決是其準(zhǔn)確率的函數(shù)。推進(jìn)算法也可以擴(kuò)充到連續(xù)值預(yù)測(cè)。 7.7 證明準(zhǔn)確率是靈敏性和特效性度量的函數(shù)，即證明（ 7.31 ）式。 7.8 當(dāng)一個(gè)數(shù)據(jù)對(duì)象可以同時(shí)屬于多個(gè)類時(shí)，很難評(píng)估分類的準(zhǔn)確率。陳述在這種情況下，你將使用何種標(biāo)準(zhǔn)比較在相同數(shù)據(jù)上的建模的不同分類方法。 7.9 給定判定樹(shù)，你有選擇：(a)將判定樹(shù)轉(zhuǎn)換成規(guī)則，然后對(duì)結(jié)果規(guī)則剪枝，或(b) 對(duì)判定樹(shù)剪枝，然后將剪枝后的樹(shù)轉(zhuǎn)換成規(guī)則。相對(duì)于(b)，(a)的優(yōu)點(diǎn)是什么？ 7.10 給定k和描述每個(gè)樣本的屬性數(shù)n，寫一個(gè)k-最臨近分類算法。 7.11 下表給出課程數(shù)據(jù)庫(kù)中學(xué)生的期中和期末考試成績(jī)。 X 其中考試 Y 期末考試 72 84 50 63 81 77 74 78 94 90 86 75 59 49 83 79 65 7 7 33 52 88 74 81 90 (a) 繪數(shù)據(jù)圖。X和Y看上去具有線性聯(lián)系嗎？ (b) 使用最小二乘法，求由學(xué)生的期中成績(jī)預(yù)測(cè)學(xué)生的期末成績(jī)的方程式。 (c) 預(yù)測(cè)期中成績(jī)?yōu)?6分的學(xué)生的期末成績(jī)。 7.12 下表有雇員數(shù)據(jù)庫(kù)的訓(xùn)練數(shù)據(jù)組成。數(shù)據(jù)已概化。對(duì)于給定的行， count表示department，status, age和salary在該行上具有給定值的元組數(shù)。 department Status Age Salary count sales senior 31...35 46K...50K 30 sales& nbsp;junior 26...30 26K...30K 40 sales junior 31...35 31K...35K 40 systems juni or 21...25 46K...50K 20 systems senior 31...35 66K...70K 5 systems junior 26...30 46K...50K 3 systems senior 41...45 66K...70K 3 marketing senior 36...40 46K...50K 10 marketing junior 31...35 41K...45K 4 secretary senior 46...50&nbs p;36K...40K 4 secretary junior 26...30 26K...30K 6 設(shè)salary是類標(biāo)號(hào)屬性。 (a) 你將如何修改ID3算法，以便考慮每個(gè)概化數(shù)據(jù)元組（即每一行）的count？ (b) 使用你修改過(guò)的ID3算法，構(gòu)造給定數(shù)據(jù)的判定樹(shù)。 (c) 給定一個(gè)數(shù)據(jù)樣本，它在屬性department,status和age上的值分別為"systems","junior"和"20...24"。該樣本的salary的樸素貝葉斯分類是什么？ (d) 為給定的數(shù)據(jù)設(shè)計(jì)一個(gè)多層前饋神經(jīng)網(wǎng)絡(luò)。標(biāo)記輸入和輸出層節(jié)點(diǎn)。 (e) 使用上面得到的多層前饋神經(jīng)網(wǎng)絡(luò)，給定訓(xùn)練實(shí)例"(sales,senior,31...35,46K...50K)",給出后向傳播算法一次迭代后的權(quán)值。指出你使用的初始權(quán)值和偏置以及學(xué)習(xí)率。 8.1 給定年齡 age 的變量的如下度量值：18 ，22 ， 25 ，42 ，28 ， 43 ，33 ，35 ， 56 ，28 通過(guò)如下的方法進(jìn)行變量標(biāo)準(zhǔn)化： a) 計(jì)算age 的平均絕對(duì)誤差。 b) 計(jì)算頭四個(gè)值的z －score 。 8.2 給定兩個(gè)對(duì)象，分別用元組（22 ，1 ， 42 ，10 ）和（20 ， 0 ，36 ，8 ）表示 a) 計(jì)算兩個(gè)對(duì)象之間的歐幾里的距離 b) 計(jì)算兩個(gè)對(duì)象之間的曼哈坦距離計(jì)算兩個(gè)對(duì)象間的明考斯基距離，q＝3。 8.3 什么是聚類？簡(jiǎn)單描述下列聚類方法：劃分方法，層次方法，基于密度的方法，基于網(wǎng)格的方法，以及基于模型的方法。為每種方法給出例子。 8.4 假設(shè)數(shù)據(jù)挖掘的任務(wù)是將如下8 個(gè)點(diǎn)（用（x ， y ）代表位置）聚類為3 個(gè)簇： A1 （ 2 ，10 ），A2 （ 2 ，5 ），A3 （ 8 ，4 ）， B1 （ 5 ，8 ），B2 （ 7 ，5 ），B3 （ 6 ，4 ）， C1 （ 1 ，2 ），C2 （ 4 ，9 ）距離函數(shù)是歐幾里的距離。假設(shè)初始選擇A1 ，B1 ， C1 分別為每個(gè)聚類的中心。請(qǐng)用K 平均算法給出 a) 第一次循環(huán)執(zhí)行后的三個(gè)聚類中心； b) 最后的三個(gè)簇。 8.5 人眼在判斷聚類方法對(duì)二位數(shù)據(jù)的聚類質(zhì)量上是快速而有效的。你能否設(shè)計(jì)出一個(gè)數(shù)據(jù)可視的方法類似數(shù)據(jù)聚類可視化和幫助人們判斷三維數(shù)據(jù)的聚類質(zhì)量。對(duì)更高維的數(shù)據(jù)如何？ 8.6 給出如何集成特定聚類算法的例子，例如，什么情況下一個(gè)聚類算法被用作另一個(gè)算法的預(yù)處理。 9.1異構(gòu)數(shù)據(jù)庫(kù)系統(tǒng)由多個(gè)數(shù)據(jù)庫(kù)系統(tǒng)組成，這些數(shù)據(jù)庫(kù)的定義是相互獨(dú)立的，但彼此間需要一定的信息交換，能夠處理局部和全局查詢。試述在這種系統(tǒng)中如何使用基于概化的方法處理描述性挖掘查詢。 9.2對(duì)象立方體的建立，可以在執(zhí)行多維概化之前通過(guò)把面向?qū)ο蟮臄?shù)據(jù)庫(kù)概化為結(jié)構(gòu)化數(shù)據(jù)來(lái)完成。試述如何在對(duì)象立方體中處理集合值數(shù)據(jù)。 9.3 空間關(guān)聯(lián)挖掘可以至少按如下兩種方式加以實(shí)現(xiàn)：（i）基于挖掘查詢的要求，可以動(dòng)態(tài)計(jì)算不同空間對(duì)象之間的空間關(guān)聯(lián)關(guān)系；（ii）預(yù)先計(jì)算出空間對(duì)象間的空間距離，使得關(guān)聯(lián)挖掘可以基于這些預(yù)計(jì)算結(jié)果求得。試述（i）如何高效實(shí)現(xiàn)上述方法；（ii）各方法的適用條件。 9.4假設(shè)某城市的交通部門需要規(guī)劃高速公路的建設(shè)，為此希望根據(jù)每天不同時(shí)刻收集到的交通數(shù)據(jù)進(jìn)行有關(guān)高速公路大通方面的數(shù)據(jù)分析。（a）設(shè)計(jì)一存儲(chǔ)高速公路交通信息的空間數(shù)據(jù)倉(cāng)庫(kù)，可以方便地支持人們按高速公路、按一天的時(shí)間和按工作日查看平均的和高峰時(shí)間的交通流量，以及在發(fā)生重大交通事故時(shí)的交通狀況。（b）可以從該空間數(shù)據(jù)倉(cāng)庫(kù)中挖掘什么樣的信息用于支持城市規(guī)劃人員？（c）該數(shù)據(jù)倉(cāng)庫(kù)既包含了空間數(shù)據(jù)，也包含了時(shí)態(tài)數(shù)據(jù)。設(shè)計(jì)一種挖掘技術(shù)，可以高效地從該空間－時(shí)態(tài)數(shù)據(jù)倉(cāng)庫(kù)挖掘有意義的模式。 9.5 多媒體中的相似檢索已經(jīng)成為多媒體數(shù)據(jù)檢索系統(tǒng)開(kāi)發(fā)中的主要內(nèi)容。然而，許多多媒體數(shù)據(jù)挖掘方法只是基于孤立的簡(jiǎn)單多媒體特征分析，如顏色、形狀、描述、關(guān)鍵字，等等。（a）請(qǐng)指出將數(shù)據(jù)挖掘與基于相似性的檢索結(jié)合，可以給多媒體數(shù)據(jù)挖掘帶來(lái)重要的進(jìn)步?？梢杂萌我粩?shù)據(jù)挖掘技術(shù)為例，如多維分析、分類、關(guān)聯(lián)或聚類等。（b）請(qǐng)概述應(yīng)用基于相似性的搜索方法增強(qiáng)多媒體數(shù)據(jù)中聚類質(zhì)量的實(shí)現(xiàn)技術(shù)。 9.6假設(shè)一供電站保存了按時(shí)間和按地區(qū)的能源消耗量，和每一地區(qū)每一用戶的能源使用信息。討論在這一時(shí)序數(shù)據(jù)庫(kù)中，如何解決如下問(wèn)題：（a）找出星期五某一給定地區(qū)的相似的能源消耗曲線；（b）當(dāng)能源消耗曲線急劇上升時(shí)，20分鐘內(nèi)會(huì)發(fā)生什么情況？（c）如何找出可以區(qū)分穩(wěn)定能源消耗地區(qū)與不穩(wěn)定能源消耗地區(qū)的最突出特征？ 9.7假設(shè)某連鎖餐廳想挖掘出與主要體育事件相關(guān)的顧客行為，如"每當(dāng)電視播出法裔加拿大人的曲棍球比賽時(shí)，肯德雞的銷量會(huì)在比賽前一小時(shí)上升20％"。（a）給出一種找出這種模式的有效方法。（b ）大部分與時(shí)間相關(guān)的關(guān)聯(lián)挖掘算法都使用了類Apriori算法來(lái)挖掘此類模式。6.2.4節(jié)中介紹的基于數(shù)據(jù)庫(kù)投影的頻繁模式（FP）增長(zhǎng)方法，對(duì)挖掘頻繁項(xiàng)集是十分有效的?？煞駭U(kuò)展FP－增長(zhǎng)方法去找出此類與時(shí)間相關(guān)的模式？ 9.8一個(gè)電子郵件數(shù)據(jù)庫(kù)是指包含了大量電子郵件（e-mail）信息的數(shù)據(jù)庫(kù)。它可以被視為主要包含文本數(shù)據(jù)的半結(jié)構(gòu)化數(shù)據(jù)庫(kù)。討論以下問(wèn)題：（a）如何使一個(gè)e-mail數(shù)據(jù)庫(kù)變成結(jié)構(gòu)化的，以便支持多維檢索，如按發(fā)送者、接受者、主題和時(shí)問(wèn)等的檢索。（b）從e-mail數(shù)據(jù)庫(kù)中可以挖掘什么信息？（c ）假設(shè)對(duì)以前的一組e-mail 信息有一個(gè)粗略的對(duì)類，如junk （垃圾），unimportant （不重要），normal （一般），或important （重要），試論述一數(shù)據(jù)挖掘系統(tǒng)如何以此為訓(xùn)練集來(lái)自動(dòng)分類新的e-mail 消息或反分類（unclassify ）e-mail 信息。 10.1. 給出一個(gè)數(shù)據(jù)挖掘的例子,并且討論在此應(yīng)用中如何使用各種不同的數(shù)據(jù)挖掘方法 10.2．假設(shè)要在市場(chǎng)上購(gòu)買一個(gè)數(shù)據(jù)挖掘系統(tǒng) （a）考慮數(shù)據(jù)挖掘系統(tǒng)與數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)耦合方式，試述無(wú)耦合、松耦合、半緊耦合和緊耦合之間的區(qū)別；（b）行可伸縮性和列可伸縮性之間的區(qū)別是什么？（c）當(dāng)選擇一個(gè)數(shù)據(jù)挖掘系統(tǒng)時(shí)，在以上列出的諸多特征中，哪些是你要關(guān)心的？ 10.3、考察一個(gè)現(xiàn)存的商品化數(shù)據(jù)挖掘系統(tǒng)。從多個(gè)不同角度來(lái)看，分析這一系統(tǒng)的主要特征，包括可處理的數(shù)據(jù)類型，系統(tǒng)體系結(jié)構(gòu)，數(shù)據(jù)源，數(shù)據(jù)挖掘功能，數(shù)據(jù)挖掘方法，與數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的耦合度，可伸縮性，可視化工具，和圖形用戶界面。能否對(duì)該系統(tǒng)提出一些改進(jìn)意見(jiàn)，并且概述其實(shí)現(xiàn)方法？ 10.4、提出幾種對(duì)音頻數(shù)據(jù)挖掘的實(shí)現(xiàn)方法?？煞駥⒁纛l數(shù)據(jù)挖掘與可視化數(shù)據(jù)挖掘結(jié)合起來(lái)，使得數(shù)據(jù)挖掘有趣而強(qiáng)大？ 10.5、基于現(xiàn)有的對(duì)數(shù)據(jù)挖掘系統(tǒng)和應(yīng)用的只是，你認(rèn)為數(shù)據(jù)挖掘會(huì)成為一個(gè)巨大的市場(chǎng)嗎？數(shù)據(jù)挖掘研究與開(kāi)發(fā)的瓶頸是什么？你認(rèn)為目前數(shù)據(jù)挖掘的方法會(huì)贏得巨大的系統(tǒng)應(yīng)用市場(chǎng)份額嗎？如果不是，你能提出一些建議嗎？ 10.6、直接查詢應(yīng)答與智能查詢應(yīng)答之間的區(qū)別是什么？假設(shè)一個(gè)用戶要查詢某度假區(qū)的旅館的價(jià)格、地址和等級(jí)。舉例來(lái)說(shuō)明用直接查詢應(yīng)答與智能查詢應(yīng)答處理此查詢的情況。 10.7、為什么說(shuō)理論基礎(chǔ)的建立對(duì)數(shù)據(jù)挖掘十分重要的？列出并且描述現(xiàn)在已經(jīng)提出的數(shù)據(jù)挖掘的主要理論基礎(chǔ)。評(píng)論一下每一種理論是如何滿足（或者不滿足）數(shù)據(jù)挖掘的理想理論框架的要求。 10.8、通用計(jì)算機(jī)加上于領(lǐng)域獨(dú)立的關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)在過(guò)去的幾十年中，已經(jīng)形成一個(gè)巨大的市場(chǎng)。對(duì)數(shù)據(jù)挖掘而言，我們應(yīng)該致力于開(kāi)發(fā)獨(dú)立于領(lǐng)域的數(shù)據(jù)挖掘系統(tǒng)，還是應(yīng)當(dāng)開(kāi)發(fā)特定領(lǐng)域的數(shù)據(jù)挖掘系統(tǒng)？請(qǐng)說(shuō)出理由。

下載提示(請(qǐng)認(rèn)真閱讀)

1.請(qǐng)仔細(xì)閱讀文檔，確保文檔完整性，對(duì)于不預(yù)覽、不比對(duì)內(nèi)容而直接下載帶來(lái)的問(wèn)題本站不予受理。
2.下載的文檔，不會(huì)出現(xiàn)我們的網(wǎng)址水印。
3、該文檔所得收入（下載+內(nèi)容+預(yù)覽）歸上傳者、原創(chuàng)作者；如果您是本文檔原作者，請(qǐng)點(diǎn)此認(rèn)領(lǐng)！既往收益都?xì)w您。

同意并開(kāi)始全文預(yù)覽

文檔包含非法信息？點(diǎn)此舉報(bào)后獲取現(xiàn)金獎(jiǎng)勵(lì)！

文檔加載中……請(qǐng)稍候！
如果長(zhǎng)時(shí)間未打開(kāi)，您也可以點(diǎn)擊刷新試試。

下載文檔到電腦，查找使用更方便

9.9 積分

還剩頁(yè)未讀，繼續(xù)閱讀

舉報(bào)

版權(quán)申訴 word格式文檔無(wú)特別注明外均可編輯修改；預(yù)覽文檔經(jīng)過(guò)壓縮，下載后原文更清晰！ 立即下載

配套講稿：: 如PPT文件的首頁(yè)顯示word圖標(biāo)，表示該P(yáng)PT已包含配套word講稿。雙擊word圖標(biāo)可打開(kāi)word文檔。
特殊限制：: 部分文檔作品中含有的國(guó)旗、國(guó)徽等圖片，僅作為作品整體效果示例展示，禁止商用。設(shè)計(jì)者僅對(duì)作品中獨(dú)創(chuàng)性部分享有著作權(quán)。
關(guān) 鍵詞：: 數(shù)據(jù)倉(cāng)庫(kù) 數(shù)據(jù) 挖掘習(xí)題

溫馨提示:
1: 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

裝配圖網(wǎng)所有資源均是用戶自行上傳分享，僅供網(wǎng)友學(xué)習(xí)交流，未經(jīng)上傳用戶書面授權(quán)，請(qǐng)勿作他用。

關(guān)于本文

本文標(biāo)題：數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘習(xí)題.doc
鏈接地址：http://m.jqnhouse.com/p-6593487.html

相關(guān)資源更多

正為您匹配相似的精品文檔

相關(guān)搜索

數(shù)據(jù)倉(cāng)庫(kù) 數(shù)據(jù) 挖掘 習(xí)題

關(guān)于我們 - 網(wǎng)站聲明 - 網(wǎng)站地圖 - 資源地圖 - 友情鏈接 - 網(wǎng)站客服 - 聯(lián)系我們

備案號(hào):蜀ICP備2024067431號(hào)-1 川公網(wǎng)安備51140202000466號(hào)

本站為文檔C2C交易模式，即用戶上傳的文檔直接被用戶下載，本站只是中間服務(wù)平臺(tái)，本站所有文檔下載所得的收益歸上傳人(含作者)所有。裝配圖網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)上載內(nèi)容本身不做任何修改或編輯。若文檔所含內(nèi)容侵犯了您的版權(quán)或隱私，請(qǐng)立即通知裝配圖網(wǎng)，我們立即給予刪除！

數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘習(xí)題.doc

最新文檔