《若干數(shù)據(jù)庫前沿技術(shù)的理解和思考》由會(huì)員分享,可在線閱讀,更多相關(guān)《若干數(shù)據(jù)庫前沿技術(shù)的理解和思考(29頁珍藏版)》請?jiān)谘b配圖網(wǎng)上搜索。
1、單擊此處編輯母版標(biāo)題樣式,單擊此處編輯母版文本樣式,第二級(jí),第三級(jí),第四級(jí),第五級(jí),*,數(shù)據(jù)庫研究進(jìn)展*周傲英,*,若干數(shù)據(jù)庫前沿技術(shù)的理解和思考,周傲英,復(fù)旦大學(xué),提綱,當(dāng)前數(shù)據(jù)庫研究重點(diǎn)的變化,三個(gè)重要的數(shù)據(jù)庫研究問題,對(duì)等計(jì)算環(huán)境下的數(shù)據(jù)管理,流數(shù)據(jù)管理和挖掘,XML,數(shù)據(jù)管理和,Web,服務(wù),我們正在進(jìn)行的工作,12/11/2024,2,數(shù)據(jù)庫研究進(jìn)展*周傲英,當(dāng)前數(shù)據(jù)庫研究的重點(diǎn),靜止的查詢和變化的數(shù)據(jù),連續(xù)查詢(,continuous query,),流數(shù)據(jù)管理和挖掘,受限制的節(jié)點(diǎn)處理能力和不受限制的系統(tǒng)動(dòng)態(tài)性,傳感器網(wǎng)絡(luò)上的查詢處理、傳感器網(wǎng)絡(luò)數(shù)據(jù)分析,對(duì)等計(jì)算環(huán)境下的數(shù)據(jù)管理,
2、數(shù)據(jù)模式的復(fù)雜化和元數(shù)據(jù)管理的標(biāo)準(zhǔn)化,XML,數(shù)據(jù)管理和交換,Web,服務(wù),12/11/2024,3,數(shù)據(jù)庫研究進(jìn)展*周傲英,提綱,當(dāng)前數(shù)據(jù)庫研究重點(diǎn)的變化,三個(gè)重要的數(shù)據(jù)庫研究問題,對(duì)等計(jì)算環(huán)境下的數(shù)據(jù)管理,流數(shù)據(jù)管理和挖掘,XML,數(shù)據(jù)管理和,Web,服務(wù),我們正在進(jìn)行的工作,12/11/2024,4,數(shù)據(jù)庫研究進(jìn)展*周傲英,P2P,數(shù)據(jù)管理,應(yīng)用背景,從簡單的文件共享向復(fù)雜的查詢處理功能變化,信息檢索:,pSearch,PlanetP,PeerIS,數(shù)據(jù)庫查詢:,PIER,PIAZZA,PeerDB,Hyperion,連續(xù)查詢:,PeerCQ,Buddy-CQ,Aurora*/Medus
3、a,從消息傳遞向內(nèi)容路由變化,基于,XML,的內(nèi)容路由,應(yīng)用場景:,金融、科學(xué)計(jì)算和數(shù)據(jù)管理、醫(yī)療、,其它松散耦合的虛擬組織,一些緊耦合,但在地理上分布的數(shù)據(jù)管理任務(wù),12/11/2024,5,數(shù)據(jù)庫研究進(jìn)展*周傲英,P2P,數(shù)據(jù)管理,主要技術(shù)(,1,),從數(shù)據(jù)訪問和索引角度看,散列,分布式散列表(,Distributed Hash Table,DHT,),Chord,CAN,Pastry,Tapestry,Viceroy,DHT,上的區(qū)域查詢(,range query,),基于,LSH,和,Chord,的技術(shù)、基于,CAN,的區(qū)域查詢緩存、,DHT,上的關(guān)系運(yùn)算算子的實(shí)現(xiàn),PIER,(,Be
4、rkeley,)實(shí)現(xiàn)了四種不同的連接算法,樹型索引,P-tree,可以被用來進(jìn)行區(qū)域查詢,12/11/2024,6,數(shù)據(jù)庫研究進(jìn)展*周傲英,P2P,數(shù)據(jù)管理,主要技術(shù)(,2,),從數(shù)據(jù)庫模式集成和查詢語義看,基于視圖的數(shù)據(jù)集成,PIAZZA,:模式映射、查詢改寫和優(yōu)化,P2P,數(shù)據(jù)庫查詢的語義,局部關(guān)系模型(,LRM,),映射表的邏輯語義和實(shí)現(xiàn)(,Hyperion,),加寬可達(dá)快照(,dilated-reachable snapshot,)語義(,PIER,),12/11/2024,7,數(shù)據(jù)庫研究進(jìn)展*周傲英,P2P,數(shù)據(jù)管理,主要技術(shù)(,3,),從元數(shù)據(jù)管理看,基于標(biāo)準(zhǔn)協(xié)議的方式(,PIER
5、,),多索引,/,目錄服務(wù)器方式,全自治的方式(,PeerDB,PIAZZA,),從分布式數(shù)據(jù)庫和分布式查詢處理角度看,查詢傳遞(,query shipping,)、代碼傳遞(,code shipping,)和代理傳遞(,agent shipping,)(,PeerDB,),基于,DHT,的查詢處理(,PIER,PeerCQ,),突變查詢處理(,mutant query processing,),12/11/2024,8,數(shù)據(jù)庫研究進(jìn)展*周傲英,提綱,當(dāng)前數(shù)據(jù)庫研究重點(diǎn)的變化,三個(gè)重要的數(shù)據(jù)庫研究問題,對(duì)等計(jì)算環(huán)境下的數(shù)據(jù)管理,流數(shù)據(jù)管理和挖掘,XML,數(shù)據(jù)管理和,Web,服務(wù),我們正在進(jìn)行的
6、工作,12/11/2024,9,數(shù)據(jù)庫研究進(jìn)展*周傲英,流數(shù)據(jù)管理和挖掘,應(yīng)用背景,(相對(duì))靜態(tài)的查詢、動(dòng)態(tài)的數(shù)據(jù),挑戰(zhàn),和數(shù)據(jù)量呈線性的時(shí)間復(fù)雜度,固定大小的內(nèi)存,單遍掃描數(shù)據(jù)集,在任意時(shí)刻輸出是準(zhǔn)確、可靠的,模型在任意時(shí)間都可以輸出,應(yīng)用場景:,網(wǎng)絡(luò)監(jiān)控和交通工程,電信記錄管理和分析,商業(yè)交易管理和分析,金融信息監(jiān)控,制造業(yè)和供應(yīng)鏈工程和工業(yè)過程控制,傳感器信息監(jiān)控,Web,日志分析,海量數(shù)據(jù)處理,12/11/2024,10,數(shù)據(jù)庫研究進(jìn)展*周傲英,流數(shù)據(jù)管理和挖掘,研究角度,理論分析,一般采用隨機(jī)算法(,randomized algorithms,),研究重點(diǎn)是算法的界,聯(lián)機(jī)算法設(shè)計(jì),重
7、點(diǎn)是算法在實(shí)際數(shù)據(jù)集上的效率,模型的變化,滑動(dòng)窗口模型,挖掘模型的變化,研究的重點(diǎn)是及時(shí)的模型改變,12/11/2024,11,數(shù)據(jù)庫研究進(jìn)展*周傲英,流數(shù)據(jù)管理和挖掘,主要技術(shù)(,1,),連續(xù)查詢處理,系統(tǒng)設(shè)計(jì)和開發(fā),TriggerMan,OpenCQ,(Georgia Tech.),Niagara-CQ(Wisconsin Madison),CACQ,Aurora(MIT/Brown/Brandies),AdaptiveCQ,TelegraphCQ,(U.C.Berkeley),STREAM(Stanford),User/Application,Register Query,Stream
8、Query,Processor,Results,Scratch Space,(Memory and/or Disk),Data,Stream,Management,System,(DSMS),12/11/2024,12,數(shù)據(jù)庫研究進(jìn)展*周傲英,流數(shù)據(jù)管理和挖掘,主要技術(shù)(,2,),連續(xù)查詢算子的實(shí)現(xiàn),各種流水線聯(lián)接算法的實(shí)現(xiàn),基本數(shù)據(jù)結(jié)構(gòu)的研究,Sketch,方法(基于散列的技術(shù)),指數(shù)直方圖(,exponential histogram,EH,)方法,抽樣方法,頻繁項(xiàng),/,頻繁項(xiàng)集挖掘,Sticky sampling/,lossy,counting,帶刪除的頻繁項(xiàng)集挖掘,Counting B
9、loom filter,方法,考慮,false positive,的方法,12/11/2024,13,數(shù)據(jù)庫研究進(jìn)展*周傲英,流數(shù)據(jù)管理和挖掘,主要技術(shù)(,3,),流數(shù)據(jù)聚類,增量式的傳統(tǒng)聚類算法,基于,K-means,的方法(,Fayyad et al./,Guha,et al.,),考慮聚類變化的方法:金字塔技術(shù)(,Han et al.,),流數(shù)據(jù)分類,傳統(tǒng)的增量式的決策樹分類,Heoffding,tree,和基于它的,VFDT,(,Gibbons et al.,),可調(diào)整的,VFDT,:,CVFDT,(,Gibbons et al.,),使用整合技術(shù)(,emsemble,)的技術(shù)(,Ha
10、n et al.,),12/11/2024,14,數(shù)據(jù)庫研究進(jìn)展*周傲英,流數(shù)據(jù)管理和挖掘,主要技術(shù)(,4,),其它相關(guān)技術(shù),時(shí)序(,time series,)分析,時(shí)序模式(,sequential pattern,)挖掘,時(shí)序預(yù)測,最近鄰查詢(,Muthukrishnan,et al.,),變化(,change,)分析(,Gehrke,et al.,),跳變(,burst,)分析(,Shasha,et al.,Kleinberg,),相關(guān)性分析(,Shasha,et al.,),12/11/2024,15,數(shù)據(jù)庫研究進(jìn)展*周傲英,提綱,當(dāng)前數(shù)據(jù)庫研究重點(diǎn)的變化,三個(gè)重要的數(shù)據(jù)庫研究問題,對(duì)等
11、計(jì)算環(huán)境下的數(shù)據(jù)管理,流數(shù)據(jù)管理和挖掘,XML,數(shù)據(jù)管理和,Web,服務(wù),我們正在進(jìn)行的工作,12/11/2024,16,數(shù)據(jù)庫研究進(jìn)展*周傲英,XML,數(shù)據(jù)管理和,Web,服務(wù),應(yīng)用背景,Web,服務(wù)本身是一類非常重要的應(yīng)用,XML,還在如下領(lǐng)域中有著重要的應(yīng)用,數(shù)據(jù)表示和數(shù)據(jù)交換,元數(shù)據(jù)管理,XML,內(nèi)容路由,12/11/2024,17,數(shù)據(jù)庫研究進(jìn)展*周傲英,XML,數(shù)據(jù)管理和,Web,服務(wù),主要技術(shù),XML,數(shù)據(jù)管理,XML,數(shù)據(jù)存儲(chǔ),XML,數(shù)據(jù)索引,XML,數(shù)據(jù)變換,XML,數(shù)據(jù)壓縮,XML,數(shù)據(jù)更新,XML,流數(shù)據(jù)處理,XML,數(shù)據(jù)的模式和查詢的語義,Web,服務(wù),Web,服務(wù)架
12、構(gòu)的設(shè)計(jì),分布式的、,P2P,的,UDDI,目錄設(shè)計(jì),分布式的和,P2P,的服務(wù)使用,Web,服務(wù)和對(duì)等計(jì)算技術(shù)、網(wǎng)格技術(shù)的結(jié)合,12/11/2024,18,數(shù)據(jù)庫研究進(jìn)展*周傲英,提綱,當(dāng)前數(shù)據(jù)庫研究重點(diǎn)的變化,三個(gè)重要的數(shù)據(jù)庫研究問題:它們的結(jié)合,對(duì)等計(jì)算環(huán)境下的數(shù)據(jù)管理,流數(shù)據(jù)管理和挖掘,XML,數(shù)據(jù)管理和,Web,服務(wù),我們正在進(jìn)行的工作,12/11/2024,19,數(shù)據(jù)庫研究進(jìn)展*周傲英,當(dāng),流數(shù)據(jù),碰到,對(duì)等計(jì)算,(,1,),傳感器網(wǎng)絡(luò),挑戰(zhàn),通訊能力和能源限制,計(jì)算能力的限制,海量(多)數(shù)據(jù)流,動(dòng)態(tài)的傳感器和網(wǎng)絡(luò)環(huán)境,當(dāng)前的,將來的,(MEMS),Mote,(Berkeley),
13、Cricket,(MIT),SmartLocus,(HP-Labs),Mantis,(UC Boulder),Smart Dust,(Berkeley),12/11/2024,20,數(shù)據(jù)庫研究進(jìn)展*周傲英,當(dāng),流數(shù)據(jù),碰到,對(duì)等計(jì)算,(,2,),傳感器網(wǎng)絡(luò)(續(xù)),相關(guān)的研究項(xiàng)目,TinyOS/TinyDB,:U.C.Berkeley,Cougar:Cornell,Quasar:UCI,LECS:UCLA,相關(guān)技術(shù),即興(,ad hoc,)網(wǎng)絡(luò)和無線網(wǎng)絡(luò)中的數(shù)據(jù)路由,動(dòng)力相關(guān)(,power-awareness,)的計(jì)算和優(yōu)化,網(wǎng)絡(luò)中的查詢處理技術(shù),聚集(,aggregation,)操作,查詢語言
14、設(shè)計(jì),查詢優(yōu)化,12/11/2024,21,數(shù)據(jù)庫研究進(jìn)展*周傲英,當(dāng),流數(shù)據(jù),碰到,對(duì)等計(jì)算,(,3,),內(nèi)容路由,節(jié)點(diǎn):根路由器(,root router,)、客戶機(jī)(,client,)、路由器(,router,),數(shù)據(jù):,XML,包,XML,流,主要技術(shù),基于網(wǎng)孔(,mesh,)的重疊網(wǎng)絡(luò)(,overlay network,)構(gòu)造,XML,包的視圖選擇(,U.Washington,),XML,數(shù)據(jù)過濾,12/11/2024,22,數(shù)據(jù)庫研究進(jìn)展*周傲英,當(dāng),XML,遇到,流數(shù)據(jù),XML,內(nèi)容路由,XML,數(shù)據(jù)過濾,基于自動(dòng)機(jī)的方法,XFilter,YFilter,基于索引的方法,基于,B
15、loom filter,的方法,XML,包的視圖選擇,脫機(jī)(,offline,)視圖選擇,聯(lián)機(jī)(,online,)視圖選擇(,open problem,),12/11/2024,23,數(shù)據(jù)庫研究進(jìn)展*周傲英,提綱,當(dāng)前數(shù)據(jù)庫研究重點(diǎn)的變化,三個(gè)重要的數(shù)據(jù)庫研究問題,對(duì)等計(jì)算環(huán)境下的數(shù)據(jù)管理,流數(shù)據(jù)管理和挖掘,XML,數(shù)據(jù)管理和,Web,服務(wù),我們正在進(jìn)行的工作,12/11/2024,24,數(shù)據(jù)庫研究進(jìn)展*周傲英,我們的工作,(,1,),P2P,數(shù)據(jù)管理,P2P,數(shù)據(jù)管理的基本問題,資源定位和路由:,small-world search,CCGrid2003,重疊網(wǎng)絡(luò)的構(gòu)建和協(xié)議:,C,2,GC
16、C2003,P2P,環(huán)境下的信息檢索和查詢,基于關(guān)鍵詞的檢索,WISE2002,SQL,查詢處理:,PeerDB,ICDE2003,PeerView,元數(shù)據(jù)管理:,Coordinator Overlay Network(CON),緩存和復(fù)本的管理和維護(hù):,CC-Buddy,WWW2004 Poster,DEXA2004,基于對(duì)等計(jì)算技術(shù)的虛擬研究平臺(tái)的開發(fā),12/11/2024,25,數(shù)據(jù)庫研究進(jìn)展*周傲英,我們的工作,(,2,),流數(shù)據(jù)管理和挖掘,頻繁項(xiàng),/,項(xiàng)集挖掘,基于,count Bloom filter,的方法,CIKM2003,考慮,false positive,的方法,VLDB2004,密度估計(jì),DASFAA2003,流數(shù)據(jù)的聚類和分類,流數(shù)據(jù)上的跳變(,burst,)分析,流數(shù)據(jù)分析工具集(,toolkit,)的開發(fā),12/11/2024,26,數(shù)據(jù)庫研究進(jìn)展*周傲英,我們的工作,(,3,),XML,數(shù)據(jù)管理和,Web,服務(wù),XML,數(shù)據(jù)存儲(chǔ)和查詢,VXMLR,WWW Journal,XML DB Benchmark,ICDE2003,with HKUST/CUHK/N