《WEB使用者查詢關(guān)鍵字分析研究.ppt課件》由會(huì)員分享,可在線閱讀,更多相關(guān)《WEB使用者查詢關(guān)鍵字分析研究.ppt課件(25頁(yè)珍藏版)》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。
1、,按一下以編輯母片標(biāo)題樣式,按一下以編輯母片,第二層,第三層,第四層,第五層,*,WEB,使用者查詢關(guān)鍵字分析研究,指導(dǎo)教授:張志祥老師,組長(zhǎng):,N39307037,高廷安,組員:,N39307010,郭家榮,N39307033,高文中,N39307038,陳彥豪,WEB使用者查詢關(guān)鍵字分析研究 指導(dǎo)教授:張志祥老師組長(zhǎng):,1,大綱,1.,研究動(dòng)機(jī),6.分類、關(guān)鍵字說明,2.,研究目的,3.,研究方法,4.,轉(zhuǎn)碼示意圖,5.,使用工具,7.Google API,說明,8.,統(tǒng)計(jì)資料(,INput),9.,研究結(jié)果,10.Conclusion,大綱1.研究動(dòng)機(jī) 6.分類、關(guān)鍵字說明 2.研究目的
2、 3,2,研究動(dòng)機(jī),現(xiàn)今網(wǎng)際網(wǎng)路有如一超級(jí)資料庫(kù),擁有包羅萬象,的資訊。使用者以,關(guān)鍵字,在搜尋引擎中進(jìn)行搜尋資料,,其結(jié)果並非是理想的,可能造成的原因如:,1.,關(guān)鍵字,本身的語意造成差異。,2.使用者輸入不當(dāng)或意義不完整的,關(guān)鍵字,。,則如果使用者在執(zhí)行搜尋時(shí),能根據(jù)特定的領(lǐng)域,知識(shí)進(jìn)行搜尋,提供與搜尋目標(biāo)有關(guān)的,關(guān)鍵字,,使輸,入的,關(guān)鍵字,資料更為完整和正確,以降低這方面的搜,尋誤差。,研究動(dòng)機(jī) 現(xiàn)今網(wǎng)際網(wǎng)路有如一超級(jí)資料庫(kù),擁,3,研究目的,有鑑於,網(wǎng)路使用行為的研究,在國(guó)外已受到相當(dāng)?shù)?重視,本研究目的為藉由學(xué)校網(wǎng)路對(duì)外連結(jié)的檢索紀(jì),錄挑出大量有用的檢索詞彙,發(fā)展一套系統(tǒng)來分析全,
3、校師生使用搜尋引擎的習(xí)慣、興趣,並進(jìn)一步了解全,校師生的資訊需求及提升對(duì)網(wǎng)路搜尋方法之參考。,可,即時(shí)觀察到全校師生使用網(wǎng)路搜尋引擎的時(shí)間、興趣,的分佈與變化,,所獲得的資訊對(duì)於了解師生資訊需求,,改善網(wǎng)路搜尋系統(tǒng)檢索效益,並為未來的研究:,使用者查詢的精鍊,(User Query Refinement),,作前置的分析。,研究目的 有鑑於網(wǎng)路使用行為的研究在國(guó)外已受到相,4,研究方法,1.收集資料,:從學(xué)校,Proxy Server,上,取出每天學(xué)生上網(wǎng)的,URL Log,檔,。因?yàn)橘Y料量與上網(wǎng)學(xué)生樣本數(shù)夠多,所以具有分析的價(jià)值。,2.事前處理:,因?yàn)?URL Log,檔,為非,WIN32,
4、平臺(tái),所以在句,子結(jié)尾部分與,WIN32,平臺(tái)有所不同。為使程式可以分,句解析,所以 要進(jìn)行事前的轉(zhuǎn)置工作,將其句子結(jié)尾,部分變成,WIN32,平臺(tái)所能辨識(shí)。故使用,UltraEdit,工具,進(jìn),行轉(zhuǎn)置。,研究方法1.收集資料:從學(xué)校Proxy Server上,取,5,研究方法,3.資料處理:,1.使用,Mircosoft.NET Framework SDK1.1,內(nèi)附,URLDecode,函,式,來分解經(jīng)過事前處裡的資料。所得到的資料為,UTF-,8,編碼,的資料。,2.然後把,UTF-8,的字串變數(shù)轉(zhuǎn)成,byte,陣列,再去宣告使用,Big5,字碼,Encoder,,,把,UTF-8,之,
5、byte,陣列轉(zhuǎn)換成,Big5,之,byte,陣列【雖然兩者都是以2位元為一個(gè)單位,但其編,碼值卻不一樣,所以結(jié)果也不相同?!?4.資料分析:,使用,Google,所提供的,API,進(jìn)行網(wǎng)頁(yè)分群分析。,研究方法3.資料處理:,6,轉(zhuǎn)碼示意圖,轉(zhuǎn)碼示意圖,7,使用工具,1.,UltraEdit,(,平臺(tái)句子結(jié)尾轉(zhuǎn)置),2,.,Mircosoft.NET Framework SDK1.1(URL,解析),3.,Visual Basic6.0(,編碼轉(zhuǎn)換、資料庫(kù)寫入),4.,Access2000(,資料庫(kù)),5,.,JDK1.4.2(,資料分析呼叫,Google API),使用工具1.UltraEd
6、it(平臺(tái)句子結(jié)尾轉(zhuǎn)置),8,分類、關(guān)鍵字的說明,本研究把全校師生的,搜尋分成,16種,主要項(xiàng)目,做,為分析探討全校師生使用搜尋引擎的依據(jù)。此16個(gè)項(xiàng),目包刮:,健康、科學(xué)、購(gòu)物、電腦、遊戲、運(yùn)動(dòng)、參考、,考試類、商業(yè)、休閒、手機(jī)、藝術(shù)與娛樂、社會(huì)、新,聞、圖書文件、情色。,分類、關(guān)鍵字的說明 本研究把全校師生的搜尋分成16種,9,Google API,說明,API=Application Programming Interface,可翻譯為:編程介面,簡(jiǎn)稱,API(Application Programming Interface),,,就是軟體系統(tǒng)不同組成部分銜接的約定。,您可以把它想成一
7、座,橋樑,,一座連接您的程式與服務(wù)提供者的橋樑。您可以使用,API,存取使用該服務(wù)。,Google,推出針對(duì)開發(fā)人員使用的,Web APIs,工具,該服務(wù)可讓開發(fā)人員在有限度範(fàn)圍內(nèi)檢索,Google,內(nèi)超過20億的文件檔案,並依自己所需公布搜尋結(jié)果。,一旦註冊(cè)並下載工具組後,開發(fā)人員可執(zhí)行,1000筆,自動(dòng)搜尋。而,Google,的,API,服務(wù)室使用,WSDL,與,SOAP,標(biāo)準(zhǔn),因此不論開發(fā)人員使用哪種語言(如,Java,或微軟的,Visual Studio.Net,工具),都可連結(jié)到自己的應(yīng)用程式。,Google API說明API=Application,10,Google API,示意
8、圖,Java Google,API,Google,Web Service,HTTP/SOAP,Internet,Google API 示意圖Java GoogleGoog,11,Google API,Google Search,類別,doSearch,setKey,setQueryString,Invoke the Google search,Set the user key used for authorization by,Google SOAP server.,Set the query string for this search.,Construct a new instance o
9、f a GooaleSearch client,.,Google APIGoogle Search 類別doSe,12,Google API,getFullViewableName,getSpecialEncoding,toString,GoogleSearchDirectoryCateory,類別,Encapsulates the directory category portion of,Return the ODP directory name for,Current ODP category,Returns the encoding scheme of the,Directory in
10、formation,Returns a formatted string representation,of a Google search directory category.,Google APIgetFullViewableNameg,13,Returns an array of directory categories for this result,GoogleSearchResult,類別,Encapsulates the complete results renturned by the Google,Web APIS search call.,getDirectoryCate
11、gories,getSearchQuery,Returns the query string that generates this result.,Google API,Returns an array of directory,14,Sample Data,Total Record(include all URL),約8萬筆的可用資料,Date Range,94,年4月至8月,Sample DataTotal Record(inclu,15,字?jǐn)?shù)分析,字?jǐn)?shù)分析,16,Query String,範(fàn)例,Query String 範(fàn)例,17,詞彙分析,詞彙分析,18,Query String,範(fàn)
12、例,Query String 範(fàn)例,19,搜尋分析,搜尋分析,20,Query String,範(fàn)例,Query String範(fàn)例,21,翻頁(yè)統(tǒng)計(jì),翻頁(yè)統(tǒng)計(jì),22,個(gè)案,個(gè)案,23,研究結(jié)果,根據(jù)收集下來的資料,可做,類別分析,,,詞彙分析,,,字?jǐn)?shù)分析,,以及常用之,搜尋分析,,一方面可探討所使,用之搜尋習(xí)慣,以及常使用的搜尋的方法有哪幾種。,我們可從中發(fā)現(xiàn)學(xué)生利用學(xué)校的網(wǎng)路資源大部分的,利用在哪方面,學(xué)??蓮倪@方面來監(jiān)督學(xué)生的網(wǎng)路使用,情形,例如我們從,log,檔抓到取出的分類為情色類的網(wǎng),站,哪些不當(dāng)?shù)木W(wǎng)址也可從中控管。,研究結(jié)果 根據(jù)收集下來的資料,可做類別分析,,24,Conclusion,根據(jù)所分析之結(jié)果,可知道常使用的搜尋方法,或者可提供給網(wǎng)管參考,禁止上色情網(wǎng)站或者其他線上遊戲網(wǎng)站.,亦可了解透過學(xué)校網(wǎng)站去搜尋自己想知道的事物,會(huì)利用哪些搜尋引擎,或是會(huì)主要使用那各搜尋引擎.,在研究的過程當(dāng)中,抓到的資料有絕大部分是無法使用的。這是因?yàn)槭褂谜咴谒褜ぶ休斎氲年P(guān)鍵字無法搜尋到需要的資料,此現(xiàn)象乃因大部分的人還不了解一些搜尋的技巧。,本研究可作為,使用者查詢的精鍊,(User Query Refinement),之研究的,前置的分析。,Conclusion根據(jù)所分析之結(jié)果,可知道常使用的搜尋方法,25,