信息系統(tǒng)安全第7章.ppt
《信息系統(tǒng)安全第7章.ppt》由會(huì)員分享,可在線閱讀,更多相關(guān)《信息系統(tǒng)安全第7章.ppt(42頁珍藏版)》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。
第七章人工智能與自然語言檢索 信息存儲(chǔ)與檢索 本章目錄 第一節(jié)引言第二節(jié)人工智能技術(shù)第三節(jié)智能檢索第四節(jié)自然語言檢索第五節(jié)跨語言檢索 信息存儲(chǔ)與檢索 第一節(jié)引言 人工智能技術(shù)在信息檢索領(lǐng)域的應(yīng)用 使其檢索系統(tǒng)的智能化水平得到了顯著提高 以自然語言理解技術(shù)為基礎(chǔ)的信息檢索系統(tǒng)將把信息檢索從目前基于關(guān)鍵詞層面提高到基于知識(shí)層面 對(duì)知識(shí)有一定的理解與處理能力 信息存儲(chǔ)與檢索 第二節(jié)人工智能技術(shù) 7 2 3知識(shí)發(fā)現(xiàn) 3 3 7 2 4信息抽取與知識(shí)抽取 4 信息存儲(chǔ)與檢索 7 2 1專家系統(tǒng) 一 專家系統(tǒng)的特征 1 具備某個(gè)應(yīng)用領(lǐng)域的專家級(jí)知識(shí) 2 能模擬專家的思維 3 能達(dá)到專家級(jí)的解題水平 信息存儲(chǔ)與檢索 7 2 1專家系統(tǒng) 專家系統(tǒng)與傳統(tǒng)的計(jì)算機(jī)程序的區(qū)別 1 編程思想不同專家系統(tǒng) 知識(shí)庫 推理機(jī)傳統(tǒng)程序 數(shù)據(jù) 算法 2 解釋功能不同 3 求解能力不同 4 處理對(duì)象不同 5 求解問題的方式不同 信息存儲(chǔ)與檢索 7 2 1專家系統(tǒng) 二 專家系統(tǒng)的工作原理專家系統(tǒng)的工作方式運(yùn)用知識(shí) 進(jìn)行推理專家系統(tǒng)的組成部分知識(shí)庫推理機(jī)知識(shí)獲取人機(jī)接口數(shù)據(jù)庫解釋機(jī)構(gòu) 信息存儲(chǔ)與檢索 7 2 2數(shù)據(jù)挖掘 一 數(shù)據(jù)挖掘的含義與標(biāo)準(zhǔn)數(shù)據(jù)挖掘是從大量的 不完全的 有噪聲的 模糊的 隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中 提取隱含在其中的 人們事先不知道的 但又是潛在有用的信息和知識(shí)的過程 目前 數(shù)據(jù)挖掘的標(biāo)準(zhǔn)化包括以下三個(gè)標(biāo)準(zhǔn) CRISP DM PMML OLEDBForDM 信息存儲(chǔ)與檢索 7 2 2數(shù)據(jù)挖掘 二 數(shù)據(jù)挖掘的功能自動(dòng)預(yù)測趨勢(shì)和行為 關(guān)聯(lián)分析 聚類 概念描述偏差檢測 信息存儲(chǔ)與檢索 7 2 2數(shù)據(jù)挖掘 三 數(shù)據(jù)挖掘的主要技術(shù)決策樹法 輸出結(jié)果容易理解 實(shí)用效果好 影響也較大 神經(jīng)網(wǎng)絡(luò)法 更適合用于非線性數(shù)據(jù)和含噪聲的數(shù)據(jù) 在市場數(shù)據(jù)分析和建模方面有廣泛的應(yīng)用 遺傳算法 適合于聚類分析 它簡單而且優(yōu)化的效果好 統(tǒng)計(jì)分析方法是利用統(tǒng)計(jì)學(xué) 概率論的原理對(duì)數(shù)據(jù)庫中的信息進(jìn)行統(tǒng)計(jì)分析 從而找出它們之間的關(guān)系和規(guī)律 信息存儲(chǔ)與檢索 7 2 2數(shù)據(jù)挖掘 粗集方法 適合于不精確 不確定 不完全的信息分類和知識(shí)獲取 可視化方法 是一種輔助方法 它用比較直觀的圖形圖表方式來表現(xiàn)挖掘出來的模式 大大拓寬了數(shù)據(jù)的表達(dá)和理解力 使用戶更加了解挖掘出的數(shù)據(jù) 信息存儲(chǔ)與檢索 7 2 3知識(shí)發(fā)現(xiàn) 一 知識(shí)發(fā)現(xiàn)的定義知識(shí)發(fā)現(xiàn)是從大量數(shù)據(jù)集中辨識(shí)出有效的 新穎的 潛在有用的 并可被理解的模式的高級(jí)處理過程 信息存儲(chǔ)與檢索 7 2 3知識(shí)發(fā)現(xiàn) 二 知識(shí)發(fā)現(xiàn)的過程知識(shí)發(fā)現(xiàn)過程可以歸納為三個(gè)步驟 數(shù)據(jù)準(zhǔn)備 數(shù)據(jù)挖掘 結(jié)果解釋和評(píng)價(jià) 信息存儲(chǔ)與檢索 7 2 3知識(shí)發(fā)現(xiàn) 三 知識(shí)發(fā)現(xiàn)平臺(tái)SPSS為用戶提供揭示客戶關(guān)系 預(yù)測客戶行為的解決方案 并把客戶關(guān)系管理和商業(yè)智能有機(jī)的結(jié)合在一起 建立與客戶之間的互動(dòng)關(guān)系 IntelligentMiner具有典型數(shù)據(jù)集自動(dòng)生成 關(guān)聯(lián)發(fā)現(xiàn) 序列規(guī)律發(fā)現(xiàn) 概念性分類和可視化顯示等功能 Clementine提供了一個(gè)可視化的快速建立模型的環(huán)境 它由數(shù)據(jù)獲取 探查 整理 建模和報(bào)告等部分組成 信息存儲(chǔ)與檢索 7 2 3知識(shí)發(fā)現(xiàn) MSMiner是一種多策略知識(shí)發(fā)現(xiàn)平臺(tái) 能夠提供快捷有效的數(shù)據(jù)挖掘解決方案 提供多種知識(shí)發(fā)現(xiàn)方法 SASEnterpriseMiner通過收集分析各種統(tǒng)計(jì)資料和客戶購買模式 幫助企業(yè)發(fā)現(xiàn)業(yè)務(wù)的趨勢(shì) 解釋已知的事實(shí) 預(yù)測未來的結(jié)果 并識(shí)別出完成任務(wù)所需的關(guān)鍵因素 以實(shí)現(xiàn)增加收人 降低成本的目標(biāo) 信息存儲(chǔ)與檢索 7 2 4信息抽取與知識(shí)抽取 一 信息抽取信息抽取是從一段文本中抽取信息 并將其形成結(jié)構(gòu)化 規(guī)范化的數(shù)據(jù) 信息抽取和信息檢索有本質(zhì)的區(qū)別 信息檢索的目的是根用戶的查詢請(qǐng)求從文檔庫中找出相關(guān)的文檔 用戶必須從找到的文檔中提取自己所要的信息 而信息抽取直接從文檔中取出相關(guān)信息點(diǎn) 不需要用戶對(duì)文檔做進(jìn)一步分析 這兩種技術(shù)是互補(bǔ)的 若結(jié)合起來可以為文本處理提供強(qiáng)大的工具 信息存儲(chǔ)與檢索 7 2 4信息抽取與知識(shí)抽取 二 信息抽取技術(shù)的評(píng)測指標(biāo)抽全率可粗略地看成是測量正確抽取的信息比例 而抽準(zhǔn)率用來測量抽出的信息中有多少是正確的 計(jì)算公式如下 R 抽出的正確信息點(diǎn)數(shù) 所有正確的信息點(diǎn)數(shù)P 抽出的正確信息點(diǎn)數(shù) 所有抽出的信息點(diǎn)數(shù)兩者的取值在0和1之間 通常兩者是反比關(guān)系F值評(píng)價(jià)方法 式中 是一個(gè)預(yù)設(shè)值 決定對(duì)P側(cè)重還是對(duì)R側(cè)重 通常設(shè)定為1 這樣用F這個(gè)數(shù)值就可反映系統(tǒng)的質(zhì)量 信息存儲(chǔ)與檢索 7 2 4信息抽取與知識(shí)抽取 三 知識(shí)抽取知識(shí)抽取是從現(xiàn)有的信息 尤其是非結(jié)構(gòu)化的文本 中抽取結(jié)構(gòu)化的 上下文依賴的知識(shí)的過程 知識(shí)抽取起源于傳統(tǒng)信息抽取而又有別于信息抽取 傳統(tǒng)的信息抽取并不試圖從內(nèi)容上全面地 深層次地理解文檔 而知識(shí)抽取則建立在信息抽取的基礎(chǔ)之上 使用了語義網(wǎng)技術(shù) 從知識(shí)表示和推理的角度來實(shí)現(xiàn)知識(shí)的自動(dòng) 半自動(dòng) 抽取 信息存儲(chǔ)與檢索 7 3 3智能檢索系統(tǒng)與應(yīng)用 3 第三節(jié)智能檢索 信息存儲(chǔ)與檢索 7 3 1智能檢索接口 智能檢索接口用于完成智能檢索系統(tǒng)的信息輸入輸出工作 它是系統(tǒng)和用戶交流的界面 它能理解 分析用戶的自然語言提問 并產(chǎn)生適合用戶的結(jié)果 還具有解釋功能 對(duì)自己的行為做出解釋 智能檢索接口能向用戶提供友好的界面 完成各種交互活動(dòng) 檢驗(yàn)用戶輸入和系統(tǒng)輸出的正確性 一致性 控制程序流程 對(duì)用戶輸入作出快速反應(yīng)或者控制其它設(shè)備正確有效地工作 信息存儲(chǔ)與檢索 7 3 1智能檢索接口 設(shè)計(jì)智能檢索接口應(yīng)考慮的問題9條可用性原則人機(jī)對(duì)話簡明 自然 用戶用自然語言檢索 檢索工具可以識(shí)別自然語言并作出反饋使用用戶的語言 可以跨語言檢索應(yīng)具備自學(xué)習(xí)功能 自動(dòng)識(shí)別用戶的興趣并根據(jù)用戶使用習(xí)慣自動(dòng)修正 完善用戶興趣 在搜索時(shí)根據(jù)用戶興趣進(jìn)行優(yōu)化排序 形成符合人性化要求的搜索結(jié)果 減輕用戶的記憶負(fù)擔(dān)促進(jìn)一致性的實(shí)現(xiàn)提供返回信息提供清楚的出口標(biāo)記對(duì)于用戶經(jīng)常使用的動(dòng)作提供快捷鍵 方便用戶操作提供有效的出錯(cuò)處理信息能夠防止出錯(cuò)考慮人和機(jī)器兩個(gè)方面的因素交叉樹索引和對(duì)象的分解匹配與綜合 信息存儲(chǔ)與檢索 7 3 2智能檢索技術(shù) 一 自然語言處理技術(shù)信息檢索中常常使用到的自然語言處理技術(shù)包括 1 去除禁用詞 2 分詞 如農(nóng)作物 3 取詞根 形如org Europe 4 短語識(shí)別 5 命名實(shí)體識(shí)別 6 指代消解 7 詞義消歧 8 用戶查詢的消歧 二 基于概念的語義智能檢索技術(shù)系統(tǒng)基于對(duì)概念內(nèi)涵的理解以及用戶提交的關(guān)鍵詞所表達(dá)的概念作為搜索依據(jù) 能同時(shí)對(duì)該詞的同義詞 近義詞 廣義詞 狹義詞進(jìn)行檢索 三 基于Agent的智能檢索技術(shù)基于多Agent的智能檢索體系主要包括UserAgent SpiderAgent和CollectorAgent 信息存儲(chǔ)與檢索 7 3 3智能檢索系統(tǒng)與應(yīng)用 一 智能檢索系統(tǒng)的組成和功能智能信息檢索系統(tǒng)由知識(shí)庫 文本處理和智能接口三部分組成 智能檢索系統(tǒng)一般具有以下功能 1 能理解自然語言 允許用自然語言提出各種詢問 2 具有推理能力 能根據(jù)存儲(chǔ)的事實(shí) 演繹出所需要的答案 3 系統(tǒng)擁有一定常識(shí)性知識(shí) 以補(bǔ)充學(xué)科范圍的專業(yè)知識(shí) 信息存儲(chǔ)與檢索 7 3 3智能檢索系統(tǒng)與應(yīng)用 二 幾種典型的智能信息檢索系統(tǒng)SavvySearch系統(tǒng)是一個(gè)應(yīng)用了元搜索技術(shù)的中介搜索系統(tǒng) 它采用基于經(jīng)驗(yàn)學(xué)習(xí)的優(yōu)化選擇搜索引擎方法 具有智能地選擇多個(gè)遠(yuǎn)程搜索引擎以及與其交互的能力 Excite應(yīng)用了檢索詞 智能概念提取 技術(shù) 對(duì)用戶輸入的關(guān)鍵字進(jìn)行擴(kuò)展 一些用戶個(gè)性化信息檢索系統(tǒng) 如WebWatcher ShoPBot Fab等 都是一些基于Agent的智能化的程序 主要通過學(xué)習(xí)用戶的歷史關(guān)聯(lián)信息 在線引導(dǎo)用戶檢索感興趣的信息 信息存儲(chǔ)與檢索 7 4 2基于語法分析的自然語言檢索 2 第四節(jié)自然語言檢索 7 4 3基于語義分析的自然語言檢索 3 3 7 4 4基于本體的自然語言檢索 4 信息存儲(chǔ)與檢索 7 4 1自然語言理解 一 自然語言理解的原理自然語言理解分為語音理解和書面理解兩個(gè)方面 語音理解是指用口語語音輸入 使計(jì)算機(jī) 聽懂 語音信號(hào) 用文字或語音合成輸出應(yīng)答 書面理解是指用文字輸入 使計(jì)算機(jī) 看懂 文字符號(hào) 也用文字輸出應(yīng)答 信息存儲(chǔ)與檢索 7 4 1自然語言理解 二 自然語言理解的層次 1 語音學(xué)層次 對(duì)語言聲音的識(shí)別 理解和合成 2 詞形學(xué)層次 對(duì)各種詞形和詞的可識(shí)別部分的處理 3 詞匯學(xué)層次 重點(diǎn)在于對(duì)詞操作和詞匯系統(tǒng)的控制 4 句法層次 它與語言結(jié)構(gòu)單元的鑒別有關(guān) 5 語義層次 對(duì)自然語言文本意義的識(shí)別 理解和表示 6 語用學(xué)層次 涉及上下文和語言交際環(huán)境以及背景意義和聯(lián)想意義的語義分析 信息存儲(chǔ)與檢索 7 4 1自然語言理解 三 自然語言理解在信息檢索中的應(yīng)用自然語言理解在信息檢索中的應(yīng)用可以體現(xiàn)在一個(gè)或多個(gè)語言處理層次上 既可以僅應(yīng)用于查詢 也可以同時(shí)應(yīng)用于查詢和被檢索的文本 由于語言的各個(gè)層次都包含了一定的含義 能夠傳遞一定的信息 每個(gè)層次上的自然語言理解都能對(duì)提高檢索效率有一定程度的幫助 信息存儲(chǔ)與檢索 7 4 2基于語法分析的自然語言檢索 一 基于詞法分析的自然語言檢索詞法分析方法對(duì)文本 網(wǎng)頁首先進(jìn)行詞語切分 然后通過詞頻統(tǒng)計(jì)和詞出現(xiàn)位置的判斷 在文本和網(wǎng)頁中提取主題詞和概念詞 作為索引 同樣從用戶提問中篩選出有檢索意義的一個(gè)或多個(gè)詞單元 各個(gè)單元詞之間構(gòu)建相應(yīng)的邏輯關(guān)系 基于詞法分析的方法主要包括加權(quán)統(tǒng)計(jì)法 N元法 統(tǒng)計(jì)學(xué)習(xí)方法 信息存儲(chǔ)與檢索 7 4 2基于語法分析的自然語言檢索 二 自然語言檢索中的句法分析句法分析是對(duì)句子和短語的結(jié)構(gòu)進(jìn)行分析 句法分析的方法有很多 有短語結(jié)構(gòu)語法 格語法 擴(kuò)充轉(zhuǎn)移網(wǎng)絡(luò)和功能語法等 句法處理 即根據(jù)文字的語法知識(shí) 通過對(duì)句型結(jié)構(gòu)的分析 自動(dòng)抽取復(fù)雜的標(biāo)識(shí)單元來代替由統(tǒng)計(jì)方法得到的關(guān)鍵詞進(jìn)行標(biāo)引 信息存儲(chǔ)與檢索 7 4 3基于語義分析的自然語言檢索 一 語義分析理論語義分析理論涉及到語義分析方法的語義關(guān)系類型和語義關(guān)系的形式化表示等內(nèi)容 語義關(guān)系類型是指某種標(biāo)準(zhǔn)歸納句子內(nèi)各部分之間的語義關(guān)系共性 語義關(guān)系的形式化表示是指從各種句子的具體語義中抽象概括出共同的語義關(guān)系適用的符號(hào)表示 現(xiàn)有的語義分析理論主要有 格語法 語義網(wǎng)絡(luò) 概念從屬理論和框架分析法等 信息存儲(chǔ)與檢索 7 4 3基于語義分析的自然語言檢索 二 自然語言檢索中的語義分析在自然語言檢索中 語義分析是在詞法分析和句法分析的基礎(chǔ)上進(jìn)行的 這三個(gè)分析步驟的組合方式有語義解釋方式 語義分析方式 句法語義混合方式和語義驅(qū)動(dòng)方式 詞法分析 句法分析 語義分析 詞法分析 句法分析 語義分析 詞法分析 句法分析語義分析 詞法分析句法分析語義分析 a 語義解釋 b 語義分析 c 句法語義混合 d 語義驅(qū)動(dòng) 信息存儲(chǔ)與檢索 7 4 4基于本體的自然語言檢索 一 本體在自然語言檢索中的作用本體在自然語言檢索系統(tǒng)中的作用體現(xiàn)在三個(gè)方面 改善對(duì)信息源的處理 優(yōu)化用戶界面 輔助自然語言處理過程 信息存儲(chǔ)與檢索 7 4 4基于本體的自然語言檢索 二 基于本體的自然語言檢索實(shí)現(xiàn)方法基于本體的自然語言檢索系統(tǒng)整體上由本體管理模塊 問題處理模塊 文本預(yù)處理模塊 信息檢索模塊 庫文件管理模塊組成 實(shí)現(xiàn)算法概括如下 1 在領(lǐng)域?qū)<业膸椭?建立相關(guān)領(lǐng)域的本體 2 收集信息源中的數(shù)據(jù) 并參照已建立的本體 把收集來的數(shù)據(jù)按規(guī)定的格式存儲(chǔ)在元數(shù)據(jù)庫中 3 按照本體把查詢請(qǐng)求轉(zhuǎn)換成規(guī)定的格式 從元數(shù)據(jù)庫中匹配出符合條件的數(shù)據(jù)集合 4 檢索的結(jié)果經(jīng)過定制處理后 返回給用戶 信息存儲(chǔ)與檢索 7 5 2跨語言檢索中的語言資源 2 7 5 3跨語言檢索的關(guān)鍵技術(shù) 3 3 7 5 4提問式翻譯的幾種方法 4 第五節(jié)跨語言檢索 信息存儲(chǔ)與檢索 7 5 1跨語言檢索實(shí)現(xiàn)模式 一 提問式翻譯方法在信息檢索之前 將提問式的語種轉(zhuǎn)化翻譯成所要檢索信息的信息語種 二 文獻(xiàn)翻譯方法不對(duì)提問式進(jìn)行翻譯 而是把數(shù)據(jù)庫中用目標(biāo)語言描述的文獻(xiàn)翻譯成與提問描述相一致的源語言形式 三 提問式 文獻(xiàn)翻譯方法首先將源語言提問式翻譯成目標(biāo)語言提問式 然后與目標(biāo)語言描述的信息庫進(jìn)行匹配 再把檢索結(jié)果的全部或部分翻譯成源語言描述的信息 信息存儲(chǔ)與檢索 7 5 1跨語言檢索實(shí)現(xiàn)模式 四 中間翻譯方法將源語言翻譯成中間語言 可以是一種或多種 然后再將中間語言翻譯成目標(biāo)語言 利用多種中間語言時(shí)需要合并 五 不翻譯方法不需要詞典 詞表和機(jī)器翻譯系統(tǒng) 也不存在翻譯過程中消除歧義問題 具有很高的靈活性和適應(yīng)性 信息存儲(chǔ)與檢索 7 5 1跨語言檢索實(shí)現(xiàn)模式 六 專有名詞音譯法音譯方法根據(jù)處理的方向可以區(qū)分成正向音譯與反向音譯 七 基于本體的轉(zhuǎn)換方法基于本體的模型主要分為三個(gè)部分 基于字典的翻譯模塊 基于本體的語義模塊以及單一語種的信息檢索模塊 信息存儲(chǔ)與檢索 7 5 2跨語言檢索中的語言資源 一 機(jī)器詞典與相比 具有高度的形式化 信息的確定性 規(guī)則描述的一致性等 以利于計(jì)算機(jī)快速檢索與處理 二 語料庫將同一主題的信息用多種語言進(jìn)行描述 并由人工或機(jī)器建立不同語言間的聯(lián)系 在跨語言檢索的翻譯中可以參考這些聯(lián)系信息進(jìn)行提問或文檔的翻譯 三 混合工具將上述兩種方法進(jìn)行整合的一種提問翻譯方法 信息存儲(chǔ)與檢索 7 5 3跨語言檢索的關(guān)鍵技術(shù) 一 計(jì)算機(jī)信息檢索技術(shù)在檢索的過程中加入語言處理技術(shù) 使一種語言能夠與其他語言相對(duì)應(yīng) 二 機(jī)器翻譯技術(shù)將一種語言的文本自動(dòng)翻譯成另一語言文本的計(jì)算機(jī)程序 三 歧義消解技術(shù)主要放在詞匯和短語等較低語言層次的歧義消解上 所依賴的工具主要是一些機(jī)讀化的語言資源 信息存儲(chǔ)與檢索 7 5 4提問式翻譯的幾種方法 一 提問式構(gòu)造法實(shí)質(zhì)是利用同源詞 復(fù)合詞或n元匹配分析提問式中各個(gè)詞的權(quán)重 二 提問詞再賦權(quán)方法可基于反饋技術(shù)對(duì)提問詞進(jìn)行再賦權(quán) 三 查詢擴(kuò)展技術(shù)輸入查詢請(qǐng)求后 自動(dòng)地根據(jù)用戶查詢的語義 加入新的查詢語句 ThankYou- 1.請(qǐng)仔細(xì)閱讀文檔,確保文檔完整性,對(duì)于不預(yù)覽、不比對(duì)內(nèi)容而直接下載帶來的問題本站不予受理。
- 2.下載的文檔,不會(huì)出現(xiàn)我們的網(wǎng)址水印。
- 3、該文檔所得收入(下載+內(nèi)容+預(yù)覽)歸上傳者、原創(chuàng)作者;如果您是本文檔原作者,請(qǐng)點(diǎn)此認(rèn)領(lǐng)!既往收益都?xì)w您。
下載文檔到電腦,查找使用更方便
9.9 積分
下載 |
- 配套講稿:
如PPT文件的首頁顯示word圖標(biāo),表示該P(yáng)PT已包含配套word講稿。雙擊word圖標(biāo)可打開word文檔。
- 特殊限制:
部分文檔作品中含有的國旗、國徽等圖片,僅作為作品整體效果示例展示,禁止商用。設(shè)計(jì)者僅對(duì)作品中獨(dú)創(chuàng)性部分享有著作權(quán)。
- 關(guān) 鍵 詞:
- 信息系統(tǒng)安全
鏈接地址:http://m.jqnhouse.com/p-5195402.html