《語(yǔ)音人機(jī)交互》PPT課件.ppt

上傳人：za****8

文檔編號(hào)：12725211

上傳時(shí)間：2020-05-19

格式：PPT

頁(yè)數(shù)：30

大?。?36.06KB

《《語(yǔ)音人機(jī)交互》PPT課件.ppt》由會(huì)員分享，可在線閱讀，更多相關(guān)《《語(yǔ)音人機(jī)交互》PPT課件.ppt（30頁(yè)珍藏版）》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。

第4章人機(jī)主要交互技術(shù)(新一代人機(jī)交互技術(shù)),應(yīng)用程序,語(yǔ)音合成,,,,語(yǔ)音輸入,語(yǔ)音輸出,,,語(yǔ)音人機(jī)交互,語(yǔ)音識(shí)別,自然語(yǔ)言處理,自然語(yǔ)言生成,,,交互管理,,,,,語(yǔ)音合成,語(yǔ)音合成技術(shù)是使電腦或通信終端具有類(lèi)似于人一樣的說(shuō)話能力的一項(xiàng)技術(shù)讓機(jī)器說(shuō)話可以通過(guò)錄音/重放,或語(yǔ)音合成實(shí)現(xiàn)文語(yǔ)轉(zhuǎn)換是語(yǔ)音合成的一種應(yīng)用形式文語(yǔ)轉(zhuǎn)換是連續(xù)語(yǔ)音識(shí)別的逆過(guò)程,孤立詞/音段階段，注重音色(音質(zhì),音品)語(yǔ)音合成的最早研究始于1779年Kratzensten的研究．他用一些材料制成具有各種特殊形狀的共鳴腔，目的是研究如何用管形器官模型來(lái)模擬5個(gè)單元音A、E、I、0、U1791年，VonKempelen制成了一種能說(shuō)話的機(jī)器1939年,BELLLAB的H.Dudley應(yīng)用共振峰原理制作了第一個(gè)電子合成器VODER(VOiceDEmonstratoR).20世紀(jì)70年代,線性預(yù)測(cè)技術(shù)用于語(yǔ)音合成語(yǔ)句階段，注重韻律1980年,MIT的D.Klatt設(shè)計(jì)制造了著名的共振峰語(yǔ)音合成器1986年,E.Moulines和F.Charpentier提出了基于時(shí)域波形修改的語(yǔ)音合成算法PSOLA2000s，Unit-selection，N.Campbell&A.Black,國(guó)外語(yǔ)音合成的發(fā)展,按照人類(lèi)語(yǔ)言功能的不同層次，語(yǔ)音合成可分為三個(gè)層次：（1）從文字到語(yǔ)音的合成（Text-to-Speech)（2）從概念到語(yǔ)音的合成（Concept-to-Speech)（3）從意向到語(yǔ)音的合成（Intention-to-Speech),語(yǔ)音合成的層次,,,,文本,文本分析,輸出語(yǔ)音,語(yǔ)音合成,語(yǔ)音庫(kù),韻律分析,,,,,字典/詞庫(kù)分詞規(guī)則,,文語(yǔ)轉(zhuǎn)換系統(tǒng)組成,多音字庫(kù)兒化音庫(kù),,語(yǔ)音合成技術(shù),語(yǔ)言學(xué)處理規(guī)則,協(xié)同發(fā)音/韻律規(guī)則,,,,,語(yǔ)音合成系統(tǒng)的三個(gè)主要組成部分：文本分析模塊韻律分析模塊語(yǔ)音生成模塊,文本分析主要功能使計(jì)算機(jī)從這些文本中能夠認(rèn)識(shí)文字，從而知道要發(fā)什么音、怎么發(fā)音(聲調(diào))，并將發(fā)音的方式告訴計(jì)算機(jī)，另外還要讓計(jì)算機(jī)知道文本中，哪些是詞，哪些是短語(yǔ)、句子，發(fā)音時(shí)到哪應(yīng)該停頓，停頓多長(zhǎng)等等,文本規(guī)整,多音字處理,聲調(diào)判定,特殊聲調(diào)調(diào)整,特殊符號(hào),停頓處理,語(yǔ)音處理,自動(dòng)分詞,系統(tǒng)詞庫(kù),多音字詞庫(kù),變調(diào)規(guī)則庫(kù),特殊聲調(diào)規(guī)則,,,,,,,,,,,,文本分析的任務(wù),(1)文本規(guī)整將輸入的文本規(guī)范化。在這個(gè)過(guò)程中，要查找拼寫(xiě)錯(cuò)誤，處理縮略語(yǔ)與外文字詞等,同時(shí)分析文本中出現(xiàn)的數(shù)字、特殊字符、專(zhuān)有詞語(yǔ),并將文本中出現(xiàn)的一些不規(guī)范或無(wú)法發(fā)音的字符過(guò)濾掉。(2)詞的切分和詞法分析分析文本中詞或短語(yǔ)的邊界，確定文字的讀音，以及各種多音字的讀音方式。,文本分析的主要工作步驟,(3)語(yǔ)法和語(yǔ)義分析根據(jù)文本的結(jié)構(gòu)、組成和不同位置上出現(xiàn)的標(biāo)點(diǎn)符號(hào)，確定語(yǔ)氣的變換以及不同音的輕重方式,即語(yǔ)言學(xué)處理。確定停頓位置,長(zhǎng)短,語(yǔ)調(diào)升降,語(yǔ)法重音等(4)輸出文本分析模塊將輸入的文字轉(zhuǎn)換成計(jì)算機(jī)能夠處理的內(nèi)部參數(shù)，便于后續(xù)模塊進(jìn)一步處理并生成相應(yīng)的信息。,文本分析的主要工作步驟,文本分析的主要方法/詞的切分方法（1）基于規(guī)則的方法（2）基于統(tǒng)計(jì)的方法（3）人工神經(jīng)網(wǎng)絡(luò)的方法,基于規(guī)則(Rule-based)的方法正向最大匹配法、反向最大匹配法、逐詞遍歷法．最佳匹配法、二次掃描法等等。,基于規(guī)則方法的特點(diǎn)優(yōu)點(diǎn):結(jié)構(gòu)較為簡(jiǎn)單、直觀，易于實(shí)現(xiàn)。缺點(diǎn):需要大量的時(shí)間去總結(jié)規(guī)則，且模塊性能的好壞嚴(yán)重依賴(lài)于設(shè)計(jì)人員的經(jīng)驗(yàn)以及他們的相應(yīng)的背景知識(shí)。應(yīng)用:這些方法能夠取得較好的分析效果，直到目前，這些方法依然被廣泛的使用。,基于統(tǒng)計(jì)與人工神經(jīng)網(wǎng)絡(luò)的方法(連續(xù)語(yǔ)音識(shí)別的逆過(guò)程,語(yǔ)言模型部分)基于數(shù)據(jù)驅(qū)動(dòng)的文本分析方法具有代表性的有：二元文法法(Di—GrammarMethod)、三元文法法(Tri-GrammarMethod)、隱馬兒可夫模型法和神經(jīng)網(wǎng)絡(luò)法等等。,韻律分析任何人說(shuō)話都有韻律特征，比如漢語(yǔ)中，人說(shuō)話有語(yǔ)調(diào)、節(jié)奏、重音等變化,反映出不同的語(yǔ)氣、不同的發(fā)音長(zhǎng)短、不同的停頓方式等.韻律參數(shù)包括了能影響這些特征的聲學(xué)參數(shù)，如：基頻、音長(zhǎng)、音強(qiáng)等.為合成語(yǔ)音規(guī)劃出音段特征，如音高、音長(zhǎng)和音強(qiáng)等，使合成語(yǔ)音能正確表達(dá)語(yǔ)意，聽(tīng)起來(lái)更加自然。,韻律生成有基于規(guī)則和基于語(yǔ)料庫(kù)的數(shù)據(jù)驅(qū)動(dòng)兩種方法（1）基于規(guī)則的方法音高規(guī)則變調(diào)規(guī)則輕聲規(guī)則協(xié)同發(fā)音音長(zhǎng)規(guī)則能量規(guī)則,兩點(diǎn)說(shuō)明要求有大量的音韻學(xué)知識(shí)?；谝?guī)則的方法，仍然被認(rèn)作是行之有效的方法。目前大部分漢語(yǔ)的語(yǔ)音合成系統(tǒng)依然采用這種方法。,（2）基于數(shù)據(jù)驅(qū)動(dòng)的韻律模型(人工神經(jīng)網(wǎng)絡(luò)方法,統(tǒng)計(jì)方法)基于大規(guī)模語(yǔ)料庫(kù)的韻律建模:通過(guò)神經(jīng)網(wǎng)絡(luò)或統(tǒng)計(jì)驅(qū)動(dòng)的方法進(jìn)行韻律生成,其實(shí)現(xiàn)步驟是首先設(shè)計(jì)或收集包含大量語(yǔ)音和文本信息的數(shù)據(jù)，然后建立一個(gè)訓(xùn)練模型，用數(shù)據(jù)庫(kù)中提取出的韻律參數(shù)對(duì)模型進(jìn)行訓(xùn)練，通過(guò)訓(xùn)練而得到最終的韻律模型。,語(yǔ)音生成根據(jù)韻律建模的結(jié)果，從原始音庫(kù)中取出相應(yīng)的語(yǔ)音基元，利用特定的語(yǔ)音合成技術(shù)對(duì)語(yǔ)音基元進(jìn)行韻律特性的調(diào)整和修改，最終合成出符合要求的語(yǔ)音。,語(yǔ)音生成主要方法規(guī)則合成按韻律規(guī)則,縮減規(guī)則等,將預(yù)先存好的語(yǔ)音單元拼接起來(lái).需要對(duì)文本理解,有些復(fù)雜.參數(shù)合成（1）共振峰合成(PitchSynchronousOverLapAdd)（2）LPC（線性預(yù)測(cè)編碼）合成（3）其它如LSP和LMA合成波形拼接（1）PSOLA（基音同步疊加）合成,參數(shù)合成法早期的研究主要采用參數(shù)合成方法，它是計(jì)算發(fā)音器官的參數(shù)，從而對(duì)人的發(fā)音進(jìn)行直接模擬。如著名的Klatt的共振峰合成系統(tǒng)。后來(lái)又產(chǎn)生了基于LPC、LSP等聲學(xué)參數(shù)的合成系統(tǒng)。這些方法用來(lái)建立聲學(xué)模型的過(guò)程為：首先錄制聲音，這些聲音涵蓋了人發(fā)音過(guò)程中所有可能出現(xiàn)的讀音；提取出這些聲音的聲學(xué)參數(shù)，并整合成一個(gè)完整的音庫(kù)。在發(fā)音過(guò)程中，首先根據(jù)需要發(fā)的音，從音庫(kù)中選擇合適的聲學(xué)參數(shù)，然后根據(jù)韻律模型中得到的韻律參數(shù)，通過(guò)合成算法產(chǎn)生語(yǔ)音。參數(shù)合成方法的優(yōu)點(diǎn)，是其音庫(kù)一般較小，并且整個(gè)系統(tǒng)能適應(yīng)的韻律特征的范圍較寬，但其合成語(yǔ)音的音質(zhì)卻往往受到一定的限制。,共振峰合成音色各異的語(yǔ)音具有不同的共振峰模式，因此，以每個(gè)共振峰頻率及其帶寬作為參數(shù)，可以構(gòu)成共振峰濾波器，再用若干個(gè)這種濾波器的組合來(lái)模擬聲道的傳輸特性，對(duì)激勵(lì)源發(fā)出的信號(hào)可以調(diào)制，再經(jīng)過(guò)輻射模型就可以得到語(yǔ)音合成。,優(yōu)點(diǎn):由于它是對(duì)聲道的一種比較準(zhǔn)確的模擬，因此可以合成自然度比較高的語(yǔ)音，容易描述自然語(yǔ)言中的各種發(fā)音現(xiàn)象。缺點(diǎn):參數(shù)不好控制，從而對(duì)聲道的模擬不精確，影響合成質(zhì)量和自然度。,共振峰合成特點(diǎn),LPC參數(shù)合成本質(zhì)上是一種時(shí)間波形的編碼技術(shù)，主要要是為了降低時(shí)域信號(hào)的的傳輸速率。合成過(guò)程是一種簡(jiǎn)單的解碼和拼接過(guò)程.一種類(lèi)似/基于波形拼接的合成技術(shù)，主要從波形的直接錄制和播放得到啟發(fā)。(錄音+重放),LPC參數(shù)合成特點(diǎn)LPC參數(shù)合成的優(yōu)點(diǎn)簡(jiǎn)單直觀，而且由于波形拼接技術(shù)的合成基元是語(yǔ)音的波形數(shù)據(jù)，保存了語(yǔ)音的全部數(shù)據(jù)，因此對(duì)單個(gè)合成基元來(lái)說(shuō)自然度很高LPC參數(shù)合成的缺點(diǎn)只是簡(jiǎn)單進(jìn)行波形拼接，語(yǔ)音生硬,波形拼接法PSOLA（基音同步疊加）合成技術(shù)基音同步疊加(TD,LPC,FD),調(diào)整音長(zhǎng),音強(qiáng),音高.該技術(shù)主要著眼于通過(guò)參數(shù)對(duì)語(yǔ)音的韻律進(jìn)行控制和修改。在拼接語(yǔ)音波形片斷之前，首先根據(jù)上下文，對(duì)拼接單元的韻律特征進(jìn)行調(diào)整，使合成波形既能保持原始發(fā)音的主要音段特征，又能使拼接單元的韻律特征符合上下文的要求，從而獲取較高的清晰度和自然度。,PSOLA合成技術(shù)的優(yōu)點(diǎn)保持了傳統(tǒng)波形拼接的優(yōu)點(diǎn)，簡(jiǎn)單直觀、運(yùn)算量小，而且可以控制語(yǔ)音信號(hào)的韻律參數(shù)，合成自然。自然度比以前基于LPC方法或共振峰合成器的文語(yǔ)合成系統(tǒng)的自然度要高，并且基于PSOLA方法的合成器結(jié)構(gòu)簡(jiǎn)單易于實(shí)時(shí)實(shí)現(xiàn)，有很大的商用前景,PSOLA合成技術(shù)的缺點(diǎn)（1）它是一種基音同步的語(yǔ)音分析/合成技術(shù)，對(duì)基音周期或起始點(diǎn)的錯(cuò)誤判斷會(huì)影響合成效果；（2）它是一種波形拼接合成，拼接能夠保持平穩(wěn)過(guò)渡對(duì)合成效果影響很大，但這種問(wèn)題并沒(méi)有很到得到解決。,提高語(yǔ)音合成的自然度，達(dá)到更加流利和自然的程度。豐富合成語(yǔ)音的表現(xiàn)力，使得TTS技術(shù)可以實(shí)現(xiàn)各種音色(包括不同性別、不同年齡等)的語(yǔ)音輸出。解決中文與其它語(yǔ)種混讀問(wèn)題。實(shí)現(xiàn)多語(yǔ)種的語(yǔ)音合成，即實(shí)現(xiàn)方言、少數(shù)民族語(yǔ)言的合成技術(shù)。降低語(yǔ)音合成技術(shù)的復(fù)雜度，減少音庫(kù)容量，擴(kuò)大應(yīng)用領(lǐng)域。情感語(yǔ)音合成技術(shù)。為各行業(yè)提供TTS核心技術(shù)和解決方案，特別是CTI和嵌入式系統(tǒng),語(yǔ)音合成的未來(lái)發(fā)展方向,

下載提示(請(qǐng)認(rèn)真閱讀)

1.請(qǐng)仔細(xì)閱讀文檔，確保文檔完整性，對(duì)于不預(yù)覽、不比對(duì)內(nèi)容而直接下載帶來(lái)的問(wèn)題本站不予受理。
2.下載的文檔，不會(huì)出現(xiàn)我們的網(wǎng)址水印。
3、該文檔所得收入（下載+內(nèi)容+預(yù)覽）歸上傳者、原創(chuàng)作者；如果您是本文檔原作者，請(qǐng)點(diǎn)此認(rèn)領(lǐng)！既往收益都?xì)w您。

同意并開(kāi)始全文預(yù)覽

文檔包含非法信息？點(diǎn)此舉報(bào)后獲取現(xiàn)金獎(jiǎng)勵(lì)！

文檔加載中……請(qǐng)稍候！
如果長(zhǎng)時(shí)間未打開(kāi)，您也可以點(diǎn)擊刷新試試。

下載文檔到電腦，查找使用更方便

9.9 積分

還剩頁(yè)未讀，繼續(xù)閱讀

舉報(bào)

版權(quán)申訴 word格式文檔無(wú)特別注明外均可編輯修改；預(yù)覽文檔經(jīng)過(guò)壓縮，下載后原文更清晰！ 立即下載

配套講稿：: 如PPT文件的首頁(yè)顯示word圖標(biāo)，表示該P(yáng)PT已包含配套word講稿。雙擊word圖標(biāo)可打開(kāi)word文檔。
特殊限制：: 部分文檔作品中含有的國(guó)旗、國(guó)徽等圖片，僅作為作品整體效果示例展示，禁止商用。設(shè)計(jì)者僅對(duì)作品中獨(dú)創(chuàng)性部分享有著作權(quán)。
關(guān) 鍵詞：: 語(yǔ)音人機(jī)交互語(yǔ)音人機(jī)交互 PPT 課件

溫馨提示:
1: 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
3.本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

裝配圖網(wǎng)所有資源均是用戶(hù)自行上傳分享，僅供網(wǎng)友學(xué)習(xí)交流，未經(jīng)上傳用戶(hù)書(shū)面授權(quán)，請(qǐng)勿作他用。

關(guān)于本文

本文標(biāo)題：《語(yǔ)音人機(jī)交互》PPT課件.ppt
鏈接地址：http://m.jqnhouse.com/p-12725211.html

相關(guān)資源更多

正為您匹配相似的精品文檔

相關(guān)搜索

語(yǔ)音人機(jī)交互 語(yǔ)音 人機(jī)交互 PPT 課件

關(guān)于我們 - 網(wǎng)站聲明 - 網(wǎng)站地圖 - 資源地圖 - 友情鏈接 - 網(wǎng)站客服 - 聯(lián)系我們

備案號(hào):蜀ICP備2024067431號(hào)-1 川公網(wǎng)安備51140202000466號(hào)

本站為文檔C2C交易模式，即用戶(hù)上傳的文檔直接被用戶(hù)下載，本站只是中間服務(wù)平臺(tái)，本站所有文檔下載所得的收益歸上傳人(含作者)所有。裝配圖網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)上載內(nèi)容本身不做任何修改或編輯。若文檔所含內(nèi)容侵犯了您的版權(quán)或隱私，請(qǐng)立即通知裝配圖網(wǎng)，我們立即給予刪除！

《語(yǔ)音人機(jī)交互》PPT課件.ppt

最新文檔