雷運(yùn)發(fā)第3章音頻信息處理.ppt

上傳人：za****8

文檔編號(hào)：3259842

上傳時(shí)間：2019-12-10

格式：PPT

頁數(shù)：80

大?。?13.06KB

《雷運(yùn)發(fā)第3章音頻信息處理.ppt》由會(huì)員分享，可在線閱讀，更多相關(guān)《雷運(yùn)發(fā)第3章音頻信息處理.ppt（80頁珍藏版）》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。

第3章音頻信息處理,學(xué)習(xí)目標(biāo)l了解聲音信號(hào)的特點(diǎn)、存儲(chǔ)格式及質(zhì)量的度量方法l理解音頻信號(hào)壓縮方法及音頻編碼標(biāo)準(zhǔn)l掌握常用的音頻處理軟件對(duì)聲音信號(hào)進(jìn)行處理l了解語音識(shí)別技術(shù)及其應(yīng)用,,3.1音頻信息處理基礎(chǔ),,音頻信息在多媒體中的應(yīng)用極為廣泛：視頻圖像配以娓娓動(dòng)聽的音樂和語音；靜態(tài)或動(dòng)態(tài)圖像配以解說和背景音樂；立體聲音樂可增加空間感；游戲中的音響效果等。音頻處理技術(shù)主要包括電聲轉(zhuǎn)換、音頻信號(hào)的存儲(chǔ)、重放技術(shù)、加工處理技術(shù)以及數(shù)字化音頻信號(hào)的編碼、壓縮、傳輸、存取、糾錯(cuò)等。,3.1.1音頻信號(hào)的特點(diǎn),1.音頻信號(hào)的分類音頻信號(hào)可分為兩類：語音信號(hào)和非語音信號(hào)。語音是語言的物質(zhì)載體，是社會(huì)交際工具的符號(hào),它包含了豐富的語言內(nèi)涵，是人類進(jìn)行信息交流所特有的形式。非語音信號(hào)主要包括音樂和自然界存在的其他聲音形式。非語音信號(hào)的特點(diǎn)是不具有復(fù)雜的語義和語法信息，信息量低、識(shí)別簡(jiǎn)單。,規(guī)則音頻是一種連續(xù)變化的模擬信號(hào),可用一條連續(xù)的曲線來表示，稱為聲波。因聲波是在時(shí)間和幅度上都連續(xù)變化的量，我們稱之為模擬量。,用聲音錄制軟件記錄的英文單詞“Hello”的語音實(shí)際波形,2.模擬音頻信號(hào)的兩個(gè)重要參數(shù),模擬音頻信號(hào)有兩個(gè)重要參數(shù)：頻率和幅度。聲音的頻率體現(xiàn)音調(diào)的高低，聲波幅度的大小體現(xiàn)聲音的強(qiáng)弱。一個(gè)聲源每秒鐘可產(chǎn)生成百上千個(gè)波，我們把每秒鐘波峰所發(fā)生的數(shù)目稱之為信號(hào)的頻率，單位用赫茲(Hz)或千赫茲(kHz)表示。信號(hào)的幅度是從信號(hào)的基線到當(dāng)前波峰的距離。幅度決定了信號(hào)音量的強(qiáng)弱程度。幅度越大，聲音越強(qiáng)。對(duì)音頻信號(hào)，聲音的強(qiáng)度用分貝(dB)表示，分貝的幅度就是音量。,3.聲音的A/D與D/A轉(zhuǎn)換,A/D轉(zhuǎn)換就是把模擬信號(hào)轉(zhuǎn)換成數(shù)字信號(hào)的過程，模擬電信號(hào)變?yōu)榱擞伞?”和“1”組成的Bit信號(hào)。這樣做的好處是顯而易見的，聲音存儲(chǔ)質(zhì)量得到了加強(qiáng)，數(shù)字化的聲音信息使計(jì)算機(jī)能夠進(jìn)行識(shí)別、處理和壓縮。A/D轉(zhuǎn)換的一個(gè)關(guān)鍵步驟是聲音的采樣和量化，得到數(shù)字音頻信號(hào)，它在時(shí)間上是不連續(xù)的離散信號(hào)。借助于A/D或D/A轉(zhuǎn)換器，模擬信號(hào)和數(shù)字信號(hào)可以互相轉(zhuǎn)換。,4.聲音的三要素,1）音調(diào)：代表了聲音的高低。音調(diào)與頻率有關(guān)，頻率越高，音調(diào)越高，反之亦然。讀者也許有這樣的經(jīng)驗(yàn)，當(dāng)提高磁帶錄音機(jī)的轉(zhuǎn)速時(shí)，其旋轉(zhuǎn)加快，聲音信號(hào)的頻率提高，其喇叭放出來聲音的音調(diào)提高了。同樣，在使用音頻處理軟件對(duì)聲音的頻率進(jìn)行調(diào)整時(shí)，也可明顯感到音調(diào)隨之而產(chǎn)生的變化。各種不同的聲源具有自己特定的音調(diào)，如果改變了某種聲源的音調(diào)，則聲音會(huì)發(fā)生質(zhì)的轉(zhuǎn)變，使人們無法辨別聲源本來的面目。,2）音色：即特色的聲音。聲音分純音和復(fù)音兩種類型。所謂純音，是指振幅和周期均為常數(shù)的聲音；復(fù)音則是具有不同頻率和不同振幅的混合聲音。大自然中的聲音絕大部分是復(fù)音。在復(fù)音中，最低頻率的聲音是“基音”，它是聲音的基調(diào)。其他頻率的聲音稱為“諧音”，也叫泛音。基音和諧音是構(gòu)成聲音音色的重要因素。各種聲源都具有自己獨(dú)特的音色，例如各種樂器的聲音、每個(gè)人的聲音、各種生物的聲音等，人們就是依據(jù)音色來辨別聲源種類的。,3）音強(qiáng)：聲音的強(qiáng)度，也被稱為聲音的響度，常說的“音量”也是指音強(qiáng)。音強(qiáng)與聲波的振幅成正比，振幅越大，強(qiáng)度越大。唱盤、CD激光盤以及其他形式聲音載體中的聲音強(qiáng)度是一定的，通過播放設(shè)備的音量控制，可改變聆聽時(shí)的響度。,聲音的頻譜有線性頻譜和連續(xù)頻譜之分。線性頻譜是具有周期性的單一頻率聲波；連續(xù)頻譜是具有非周期性的帶有一定頻帶所有頻率分量的聲波。純粹的單一頻率的聲波只能在專門的設(shè)備中創(chuàng)造出來，聲音效果單調(diào)而乏味。自然界中的聲音幾乎全部屬于非周期性聲波，該聲波具有廣泛的頻率分量，聽起來聲音飽滿、音色多樣且具有生氣。,5.聲音的頻譜,3.1.2模擬音頻的數(shù)字化過程,數(shù)字化的聲音易于用計(jì)算機(jī)軟件處理，現(xiàn)在幾乎所有的專業(yè)化聲音錄制、編輯器都是數(shù)字方式。對(duì)模擬音頻數(shù)字化過程涉及到音頻的采樣、量化和編碼。采樣和量化的過程可由A/D轉(zhuǎn)換器實(shí)現(xiàn)。A/D轉(zhuǎn)換器以固定的頻率去采樣，即每個(gè)周期測(cè)量和量化信號(hào)一次。經(jīng)采樣和量化后聲音信號(hào)經(jīng)編碼后就成為數(shù)字音頻信號(hào)，可以將其以文件形式保存在計(jì)算機(jī)的存儲(chǔ)介質(zhì)中，這樣的文件一般稱為數(shù)字聲波文件。,信息論的奠基者香農(nóng)（Shannon）指出：在一定條件下，用離散的序列可以完全代表一個(gè)連續(xù)函數(shù)，這是采樣定理的基本內(nèi)容。為實(shí)現(xiàn)A/D轉(zhuǎn)換，需要把模擬音頻信號(hào)波形進(jìn)行分割，這種方法稱為采樣(Sampling)。采樣的過程是每隔一個(gè)時(shí)間間隔在模擬聲音的波形上取一個(gè)幅度值，把時(shí)間上的連續(xù)信號(hào)變成時(shí)間上的離散信號(hào)。該時(shí)間間隔稱為采樣周期，其倒數(shù)為采樣頻率。采樣頻率是指計(jì)算機(jī)每秒鐘采集多少個(gè)聲音樣本。,1.采樣,采樣頻率與聲音頻率之間有一定的關(guān)系，根據(jù)奈奎斯特（Nyquist）理論，只有采樣頻率高于聲音信號(hào)最高頻率的兩倍時(shí)，才能把數(shù)字信號(hào)表示的聲音還原成為原來的聲音。,采樣只解決了音頻波形信號(hào)在時(shí)間坐標(biāo)(即橫軸)上把一個(gè)波形切成若干個(gè)等分的數(shù)字化問題，但是還需要用某種數(shù)字化的方法來反映某一瞬間聲波幅度的電壓值大小。該值的大小影響音量的高低。我們把對(duì)聲波波形幅度的數(shù)字化表示稱之為“量化”。量化的過程是先將采樣后的信號(hào)按整個(gè)聲波的幅度劃分成有限個(gè)區(qū)段的集合，把落入某個(gè)區(qū)段內(nèi)的樣值歸為一類，并賦于相同的量化值。如何分割采樣信號(hào)的幅度呢?我們還是采取二進(jìn)制的方式，以８位(bit)或16位(bit)的方式來劃分縱軸。也就是說在一個(gè)以8位為記錄模式的音效中，其縱軸將會(huì)被劃分為個(gè)量化等級(jí)，用以記錄其幅度大小。,2.量化,,以下圖所示的原始模擬波形為例進(jìn)行采樣和量化。假設(shè)采樣頻率為1000次/秒，即每1/1000秒A/D轉(zhuǎn)換器采樣一次，其幅度被劃分成0到9共10個(gè)量化等級(jí)，并將其采樣的幅度值取最接近0~9之間的一個(gè)數(shù)來表示，如下圖所示。圖中每個(gè)正方形表示一次采樣。,D/A轉(zhuǎn)換器從上圖得到的數(shù)值中重構(gòu)原來信號(hào)時(shí)，得到下圖中藍(lán)色(直線段)線段所示的波形。從圖中可以看出，藍(lán)色線與原波形(紅色線)相比，其波形的細(xì)節(jié)部分丟失了很多。這意味著重構(gòu)后的信號(hào)波形有較大的失真。,失真在采樣過程中是不可避免的，如何減少失真呢？可以直觀地看出，我們可以把上圖中的波形劃分成更為細(xì)小的區(qū)間，即采用更高的采樣頻率。同時(shí)，增加量化精度，以得到更高的量化等級(jí)，即可減少失真的程度。在下圖（左）中，采樣率和量化等級(jí)均提高了一倍，分別為2000次/秒和20個(gè)量化等級(jí)。在下圖（右）中，采樣率和量化等級(jí)再提高了一倍，分別達(dá)到4000次/秒和40個(gè)量化等級(jí)。從圖中可以看出，當(dāng)用D/A轉(zhuǎn)換器重構(gòu)原來信號(hào)時(shí)（圖中的輪廓線），信號(hào)的失真明顯減少，信號(hào)質(zhì)量得到了提高。,3.編碼模擬信號(hào)量經(jīng)過采樣和量化以后，形成一系列的離散信號(hào)——脈沖數(shù)字信號(hào)。這種脈沖數(shù)字信號(hào)可以一定的方式進(jìn)行編碼，形成計(jì)算機(jī)內(nèi)部運(yùn)行的數(shù)據(jù)。所謂編碼，就是按照一定的格式把經(jīng)過采樣和量化得到的離散數(shù)據(jù)記錄下來，并在有用的數(shù)據(jù)中加入一些用于糾錯(cuò)、同步和控制的數(shù)據(jù)。在數(shù)據(jù)回放時(shí)，可以根據(jù)所記錄的糾錯(cuò)數(shù)據(jù)判別讀出的聲音數(shù)據(jù)是否有錯(cuò)，如在一定范圍內(nèi)有錯(cuò)，可加以糾正。編碼的形式比較多，常用的編碼方式是PCM——脈沖調(diào)制。脈沖編碼調(diào)制（PCM）是把模擬信號(hào)變換為數(shù)字信號(hào)的一種調(diào)制方式，即把連續(xù)輸入的模擬信號(hào)變換為在時(shí)域和振幅上都離散的量，然后將其轉(zhuǎn)化為代碼形式傳輸或存儲(chǔ)。,3.1.3數(shù)字音頻的文件格式在多媒體技術(shù)中，存儲(chǔ)音頻信息的文件格式主要有：WAV文件、VOC文件和MP3文件等。1.WAV文件WAV文件又稱波形文件，來源于對(duì)聲音模擬波形的采樣，并以不同的量化位數(shù)把這些采樣點(diǎn)的值輪換成二進(jìn)制數(shù)，然后存入磁盤，這就產(chǎn)生了波形文件。WAV文件用于保存Windows平臺(tái)的音頻信息資源，被Windows平臺(tái)及其應(yīng)用程序所廣泛支持。,WAV聲音文件是使用RIFF（ResourceInterchangeFileFormat資源交換文件）的格式描述的，它由文件頭和波形音頻文件數(shù)據(jù)塊組成。文件頭包括標(biāo)志符、語音特征值、聲道特征以及PCM格式類型標(biāo)志等。WAV數(shù)據(jù)塊是由數(shù)據(jù)子塊標(biāo)記、數(shù)據(jù)子塊長度和波形音頻數(shù)據(jù)3個(gè)數(shù)據(jù)子塊組成。Wave格式支持多種壓縮算法，支持多種音頻位數(shù)、采樣頻率和聲道，是PC機(jī)上最為流行的聲音文件格式，但其文件尺寸較大，多用于存儲(chǔ)簡(jiǎn)短的聲音片斷。,未壓縮的聲音文件的存儲(chǔ)量可用下式計(jì)算：存儲(chǔ)量（KB）=（采樣頻率KHZ采樣位數(shù)bit聲道數(shù)時(shí)間秒）/8,2.VOC文件VOC文件是Creative公司所使用的標(biāo)準(zhǔn)音頻文件格式，多用于保存CreativeSoundBlaster(創(chuàng)新聲霸)系列聲卡所采集的聲音數(shù)據(jù)，被Windows平臺(tái)和DOS平臺(tái)所支持。與WAV格式類似，VOC文件由文件頭塊和音頻數(shù)據(jù)塊組成。文件頭包含一個(gè)標(biāo)識(shí)、版本號(hào)和一個(gè)指向數(shù)據(jù)塊起始地址的指針，這個(gè)指針幫助數(shù)據(jù)塊定位以便順利找到第一個(gè)數(shù)據(jù)塊。數(shù)據(jù)塊分成各種類型的子塊，如聲音數(shù)據(jù)、靜音、標(biāo)記、ASCII碼文件、重復(fù)、重復(fù)的結(jié)束及終止標(biāo)記等。,3.MPEG音頻文件——.MP1/.MP2/.MP3這里的音頻文件格式指的是MPEG標(biāo)準(zhǔn)中的音頻部分，即MPEG音頻層(MPEGAudioLayer)。MPEG音頻文件的壓縮是一種有損壓縮，根據(jù)壓縮質(zhì)量和編碼復(fù)雜程度的不同可分為三層(MPEGAudioLayer1/2/3)，分別對(duì)應(yīng)MP1、MP2和MP3這三種聲音文件；MPEG音頻編碼具有很高的壓縮率，MP1和MP2的壓縮率分別為4∶1和6∶1～8∶1，而MP3的壓縮率則高達(dá)10∶1～12∶1，也就是說一分鐘CD音質(zhì)的音樂，未經(jīng)壓縮需要10MB存儲(chǔ)空間，而經(jīng)過MP3壓縮編碼后只有1MB左右，同時(shí)其音質(zhì)基本保持不失真。,4.RealAudio文件——.RA/.RM/.RAMRealAudio文件是RealNetworks公司開發(fā)的一種新型流式音頻(StreamingAudio)文件格式；它包含在RealNetworks所制定的音頻、視頻壓縮規(guī)范RealMedia中，主要用于在低速率的廣域網(wǎng)上實(shí)時(shí)傳輸音頻信息；網(wǎng)絡(luò)連接速率不同，客戶端所獲得的聲音質(zhì)量也不盡相同：對(duì)于28.8kb/s的連接，可以達(dá)到廣播級(jí)的聲音質(zhì)量；如果擁有ISDN或更快的線路連接，則可獲得CD音質(zhì)的聲音。,5.AIFF文件——.AIF/.AIFFAIFF是音頻交換文件格式(AudioInterchangeFileFormat)的英文縮寫，是蘋果計(jì)算機(jī)公司開發(fā)的一種聲音文件格式；被Macintosh平臺(tái)及其應(yīng)用程序所支持，其他專業(yè)音頻軟件包也同樣支持這種格式。,3.1.4聲音質(zhì)量的評(píng)價(jià),目前有三種方法可以衡量聲音的質(zhì)量。一是用聲音信號(hào)的帶寬來衡量聲音的質(zhì)量，等級(jí)由高到低依次是DAT，CD，F(xiàn)M，AM和數(shù)字電話。此外，聲音質(zhì)量的度量還有兩種基本的方法：一種是客觀質(zhì)量度量，另一種是主觀質(zhì)量度量。評(píng)價(jià)語音質(zhì)量時(shí)，有時(shí)同時(shí)采取兩種方法評(píng)估，有時(shí)以主觀質(zhì)量度量為主。1．以聲音的帶寬衡量聲音的質(zhì)量,2、聲音客觀質(zhì)量的度量聲音客觀質(zhì)量的度量主要用信噪比(signaltonioseratio，SNR)來度量。它指音源產(chǎn)生最大不失真聲音信號(hào)強(qiáng)度與同時(shí)發(fā)出噪音強(qiáng)度之間的比率，通常以S/N表示。一般用分貝（dB）為單位，信噪比越高表示音頻質(zhì)量越好。信噪比(SNR)用下式計(jì)算：SNR＝10log[(Vsignal)2/(Vnoise)2]＝20log(Vsignal/Vnoise)其中，Vsignal表示信號(hào)電壓，Vnoise表示噪聲電壓；SNR的單位為分貝(db)。,3、聲音主觀質(zhì)量的度量與用SNR客觀質(zhì)量度量相比較，應(yīng)該可以說人的感覺(如聽覺、視覺等)更具有決定意義，感覺上的、主觀上的測(cè)試應(yīng)該成為評(píng)價(jià)聲音質(zhì)量和圖像質(zhì)量不可缺少的部分。而有的學(xué)者則認(rèn)為，在語音和圖像信號(hào)編碼中使用主觀質(zhì)量度量比使用客觀質(zhì)量度量更加恰當(dāng)，更有意義。可是一般來說，可靠的主觀度量值也是比較難獲得的，所獲得的值也是一個(gè)相對(duì)值。對(duì)聲音主觀質(zhì)量度量比較通用的標(biāo)準(zhǔn)是5分制：優(yōu)(Excellent)、良(Good)、中(Fair)、差(Poor)、劣(Bad)。,3.2音頻信號(hào)壓縮技術(shù),音頻信號(hào)壓縮編碼的主要依據(jù)是人耳的聽覺特性，主要有兩點(diǎn)：1.人的聽覺系統(tǒng)中存在一個(gè)聽覺閾值電平，低于這個(gè)電平的聲音信號(hào)人耳聽不到.2.人的聽覺存在屏蔽效應(yīng)。當(dāng)幾個(gè)強(qiáng)弱不同的聲音同時(shí)存在時(shí)，強(qiáng)聲使弱聲難以聽到，并且兩者之間的關(guān)系與其相對(duì)頻率的大小有關(guān).聲音編碼算法就是通過這些特性來去掉更多的冗余數(shù)據(jù)，來達(dá)到壓縮數(shù)據(jù)的目的。,3.2.1脈沖編碼調(diào)制,,1．編碼的原理它的原理框圖下圖所示,3.2.1脈沖編碼調(diào)制,,1．編碼的原理它的原理框圖下圖所示,模擬信號(hào)數(shù)字化一般有三個(gè)步驟：第一步是采樣，就是每隔一段時(shí)間間隔讀一次聲音的幅度；第二步是量化，就是把采樣得到的聲音信號(hào)幅度轉(zhuǎn)換成數(shù)字值。但那時(shí)并沒有涉及如何進(jìn)行量化。量化有好幾種方法，但可歸納成兩類：一類稱為均勻量化，另一類稱為非均勻量化。采用的量化方法不同，量化后的數(shù)據(jù)量也就不同。因此，可以說量化也是一種壓縮數(shù)據(jù)的方法；第三步是編碼，就是按一定格式記錄采樣和量化后的數(shù)據(jù)。,2．均勻量化,采用相同的“等分尺”來度量采樣得到的幅度，也稱為線性量化，如圖3-4所示。量化后的樣本值Y和原始值X的差E=Y-X稱為量化誤差或量化噪聲。,,3．非均勻量化,對(duì)輸入信號(hào)進(jìn)行量化時(shí)，大的輸入信號(hào)采用大的量化間隔，小的輸入信號(hào)采用小的量化間隔，如圖3-5所示。,,一個(gè)CD—DA采用脈沖編碼調(diào)制PCM編碼的實(shí)例,,,首先用一組脈沖采樣時(shí)鐘信號(hào)與輸入的模擬音頻信號(hào)相乘，相乘的結(jié)果即輸入信號(hào)在時(shí)間軸上的數(shù)字化。然后對(duì)采樣以后的信號(hào)幅值進(jìn)行量化。最簡(jiǎn)單的量化方法是均衡量化，這個(gè)量化的過程由量化器來完成。對(duì)經(jīng)量化器A/D變換后的信號(hào)再進(jìn)行編碼，即把量化的信號(hào)電平轉(zhuǎn)換成二進(jìn)制碼組，就得到了離散的二進(jìn)制輸出數(shù)據(jù)序列x(n)，n表示量化的時(shí)間序列，x(n)的值就是n時(shí)刻量化后的幅值，以二進(jìn)制的形式表示和記錄。,3.2.2增量調(diào)制它是一種預(yù)測(cè)編碼技術(shù)，是PCM編碼的一種變形。DM是對(duì)實(shí)際的采樣信號(hào)與預(yù)測(cè)的采樣信號(hào)之差的極性進(jìn)行編碼，將極性變成“0”和“1”這兩種可能的取值之一。如果實(shí)際的采樣信號(hào)與預(yù)測(cè)的采樣信號(hào)之差的極性為“正”，則用“1”表示；相反則用“0”表示，或者相反。,,圖3-7DM波形示意圖,從上圖中可以看到，在開始階段增量調(diào)制器的輸出不能保持跟蹤輸入信號(hào)的快速變化，這種現(xiàn)象稱為增量調(diào)制器的“斜率過載”(slopeoverload)。在輸入信號(hào)緩慢變化部分，即輸入信號(hào)與預(yù)測(cè)信號(hào)的差值接近零的區(qū)域，增量調(diào)制器的輸出出現(xiàn)隨機(jī)交變的“0”和“1”。這種現(xiàn)象稱為增量調(diào)制器的粒狀噪聲(granularnoise)，這種噪聲是不可能消除的。在輸入信號(hào)變化快的區(qū)域，斜率過載是關(guān)心的焦點(diǎn)，而在輸入信號(hào)變化慢的區(qū)域，關(guān)心的焦點(diǎn)是粒狀噪聲。,3.2.3自適應(yīng)脈沖編碼調(diào)制,是根據(jù)輸入信號(hào)幅度大小來改變量化階大小的一種波形編碼技術(shù)。這種自適應(yīng)可以是瞬時(shí)自適應(yīng)，即量化階的大小每隔幾個(gè)樣本就改變，也可以是非瞬時(shí)自適應(yīng)，即量化階的大小在較長時(shí)間才發(fā)生變化。改變量化階大小的方法有兩種：一種稱為前向自適應(yīng)，后向自適應(yīng)。前者是根據(jù)未量化的樣本值的均方根值來估算輸入信號(hào)的電平，以此來確定量化階的大小，并對(duì)其電平進(jìn)行編碼作為邊信息(sideinformation)傳送到接收端。后者是從量化器剛輸出的過去樣本中來提取量化階信息。,(a)前向自適應(yīng),,(b)后向自適應(yīng),,3.2.4差分脈沖編碼調(diào)制,是利用樣本與樣本之間存在的信息冗余度來進(jìn)行編碼的一種數(shù)據(jù)壓縮技術(shù)。差分脈沖編碼調(diào)制的思想是，根據(jù)過去的樣本去估算(estimate)下一個(gè)樣本信號(hào)的幅度大小，這個(gè)值稱為預(yù)測(cè)值，然后對(duì)實(shí)際信號(hào)值與預(yù)測(cè)值之差進(jìn)行量化編碼，從而就減少了表示每個(gè)樣本信號(hào)的位數(shù)。它與脈沖編碼調(diào)制(PCM)不同的是，PCM是直接對(duì)采樣信號(hào)進(jìn)行量化編碼，而DPCM是對(duì)實(shí)際信號(hào)值與預(yù)測(cè)值之差進(jìn)行量化編碼，存儲(chǔ)或者傳送的是差值而不是幅度絕對(duì)值。,差分脈沖編碼調(diào)制的概念示于圖3-9。圖中的差分信號(hào)d(k)是離散輸入信號(hào)s(k)和預(yù)測(cè)器輸出的估算值se(k-1)之差。注意，se(k-1)是對(duì)s(k)的預(yù)測(cè)值，,,3.2.5自適應(yīng)差分脈沖編碼調(diào)制,綜合了APCM的自適應(yīng)特性和DPCM系統(tǒng)的差分特性，是一種性能比較好的波形編碼。它的核心想法是：①利用自適應(yīng)的思想改變量化階的大小，即使用小的量化階(step-size)去編碼小的差值，使用大的量化階去編碼大的差值,②使用過去的樣本值估算下一個(gè)輸入樣本的預(yù)測(cè)值，使實(shí)際樣本值和預(yù)測(cè)值之間的差值總是最小。它的編碼簡(jiǎn)化框圖如圖3-10所示。,,3.3音頻編碼標(biāo)準(zhǔn),3.3.1CCITTG系列聲音壓縮標(biāo)準(zhǔn)CCITT和ISO先后提出了一系列有關(guān)語音數(shù)據(jù)編譯碼標(biāo)準(zhǔn),下面簡(jiǎn)要介紹幾種音頻編碼技術(shù)標(biāo)準(zhǔn)。1．電話質(zhì)量的音頻壓縮編碼技術(shù)標(biāo)準(zhǔn)信號(hào)頻率規(guī)定在300Hz～3.4kHz，采用標(biāo)準(zhǔn)的脈沖編碼調(diào)制(PCM)，當(dāng)采樣頻率為8kHz，進(jìn)行8bit量化時(shí)，所得數(shù)據(jù)速率為64kb/s，即一個(gè)數(shù)字電話。1972年CCITT為電話質(zhì)量和語音壓縮制定了PCM標(biāo)準(zhǔn)G.711，其速率為64Kb／s，使用非線性量化技術(shù)，主要用于公共電話網(wǎng)中。,2．調(diào)幅廣播質(zhì)量的音頻壓縮編碼技術(shù)標(biāo)準(zhǔn)頻率在50Hz一7kHz范圍。G.722標(biāo)準(zhǔn)是采用16kHz采樣，14bit量化，信號(hào)數(shù)據(jù)速率為224kbit／s，采用子帶編碼方法，將輸入音頻信號(hào)經(jīng)濾波器分成高子帶和低子帶兩個(gè)部分，分別進(jìn)行ADPCM編碼，再混合形成輸出碼流，224kbit／s可以被壓縮成64kbit／s，最后進(jìn)行數(shù)據(jù)插入(最高插入速率達(dá)16kbit／s)，因此利用G.722標(biāo)準(zhǔn)可以在窄帶綜合服務(wù)數(shù)據(jù)網(wǎng)N-ISDN中的一個(gè)B信道上傳送調(diào)幅廣播質(zhì)量的音頻信號(hào)。,3．高保真度立體聲音頻壓縮編碼技術(shù)標(biāo)準(zhǔn)高保真立體聲音頻信號(hào)頻率范圍是50Hz～20kHz，采用44．1kHz采樣頻率，16bit量化進(jìn)行數(shù)字化轉(zhuǎn)換，其數(shù)據(jù)速率每聲道達(dá)705kbit／s。1991年國際標(biāo)準(zhǔn)化組織ISO和CCITT開始聯(lián)合制定MPEG標(biāo)準(zhǔn)，其中ISOCDlll72-3作為“MPEG音頻”標(biāo)準(zhǔn)，成為國際上公認(rèn)的高保真立體聲音頻壓縮標(biāo)準(zhǔn)。MPEG音頻第一和第二層次編碼是將輸入音頻信號(hào)進(jìn)行采樣頻率為48kHz，44.1kHz，32kHz的采樣，經(jīng)濾波器組將其分為32個(gè)子帶，同時(shí)利用人耳屏蔽效應(yīng)，根據(jù)音頻信號(hào)的性質(zhì)計(jì)算各頻率分量的人耳屏蔽門限，選擇各子帶的量化參數(shù)，獲得高的壓縮比。MPEG第三層次是在上述處理后再引入輔助子帶，非均勻量化和熵編碼技術(shù)，再進(jìn)一步提高壓縮比。MPEG音頻壓縮技術(shù)的數(shù)據(jù)速率為每聲道32～448kbit／s，適合于CD－DA光盤應(yīng)用。,3.3.2MP3壓縮技術(shù)MP3的全名是MPEGAudioLayer-3，簡(jiǎn)單地說就是一種聲音文件的壓縮格式。ISO/MPEG音頻壓縮標(biāo)準(zhǔn)里包括了三個(gè)使用高性能音頻數(shù)據(jù)壓縮方法的感知編碼方案，按照壓縮質(zhì)量(每Bit的聲音效果)和編碼方案的復(fù)雜程度分別是Layer1、Layer2、Layer3。所有這三層的編碼采用的基本結(jié)構(gòu)是相同的。它們?cè)诓捎脗鹘y(tǒng)的頻譜分析和編碼技術(shù)的基礎(chǔ)上還應(yīng)用了子帶分析和心理聲學(xué)模型理論。也就是通過研究人耳和大腦聽覺神經(jīng)對(duì)音頻失真的敏感度，在編碼時(shí)先分析聲音文件的波形，利用濾波器找出噪音電平(NoiseLevel)，然后濾去人耳不敏感的信號(hào)，通過矩陣量化的方式將余下的數(shù)據(jù)每一位打散排列，最后編碼形成MPEG的文件。而音質(zhì)聽起來與CD相差不大。,MPEG的層次與壓縮比率,,3.3.3MP4壓縮技術(shù)MP4并不是MPEG-4或者M(jìn)PEG-1Layer4，它的出現(xiàn)是針對(duì)MP3的大眾化、無版權(quán)的一種保護(hù)格式，由美國網(wǎng)絡(luò)技術(shù)公司開發(fā)，美國唱片行業(yè)聯(lián)合會(huì)倡導(dǎo)公布的一種新的網(wǎng)絡(luò)下載和音樂播放格式。MP4使用的是MPEG-2AAC技術(shù)也就是俗稱的a2b或AAC。其中，MPEG-2是MPEG于1994年11月針對(duì)數(shù)碼電視(數(shù)碼影像)提出的。它的特點(diǎn)就是，音質(zhì)更加完美而壓縮比更加大(1:15)。MPEG-2AAC(ISO/IEC13818-7)在采樣率為8～96KHz下提供了1～48個(gè)聲道可選范圍的高質(zhì)量音頻編碼。AAC就是AdvancedAudioCoding(先進(jìn)音頻編碼)的意思，適用于從比特率在8kbit/s單聲道的電話音質(zhì)到160kbit/s多聲道的超高質(zhì)量音頻范圍內(nèi)的編碼，并且允許對(duì)多媒體進(jìn)行編碼/解碼。,AAC與MP3相比，增加了諸如對(duì)立體聲的完美再現(xiàn)、比特流效果音掃描、多媒體控制、降噪優(yōu)異等MP3沒有的特性，使得在音頻壓縮后仍能完美的再現(xiàn)CD音質(zhì)。AAC技術(shù)主要由以下三個(gè)部分組成。第一，AT&T的音頻壓縮技術(shù)專利。它可以將AAC壓縮比提高到20:1而不損失音質(zhì)。這樣，一首3分鐘的歌僅僅需要2.25MB，這在互聯(lián)網(wǎng)上的下載速度是很驚人的。第二、安全數(shù)據(jù)庫。它可以為你的AACMusic創(chuàng)建一個(gè)特定的密鑰，將此密鑰存于其數(shù)據(jù)庫中。同時(shí)，只有AAC的播放器才能播放含有這種密鑰第三、協(xié)議認(rèn)證。這個(gè)認(rèn)證包含了復(fù)制許可、允許復(fù)制副本數(shù)目、歌曲總時(shí)間、歌曲可以播放時(shí)間以及售賣許可等信息。,MP4技術(shù)的優(yōu)越性要遠(yuǎn)遠(yuǎn)高于MP3，因?yàn)樗m合多媒體技術(shù)的發(fā)展以及視聽欣賞的需求。但是，MP4是一種商品，它利用改良后的MPEG-2AAC技術(shù)并強(qiáng)加上由出版公司直接授權(quán)的知識(shí)產(chǎn)權(quán)協(xié)議作為新的標(biāo)準(zhǔn)；而MP3是一種自由音樂格式，任何人都可以自由使用。此外，MP4實(shí)際上是由音樂出版界聯(lián)合授意的官方標(biāo)準(zhǔn)；MP3則是廣為流傳的民間標(biāo)準(zhǔn)。相比之下，MP3的靈活和自由度要遠(yuǎn)遠(yuǎn)大于MP4，這使得音樂發(fā)燒友們更傾向于使用MP3。更重要的一點(diǎn)是，MP3是目前最為流行的一種音樂格式，它占據(jù)著大量的網(wǎng)絡(luò)資源，這使得MP4的推廣普及難上加難。,3.3.4樂器數(shù)字接口MIDI,產(chǎn)生MIDI樂音的方法很多，現(xiàn)在用得較多的方法有兩種：一種是頻率調(diào)制(frequencymodulation，F(xiàn)M)合成法，另一種是樂音樣本合成法，也稱為波形表(Wavetable)合成法。這兩種方法目前主要用來生成音樂。FM合成器生成樂音的工作原理主要是把幾種樂音的波形用數(shù)字來表達(dá)，并且用數(shù)字計(jì)算機(jī)而不是用模擬電子器件把它們組合起來，通過數(shù)模轉(zhuǎn)換器(digitaltoanalogconvertor，DAC)來生成樂音。但是使用FM合成法來產(chǎn)生各種逼真的樂音是相當(dāng)困難的，有些樂音幾乎不能產(chǎn)生。樂音樣本合成法就是把真實(shí)樂器發(fā)出的聲音以數(shù)字的形式記錄下來，播放時(shí)改變播放速度，從而改變音調(diào)周期，生成各種音階的音符。樂音樣本的采集相對(duì)比較直觀。,MIDI協(xié)議提供了一種標(biāo)準(zhǔn)的和有效的方法，用來把演奏信息轉(zhuǎn)換成電子數(shù)據(jù)。MIDI信息是以“MIDImessages”傳輸?shù)?，它可以被認(rèn)為是告訴音樂合成器(musicsynthesizer)如何演奏一小段音樂的一種指令，而合成器把接收到的MIDI數(shù)據(jù)轉(zhuǎn)換成聲音。國際MIDI協(xié)會(huì)(InternationalMIDIAssociation)出版的MIDI1.0規(guī)范對(duì)MIDI協(xié)議作了完整的說明。,MIDI數(shù)據(jù)流是單向異步的數(shù)據(jù)位流(bitstream)，其速率為31.25kbps，每個(gè)字節(jié)為10位(1位開始位，8位數(shù)據(jù)位和1位停止位)。MIDI樂器上的MIDI接口通常包含3種不同的MIDI連接器，用IN(輸入),OUT(輸出)和THRU(穿越)。MIDI數(shù)據(jù)流通常由MIDI控制器(MIDIcontroller)產(chǎn)生，如樂器鍵盤(musicalinstrumentkeyboard)，或者由MIDI音序器(MIDIsequencer)產(chǎn)生。MIDI控制器是當(dāng)作樂器使用的一種設(shè)備，在播放時(shí)把演奏轉(zhuǎn)換成實(shí)時(shí)的MIDI數(shù)據(jù)流，MIDI音序器是一種裝置，允許MIDI數(shù)據(jù)被捕獲、存儲(chǔ)、編輯、組合和重奏。來自MIDI控制器或者音序器的MIDI數(shù)據(jù)輸出通過該裝置的MIDIOUT連接器傳輸。,3.4常用音頻處理軟件簡(jiǎn)介,3.4.1CoolEditPro,,CoolEditPro是著名的Syntrillium公司開發(fā)的數(shù)字音頻處理軟件，其運(yùn)行環(huán)境為Windows啟動(dòng)后其界面如右圖所示。,,CoolEditPro的主要特色有：(1).支持的音頻格式十分豐富，多達(dá)十余種，還提供了對(duì)5種不同類型WAV文件的支持。(2).提供豐富的特殊效果。包括3D混響、降噪、濾波、音頻縮/放、合聲、延遲、變形、反轉(zhuǎn)、靜音等。(3).提供了強(qiáng)大的DSP（數(shù)字信號(hào)處理）能力。能夠同時(shí)處理64條音軌。支持錄音、回放、混音、音頻編輯。借助它，能夠方便地制作出自己想要的任何特殊音效，并添加到各種類型的多媒體作品中去。(4).操作界面設(shè)計(jì)簡(jiǎn)捷方便。在工具欄中，提供了56個(gè)圖形化按鈕。幾乎所有的編輯操作都能夠方便地進(jìn)行操作。,3.4.2GoldWave,GoldWave的窗口界面如圖下圖所示。,GoldWave是一款相當(dāng)不錯(cuò)的數(shù)碼錄音及編輯軟件，除了附有許多的效果處理功能外，它還能將編輯好的文件存為WAV、AU、SND、RAW和AFC等格式，而且它可以不經(jīng)由聲卡直接抽取SCSI形式的CDROM中的音樂來錄制編輯。作為Wave文件編輯處理工具，支持從MP3、MPG、AVI、ASF、MOV等文件中提取音頻進(jìn)行編輯，所以除了它強(qiáng)大的編輯功能外，用作把以上格式的音頻轉(zhuǎn)換成WAV文件也是很方便的。GoldWave同時(shí)是較新的、適合于一般進(jìn)行音頻素材采集與制作的軟件，它集音頻錄制和編輯于一體，不僅是一個(gè)錄音程序，可以很方便地制作CAI課件的背景音樂、音效、錄制CD、轉(zhuǎn)換音樂格式等，而且還具有各種復(fù)雜的音樂編輯和特效處理功能。該軟件不需要安裝，只要運(yùn)行程序文件夾中的可執(zhí)行程序即可。GoldWave小巧玲瓏，只有600K左右，可從下載。,3.4.3CakeWalk（音樂大師）,,作為一種圖形化的音樂編輯軟件，CakeWalk的主要工作界面就是各種工作窗口，我們對(duì)MIDI事件和音頻事件的所有編輯和操作都是在工作窗口中完成的。如下圖所示，音軌窗既是CakeWalk主界面的主要組成部分，也是重要的工作窗口。類似的還有鋼琴窗簾、事件列表窗、調(diào)音臺(tái)窗等，每個(gè)窗口各有所長，分別適用于不同的編輯對(duì)象和編輯特征。,1.Cakewalk的調(diào)音臺(tái)可以自動(dòng)混音，可以一邊播放樂曲，一邊記錄控制鍵（滑鍵）的調(diào)整動(dòng)作，而且多個(gè)控制鍵可以編組控制，這為制作漸強(qiáng)減弱效果提供了最為簡(jiǎn)單的操作手段。2.對(duì)于所有連續(xù)變化的數(shù)據(jù)，例如彎音、調(diào)制、控制器、鍵速和速度等，Cakewalk都提供了手工劃線的編輯方式，用鼠標(biāo)劃一條斜線或曲線便可隨意改變數(shù)值。因此，對(duì)于像彎音輪的細(xì)微變化過程、速度的自由變化等之類較難處理的數(shù)據(jù)，在Cakewalk中都變得異常簡(jiǎn)單。3.Cakewalk可以將其所有菜單操作命令賦予MIDI鍵盤，也就是說，可以用合成器的鍵盤來控制軟件的各種操作，其功能是所有音序軟件中最全面的。4.Cakewalk可以將音符的位置、控制器的變化等MIDI信息圖形化地顯示出來，因此看起來更加接近總譜。,CakewalkProAudio的一些特色功能,3.5波形音頻文件的采集與制作,3.5.1利用“錄音機(jī)”生成和編輯波形文件Windows錄音機(jī)的主要功能是錄音和放音，使用“錄音機(jī)”可以錄制、混合、播放和編輯聲音，也可以將聲音鏈接或插入到另一文檔中。其主要功能操作如下所述：（1）波形文件的錄制：確保音頻輸入設(shè)備已經(jīng)連接到計(jì)算機(jī)。錄音機(jī)常用的輸入設(shè)備是麥克風(fēng)和CD-ROM播放機(jī)。（2）波形文件的存儲(chǔ)：存儲(chǔ)的文件格式為波形（.wav）文件。（3）聲音的編輯：復(fù)制、粘貼、插入、刪除等操作。（4）音頻變換與特殊效果：更改聲音的大小、速度、回音等。,CoolEditPro是一種非常出色的聲音編輯器，其主要功能操作如下所述。（1）波形文件的錄制：錄制及錄制參數(shù)（采樣率、量化位數(shù)、單雙聲道等）的設(shè)定。（2）波形文件的存儲(chǔ)：存儲(chǔ)的文件格式（.wav、.au、.smp、.asf、.wma等）的選擇，文件格式與參數(shù)（采樣率、量化位數(shù)、單雙聲道）的變換。（3）波形文件選定范圍播放，記錄播放時(shí)間。（4）聲音的編輯：剪切、拷貝、混合粘貼、插入多軌工程、插入多軌播放列表、刪除靜音、零點(diǎn)定位、確定節(jié)拍等。（5）聲音的變換與特殊效果：降噪、擴(kuò)音、剪接、添加立體環(huán)繞、淡入淡出、3D回響等音效。,3.5.2用CoolEditPro編輯制作波形文件,3.6聲音文件格式的互換,1．選擇聲音文件格式的部分原則1）Wav文件：不僅所有的Windows的音效處理應(yīng)用程序都可以播放WAVE文件，而且常見的各種多媒體編輯制作軟件的音效播放都能直接使用WAV文件。再者，WAV格式的音質(zhì)效果也不錯(cuò)。2）MP3文件：如果通過適當(dāng)?shù)墓ぞ邅斫厝D上的數(shù)字音頻并保存為CD音質(zhì)的WAVE文件，然后進(jìn)行MPEGLayer3的壓縮編碼形成MP3文件，再用合適的解碼軟件對(duì)MP3解碼。那么可以形成一個(gè)節(jié)約大量存儲(chǔ)空間，保持CD音質(zhì)的整體解決方案。3）MIDI文件：是多媒體計(jì)算機(jī)產(chǎn)生音頻（特別是音樂）的另一種主要方式，可以滿足需要長時(shí)間音樂的場(chǎng)合。,4）SWA文件：SWA格式的音樂文件，是Authorware4.0以上版本支持的特殊音樂格式，它的容量類似于流行的MP3，也非常小。在Authorware4.0或4.0以上版本中，自帶WAV→SWA轉(zhuǎn)換器，,3.6.2轉(zhuǎn)換CD音軌,下面以比較常用的CDCopy為例來說明一下如何轉(zhuǎn)換CD音軌。CDCopy是一個(gè)常用的抓音軌工具，它對(duì)爛盤的糾錯(cuò)性能非常好，還可以把CD音軌轉(zhuǎn)換為WAV、AU、RA、YamahaVQF、AAC、MP3等多種聲音格式，而且CDCopy是一個(gè)共享軟件，我們可以從下載到它的最新版本。抓取及轉(zhuǎn)換音軌步驟分以下3步：1．選擇文件格式2．設(shè)置文件保存路徑3．轉(zhuǎn)換音軌,3.7.1語音識(shí)別的發(fā)展歷史可以將語音識(shí)別近六十年的發(fā)展歷史劃分為4個(gè)時(shí)期：（1）初始發(fā)展期（2）基礎(chǔ)突破期（3）綜合發(fā)展期（4）成熟期,3.7語音識(shí)別技術(shù)及應(yīng)用,3.7.2語音識(shí)別技術(shù),語音識(shí)別以語音為研究對(duì)象，是語音信號(hào)處理的一個(gè)重要研究方向，是模式識(shí)別的一個(gè)分支，其目的就是要讓機(jī)器具有人的聽覺功能，在人機(jī)語音通訊中“聽懂”人類口述的語言。根據(jù)不同的需求，語音識(shí)別的識(shí)別內(nèi)容可分為狹義的語音識(shí)別和說話人語音識(shí)別。,1．語音識(shí)別技術(shù)的基礎(chǔ),一個(gè)完整的語音識(shí)別系統(tǒng)可大致分為三部分：（1）語音特征提取：其目的是從語音波形中提取出隨時(shí)間變化的語音特征序列。（2）聲學(xué)模型與模式匹配（識(shí)別算法）：聲學(xué)模型通常將獲取的語音特征通過學(xué)習(xí)算法產(chǎn)生。在識(shí)別時(shí)將輸入的語音特征同聲學(xué)模型（模式）進(jìn)行匹配與比較，得到最佳的識(shí)別結(jié)果。（3）語言模型與語言處理：語言模型包括由識(shí)別語音命令構(gòu)成的語法網(wǎng)絡(luò)或由統(tǒng)計(jì)方法構(gòu)成的語言模型，語言處理可以進(jìn)行語法、語義分析。對(duì)小詞表語音識(shí)別系統(tǒng)，往往不需要語言處理部分。,聲學(xué)模型是識(shí)別系統(tǒng)的底層模型，并且是語音識(shí)別系統(tǒng)中最關(guān)鍵的一部分。聲學(xué)模型的目的是提供一種有效的方法計(jì)算語音的特征矢量序列和每個(gè)發(fā)音模板之間的距離。聲學(xué)模型的設(shè)計(jì)和語言發(fā)音特點(diǎn)密切相關(guān)。聲學(xué)模型單元大?。ㄗ职l(fā)音模型、半音節(jié)模型或音素模型）對(duì)語音訓(xùn)練數(shù)據(jù)量大小、系統(tǒng)識(shí)別率，以及靈活性有較大的影響。必須根據(jù)不同語言的特點(diǎn)、識(shí)別系統(tǒng)詞匯量的大小決定識(shí)別單元的大小。,語言模型對(duì)中、大詞匯量的語音識(shí)別系統(tǒng)特別重要。當(dāng)分類發(fā)生錯(cuò)誤時(shí)可以根據(jù)語言學(xué)模型、語法結(jié)構(gòu)、語義學(xué)進(jìn)行判斷糾正，特別是一些同音字則必須通過上下文結(jié)構(gòu)才能確定詞義。語言學(xué)理論包括語義結(jié)構(gòu)、語法規(guī)則、語言的數(shù)學(xué)描述模型等有關(guān)方面。目前比較成功的語言模型通常是采用統(tǒng)計(jì)語法的語言模型與基于規(guī)則語法結(jié)構(gòu)命令語言模型。語法結(jié)構(gòu)可以限定不同詞之間的相互連接關(guān)系，減少了識(shí)別系統(tǒng)的搜索空間，這有利于提高系統(tǒng)的識(shí)別。,2．語音識(shí)別的基本原理,,預(yù)處理包括語音信號(hào)采樣、反混疊帶通濾波、去除個(gè)體發(fā)音差異和設(shè)備、環(huán)境引起的噪聲影響等，并涉及到語音識(shí)別基元的選取和端點(diǎn)檢測(cè)問題：特征提取部分用于提取語音中反映本質(zhì)特征的聲學(xué)參數(shù)，如平均能量、平均跨零率、共振峰等；訓(xùn)練在識(shí)別之前進(jìn)行，通過讓講話者多次重復(fù)語音，從原始語音樣本中去除冗余信息，保留關(guān)鍵數(shù)據(jù)，再按照一定規(guī)則對(duì)數(shù)據(jù)加以聚類，形成模式庫；模式匹配部分是整個(gè)語音識(shí)別系統(tǒng)的核心，它是根據(jù)一定的準(zhǔn)則（如某種距離測(cè)度）以及專家知識(shí)（如構(gòu)詞規(guī)則、語法規(guī)則、語義規(guī)則等），計(jì)算輸入特征與庫存模式之間的相似度，判斷出輸入語音的語意信息。,3．處理的方法：(1)連續(xù)語音流的預(yù)處理波形硬件采樣率的確定、分幀大小與幀移策略的確定；剔除噪聲的帶通濾波、高頻預(yù)加重處理、各種變換策略；波形的自動(dòng)切分(依賴于識(shí)別基元的選擇方案)。,(2)特征參數(shù)提取識(shí)別語音的過程，實(shí)際上是對(duì)語音特征參數(shù)模式的比較和匹配的過程。語音特征參數(shù)的選取對(duì)系統(tǒng)識(shí)別結(jié)果起著重要的作用。因此，必須尋找一個(gè)既能充分表達(dá)語音特征又能彼此區(qū)別的特征參數(shù)，這是語音識(shí)別中的一個(gè)最重要基本問題。語音識(shí)別系統(tǒng)常用的特征參數(shù)有線性預(yù)測(cè)系數(shù)、倒頻譜系數(shù)、平均過零率、能量、短時(shí)頻譜、共振峰頻率及帶寬等。,（3）參數(shù)模板存儲(chǔ)。在建立識(shí)別系統(tǒng)時(shí)，首先進(jìn)行特征參數(shù)提取，然后對(duì)系統(tǒng)進(jìn)行訓(xùn)練和聚類。通過訓(xùn)練，系統(tǒng)建立并存儲(chǔ)一個(gè)該系統(tǒng)需識(shí)別字（或音節(jié)）的參數(shù)模板庫。（4）識(shí)別判決。識(shí)別時(shí)，待識(shí)語音信號(hào)經(jīng)過與訓(xùn)練時(shí)相同的特征參數(shù)提取后，與模式模板存儲(chǔ)器中的模式進(jìn)行匹配計(jì)算和比較，并根據(jù)一定的規(guī)則進(jìn)行識(shí)別判決，最后輸出識(shí)別結(jié)果。,3.7.3語音識(shí)別系統(tǒng)的類型,1．按可識(shí)別的詞匯量多少2．按照語音的輸入方式3．按發(fā)音者為特定/非特定人4．按發(fā)音者的聲紋,3.7.4語音識(shí)別的應(yīng)用,1．在信息處理領(lǐng)域的應(yīng)用（1）給計(jì)算機(jī)發(fā)送指令。（2）聽寫系統(tǒng)。（3）信息查詢。（4）網(wǎng)上交談。2．教育與商務(wù)應(yīng)用（1）語音教學(xué)軟件。（2）電話查詢。（3）電子商務(wù)。3．消費(fèi)電子產(chǎn)品應(yīng)用,第三章小結(jié),,聲音是攜帶信息的重要媒體，對(duì)音頻信息的處理是多媒體技術(shù)研究的一個(gè)重要方面。聲音種類繁多，且不同種類的聲音之間既有共性也有自身的特性。在本章的前3節(jié)主要介紹了音頻信息處理的基本知識(shí)和音頻信號(hào)壓縮及編碼等理論。在后4節(jié)中先介紹了常用音頻處理軟件及聲音文件的制作、轉(zhuǎn)換等實(shí)際應(yīng)用，最后介紹了一個(gè)目前較熱門的應(yīng)用領(lǐng)域—語音識(shí)別技術(shù)。,第3章討論題,1.聲音按其特性分為哪幾類？舉例說明。,分為規(guī)則和不規(guī)則兩類。不規(guī)則指不含任何信息的噪音；規(guī)則聲音分為語音、音樂和音效。語音是指具有語言內(nèi)涵和人類約定俗成的特殊媒體，音樂是規(guī)范的、符號(hào)化的聲音，音效是指人類熟悉的其他聲音，如雨聲、雷聲、機(jī)器轟鳴聲。,2.聲音具有哪3個(gè)要素？舉例說明。,音強(qiáng)、音調(diào)、音色。,3.聲音數(shù)字化分為哪兩個(gè)步驟？,采樣就是每隔一段時(shí)間就讀一次聲音信號(hào)的幅度，記錄下來的原始模擬聲波在某一時(shí)刻的狀態(tài)，稱之為樣本；每秒鐘抽取聲波幅度樣本的次數(shù)，稱為采樣頻率，采樣頻率的高低由奈奎斯特采樣訂立和聲音信號(hào)本身的最高頻率決定；常用的有8kHz,11.025kHz,22.05,kHz16kHz,44.1kHz,48kHz等。量化：把采樣得到的聲波幅度轉(zhuǎn)化為數(shù)字值，也就是把某一幅度范圍內(nèi)的電壓用用一個(gè)數(shù)字表示。量化位數(shù)是每個(gè)采樣點(diǎn)能夠表示的數(shù)據(jù)范圍，有8/12/16/32位。量化級(jí)的大小決定了聲音的動(dòng)態(tài)范圍，即被記錄和重放的聲音最高與最低之間的差值。量化有很多種方法，可歸納為兩類，均勻量化和非均勻量化。,4.從人機(jī)交互的角度看，音頻信號(hào)有哪些處理過程？,1.音頻獲?。ㄓ?jì)算機(jī)接收音頻信號(hào)）：語音識(shí)別和理解。2.音頻合成（計(jì)算機(jī)輸出音頻信號(hào)）：語音合成和音樂合成；3.聲音定位：包括立體聲模擬、音/視頻同步。4.人通過網(wǎng)絡(luò)與別人通信：語音采集、音頻編碼/解碼，音頻傳輸?shù)取?5.聲卡有哪些主要功能？,1.錄制、編輯和回放聲音文件；2.控制各個(gè)音源的音量，混合后再數(shù)字化；3.記錄和回放聲音文件；4.文語轉(zhuǎn)換和語音識(shí)別；5.MIDI接口和音樂合成。,6.聲卡有哪些主要技術(shù)指標(biāo)？,1.采樣率與量化位；2.FM合成與波形表；3.外圍接口；4.音頻壓縮；5.DSP芯片；6.軟件支持。,實(shí)驗(yàn)題,1、清制作一段自己的錄音文件，并配背景音樂，寫出制作步驟。2、請(qǐng)敘述用CoolEditPro取出某段錄音文件中的環(huán)境噪音的步驟。3、請(qǐng)把某段正常速度錄制的語音文件，在保持語調(diào)不變的情況下把語速降低到正常語速的70%。,

下載提示(請(qǐng)認(rèn)真閱讀)

1.請(qǐng)仔細(xì)閱讀文檔，確保文檔完整性，對(duì)于不預(yù)覽、不比對(duì)內(nèi)容而直接下載帶來的問題本站不予受理。
2.下載的文檔，不會(huì)出現(xiàn)我們的網(wǎng)址水印。
3、該文檔所得收入（下載+內(nèi)容+預(yù)覽）歸上傳者、原創(chuàng)作者；如果您是本文檔原作者，請(qǐng)點(diǎn)此認(rèn)領(lǐng)！既往收益都?xì)w您。

同意并開始全文預(yù)覽

文檔包含非法信息？點(diǎn)此舉報(bào)后獲取現(xiàn)金獎(jiǎng)勵(lì)！

文檔加載中……請(qǐng)稍候！
如果長時(shí)間未打開，您也可以點(diǎn)擊刷新試試。

下載文檔到電腦，查找使用更方便

14.9 積分

還剩頁未讀，繼續(xù)閱讀

舉報(bào)

版權(quán)申訴 word格式文檔無特別注明外均可編輯修改；預(yù)覽文檔經(jīng)過壓縮，下載后原文更清晰！ 立即下載

配套講稿：: 如PPT文件的首頁顯示word圖標(biāo)，表示該P(yáng)PT已包含配套word講稿。雙擊word圖標(biāo)可打開word文檔。
特殊限制：: 部分文檔作品中含有的國旗、國徽等圖片，僅作為作品整體效果示例展示，禁止商用。設(shè)計(jì)者僅對(duì)作品中獨(dú)創(chuàng)性部分享有著作權(quán)。
關(guān) 鍵詞：: 雷運(yùn)發(fā)第音頻信息處理

溫馨提示:
1: 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

裝配圖網(wǎng)所有資源均是用戶自行上傳分享，僅供網(wǎng)友學(xué)習(xí)交流，未經(jīng)上傳用戶書面授權(quán)，請(qǐng)勿作他用。

關(guān)于本文

本文標(biāo)題：雷運(yùn)發(fā)第3章音頻信息處理.ppt
鏈接地址：http://m.jqnhouse.com/p-3259842.html

相關(guān)資源更多

正為您匹配相似的精品文檔

相關(guān)搜索

雷運(yùn)發(fā)第 音頻 信息處理

關(guān)于我們 - 網(wǎng)站聲明 - 網(wǎng)站地圖 - 資源地圖 - 友情鏈接 - 網(wǎng)站客服 - 聯(lián)系我們

備案號(hào):蜀ICP備2024067431號(hào)-1 川公網(wǎng)安備51140202000466號(hào)

本站為文檔C2C交易模式，即用戶上傳的文檔直接被用戶下載，本站只是中間服務(wù)平臺(tái)，本站所有文檔下載所得的收益歸上傳人(含作者)所有。裝配圖網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)上載內(nèi)容本身不做任何修改或編輯。若文檔所含內(nèi)容侵犯了您的版權(quán)或隱私，請(qǐng)立即通知裝配圖網(wǎng)，我們立即給予刪除！

雷運(yùn)發(fā)第3章音頻信息處理.ppt

最新文檔