《視頻壓縮標(biāo)準(zhǔn)》由會員分享,可在線閱讀,更多相關(guān)《視頻壓縮標(biāo)準(zhǔn)(78頁珍藏版)》請在裝配圖網(wǎng)上搜索。
1、4.1 JPEG標(biāo) 準(zhǔn)4.2 H.261標(biāo) 準(zhǔn)4.3 MPEG標(biāo) 準(zhǔn) 簡 介4.4 MPEG-2 視 頻4.5 MPEG-2系 統(tǒng)4.6 MPEG-4 JPEG(Joint Photographic Experts Group)是聯(lián)合照片(靜止)圖像專家組的英文縮寫。 JPEG標(biāo)準(zhǔn)包括兩種基本壓縮方法。(1)有損壓縮方法:它是以DCT變換為基礎(chǔ)的壓縮方法,其壓縮比較高,是JPEG標(biāo)準(zhǔn)的基礎(chǔ)。(2)無損壓縮方法,又稱預(yù)測壓縮方法,是以二維DPCM為基礎(chǔ)的壓縮方式,解碼后能完全精確地恢復(fù)原圖像采樣值,其壓縮比低于有損壓縮方法。 JPEG標(biāo)準(zhǔn)還包括多種工作模式。 基于DCT的JPEG編解碼原理框圖如
2、圖4-1所示。 圖4-1 JPEG編解碼原理框圖 輸入端把原始圖像分成88像素塊(Block)之后送入DCT變換器,目的是去除圖像數(shù)據(jù)的空間冗余。利用人眼的視覺特性設(shè)計量化表。在編碼之前,需要把二維的變換系數(shù)矩陣轉(zhuǎn)換為一維序列。 為了消除碼字中的統(tǒng)計冗余,采用可變長熵編碼。具體的編碼方法如下。(1)首先對系數(shù)序列分組,把每個非零系數(shù)和它前面相鄰的全部零系數(shù)分在一組內(nèi)。 ()將每一組用兩個符號表示為 (符號1),(符號2)相應(yīng)的交流系數(shù)(AC Coefficient)組表示成 (Run ,Size),(Amplitude) (3)對每個符號組進行編碼 H.261標(biāo)準(zhǔn)主要應(yīng)用在綜合業(yè)務(wù)數(shù)字網(wǎng)ISD
3、N上傳輸電視電話會議等低碼率的多媒體領(lǐng)域。1990年12月國際電報電話咨詢委員會(CCITT)通過了H.261建議書,即“采用p64kbit/s的聲像業(yè)務(wù)的圖像編解碼”,其中p=1,2,,32。 H.261與H.263的圖像格式如表4-13所示。 表4-13 H.261與H.263的圖像格式 視頻格式亮度分辨率色度分辨率H.261 H.263 SQCIF 12896 6448支持 QCIF 176144 8872支持支持 CIF 352288 176144支持支持 4CIF 704576 352288可選 16CIF 14081152 704576可選 其中,CIF(Common Interm
4、ediate Format)為通用中間格式,QCIF (Quarter CIF)為1/4通用中間格式,SQCIF為擴展的通用中間格式,4CIF為4倍的通用中間格式,16CIF為16倍的通用中間格式。 在H.261算法中,不僅使用了JPEG算法中的幀內(nèi)壓縮,還使用了幀間預(yù)測和運動補償技術(shù)。下面簡單介紹H.261編碼算法。H.261編碼器框圖如圖4-3所示。 圖4-3 H.261編碼器框圖 MPEG(Moving Picture Experts Group)是ISO和IEC兩個國際組織的聯(lián)合技術(shù)委員會(JTCI)領(lǐng)導(dǎo)下的運動圖像專家組的英文縮寫。 MPEG專家組于1992年制定了MPEG-1標(biāo)準(zhǔn)。
5、標(biāo)準(zhǔn)的文件編號為ISO/IEC11172。MPEG-1主要包括三個部分:第一部分系統(tǒng)(ISO/IEC11172-1),是關(guān)于數(shù)字視頻、數(shù)字音頻和輔助數(shù)據(jù)等多路壓縮數(shù)據(jù)流復(fù)用和同步的規(guī)定; 第二部分視頻(ISO/IEC11172-2),是關(guān)于位速率約為1.5Mbit/s的視頻信號的壓縮編碼的規(guī)定;第三部分音頻(ISO/IEC11172-3),是關(guān)于每通道位速率為64kbit/s,128kbit/s和192kbit/s的數(shù)字音頻信號的壓縮編碼的規(guī)定。 MPEG-1標(biāo)準(zhǔn)的目標(biāo)主要包括以下幾方面:(1)在圖像和聲音的質(zhì)量上必須高于可視電話和會議電視的聲像質(zhì)量,至少應(yīng)達到VHS家用錄像機的聲像質(zhì)量;(2
6、)壓縮后的數(shù)碼率應(yīng)能存儲在光盤、數(shù)字錄音帶DAT或可寫磁光盤等媒體中; (3)壓縮后的碼率應(yīng)與目前的計算機網(wǎng)絡(luò)傳輸碼率相適配,為1.21.5Mbit/s;(4)在通信網(wǎng)絡(luò)上能適應(yīng)多種通信網(wǎng)絡(luò)的傳輸。 MPEG-2是由ISO/IEC的MPEG專家組與ITU-T(國際電信聯(lián)盟電信標(biāo)準(zhǔn)化部門)的ATV的圖像編碼專家組共同開發(fā)的,所以MPEG-2標(biāo)準(zhǔn)也是ITU-T的建議。 MPEG-2分為許多個部分,其中主要有三個部分:第一部分系統(tǒng)(ISO/IEC13818-1),是關(guān)于多路音頻、視頻和數(shù)據(jù)的復(fù)用和同步的規(guī)定;第二部分視頻(ISO/IEC13818-2),主要涉及各種比特率的數(shù)字視頻壓縮編解碼的規(guī)定;
7、 第三部分音頻(ISO/IEC13818-3),擴充了MPEG-1的音頻標(biāo)準(zhǔn),使之成為多通道音頻編碼系統(tǒng),可達到的環(huán)繞聲5.1聲道。MPEG-2以空間和時間可分級方法提供空間和時間不同分辨率視頻格式之間的兼容。 在許多情況下,MPEG-2表示成MPEG-1的一個超集。MPEG-2已廣泛應(yīng)用于DVD,SDTV和 HDTV中。 MPEG-2標(biāo)準(zhǔn)支持不同性能和不同復(fù)雜性的解碼器,覆蓋廣泛的應(yīng)用范圍,充分考慮了各種應(yīng)用的不同要求,有較強的通用性。MPEG-2還規(guī)定了不同的壓縮處理方法,稱為型(Profile)。 級表示MPEG-2編碼器輸入端的信源圖像格式。LL級對應(yīng)的輸入信源格式是CIF格式,約是6
8、01標(biāo)準(zhǔn)中的信源格式的1/4,即35224830或35228825,相應(yīng)編碼的最大輸出碼率為4Mbit/s。 (2)主級(Main Level,ML)ML對應(yīng)于ITU-R601建議的信源格式,即72048029.97或72057625,最大允許輸出碼率為15Mbit/s,其高型的碼率是20Mbit/s。(3)高H-1440級(High-1440 Level)H-1440屬于高清晰度發(fā)展道路上的準(zhǔn)高清晰度級,沒有得到實際應(yīng)用。 HL對應(yīng)高清晰度電視的信源格式,即1920108030或1920115225,最大輸出碼率為80Mbit/s,其高型的碼率是100Mbit/s。 視頻序列也稱圖像序列,它
9、是隨機選取節(jié)目的一個基本單元。圖像組是將一個圖像序列中連續(xù)的幾個圖像組成一個小組,簡稱為GOP。 圖像是一個獨立的顯示單元,也是圖像編碼的基本單元,可分為I,P和B三種編碼圖像。像條是發(fā)生誤碼且不可糾正時,數(shù)據(jù)重新獲得同步,從而能正常解碼的基本單元。 宏塊是運動預(yù)測的基本單元。運動估計以宏塊為單位,借此得到最佳匹配宏塊的運動矢量。運動預(yù)測只對亮度陣列進行,對應(yīng)的色差陣列其運動估計使用和亮度陣列相同的運動矢量。塊或稱像塊,是DCT變換的基本單元。 MPEG算法達到了很高的壓縮比,但仍保持了很好的圖像質(zhì)量,單靠幀內(nèi)編碼是不可能達到的。在MPEG壓縮編碼中,主要通過DCT變換和運動預(yù)測技術(shù)來壓縮空間
10、冗余和時間冗余。在MPEG-2壓縮編碼算法中,不僅包括了JPEG算法中的DCT、自適應(yīng)量化和熵編碼等一系列幀內(nèi)編碼方法,更重要的是利用了幀間運動補償技術(shù)。 (1)幀重排(2)當(dāng)輸入的第一幀作為I幀圖像進入圖4-8所示的編碼器中時,開關(guān)K1,K2和K4在上方,K3 在左方。(3)當(dāng)P4作為P幀進入編碼器時,開關(guān)K1,K2和K4切換到下方,K3還在左方。 圖4-8MPEG-2壓縮編碼原理框圖 (4)當(dāng)B2作為B幀進入編碼器時,開關(guān)K1 在下方,K2 在上方,K3 在右方,K4 在中間。在圖4-9所示的圖像序列中,每 12幀中包含1個I幀、3個P幀和8個B幀,稱為一個圖像組(GOP)。 圖4-9圖像
11、序列原始順序 經(jīng)過編碼器編碼后,6個視頻層次構(gòu)成的編碼視頻碼流稱為視頻基本碼流(ES),圖4-11所示為簡化的基本碼流結(jié)構(gòu)圖。 圖4-11 視頻基本碼流結(jié)構(gòu) (1)在視頻序列層中,一個編碼的視頻序列由一個序列信頭開始,后面跟隨一個圖像組頭,然后是由許多圖像(I,P和B)組成的一系列GOP,視頻序列結(jié)束于一個序列終止碼。(2)在圖像組層中,GOP頭中給出了時間碼和緊跟在I幀后面的B圖像的預(yù)測特性等信息。 (3)在圖像層中,圖像頭中給出了時間參考信息、圖像編碼類型和VBV(視頻緩存校驗器)延時等信息。(4)在像條層中,像條頭中給出了像條垂直位置、量化因子碼等信息。(5)在宏塊層中,其中的宏塊類型碼
12、中給出了宏塊屬性、運動矢量。(6)最后一層是塊層,給出了其DCT系數(shù)。 分級(Scalability)編碼使原本一體的碼流呈現(xiàn)一種分級結(jié)構(gòu),使其中的部分碼流可單獨解碼,從而可得到不同的分辨率和所需的碼率。可分級編解碼的意義在于其碼流的獨立分層及可分層疊加,從而使該碼流適應(yīng)不同環(huán)境的傳輸信道和不同用戶需求的能力大大增加。 MPEG-2中的可分級編解碼主要包括以下幾種:空間分級 (Spatial Scalability)、時間分級(Temporal Scalability)、SNR分級(SNR Scalability)和數(shù)據(jù)劃分(Data Partitioning)等。 底層的編碼在幀內(nèi)/幀間判決
13、、自適應(yīng)量化和緩存調(diào)整方面和不分級編碼類似。在增強層編碼中,首先對底層輸出的量化后的DCT系數(shù)進行反量化,然后用未量化的DCT系數(shù)和反量化后的DCT系數(shù)相減求差值,得到修正系數(shù)。 混合可分級性(Hybrid Scalability)是空間、SNR和時間可分級的混合,產(chǎn)生兩個以上的視頻層,以支持更多需求的應(yīng)用。下面介紹混合可分級在數(shù)字電視領(lǐng)域中的應(yīng)用。 在信道和發(fā)射功率受到限制時,往往希望能夠在比較差的條件下收到質(zhì)量略差些的圖像,而不致于根本沒有圖像。 MPEG-2解碼是MPEG-2編碼處理的逆過程,從編碼比特流中重建圖像幀。MPEG-2解碼框圖如圖4-17所示。 圖4-17 MPEG-2解碼框
14、圖 復(fù)用器是整個系統(tǒng)的關(guān)鍵設(shè)備之一,它接收從前端編碼器來的視頻、音頻數(shù)據(jù)流,按照一定的復(fù)用規(guī)范將其交織復(fù)用成符合MPEG-2系統(tǒng)層規(guī)范的單一的系統(tǒng)碼流。 單路節(jié)目的視、音頻數(shù)據(jù)流的系統(tǒng)復(fù)用框圖如圖4-18所示。 圖4-18 簡化的MPEG-2系統(tǒng)復(fù)用框圖 按照ISO/IEC 13818-2和ISO/IEC 13818-3標(biāo)準(zhǔn)對視頻和音頻信號進行壓縮編碼后的碼流稱為基本數(shù)據(jù)流(Elementary Stream,ES)。TS包的結(jié)構(gòu)如圖4-20所示。 圖4-20 TS 包的結(jié)構(gòu)圖 如果在一個電視頻道內(nèi)復(fù)用幾路TS流,也即在一個常規(guī)頻道內(nèi)傳輸多套數(shù)字電視節(jié)目,則稱為多路節(jié)目的雙層復(fù)用。多路節(jié)目的雙
15、層復(fù)用系統(tǒng)框圖如圖4-21所示。第一層復(fù)用稱為節(jié)目復(fù)用(Program Multiplex);第二層復(fù)用稱為傳輸復(fù)用(Transport Multiplex)。其中,節(jié)目復(fù)用有共同的時間基準(zhǔn),傳輸復(fù)用時彼此可以有獨立的時間基準(zhǔn)。 圖4-21 多路節(jié)目的雙層復(fù)用系統(tǒng)框圖 PSI信息主要由以下幾種類型的表構(gòu)成: (1)節(jié)目關(guān)聯(lián)表(Program Association Table,PAT)(2)節(jié)目映射表(Program Map Table,PMT)(3)條件接收表(Conditional Access Table,CAT) (4)網(wǎng)絡(luò)信息表(Network Information Table,N
16、IT)(5)傳送流描述表(Transport Stream Description Table,TSDT)(6)專用段(Private_section)(7)描述符(Descripter) CBR編碼復(fù)用方式如圖4-23所示。 圖4-23CBR編碼復(fù)用方式框圖 通常碼率控制的方法有以下幾種。這是一種利用調(diào)節(jié)量化系數(shù)來控制緩沖器充盈度的方法,由于是從總比特數(shù)出發(fā),其控制能力較弱,在圖像的復(fù)雜度變化較大時會引起圖像質(zhì)量較大的起伏。 一般來說,一個圖像序列中各圖像的內(nèi)容比較接近,復(fù)雜度相當(dāng),因而對同一類型的圖像其編碼比特數(shù)應(yīng)當(dāng)相差不大。 MPEG-2給出了TM5碼率控制策略,主要分為以下三個步驟。第
17、一步為比特分配,以圖像組為單元對其中的每一個圖像按其類型分配比特數(shù)。第二步為碼率控制。 第三步為自適應(yīng)量化調(diào)整。 在VBR編碼中,量化系數(shù)是固定的,這樣可以使各路圖像質(zhì)量相當(dāng)。 MPEG編碼的碼流具有明顯的偽周期性,以GOP為周期存在較大的尖峰,在每個GOP中按P幀的間隔出現(xiàn)較小的峰值。 聯(lián)合碼率控制在保證信道中傳輸恒定速率比特流的前提下,允許各業(yè)務(wù)信源以變速率碼流編碼,以適應(yīng)不斷變化的信源需求。 MPEG-4標(biāo)準(zhǔn)的主要特征是采用了基于對象(Object-Based)編碼等的第二代編碼技術(shù)。 MPEG-4可以對不同來源的視、音頻對象進行合成。 基于對象的分級功能是MPEG-4提供的又一個新功能
18、,同時兼容于MEPG-2標(biāo)準(zhǔn)中的圖像分級功能。MPEG-4的編碼具有魯棒性和糾錯功能,從而保證在易出錯的通信環(huán)境下實現(xiàn)安全的低碼率編碼和傳輸。這包含三個方面:再同步(Resynchronization)、數(shù)據(jù)恢復(fù)(Data Recovery)和錯誤隱藏( Error Concealment)。 MPEG-4標(biāo)準(zhǔn)的目標(biāo)是多媒體的多領(lǐng)域應(yīng)用,它為不同應(yīng)用定義了編解碼器和碼流的不同類(Profile)和級(Level),從而支持各種碼率(5kbit/s到4Mbit/s)、格式(逐行和隔行)和分辨率(QCIF到HDTV)。 MPEG-4的第一版主要包括系統(tǒng)、視頻、音頻和多媒體傳送集成框架(DMIF)等
19、部分,隨著技術(shù)的發(fā)展,MPEG-4的內(nèi)容也不斷充實和改進。 系統(tǒng)部分主要包括以下內(nèi)容。(1)系統(tǒng)解碼器模型,這是每一個系統(tǒng)都應(yīng)該有的特殊模型。(2)場景描述(Scence Description),它是用來說明根據(jù)AV對象的時間和空間屬性如何有效地將它們組織起來的。 (4)基本碼流同步層(SL),它是將基本碼流數(shù)據(jù)打包成AU單元(訪問單元)的語法,打包中附加了時間和同步信息,接收時從SL中提取時間信息能夠使解碼同步,并將基本流數(shù)據(jù)合成。(5)基本碼流的多路合成系統(tǒng)中有兩層復(fù)用,傳輸復(fù)用(TransMux)和MPEG-4復(fù)用(FlexMux)。 MPEG-4視頻由視頻序列、視頻對象、視頻對象層、
20、視頻對象平面、視頻包、宏塊和塊組成,如圖4-29所示。 圖4-29 MPEG-4視頻的層次結(jié)構(gòu) MPEG-4的視頻編碼包括:形狀編碼、運動估計和補償、紋理編碼、可分級編碼和Sprite編碼等,下面分別介紹這些編碼概念。MPEG-4引入了形狀信息編碼,形狀編碼在計算機圖形學(xué)、計算機視覺和圖像壓縮領(lǐng)域不屬于新技術(shù),現(xiàn)在將其納入應(yīng)用到完整的視頻編碼標(biāo)準(zhǔn)內(nèi)。 VO的形狀信息有兩類:二值形狀信息和灰度形狀信息。一個VOP的形狀限制在一個水平和垂直方向像素數(shù)都為16的整數(shù)倍的邊界框(Bounding Box)內(nèi),可以選擇邊界框的位置以使得包含的1616塊數(shù)目最小。 紋理編碼的對象可以是幀內(nèi)編碼模式的I-V
21、OP,也可以是幀間編碼模式中B-VOP或P-VOP運動補償后的差值圖像。 與MPEG-2中基于幀的可分級編碼相比,MPEG-4所采用的可分級技術(shù)是基于對象的可分級編碼。Sprite是指一個相對靜止的長背景。圖4-32所示的是Sprite編碼的例子,左上方是Sprite圖像,右上方是前景視頻對象,下方的當(dāng)前幀的背景是從Sprite圖像中取出的。 圖4-32 Sprite編碼舉例 MPEG-4的音頻編碼分為兩種:自然聲音和合成聲音。編碼算法有相應(yīng)的諧波矢量激勵編碼(Harmonic Vector Excitation Coding)和碼激勵線性預(yù)測 (Code Excited Linear Prediction,CELP)編碼技術(shù)。