基于NiosII的低碼率實時H.264視頻編碼器

發(fā)布時間：2010-5-24 14:57 發(fā)布者：李寬

引言

H．264標準作為新一代視頻編碼標準，是面向多比特率的視頻編碼標準，也稱JVT／AVC標準，既可用于高碼率的HDTV和數(shù)字存儲系統(tǒng)，也可用于低碼率的實時通信系統(tǒng)。在相同的圖像質量情況下，H．264比H．263和MPEG一4可以節(jié)省20％～50％的碼率。就其基本檔次而言，編碼器的復雜度是 H．263的10倍左右。H．264良好的網(wǎng)絡親和性和優(yōu)異的壓縮性能使其成為視頻應用的首選，但其巨大的運算量成為許多應用的瓶頸。筆者基于 NiosII設計了一種低碼率實時應用的編碼系統(tǒng)。該系統(tǒng)充分利用FPGA的并行設計結構，對視頻數(shù)據(jù)采用高壓縮比的H．264標準編碼，能很好地滿足低碼率實時編碼的要求。

1 H．264編碼系統(tǒng)結構設計

根據(jù)H．264／AVC編碼器原理及結構，同時考慮到現(xiàn)有硬件資源的限制以及該設計的應用需求，設計了圖1所示的H．264／AVC編碼系統(tǒng)結構。

攝像頭攝入的視頻圖像首先經(jīng)過視頻采集模塊處理，并將當前幀的圖像數(shù)據(jù)存入SRAM。然后，以宏塊MB(macroblock)為單元，從SRAM中讀取原始圖像，并根據(jù)MB所在圖像幀內的位置，讀取重建幀中的參考像素進行幀內預測，并將預測宏塊與當前宏塊像素做差即可得到預測殘差。接下來，對殘差圖像進行整數(shù)DCT變換或Had—amard變換，并對變換輸出進行量化。量化輸出的殘差圖像一方面通過反變換和反量化處理生成重建圖像供幀內預測作為參考，另一方面經(jīng)過重排序、熵編碼處理得到最終的圖像壓縮碼流輸出。

根據(jù)H．264／AVC標準，將所設計的整個編碼系統(tǒng)從結構上劃分為圖像采集、幀內預測、變換量化、熵編碼等幾個主要部分。各個模塊之間通過流水線的方式進行處理，可以有效地提高硬件的執(zhí)行效率。

2 基于Cyclone II FPGA的H．264編碼器的實現(xiàn)

系統(tǒng)采用SOPC的設計方式，主要由視頻采集模塊、NiosII處理器系統(tǒng)組成。采用Altera公司的DE2開發(fā)板為開發(fā)平臺，將視頻采集、 NiosII處理器集成到一個SOPC系統(tǒng)中。其中NiosII處理器系統(tǒng)要承擔圖像采集控制、圖像的H．264壓縮編碼工作。為了保證實時性，在充分分析H．264軟件算法運行時間后，采用自定義模塊對H．264編碼器關鍵算法進行硬件加速。
2．1 視頻采集模塊

視頻采集是視頻圖像處理、傳輸?shù)那疤幔杉降臄?shù)字視頻圖像好壞將直接影響到視頻處理的結果。圖2給出了圖像處理系統(tǒng)的視頻采集結構。

ADI公司的多制式視頻解碼芯片ADV7181B對采集的視頻圖像進行模數(shù)轉換。ADV7181B可以自動檢測諸如NTSC、PAL和SEC0M制式的基帶視頻信號，并將其轉換為基于4：2：2取樣的16／8位兼容的CCIR601／CCIR656格式的數(shù)字視頻信號；具有6路模擬視頻輸入端口，且采用單一的27 MHz晶振時鐘輸入；用戶可以通過兩線的I2C接口對ADV7181B的工作模式進行配置。

系統(tǒng)上電時，首先使用I2C模塊對ADV7181B的內部寄存器進行配置。由于攝像頭輸出的是PAL制式的模擬視頻信號，因此需要相應地將 ADV7181B配置為PAL制式的模擬視頻信號輸入，并將其轉換為CCIR656格式的數(shù)字視頻信號。ADV7181B將轉換得到的實時數(shù)字視頻圖像的亮度信號、色度信號(TD_DAT)以及行、場同步信號(TD_HS／VS)同時輸入到FPGA芯片中，通過圖像采集模塊提取需要的數(shù)字圖像信息，并將其轉存至AlteraDE2開發(fā)板提供的具有512 KB存儲容量的SRAM中，用于緩存待處理圖像幀。

下面介紹圖像采集模塊的設計與實現(xiàn)方法。

根據(jù)上面對視頻采集部分硬件結構的分析，設計了圖3所示的視頻采集模塊結構框圖。可以看出，圖像采集模塊主要包含圖像提取、色度取樣率變換、 Y／Cb／Cr圖像分量分離以及圖像緩存SRAM讀寫控制等單元。

其中圖像提取子模塊在H．264／AVC編碼模塊的視頻采集控制信息的控制下，從ADV7181B轉換輸出的PAL制數(shù)字視頻圖像中提取需要的圖像數(shù)據(jù)。攝像頭采集的實際圖像大小為768×576像素的隔行掃描視頻輸入信號，其中基數(shù)場和偶數(shù)場在時間上先后輸入。由于系統(tǒng)處理的圖像大小為320×240像素，因此需要對輸入的數(shù)字視頻進行截取，以滿足系統(tǒng)的處理要求。

考慮到在一幀圖像中的頂場與底場數(shù)據(jù)差異不大，因此在對圖像進行截取時，僅對底場中間240行的連續(xù)320個相鄰像素點進行提取，以輸出320×240像素的視頻圖像數(shù)據(jù)。其具體提取流程如圖4所示。

H．264／AVC支持對色度取樣為4：2：O格式的逐行或隔行掃描數(shù)字圖像進行處理，因此需要對提取的數(shù)字圖像進行色度取樣率變換。通過對相鄰奇數(shù)行和偶數(shù)行的色度圖像分量進行簡單的平均，可實現(xiàn)由4：4：4向4：2：O的色度取樣率變換，如圖5所示。

經(jīng)過取樣率變換后的圖像數(shù)據(jù)需要根據(jù)Y／Cb／Cr圖像類型在SRAM中分片區(qū)緩存，以方便后續(xù)的H_264的編碼處理。圖6給出了實際圖像的色度分量在取樣率變換前后的效果。

2．2 H．264編碼器核心模塊

綜合現(xiàn)有的硬件資源、實時性與實現(xiàn)難度等因素，設計中僅采用了幀內預測方式，編碼器包括幀內預測模塊、變換量化模塊和CAVLC熵編碼模塊。處理時以宏塊 (16×16)為單位，亮度和色度塊分別進行幀內預測、變換量化和反變換反量化，然后進行CAVLC熵編碼，圖像的亮色比為Y：U：V=4：2：O。

H．264編碼器設計前期先用VC++在PC機上實現(xiàn)，后期移植到FPGA上用自定義硬件模塊實現(xiàn)，二者所需時間如表1所列�？梢钥闯�，用硬件實現(xiàn) H．264壓縮編碼一幀圖像只需約16 ms，較PC機實現(xiàn)有很大提高，而且硬件模塊占用的資源不到50％，性價比較高。

由于自定義幀內預測硬件模塊較軟件實現(xiàn)對系統(tǒng)性能提高較大，這里重點分析幀內預測模塊硬件結構設計。

根據(jù)H．264幀內預測算法，幀內預測模塊是在非率失真優(yōu)化模式下設計的。它通過接口模塊從SDRAM中讀入一個MB(16×16)的亮度和色度圖像數(shù)據(jù)，在亮度和色度預測模塊中對當前MB進行預測和預測模式選擇，輸出預測殘差及最佳預測模式；同時將預測結果與經(jīng)過反DCT變換和反量化之后的殘差值相加，經(jīng)重構模塊補償重構后寫回SDRAM。主要結構如圖7所示，整個模塊分為4個子模塊：接口模塊、亮度預測、色度預測和圖像重構模塊。

接口模塊中設計了4個RAM，用于存放讀入的原始圖像和用于預測的參考圖像數(shù)據(jù)：RAM0存放亮度預測像素，深度32，地址0～15存放上側預測參考像素，地址16～31存放左側預測參考像素；RAMl存放當前宏塊亮度原始值，深度為256；RAM2存放色度預測參考像素，深度32，地址0～7存放上側 Cb預測參考像素，地址8～15存放左側Cb預測參考像素，地址16～23存放上側cr預測參考像素，地址24～31存放左側Cr預測參考像素；RAM3 存放當前宏塊色度原始值，深度為128。

亮度預測模塊的內部結構如圖8所示。

①模式選擇模塊根據(jù)當前宏塊的預測參考像素可用信息(avail)指定當前宏塊按一定順序做預測，如avail=“11”表示上側和左側預測參考像素均可用，則對當前宏塊順序做DC、HOR、VERT、PLANE四種方式預測。在殘差處理模塊中，采用了2個RAM順序保存各種預測模式的預測殘差，所以在模式選擇模塊里會比較當前預測模式的代價函數(shù)和前一種預測模式代價函數(shù)的大小。如果當前預測模式的代價函數(shù)較小，則說明當前預測模式較優(yōu)，在做下一種模式預測時將預測殘差指定保存在上次較差預測模式的殘差RAM中。當前宏塊的可用預測模式都預測結束后，模式選擇模塊根據(jù)每一種模式預測代價函數(shù)決定出最優(yōu)預測模式，并指出該預測模式對應殘差處理模塊中存放的RAM，將相應的殘差輸入到整數(shù)變換模塊。

②預測模塊包含了DC、HOR、VERT、PLANE四種預測模式的實現(xiàn)實體，根據(jù)模式選擇模塊決定的預測模式從接口模塊讀取預測參考像素和原始像素值，預測后殘差輸出到殘差處理模塊，預測值輸出到補償重構模塊保存。

③殘差處理模塊采用2個存放殘差的RAM，每個宏塊可先并行做2種預測，殘差分別保存到2個RAM中，選擇其中較佳預測模式，再做下一種預測模式與前面所選較佳預測模式比較，直到完成所有預測模式選擇出最佳預測模式。

④預測代價模塊是計算每一種預測模式的預測代價，以4×4塊為單位作hadamard變換，將變換后每個4×4塊DC系數(shù)再做一次hadamard變換，將所有變換結果進行絕對值累加就是對應的預測代價。

色度預測模塊結構基本和亮度預測相同，只是由于色度有Cb、Cr兩個分量，殘差在RAM中的存放方式略有差別；同一個宏塊的色度預測和亮度預測是并行執(zhí)行的，由于要處理的色度數(shù)據(jù)比亮度少一半，筆者在后面的整數(shù)變換中采用先處理色度，再處理亮度的方法，使得流水更加緊湊，減少等待時間，提高整個模塊的運行速度。

3 結論

筆者設計的基于NiosII的低碼率實時H．264視頻編碼系統(tǒng)，在系統(tǒng)時鐘頻率100 MHz時，壓縮一幀320×240的彩色圖像需16．283 ms，在量化參數(shù)選擇30時，圖像壓縮比達到2％，實時監(jiān)控圖像幀率25幀／s。系統(tǒng)具有資源占用較少，低成本，低碼率，高清視頻質量的特點，具有較好的發(fā)展前景。

圖9為集成開發(fā)環(huán)境下綜合仿真后系統(tǒng)的資源占用情況。

參考文獻

1. ITUT Advanced Video Coding for Generic Audiovisual Services.ITUT Rec.H.264 (03/2005)Prepublished version 2005
2. 朱光喜.戴聲奎.劉文予.喻莉一種復雜度可分級的幀內預測方法 [期刊論文] -微電子學與計算機2005(3)
3. 畢厚杰新一代視頻壓縮編碼標準 2005
4. 余兆明.查日勇.黃磊圖像編碼標準H.264技術 2006
5. 裴世保.李厚強.俞能海 H.264/AVC 幀內預測模式選擇算法研究 [期刊論文] -計算機應用2005(8)

作者：重慶大學楊超張玲何偉
來源：單片機與嵌入式系統(tǒng) 2008 (11)

本文地址：http://www.4huy16.com/thread-11522-1-1.html 【打印本頁】

本站部分文章為轉載或網(wǎng)友發(fā)布，目的在于傳遞和分享信息，并不代表本網(wǎng)贊同其觀點和對其真實性負責；文章版權歸原作者及原出處所有，如涉及作品內容、版權和其它問題，我們將根據(jù)著作權人的要求，第一時間更正或刪除。