Arquitetura de um Módulo T Dedicado à Predição Intra do Padrão de Compressão de Vídeo H.264/AVC para Uso no Sistema Brasileiro de Televisão Digital

Arquitetura de um Módulo T Dedicado à Predição Intra do Padrão de Compressão de Vídeo H64/AVC para Uso no Sistema Brasileiro de Televisão Digital Robson Dornelles, Felipe Sampaio, Daniel Palomino, Guilherme Corrêa, Diego Noble, Luciano Agostini Grupo de Arquiteturas e Circuitos Integrados (GACI) Departamento de Informática Universidade Federal de Pelotas (UFPel) Caixa Postal 354 9600-900 Pelotas RS Brasil {rdornellesifm,fsampaioifm,danielpifm, gcorrea_ifm,dnobleifm,agostini}@ufpeledubr Abstract This work focuses on the H64/AVC video coding standard, which is included in the Brazilian System of Digital Television (SBTVD), and it proposes a new solution to an encoder performance limitation The Intra Prediction module explores the spatial redundancy of a digital video The problem is that a recently intra coded block must first be processed by the TQQ - T - loop and just then it can be used for the Intra prediction of the next block This works proposes a new architecture to the forward transforms module that can be integrated to a high performance and low latency TQQ - T - loop dedicated to the Intra Prediction module Resumo Este tralho foca no padrão de compressão de vídeo H64/AVC que está incluído no Sistema Brasileiro de TV Digital, e propõe uma solução para uma limitação de desempenho existente no processo de codificação A Predição Intra, componente que explora a redundância espacial do vídeo, deve esperar que um bloco que acou de ser codificado seja processado pelo loop TQQ - T - para poder iniciar a codificação do próximo bloco Este tralho propõe uma nova arquitetura para o módulo das transformadas diretas, afim de integrá-la em um loop TQQ - T - de alto desempenho e baixa latência dedicado à Predição Intra Introdução Este tralho contextualiza-se na área de compressão de vídeo digital para o Sistema Brasileiro de TV Digital (SBTVD), e propõe soluções em hardware para o mais novo padrão de compressão de vídeo, o H64/AVC (também chamado de MPEG-4 parte 0) (ITU-T, 003) Um vídeo é uma seqüência de imagens estáticas que se sucedem em grande velocidade, dando a impressão de movimento real Tais imagens estáticas são chamadas de quadros (frames) e são formadas por um conjunto de pontos (pixels) Para realizar a compressão (codificação) de vídeo, é necessário codificar os quadros que formam o vídeo Isto se faz possível dada a possibilidade de explorar as redundâncias de informação presentes nas imagens, reduzindo a quantidade de bits necessária para a representação desta informação

O padrão H64/AVC foi desenvolvido por especialistas da ITU-T (International Telecommunication Union) e da ISO (International Organization for Standardization), visando dobrar a taxa de compressão dos padrões anteriores (ITU-T, 003) O padrão define um conjunto de perfis com diferentes funcionalidades e complexidades, mas apenas o decodificador é padronizado Assim, um codificador H64/AVC para um determinado perfil pode ser implementado de diferentes maneiras (com simplificações inclusive), desde que respeite os padrões exigidos para sua decodificação A Figura traz um modelo de codificador do padrão H64/AVC Quadro Atual (original) Predição Inter-quadros T Q Codificação de Entropia ME Quadros de Referência MC Predição Intra-quadro Quadro Atual (reconstruído) Filtro + T - Q - Figura Diagrama de blocos de um codificador H64/AVC O padrão usa uma vasta coleção de métodos de codificação, de modo a explorar os diferentes tipos de redundância existentes em um vídeo A redundância espacial é tratada, no padrão, pelo módulo da Predição Intra Quadros Na teoria, este módulo busca semelhança espacial entre regiões do quadro que está sendo codificado, para então replicar estes valores e representar toda a região Na prática, a Predição Intra tralha com blocos de 4x4 ou 6x6 pixels e codifica um novo bloco copiando as bordas dos blocos vizinhos em vários sentidos, para, no fim, comparar os resultados e escolher aquele que apresenta maior similaridade com o bloco original Além da predição intra, os módulos das transformadas (T e T - na Figura ) e quantização (Q e Q - na Figura ) também contribuem para a redução da redundância espacial, uma vez que exploram, no domínio das freqüências, as informações que são menos importantes para a percepção do sistema visual humano dentro de um quadro e eliminam estas informações Este tralho apresenta uma arquitetura diferenciada para o módulo das transformadas A arquitetura foi descrita em VHDL e sintetizada para um dispositivo FPGA da Altera Tal arquitetura é parte da solução de um problema existente na Intra Predição A seção apresenta este problema; a seção 3 explica com maiores detalhes o módulo das transformadas; a seção 4 apresenta a arquitetura desenvolvida; a seção 5 mostra os resultados da síntese; a seção 6 relaciona este tralho a outros existentes na literatura, e por fim, a seção 7 apresenta as conclusões deste tralho e mostra o potencial de tralhos futuros O loop TQQ - T - Observando a Figura, é possível notar a presença dos módulos Q - e T -, que são módulos responsáveis por decodificar e não por codificar os símbolos de entrada e, por isso, são típicos do decodificador e, em uma primeira análise, não deveriam fazer parte do codificador Estes módulos estão presentes no codificador devido a uma dependência

de dados existente para os módulos de predição Intra e Inter Como existem perdas no processo de codificação, o quadro original não é igual ao quadro reconstruído após a decodificação Esta diferença não é pequena e faz com que o codificador necessite gerar também, como o decodificador, o quadro reconstruído, para que este possa ser usado como referência para as operações futuras e, deste modo, tanto o codificador quanto o decodificador podem utilizar referências idênticas em seus processos Esta característica é essencial para evitar erros de casamento entre codificador e decodificador No caso da Predição Intra, ao codificar um bloco, não é possível utilizar os blocos do quadro original como referência, visto que, no decodificador, o quadro original não está disponível Assim, é necessário que os blocos de referência estejam reconstruídos Um quadro se encontra reconstruído após acumular seu resíduo quantizado e, para isso, o resíduo deve passar pelos módulos das transformadas diretas (T), das quantizações direta (Q) e inversa (Q - ) e, finalmente, pelo módulo das transformadas inversas (T - ) Este é o loop TQQ - T - que é o foco deste tralho Enquanto o resíduo do bloco que acou de ser predito percorre este loop, a Predição Intra fica em modo de espera, até que o bloco reconstruído esteja disponível, só então a Predição Intra inicia a codificação do próximo bloco Assim, o desempenho do loop é limitador do desempenho da Predição Intra Desse modo, um loop TQQ - T - de alto desempenho e baixa latência, dedicado à Intra Predição se faz necessário para que a Predição Intra consiga atingir os requisitos de taxa de processamento necessários à codificação de vídeos de alta resolução em tempo real A Figura traz um diagrama de blocos do codificador com a alteração proposta já incorporada Este loop dedicado, como pode ser observado na Figura, opera em paralelo com o loop de transformadas e quantização utilizado para gerar o vídeo comprimido Quadro Atual (original) T Q Codificador de Entropia Quadros de Referência Predição INTER Predição INTRA BUFFER DT - DQQ - DT Loop Dedicado para Predição Intra Quadro Atual (reconstruído) Filtro + T - Q - Figura Diagrama de blocos do codificador com a modificação proposta A nova arquitetura para o módulo T dedicado, proposta neste tralho, tenta aliar uma alta taxa de processamento com a menor latência possível 3 Módulo das Transformadas Diretas O Módulo das Transformadas Diretas prepara o resíduo decorrente da subtração de um bloco predito (pela predição inter ou intra) com o seu correspondente original para que tal resíduo sofra o processo de quantização Para isso, é necessário processar o resíduo, levando-o do domínio espacial para o domínio das freqüências O padrão H64/AVC

define três transformadas no módulo T: a Transformada Discreta dos Cossenos Direta 4x4 (FDCT 4x4) e as Transformada Discreta Hadamard Direta 4x4 e x (FHAD 4x4 e FHAD x) A equação () apresenta a definição da FDCT No padrão H64/AVC, a multiplicação pelo escalar E f é realizada durante o processo de quantização direta (Richardson, 003) A equação () traz a definição da transformada Hadamard 4x4 e, finalmente, a equação (3) apresenta a definição da transformada Hadamard x = = 4 4 4 4 b b a a b b a a X E XC C Y f T f f () / = D D W Y () = QD W D W (3) O padrão H64/AVC considera que o espaço de cores utilizado para representar o vídeo de entrada é do tipo luminância e crominância, como o YCbCr A relação entre os elementos Y, Cb e Cr, para o perfil Main, é 4::0 (na verdade, 4::) (Richardson, 003), ou seja, para cada quatro amostras de luminância Y, existem uma amostra de crominância Cb e outra Cr Assim, a cada macrobloco 6x6 de amostras de luminância Y, estão associados dois blocos 8x8 de crominância: um Cb e outro Cr O padrão H64/AVC define que a FDCT deve ser aplicada a todas as amostras Se a FDCT processar um bloco 8x8 de crominância, a Hadamard x deverá processar o bloco x formado pelos coeficientes DC (coeficientes com posição (0,0) no bloco) dos quatro blocos 4x4 formadores do bloco 8x8 Se a Predição Intra estiver tralhando no modo 6x6 (onde todo um macrobloco 6x6 foi predito com o mesmo método), então a Hadamard 4x4 deverá processar o bloco 4x4 formado pelos coeficientes DC dos 6 blocos 4x4 formadores do macrobloco 6x6 (Richardson, 003) 4 Arquitetura Desenvolvida Partindo da especificação do padrão para o módulo das transformadas, é proposto o diagrama de blocos apresentado na Figura 3 Na Figura 3 foram omitidos os sinais de controle FDCT FHAD x FHAD 4x4 FHAD 4x4 BUFFER Y DC BUFFER C DC Figura 3 Diagrama de Blocos do módulo T

As arquiteturas da FDCT 4x4 e da FHAD 4x4 foram implementadas utilizando o modelo de um estágio de pipeline com consumo de dezesseis amostras por ciclo que foi proposto por Sampaio (008) Tal modelo realiza, de maneira combinacional, todas as operações de uma transformada, com latência de um ciclo de relógio Assim, as arquiteturas utilizadas apresentam a menor latência e o maior paralelismo alcançável A Hadamard x foi implementada de maneira análoga, consumindo o máximo de amostras possíveis por ciclo e utilizando um ciclo de relógio para processá-las As arquiteturas desenvolvidas estão apresentadas na Figura 4 a b c a b c W 0 S 0 X 0 X Y 0 X S X 3 Y W 4 X 4 X 5 << W S 0 X 6 W 0 S W W 8 W X 7 X 8 X 9 X 0 X << W W 3 (c) S S 3 W X X 3 X 4 W 5 S 5 X 5 Y 5 (a) (b) Figura 4 Diagramas RTL das arquiteturas desenvolvidas (a) Hadamard 4x4, (b) FDCT 4x4 e (c) Hadamard x Os buffers apresentados na Figura 3 são do tipo ping-pong Um buffer ping-pong é formado por duas colunas de registradores e captura uma quantidade de amostras por ciclo No momento em que a primeira coluna de registradores enche, seus valores são copiados para a segunda coluna e lá ficam estáveis até que a primeira coluna fique novamente cheia O buffer Y DC possui dezesseis posições, enquanto o buffer C DC possui quatro posições Ambos capturam uma amostra por ciclo Figura 5 Máquina de Estados Finitos para o controle

A unidade de controle é composta pela máquina de estados finitos apresentada na Figura 5 Esta máquina de estados possui transições diferenciadas para os dois modos de operação da Predição Intra: modo 4x4 e modo Intra 6x6 No modo 4x4, o controle precisa ativar o buffer de elementos DC de crominância a partir do 6º ciclo Em um primeiro momento, o buffer C DC captura os quatro elementos DC do macrobloco 8x8 Cb, e depois captura os quatro elementos DC do macrobloco 8x8 Cr No modo Intra 6x6 os sinais de controle para o buffer de crominância não se modificam, contudo, o buffer Y DC deve ser ativado no primeiro ciclo para que possa ser preenchido pelos 6 elementos DC do macrobloco 6x6 de luminância 5 Resultados da Síntese Todos os componentes formadores do módulo T foram descritos em VHDL, sintetizados utilizando a ferramenta Quartus II, da Altera, e prototipados para o dispositivo FPGA Stratix II EPS90F58C3, também da Altera A validação foi realizada com a ferramenta ModelSim, da Mentor Graphics A Tela mostra os resultados da síntese, incluindo a freqüência máxima de operação permitida para cada módulo, o número de Look-Up Tles Adaptativas (ALUTs) e de Registradores Lógicos Dedicados (DLRs) do FPGA que foram utilizados, o número de quadros QHDTV (3840x048 pixels) por segundo que a arquitetura é capaz de processar e a taxa de processamento em milhões de amostras por segundo Tela Resultados da síntese do módulo T e seus componentes Arquitetura Freqüência (MHz) N o de ALUTs N o de DLRs Quadros/s (3840x048) Taxa de Processamento (Milhões de amostras/s) FDCT 4x4 78,5 748 36 4, 855,7 HAD 4x4 69, 937 43 5504, 705,4 HAD x 98,8 33 6 4, 95, Controle 43,0 53 34 -- -- Módulo T 49,4 99 5 0,7 390,6 É importante observar que a arquitetura do módulo T alcança facilmente tempo real (30 quadros/s) ao processar vídeos de resolução muito elevada (como o QHDTV) O consumo de recursos do FPGA para todo o módulo T representa apenas % da capacidade do dispositivo utilizado 6 Tralhos Relacionados A característica mais relevante considerada neste tralho é a latência, pois é ela que define o tempo de espera do módulo da Predição Intra Em segundo lugar está a taxa de processamento, que define quão rapidamente as amostras de entrada são processadas A otimização conjunta destas duas características é o principal objetivo deste tralho Para avaliar esta relação foi considerada a latência de macrobloco Latência de macrobloco é a latência que um módulo T apresenta para realizar o processamento de um macrobloco, com 6x6 elementos de luminância, 8x8 elementos de crominância Cb e 8x8 elementos de crominância Cr Este resultado se relaciona diretamente ao

desempenho esperado para a Predição Intra, e resume a contribuição deste artigo para o projeto do Sistema Brasileiro de Televisão Digital A latência de macrobloco é diferenciada para os modos de operação da Predição Intra: no modo Intra 6x6, um macrobloco 6x6 de luminância já está predito, e o módulo T pode funcionar sem pausas Já no modo de Predição Intra 4x4, em um macrobloco 6x6 de luminância, o módulo T deverá processar o primeiro bloco 4x4 e esperar que o próximo seja predito Assim, arquiteturas que utilizam mais de um estágio de pipeline acam sendo penalizadas nesse modo, pois seu pipeline deve esvaziar entre a predição dos blocos 4x4 Já para macroblocos 8x8 de crominância, a Predição Intra tralha somente no modo 8x8, assim, o impacto dos blocos de crominância no cálculo da latência de macrobloco é o mesmo Solução Nossa Solução Porto, 007 Agostini, 006 Freq (MHz) Tela Comparação com tralhos relacionados Latência de Macrobloco Intra6x6 (ciclos de relógio) Latência de Macrobloco Intra4x4 (ciclos de relógio) Taxa de Processamento (Mamostras/s) Taxa de Processamento/ Latência de macrobloco (Intra6x6 Intra4x4) 49,9 4 4 390,6 99,6 99,6 303,3 3 76 4857,6 56,7 63,9 6, 440 60 6, 0,9 0, A comparação com o tralho de Agostini (006) mostra um aumento de performance extremamente relevante pela arquitetura apresentada neste artigo Visto que a arquitetura de Agostini consome somente uma amostra por ciclo, sua latência de macrobloco é extremamente alta, aplicando uma restrição de desempenho enorme para a Predição Intra, em qualquer modo de funcionamento desta A arquitetura aqui apresentada supera facilmente o tralho de Agostini em todos os quesitos comparados O único tralho da literatura que apresenta um módulo T paralelo é o de Porto (007) Neste tralho, todas as arquiteturas utilizadas são de quatro estágios de pipeline, exceto a Hadamard x, que é de dois estágios A Tela apresenta uma comparação com este tralho Da Tela, observa-se que a arquitetura desenvolvida neste tralho apresenta sempre a menor latência de macrobloco, demonstrando que o principal objetivo deste tralho foi atingido Além disso, para o modo de predição 4x4, que é o mais utilizado (Richardson, 003), a solução proposta neste tralho apresenta sempre a melhor relação entre latência e taxa de processamento Neste caso, as arquiteturas com vários estágios de pipeline representam uma desvantagem, pois acam elevando muito a latência de macrobloco e, assim, o desempenho da Predição Intra fica seriamente limitado pelo desempenho do loop Então, mesmo apresentando o dobro da freqüência em comparação com o tralho apresentado neste artigo, a arquitetura de Porto apresenta o triplo da latência de macrobloco no modo 4x4, o que representa uma deficiência da solução de Porto em relação à solução aqui apresentada A solução de Porto apresenta um melhor desempenho apenas quando é considerada a relação entre latência e taxa de processamento para o modo de predição Intra 6x6, pois neste caso, a maior latência de macrobloco é compensada pelo expressivo aumento

na freqüência de operação, mantendo a relação em um patamar mais vantajoso em relação à solução apresentada neste artigo Do ponto de vista de consumo de recursos de hardware, a solução de Porto é menos eficiente, pois utiliza registradores para viilizar o pipeline e estes registradores possuem custo importante para implementação em hardware Tal custo não existe no tralho apresentado neste artigo, já que as arquiteturas das transformadas são completamente combinacionais 7 Conclusão e Tralhos Futuros Este tralho apresentou uma nova arquitetura, completamente paralela e de latência mínima, para o módulo T do padrão H64/AVC, que será integrado a um loop TQQ - T - dedicado à Predição Intra A partir dos resultados obtidos, é possível perceber que haverá um ganho substancial do desempenho da Predição Intra ao final do projeto de todo o loop O módulo T aqui apresentado é capaz de processar 0,7 quadros QHDTV (3840x048) por segundo, alcançando facilmente tempo real, e apresenta ganhos importantes em relação aos demais tralhos apresentados na literatura Como tralho futuro, é proposto o projeto dos outros módulos do loop TQQ - T - dedicado, e a integração destes módulos Finalmente, o projeto ainda prevê a integração do loop com o módulo de Predição Intra References AGOSTINI, L et al High Throughput Architecture for H64/AVC Forward Transforms Block In: 6th ACM Great Lake Symposium on VLSI - GLSVLSI, 006, Philadelphia Proceedings of the 6th ACM Great Lakes symposium on VLSI Nova Iorque: ACM, 006 JOINT VIDEO TEAM OF ITU-T AND ISO/IEC JTC Draft ITU-T Recommendation and Final Draft International Standard of Joint Video Specification (ITU-T Rec H64 or ISO/IEC 4496-0 AVC), 003 PORTO, R et al High Throughput Architecture for Forward Transforms Module of H64/AVC Video Coding Standard In: IEEE International Conference on Electronics, Circuits and Systems Proceedings of ICECS 007 Piscataway: IEEE, pp 50-53 RICHARDSON, I H64/AVC and MPEG-4 Video Compression Video Coding for Next-Generation Multimedia Chichester : John Wiley and Sons, 003 SAMPAIO, F et al Architectural Templates for the 4x4 transforms of the H64/AVC standard targeting de Intra Prediction In: SForum 008 - Student Forum on Microelectronics, 008, Gramado Proceedings of SForum 008 Porto Alegre: SBC, 008