ARQUITETURA MULTITRANSFORMADA DE ALTO DESEMPENHO COM PARALELISMO PROGRAMÁVEL E DIRECIONADA PARA O PADRÃO DE COMPRESSÃO DE VÍDEO H.

Transcrição

1 ARQUIEURA MULIRANSFORMADA DE ALO DESEMPENHO COM PARALELISMO PROGRAMÁVEL E DIRECIONADA PARA O PADRÃO DE COMPRESSÃO DE VÍDEO H.264/AVC Luciano Agostini 1, Roger Porto 1, José Güntzel 1, Ivan Saraiva Silva 2, Sergio Bampi 3 1 Grupo de Arquiteturas e Circuitos Integrados (GACI) DInfo UFPel Pelotas, RS, Brasil 2 Departamento de Informática e Matemática Aplicada DIMAp UFRN Natal, RN, Brasil 3 Grupo de Microeletrônica (GME) II UFRGS Porto Alegre, RS, Brasil {agostini, rogerecp, guntzel}@ufpel.edu.br, ivan@dimap.ufrn.br, bampi@inf.ufrgs.br RESUMO Este artigo apresenta o projeto de uma arquitetura multitransformada de alto desempenho com paralelismo programável e direcionada para o padrão de compressão de vídeo H.264/AVC. Esta solução suporta as cinco transformadas previstas pelo padrão H.264/AVC e, ainda, suporta cinco diferentes níveis de paralelismo. A arquitetura proposta foi descrita em VHDL e sintetizada para FPGAs Stratix da Altera e Virtex-II Pro da Xilinx e para standard cell de tecnologia SMC.35µm. A síntese para FPGAs mostrou que a arquitetura pode processar de 124 milhões a 3,2 bilhões de amostras por segundo. A versão standard cell é capaz de processar de 21,7 milhões a 3,5 bilhões de amostras por segundo. Estes resultados indicam que a solução proposta apresenta uma alta flexibilidade e pode ser usada em vários codecs H.264/AVC com diferentes requisitos de desempenho, além de poder ser usada em aplicações de alta definição como HDV. 1. INRODUÇÃO O H.264/AVC (também conhecido como MPEG-4 parte 1) [1, 2] é um padrão de compressão de vídeo que foi desenvolvido para obter significantes melhorias sobre os padrões existentes no que se refere ao desempenho da compressão. Os principais blocos do codificador H.264/AVC são estimação de movimento, compensação de movimento, predição intra, filtro, codificador de entropia, quantização direta, quantização inversa, transformada direta e transformada inversa. O decodificador H.264/AVC é formado por decodificador de entropia, compensação de movimento, predição intra, filtro, quantização inversa e transformada inversa [3]. O bloco da transformada direta (bloco ) usa três diferentes transformadas que dependem do tipo de dado de entrada. Estas transformadas são: ransformada Discreta do Co-seno 4x4, ransformada Hadamard 4x4, e ransformada Hadamard 2x2, todas elas diretas. O bloco da transformada inversa (bloco -1 ) também é formado por essas três transformadas, mas dessa vez, inversas. A ransformada Hadamard 2x2 direta é idêntica à sua inversa. As transformadas Hadamard são usadas para explorar a correlação residual que existe entre os resultados da DC quando são processadas amostras coloridas ou elementos luma preditos no modo intra 16x16 [3]. odas as transformadas do padrão H.264/AVC usam aritmética inteira o que evita mismatch entre codificador e decodificador e possibilita uma implementação em hardware mais eficiente [4]. Este trabalho apresenta o projeto de uma arquitetura multitransformada com paralelismo programável. Outra característica do IP proposto é a possibilidade de se definir o número de bits da entrada através de um parâmetro. Esta solução é altamente flexível podendo, dessa forma, ser usada em projetos de codecs H.264/AVC com os mais diversos requisitos de desempenho. A segunda seção deste artigo apresenta alguns trabalhos relacionados. A seção três apresenta as características da arquitetura multitransformada. A quarta seção apresenta os resultados de síntese direcionados para FPGAs da Altera e da Xilinx e para tecnologia standard cell. As conclusões deste trabalho são apresentadas na seção cinco. 2. RABALHOS RELACIONADOS Há algumas soluções, em outros trabalhos, que implementam mais de uma transformada em um mesmo hardware. Os trabalhos apresentados em [4, 5 e 6] exploram a idéia da multitransformada mas apenas para as transformadas 4x4. A solução proposta em [4] foi desenvolvida em standard cell com a tecnologia SMC

2 .35µm e usa 653 portas lógicas. Esta solução é capaz de operar a uma freqüência de MHz e alcança uma taxa de processamento de 32Mamostras/s. Esta arquitetura multitransformada usa buffer de transposição e consome quatro amostras por ciclo. O trabalho apresentado em [5] também foi desenvolvido em tecnologia standard cell SMC.35µm e usa 5745 portas lógicas. Esta solução alcança uma freqüência de 1MHz, possibilitando uma taxa de processamento de Mamostras/s. Esta solução não usa buffer de transposição e consome oito amostras por ciclo. A solução [6] apresenta uma multitransformada, desenvolvida em standard cell de tecnologia.1µm, que usa 642 portas lógicas e alcança uma freqüência de operação de 1MHz. Esta solução também consome oito amostras por ciclo e não usa buffer de transposição. Esta solução possui uma taxa de processamento de Mamostras/s. O projeto apresentado em [7] possui uma solução que não é baseada na idéia de multitransformada. Esta solução agrupa as transformadas e a quantização e foi desenvolvida em standard cell SMC.35µm. Os melhores resultados foram encontrados no decodificador que usa 264 portas lógicas e alcança uma freqüência de operação de 62MHz e uma taxa de processamento de 497,5Mamostras/s. Esta solução consome oito amostras por ciclo de clock. A última solução analisada foi apresentada em [] e também não usa a idéia de multitransformada. Apenas a arquitetura da DC direta foi implementada. Esta arquitetura foi mapeada para um FPGA da família Virtex-II Pro da Xilinx. Esta solução consome 16 amostras por ciclo de clock e alcança 172 Mamostras/s rodando a 17,5MHz. A arquitetura usa aproximadamente 772 portas lógicas. As soluções relacionadas usam diferentes alternativas de projeto para obter desempenhos elevados e reduzir o consumo de recursos de hardware. A solução apresentada neste trabalho usa, para o núcleo da multitransformada, uma estratégia de projeto que é completamente diferente das estratégias usadas nas soluções apresentadas acima. Esta solução suporta todas as cinco transformadas previstas pelo padrão H.264/AVC e, além disso, permite a seleção do nível de paralelismo da arquitetura. 3. ARQUIEURA MULI-RANSFORMADA COM PARALELISMO PROGRAMÁVEL O desenvolvimento das arquiteturas de transformadas diretas e inversas sem separabilidade, em um trabalho anterior, conduziu a constatação que existem interessantes similaridades entre os algoritmos e arquiteturas destas transformadas. Deste modo, surgiu a idéia de construir uma arquitetura capaz de realizar o cálculo de qualquer transformada dos blocos e -1, isto é, a DC Direta 4x4, a DC Inversa 4x4, a Hadamard Direta 4x4 a Hadamard Inversa 4x4 e a Hadamard 2x2. Esta arquitetura, por realizar o cálculo de todas as transformadas, foi batizada de arquitetura multitransformada. Além desta idéia, em função da exploração do espaço de projeto das transformadas, surgiu uma idéia ainda mais interessante, qual seja: desenvolver a arquitetura multitransformada com paralelismo programável, isto é, o nível de paralelismo utilizado nos cálculos das transformadas seria definido pelo usuário da arquitetura. Então estas idéias foram exploradas e a arquitetura foi desenvolvida e está apresentada nesta seção do artigo. A primeira etapa no desenvolvimento desta arquitetura foi avaliar criteriosamente as similaridades dos algoritmos de cada transformada. Após esta análise, foi constatado que a arquitetura multitransformada realmente seria viável. Uma importante similaridade entre estes algoritmos é que, para um mesmo passo, existe sempre o mesmo número de adições e subtrações para todas as transformadas. Então foi realizada uma pesquisa na literatura para verificar o quanto de inovação existia nesta solução. Desta pesquisa, foi possível encontrar apenas um trabalho [6] que apresentava o desenvolvimento de uma arquitetura semelhante em alguns aspectos ao que estava sendo proposto. Esta arquitetura [6] realiza os cálculos das quatro transformadas aplicadas sobre matrizes 4x4 de entrada (DC Direta 4x4, DC Inversa 4x4, Hadamard Direta 4x4 e Hadamard Inversa 4x4), mas não apresenta o paralelismo programável e nem suporta a operação da Hadamard 2x2. Com base nesta análise do estado da arte, optou-se por continuar o desenvolvimento da arquitetura. Foi possível constatar que a implementação desta idéia apresentava dois desafios principais: (a) desenvolver um gerenciamento de entrada e saída programável capaz de suportar diferentes níveis de paralelismo e (b) desenvolver uma arquitetura multitransformada com alto desempenho, capaz de atingir a taxa de processamento exigida pelos diferentes níveis de paralelismo. As soluções para estes dois desafios estão muito relacionadas e serão detalhadas nos subitens dessa seção. Os níveis de paralelismo definidos para as entradas são de 1, 2, 4, ou 16 amostras por ciclo. Isso implica que a matriz 4x4 de entrada pode ser lida amostra por amostra, de uma maneira completamente serial, ou, no outro extremo, a matriz completa pode ser lida em um único ciclo. A arquitetura multitransformada deve ser capaz de suportar todos estes níveis de paralelismo. O caso mais complicado de resolver para a multitransformada é justamente o caso do maior nível de paralelismo. Se 16 amostras são lidas a cada ciclo, a arquitetura deve ser capaz de processar todas as 16 amostras em um único ciclo para que, no próximo ciclo, outras 16 amostras possam ser processadas. Por isso, optou-se por usar uma implementação paralela com pipeline para desenvolver o núcleo da arquitetura multitransformada, pois esta solução suporta o processamento de até 16 amostras por ciclo. Assim, o gerenciamento de entrada e saída deverá agrupar as amostras de entrada em grupos de 16 amostras e, então, prover estas amostras para a arquitetura multitransformada.

3 IN R 1 IN 2 R 2 IN 4 R 4 IN 6 R 6 IN R 9 IN 1 R 11 IN 12 IN 14 R 12 R E1 R 2 E2 E3 E4 E5 E6 E7 R 4 R 6 R R 1 R 12 R 14 R R 1 R 2 R 3 R 4 R 5 R 6 R 7 R R 9 R 1 R 11 R 12 R 13 R 14 R 15 IN IN 1 IN 2 IN 3 IN 4 IN 5 IN 6 IN 7 IN IN 9 IN 1 IN 11 IN 12 IN 13 IN 14 IN 15 S S1 S2 S3 S4 S5 S6 S7 S S9 S1 S11 S12 S13 S14 S15 M M 1 M 2 M 3 M 4 M 5 M 6 M 7 M M 9 M 1 M 11 M 12 M 13 M 14 M 15 Figura 1 Arquitetura do gerenciador de paralelismo de entrada Por outro lado, o gerenciamento também é responsável por receber os 16 coeficientes gerados pela arquitetura e disponibilizá-los na saída na taxa definida pelo nível de paralelismo empregado. Para flexibilizar ainda mais o uso desta arquitetura, optou-se por desenvolver todos os blocos com o número de bits de entrada parametrizável. Deste modo, a arquitetura pode ser utilizada em implementações que exijam números de bits diferentes. Os dois próximos subitens desta seção apresentam em mais detalhes estas duas partes principais da arquitetura, enquanto que o último subitem desta seção apresenta os primeiros resultados de síntese desta arquitetura Gerenciamento de Entrada e Saída Programável A solução desenvolvida para gerenciar o nível de paralelismo da entrada e da saída da arquitetura multitransformada considera que o usuário irá indicar o nível de paralelismo desejado através de um sinal externo chamado de PAR neste trabalho. Os níveis de paralelismo possíveis são 1, 2, 4, e 16, como já foi mencionado. Estes níveis foram escolhidos porque apenas com eles é possível processar a matriz 4x4 de entrada com n ciclos de clock, sendo n sempre um número inteiro. Se o paralelismo for 1, então n será 16; se o paralelismo for 2, então n será, e assim por diante, até que quando o paralelismo for 16, então n será 1. O sinal PAR foi codificado para representar os cinco possíveis níveis de paralelismo. Deste modo, a parte de controle do gerenciamento de entrada e saída deverá decodificar este sinal para indicar para o datapath quais operações devem ser realizadas. A abela 1 apresenta os códigos do sinal PAR. O sinal PAR é utilizado em todas as operações do gerenciador de paralelismo, controlando os multiplexadores, gerando os sinais de habilitação de escrita nos registradores internos, etc. A Figura 1 apresenta a arquitetura do gerenciador de paralelismo de entrada. A barreira de registradores apresentada na Figura 1 (R a R 15 ) é utilizada para os níveis de paralelismo 1, 2, 4 e. Os registradores recebem como entrada de uma a oito diferentes entradas externas, dependendo do nível de paralelismo selecionado. Os registradores apresentados na Figura 1 podem ter suas entradas conectadas diretamente em uma das entradas externas (IN, IN 2, IN 4, IN 6, IN, IN 1, IN 12 ou IN 14 ) ou no registrador imediatamente anterior. As saídas estão conectadas no próximo registrador e no multiplexador que seleciona a entrada de cada operador. abela 1 Códigos do sinal PAR indicando o nível de paralelismo Nível de Paralelismo Sinal PAR Decimal Binário 1 amostra por ciclo 2 amostras por ciclo amostras por ciclo 2 1 amostras por ciclo amostras por ciclo 4 1 Na Figura 1, os sinais de controle dos multiplexadores foram omitidos, para permitir uma maior clareza. Quando o nível de paralelismo selecionado é 16, então, com o objetivo de maximizar o desempenho, as 16 entradas paralelas (IN a IN 15 ) não passam pela barreira de registradores e são entregues diretamente para a arquitetura da multitransformada (M a M 15 ), passando primeiro pelo multiplexador de saída. Este conjunto de multiplexadores é controlado pelo mesmo sinal e entrega para a entrada da arquitetura multitransformada ou diretamente os 16 valores da entrada (paralelismo 16) ou os valores armazenados nos registradores R a R 14 (paralelismo 1, 2, 4 ou ). O controle dos multiplexadores que selecionam a entrada dos registradores é um pouco mais complicado, pois a escrita nos registradores depende do nível de paralelismo selecionado. A abela 2 apresenta as entradas dos registradores de acordo com o nível de paralelismo selecionado. Na abela 2 estão destacados em cinza os pontos onde as entradas externas são conectadas aos registradores.

4 M M 1 R 1 R 2 R 3 M 2 M 3 M 4 M 5 R 4 R 5 R 6 M 6 M 7 M M 9 R 7 R R 9 R 1 R 11 M 1 M 11 M 12 M 13 R 12 R 13 R 14 R 15 M 14 R 16 M 15 E E 1 E 2 E 3 E 4 E 5 E 6 E 7 E E 9 E 1 E 11 E 12 E 13 E 14 E 15 R R 1 R 2 R 3 R 4 R 5 R 6 R 7 R R 9 R 1 R 11 R 12 R 13 R 14 R 15 M M 1 M 2 M 3 M 4 M 5 M 6 M 7 M M 9 M 1 M 11 M 12 M 13 M 14 M 15 S S 1 S 2 S 3 S 4 S 5 S 6 S 7 S S 9 S 1 S 11 S 12 S 13 S 14 S 15 Out Out 1 Out 2 Out 3 Out 4 Out 5 Out 6 Out 7 Out Out 9 Out 1 Out 11 Out 12 Out 13 Out 14 Out 15 Figura 2 Arquitetura do gerenciador de paralelismo de saída A partir do que está apresentado na abela 2 é possível gerar os sinais de controle para os multiplexadores de entrada. É importante destacar que o número de entradas utilizadas depende diretamente do nível de paralelismo selecionado. A abela 3 apresenta esta relação indicando quais são as entradas utilizadas para cada nível de paralelismo. abela 2 Entradas dos registradores R a R14 de acordo com o nível de paralelismo Nível de Paralelismo R IN R IN R IN R IN R 1 R R 1 R R 1 R R 1 IN 2 R 2 R 1 R 2 R 1 R 2 R 1 R 2 R 1 R 3 R 2 R 3 R 2 R 3 IN 4 R 3 IN 4 R 4 R 3 R 4 R 3 R 4 R 3 R 4 R 3 R 5 R 4 R 5 R 4 R 5 R 4 R 5 IN 6 R 6 R 5 R 6 R 5 R 6 R 5 R 6 R 5 R 7 R 6 R 7 IN R 7 IN R 7 IN R R 7 R R 7 R R 7 R R 7 R 9 R R 9 R R 9 R R 9 IN 1 R 1 R 9 R 1 R 9 R 1 R 9 R 1 R 9 R 11 R 1 R 11 R 1 R 11 IN 12 R 11 IN 12 R 12 R 11 R 12 R 11 R 12 R 11 R 12 R 11 R 13 R 12 R 13 R 12 R 13 R 12 R 13 IN 14 R 14 R 13 R 14 R 13 R 14 R 13 R 14 R 13 A implementação do gerenciador do paralelismo da saída possui algumas semelhanças com a implementação do gerenciador de entrada. Com um paralelismo de nível 16, o gerenciador de saída entrega diretamente os 16 valores gerados pela arquitetura multitransformada para a saída, sem passar pelos registradores. Esta operação é realizada para maximizar o desempenho quando o paralelismo é de 16 amostras por ciclo. Nos outros casos, os resultados da arquitetura multitransformada são armazenados nos registradores e entregues na ordem correta nas saídas, a partir de deslocamentos sobre os dados armazenados. A Figura 2 apresenta a arquitetura do gerenciador de paralelismo de saída onde, novamente, os sinais de controle foram omitidos. Do mesmo modo que ocorre no gerenciador de paralelismo de entrada, o número de saídas utilizadas no gerenciador de paralelismo de saída depende do nível de paralelismo. A abela 4 apresenta esta relação indicando as saídas utilizadas para cada nível de paralelismo. abela 3 Entradas utilizadas para cada nível de paralelismo Nível de Paralelismo Entradas Utilizadas 1 In 2 In e In 4 In, In 4, In e In 12 In, In 2, In 4, In 6, In, In 1, In 12 e In 14 In 16, In 1, In 2, In 3, In 4, In 5, In 6, In 7, In, In 9, In 1, In 11, In 12, In 13, In 14 e In 15 Nível de Paralelismo abela 4 Saídas utilizadas para cada nível de paralelismo Saídas Utilizadas 1 Out 2 Out e Out 4 Out, Out 4, Out e Out 12 Out, Out 2, Out 4, Out 6, Out, Out 1, Out 12 e Out 14 Out, Out 1, Out 2, Out 3, Out 4, Out 5, Out 6, 16 Out 7, Out, Out 9, Out 1, Out 11, Out 12, Out 13, Out 14 e Out 15

5 X A B C S X 1 X 2 X S X X 5 X 6 X 7 X X X X X X X 14 X S 15 Figura 3 Núcleo da arquitetura multitransformada 3.2. Arquitetura Multitransformada de Alto Desempenho A solução adotada para desenvolver o núcleo da arquitetura multitransformada foi uma arquitetura totalmente paralela com pipeline. A principal diferença reside nos algoritmos implementados, pois para minimizar o consumo de recursos e a velocidade de processamento, as operações internas dos algoritmos das transformadas foram reorganizadas. Assim, foi possível agrupar as operações similares para todas as transformadas e compartilhar os operadores de maneira eficiente entre elas. No algoritmo da abela 5 foi inserido um atraso artificial para sincronizar as operações da transformada 2x2 com as operações das transformadas 4x4. O maior inconveniente desta solução é que as entradas de alguns operadores passaram a necessitar de um multiplexador, para selecionar as entradas corretamente, de acordo com o tipo de transformada realizada. A abela 5 apresenta os novos algoritmos com operações reagrupadas. Esta tabela apresenta as operações de todas as transformadas implementadas na arquitetura multitransformada. Nesta tabela apenas o primeiro estágio é apresentado. O desafio de construir uma arquitetura multitransformada está em adaptar as entradas de alguns dos operadores para receberem diferentes valores de acordo com o tipo de transformada (Figura 4). Para realizar este controle foi inserido um multiplexador nas entradas destes operadores. No primeiro estágio do pipeline (estágio A), alguns operadores possuem uma das entradas sempre fixa e a outra entrada pode receber duas diferentes entradas da arquitetura (X a X 15 ), como está apresentado na Figura 3. Os operadores restantes possuem uma das entradas recebendo ou diretamente uma entrada externa ou esta mesma entrada externa deslocada para a direita, enquanto que a outra entrada pode receber duas diferentes entradas externas. No segundo estágio do pipeline (estágio B), um multiplexador é necessário nas entradas de alguns operadores. Por fim, no último estágio do pipeline (estágio S) alguns operadores podem receber em uma de suas entradas o dado deslocado para a esquerda. inx iny inz (a) out inx iny inz >> (b) out Figura 4 Diferentes entradas dos operadores da arquitetura multitransformada. A saída da arquitetura multitransformada deve, ainda, ser deslocada para a direita quando a transformada for a Hadamard 4x4 direta. Então, todos os operadores do último nível de pipeline terão um multiplexador adicional, que entregará para a saída ou diretamente o resultado da última operação ou o valor deslocado. Este multiplexador só seleciona o valor deslocado quando a transformada for a Hadamard 4x4 direta. inx iny (c) out inx iny << (d) out

6 abela 5 Algoritmos com operações reagrupadas para a multitransformada Hadamard 4x4 Direta DC 4x4 Direta DC 4x4 Inversa Hadamard 4x4 Inversa Hadamard 2x2 Direta/Inversa E S Á G I O A a = X + X 12 a = X + X 12 a = X +X a = X + X 12 a = X + X 2 a 1 = X 4 + X a 1 = X 4 + X a 1 = X 4 +X 12 /2 a 1 = X 4 + X - a 2 = X 1 + X 13 a 2 = X 1 + X 13 a 2 = X 1 +X 9 a 2 = X 1 + X 13 - a 3 = X 5 + X 9 a 3 = X 5 + X 9 a 3 = X 5 +X 13 /2 a 3 = X 5 + X 9 - a 4 = X 2 + X 14 a 4 = X 2 + X 14 a 4 = X 2 +X 1 a 4 = X 2 + X 14 - a 5 = X 6 + X 1 a 5 = X 6 + X 1 a 5 = X 6 +X 14 /2 a 5 = X 6 + X 1 - a 6 = X 3 + X 15 a 6 = X 3 + X 15 a 6 = X 3 +X 11 a 6 = X 3 + X 15 a 6 = X 3 + X 1 a 7 = X 7 + X 11 a 7 = X 7 + X 11 a 7 = X 7 +X 15 /2 a 7 = X 7 + X 11 - a = X X 12 a = X X 12 a = X X a = X X 12 a = X X 2 a 9 = X 4 X a 9 = X 4 X a 9 = X 4 /2 X 12 a 9 = X 4 X - a 1 = X 1 X 13 a 1 = X 1 X 13 a 1 = X 1 X 9 a 1 = X 1 X 13 - a 11 = X 5 X 9 a 11 = X 5 X 9 a 11 = X 5 /2 X 13 a 11 = X 5 X 9 - a 12 = X 2 X 14 a 12 = X 2 X 14 a 12 = X 2 X 1 a 12 = X 2 X 14 - a 13 = X 6 X 1 a 13 = X 6 X 1 a 13 = X 6 /2 X 14 a 13 = X 6 X 1 - a 14 = X 3 X 15 a 14 = X 3 X 15 a 14 = X 3 X 11 a 14 = X 3 X 15 a 14 = X 3 X 1 a 15 = X 7 X 11 a 15 = X 7 X 11 a 15 = X 7 /2 X 15 a 15 = X 7 X Resultados de Síntese da Arquitetura Multitransformada com Paralelismo Programável A síntese da arquitetura multitransformada com paralelismo programável foi direcionada para o mesmo FPGA dos experimentos anteriormente apresentados, ou seja, um FPGA Virtex-II Pro VP7 da Xilinx e a ferramenta de síntese utilizada foi a Synplify Pro da Synplicity. Os resultados de síntese estão apresentados na abela 6. abela 6 Resultados da arquitetura multitransformada Bloco Gerenciador de Paralelismo de Entrada Gerenciador de Paralelismo de Saída Núcleo da Multitransformada Arquitetura Multitransformada Elementos Lógicos Freqüência (MHz) 22 21, , , ,4 Dispositivo 2VP7FF Na síntese cujos resultados estão apresentados na abela 6, o parâmetro que define o número de bits utilizado na entrada da arquitetura foi fixado com o valor oito. Foram utilizados 327 pinos do FPGA e este é um dos maiores problemas desta solução, pois muitos pinos são necessários, mesmo que não sejam utilizados. Por outro lado, a maioria das ferramentas de síntese é capaz de detectar que determinados pinos dos blocos instanciados não estão sendo utilizados e, deste modo, estas ferramentas são capazes de otimizar o processo de síntese, caso o paralelismo seja fixado nas instâncias superiores que utilizam esta arquitetura. Os resultados obtidos com a arquitetura multitransformada com paralelismo programável foram considerados interessantes, porque esta arquitetura atingiu elevadas taxas de processamento e permite uma enorme flexibilidade, podendo ser utilizada em diferentes projetos de compressores H.264, com diferentes níveis de paralelismo, além de tornar desnecessário o projeto de arquiteturas distintas e otimizadas para cada uma das cinco transformadas definidas pelo padrão H RESULADOS E DISCUSSÃO As arquiteturas do núcleo da multitransformada e dos gerenciadores de entrada e saída foram descritos em VHDL, sintetizados para FPGAs da família Stratix da Altera e validados através de simulações usando a ferramenta Quartus II, também da Altera. Com a arquitetura da multitransformada validada, outras duas sínteses foram realizadas: uma direcionada à FPGAs da família Virtex-II Pro da Xilinx (usando a ferramenta Synplify Pro da Synplicity) e outra direcionada para a tecnologia standard cell SMC.35µm (usando a ferramenta Leonardo Spectrum da Mentor Graphics). Estes resultados de síntese são apresentados na abela 7. O parâmetro que define o número de bits usados nas entradas da arquitetura foi ajustado para o valor oito.

7 Solução abela 9 Comparação com trabalhos relacionados ecnologia (SMC) Nível de Paralelismo Número de Portas Lógicas Máxima axa de Processamento (Mamostras/s) Nosso IP.35µ Kordasiewicz []** Cheng [5].35µ Chen [6].1µ 6.42 Lin [7]*.35µ Wang [4].35µ * DC direta e quantização ** apenas DC direta Assim, para entradas de oito bits, foram necessários 327 pinos para toda a arquitetura. Este elevado número de pinos é usado apenas quando o paralelismo é 16. Para os outros níveis de paralelismo, alguns ou vários pinos não são usados. É importante notar que a solução apresentada foi projetada como um IP para ser usada em outros projetos. Neste caso, se o nível de paralelismo não é igual a 16, as ferramentas de síntese são capazes de detectar os pinos não usados dos blocos instanciados e de eliminar estes pinos assim como toda lógica associada a eles, otimizando o uso de recursos e o desempenho. Virtex II Pro 2VP7FF Stratix EP1S1F7C5 SMC.35 um abela 7 Resultados de síntese Freqüência (MHz) Período (ns) 2,4 4,9 123,95,6 21,7 4,33 Área LUs LCs Portas abela Desempenho de acordo com o nível de paralelismo axa de Processamento Nível de Paralelismo (Mamostras/s) Virtex-II SMC Stratix Pro.35µm 1 amostra por ciclo 123,95 2,4 21,7 2 amostras por ciclo 247,9 4,96 437,4 4 amostras por ciclo 495, 1,92 74, amostras por ciclo 991,6 1.63, ,6 16 amostras por ciclo 1.93,2 3.27, ,2 A abela apresenta os resultados de desempenho para a arquitetura proposta considerando o nível de paralelismo selecionado. Desta tabela é possível notar que a taxa de processamento desta arquitetura varia de 123,9 milhões de amostras por segundo a 3,5 bilhões de amostras por segundo. Os resultados da abela indicam que a multitransformada pode ser usada em codecs H.264/AVC direcionados para aplicações de alta resolução como V digital de alta definição, HDV. A abela 9 apresenta uma comparação, com outros trabalhos, da arquitetura apresentada neste artigo. Nossa solução apresenta a mais alta taxa de processamento dentre todas as arquiteturas. O número de portas lógicas usadas em nossa solução é mais alto do que o de todas as outras soluções. Este alto uso de hardware é causado pelo elevado paralelismo no núcleo da multitransformada e pelo controle usado sobre este paralelismo. Comparando a relação entre o número de portas lógicas usadas e a taxa de processamento de todas as soluções é possível perceber quanto hardware foi usado para garantir um elevado desempenho. Neste caso, nossa solução apresenta a melhor relação entre todos os outros trabalhos, usando a menor quantidade de hardware por cada milhão de amostras por segundo obtido. Os resultados obtidos para a arquitetura multitransformada com multiparalelismo foram considerados interessantes porque esta arquitetura alcança taxas de processamento bastante elevadas, possibilita uma enorme flexibilidade para projetistas que usam o padrão H.264/AVC e pode ser usada em diferentes projetos de codecs, com diversos níveis de paralelismo, além de tornar desnecessário o desenvolvimento de uma arquitetura para cada uma das cinco transformadas previstas pelo padrão H.264/AVC. 5. CONCLUSÕES Este artigo apresentou uma arquitetura multitransformada de alto desempenho direcionada ao padrão H.264/AVC. Esta arquitetura multitransformada suporta todas as transformadas do H.264/AVC: DC 4x4 direta, DC 4x4 inversa, Hadamard 4x4 direta, Hadamard 4x4 inversa e Hadamard 2x2. O multiparalelismo disponível nesta

8 arquitetura possibilita a seleção entra cinco diferentes níveis de paralelismo: 1, 2, 4, e 16 amostras por ciclo de clock. Esta arquitetura inovadora e altamente flexível apresentada neste artigo foi descrita em VHDL e sintetizada para FPGAs da Altera e da Xilinx e para tecnologia standard cell. Foram apresentados os resultados desta implementação e discutidos os aspectos relativos ao desempenho. A versão standard cell SMC.35µm da arquitetura multitransformada é capaz de operar a uma freqüência de 21,7MHz, alcançando uma taxa de processamento próxima a 3,5 bilhões de amostras por segundo. Esta versão consome portas lógicas. Este elevado uso de recursos é causado pelo controle de multiparalelismo e pelo núcleo da multitransformada que é totalmente paralelo. Os resultados de desempenho indicam que esta solução pode ser usada até mesmo em codecs H.264/AVC para aplicações de alta resolução como, por exemplo, V digital de alta definição (HDV). REFERÊNCIAS [1] Joint Video eam of IU- and ISO/IEC JC 1, Draft IU- Recommendation and Final Draft International Standard of Joint Video Specification (IU- Rec. H.264 or ISO/IEC AVC), 23. [2] G. Sullivan and. Wiegand, Video Compression From Concepts to the H.264/AVC Standard, Proceedings of the IEEE, v. 93, n. 1, pp. 1-31, IEEE, 25. [3] Richardson, I., H.264 and MPEG-4 Video Compression Video Coding for Next-Generation Multimedia, John Wiley and Sons, 23. [4]. Wang, Y. Huang, H. Fang, and L. Cheng, Parallel 4x4 2D ransform and Inverse ransform Architecture for MPEG-4 AVC/H.264, IEEE International Symposium on Circuits and Systems, pp. -3, IEEE, 23. [5] Z. Cheng, C. Chen, B. Liu, and J. Yang, High hroughput 2- D ransform Architectures for H.264 Advanced Video Coders, IEEE Asia-Pacific Conference on Circuits and Systems, pp , IEEE, 24. [6] K. Chen, J. Guo, and J. Wang, An Efficient Direct 2-D ransform Coding IP Design for MPEG-4 AVC/H.264, IEEE International Symposium on Circuits and Systems, pp , IEEE, 25. [7] H. Lin, Y. Chao, C. Chen, B. Liu, and J. Yang, Combined 2- D ransform and Quantization Architectures for H.264 Video Coders, IEEE International Symposium on Circuits and Systems, pp , IEEE, 25. [] R. Kordasiewicz, and S. Shirani, Hardware Implementation of the Optimized ransform and Quantization Blocks of H.264, Canadian Conference on Electrical and Computer Engineering, pp , 24. [9] H. Malvar, A. Hallapuro, M. Karczewicz, and L. Kerofsky, Low-Complexity ransform and Quantization in H.264/AVC, IEEE ransactions on Circuits and Systems for Video echnology, v. 13, n. 7, pp , IEEE, 23.