UNIVERSIDADE PRESBITERIANA MACKENZIE ESCOLA DE ENGENHARIA ENGENHARIA ELÉTRICA BIANCA GALVÃO SCATAMACCHIA ÁUDIO DIGITAL EM SISTEMAS DE TV



Documentos relacionados
2- Conceitos Básicos de Telecomunicações

Prof. Daniel Hasse. Multimídia e Hipermídia

1 Problemas de transmissão

Sinal analógico x sinal digital. Sinal analógico. Exemplos de variações nas grandezas básicas. Grandezas básicas em sinais periódicos

1 Transmissão digital em banda base

UNIVERSIDADE CATÓLICA DE PETRÓPOLIS CENTRO DE ENGENHARIA E COMPUTAÇÃO

Redes de Computadores

Camada Física. Camada Física

Filtros de sinais. Conhecendo os filtros de sinais.

Comunicação de Dados. Aula 4 Conversão de Sinais Analógicos em digitais e tipos de transmissão

Multiplexação. Multiplexação. Multiplexação - FDM. Multiplexação - FDM. Multiplexação - FDM. Sistema FDM

Amostragem e PCM. Edmar José do Nascimento (Princípios de Comunicações) edmar.nascimento

Multiplexador. Permitem que vários equipamentos compartilhem um único canal de comunicação

Conversores D/A e A/D

Amostrador PAM A/D PCM D/A PAM Filtro. Figura 1 Digrama de Blocos PCM

UFSM-CTISM. Comunicação de Dados Capacidade de canal Aula-12

Codificação de áudio para transmissão de voz em tempo real

Introdução à Transmissão Digital. Funções básicas de processamento de sinal num sistema de comunicações digitais.

1 Modulação digital para comunicações móveis

Conversão Digital Analógico e Analógico Digital. Disciplina: Eletrônica Básica Prof. Manoel Eusebio de Lima

Miguel Nascimento Nº TIM LTM 12 Janeiro 2011

MODULAÇÃO AM E DEMODULADOR DE ENVELOPE

Quadro de consulta (solicitação do mestre)

Fundamentos de Hardware

Fundamentos de Telecomunicações

DO ANALÓGICO AO DIGITAL: CONCEITOS E

Como em AM e FM, a portadora é um sinal senoidal com frequência relativamente alta;

CONTROLE DIGITAL DE VOLUME

Espectro da Voz e Conversão A/D

UNIDADE I Aula 5 Fontes de Distorção de Sinais em Transmissão. Fonte: Rodrigo Semente

TRANSMISSÃO DE TV 1 TRANSMISSÃO COM POLARIDADE NEGATIVA

Teoria das Comunicações Prof. André Noll Barreto. Prova /1 (02/07/2015)

3 Classificação Resumo do algoritmo proposto

Lista de Exercícios A1

RECEPTOR AM DSB. Transmissor. Circuito Receptor AM DSB - Profº Vitorino 1

CAPÍTULO 5. INTERFACES PARA PERIFÉRICOS DE ARMAZENAMENTO INTERFACES DIVERSAS: FIREWIRE, SPI e I 2 C INTERFACES COM O MUNDO ANALÓGICO

Oficina de Multimédia B. ESEQ 12º i 2009/2010

PROJETO DE REDES

Arquitetura de Rede de Computadores

INSTRUMENTAÇÃO INDUSTRIAL 1. INTRODUÇÃO / DEFINIÇÕES

4. Tarefa 16 Introdução ao Ruído. Objetivo: Método: Capacitações: Módulo Necessário: Análise de PCM e de links

1 Problemas de transmissão

Redes de Computadores sem Fio

Comunicações Digitais Manual do Aluno Capítulo 7 Workboard PCM e Análise de Link

Manual de Instruções. Crossover 4 Vias HD-X4W. Especificações Técnicas (Crossover 4 Vias) Nível máximo de entrada

Setores Trilhas. Espaço entre setores Espaço entre trilhas

III.2. CABLE MODEMS CARACTERÍSTICAS BÁSICAS UNIDADE III SISTEMAS HÍBRIDOS

EA075 Conversão A/D e D/A

3 PROCESSOS DE COMPRESSÃO

NASCE A ERA DA COMUNICAÇÃO ELÉCTROMAGNÉTICA

Introdução Características das placas de som... 2

Redes de Computadores

FUNDAMENTOS DE TV DIGITAL. Objetivos do Sistema Digital. Digital. Comparação. (NTSC x ATSC) Transmissão simultânea de várias programações

4 Arquitetura básica de um analisador de elementos de redes

6 Cálculo de cobertura de sistemas de TV Digital

3 Qualidade de serviço na Internet

SOLUÇÃO DE TELEMETRIA PARA SANEAMENTO

Aula 18. Sistemas de conversão AD e DA

Sistemas e Sinais (LEIC) Análise em Frequência. Carlos Cardeira

Tecnologia de faixa para falha

Descobertas do electromagnetismo e a comunicação

Recomendação H.261 para serviços audiovisuais a taxas de transmissão p*64 kbit/s

Apostila Básica sobre transmissão de TV Digital Padrão Brasileiro

Transmissão e comunicação de dados. Renato Machado

Ligação à Internet. Conceitos de Sistemas Informáticos. Grupo de Comunicações por Computador Departamento de Informática Universidade do Minho

1 Moldando Pulso para reduzir a largura de banda

Eletrônica II. Amplificadores de Potência. Notas de Aula José Maria P. de Menezes Jr.

Escola Superior de Tecnologia e Gestão Instituto Politécnico de Bragança Março de 2006

TRATAMENTO E ANÁLISE DE SINAIS DE BAIXA FREQUÊNCIA PARA EMULAÇÃO DE CANAL RÁDIO

Codificação/Compressão de Vídeo. Tópico: Vídeo (Codificação + Compressão)

Generated by Foxit PDF Creator Foxit Software For evaluation only. Multiplexação e Frame Relay

Telecomunicações CONCEITOS DE COMUNICAÇÃO

MÓDULO 7 Modelo OSI. 7.1 Serviços Versus Protocolos

ICORLI. INSTALAÇÃO, CONFIGURAÇÃO e OPERAÇÃO EM REDES LOCAIS e INTERNET

Sistemas Multimédia. Ano lectivo Aula 11 Conceitos básicos de Audio Digital. MIDI: Musical Instrument Digital Interface

(Versão revista e atualizada do tutorial original publicado em 15/03/2004)

Largura de banda e Throughput (Tanenbaum,, 2.1.2)

5 SIMULAÇÃO DE UM SISTEMA WDM DE DOIS CANAIS COM O SOFTWARE VPI

Codificação e modulação

Modulação por Pulsos

Capítulo 3. Avaliação de Desempenho. 3.1 Definição de Desempenho

PROJETO DE REDES

EXERCÍCIOS RESOLVIDOS

INTRODUÇÃO... 2 TRANSMISSÃO DE SINAL DE VÍDEO SOBRE CABO UTP... 3 TIPOS DE CONVERSORES DE VÍDEO (BALUNS)... 3 DÚVIDAS FREQUENTES...

Multimédia, Qualidade de Serviço (QoS): O que são?

AVALIAÇÃO À DISTÂNCIA 1 GABARITO

SISTEMA DE TREINAMENTO EM COMUNICAÇÃO DIGITAL Modelo: ED-2970

ACIONAMENTOS ELETRÔNICOS (INVERSOR DE FREQUÊNCIA)

dv dt Fig.19 Pulso de tensão típico nos terminais do motor

Filtros Digitais. Capítulo 6.0 PDS Prof. César Janeczko (2 o semestre 2009) 10 A

Programa da disciplina, i metodologia de ensino, avaliações e bibliografia básica. Objetivos da Disciplina

Tipos de Medidores MEDIDOR NÃO-INTEGRATIVO CC

Sistema de Numeração e Conversão entre Sistemas. Prof. Rômulo Calado Pantaleão Camara. Carga Horária: 60h

Aplicações com OpAmp. 1) Amplificadores básicos. Amplificador Inversor

Formatação e Modulação em Banda Básica

Sistemas de Distribuição de CATV e Antenas Coletivas

Redes de Computadores

Engenheiro de Telecomunicações pelo Instituto de Estudos Superiores da Amazônia IESAM (Belém, Pará).

COMPRESSÃO DE DADOS MULTIMÍDIA

Transcrição:

UNIVERSIDADE PRESBITERIANA MACKENZIE ESCOLA DE ENGENHARIA ENGENHARIA ELÉTRICA BIANCA GALVÃO SCATAMACCHIA ÁUDIO DIGITAL EM SISTEMAS DE TV SÃO PAULO 2006

BIANCA GALVÃO SCATAMACCHIA ÁUDIO DIGITAL EM SISTEMAS DE TV ORIENTADOR: PROFESSOR DOUTOR MARCIO EISENCRAFT Trabalho de Graduação Interdisciplinar apresentado ao Curso de Engenharia Elétrica, da Escola de Engenharia da Universidade Presbiteriana Mackenzie, como requisito parcial à obtenção do grau de Bacharel em Engenharia. SÃO PAULO 2006

AGRADECIMENTOS A Deus, fonte de toda sabedoria, pela força e coragem que me concedeu, permanecendo presente em todo o percurso desta caminhada. A todos que contribuíram de forma direta ou indireta na execução deste trabalho. Ao Professor Marcio Eisencraft, pelo constante acompanhamento, comentários e sugestões que enriqueceram o conteúdo deste trabalho.

Só se realiza quem troca suas queixas por atitudes ousadas. (Jorge Forbes)

RESUMO Atualmente, tem-se presenciado grandes avanços tecnológicos na área de Engenharia de Telecomunicações, com impactos transformadores no panorama das comunicações em todo o mundo. Um desses avanços é a televisão de alta definição que é estruturada em novas tecnologias de compressão digital de áudio e vídeo, que possibilitam transportar mais conteúdos. Isto proporciona ao telespectador transmissões com melhor qualidade na apresentação dos conteúdos de programação, a custos progressivamente mais baixos. Este trabalho tem por objetivo apresentar os padrões de áudio digital nos sistemas de televisão digital europeu, americano e japonês. Para melhorar a acessibilidade do material, é feita uma revisão teórica sobre aspectos básicos das técnicas de processamento de sinais envolvidos. Palavras-chave: Áudio digital. Televisão. Amostragem. Conversão. Quantização. Compressão. MPEG.

ABSTRACT Currently, we have witnessed great technological advances in the area of Telecommunications Engineering, with transforming impacts on the communications all over the world. One of these advances is the High Definition Television (HDTV) that is structuralized in new technologies of audio and video digital compression, making possible to carry more contents. The HDTV provides transmissions with better quality in the presentation of the programming contents, with gradually costs lower. This work has as objective to present the audio digital systems in the European, American and Japanese digital television standards. We review basic aspects of digital signal processing techniques involved to increase acesssibility. Word-key: Audio digital. Television. Sampling. Conversion. Quantization. Compression. MPEG.

LISTA DE ILUSTRAÇÕES Ilustração 1 Diagrama de blocos da conversão A/D (LUTHER, 1997)... 12 Ilustração 2 Minimização do efeito alising pelo filtro anti-aliasing (COSTA, 2005)... 13 Ilustração 3 Processo de amostragem na freqüência... 14 Ilustração 4 Princípio de amostragem de sinal (COSTA, 2005).... 15 Ilustração 5 Funcionamento do circuito Sample and Hold (LUTHER, 1997).... 17 Ilustração 6 - Erro de quantização gerado pela quantização (ROBIN, 2000).... 18 Ilustração 7 Quantizador representa o processo de conversão A/D (KLAUTAU JR, 2004).19 Ilustração 8 - Função densidade de probabilidade... 19 Ilustração 9 - Representação dos possíveis níveis de quantização.... 21 Ilustração 10 - Função densidade de probabilidade para 8 bits... 21 Ilustração 11 Remoção de harmônicas pelo filtro de reconstrução (KLAUTAU JR, 2004). 23 Ilustração 12 Diagrama de blocos da decodificação PCM (ROBIN, 2000)... 23 Ilustração 13 - Conversão D/A e efeito da filtragem (KLAUTAU JR, 2004).... 24 Ilustração 14 - Forma de onda codificada em NRZ e BPM (ROBIN, 2000)... 26 Ilustração 15 - Distribuição da Densidade Espectral (ROBIN, 2000)... 26 Ilustração 16 - Diagrama de blocos da codificação AES/EBU (ROBIN, 2000).... 27 Ilustração 17 - Codificação e multiplexação de sinal de áudio para TV digital (ROBIN, 2000).31 Ilustração 18 Curva do mascaramento auditivo (PINHO, 2005)... 35 Ilustração 19 - Estrutura básica do codificador MPEG (REIMERS, 2001)... 36 Ilustração 20 - Conversão A/D dos sinais de áudio no sistema AC-3 (VASQUES, 2000).... 45 Ilustração 21 Diagrama de blocos do codificador Dolby AC-3 (ROBIN, 2000).... 45 Ilustração 22 Camadas de codificação, multiplexação e transmissão do Padrão ATSC.... 50 Ilustração 23 - Camadas de codificação, multiplexação e transmissão do Padrão ISDB... 50 Ilustração 24 - Camadas de codificação, multiplexação e transmissão do Padrão DVB... 51

LISTA DE SIGLAS A/D AAC AES ATSC BC BPM COFDM D/A DAB DBS DVB EBU FM FPB HDTV HiFi IEC ISDB ISDN ISO LFE MDCT MPEG NRZ PAM PCM SBTVD SDI SMR SNR VSB Analógico / Digital Advanced Audio Coding Audio Engineering Society Advanced Television System Commitee Backward Compatible Biphase Mark Encod Coded Orthogonal Frequency Division Multiplexing Digital / Analógico Digital Áudio Broadcasting Direct-to-home Broadcast Satellite Digital Video Broadcasting European Broadcasting Union Frequency Modulation Filtro Passa-baixas High Definition Television High Fidelity International Electrotechnical Organization Integrated Service Digital Broadcasting Integrated Service Digital Network International Organization for Standardization Low Frequency Enhancement Modified Discrete Cosine Transform Moving Picture Experts Group Non retun-to-zero Pulse Amplitude Modulation Pulse Code Modulation Sistema Brasileiro de Televisão Digital Signal Digital Interface Signal to Mask Ratio Signal to Noise Ratio Vestigial Side Band

SUMÁRIO 1 INTRODUÇÃO... 7 2 TEORIA BÁSICA DE SISTEMAS DE ÁUDIO DIGITAL... 9 2.1 VANTAGENS DA UTILIZAÇÃO DO ÁUDIO DIGITAL... 9 2.2 PRINCÍPIOS DA CONVERSÃO ANALÓGICO-DIGITAL... 11 2.2.1 Filtragem anti-aliasing... 12 2.2.2 Amostragem... 13 2.2.3 Sample and Hold... 16 2.2.4 Quantização... 17 2.2.5 Codificação: Sistema PCM... 22 2.3 PRINCÍPIOS DA CONVERSÃO DIGITAL-ANALÓGICO... 22 3 INTERFACES DIGITAIS DE ÁUDIO... 25 3.1 SINAL BPM - BIPHASE MARK-ENCODED... 25 3.2 PROTOCOLO AES/EBU... 26 3.3 SINCRONIZAÇÃO DO ÁUDIO... 28 3.3.1 Sincronização entre sinais digitais de áudio e vídeo... 28 3.4 MULTICANAL... 29 3.4.1 Redução da Taxa de Bits... 30 3.4.2 Áudio Embedded... 31 4 COMPRESSÃO DE SINAIS DE ÁUDIO PARA HDTV... 33 4.1 MPEG SISTEMA EUROPEU... 33 4.1.1 Modelo Psico acústico... 34 4.1.2 MPEG - 1... 36 4.1.2.1Layer I......38 4.1.2.2Layer II...39 4.1.2.3Layer III...40 4.1.3 MPEG-2... 41 4.1.3.1MPEG-2 AAC...42 4.2 DOLBY AC-3 SISTEMA AMERICANO... 43 4.2.1 Normalização do Sistema de Volume... 47 5 COMPARAÇÕES ENTRE AS CODIFICAÇÕES DE ÁUDIO NOS PADRÕES DE TV DIGITAL... 49 6 CONCLUSÕES... 52 REFERÊNCIAS... 54

7 1 INTRODUÇÃO A televisão aberta brasileira é livre e gratuita, constituindo-se numa fonte de entretenimento e informação do povo brasileiro e contribuindo decisivamente para garantir a defesa do idioma, a integração nacional e o exercício da cidadania. Por sua importância, mereceu tratamento constitucional diferenciado dos demais meios de comunicação, tendo sido definida como Comunicação Social (NASCIMENTO, 2002). Nesse ambiente, a televisão aberta está intimamente associada ao sistema de transmissão digital que será adotado e que deve oferecer, na tecnologia digital, capacidade de recepção do sinal com antenas interna e externa, bem como, aplicações diferenciadas aos telespectadores. Os benefícios da tecnologia da TV Digital incluem a capacidade de proporcionar qualidade de imagem e som consideravelmente superior, assim como maior quantidade e diversidade de programação de vídeo e toda uma nova gama de serviços de informação, inclusive uma capacidade interativa que ajudará a trazer de maneira mais completa os benefícios da era da informação aos cidadãos brasileiros. O áudio digital é um dos alicerces da implantação da televisão digital no Brasil, já que não seria viável tal evolução baseada em áudio analógico. Assim, a conceituação e os fundamentos do áudio digital são de extrema importância para as emissoras de televisão e pessoas envolvidas com vídeo. Desta forma, justifica-se um trabalho de graduação interdisciplinar sobre este assunto. O capítulo dois deste trabalho trata os fundamentos de sistemas de áudio digital: a conversão A/D, amostragem, quantização 1, codificação PCM e conversão D/A. No capítulo três, abordam-se as interfaces digitais de áudio, como sincronização e multicanal. O capítulo quatro trata dos os sistemas europeu, americano e japonês de compressão de sinais de áudio para televisão digital de alta definição (HDTV 1 A palavra quantização, apesar de não constar nos principais dicionários da língua, foi utilizada em função de seu sentido consagrado.

High Definition Television). Por fim, as conclusões da monografia são expressas no Capítulo 5. 8

9 2 TEORIA BÁSICA DE SISTEMAS DE ÁUDIO DIGITAL Para se transformar um sinal sonoro em sinal digital adequado ao processamento por equipamentos digitais, é necessário convertê-lo da forma analógica (o sinal elétrico de um microfone, por exemplo) para o formato digital, isto é, códigos numéricos que podem ser interpretados por processadores. Os transdutores padrões de áudio os microfones e alto-falantes são componentes analógicos. Para integração destes componentes ao ambiente digital, necessitase fazer as chamadas conversões analógico-digital (A/D) e digital-analógico (D/A) (ROBIN, 2000). O processo de representação digital é composto basicamente de duas etapas. A primeira é a amostragem e quantização, que compõem a conversão analógico-digital, geralmente resultando em um grande número de bits e a segunda é a compressão, utilizada para reduzí-lo, diminuindo as necessidades de memória e de capacidade do canal de comunicação (LATHI, 1998). A seguir, serão analisadas vantagens da utilização do áudio digital, os princípios da conversão A/D, amostragem e quantização. 2.1 VANTAGENS DA UTILIZAÇÃO DO ÁUDIO DIGITAL Os sistemas de áudio digital necessitam de uma menor relação sinal-ruído (SNR signal to noise ratio) em relação a sistemas que utilizam áudio analógico com mesma qualidade de recepção devido à quantização dos possíveis valores que chegam ao receptor. A comunicação digital é mais eficiente na multiplexação de diferentes sinais digitais e na realização de troca de SNR por largura de banda utilizada (LATHI, 1998). Uma outra vantagem do áudio digital é que, com uma quantização de 16 bits, teoricamente, pode-se alcançar uma variação dinâmica de 96 db, comparado a menos de 80 db dos melhores sistemas analógicos (IAZZETTA, 2005). Com relação à variação dinâmica,

10 cada bit acrescentado na resolução dobra o número de passos (ou valores) usados para representar a variação de amplitude da onda e com isso adiciona 6dB na escala de dinâmica, como mostrado na Tabela 1. Resoluções mais altas oferecem também maior relação sinal ruído. A resolução da amplitude é dada por n 2, em que n é o número de bits. A extensão dinâmica, por sua vez, é representada por: n 20log(2 ) 20nlog 2. (1) Tabela 1 Relação entre resolução de amplitude e extensão dinâmica (IAZZETTA, 2005). A implementação do hardware digital é flexível, permitindo o uso de microprocessadores e de circuitos integrados em larga escala. Além disso, sinais digitais podem ser codificados de forma a reduzir taxas de erro (LATHI, 1998). Outro fator a que se deve a superioridade de sistemas digitais em oposição aos analógicos é a viabilidade de repetidores regenerativos do sinal original transmitido. Estações repetidoras podem ser colocadas ao longo do caminho da comunicação do sistema digital a certas distâncias, suficientes para garantir que ruídos e distorções permaneçam dentro do limite. Em cada estação repetidora, os pulsos que chegam são detectados e novos pulsos limpos são transmitidos para a próxima estação. Este processo previne a acumulação de ruídos e distorções ao longo do caminho da comunicação, pela regeneração periódica dos pulsos nas estações repetidoras.

11 Nos sistemas analógicos, ao contrário, distorções e ruídos são acumulados, resultando numa SNR diminuída continuamente ao longo da transmissão. No caso analógico, não é possível a regeneração do sinal. Pode-se apenas amplificá-lo; porém o ruído também é amplificado de forma que a SNR permanece, na melhor das hipóteses, quase a mesma quando o sinal é amplificado. Apesar das inúmeras vantagens da utilização do áudio digital, ele apresenta algumas desvantagens. A primeira delas é a dificuldade de sincronização entre a conversão A/D e a referência de vídeo, já que a duração do intervalo vertical de vídeo não corresponde ao valor da duração do bloco de áudio, causando perda de sincronismo (ROBIN, 2000). Outras desvantagens são a dificuldade de monitoração do áudio digital (quando embedded, ou seja, o áudio inserido no vídeo, explicado na Seção 3.4.2), a dificuldade de substituição e inversão de canais e o custo elevado do sistema, devido à necessidade de um grande número de multiplexadores e demultiplexadores ao longo do processo de conversão A/D e D/A. 2.2 PRINCÍPIOS DA CONVERSÃO ANALÓGICO-DIGITAL A compreensão dos princípios da conversão A/D é de fundamental importância para a concepção de projetos e aplicações de sistemas digitais (LUTHER, 1997). A conversão A/D amostra um sinal analógico a cada período de amostragem (T ) gerando um sinal de tempo discreto. Em seguida este sinal é quantizado gerando uma seqüência de dados digitais que representam as amplitudes do sinal (LUTHER, 1997). Além desta característica, a conversão A/D é executada geralmente por circuitos integrados, sendo composta no mínimo por quatro etapas, mostradas na Ilustração 1 (LUTHER, 1997).

12 Ilustração 1 Diagrama de blocos da conversão A/D (LUTHER, 1997). A primeira etapa é a filtragem anti-aliasing, que remove as freqüências acima da freqüência de Nyquist evitando o efeito aliasing, como é discutido na Seção 2.2.1. Em seguida ocorre a amostragem, responsável pela conversão da escala de tempo contínuo para tempo discreto. A terceira etapa é a quantização, na qual ocorre a divisão do eixo de tensão em valores discretos finitos. Por fim, tem-se a codificação que define símbolos para cada um dos níveis de quantização. Na prática, a amostragem, a quantificação e a codificação podem ser feitas por um único circuito eletrônico, não necessariamente nesta ordem e até simultaneamente. 2.2.1 Filtragem anti-aliasing De acordo com o Teorema de Nyquist, a quantidade de amostras por unidade de tempo de um sinal, chamada taxa ou freqüência de amostragem f am, deve ser maior que o dobro da maior freqüência contida no sinal a ser amostrado, para que possa ser reproduzido integralmente sem erro de aliasing (LATHI, 1998): f am 2 f max. (2)

O inverso da freqüência de amostragem, T f am 13 1 é chamado de período de amostragem. A metade da freqüência de amostragem é chamada de freqüência de Nyquist e corresponde ao limite máximo de freqüência do sinal que pode ser reproduzido. Como não é possível garantir que o sinal não contenha componentes acima deste limite é necessário filtrar o sinal com um filtro passa-baixas com freqüência de corte igual (ou menor) à freqüência de Nyquist (LUTHER,1997). A filtragem anti-aliasing é realizada por um filtro passa-baixas com resposta impulsiva h d (n) que tem ganho unitário e freqüência de corte c, como mostrado na Ilustração 2. Ele é usado antes da conversão A/D para que nenhuma freqüência acima de f am 2 esteja presente no sinal, provocando aliasing (COSTA, 2005): H d 1, ( ) 0, cc. C T. (3) T Apesar deste filtro ser ideal, na prática toma-se H ( ) pequeno para, minimizando a distorção de aliasing. d Ilustração 2 Minimização do efeito alising pelo filtro anti-aliasing (COSTA, 2005). 2.2.2 Amostragem A amostragem (ou sampling) consiste na medida da amplitude de uma forma de onda analógica em intervalos periódicos (HAYKIN, 2000).

14 No domínio da freqüência, múltiplos da freqüência de amostragem f am (ou carrier ) aparecem com suas próprias bandas laterais. Isto ocorre porque o carrier não é um sinal senoidal, mas sim uma série de pulsos na freqüência de amostragem. Este tipo de sinal é representado no domínio da freqüência por uma série de componentes de freqüência múltiplas da freqüência de amostragem (ROBIN, 2000). A Ilustração 3 representa a transformada do processo de amostragem no domínio do tempo no domínio da freqüência, na qual ocorre a convolução de dois sinais resultando num terceiro sinal. sobrepor. Assim, deve-se ter: Ilustração 3 Processo de amostragem na freqüência. Para que não ocorra aliasing, os espectros da Ilustração 3 não podem se M 2 T M T M 1 f am 2 f max. (4) f am 2 f max

Por exemplo, suponha que um sinal de voz tenha uma freqüência máxima de 4000 Hz. A freqüência de amostragem deverá ser então maior do que 8000 Hz, ou seja, cada segundo desta voz será representado por 8000 amostras. Um sinal de áudio com freqüência máxima igual a 20000 Hz deverá ter uma amostragem com taxa maior do que 40000 Hz (que corresponde a 40000 amostras por segundo). O circuito que permite amostrar o sinal é uma simples chave que se fecha por um curto período na freqüência de amostragem. Por exemplo, se a freqüência de amostragem for de 8 khz, a chave se fecha 8000 vezes por segundo, ou seja, a cada 125 s. Como a chave se fecha por um tempo extremamente curto, teremos na sua saída um sinal em forma de pulsos estreitos, com amplitude igual ao valor instantâneo do sinal, chamados pulsos modulados em amplitude (ou PAM Pulse Amplitude Modulation). A Ilustração 4 exemplifica o principio da amostragem (COSTA, 2005). 15 Ilustração 4 Princípio de amostragem de sinal (COSTA, 2005).

O sinal de amostragem, também chamado função amostra, é constituído de 16 impulsos com a freqüência de amostragem f am,. O espectro deste sinal contém raias nas freqüências múltiplas inteiras de f am 4 f am...., ou seja, 0 Hz (componente continua), f am, 2 f am, 3 f am, A freqüência de amostragem determina a largura de banda e a taxa de bits do sistema de acordo com a seguinte expressão (LUTHER, 1997): Taxa bit (bit rate) = bits f am. (5) amostra Os três padrões de freqüências de amostragem para o áudio são (ROBIN, 2000): a) 32 khz : Usado como padrão de transmissão profissional. b) 44,1 khz: Usado como padrão de consumo. Selecionada para permitir o uso de videotapes equipados com adaptadores PCM para gravação e reprodução de áudio digital. Aplicação principalmente em CD de áudio (compact disc). c) 48 khz : Padrão de áudio para broadcast. É relacionada com a freqüência de 32 khz e facilita a conversão de padrão. 2.2.3 Sample and Hold O circuito sample and hold é usualmente implementado para manter os valores de amostras por tempo suficiente para a operação de quantização nos mesmos. Este circuito, mostrado na Ilustração 5,captura as amostras pelo fechamento do comutador por um pequeno período de tempo, para finalmente provocar a mudança do capacitor até o valor da amostra. Quando o comutador abre, o capacitor mantém o valor da amostra até o próximo pulso de amostragem (LUTHER, 1997).

17 Ilustração 5 Funcionamento do circuito Sample and Hold (LUTHER, 1997). 2.2.4 Quantização A quantização é o processo de conversão de cada amostra da forma de onda analógica num valor digital discreto, ou seja, a representação de valores numéricos quaisquer (com precisão ilimitada) utilizando um número finito de bits. Em outras palavras, a amostragem retira um número de amostras do sinal, de maneira que estas amostras passam a representar o sinal. Todavia, os valores numéricos destas amostras devem ser representados por um determinado número de bits. Isso impõe uma limitação no número de valores numéricos possíveis para representar cada amostra (LUTHER, 1997). Por exemplo, no caso de uma placa de som Sound Blaster da empresa Creative (CREATIVE, 2005), o som pode ser digitalizado com 16 bits por amostra. Estes 16 bits permitem 16 2 = 65536 valores possíveis. A quantização consiste em transformar o valor numérico de cada amostra (obtida no processo de amostragem) em um dos 65536 valores possíveis neste caso. A quantização gera uma distorção conhecida como erro de quantização, mostrada na Ilustração 6. Isto ocorre pois a quantização sempre arredonda (ou trunca) os valores contínuos do sinal analógico, introduz erros. Ou seja, durante o processo de amostragem do valor do sinal analógico, as amostras poderão cair entre dois níveis de

quantização. Neste caso, o valor mais próximo será selecionado, e o erro surgirá durante o processo de recuperação do sinal original (ROBIN, 2000). O erro de quantização poderá ser reduzido aumentando o número de níveis discretos (aumentando o número de bits). Ele pode ser baixo se o número de níveis de quantização utilizados for elevado. A definição do número de níveis a ser utilizado é dado por n Q 2, onde Q é o número de níveis e n é o número de bits que será utilizado para representar cada amostra (LUTHER, 1997). 18 Ilustração 6 - Erro de quantização gerado pela quantização (ROBIN, 2000). A Ilustração 7 ilustra um quantizador que utiliza 3 bits para cada amostra. Assim, n 3 e o número de valores (níveis) possíveis para representar uma amostra seria Q 8(ou seja, 3 Q 2 ). E estes 8 níveis representam números de 0 a 7. Diz-se que este quantizador tem um passo de quantização (também chamado de degrau de quantização) de 1, pois esta é a diferença entre os seus valores de saída. Também na Ilustração 7, observa-se um exemplo do processo de conversão A/D, onde (a) representa o sinal analógico original, (b) os pulsos de amostragem, (c) as amostras e intervalos ou níveis da quantização e (d) a seqüência

19 digitalizada. Desta forma percebe-se que (b) e (c) representam o processo de amostragem, onde o eixo do tempo é dividido em intervalos fixos. As amostras são representadas por valores discretos em cada intervalo de tempo, gerando assim um conjunto de números inteiros. (a) Amplitude (b) Tempo (c) (111) 7 (110) 6 (101) 5 (100) 4 (011) 3 (010) 2 (001) 1 (000) 0 (d) 010 101 101 010 100 110 110 010 001 Ilustração 7 Quantizador representa o processo de conversão A/D (KLAUTAU JR, 2004). Considerando-se um intervalo de quantização de comprimento 1, o erro de quantização de distribui uniformemente no intervalo 0,5; 0,5. Assim, um gráfico para função densidade de probabilidade ( f E (e) ) é mostrado na Ilustração 8. Ilustração 8 - Função densidade de probabilidade. O valor médio quadrático do erro é dado então por:

e 1 12 0.5 2 2 e f E de 0.5. (6) 20 Portanto, o erro médio de quantização de cada amostra é: 1. (7) 12 Quanto à resolução, os conversores A/D ou D/A podem operar com 8 ou 16 bits, de acordo com a qualidade desejada em termos de relação sinal/ruído (SNR) de quantização ou distorção harmônica: a) 8 bits: permitem 256 valores discretos e uma SNR de quantização teórica de aproximadamente 48 db (com quantização linear, que representa intervalos iguais de quantização), calculado a partir da função de densidade de probabilidade originada pela situação mostrada na Ilustração 8, para um valor escolhido de sinal de amplitude pico-a-pico 4 (valor escolhido para que a potência do sinal seja 1) e 256 níveis de quantização, mostrado na Ilustração 9. Portanto, o intervalo de erro de quantização é dado por 4 4, 256 256, resultando na função densidade da Ilustração 10. Supondo que uma amostra é extraída do sinal e seu valor é 2,3. De acordo com a Ilustração 7, esta amostra seria representada por "010", que é associado ao valor 2. O erro de quantização é dado pela diferença entre o valor original e o valor quantizado: 2,3 2 = 0,3. Desta forma, o erro de quantização seria de 0,3. O erro quadrático médio, como pôde ser analisado na Equação 7, é obtido quando se eleva ao quadrado o erro de quantização de cada amostra, mostrado anteriormente na Equação 6, e se tira a média dos valores obtidos.

21 Ilustração 9 - Representação dos possíveis níveis de quantização. Ilustração 10 - Função densidade de probabilidade para 8 bits. A potência de ruído para a função da Ilustração 10 é calculada por: 1 2 1 128 2 e 64de. (8) 1 128 14 3 2 Portanto, como a P P 1 1 3 2 SINAL 14 SNR 3 2, seu valor em db é: RUIDO 14 14 SNR( db) 10 log(3 2 ) 46, 91 db, (9) justificando assim o valor de 48dB, explicitado anteriormente. b) 16 bits: permitem 65536 valores discretos e no máximo 96 db de SNR (cálculo semelhante ao item a). Esta quantização é necessária para HiFi - High-Fidelity ou alta fidelidade - mas geram arquivos maiores. Há um compromisso prático entre qualidade e tamanho dos arquivos

22 de som ou taxa de transmissão destes arquivos. Para um equipamento possuir a identificação Hi-Fi deve ser capaz de reproduzir todas as freqüências sonoras situadas entre 20 Hertz e 20 KHz. 2.2.5 Codificação: Sistema PCM Codificação é o processo de atribuição de símbolos digitais para os níveis de quantização (POHLMANN, 2005). É preciso codificar o sinal para poder melhor armazená-lo e transmiti-lo. O Pulse-Code Modulation (PCM) é um método de conversão de um sinal analógico em sinal digital (LATHI, 1998). É o sistema mais utilizado, sendo padrão para CDs e música em geral. O PCM é o sistema mais simples e mais utilizado em sistemas de codificação digital, porém não é o de melhor eficiência. A largura de banda de um sinal de voz é em torno de 15 khz, mas testes mostram que a inteligibilidade não é afetada se todos os componentes acima de 3400 Hz são suprimidos. Em sistemas PCM para voz em telefonia digital, por exemplo, os componentes acima de 3400 Hz são eliminados por um filtro passa baixas. O sinal resultante é então amostrado numa taxa de 8000 amostras por segundo (8 khz) e 8 bits/amostra (256 valores possíveis). Assim, a taxa de bits necessária para o PCM aplicado à telefonia é de 8 8000 64000 bps. Por isso o canal para telefonia digital é de 64 kbps, por exemplo, usam 2 canais de 64 kbps (128 kbps), 8 canais de 64 (512 kbps) ou outros múltiplos de 64 (LATHI, 1998). 2.3 PRINCÍPIOS DA CONVERSÃO DIGITAL-ANALÓGICO No conversor D/A, as palavras binárias são primeiramente decodificadas pelo valor que elas representam e, logo depois, convertidas para a amplitude da tensão representativa do sinal de áudio original (ROBIN, 2000).

23 A conversão A/D pode causar erros se existirem transientes, chamados de glitches. Portanto, para evitar este efeito, há um processo chamado re-amostragem (resampling) após a conversão para eliminar estes transientes (LUTHER, 1997). Na entrada do processo, existe um circuito sample and hold para cada bit para fazer esta re-amostragem para reduzir a largura dos pulsos (aperture ratio) e remover os glitches (ROBIN, 2000). Ao final do processo, um filtro passa baixas (também chamado filtro de reconstrução), visto na Ilustração 11 é inserido para remover os mais altos harmônicos (acima de f S 2 ), que são adicionados ao longo do processo de amostragem (ROBIN, 2000). Ilustração 11 Remoção de harmônicas pelo filtro de reconstrução (KLAUTAU JR, 2004). A Ilustração 12 resume o processo de decodificação PCM. Ilustração 12 Diagrama de blocos da decodificação PCM (ROBIN, 2000). Cada um dos valores de quantização é organizado em um período de tempo, igual ao intervalo de amostragem, resultando em uma série de sinais: (a) amplitudes quantizadas; (b) reconstrução do sinal; (c) sinal obtido após a filtragem do sinal em (b),

mostrados na Ilustração 13. Portanto, os valores quantizados são determinados a partir de valores de quantização. 24 (a) 010 101 101 010 100 110 110 010 001 (b) (111) 7 (110) 6 (101) 5 (100) 4 (011) 3 (010) 2 (001) 1 (000) 0 Amplitude (c) Tempo Ilustração 13 - Conversão D/A e efeito da filtragem (KLAUTAU JR, 2004). Para a eliminação da característica de "escada" na conversão D/A, usa-se um filtro passa-baixas que tem a função de reconstruir o sinal. A Ilustração 13 ilustra o efeito da filtragem, que transforma o sinal ilustrado no item (b) em um sinal mais suave, ilustrado no item (c). Uma observação a ser feita é que usa-se a conversão D/A para reproduzir um sinal armazenado na memória, que busca os códigos numéricos e, respeitando a sua ordem cronológica, recria o sinal original, ponto por ponto. Para que o sinal seja reconstruído corretamente, é preciso que o conversor D/A recoloque as amostragens ao longo do tempo com a mesma velocidade que foi usada pelo conversor A/D.

25 3 INTERFACES DIGITAIS DE ÁUDIO 3.1 SINAL BPM - BIPHASE MARK-ENCODED A codificação de canal (channel coding) é usada em sistemas de gravação e transmissão digital para casar certas propriedades dos dados codificados com as características do meio de transmissão ou gravação. A codificação de canal adapta os dados originais para conseguir a maior densidade de bits possíveis dentro das limitações do canal (ROBIN, 2000). As características do canal de transmissão resultam numa maior ou menor freqüência de banda-base. Este é o objetivo da codificação de canal para manter a forma do espectro de sinais digitais e minimizar as distorções. São utilizadas diferentes formas de onda para codificação de canal, cada uma com sua própria aplicação e limitação. A Audio Engineering Society (AES) juntamente com a European Broadcasting Union (EBU) desenvolveram um padrão de transmissão de áudio digital, conhecido como padrão AES/EBU, ou também AES3-1992. Importantes características dos códigos são dadas através da comparação entre as formas de ondas codificadas pelo NRZ (Nonreturn-to-zero) ou pelo BPM (Biphase-mark), vistas na Ilustração 14. No código NRZ, zeros e uns são transmitidos como níveis positivo e negativo, e as transições ocorrem somente quando há mudança na seqüência dos bits (ROBIN, 2000). No código BPM, há uma transição no início de cada intervalo do bit e no meio de cada um. Consequentemente, nunca haverá mais que dois uns ou zeros consecutivos. Este código também é chamado de Manchester-I, muito usado para gravação de time code em fitas e codificação do formato AES/EBU (ROBIN, 2000).

26 Ilustração 14 - Forma de onda codificada em NRZ e BPM (ROBIN, 2000). Com relação ao espectro do sinal, pode-se dizer que para alta densidade na transmissão digital, a escolha da modulação de código (code modulation) é muito importante, já que o canal de transmissão determina a escolha do código. Como se pode observar na Ilustração 15, o código NRZ apresenta uma grande concentração de energia em baixas freqüências (ROBIN, 2000). Ilustração 15 - Distribuição da Densidade Espectral (ROBIN, 2000). 3.2 PROTOCOLO AES/EBU Conhecido como AES/EBU Standard, o AES/EBU é um protocolo de interface padrão para equipamentos que trabalham com áudio digital, desenvolvida pela AES juntamente com a EBU, como já dito anteriormente, para permitir que os equipamentos possam receber e transmitir sinais de áudio digital (REIMERS, 2001).

27 O diagrama de blocos simplificado da codificação AES/EBU é mostrado na Ilustração 16. Os sinais de dados à 48 khz de taxa de amostragem terão uma taxa total de dados 32 2 48000 3072 Mbps (ou seja, 32 sub-bandas de frequência e 2 canais, num tava de 48 khz). Após a codificação BPM e a inserção de cabeçalho, a taxa de fluxo (data stream rate) será dobrado para aproximadamente 6144 Mbps (ROBIN, 2000). A estrutura do padrão AES/EBU é composta em frames (quadro), e este, formado por dois subframes denominados subframe A e subframe B. Os frames de áudio são agrupados em blocos de 192 frames, formando um bloco de áudio. A duração do bloco de áudio é 20,83 µs, ou seja 1/48 khz. E, portanto, a duração de um bloco de áudio AES/EBU é 20,83 192 4000 µs (REIMERS, 2001 ; ROBIN, 2000). Ilustração 16 - Diagrama de blocos da codificação AES/EBU (ROBIN, 2000). Com relação à distribuição do sinal de áudio digital, a recomendação AES3-1992 define que a distribuição do sinal AES/EBU deve se feita através de cabo coaxial (ROBIN, 2000). O AES/EBU permite cabos com impedância entre 88 ohms até 132 ohms sejam usados. Cabos de áudio padrão usados em instalações de áudio analógico têm

28 impedância entre 40 e 70 ohms. Com este descasamento, o sinal digital poderá percorrer curtas distâncias neste tipo de cabo, antes que reflexões comecem a degradar o sinal digital. Nas instalações de vídeo, o mesmo cabo coaxial 75 ohms poderá ser usado para o tráfego dos sinais de áudio digital. Porém, se o equipamento não possuir a saída coaxial, deve-se usar um adaptador de 110 ohms para 75 ohms. 3.3 SINCRONIZAÇÃO DO ÁUDIO Sinais de áudio digital são feitos de amostras discretas. Mixagem, inserção ou edição necessitam de uma sincronização das amostras, em fase e freqüência, por uma fonte geradora de referência (ROBIN, 2000). Dois equipamentos idênticos localizados no mesmo estúdio poderão gerar pequenos desvios nas saídas, caso não estejam sincronizados. Da mesma forma como nas instalações de vídeo, é recomendável utilizar um gerador de referência para perfeito sincronismo dos sinais de áudio. 3.3.1 Sincronização entre sinais digitais de áudio e vídeo No ambiente de televisão, a referência do sinal de áudio digital deve estar em sincronismo com o sinal de referência de vídeo para evitar o lip sync (efeito da imagem atrasada ou adiantada em relação ao seu áudio), durante o chaveamento dos sinais (ROBIN, 2000). Em sistemas de TV de 625 linhas, existe um número exato de amostras de áudio por frame de vídeo: 1920 amostras de áudio para uma taxa de amostragem de 48 khz. Já num sistema de 525 linhas, o número de amostras de áudio por frames de vídeo não é um número inteiro, mas sim um número fracionário (8008/5) que pode ser obtido pelo cálculo: 33366 1601,6 amostras, (10) 20,8333

em que 33366 µs é a duração do frame de vídeo e 20,8333 µs, duração do frame de áudio. 29 Após cinco frames de vídeo, um número inteiro de amostras de áudio é obtido: 1601,6 5 8008. (11) A Tabela 2 mostra a relação entre o número de amostras de áudio por frames de vídeo e a taxa de frames de vídeo para três freqüências de amostragem mais utilizadas. Tabela 2: Relação entre amostras de áudio (ROBIN, 2000). 3.4 MULTICANAL Dois ou mais canais reproduzindo sons da mesma fonte com distribuição espacial provêem uma reprodução mais realista pelo fato do ouvinte poder ter a sensação de diretividade do som, ou seja, a presença do surround. Apesar de muitos sistemas multiplexarem canais de áudio juntos por conveniência de gravação ou distribuição, o objetivo é manter os canais independentes uns dos outros, com apenas a mixagem dos canais reproduzidos no espaço onde o som está sendo ouvido (LUTHER, 1997). A presença de dois canais de áudio num sistema chama-se estéreo (que pode ser analógico ou digital) e é freqüentemente utilizada em gravações e sistemas broadcasting de televisão. Os canais esquerdo (L = left) e direito (R = right) correspondem às localizações dos alto-falantes para a reprodução. Desta percepção de som espacial, com mais de dois canais de reprodução, surge o princípio de som surround, que é um dos alicerces do HDTV. Este sistema provê 5.1 canais, sendo cinco canais de áudio em toda a largura de banda) e um canal de baixas freqüências (subwoofer), considerado como 0.1 (LUTHER, 1997).

Considerando o conceito de 5.1 canais, o Dolby Digital é uma avançada forma de codificação de áudio digital que possibilita a armazenagem e transmissão de som digital com alta qualidade e eficiência. É o resultado de experiências nos Laboratórios Dolby em processamento digital de sinais que exploram características da audição humana. O Dolby Digital 5.1 (ou 5 + 1) canais proporciona cinco canais com variações entre 20 Hz a 20 khz esquerdo (L), direito (R), centro (C), esquerdo surround ( L S ) e direito surround ( R ) mais um sexto canal de efeitos de baixa freqüência (LFE: low-frequency S enhancement ), também conhecido como subwoofer, que vai de 20 Hz a 120 Hz. E cada canal pode transportar simultaneamente um diferente sinal. Como a largura de banda audível do canal LFE é apenas um décimo dos outros canais, refere-se a ele como canal 0.1 (ROBIN, 2000). 30 3.4.1 Redução da Taxa de Bits Uma das diferenças entre os sistemas de televisão analógicos e digitais são as taxas dos sinais de áudio e vídeo. Estas taxas sofrem uma redução no espectro: de um total de 6 MHz no analógico (ou 19,4 Mbps), a taxa de áudio é reduzida de 4,8 Mbps para 384 kbps (SPRATLING, 1999). Portanto, uma compressão eficiente é necessária para a longa duração da armazenagem do material e menores custos na distribuição e transmissão (ROBIN, 2000). A redução da taxa de bits é também uma forma de controlar e manobrar o ruído de quantização. Em sistemas com quantização linear, 16 bits de resolução é considerado um número de bits prático mínimo para manter o ruído de quantização abaixo do nível aceitável (SPRATLING, 1999). A codificação do fluxo de bits de áudio é multiplexada com fluxos de vídeo e fluxos auxiliares (ambos previamente codificados) para a obtenção do fluxo de áudio final, visto na Ilustração 17. Um típico sistema de sinais de áudio digital (um canal) tem taxa de bits

31 de 768 kbps antes da compressão. Uma taxa de compressão de 12:1 é aplicada para reduzir a taxa de bits para 64 kbps. Após a compressão, os seis canais de áudio são multiplexados em 384 kbps para a obtenção do fluxo de áudio final (ROBIN, 2000). Portanto, como características mais importantes para o sistema de 6 canais, tem-se: 5 canais + um canal LFE; cada canal é amostrado com freqüência de amostragem de 48 khz; resolução das amostras de áudio são de 16 a 24 bits; taxa de bits máxima de 384 kbps para áudio a ser multiplexado (ROBIN, 2000). Ilustração 17 - Codificação e multiplexação de sinal de áudio para TV digital (ROBIN, 2000). 3.4.2 Áudio Embedded O áudio digital AES pode trafegar independente do sinal de vídeo ou inserido no sinal SDI (signal digital interface: interface de sinal digital). A vantagem de se utilizar o áudio inserido no sinal SDI, ou seja, o áudio embedded, é a possibilidade de embutir, ou seja, multiplexar, de 2 a 16 canais de áudio digital no sinal de vídeo. Esta opção é particularmente utilizada em grandes sistemas, em que as vias de áudio digital se tornam consideráveis em relação ao custo e a garantia de que o áudio está associado com o vídeo.

32 Outra vantagem em se trabalhar com áudio embedded é o fato deste permitir a comutação dos dois sinais simultaneamente em uma matriz serial digital SDI (routing switcher) (BENSON, 2002).

33 4 COMPRESSÃO DE SINAIS DE ÁUDIO PARA HDTV Os três sistemas de televisão digital existentes no mundo - o Advanced Television System Committee (ATSC), americano; o Digital Video Broadcasting (DVB), europeu e o Integrated Service Digital Broadcasting (ISDB), japonês - consideram a transmissão de um sinal digital de áudio submetido a processos de compressão com grande eficiência. Tem-se como objetivo a obtenção de sinais de áudio com som de alto nível de fidelidade e naturalidade, associados a taxas de bits adequadas para sistemas de televisão de alta definição. Este capítulo traz uma visão geral dos sistemas de compressão de áudio para HDTV nos sistemas europeu, japonês e americano: MPEG-2, MPEG-2 AAC e DOLBY AC- 3, respectivamente, sendo de fundamental importância uma explanação sobre o MPEG-1, que é a base do MPEG-2. 4.1 MPEG SISTEMA EUROPEU O MPEG (Moving Picture Experts Group) é um grupo técnico que produz normas para compressão de vídeo e áudio digitais, reunidas no comitê da ISO/IEC (International Organization for Standardization / International Electrotechnical Organization) e subdivide-se em três partes: áudio, vídeo e sistemas (MPEG, 2005). Deste, apenas o áudio - o MPEG/áudio - referido apenas como MPEG, será abordado nesta monografia. O MPEG define a sintaxe da seqüência de bits (bit-stream) de vídeo e áudio codificados a baixas taxas de bits e os meios para multiplexar seqüências de vídeo e áudio sincronamente em uma única seqüência de bits. Os principais motivos da utilização de uma codificação em baixa taxa de bits, já vistos na seção 3.4.1, são a necessidade de minimizar o custo das transmissões e proporcionar um armazenamento eficiente (MPEG, 2005).

34 O comitê MPEG trabalha em fases distintas, identificadas por números seqüenciais (MPEG-1, MPEG-2, MPEG-4, entre outros). Este trabalho abordará o MPEG-1 e o MPEG-2. O primeiro foi desenvolvido para codificar sinais de áudio em formatos mono e estéreo. Já o segundo estabelece padrões apropriados para HDTV. As diferenças do MPEG-2 com relação ao MPEG-1 são a previsão de cinco canais de áudio (full bandwidth) mais um canal de baixa freqüência (o canal LFE), vistos anteriormente na seção 3.4. Para haver uma compatibilidade entre os padrões MPEG-1 e MPEG-2, os sinais dos cinco canais de áudio são combinados formando outros dois canais: L0 e R0, numa operação denominada matrixing. Nesta operação, o decodificador MPEG-1 interpretará os sinais L0 e R0 como sinais dos canais esquerdo e direito, respectivamente, decodificando-os como sinal estéreo. O MPEG-2 fará a operação inversa (dematrixing), recuperando os cinco canais originais. As Equações 12 a 15 representam a transformação para os canais L0 e R0 em função dos canais R, L, C, L S e R S, explicados anteriormente na Seção 3.4 (IANO et al, 2000): L R 1, (12) 1 2 2, (13) ( L C L ), (14) 0 S ( R C R ). (15) 0 S em que os fatores á, â e ä são atenuadores do sinal, evitando sobrecarga (overload) no cálculo do sinal estéreo compatível ( L )., R 0 0 4.1.1 Modelo Psico acústico A compressão de dados de áudio feito pelo algoritmo MPEG remove, em sua maioria, as partes acústicas irrelevantes do sinal de áudio, em virtude da incapacidade do

35 sistema auditivo humano em notar o ruído de quantização em certas faixas de freqüências (IANO et al, 2000). O limiar da audibilidade humana (L) é um nível de pressão do som, dependente da freqüência, dado pela fórmula (REIMERS, 2001): L 20 log p p 0, (16) em que p representa a pressão do som e p 0 a referência de pressão (definida como 20 Pa ). Para cada frequência existe um limiar L a partir do qual ocorre um fenômeno chamado mascaramento auditivo (IANO et al, 2000), mostrado na Ilustração 18. Este é uma propriedade da audição humana em mascarar componentes de baixa potência na ocorrência simultânea de componentes de maior potência localizados muito próximos dentro do espectro do sinal (PINHO, 2005). Ilustração 18 Curva do mascaramento auditivo (PINHO, 2005). Portanto, o objetivo do modelo psico-acústico é a análise do sinal de áudio de entrada, a determinação da posição no espectro na qual o sinal será mascarado e a extensão

36 desse efeito de mascaramento. O modelo descreve principalmente as características de resposta em freqüência e resposta no tempo do sistema de audição humana e fornece a estratégia de codificação de modo que o ruído seja mascarado abaixo do limiar. 4.1.2 MPEG - 1 O sistema de compressão MPEG-1 trata-se de um algoritmo genérico capaz de codificar qualquer fonte de áudio. Tem a capacidade de manter a qualidade do sinal de áudio reproduzido no receptor com uma taxa de compressão em torno de 5 para 1, o que equivale à codificação de uma amostra de áudio com 3 bits por amostra (IANO et al, 2000). O sistema alcança tais níveis de compressão alocando ruído de quantização nas sub-bandas onde o ouvido humano apresenta menor sensibilidade. Desta forma, o modelo psico-acústico determina, a partir do sinal de entrada, o nível de ruído perceptível, ou nível de mascaramento, para cada sub-banda resultante da análise do banco de filtros. A estrutura básica de um codificador de áudio MPEG é mostrado na Ilustração 19 (REIMERS, 2001): Ilustração 19 - Estrutura básica do codificador MPEG (REIMERS, 2001).

37 Primeiramente, o áudio de entrada passa por um banco de filtros polifásicos que divide o sinal de entrada em 32 sub-bandas de freqüência, com larguras de banda iguais através de um banco de filtros passa-faixa (IANO et al, 2000), o que significa que a taxa de amostragem é reduzida 32 vezes em relação à parte da taxa de amostragem utilizada na digitalização (REIMERS, 2001). Porém, as 32 larguras de banda não representam com precisão as bandas críticas do ouvido humano. E, como não é possível a construção de filtros com resposta em freqüência perfeitamente plana na banda de passagem e zero na banda de rejeição, o efeito de aliasing pode ser introduzido durante o processo de dizimação, resultando em perda de informação. De acordo com a Ilustração 19, o áudio de entrada passa simultaneamente através do banco de filtros e de um modelo psico-acústico. Este último determina, como visto na seção 4.1.1, a razão da energia do sinal com relação ao limiar de mascaramento de cada sub-banda. O bloco de quantização usa a relação sinal/mascaramento (ou SMR signal to mask ratio) para decidir como será feita a divisão do número total de bits disponível na subbanda de sinal para minimizar a audição do ruído de quantização (IANO et al, 2000). Por fim, o bloco da formatação da seqüência de bits (bit-stream) utiliza a representação das amostras quantizadas em sub-banda e gera o bit-stream. Já o decodificador decifra o bit-stream gerado pela codificação, restaura os valores quantizados em sub-banda e reconstrói o sinal de áudio a partir de valores da subbanda. Quanto à sua estrutura, o codificador MPEG-1 utiliza um algoritmo de alocação de bits adaptativo, ou seja, o número de bits alocados para cada amostra variam frame a frame, de acordo com o modelo psico-acústico utilizado (IANO et al, 2000). Os modos em que a informação a ser codificada podem ser mono ou estéreo. O modo mono trabalha apenas com um canal. No formato estéreo, a informação pode ser

38 codificada em outros três modos diferentes: estéreo, dual e joint estéreo (IANO et al, 2000; ROBIN, 2000). Nos modos estéreo e dual, os dois canais são transmitidos no mesmo frame, de forma independente, sem a remoção de qualquer tipo de redundância. O estéreo é utilizado para transmitir os canais esquerdo e direito nas aplicações broadcasting; já o dual, para transmitir diferentes tipos de informação nos dois canais de áudio. O modo joint estéreo retira a redundância contida no formato estéreo broadcasting, a fim de otimizar a codificação. Dada a possibilidade aos fabricantes de equipamentos da escolha de diversos parâmetros (qualidade do áudio transmitido, seu tempo de processamento, taxa de transmissão, etc), surgiu a necessidade de se ter mais de um layer, com o objetivo de adequar a escolha dos parâmetros citados aos custos de implementação. Para cada layer, a norma especifica o formato do bit-stream. Os layers são autônomos e compatíveis hierarquicamente, ou seja, o decodificador do layer III é capaz de decodificar seqüências codificadas nos layers III,II e I, enquanto o layer II apenas decodifica seqüências dos layers II e I (IANO et al, 2000). O MPEG-1 define três camadas (layers) para a codificação PCM, oferecendo as seguintes freqüências de amostragem: 32 khz, 44,1 khz e 48 khz. (ROBIN, 2000). A escolha da taxa de bits (em kbps) depende da qualidade do áudio e do modo escolhidos. A diferença básica entre os layers é que a complexidade do codificador/decodificador, o atraso do codificador/decodificador e a eficácia de codificação aumenta do layer I para o layer III. 4.1.2.1 Layer I O layer I apresenta menor complexidade. Atinge taxas de bits em torno de 384 kbps/canal. Sua taxa total varia entre 32 e 448 kbps (IANO et al, 2000).

Cada frame contém as últimas 12 amostras dizimadas de cada uma das 32 subbandas resultantes do banco de filtros. Portanto, sinal de entrada é dividido em frames que contém 384 amostras por canal: 32 12 384 amostras. (17) A duração do frame de áudio para uma taxa de 48 khz é : 39 T frame 1 20,83 s (18) 48k O comprimento do frame, para uma taxa de amostragem de 48 khz, é calculado pelo produto do número de sub-bandas de freqüência pelo número de amostras num bloco pelo tempo de duração da amostra (ROBIN, 2000): 32 12 20,83 8 ms. (19) Possui um fator de escala de 6 bits por banda (120 db), em que o fator de escala é um número utilizado para multiplicar a amostra requantizada de uma sub-banda). Pode ser utilizado em um ou dois canais, sendo o último estéreo ou joint estéreo. Sua utilização é mais apropriada em aplicações como gravações e uso em estúdios devido ao seu frame ter apenas 8 ms. Por exemplo, o Philips Digital Compact Cassette (DCC ) utiliza uma taxa de 192 kbps (ROBIN, 2000). 4.1.2.2 Layer II O layer II melhora a performance do layer I, permitindo uma compressão adicional. Atinge taxas de bits em torno de 128 Kbps/canal. Sua taxa total varia entre 32 e 384 kbps (ROBIN, 2000). Nesse formato de compressão, o frame consiste de 36 amostras por sub-banda e é dividido em 3 partes, e cada parte contém 12 amostras por sub-banda (como no layer I). Portanto, o sinal de entrada é dividido em frames que contém 1152 amostras por canal: 32 36 1152 amostras. (20)

O comprimento do frame, portanto, para uma taxa de amostragem de 48 khz, é 40 calculado por: 384 3 20,83 24 ms (21) Possui um fator de escala de 6 bits por banda (120 db) e pode ser utilizado em um ou dois canais, sendo o último estéreo ou joint estéreo. É mais comum ser utilizado em CD-ROM, Digital Video Broadcasting (DVB), Digital Audio Broadcasting (DAB), Direct-to-home Broadcast Satellite (DBS), multimídia, entre outros sistemas. 4.1.2.3 Layer III Mais conhecido como MP3, o MPEG-1 layer III provê a melhor qualidade de áudio a baixas taxas de bits e alcança maiores níveis de compressão. Seu banco de filtros proporciona uma alta resolução de espectro e adapta resoluções em tempo e freqüência para melhor competir com diferentes sinais de entrada. Atinge taxas de bits em torno de 64 kbps/canal e utiliza 576 bandas de frequência. Sua taxa total varia entre 32 e 320 kbps (ROBIN, 2000). O banco de filtros é um filtro híbrido, o qual consiste de um filtro polifásico e um filtro MDCT (Modified Discrete Cosine Transform) para compensar a baixa precisão do banco de filtros, melhorar a resolução e manter a compatibilidade entre as camadas 1 e 2 (FRAUNHOFER IIS, 2006). O Modelo Perceptual é o principal responsável pela qualidade sonora obtida pelo codificador MP3. Este modelo usa desde um banco de filtros separados para retirar os valores mascarados por picos de amplitude do sinal. A saída do modelo consiste nos valores para o mascaramento ou valores de ruído permitidos para cada bloco de codificação. Se o ruído de quantização ficar abaixo do valor de mascaramento, o processo de compressão terá um resultado impossível de ser distinguido do sinal original (FRAUNHOFER IIS, 2006).