Codificadores de voz do MPEG-4. Eriko Porto eriko_porto@uol.com.br

Documentos relacionados

Codificação de áudio para transmissão de voz em tempo real

Prof. Daniel Hasse. Multimídia e Hipermídia

Figura 3.1 Diagrama de blocos do codificador de voz do ITU-T G.723.1

COMPRESSÃO DE DADOS MULTIMÍDIA

Recomendação H.261 para serviços audiovisuais a taxas de transmissão p*64 kbit/s

Codificação/Compressão de Vídeo. Tópico: Vídeo (Codificação + Compressão)

Transmissão e comunicação de dados. Renato Machado

Espectro da Voz e Conversão A/D

DO ANALÓGICO AO DIGITAL: CONCEITOS E

3 Qualidade de serviço na Internet

Sinal analógico x sinal digital. Sinal analógico. Exemplos de variações nas grandezas básicas. Grandezas básicas em sinais periódicos

Sistemas e Conteúdos Multimédia Áudio. Nuno Miguel Gil Fonseca nuno.fonseca@estgoh.ipc.pt

A codificação primária é a representação digital de um canal de voz, sem a inclusão de bits de sincronismo e de verificação de paridade.

Redes de Computadores

Codificadores de Voz em Baixas Taxas de Transmissão

2- Conceitos Básicos de Telecomunicações

PROJETO DE REDES

1 Problemas de transmissão

1 Moldando Pulso para reduzir a largura de banda

Processamento de Sinais Áudio-Visuais

Contribuição acadêmica

Codificador G729a orientado à avaliação da qualidade perceptual do sinal de voz

Conversores D/A e A/D

Amostragem e PCM. Edmar José do Nascimento (Princípios de Comunicações) edmar.nascimento

PROGRAMA DE PÓS-GRADUAÇÃO EM SISTEMAS E PROCESSOS INDUSTRIAIS. Joel Giordani Pereira

UNIVERSIDADE CATÓLICA DE PETRÓPOLIS CENTRO DE ENGENHARIA E COMPUTAÇÃO

1 Modulação digital para comunicações móveis

Introdução à Transmissão Digital. Funções básicas de processamento de sinal num sistema de comunicações digitais.

Módulo 6 Compressão de Imagem e Som

Exp 8. Acústica da Fala

Introdução ao VoIP Codecs

Oficina de Multimédia B. ESEQ 12º i 2009/2010

Como em AM e FM, a portadora é um sinal senoidal com frequência relativamente alta;

Codificação de Canal

1 Transmissão digital em banda base

Sons Vocais do Inglês Americano

Multimédia, Qualidade de Serviço (QoS): O que são?

Ondas II F-228 UNICAMP

Sistemas e Sinais (LEIC) Análise em Frequência. Carlos Cardeira

Comunicação de Dados. Aula 4 Conversão de Sinais Analógicos em digitais e tipos de transmissão

Introdução à Multimédia conceitos

MICROMASTER MM4. Usando o Controle de Malha Fechada (PID) Edição IND 1 Drives technology Suporte Técnico Drives Hotline

Prof.: GIANOTO EE012 - FEI

Engenheiro de Telecomunicações pelo Instituto de Estudos Superiores da Amazônia IESAM (Belém, Pará).

Telecomunicações CONCEITOS DE COMUNICAÇÃO

Figura 1 - Diagrama de um sistema de controle de temperatura que requer conversão analógico-digital para permitir o uso de técnicas de processamento

Quadro de consulta (solicitação do mestre)

Aula de Hoje. Sistemas e Sinais Sinais e Sistemas. Sinal em Tempo Contínuo. Sinal Acústico

PAULO HENRIQUE BEZERRA DE CARVALHO CODIFICAÇÃO DE SINAIS DE VOZ HUMANA POR DECOMPOSIÇÃO EM COMPONENTES MODULANTES

AGRUPAMENTO DE ESCOLAS DE PORTELA E MOSCAVIDE. Informação - Prova de Equivalência à Frequência da disciplina de Aplicações Informáticas B

UNIDADE I Aula 5 Fontes de Distorção de Sinais em Transmissão. Fonte: Rodrigo Semente

Padrões ITU-T H.261 e H.263

Transformada z. ADL 25 Cap 13. A Transformada z Inversa

Fundamentos de Telecomunicações

Teoria das Comunicações Prof. André Noll Barreto. Prova /1 (02/07/2015)

Camada Física. Camada Física

Módulo 4. Construindo uma solução OLAP

Vetor Quantização e Aglomeramento (Clustering)

ICORLI. INSTALAÇÃO, CONFIGURAÇÃO e OPERAÇÃO EM REDES LOCAIS e INTERNET

Errata. Livro: Transmissão Digital - Princípios e Aplicações Edição:1ª Código: 4391 Autores: Dayan Adionel Guimarães & Rausley Adriano Amaral de Souza

Implementações e Comparação de Multiplicadores de Alta Velocidade para Dispositivos Reconfiguráveis

-~~ PROVA DE FÍSICA - 2º TRIMESTRE DE 2014 PROF. VIRGÍLIO

Principais Meios de Transmissão Par Trançado Cabo Coaxial Fibra Ótica Micro Ondas

Entrada e Saída. Prof. Leonardo Barreto Campos 1

Multiplexador. Permitem que vários equipamentos compartilhem um único canal de comunicação

Conversão Digital Analógico e Analógico Digital. Disciplina: Eletrônica Básica Prof. Manoel Eusebio de Lima

Filtros Digitais. Capítulo 6.0 PDS Prof. César Janeczko (2 o semestre 2009) 10 A

5 A Utilização da Técnica do Espaço Nulo e dos Atributos Baseados na Escolha de Coeficientes de Autocorrelações

Pré processamento de dados II. Mineração de Dados 2012

H.264: UMA BREVE DISCUSSÃO ACERCA DA CODIFICAÇÃO DE VÍDEO

Comunicação da informação a curta distância. FQA Unidade 2 - FÍSICA

Prof. Dr. Valter Roesler: Universidade Federal do Rio Grande do Sul

INTRODUÇÃO BARRAMENTO PCI EXPRESS.

INSTRUMENTAÇÃO INDUSTRIAL 1. INTRODUÇÃO / DEFINIÇÕES

RAID. Propõe o aumento da confiabilidade e desempenho do armazenamento em disco. RAID (Redundant Array of Independent Disks )

4 Segmentação Algoritmo proposto

Algoritmo para determinação da taxa de transmissão em uma rede IP

Unidade 2. Largura de Banda e Throughput

Filtragem Espacial. (Processamento Digital de Imagens) 1 / 41

1 Modulação digital Noções básicas

Freqüência dos sons audíveis: entre 20Hz (infra-sônica) e Hz (ultra-sônica, audíveis para muitos animais).

Características do sinal de voz

MLP (Multi Layer Perceptron)

UFSM-CTISM. Teoria da Comunicação Aula-01

Tratamento do sinal Prof. Ricardo J. Pinheiro

Vibrações e Ruído. Guia de Trabalho Laboratorial. Trabalho nº 5 Aquisição e Processamento de Dados em Computador

Quantização de Sinais de Fala Utilizando Redes Neurais Não-Supervisionadas

Tecnologias de Redes Informáticas (6620)

CAPÍTULO 1 INTRODUÇÃO, OBJETIVOS, JUSTIFICATIVAS E ORGANIZAÇÃO DO TRABALHO

UFSM-CTISM. Comunicação de Dados Capacidade de canal Aula-12

Programa da disciplina, i metodologia de ensino, avaliações e bibliografia básica. Objetivos da Disciplina

16.36: Engenharia de Sistemas de Comunicação Aula 14: Códigos cíclicos e detecção de erros

EXERCÍCIOS RESOLVIDOS

O SOM E SEUS PARÂMETROS

CorelDRAW UM PROGRAMA DE DESIGN

3) IMPORTÂNCIA DESTE PROGRAMA DE APRENDIZAGEM NA FORMAÇÃO PROFISSIONAL, NESTE MOMENTO DO CURSO

Amostragem e Conversão A/D

Contadores (Aula1) Prof. Rômulo Calado Pantaleão Camara

Ondas Estacionárias Apostila 2

H.323: Visual telephone systems and equipment for local area networks which provide a nonguaranteed

Transcrição:

Codificadores de voz do MPEG-4 Eriko Porto eriko_porto@uol.com.br

Roteiro Introdução Waveform Codecs Source Codecs Hybrid Codecs Áudio no MPEG-4 Comparação entre alguns codecs

Codificadores de Voz Introdução

Introdução O campo de codificação de voz para transmissão engloba mais do que apenas a digitalização de sinais analógicos de voz. Foco da pesquisa atual: melhor qualidade de voz; menor taxa de bits possível; atraso mínimo; baixa complexidade na implementação.

Introdução O algoritmo juntamente com o dispositivo associado é normalmente denominado codec. ENCODER + DECODER

Introdução Os codificadores de voz podem ser classificados da seguinte forma: Baseados na forma do sinal (waveform codecs) Baseados na fonte do sinal (source codecs) Híbridos (hybrid codecs)

Taxa de bit vs qualidade de áudio Introdução

Codificadores de Voz Waveform Codecs

Waveform Codecs Recuperam o sinal de entrada sem modelar o processo que gerou o sinal. O sinal de saída recria a forma de onda do sinal de entrada, independente da origem do sinal ser música, voz ou ruído. Nenhuma suposição é feita sobre a entrada. Pode replicar o som gerado por qualquer tipo de fonte. O codificador não está otimizado para baixas taxas de bit nem para determinados tipos de fonte sonora.

Waveform Codecs - PCM

Waveform Codecs Dois princípios fundamentais para compressão: Remover informação redundante. Remover informação irrelevante.

Waveform Codecs Quantização representar formas de onda com níveis discretos.

Waveform Codecs Sinal de erro menor variância.

Waveform Codecs D-PCM Codifica apenas a diferença

Waveform Codecs Um sinal com amostras correlacionas apresenta redundância

Waveform Codecs AD-PCM Transmite um sinal de erro (adaptativo) entrada original entrada estimada erro do sinal A entrada estimada é uma função das sucessivas amostras de erro do sinal.

Waveform Codecs AD-PCM Codec ITU-T G.726 AD-PCM

Waveform Codecs AD-PCM Bits por amostra e níveis de quantização do G.726 AD-PCM Taxa de bits 40 kbps 32 kbps 24 kbps 16 kbps Bits por amostra do sinal de erro 5 4 3 2 Níveis de quantização 31 15 7 4

Codificadores de Voz Source Codecs

Source Codecs Como melhorar a compressão? Redundante: O sinal é assumido como sendo unicamente voz, não qualquer forma de onda possível. Irrelevante: Codificar apenas o suficiente para inteligibilidade e identificação do interlocutor.

Source Codecs São projetados para operar sobre um tipo específico de sinal de entrada. Utilizam este tipo de entrada presumida para modelar o sinal da fonte. Codificadores de fonte para voz tentam replicar o processo físico da criação do som vocálico.

O trato vocal. Source Codecs

Source Codecs O ar é empurrado pelo pulmão através do trato vocal e para fora da boca originando a fala. Dois tipos de sons podem ser gerados vocálicos e não vocálicos. Para sons vocálicos ocorre vibração das cordas vocais. A taxa de vibração das cordas vocais determina a freqüência (pitch) da voz Mulheres e crianças jovens tendem a ter pitch mais alto do que homens adultos.

Source Codecs Para sons não vocálicos, as cordas vocais não vibram e permanecem constantemente abertas. A configuração do trato vocal determina o som emitido. Conforme uma pessoa fala, o trato vocal muda sua forma produzindo diferentes sons. A mudança de configuração do trato vocal é relativamente lenta (10 a 100 ms). A quantidade de ar que vem do pulmão determina a altura (loudness) da voz.

Source Codecs A representação no domínio do tempo e da freqüência das vogais /a/, /i/, e /u/

Source Codecs Uma das propriedades mais importantes da voz e que sucessivas amostras de curto prazo apresentam forte grau de correlação. O envelope espectral apresenta alguns poucos máximos locais formantes. Os formantes correspondem às freqüências de ressonância do trato vocal. Um discurso de fala consiste em uma série de fonemas diferentes configurações do trato vocal.

Source Codecs Codificadores de fonte para voz emulam a função do sinal de excitação e o filtro do trato vocal. As amostras são agrupadas em quadros, e cada quadro é analisado para determinar o tipo do sinal de excitação e a forma da filtragem. Para sinais não-vocálicos, o codificador pode usar um gerador de ruído branco para o sinal de excitação. Para sinais vocálicos, o codificador precisa determinar a freqüência de modulação das cordas vocais.

Source Codecs O filtro do trato vocal é uma função algébrica da freqüência do sinal. Algumas freqüências são enfatizadas por esta função, enquanto que outras são suprimidas, dependendo dos valores dos coeficientes algébricos da equação. A maior parte dos modelos de filtros utiliza pelo menos equações lineares de ordem 10.

Modelo matemático Source Codecs

Source Codecs Modelo matemático H(z) u(n) V/UV T G trato vocal (filtro LPC) sinal de entrada voiced/unvoiced período de vibração das cordas vocais (pitch period) volume de ar (gain)

Source Codecs Filtro LPC: Equivalente à equação diferencial linear: Vetor de representação do modelo LPC:

Source Codecs Não existe praticamente nenhuma diferença perceptual em S se: Sons vocálicos o trem de impulsos é deslocado (mudança de fase). Sons não vocálicos sequências diferentes de ruído branco são utilizadas. Síntese LPC Dado A gerar S (técnicas padrão de filtragem). Análise LPC Dado S obter o melhor A (autocorrelação).

Source Codecs LSP Os coeficientes LPC são representados como Line Spectral Pairs (LSP) equivalente matemático ao LPC. Mais fácil de quantizar LSP estão ordenados, limitados e mais correlacionados entre amostras consecutivas:

LSP Line Spectral Pairs Source Codecs LSP

Codificador e decodificador de fonte Source Codecs

Erro do LPC Source Codecs

Source Codecs O codificador de fonte trabalha agrupando amostras em quadros para análise e codificação. O decodificador reconstrói o sinal original quadroa-quadro passando o sinal de excitação pelo filtro do quadro. O codificador determina o valor das variáveis do filtro para cada quadro examinando as amostras do quadro em questão.

Source Codecs O codificador também examina as amostras dos quadros anterior e posterior de forma a melhorar a qualidade dos valores das variáveis do filtro calculadas para o quadro corrente. A janela de amostras que ocorrem depois do quadro corrente é denominada look-ahead.

Codificadores de Voz Hybrid Codecs

Hybrid Codecs Utilizam uma combinação de análise da forma do sinal e modelagem da fonte. Os algoritmos em geral tendem a ser bastante complexos. Utilizam técnica denominada LPAS (Linear Prediction Analysis-by-Synthesis). A codificação do sinal de excitação é mais sofisticada.

Hybrid Codecs Dividem o sinal de voz de entrada em quadros tipicamente 20 ms. Para cada quadro é determinado um filtro de síntese e o sinal de excitação adequado. O sinal de excitação adequado é aquele que após passar pelo filtro dado minimiza o erro entre o sinal de entrada e o sinal reconstruído.

Codificador e decodificador híbrido Hybrid Codecs

Hybrid Codecs O que distingue os codificadores LPAS é como o sinal de excitação é determinado. Conceitualmente cada forma de onda possível é testada através do filtro obtido por análise. O sinal de excitação que produz um sinal de erro com menor energia é escolhido pelo codificador. Esta determinação do sinal de excitação em loop fechado produz um excelente qualidade de voz com taxa reduzida.

Hybrid Codecs Três estratégias principais: Multi-Pulse Excitation (MPE) Regular Pulse Excitation (RPE) Code-Excited Linear Prediction (CELP)

MPE Multi-Pulse Excitation Hybrid Codecs

RPE Regular Pulse Excitation Hybrid Codecs

Hybrid Codecs CELP Code-Excited Linear Prediction

Análise por Síntese Hybrid Codecs

Hybrid Codecs Embora os codificadores MPE e RPE produzam voz com boa qualidade para taxas acima de 10 kbps, eles não são adequados para taxas muito inferiores. Grande quantidade de informações transmitidas para os pulsos de excitação. Se a taxa de transferência é reduzida usando menos pulsos, ou quantizando as amplitudes de forma menos granular, a qualidade da voz reconstruída deteriora rapidamente. Atualmente o algoritmo mais usado para produzir voz com qualidade em taxas abaixo de 10 kbps é o CELP.

Hybrid Codecs CELP O sinal de excitação é dado por um livro de códigos quantizado vetorialmente. Tipicamente o índice do livro de códigos é representado com mais ou menos 10 bits (1024 entradas) O ganho é codificado com mais ou menos 5 bits. Deste modo a taxa de transferência necessária para transmitir as informações de excitação fica bem reduzida.

Hybrid Codecs VQ Vector Quantization (VQ) extensão da idéia de arredondamento da quantização escalar (quantização vetorial em uma dimensão) Na quantização vetorial em duas dimensões (por exemplo) cada par de valores em uma região é aproximado por um par representativo da região.

VQ Vector Quantization Hybrid Codecs VQ

Hybrid Codecs CELP Codificador e decodificador CELP

Codificadores de Voz Áudio no MPEG-4

Áudio no MPEG-4 Características: resiliência a erros; codificação rápida de áudio; escalabilidade; codificação de áudio paramétrica; espacialização ambiental.

Escalabilidade do MPEG-4 Áudio no MPEG-4

Codificador Paramétrico Áudio no MPEG-4

Codificador HVXC Áudio no MPEG-4

Decodificador MPEG-4 CELP Áudio no MPEG-4

Codificadores de Voz Comparação

Comparação entre alguns codecs Qualidade da voz

Bibliografia Keagy, Scott Integrating Voice and Data Networks Cisco Press, 2000. Buford, John F. Koegel Multimedia Systems Addison- Wesley, 1994. Lemmetty, Sami Review of Speech Synthesis Technology Helsinki University of Technology Master's Thesis 1999. Sashia, Alessandro Maso et al. Real Time Implementation of the HVXC MPEG-4 Speech Coder University of Padova 5th Int. Conference on Digital Audio Effects, 2002.

Bibliografia ITU-T Recommendation G.711 Pulse code modulation (PCM) of voice frequencies. ITU-T Recommendation G.726 40, 32, 24, 16 kbit/s adaptive differential pulse code modulation (ADPCM). ITU-T Recommendation G.723.1 Dual rate speech coder for multimedia Communications transmitting at 5.3 and 6.3 kbit/s. ITU-T Recommendation G.728 Coding of speech at 16 kbit/s using low-delay code excited linear prediction. ITU-T Recommendation G.729 Coding of speech at 8 kbit/s using conjugate-structure algebraic-code-excited linear-prediction.