Processamento de Sinais Áudio-Visuais Parte II Voz e Áudio Prof. Celso Kurashima Introdução à Engenharia da Informação Fevereiro/2011 1 Snapshot sinais no osciloscópio 2 1
processamento de voz e áudio Sistemas Home Theater 3 1. Introdução 2. Sinais de Voz 3. Sinais Áudio Agenda 4 2
1. Introdução Voz vs. Áudio Semelhanças? Diferenças? 5 2. Processamento Digital de Sinais de Voz Noções sobre sinais de voz Processamento digital Pesquisa e desenvolvimento 6 3
Produção da Fala Ondas acústicas cordas vocais A fala que as pessoas emitem é produzida pelo ar que vem do pulmão, atravessa as cordas vocais, passa pela boca e nariz, e é emanada pelo ar na forma de ondas acústicas 7 Conversão em Sinal Digital Para enviar e receber a voz por meio de equipamentos ou computadores, é necessário converter o som da voz em formato digital. Essa conversão é feita pela conversão da voz em sinal elétrico analógico, e depois pela sua conversão em sinal digital. 8 4
Conversão pela placa de som. Microfone Placa de som do computador 9. Conversão digital na telefonia Telefone residencial Central Telefônica Transmissão digital para outras Centrais Telefônicas 10 5
Conversão digital na telefonia celular digital. Transmissão digital para Central de Controle Telefone Celular Estação Radio Base 11 Serviços e aplicações Serviços e aplicações que utilizam voz digital são vastos. Alguns exemplos: Telefonia celular digital Telefonia IP Gravadores digitais de voz Equipamentos de resposta automática (ex. Serviço bancário por telefone) Reconhecimento de pessoas pela voz Comandos de computadores ou equipamentos eletrônicos pela voz 12 6
A telefonia IP A telefonia IP, também conhecida pela sigla VoIP (voz sobre IP) é uma aplicação onde o sinal digital de voz é transmitida através de rede de computadores ou pela Internet. A conversação pode ser estabelecida entre dois computadores, ou entre computador e telefone comum 13 Telefonia IP Laptop e headset Computador e headset INTERNET Telefonia convencional 14 7
Serviços VoIP fone@rnp Skype 15 Áreas de Processamento de voz Codificação (compressão) Reconhecimento de voz De palavras faladas De locutor Síntese de Voz Conversão texto para fala Melhoria de voz (enhancement) Auxílio auditivo Redução de ruído perceptual 16 8
Codificação de voz Objetivo é transformar a voz digital amostrada e quantizada em outros formatos que ocupem menos quantidade de memória de armazenamento ou de banda de transmissão. Há duas abordagens: Forma de onda Parâmetros de modelagem de produção da fala 17 codificação de forma de onda O PCM é o método mais conhecido: PCM linear PCM logaritmico (ITU-T G.711) PCM diferencial DPCM e DM ADPCM (ITU-T G.721) Por transformadas subbandas 18 9
Taxa de bits do PCM Qual a taxa de bits do PCM? Dado que: Frequência de amostragem é: 8 KHz São usados 8 bits por amostra Cálculo: Taxa bits = 8 bits/amostra x 8000 amostras/seg Taxa bits = 64000 bits/seg 19 Codificação Paramétrica Consiste na obtenção de parâmetros do sinal de voz para atender à modelagem da produção da fala. Método da Predição Linear LPC Apenas parametros são transmitidos ou armazenados: grande redução da taxa de bits. Exemplo: LPC-10 a 2400 bits/seg 20 10
Método da Predição Linear Passos: Calcula coeficientes LPC para a produção de voz e informação de pitch, durante uma certa janela de voz Na recepção os parâmetros são usados num filtro de síntese, que reproduz (sintetiza) uma voz que é bem próxima da original 21 Desafios Há o compromisso entre baixa taxa-debits e a qualidade do sinal de voz recuperado Os esquemas de codificação atuais usam conceitos matemáticos complexos e buscam a qualidade perceptual em contraposição à forma de onda 22 11
Reconhecimento de Voz Também pode usar como base os parâmetros da modelagem da produção da fala como os coeficientes LPC e os coeficientes Cepstrum Baseia-se em treinamento do sistema, requerendo extensos bancos de dados de voz: Treinamento Testes 23 Reconhecimento de Voz Reconhecimento de palavras de comando Várias pessoas falam a mesma palavra Testes de acerto da palavra com base de dados de várias pessoas Reconhecimento de locutor Aquelas pessoas que desejamos identificar treinam o sistema com sua voz Testes de acerto com pessoas diferentes 24 12
Técnicas de Reconhecimento Método de probabilidades HMM Hidden Markov Model Redes Neurais Artificiais MPL Multi-Layer Perceptron RBF Radial Basis Function 25 Síntese de voz Utiliza da modelagem da produção da fala (parametros) identifica sílabas das palavras de acordo com regras de linguagem converte texto para sinais de voz seguindo as regras de amostragem e temporizações pré-determinadas 26 13
Melhoria do Sinal de Voz Utilizado na presença de forte ruído no sinal, ou na codificação de baixa qualidade Abordagem perceptual Realça características/parâmetros importantes da voz 27 3. Processamento de Áudio Digital Áudio refere-se aos sons acústicos na forma de sinal elétrico, geralmente oriundos de instrumentos musicais e canções. O Áudio Digital é o sinal de áudio analógico convertido para o formato digital, usualmente com alta fidelidade. 28 14
Possibilidades O sinal de áudio digital pode ser: armazenado em computadores, gravado em discos de CD s, ser associado aos filmes de DVD s, ser distribuído pela Internet, e ser transmitido por rádio digital e TV digital. 29 Aplicações de áudio digital Grande parte das aplicações de áudio digital são associadas às aplicações de vídeo digital. As principais aplicações de áudio digital atualmente são: No cinema digital, onde se utiliza o sistema Dolby Digital AC-3. Em discos de vídeo digital DVD com áudio para home theater, que também utiliza o sistema Dolby Digital AC-3 e o áudio surround 5.1. 30 15
Aplicações Na codificação MP3 de canções e músicas, que é baseada no sistema MPEG-2, é bastante utilizada para transmissão ou envio de arquivos musicais pela Internet. Na composição musical por computação e nos instrumentos digitais, são cada vez mais usados o áudio digital pela sua facilidade de utilização e pela alta-fidelidade. Sistemas de áudio profissional, com equipamentos de altíssima fidelidade. 31 Áudio Imersivo O Áudio Imersivo é não apenas uma aplicação de áudio digital, mas também uma linha de pesquisa para o desenvolvimento de futuros sistemas. Suas principais características são: A sensação de imersão acústica no cenário. Com diversos alto-falantes pode-se compor os sons em qualquer posição do espaço, através de equações acústicas complexas. Todos alto-falantes contribuem na formação do som ambiente. Trata-se de uma combinação perfeita com Video Imersivo Tridimensional. 32 16
Audio Imersivo Pesquisa Acadêmica em Laboratório da USP 33 Leitura sugerida Leitura do ponto de vista das aplicações (não é necessário entender profundamente as questões matemáticas) Chapter 22 do livro online: The Scientist and Engineer's Guide to Digital Signal Processing, by Steven W. Smith. <http://www.dspguide.com/> 34 17
Referências em Voz Lawrence R. Rabiner, Ronald W. Schafer. Digital Processing of Speech Signals. Prentice Hall, 1978. John R. Deller, Jr., John G. Proakis, John H. Hansen. Discrete Time Processing of Speech Signals. Prentice Hall, 1993. S. FURUI. Digital speech processing, synthesis, and recognition. New York: Marcel Dekker, 1985. N. S. JAYANT, P. NOLL. Digital coding of waveforms. Englewood Cliffs: Prentice-Hall, 1984. Douglas O'Shaughnessy. Speech Communications: Human and Machine. 2nd ed. Wiley-IEEE Press, 1999. 35 Referências em Áudio William M. Hartmann. Signals, Sound, and Sensation: Modern acoustics and signal processing. AIP Press, 1996. Glen Ballou. Handbook for Sound Engineers, 3rd ed. Focal Press, 2005. Hyoung-Gook Kim, Nicolas Moreau, Thomas Sikora. MPEG-7 Audio and Beyond: Audio Content Indexing and Retrieval. Wiley, 2006. Jeroen Breebaart, Christof Faller. Spatial Audio Processing: MPEG Surround and Other Applications. Wiley, 2008. Francis Rumsey. Spatial Audio: Music Technology. Focal Press, 2001. Marina Bosi, Richard E. Goldberg. Introduction to Digital Audio Coding and Standards. Springer, 2002. 36 18
Livro: Voz & Audio Ian McLoughlin. Applied Speech and Audio Processing: With Matlab Examples. Cambridge University Press, 2009. ISBN: 9780521519540 Exemplos práticos em Matlab 37 19