4 Robustez do Reconhecimento de Voz

Documentos relacionados
3 Identificação de Locutor Usando Técnicas de Múltiplos Classificadores em Sub-bandas Com Pesos Não-Uniformes

Transmissão sem distorção

PROCESSAMENTO DIGITAL DE IMAGENS

4 Técnica de Combinação de Medidas de Verossimilhança Baseada no Espaço Nulo

3 Reconhecimento de Voz Distribuído

3 Os Atributos MFCC e PNCC do Sinal de Voz

Resumo. Filtragem Adaptativa. Filtros adaptativos. Tarefas desempenhadas pelos filtros

RESTAURAÇÃO E RECONSTRUÇÃO DE IMAGENS. Nielsen Castelo Damasceno

6 Análise dos Atributos de Voz em Reconhecimento Distribuído com a Utilização do Codec de Voz ITU-T G.723.1

INTRODUÇÃO AO PROCESSAMENTO DIGITAL DE IMAGENS SENSORIAMENTO REMOTO

6 Modelo Gamma-Cetuc (GC)

I-6 Sistemas e Resposta em Frequência. Comunicações (6 de Dezembro de 2012)

I-6 Sistemas e Resposta em Frequência

Códigos de controle de erros: introdução

O processo de filtragem de sinais pode ser realizado digitalmente, na forma esquematizada pelo diagrama apresentado a seguir:

II-6 Análise de Ruído e Capacidade de Canal

Filtros Digitais. Filtros básicos, parâmetros no domínio do tempo e frequência, classificação de filtros

Introdução à Teoria do Aprendizado

Classificação de Padrões. Abordagem prática com Redes Neurais Artificiais

Aprendizado de Máquina

3 Esquema de pré-distorção

Redes Neurais. Controladores Neurais. Prof. Paulo Martins Engel. Identificação de Sistemas

Aula 22. Conversão Sigma-Delta (continuação)

7 Conclusões e desenvolvimentos futuros

Tratamento da Imagem Transformações (cont.)

SEL-0339 Introdução à Visão Computacional. Aula 3 Processamento de Imagens Coloridas

7 Extração de Dados Quantitativos

3 Extração de Atributos

II-6 Análise de ruído e capacidade de canal

Mapeamento do uso do solo

Sistemas lineares. Aula 3 Sistemas Lineares Invariantes no Tempo

Descritores de Imagem (exemplos)

UNIVASF de Sinais e Sistemas

Determinação de vícios refrativos oculares utilizando Support Vector Machines

4 Método Proposto CR AD PA NDVI Descrição geral do modelo

2 Modelos de Sinais para Sistemas DS-CDMA

Introdução ao Processamento Digital de Imagens. Aula 9 Restauração de Imagens. Prof. Dr. Marcelo Andrade da Costa Vieira

Restauração de Imagens. Tsang Ing Ren - UFPE - Universidade Federal de Pernambuco CIn - Centro de Informática

Introdução aos sinais discretos e conversão de sinais analógicos para digitais

Processamento Digital de Sinais. Convolução. Prof. Dr. Carlos Alberto Ynoguti

Sistema de Ocultação de Dados em Áudio através de Técnicas de Compactação e Espalhamento Espectral

3 Extração de Regras Simbólicas a partir de Máquinas de Vetores Suporte 3.1 Introdução

Comunicação Digital Exercícios

3 SÍTIOS DE MEDIDAS E PRÉ-PROCESSAMENTO DE DADOS

INF Fundamentos da Computação Gráfica Professor: Marcelo Gattass Aluno: Rogério Pinheiro de Souza

Propriedades da Convolução

SUMÁRIO FUNDAMENTOS E VISÃO GERAL 19 CAPÍTULO 1 PROCESSOS ALEATÓRIOS 49

Capítulo 6 Filtragem, Amostragem e Reconstrução

Teoria da Informação

3 Filtro de Kalman Discreto

Processamento digital de imagens

Transformada de Fourier: fundamentos matemáticos, implementação e aplicações musicais

DOCUMENTO TE CNICO. Hikvision. Tecnologia de Desembaçamento Digital. [Headline] Para liberação [12/01/2012]

1.1 Breve Histórico OFDM

Aplicação da Transformada S na Decomposição Espectral de Dados Sísmicos

Parte I O teste tem uma parte de resposta múltipla (Parte I) e uma parte de resolução livre (Parte II)

Conforme explicado em 2.4.3, o sinal de voz x(n) às vezes é alterado com a adição de ruído r(n), resultando num sinal corrompido y(n).

Detalhes do método proposto e da sua implementação são descritos nas

Diagnóstico Médico de Imagem Auxiliado por Computador

Estorno de Cheque FS217

Revisão Análise em frequência e amostragem de sinais. Hilton de Oliveira Mota

Licenciatura em Engenharia Biomédica. Faculdade de Ciências e Tecnologia. Universidade de Coimbra. Análise e Processamento de Bio-Sinais - MIEBM

Sistemas lineares. Aula 1 - Sinais

1 Introdução. 2 Especificação

José Alberto Quintanilha Mariana Giannotti

Sinais e Sistemas. Tempo para Sistemas Lineares Invariantes no Tempo. Representações em Domínio do. Profª Sandra Mara Torres Müller.

PRINCÍPIOS DE COMUNICAÇÃO

SEL Introdução ao Processamento Digital de Imagens. Aula 9 Restauração de Imagens Parte 2

3 Processamento e Análise Digital de Imagens

Introdução aos Filtros Digitais

Redes Neurais Convolucionais

Aspectos da Visualização Volumétrica de Dados Sísmicos. André Gerhardt

Restauração de Imagens

i) Filtragem ii) Amostragem e reconstituição cuja Transformada de Fourier (TF) é dada na Figura seguinte e que constitui a entrada de um SLIT S.

Figura 5.11 Densidade espectral do erro para o ensaio FXLMS Híbrido.

Visão Computacional. Alessandro L. Koerich. Programa de Pós-Graduação em Engenharia Elétrica Universidade Federal do Paraná (UFPR)

3 Conceitos básicos de filtragem digital multitaxa

INTELIGÊNCIA COMPUTACIONAL

2 Reconhecimento Facial

7. Color Image Processing

SSC510 Arquitetura de Computadores 1ª AULA

2

Redes Neurais Convolucionais

Lista de Exercícios GQ1

Operações Aritméticas

Protótipo de Software de Reconhecimento de Voz Para Navegação em Jogos, Utilizando Rede Neural Artificial

Sistemas e Sinais (LEE & LETI)

Processamento Digital de Imagens

Computação Gráfica - 10

Propriedades da Convolução

Compressão de Imagens Usando Wavelets: Uma Solução WEB para a Codificação EZW Utilizando JAVA. Utilizando JAVA. TCC - Monografia

Estimação na Presença de Ruído colorido

Qualidade Radiométrica das Imagens Sensor ADS40

Análise e Processamento de Bio-Sinais. Mestrado Integrado em Engenharia Biomédica. Sinais e Sistemas. Licenciatura em Engenharia Física

4 Detecção de Silhueta

Fundamentos da Matemática e Estatística

Processamento de Som com Escala de Mel para Reconhecimento de Voz

TE060 Princípios de Comunicação. Probabilidade. Probabilidade Condicional. Notes. Notes. Notes

UNIVERSIDADE DO ESTADO DE MATO GROSSO - UNEMAT. Faculdade de Ciências Exatas e Tecnológicas FACET / Sinop Curso de Bacharelado em Engenharia Elétrica

Transcrição:

4 Robustez do Reconhecimento de Voz Nos capítulos anteriores foram apresentados a teoria e o funcionamento das etapas que conformam o sistema de reconhecimento de voz contínua. No entanto, se o que se deseja é um sistema que trabalhe de maneira robusta e confiável, como se tivesse sido treinado nas mesmas condições nas que se realiza o reconhecimento, é preciso acrescentar técnicas adicionais que não exijam uma carga computacional excessiva. Na atualidade, estas técnicas de robustez constituem uma área de pesquisa fundamental no processamento de voz e estão divididas em três blocos principais, como foi mencionado no capítulo 1, as quais visam a gerar sistemas de reconhecimento de voz que apresentem elevadas taxas de acerto, mesmo em ambientes adversos. Este capítulo apresenta o efeito do ruído sobre a sinal voz e as técnicas de robustez citadas anteriormente, e também descreve a estrutura e a distribuição dessas técnicas neste trabalho. 4.1 Reconhecimento de voz em presença de ruído Uma das maiores dificuldades que existem nos sistemas reconhecedores de voz é a degradação do sinal quando a voz é contaminada em ambientes adversos. Isso sedeveaofatodequeascondições ambientais nasqueosistema vai se desenvolver alteram as estatísticas dos vetores que as representam, obtendose desempenhos ruins devido as diferenças existentes entre as características de treinamento e as características de reconhecimento. Uma das condições adversas mais relevantes que implica maiores dificuldades nos sistemas de reconhecimento de voz, é o ruído aditivo, tornando-se na atualidade o motor da investigação no campo de reconhecimento automático robusto de voz. Este tipo de ruído é adicionado ao sinal de voz no domínio do tempo, e pode ser considerado como:

Capítulo 4. Robustez do Reconhecimento de Voz 50 Estacionário: se possui uma densidade espectral que não varia com o tempo, como o caso do ruído aditivo branco, o qual tem um espetro de potência plana, ao contrário dos ruídos aditivos coloridos, onde o espetro de potência tem características diferentes para certas frequências. Não estacionário: se suas densidades espectrais mudam com o tempo,por exemplo, as vozes espontâneas, efeitos da respiração, etc. Alémdesse tipoderuído,existeumoutroquedamesma maneiradegrada o sinal de voz antes de ser registrado e processado. Esse tipo de ruído chamado de distorção, mistura-se de forma convolucional com o sinal de voz no domínio do tempo. A Fig 4.1 mostra um modelo comumente utilizado para o ambiente acústico [45], onde é representado o problema geral de reconhecimento de voz em condições reais. Figura 4.1: Diagrama de blocos do modelo de ambiente acústico. onde h(t) representa o ruido convolutivo do canal, e r(t) representa o ruído aditivo do ambiente. Segundo o modelo apresentado, o sinal de voz degradado, y(t), pode ser expresso em termos do sinal de voz limpa x(t), através da equação 4-1, que analiticamente determina como a adição de ruídos degrada o sinal de voz. y(t) = x(t) h(t)+r(t) (4-1) onde x(t) e r(t) são estatisticamente independentes e h(t) é considerado como um deslocamento nos parâmetros da voz limpa sendo muitas vezes removido através de algum processo de filtragem linear [46]. Esta degradação do sinal diminui as taxas de reconhecimento nos ambientes reais, devido ao fato de que os testes recebem um sinal y(n) bem diferente do que era esperado com x(n). Esse descasamento entre as etapas de treinamento e teste provoca vários erros no reconhecimento, prejudicando o desempenho do sistema. Segundo [47], uma solução a este problema é ter um banco de dados de treinamento igual ao número de condições adversas que possam ocorrer. Porém,

Capítulo 4. Robustez do Reconhecimento de Voz 51 é uma tarefa difícil reunir dados de todos os ambientes possíveis. Devido a estas limitações, alguns trabalhos abordam o problema desenvolvendo técnicas robustas em cada um dos três blocos mencionados no capítulo 1, que são detalhados na seguinte seção. 4.2 Técnicas de robustez para o reconhecimento de voz em presença de ruído Com o objetivo de gerar sistemas automáticos capazes de processar o sinal de voz emitido pelo ser humano e reconhecer a informação neste contida, com um alto rendimento de reconhecimento para ambientes adversos, foram desenvolvidos diversos métodos de robustez que reduzem o descasamento entre treino e teste. Porém, é impossível fazer um listagem de todos os métodos propostos até hoje, pela grande quantidade de métodos encontrados na literatura. Por isso, como foi mencionado no capítulo 1, estes métodos foram agrupados em três técnicas importantes. A seguir descrevem-se os aportes mais relevantes de cada uma destas técnicas. 4.2.1 Técnicas de realce de fala As técnicas de realce de fala foram as primeiras a serem aplicadas nos métodos de robustez [48]. Visam eliminar o ruído do sinal antes de seu processamento e seu posterior reconhecimento, procurando obter a fala limpa a partir do sinal contaminado, como se mostra na Fig.4.2. Figura 4.2: Restauração do sinal através de técnicas de de realce de fala Estas técnicas são aplicadas no domínio espectral e baseiam-se no argumento de que a voz e o ruído são decorrelatados e são aditivos no domínio do tempo, pelo qual o espectro de potência do sinal degradado será a soma do espectro do sinal de voz e do ruído.

Capítulo 4. Robustez do Reconhecimento de Voz 52 4.2.2 Técnicas de compensação de atributos As técnicas de compensação de atributos atuam sobre as características parametrizadas, com o objetivo de recuperar o melhor possível os vetores de atributos limpos. Neste caso, os modelos acústicos treinados com voz limpa são utilizados para avaliar uma versão compensada da representação da voz, reduzindo os efeitos de descasamento entre as condições de referência e as de reconhecimento, como se mostra na Fig.4.3. Figura 4.3: Restauração de atributos através de técnicas de compensação. É importante considerar que dependendo do método aplicado para fazer a compensação de atributos, requer-se um treinamento específico para realizar o reconhecimento. 4.2.3 Técnicas de adaptação de modelos Nestes tipos de técnicas tenta-se adaptar os reconhecedores às condições de ruído, isto é, adaptar os modelos acústicos obtidos no treinamento do sistema às condições de teste, visando avaliar o sinal de voz adquirida em condições de ruído com os modelos de voz ruidosos. Uma característica importante destes tipos de técnicas é que se direciona o enfoque para os efeitos do ruído no sinal de voz, no lugar de tentar removê-lo. Isso faz com que os atributos do sinal de voz sejam resistentes ao ruído, sem necessidade de nenhum processamento adicional [49]. De acordo com as características que oferecem cada uma das técnicas apresentadas, escolheu-se avaliar as duas primeiras devido à sua eficiência computacional e capacidade de armazenamento menor, e são distribuídas como se apresenta na Fig. 4.4. Nesta figura o bloco de pré-extração de atributos contém as técnicas de realce de fala e o bloco de pós-extração de atributos contém as técnicas de compensação de atributos. Cabe salientar que optou-se por implementar dois métodos de robustez para cada um dos blocos, a saber: Subtração Espectral e Wavelet Denoising para pre-extração de atributos.

Capítulo 4. Robustez do Reconhecimento de Voz 53 Figura 4.4: Distribuição das técnicas para o reconhecimento robusto de voz. Mapeamento de Histogramas e Filtro com redes neurais para pósextração de atributos. Os métodos serão agrupados e misturados, visando ter sistemas mais robustos e melhores taxas de reconhecimento. As implementações e resultados correspondentes a cada um destes métodos serão apresentados e analisados nos capítulos 5 e 6.