RAV para Sistemas de Diálogo Introdução Problemas com o reconhecimento da voz: Exemplo usando sistema SUMMIT para informações meteorológicas. Reduzindo cálculos Modelo de agregação Classificadores baseados em comitato (ou composição) 1
Exemplo Sistema Baseado em Diálogo Vocabulários tipicamente têm 1000s de palavras. Sistemas amplamente implementados tendem a ser mais conservativos. Diálogos diretos têm poucas palavras por frase. Média das palavras é diminuída pelo maior número de confirmações. Conversações Humano-humano usam mais palavras. 2
RAV, Baseado em Telefone, Conversacional Largura de faixa do telefone varia com o aparelho. Condições de ruído de fundo. Usuários principiantes com pequeno número de interações. Homens, mulheres, crianças; Vozes nativas e não nativas; Perguntas genuínas, browsers, hackers. Efeitos da voz espontânea por ex., pausas preenchidas, palavras parciais,artefatos não falantes; Palavras fora do vocabulário e fora do domínio de perguntas; É necessário o vocabulário completo para total entendimento; Diferenciação de palavras e frases não são estratégias primárias; Iniciativa de diálogo misto fornece pouca restrição ao reconhecedor. Decodificação em tempo real. 3
Problemas Com a Coleta de Dados Desenvolvimento de sistemas é um problema da galinha & ovo. A coleção de dados tem evoluído consideravelmente. Baseados em especialização sistema-basedo em coleção de dados; Implantação de Laboratório implantação pública; 100s de usuários milhares milhões. Dados de usuários reais resolvendo problemas reais aceleram o desenvolvimento tecnológico: Significativamente diferente do ambiente do laboratório; Realça fraquezas, permite uma avaliação contínua; Mas requer sistemas provendo informações reais. Expansão do corpo requer treinamento não supervisionado ou adaptação a dados não etiquetados. 4
Coleta de Dados (Domínio meteorológico) Coleta inicial de 3.500 frases lidas e 1.000 frases específicas. Mais de 756k frases a partir de 112k chamadas desde Maio, 1997. 5
Características do Corpus Meteorologia Corpus dominado por vozes masculinas americanas. Aproximadamente 11% dos dados contendo ruído significativo. Mais de 6% de dados continham efeitos da voz espontânea. Pelo menos 5% dos dados provenientes de vozes no microfone. 6
Seleção do Vocabulário Domínios com restrição naturalmente limitam o tamanho do vocabulário. Vocabulário com 2.000 palavras fornece uma boa cobertura para a meteorologia. No conjunto de testes uma taxa de ~2% de palavras fora do vocabulário. 7
Vocabulário Vocabulário atual consiste de aproximadamente 2000 palavras. Baseado nas capacidades do sistema e perguntas do usuário. Tipo Geografia Tempo Básico Tamanho 993 217 815 Exemplos boston, alberta, france, áfrica temperatura, neve, ensolarado, neblina eu, que, janeiro, amanhã Incorporação de pares de palavras& palavras comuns reduzidas. Tipo Redução Composição Exemplos give_me, going_to, want_to, what_is, i_would clear_up, heat_wave, pollen_count Léxico baseado no dicionário LDC PRONLEX. 8
<>* <pausea1> <pause2> <uh> <um> <unknown> a a_m am don+t new_york_city sixty today today+s Exemplo Arquivo Vocabulário Ordenados alfabeticamente Início da frase & marcador de fim Pausas no inicio da frase & fim Modelos com pausa preenchida * d itens não têm realização acústica Modelo palavra fora do vocabulário <> palavras d não contam como erro Sublinhado distingue seqüências de letras de palavras reais + símbolo convencionalmente utilizado para Minúscula é uma convenção comum Números tendem a ser soletrados Cada forma de palavra tem uma entrada separada 9
Exemplo Arquivo Forma Base pausas especiais preenchidas com vogal descontinuidade na palavra permite pausa 10
Editando Forma Base Geradas Arquivo forma base automaticamente gerado deveria ser verificado manualmente pelos seguintes problemas: Variações na pronuncia perdidas que são necessárias. Variações na pronuncia presentes mas não desejadas. Perda de palavras no vocabulário em PRONLEX. 11
Aplicando Regras Fonológicas Formas base fonéticas são representações canônicas. Formas base têm realizações acústicas múltiplas. Realizações Acústicas são fonemas ou unidades fônicas. Exemplo: batter: b ae tf er Isto pode ser realizado foneticamente como: 12
Exemplo de Regras Fonológicas Exemplo regra para eliminação do /t/ ( destination ): contexto à esquerda fonema contexto à direita realização fonética Exemplo regra para palatalização de /s/ ( miss you ): 13
Modelando da Linguagem Classes bi- e trigramas usadas para produzir as 10 melhores saídas. Treinamento dos dados acrescido com restrição de cidade e estado. Medida de entropia relativa usada para auxiliar a seleção de classes. 200 classes de palavras de perplexidade reduzida e taxas de erro. Tipo Palavra bigrama + palavra trigrama classe bigrama + classe trigrama Perplexidade 18,4 17,8 17,6 16,1 % Taxa Erro palavras 16,0 15,5 15,6 14,9 14
Definindo Classes de Palavras N-grama Definição de classe tem nome da classe na esquerda e palavra na direita. Nome de classe com <U>_ força todas as palavras serem igualmente prováveis. Palavras Alternantes na classe podem ser colocadas na mesma linha com o separador. 15
O Arquivo Treinador de Sentença Um modelo n-gram é estimado a partir dos dados de treinamento. Arquivo de treinamento contém uma sentença por linha. Palavras no arquivo de treinamento devem ter a mesma forma que as palavras no arquivo do vocabulário. Arquivos de treinamento utilizam as seguintes convenções: Cada sentença limpa começa com <pause1> e termina com <pause2>, Palavras compostas sublinhadas são tipicamente removidas antes do treinamento; As sublinhas são automaticamente re-inseridas durante o treinamento baseado em palavras compostas presentes no arquivo do vocabulário; Unidades de artefatos especiais podem ser usadas para ruídos e outros eventos significantes que não sejam voz: <clipped1>, <clipped2>, <hangup>, <cough>, <laugh> 16
Exemplo Arquivo de Treinamento de Sentença Todos os sons significativos são transcritos 17
Compondo Redes Léxicas Quatro redes básicas FST são compostas para formar uma rede completa para pesquisa. G: Modelo de linguagem; L: Modelo Léxico; P: Modelo de Pronuncia; C: Mapeamento do modelo acústico dependente do contexto. Matemática composta utilizando a expressão: CoPoLoG 18
Exemplo FST Etiqueta Entrada Etiqueta Saída Pontuação Pronuncias Alternativas Palavras compartilham arcos na rede 19
Modelos Acústicos Modelos podem ser construídos para segmentos e contornos, Melhor precisão pode ser obtida quando se utilizam os dois; Reconhecimento atual em tempo real usa somente modelos de contorno. Etiquetas de contorno combinadas nas classes: Classes determinadas usando aglomeramento da árvore de decisão; Um modelo Gaussiano misturado treinado para cada classe; 112 dimensões do vetor característica reduzidas a 50 dimensões via PCA; 1 componente Gaussiana para todos 50 tokens de treinamento (baseada no # dims). Modelos treinados por mais de 100 horas de voz telefônica espontânea coletada de vários domínios. 20
Detalhes da Pesquisa Pesquisa usa passos para frente e para trás: Pesquisa para frente Viterbi usando bigrama. Pesquisa para trás A* usando bigrama para criar um gráfico de palavras. Re pontue o gráfico das palavras com trigramas (ou seja subtraia a pontuação dos, bigramas); Pesquisa para trás A*usando trigramas para criar as N-melhores saídas. A pesquisa se baseia em dois tipos de cortes: Corte baseado na pontuação relativa de verossimilhança; Corte baseado no número máximo de hipóteses; Corte fornece o balanço entre velocidade e precisão. Pesquisa pode controlar o balanço entre inserções e eliminações: Modelos de Linguagem polarizados em sentenças curtas; O peso heurístico de transição da palavra é ajustado para retirar a polarização. 21
Experimentos Sobre Reconhecimento A coleta de dados reais melhora o desempenho: Possibilita que modelos acústicos e de linguagem se tornem mais complexos e robustos, Melhor casamento que o obtido a partir de registros em laboratório. 22
Análise de Erro (Conjunto de teste com 2506 sentenças) 23
A* Latência na Pesquisa Latência média 0,62 segundos. 85% < 1 segundo; 99% < 2 segundos. Latência não depende do comprimento da sentença. 24
Seleção Gaussiana ~50% do total dos cálculos são para a avaliação da densidade Gaussiana. Pode utilizar VQ binário para selecionar as componentes da mistura a serem avaliadas. Critério de seleção para cada palavra código VQ: Aquelas dentro do limiar para a distância. Aquelas dentro da palavra código (ou seja, toda componente utilizada pelo menos uma vez). Pode reduzir significativamente o cálculo com pequena perda de erros. Pelo menos uma componente do modelo para cada palavra código (ou seja somente se necessário). 25
Modelo de Agregação Algoritmos K-meios e EM convergem para diferentes mínimos locais a partir de diferentes pontos de inicialização. Desempenho sobre dados em desenvolvimento não é necessariamente um forte indicador do desempenho em dados de teste. TIMIT erro de reconhecimento fonético par 24 ensaios de treinamento. 1) 26
Experimentos Sobre Agregação Combinando diferentes execuções de treinamento pode melhorar o desempenho. Três sistemas experimentais:classificação fonética, reconhecimento fonético (TIMIT), e reconhecimento de palavra (RM). Modelos Acústicos: Mistura de densidades Gaussianas,inicia aleatoriamente K-meios. 24 diferentes ensaios de treinamento. Mede o desempenho médio de M únicos modelos agregados N vezes (iniciando a partir de 24 modelos separados). % Erro Classificação de Fonemas Rec. de Fonemas Rec. de palavras M=24 N=1 22,1 29,3 4,5 M=6 N=4 20,7 28,4 4,2 M=1 N=24 20,2 28,1 4,0 % Redução 8,3 4,0 12,0 27
Modelo de Agregação Agregação combina N classificadores,com igual peso, para formar um classificador agregado. ϕ A N 1 r ( X ) = ϕ ( ) n X O erro esperado de um classificador agregado é menor que o erro esperado de qualquer constituinte escolhido aleatoriamente. Classificador agregado N-fold tem N vezes mais cálculos. r N Kernels Gaussianos do modelo agregados podem ser hierarquicamente aglomerados e eliminados seletivamente. n= 1 Experimento: Faça cortes no modelo 24-fold para obter modelos N-fold menores. 28
Experimentos Com Agregação 29
Confusões Sobre a Classificação Fonética A maior parte das confusões ocorre quanto ao comportamento da classe 30
Classificação Baseada em Comitato Mudança na base temporal afeta o erro entre classes Variação suave de base co-seno é melhor para vogais e nasais Partes separadas de forma constante melhor para fricativas e pausa Combinando fontes de informação pode reduzir o erro 31
Classificadores Caseados em Comitato (Halberstadt, 1998) Usa vetores de características acústicas múltiplas e classificadores para incorporar diferentes fontes de informação Explora 3 métodos de combinação votação, linear, indep.) Obtém o estado da arte em termos de resultados para classificação fonética e reconhecimento (TIMIT) Combinando 3 modelos de contorno no domínio da meteorologia Jupiter Taxa de erro de palavras 10-16% redução relativa em relação à base Taxa de erro de substituição 14-20% redução relativa em relação à base 32
Trabalhos Relacionados ROVER sistema desenvolvido no NIST [Fiscus, 1997] 1997 LVCSR Hub-5E Teste Benchmark Redução do erro na saída do reconhecedor utilizando votação Combina a confiabilidade no reconhecimento de palavras na saída de múltiplos reconhecedores Obtém-se 12.5% redução relativa no WER Noção da combinação de múltiplas fontes de informação Baseado em silabas e baseado em palavras [Wu, Morgan et al, 1998] Diferentes inventários fonéticos [AT&T] 80, 100, ou 125 quadros por segundo [BBN] Tri-fonema and quin- fonema [HTK] Reconhecimento da voz baseado em sub-banda [Bourland, Dupont, 1997] 33
Referências E. Bocchieri. Vector quantization for the efficient computation of continuous density likelihoods. Proc. ICASSP, 1993. T. Hazen and A. Halberstadt. Using aggregation to improve the performance of mixture Gaussian acoustic models. Proc. ICASSP, 1998. J. Glass, T. Hazen, and L. Hetherington. Real-time telephone-based speech recognition in the Jupiter domain. Proc. ICASSP, 1999. A. Halberstadt. Heterogeneous acoustic measurements and multiple classifiers for speech recognition. Ph.D. Thesis, MIT, 1998. T. Watanabe et al. Speech recognition using tree-structured probability density function. Proc. ICSLP, 1994. 34