RAV para Sistemas de Diálogo

Documentos relacionados

Modelando Novas Palavras

Novos Recursos e Utilização de Adaptação de Locutor no Desenvolvimento de um Sistema de Reconhecimento de Voz para o Português Brasileiro

Introdução ao Reconhecimento Automático da Voz (RAV)

CURRÍCULO 1º ANO do ENSINO UNDAMENTAL LINGUAGEM

LÓGICA DE PROGRAMAÇÃO. Vitor Valerio de Souza Campos

Diagrama de fluxo de dados na Plataforma Vicon SAGA. Terminologias de bancos de dados: Banco de Dados, Tabela, Campos, Registros

Aulas 17 & 18. Comutação Rápida a Pacote. Eytan Modiano MIT

Redes Neurais Artificiais: Funções de Base Radial

Introdução. Capítulo. 1.1 Considerações Iniciais

SEGEMENTAÇÃO DE IMAGENS. Nielsen Castelo Damasceno

Guia para usar o Toolkit

Gerenciamento de Requisitos Gerenciamento de Requisitos

Regras Métodos Identificadores Variáveis Constantes Tipos de dados Comandos de atribuição Operadores aritméticos, relacionais e lógicos

Apêndice A Objetivos PEI

Reconhecimento de Padrões. Reconhecimento de Padrões

3 Estratégia para o enriquecimento de informações

PROJETO (OU DESIGN) DO SOFTWARE Diagrama de Estrutura

3.1 Definições Uma classe é a descrição de um tipo de objeto.

Linear Solver Program - Manual do Usuário

Engenharia de Software II

SIMULADO DO TESTE DE RESOLUÇÃO DE PROBLEMAS

O comportamento conjunto de duas variáveis quantitativas pode ser observado por meio de um gráfico, denominado diagrama de dispersão.

Chaves. Chaves. O modelo relacional implementa dois conhecidos conceitos de chaves, como veremos a seguir:

Separe pedidos em 10 passos

Base de dados I. Uma base de dados é um simples repositório de informação relacionado com um determinado assunto ou finalidade

Figure 2 - Nós folhas de uma árvore binária representando caracteres ASCII

Variáveis, Expressões, Atribuição, Matrizes, Comandos de Desvio

Campus Capivari Análise e Desenvolvimento de Sistemas (ADS) Prof. André Luís Belini prof.andre.luis.belini@gmail.com /

Resumo de alterações da versão 2.0 para a 3.0 do PA-DSS

Simulado de Algoritmos - Respostas

ILP - Introdução à Linguagem de Programação. Plano de estudo: - Constantes e variáveis. - Atribuindo valores às variáveis.

Permitir a troca de mensagens de texto entre os dois alunos; Permitir que um aluno enviasse para o outro uma cópia de prova;

Lista de Exercícios Tratamento de Incerteza baseado em Probabilidade

Vetor Quantização e Aglomeramento (Clustering)

Gerenciamento de Projeto: Planejando os Riscos. Prof. Msc Ricardo Britto DIE-UFPI

FAZEMOS MONOGRAFIA PARA TODO BRASIL, QUALQUER TEMA! ENTRE EM CONTATO CONOSCO!

1.1. Viagens com GPS. Princípios básicos de funcionamento de um GPS de modo a obter a posição de um ponto na Terra.

(ROA) 1) % %. A

Ponte rolante: como escolher

CADERNOS DE INFORMÁTICA Nº 1. Fundamentos de Informática I - Word Sumário

Aula 4 Estatística Conceitos básicos

Resolução da lista de exercícios de casos de uso

Conceitos básicos da linguagem C

Como criar um blog. Será aberta uma janela onde você deverá especificar o título do blog, o endereço do blog, e o modelo.

Álgebra. SeM MiSTéRio

Neste tópico, veremos como selecionar e copiar informações entre bancos de dados de empresa no SAP Business One.

Avaliação de Desempenho de Sistemas

Bases Metodológicas do Treinamento Desportivo

Análise e Projeto de Software

MINERAÇÃO DE DADOS APLICADA. Pedro Henrique Bragioni Las Casas

2 Estudo dos Acoplamentos

4. Metodologia. Capítulo 4 - Metodologia

FACULDADE FIA DE ADMINISTRAÇÃO E NEGÓCIOS Mantida pela Fundação Instituto de Administração

Sistemas Distribuídos Modelo Cliente-Servidor

Gerenciamento de Projetos Modulo IX Qualidade

Família de Telefones para Conferência Polycom

Exemplos: Pág 5 FUNÇÕES. UC Extensão - Excel Docente: André Luiz Silva de Moraes OPERADORES BOOLEANOS

Redes Neurais Artificiais na Engenharia Nuclear 2 Aula-1 Ano: 2005

Guia de utilização da notação BPMN

Objetivos. Teoria de Filas. Teoria de Filas

Aula 5 - Classificação

Glossário de Termos Mais Usados

Instituto de Tecnologia de Massachusetts Departamento de Engenharia Elétrica e Ciência da Computação. Tarefa 6 Modelamento da Línguagem

Aplicação de Ensembles de Classificadores na Detecção de Patologias na Coluna Vertebral

Manual do Artikulate. Andreas Cord-Landwehr Ondrila Gupta Tradução: André Marcelo Alvarenga

DIRETO. Manual do Usuário. PROCERGS Divisão 7

Verificação e Validação em CFD

AVALIAÇÃO DE DESEMPENHO

ARQUITETURA DE COMPUTADORES

RELATÓRIO FINAL DO PROJETO

Arquitetura de Sistemas Operacionais

Introdução à Programação. João Manuel R. S. Tavares

Guia Rápido Monitor CFX-750

LÓGICA DE PROGRAMAÇÃO PARA ENGENHARIA DISCUSSÃO DOS EXERCÍCIOS E CONSTRUÇÃO DE PROGRAMAS SEQUENCIAIS. Prof. Dr. Daniel Caetano

Explodindo montagens

Como estimar peso vivo de novilhas quando a balança não está disponível? Métodos indiretos: fita torácica e hipômetro

Avaliando o que foi Aprendido

Gerenciamento Total da Informação

Processos de Software

ALGORITMOS E FLUXOGRAMAS

Reconhecimento de Padrões

PROJETO DE PESQUISA SOBRE O NOVO CÓDIGO DE PROCESSO CIVIL

PROGRAMA PARA LOCAÇÃO DE SEÇÕES DIAGONAIS AUTOPORTANTES

PRIORIDADES EM SERVIÇOS E ORGANIZAÇÃO DO TRABALHO. Professora Andréia Ribas rp_andreiaribas@hotmail.com

Tarefas, Exercícios e

4 Avaliação Experimental

5 As duplas candidatas deverão realizar as inscrições nas Secretarias da Uniguaçu, no valor de R$ 40,00, no período de 19 de agosto a 05 de setembro

Gravando Dados e Cópias de CD s com o Nero 6.0 Disciplina Operação de Sistemas Aplicativos I

Figura 5.1.Modelo não linear de um neurônio j da camada k+1. Fonte: HAYKIN, 2001

Gestão dos Prazos e Custos do Projeto

Aula de JavaScript 05/03/10

Estatística Descritiva II

Modelagem Dinâmica com UML

TÉCNICAS DE PROGRAMAÇÃO

Trabalho Prático N o :. Técnica Operatória da Soldagem SMAW

Programação I. Departamento de Engenharia Rural Centro de Ciências Agrárias

Aulas 22 & 23. Controle de Fluxo e de Congestionamento. Eytan Modiano MIT

Classificação dos Sistemas Fotovoltaicos

Capítulo 5: Aplicações da Derivada

Transcrição:

RAV para Sistemas de Diálogo Introdução Problemas com o reconhecimento da voz: Exemplo usando sistema SUMMIT para informações meteorológicas. Reduzindo cálculos Modelo de agregação Classificadores baseados em comitato (ou composição) 1

Exemplo Sistema Baseado em Diálogo Vocabulários tipicamente têm 1000s de palavras. Sistemas amplamente implementados tendem a ser mais conservativos. Diálogos diretos têm poucas palavras por frase. Média das palavras é diminuída pelo maior número de confirmações. Conversações Humano-humano usam mais palavras. 2

RAV, Baseado em Telefone, Conversacional Largura de faixa do telefone varia com o aparelho. Condições de ruído de fundo. Usuários principiantes com pequeno número de interações. Homens, mulheres, crianças; Vozes nativas e não nativas; Perguntas genuínas, browsers, hackers. Efeitos da voz espontânea por ex., pausas preenchidas, palavras parciais,artefatos não falantes; Palavras fora do vocabulário e fora do domínio de perguntas; É necessário o vocabulário completo para total entendimento; Diferenciação de palavras e frases não são estratégias primárias; Iniciativa de diálogo misto fornece pouca restrição ao reconhecedor. Decodificação em tempo real. 3

Problemas Com a Coleta de Dados Desenvolvimento de sistemas é um problema da galinha & ovo. A coleção de dados tem evoluído consideravelmente. Baseados em especialização sistema-basedo em coleção de dados; Implantação de Laboratório implantação pública; 100s de usuários milhares milhões. Dados de usuários reais resolvendo problemas reais aceleram o desenvolvimento tecnológico: Significativamente diferente do ambiente do laboratório; Realça fraquezas, permite uma avaliação contínua; Mas requer sistemas provendo informações reais. Expansão do corpo requer treinamento não supervisionado ou adaptação a dados não etiquetados. 4

Coleta de Dados (Domínio meteorológico) Coleta inicial de 3.500 frases lidas e 1.000 frases específicas. Mais de 756k frases a partir de 112k chamadas desde Maio, 1997. 5

Características do Corpus Meteorologia Corpus dominado por vozes masculinas americanas. Aproximadamente 11% dos dados contendo ruído significativo. Mais de 6% de dados continham efeitos da voz espontânea. Pelo menos 5% dos dados provenientes de vozes no microfone. 6

Seleção do Vocabulário Domínios com restrição naturalmente limitam o tamanho do vocabulário. Vocabulário com 2.000 palavras fornece uma boa cobertura para a meteorologia. No conjunto de testes uma taxa de ~2% de palavras fora do vocabulário. 7

Vocabulário Vocabulário atual consiste de aproximadamente 2000 palavras. Baseado nas capacidades do sistema e perguntas do usuário. Tipo Geografia Tempo Básico Tamanho 993 217 815 Exemplos boston, alberta, france, áfrica temperatura, neve, ensolarado, neblina eu, que, janeiro, amanhã Incorporação de pares de palavras& palavras comuns reduzidas. Tipo Redução Composição Exemplos give_me, going_to, want_to, what_is, i_would clear_up, heat_wave, pollen_count Léxico baseado no dicionário LDC PRONLEX. 8

<>* <pausea1> <pause2> <uh> <um> <unknown> a a_m am don+t new_york_city sixty today today+s Exemplo Arquivo Vocabulário Ordenados alfabeticamente Início da frase & marcador de fim Pausas no inicio da frase & fim Modelos com pausa preenchida * d itens não têm realização acústica Modelo palavra fora do vocabulário <> palavras d não contam como erro Sublinhado distingue seqüências de letras de palavras reais + símbolo convencionalmente utilizado para Minúscula é uma convenção comum Números tendem a ser soletrados Cada forma de palavra tem uma entrada separada 9

Exemplo Arquivo Forma Base pausas especiais preenchidas com vogal descontinuidade na palavra permite pausa 10

Editando Forma Base Geradas Arquivo forma base automaticamente gerado deveria ser verificado manualmente pelos seguintes problemas: Variações na pronuncia perdidas que são necessárias. Variações na pronuncia presentes mas não desejadas. Perda de palavras no vocabulário em PRONLEX. 11

Aplicando Regras Fonológicas Formas base fonéticas são representações canônicas. Formas base têm realizações acústicas múltiplas. Realizações Acústicas são fonemas ou unidades fônicas. Exemplo: batter: b ae tf er Isto pode ser realizado foneticamente como: 12

Exemplo de Regras Fonológicas Exemplo regra para eliminação do /t/ ( destination ): contexto à esquerda fonema contexto à direita realização fonética Exemplo regra para palatalização de /s/ ( miss you ): 13

Modelando da Linguagem Classes bi- e trigramas usadas para produzir as 10 melhores saídas. Treinamento dos dados acrescido com restrição de cidade e estado. Medida de entropia relativa usada para auxiliar a seleção de classes. 200 classes de palavras de perplexidade reduzida e taxas de erro. Tipo Palavra bigrama + palavra trigrama classe bigrama + classe trigrama Perplexidade 18,4 17,8 17,6 16,1 % Taxa Erro palavras 16,0 15,5 15,6 14,9 14

Definindo Classes de Palavras N-grama Definição de classe tem nome da classe na esquerda e palavra na direita. Nome de classe com <U>_ força todas as palavras serem igualmente prováveis. Palavras Alternantes na classe podem ser colocadas na mesma linha com o separador. 15

O Arquivo Treinador de Sentença Um modelo n-gram é estimado a partir dos dados de treinamento. Arquivo de treinamento contém uma sentença por linha. Palavras no arquivo de treinamento devem ter a mesma forma que as palavras no arquivo do vocabulário. Arquivos de treinamento utilizam as seguintes convenções: Cada sentença limpa começa com <pause1> e termina com <pause2>, Palavras compostas sublinhadas são tipicamente removidas antes do treinamento; As sublinhas são automaticamente re-inseridas durante o treinamento baseado em palavras compostas presentes no arquivo do vocabulário; Unidades de artefatos especiais podem ser usadas para ruídos e outros eventos significantes que não sejam voz: <clipped1>, <clipped2>, <hangup>, <cough>, <laugh> 16

Exemplo Arquivo de Treinamento de Sentença Todos os sons significativos são transcritos 17

Compondo Redes Léxicas Quatro redes básicas FST são compostas para formar uma rede completa para pesquisa. G: Modelo de linguagem; L: Modelo Léxico; P: Modelo de Pronuncia; C: Mapeamento do modelo acústico dependente do contexto. Matemática composta utilizando a expressão: CoPoLoG 18

Exemplo FST Etiqueta Entrada Etiqueta Saída Pontuação Pronuncias Alternativas Palavras compartilham arcos na rede 19

Modelos Acústicos Modelos podem ser construídos para segmentos e contornos, Melhor precisão pode ser obtida quando se utilizam os dois; Reconhecimento atual em tempo real usa somente modelos de contorno. Etiquetas de contorno combinadas nas classes: Classes determinadas usando aglomeramento da árvore de decisão; Um modelo Gaussiano misturado treinado para cada classe; 112 dimensões do vetor característica reduzidas a 50 dimensões via PCA; 1 componente Gaussiana para todos 50 tokens de treinamento (baseada no # dims). Modelos treinados por mais de 100 horas de voz telefônica espontânea coletada de vários domínios. 20

Detalhes da Pesquisa Pesquisa usa passos para frente e para trás: Pesquisa para frente Viterbi usando bigrama. Pesquisa para trás A* usando bigrama para criar um gráfico de palavras. Re pontue o gráfico das palavras com trigramas (ou seja subtraia a pontuação dos, bigramas); Pesquisa para trás A*usando trigramas para criar as N-melhores saídas. A pesquisa se baseia em dois tipos de cortes: Corte baseado na pontuação relativa de verossimilhança; Corte baseado no número máximo de hipóteses; Corte fornece o balanço entre velocidade e precisão. Pesquisa pode controlar o balanço entre inserções e eliminações: Modelos de Linguagem polarizados em sentenças curtas; O peso heurístico de transição da palavra é ajustado para retirar a polarização. 21

Experimentos Sobre Reconhecimento A coleta de dados reais melhora o desempenho: Possibilita que modelos acústicos e de linguagem se tornem mais complexos e robustos, Melhor casamento que o obtido a partir de registros em laboratório. 22

Análise de Erro (Conjunto de teste com 2506 sentenças) 23

A* Latência na Pesquisa Latência média 0,62 segundos. 85% < 1 segundo; 99% < 2 segundos. Latência não depende do comprimento da sentença. 24

Seleção Gaussiana ~50% do total dos cálculos são para a avaliação da densidade Gaussiana. Pode utilizar VQ binário para selecionar as componentes da mistura a serem avaliadas. Critério de seleção para cada palavra código VQ: Aquelas dentro do limiar para a distância. Aquelas dentro da palavra código (ou seja, toda componente utilizada pelo menos uma vez). Pode reduzir significativamente o cálculo com pequena perda de erros. Pelo menos uma componente do modelo para cada palavra código (ou seja somente se necessário). 25

Modelo de Agregação Algoritmos K-meios e EM convergem para diferentes mínimos locais a partir de diferentes pontos de inicialização. Desempenho sobre dados em desenvolvimento não é necessariamente um forte indicador do desempenho em dados de teste. TIMIT erro de reconhecimento fonético par 24 ensaios de treinamento. 1) 26

Experimentos Sobre Agregação Combinando diferentes execuções de treinamento pode melhorar o desempenho. Três sistemas experimentais:classificação fonética, reconhecimento fonético (TIMIT), e reconhecimento de palavra (RM). Modelos Acústicos: Mistura de densidades Gaussianas,inicia aleatoriamente K-meios. 24 diferentes ensaios de treinamento. Mede o desempenho médio de M únicos modelos agregados N vezes (iniciando a partir de 24 modelos separados). % Erro Classificação de Fonemas Rec. de Fonemas Rec. de palavras M=24 N=1 22,1 29,3 4,5 M=6 N=4 20,7 28,4 4,2 M=1 N=24 20,2 28,1 4,0 % Redução 8,3 4,0 12,0 27

Modelo de Agregação Agregação combina N classificadores,com igual peso, para formar um classificador agregado. ϕ A N 1 r ( X ) = ϕ ( ) n X O erro esperado de um classificador agregado é menor que o erro esperado de qualquer constituinte escolhido aleatoriamente. Classificador agregado N-fold tem N vezes mais cálculos. r N Kernels Gaussianos do modelo agregados podem ser hierarquicamente aglomerados e eliminados seletivamente. n= 1 Experimento: Faça cortes no modelo 24-fold para obter modelos N-fold menores. 28

Experimentos Com Agregação 29

Confusões Sobre a Classificação Fonética A maior parte das confusões ocorre quanto ao comportamento da classe 30

Classificação Baseada em Comitato Mudança na base temporal afeta o erro entre classes Variação suave de base co-seno é melhor para vogais e nasais Partes separadas de forma constante melhor para fricativas e pausa Combinando fontes de informação pode reduzir o erro 31

Classificadores Caseados em Comitato (Halberstadt, 1998) Usa vetores de características acústicas múltiplas e classificadores para incorporar diferentes fontes de informação Explora 3 métodos de combinação votação, linear, indep.) Obtém o estado da arte em termos de resultados para classificação fonética e reconhecimento (TIMIT) Combinando 3 modelos de contorno no domínio da meteorologia Jupiter Taxa de erro de palavras 10-16% redução relativa em relação à base Taxa de erro de substituição 14-20% redução relativa em relação à base 32

Trabalhos Relacionados ROVER sistema desenvolvido no NIST [Fiscus, 1997] 1997 LVCSR Hub-5E Teste Benchmark Redução do erro na saída do reconhecedor utilizando votação Combina a confiabilidade no reconhecimento de palavras na saída de múltiplos reconhecedores Obtém-se 12.5% redução relativa no WER Noção da combinação de múltiplas fontes de informação Baseado em silabas e baseado em palavras [Wu, Morgan et al, 1998] Diferentes inventários fonéticos [AT&T] 80, 100, ou 125 quadros por segundo [BBN] Tri-fonema and quin- fonema [HTK] Reconhecimento da voz baseado em sub-banda [Bourland, Dupont, 1997] 33

Referências E. Bocchieri. Vector quantization for the efficient computation of continuous density likelihoods. Proc. ICASSP, 1993. T. Hazen and A. Halberstadt. Using aggregation to improve the performance of mixture Gaussian acoustic models. Proc. ICASSP, 1998. J. Glass, T. Hazen, and L. Hetherington. Real-time telephone-based speech recognition in the Jupiter domain. Proc. ICASSP, 1999. A. Halberstadt. Heterogeneous acoustic measurements and multiple classifiers for speech recognition. Ph.D. Thesis, MIT, 1998. T. Watanabe et al. Speech recognition using tree-structured probability density function. Proc. ICSLP, 1994. 34