Modelando Novas Palavras Introdução Modelando palavras fora do vocabulário (OOV Out Of- Vocabulary) Formulação Probabilística Métodos independentes do Domínio Conhecendo unidades de subpalavras OOV Modelos Multiclasse OOV 1
O que é uma nova palavra? Quase todos os reconhecedores de voz pesquisam um léxico finito Uma palavra não contida no léxico é denominada for a do vocabulário (OOV) Palavras (OOV) são inevitáveis e problemáticas! 2
Novas palavras são inevitáveis! Crescimento do Vocabulário parece sem limites Novas palavras estão continuamente aparecendo Crescimento parece ser independente da linguagem Análises de múltiplas vozes e textos Tamanho do Vocabulário vs.quantidade de dados de treinamento Taxa de OOV vs. Tamanho do vocabulário Taxa OOV uma função do tipo de dados Voz Humana-máquina Voz Humana-humano Texto de Jornais 3
Novas palavras causam erros! Palavras (OOV) têm taxas de erro de palavras e sentenças se comparadas com palavras no vocabulário (IV- In Vocabulary) Palavras OOV freqüentemente causam erros múltiplos, por ex., Symphony Ref: Members of Charleston Symphony Orchestra are being treated Hyp: Members of Charleston simple your stroke are being treated 4
Novas palavras sobrecarregam os reconhecedores! Cálculos para pesquisar aumentam nas proximidades de novas palavras. 5
Novas palavras são importantes! Novas palavras freqüentemente são palavras de conteúdo importante. Palavras de conteúdo têm maior probabilidade de serem reusadas (ou seja persistente). 6
Desafios das Novas Palavras Quatro desafios com as novas palavras: 1. Detecção da presença de novas palavras. 2. Determinação de sua posição dentro da seqüência. 3. Reconhecimento da seqüência fonética que as contém; 4. Identificação da ortografia da palavra. Aplicações para modelos de novas palavras: Melhorar o reconhecimento, detectar erros de reconhecimento; Trabalhar co palavras parciais; Melhorar estratégias de diálogo; Dinamicamente incorporar novas palavras no vocabulário. 7
Procedimentos Para o Modelamento OOV Aumentar o tamanho do vocabulário! Use pontuação confiável para detectar palavras OOV. Use unidades de sub palavras no primeiro estágio de um sistema de dois estágios. Incorpore um modelo de palavra desconhecida no reconhecedor de voz r Uma extensão de um preenchimento, ou lixo, modelo para não palavras. 8
Incorporando Um Modelo OOV no RAV (Bazzi, 2002) Espaço de pesquisa híbrido: uma união de espaços de pesquisa de IV e OOV. 1. Inicie com a rede léxica padrão. 2. Construa redes de subpalavras separadas. 3. Adicione a rede de subpalavras à rede de palavras como uma nova palavra, W oov Custo, C oov, é adicionado para controlar a taxa de detecção de OOV. Durante o treinamento do modelo de linguagem, todas as palavras OOV são mapeadas para a etiqueta W oov. Umas variedades de unidades de subpalavras são possíveis (por ex., fonemas, sílabas, ) Uma variedade de restrições topológicas Restrições Acústico-fonéticas Duração das restrições 9
O Modelo de Probabilidade OOV O modelo de probabilidade padrão: W * = argmax P ( A W ) P( W ) Modelos Acústicos: mesmos para palavras IV e OOV. W Modelos de Linguagem: uma classe n-grama é usada para palavras OOV. 10
Vantagens do Procedimento Integrado Comparado com os modelos de enchimento. Mesmos modelos Acústicos para palavras IV e OOV; *A probabilidade da estimação é comparável. Modelo de linguagem subpalavra; * Estimado com o propósito do reconhecimento de palavras OOV. Nível da palavra no modelo de linguagem faz a predição da palavra OOV; Uso de grandes unidades de sub palavras; Tudo o exposto acima este em único ambiente; O melhor dos dois mundos: Enchimentos e dois estágios; Utilização previa do conhecimento léxico (Enchimentos); Modelamento subléxico detalhado (Dois estágios). 11
Um modelo OOV baseado na coleção de palavras O modelo OOV baseado na coleção usa uma configuração típica para reconhecimento de fonemas Qualquer seqüência de fonemas e de qualquer comprimento é permitida Durante o reconhecimento, a seqüência de fonemas é restrita para um fonema n-grama O fonema n-grama é estimado a partir da mesma coleção de treinamento usada para treinar o reconhecedor de palavras 12
Configuração Experimental Experimentos utilizam o reconhecedor do sistema de informações meteorológicas JUPITER Reconhecedor baseado em segmento SUMMIT Modelos di-fonemas dependentes do contexto 88.755 frases de treinamento 2.009 palavras no vocabulário do reconhecedor Taxa OOV: 2,2% (15.5%nível - seqüência) Modelo OOV usa fonema bigrama Experimentos usam 2.029 sentenças de teste a partir de chamadas feitas para JUPITER 1.715 sentenças com somente palavras IV 314 sentenças contendo palavras OOV 13
Resultados da Detecção Com Modelo OOV Coleção Metade das palavras OOV detectadas com 2% de falso alarme. Para taxa de detecção de 70%, um falso alarme de 8,5%. 14
O Modelo OOV Oracle Objetivo: quantificar o melhor desempenho possível com o ambiente proposto. Procedimento: construir um modelo OOV que permita somente seqüências de fonemas de palavras OOV no conjunto de teste. A configuração Oracle não é equivalente a adicionar as palavras OOV no vocabulário. 15
Resultados da Detecção do Modelo OOV Oracle Significante espaço, para melhorias! 16
Modelo OOV Independente do Domínio Problemas com o modelo coleção Favorece palavras mais freqüentes pois é treinado no registro fonético de sentenças completas Devota uma porção da massa de probabilidades n-grama para sentenças com palavras cruzadas Modelo OOV dependente do domínio pode não ser generalizado Um dicionário do modelo OOV é implementado a partir de um dicionário genérico de palavras em vez que de uma coleção de sentenças Elimina a dependência com o domínio e a polarização para palavras freqüentes Experimentos usam Dicionário LDC PRONLEX 90.694 palavras com um total de 99.02 pronúncias 17
Resultados da Detecção do Modelo OOV Dicionário N taxa de detecção de 70%, o falso alarme é reduzido de 8,5% para 5,3% 18
Impacto na Taxa de Palavras Erradas WER no inteiro conjunto de teste é reduzido de 17,1% para 16,4% WER pode ser reduzido de 17,1% para 15,1% com um mecanismo de identificação 19
Outras Medidas de Desempenho Precisão em localizar palavras OOV: Taxa de erro fonético de OOV (PER Phonetis Error Rate): 20
Conhecendo Unidades de Subpalavras OOV Objetivo: incorporar restrições adicionais na estrutura a fim de reduzir hipóteses falsas nas palavras OOV. Idéia: restringir a rede de reconhecimento OOV para unidades multifonéticas especificas. Como obter ro conjunto de unidades multifonema? Procedimento orientado a dados: mede as estatísticas de co ocorrência de fonemas (por ex., informação mútua) dentro de um grande dicionário para propor incrementalmente novas unidades de multifonemas. 21
Conhecendo Unidades de Multifonemas Um algoritmo iterativo de baixo para cima Inicia com fonemas individuais; Iterativamente une pares de unidades para formar unidades mais longas. Critério para união de pares de unidades baseia-se na informação mutua pesada de um par (MI w ): ( u, u ) p( u, u ) MI w = 1 2 p( u1, u2 ) ( u ) p( u ) A cada iteração os n pares com maior MI w são unidos. 1 O número de unidades multifonemas assim obtidas depende do número de iterações. Um resultado é a completa analise de todas as palavras no vocabulário em termos das unidades conhecidas. 2 log p 1 2 22
Resultados MMI Conjunto inicial de unidades é o conjunto de fonemas (62 fonemas). Tamanho final do inventário de unidade é 1.977 unidades (após 200 iterações, e 10 uniões por iteração). Modelo perplexidade OOV decresce de 14,0 para o conjunto de fonemas inicial para 7,1 do conjunto multifonema derivado. 67% das unidades derivadas são silabas legais em inglês. Comprimento médio de uma unidade derivada é 3,2 fonemas Exemplos: 23
MMI Comportamento do Aglomerado Níveis MI extrapolam para pares no topo do ranking dos pares; após várias iterações (pode ser útil como critério para parar). 24
MMI Model OOV Detection Results Em 70% da taxa de detecção, a taxa de alarme falso é reduzida para 3,2%. Taxa de erro de fonética é reduzida para 37,8% a 31,2%. 25
OOV - Detecção da Figura de Mérito Figura de mérito (FOM) medidas na área sob os 10% 10% e os 100% da curva de ROC. FOM aleatória mostra o desempenho para um modelo aleatório OOV (ROC é a diagonal y=x). 26
Um Modelo OOV Multiclasse Motivação: modelamento refinado das classes desconhecidas de palavras. No nível da fonética: estrutura fonotática similar. No nível do modelo de linguagem: padrões lingüísticos similares. Abordagem: estende o estrutura do modelo de múltiplas categorias de palavras desconhecidas. A coleção da redes OOV em paralelo com a rede IV. O nível de gramática das palavras p GN rediz múltiplas classes OOV. 27
Experimentos Multiclasse Atribuições de classe nos termos da etiqueta de parte da fala? Derivado de um dicionário etiquetado das palavras (LDC COMLEX). o modelo de linguagem do nível palavra treinou em oito classes POS? A palavra secundária múltipla, LMs, usada para a posição diferente classes POS. Atribuições de classe baseadas em aglomerar-se do perplexidade? Críe um modelo da linguagem bigram de telefone dos conjuntos iniciais? Use aglomeramento K-means para mudar aglomeramento para outro. Em cada iteração, cada palavra é movida para o conjunto com o perplexidade mais baixa (a probabilidade a mais elevada). 28
Modelo Multiclasse OOV Resultados da Detecção Método multiclasse melhora sobre o modelo dicionário OOV. Modelo POS obtém 81% da precisão da classe identificação. Aglomeramento da Perplexidade desempenha que a classe POS 29
Contribuição do Modelo de Linguagem Multi - OOV A maioria do ganho vem das múltiplas redes OOV. Fonotática é mais importante que as restrições do modelo da linguagem. Comportamento pode ser diferente em outros domínios. 30
Derivando Multiclasses Mediante Aglomeramento Aglomeramento pode ser usado para sugerir multiclasses inicias. Aglomeramento de baixo para cima para iniciar atribuição de palavras nas classes. Distância métrica baseada na similaridade do fonema bigrama. Uma medida de similaridade media é utilizada para unir aglomerados: 1 ( X m, X n ) = d( Wi W j ) d avg, C C W X W X Um número arbitrário de classes pode ser aglomerado. Classes podem ser suavizadas com o aglomeramento da perplexidade. m n wi i m j n 31
Outras Áreas de Pesquisa Relacionadas Medindo o impacto do reconhecimento no reconhecimento OOV para entendimento. Melhora da precisão fonética OOV. Estendendo o procedimento para modelar sentenças for a do domínio. Desenvolver pontuações confiáveis especificas para OOV. Para melhorar a qualidade da detecção. Modelamento de outras forma de sons fora do domínio (por ex., ruído). 32
Referências A. Asadi, Automatic detection and modeling of new words in a large vocabulary continuous speech recognition system, Ph.D. thesis, Northeastern University, 1991. I. Bazzi, Modelling out-of-vocabulary words for robust speech recognition, Ph.D. thesis, MIT, 2002. G. Chung, Towards multi-domain speech understanding with flexible and dynamic vocabulary, Ph.D. thesis, MIT, 2001. L. Hetherington, The problem of new, out-of-vocabulary words in spoken language systems, Ph.D. thesis, MIT, 1994. 33