Modelando Novas Palavras



Documentos relacionados
Instituto de Tecnologia de Massachusetts Departamento de Engenharia Elétrica e Ciência da Computação. Tarefa 6 Modelamento da Línguagem

Novos Recursos e Utilização de Adaptação de Locutor no Desenvolvimento de um Sistema de Reconhecimento de Voz para o Português Brasileiro

RAV para Sistemas de Diálogo

Boletim de Guia para os Pais das Escolas Públicas Elementar de Central Falls

INF 1771 Inteligência Artificial

O que queremos. Processamento Estatístico da Linguagem Natural. Parsing Morfológico. Regras Simples. Adicionando palavras. Regras Derivacionais

Organizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU

Avaliando o que foi Aprendido

Simulação Transiente

MÉTRICAS DE SOFTWARE

Tabela de Símbolos. Análise Semântica A Tabela de Símbolos. Principais Operações. Estrutura da Tabela de Símbolos. Declarações 11/6/2008

Objetivos. Processos de Software. Tópicos abordados. O processo de software. Modelos genéricos de modelos de processo de software.

Vetor Quantização e Aglomeramento (Clustering)

2. Método de Monte Carlo

PROVA 358. (Dec.- Lei n.º 139/2012, de 5 de julho) 2014/ ª e 2.ª Fases

Redes Neurais Construtivas. Germano Crispim Vasconcelos Centro de Informática - UFPE

4 Segmentação Algoritmo proposto

Versão Final do Projecto. Versão Final do Projecto ( )

Engenharia de Software: Introdução. Mestrado em Ciência da Computação 2008 Profa. Itana Gimenes

Projeto de Redes Neurais e MATLAB

A Otimização Colônia de Formigas

Roteiro. Arquitetura. Tipos de Arquitetura. Questionário. Centralizado Descentralizado Hibrido

Probabilidade. Distribuição Exponencial

Figura 1.1: Exemplo de links patrocinados no Google

Desenvolvimento de Sistemas Orientados a Objetos com UML UP/RUP: Projeto

Diagrama de transição de Estados (DTE)

Engenharia de Software. Parte I. Introdução. Metodologias para o Desenvolvimento de Sistemas DAS

Classificação da imagem (ou reconhecimento de padrões): objectivos Métodos de reconhecimento de padrões

Probabilidade. Distribuição Exponencial

MINERAÇÃO DE DADOS APLICADA. Pedro Henrique Bragioni Las Casas

Artigo Os 6 Mitos Do Seis Sigma

Medidas e Incertezas

Aula 20. Roteamento em Redes de Dados. Eytan Modiano MIT

1 UML (UNIFIED MODELING LANGUAGE)

Inteligência de Enxame: ACO

IA Colônia de Formigas. Prof. Ricardo Britto DIE-UFPI

INTELIGÊNCIA ARTIFICIAL Data Mining (DM): um pouco de prática. (1) Data Mining Conceitos apresentados por

Estratégias de Pesquisa

MLP (Multi Layer Perceptron)

PROCESSO DE DESENVOLVIMENTO DE SOFTWARE. Modelos de Processo de Desenvolvimento de Software

Agrupamento de dados

Modelo Entidade-Relacionamento

Modelagem e Simulação

Sistemas de Detecção de Intrusão SDI

Especificações da oferta Gerenciamento de dispositivos distribuídos: Gerenciamento de ativos

Agrupamento de Escolas de Porto de Mós Informação-Prova de Equivalência à Frequência

Introdução a Gerenciamento de Projetos Prof. MSc. Fábio Assunção

INFORMAÇÃO PROVA DE EQUIVALÊNCIA À FREQUÊNCIA INGLÊS LE I (2 anos) 2015

UFGD FCA PROF. OMAR DANIEL BLOCO 6 CLASSIFICAÇÃO DE IMAGENS

PROJECTOS DE INVESTIGAÇÃO CIENTÍFICA E DESENVOLVIMENTO TECNOLÓGICO

Trabalhando com Pequenas Amostras: Distribuição t de Student

Engenharia de Sistemas Computacionais

PLANEJAMENTO EXPERIMENTAL

Pesquisa experimental

Inteligência Artificial. Prof. Tiago A. E. Ferreira Aula 11 Problemas com Satisfação de Vínculos

TÓPICOS AVANÇADOS EM ENGENHARIA DE SOFTWARE

PROVA 367. (Dec.- Lei n.º 139/2012, de 5 de julho) 2014/ ª e 2.ª Fases

UNIVERSIDADE FEDERAL DE SANTA CATARINA GRADUAÇÃO EM SISTEMAS DE INFORMAÇÃO DEPARTAMENTO DE INFORMÁTICA E ESTATÍSTICA DATA MINING EM VÍDEOS

Teste de Software. Objetivos e Limites. Objetivos e Limites. Objetivos e Limites. Objetivos e Limites. Objetivos e Limites

SISTEMAS DISTRIBUÍDOS E TOLERÂNCIA A FALHAS

17/10/2012. dados? Processo. Doutorado em Engenharia de Produção Michel J. Anzanello. Doutorado EP - 2. Doutorado EP - 3.

IA: Problemas de Satisfação de Restrições. Prof. Msc. Ricardo Britto DIE-UFPI

FUNCIONAMENTO, VANTAGENS E DESVANTAGENS DAS DIVERSAS TECNOLOGIAS

Modelos. Comunicação com clientes

Processo de Desenvolvimento de Software. Engenharia de Software.

Modelagem e Simulação Material 02 Projeto de Simulação

2 Diagrama de Caso de Uso

Introdução aos cálculos de datas

Sistemas Distribuídos: Conceitos e Projeto Introdução a Tolerância a Falhas

7Testes de hipótese. Prof. Dr. Paulo Picchetti M.Sc. Erick Y. Mizuno. H 0 : 2,5 peças / hora

3 SCS: Sistema de Componentes de Software

Fabio Bento

Data Warehouse. Compras. Caroline B. Perlin

RECONHECIMENTO DE PADRÕES RECONHECIMENTO DE VOZ

Instalações Máquinas Equipamentos Pessoal de produção

Bancos de dados distribuídos Prof. Tiago Eugenio de Melo

3 Classificação Resumo do algoritmo proposto

Universidade Tecnológica Federal do Paraná UTFPR Programa de Pós-Graduação em Computação Aplicada Disciplina de Mineração de Dados

Resolução de Problemas Com Procura. Capítulo 3

Dado: Fatos conhecidos que podem ser registrados e têm um significado implícito. Banco de Dados:

ALESSANDRO RODRIGO FRANCO FERNANDO MARTINS RAFAEL ALMEIDA DE OLIVEIRA

4 Avaliação Experimental

O Processo de Desenvolvimento de Software

UNIDADE DE PESQUISA CLÍNICA Centro de Medicina Reprodutiva Dr Carlos Isaia Filho Ltda.

28/9/2010. Paralelismo no nível de instruções Processadores superescalares

6.3 Equivalência entre Autômatos com Pilha Não-Determinísticos e Gramáticas Livre do Contexto

O que é a UML? Introdução a UML. Objetivos da Modelagem. Modelos. A UML não é. Princípios da Modelagem. O que é um modelo?

6 Construção de Cenários

TÉCNICAS DE PROGRAMAÇÃO

Rede de Computadores II

Arquitetura de Software

SQL APOSTILA INTRODUÇÃO A LINGUAGEM SQL

Sumário. Comunicação Multicast. Soluções. Multicast. Application-Level Multicast. October 20, 2008 Algoritmos Epidémicos

Nome da Empresa. <Nome do Projeto> Plano de Desenvolvimento de Software. Versão <1.0>

Aula 01 - Formatações prontas e condicionais. Aula 01 - Formatações prontas e condicionais. Sumário. Formatar como Tabela

Valor Prático da Distribuição Amostral de

CAPÍTULO 7 NÍVEL DE LINGUAGEM DE MONTAGEM

Transcrição:

Modelando Novas Palavras Introdução Modelando palavras fora do vocabulário (OOV Out Of- Vocabulary) Formulação Probabilística Métodos independentes do Domínio Conhecendo unidades de subpalavras OOV Modelos Multiclasse OOV 1

O que é uma nova palavra? Quase todos os reconhecedores de voz pesquisam um léxico finito Uma palavra não contida no léxico é denominada for a do vocabulário (OOV) Palavras (OOV) são inevitáveis e problemáticas! 2

Novas palavras são inevitáveis! Crescimento do Vocabulário parece sem limites Novas palavras estão continuamente aparecendo Crescimento parece ser independente da linguagem Análises de múltiplas vozes e textos Tamanho do Vocabulário vs.quantidade de dados de treinamento Taxa de OOV vs. Tamanho do vocabulário Taxa OOV uma função do tipo de dados Voz Humana-máquina Voz Humana-humano Texto de Jornais 3

Novas palavras causam erros! Palavras (OOV) têm taxas de erro de palavras e sentenças se comparadas com palavras no vocabulário (IV- In Vocabulary) Palavras OOV freqüentemente causam erros múltiplos, por ex., Symphony Ref: Members of Charleston Symphony Orchestra are being treated Hyp: Members of Charleston simple your stroke are being treated 4

Novas palavras sobrecarregam os reconhecedores! Cálculos para pesquisar aumentam nas proximidades de novas palavras. 5

Novas palavras são importantes! Novas palavras freqüentemente são palavras de conteúdo importante. Palavras de conteúdo têm maior probabilidade de serem reusadas (ou seja persistente). 6

Desafios das Novas Palavras Quatro desafios com as novas palavras: 1. Detecção da presença de novas palavras. 2. Determinação de sua posição dentro da seqüência. 3. Reconhecimento da seqüência fonética que as contém; 4. Identificação da ortografia da palavra. Aplicações para modelos de novas palavras: Melhorar o reconhecimento, detectar erros de reconhecimento; Trabalhar co palavras parciais; Melhorar estratégias de diálogo; Dinamicamente incorporar novas palavras no vocabulário. 7

Procedimentos Para o Modelamento OOV Aumentar o tamanho do vocabulário! Use pontuação confiável para detectar palavras OOV. Use unidades de sub palavras no primeiro estágio de um sistema de dois estágios. Incorpore um modelo de palavra desconhecida no reconhecedor de voz r Uma extensão de um preenchimento, ou lixo, modelo para não palavras. 8

Incorporando Um Modelo OOV no RAV (Bazzi, 2002) Espaço de pesquisa híbrido: uma união de espaços de pesquisa de IV e OOV. 1. Inicie com a rede léxica padrão. 2. Construa redes de subpalavras separadas. 3. Adicione a rede de subpalavras à rede de palavras como uma nova palavra, W oov Custo, C oov, é adicionado para controlar a taxa de detecção de OOV. Durante o treinamento do modelo de linguagem, todas as palavras OOV são mapeadas para a etiqueta W oov. Umas variedades de unidades de subpalavras são possíveis (por ex., fonemas, sílabas, ) Uma variedade de restrições topológicas Restrições Acústico-fonéticas Duração das restrições 9

O Modelo de Probabilidade OOV O modelo de probabilidade padrão: W * = argmax P ( A W ) P( W ) Modelos Acústicos: mesmos para palavras IV e OOV. W Modelos de Linguagem: uma classe n-grama é usada para palavras OOV. 10

Vantagens do Procedimento Integrado Comparado com os modelos de enchimento. Mesmos modelos Acústicos para palavras IV e OOV; *A probabilidade da estimação é comparável. Modelo de linguagem subpalavra; * Estimado com o propósito do reconhecimento de palavras OOV. Nível da palavra no modelo de linguagem faz a predição da palavra OOV; Uso de grandes unidades de sub palavras; Tudo o exposto acima este em único ambiente; O melhor dos dois mundos: Enchimentos e dois estágios; Utilização previa do conhecimento léxico (Enchimentos); Modelamento subléxico detalhado (Dois estágios). 11

Um modelo OOV baseado na coleção de palavras O modelo OOV baseado na coleção usa uma configuração típica para reconhecimento de fonemas Qualquer seqüência de fonemas e de qualquer comprimento é permitida Durante o reconhecimento, a seqüência de fonemas é restrita para um fonema n-grama O fonema n-grama é estimado a partir da mesma coleção de treinamento usada para treinar o reconhecedor de palavras 12

Configuração Experimental Experimentos utilizam o reconhecedor do sistema de informações meteorológicas JUPITER Reconhecedor baseado em segmento SUMMIT Modelos di-fonemas dependentes do contexto 88.755 frases de treinamento 2.009 palavras no vocabulário do reconhecedor Taxa OOV: 2,2% (15.5%nível - seqüência) Modelo OOV usa fonema bigrama Experimentos usam 2.029 sentenças de teste a partir de chamadas feitas para JUPITER 1.715 sentenças com somente palavras IV 314 sentenças contendo palavras OOV 13

Resultados da Detecção Com Modelo OOV Coleção Metade das palavras OOV detectadas com 2% de falso alarme. Para taxa de detecção de 70%, um falso alarme de 8,5%. 14

O Modelo OOV Oracle Objetivo: quantificar o melhor desempenho possível com o ambiente proposto. Procedimento: construir um modelo OOV que permita somente seqüências de fonemas de palavras OOV no conjunto de teste. A configuração Oracle não é equivalente a adicionar as palavras OOV no vocabulário. 15

Resultados da Detecção do Modelo OOV Oracle Significante espaço, para melhorias! 16

Modelo OOV Independente do Domínio Problemas com o modelo coleção Favorece palavras mais freqüentes pois é treinado no registro fonético de sentenças completas Devota uma porção da massa de probabilidades n-grama para sentenças com palavras cruzadas Modelo OOV dependente do domínio pode não ser generalizado Um dicionário do modelo OOV é implementado a partir de um dicionário genérico de palavras em vez que de uma coleção de sentenças Elimina a dependência com o domínio e a polarização para palavras freqüentes Experimentos usam Dicionário LDC PRONLEX 90.694 palavras com um total de 99.02 pronúncias 17

Resultados da Detecção do Modelo OOV Dicionário N taxa de detecção de 70%, o falso alarme é reduzido de 8,5% para 5,3% 18

Impacto na Taxa de Palavras Erradas WER no inteiro conjunto de teste é reduzido de 17,1% para 16,4% WER pode ser reduzido de 17,1% para 15,1% com um mecanismo de identificação 19

Outras Medidas de Desempenho Precisão em localizar palavras OOV: Taxa de erro fonético de OOV (PER Phonetis Error Rate): 20

Conhecendo Unidades de Subpalavras OOV Objetivo: incorporar restrições adicionais na estrutura a fim de reduzir hipóteses falsas nas palavras OOV. Idéia: restringir a rede de reconhecimento OOV para unidades multifonéticas especificas. Como obter ro conjunto de unidades multifonema? Procedimento orientado a dados: mede as estatísticas de co ocorrência de fonemas (por ex., informação mútua) dentro de um grande dicionário para propor incrementalmente novas unidades de multifonemas. 21

Conhecendo Unidades de Multifonemas Um algoritmo iterativo de baixo para cima Inicia com fonemas individuais; Iterativamente une pares de unidades para formar unidades mais longas. Critério para união de pares de unidades baseia-se na informação mutua pesada de um par (MI w ): ( u, u ) p( u, u ) MI w = 1 2 p( u1, u2 ) ( u ) p( u ) A cada iteração os n pares com maior MI w são unidos. 1 O número de unidades multifonemas assim obtidas depende do número de iterações. Um resultado é a completa analise de todas as palavras no vocabulário em termos das unidades conhecidas. 2 log p 1 2 22

Resultados MMI Conjunto inicial de unidades é o conjunto de fonemas (62 fonemas). Tamanho final do inventário de unidade é 1.977 unidades (após 200 iterações, e 10 uniões por iteração). Modelo perplexidade OOV decresce de 14,0 para o conjunto de fonemas inicial para 7,1 do conjunto multifonema derivado. 67% das unidades derivadas são silabas legais em inglês. Comprimento médio de uma unidade derivada é 3,2 fonemas Exemplos: 23

MMI Comportamento do Aglomerado Níveis MI extrapolam para pares no topo do ranking dos pares; após várias iterações (pode ser útil como critério para parar). 24

MMI Model OOV Detection Results Em 70% da taxa de detecção, a taxa de alarme falso é reduzida para 3,2%. Taxa de erro de fonética é reduzida para 37,8% a 31,2%. 25

OOV - Detecção da Figura de Mérito Figura de mérito (FOM) medidas na área sob os 10% 10% e os 100% da curva de ROC. FOM aleatória mostra o desempenho para um modelo aleatório OOV (ROC é a diagonal y=x). 26

Um Modelo OOV Multiclasse Motivação: modelamento refinado das classes desconhecidas de palavras. No nível da fonética: estrutura fonotática similar. No nível do modelo de linguagem: padrões lingüísticos similares. Abordagem: estende o estrutura do modelo de múltiplas categorias de palavras desconhecidas. A coleção da redes OOV em paralelo com a rede IV. O nível de gramática das palavras p GN rediz múltiplas classes OOV. 27

Experimentos Multiclasse Atribuições de classe nos termos da etiqueta de parte da fala? Derivado de um dicionário etiquetado das palavras (LDC COMLEX). o modelo de linguagem do nível palavra treinou em oito classes POS? A palavra secundária múltipla, LMs, usada para a posição diferente classes POS. Atribuições de classe baseadas em aglomerar-se do perplexidade? Críe um modelo da linguagem bigram de telefone dos conjuntos iniciais? Use aglomeramento K-means para mudar aglomeramento para outro. Em cada iteração, cada palavra é movida para o conjunto com o perplexidade mais baixa (a probabilidade a mais elevada). 28

Modelo Multiclasse OOV Resultados da Detecção Método multiclasse melhora sobre o modelo dicionário OOV. Modelo POS obtém 81% da precisão da classe identificação. Aglomeramento da Perplexidade desempenha que a classe POS 29

Contribuição do Modelo de Linguagem Multi - OOV A maioria do ganho vem das múltiplas redes OOV. Fonotática é mais importante que as restrições do modelo da linguagem. Comportamento pode ser diferente em outros domínios. 30

Derivando Multiclasses Mediante Aglomeramento Aglomeramento pode ser usado para sugerir multiclasses inicias. Aglomeramento de baixo para cima para iniciar atribuição de palavras nas classes. Distância métrica baseada na similaridade do fonema bigrama. Uma medida de similaridade media é utilizada para unir aglomerados: 1 ( X m, X n ) = d( Wi W j ) d avg, C C W X W X Um número arbitrário de classes pode ser aglomerado. Classes podem ser suavizadas com o aglomeramento da perplexidade. m n wi i m j n 31

Outras Áreas de Pesquisa Relacionadas Medindo o impacto do reconhecimento no reconhecimento OOV para entendimento. Melhora da precisão fonética OOV. Estendendo o procedimento para modelar sentenças for a do domínio. Desenvolver pontuações confiáveis especificas para OOV. Para melhorar a qualidade da detecção. Modelamento de outras forma de sons fora do domínio (por ex., ruído). 32

Referências A. Asadi, Automatic detection and modeling of new words in a large vocabulary continuous speech recognition system, Ph.D. thesis, Northeastern University, 1991. I. Bazzi, Modelling out-of-vocabulary words for robust speech recognition, Ph.D. thesis, MIT, 2002. G. Chung, Towards multi-domain speech understanding with flexible and dynamic vocabulary, Ph.D. thesis, MIT, 2001. L. Hetherington, The problem of new, out-of-vocabulary words in spoken language systems, Ph.D. thesis, MIT, 1994. 33