ao Reconhecimento Automático da Voz (RAV) Professores: Jim Glass & Professores convidados ao RAV Definição do problema Exemplos do estado da arte Visão do curso Resumo da aula Tarefas Projeto Avaliação 1
Comunicação Via Linguagem Falada 2
Virtudes da Linguagem Falada Natural: Flexível: Eficiente: Econômica: Não precisa de treinamento especial. Deixa as mãos e os olhos livres. Tem uma elevada taxa de informação. Pode ser transmitida/ recebida de forma barata. 3
Existem várias limitações na comunicação via linguagem falada Acústica: Fonética: Fonológica: Fonotáctica: Sintática: Semântica: Contextual: Trato vocal humano let us pray lettuce spray gas shortage fish sandwich blit vnuk I am flying to Chicago tomorrow tomorrow I flying Chicago am to Is the baby crying Is the bay bee crying It is easy to recognize speech It is easy to wreck a nice beach 4
Reconhecimento Automático da Voz (RAV) Um sistema RAV converte o sinal de voz em palavras. As palavras reconhecidas podem ser: A saída final, ou O a entrada para o processamento natural da linguagem. 5
Áreas de aplicação para as interfaces de voz Principalmente como entrada (somente reconhecimento) Simples comando e controle Simples entrada de dados (via telefone) Ditado Conversação Interativa (entendimento é necessário) Quiosques para informação Processamento transacional Agentes Inteligentes 6
Desafios no reconhecimento da voz Co-articulação Independência de quem fala Variações do dialeto Quem fala não é nativo Conversa espontânea Interrupções Palavras fora do vocabulário Modelamento da linguagem Resistente ao ruído 7
Exemplo de Variações Fonológicas A realização acústica de um fonema depende fortemente do contexto em que ocorre. 8
Exemplos contrastando voz proveniente de uma leitura e voz espontânea (Domínio de Navegação) Pausas preenchidas e não preenchidas: leitura, espontânea Palavras alongadas: leitura, espontânea Falsos inícios: leitura, espontânea 9
As vezes dados reais irão predominar Requisitos de tecnologia (domínio nome da cidade) Tecnologia requerida Exemplo Reconhecimento de palavras simples Reconhecimento de palavras complexas Interpretação da voz Um, Braintree Eh yes, Avis rent-a-car in Boston Hello, please Brighton, uh, can I have the number of Earthscape, in, uh, on Nonantum Street Woburn, uh, Somerville. I'm sorry 10
Parâmetros que caracterizam as capacidades de um sistema RAV Parâmetros Modo de falar: Estilo de falar: Dependência: Vocabulário: Modelo de linguagem: Perplexidade: SNR: Transdutor: Abrangência De palavra isolada a conversação contínua Voz de leitura a voz espontânea Depende de quem fala a Não depende de quem fala Pequeno (<20 palavras) a grande (>50,000 palavras) Estado finito a sensível ao contexto Pequena (<10) a grande (>200) Alta (>30dB) a baixa (<10dB) Cancelamento de ruído no microfone ao telefone celular 11
Tendências no RAV*: antes e agora Antes meio 70's meio 70 s - meio 80 s depois meio 80 s Unidades de reconhecimento: Unidades de palavra inteira e de sub palavras Unidades de sub palavras Unidades de subpalavras Procedimentos de modelamento: Heurístico e ad hoc Baseado em regras e declarativo Casamento com padrões Determinístico e orientado a dados Matemático e formal Probabilístico e orientado a dados Representação do conhecimento: Heterogêneo e complexo Homogêneo e simples Homogêneo e simples Aquisição do conhecimento: Engenharia do conhecimento intensiva Imerso em estrutura simples Aprendizado automático *Existem naturalmente muitas exceções. 12
Reconhecimento da voz: Onde estamos agora? Alto desempenho,de reconhecimento de voz não dependente de quem fala é agora possível. Vasto vocabulário (para diálogos cooperativos em ambiente benigno), Vocabulário médio (para conversação espontânea no telefone), Sistemas comerciais para reconhecimento agora estão disponíveis: Ditados (ex., Dragon, IBM, L&H, Philips), Transações telefônicas (ex., AT&T, Nuance, Philips, SpeechWorks, TellMe, etc.) Scansoft. Quando bem casada com as aplicações, a tecnologia é hábil em auxiliar o desenvolvimento do trabalho. 13
Exemplos de Desempenho do RAV RAV que são independente de quem fala, para conversação contínua estão disponíveis agora. Reconhecimento digital via telefone com taxa de erro de palavras de 0,3%. A taxa de erro decresce para a metade a cada dois anos para vocabulários moderados. Erros na conversação espontânea são maiores que duas vez que na voz de leitura. Voz proveniente da conversação de múltiplas pessoas e ambiente com pouca acústica continuam um desafio. Dezenas de horas de treinamento para migrar em um domínio diferente Modelamento estatístico utilizando treinamento automático tem atingido grandes avanços. 14
Importante Lições Aprendidas Modelamento estatístico e procedimentos orientados a dados têm se mostrado potentes. A infra-estrutura de pesquisa é crucial: Grande quantidade de dados lingüísticos, Metodologias de avaliação. Disponibilidade e possibilidade de aquisição de potência computacional levam a ciclos de desenvolvimento tecnológico mais curtos e a sistemas de tempo real. O paradigma orientado ao desempenho acelera o desenvolvimento tecnológico. Colaboração interdisciplinar produz maiores capacidades (ex., entendimento da linguagem falada). 15
Principais Componentes de um Sistema de Reconhecimento de Voz Reconhecimento da voz é o problema de decidir: Como representar o sinal Como modelar as restrições Como pesquisar pela melhor resposta 16
Demo: Ditado contínuo IBM ViaVoice utilizando ThinkPad. Treinado para um escritório com ambiente calmo (o desempenho em sala de aula não é ótimo). 17
Demo: Uma simples transação telefônica Desenvolvida pela SpeechWorks International (existem outras) Informações do custo do transporte via Fedex (1-800-GO-FEDEX) Fornece informações sobre: Tipos de pacote, CEP do emissor e receptor, Peso, tamanho, valor, Tipo de serviço. Gerencia o custo de chamadas em todos os EUA. Sistema de Vendas para E*Trade Suporta preços e negócios; Utilizando símbolos ou nomes, Para estoques, opções e fundos mútuos. Usuários podem acessar em qualquer momento. Implantação a nível nacional para mais 450.000 clientes. 18
Interfaces para Conversação: A Próxima Geração Nos possibilita conversar com as máquinas (em forma bastante semelhante como nos comunicamos uns aos outros) a fim de criar, acessar, e gerenciar a informação e resolver problemas. Incrementar a tecnologia de reconhecimento da voz com a tecnologia da linguagem natural a fim de entender a entrada verbal. Poder estabelecer um diálogo com um usuário durante a interação. Usar linguagem natural para falar a resposta desejada. É o que Hollywood e todo futurista diz que nós deveríamos ter! 19
A Arquitetura de Um Sistema Conversacional Dados Significado 20
Demo: Interface Conversacional Sistema de informações do tempo Júpiter Acesso via telefone. 500 cidades ao redor do mundo. Coleta de informações do tempo a partir da Web várias vezes ao dia. 21
Dados (reais) Melhoram o Desempenho (domínio do tempo) Avaliações longitudinais mostram melhorias. A coleta de dados reais melhora o desempenho: Possibilita uma complexidade crescente e melhora a robustez de modelos acústicos e de linguagem, Melhor casamento que em condições de registro em laboratório, Aberto para todos os usuários. 22
Mas ainda estamos longe da solução! Corpus Tipo de voz Tamanho do léxico Taxa de palavras erradas (%) Taxa de erro humano (%) Fluxo de dígitos (Telefone) espontâneo 10 0,3 0,009 Gerenciamento de Recursos leitura 1000 3,6 0,1 ATIS espontâneo 2000 2 --- Wall Street Journal leitura 64000 6,6 1 Noticiário via Radio misto 64000 15,5 --- Switchboard (Telefone) conversação 10000 19,3 4 Chamada Residencial (Telefone) conversação 10000 30 --- 23
Esboço do Curso Modelamento Acústico- Fonético Reconheciment o de Padrões Modelamento da linguagem Quantização de vetores & Aglomerados Modelamento de Markov Oculto Modelos segmentados 24
Logística do Curso Aulas: Duas sessões/semana; 1,5 horas /sessão Laboratórios: Toda semana durante período de funcionamento da escola. Avaliação 9 tarefas 45% 2 Quizzes 30% Projeto final (cerca de 4 semanas) 25% 25
Tarefas Serão dadas 9 tarefas semanalmente, Os problemas utilizam o material dado em aula, As tarefas de lab são para reforço do material dado em aula, As tarefas devem ser entregues na quarta-feira da semana seguinte. O trabalho de lab será feito no lab de computação. Agendamento de lab (no curso na web) é necessário. Soluções serão fornecidas. 26
Projeto Final Investigar uma condição contrastante em um experimento RAV Iremos prover diferentes reconhecedores e domínios para você selecionar, e iremos ajudá-lo a selecionar um tópico Você escolhe: Condições de avaliação: (ex., classificação fonética, reconhecimento de palavras ) Bando de dados (ex., TIMIT, RM, Jupiter, Aurora, ) Reconhecedor (ex., Sphinx, Summit, GMTK, ) Condições contrastantes (ex., representação do sinal, modelo acústico, modelo de linguagem). Requisitos: Proposta Experimentos (maior parte do trabalho) Relatório Apresentação nos últimos dias de aula 27
Referências (fazer reserva na Barker) Huang, Acero, & Hon, Spoken Language Processing, Prentice-Hall, 2001. Jelinek, Statistical Methods for Speech Recognition, MIT Press, 1997. Rabiner & Juang, Fundamentals of Speech Recognition, Prentice- Hall, 1983. Duda, Hart, & Stork, Pattern Classification, Wiley & Sons, 2001. Stevens, Acoustic Phonetics, MIT Press, 1998. 28