Introdução ao Reconhecimento Automático da Voz (RAV)



Documentos relacionados
UNIVERSIDADE ESTADUAL DE CAMPINAS. Instituto de Matemática, Estatística e Computação Científica

RAV para Sistemas de Diálogo

Vetor Quantização e Aglomeramento (Clustering)

ESTUDO DE CASO: LeCS: Ensino a Distância

Motivação. O Uso de Jogos. Problems & Programmers (PnP) Visão Geral do PnP. Exemplo. Jogos para Simulação em Engenharia de Software

Disciplina: Economia & Negócios Líder da Disciplina: Ivy Jundensnaider Professora: Rosely Gaeta

Conjunto de recursos (humanos e materiais), processos e metodologias estruturados de forma semelhante à indústria tradicional.

ANÁLISE DE RECONHECEDOR DE FALA DEPENDENTE DE LOCUTOR QUANDO USADO PARA LOCUTORES NÃO TREINADOS

REGULAMENTO DO PROJETO DE CONCLUSÃO DE CURSO (PCC) CAPÍTULO I Da natureza e finalidade. Capítulo II

REGULAMENTO DE SELEÇÃO DE EMPREENDIMENTOS. Prêmio Consulado da Mulher EDITAL

Sumário. Introdução ao Microsoft Project. 1 Microsoft Project, gerenciamento de projetos e você 3. 2 Visão geral do Project 11.

Avaliação de IHC: INF1403 Introdução a IHC Aula 7 27/03/2013. Profa. Clarisse S. de Souza

Sistemas Distribuídos (DCC/UFRJ)

Memórias de Tradução: auxiliando o humano a traduzir

Engenharia de Software II

Disciplina: Técnicas de Racionalização de Processos Líder da Disciplina: Rosely Gaeta NOTA DE AULA 04 O PROJETO DE MELHORIA DOS PROCESSOS

Redes Neurais Artificiais na Engenharia Nuclear 2 Aula-1 Ano: 2005

REGULAMENTO E CONTRATO FINANCEIRO PARA CURSO DE ATUALIZAÇÃO A DISTÂNCIA 2016

Marcelo K. Albertini. 17 de Abril de 2014

Edital n.º 04/2008. Seleção para Ingresso ao Curso Técnico em Gestão Hoteleira Município de Rio Quente

MANUAL DO ALUNO DO CURSO DE INGLÊS EF

Da Escrita à Fala - Da Fala à Escrita Isabel Trancoso, Luís Oliveira, João Neto M. Céu Viana INESC CLUL

esags.edu.br Santo André >Av. Industrial, Bairro Jardim (11) Santos >Av. Conselheiro Nébias, 159 (13)

FMEA (Failure Model and Effect Analysis)

Reconhecimento de Padrões. Reconhecimento de Padrões

3º Ano do Ensino Médio. Aula nº10 Prof. Daniel Szente

Microsoft Office Outlook Web Access ABYARAIMOVEIS.COM.BR

A PRÁTICA DA INTERDICIPLINARIEDADE NO ENSINO DE PROJETOS DE MOLDES E MATRIZES NO CURSO DE TECNOLOGIA EM MECÂNICA DO IST

Guia do Aluno. Campo Grande MS

Software Básico. Conceito de Linguagem de Máquina e Montagem: introdução ao Assembly. Prof. MSc. Hugo Vieira L. Souza

Estruturas Organizacionais Habilidades Gerenciais

Módulo 14 Treinamento e Desenvolvimento de Pessoas Treinamento é investimento

RECONHECIMENTO DE PADRÕES RECONHECIMENTO DE VOZ

A PRÁTICA DA CRIAÇÃO E A APRECIAÇÃO MUSICAL COM ADULTOS: RELATO DE UMA EXPERIÊNCIA. Bernadete Zagonel

REPLICACÃO DE BASE DE DADOS

Índice. Introdução 2. Quais funcionalidades uma boa plataforma de EAD deve ter? 4. Quais são as vantagens de ter uma plataforma EAD?

Como estudar o SIPIA CT

PROJETO EDUCACIONAL TELEDUC OFICINA MAS QUE PREGUIÇA, TEM DE ESTUDAR...

Apostila da disciplina Introdução à Engenharia de Software Professor: Sandro Melo Faculdades São José Curso de Tecnologia de Sistemas de Informação

EDITAL INTERNO 005/2016

Classificação dos Sistemas Fotovoltaicos

AULA 1: PARADIGMAS DE PROGRAMAÇÃO

Considerações sobre redimensionamento de motores elétricos de indução

MODELIX SYSTEM SOFTWARE DE PROGRAMAÇÃO DE ROBÔS

EDITAL DO PROCESSO DE ADMISSÃO DE NOVOS ALUNOS NO COLÉGIO SANTO AGOSTINHO UNIDADE BELO HORIZONTE 2015

Powered by Macmillan, 150 years of experience INTERNATIONAL ONLINE SCHOOL SOLUÇÕES CORPORATIVAS

UNIVERSIDADE FEDERAL DO PIAUÍ - UEPI CENTRO DE CIÊNCIAS DA SAÚDE DEPARTAMENTO DE NUTRIÇÃO. Chamada Pública nº 01, de 27 de janeiro de 2016

Nível do Sistema Operacional

UML & Padrões Aula 3. UML e Padrões - Profª Kelly Christine C. Silva

Edital Processo seletivo -2012/2013 Equipe SuperBaja - UERJ

Sistema Datachk. Plano de Projeto. Versão <1.0> Z u s a m m e n a r b e i t I d e i a s C o l a b o r a t i v a s

Algoritmos e Programação Parte Teórica

COMUNICADO DE SELEÇÃO INTERNA

Sistema de debate digital CCS 1000 D 1. Sistema de debate digital CCS 1000 D Compacto, mas versátil

O Treino no BTT. COALA Clube Orientação Aventura Litoral Alentejano

Sistemas Operacionais. Prof. André Y. Kusumoto

Curso Pré-Universitário Popular UFSCurso Araras

CAPÍTULO I DOS OBJETIVOS

CENTRO UNIVERSITÁRIO DE CARATINGA UNEC Mantenedora: Fundação Educacional de Caratinga EDITAL N 01/2013

Engenharia de Software II

Uso das ferramentas de monitoramento de gerência de redes para avaliar a QoS da rede.

Modelando Novas Palavras

DICÇÃO, DESINIBIÇÃO E ORATÓRIA. Ingresso Janeiro Informações: (51)

4 Metodologia de Pesquisa com Usuários

Engenharia de Software

Comunicação de Dados. Aula 4 Conversão de Sinais Analógicos em digitais e tipos de transmissão

4 Avaliação Experimental

UNIVERSIDADE DE BRASÍLIA INSTITUTO DE ARTES DEPARTAMENTO DE ARTES VISUAIS PROGRAMA DE PÓS-GRADUAÇÃO EM ARTE EDITAL No. 01/2012

4 Linux e HackerTeen Equipe de Gestão de Educação à Distância

Aula 2 Revisão 1. Ciclo de Vida. Processo de Desenvolvimento de SW. Processo de Desenvolvimento de SW. Processo de Desenvolvimento de SW

Manual SIGEESCOLA Matrícula

Lista de Exercícios Tratamento de Incerteza baseado em Probabilidade

Faculdade de Gestão e Negócios de Salvador

UNIVERSIDADE DE BRASÍLIA PROGRAMA DE PÓS-GRADUAÇÃO EM ARTES CÊNICAS EDITAL No. 01/2016

Tencologia em Análise e Desenvolvimento de Sistemas Disciplina: WEB I Conteúdo: Arquitetura de Software Aula 03

Gerenciamento de Qualidade. Paulo C. Masiero Cap SMVL

Tecnologias e canais de comunicação formais não mudam o comportamento dos funcionários, diz o sociólogo e especialista em comunicação T. J.

Princípios Fundamentais

Linguagem Radiofônica Aula 1

Para visitas que encantam

Aula 4 Estatística Conceitos básicos

UNIVERSIDADE DE BRASÍLIA PROGRAMA DE PÓS-GRADUAÇÃO EM ARTES CÊNICAS EDITAL No. 01/2014

EDITAL DO PROCESSO SELETIVO DE ALUNOS PARA AS TURMAS DE PRÉ- VESTIBULAR/PRÉ-ENEM DO EQUALIZAR 2016

Cinco restrições de desenvolvimento/teste que afetam a velocidade, o custo e a qualidade dos seus aplicativos

CHAMADA PÚBLICA n 01/2016/GEPEX-URUAÇU

Seja muito bem-vinda(o) ao Curso de Gestão em Projetos Sociais - PMD Pro1!

7 7 E8BOOK7CURSO7DE7 ORATÓRIA7

Engenharia de Software e Gerência de Projetos Prof. Esp. André Luís Belini Bacharel em Sistemas de Informações MBA em Gestão Estratégica de Negócios

Perguntas. Que todo usuário deveria fazer antes de comprar um software CAD de baixo custo. Por Robert Green, proprietário da Robert Green Consulting

MANUAL DE CANDIDATURA da Certificação Profissional FEBRABAN Análise e Aprovação de Crédito CERT.FBB-200

Faculdade Vizinhança Vale do Iguaçu

Guia de utilização da notação BPMN

EDITAL Nº 003/10 PÓS-GRADUAÇÃO, PESQUISA E EXTENSÃO

Gestão da TI. Os custos escondidos da. Conheça os custos escondidos na gestão amadora da TI e pare de perder dinheiro.

UNIFEB - CENTRO UNIVERSITÁRIO DA FEB EDITAL DE ABERTURA DO PROCESSO SELETIVO INTERNO PARA CONTRATAÇÃO DE DOCENTES

CENTRO DE CIÊNCIAS EXATAS E SOCIAIS APLICADAS MANUAL: LABORATÓRIO DE CRIAÇÃO E VESTUÁRIO EM MODA

Termos e Condições CURSO DE LIDERANÇA ESCOLAR

Área - Relações Interpessoais

Sistema de Reserva de Laboratório Trabalho Semestral Versão 1.0

Transcrição:

ao Reconhecimento Automático da Voz (RAV) Professores: Jim Glass & Professores convidados ao RAV Definição do problema Exemplos do estado da arte Visão do curso Resumo da aula Tarefas Projeto Avaliação 1

Comunicação Via Linguagem Falada 2

Virtudes da Linguagem Falada Natural: Flexível: Eficiente: Econômica: Não precisa de treinamento especial. Deixa as mãos e os olhos livres. Tem uma elevada taxa de informação. Pode ser transmitida/ recebida de forma barata. 3

Existem várias limitações na comunicação via linguagem falada Acústica: Fonética: Fonológica: Fonotáctica: Sintática: Semântica: Contextual: Trato vocal humano let us pray lettuce spray gas shortage fish sandwich blit vnuk I am flying to Chicago tomorrow tomorrow I flying Chicago am to Is the baby crying Is the bay bee crying It is easy to recognize speech It is easy to wreck a nice beach 4

Reconhecimento Automático da Voz (RAV) Um sistema RAV converte o sinal de voz em palavras. As palavras reconhecidas podem ser: A saída final, ou O a entrada para o processamento natural da linguagem. 5

Áreas de aplicação para as interfaces de voz Principalmente como entrada (somente reconhecimento) Simples comando e controle Simples entrada de dados (via telefone) Ditado Conversação Interativa (entendimento é necessário) Quiosques para informação Processamento transacional Agentes Inteligentes 6

Desafios no reconhecimento da voz Co-articulação Independência de quem fala Variações do dialeto Quem fala não é nativo Conversa espontânea Interrupções Palavras fora do vocabulário Modelamento da linguagem Resistente ao ruído 7

Exemplo de Variações Fonológicas A realização acústica de um fonema depende fortemente do contexto em que ocorre. 8

Exemplos contrastando voz proveniente de uma leitura e voz espontânea (Domínio de Navegação) Pausas preenchidas e não preenchidas: leitura, espontânea Palavras alongadas: leitura, espontânea Falsos inícios: leitura, espontânea 9

As vezes dados reais irão predominar Requisitos de tecnologia (domínio nome da cidade) Tecnologia requerida Exemplo Reconhecimento de palavras simples Reconhecimento de palavras complexas Interpretação da voz Um, Braintree Eh yes, Avis rent-a-car in Boston Hello, please Brighton, uh, can I have the number of Earthscape, in, uh, on Nonantum Street Woburn, uh, Somerville. I'm sorry 10

Parâmetros que caracterizam as capacidades de um sistema RAV Parâmetros Modo de falar: Estilo de falar: Dependência: Vocabulário: Modelo de linguagem: Perplexidade: SNR: Transdutor: Abrangência De palavra isolada a conversação contínua Voz de leitura a voz espontânea Depende de quem fala a Não depende de quem fala Pequeno (<20 palavras) a grande (>50,000 palavras) Estado finito a sensível ao contexto Pequena (<10) a grande (>200) Alta (>30dB) a baixa (<10dB) Cancelamento de ruído no microfone ao telefone celular 11

Tendências no RAV*: antes e agora Antes meio 70's meio 70 s - meio 80 s depois meio 80 s Unidades de reconhecimento: Unidades de palavra inteira e de sub palavras Unidades de sub palavras Unidades de subpalavras Procedimentos de modelamento: Heurístico e ad hoc Baseado em regras e declarativo Casamento com padrões Determinístico e orientado a dados Matemático e formal Probabilístico e orientado a dados Representação do conhecimento: Heterogêneo e complexo Homogêneo e simples Homogêneo e simples Aquisição do conhecimento: Engenharia do conhecimento intensiva Imerso em estrutura simples Aprendizado automático *Existem naturalmente muitas exceções. 12

Reconhecimento da voz: Onde estamos agora? Alto desempenho,de reconhecimento de voz não dependente de quem fala é agora possível. Vasto vocabulário (para diálogos cooperativos em ambiente benigno), Vocabulário médio (para conversação espontânea no telefone), Sistemas comerciais para reconhecimento agora estão disponíveis: Ditados (ex., Dragon, IBM, L&H, Philips), Transações telefônicas (ex., AT&T, Nuance, Philips, SpeechWorks, TellMe, etc.) Scansoft. Quando bem casada com as aplicações, a tecnologia é hábil em auxiliar o desenvolvimento do trabalho. 13

Exemplos de Desempenho do RAV RAV que são independente de quem fala, para conversação contínua estão disponíveis agora. Reconhecimento digital via telefone com taxa de erro de palavras de 0,3%. A taxa de erro decresce para a metade a cada dois anos para vocabulários moderados. Erros na conversação espontânea são maiores que duas vez que na voz de leitura. Voz proveniente da conversação de múltiplas pessoas e ambiente com pouca acústica continuam um desafio. Dezenas de horas de treinamento para migrar em um domínio diferente Modelamento estatístico utilizando treinamento automático tem atingido grandes avanços. 14

Importante Lições Aprendidas Modelamento estatístico e procedimentos orientados a dados têm se mostrado potentes. A infra-estrutura de pesquisa é crucial: Grande quantidade de dados lingüísticos, Metodologias de avaliação. Disponibilidade e possibilidade de aquisição de potência computacional levam a ciclos de desenvolvimento tecnológico mais curtos e a sistemas de tempo real. O paradigma orientado ao desempenho acelera o desenvolvimento tecnológico. Colaboração interdisciplinar produz maiores capacidades (ex., entendimento da linguagem falada). 15

Principais Componentes de um Sistema de Reconhecimento de Voz Reconhecimento da voz é o problema de decidir: Como representar o sinal Como modelar as restrições Como pesquisar pela melhor resposta 16

Demo: Ditado contínuo IBM ViaVoice utilizando ThinkPad. Treinado para um escritório com ambiente calmo (o desempenho em sala de aula não é ótimo). 17

Demo: Uma simples transação telefônica Desenvolvida pela SpeechWorks International (existem outras) Informações do custo do transporte via Fedex (1-800-GO-FEDEX) Fornece informações sobre: Tipos de pacote, CEP do emissor e receptor, Peso, tamanho, valor, Tipo de serviço. Gerencia o custo de chamadas em todos os EUA. Sistema de Vendas para E*Trade Suporta preços e negócios; Utilizando símbolos ou nomes, Para estoques, opções e fundos mútuos. Usuários podem acessar em qualquer momento. Implantação a nível nacional para mais 450.000 clientes. 18

Interfaces para Conversação: A Próxima Geração Nos possibilita conversar com as máquinas (em forma bastante semelhante como nos comunicamos uns aos outros) a fim de criar, acessar, e gerenciar a informação e resolver problemas. Incrementar a tecnologia de reconhecimento da voz com a tecnologia da linguagem natural a fim de entender a entrada verbal. Poder estabelecer um diálogo com um usuário durante a interação. Usar linguagem natural para falar a resposta desejada. É o que Hollywood e todo futurista diz que nós deveríamos ter! 19

A Arquitetura de Um Sistema Conversacional Dados Significado 20

Demo: Interface Conversacional Sistema de informações do tempo Júpiter Acesso via telefone. 500 cidades ao redor do mundo. Coleta de informações do tempo a partir da Web várias vezes ao dia. 21

Dados (reais) Melhoram o Desempenho (domínio do tempo) Avaliações longitudinais mostram melhorias. A coleta de dados reais melhora o desempenho: Possibilita uma complexidade crescente e melhora a robustez de modelos acústicos e de linguagem, Melhor casamento que em condições de registro em laboratório, Aberto para todos os usuários. 22

Mas ainda estamos longe da solução! Corpus Tipo de voz Tamanho do léxico Taxa de palavras erradas (%) Taxa de erro humano (%) Fluxo de dígitos (Telefone) espontâneo 10 0,3 0,009 Gerenciamento de Recursos leitura 1000 3,6 0,1 ATIS espontâneo 2000 2 --- Wall Street Journal leitura 64000 6,6 1 Noticiário via Radio misto 64000 15,5 --- Switchboard (Telefone) conversação 10000 19,3 4 Chamada Residencial (Telefone) conversação 10000 30 --- 23

Esboço do Curso Modelamento Acústico- Fonético Reconheciment o de Padrões Modelamento da linguagem Quantização de vetores & Aglomerados Modelamento de Markov Oculto Modelos segmentados 24

Logística do Curso Aulas: Duas sessões/semana; 1,5 horas /sessão Laboratórios: Toda semana durante período de funcionamento da escola. Avaliação 9 tarefas 45% 2 Quizzes 30% Projeto final (cerca de 4 semanas) 25% 25

Tarefas Serão dadas 9 tarefas semanalmente, Os problemas utilizam o material dado em aula, As tarefas de lab são para reforço do material dado em aula, As tarefas devem ser entregues na quarta-feira da semana seguinte. O trabalho de lab será feito no lab de computação. Agendamento de lab (no curso na web) é necessário. Soluções serão fornecidas. 26

Projeto Final Investigar uma condição contrastante em um experimento RAV Iremos prover diferentes reconhecedores e domínios para você selecionar, e iremos ajudá-lo a selecionar um tópico Você escolhe: Condições de avaliação: (ex., classificação fonética, reconhecimento de palavras ) Bando de dados (ex., TIMIT, RM, Jupiter, Aurora, ) Reconhecedor (ex., Sphinx, Summit, GMTK, ) Condições contrastantes (ex., representação do sinal, modelo acústico, modelo de linguagem). Requisitos: Proposta Experimentos (maior parte do trabalho) Relatório Apresentação nos últimos dias de aula 27

Referências (fazer reserva na Barker) Huang, Acero, & Hon, Spoken Language Processing, Prentice-Hall, 2001. Jelinek, Statistical Methods for Speech Recognition, MIT Press, 1997. Rabiner & Juang, Fundamentals of Speech Recognition, Prentice- Hall, 1983. Duda, Hart, & Stork, Pattern Classification, Wiley & Sons, 2001. Stevens, Acoustic Phonetics, MIT Press, 1998. 28