Reconhecimento da voz baseado em segmento
|
|
- Maria Júlia Bandeira Prada
- 7 Há anos
- Visualizações:
Transcrição
1 Reconhecimento da voz baseado em segmento Introdução Pesquisando gráficos baseados no espaço de observações Modelamento antifonema Modelamento Near -miss Modelamento por marcas Modelamento fonológico 1
2 Reconhecimento da voz baseado em segmento Pesquisa probabilística acha os fonemas e fluxos de palavras mais prováveis. 2
3 Reconhecimento da voz baseado em segmento Modelamento acústico é feito sobre um inteiro segmento Segmentos tipicamente correspondem a unidades semelhantes a fonemas Vantagens potenciais : Melhor estrutura de modelamento conjunto tempo/espectro Medidas acústicas baseadas em segmento ou marcas Desvantagens potenciais: Significante aumento no modelo e calculo na pesquisa Dificuldade em treinar robustamente os parâmetros do modelo 3
4 Modelamento Acústico-Fonético Hierárquico Medidas homogêneas podem comprometer o desempenho Consoantes nasais são mais bem classificadas com um janela de analise mais longa Consoantes de parada são mais bem classificadas com um janela de analise mais curta Extração de informação especifica á classe pode reduzir o erro 4
5 Classificação fonética baseada em comissão Variação da base temporal afeta erro entre classes Suave variação da base co-seno é melhor para vogais que para nasais Divisão por partes de forma constante é melhor para fricativas e paradas Combinando as fontes de informação pode reduzir o erro 5
6 Experimentos de classificação de fonemas TIMIT corpus acústico-fonético (A. Halberstadt, 1998) Somente classificação Independente do contexto 462 vozes de treinamento no corpus, 24 vozes de base no conjunto de testes Metodologia de avaliação padrão, 39 classes fonéticas comuns Várias diferentes representações acústicas incorporadas Várias resoluções tempo-freqüência (Janela de Hamming10-30 ms) Diferentes representações espectrais (MFCCs, PLPCCs, etc) Transformada co-seno vs Funções divisão por partes de forma constante MAP hierárquico calculado é métodos baseados em comissão 6
7 Procedimento Estatístico Para RAV Dada à observação acústica, A, escolha uma seqüência, W*, que maximiza a probabilidade posteriori, P(W A) W * = argmax P W ( w A) A regra de Bayes é tipicamente utilizada para decompor P(W A) e termos acústicos e lingüísticos P ( ) ( A W ) P( W ) P W A = P A ( ) 7
8 Considerações Sobre a Procura no RAV Uma procura completa considera todas as possíveis segmentações, S, e unidades, U, para cada seqüência de palavras hipotizada, W ( A) = arg max P( WUS A) * W = arg max P W w Pode procurar pelo melhor caminho para simplificar a procura usando programação dinâmica (por ex., Viterbi)ou gráficos de busca (por ex., A*) W *, U *, S * W, U, S A decomposição Bayesana modificada tem quatro termos: ( A) P WUS = P No HMM estes correspondem acústica, estado, e probabilidades do modelo de linguagem ou verossimilhança W S U ( A) arg max P WUS ( A SUW ) P( S UW ) P( U W ) P( W ) P( A) 8
9 HMM Exemplo de procedimentos baseados em segmento Taxa variável de quadro (Ponting et al., 1991, Alwan et al., 2000) HMM baseado em segmento (Marcus, 1993) HMM segmentado (Russell et al., 1993) Modelamento da trajetória Modelos estocásticos de segmento (Ostendorf et al., 1989) Modelos de trajetória paramétricos (Ng, 1993) Modelos de trajetória Estatísticos (Goldenthal, 1994) Baseado em características FEATURE (Cole et al., 1983) SUMMIT (Zue et al., 1989) LAFF (Stevens et al., 1992) 9
10 Modelamento baseado em segmento no MIT Modelamento básico baseado em segmento incorpora : Médias e derivadas de coeficientes espectrais (por ex., MFCCs) Normalização da dimensionalidade através da analise das principais componentes Estimação PDF via Mistura de Gaussianas Exemplo investigações modelamento acústico-fonético, Alternativa para classificadores probabilísticos (por ex.., Leung, Meng) Medida de características conhecidas automaticamente (e.g., Phillips, Muzumdar) Modelos estatística da trajetória (Goldenthal) Hierarquia de características probabilísticas (e.g., Chun, Halberstadt) Modelamento Near-miss (Chang) Segmentação probabilística (Chang, Lee) Classificadores baseados em comissão (Halberstadt) 10
11 SUMMIT SUMMIT reconhecimento de voz é baseado em segmentos fonéticos: O instante de inicio e fim de fonemas explícitos são supostos durante a procura; Difere dos métodos convencionais baseados em quadros (por ex., HMMs); Possibilita modelamento acústico fonético baseado em segmento; Medidas podem ser extraídas de marcas e segmentos. Reconhecimento é obtido pela pesquisa de um gráfico fonético: Gráficos podem ser determinados via critério acústico ou modelos probabilísticos; Segmentos que competem fazem uso de diferentes espaços de observações; Decodificação probabilística deve ser considerada para gráficos baseados no espaço de observações. 11
12 Reconhecimento de voz Baseada em Quadro Espaço de observações, A, corresponde a uma seqüência temporal de quadros acústicos (Por ex.,fatias espectrais). Cada segmento suposto, si, é representado por uma série de quadros calculados entre os instantes de início e fim do segmento. A verossimilhança acústica, P(A SW), é derivada a partir do mesmo espaço de observações para todas as hipóteses sobre a palavra. P(a1 a2 a3 SW) P(a1 a2 a3 SW) P(a1 a 2 a3 SW) 12
13 Reconhecimento da voz Baseado em Características Cada segmento, si, é representado por um único vetor característica, a i Dada uma particular segmentação, S, A consiste de X, o vetor característica associado com S, como também Y, o vetor característica associado com segmentos não em S: A = X Y 13
14 Reconhecimento da voz Gráficos de procura baseados no espaço de observações: O modelo Anti-fonema Baseado em Características α Crie uma unidade,, para modelar segmentos que não são fonemas Para uma segmentação, S, atribua anti-fonema para segmentos extra Todos os segmentos são considerados estar no gráfico fonético Caminhos alternativos através do gráfico podem ser legitimamente comparados Caminhos verossímeis podem ser decompostos em dois termos: 1. A verossimolhança de todos os segmentos produzidos pelo antifonema (uma constante) 2. A razão do fonema para o anti-fonema verossímil de todos os segmentos de caminho Formulação MAP para a seqüência de palavras mais provável, W, dada por: W * = arg max W, S N s i P P ( xi ui ) ( ) P( s u ) P( U W ) P( W ) i i x α i 14
15 Modelando unidades não léxicas: O anti-fonema Dada uma particular segmentação, S, A consiste de X, os segmentos associados com S, como também Y, os segmentos não associados com S: P(A SU) = P(XY SU) Dada à segmentação S, atribua vetores característica em X a unidades válidas,e todos os outros em Y para o antifonema Desde que P(XY α ) é uma constante, K, podemos escrever P(XY SU) supondo independência entre X e Y ( X α ) ( X α ) P P ( XY SU ) = P( XY U ) = P( X U ) P( Y α ) = P P k P ( X U ) ( X α ) Precisamos considerar somente segmentos em S durante cada procura: W * = arg max W, U, S N s C i P P ( X i U ) ( ) P( s u ) P( U W ) P( W ) i i X α i 15
16 SUMMIT 16
17 Propriedades Básicas Anti-fonema Modele o espaço inteiro de observações, usando tanto os exemplos positivos como os negativos. As pontuações do log da verossimilhança são normalizadas pelo anti-fonema: Boas pontuações são positivas, pontuações ruins são negativa; Todos os segmentos pobres tem pontuação negativa; Útil para eliminação e/ou rejeição; Anti-fonema não é utilizado para acesso léxico; Não são utilizadas probabilidades à priori ou posteriori durante a pesquisa: Permite cálculos sob demanda e/ou rápida equivalência; Subconjuntos de dados podem ser utilizados para treinamento; Modelos independentes ou dependentes do contexto podem ser utilizados. Útil para problemas de casamento de padrões em geral com gráficos baseados no espaço de observações. 17
18 Além dos anti-fonemas: Modelamento near-miss Modelamento anti-fonema particiona o espaço de observações em duas partes (ou seja dentro ou fora de uma segmentação hipotética). Modelamento near-miss particiona o espaço das observações em um conjunto de sub conjuntos mutuamente exclusivos. Um subconjunto near-miss pré-calculado para cada segmento no gráfico. Critério temporal pode garantir a geração apropriada de subconjuntos near-missed (por ex., segmento A é um near-miss de Base o ponto médio de A é estendido por B). Durante o reconhecimento, observações em um subconjunto near-miss são mapeadas em um modelo near-miss de um fonema hipotético. Modelos near-miss podem ser apenas um anti-fonema, mas podem potencialmente ser mais sofisticados (por ex., fonema dependente). 18
19 Criando subconjuntos near-miss Subconjuntos near-miss, A i, associados com qualquer segmentação, S, devem ser mutuamente t exclusivos e exaustivos: A = U Ai Ai S. Critério Temporal garante subconjuntos near-miss apropriados: Confinando segmentos em S estes são contabilizados uma única vez; Determinando todos os segmentos estendidos cria subconjuntos near-miss. 19
20 Modelando Marcas Podemos também incorporar vetores característicos adicionais calculados em marcas hipotéticas ou contornos de fonemas. Toda segmentação considera todas as marcas: Algumas marcas serão a transição entre unidades léxicas; Outras marcas serão consideradas internas a unidade. Tanto unidades independentes ou dependentes do contexto são possíveis Modela efetivamente transições entre fonemas (por ex., difonemas). Modelos baseados em quadros podem ser usados para gerar grafo de segmento. 20
21 Modelando Marcas Medidas baseadas em quadros: Calculado a cada 5 mili segundos; Vetor característica de 14 Mel-Scala Coeficientes Cepstrais Coefficients (MFCCs). Medidas baseadas em marcas: Calcule a media de MFCCs sobre 8 regiões em torno da marca 8 regiões X 14 MFCC médias = vetor de 112 dimensões. 112 dims Reduzidas para 50 usando analise de componente principal. 21
22 Segmentação Probabilística Use procura de Viterbi para frente inicialmente para achar o melhor caminho Limiares relativos e absolutos para acelerar a pesquisa 22
23 Segmentação Probabilística (continuação) Em um Segundo passo use procura para A* para achar os N- melhores caminhos O traço de Viterbi é usado como estimador da pontuação dos caminhos Processamento em bloco garante cálculo contínuo 23
24 Experimentos de reconhecimento fonético TIMIT corpus acústico-fonético: Corpus com 462 vozes de treinamento, 24 vozes fundamentais no conjunto de teste; Metodologia padrão de avaliação, 39 classes fonéticas comuns. Representações de segmentos e marcas baseadas em medias e derivadas de 14 MFCCs, energia e duração. PCA usado para normalização de dados e redução. Modelos acústicos baseados na aglomeração de gaussianas misturadas. Modelo de linguagem baseado em fonema bigrama. Segmentação Probabilística calculada a partir de modelos difonema. 24
25 Modelamento fonológico Palavras descritas por formas básicas fonéticas. Regras fonológicas expandem formas básicas em gráficos, por ex.: Eliminação de rajadas de stop (por ex., laptop); Eliminação de /t/ em várias situações (por ex., intersection, destination, crafts); Geminação de fricativas e nasais (por ex., this side, in nome); Assimilação de lugar (ex.: did you (/d ih jh uw/)). Probabilidades tais como, P(U W), podem ser treinadas. A maioria dos HM não tem componentes fonológicas. 25
26 Exemplo fonológico Exemplo de what you expandido no reconhecedor SUMMIT Final /t/ em what pode ser interpretado como released, unreleased, palatalized, ou stop glotal, ou flap. 26
27 Experimentos de reconhecimento de palavra Jupiter baseada em conversação telefônica, perguntas sobre meteorologia corpus. Conjunto de frases de treinamento, 1806 no domínio do conjunto de frases testes. Modelos Acústicos baseados em Gaussianas misturadas. Representações de Segmento e Marcas baseadas em medias e derivadas de 14 MFCCs, energia e duração. PCA usado para normalização de dados e redução. 715classes de contorno dependentes do contexto. 935 tri-fonema, 1160 difonema, classes segmento dependentes do contexto. Gráfico de pronuncia incorpora probabilidades de pronuncia. Modelo de linguagem baseado em classes bigrama e trigrama. Melhor desempenho obtido pela combinação de modelos. 27
28 Resumo Algumas técnicas de reconhecimento baseadas em segmento transformam o espaço de observação de quadro para gráfico. Gráficos baseados no espaço de observação permitem uma ampla variedade de métodos de modelamento alternativos para procedimentos baseados em quadros. Anti-fonema e modelamento near-miss fornecem um mecanismo para pesquisar gráficos baseados no espaço de observações. Bons resultados tem sido alcançados para reconhecimento fonético Muito trabalho resta a ser feito! 28
29 Referências J. Glass, A Probabilistic Framework for Segment-Based Speech Recognition, to appear in Computer, Speech & Language, D. Halberstadt, Heterogeneous Acoustic Measurements and Multiple Classifiers for Speech Recognition, Ph.D. Thesis, MIT, M. Ostendorf, et al., From HMMs to Segment Models: A Unified View of Stochastic Modeling for Speech Recognition, Trans. Speech & Audio Proc., 4(5),
Plano. Aspectos Relevantes de HMMs. Teoria de HMMs. Introdução aos Modelos Escondidos de Markov
Plano Esta apresentação é para pessoas sem conhecimento prévio de HMMs Introdução aos Modelos Escondidos de Markov 2004 Objetivos: Ensinar alguma coisa, não tudo (Visão geral, sem muitos detalhes). Tentar
Leia mais3 Identificação de Locutor Usando Técnicas de Múltiplos Classificadores em Sub-bandas Com Pesos Não-Uniformes
3 Identificação de Locutor Usando Técnicas de Múltiplos Classificadores em Sub-bandas Com Pesos Não-Uniformes Neste capítulo, é apresentada uma nova proposta de combinação de múltiplos classificadores
Leia maisMCZA Processamento de Linguagem Natural Modelando a linguagem com N-gramas
MCZA017-13 Processamento de Linguagem Natural Modelando a linguagem com N-gramas Prof. Jesús P. Mena-Chalco jesus.mena@ufabc.edu.br 1Q-2018 1 Outras abordagens para stemming? 2 Bibliografia Daniel Jurafsky
Leia maisAprendizagem de Máquina
Aprendizagem de Máquina Modelos gráficos probabilísticos Redes bayesianas Modelos gráficos probabilísticos Os modelos gráficos probabilísticos utilizam representações diagramáticas das distribuições de
Leia maisRobustez ao Ruído e Confiança na Pontuação
Professor: T. J. Hazen Manejando variabilidade nas condições acústicas Compensação do Canal Compensação do ruído de fundo Principais ruídos e artefatos não vocais Calculando e aplicando pontuação confiável
Leia maisSEMINÁRIO DOS ARTIGOS:
SEMINÁRIO DOS ARTIGOS: Text Detection and Character Recognition in Scene Images with Unsupervised Feature Learning End-to-End Text Recognition with Convolutional Neural Networks Fernanda Maria Sirlene
Leia maisDistorções Dinâmicas no Tempo & Pesquisa. Distorção dinâmica no tempo Pesquisa Algoritmos gráficos de pesquisa Algoritmos de programação dinâmica
Distorções Dinâmicas no Tempo & Pesquisa Distorção dinâmica no tempo Pesquisa Algoritmos gráficos de pesquisa Algoritmos de programação dinâmica 1 Casamento de Template Baseado em Palavra Medida de Característica
Leia maisHP UFCG Analytics Abril-Maio Um curso sobre Reconhecimento de Padrões e Redes Neurais. Por Herman Martins Gomes.
HP UFCG Analytics Abril-Maio 2012 Um curso sobre Reconhecimento de Padrões e Redes Neurais Por Herman Martins Gomes hmg@dsc.ufcg.edu.br Programa Visão Geral (2H) Reconhecimento Estatístico de Padrões (3H)
Leia maisdetecção de voz cantada em sinais de áudio polifônicos
detecção de voz cantada em sinais de áudio polifônicos Aplicações, Abordagens e Desafios Shayenne Moura 23. April 2018 Instituto de Matemática e Estatística Universidade de São Paulo o problema Detecção
Leia maisAprendizado de Máquina. Combinando Classificadores
Universidade Federal do Paraná (UFPR) Departamento de Informática (DInf) Aprendizado de Máquina Combinando Classificadores David Menotti, Ph.D. web.inf.ufpr.br/menotti Introdução O uso de vários classificadores
Leia maisMúltiplos Classificadores
Universidade Federal do Paraná (UFPR) Bacharelado em Informátia Biomédica Múltiplos Classificadores David Menotti www.inf.ufpr.br/menotti/ci171-182 Hoje Múltiplos classificadores Combinação de classificadores
Leia maisProcessamento de Som com Escala de Mel para Reconhecimento de Voz
PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO DE JANEIRO DEPARTAMENTO DE INFORMÁTICA Processamento de Som com Escala de Mel para Reconhecimento de Voz INF2608 FUNDAMENTOS DE COMPUTAÇÃO GRÁFICA Professor: Marcelo
Leia maisRAV para Sistemas de Diálogo
RAV para Sistemas de Diálogo Introdução Problemas com o reconhecimento da voz: Exemplo usando sistema SUMMIT para informações meteorológicas. Reduzindo cálculos Modelo de agregação Classificadores baseados
Leia mais4 Resultados de Simulação e Avaliação das Técnicas Utilizadas para o Reconhecimento de Locutor Independente do Texto em Presença de Ruído
4 Resultados de Simulação e Avaliação das Técnicas Utilizadas para o Reconhecimento de Locutor Independente do Texto em Presença de Ruído Neste capítulo serão apresentadas, avaliadas e comparadas as técnicas
Leia maisUniversidade de São Paulo Instituto de Ciências Matemáticas e de Computação
Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação Francisco A. Rodrigues Departamento de Matemática Aplicada e Estatística - SME Objetivo Dada M classes ω 1, ω 2,..., ω M e um
Leia maisTE802 Processos Estocásticos em Engenharia. Informação sobre a disciplina Notes. Processos Estocásticos em Engenharia Conteúdo Notes.
TE802 Processos Estocásticos em Engenharia Conceitos Básicos de Teoria de Probabilidade 7 de março de 2016 Informação sobre a disciplina Terças e Quintas feiras das 09:30 às 11:20 horas Professor: Evelio
Leia maisTE802 Processos Estocásticos em Engenharia. Informação sobre a disciplina. TE802 Conceitos Básicos de Teoria de Probabilidade. Evelio M. G.
TE802 Processos Estocásticos em Engenharia Conceitos Básicos de Teoria de Probabilidade 23 de agosto de 2017 Informação sobre a disciplina Segundas e Quartas feiras das 09:30 às 11:20 horas Professor:
Leia maisRECONHECIMENTO DE ÍRIS EM AMBIENTES NÃO COOPERATIVOS UTILIZANDO WAVELETS E GABOR 2D
RECONHECIMENTO DE ÍRIS EM AMBIENTES NÃO COOPERATIVOS UTILIZANDO WAVELETS E GABOR 2D Fernanda Maria Sirlene Pio SUMÁRIO 1. Introdução 2. Trabalhos relacionados 3. Metodologia 1. Segmentação 2. Normalização
Leia maisDescritores de Imagens
Descritores de Imagens André Tavares da Silva PPGCA/UDESC Outubro de 2017 André Tavares da Silva (PPGCA/UDESC) Descritores de Imagens Outubro de 2017 1 / 18 Descritores Locais e Frameworks SIFT SURF Viola-Jones
Leia maisRECONHECIMENTO DE FALANTE
MARCOS PAULO RIKI YANASE RECONHECIMENTO DE FALANTE Trabalho da disciplina de Processamento Digital de Sinais do curso de Engenharia Elétrica, Setor de Tecnologia da Universidade Federal do Paraná. Prof.
Leia maisADAPTAÇÃO AO LOCUTOR USANDO A TÉCNICA MLLR
ADAPTAÇÃO AO LOCUTOR USANDO A TÉCNICA MLLR DANIELA BARUDE FERNANDES MARÇO/2011 INSTITUTO NACIONAL DE TELECOMUNICAÇÕES INATEL MESTRADO EM TELECOMUNICAÇÕES ADAPTAÇÃO AO LOCUTOR USANDO A TÉCNICA MLLR DANIELA
Leia mais3 Reconhecimento de Voz Distribuído
3 Reconhecimento de Voz Distribuído O conceito de reconhecimento de voz distribuído (DSR Distributed Speech Recognition) foi desenvolvido como uma forma eficiente de transladar a tecnologia de reconhecimento
Leia maisAprendizado de Máquina (Machine Learning)
Ciência da Computação (Machine Learning) Aula 02 Representação dos dados Pré-processamento Max Pereira Tipo de Dados Os atributos usados para descrever objetos de dados podem ser de diferentes tipos: Quantitativos
Leia maisCombinação de Classificadores (fusão)
Combinação de Classificadores (fusão) André Tavares da Silva andre.silva@udesc.br Livro da Kuncheva Roteiro Sistemas com múltiplos classificadores Fusão por voto majoritário voto majoritário ponderado
Leia maisModelagem da Rede Neural. Modelagem da Rede Neural. Back Propagation. Modelagem da Rede Neural. Modelagem da Rede Neural. Seleção de Variáveis:
Back Propagation Fatores importantes para a modelagem da Rede Neural: Seleção de variáveis; veis; Limpeza dos dados; Representação das variáveis veis de entrada e saída; Normalização; Buscando melhor Generalização
Leia maisUma Introdução a SVM Support Vector Machines. Obs: Baseada nos slides de Martin Law
Uma Introdução a SVM Support Vector Machines Obs: Baseada nos slides de Martin Law Sumário Historia das SVMs Duas classes, linearmente separáveis O que é um bom limite para a decisão? Duas classes, não
Leia maisSISTEMA DE INFERÊNCIA FUZZY BASEADO NA TRANSFORMADA COSSENO DISCRETA PARA RECONHECIMENTO DE VOZ
SISTEMA DE INFERÊNCIA FUZZY BASEADO NA TRANSFORMADA COSSENO DISCRETA PARA RECONHECIMENTO DE VOZ Washington L. S. Santos Universidade Federal do Maranhão Departamento de Engenharia Elétrica Programa de
Leia mais4 Método Proposto CR AD PA NDVI Descrição geral do modelo
34 4 Método Proposto 4.1. Descrição geral do modelo Neste trabalho, cada classe (cobertura vegetal) possui um HMM específico. Os estágios fenológicos correspondem a estados e os símbolos observáveis a
Leia maisPor que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Abordagens automáticas
Por que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Abordagens automáticas Wrapper Filtros Muitos algoritmos de AM são projetados de modo a selecionar os
Leia maisModelando Novas Palavras
Modelando Novas Palavras Introdução Modelando palavras fora do vocabulário (OOV Out Of- Vocabulary) Formulação Probabilística Métodos independentes do Domínio Conhecendo unidades de subpalavras OOV Modelos
Leia maisDeep Learning for Chinese Word Segmentation and POS Tagging
Deep Learning for Chinese Word Segmentation and POS Tagging Lin Yu Han Universidade Federal do Paraná Novembro 2015 Tagging: Sumário Sumário Introdução. Arquitetura da Rede Neural Experimentos Considerações
Leia mais6 Atributos. A dívida da empresa subiu.
6 Atributos Para buscar o sentimento de um texto automaticamente precisamos encontrar boas pistas ao longo do discurso. Uma grande variedade de palavras e expressões possui conotação positiva ou negativa,
Leia mais2 Reconhecimento de Voz
2 Reconhecimento de Voz Para introduzir o tema de reconhecimento de voz, a seção 2.1 começa com o sistema mais simples: o de palavras isoladas. Ou seja, o locutor pronuncia apenas uma palavra e o reconhecedor
Leia mais4 Algoritmos de Aprendizado
4 Algoritmos de Aprendizado Este capítulo apresenta os algoritmos utilizados ao longo da dissertação e alguns utilizados como base por eles. Os algoritmos adotados são todos de aprendizado supervisionado.
Leia maisReconhecimento de Padrões. Reconhecimento de Padrões
Reconhecimento de Padrões 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 Escola Superior de Tecnologia Engenharia Informática Reconhecimento de Padrões Prof. João Ascenso e Prof.
Leia maisUniversidade de São Paulo Instituto de Ciências Matemáticas e de Computação
Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação Francisco A. Rodrigues Departamento de Matemática Aplicada e Estatística - SME Tópicos 1. Seleção de atributos 2. Redução de
Leia maisLSF na Verificação de Orador
LSF na Verificação de Orador Hugo Cordeiro Carlos Meneses M2A/ISEL Grupo de Multimédia e Aprendizagem Automática Instituto Superior de Engenharia de Lisboa Rua Conselheiro Emídio Navarro nº1, 1950-062
Leia maisProjeto Multiresolução de Operadores Morfológicos. Morfológicos a Partir de Exemplos
Projeto Multiresolução de Operadores Morfológicos a Partir de Exemplos Daniel André Vaquero Orientador: Junior Barrera Departamento de Ciência da Computação Instituto de Matemática e Estatística (IME)
Leia maisIDENTIFICAÇÃO DE LOCUTOR: OTIMIZAÇÃO DO NÚMERO DE COMPONENTES GAUSSIANAS. Ricardo José da Rocha Cirigliano
IDENTIFICAÇÃO DE LOCUTOR: OTIMIZAÇÃO DO NÚMERO DE COMPONENTES GAUSSIANAS Ricardo José da Rocha Cirigliano DISSERTAÇÃO SUBMETIDA AO CORPO DOCENTE DA COORDENAÇÃO DOS PROGRAMAS DE PÓS-GRADUAÇÃO DE ENGENHARIA
Leia maisPROPOSTA DE METODOLOGIA TCD-FUZZY PARA RECONHECIMENTO DE VOZ
8 a 2 de setembro de 2 PROPOSTA DE METODOLOGIA TCD-FUZZY PARA RECONHECIMENTO DE VOZ Washington L. S. Silva Ginalber L. O. Serra Instituto Federal de Educação, Ciência e Tecnologia do Maranhão, Departamento
Leia mais4 Técnica de Combinação de Medidas de Verossimilhança Baseada no Espaço Nulo
4 Técnica de Combinação de Medidas de Verossimilhança Baseada no Espaço Nulo Neste capítulo, é apresentada uma outra proposta que combina as respostas dos múltiplos classificadores em sub-bandas, cujo
Leia maisCC-226 Aula 07 - Estimação de Parâmetros
CC-226 Aula 07 - Estimação de Parâmetros Carlos Henrique Q. Forster - Instituto Tecnológico de Aeronáutica 2008 Estimação de Parâmetros Para construir o classificador bayesiano, assumimos as distribuições
Leia maisConsiderações de Desempenho
Back Propagation Considerações de Desempenho Dicas para o BP O uso da função de ativação simétrica geralmente acelera o treinamento TANH +1 logistic linear 0 tanh -1-4 +4 1 Dicas para o BP Os pesos devem
Leia maisSEMINÁRIO Visão Computacional Aluno: Afonso Pinheiro
SEMINÁRIO Visão Computacional Aluno: Afonso Pinheiro Detecting Pedestrians Using Patterns of Motion and Appearance *Paul Viola *Michael J. Jones *Daniel Snow Por que detectar pedestres? http://conexaopenedo.com.br/2016/02/sistema-consegue-detectar-pedestres-em-tempo-real/
Leia maisRedes Bayesianas. Prof. Júlio Cesar Nievola PPGIa Escola Politécnica PUCPR
Redes Bayesianas Prof. Júlio Cesar Nievola PPGIa Escola Politécnica PUCPR Raciocínio com Incerteza Incerteza: qualidade ou estado de não ser conhecido com certeza Fontes de incerteza: Ignorância: qual
Leia maisO uso de Máquina de Suporte Vetorial para Regressão (SVR) na Estimação da Estrutura a Termo da Taxa de Juros do Brasil 12
1 Introdução No Brasil, o grande aumento na adesão a planos de previdência privada nos últimos tempos implicou em maiores preocupações de bancos e seguradoras em fazer investimentos visando garantir o
Leia maisBack Propagation. Dicas para o BP
Back Propagation Considerações de Desempenho Dicas para o BP O uso da função de ativação simétrica geralmente acelera o treinamento TANH +1 logistic linear 0 tanh -1-4 +4 11 Dicas para o BP Os pesos devem
Leia mais2 Sentiment Analysis 2.1
2 Sentiment Analysis 2.1 Definição do Problema Sentiment Analysis é um problema de categorização de texto no qual deseja-se detectar opiniões favoráveis e desfavoráveis com relação a um determinado tópico
Leia maisNovos Recursos e Utilização de Adaptação de Locutor no Desenvolvimento de um Sistema de Reconhecimento de Voz para o Português Brasileiro
Novos Recursos e Utilização de Adaptação de Locutor no Desenvolvimento de um Sistema de Reconhecimento de Voz para o Português Brasileiro Patrick Silva Nelson Neto Aldebaro Klautau Simpósio Brasileiro
Leia mais3 Os Atributos MFCC e PNCC do Sinal de Voz
3 Os Atributos MFCC e PNCC do Sinal de Voz No sinal de voz incorporam-se informações importantes do falante, que são altamente perceptíveis, tais como, dialeto, contexto, estilo de falar, estado emocional,
Leia maisREADING DIGITS IN NATURAL IMAGES WITH UNSUPERVISED FEATURE LEARNING
READING DIGITS IN NATURAL IMAGES WITH UNSUPERVISED FEATURE LEARNING Fernanda Maria Sirlene READING DIGITS IN NATURAL IMAGES WITH UNSUPERVISED FEATURE LEARNING NIPS Workshop on Deep Learning and Unsupervised
Leia maisAula 14. Aula de hoje. Aula passada
Aula 14 Aula passada Autovalores, autovetores, decomposição Convergência para estacionaridade Tempo de mistura Spectral gap Tempo de mistura de passeios aleatórios Aula de hoje Caminho amostral Teorema
Leia maisClassificação de Padrões por Blocos em Imagens Não Segmentadas de Tomografia Computadorizada
Classificação de Padrões por Blocos em Imagens Não Segmentadas de Tomografia Computadorizada Aline Dartora Prof. David Menotti Departamento de Informática Universidade Federal do Paraná (UFPR) 23 de outubro
Leia maisF- Classificação. Banda A
F- Classificação Classificação Digital é associar determinado pixel a determinada categoria por meio de critérios estatísticos Banda B? da d b dc Espaço dos Atributos Classes Banda A Classificação: ordenar,
Leia maisEstratégias para a criação de classes de regressão para a técnica de adaptação a locutor baseada em MLLR
Estratégias para a criação de classes de regressão para a técnica de adaptação a locutor baseada em MLLR Daniela Barude Fernandes e Carlos Alberto Ynoguti Resumo Neste trabalho exploram-se diversas alternativas
Leia mais2 Trabalhos relacionados
2 Trabalhos relacionados Há diversas abordagens na literatura para os problemas analisados nesta dissertação. Podemos dividir os trabalhos pesquisados inicialmente entre os que trabalham no domínio comprimido
Leia maisMapeamento do uso do solo para manejo de propriedades rurais
1/28 Mapeamento do uso do solo para manejo de propriedades rurais Teoria Eng. Allan Saddi Arnesen Eng. Frederico Genofre Eng. Marcelo Pedroso Curtarelli 2/28 Conteúdo programático: Capitulo 1: Conceitos
Leia maisUNIVERSIDADE ESTADUAL PAULISTA Campus de Sorocaba. Segmentação
UNIVERSIDADE ESTADUAL PAULISTA Campus de Sorocaba Segmentação A separação dos pixeis relativos a cada objeto, ou região, é uma etapa fundamental para o sucesso do processo de análise da imagem. Embora
Leia maisCLASSIFICADORES BAEYSIANOS
CLASSIFICADORES BAEYSIANOS Teorema de Bayes 2 Frequentemente, uma informação é apresentada na forma de probabilidade condicional Probabilidade de um evento ocorrer dada uma condição Probabilidade de um
Leia maisAula de Hoje. Processamento Estatístico da Linguagem Natural. Classificação Seqüencial. HMMs e MEMMs. Cadeias de Markov. Especificação Formal
Processamento Estatístico da Linguagem Natural Aula 13 Professora Bianca (Sala 302 Bloco E) bianca@ic.uff.br http://www.ic.uff.br/~bianca/peln/ Aula de Hoje Cap. 6 Jurafsky & Martin Hidden Markov and Maximum
Leia maisIntrodução aos Proc. Estocásticos - ENG 430
Introdução aos Proc. Estocásticos - ENG 430 Fabrício Simões IFBA 16 de novembro de 2015 Fabrício Simões (IFBA) Introdução aos Proc. Estocásticos - ENG 430 16 de novembro de 2015 1 / 34 1 Motivação 2 Conceitos
Leia maisAvaliação da qualidade de imagens 2D reconstruídas a partir de imagens holoscópicas 3D
Avaliação da qualidade de imagens 2D reconstruídas a partir de imagens holoscópicas 3D A tecnologia de imagens holoscópica, também conhecidas como imagens plenópticas, imagens integrais ou imagens de campo
Leia mais3 Estimação e Compensação de movimento na codificação de vídeo
Estimação e Compensação de movimento na codificação de vídeo 36 3 Estimação e Compensação de movimento na codificação de vídeo O objetivo do modelo temporal (que engloba as fases de estimação e compensação
Leia maisEstatística e Modelos Probabilísticos - COE241
Estatística e Modelos Probabilísticos - COE241 Aula passada Variância amostral Método de Replicações Independentes Aula de hoje Para que serve a inferência estatística? Método dos Momentos Maximum Likehood
Leia mais,=,, O é um caminho simples para combinar crença e descrença em um número. Esta combinação pode ter dois usos:
Disciplina: SISTEMAS INTELIGENTES Tema: Fatores de Certeza Professora: Kathya Collazos Linares A abordagem do tratamento da incerteza no raciocínio usando fatores de certeza teve como pioneiro o sistema
Leia mais2 Medida de Incertezas: Fundamentos
2 Medida de Incertezas: Fundamentos 2. Introdução O resultado de um processo de medição fornece uma determinada informação que usualmente é chamada de conhecimento. A fim de quantificar quão completo é
Leia maisTE802 Processos Estocásticos em Engenharia. Processo Aleatório. TE802 Processos Aleatórios. Evelio M. G. Fernández. 18 de outubro de 2017
TE802 Processos Estocásticos em Engenharia Processos Aleatórios 18 de outubro de 2017 Processo Aleatório Processo Aleatório (ou Estocástico), X(t): Função aleatória do tempo para modelar formas de onda
Leia mais2. Redes Neurais Artificiais
Computação Bioinspirada - 5955010-1 2. Redes Neurais Artificiais Prof. Renato Tinós Depto. de Computação e Matemática (FFCLRP/USP) 1 2.3. Perceptron Multicamadas - MLP 2.3.1. Introdução ao MLP 2.3.2. Treinamento
Leia mais2. Redes Neurais Artificiais
Computação Bioinspirada - 5955010-1 2. Redes Neurais Artificiais Prof. Renato Tinós Depto. de Computação e Matemática (FFCLRP/USP) 1 2.6. Deep Learning 2.6.1. O Problema da Extração de Características
Leia maisAprendizado de Máquinas. Seleção de Características
Universidade Federal do Paraná (UFPR) Departamento de Informática (DInf) Seleção de Características David Menotti, Ph.D. web.inf.ufpr.br/menotti Introdução Um dos principais aspectos na construção de um
Leia mais2 Reconhecimento Automático De Locutor
2 Reconhecimento Automático De Locutor A voz é o produto resultante de uma sequência complexa de transformações que ocorrem em diferentes níveis, quais sejam: semântico, linguístico, articulatório e acústico.
Leia maisMetodologia de inversão
6 Metodologia de inversão Nesta tese, a transformação de velocidades em pressão de poros é encarada como um problema de inversão. Pela natureza do problema, essa transformação apresenta caráter não único
Leia maisProcessamento de Imagens COS756 / COC603
Processamento de Imagens COS756 / COC603 aula 13 - Transformada de Hough e SIFT Antonio Oliveira Ricardo Marroquim 1 / 41 aula de hoje descritores Transformada de Hough SIFT 2 / 41 transformada de Hough
Leia maisClassificadores. André Tavares da Silva.
Classificadores André Tavares da Silva andre.silva@udesc.br Reconhecimento de padrões (etapas) Obtenção dos dados (imagens, vídeos, sinais) Pré-processamento Segmentação Extração de características Obs.:
Leia maisRECONHECIMENTO DE VOZ PARA PALAVRAS ISOLADAS
UN IVERS ID ADE FEDER A L DE PERNAM B UCO GRADUAÇÃO EM ENGENHARIA DA COMPUTAÇÃO CENTRO DE INFORMÁTICA RECONHECIMENTO DE VOZ PARA PALAVRAS ISOLADAS TRABALHO DE GRADUAÇÃO Aluno: Anderson Gomes da Silva {ags@cin.ufpe.br}
Leia maisRESOLUÇÃO Nº 01/2016
Legislações Complementares: Resolução Nº 02/2016 Colegiado DEst Resolução Nº 03/2016 Colegiado DEst Resolução Nº 01/2017 Colegiado DEst RESOLUÇÃO Nº 01/2016 O Departamento de Estatística, tendo em vista
Leia maisFonética acústica: Propriedades suprassegmentais APOIO PEDAGÓGICO. KENT, Ray, READ, Charles. Análise acústica da Fala São Paulo : Cortez, 2015
Fonética acústica: Propriedades suprassegmentais KENT, Ray, READ, Charles. Análise acústica da Fala São Paulo : Cortez, 2015 APOIO PEDAGÓGICO Prof. Cecília Toledo ceciliavstoledo@gmail. com Segmentos da
Leia maisUm Software de Reconhecimento de Voz para Português Brasileiro
UNIVERSIDADE FEDERAL DO PARÁ INSTITUTO DE TECNOLOGIA PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA Um Software de Reconhecimento de Voz para Português Brasileiro Carlos Patrick Alves da Silva DM - 14/2010
Leia maisVetor de Variáveis Aleatórias
Vetor de Variáveis Aleatórias Luis Henrique Assumpção Lolis 25 de junho de 2013 Luis Henrique Assumpção Lolis Vetor de Variáveis Aleatórias 1 Conteúdo 1 Vetor de Variáveis Aleatórias 2 Função de Várias
Leia maisSumário. Referências utilizadas. Introdução. MAFIA: Merging of Adaptive Finite Intervals. Introdução Visão Geral e Objetivos do MAFIA
Sumário : Merging of Adaptive Finite Intervals Elaine Ribeiro de Faria Análise de Agrupamento de Dados ICMC-USP Dezembro 2010 Introdução Visão Geral e Objetivos do Algoritmo Grid Adaptativo Algoritmo Algoritmo
Leia maisAprendizado de Máquina
Aprendizado de Máquina Introdução Luiz Eduardo S. Oliveira Universidade Federal do Paraná Departamento de Informática http://lesoliveira.net Luiz S. Oliveira (UFPR) Aprendizado de Máquina 1 / 19 Introdução
Leia maisEstatística e Modelos Probabilísticos - COE241
Estatística e Modelos Probabilísticos - COE241 Aula passada Intervalo de confiança Método de Replicações Independentes Aula de hoje Para que serve a inferência estatística? Método dos Momentos Maximum
Leia maisAVALIAÇÃO DA RELAÇÃO ENTRE TONICIDADE E DISTINÇÃO DE OCLUSIVAS SURDAS E SONORAS NO PB
3661 AVALIAÇÃO DA RELAÇÃO ENTRE TONICIDADE E DISTINÇÃO DE OCLUSIVAS SURDAS E SONORAS NO PB INTRODUÇÃO Francisco De Oliveira Meneses (UESB/ FAPESB) Vera PACHECO (UESB) As oclusivas são sons consonânticos
Leia maisDescodificação iterativa
Sílvio A. Abrantes DEEC/FEUP 26 Descodificação iterativa 2 Descodificação de códigos LDPC por transferência de mensagens em grafos de Tanner Introdução Diagrama de blocos de um sistema genérico de codificação
Leia maisReconhecimento de voz utilizando Wavelet e Classificador Neural
Reconhecimento de voz utilizando Wavelet e Classificador Neural Oséas Pereira Rocha CEFETCAMPOS Centro Federal de Educação Tecnológica de Campos Rua Dr Siqueira 273, Bairro Dom Bosco, Campos dos Goytacazes,
Leia maisAnálise de Imagens. Aula 20: Sistemas com Múltiplos Classificadores. Prof. Alexandre Xavier Falcão.
A.X. Falcão p.1/17 Análise de Imagens Aula 20: Sistemas com Múltiplos Classificadores (Fusão) Prof. Alexandre Xavier Falcão afalcao@ic.unicamp.br. IC - UNICAMP A.X. Falcão p.2/17 Roteiro da Aula Sistemas
Leia maisTratamento de dados em Física
Tratamento de dados em Física Métodos e testes estatísticos V. Oguri Departamento de Física Nuclear e Altas Energias (DFNAE) Programa de Pós-graduação em Física (PPGF) Instituto de Física Armando Dias
Leia maisSUPPORT VECTOR MACHINE - SVM
SUPPORT VECTOR MACHINE - SVM Definição 2 Máquinas de Vetores Suporte (Support Vector Machines - SVMs) Proposto em 79 por Vladimir Vapnik Um dos mais importantes acontecimentos na área de reconhecimento
Leia maisProbabilidade. Ricardo Ehlers Departamento de Matemática Aplicada e Estatística Universidade de São Paulo
Probabilidade Ricardo Ehlers ehlers@icmc.usp.br Departamento de Matemática Aplicada e Estatística Universidade de São Paulo Experimento aleatório Definição. Qualquer experimento cujo resultado não pode
Leia maisUtilização do Corte Percentual na categorização de documentos da Web com o algoritmo Naive Bayes
Utilização do Corte Percentual na categorização de documentos da Web com o algoritmo Naive Bayes José Alberto Sousa Torres/ Grinaldo Oliveira /Cláudio Alves Amorim * Em um momento em que é crescente a
Leia maisRealimentação de Relevância
Wendel Melo Faculdade de Computação Universidade Federal de Uberlândia Recuperação da Informação Ciclo de realimentação onde uma consulta q recebida do usuário é transformada em uma consulta modificada
Leia mais3 Extração de Atributos
3 Extração de Atributos o capítulo 2, a sequência de vetores O = {O 1, O 2,, O T } representa as informações (também chamadas de atributos) extraídas do sinal de voz. ada foi dito sobre como encontrá-las.
Leia maisReconhecimento de Gestos
Reconhecimento de Gestos Henrique Augusto Richter Tópicos em Visão Computacional Universidade Federal do Paraná Sumário Introdução Utilização Problemas Trabalhos Artigo 1 Artigo 2 Project Soli Introdução
Leia mais7 Conclusões e desenvolvimentos futuros
7 Conclusões e desenvolvimentos futuros 7.1 Conclusões Este trabalho apresentou novas soluções para a determinação da posição de terminais de comunicações móveis com base em medidas de ToA. Nos métodos
Leia maisReconhecimento de Voz Contínua com Atributos MFCC, SSCH e PNCC, Wavelet Denoising e Redes Neurais
Jan Krueger Siqueira Reconhecimento de Voz Contínua com Atributos MFCC, SSCH e PNCC, Wavelet Denoising e Redes Neurais DISSERTAÇÃO DE MESTRADO Dissertação apresentada como requisito parcial para obtenção
Leia maisAprendizado Bayesiano
Aprendizado Bayesiano Marcelo K. Albertini 3 de Julho de 2014 2/1 Conteúdo Aprendizado Naive Bayes Exemplo: classificação de texto Redes Bayesiana Algoritmo EM Regressão probabiĺıstica 3/1 Classificador
Leia maisGeometria Computacional
Geometria Computacional Claudio Esperança Paulo Roma Cavalcanti Estrutura do Curso Aspectos teóricos e práticos Construção e análise de algoritmos e estruturas de dados para a solucionar problemas geométricos
Leia maisUNIVERSIDADE DO ESTADO DE MATO GROSSO - UNEMAT. Faculdade de Ciências Exatas e Tecnológicas FACET / Sinop Curso de Bacharelado em Engenharia Elétrica
REDES DE FUNÇÃO DE BASE RADIAL - RBF Prof. Dr. André A. P. Biscaro 1º Semestre de 2017 Funções de Base Global Funções de Base Global são usadas pelas redes BP. Estas funções são definidas como funções
Leia maisUniversidade Federal do Rio de Janeiro - IM/DCC & NCE
Universidade Federal do Rio de Janeiro - IM/DCC & NCE Processamento de Imagens Segmentação Antonio G. Thomé thome@nce.ufrj.br Sala AEP/133 Conceituação Segmentação é uma tarefa básica no processo de análise
Leia maisMCZA Processamento de Linguagem Natural Classificação de textos
MCZA017-13 Processamento de Linguagem Natural Classificação de textos Prof. Jesús P. Mena-Chalco jesus.mena@ufabc.edu.br 1Q-2018 1 Bibliografia Daniel Jurafsky & James H. Martin. Speech and language processing:
Leia mais