PESQUISA, DESENVOLVIMENTO E TESTES DE UM SISTEMA DE RECONHECIMENTO DE PALAVRAS FALADAS

Tamanho: px
Começar a partir da página:

Download "PESQUISA, DESENVOLVIMENTO E TESTES DE UM SISTEMA DE RECONHECIMENTO DE PALAVRAS FALADAS"

Transcrição

1 ALLAN SHIGUETO AKISHINO MARCOS PAULO RIKI YANASE GRR GRR PESQUISA, DESENVOLVIMENTO E TESTES DE UM SISTEMA DE RECONHECIMENTO DE PALAVRAS FALADAS Trabalho de conclusão do curso de graduação em Engenharia Elétrica, do Setor de Tecnologia da Universidade Federal do Paraná. Orientador: Eduardo Parente Ribeiro Co-orientador: Marcelo de Oliveira Rosa CURITIBA 2008

2 i RESUMO Este trabalho expõe os conceitos básicos envolvidos em sistemas de reconhecimento de palavras faladas. Traz informações relativas aos parâmetros que podem ser extraídos de um sinal de voz e como obtê-los. Em um trabalho prático, a teoria é aplicada através do desenvolvimento de um sistema simples de reconhecimento de fala, cujo objetivo é verificar os conceitos envolvidos e tentar reconhecer dígitos pronunciados em língua portuguesa.

3 ii SUMÁRIO LISTA DE TABELAS... iv LISTA DE FIGURAS... v 1 INTRODUÇÃO FUNDAMENTAÇÃO SISTEMAS DE RECONHECIMENTO DE FALA FUNCIONAMENTO DE UM SISTEMA DE RECONHECIMENTO DE FALA MODELO DE PRODUÇÃO DA VOZ Fonemas EXTRAÇÃO DOS PARÂMETROS PRÉ-ÊNFASE AMOSTRAGEM DIGITALIZAÇÃO JANELAMENTO PARÂMETROS TEMPORAIS Energia Taxa de Cruzamento por Zero PARÂMETROS ESPECTRAIS Transformada de Fourier a Curto Prazo (Short-Time Fourier Transform (STFT)) Parâmetros Cepstrais MFCC (Mel-Frequency Cepstrum Coefficients) Parâmetros Dinâmicos Análise LPC Parâmetros LPC Cepstrais DISTÂNCIA DISTÂNCIA EUCLIDEANA DISTÂNCIA DE MAHALANOBIS DISTÂNCIA DE ITAKURA-SAITO METODOLOGIA E RESULTADOS DESENVOLVIMENTO DA APLICAÇÃO A BASE DE DADOS APLICAÇÃO 1: DISTÂNCIA EUCLIDEANA MÍNIMA ENTRE DÍGITOS APLICAÇÃO 2: DISTÂNCIA EUCLIDEANA MÍNIMA ENTRE FONEMAS APLICAÇÃO 3: REGIÕES DEFINIDAS POR MÚLTIPLOS DO DESVIO PADRÃO APLICAÇÃO 4: PONDERAÇÃO DE DISTÂNCIA EUCLIDEANA POR REGIÕES

4 iii BASEADAS EM HISTOGRAMAS APLICAÇÃO DE TESTES CONCLUSÕES REFERÊNCIAS BIBLIOGRÁFICAS ANEXO I... 43

5 iv LISTA DE TABELAS Tabela 3.1 Transcrição fonética dos dígitos pronunciados Tabela 3.2 Métodos de acesso à base de dados Tabela 3.3 Cenários de teste para a aplicação Tabela 3.4 Tabela de resultados para aplicação baseada na distância euclideana entre centróides de dígitos inteiros Tabela 3.5 Quantidade de amostras de treino e teste Tabela 3.6 Taxas de acerto para cada cenário e cada fonema de teste Tabela 3.7 Taxas de acerto para cada cenário e cada fonema de teste com centróides calculados com base na tabela Tabela 3.8 Taxas de acerto para a aplicação

6 v LISTA DE FIGURAS Figura 2.1 Modelo simplificado de um sistema de reconhecimento automático de fala... 3 Figura 2.2 Modelo simplificado de produção da voz... 4 Figura 2.3 Janela de Hamming (a) e sua transformada discreta no tempo (b)... 8 Figura 2.4 Seção de sinal de voz com janelas de análise a curto prazo... 9 Figura 2.5 Taxa de cruzamento por zero e energia a curto prazo Figura 2.6 Gráfico mostrando a relação freqüência freqüência mel Figura 2.7 Banda de filtros mel Figura 3.1 Determinação de centróides para as amostras de testes Figura 3.2 Centróide do dígito de testes e dígitos 0 e Figura 3.3 Ilustração da separação de amostras de treino e teste Figura 3.4 Fonemas com duração menor que 15ms Figura 3.5 Gráfico comparativo de resultados globais Figura 3.6 Gráfico comparativo de desempenho para silêncio (#) Figura 3.7 Figura ilustrativa das regiões de classificação Figura 3.8 Comparação de resultados globais para constante k=3 e 3, Figura 3.9 Histograma do primeiro coeficiente ao longo dos quadros da letra a.. 36 Figura 3.10 Regiões baseadas em histogramas Figura 3.11 Comparação de histogramas... 39

7 1 1 INTRODUÇÃO O presente trabalho apresenta as teorias envolvidas no reconhecimento da fala, principalmente em relação à extração de parâmetros do sinal de voz. A teoria é aliada à parte prática através do desenvolvimento de sistemas simplificados, modularmente flexíveis para o reconhecimento de voz. Na parte teórica é apresentada: Uma visão geral de um sistema de reconhecimento de voz; O modelo simplificado do sistema de produção da voz; Os diferentes parâmetros que podem ser extraídos do sinal de voz, sendo eles temporais, freqüenciais e cepstrais; Diferentes medidas de distância que podem ser usadas para a comparação dos parâmetros. Na parte prática são desenvolvidos sistemas simples baseados no reconhecimento de fonemas e vogais, tendo como foco principal os parâmetros Mel- Cepstrais e as medidas de distância euclideana entre vetores extraídos estatisticamente das amostras de fala. Para cada sistema é apresentada a taxa de acerto obtida e uma breve conclusão.

8 2 2 FUNDAMENTAÇÃO 2.1 SISTEMAS DE RECONHECIMENTO DE FALA Os sistemas de reconhecimento de fala podem ser classificados de diversas maneiras: quanto ao modo de reconhecimento, em relação à dependência ou não do locutor, de fala contínua ou isolada, tamanho do vocabulário, etc. Em um sistema dependente do locutor, o sistema é treinado para reconhecer o que é dito por determinado usuário. Já um sistema independente do locutor reconhece a fala independente do usuário, não sendo treinado para nenhum usuário específico. Os sistemas dependentes do locutor, apesar de serem mais eficientes no reconhecimento, têm uma aplicabilidade mais limitada, pois há aplicações em que a realização de treinamento para cada locutor é impossível. Os sistemas de reconhecimento de fala contínua, apesar de serem mais amigáveis ao usuário em diversas aplicações, têm complicações adicionais na implementação e uma menor eficiência de reconhecimento, já que é necessária a determinação de fronteiras entre palavras ou unidades fonéticas. Com relação ao tamanho do vocabulário, é lógico que quanto maior o número de palavras que podem ser reconhecidas, maior a probabilidade de erro de reconhecimento, já que o sistema tem de optar dentro de um universo maior de palavras. Existem também os sistemas de reconhecimento de falante, cujo objetivo é a identificação de usuários. Nestes sistemas é necessária uma fase de treinamento para cada usuário, além de haver diversas características intra-locutor que dificultam na implementação de tal sistema. Em todos os sistemas de reconhecimento de voz, há diversos fatores que afetam seu desenvolvimento e utilização, e que precisam ser ou solucionados ou contornados. Como exemplo pode-se citar o ruído presente no sinal de voz, proveniente tanto do ambiente de captação do sinal quanto da especificção e qualidade dos materiais utilizados na transdução.

9 FUNCIONAMENTO DE UM SISTEMA DE RECONHECIMENTO DE FALA O desenvolvimento de um sistema de reconhecimento de fala possui duas etapas principais: a etapa de treinamento, onde criamos padrões ou modelos de referência para nosso sistema; e a utilização propriamente dita, realizada a partir do sistema devidamente treinado. A figura 2.1 mostra um modelo simplificado do funcionamento de um reconhecedor automático de fala. Figura 2.1 Modelo simplificado de um sistema de reconhecimento automático de fala Seu funcionamento pode simplificadamente ser descrito assim: A voz é captada por um microfone e o sinal analógico proveniente é transmitido a um sistema onde é feita a amostragem e a digitalização do sinal. A partir disto, o sinal é dividido em pequenos intervalos de tempo sobrepostos e, para cada um destes intervalos é feito o cálculo de parâmetros espectrais e/ou temporais. A partir destes parâmetros, são realizadas comparações entre o padrão do sinal e o da referência previamente criada, de acordo com o método escolhido. A seguir, o sistema passa para a tomada de decisão, optando pela palavra com maior chance de ser igual à palavra pronunciada.

10 MODELO DE PRODUÇÃO DA VOZ Figura 2.2 Modelo simplificado de produção da voz A produção da voz pelo aparelho fonador humano pode ser aproximada por um modelo simplificado que consiste de duas partes: a produção do sinal excitador e a formação da característica espectral. Tal modelo está representado na figura 2.2. Este modelo funciona da seguinte maneira: a excitação sonora é modelada por um gerador de trem de pulsos, cujo espectro pode ser representado por P(f); a excitação surda é modelada por um gerador de ruído branco, com espectro N(f). Através de u e v a intensidade de cada excitação pode ser representada de maneira satisfatória. A saída de ambas as excitações é então somada e alimenta o modelo do trato vocal simplificado representado por H(f). Finalizando, as características dos lábios podem ser modeladas por R(f) [3]. Basicamente são estes os parâmetros que modelam o sistema de produção do sinal de voz. Para realizar o reconhecimento da voz, os parâmetros acima têm de ser computados do sinal a cada intervalo de tempo e encaminhados ao reconhecedor de voz, para o qual a maior parte da informação importante está contida no modo em como a forma espectral do sinal muda com o tempo. Daí a necessidade do cálculo ser realizado em curtos intervalos de tempo.

11 Fonemas Neste tópico são citadas as principais classificações dos fonemas, sem muitos detalhes por não ser este o enfoque deste trabalho. Os fonemas podem ser divididos basicamente em vogais e consoantes. Vogal é o fonema produzido pelo ar que, expelido dos pulmões, faz vibrar as cordas vocais e não encontra nenhum obstáculo na sua passagem pelo aparelho fonador. Há diversas classificações para as vogais [4], donde pode ser feita de acordo com a intensidade (tônica, subtônica e átona), timbre (abertas e fechadas), modo de articulação (orais e nasais), e quanto ao ponto de articulação (anteriores e posteriores) além das semivogais. Já as consoantes são fonemas assilábicos que são produzidas após ultrapassar um obstáculo que se opõe à corrente de ar no aparelho fonador. Assim como as vogais, podem ser classificadas de diversas maneiras: Quanto ao papel das cordas vocais: surdas (f, k, p, s, t, ch) e sonoras (b, d, g, j, l, lh, m, n, nh, r, v, z) Quanto ao modo de articulação: oclusivas: (b, p, d, t, g, k), fricativas (f, v, j, ch, s, z), laterais (l, lh), vibrantes (r, rr). nasais (m, n, nh). Quanto ao ponto de articulação: bilabiais (p, b, m), dentais ("th" do inglês), alveolares (t, d, n, s, z, l, "r" fraco), labiodentais (f, v), palatais (j, ch, lh, nh), retroflexivas("r" caipira), velares (k, g e rr na maioria dos dialetos), uvulares( o r forte do dialeto fluminense ou o "h" do inglês) e glotais (não há consoantes glotais em português e em praticamente nenhum dos idiomas ocidentais). Neste trabalho a única classificação usada é a distinção entre os fonemas surdos e sonoros, por ser uma característica bem visível através do sinal de voz e de seus parâmetros.

12 6 2.2 EXTRAÇÃO DOS PARÂMETROS Para a extração dos parâmetros do sinal de voz, primeiro é necessário realizar uma preparação neste sinal, o que é tratado nos próximos tópicos. Logo a seguir há algumas informações sobre os parâmetros temporais, espectrais e cepstrais PRÉ-ÊNFASE Devido a uma queda de freqüência provocada pelos lábios e pelo pulso glotal do locutor, é necessária a aplicação de um filtro pré-ênfase para realizar a compensação [3]. Este filtro passa-altas pode ser aplicado por um circuito analógico, antes da quantização, ou depois, por um filtro digital. Esta queda é de aproximadamente 6dB/oitava, o que pode ser compensado com o uso de um filtro FIR de primeira ordem: = 1 (Eq.1) O valor de utilizado no filtro varia de acordo com a compensação desejada e outras características, podendo ter valores como 0,9 [2], 0,97 [3], em geral, estando no intervalo entre 0,9 e 1 [1] AMOSTRAGEM O microfone capta um sinal contínuo de voz, que então é enviado a um sistema que faz a amostragem do sinal a uma freqüência adequada, lembrando sempre de respeitar o teorema de Nyquist, que diz que é necessário amostrar o sinal a, pelo menos, uma freqüência de duas vezes o valor da maior freqüência do sinal. Apesar da voz ter um amplo espectro de freqüências, contendo até mesmo freqüências ultrasônicas para alguns sons fricativos [3], do uso do telefone analógico é sabido que uma banda de 4 khz de sinal contém toda a informação necessária para o entendimento da voz humana. Sendo assim, um valor mínimo para a taxa de amostragem seria de 8kHz. Aumentando esta taxa de amostragem, pode-se diminuir a taxa de erro no reconhecimento, mas a partir de 16 khz já não se nota melhoras tão significativas [5].

13 DIGITALIZAÇÃO A amostragem discretiza o sinal no tempo, mas ele ainda é contínuo em amplitude. Então é necessário transformar esta amplitude em valores discretos para que possam ser armazenados e processados em sistemas computacionais. Apesar de 8 bits serem até suficientes para a representação do sinal de voz, geralmente é utilizado um valor de 16 bits para a digitalização [1] JANELAMENTO Devido à natureza da variação do sinal de voz, é comum processar a voz em blocos (frames), que mantém certas propriedades da forma de onda da voz. Isto nos conduz ao princípio básico de análise a curto prazo, que pode ser representada de forma geral pela equação 2 [1]: = (Eq.2) onde representa o parâmetro de análise de curto prazo (ou vetor de parâmetros) em um tempo de análise. O operador representa a natureza da função de análise, e representa a seqüência de janelas deslocadas no tempo, cujo propósito é selecionar um segmento da seqüência na vizinhança da amostra =. A função da janela é suavizar as extremidades do segmento, diminuindo o efeito das extremidades, pois na segmentação do sinal podemos acabar gerando componentes de alta freqüência que não pertencem ao sinal [2]. Uma das janelas mais usadas para esta função é a janela de Hamming, que pode ser matematicamente representada como na equação 3. = cos, (Eq.3) 0, á O tamanho da janela e da sobreposição de janelas consecutivas são valores que são escolhidos por experiência e ajustados empiricamente de acordo com os resultados desejados, havendo diversos estudos a este respeito. Como exemplos de valores práticos, pode-se citar:

14 8 Janela de Hamming com 12 a 32ms de duração e deslocamento de 6 a 15ms [2] Janela com 40ms de duração e 15ms de deslocamento [1] 16 a 25ms de duração e 10ms de deslocamento [3] Na figura 2.3 temos a representação em tempo discreto da janela de Hamming (a) e sua transformada discreta no tempo (b). Na figura 2.4 tem-se uma visão geral da sobreposição das janelas de Hamming aplicadas ao sinal. Figura Janela de Hamming (a) e sua transformada discreta no tempo (b) [1]

15 9 Figura Seção de sinal de voz com janelas de análise a curto prazo [1] O objetivo do processamento do sinal de voz a curto prazo é fornecer um conjunto de parâmetros que representem os diferentes intervalos do sinal de voz e que possam ser empregados nos estágios posteriores de reconhecimento de padrões acústicos. Estes parâmetros devem separar, ou pelo menos tentar, os padrões de diferentes fonemas ou alofones a partir das características físicas do sinal acústico. Para isso podem-se utilizar tanto parâmetros temporais como espectrais PARÂMETROS TEMPORAIS Duas análises básicas a curto prazo para os sinais de voz são a energia do sinal e a taxa de cruzamento por zero a curto prazo. Estas funções são simples de computar, e elas são úteis na estimação das propriedades da função de excitação no nosso modelo de produção de voz [1] Energia A energia de curto prazo é definida através da equação 4. = ( ) = (.4)

16 10 Neste caso o operador é simplesmente o quadrado das amostras janeladas. Geralmente é possível também expressar os operadores de análise a curto prazo como uma convolução ou uma operação de filtro linear. Neste caso, = h onde a resposta ao impulso do filtro linear é h = [1] Taxa de Cruzamento por Zero Similarmente, a taxa de cruzamento por zero a curto prazo é definida como uma média ponderada do número de vezes em que o sinal de voz muda de sinal dentro da janela de tempo. A equação 5 representa este operador em termos de filtragem linear. onde = (.5) = <0 Como é igual a 1 se e 1 têm diferentes sinais algébricos e igual a 0 se eles têm o mesmo sinal, então é a soma ponderada de todos os eventos de alternância de sinal que estão dentro da região da janela deslocada. A equação 5 é apenas uma representação geral desta taxa, e o cálculo de pode ser feito de outras maneiras. A figura 2.5 mostra um exemplo gráfico da energia e da taxa de cruzamento por zero a curto prazo para um segmento de voz com uma transição entre um sinal de voz surdo e um sonoro. Nesta figura, é utilizada uma janela de Hamming com duração de 25ms (equivalente a 401 amostras a uma taxa de amostragem de 16 khz).

17 11 Figura Taxa de cruzamento por zero e energia a curto prazo [1] Note que durante o intervalo de sinal surdo, a taxa de cruzamento por zero é relativamente maior quando comparado ao da taxa do sinal sonoro. Enquanto isso, a energia é relativamente menor na região de sinal surdo quando comparada à energia da região de sinal sonoro. A energia e a taxa de cruzamento por zero a curto prazo são importantes porque eles fornecem informações valiosas sobre o sinal de voz, e além disso são simples de calcular. Elas podem ser usadas como base para um algoritmo de decisão para decidir se o sinal de voz tem característica surda ou sonora PARÂMETROS ESPECTRAIS Pode-se afirmar que o sinal de voz é uma seqüência de sinais em pequenos intervalos onde a distribuição espectral de potência é relativamente constante. Ou seja, a informação é composta pela dinâmica da variação dessas características espectrais. Sabendo disso, torna-se interessante submeter o sinal de voz à análise de Fourier, em intervalos de curta duração. Para calcular de modo eficiente a transformada de Fourier, utiliza-se os algarismos da FFT (Fast Fourier Transform) [2]. Os parâmetros da análise de Fourier são dados pelos coeficientes da Transformada Discreta de Fourier (DFT - Discret Fourier Transform).

18 12 Para esse tipo de parametrização, vale salientar que a resolução em freqüência é limitada pelo passo em freqüência = 1, onde N é o comprimento do quadro medido em número de amostras e T é o período de amostragem. Assim a resolução em freqüência aumenta de maneira diretamente proporcional ao número de amostras por quadro. Na parametrização temporal, contudo, a resolução aumenta à medida que o tamanho dos quadros diminuem, e o número de amostras por quadro se tornam mais concentradas. O entendimento da resolução é essencial quando se trata de analisar fonemas não-oclusivos ou oclusivos. Para fonemas não-oclusivos a identidade espectral está fortemente relacionada à densidade espectral sendo mais importante, neste caso, a resolução em freqüência. Por outro lado, fonemas oclusivos são melhor identificados pela mudança de estacionariedade do sinal sendo, portanto, mais vantajoso possuir uma resolução maior no domínio do tempo [2] Transformada de Fourier a Curto Prazo (Short-Time Fourier Transform (STFT)) As funções de análise de curto prazo são a base para a maioria dos algoritmos de processamento de voz. Uma importante função é a transformada de Fourier a curto prazo, definida equação 6. = (.6) Esta transformada é a base para uma vasta gama de sistemas de análise, codificação e síntese de voz. Por definição, para um tempo de análise fixo, a STFT é a transformada discreta de Fourier (DTFT) do sinal selecionado e ponderado pela janela deslocada. Então, a STFT é uma função de duas variáveis: o índice de tempo discreto denotando a posição da janela e representando a freqüência de análise. Como a última equação é uma seqüência de DTFTs, a função bidimensional no tempo discreto é uma função periódica de freqüência contínua radiana com período 2 [1].

19 Parâmetros Cepstrais Cepstrum O cepstrum foi definido por Bogert, Healy e Tukey como sendo a transformada inversa de Fourier do logaritmo da magnitude espectral de um sinal [6]. Oppenheim, Schafer e Stockham mostraram que o cepstrum está relacionado ao conceito mais geral de filtragem homomórfica de sinais que são combinados por convolução [1]. Eles deram a definição de cepstrum de um sinal discreto no tempo como na equação 7. = 1 2 log (.7) onde log é o logaritmo da magnitude da DTFT do sinal, e eles estenderam o conceito definindo o cepstrum complexo como na equação 8. = 1 2 log (.8) onde log é o logaritmo complexo de definido pela equação 9. =log = log + (.9) Neste trabalho não é considerado o logaritmo complexo, devido a uma série de fatores e dificuldades adicionais em seu cálculo [1] O cepstrum de tempo curto A aplicação destas definições de cepstrum requerem que a DTFT seja substituída pela STFT. Então o cepstrum de curto prazo é definido pela equação 10. = 1 2 log (.10) onde é a STFT definida pela equação 6. Apesar da definição de cepstrum ser dada em termos da DTFT, e isto ser útil para definições básicas, não o é para uso em processamento de sinais de voz amostrados. Felizmente, para isto existem outras opções computacionais, seja usando a DFT, a transformada z, ou usando computação recursiva. O detalhamento destes métodos não será abordado neste trabalho.

20 14 Os cepstrum podem ser usados tanto para detecção de pitch ou em reconhecimento de padrões MFCC (Mel-Frequency Cepstrum Coefficients) A distância ponderada cepstral tem uma interpretação diretamente equivalente em termos de distância no domínio da freqüência. Isto é significante quanto aos modelos de percepção humana do som, que são baseados na análise freqüencial desempenhada pelo ouvido interno. Com isto em mente, Davis e Mermelstein [1] formularam um novo tipo de representação cepstral que veio a ser vastamente usada e conhecida como coeficientes de freqüência mel-cepstrais (mfcc). A transformação entre freqüência e freqüência mel pode ser representada pela equação 11. ( )= ln 1+ (.11) 700 equação 12. Ou de maneira equivalente, em relação ao logaritmo decimal, como na ( )=2595log 1+ (.12) 700 Na figura 2.6 há um gráfico mostrando a relação entre estas freqüências.

21 15 Figura Gráfico mostrando a relação freqüência freqüência mel[3] A idéia básica é computar a análise freqüencial baseado no banco de filtros com espaçamento de bandas críticas. Para uma banda de 4 khz, aproximadamente 20 filtros são usados. Na maioria das implementações, uma análise de Fourier a curto prazo é feita primeiro, resultando na DFT para o tempo de análise. Então os valores de DFT são agrupados juntos em bandas críticas e ponderados por funções triangulares como mostrados na figura 2.7. Note que as bandas são constantes para freqüências centrais abaixo de 1 khz e então aumentam exponencialmente até metade da freqüência de amostragem 4 khz resultando em um total de 22 filtros. O espectro mel freqüencial no tempo de análise é definido pela equação 13. = 1 (.13) onde é a função triangular para o -ésimo filtro indo do índice DFT a, e onde

22 16 = (.14) é o fator de normalização para o -ésimo filtro mel [1]. Figura 2.7 Banda de filtros mel Há autores que utilizam deste normalização [1], enquanto outros não [2] [3]. Para cada frame, uma transformada cosseno discreta do logaritmo da magnitude da saída dos filtros é computada para formar a função, ou seja, = 1 log( )cos (.15) Tipicamente, é calculado para um número de coeficientes M menor que o número de filtros mel, por exemplo, M=13 e R= Parâmetros Dinâmicos Os MFCCs são computados para um segmento de voz em intervalos de tempo curto de aproximadamente 10 ms. Para melhor refletir as mudanças dinâmicas dos MFCCs em tempo, a primeira e segunda derivadas em tempo podem também ser computadas, por exemplo, computando a diferença entre dois coeficientes diferindo de índices no passado e no futuro do tempo levado em consideração. Para a primeira derivada nós temos a equação 16: ( )= ( ) ( ), =0,1, 1 (.16)

23 17 E para a segunda derivada temos a equação 17. ( )= ( ) ( ), =0,1, 1 (.17) onde está geralmente no intervalo 2 4 [3] Análise LPC A análise de predição linear é uma das mais poderosas e usadas técnicas de análise de voz. A importância deste método está na habilidade de fornecer estimativas precisas de parâmetros de voz e sua velocidade relativa de computação. Como já vimos do modelo de produção de voz, uma amostra de sinal de voz é modelada como a saída de um sistema linear de variação lenta excitada por impulsos quasi-periódicos (durante sinal de voz sonora) ou ruído aleatório (durante sinal de voz surda). Para curtos intervalos de tempo, o sistema linear pode ser descrito por um sistema só de pólos na forma: ( )= ( ) ( ) = 1 (.18) Na análise de predição linear, a excitação é definida implicitamente pelo modelo de trato vocal, isto é, a excitação é qualquer coisa que é necessária para produzir na saída do sistema. A maior vantagem deste modelo é o parâmetro de ganho G, e os coeficientes de filtro podem ser estimados em uma maneira eficiente pelo método de predição linear. da equação 19. Assim, as amostras de voz estão relacionadas com a excitação através = + (.19) Um preditor linear com coeficientes de predição é definida como um sistema cuja saída é exata, é = (.20) E o erro de predição, definido pelo quanto falha em predizer a amostra

24 18 = = (.21) A análise LPC resulta em parâmetros referentes a um filtro excitado por um sinal denominado erro de predição. Este filtro é obtido através de aplicação de teoremas (Yule-Walker e Wold) e modelos para processos estocásticos (autoregressivo). O objetivo da análise é obter os coeficientes que minimizam a energia do sinal residual. Há diversos métodos para estimar os valores dos coeficientes, mas nenhum deles será detalhado neste trabalho, visto que através do software MatLab pode-se realizar com relativa facilidade o cálculo destes coeficientes Parâmetros LPC Cepstrais Os parâmetros LPC-Cepstrais podem ser obtidos basicamente através da aplicação do na análise LPC, como na equação 22. log ( ) ( ) = log ( ) + log ( ) (.22) Essa operação permite separar a excitação do trato vocal, que é o que determina o timbre dos fonemas. Os parâmetros dessa análise são obtidos recursivamente através da equação 23, = +, 1 (.23) onde α = 0 para i > p (p é a ordem da análise LPC) [2]. i

25 DISTÂNCIA Um valor importante tanto para a codificação, a análise e o reconhecimento de voz é a medida de distância entre os quadros. O objetivo é medir a diferença de identidade fonética entre dois segmentos de voz de igual duração (como os quadros janelados), através da distância numérica, métrica ou não [2], entre os coeficientes ou parâmetros extraídos do sinal de voz dentro do intervalo em questão. Como o caráter fonético da voz está muito correlacionado com a distribuição espectral de potência do sinal, a maior parte dos parâmetros extraídos são freqüenciais. Assim, as distâncias que trabalham com estes coeficientes fornecem uma aproximação numérica razoável para uma caracterização bastante perceptiva. Existem três tipos de distância mais utilizados: Euclideana; Mahalanobis e Itakura-Saito. Dado os vetores de parâmetros sob teste =(,,, ) e de referência =(,,, ), para k parâmetros, define-se a distância entre eles segundo os diferentes métodos tratados nos próximos tópicos DISTÂNCIA EUCLIDEANA A medida de distância euclideana é a distância padrão entre dois vetores em um espaço vetorial N-dimensional. É a medida de distância mais conhecida e mais utilizada nos reconhecedores que não utilizam a análise LPC [2] [3]. Para calcular a distância euclideana, é necessário computar a raiz quadrada da soma dos quadrados das diferenças entre as componentes individuais dos vetores. Assim: = ( ) (.4.1)

26 DISTÂNCIA DE MAHALANOBIS A distância euclideana ponderada funciona bem se não há correlação entre as propriedades individuais, como se as propriedades selecionadas para nosso espaço vetorial fossem estatisticamente independentes uma das outras [1]. Como generalização da distância euclideana, há a distância de Mahalanobis, que por meio da matriz de covariâncias W pondera os parâmetros de acordo com a sua importância. Assim, a distância de Mahalanobis pode ser definida como: =( ) ( ) (.4.2) onde, se W = I (Matriz Identidade), caímos no caso da distância euclideana [2] DISTÂNCIA DE ITAKURA-SAITO O método Itakura-Saito é comumente aplicado nos parâmetros LPC e possui como parâmetros ganhos LPC ( σ X e σ Y ) e matrizes de autocorrelação ( R X e R Y ). = +log 1 (.4.3) Outro fundamento importante no reconhecimento de voz é a quantização vetorial, que consiste em estabelecer limites de decisão entre vetores passíveis de serem observados. Esse processo tem dependência com a probabilidade do evento [2]. Os detalhes sobre a quantização vetorial não serão abordados no presente trabalho.

27 21 3 METODOLOGIA E RESULTADOS 3.1 DESENVOLVIMENTO DA APLICAÇÃO A aplicação em questão tem como objetivo principal a pesquisa e não o desenvolvimento de um produto comercial específico. O que se deseja é abordar alguns conceitos envolvidos e existentes na área de reconhecimento de fala, não se preocupando com a invenção. Todo o desenvolvimento foi feito utilizando o aplicativo matemático MatLab. Os métodos foram escritos de um modo flexível e modular, ou seja, de modo a permitir que parâmetros e/ou chamadas de métodos pudessem ser variados a fim de visualizar diferentes resultados. O desempenho das aplicações não constitui preocupação principal do projeto e em muitos dos métodos optou-se pela facilidade do uso ao desempenho. Foram desenvolvidas quatro aplicações intermediárias que, baseados na taxa de acerto, objetivaram estudar empiricamente a implicação de determinados parâmetros relacionados com o reconhecimento de fala. Todos os métodos escritos estão dispostos e sumarizados no Anexo I deste trabalho e são apenas citados no texto de acordo com a necessidade A BASE DE DADOS A base de dados constituiu-se de amostras de fala de três falantes, dos quais dois deles são homens e uma é mulher. O microfone utilizado na coleta das amostras foi um microfone dinâmico, omnidirecional da marca SONY e modelo FV33. Como auxílio na gravação e edição dos sinais de voz coletados foi utilizada uma ferramenta de software de distribuição livre, denominada Audacity. Todos os falantes pronunciaram naturalmente os dígitos de 0 a 9 que foram, então separados e subdivididos em fonemas. A separação dos fonemas e dígitos foi feita visual e auditivamente e foram exportados em arquivos de áudio puro (.wav), para criação da base de dados. A base de dados foi armazenada diretamente no sistema de pastas do Windows, tendo, dentro de sua pasta raiz, pastas secundárias correspondentes aos falantes, dígitos e fonemas.

28 22 A transcrição fonética de cada dígito foi feita segundo a tabela 3.1. Além dos caracteres de representação presentes nesta tabela, também foi criado o caractere de representação # que representa silêncio. Transcrição Fonética dos Dígitos Dígito Transcrição Variação 0 zero 1 um 2 dois 3 treis tres 4 kuatro 5 sinko sinku 6 seis 7 sete sexi (setchi) 8 oito oitu 9 nove Tabela 3.1: transcrição fonética dos dígitos pronunciados. Devido ao fato de se utilizar o próprio sistema de pastas do Windows para armazenar as amostras da base de dados, criou-se alguns métodos de acesso ao mesmo. Esses métodos são conforme tabela 3.2. Método Descrição Parâmetros de Entrada getdbpath getdbmatpath getdbmatdigitpath getdbmatphonpath getdbmattestpath getdbmattrainpath Retorna o caminho principal dos arquivos da base de dados - Retorna o caminho absoluto das matrizes de parâmetros (.mat) - Retorna o caminho das matrizes de parâmetros dos Digitos (.mat) - Retorna o caminho das matrizes de parâmetros dos Fonemas (.mat) - Retorna o caminho das matrizes de parâmetros dos Fonemas para teste (.mat) - Retorna o caminho das matrizes de parâmetros dos Fonemas para teste (.mat) - getdbphonpath Retorna o caminho dos arquivos dos fonemas, formato.wav, da base de dados spk - string que representa o falante do sinal. dig - string que representa o digito

29 23 getdbdigitpath Retorna o caminho dos arquivos dos dígitos, formato.wav, da base de dados spk - string que representa o falante do sinal getwavdigit Retorna os valores digitalizados referentes a um arquivo.wav de um digito. Recebe como argumento duas string, a primeira representa o falante e a segunda o digito spk - string que representa o falante do sinal. dig - string que representa o digito getwavphon Retorna os valores digitalizados referentes a um arquivo.wav de um digito. Recebe como argumento duas string, a primeira representa o falante e a segunda o fonema Tabela 3.2: métodos de acesso à base de dados. spk - string que representa o falante do sinal. dig - string que representa o digito. phon - string que representa o fonema. Nas aplicações desenvolvidas, os falantes são definidos pelas palavras: konr, shig e kati. Há também um conjunto de amostras denominadas pela palavra shig3 que foi utilizada em uma das etapas da aplicação 1, conforme será descrito adiante APLICAÇÃO 1: DISTÂNCIA EUCLIDEANA MÍNIMA ENTRE DÍGITOS Nesta aplicação, utilizou-se o método computedigits para efetuar o janelamento e cálculo de coeficientes Mel-Cepstrais para dígitos inteiros, armazenando as matrizes resultantes em arquivos de extensão mat na base de dados. Com o método computeregion, calculou-se os centróides de cada matriz. Um centróide consiste em um único vetor de parâmetros que representa todos os vetores da matriz de treino. Na presente aplicação, utilizaram-se dois tipos de centróides: mediana e média. A figura 3.1 ilustra o cálculo de um centróide para vetores de parâmetros de 4 quadros.

30 parametros do quadro 1 parametros do quadro 2 parametros do quadro 3 parametros do quadro 4 centroide Figura 3.1: Determinação de centróides para as amostras de testes. O método recondigit é utilizado para reconhecer os dígitos, baseando-se no critério de distância euclideana mínima entre centróides. A figura 3.2 ilustra a maneira com que o reconhecimento é feito utilizando como base apenas dois dígitos. Na figura é mostrado um vetor centróide de um digito de teste que antecipadamente é conhecido como sendo digito 0. Dois outros centróides de treino são mostrados um correspondente ao digito 0 e outro ao digito 1. O digito de teste é reconhecido então como sendo 0 se seu centróide estiver euclideanamente mais próximo do centróide do digito 0, caso contrário será reconhecido como 1. Na figura 3.2, todos os centróides foram calculados a partir da média dos vetores de parâmetros Mel-cepstrais de todos os quadros de cada dígito Recapitulando o funcionamento desta aplicação: Dada uma amostra de teste, essa amostra é computada (computedigit), tendo como resultado uma matriz de coeficientes Mel-cepstrais calculados. O centróide dessa matriz é então calculado como sendo o vetor médio ou o vetor mediana dos seus vetores de parâmetros (computeregion). Esse centróide é comparado com os centróides da base de

31 25 dados, sendo o mais próximo, por distância euclideana, o dígito reconhecido. 40 centroide de treino - digito 0 centroide de treino - digito 1 centroide de teste - digito Figura 3.2: centróide do digito de testes e dígitos 0 e 1. A tabela 3.3 mostra os cenários utilizados para a verificação de taxas de acerto para esta aplicação. O objetivo destes cenários é verificar o efeito, na taxa de acerto, dos seguintes parâmetros: Tamanho e sobreposição dos quadros; Utilização de janelamento de hamming; Utilização de pré-enfase; Cálculo do centróide utilizando média e mediana. Centróide Valor de pré- Ênfase Tamanho dos Quadros Sobreposição dos Quadros Ordem de Análise Hamming Cenário 1 Média , Cenário 2 Média 0,9 10 0, Cenário 3 Média 0, , Cenário 4 Média 0, , Cenário 5 Média 0, , Cenário 6 Média 0, ,8 12 0

32 26 Cenário 7 Média 0, , Cenário 8 Média 0, , Cenário 9 Mediana , Cenário 10 Mediana 0,9 10 0, Cenário 11 Mediana 0, , Cenário 12 Mediana 0, , Cenário 13 Mediana 0, , Cenário 14 Mediana 0, , Cenário 15 Mediana 0, , Cenário 16 Mediana 0, , Tabela 3.3: cenários de teste para a aplicação 1. A coluna centróide da tabela 3.3 se refere apenas ao modo de cálculo dos centróides para a base de dados. Em se tratando das amostras de testes foi utilizado sempre o vetor médio das matrizes de vetores. Os resultados obtidos para cada cenário são conforme tabela 3.4, onde o número 1 representa um acerto e em todos os cenários mostrados na tabela 3.3, utilizou-se a análise Mel-cepstral com 20 filtros (canais) mel. Como amostras de treino foram utilizadas as amostras dos três falantes kati, konr e shig, e como amostras de testes o conjunto shig3. Dígito nº de Acertos Cenário Cenário Cenário Cenário Cenário Cenário Cenário Cenário Cenário Cenário Cenário Cenário Cenário Cenário Cenário Cenário Tabela 3.4: tabela de resultados para aplicação baseada na distância euclideana entre centróides de dígitos inteiros.

33 27 Como se pode observar na tabela 3.4, o melhor resultado foi atingido para o cenário 7, onde utilizaram-se quadros de 12ms sobrepostos 80%; cálculo dos centróides a partir da média das amostras de treino, pré-ênfase de 0.97 e janelamento de Hamming. Esses mesmos cenários foram testados para análise LPC-Cepstral de mesma ordem, obtendo um número de acerto muito inferior (média de dois acertos por cenário). Ainda para os LPC-Cepstrais mais um teste foi realizado substituindo o critério de reconhecimento, da distância euclideana para distância de Itakura-Saito [2], mas isso implicou em diminuição do número de acertos (média de um acerto por cenário). Uma situação semelhante pode ser verificada para a análise LPC APLICAÇÃO 2: DISTÂNCIA EUCLIDEANA MÍNIMA ENTRE FONEMAS Em uma segunda etapa de desenvolvimento, utilizaram-se como dados de treino os vetores de parâmetros calculados separadamente para cada fonema. Para testes dessa aplicação, utilizou-se o método separatevectors para separar em duas partes as matrizes, calculadas e salvas pelo método computephons: 75% de suas linhas foram usadas para treino, ou seja, foram utilizadas como padrões na determinação de parâmetros estatísticos; e a outra parte (25%) são referentes aos quadros de testes, os quais são comparados com parâmetros estatísticos dos outros 75%. A figura 3.3 ilustra essa separação. Figura 3.3: ilustração da separação de amostras de treino e teste. A relação entre quadros de teste e treino é mostrada de forma quantitativa na tabela 3.5. Para essa tabela utilizaram-se quadros de 12ms com sobreposição de 0,8 e todos os fonemas da base de dados

34 28 Quadros # X a d e f i k m n o p r s t u v z Treino Teste Tabela 3.5 Quantidade de amostras de treino e teste Novamente o critério utilizado para o reconhecimento dos fonemas foi a da menor distância euclideana. Assim, dado um vetor de parâmetros de teste x, este é dito fonema a se sua distância euclideana até o centróide dos vetores de treino de a for menor que a distância euclideana até os demais centróides comparados. Os mesmos cenários simulados para a aplicação 1, foram simulados para a aplicação 2, tendo como foco principal o reconhecimento de fonemas e a utilização dos parâmetros Mel-cepstrais com vinte filtros. A taxa de acerto resultante para cada um dos cenários e para cada fonema é conforme tabela 3.6. Três análises podem ser feitas a partir dessa tabela: análise de resultados globais, análise ponderada pelo número de ocorrências dentro do vocabulário e análise específica por fonema.

35 29 Cenário (Taxa de Acerto em %) # 59,02 46,72 100,00 100,00 98,40 100,00 100,00 100,00 57,38 36,89 70,49 70,49 67,31 73,95 81,99 76,12 100,00 X 90,91 100,00 100,00 100,00 98,18 95,65 95,65 97,14 90,91 100,00 100,00 100,00 98,18 95,65 95,65 97,14 100,00 a 40,74 74,07 74,07 74,07 75,00 67,86 85,71 83,72 25,93 51,85 59,26 59,26 63,24 57,14 51,79 34,88 85,71 d 25,00 25,00 50,00 50,00 60,00 62,50 37,50 40,00 25,00 50,00 50,00 50,00 60,00 75,00 50,00 40,00 75,00 e 62,50 61,11 56,94 56,94 58,92 54,55 63,64 67,80 34,72 13,89 16,67 16,67 15,68 9,09 1,95 1,69 67,80 E 86,96 91,30 91,30 91,30 91,62 95,97 99,33 100,00 86,96 92,75 92,75 92,75 95,53 96,64 99,33 98,26 100,00 i 38,24 67,65 72,06 72,06 75,44 82,27 73,05 73,83 42,65 75,00 70,59 70,59 75,44 81,56 85,11 84,11 85,11 k 22,22 33,33 11,11 11,11 19,05 25,00 31,25 36,36 44,44 22,22 11,11 11,11 19,05 25,00 25,00 27,27 44,44 m 42,86 38,10 47,62 47,62 49,06 43,18 40,91 44,12 33,33 38,10 38,10 38,10 41,51 43,18 43,18 41,18 49,06 n 9,68 19,36 12,90 12,90 11,39 13,85 0,00 10,20 32,26 29,03 3,23 3,23 12,66 20,00 6,15 24,49 32,26 o 21,71 38,76 37,98 37,98 40,24 43,75 50,37 47,85 24,81 47,29 46,51 46,51 50,92 41,91 54,04 60,29 60,29 O 43,24 62,16 54,05 54,05 60,00 68,35 58,23 60,66 56,76 81,08 75,68 75,68 85,26 81,01 77,22 85,25 85,26 r 85,71 71,43 71,43 71,43 62,50 58,33 75,00 71,43 71,43 71,43 71,43 71,43 68,75 58,33 58,33 57,14 85,71 s 36,22 60,54 48,65 48,65 49,36 51,65 30,79 29,70 35,14 56,76 43,78 43,78 43,43 43,77 33,59 33,66 60,54 t 16,67 10,00 10,00 10,00 8,00 4,92 0,00 0,00 33,33 33,33 33,33 33,33 52,00 54,10 0,00 6,67 54,10 u 66,07 78,57 76,79 76,79 82,52 89,08 93,28 93,41 62,50 69,64 73,21 73,21 73,43 87,40 92,44 94,51 94,51 v 28,57 64,29 64,29 64,29 62,16 61,29 74,19 70,83 28,57 50,00 57,14 57,14 48,65 58,07 58,07 62,50 74,19 z 68,75 75,00 68,75 68,75 76,19 73,53 38,24 73,08 68,75 75,00 75,00 75,00 80,95 73,53 35,29 92,31 92,31 Resultado global para cenários 46,95 56,52 58,22 58,22 59,89 60,65 58,17 61,12 47,49 55,24 54,90 54,90 58,44 59,74 52,73 56,53 Tabela 3.6: Taxas de acerto para cada cenário e cada fonema de teste. Máximo Valor

36 30 Analisando os resultados de forma global, observa-se que o melhor desempenho foi obtido no cenário 8, onde são utilizados quadros de 15ms sobrepostos 80%. Embora, essa seja uma boa indicação para o uso desse tamanho de janela, constatou-se que alguns fonemas não possuem duração maior que 14ms, sendo problemática a computação realizada com quadros nesse tamanho. Dentro da base de dados utilizada, podem-se citar os fonemas r e t que, pronunciadas por alguns dos falantes, possuem duração conforme mostra a figura 3.4. Portanto, apesar de se obter o melhor resultado global, a utilização de quadros de 15ms pode não ser a melhor opção Fonema ' r ' Tempo [ms] 0.6 Fonema ' t ' Tempo [ms] Figura 3.4: Fonemas com duração menor que 15ms. Descartando-se os cenários 8 e 16, devido à observação de tamanho de quadros já apontada e se concentrando na análise dos tipos de centróides (média e mediana), podemos observar que para determinados fonemas, obteve-se um melhor resultado para os centróides calculados a partir da mediana: '#' (silêncio), 'i', 'O', 's' e 'z'. Para uma verificação dos resultados que se obteriam considerando apenas esses fonemas calculados como mediana, independentemente da coluna centróide da tabela 3.3, calculou-se a tabela 3.7.

37 31 Cenário - centróides mediana/média (taxa de acerto em %) # 60,66 42,62 74,59 74,59 74,68 27,20 15,71 21,39 57,38 36,89 70,49 70,49 67,31 73,95 81,99 76,12 81,99 X 90,91 100,00 100,00 100,00 98,18 95,65 95,65 97,14 90,91 100,00 100,00 100,00 98,18 95,65 95,65 97,14 100,00 a 40,74 74,07 74,07 74,07 75,00 67,86 85,71 83,72 25,93 51,85 59,26 59,26 63,24 57,14 51,79 34,88 85,71 d 25,00 50,00 50,00 50,00 60,00 75,00 50,00 60,00 25,00 50,00 50,00 50,00 60,00 75,00 50,00 40,00 75,00 e 55,56 61,11 55,56 55,56 57,84 56,49 55,84 65,25 34,72 13,89 16,67 16,67 15,68 9,09 1,95 1,69 65,25 E 84,06 91,30 91,30 91,30 91,62 95,97 99,33 99,13 86,96 92,75 92,75 92,75 95,53 96,64 99,33 98,26 99,33 i 44,12 70,59 72,06 72,06 76,02 81,56 78,72 83,18 42,65 75,00 70,59 70,59 75,44 81,56 85,11 84,11 85,11 k 22,22 33,33 11,11 11,11 19,05 25,00 31,25 36,36 44,44 22,22 11,11 11,11 19,05 25,00 25,00 27,27 44,44 m 42,86 38,10 47,62 47,62 49,06 43,18 45,45 44,12 33,33 38,10 38,10 38,10 41,51 43,18 43,18 41,18 49,06 n 12,90 22,58 12,90 12,90 13,92 13,85 21,54 24,49 32,26 29,03 3,23 3,23 12,66 20,00 6,15 24,49 32,26 o 27,91 48,84 46,51 46,51 51,22 44,85 55,51 60,29 24,81 47,29 46,51 46,51 50,91 41,91 54,04 60,29 60,29 O 43,24 67,57 62,16 62,16 63,16 69,62 60,76 70,49 56,76 81,08 75,68 75,68 85,26 81,01 77,22 85,25 85,26 r 71,43 71,43 71,43 71,43 62,50 58,33 75,00 71,43 71,43 71,43 71,43 71,43 68,75 58,33 58,33 57,14 75,00 s 30,81 48,11 43,24 43,24 44,70 47,84 30,53 29,04 35,14 56,76 43,78 43,78 43,43 43,77 33,59 33,66 56,76 t 30,00 36,67 50,00 50,00 48,00 55,74 81,97 75,56 33,33 33,33 33,33 33,33 52,00 54,10 0,00 6,67 81,97 u 62,50 69,64 73,21 73,21 74,13 87,39 92,44 94,51 62,50 69,64 73,21 73,21 73,43 87,39 92,44 94,51 94,51 v 28,57 57,14 71,43 71,43 62,16 58,06 67,74 66,67 28,57 50,00 57,14 57,14 48,65 58,06 58,06 62,50 71,43 z 68,75 68,75 68,75 68,75 78,57 73,53 29,41 84,62 68,75 75,00 75,00 75,00 80,95 73,53 35,29 92,31 92,31 Resultado global para cenários 46,79 58,44 59,77 59,77 61,10 59,84 59,59 64,86 47,49 55,24 54,90 54,90 58,44 59,74 52,73 56,53 Tabela 3.7: Taxas de acerto para cada cenário e cada fonema de teste com centróides calculados com base na tabela 3.3 Valor máximo

38 32 Comparando os resultados das tabelas 3.6 e 3.7, pode-se observar que ocorreu um aumento não muito significativo na taxa de acerto para os cenários que utilizam a média no cálculo dos centróides (veja, figura 3.5). Esse aumento, porém, implicou em uma diminuição muito mais significativa na taxa de acerto para o fonema silêncio (figura 3.6). Comparação de resultados globais 65,00 centróide calculados de acordo com os cenários centróides calculados diferenciadamente para fonemas específicos 63,00 61,00 59,00 57,00 55,00 53,00 51,00 49,00 47,00 45, Cenário Figura 3.5: Gráfico comparativo de resultados globais.

39 33 Comparação de resultados para # 110,00 centróides calculados de acordo com os cenários centróides calculados diferenciadamente para fonemas específicos 100,00 90,00 80,00 70,00 60,00 50,00 40,00 30,00 20,00 10, Cenário Figura 3.6: Gráfico comparativo de desempenho para silêncio (#) APLICAÇÃO 3: REGIÕES DEFINIDAS POR MÚLTIPLOS DO DESVIO PADRÃO Esta terceira aplicação baseia-se na criação de regiões, que delimitem os valores dos coeficientes dos vetores de teste. Assim, se um vetor de teste se enquadrar em uma determinada região referente ao fonema a, então se pode dizer, primariamente, que ele é um a. Existem, porém, casos em que um único vetor de teste se enquadra em duas ou mais regiões e, nestes casos o critério de menor distância euclideana é utilizado. As regiões foram definidas por múltiplos do desvio padrão conforme ilustra a figura 3.7. Nessa figura, a região foi calculada para o fonema E e mostra o vetor

40 34 centróide, com valores de coeficientes delimitados pelas linhas pontilhadas e tracejadas. A região hachurada dessa figura é limitada pelos vetores: Região = centróide +- 3 * desvio padrão. De um modo geral, a região pode ser definida como: Região = centróide +- k * desvio padrão Para um valor de constante k=3, teríamos então, para uma distribuição normal, que cerca de 99,7% dos coeficientes estariam dentro da região delimitada pelas linhas tracejadas. Figura 3.7: Figura ilustrativa das regiões de classificação. Para verificação do funcionamento da aplicação, calcularam-se as taxas de acerto para os cenários dispostos na tabela 3.3 utilizando parâmetros Mel-Cepstrais com 20 filtros e uma constante k=3 e k=3.5. Os resultados estão dispostos na figura 3.8, onde, para uma melhor análise dos resultados, preocupou-se apenas com os cenários que obtiveram resultados acima de 58%.

41 35 Comparação de resultados globais 63,00 centróides calculados de acordo com os cenários regiões - k=3 regiões - k=3,5 62,50 62,00 61,50 61,00 60,50 60,00 59,50 59,00 58,50 58, Cenário Figura 3.8: Comparação de resultados globais para constante k=3 e 3,5. Pode-se observar que aliando o critério da distância euclideana às regiões delimitadas por múltiplos do desvio padrão obteve-se uma melhoria dos resultados globais do sistema. Isso implica que um único coeficiente fora da região diminui a probabilidade da menor distância euclideana ser a mais adequada. Esta aplicação poderia ser melhorada pelo estudo e definição de regiões baseadas em funções de densidade de probabilidade definidas individualmente para cada coeficiente, pois a distribuição estatística de determinados coeficientes não é normal, conforme será mostrado na aplicação 4. Em outras palavras, a região centróide +- k x desvio_padrão, se enquadra bem para distribuições normais, porém para outras distribuições pode não ser a mais adequada.

42 APLICAÇÃO 4: PONDERAÇÃO DE DISTÂNCIA EUCLIDEANA POR REGIÕES BASEADAS EM HISTOGRAMAS Nesta aplicação, ao invés de definir regiões delimitadas por valores de desvio padrão, optou-se pela ponderação da distância euclideana pelo histograma estatístico de cada coeficiente. A figura 3.9 mostra o histograma do primeiro coeficiente do vetor de parâmetros para o fonema a. 25 Valores absolutos ao longo dos quadros valor do primeiro coeficiente quadros de treino 50 Histograma do primeiro coeficiente Ocorrencia do valor centros das regioes Figura 3.9: Histograma do primeiro coeficiente ao longo dos quadros da letra a. A figura 3.10 ilustra a disposição das regiões de ponderação de uma das matrizes de coeficientes computadas. Cada linha pontilhada delimita a fronteira de uma região e para cada região, tem-se um valor de ponderação baseada na ocorrência.

3 Os Atributos MFCC e PNCC do Sinal de Voz

3 Os Atributos MFCC e PNCC do Sinal de Voz 3 Os Atributos MFCC e PNCC do Sinal de Voz No sinal de voz incorporam-se informações importantes do falante, que são altamente perceptíveis, tais como, dialeto, contexto, estilo de falar, estado emocional,

Leia mais

Processamento de Som com Escala de Mel para Reconhecimento de Voz

Processamento de Som com Escala de Mel para Reconhecimento de Voz PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO DE JANEIRO DEPARTAMENTO DE INFORMÁTICA Processamento de Som com Escala de Mel para Reconhecimento de Voz INF2608 FUNDAMENTOS DE COMPUTAÇÃO GRÁFICA Professor: Marcelo

Leia mais

3 Identificação de Locutor Usando Técnicas de Múltiplos Classificadores em Sub-bandas Com Pesos Não-Uniformes

3 Identificação de Locutor Usando Técnicas de Múltiplos Classificadores em Sub-bandas Com Pesos Não-Uniformes 3 Identificação de Locutor Usando Técnicas de Múltiplos Classificadores em Sub-bandas Com Pesos Não-Uniformes Neste capítulo, é apresentada uma nova proposta de combinação de múltiplos classificadores

Leia mais

Parâmetros importantes de um Analisador de Espectros: Faixa de frequência. Exatidão (frequência e amplitude) Sensibilidade. Resolução.

Parâmetros importantes de um Analisador de Espectros: Faixa de frequência. Exatidão (frequência e amplitude) Sensibilidade. Resolução. Parâmetros importantes de um Analisador de Espectros: Faixa de frequência Exatidão (frequência e amplitude) Sensibilidade Resolução Distorção Faixa dinâmica Faixa de frequência: Determina as frequências

Leia mais

RECONHECIMENTO DE FALANTE

RECONHECIMENTO DE FALANTE MARCOS PAULO RIKI YANASE RECONHECIMENTO DE FALANTE Trabalho da disciplina de Processamento Digital de Sinais do curso de Engenharia Elétrica, Setor de Tecnologia da Universidade Federal do Paraná. Prof.

Leia mais

Analisador de espectros por FFT

Analisador de espectros por FFT Analisador de espectros por FFT A transformada de Fourier (FT) é uma ferramenta matemática utilizada essencialmente para decompor ou separar uma função ou forma de onda em senóides de diferentes frequências

Leia mais

Cepstrum. Walter Roberto Godefroid Steiger

Cepstrum. Walter Roberto Godefroid Steiger Walter Roberto Godefroid Steiger Cepstrum Trabalho apresentado como parte da avaliação da disciplina Processamento Digital de Sinais, do Departamento de Engenharia elétrica da Universidade Federal do Paraná.

Leia mais

Transformada Discreta de Fourier

Transformada Discreta de Fourier Processamento Digital de Sinais Transformada Discreta de Fourier Prof. Dr. Carlos Alberto Ynoguti Jean Baptiste Joseph Fourier Nascimento: 21 de março de 1768 em Auxerre, Bourgogne, França Morte: 16 de

Leia mais

Sumário. 1 Sinais e sistemas no tempo discreto 1. 2 As transformadas z e de Fourier 79

Sumário. 1 Sinais e sistemas no tempo discreto 1. 2 As transformadas z e de Fourier 79 Sumário 1 Sinais e sistemas no tempo discreto 1 1.1 Introdução 1 1.2 Sinais no tempo discreto 2 1.3 Sistemas no tempo discreto 7 1.3.1 Linearidade 8 1.3.2 Invariância no tempo 8 1.3.3 Causalidade 9 1.3.4

Leia mais

Introdução a aquisição e processamento de sinais

Introdução a aquisição e processamento de sinais TAPS Introdução a aquisição e processamento de sinais Prof. Theo Z. Pavan Departamento de Física - Faculdade de Filosofia, Ciências e Letras de Ribeirão Preto-USP Roteiro Aquisição de sinais e frequência

Leia mais

Transformada Discreta de Fourier

Transformada Discreta de Fourier Processamento Digital de Sinais Transformada Discreta de Fourier Prof. Dr. Carlos Alberto Ynoguti Jean Baptiste Joseph Fourier Nascimento: 21 de março de 1768 em Auxerre, Bourgogne, França Morte: 16 de

Leia mais

3 Reconhecimento de Voz Distribuído

3 Reconhecimento de Voz Distribuído 3 Reconhecimento de Voz Distribuído O conceito de reconhecimento de voz distribuído (DSR Distributed Speech Recognition) foi desenvolvido como uma forma eficiente de transladar a tecnologia de reconhecimento

Leia mais

A codificação primária é a representação digital de um canal de voz, sem a inclusão de bits de sincronismo e de verificação de paridade.

A codificação primária é a representação digital de um canal de voz, sem a inclusão de bits de sincronismo e de verificação de paridade. A codificação primária é a representação digital de um canal de voz, sem a inclusão de bits de sincronismo e de verificação de paridade. 50 8.1. Formas de representação digital do sinal de voz Há várias

Leia mais

Filtros Digitais. Filtros básicos, parâmetros no domínio do tempo e frequência, classificação de filtros

Filtros Digitais. Filtros básicos, parâmetros no domínio do tempo e frequência, classificação de filtros Filtros Digitais Filtros básicos, parâmetros no domínio do tempo e frequência, classificação de filtros Filtros são usados basicamente para dois propósitos: Separação de sinais combinados; Restauração

Leia mais

Figura 1 Sinais e Transformadas de Fourier (HAYKIN; VAN VEEN, 2001).

Figura 1 Sinais e Transformadas de Fourier (HAYKIN; VAN VEEN, 2001). Processamento Digital de Sinais Aula 3 Professor Marcio Eisencraft março 22 Aula 3 TFD: Transformada de Fourier Discreta Bibliografia OPPEHEIM, A. V.; SCHAFER, R W.; BUCK, J. R. Discrete-time signal processing,

Leia mais

Modulação SSB e Transmissão Digital

Modulação SSB e Transmissão Digital Modulação SSB e Transmissão Digital 1 Modulação em SSB Vimos que na modulação AM, a portadora é mantida e o sinal modulante produz dois sinais laterais com a informação que estamos transmitindo. Fig. 1

Leia mais

Processamento Digital de Sinais:

Processamento Digital de Sinais: Processamento Digital de Sinais: Conceitos e Aplicações Joseana Macêdo Fechine Régis de Araújo IC-DSC-UFCG 1 Por que estudar PDS? 2 PDS Conceitos Básicos Sinais Padrões de variações que representam uma

Leia mais

4 Resultados de Simulação e Avaliação das Técnicas Utilizadas para o Reconhecimento de Locutor Independente do Texto em Presença de Ruído

4 Resultados de Simulação e Avaliação das Técnicas Utilizadas para o Reconhecimento de Locutor Independente do Texto em Presença de Ruído 4 Resultados de Simulação e Avaliação das Técnicas Utilizadas para o Reconhecimento de Locutor Independente do Texto em Presença de Ruído Neste capítulo serão apresentadas, avaliadas e comparadas as técnicas

Leia mais

SEL Processamento Digital de Imagens Médicas. Aula 4 Transformada de Fourier. Prof. Dr. Marcelo Andrade da Costa Vieira

SEL Processamento Digital de Imagens Médicas. Aula 4 Transformada de Fourier. Prof. Dr. Marcelo Andrade da Costa Vieira SEL 0449 - Processamento Digital de Imagens Médicas Aula 4 Transformada de Fourier Prof. Dr. Marcelo Andrade da Costa Vieira mvieira@sc.usp.br Jean Baptiste Joseph Fourier 2 Exemplo: Função Degrau 3 Exemplo:

Leia mais

7 Extração de Dados Quantitativos

7 Extração de Dados Quantitativos Capítulo 7 - Extração de Dados Quantitativos 119 7 Extração de Dados Quantitativos A técnica de medição desenvolvida e descrita nos capítulos anteriores produz como resultado a variação temporal da espessura

Leia mais

Um Ambiente para Processamento Digital de Sinais Aplicado à Comunicação Vocal Homem-Máquina

Um Ambiente para Processamento Digital de Sinais Aplicado à Comunicação Vocal Homem-Máquina Um Ambiente para Processamento Digital de Sinais Aplicado à Comunicação Vocal Homem-Máquina Márcio G. Passos e Patric L. Silva marcio_passos@yahoo.com.br e lacouth@gmail.com Silvana Luciene do N. Cunha

Leia mais

1 O esquema de Alamouti: Diversidade na transmissão

1 O esquema de Alamouti: Diversidade na transmissão 1 O esquema de Alamouti: Diversidade na transmissão 1.1 O Caso de uma antena receptora A Figura?? mostra a representação em banda básica do esquema de Alamouti com diversidade na transmissão. O esquema

Leia mais

Introdução a filtros digitais. Theo Pavan e Adilton Carneiro TAPS

Introdução a filtros digitais. Theo Pavan e Adilton Carneiro TAPS Introdução a filtros digitais Theo Pavan e Adilton Carneiro TAPS Filtro anti-aliasing Com um sinal já digitalizado não é possível distinguir entre uma frequência alias e uma frequência que realmente esteja

Leia mais

Transformada de Discreta de Co senos DCT

Transformada de Discreta de Co senos DCT Transformada de Discreta de Co senos DCT O primeiro passo, na maioria dos sistemas de compressão de imagens e vídeo, é identificar a presença de redundância espacial (semelhança entre um pixel e os pixels

Leia mais

Transformada de Fourier. Theo Pavan e Adilton Carneiro TAPS

Transformada de Fourier. Theo Pavan e Adilton Carneiro TAPS Transformada de Fourier Theo Pavan e Adilton Carneiro TAPS Análise de Fourier Análise de Fourier - representação de funções por somas de senos e cossenos ou soma de exponenciais complexas Uma análise datada

Leia mais

Aula de Processamento de Sinais I.B De Paula. Tipos de sinal:

Aula de Processamento de Sinais I.B De Paula. Tipos de sinal: Tipos de sinal: Tipos de sinal: Determinístico:Sinais determinísticos são aqueles que podem ser perfeitamente reproduzidos caso sejam aplicadas as mesmas condições utilizadas sua geração. Periódico Transiente

Leia mais

DESENVOLVIMENTO DO MÓDULO DE PRÉ-ENFASE PARA SISTEMAS DE RECONHECIMENTO AUTOMÁTICO DE VOZ EM FPGA

DESENVOLVIMENTO DO MÓDULO DE PRÉ-ENFASE PARA SISTEMAS DE RECONHECIMENTO AUTOMÁTICO DE VOZ EM FPGA DESENVOLVIMENTO DO MÓDULO DE PRÉ-ENFASE PARA SISTEMAS DE RECONHECIMENTO AUTOMÁTICO DE VOZ EM FPGA Autor 1 Autor 2 Autor 3 Abstract. O reconhecimento automático de voz tem sido o foco de muitos trabalhos

Leia mais

Métodos Matemáticos e Computacionais em Música

Métodos Matemáticos e Computacionais em Música Métodos Matemáticos e Computacionais em Música Luiz Velho, Paulo Cesar Carvalho, Sergio Krakowski, Marcelo Cicconet IMPA Processamento de Sinais Sonoros Luiz Velho Som - Sinal 1 D Música e Som Musica

Leia mais

Aula 22. Conversão Sigma-Delta (continuação)

Aula 22. Conversão Sigma-Delta (continuação) Aula 22 Conversão Sigma-Delta (continuação) A estrutura mostrada na figura A.22.1 é chamado modulador Sigma-Delta (Σ- ). Esta estrutura, além de ser mais simples, pode ser considerada como uma versão suavizada

Leia mais

Estimação da Resposta em Frequência

Estimação da Resposta em Frequência 27 Estimação da Resposta em Frequência ω = ω ω Objectivo: Calcular a magnitude e fase da função de transferência do sistema, para um conjunto grande de frequências. A representação gráfica deste conjunto

Leia mais

3 Extração de Atributos

3 Extração de Atributos 3 Extração de Atributos o capítulo 2, a sequência de vetores O = {O 1, O 2,, O T } representa as informações (também chamadas de atributos) extraídas do sinal de voz. ada foi dito sobre como encontrá-las.

Leia mais

Curso de Engenharia Elétrica Processamento Digital de Sinais II Exercícios sobre filtros não recursivos Data de entrega: 17/11/2015

Curso de Engenharia Elétrica Processamento Digital de Sinais II Exercícios sobre filtros não recursivos Data de entrega: 17/11/2015 Curso de Engenharia Elétrica Processamento Digital de Sinais II Exercícios sobre filtros não recursivos Data de entrega: 17/11/2015 1) Projete um filtro FIR passa baixas de 3 etapas com frequência de corte

Leia mais

Processamento Digital de Imagens

Processamento Digital de Imagens Ciência da Computação Processamento Digital de Imagens Prof. Sergio Ribeiro Tópicos Introdução Espectro Eletromagnético Aquisição e Digitalização de Imagens Efeitos da Digitalização Digitalização Sensoriamento

Leia mais

4 Robustez do Reconhecimento de Voz

4 Robustez do Reconhecimento de Voz 4 Robustez do Reconhecimento de Voz Nos capítulos anteriores foram apresentados a teoria e o funcionamento das etapas que conformam o sistema de reconhecimento de voz contínua. No entanto, se o que se

Leia mais

Processamento Digital de Imagens

Processamento Digital de Imagens 1 Ciência da Computação Processamento Digital de Imagens Prof. Sergio Ribeiro Tópicos Introdução Espectro Eletromagnético Aquisição e de Imagens Sensoriamento Remoto 2 Introdução Espectro Eletromagnético

Leia mais

Síntese de Sinais de Voz pelo Processo AR(p)

Síntese de Sinais de Voz pelo Processo AR(p) UFCG Universidade Federal de Campina Grande CEEI Centro de Engenharia Elétrica e Informática DEE Departamento de Engenharia Elétrica Disciplina: Processos Estocásticos Professor: Wamberto José Lira de

Leia mais

p.1/48 Eduardo Mendes Departamento de Engenharia Eletrônica Universidade Federal de Minas Gerais Av. Antônio Carlos 6627, Belo Horizonte, MG, Brasil

p.1/48 Eduardo Mendes Departamento de Engenharia Eletrônica Universidade Federal de Minas Gerais Av. Antônio Carlos 6627, Belo Horizonte, MG, Brasil p1/48 Capítulo 4 - Métodos ão Paramétricos Eduardo Mendes Departamento de Engenharia Eletrônica Universidade Federal de Minas Gerais Av Antônio Carlos 27, elo Horizonte, MG, rasil p2/48 Introdução Os métodos

Leia mais

4 Técnica de Combinação de Medidas de Verossimilhança Baseada no Espaço Nulo

4 Técnica de Combinação de Medidas de Verossimilhança Baseada no Espaço Nulo 4 Técnica de Combinação de Medidas de Verossimilhança Baseada no Espaço Nulo Neste capítulo, é apresentada uma outra proposta que combina as respostas dos múltiplos classificadores em sub-bandas, cujo

Leia mais

Osciloscópio Digital. Diagrama em blocos:

Osciloscópio Digital. Diagrama em blocos: Osciloscópio Digital Neste tipo de osciloscópio, o sinal analógico de entrada é inicialmente convertido para o domínio digital através de um conversor A/D rápido, sendo em seguida armazenado em uma memória

Leia mais

Processamento Digital de Imagens

Processamento Digital de Imagens Ciência da Computação Processamento Digital de Imagens Tópicos Detecção de Pontos Isolados Detecção de Linhas Prof. Sergio Ribeiro 2 Operações lógicas e aritméticas orientadas a vizinhança utilizam o conceito

Leia mais

Processamento de sinais digitais

Processamento de sinais digitais Processamento de sinais digitais Aula 2: Descrição discreta no tempo de sinais e sistemas silviavicter@iprj.uerj.br Tópicos Sequências discretas no tempo. Princípio da superposição para sistemas lineares.

Leia mais

TE073 PDS II Programa de Graduação em Engenharia Elétrica

TE073 PDS II Programa de Graduação em Engenharia Elétrica TE073 PDS II Programa de Graduação em Engenharia Elétrica Prof. Alessandro Zimmer zimmer@eletrica.ufpr.br www.eletrica.ufpr.br/~zimmer/te073 Processamento Digital de Imagens PDI: Segmentação Os algoritmos

Leia mais

Instrumentação Industrial. Fundamentos de Instrumentação Industrial: Introdução a Metrologia Incerteza na Medição

Instrumentação Industrial. Fundamentos de Instrumentação Industrial: Introdução a Metrologia Incerteza na Medição Instrumentação Industrial Fundamentos de Instrumentação Industrial: Introdução a Metrologia Incerteza na Medição Introdução a Metrologia O que significa dizer: O comprimento desta régua é 30cm. A temperatura

Leia mais

Aprendizado de Máquina (Machine Learning)

Aprendizado de Máquina (Machine Learning) Ciência da Computação (Machine Learning) Aula 02 Representação dos dados Pré-processamento Max Pereira Tipo de Dados Os atributos usados para descrever objetos de dados podem ser de diferentes tipos: Quantitativos

Leia mais

Transformada de Fourier: fundamentos matemáticos, implementação e aplicações musicais

Transformada de Fourier: fundamentos matemáticos, implementação e aplicações musicais Transformada de Fourier: fundamentos matemáticos, implementação e aplicações musicais MAC 0337 Computação Musical Jorge H. Neyra-Araoz IME USP 22/11/2007 Resumo Série de Fourier para funções periódicas

Leia mais

Revisão Análise em frequência e amostragem de sinais. Hilton de Oliveira Mota

Revisão Análise em frequência e amostragem de sinais. Hilton de Oliveira Mota Revisão Análise em frequência e amostragem de sinais Hilton de Oliveira Mota Introdução Análise em frequência (análise espectral): Descrição de quais frequências compõem um sinal. Por quê? Senóides são

Leia mais

Aula 6 PS Prof. César Janeczko. Filtros Digitais

Aula 6 PS Prof. César Janeczko. Filtros Digitais Aula 6 PS Prof. César Janeczko Filtros Digitais Filtros digitais são usados em geral para dois propósitos: 1 o separação de sinais que foram combinados, por exemplo, modulados; 2 o restauração de sinais

Leia mais

4 Método Proposto Visão geral do Método

4 Método Proposto Visão geral do Método 52 4 Método Proposto Neste trabalho é sugerida uma nova metodologia para compressão de dados sísmicos volumétricos. O método proposto é baseado no uso da transformada wavelet 3D. Também será apresentado

Leia mais

Resumo. Filtragem Adaptativa. Filtros adaptativos. Tarefas desempenhadas pelos filtros

Resumo. Filtragem Adaptativa. Filtros adaptativos. Tarefas desempenhadas pelos filtros Resumo Filtragem Adaptativa Luís Caldas de Oliveira lco@istutlpt Instituto Superior Técnico Sistemas de filtragem adaptativa Conceitos de filtragem adaptativa Filtro de Wiener Algoritmo steepest descent

Leia mais

3 SÍTIOS DE MEDIDAS E PRÉ-PROCESSAMENTO DE DADOS

3 SÍTIOS DE MEDIDAS E PRÉ-PROCESSAMENTO DE DADOS 3 SÍTIOS DE MEDIDAS E PRÉ-PROCESSAMENTO DE DADOS 3.1. Características dos enlaces O estudo apresentado nesta tese utilizou dados de medidas de atenuação por chuvas em enlaces terrestres e via satélite,

Leia mais

O processo de filtragem de sinais pode ser realizado digitalmente, na forma esquematizada pelo diagrama apresentado a seguir:

O processo de filtragem de sinais pode ser realizado digitalmente, na forma esquematizada pelo diagrama apresentado a seguir: Sistemas e Sinais O processo de filtragem de sinais pode ser realizado digitalmente, na forma esquematizada pelo diagrama apresentado a seguir: 1 Sistemas e Sinais O bloco conversor A/D converte o sinal

Leia mais

Introdução FILTRAGEM NO DOMÍNIO DA FREQUÊNCIA

Introdução FILTRAGEM NO DOMÍNIO DA FREQUÊNCIA FILTRAGEM NO DOMÍNIO DA FREQUÊNCIA Introdução Um sinal no domínio do espaço (x,y) pode ser aproximado através de uma soma de senos e cossenos com frequências (f, f2, f3,...fn) de amplitudes (a, a2,...

Leia mais

DETERMINAÇÃO DO GÊNERO DO LOCUTOR USANDO A TRANSFORMADA RÁPIDA DE FOURIER

DETERMINAÇÃO DO GÊNERO DO LOCUTOR USANDO A TRANSFORMADA RÁPIDA DE FOURIER Revista Ciências Exatas ISSN: 1516-893 Vol. 1 Nº. Ano 015 Natanael M. Gomes Universidade de Taubaté Marcio Abud Marcelino Universidade Estadual Paulista Universidade de Taubaté Francisco José Grandinetti

Leia mais

O áudio. O áudio. O áudio Wilson de Pádua Paula Filho 1. Propriedades físicas do som Representação digital do som Processamento digital de som

O áudio. O áudio. O áudio Wilson de Pádua Paula Filho 1. Propriedades físicas do som Representação digital do som Processamento digital de som O áudio O áudio Representação digital do som Processamento digital de som As vibrações sonoras: propagam-se como ondas de pressão atmosférica; convertidas em sinais elétricos por transdutores; transdutores

Leia mais

Estimação da Resposta em Frequência

Estimação da Resposta em Frequência 27 Estimação da Resposta em Frequência jω Ge ( ) = jω Ye ( ) jω Ue ( ) Objectivo: Calcular a magnitude e fase da função de transferência do sistema, para um conjunto grande de frequências. A representação

Leia mais

Disciplina: Processamento Estatístico de Sinais (ENGA83) - Aula 02 / Processos Aleatórios

Disciplina: Processamento Estatístico de Sinais (ENGA83) - Aula 02 / Processos Aleatórios Disciplina: Processamento Estatístico de Sinais (ENGA83) - Aula 02 / Processos Aleatórios Prof. Eduardo Simas (eduardo.simas@ufba.br) Programa de Pós-Graduação em Engenharia Elétrica/PPGEE Universidade

Leia mais

ESTUDO DE ALGORITMO DE SEGMENTAÇÃO DE FALA

ESTUDO DE ALGORITMO DE SEGMENTAÇÃO DE FALA ESTUDO DE ALGORITMO DE SEGMENTAÇÃO DE FALA Vinicius de Souza 1, Marcelo de Oliveira Rosa 2 1,2 Departamento Acadêmico de Eletrotécnica Campus Curitiba Universidade Tecnológica Federal do Paraná - UTFPR

Leia mais

Processamento Digital de Sinais. Notas de Aula. Análise Espectral Usando a DFT

Processamento Digital de Sinais. Notas de Aula. Análise Espectral Usando a DFT Análise Espectral Análise Espectral Análise Espectral Usando a DFT Processamento Digital de Sinais Notas de Aula Análise Espectral Usando a DFT Uma das principais aplicações da DFT é a análise do conteúdo

Leia mais

MÁSCARAS DE ÁUDIO PARA EMULAÇÃO DE VOZ

MÁSCARAS DE ÁUDIO PARA EMULAÇÃO DE VOZ MÁSCARAS DE ÁUDIO PARA EMULAÇÃO DE VOZ Acadêmico: Marcos Rodrigo da Silva Orientador: Paulo César Rodacki Gomes Sumário 2 Introdução Objetivo Fundamentação teórica Conceitos básicos Contexto atual do tema

Leia mais

TE060 Princípios de Comunicação. Sistemas de Comunicação Digital Notes. Por quê Digital? Notes. Notes. Evelio M. G. Fernández. 5 de novembro de 2013

TE060 Princípios de Comunicação. Sistemas de Comunicação Digital Notes. Por quê Digital? Notes. Notes. Evelio M. G. Fernández. 5 de novembro de 2013 TE060 Princípios de Comunicação Modulação de Pulso 5 de novembro de 2013 Sistemas de Comunicação Digital Sistema digital no sentido de utilizar uma sequência de símbolos pertencentes a um conjunto finito

Leia mais

Redes de Computadores

Redes de Computadores Introdução Redes de Computadores Transmissão de Informações nálise de Sinais ula 03 camada de nível físico define Características físicas das interfaces e dos meios (ex. conectores, pinagem, semântica

Leia mais

Processamento de dados sísmicos, reflexão multi canal Prospecção Sísmica Aula06/1 NN

Processamento de dados sísmicos, reflexão multi canal Prospecção Sísmica Aula06/1 NN 2014 Prospecção Sísmica Aula06/1 NN 2014 Prospecção Sísmica Aula06/2 NN Transformadas Fourier no tempo Fourier no espaço Fourier no espaço e tempo Laplace no tempo Radon tau-p no espaço e tempo 2014 Prospecção

Leia mais

Licenciatura em Engenharia Biomédica. Faculdade de Ciências e Tecnologia. Universidade de Coimbra. Análise e Processamento de Bio-Sinais - MIEBM

Licenciatura em Engenharia Biomédica. Faculdade de Ciências e Tecnologia. Universidade de Coimbra. Análise e Processamento de Bio-Sinais - MIEBM Licenciatura em Engenharia Biomédica Faculdade de Ciências e Tecnologia Slide Slide 1 1 Tópicos: Representações de Fourier de Sinais Compostos Introdução Transformada de Fourier de Sinais Periódicos Convolução

Leia mais

RESTAURAÇÃO E RECONSTRUÇÃO DE IMAGENS. Nielsen Castelo Damasceno

RESTAURAÇÃO E RECONSTRUÇÃO DE IMAGENS. Nielsen Castelo Damasceno RESTAURAÇÃO E RECONSTRUÇÃO DE IMAGENS Nielsen Castelo Damasceno Restauração de imagem Procura recuperar uma imagem corrompida com base em um conhecimento a priori do fenômeno de degradação. Restauração

Leia mais

Espaço de Fourier. Processamento de Imagens Médicas. Prof. Luiz Otavio Murta Jr. Depto. de Física e Matemática (FFCLRP/USP)

Espaço de Fourier. Processamento de Imagens Médicas. Prof. Luiz Otavio Murta Jr. Depto. de Física e Matemática (FFCLRP/USP) Processamento de Imagens Médicas Espaço de Fourier Prof. Luiz Otavio Murta Jr. Depto. de Física e Matemática FFCLRP/USP Teorema da Amostragem quist. - O teorema da amostragem de quist diz que devemos amostrar

Leia mais

TRANSFORMADA DE FOURIER EM TEMPO DISCRETO (DTFT) E TRANSFORMADA DISCRETA DE FOURIER (DFT) Larissa Driemeier

TRANSFORMADA DE FOURIER EM TEMPO DISCRETO (DTFT) E TRANSFORMADA DISCRETA DE FOURIER (DFT) Larissa Driemeier TRANSFORMADA DE FOURIER EM TEMPO DISCRETO (DTFT) E TRANSFORMADA DISCRETA DE FOURIER (DFT) Larissa Driemeier LIVRO TEXTO Essa aula é baseada nos livros: [1] [2] INTRODUCTION TO Signal Processing Sophocles

Leia mais

Estudando com o MATLAB

Estudando com o MATLAB Estudando com o MATLAB Curso de Extensão Docentes: > Fabiano Araujo Soares > Marcelino M. de Andrade Monitor: >Luan Felipe Aula 4: Aplicações - Parte II 1ª Parte - Estatística Aula 4-1ª Parte: Estatística

Leia mais

étodos uméricos SISTEMAS DE EQUAÇÕES LINEARES (Continuação) Prof. Erivelton Geraldo Nepomuceno PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA

étodos uméricos SISTEMAS DE EQUAÇÕES LINEARES (Continuação) Prof. Erivelton Geraldo Nepomuceno PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA étodos uméricos SISTEMAS DE EQUAÇÕES LINEARES (Continuação) Prof. Erivelton Geraldo Nepomuceno PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA UNIVERSIDADE DE JOÃO DEL-REI PRÓ-REITORIA DE PESQUISA CENTRO

Leia mais

Análise e Previsão de Séries Temporais Aula 1: Introdução às séries temporais. Eraylson Galdino

Análise e Previsão de Séries Temporais Aula 1: Introdução às séries temporais. Eraylson Galdino Análise e Previsão de Séries Temporais Aula 1: Introdução às séries temporais egs@cin.ufpe.br Agenda Séries Temporais: Definições Exemplos Modelos simples com média zero: Ruído I.I.D Processo Binário Random

Leia mais

CLASSES DE SONS (AGRUPAMENTO DE SONS QUE PARTILHAM

CLASSES DE SONS (AGRUPAMENTO DE SONS QUE PARTILHAM Rita Veloso FLUL 1 de 10 CLASSES DE SONS (AGRUPAMENTO DE SONS QUE PARTILHAM DETERMINADAS PROPRIEDADES) MODO DE ARTICULAÇÃO (MA) Classificação dos sons quanto à forma como são produzidos, i.e., em função

Leia mais

2 Reconhecimento Automático De Locutor

2 Reconhecimento Automático De Locutor 2 Reconhecimento Automático De Locutor A voz é o produto resultante de uma sequência complexa de transformações que ocorrem em diferentes níveis, quais sejam: semântico, linguístico, articulatório e acústico.

Leia mais

Projeto de Filtros FIR

Projeto de Filtros FIR Projeto de Filtros FIR Estudaremos três técnicas de projeto de filtros FIR de fase linear: Método de Janelas: baseado no janelamento da resposta ao impulso de um filtro ideal; Método da Amostragem em Frequência:

Leia mais

Uma aplicação importante dos métodos de processamento digital de sinais é na determinação do conteúdo em frequência de um sinal contínuo

Uma aplicação importante dos métodos de processamento digital de sinais é na determinação do conteúdo em frequência de um sinal contínuo Análise Espectral Uma aplicação importante dos métodos de processamento digital de sinais é na determinação do conteúdo em frequência de um sinal contínuo Análise espectral: determinação do espectro de

Leia mais

Amostragem. Representação com FT para Sinais Periódicos Relacionando a FT com a FS Amostragem Amostrando Sinais de Tempo Contínuo.

Amostragem. Representação com FT para Sinais Periódicos Relacionando a FT com a FS Amostragem Amostrando Sinais de Tempo Contínuo. Amostragem Representação com FT para Sinais Periódicos Relacionando a FT com a FS Amostragem Amostrando Sinais de Tempo Contínuo Amostragem 1 Representação com FT para Sinais Periódicos A representação

Leia mais

A análise de séries temporais é uma área da estatística dedicada ao estudo de dados orientados no tempo (MONTGOMERY, 2004).

A análise de séries temporais é uma área da estatística dedicada ao estudo de dados orientados no tempo (MONTGOMERY, 2004). 3 Séries temporais A análise de séries temporais é uma área da estatística dedicada ao estudo de dados orientados no tempo (MONTGOMERY, 2004). 3.1. Princípios fundamentais Conforme Box et al. (1994), uma

Leia mais

Complexidade Computacional do Algoritmo de Detecção de Energia

Complexidade Computacional do Algoritmo de Detecção de Energia 4 Simulações Este capítulo apresenta a comparação e avaliação dos algoritmos que foram apresentados no capítulo anterior. O primeiro resultado apresentado é a comparação da complexidade computacional dos

Leia mais

Conceitos Básicos de Áudio Digital

Conceitos Básicos de Áudio Digital Aula 07 Conceitos Básicos de Áudio Digital Diogo Pinheiro Fernandes Pedrosa Universidade Federal do Rio Grande do Norte Departamento de Ciências Exatas e Naturais Ciência da Computação Som Conceitos Iniciais

Leia mais

MÉTODO DAS IMAGENS PARA SIMULAÇÃO ACÚSTICA DE PEQUENOS CÔMODOS

MÉTODO DAS IMAGENS PARA SIMULAÇÃO ACÚSTICA DE PEQUENOS CÔMODOS Universidade Federal do Paraná Setor de ecnologia Departamento de Engenharia Elétrica E07 Processamento Digital de Sinais Professor Marcelo de Oliveira Rosa MÉODO DAS IMAGENS PARA SIMULAÇÃO ACÚSICA DE

Leia mais

Série de Fourier. Prof. Dr. Walter Ponge-Ferreira

Série de Fourier. Prof. Dr. Walter Ponge-Ferreira Resposta à Excitação Periódica Série de Fourier Prof. Dr. Walter Ponge-Ferreira E-mail: ponge@usp.br Escola Politécnica da Universidade de São Paulo Departamento de Engenharia Mecânica - PME Av. Prof.

Leia mais

Guiões dos Trabalhos Práticos

Guiões dos Trabalhos Práticos UNIVERSIDADE NOVA DE LISBOA FACULDADE DE CIÊNCIAS E TECNOLOGIA SECÇÃO DE MATERIAIS ELECTROACTIVOS DEPARTAMENTO DE CIÊNCIA DOS MATERIAIS LICENCIATURA EM ENG.ª FÍSICA Acústica Aplicada Guiões dos Trabalhos

Leia mais

Amostragem de Sinais

Amostragem de Sinais UNIVERSIDADE FEDERAL DA PARAÍBA PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA Amostragem de Sinais Prof. Juan Moises Mauricio Villanueva jmauricio@cear.ufpb.br 1 Amostragem (Sampling) Para um sinal

Leia mais

2 Modelo de Sinais. 2.2 Modelo de Comunicação

2 Modelo de Sinais. 2.2 Modelo de Comunicação odelo de Sinais 1 Introdução No presente capítulo é apresentado o modelo de comunicação adotado O modelo matemático de sinais transmitidos por sistemas de transmissão em blocos e mais particularmente para

Leia mais

SUMÁRIO BACKGROUND. Referências 62 MATLAB Seção B: Operações Elementares 62 Problemas 71

SUMÁRIO BACKGROUND. Referências 62 MATLAB Seção B: Operações Elementares 62 Problemas 71 SUMÁRIO BACKGROUND B.l Números Complexos 17 B.l-l Nota Histórica 17 B.I-2 Álgebra de Números Complexos 20 B.2 Senóides 30 B.2-1 Adição de Senóides 31 B.2-2 Senóides em Termos de Exponenciais: A Fórmula

Leia mais

FACULDADE DE TALENTOS HUMANOS DEPARTAMENTO DE ENGENHARIA ELÉTRICA PROCEDIMENTOS EXPERIMENTAIS DE COMUNICAÇÃO DIGITAL II PARA TELECOMUNICAÇÃO

FACULDADE DE TALENTOS HUMANOS DEPARTAMENTO DE ENGENHARIA ELÉTRICA PROCEDIMENTOS EXPERIMENTAIS DE COMUNICAÇÃO DIGITAL II PARA TELECOMUNICAÇÃO FACULDADE DE TALENTOS HUMANOS DEPARTAMENTO DE ENGENHARIA ELÉTRICA PROCEDIMENTOS EXPERIMENTAIS DE COMUNICAÇÃO DIGITAL II PARA TELECOMUNICAÇÃO PROF. ENG. ESP. ANTONIO CARLOS LEMOS JÚNIOR acjunior@facthus.edu.br

Leia mais

7 Conclusões e desenvolvimentos futuros

7 Conclusões e desenvolvimentos futuros 7 Conclusões e desenvolvimentos futuros 7.1 Conclusões Este trabalho apresentou novas soluções para a determinação da posição de terminais de comunicações móveis com base em medidas de ToA. Nos métodos

Leia mais

Características acústicas das vogais e consoantes

Características acústicas das vogais e consoantes Características acústicas das vogais e consoantes APOIO PEDAGÓGICO Prof. Cecília Toledo ceciliavstoledo@gmail. com http://fonologia.org/acustica.php Fonética acústica A Fonética acústica é um ramo da Fonética

Leia mais

Tecnologias de Reabilitação Aplicações de Processamento de Sinal

Tecnologias de Reabilitação Aplicações de Processamento de Sinal Tecnologias de Reabilitação Aplicações de Processamento de Sinal JPT 1 Aparelho Fonador Humano Modelo de Produção da Fala Frequência Fundamental F0 Formantes Sinal de Fala recolha (filtro anti-aliasing,

Leia mais

Processamento digital de imagens

Processamento digital de imagens Processamento digital de imagens Agostinho Brito Departamento de Engenharia da Computação e Automação Universidade Federal do Rio Grande do Norte 22 de março de 2016 Existem tipos de degradações cujo tratamento

Leia mais

Universidade de Pernambuco Escola Politécnica de Pernambuco

Universidade de Pernambuco Escola Politécnica de Pernambuco Universidade de Pernambuco Escola Politécnica de Pernambuco TV Analógica e Digital Codificação de Fonte Prof. Márcio Lima E-mail:marcio.lima@poli.br 12.06.2014 Introdução A principal função de um sistema

Leia mais

INF Fundamentos da Computação Gráfica Professor: Marcelo Gattass Aluno: Rogério Pinheiro de Souza

INF Fundamentos da Computação Gráfica Professor: Marcelo Gattass Aluno: Rogério Pinheiro de Souza INF2608 - Fundamentos da Computação Gráfica Professor: Marcelo Gattass Aluno: Rogério Pinheiro de Souza Trabalho 02 Visualização de Imagens Sísmicas e Detecção Automática de Horizonte Resumo Este trabalho

Leia mais

Sistemas e Sinais. Universidade Federal do Rio Grande do Sul Departamento de Engenharia Elétrica

Sistemas e Sinais. Universidade Federal do Rio Grande do Sul Departamento de Engenharia Elétrica Propriedades das Representações de Fourier Sinais periódicos de tempo contínuo ou discreto têm uma representação por série de Fourier, dada pela soma ponderada de senoides complexas com frequências múltiplas

Leia mais

Prof. Dr. Lucas Barboza Sarno da Silva

Prof. Dr. Lucas Barboza Sarno da Silva Prof. Dr. Lucas Barboza Sarno da Silva Medidas de grandezas físicas Valor numérico e sua incerteza, unidades apropriadas Exemplos: - Velocidade (10,02 0,04) m/s - Tempo (2,003 0,001) µs - Temperatura (273,3

Leia mais

Teoria das Comunicações Prof. André Noll Barreto Prova 1 Gabarito

Teoria das Comunicações Prof. André Noll Barreto Prova 1 Gabarito Prova Gabarito Questão (4 pontos) Um pulso é descrito por: g t = t e t / u t u t, a) Esboce o pulso. Este é um sinal de energia ou de potência? Qual sua energia/potência? (,7 ponto) b) Dado um trem periódico

Leia mais

Teoria das Comunicações

Teoria das Comunicações 1 - Introdução Enlace de um Sistema de Comunicação fonte mensagem transdutor Transmissor Modulador canal ruído receptor transdutor destino mensagem (estimada) sinal de entrada sinal com distorção sinal

Leia mais

Introdução aos Sistemas de Comunicações

Introdução aos Sistemas de Comunicações aos Sistemas de Comunicações Edmar José do Nascimento () http://www.univasf.edu.br/ edmar.nascimento Universidade Federal do Vale do São Francisco Colegiado de Engenharia Elétrica Roteiro 1 Sistemas de

Leia mais

Introdução ao Processamento Digital de Imagens. Aula 6 Propriedades da Transformada de Fourier

Introdução ao Processamento Digital de Imagens. Aula 6 Propriedades da Transformada de Fourier Introdução ao Processamento Digital de Imagens Aula 6 Propriedades da Transformada de Fourier Prof. Dr. Marcelo Andrade da Costa Vieira mvieira@sc.usp.br Uma linha de uma imagem formada por uma sequência

Leia mais

Modos Normais de Vibração. Ressonância num Tubo Fechado

Modos Normais de Vibração. Ressonância num Tubo Fechado Modos Normais de Vibração. Ressonância num Tubo Fechado Prof. Niels Fontes Lima Instituto Federal de Educação, Ciência e Tecnologia da Bahia Determinação da resposta de um tubo fechado em ambas extremidades

Leia mais

Um filtro digital é uma implementação de um filtro através de operações matemáticas aplicadas em um sinal amostrado (e quantizado);

Um filtro digital é uma implementação de um filtro através de operações matemáticas aplicadas em um sinal amostrado (e quantizado); Filtros Digitais Filtros Digitais Um filtro digital é uma implementação de um filtro através de operações matemáticas aplicadas em um sinal amostrado (e quantizado); São usados para dois propósitos básicos:

Leia mais

4 Método Proposto CR AD PA NDVI Descrição geral do modelo

4 Método Proposto CR AD PA NDVI Descrição geral do modelo 34 4 Método Proposto 4.1. Descrição geral do modelo Neste trabalho, cada classe (cobertura vegetal) possui um HMM específico. Os estágios fenológicos correspondem a estados e os símbolos observáveis a

Leia mais