3 Os Atributos MFCC e PNCC do Sinal de Voz

Documentos relacionados
Processamento de Som com Escala de Mel para Reconhecimento de Voz

3 Extração de Atributos

3 Reconhecimento de Voz Distribuído

Parâmetros importantes de um Analisador de Espectros: Faixa de frequência. Exatidão (frequência e amplitude) Sensibilidade. Resolução.

Analisador de espectros por FFT

2 Reconhecimento Automático De Locutor

3 Identificação de Locutor Usando Técnicas de Múltiplos Classificadores em Sub-bandas Com Pesos Não-Uniformes

Curso de Engenharia Elétrica Processamento Digital de Sinais II Exercícios sobre filtros não recursivos Data de entrega: 17/11/2015

Transformada de Fourier Discreta (DFT)

4 Resultados de Simulação e Avaliação das Técnicas Utilizadas para o Reconhecimento de Locutor Independente do Texto em Presença de Ruído

4 Robustez do Reconhecimento de Voz

Comparação entre as técnicas de MFCC e ZCPA para reconhecimento robusto de locutor em ambientes ruidosos

Uma aplicação importante dos métodos de processamento digital de sinais é na determinação do conteúdo em frequência de um sinal contínuo

Processamento Digital de Sinais. Aplicações da DFT. Prof. Dr. Carlos Alberto Ynoguti

Processamento Digital de Sinais. Aplicações da DFT. Prof. Dr. Carlos Alberto Ynoguti

6 Modelo Gamma-Cetuc (GC)

Transformada de Fourier. Theo Pavan e Adilton Carneiro TAPS

7 Extração de Dados Quantitativos

O processo de filtragem de sinais pode ser realizado digitalmente, na forma esquematizada pelo diagrama apresentado a seguir:

Processamento de dados sísmicos, reflexão multi canal Prospecção Sísmica Aula06/1 NN

Teoria das Comunicações Prof. André Noll Barreto Prova 1 Gabarito

Licenciatura em Engenharia Biomédica. Faculdade de Ciências e Tecnologia. Universidade de Coimbra. Análise e Processamento de Bio-Sinais - MIEBM

Métodos Matemáticos e Computacionais em Música

T2 - Mel Frequency Cepstral Coefficient (MFCC) 1. Importação das bibliotecas. 2. Funções para a exibição de figuras e gráficos

Teoria das Comunicações Prof. André Noll Barreto Prova /02

Transformada Discreta de Fourier

Cepstrum. Walter Roberto Godefroid Steiger

Introdução a filtros digitais. Theo Pavan e Adilton Carneiro TAPS

4 Técnica de Combinação de Medidas de Verossimilhança Baseada no Espaço Nulo

Transformada Discreta de Fourier

Processamento Digital de Sinais:

Aula 22. Conversão Sigma-Delta (continuação)

Técnicas de Projeto de Filtros

Estimação da Resposta em Frequência

Sinais e Sistemas - ESP208

4 Análise dos dados de atenuação por chuva

DESENVOLVIMENTO DO MÓDULO DE PRÉ-ENFASE PARA SISTEMAS DE RECONHECIMENTO AUTOMÁTICO DE VOZ EM FPGA

EEE 335 Eletromagnetismo II

Transformada de Discreta de Co senos DCT

Introdução FILTRAGEM NO DOMÍNIO DA FREQUÊNCIA

TRANSFORMADA DE FOURIER EM TEMPO DISCRETO (DTFT) E TRANSFORMADA DISCRETA DE FOURIER (DFT) Larissa Driemeier

Transformada Discreta de Fourier

Filtro FIR. Processamento Digital de Sinais - ENG de julho de 2016 IFBA. Fabrício Simões (IFBA) Filtro FIR 22 de julho de / 30

SUMÁRIO BACKGROUND. Referências 62 MATLAB Seção B: Operações Elementares 62 Problemas 71

Processamento de Imagem. Convolução Filtragem no Domínio da Frequência (Fourier) Professora Sheila Cáceres

Processamento de Sinais 2013/14

Filtros Digitais. Filtros básicos, parâmetros no domínio do tempo e frequência, classificação de filtros

Transformada de Fourier: fundamentos matemáticos, implementação e aplicações musicais

Teoria das Comunicações Prof. André Noll Barreto Prova /02

Um filtro digital é uma implementação de um filtro através de operações matemáticas aplicadas em um sinal amostrado (e quantizado);

Cassius Thalles T2. May 15, 2018

PTC3452 Exercícios sobre Codificação perceptual de Áudio e Vídeo 11/2017 G. S.

PESQUISA, DESENVOLVIMENTO E TESTES DE UM SISTEMA DE RECONHECIMENTO DE PALAVRAS FALADAS

DETERMINAÇÃO DO GÊNERO DO LOCUTOR USANDO A TRANSFORMADA RÁPIDA DE FOURIER

VI SBQEE. 21 a 24 de agosto de 2005 Belém Pará Brasil FILTROS COM RESPOSTA MAXIMAMENTE PLANA PARA CÁLCULO DE HARMÔNICOS

FILTROS COM RESPOSTA MAXIMAMENTE PLANA PARA CÁLCULO DE HARMÔNICOS

Estimação da Resposta em Frequência

2 Modelos de sintetização de séries temporais de atenuação por chuva

Departamento de Electrónica, Telecomunicações e Informática. 1 Entrega do Trabalho e avaliação. 2 Sintetizador. Processamento Digital de Sinal

Processamento de sinais digitais

Aula de Processamento de Sinais I.B De Paula. Tipos de sinal:

Tecnologias de Reabilitação Aplicações de Processamento de Sinal

Figura 1 Sinais e Transformadas de Fourier (HAYKIN; VAN VEEN, 2001).

Efeitos da filtragem sobre sinais de onda quadrada

1.1 Breve Histórico OFDM

Exercícios para Processamento Digital de Sinal. 1 Transformada e Série de Fourier

Conceitos Básicos de Áudio Digital

SEL Processamento Digital de Imagens Médicas. Aula 4 Transformada de Fourier. Prof. Dr. Marcelo Andrade da Costa Vieira

Processamento de Imagem. Prof. MSc. André Yoshimi Kusumoto

Processamento Digital de Sinais II Exercícios sobre Transformada z Data de entrega: 17/11/2015

Universidade Federal do Rio de Janeiro. Circuitos Elétricos I EEL 420. Módulo 11

Universidade Federal do Rio de Janeiro. Circuitos Elétricos I EEL 420. Módulo 11

Tranformada de Fourier. Guillermo Cámara-Chávez

Introdução a aquisição e processamento de sinais

Introdução ao Processamento Digital de Imagens. Aula 6 Propriedades da Transformada de Fourier

Processamento digital de imagens

TE073 PDS II Programa de Graduação em Engenharia Elétrica

Processamento Digital de Sinais. Notas de Aula. Análise Espectral Usando a DFT

Analisador de Espectros

Aula 6 PS Prof. César Janeczko. Filtros Digitais

Introdução aos sinais discretos e conversão de sinais analógicos para digitais

Aplicação da Transformada S na Decomposição Espectral de Dados Sísmicos

RECONHECIMENTO DE FALANTE

Processamento de Imagem. A Imagem digital Professora Sheila Cáceres

REDES DE COMPUTADORES. Comunicação de Dados

CÁLCULO NUMÉRICO. Profa. Dra. Yara de Souza Tadano

Projeto de Filtros FIR

Tratamento da Imagem Transformações (cont.)

PROVAS Ciência da Computação. 2 a Prova: 13/02/2014 (Quinta) Reavaliação: 20/02/2014 (Quinta)

Modulação OFDM aplicada à Televisão Digital bibliografia: Megrich, A. Televisão Digital: Princípios e técnicas, Editora Érica Ltda

4 Método Proposto Visão geral do Método

Amostragem. Representação com FT para Sinais Periódicos Relacionando a FT com a FS Amostragem Amostrando Sinais de Tempo Contínuo.

ÍNDICE LISTA DE FIGURAS LISTA DE TABELAS PREFÁCIO AGRADECIMENTOS

Ruído. Aula 11 Prof. Nobuo Oki

Processamento de Imagem. Prof. MSc. André Yoshimi Kusumoto

I-6 Sistemas e Resposta em Frequência. Comunicações (6 de Dezembro de 2012)

7 Medição da Velocidade do Vento em um Túnel de Vento utilizando Fusão de Dados: Resultados Experimentais

Programa de Pós-Graduação em Engenharia Elétrica. TE 810 Processamento Digital de Sinais. Aluno: Edgard Massahiro Munetiko

Redes de Computadores

SISTEMA DE INFERÊNCIA FUZZY BASEADO NA TRANSFORMADA COSSENO DISCRETA PARA RECONHECIMENTO DE VOZ

Transcrição:

3 Os Atributos MFCC e PNCC do Sinal de Voz No sinal de voz incorporam-se informações importantes do falante, que são altamente perceptíveis, tais como, dialeto, contexto, estilo de falar, estado emocional, etc. Há outras características que dificilmente são perceptíveis, tais como tons, frequências dos formantes, intensidade, entre outros [29]. Uma grande quantidade de dados é gerada durante a produção de voz, enquanto as características fundamentais das mudanças da voz são geradas lentamente. Por conseguinte, requer-se menos dados para representar as características da voz e da pessoa que falou. Com a parametrização da voz consegue reduzir a quantidade de dados a processar. Por exemplo, se o sinal de voz é adquirido a 8000 amostras/s quantificadas a 16 bits/amostra, parametrizando quadros de 20 ms a 14 coeficientes, obtêm-se uma redução de dados de 11.4 (160/14). Desta forma, reduz-se a complexidade computacional do processo [30]. Além disso, através da parametrização consegue-se vetores de características, como foi mencionado em 2.4.2, nos quais obtêm-se elementos relevantes de classificação que apresentam características distintivas respeito aos gerados por uma outra palavra ou som, contribuindo significativamente para o seu reconhecimento. Na atualidade existem diferentes metodologias e procedimentos de análise para extração de atributos do sinal de voz, que se centram em diferentes aspectos representativos. Neste capítulo apresentam-se e analisam-se as técnicas de parametrização utilizadas nos experimentos desta dissertação, as quais são: Mel-Frequency Cepstral Coefficients (MFCC). Power Normalized Cepstral Coefficients (PNCC). Essas duas técnicas possuem etapas em comum, tais como: a pré-ênfases, a análise localizada do sinal de voz (divisão em quadros) e a transformada de Fourier, que foram apresentadas na seção 2.4, além das etapas de transformada discreta do cosseno, coeficientes delta e os coeficientes de aceleração, que serão apresentados neste capítulo.

Capítulo 3. Os Atributos MFCC e PNCC do Sinal de Voz 42 AFig. 3.1fazuma comparação dasduas técnicas, destacando o bloco que faz diferença entre elas, chamado de informação do espectro [15]. Esse bloco consiste em dividir cada quadro fornecido pela DFT em B bandas de frequência e extrair um valor de cada um deles separadamente. Esse procedimento será explicado para cada um dos métodos nas seções a seguir. Sinal de voz X Pré-Ênfase Segmentação MFCC PNCC Janelamento Transforada de Fourier Informações do Espectro Filtros na Escala Mel Filtros Gammatone Remoção do Ruído DCT Logarítmo de Energia Exponencial de Energia Deltas Banco de atributos Vetor de carateristicas Cx Figura 3.1: Comparação dos métodos de extração de atributos Cabe ressaltar que para realizar a extração de atributos foram utilizadas as ferramentas Matlab [31] [32] e HMM Tool Kit (HTK)[33], apresentadas nos Anexos C e D, respectivamente.

Capítulo 3. Os Atributos MFCC e PNCC do Sinal de Voz 43 3.1 Mel-Frequency Cepstral Coefficients (MFCC) A técnica de extração de atributos Mel-Frequency Cepstral Coefficients (MFCC)[34] faz uma análise de características espectrais de tempo curto, baseando-se no uso do espectro da voz convertido para uma escala de frequências denominada MEL que é uma escala que visa imitar as características únicas perceptíveis pelo ouvido humano. Estes coeficientes são uma representação definida como o cepstrum de um sinal janelado no tempo, que tem sido derivado da aplicação da DFT, em escalas de frequência não lineares. Para a extração dos vetores de características MFCC, são necessárias as etapas mencionadas na seção 2.4.1, sendo o processo explicado brevemente a seguir. O sinal de voz x(n) a parametrizar é passado através do filtro de preênfase da equação 2-2 com α = 0.97. Essa etapa é recomendável para compensar a atenuação das componentes de alta frequência causadas pelo mecanismo da produção de voz. Depois do sinal ser filtrado, é necessário atenuar as descontinuidades causadas no início e no final do sinal de cada segmento, aplicando uma janela Hamming de 25 ms de comprimento, com deslocamento entre janelasde10ms,obtendo-seassimvetoresmfccacada10ms(equações 2-4 e 2-5. Após a etapa de janelamento do sinal, aplica-se a DFT da equação 2-6 para obter o espectro. Uma vez calculada a DFT obtém-se a potência espectral, utilizando a equação S[k] = X[k] 2 = (real(x[k])) 2 +(imag(x[k])) 2 (3-1) A etapa a seguir é a chamada informações de espectro, que faz a distinção entre as técnicas de extração, na qual aplica-se um banco de M filtros à potência espectral. O banco de filtros está formado por filtros triangulares, espaçados de acordo com a escala de frequência MEL, representada pela equação ( Mel(f) = 1125ln 1+ f ) 700 (3-2)

Capítulo 3. Os Atributos MFCC e PNCC do Sinal de Voz 44 que, como foi mencionado, imita a resposta em frequência do sistema auditivo humano. Matematicamente, os filtros MEL, são definidos pela seguinte resposta em frequência H m [k] = 0 k < k[m 1] 2(k k[m 1]) (k[m+1] k[m 1])(k[m] k[m 1]) 2(k[m+1] k) (k[m+1] k[m 1])(k[m+1] k[m]), k[m 1] k k[m], k[m] k k[m+1] 0 k > k[m+1] (3-3) Cada filtro calcula a média do espectro em torno da frequência central, e têm diferentes larguras de banda. Quanto maior é a frequência maior é a largura de banda, como mostra a Fig. 3.2. Figura 3.2: Banco de filtros usado na técnica MFCC Para determinar matematicamente os segmentos, parte-se das frequências extremas f l e f h que são as frequências de corte do banco de filtros em Hz. Esses valores são usados para dividir o intervalo em B +1 partes iguais. Para obter os valores em Hz, basta aplicar a função inversa ( ( N k[m] = )Mel 1 F s Mel(f l )+m Mel(f ) h) Mel(f l ) M +1 (3-4) onde F s é a frequência de amostragem em Hz, M é o número de filtros e N o número de amostras da DFT. k[m] são as frequências digitais e Mel 1 determina a largura do banco de filtros e é dado por Mel 1 (m) = 700 ( e m 1125 1 ) (3-5)

Capítulo 3. Os Atributos MFCC e PNCC do Sinal de Voz 45 Em seguida, obtém-se a log-energia da saída de cada um dos filtros MEL. Ŝ(m) = ln N 2 1 S[k]H m [k], 1 < m < M (3-6) m=0 Finalmente, os coeficientes MFCC são obtidos aplicando a transformada inversa do cosseno(dct) ao logaritmo dos coeficientes de energia obtidos no item anterior c[n] = M 1 m=0 ( πn(m+0,5) Ŝ[m] cos M ), 0 < n < M 1 (3-7) Por exemplo, se M = 13 tem-se um vetor como é mostrado a seguir: C mel = c 0,c 1,c 2,...,c 12. O primeiro coeficiente do vetor C mel, denotado por c 0, pode carregar muita informação do meio de transmissão [35]. Este coeficiente por vezes é considerado e por vezes não; isto vai depender do tipo de reconhecimento desejado, que pode ser reconhecimento de voz, ou reconhecimento de locutor. A avantagem de utilizar DCT no lugar da IFFT (transformada inversa de Fourier),é que a DCT reduz o número de coeficientes gerados após utilizar as técnicas de parametrização especificadas (MFCC ou PNCC). Esta redução é feita através de uma propriedade da DCT conhecida como compactação da energia, concentrando os valores mais significativos nos primeiros termos do vetor, e descartando os últimos, melhorando assim a eficiência computacional. A ideia principal da extração de atributos é captar as mudanças temporais bruscas presentes no espectro. Devido a isto, utilizam-se além, dos coeficientes extraídos até agora, chamados coeficientes estáticos, os coeficientes delta e de aceleração, chamados coeficientes dinâmicos, que capturam essas mudanças e incorporam informação relativa à transição dos coeficientes estáticos entre quadros vizinhos. O cálculo dos coeficientes dinâmicos faz-se através de regressão linear sobre uma janela, cobrindo dois vetores antes e dois após o vetor calculado [36], ou seja,

Capítulo 3. Os Atributos MFCC e PNCC do Sinal de Voz 46 d t = Θ θ=1 θ(c t+θ c t θ ) 2 (3-8) Θ θ=1 θ2 onde d t é o coeficiente (diferencial) delta ( ) computado no tempo t, calculado em termos dos correspondentes coeficientes estáticos C t θ até C t+θ. O parâmetro Θ indica o tamanho da janela de regressão, usualmente igual a 2. Os parâmetros de segunda ordem chamados delta-delta, são obtidos replicando a derivada sobre os resultados obtidos na primeira derivação [37]. 3.2 Power-Normalized Cepstral Coefficients (PNCC) Diferentes experimentos ao longo do tempo têm mostrado que os tons não são representados em escalas lineares de frequência. Por isso, tenta-se aproximar, através de escalas de frequências não lineares, o comportamento auditivo humano, tal como acontece com os atributos MFCC. Porém, nestes atributos a eficácia do reconhecimento cai rapidamente com a presença do ruído. Recentemente, [38] introduziu um método mais eficiente para extração de atributos, chamado Power-Normalized Cepstral Coefficients. Sua eficiência é devida à adição de uma nova etapa de remoção de ruído, a qual, através da média das energias de uma banda ao longo de alguns quadros consecutivos, consegue remover a adição do ruído do sinal. Esse procedimento é feito após a divisão do sinal em bandas de frequência superpostas, similar ao utilizado nos MFCC. A diferença é o uso de um novo tipo de escala que imita a resposta em frequência do sistema auditivo. De acordo com isso, os atributos PNCC são considerados uma evolução dos atributos MFCC. Os PNCC utilizam a mesma metodologia de análise de tempo curto que os MFCC, visando desenvolver conjuntos de atributos baseados em critérios perceptuais. A estrutura do método PNCC é mostrada na Fig 3.1, onde podese ver que é similar à estrutura MFCC descrita na seção anterior, com algumas variações, especialmente na etapa de informações de espectro. O pré-processamento para a extração de atributos PNCC é o mesmo para os MFCC, que consiste em um filtro de pré-ênfase e a análise de Fourier utilizando o mesmo janelamento Hamming de 25 ms de comprimento com deslocamento entre janelas de 10 ms.

Capítulo 3. Os Atributos MFCC e PNCC do Sinal de Voz 47 Uma vez obtida esta informação, procede-se à análise espectral constituída por três partes explicadas a seguir. A primeira parte consiste na utilização de filtros Gammatome baseados na escala de Bandas Retangulares Equivalentes (ERB) [39]. Esses filtros possuem bandas de passo não uniformes e sobrepostos, como é mostrado na Fig. 3.3, onde cada filtro representa a resposta em frequência relacionada com um ponto particular da membrana basilar [40]. Figura 3.3: Banco de filtros Gammatone. O modelo utilizado para a construção dos filtros é o proposto em [41]. A resposta ao impulso de cada filtro é dada por g t = t l 1 e 2Πt1,019ERB cos(2πf c t) com t 0 (3-9) onde l é a ordem do filtro ERB e f c é a frequência central associada a ela. Assim, a largura de banda de cada filtro é ajustada conforme as medidas da largura de ERB dos filtros auditivos humanos dados pela equação ( ERB(f c ) = 24,7 4,37 f ) c 1000 +1 Hz (3-10) A largura da anda ERB corresponde aproximadamente 11% de sua frequência central, pelo que os filtros auditivos equivalentes têm uma largura de banda inferior à apresentadas pelas bandas criticas (20% de

Capítulo 3. Os Atributos MFCC e PNCC do Sinal de Voz 48 f c em 500 Hz). Devido a isso, é necessário uma maior quantidade de filtros ERB, a fim de caracterizar a faixa completa de frequências do sistema auditivo humano (de 20 Hz a 22.050 Hz) Estas frequências centrais são distribuídas uniformemente em uma escala auditiva de frequências ERB 3-11, representadas por uma função quase logarítmica que relaciona a frequência com o número de canais do banco de filtros. ERB N = 21,4log 10 (0,00437f +1) (3-11) onde f é a frequência em Hz e ERB N é o número ERB(razão ERB) A implementação completa dos filtros Gammatone pode ser encontrada em [42]. A segunda modificação é a implementação da etapa de remoção de ruído acima referida, afim de estimar a redução da qualidade da fala causada pelo ruído [43], já que este costuma ser mais estacionário que o sinal de voz. Este procedimento é motivado pelo fato de que o sistema auditivo humano é mais sensível a alterações na frequência ao longo do tempo, do que a excitação relativamente constante de fundo [38]. A implementação detalhada é descrita em [44]. A terceira modificação está relacionada com a mudança da função logarítmica utilizada na saída dos bancos MEL, por uma função de potenciação aplicada na operação não linear sobre a energia de cada banda. A utilização desta nova função tenta evitar que os valores de saída das bandas estejam perto de zero, já que as regiões onde o sinal possui pequenas energias serão mas vulneráveis à adição de ruído aditivo, como acontece com a função logarítmica alterando os atributos MFCC. É por isso que se utiliza uma função de potenciação, que vai crescer mais suave, reduzindo assim a distorção espectral. Uma vez obtida a informação do espectro, o cepstrum em escala ERB é a transformada discreta do cosseno das saídas dos bancos de filtros, similar ao utilizado para os MFCC, (equação 3-7). Finalmente, o vetor de atributos é constituído pelos n coeficientes determinados da DCT, além da adição dos correspondentes coeficientes de regressão (delta e delta-delta) obtidos através da equação 3-8.