O Uso de Características Temporais de Sinais de Voz na Detecção de Patologias Laríngeas

Documentos relacionados
Análise comparativa entre técnicas de classificação de vozes saudáveis e patológicas utilizando SVM e LDA

Classificação de patologias laríngeas por meio de características do espaço de fase reconstruído

USO DA DIMENSÃO DE CORRELAÇÃO NA DISCRIMINAÇÃO ENTRE VOZES SAUDÁVEIS E PATOLÓGICAS

Discriminação entre sinais de vozes saudáveis e patológicos por meio da análise da imagem do espaço de fase reconstruído

Análise de Quantificação de Recorrência e Análise Discriminante Aplicadas à Classificação de Sinais de Vozes Saudáveis e Sinais de Vozes Patológicas

Utilização das transformadas wavelets na detecção de características em um sinal de ECG

SAIR Outubro 2009 Ouro Preto. MG


Classificação de Desvios Vocais baseadas em Características do Modelo Linear de Produção da Fala

Mara Carvalho / Filipe Abreu. Jornadas Interdisciplinares sobre Tecnologias de Apoio Escola Superior de Tecnologia da Saúde de Coimbra

Avaliação de Diversas Bases Wavelets na Detecção de Distúrbios Vocais Infantis

ANÁLISE DE QUANTIFICAÇÃO DE RECORRÊNCIA PARA A CARACTERIZAÇÃO DE SINAIS DE VOZES SAUDÁVEIS E VOZES PATOLÓGICAS

Tecnologias Computacionais Aplicadas À Análise De Sinais De Voz

detecção de voz cantada em sinais de áudio polifônicos

ACURÁCIA DAS MEDIDAS DE ENTROPIA E ENERGIA DA TRANSFORMADA WAVELET NA AVALIAÇÃO DE VOZES INFANTIS

AVALIAÇÃO QUALITATIVA DE DETECÇÃO DE BORDAS EM IMAGENS DE RADIOGRAFIA PERIAPICAIS

DISFONIA. Justificativa Tipos N máximo de sessões Videolaringoscopia: é um exame

Sistema de Extração de Características Cíclicas de Vozes Patológicas utilizando App Designer

Figura 1 Sinais e Transformadas de Fourier (HAYKIN; VAN VEEN, 2001).

Classificação de Patologias da Fala a partir do PPM

3 Identificação de Locutor Usando Técnicas de Múltiplos Classificadores em Sub-bandas Com Pesos Não-Uniformes

Processamento digital de sinais no diagnóstico diferencial de doenças laríngeas benignas

Palavras chave: ensaios não destrutivos, processamento digital de sinal, redes neurais, pulso eco, ultrassom

A codificação primária é a representação digital de um canal de voz, sem a inclusão de bits de sincronismo e de verificação de paridade.

Artigo Original. Healthy and pathological voice assessment by means of nonlinear dynamic analysis measures and linear predictive coding

USO DE TÉCNICAS DE SEGMENTAÇÃO NA ANÁLISE DE IMAGENS DE TOMOGRAFIA COMPUTADORIZADA DE PULMÕES COM DPOC

Reconhecimento de Patologias da Voz usando Técnicas de Processamento da Fala

Reconhecimento de Sinais EMG (Plano Horizontal Sem Carga)

Classificação Automática de Gêneros Musicais

TESTE DE ROBUSTEZ DE MODELAGEM DE QRS EM SINAIS SINTÉTICOS DE ECG CONTAMINADOS POR RUÍDO

Detecção de Desvios Vocais Utilizando Modelos Auto Regressivos e o Algoritmo KNN

Processamento Digital de Sinais em Bioengenharia (PDSB) Engenharia Biomédica Apresentação

Modelagem para previsão/estimação: uma aplicação Neuro-Fuzzy

Algoritmo simplificado para conversão de imagem no formato INTERFILE para o formato DICOM

Computação Musical - Introdução slides do curso Computação Musical

Informações Gerais Prof. Aluizio Fausto Ribeiro Araújo Depto. of Sistemas de Computação Centro de Informática - UFPE

O reconhecimento facial é dividido em três etapas: i) detecção da face, ii) extração de características e iii) reconhecimento da face.

Identificação de parâmetros em um modelo matemático para geração da voz humana

DETECÇÃO DO COMPLEXO QRS UTILIZANDO FPGA Detection of QRS Complex Using

mecanismo humano de produção de fala mecanismo humano de produção de fala AVPV ESS.IPS 29,30.nov.13

Desenvolvimento de Sistemas de Aquisição, Processamento e Análise de Sinais Eletrocardiográficos. Introdução

Projeto de iniciação científica desenvolvido na UFFS campus Cerro Largo, PRO-ICT/UFFS 2

ESTUDO E APLICAÇÃO DA LEI DE PEUKERT ESTENDIDA PARA A PREDIÇÃO DO TEMPO DE VIDA DE BATERIAS CONSIDERANDO CORRENTES VARIÁVEIS 1

LESÕES DE BORDA DE PREGAS VOCAIS E TEMPOS MÁXIMOS DE FONAÇÃO

Carlos Roberto da Costa Ferreira. Interpolação Modificada de LSF's. Dissertação de Mestrado

Aprendizagem de Máquina

Plano de Pesquisa. Emprego das Funções de Gabor Sintonizadas para a Análise de Sinais e a Modelagem Neuronal

Kátia Slodkowski Clerici 2, Cássio L. M. Belusso 3. Projeto de pesquisa PRO-ICT/UFFS 2. Acadêmica do curso de Física da UFFS Campus Cerro Largo 3

Um Novo Método Usando Autocorrelação para Extração da Freqüência Fundamental em Sinais de Voz

M. Eisencraft 6.3 Funções de correlação 81. R YX (τ) R YY (τ). (6.19) R XY (τ) = R YX ( τ) (6.20)

VARIABILIDADE DA FREQUÊNCIA FUNDAMENTAL: ESTUDO COMPARATIVO ENTRE VOZES ADAPTADAS E DISFÔNICAS

Processamento de Som com Escala de Mel para Reconhecimento de Voz

7 Extração de Dados Quantitativos

Análise e conversão de tabloides de. Igor dos Santos Montagner Orientador: Prof. Dr. Roberto Marcondes Cesar Junior. promoções

2 Trabalhos relacionados

Análise Quantitativa de Tecidos em Úlceras de Perna

RECONHECIMENTO DE FALANTE

AVALIAÇÃO DA ESTIMATIVA DE PARÂMETROS PARA MODELOS AR2D APLICADOS NA EXTRAÇÃO DE ATRIBUTOS DE TEXTURA EM IMAGENS DE SENSORIAMENTO REMOTO

Desenvolvimento de algoritmo de análise automática da curva de frequência por meio de convoluções gaussianas do histograma de alturas 15

Descritores de Imagens

Um Ambiente para Processamento Digital de Sinais Aplicado à Comunicação Vocal Homem-Máquina

Anexo 1: Fig. 1 Cartilagens da laringe. (McFarland, D. [2008]. Anatomia em Ortofonia Palavra, voz e deglutição. Loures: Lusodidacta)

Cepstrum. Walter Roberto Godefroid Steiger

PADRÃO FORMÂNTICA DA VOGAL [A] REALIZADA POR CONQUISTENSES: UM ESTUDO COMPARATIVO

TÉCNICAS DE CODIFICAÇÃO DE FALA BASEADAS EM ANÁLISE POR SÍNTESE Speech Codification Techniques Based on Analysis-by-Synthesis

Algoritmo CLIQUE (Clustering In QUEst)

Métodos de Segmentação de Imagem para Análise da Marcha

3 Os Atributos MFCC e PNCC do Sinal de Voz

Análise Acústica de Desvios Vocais Infantis utilizando a Transformada Wavelet

Uma Introdução a SVM Support Vector Machines. Obs: Baseada nos slides de Martin Law

Classificação de Padrões por Blocos em Imagens Não Segmentadas de Tomografia Computadorizada

Trabalho da Disciplina Sistemas Lineares: Controle pela Realimentação do Estado Estimado por um Observador

Echo State Networks. Fabricio Breve João Bertini

Identificação de Pontos Perceptualmente Importantes (PIP) em séries temporais de tópicos extraídos de dados textuais

3 Reconhecimento de Voz Distribuído

5 Estudo de Caso e Resultados

17º Congresso de Iniciação Científica APLICAÇÃO DA ENGENHARIA BASEADA EM CONHECIMENTO NA ANÁLISE CINEMÁTICA DE ROBÔS INDUSTRIAIS

APLICAÇÃO DO FILTRO DE KALMAN A UM SISTEMA DE POSICIONAMENTO DE VEÍCULO AQUÁTICO

Trabalhos de Processamento Digital de Sinais

Tempo Máximo de Fonação: influência do apoio visual em crianças de sete a nove anos

ESTUDO E APLICAÇÃO DE MODELOS ANALÍTICOS PARA A PREDIÇÃO DO TEMPO DE VIDA DE BATERIAS QUE ALIMENTAM DISPOSITIVOS MÓVEIS 1

Sistema de Reconhecimento de Logotipos

COMPARAÇÃO DE MODELOS FENOMENOLÓGICOS PARA A HIDRATAÇÃO DE GRÃOS DE SOJA

ESTUDO DE ALGORITMO DE SEGMENTAÇÃO DE FALA

Desenvolvimento de Aplicativo de Aquisição e Processamento de Voz. Development of a mobile Application to Acquisition and Voice Processing RESUMO

AVALIAÇÃO DE CONVERSORES BOOST OPERANDO EM PARALELO EMPREGANDO A TÉCNICA INTERLEAVED E CONTROLADOS DIGITALMENTE

DETERMINAÇÃO DE FUNÇÕES DE TRANSFERÊNCIA DE PROCESSOS QUÍMICOS ATRAVÉS DO MÉTODO DE EVOLUÇÃO DIFERENCIAL UTILIZANDO O SCILAB

PROGRAMA DE ENSINO. Teoria da Estimação II CAR Área de Concentração AQUISIÇÃO, ANÁLISE E REPRESENTAÇÃO DE INFORMAÇÕES ESPACIAIS

Previsão de séries temporais através da combinação de modelo híbrido ARIMA e redes neurais artificiais

Inteligência Artificial

Palestrantes: Amábile Beatriz Leal (2º ano) Jéssica Emídio (4º ano) Orientação: Fga. Ms. Angélica E. S. Antonetti

RECONHECIMENTO DE GÊNERO ATRAVÉS DA VOZ

Projeto de pesquisa realizado no Grupo de Automação Industrial e Controle (GAIC) da UNIJUÍ. 2

AVALIAÇÃO ESPECTRAL DE FRICATIVAS ALVEOLARES PRODUZIDAS POR SUJEITO COM DOWN

UNIVERSIDADE ESTADUAL PAULISTA Campus de Sorocaba. Segmentação

DETERMINAÇÃO DO GÊNERO DO LOCUTOR USANDO A TRANSFORMADA RÁPIDA DE FOURIER

4 Robustez do Reconhecimento de Voz

IMPLEMENTAÇÃO DE SISTEMA DE ATITUDE EM DSP

MODELOS ESTATÍSTICOS DE FUNÇÃO DENSIDADE DE PROBABILIDADE PARA CRIAÇÃO DE SÉRIES TEMPORAIS

Índice. Classificação de textos para o ensino de português como segunda língua. Índice. technology from seed

Transcrição:

O Uso de Características Temporais de Sinais de Voz na Detecção de Patologias Laríngeas Maria do Carmo de Luna Malheiros Frazão, Silvana Luciene do Nascimento Cunha Costa 2, Suzete Élida Nóbrega Correia 2, Washington César de Almeida Costa 3 Graduanda do Curso Superior em Engenharia Elétrica - IFPB. Bolsista do CNPq. e-mail: marafrazao@gmail.com 2 Professoras da Coordenação de Engenharia Elétrica - IFPB. e-mail: silvana@ifpb.edu.br; suzete.correia@gmail.com 3 Professor da Coordenação de Ciências da Natureza, Matemática e suas Tecnologias - IFPB. e-mail: washington@ifpb.edu.br Resumo: A avaliação acústica de vozes patológicas está diretamente relacionada à extração de características. Quanto mais representativa for à característica e proporcione uma diferenciação entre sinais de classes diferentes, melhor o desempenho do sistema. Este estudo apresenta a classificação dos sinais de voz como saudáveis ou patológicos usando as medidas temporais de frequência fundamental, jitter e shimmer, aplicando como classificador, análise discriminante com as funções linear () e quadrática (). A avaliação de desempenho do classificador é realizada com as medidas empregadas de forma individual e de forma combinada. Espera-se que o método empregado possibilite o desenvolvimento de ferramentas baseadas em técnicas de processamento digital de sinais, para diagnóstico de patologias laríngeas de forma não invasiva. Os resultados obtidos demonstram a eficácia dos métodos empregados na discriminação entre vozes saudáveis e vozes afetadas por edema de Reinke e paralisia nas pregas vocais. Palavras chave: análise discriminante, classificação de vozes patológicas, frequência fundamental, jitter, shimmer. INTRODUÇÃO Várias técnicas tem sido empregadas na análise acústica de sinais de vozes afetados por patologias na laringe. Algumas baseiam-se nas medidas da frequência fundamental (frequência de vibração das pregas vocais), como jitter (perturbações na frequência) e shimmer (perturbações na amplitude). Outras técnicas se utilizam do modelo linear de produção da fala, analisando-as em termos dos coeficientes de predição linear (coeficientes LPC) e da análise cepstral (GODINO-LLORENTE et al, 2006; DIBAZAR et al, 2006, VIEIRA et al, 202). As patologias na laringe podem ser de origem orgânica ou neurológica. No primeiro tipo encontram-se patologias como nódulos, pólipos, cistos, cânceres, edemas de Reinke, entre outras. Nas patologias do tipo neurológicas ou neuro-degenerativas situam-se as patologias causadas pelo mal de Parkinson, paralisias nas pregas vocais entre outras (GODINO-LLORENTE et al, 2006). No entanto, para este trabalho são focalizadas as patologias edemas de Reinke e paralisia nas pregas vocais. A análise acústica usando técnicas de processamento digital de sinais para auxiliar diagnósticos de médicos especializados em doenças da laringe é um procedimento de medição simples, de baixo custo e não invasivo para os pacientes. Podendo ser empregada como ferramenta auxiliar em prédiagnósticos e acompanhamento de tratamentos, diminuindo a necessidade do uso de exames mais invasivos como os de videolaringoscopia. As alterações nas vozes desordenadas podem ser observadas tanto nas modificações da frequência fundamental quanto da envoltória espectral do sinal (GODINO-LLORENT et al, 2006). O pré-diagnóstico fornece uma detecção precoce de patologias laríngeas e aumenta significativamente a eficácia do tratamento. A chave para a modelagem acústica de vozes desordenadas é o entendimento das mudanças, referentes às medidas acústicas, produzidas pelos efeitos da fonte de excitação e do trato vocal (COSTA et al, 2008a). Para que se possa obter um bom modelamento acústico da patologia em estudo, as características ou parâmetros devem ser escolhidos de tal forma que representem o sinal, de forma a diferenciar um sinal saudável de um patológico, para uma discriminação eficaz da patologia.

Neste trabalho são empregadas as características temporais de frequência fundamental, bem como de duas medidas de perturbação obtidas a partir desta: jitter e shimmer. A classificação dos sinais em saudável ou patológico é feito por meio de um classificador baseado em análise discriminante linear ou quadrática. É realizada a análise de desempenho da classificação para verificar a viabilidade de implementação da técnica empregada em discriminar vozes patológicas, afetadas por paralisia ou edema nas dobras vocais de vozes saudáveis. 2. FUNDAMENTAÇÃO TEÓRI Patologias na laringe provocam mudanças significativas na voz causadas por uma modificação na morfologia de excitação, produzindo um padrão de vibração irregular, pois a distribuição de massa na dobra vocal e sua rigidez são maiores. A escolha de características que representem bem a desordem no sinal provocada pela patologia é de extrema importância. Portanto, a busca por características que melhor representem o sinal em análise é ainda um campo bastante promissor (FRAZÃO et al, 20). Na Figura estão representados trechos de 50 ms de sinais com as patologias edema de Reinke (Fig. a), paralisia nas pregas vocais (Fig. b) e para um sinal saudável (Fig. c) da base de dados utilizada no trabalho. Figura Formas de onda para trechos de tipos de sinais: (a) Edema JXFAN.NSP, (b) Paralisia JFNAN.NSP e (c) Saudável JEGNAL.NSP. Os tópicos a seguir apresentam uma descrição de alguns conceitos relacionados a algumas características temporais do sinal de voz, para avaliar a importância da utilização de técnicas de análise linear na descrição de desordens vocais, diagnósticos de patologias na laringe e avaliação de tratamento clínico. 2. Frequência Fundamental A presença de patologia pode afetar a frequência fundamental (pitch), fazendo com que homens e mulheres produzam uma frequência excessivamente elevada ou baixa, respectivamente, ou seja, fora dos valores médios usuais para os gêneros masculino e feminino (COSTA, 2008). A frequência fundamental, F 0, corresponde à frequência do sinal de excitação proveniente da glote, ou seja, é o número de vibrações das pregas vocais por segundo (COSTA, 2008). Mais especificamente, corresponde ao componente periódico mais baixo (grave) do som produzido na glote (GOLDFIELD, 2000). 2

2.2 Variações na Frequência Fundamental Há muitos sinais acústicos que podem ser associados a qualquer patologia, entre os quais estão o jitter e o shimmer. O jitter (perturbação de frequência) é um dos índices que reflete anomalias das dobras vocais e pode ser de fácil medição (PARRAGA, 2002). Os falantes normais apresentam uma pequena perturbação, que pode representar uma variação de massa, tensão, atividade muscular ou atividade neural das dobras vocais. Do mesmo modo que para a frequência fundamental, é possível que a amplitude do som da prega vocal varie de um ciclo para o seguinte. Essa característica é denominada perturbação de amplitude ou shimmer (PARRAGA, 2002). Os parâmetros de perturbação acústica para estimação das propriedades de variação de vozes patológicas foram medidos durante a fonação de vogais sustentadas. Esses parâmetros definem o grau de instabilidade de amplitude e pitch e indica o nível de componentes aperiódicos, determinado pela presença de ruído turbulento, modulações de frequência e amplitude de sinais de voz, devido às alterações nas propriedades dinâmicas das pregas vocais (ALMEIDA, 2009). Jitt (Jitter percentual) é uma avaliação relativa da variabilidade período-a-período do pitch (em curtíssima duração), para a amostra de voz analisada. Os intervalos de quebra da voz são excluídos. Jitt é calculado a partir dos valores de pitch extraídos período-a-período do sinal de voz, como: N ( i) ( i+ ) To To i= Jitt = N () N ( i) To i= N ( i) Em que To na Equação é o período de pitch extraído, com i=,2,..., N, e N= número de períodos de pitch extraídos (BRANDT, 20). Shimm (Shimmer percentual) é a avaliação relativa da variabilidade período-a-período de curtíssima duração da amplitude pico-a-pico dentro da amostra de voz analisada. Os intervalos de quebra da voz são excluídos. ShdB é calculado a partir dos dados de amplitude pico-a-pico do sinal de voz, como: N ( i) ( i+ ) A A i= Shimm = N (2) N ( i) A i= N Em que A ( i) na Equação 2, é o valor pico-a-pico extraído da amplitude, com i=,2,..., N, e N= número de impulsos extraídos (BRANDT, 20). 3. MATERIAL E MÉTODOS Os sinais de voz analisados são oriundos de uma base de dados comercial, o Massachusetts Eye and Ear Infirmary (MEEI) Disordered Voice Database distribuído pela Kay Elemetrics (KAY ELEMETRICS, 994a). Foram gravadas as vozes de 70 indivíduos (657 vozes patológicas e 53 vozes normais), contando com mais de 400 amostras de voz. As amostras contêm de a 3 segundos da vogal sustentada /a/. A escolha da vogal sustentada deve-se ao fato de que durante a emissão da vogal sustentada, as dobras vocais vibram, permitindo a observação de seu comportamento na presença da patologia (VIEIRA, 20). Essa base de dados, desenvolvida com o objetivo de auxiliar a análise perceptual de vozes desordenadas para aplicações clínicas e de pesquisa, tem sido amplamente empregada em trabalhos científicos internacionais, relacionados ao foco da pesquisa (VAZARI et al, 2008; COSTA et al, 2008; ZHANG et al, 2005; UMAPATHY et al, 2005; GODINO-LLORENTE, 2006). Para este trabalho são 3

selecionados os seguintes sinais: 53 arquivos de vozes saudáveis, além de 43 sinais com edema e 47 afetados por paralisia nas pregas vocais (VIEIRA et al, 202). Os valores das medidas temporais de frequência fundamental, jitter e shimmer foram adquiridos pelo software MULTI-SPEECH da Kay Elemetrics (KAY ELEMETRICS, 994b). As medidas foram separadas pelo gênero e submetidas ao software Matlab, v.7.. O classificador utilizado neste trabalho utiliza a função classify do Matlab, empregando a análise discriminante linear e quadrática. A análise discriminante linear () é uma técnica comumente usada para a classificação de dados e redução de dimensionalidade (BALAKRISHNAMA and GANAPATHIRAJU). Essa técnica clássica em reconhecimento de padrões permite uma previsão direta do grupo que a variável pertence. Neste trabalho isso corresponde a classificar sinais de vozes como sendo patológicos ou saudáveis. Assim, a classifica um objeto da amostra em uma de duas categorias baseadas em determinadas propriedades do objeto. Quando a regra de classificação assume que as variâncias das populações são iguais, as funções discriminantes são ditas lineares e quando não são funções discriminantes quadráticas (). O objetivo da análise discriminante, com as funções linear e quadrática, inclui identificar a contribuição relativa das variáveis empregadas na classificação, para a separação dos grupos. Assim, é avaliado o desempenho dos classificadores com as características individuais e, posteriormente, é realizada uma combinação das medidas, com o propósito de melhorar o desempenho na classificação. A frequência fundamental média no Português brasileiro está em torno de 05 Hz para os homens, 23 Hz para as mulheres. Logo a separação pelo gênero é importante para a eficiência dos classificadores. Foram utilizados 54 sinais de vozes masculinas, distribuídos em: 2 saudáveis, com edemas de Reinke e 22 com paralisia nas pregas vocais. Para os femininos foram selecionados 89 sinais de vozes, sendo: 32 sinais saudáveis, 32 com edemas de Reinke e 25 com paralisia nas pregas vocais. O processo de classificação dos sinais é realizado em duas fases: treinamento e teste/classificação (Figura 2). Na etapa de treinamento, o sinal de voz é pré-processado, o que consiste em segmentação do sinal para manter a estacionariedade (intervalos de 6 a 32 ms). Neste trabalho são utilizados segmentos de 20 ms. As características dos sinais são extraídas e alguns dos sinais são utilizados para treinamento do sistema ( saudáveis e 8 patológicos masculinos; 22 saudáveis e 37 patológicos femininos), constituindo os padrões de referência. Os outros sinais (0 saudáveis e 4 patológicos masculinos; 0 saudáveis e 20 patológicos femininos) são utilizados na fase de teste. Na etapa de teste ou classificação, os sinais são também pré-processados e as características são extraídas e comparadas com os padrões de referência. São empregados classificadores de análise discriminante: linear () e quadrática (). 4

Figura 2 Diagrama em Blocos do sistema de classificação de sinais. Numa primeira classificação, os sinais são classificados como saudável ou patológico, sem especificar qual a patologia presente no sinal de voz. Dois classificadores distintos são empregados, um para vozes femininas e outro para vozes masculinas. O resultado final da classificação é obtido a partir da média entre os resultados individuais. Na sequência, é feita a classificação especificando a patologia: paralisia ou edema nas pregas vocais. 4. RESULTADOS E DISCUSSÃO Para a avaliação de desempenho são empregadas as seguintes medidas: Correta rejeição (), que representa a detecção correta da ausência da patologia; Correta aceitação (), indica que a patologia está presente, e ela realmente está;, que consiste na taxa de classificação correta, ou seja, é o número de sinais classificados corretamente dividido pelo número total de sinais. Nas Tabelas, 2 e 3 são apresentados os resultados obtidos para os classificadores individuais de análise discriminante linear () e quadrática (). Os sinais são denominados como sinais patológicos (PTL), sinais afetados por edema de Reinke (EDM), paralisia (PRL) e sinais de vozes saudáveis (SDL). Observa-se que a medida temporal Shimmer, usando o classificador apresentou os melhores resultados para as medidas de desempenho, chegando a obter uma precisão de 00% na classificação entre vozes saudáveis e vozes afetadas por paralisia. Tabela Classificação individual SDLxPTL das medidas utilizadas. F0 60,0 85,0 73,33 00 58,57 74,7 Jitter 90,0 46,43 62,92 90,0 63,57 73,75 Shimmer 00 69,64 8,25 00 90,36 9,67 5

Tabela 2 Classificação individual SDLxEDM das medidas utilizadas. F0 75,0 72,5 7,07 75,0 67,5 68,57 Jitter 95,0 42,5 76,79 90,0 42,5 7,43 Shimmer 00 57,5 86,79 00 70,0 90,36 Tabela 3 Classificação individual SDLxPRL das medidas utilizadas. F0 90,0 35,0 62,5 95,0 45,0 70,0 Jitter 95,0 65,0 80,0 90,0 75,0 82,5 Shimmer 00 75,0 87,5 00 00 00 Para melhorar o desempenho na classificação entre as classes saudável e patológica e saudável e edema, as medidas foram combinadas duas a duas e três a três. Nas Tabelas 4 e 5 estão representados os resultados obtidos na classificação mediante a combinação duas a duas das medidas empregadas. Tabela 4 Classificação SDLxPTL combinadas 2 a 2. F0 e Jitter 00 69,64 8,25 90,0 69,64 77,5 F0 e Shimmer 00 84,29 90,42 00 93,93 96,25 Jitter e Shimmer 00 73,57 84,7 90,0 8,79 85,0 Os melhores resultados obtidos através da combinação de duas medidas simultâneas, para a classificação entre sinais saudáveis e patológicos (Tabela 4), representam uma de 00%, de 93,93% e uma de 96,25%, conseguidos pela combinação das medidas entre F0 e Shimmer, através do classificador. A combinação aumentou em cerca de 4,58% a, comparada ao melhor resultado individual (Shimmer, 9,67%). 6

Tabela 5 Classificação SDLxEDM combinadas 2 a 2. F0 e Jitter 95,0 77,5 88,93 85,0 65,0 78,2 F0 e Shimmer 00 70,0 90,36 95,0 87,5 92,86 Jitter e Shimmer 00 70,0 90,36 90,0 70,0 84,29 Para a classificação entre os sinais saudáveis e com edema de Reinke (Tabela 5) as melhores medidas de desempenho correspondem a uma = 95%, = 87,5% e uma = 92,86%, conseguidos com o classificador. Houve um aumento de aproximadamente 2,5%, em relação ao melhor resultado individual (Shimmer, 90,36%). Combinando as três medidas, no entanto, não foram apresentadas melhorias relevantes, em comparação aos demais casos. 5. CONCLUSÕES Os resultados obtidos apontam a medida Shimmer como a que, individualmente, consegue melhor capturar as desordens vocais provocadas pelas patologias edema e paralisia. As medidas temporais frequência fundamental e Shimmer, quando combinadas, conseguem com maior eficiência discriminar vozes saudáveis de vozes patológicas, melhorando os resultados obtidos com as medidas individuais do conjunto selecionado. Os resultados são bastante promissores e apontam para o uso dessas medidas em sistema de classificação de sinais como ferramenta auxiliar a pré-diagnósticos de patologias laríngeas. Assim, definição das características, empregadas no diagnóstico, que representem bem a desordem no sinal provocada por uma determinada patologia, é de extrema importância para o sucesso do diagnóstico. REFERÊNCIAS ALMEIDA, N.C. Estudo da Análise Dinâmica Não-Linear na Discriminação de Vozes Patológicas. 2009. 58f. Monografia (Tecnólogo em Sistemas de Telecomunicações) Instituto Federal de Educação, Ciência e Tecnologia da Paraíba, João Pessoa, 2009. BALAKRISHNAMA, S. and GANAPATHIRAJU, A. Linear Discriminant Analysis - A Brief Tutorial. Institute for Signal and Information Processing. Department of Electrical and Computer Engineering, Mississippi State University. BRANDT, R. R. Modelagem de Vozes Patológicas baseadas na Estimação Espectral do Ruído Glotal. 20. 88f. Dissertação (Doutorado em Engenharia Elétrica) Universidade Federal de Campina Grande, Campina Grande, 20. COSTA S. C., CORREIA, S. E. N., FALCÃO, H. H., ALMEIDA, N. C., AGUIAR NETO, B. G. and FECHINE, J.M. Pathological Voice Discrimination based on Entropy Measurements. Proceedins of the 23 rd Annual ACM Symposium on Applies Computing, pp. 40-44, 2008a. COSTA, S. C. Análise Acústica, Baseada no Modelo Linear de Produção da Fala, para Discriminação de Vozes Patológicas. Tese de Doutorado. Universidade Federal de Campina Grande, Campina Grande, 2008. 7

COSTA, S. C., CORREIA, S. E. N., COSTA, W. C. A. Análise Dinâmica Não Linear Aplicada ao Diagnóstico de Patologias Orgânicas e Neurológicas da Laringe. In: VI Congresso de Pesquisa e Inovação da Rede Norte e Nordeste de Educação Tecnológica VI CONNEPI, 20. Anais do VI CONNEPI, 20. DIBAZAR, A. A., BERGER, T.W., and NARAYANAN, S. S. Pathological Voice Assessment. Proceedings of the 28th IEEE EMBS Annual International Conference, New York, USA, pp. 669-673, August, 2006. FRAZÃO, M. C. L. M., COSTA, S. C., CORREIA S. E. N., COSTA, W. C. A. Análise Acústica de Sinais de Vozes por Meio de Temporais. In: VI Congresso de Pesquisa e Inovação da Rede Norte e Nordeste de Educação Tecnológica VI CONNEPI, 20. Anais do VI CONNEPI, 20. GODINO-LLORENTE, J. I., GÓMEZ-VI, P., BLANCO VELASCO, M. Dimensionality Reduction of a Pathological Voice Quality Assessment System Based on Gaussian Mixture Models and Short-Term Cepstral Parameters. IEEE Transactions on Biomedical Engineering, Vol. 53, No. 0, October, 2006. GOLDFELD, M. A criança surda linguagem e cognição numa perspectiva sóciointeracionista. São Paulo: Plexus, 997. KAY ELEMETRICS CORP. Disordered Voice Database, model 4337, 03 Ed, 994a. KAY ELEMETRICS, Kay Elemetrics Corp. Multi-Speech, model 3700, 994b. PARRAGA, A. Aplicação da Transformada Wavelet Packet na Análise e Classificação de Sinais de Vozes Patológicas. Dissertação de Mestrado, Universidade Federal do Rio Grande do Sul, 2002. UMAPATHY, K., KRISHNAN, S., PARSA, V. and JAMIESON, D. G. Discrimination of Pathological Voices Using a Time-Frequency Approach. IEEE Trans. on Biomedical Engineering, Vol. 52., No. 3, Março, 2005. VAZIRI, G., ALMASGANJ, F. and JENABI, M. S. On the Fractal Self-Similarity of Laryngeal Pathologies Detection: The estimation of Hurst parameter, Proceedings of the 5th International Conference on Information Technology and Application in Biomedicine, p. 383-386, 2008. VIEIRA, R. T. Processamento Digital de Sinais de Voz para Detecção de Patologias na Laringe. 20. 66f. Monografia (Bacharel em Engenharia Elétrica) Instituto Federal de Educação, Ciência e Tecnologia da Paraíba, João Pessoa, 20. VIEIRA, R. T., MONTEIRO, N. A. B., COSTA, S. C., CORREIA, S. E. N., AGUIAR NETO, B. G., FECHINE, J. M. Combining Entropy Measurements and Cepstral Analysis for Pathological Voice Assessment. Journal of Medical and Biological Engineering, 202. DOI: <http://jmbe.bme.ncku.edu.tw/aip/aip-jmbe%20928.pdf>. ZHANG, Y., JIANG, J. J., BIAZZO L. and JORGENSEN, M. Perturbation and Nonlinear Dynamic Analyses of Voices from Patients with Unilateral Laryngeal Paralysis, Journal of Voice, Vol. 9 (4), pp. 59-528, Dezembro, 2005. 8