Palavras-chave: Processamento Digital de Sinais. Reconhecimento de Vogais. Frequências Formantes.

Documentos relacionados
Tecnologias Computacionais Aplicadas À Análise De Sinais De Voz

Processamento de Som com Escala de Mel para Reconhecimento de Voz

Transformada Discreta de Fourier

Características dos sons das vogais do português falado no Brasil

MÁSCARAS DE ÁUDIO PARA EMULAÇÃO DE VOZ

DETERMINAÇÃO DO GÊNERO DO LOCUTOR USANDO A TRANSFORMADA RÁPIDA DE FOURIER

Transformada Discreta de Fourier

REDES DE COMPUTADORES. Comunicação de Dados

Diferenças entre o Português Europeu e o Português Brasileiro: Um Estudo Preliminar sobre a Pronúncia no Canto Lírico

Uma proposta para o ensino dos modos normais das cordas vibrante

Sobre o Livro. Todo o conteúdo foi preparado com muito carinho e com um desejo enorme de poder contribuir na melhora de seus trabalhos de gravação.

INF 1771 Inteligência Artificial

REDES II. e Heterogêneas. Prof. Marcos Argachoy

Mineração de Dados em Biologia Molecular

TRANSMISSÃO DE DADOS

PONTIFÍCIA UNIVERSIDADE CATÓLICA DO PARANÁ ENGENHARIA DE COMPUTAÇÃO. Smart Relay SISTEMA DE AUTOMAÇÃO POR COMANDO DE VOZ

Identificação de Pontos Perceptualmente Importantes (PIP) em séries temporais de tópicos extraídos de dados textuais

APRENDIZAGEM INDUSTRIAL

AVALIAÇÃO ESPECTRAL DE FRICATIVAS ALVEOLARES PRODUZIDAS POR SUJEITO COM DOWN

Implementação de um protópito de uma interface para um controlador de cadeira. de rodas guiado pela direção do olhar.

Visão Geral e Conceitos Básicos

APLICAÇÃO DE ALGORITMO DE APRENDIZAGEM DE MÁQUINA NÃO-SUPERVISIONADO PARA CLASSIFICAÇÃO DE USUÁRIOS NA REDE SOCIAL ACADÊMICA SCIENTIA.

VOGAL [A] PRETÔNICA X TÔNICA: O PAPEL DA FREQUÊNCIA FUNDAMENTAL E DA INTENSIDADE 86

PADRÃO FORMÂNTICA DA VOGAL [A] REALIZADA POR CONQUISTENSES: UM ESTUDO COMPARATIVO

Aprendizado de Máquina (Machine Learning)

Prof. Responsáveis Wagner Santos C. de Jesus

RECONHECIMENTO DE GÊNERO ATRAVÉS DA VOZ

Tranformada de Fourier. Guillermo Cámara-Chávez

Métodos Matemáticos e Computacionais em Música

Como equalizar sem usar equalizadores. Equalizar Equalizador Conceitos

6 Aplicação da Metodologia Proposta

Parâmetros importantes de um Analisador de Espectros: Faixa de frequência. Exatidão (frequência e amplitude) Sensibilidade. Resolução.

Como medimos nosso SPL!

Ondas sonoras. Qualidades fisiológicas de uma onda sonora

UNIVERSIDADE DO ESTADO DE MATO GROSSO - UNEMAT. Faculdade de Ciências Exatas e Tecnológicas FACET / Sinop Curso de Bacharelado em Engenharia Elétrica

O áudio. O áudio. O áudio Wilson de Pádua Paula Filho 1. Propriedades físicas do som Representação digital do som Processamento digital de som

Aprendizado de Máquina (Machine Learning)

Aula 1 - Apresentação do curso Sinais e Processamento de Sinais

Princípios de Telecomunicações AULA 1. Elementos de um sistema de comunicações. Prof. Eng. Alexandre Dezem Bertozzi, Esp.

RECONHECIMENTO DE FALANTE

Lista de Exercícios GQ1

Transformada de Fourier: fundamentos matemáticos, implementação e aplicações musicais

COMPRESSÃO DE SINAIS DE ELETROMIOGRAFIA

Características acústicas das vogais e consoantes

Processamento Digital de Sinais. Aplicações da DFT. Prof. Dr. Carlos Alberto Ynoguti

Circuitos resistivos alimentados com onda senoidal

Faculdade de Computação

Um Ambiente para Processamento Digital de Sinais Aplicado à Comunicação Vocal Homem-Máquina

Aprendizado de Máquina

Informática Parte 19 Prof. Márcio Hunecke

RECONHECIMENTO DE TRAJETÓRIA COM REDES NEURAIS

Disciplina: Manipulação e Edição de Som, Vídeo e Imagem. Prof. Felipe Batistella Alvares

Redes Neurais no WEKA

2ª. Competição Tecnológica (Outubro/2010)

Análise Quantitativa de Tecidos em Úlceras de Perna

TÍTULO: IDENTIFICAÇÃO DE CARACTERES APRESENTADOS A UMA CÂMERA POR MEIO DO MOVIMENTO DOS DEDOS DA MÃO DE UM SER HUMANO

Redes Neurais. Motivação. Componentes do neurônio. Cérebro humano. Criar máquinas capazes de operar independentemente do homem:

Brilliant Solutions for a Safe World

Classificação Automática de Gêneros Musicais

Introdução ao Reconhecimento. Prof. Dr. Geraldo Braz Junior

SISTEMA DE CONTROLE AUTOMATIZADO DE SIRENE ESCOLAR COM MÚLTIPLAS ENTRADAS E SAÍDAS DE ÁUDIO USANDO ARDUINO

RECONHECIMENTO DE COMANDOS DE VOZ BASEADO EM CODIFICAÇÃO LINEAR PREDITIVA E

Circuitos resistivos alimentados com onda senoidal

ESTUDO DE ALGORITMO DE SEGMENTAÇÃO DE FALA

Módulo de Formação em Fundamentos de Sistemas Eletrônicos

Figura 1 Sinais e Transformadas de Fourier (HAYKIN; VAN VEEN, 2001).

ELETROTÉCNICA GERAL Unidade 08

Circuitos resistivos alimentados com onda senoidal. Indutância mútua.

Informática. Aprendizado de Máquina. Professor Márcio Hunecke.

Aula 6: Entrada e Saída

Inteligência Artificial

Interface Homem- Computador 3 aula

Analisador de Espectros

5. Aplicação da Modelagem Proposta

6 Análise dos Atributos de Voz em Reconhecimento Distribuído com a Utilização do Codec de Voz ITU-T G.723.1

Circuitos resistivos alimentados com onda senoidal

7 Resultados e Discussão

DETERMINAÇÃO EXPERIMENTAL DA VELOCIDADE DE UM PROJÉTIL UTILIZANDO UM PÊNDULO BALÍSTICO

Sumário Introdução Revisão de Números Complexos Programação em Delphi... 94

3B SCIENTIFIC PHYSICS

Protótipo de Software de Reconhecimento de Voz Para Navegação em Jogos, Utilizando Rede Neural Artificial

Sinais digitais e analógicos

Amostras de Concreto Cilíndricas

Tópicos Especiais em Informática Fatec Indaiatuba 13/07/2017

Projeto de pesquisa realizado no Grupo de Automação Industrial e Controle (GAIC) da UNIJUÍ. 2

Manual do Professor. Conferência Web

Compressão de Textos. Introdução. Introdução. Introdução. O volume de informação textual disponível on-line é imenso:

Cálculo da árvore binária de busca ótima usando MPI

Arquitetura de Computadores. Alberto Felipe Friderichs Barros

Nome: Como soube do mestrado? Considere o arranjo de cargas sobre os vértices de um triângulo eqüilátero de lado a, como mostrado abaixo:

OBSERVAÇÕES ACÚSTICAS SOBRE AS VOGAIS ORAIS DA LÍNGUA KARO

7 Conclusão. 7.1 Principais Contribuições Originais

Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação

Modems Baud rate e Bit rate

Transformada de Fourier. Theo Pavan e Adilton Carneiro TAPS

Inspiron 20. Série Visão. Especificações

Mineração de Dados para Detecção de Padrões de Mudança de Cobertura da Terra. Padrões e processos em Dinâmica de uso e Cobertura da Terra

Boardmaker with Speaking Dynamically Pro

Transcrição:

RECONHECIMENTO DE VOGAIS ATRAVÉS DE TÉCNICAS DE PROCESSAMENTO DIGITAL DE SINAIS E APRENDIZAGEM DE MÁQUINA Leonardo Dalla Porta Paim 1 ; Leonardo Gomes Tavares 2 RESUMO Este projeto busca desenvolver um sistema que seja capaz de reconhecer vogais faladas. Para isso é preciso identificar um padrão entre elas para que o sistema possa comparar o que foi dito com os dados coletados e catalogados. Estes dados são adquiridos através de gravações de áudio de vários locutores com pronuncias das sete vogais da língua portuguesa. Depois são calculadas as frequências formantes de cada áudio, que são usadas como parâmetros de identificação. As formantes são obtidas através de um método matemático chamado LPC (Linear Predictive Coding), que utiliza a transformada de Fourier. Por mais que o timbre de voz de cada pessoa é diferente, isso não interfere consideravelmente nos valores das formantes. Os testes comprovaram que as frequências de cada locutor ficam próximas aos dos outros. O processo de classificação utiliza um método de lógica conhecido como KNN (K Nearest Neighbors), ou os K vizinhos mais próximos. O sistema analisa as frequências do som captado e calcula a distância entre todos os dados mais relevantes. Em seguida, ele separa os k vizinhos, ou dados, mais próximos, nesse caso 100. O maior registro de certa vogal entre esses 100 dados indica qual vogal foi falada pelo locutor. Os resultados revelaram informações valiosas ao selecionar o padrão de reconhecimento, bem como no método de análise para a classificação das vogais. Palavras-chave: Processamento Digital de Sinais. Reconhecimento de Vogais. Frequências Formantes. INTRODUÇÃO Nos últimos anos a indústria tem procurado desenvolver produtos que interajam de uma forma mais natural possível com o usuário. Tanto que é cada vez mais comum encontrar smartphones ou tablets com telas sensíveis ao toque e, mais recentemente, com comando de voz. Mas esse tipo de tecnologia ainda têm sido muito utilizada apenas para questões de luxo, não visando muito o conforto ou um auxílio para as pessoas. Por sua vez, essas novas tecnologias têm ajudado muitas pessoas com deficiências físicas ou motoras a também terem a oportunidade de usufruir desses 1 Aluno do 3º ano do curso de Engenharia Elétrica da Universidade Positivo. E-mail: leonardopaim@up.com.br. Voluntário do Programa de Iniciação Científica (PIC) da UP. 2 Professor do curso de Engenharia Elétrica da Universidade Positivo. Mestre em Engenharia Elétrica e Informática Industrial. E-mail: leonardo.tavares@up.com.br

aparelhos. Analisando dessa forma, os comandos de voz ou toque deixam de ser luxo para serem considerados ferramentas importantes. Já que isso tem funcionado muito bem com aparelhos eletrônicos, agora os pesquisadores têm buscado formas de incluir essas tecnologias no dia a dia das pessoas, que estejam diretamente ligadas a tarefas essenciais. Visto que o comando de voz é a forma mais natural de uma pessoa interagir com outra, houve um aumento considerável em pesquisas nessa área. Mas, realizar um reconhecimento de voz não é uma tarefa trivial, pois envolve captar um sinal analógico, processá-lo para um sinal digital, e então fazer as operações de reconhecimento. Em vista disso, este projeto, realizado durante um período aproximado de um ano, buscou formas de realizar esse processo de captação e reconhecimento das sete vogais da língua portuguesa. 1 REVISÃO BIBLIOGRÁFICA 1.1 CARACTERÍSTICAS DOS SINAIS O som das palavras, ao ser analisado de forma matemática, é encarado como um sinal. Basicamente um sinal é uma função que representa e vincula informações sobre a natureza de um fenômeno físico. Todos os sinais possuem características específicas que os distinguem uns dos outros. Uma dessas características é a frequência do sinal, cuja unidade é Hertz (Hz). A frequência é o inverso do período do sinal, ou seja, o tempo em que ele leva para repetir um ciclo de comportamento. A figura 1 é a representação gráfica de uma função seno, a mais simples e conhecidas dentre os sinais. Como pode ser observado, duas divisões antes da divisão indicada como 8 segundos (s) o sinal passa a se repetir, ou seja, inicia-se um novo ciclo. A duração desses ciclos que é o período do sinal. Outra característica importante é a amplitude, ou seja, a altura do sinal. No caso da figura 1, a amplitude dessa senoide é de valor 1.

FIGURA 1 GRÁFICO DE UMA FUNÇÃO SENO FONTE: NIEDU (2013) 1.2 MÉTODOS DE ANÁLISE DO SOM Como o som produz um sinal analógico, há a necessidade de transformar esse sinal analógico para um sinal digital, pois somente nessa forma ele pode ser analisado. Um dos passos dessa transformação é realizar uma operação matemática no sinal conhecida como transformada de Fourier. Ela foi criada por um matemático francês chamado Jean-Baptiste Joseph Fourier que descobriu que qualquer sinal, não importa seu formato ou frequência, pode ser representado por uma soma de senos e cossenos de diferentes frequências. Dentre esse conjunto de senoides é possível identificar a frequência fundamental do sinal, que é a menor frequência dentre todas as senoides calculadas. Assim, ao receber o sinal de áudio, o processador realiza a transformada de Fourier nele, pois é muito mais fácil trabalhar com funções senoidais do que com o sinal original propriamente dito. 1.2.1 Reconhecimento de Voz

O som e a percepção dele pelo ser humano é algo que intriga muitos cientistas. Ainda não se sabe ao certo como o nosso cérebro consegue traduzir a vibração dos nossos ouvidos produzidos pelo som para uma forma em que entendemos o que significa esse barulho. Nos últimos anos muitos pesquisadores tem tentado desenvolver sistemas automatizados que sejam capazes de reconhecer o que uma pessoa diz. Recentemente houve grandes avanços significativos nessa área. Mas um dos maiores impedimentos ainda é desenvolver equipamentos que sejam capazes de fazerem esse reconhecimento facilmente, na verdade é um dos problemas mais complexos em que cientistas e engenheiros enfrentam (Bermúdez, et al). Criar um sistema que seja capaz de identificar um comando de mais de uma pessoa é um grande desafio, pois é necessário analisar a amplitude e a frequência geral de determinado comando, além de desenvolver um algoritmo que seja capaz de comparar as características de cada fonema. Como foi discutido anteriormente, um sinal é o resultado da soma de várias senoides de frequências diferentes. Assim o sinal da voz possui várias frequências além da frequência fundamental. Essas outras são chamadas de frequências formantes. Basicamente elas indicam em que frequências foram produzidos picos de energia. Na da figura 2 está sendo apresentado uma representação do sinal de uma vogal e as frequências formantes desse sinal. Como a posição dos formantes varia pouco de um locutor para outro, são eles que diferenciam uma vogal ou outras letras umas das outras. Existem vários métodos matemáticos para a identificação desses valores. Entre os mais conhecidos estão à análise linear e a logarítmica. O método logarítmico é muito eficaz e confiável por ser capaz de reconhecer uma largura de banda maior. Há fortes indícios que o sistema de percepção humano de som utiliza uma técnica similar a essa. A análise linear, no entanto, é mais simples e fácil de ser aplicada. Por mais que não seja a mais precisa, ela tem bons resultados. Em um estudo realizado em 1993, James Hilenbrand e Robert T. Gayvert, ao analisarem os mais comuns métodos de análise de frequência, perceberam que quando se trata de vogais a análise logarítmica não traz grandes vantagens sobre a linear. Neste mesmo estudo foi verificado que a forma mais eficaz de realizar o reconhecimento era por analisar as posições das frequências de forma separada,

em vez de analisar a distância entre os formantes, que era um dos métodos mais utilizados. FIGURA 2 REPRESENTAÇÃO DO SINAL SONORO COM SUAS RESPECTIVAS FORMANTES FONTE: O AUTOR (2013). As frequências formantes da figura 2 foram calculadas através de um método matemático chamado Codificação por Predição Linear (LPC). Ele leva em conta que a produção da voz é feita de forma linear, e trata os sinais dessa forma. Basicamente ele recebe o sinal original e estima os valores através de uma combinação linear de n amostras anteriores desse sinal. (COSTA, 2008, p. 77) Dentre todos os outros métodos matemáticos, a LPC é o mais confiável e eficaz para ser aplicado nesse tipo de análise.

1.3 MÉTODO DO VIZINHO MAIS PRÓXIMO Existem várias lógicas de programação para realizar a classificação de grupos distintos tanto em níveis fáceis de programação, como árvores de decisão, até métodos complexos como a de redes neurais, que tentam simular o funcionamento do cérebro humano. Entre elas há um método com uma confiabilidade similar a das redes neurais com uma facilidade da árvores. Este é o método do vizinho mais próximo. A classificação de uma nova informação é realizada considerando as classificações dos dados catalogados mais próximos desse sinal. 2500 2000 1500 1000 500 A EH E I OH O U A ser descoberto 0 0 100 200 300 400 500 600 700 800 GRÁFICO 1 ILUSTRAÇÃO VIZINHO MAIS PRÓXIMO FONTE: O autor (2013) O gráfico 1 ilustra como é feita essa análise. Ele contém alguns 15 dos quase 380 dados obtidos. Supondo que a vogal que foi captada pelo sistema fique na posição do ponto bordô no gráfico. O algoritmo irá calcular a distância de todos os outros pontos com este dado que está sendo analisado. Em seguida ele analisa os k vizinhos mais próximos dessa ponto, onde k é um número inteiro qualquer. Depois é verificado quais são os grupos desses vizinhos. Supondo que fosse escolhido analisar os cinco vizinhos mais próximo. Ao

calcular as distâncias haveria como cinco vizinhos mais próximos quatro dados da vogal /o/ e um da vogal /u/. Como a vogal /o/ tem mais vizinhos próximos da que está sendo analisada, chega-se à conclusão de que a vogal que foi falada e captada pelo sistema foi /o/. 850 800 750 700 650 600 550 O U A ser descoberto 500 450 400 150 200 250 300 350 400 450 GRÁFICO 2 MÉTODO DO CÁLCULO DA DISTÂNCIA FONTE: O autor (2013) A forma com que são calculadas as distâncias entre a vogal falada com os dados obtidos é realizado através da distância euclidiana. A distância entre eles é a hipotenusa de um triângulo que pode ser formado entre os pontos, como pode ser observado no gráfico 2. De modo geral, a equação que encontra a distância entre as formantes é dada pela equação 1. d= (f1-f1 ) 2 +(f2-f2 ) 2 (1) Onde: d a distância entre os pontos, f1 valor da formante 1 da vogal a ser analisada,

f1 valor da formante 1 de um dos pontos do banco de dados, f2 - valor da formante 2 da vogal a ser analisada, f2 valor da formante 2 de um dos pontos do banco de dados. Quando há poucas informações sobre cada grupo pode não ser um método muito seguro. Mas, quando há um número considerável de dados, o método do k vizinho mais próximo (knn) é um excelente método de classificação. 2 PROCEDIMENTOS METODOLÓGICOS Para iniciar os testes foram gravadas as sete vogais da língua portuguesa (/a/, /eh/, /e/, /i/, /oh/, /o/ e /u/) para selecionar os padrões e métodos de classificação mais adequados. Dezoito voluntários homens pronunciaram três vezes as vogais. Os equipamentos utilizados para a captação e gravação do áudio foram: a) Mac Book Pro; b) Interface de gravação EDIROL F-101 com interface firewire; c) Microfone SHURE SM-57; d) Software AUDACITY 2.0.2. Os dados foram captados numa frequência de amostragem de 44100 Hz numa resolução de gravação de 24 bits. Depois cada vogal foi salva em arquivos separados de áudio do tipo.wav. Após coletados os dados, eles foram analisados num algoritmo desenvolvido no software MATLAB 6.5 pela UCL Department of Phonetics and Linguistics. O algoritmo abre o arquivo de áudio e o analisa usando o método LPC, apresentando separadamente as posições das formantes. Depois de analisado, os dados são coletados, separados e catalogados de acordo com a vogal que representam. Os dados foram salvos num arquivo.txt. As sete primeiras linhas são as médias das formantes de cada vogal seguida do número que representa a vogal. A escolha do método de classificação ocorreu com o auxílio de um software chamado Weka produzido pela universidade de Waikato na Nova Zelândia. O Weka faz a mineração dos dados, ou seja, ele analisa o comportamento de vários métodos de classificação, entre eles as árvores de decisão, redes neurais e outros. O Weka possui os algoritmos de cada método e analisa o desempenho deles para o banco

de dados fornecido. O apêndice B apresenta o arquivo que foi utilizado para essa análise. Com base nesses dados foi desenvolvido o método do KNN para realizar o reconhecimento das vogais. O algoritmo recebe o sinal da vogal e extrai as suas formantes. Em seguida ele abre o banco de dados e calcula a distância de cada dado com a vogal captada e coloca os dados em ordem crescente da menor para a maior distância. Depois são analisados os grupos dos 100 dados (ou vizinhos) mais próximos. A análise é concluída analisando o grupo que possui mais dados próximos, que indica qual vogal foi falada. 3 RESULTADOS OBTIDOS No apêndice A é apresentada uma tabela com todos os dados coletados das vogais estudadas. O gráfico 3 é composto de todos os valores que foram obtidos. Nesse gráfico os pontos foram definidos na relação que há entre a primeira e segunda formante. No total, cada vogal tem 54 dados das formantes 1 e 2. Como pode ser observado no gráfico, as vogais possuem posições distintas, apesar de próximas, umas das outras. Isso comprova que as frequências formantes podem ser utilizadas para realizar a classificação de um sinal. Dentre todas as vogais, pode-se observar que a vogal /oh/ é a mais distinta das outras, pois suas posições são tão próximas que parecem haver poucos dados. No gráfico 4 é a representação das médias dos valores de cada vogal. Ao comparar ambos os gráficos nota-se mais claramente a distinção que há entre cada vogal com relação as suas frequências formantes. Os teste realizados no Weka foram conclusivos e surpreendentes. Utilizando um método de árvore de decisão, chamado no software como J48, automaticamente apenas as duas primeiras formantes das cinco foram analisadas. Esse método apresentou uma precisão de 82,857% de acerto. Outro método analisado foi o Multilayer Perceptron, que simula uma rede neural. Ao analisar as cinco formantes, o método teve uma precisão de 82,875%, similar ao J48. No entanto, ao utilizar apenas as três primeiras formantes a precisão aumentou para 94,285%.

F2 (Hz) Por fim, foi analisado o método do vizinho mais próximo, ou KNN. Esse método obteve uma precisão de 68,57% considerando as cinco formantes. Mas, ao analisar com as duas ou as três primeiras frequências formantes a precisão melhorou muito, chegando a 97,14%. 2700 2200 1700 A EH Ê 1200 I OH 700 Ô 200 100 200 300 400 500 600 700 800 900 F1 (Hz) U GRÁFICO 3 POSIÇÃO DAS FORMANTES (F2 X F1) DE TODAS AS VOGAIS CAPTURADAS FONTE: O autor (2013) 2500 2000 1500 1000 500 A EH E I OH O U 0 0 100 200 300 400 500 600 700 800 GRÁFICO 4 MÉDIAS DAS VOGAIS ANALISADAS (F2 X F1) FONTE: O autor (2013)

O sistema desenvolvido para realizar o reconhecimento é apresentado na figura 3 no apêndice C. Após clicar no botão Iniciar Teste uma pessoa deve falar no microfone uma das vogais. Em poucos segundos o sistema faz todos os cálculos e indica qual vogal foi falada e apresenta um gráfico com a posição das formantes. 4 CONCLUSÃO Neste estudo foi possível comprovar que as frequências formantes podem ser utilizadas como padrões para identificação de vogais com precisão. O mais interessante é que foi constatado que um número muito grande de informações confunde o sistema. De início foi decidido que seriam analisadas as cinco primeiras frequências formantes do sinal. Mas, os testes mostraram que tantas informações não trazem um resultado mais preciso, como era pensado anteriormente. Assim, pode-se dizer que ao estabelecer padrões para reconhecer vogais apenas as duas primeiras formantes são necessárias e relevantes, as demais não aumentam a precisão. De modo similar, os testes com o método do vizinho mais próximo foram satisfatórios. O algoritmo desenvolvido com esse método pôde identificar e classificar corretamente as vogais em quase todos os testes. A precisão do sistema desenvolvido foi similar aos valores obtidos nos testes com o Weka. De forma geral o projeto foi um sucesso. O sistema foi desenvolvido e está funcionando corretamente. Mas há ainda algumas melhorias que precisam ser implantadas. Há somente os dados para vozes masculinas. Como sugestão de trabalhos futuros é sugerida a expansão para vozes femininas para deixar o sistema mais completo. Além disso, há margens para melhora na implementação do KNN para deixá-lo mais preciso. E por fim, implementar uma análise em tempo real, ou seja, a medida que uma pessoa falar o sistema indique as vogais que ela disse, sem que haja a necessidade de pressionar um botão para iniciar o teste.

REFERÊNCIAS BERMÚDEZ, Jesús B.; SANCHO, Jesús B.; VILDA, Pedro G.. Reconocimiento de Voz y Fonética Acústica. Madrid: RA-MA, 2000. COSTA, Silvana L. N. C. Análise Acústica, Baseada no Modelo Linear de Produção da Fala, para Discriminação de Vozes Patológicas. 161 f. Tese (Doutorado em Engenharia Elétrica), Universidade Federal de Campina Grande, Campina Grande, 2008. HILLENBRAND, James; GAYVERT; Robert T. Vowel Classification Based on Fundamental Frequency and Formant Frequencies. Disponível: < http://homepages.wmich.edu/~hillenbr/papers/hillenbrandgayvertvowelclassification Hillenbr0AndFormants.pdf> Acessado em: 20/02/2013. NIEDU, Guilherme. Biometria Impressão Vocal. Disponível em: <http://www.gta.ufrj.br/grad/08_1/bio-voz/img/senoide.gif> UCL Department of Phonetics and Linguistics. Lecture 10: Speech Signal Analysis. Disponível em: < http://www.phon.ucl.ac.uk/courses/spsci/matlab/lect10.html> Acessado em: 20/02/2013. VALENTIM, Amanda F.; CORTES, Marcela G.; GAMA, Ana Cristina C. Análise espectrográfica da voz: efeito do treinamento visual na confiabilidade da avaliação. Revista da Sociedade Brasileira de Fonoaudiologia, 2010. WEKA Waikato Environment for Knowledge Analysis. Weka. Disponível em: <http://www.cs.waikato.ac.nz/ml/weka/>. Acesso em: mai. 2013.

APÊNDICE A DADOS OBTIDOS DAS VOGAIS ANALISADAS A tabela a seguir apresenta todos os valores das formantes 1 e 2 obtidas das vogais que foram captadas nesse estudo. TABELA 1 DADOS OBTIDOS NESSE ESTUDO (continua) F1 F2 F3 DESCRIÇÃO 645,3 1229,94 2458,77 A 570,28 1266,41 2484,49 A 639,16 1250,74 2356,18 A 700,01 1282,66 3420,02 A 752,33 1299,08 3155,09 A 681,26 1248,75 2590,31 A 651,57 1270,17 2813,99 A 672,48 1278,54 2849,12 A 658,37 1276,88 2794,02 A 618,92 1294,79 2722,63 A 653,79 1259,86 2591,72 A 645,84 1305,4 2538,37 A 718,65 1279,33 2639,6 A 684,14 1260,05 2519,43 A 838,96 1430,98 2405,05 A 840,68 1429,4 2437,31 A 834,81 1412,33 2375,95 A 715,78 1268,2 2608,79 A 700,82 1254,39 2580,31 A 693,26 1280,46 2604,83 A 722,74 1298,47 2435,21 A 725,69 1314,48 2377,15 A 755,31 1317,32 2431,23 A 426,73 1240,46 2689,7 A 730,04 1278,85 2634,3 A 712,66 1235,08 2733,5 A 793,45 1298,89 2801,6 A 800,2 1285,35 2465,65 A 816,26 1276,43 2600,98 A 698,55 1334,96 2543,84 A 747,44 1282,88 2481,02 A 764,36 1265,5 2504,2 A 758,67 1313,81 2385,74 A 776,89 1350,21 2465,71 A 831,96 1339,46 2492,39 A 832,05 1399,63 2594,46 A 792,3 1440,19 2799,93 A 843,65 1463,79 2733,17 A

TABELA 1 DADOS OBTIDOS NESSE ESTUDO (continuação) F1 F2 F3 DESCRIÇÃO 695,7 1223,39 2438,17 A 686,63 1246,77 2555,07 A 685,72 1261,54 2484,9 A 593,31 1191,68 2227,2 A 605,54 1207,69 2233,3 A 592,97 1206,75 2285,86 A 698,55 1348,1 2374,24 A 719,16 1317,66 2372,22 A 713,6 1343,78 2328,81 A 603,67 1200,74 2857,31 A 634,09 1224,63 2717,82 A 676,09 1237,04 2747,67 A 694 1220,55 2528,76 A 740,31 1221,83 2542,05 A 726,71 1231,15 2470,08 A 448,36 1867,08 2479,17 EH 466,9 1868,63 2520,46 EH 459,81 1847,93 2433,22 EH 462,08 1800,67 2639,64 EH 455,29 1793,02 2414,08 EH 476,61 1831,64 2862,78 EH 539,05 1668,83 2570,94 EH 535,35 1691,73 2606,6 EH 530,69 1644,2 2514,99 EH 520,86 1837,76 2669,41 EH 525,8 1829,76 2582,99 EH 545,74 1805,96 2657,56 EH 514,07 1768,14 2547,35 EH 494,69 1835,38 2513,07 EH 531,82 1799,69 2560,07 EH 535,75 2076,12 2918,87 EH 548,9 2054,35 2819,3 EH 556,57 2045,97 2812,13 EH 473,83 1883,13 2580,68 EH 473,52 1920,49 2570,49 EH 464,66 1960,94 2616,14 EH 450,45 1861,46 2635,06 EH 442,21 1873,67 2667,18 EH 448,81 1905,86 2689,38 EH 466,27 1992,86 2693,7 EH 468,27 1958,53 2712,01 EH 444,87 1999,68 2781,7 EH 475,27 1915,48 2555,52 EH

TABELA 1 DADOS OBTIDOS NESSE ESTUDO (continuação) F1 F2 F3 DESCRIÇÃO 479,5 1956,61 2513,87 EH 510,81 1916,23 2601,52 EH 512,34 1819,09 2649,3 EH 512,28 1844,67 2680,66 EH 462,2 1929,7 2755,42 EH 553,08 1811,64 2670,12 EH 542,24 1738,35 2495,98 EH 536,74 1729,35 2487,68 EH 521,83 1898,10 2668,23 EH 518,72 1887,31 2442,44 EH 495,46 1899 2454,2 EH 466,48 1849,71 2613,42 EH 461,58 1860,54 2571,59 EH 468,12 1917,58 2655,88 EH 520,04 1629,32 2304,75 EH 500,23 1600,05 2211,36 EH 432,81 1721,23 2304,39 EH 524,1 1766,32 2411,37 EH 541,46 1750,83 2557,2 EH 518,71 1767,07 2492,37 EH 412,16 1808,69 2515,35 EH 462,26 1729,37 2447,25 EH 465,83 1810,25 2489,56 EH 454,1 1947,28 2587,94 EH 453,85 1943,09 2596,16 EH 453,88 1913,98 2569,42 EH 296,99 2097,96 2753,71 E 305,3 2081,7 2706 E 292,13 2075,7 2736,63 E 293,23 2072,53 2773,68 E 302,4 2015,01 2738,22 E 296,21 1999,21 2744,94 E 362,95 1860,52 2473,02 E 369 1870,66 2532,02 E 348,42 1870,96 2510,5 E 334,99 2040,53 2733,7 E 333,76 2082,91 2725,5 E 330,8 2039,11 2702,6 E 330,07 2030,14 2712,14 E 314,57 1968,2 2709,26 E 316,19 2036,03 2781,77 E 330,67 2143,46 2933,66 E 313,41 2226,95 3058,26 E

TABELA 1 DADOS OBTIDOS NESSE ESTUDO (continuação) F1 F2 F3 DESCRIÇÃO 310,78 2204,16 3039,64 E 283,51 2171,53 2784,15 E 301,3 2081,07 2694,56 E 317,71 2084,74 2616,08 E 325,15 1960,33 2833,3 E 331,26 1929,43 2824,52 E 323,86 1983,04 2878,96 E 295,77 2272,83 2911,22 E 301,44 2259,37 2953,76 E 304,79 2195,63 2920,12 E 340,12 2188,24 2729,66 E 327,02 2331,94 2775,83 E 320,97 2208,18 2797,08 E 366,06 1952,05 2905,88 E 379,74 1855,85 2878,97 E 334,44 1872,04 2766,89 E 324,31 1913,08 2784,98 E 295,13 1954,25 2859,06 E 326,37 2117,85 2736,29 E 349,96 2012,57 2648,57 E 329,69 2074,25 2723,24 E 304,11 1966,14 2817,73 E 311,58 1984,97 2789,85 E 307,15 2023,38 2887,91 E 351,64 1815,25 2478,86 E 343,01 1833,54 2423,39 E 336,73 1847,97 2520,39 E 326,66 1961,33 2529,15 E 338,48 2079,55 2706,91 E 324,48 2056,23 2743,69 E 302,09 2005,85 2705,69 E 314,62 2029,34 2768,79 E 317,07 2033,77 2689,71 E 311,88 1993,05 2707,29 E 311,16 2031,33 2814,43 E 326,03 2030,95 2755,56 E 232,45 2182,52 3125,37 I 216,03 2199,93 3131,24 I 230,86 2169,93 3018,51 I 236,72 2077,28 2913,91 I 229,38 2063,34 2956,11 I 227,66 2110,58 3129,66 I 293,12 2010,27 2707,9 I

TABELA 1 DADOS OBTIDOS NESSE ESTUDO (continuação) F1 F2 F3 DESCRIÇÃO 283,73 2023,75 2691,88 I 288,41 2018,88 2660,63 I 242,35 2214,31 3114,25 I 246,66 2225,33 3166,26 I 258,58 2273,86 3185,68 I 259,67 2051,54 2929,42 I 252,24 2013,99 2898,78 I 246,51 2077,92 3104,18 I 247,53 2213,98 3186,81 I 246,58 2250,66 3206,17 I 247,68 2206,32 3156,92 I 219,32 2131,63 2987,44 I 218,64 2147,1 2902,97 I 197,24 2170,15 2943 I 187,79 1991,65 3073,42 I 189,01 1905,98 3028,53 I 218,63 1969,58 3002,05 I 225,06 2170,21 3120,15 I 224,66 2155,35 3050,57 I 228,45 2078,55 3047,97 I 237,85 2409,24 3033,34 I 240,72 2400,98 2945,7 I 255,45 2344,3 2947,53 I 256,68 1945,72 3133,3 I 241,84 1997,78 3157,95 I 243,46 1993,82 3175,24 I 235,03 1982,98 3086,12 I 233,66 1956,51 2977,81 I 236,4 1865,41 2979,63 I 242,85 2199,82 3032,45 I 249,3 1464,92 2187,88 I 252,23 2193,53 2987,47 I 250,93 2025,13 3116,4 I 257,73 2085,15 3028,36 I 263,59 2089,8 3056,5 I 243,56 1871,26 2803,76 I 238,24 1875,55 2761,09 I 242,81 1898,45 2818,78 I 247,42 2202,96 2900,66 I 254,5 2201,92 2736,85 I 245,63 2210,5 2968,27 I 243,5 2070,96 3000,79 I 242,44 2146,37 3013,63 I

TABELA 1 DADOS OBTIDOS NESSE ESTUDO (continuação) F1 F2 F3 DESCRIÇÃO 253,68 2041,02 2889,5 I 248,71 2035,32 3084,34 I 257,07 2038,38 3007,82 I 229,12 2061,91 3072,66 I 487,48 833,29 2382,57 OH 473,05 808,79 2447,63 OH 521,51 873,43 2441,07 OH 550,12 888,16 2835,8 OH 535,6 925,65 2664,36 OH 521,93 919,02 2674,27 OH 576,56 1026,4 2720,29 OH 557,41 958,76 2700,07 OH 577,02 965,4 2782,54 OH 544,51 929,09 2278,36 OH 554,09 940,05 2328,97 OH 532,97 943,73 2295,49 OH 529,1 796,25 2724,35 OH 541 821,26 2660,93 OH 546,6 847,77 2702,48 OH 531,14 943,9 2512,81 OH 555,45 986,04 2419,97 OH 591,97 1025,23 2417,6 OH 489,76 747,52 2609,9 OH 466,07 807,17 2563,61 OH 469,52 842,92 2597,75 OH 565,97 869,19 2394,14 OH 580,14 843,11 2426,66 OH 549,34 881,47 2457,63 OH 462,55 790,33 2754,78 OH 447,35 781,72 2630,84 OH 491,72 836,86 2651,75 OH 518,17 873,87 2841,04 OH 534,22 854,15 2912,23 OH 512,36 865,46 2576,56 OH 548,49 894,4 2712,39 OH 563,96 888,06 2536,16 OH 581,81 946,33 2527,14 OH 537,27 907,68 2385,71 OH 554,97 882,54 2551,36 OH 537,25 856,38 2639,48 OH 599,74 978,93 2782,05 OH 574,26 974,34 2358,76 OH 549,52 951,17 2307,53 OH

TABELA 1 DADOS OBTIDOS NESSE ESTUDO (continuação) F1 F2 F3 DESCRIÇÃO 517,5 833,4 2416,29 OH 495,83 823,32 2224,48 OH 500,82 849,75 2176,18 OH 526,49 970,17 2243,33 OH 513,23 972,19 2215,64 OH 498,28 929,12 2239,68 OH 530,64 935,58 2467,99 OH 567,14 991,47 2374,61 OH 532,07 948,3 2479,65 OH 541,22 921,35 2759,04 OH 517,86 916,65 2793,76 OH 511,48 930,67 2758,12 OH 491,25 835,73 2491,12 OH 489,05 805,14 2460,03 OH 479,03 804,89 2477,79 OH 282,22 653,65 2362,58 O 284,53 690,39 2354,99 O 288,47 637,87 2331,6 O 352,64 801,67 2657,08 O 322,96 745,43 2434,28 O 324,29 668,05 2572,99 O 366,48 801,96 2550,48 O 374,02 792,38 2516,18 O 395,51 815,63 2518,87 O 341,23 772,67 2188,35 O 348,47 780,09 2255 O 336,44 756,99 2240,59 O 328,11 682,44 2636,1 O 323,64 691,73 2614,44 O 327,28 676,77 2645,05 O 328,89 821,56 2507,21 O 338,76 818,37 2475,3 O 355,19 813,66 2477,88 O 339,69 741,14 2463,21 O 293,98 639,77 2464,45 O 267,97 586,37 2543,28 O 301,06 644,27 2486,48 O 286,23 655,38 2464,17 O 271,76 615,36 2446,89 O 311,71 641,85 2671,86 O 245,69 344,34 2648,6 O 142,68 348,23 2106,55 O 304,39 635,84 2691,79 O

TABELA 1 DADOS OBTIDOS NESSE ESTUDO (continuação) F1 F2 F3 DESCRIÇÃO 347,14 672,34 2608,01 O 348,91 640,74 2466,26 O 390,61 780,97 2622,13 O 398,7 767,13 2538,42 O 381,48 764,13 2757,33 O 288,01 694,44 2300,36 O 253,43 663,56 2140,42 O 271,1 720,71 2174,8 O 288,01 694,44 2300,36 O 349,04 874,2 2320,26 O 363,18 854,39 2312,82 O 379,26 864,24 2260,38 O 334,15 755,55 2235,75 O 330,8 780,45 2217,14 O 360,48 718,69 2320,13 O 407,12 789,25 2276,52 O 409,32 795,91 2279,42 O 374,76 746,09 2335,19 O 349,12 755,98 2755,89 O 377,75 785,79 2555,36 O 354,56 749,72 2579,52 O 343,29 737,73 2381,11 O 327,13 716 2433,31 O 297,2 708,76 2439,13 O 336,87 711,79 2538,64 O 340,9 712,51 2556,16 O 316,23 705,25 2571,48 O 218,9 706,22 2412,35 U 201,48 656,27 2365,97 U 202,5 673,11 2310,01 U 230,81 641,75 2298,84 U 229,81 568,72 2276,42 U 224,27 633,65 2365,09 U 253,98 719,53 2319,01 U 264,27 752,82 2355,71 U 260,58 707,56 2302,13 U 211,04 494,72 2239,17 U 234,73 702,08 2186,41 U 253,36 651,8 2133,95 U 225,46 524,25 2436,12 U 240,7 580,33 2412,77 U 240,03 563,53 2399,48 U 205,65 616,25 2298,79 U

TABELA 1 DADOS OBTIDOS NESSE ESTUDO (conclusão) F1 F2 F3 DESCRIÇÃO 209,71 659,2 2285,38 U 204,58 700,94 2315,16 U 221,37 606,72 2232,77 U 233,84 689,14 2120,03 U 214,72 542,89 2411,87 U 157,4 446,99 1745,8 U 167,74 497,3 2198,32 U 143,84 592,91 1914,5 U 232,28 522,86 2615,91 U 250,27 666,82 2535,41 U 232,28 522,86 2615,91 U 251,37 657,16 1193,15 U 249,7 618,04 2664,78 U 211,91 622,6 1374,19 U 251,34 744,51 2842,12 U 230,51 655,47 2631,91 U 225,13 597,73 2010,6 U 208,15 602,51 2187,71 U 221,77 655,86 2077,63 U 208,14 632,13 2175,54 U 214,53 682,98 2182,92 U 143,04 600,55 2026,83 U 248,98 640,56 2228,45 U 279,12 787,81 2256,53 U 226,26 645,65 2322,2 U 221,14 494,35 2279,25 U 221,12 516,7 2277,32 U 234,43 627,87 2319,6 U 270,71 666,26 2567,25 U 231,74 651 2954,66 U 222,17 605,84 2852,35 U 273,05 669,26 2402,89 U 245 610,96 2403,87 U 251,76 624,81 2319,62 U 211,62 687,43 2824,4 U 233,32 622,78 1319,14 U 210,71 550,14 2364,21 U FONTE: O autor (2013)

APÊNDICE B BASE DE DADOS WEKA A seguir é apresentado o banco de dados que foi utilizado. Conforme já mencionado, as sete primeiras linhas se referem as médias de cada vogal, sendo seguido de todos os dados. O banco foi elaborado da seguinte forma: as duas primeiras colunas são os valores das formantes 1 e 2, respectivamente. A última coluna é a classificação do dado de cada linha, ou seja, a indicação da vogal. Estabeleceu-se como padrão que as vogais fossem representadas pelos números de zero a seis, onde: /a/ é representado pelo 0, /eh/ sendo 1, /ê/ sendo 2, /i/ sendo 3, /oh/ sendo 4, /o/ sendo 5 e /u/ sendo 6. % Título: Listas das formantes das sete vogais % % Fontes: % (a) Leonardo Paim, Leonardo Tavares % (b) Data: fevereiro, 2013 % @RELATION formantes @ATTRIBUTE f1 REAL @ATTRIBUTE f2 REAL @ATTRIBUTE f3 REAL @ATTRIBUTE f4 REAL @ATTRIBUTE f5 REAL @ATTRIBUTE cluster REAL @DATA 685.1,1289.8,2483.1,3492.2,3859.1,0 754.1,1284.1,2312.2,3543.6,3814.1,0 697.8,1317.2,2295.5,3459.9,4730.2,0 724,1275.5,2550.5,3453.6,3860.5,0 748.7,1345.6,2802.2,3638.2,4566.7,0 470.3,1869,2485,3543.3,4085.2,1 516,1810.7,2548.3,3296.2,3725.1,1 491.7,1839.4,2435.9,3536.4,4414,1 467,1828.3,2553.6,3297,3727.8,1 552.5,1909.2,2692.5,3522.4,3982,1 317.6,2034.8,2644.4,3425.4,4009.6,2 335.4,1997.9,2699.5,3256.6,3832.4,2 305,2048.2,2772.3,3671.2,4592.8,2 314.8,1931.5,2783.7,3266.2,3789.6,2 319.8,2131.5,2873.3,3376.6,3936,2 238.4,2090.4,2915.8,3378.3,3895.7,3 270.3,2078.3,3074.9,3528.8,3842.1,3 238.8,2143.9,3120.6,3737.3,4663.6,3 254.3,1981.5,3057,3363.8,4140.7,3 237.2,2293.1,3177.5,3626,4223.7,3 511.5,809.7,2440,3274.2,3919.5,4

538.7,840.2,2547.9,3861.7,3910.2,4 576.2,955.9,2398.6,3189.2,4130,4 528.3,840.6,2288.5,3331.3,3644.7,4 560.7,900.9,2708.7,3062.7,3609.7,4 267.4,580.6,2198.3,3191.9,3784.4,5 320.7,672.1,2626.5,3342.1,3854.6,5 393.8,760.5,2470.9,3280.3,4252.5,5 349.3,791.5,2116.7,3159.9,3634.8,5 343.2,738.4,2292.4,3113.8,3845.5,5 212.6,602.2,2194.7,3232.6,3781.7,6 235.2,541.5,2300.1,3178,3524.6,6 269.2,747.4,2363.8,3436.4,4294,6 230.5,673.5,1868,3097.6,3158,6 197.4,529.5,2162.5,3007.8,3851,6

APÊNDICE C TELA DO PROGRAMA DESENVOLVIDO FIGURA 3 CAPTURA DA TELA DO PROGRAMA DESENVOLVIDO FONTE: O autor (2013)