Palavras-chave: Processamento Digital de Sinais. Reconhecimento de Vogais. Frequências Formantes.

RECONHECIMENTO DE VOGAIS ATRAVÉS DE TÉCNICAS DE PROCESSAMENTO DIGITAL DE SINAIS E APRENDIZAGEM DE MÁQUINA Leonardo Dalla Porta Paim 1 ; Leonardo Gomes Tavares 2 RESUMO Este projeto busca desenvolver um sistema que seja capaz de reconhecer vogais faladas. Para isso é preciso identificar um padrão entre elas para que o sistema possa comparar o que foi dito com os dados coletados e catalogados. Estes dados são adquiridos através de gravações de áudio de vários locutores com pronuncias das sete vogais da língua portuguesa. Depois são calculadas as frequências formantes de cada áudio, que são usadas como parâmetros de identificação. As formantes são obtidas através de um método matemático chamado LPC (Linear Predictive Coding), que utiliza a transformada de Fourier. Por mais que o timbre de voz de cada pessoa é diferente, isso não interfere consideravelmente nos valores das formantes. Os testes comprovaram que as frequências de cada locutor ficam próximas aos dos outros. O processo de classificação utiliza um método de lógica conhecido como KNN (K Nearest Neighbors), ou os K vizinhos mais próximos. O sistema analisa as frequências do som captado e calcula a distância entre todos os dados mais relevantes. Em seguida, ele separa os k vizinhos, ou dados, mais próximos, nesse caso 100. O maior registro de certa vogal entre esses 100 dados indica qual vogal foi falada pelo locutor. Os resultados revelaram informações valiosas ao selecionar o padrão de reconhecimento, bem como no método de análise para a classificação das vogais. Palavras-chave: Processamento Digital de Sinais. Reconhecimento de Vogais. Frequências Formantes. INTRODUÇÃO Nos últimos anos a indústria tem procurado desenvolver produtos que interajam de uma forma mais natural possível com o usuário. Tanto que é cada vez mais comum encontrar smartphones ou tablets com telas sensíveis ao toque e, mais recentemente, com comando de voz. Mas esse tipo de tecnologia ainda têm sido muito utilizada apenas para questões de luxo, não visando muito o conforto ou um auxílio para as pessoas. Por sua vez, essas novas tecnologias têm ajudado muitas pessoas com deficiências físicas ou motoras a também terem a oportunidade de usufruir desses 1 Aluno do 3º ano do curso de Engenharia Elétrica da Universidade Positivo. E-mail: leonardopaim@up.com.br. Voluntário do Programa de Iniciação Científica (PIC) da UP. 2 Professor do curso de Engenharia Elétrica da Universidade Positivo. Mestre em Engenharia Elétrica e Informática Industrial. E-mail: leonardo.tavares@up.com.br

aparelhos. Analisando dessa forma, os comandos de voz ou toque deixam de ser luxo para serem considerados ferramentas importantes. Já que isso tem funcionado muito bem com aparelhos eletrônicos, agora os pesquisadores têm buscado formas de incluir essas tecnologias no dia a dia das pessoas, que estejam diretamente ligadas a tarefas essenciais. Visto que o comando de voz é a forma mais natural de uma pessoa interagir com outra, houve um aumento considerável em pesquisas nessa área. Mas, realizar um reconhecimento de voz não é uma tarefa trivial, pois envolve captar um sinal analógico, processá-lo para um sinal digital, e então fazer as operações de reconhecimento. Em vista disso, este projeto, realizado durante um período aproximado de um ano, buscou formas de realizar esse processo de captação e reconhecimento das sete vogais da língua portuguesa. 1 REVISÃO BIBLIOGRÁFICA 1.1 CARACTERÍSTICAS DOS SINAIS O som das palavras, ao ser analisado de forma matemática, é encarado como um sinal. Basicamente um sinal é uma função que representa e vincula informações sobre a natureza de um fenômeno físico. Todos os sinais possuem características específicas que os distinguem uns dos outros. Uma dessas características é a frequência do sinal, cuja unidade é Hertz (Hz). A frequência é o inverso do período do sinal, ou seja, o tempo em que ele leva para repetir um ciclo de comportamento. A figura 1 é a representação gráfica de uma função seno, a mais simples e conhecidas dentre os sinais. Como pode ser observado, duas divisões antes da divisão indicada como 8 segundos (s) o sinal passa a se repetir, ou seja, inicia-se um novo ciclo. A duração desses ciclos que é o período do sinal. Outra característica importante é a amplitude, ou seja, a altura do sinal. No caso da figura 1, a amplitude dessa senoide é de valor 1.

FIGURA 1 GRÁFICO DE UMA FUNÇÃO SENO FONTE: NIEDU (2013) 1.2 MÉTODOS DE ANÁLISE DO SOM Como o som produz um sinal analógico, há a necessidade de transformar esse sinal analógico para um sinal digital, pois somente nessa forma ele pode ser analisado. Um dos passos dessa transformação é realizar uma operação matemática no sinal conhecida como transformada de Fourier. Ela foi criada por um matemático francês chamado Jean-Baptiste Joseph Fourier que descobriu que qualquer sinal, não importa seu formato ou frequência, pode ser representado por uma soma de senos e cossenos de diferentes frequências. Dentre esse conjunto de senoides é possível identificar a frequência fundamental do sinal, que é a menor frequência dentre todas as senoides calculadas. Assim, ao receber o sinal de áudio, o processador realiza a transformada de Fourier nele, pois é muito mais fácil trabalhar com funções senoidais do que com o sinal original propriamente dito. 1.2.1 Reconhecimento de Voz

O som e a percepção dele pelo ser humano é algo que intriga muitos cientistas. Ainda não se sabe ao certo como o nosso cérebro consegue traduzir a vibração dos nossos ouvidos produzidos pelo som para uma forma em que entendemos o que significa esse barulho. Nos últimos anos muitos pesquisadores tem tentado desenvolver sistemas automatizados que sejam capazes de reconhecer o que uma pessoa diz. Recentemente houve grandes avanços significativos nessa área. Mas um dos maiores impedimentos ainda é desenvolver equipamentos que sejam capazes de fazerem esse reconhecimento facilmente, na verdade é um dos problemas mais complexos em que cientistas e engenheiros enfrentam (Bermúdez, et al). Criar um sistema que seja capaz de identificar um comando de mais de uma pessoa é um grande desafio, pois é necessário analisar a amplitude e a frequência geral de determinado comando, além de desenvolver um algoritmo que seja capaz de comparar as características de cada fonema. Como foi discutido anteriormente, um sinal é o resultado da soma de várias senoides de frequências diferentes. Assim o sinal da voz possui várias frequências além da frequência fundamental. Essas outras são chamadas de frequências formantes. Basicamente elas indicam em que frequências foram produzidos picos de energia. Na da figura 2 está sendo apresentado uma representação do sinal de uma vogal e as frequências formantes desse sinal. Como a posição dos formantes varia pouco de um locutor para outro, são eles que diferenciam uma vogal ou outras letras umas das outras. Existem vários métodos matemáticos para a identificação desses valores. Entre os mais conhecidos estão à análise linear e a logarítmica. O método logarítmico é muito eficaz e confiável por ser capaz de reconhecer uma largura de banda maior. Há fortes indícios que o sistema de percepção humano de som utiliza uma técnica similar a essa. A análise linear, no entanto, é mais simples e fácil de ser aplicada. Por mais que não seja a mais precisa, ela tem bons resultados. Em um estudo realizado em 1993, James Hilenbrand e Robert T. Gayvert, ao analisarem os mais comuns métodos de análise de frequência, perceberam que quando se trata de vogais a análise logarítmica não traz grandes vantagens sobre a linear. Neste mesmo estudo foi verificado que a forma mais eficaz de realizar o reconhecimento era por analisar as posições das frequências de forma separada,

em vez de analisar a distância entre os formantes, que era um dos métodos mais utilizados. FIGURA 2 REPRESENTAÇÃO DO SINAL SONORO COM SUAS RESPECTIVAS FORMANTES FONTE: O AUTOR (2013). As frequências formantes da figura 2 foram calculadas através de um método matemático chamado Codificação por Predição Linear (LPC). Ele leva em conta que a produção da voz é feita de forma linear, e trata os sinais dessa forma. Basicamente ele recebe o sinal original e estima os valores através de uma combinação linear de n amostras anteriores desse sinal. (COSTA, 2008, p. 77) Dentre todos os outros métodos matemáticos, a LPC é o mais confiável e eficaz para ser aplicado nesse tipo de análise.

1.3 MÉTODO DO VIZINHO MAIS PRÓXIMO Existem várias lógicas de programação para realizar a classificação de grupos distintos tanto em níveis fáceis de programação, como árvores de decisão, até métodos complexos como a de redes neurais, que tentam simular o funcionamento do cérebro humano. Entre elas há um método com uma confiabilidade similar a das redes neurais com uma facilidade da árvores. Este é o método do vizinho mais próximo. A classificação de uma nova informação é realizada considerando as classificações dos dados catalogados mais próximos desse sinal. 2500 2000 1500 1000 500 A EH E I OH O U A ser descoberto 0 0 100 200 300 400 500 600 700 800 GRÁFICO 1 ILUSTRAÇÃO VIZINHO MAIS PRÓXIMO FONTE: O autor (2013) O gráfico 1 ilustra como é feita essa análise. Ele contém alguns 15 dos quase 380 dados obtidos. Supondo que a vogal que foi captada pelo sistema fique na posição do ponto bordô no gráfico. O algoritmo irá calcular a distância de todos os outros pontos com este dado que está sendo analisado. Em seguida ele analisa os k vizinhos mais próximos dessa ponto, onde k é um número inteiro qualquer. Depois é verificado quais são os grupos desses vizinhos. Supondo que fosse escolhido analisar os cinco vizinhos mais próximo. Ao

calcular as distâncias haveria como cinco vizinhos mais próximos quatro dados da vogal /o/ e um da vogal /u/. Como a vogal /o/ tem mais vizinhos próximos da que está sendo analisada, chega-se à conclusão de que a vogal que foi falada e captada pelo sistema foi /o/. 850 800 750 700 650 600 550 O U A ser descoberto 500 450 400 150 200 250 300 350 400 450 GRÁFICO 2 MÉTODO DO CÁLCULO DA DISTÂNCIA FONTE: O autor (2013) A forma com que são calculadas as distâncias entre a vogal falada com os dados obtidos é realizado através da distância euclidiana. A distância entre eles é a hipotenusa de um triângulo que pode ser formado entre os pontos, como pode ser observado no gráfico 2. De modo geral, a equação que encontra a distância entre as formantes é dada pela equação 1. d= (f1-f1 ) 2 +(f2-f2 ) 2 (1) Onde: d a distância entre os pontos, f1 valor da formante 1 da vogal a ser analisada,

f1 valor da formante 1 de um dos pontos do banco de dados, f2 - valor da formante 2 da vogal a ser analisada, f2 valor da formante 2 de um dos pontos do banco de dados. Quando há poucas informações sobre cada grupo pode não ser um método muito seguro. Mas, quando há um número considerável de dados, o método do k vizinho mais próximo (knn) é um excelente método de classificação. 2 PROCEDIMENTOS METODOLÓGICOS Para iniciar os testes foram gravadas as sete vogais da língua portuguesa (/a/, /eh/, /e/, /i/, /oh/, /o/ e /u/) para selecionar os padrões e métodos de classificação mais adequados. Dezoito voluntários homens pronunciaram três vezes as vogais. Os equipamentos utilizados para a captação e gravação do áudio foram: a) Mac Book Pro; b) Interface de gravação EDIROL F-101 com interface firewire; c) Microfone SHURE SM-57; d) Software AUDACITY 2.0.2. Os dados foram captados numa frequência de amostragem de 44100 Hz numa resolução de gravação de 24 bits. Depois cada vogal foi salva em arquivos separados de áudio do tipo.wav. Após coletados os dados, eles foram analisados num algoritmo desenvolvido no software MATLAB 6.5 pela UCL Department of Phonetics and Linguistics. O algoritmo abre o arquivo de áudio e o analisa usando o método LPC, apresentando separadamente as posições das formantes. Depois de analisado, os dados são coletados, separados e catalogados de acordo com a vogal que representam. Os dados foram salvos num arquivo.txt. As sete primeiras linhas são as médias das formantes de cada vogal seguida do número que representa a vogal. A escolha do método de classificação ocorreu com o auxílio de um software chamado Weka produzido pela universidade de Waikato na Nova Zelândia. O Weka faz a mineração dos dados, ou seja, ele analisa o comportamento de vários métodos de classificação, entre eles as árvores de decisão, redes neurais e outros. O Weka possui os algoritmos de cada método e analisa o desempenho deles para o banco

de dados fornecido. O apêndice B apresenta o arquivo que foi utilizado para essa análise. Com base nesses dados foi desenvolvido o método do KNN para realizar o reconhecimento das vogais. O algoritmo recebe o sinal da vogal e extrai as suas formantes. Em seguida ele abre o banco de dados e calcula a distância de cada dado com a vogal captada e coloca os dados em ordem crescente da menor para a maior distância. Depois são analisados os grupos dos 100 dados (ou vizinhos) mais próximos. A análise é concluída analisando o grupo que possui mais dados próximos, que indica qual vogal foi falada. 3 RESULTADOS OBTIDOS No apêndice A é apresentada uma tabela com todos os dados coletados das vogais estudadas. O gráfico 3 é composto de todos os valores que foram obtidos. Nesse gráfico os pontos foram definidos na relação que há entre a primeira e segunda formante. No total, cada vogal tem 54 dados das formantes 1 e 2. Como pode ser observado no gráfico, as vogais possuem posições distintas, apesar de próximas, umas das outras. Isso comprova que as frequências formantes podem ser utilizadas para realizar a classificação de um sinal. Dentre todas as vogais, pode-se observar que a vogal /oh/ é a mais distinta das outras, pois suas posições são tão próximas que parecem haver poucos dados. No gráfico 4 é a representação das médias dos valores de cada vogal. Ao comparar ambos os gráficos nota-se mais claramente a distinção que há entre cada vogal com relação as suas frequências formantes. Os teste realizados no Weka foram conclusivos e surpreendentes. Utilizando um método de árvore de decisão, chamado no software como J48, automaticamente apenas as duas primeiras formantes das cinco foram analisadas. Esse método apresentou uma precisão de 82,857% de acerto. Outro método analisado foi o Multilayer Perceptron, que simula uma rede neural. Ao analisar as cinco formantes, o método teve uma precisão de 82,875%, similar ao J48. No entanto, ao utilizar apenas as três primeiras formantes a precisão aumentou para 94,285%.

F2 (Hz) Por fim, foi analisado o método do vizinho mais próximo, ou KNN. Esse método obteve uma precisão de 68,57% considerando as cinco formantes. Mas, ao analisar com as duas ou as três primeiras frequências formantes a precisão melhorou muito, chegando a 97,14%. 2700 2200 1700 A EH Ê 1200 I OH 700 Ô 200 100 200 300 400 500 600 700 800 900 F1 (Hz) U GRÁFICO 3 POSIÇÃO DAS FORMANTES (F2 X F1) DE TODAS AS VOGAIS CAPTURADAS FONTE: O autor (2013) 2500 2000 1500 1000 500 A EH E I OH O U 0 0 100 200 300 400 500 600 700 800 GRÁFICO 4 MÉDIAS DAS VOGAIS ANALISADAS (F2 X F1) FONTE: O autor (2013)

O sistema desenvolvido para realizar o reconhecimento é apresentado na figura 3 no apêndice C. Após clicar no botão Iniciar Teste uma pessoa deve falar no microfone uma das vogais. Em poucos segundos o sistema faz todos os cálculos e indica qual vogal foi falada e apresenta um gráfico com a posição das formantes. 4 CONCLUSÃO Neste estudo foi possível comprovar que as frequências formantes podem ser utilizadas como padrões para identificação de vogais com precisão. O mais interessante é que foi constatado que um número muito grande de informações confunde o sistema. De início foi decidido que seriam analisadas as cinco primeiras frequências formantes do sinal. Mas, os testes mostraram que tantas informações não trazem um resultado mais preciso, como era pensado anteriormente. Assim, pode-se dizer que ao estabelecer padrões para reconhecer vogais apenas as duas primeiras formantes são necessárias e relevantes, as demais não aumentam a precisão. De modo similar, os testes com o método do vizinho mais próximo foram satisfatórios. O algoritmo desenvolvido com esse método pôde identificar e classificar corretamente as vogais em quase todos os testes. A precisão do sistema desenvolvido foi similar aos valores obtidos nos testes com o Weka. De forma geral o projeto foi um sucesso. O sistema foi desenvolvido e está funcionando corretamente. Mas há ainda algumas melhorias que precisam ser implantadas. Há somente os dados para vozes masculinas. Como sugestão de trabalhos futuros é sugerida a expansão para vozes femininas para deixar o sistema mais completo. Além disso, há margens para melhora na implementação do KNN para deixá-lo mais preciso. E por fim, implementar uma análise em tempo real, ou seja, a medida que uma pessoa falar o sistema indique as vogais que ela disse, sem que haja a necessidade de pressionar um botão para iniciar o teste.

REFERÊNCIAS BERMÚDEZ, Jesús B.; SANCHO, Jesús B.; VILDA, Pedro G.. Reconocimiento de Voz y Fonética Acústica. Madrid: RA-MA, 2000. COSTA, Silvana L. N. C. Análise Acústica, Baseada no Modelo Linear de Produção da Fala, para Discriminação de Vozes Patológicas. 161 f. Tese (Doutorado em Engenharia Elétrica), Universidade Federal de Campina Grande, Campina Grande, 2008. HILLENBRAND, James; GAYVERT; Robert T. Vowel Classification Based on Fundamental Frequency and Formant Frequencies. Disponível: < http://homepages.wmich.edu/~hillenbr/papers/hillenbrandgayvertvowelclassification Hillenbr0AndFormants.pdf> Acessado em: 20/02/2013. NIEDU, Guilherme. Biometria Impressão Vocal. Disponível em: <http://www.gta.ufrj.br/grad/08_1/bio-voz/img/senoide.gif> UCL Department of Phonetics and Linguistics. Lecture 10: Speech Signal Analysis. Disponível em: < http://www.phon.ucl.ac.uk/courses/spsci/matlab/lect10.html> Acessado em: 20/02/2013. VALENTIM, Amanda F.; CORTES, Marcela G.; GAMA, Ana Cristina C. Análise espectrográfica da voz: efeito do treinamento visual na confiabilidade da avaliação. Revista da Sociedade Brasileira de Fonoaudiologia, 2010. WEKA Waikato Environment for Knowledge Analysis. Weka. Disponível em: <http://www.cs.waikato.ac.nz/ml/weka/>. Acesso em: mai. 2013.

APÊNDICE A DADOS OBTIDOS DAS VOGAIS ANALISADAS A tabela a seguir apresenta todos os valores das formantes 1 e 2 obtidas das vogais que foram captadas nesse estudo. TABELA 1 DADOS OBTIDOS NESSE ESTUDO (continua) F1 F2 F3 DESCRIÇÃO 645,3 1229,94 2458,77 A 570,28 1266,41 2484,49 A 639,16 1250,74 2356,18 A 700,01 1282,66 3420,02 A 752,33 1299,08 3155,09 A 681,26 1248,75 2590,31 A 651,57 1270,17 2813,99 A 672,48 1278,54 2849,12 A 658,37 1276,88 2794,02 A 618,92 1294,79 2722,63 A 653,79 1259,86 2591,72 A 645,84 1305,4 2538,37 A 718,65 1279,33 2639,6 A 684,14 1260,05 2519,43 A 838,96 1430,98 2405,05 A 840,68 1429,4 2437,31 A 834,81 1412,33 2375,95 A 715,78 1268,2 2608,79 A 700,82 1254,39 2580,31 A 693,26 1280,46 2604,83 A 722,74 1298,47 2435,21 A 725,69 1314,48 2377,15 A 755,31 1317,32 2431,23 A 426,73 1240,46 2689,7 A 730,04 1278,85 2634,3 A 712,66 1235,08 2733,5 A 793,45 1298,89 2801,6 A 800,2 1285,35 2465,65 A 816,26 1276,43 2600,98 A 698,55 1334,96 2543,84 A 747,44 1282,88 2481,02 A 764,36 1265,5 2504,2 A 758,67 1313,81 2385,74 A 776,89 1350,21 2465,71 A 831,96 1339,46 2492,39 A 832,05 1399,63 2594,46 A 792,3 1440,19 2799,93 A 843,65 1463,79 2733,17 A

TABELA 1 DADOS OBTIDOS NESSE ESTUDO (continuação) F1 F2 F3 DESCRIÇÃO 695,7 1223,39 2438,17 A 686,63 1246,77 2555,07 A 685,72 1261,54 2484,9 A 593,31 1191,68 2227,2 A 605,54 1207,69 2233,3 A 592,97 1206,75 2285,86 A 698,55 1348,1 2374,24 A 719,16 1317,66 2372,22 A 713,6 1343,78 2328,81 A 603,67 1200,74 2857,31 A 634,09 1224,63 2717,82 A 676,09 1237,04 2747,67 A 694 1220,55 2528,76 A 740,31 1221,83 2542,05 A 726,71 1231,15 2470,08 A 448,36 1867,08 2479,17 EH 466,9 1868,63 2520,46 EH 459,81 1847,93 2433,22 EH 462,08 1800,67 2639,64 EH 455,29 1793,02 2414,08 EH 476,61 1831,64 2862,78 EH 539,05 1668,83 2570,94 EH 535,35 1691,73 2606,6 EH 530,69 1644,2 2514,99 EH 520,86 1837,76 2669,41 EH 525,8 1829,76 2582,99 EH 545,74 1805,96 2657,56 EH 514,07 1768,14 2547,35 EH 494,69 1835,38 2513,07 EH 531,82 1799,69 2560,07 EH 535,75 2076,12 2918,87 EH 548,9 2054,35 2819,3 EH 556,57 2045,97 2812,13 EH 473,83 1883,13 2580,68 EH 473,52 1920,49 2570,49 EH 464,66 1960,94 2616,14 EH 450,45 1861,46 2635,06 EH 442,21 1873,67 2667,18 EH 448,81 1905,86 2689,38 EH 466,27 1992,86 2693,7 EH 468,27 1958,53 2712,01 EH 444,87 1999,68 2781,7 EH 475,27 1915,48 2555,52 EH

TABELA 1 DADOS OBTIDOS NESSE ESTUDO (continuação) F1 F2 F3 DESCRIÇÃO 479,5 1956,61 2513,87 EH 510,81 1916,23 2601,52 EH 512,34 1819,09 2649,3 EH 512,28 1844,67 2680,66 EH 462,2 1929,7 2755,42 EH 553,08 1811,64 2670,12 EH 542,24 1738,35 2495,98 EH 536,74 1729,35 2487,68 EH 521,83 1898,10 2668,23 EH 518,72 1887,31 2442,44 EH 495,46 1899 2454,2 EH 466,48 1849,71 2613,42 EH 461,58 1860,54 2571,59 EH 468,12 1917,58 2655,88 EH 520,04 1629,32 2304,75 EH 500,23 1600,05 2211,36 EH 432,81 1721,23 2304,39 EH 524,1 1766,32 2411,37 EH 541,46 1750,83 2557,2 EH 518,71 1767,07 2492,37 EH 412,16 1808,69 2515,35 EH 462,26 1729,37 2447,25 EH 465,83 1810,25 2489,56 EH 454,1 1947,28 2587,94 EH 453,85 1943,09 2596,16 EH 453,88 1913,98 2569,42 EH 296,99 2097,96 2753,71 E 305,3 2081,7 2706 E 292,13 2075,7 2736,63 E 293,23 2072,53 2773,68 E 302,4 2015,01 2738,22 E 296,21 1999,21 2744,94 E 362,95 1860,52 2473,02 E 369 1870,66 2532,02 E 348,42 1870,96 2510,5 E 334,99 2040,53 2733,7 E 333,76 2082,91 2725,5 E 330,8 2039,11 2702,6 E 330,07 2030,14 2712,14 E 314,57 1968,2 2709,26 E 316,19 2036,03 2781,77 E 330,67 2143,46 2933,66 E 313,41 2226,95 3058,26 E

TABELA 1 DADOS OBTIDOS NESSE ESTUDO (continuação) F1 F2 F3 DESCRIÇÃO 310,78 2204,16 3039,64 E 283,51 2171,53 2784,15 E 301,3 2081,07 2694,56 E 317,71 2084,74 2616,08 E 325,15 1960,33 2833,3 E 331,26 1929,43 2824,52 E 323,86 1983,04 2878,96 E 295,77 2272,83 2911,22 E 301,44 2259,37 2953,76 E 304,79 2195,63 2920,12 E 340,12 2188,24 2729,66 E 327,02 2331,94 2775,83 E 320,97 2208,18 2797,08 E 366,06 1952,05 2905,88 E 379,74 1855,85 2878,97 E 334,44 1872,04 2766,89 E 324,31 1913,08 2784,98 E 295,13 1954,25 2859,06 E 326,37 2117,85 2736,29 E 349,96 2012,57 2648,57 E 329,69 2074,25 2723,24 E 304,11 1966,14 2817,73 E 311,58 1984,97 2789,85 E 307,15 2023,38 2887,91 E 351,64 1815,25 2478,86 E 343,01 1833,54 2423,39 E 336,73 1847,97 2520,39 E 326,66 1961,33 2529,15 E 338,48 2079,55 2706,91 E 324,48 2056,23 2743,69 E 302,09 2005,85 2705,69 E 314,62 2029,34 2768,79 E 317,07 2033,77 2689,71 E 311,88 1993,05 2707,29 E 311,16 2031,33 2814,43 E 326,03 2030,95 2755,56 E 232,45 2182,52 3125,37 I 216,03 2199,93 3131,24 I 230,86 2169,93 3018,51 I 236,72 2077,28 2913,91 I 229,38 2063,34 2956,11 I 227,66 2110,58 3129,66 I 293,12 2010,27 2707,9 I

TABELA 1 DADOS OBTIDOS NESSE ESTUDO (continuação) F1 F2 F3 DESCRIÇÃO 283,73 2023,75 2691,88 I 288,41 2018,88 2660,63 I 242,35 2214,31 3114,25 I 246,66 2225,33 3166,26 I 258,58 2273,86 3185,68 I 259,67 2051,54 2929,42 I 252,24 2013,99 2898,78 I 246,51 2077,92 3104,18 I 247,53 2213,98 3186,81 I 246,58 2250,66 3206,17 I 247,68 2206,32 3156,92 I 219,32 2131,63 2987,44 I 218,64 2147,1 2902,97 I 197,24 2170,15 2943 I 187,79 1991,65 3073,42 I 189,01 1905,98 3028,53 I 218,63 1969,58 3002,05 I 225,06 2170,21 3120,15 I 224,66 2155,35 3050,57 I 228,45 2078,55 3047,97 I 237,85 2409,24 3033,34 I 240,72 2400,98 2945,7 I 255,45 2344,3 2947,53 I 256,68 1945,72 3133,3 I 241,84 1997,78 3157,95 I 243,46 1993,82 3175,24 I 235,03 1982,98 3086,12 I 233,66 1956,51 2977,81 I 236,4 1865,41 2979,63 I 242,85 2199,82 3032,45 I 249,3 1464,92 2187,88 I 252,23 2193,53 2987,47 I 250,93 2025,13 3116,4 I 257,73 2085,15 3028,36 I 263,59 2089,8 3056,5 I 243,56 1871,26 2803,76 I 238,24 1875,55 2761,09 I 242,81 1898,45 2818,78 I 247,42 2202,96 2900,66 I 254,5 2201,92 2736,85 I 245,63 2210,5 2968,27 I 243,5 2070,96 3000,79 I 242,44 2146,37 3013,63 I

TABELA 1 DADOS OBTIDOS NESSE ESTUDO (continuação) F1 F2 F3 DESCRIÇÃO 253,68 2041,02 2889,5 I 248,71 2035,32 3084,34 I 257,07 2038,38 3007,82 I 229,12 2061,91 3072,66 I 487,48 833,29 2382,57 OH 473,05 808,79 2447,63 OH 521,51 873,43 2441,07 OH 550,12 888,16 2835,8 OH 535,6 925,65 2664,36 OH 521,93 919,02 2674,27 OH 576,56 1026,4 2720,29 OH 557,41 958,76 2700,07 OH 577,02 965,4 2782,54 OH 544,51 929,09 2278,36 OH 554,09 940,05 2328,97 OH 532,97 943,73 2295,49 OH 529,1 796,25 2724,35 OH 541 821,26 2660,93 OH 546,6 847,77 2702,48 OH 531,14 943,9 2512,81 OH 555,45 986,04 2419,97 OH 591,97 1025,23 2417,6 OH 489,76 747,52 2609,9 OH 466,07 807,17 2563,61 OH 469,52 842,92 2597,75 OH 565,97 869,19 2394,14 OH 580,14 843,11 2426,66 OH 549,34 881,47 2457,63 OH 462,55 790,33 2754,78 OH 447,35 781,72 2630,84 OH 491,72 836,86 2651,75 OH 518,17 873,87 2841,04 OH 534,22 854,15 2912,23 OH 512,36 865,46 2576,56 OH 548,49 894,4 2712,39 OH 563,96 888,06 2536,16 OH 581,81 946,33 2527,14 OH 537,27 907,68 2385,71 OH 554,97 882,54 2551,36 OH 537,25 856,38 2639,48 OH 599,74 978,93 2782,05 OH 574,26 974,34 2358,76 OH 549,52 951,17 2307,53 OH

TABELA 1 DADOS OBTIDOS NESSE ESTUDO (continuação) F1 F2 F3 DESCRIÇÃO 517,5 833,4 2416,29 OH 495,83 823,32 2224,48 OH 500,82 849,75 2176,18 OH 526,49 970,17 2243,33 OH 513,23 972,19 2215,64 OH 498,28 929,12 2239,68 OH 530,64 935,58 2467,99 OH 567,14 991,47 2374,61 OH 532,07 948,3 2479,65 OH 541,22 921,35 2759,04 OH 517,86 916,65 2793,76 OH 511,48 930,67 2758,12 OH 491,25 835,73 2491,12 OH 489,05 805,14 2460,03 OH 479,03 804,89 2477,79 OH 282,22 653,65 2362,58 O 284,53 690,39 2354,99 O 288,47 637,87 2331,6 O 352,64 801,67 2657,08 O 322,96 745,43 2434,28 O 324,29 668,05 2572,99 O 366,48 801,96 2550,48 O 374,02 792,38 2516,18 O 395,51 815,63 2518,87 O 341,23 772,67 2188,35 O 348,47 780,09 2255 O 336,44 756,99 2240,59 O 328,11 682,44 2636,1 O 323,64 691,73 2614,44 O 327,28 676,77 2645,05 O 328,89 821,56 2507,21 O 338,76 818,37 2475,3 O 355,19 813,66 2477,88 O 339,69 741,14 2463,21 O 293,98 639,77 2464,45 O 267,97 586,37 2543,28 O 301,06 644,27 2486,48 O 286,23 655,38 2464,17 O 271,76 615,36 2446,89 O 311,71 641,85 2671,86 O 245,69 344,34 2648,6 O 142,68 348,23 2106,55 O 304,39 635,84 2691,79 O

TABELA 1 DADOS OBTIDOS NESSE ESTUDO (continuação) F1 F2 F3 DESCRIÇÃO 347,14 672,34 2608,01 O 348,91 640,74 2466,26 O 390,61 780,97 2622,13 O 398,7 767,13 2538,42 O 381,48 764,13 2757,33 O 288,01 694,44 2300,36 O 253,43 663,56 2140,42 O 271,1 720,71 2174,8 O 288,01 694,44 2300,36 O 349,04 874,2 2320,26 O 363,18 854,39 2312,82 O 379,26 864,24 2260,38 O 334,15 755,55 2235,75 O 330,8 780,45 2217,14 O 360,48 718,69 2320,13 O 407,12 789,25 2276,52 O 409,32 795,91 2279,42 O 374,76 746,09 2335,19 O 349,12 755,98 2755,89 O 377,75 785,79 2555,36 O 354,56 749,72 2579,52 O 343,29 737,73 2381,11 O 327,13 716 2433,31 O 297,2 708,76 2439,13 O 336,87 711,79 2538,64 O 340,9 712,51 2556,16 O 316,23 705,25 2571,48 O 218,9 706,22 2412,35 U 201,48 656,27 2365,97 U 202,5 673,11 2310,01 U 230,81 641,75 2298,84 U 229,81 568,72 2276,42 U 224,27 633,65 2365,09 U 253,98 719,53 2319,01 U 264,27 752,82 2355,71 U 260,58 707,56 2302,13 U 211,04 494,72 2239,17 U 234,73 702,08 2186,41 U 253,36 651,8 2133,95 U 225,46 524,25 2436,12 U 240,7 580,33 2412,77 U 240,03 563,53 2399,48 U 205,65 616,25 2298,79 U

TABELA 1 DADOS OBTIDOS NESSE ESTUDO (conclusão) F1 F2 F3 DESCRIÇÃO 209,71 659,2 2285,38 U 204,58 700,94 2315,16 U 221,37 606,72 2232,77 U 233,84 689,14 2120,03 U 214,72 542,89 2411,87 U 157,4 446,99 1745,8 U 167,74 497,3 2198,32 U 143,84 592,91 1914,5 U 232,28 522,86 2615,91 U 250,27 666,82 2535,41 U 232,28 522,86 2615,91 U 251,37 657,16 1193,15 U 249,7 618,04 2664,78 U 211,91 622,6 1374,19 U 251,34 744,51 2842,12 U 230,51 655,47 2631,91 U 225,13 597,73 2010,6 U 208,15 602,51 2187,71 U 221,77 655,86 2077,63 U 208,14 632,13 2175,54 U 214,53 682,98 2182,92 U 143,04 600,55 2026,83 U 248,98 640,56 2228,45 U 279,12 787,81 2256,53 U 226,26 645,65 2322,2 U 221,14 494,35 2279,25 U 221,12 516,7 2277,32 U 234,43 627,87 2319,6 U 270,71 666,26 2567,25 U 231,74 651 2954,66 U 222,17 605,84 2852,35 U 273,05 669,26 2402,89 U 245 610,96 2403,87 U 251,76 624,81 2319,62 U 211,62 687,43 2824,4 U 233,32 622,78 1319,14 U 210,71 550,14 2364,21 U FONTE: O autor (2013)

APÊNDICE B BASE DE DADOS WEKA A seguir é apresentado o banco de dados que foi utilizado. Conforme já mencionado, as sete primeiras linhas se referem as médias de cada vogal, sendo seguido de todos os dados. O banco foi elaborado da seguinte forma: as duas primeiras colunas são os valores das formantes 1 e 2, respectivamente. A última coluna é a classificação do dado de cada linha, ou seja, a indicação da vogal. Estabeleceu-se como padrão que as vogais fossem representadas pelos números de zero a seis, onde: /a/ é representado pelo 0, /eh/ sendo 1, /ê/ sendo 2, /i/ sendo 3, /oh/ sendo 4, /o/ sendo 5 e /u/ sendo 6. % Título: Listas das formantes das sete vogais % % Fontes: % (a) Leonardo Paim, Leonardo Tavares % (b) Data: fevereiro, 2013 % @RELATION formantes @ATTRIBUTE f1 REAL @ATTRIBUTE f2 REAL @ATTRIBUTE f3 REAL @ATTRIBUTE f4 REAL @ATTRIBUTE f5 REAL @ATTRIBUTE cluster REAL @DATA 685.1,1289.8,2483.1,3492.2,3859.1,0 754.1,1284.1,2312.2,3543.6,3814.1,0 697.8,1317.2,2295.5,3459.9,4730.2,0 724,1275.5,2550.5,3453.6,3860.5,0 748.7,1345.6,2802.2,3638.2,4566.7,0 470.3,1869,2485,3543.3,4085.2,1 516,1810.7,2548.3,3296.2,3725.1,1 491.7,1839.4,2435.9,3536.4,4414,1 467,1828.3,2553.6,3297,3727.8,1 552.5,1909.2,2692.5,3522.4,3982,1 317.6,2034.8,2644.4,3425.4,4009.6,2 335.4,1997.9,2699.5,3256.6,3832.4,2 305,2048.2,2772.3,3671.2,4592.8,2 314.8,1931.5,2783.7,3266.2,3789.6,2 319.8,2131.5,2873.3,3376.6,3936,2 238.4,2090.4,2915.8,3378.3,3895.7,3 270.3,2078.3,3074.9,3528.8,3842.1,3 238.8,2143.9,3120.6,3737.3,4663.6,3 254.3,1981.5,3057,3363.8,4140.7,3 237.2,2293.1,3177.5,3626,4223.7,3 511.5,809.7,2440,3274.2,3919.5,4

538.7,840.2,2547.9,3861.7,3910.2,4 576.2,955.9,2398.6,3189.2,4130,4 528.3,840.6,2288.5,3331.3,3644.7,4 560.7,900.9,2708.7,3062.7,3609.7,4 267.4,580.6,2198.3,3191.9,3784.4,5 320.7,672.1,2626.5,3342.1,3854.6,5 393.8,760.5,2470.9,3280.3,4252.5,5 349.3,791.5,2116.7,3159.9,3634.8,5 343.2,738.4,2292.4,3113.8,3845.5,5 212.6,602.2,2194.7,3232.6,3781.7,6 235.2,541.5,2300.1,3178,3524.6,6 269.2,747.4,2363.8,3436.4,4294,6 230.5,673.5,1868,3097.6,3158,6 197.4,529.5,2162.5,3007.8,3851,6

APÊNDICE C TELA DO PROGRAMA DESENVOLVIDO FIGURA 3 CAPTURA DA TELA DO PROGRAMA DESENVOLVIDO FONTE: O autor (2013)