RECONHECIMENTO DE GÊNERO ATRAVÉS DA VOZ

RECONHECIMENTO DE GÊNERO ATRAVÉS DA VOZ Marcela Ribeiro Carvalho marcela@enecar.com.br IFG/Câmpus Goiânia Hipólito Barbosa Machado Filho hipolito.barbosa@ifg.edu.br IFG/Câmpus Goiânia Programa Institucional de Bolsa de Iniciação em Desenvolvimento Tecnológico e Inovação /PIBITI, Edital 06/2013 Resumo O trabalho utiliza Rede Neural Artificial no procedimento do reconhecimento do gênero. A amostra é obtida capturando a voz dos participantes via microfone quando pronunciado "casa bonita". Deve aplicar sobre o sinal capturado a Transformada Rápida de Fourier - FFT para que o sinal esteja representado no domínio da frequência. Fora utilizado a Rede Backpropagation [1] aplicando a técnica de Levenberg-Marquardt para otimização de erros [1]. A utilização de RNA é atrativa devido a sua característica de aprendizagem e a Rede Backpropagation se destaca por permitir que sejam ajustados os pesos sinápticos através da retropropagação do erro. Efetuou-se o processamento com 1.000 e 3.000 pontos. Após o treinamento utilizando o toolbox de redes neurais do Matlab, é possível verificar a eficiência do grupo de voz de teste. O projeto é um estudo inicial sobre o reconhecimento da voz humana, que ao se expandir pode vir a se tornar prático em, por exemplo, bancos ou residências. Sua aplicação está relacionada a reforço de segurança, sendo um método a mais a limitar acesso de pessoas a determinados ambientes ou objetos. Palavras-Chave: Rede Neural, reconhecimento. 1

Objetivos O objetivo geral é criar um sistema capaz de reconhecer gênero através de padrões utilizando Redes Neurais Artificiais- RNA. Os objetivos específicos são: capturar e digitalizar amostras de voz de pessoas de ambos os gêneros para treinamento do RNA, analisar a sensibilidade dos parâmetros da matriz de entrada no RNA para o reconhecimento dos padrões das vozes, e determinar e comparar o resultado do processamento com 1.000 e 3.000 amostras. Justificativa/Fundamentação teórica Inicia-se o processamento de sinais obtendo amostras das vozes de pessoas escolhidas aleatoriamente no IFG Câmpus Goiânia. Para armazenamento dos dados, inicialmente capturados, utiliza-se o formato WaveformAudio File Format - WAV, que é um formato não comprimido, ou seja, permite qualidade máxima e não modifica nenhum bit do sinal original. Segundo Fausett [3], uma rede neural é um sistema de processamento de informação que possui algumas características de desempenho em comum com uma rede neural biológica. O RNA recebe entradas, integra-as segundo uma regra e fornece uma saída que é dada por uma função (de transferência) do valor integrado. Redes neurais artificiais processa a informação através de elementos simples denominados neurônios, cada neurônio aplica uma função de ativação (usualmente não linear) à soma dos produtos dos sinais de entrada com os respectivos pesos associados. 2

Dentre os vários modelos de redes neurais propostos, destacamos a Rede Perceptron de Múltiplas Camadas PMC, nesta utilizou o algoritmo de retropropagação do de erro chamada Rede Backpropagation. As redes PMC têm arquitetura feedforward de camadas múltiplas, ou seja, realiza um treinamento de forma supervisionada. Esta possui fluxo de dados em dois sentidos, na fase foward a rede recebe estímulos na entrada e apresenta os resultados na saída, já na fase backward, o algoritmo backpropagation efetua ajustes dos pesos sinápticos para a diminuição do erro quadrático. Para o aprendizado supervisionado os resultados finais são comparados a um valor padrão já estabelecido, desta forma nos é dado um erro, para este ser minimizado há a retropopagação, ou seja, o processo será repetido até a diminuição do erro. Dessa forma as vozes capturadas e tratadas pela FFT foram divididas em treinamento e teste, o aprendizado é realizado com as amostras de treinamento, já as amostras de teste servem para visualizar o quão eficiente fora o aprendizado. A FFT é necessária de modo que esta decompõe a matriz de um sinal de amplas frequências e fornece resultados com um padrão de leitura suficiente para a Rede Neural detectar e codificar. O método de ajuste dos pesos da rede PMC leva a rede a convergir lentamente, ocasionando maior esforço computacional. Para combater este problema utiliza o algoritmo de Levenberg-Marquardt LM, que é o método gradiente de segunda ordem [2], baseado no método dos mínimos quadrados para modelos não-lineares. Metodologia O procedimento para obter os resultados consiste inicialmente em coletar e armazenar as vozes, em seguida ocorre uma transformação para o domínio da 3

frequência com a execução da FFT. Após a transformação é executado o toolbox de redes neurais do Matlab utilizando o método Backpropagation. Os parâmetros de backpropagation são ajustados através da configuração da rede. A configuração de melhor resultado foi a de três camadas constituídas de 12, 2 e 1 neurônios respectivamente. A função de ativação foi a tangente sigmoide e na redução do erro aplicou-se o algoritmo de Levenberg-Marquardt. Resultados e discussão Como o objetivo foi a identificação do gênero, utilizou-se, no treinamento, para diferenciar o gênero, o target com valor 1 e 0 para vozes masculinas e femininas respectivamente. Foram utilizadas 22 vozes (8 vozes para treinamento e 14 vozes, de gênero desconhecido pela rede neural, para testes). Ao tratar as vozes é gerada uma matriz de pontos que excede a capacidade de execução da Rede Neural, portanto fora realizado dois testes com 1.000 e 3.000 pontos iniciais referentes a cada voz. Nos treinamentos o erro quadrático foi determinado em 10-5, entretanto, os erros médios quadráticos obtidos foram inferiores ao especificado, ou seja, o desempenho da rede neural no processo de treinamento foi melhor que o determinado. A rede neural utilizando sinais de 1.000 pontos teve 63,64% de acerto, já o uso de sinais com 3.000 pontos fora aproximadamente 81,81%. Considerações finais Os resultados obtidos surpreenderam, uma vez que as amostras não passaram por filtros para a retirada de ruídos, sons indesejáveis, e não foi utilizada nenhuma técnica adicional de processamento de voz. Foi observado que o processo de treinamento requer tempo considerável. Porém, uma vez realizada esta fase, o 4

teste de uma amostra é rápido. Consideramos então que o reconhecimento do gênero após o treinamento da rede é rápido e o seu resultado é eficiente. Referências [1] R. P. Lippmann. An Introduction to Computing with Neural Nets, IEEE ASSP Magazine, Vol. 3. No. 4, 1987, pp 4-22. [2] I. N. da Silva. D. H. Spatti, R. A. Flauzino. Redes Neurais Artificiais para engenharia e ciências aplicadas, Artliber, 2010, 399 p. [3] L. Fausett. Fundamentals of Neural Networks Architectures, Algorithms, and Applications Prentice Hall International, NJ, 1994, 461 p. 5