RECONHECIMENTO DE COMANDOS DE VOZ PARA O ACIONAMENTO DE CADEIRA DE RODAS

RECONHECIMENTO DE COMANDOS DE VOZ PARA O ACIONAMENTO DE CADEIRA DE RODAS JÉSUS A. O. NETO, MARCO A. A. CASTRO, LEONARDO. B. FELIX Núcleo Interdisciplinar de Análises de Sinais - NIAS Departamento de Engenharia Elétrica - DEL Universidade Federal de Viçosa - UFV Av. P. H. Holfs, sn, CEP 36570-000, Viçosa - MG Fone: (31) 3899-3266 / 3899-3268 E-mails: pity_jesus@hotmail.com, maurelioac@ufv.br, leobonato@ufv.br. Abstract The aim of this paper is to present a system that recognizes voice commands for the application in a wheelchair. This system was applied to a prototype that recognizes a limited number of command and triggers its motors. The controller was designed using the theories of signal processing, mathematical modeling and neural networks. For implementation of the work we used the algorithms of Linear Prediction Coefficients (LPC), Auto-Regressive model (AR) and Cepstral Coefficients (CC). The prototype was made from the model PIC 18F4450 microcontroller from Microchip, small DC motors and a simple H bridge..keywords Speech Recognition; Digital Signal Processing; Artificial Neural Network. Resumo O objetivo desse trabalho é apresentar um sistema de reconhecimento de comandos de voz para a aplicação em cadeira de rodas. Esse sistema foi aplicado a um protótipo que reconhece um número limitado de comandos e aciona seus motores. O controlador foi projetado utilizando-se as teorias de processamento de sinais, modelagem matemática e redes neurais artificiais. Para implementação do trabalho utilizaram-se os algoritmos de Coeficientes de Predição Linear (LPC), o modelo Auto- Regressivo (AR) e os Coeficientes Cepstrais. A montagem do protótipo foi realizada a partir do microcontrolador PIC modelo 18F4450 da Microchip, de pequenos motores de corrente continua e de uma ponte H simples. Palavras-chave Reconhecimento de Voz; Processamento Digital de Sinais; Redes Neurais Artificiais. 1 Introdução A voz é uma característica humana intimamente relacionada à necessidade do homem de se agrupar e de se comunicar. Trata-se de um trabalho do sistema nervoso, em conjunto com os sistemas respiratório e digestivo, além da ligação com os músculos, ligamentos e ossos, harmoniosamente, atuam, para emissão eficiente. A constante evolução tecnológica faz do reconhecimento de fala um campo de estudo fascinante, pois, pode ter aplicações em diversas áreas do conhecimento. Atualmente, sistemas que permitem a comunicação mais natural entre o homem e a máquina ainda não estão completamente dominados. O principal obstáculo a esse desafio é devido à grande complexidade de implementação de um sistema que seja capaz de modelar a não linearidade do ouvido humano. Os sistemas de reconhecimento de voz podem divididos em três grupos: Identificação Automática de Locutores (ASR, Automatic Speaker Recognition), no qual o sistema deve ser capaz de identificar diferentes locutores em um conjunto fixo de indivíduos; Verificação Automática de Locutores (ASV, Automatic Speaker Verification), no qual verifica-se apenas se a voz capturada é autorizada, ou seja, se o locutor está cadastrado e Reconhecimento de Comandos Independente do Locutor (RCIL), o qual reconhece palavras pronunciadas não importando o locutor (NIQUINI, 2007). Em virtude de esses sistemas não necessitarem do uso das mãos ou dos olhos, os mesmos podem ser utilizados nas mais diversas aplicações, como, por exemplo: - O sistema Identificação Automática de Locutores (ASR) pode ser utilizado na autenticação e no controle de acesso a locais restritos, em transações via telefone e no uso forense; - O sistema Verificação Automática de Locutores (ASV) pode ser aplicado a sistemas de segurança com senha restrita a alguns usuários; - O sistema Reconhecimento de Comandos Independente do Locutor (RCIL) pode ser utilizado para agilizar operações realizadas por máquinas, as quais passariam a responder diretamente pela interpretação da fala do operador, não pela dependência de operações manuais. Além disso, poderiam tornar mais simples a vida de pessoas com deficiência físicas, auxiliando-as na realização das tarefas cotidianas, e/ou auxiliando-as no controle dos instrumentos automobilisticos. As primeiras técnicas de reconhecimento de locutores eram baseadas nas análises de espectrogramas e na audição humana. Espectrograma é a representação das várias frequências de um dado sinal ao longo do tempo, ou seja, as identificações de quais frequências 3819

estão presentes em cada janela temporal e quais são as suas intensidades. Todavia, tais técnicas são muito subjetivas e dependem de especialistas muito bem treinados para uma correta identificação. Assim, essas técnicas passaram, a partir de 1966 na Inglaterra, a serem admitidas como válidas para a identificação de indivíduos em casos forenses. Atualmente, no Brasil, essas técnicas ainda são utilizadas (TIMOSZCZUK, 2004). Hoje, muitas são as técnicas utilizadas para reconhecimento, mas, dentre as principais, pode-se destacar as estatísticas e as determinísticas. Nas técnicas estatísticas, as comparações de padrões são feitas pela medida da função de verossimilhança ou de probabilidade condicional, a partir da observação de um modelo. As principais são: Modelos de Misturas Gaussianas (GMM, Gaussians Mixtures Models) e Modelos Ocultos de Markov (HMM, Hidden Markov Models). Nos GMMs, as probabilidades de ocorrência dos vetores de atributos para cada locutor são modeladas por meio de combinações ponderadas de variáveis aleatórias vetoriais e funções de densidade de probabilidade (PDF) Gaussiana. Os GMMs são usados com excelentes resultados em aplicações independentes de texto (MAFRA, 2002). Já os HMMs, são modelos com grandes capacidades de modelar as dependências temporais associadas aos sinais de voz. Eles demonstram os melhores resultados em aplicações dependentes de texto (MAFRA, 2002).e são largamente utilizados atualmente, sendo úteis, inclusive, para modelos de sistemas corrompidos por ruídos, devido à utilização de modelos probabilísticos para representação dos sistemas (OLIVEIRA & MORITA, 2005). Com relação às técnicas determinísticas, o padrão é assumido sendo réplica perfeita e o processo de alinhamento faz-se necessário para calcular a distância (PARREIRA, 2005). Os principais métodos determinísticos são os embasados em Dynamic Time Warping (DTW), em Quantização Vetorial (QV), em Redes Neurais Artificiais e Classificadores Polinomiais. As Redes Neurais Artificiais, as quais foram aplicadas nesse trabalho, são modelos conexionistas, com capacidade de adaptação de respostas não-lineares, de reconhecimento e de classificação de padrões estáticos. Segundo HOMAYOUNPOUR & CHOLLET (1995), quando associadas à quantização vetorial, seu desempenho é comparável ao dos GMMs (MAFRA, 2002). Segundo HUANG et. al. (2001), quando utilizadas para pequenos vocábulos, pequenas e isoladas unidades de discurso, chegam a responder com um desempenho superior às estruturas que utilizam HMM. Esse trabalho tem o objetivo de implementar um sistema de reconhecimento de comandos com locutores restritos em um pequeno vocabulário. O sistema deve ser capaz de identificar qual a palavra pronunciada pelo locutor e, para isso, esse trabalho utilizou várias técnicas conjugadas, a fim de minimizar ruídos e interferências. Para a caracterização dos sinais, foram utilizados os Coeficientes Cepstrais (Cepstrum) (TIMOSZCZUK, 2004), os Coeficientes de Predição Linear (LPC) (HUANG et. al., 2001) e os coeficientes de um modelo Auto Regressivo (AR) (THE MATHWORKS INC, 2002b). Para a identificação e para a interpretação dos padrões, foram utilizadas Redes Neurais Artificiais (RNA), com a utilização de estruturas MLP (Multi-Layer Perceptrons - Perceptrons Multicamadas) (THE MATHWORKS INC, 2002a). Como testes para a viabilidade do protótipo, utilizaram-se as seguintes palavras: frente, recue, direita, esquerda e pára. Todos locutores são do sexo masculino com idades entre 19 e 25 anos de idade. Todos os testes foram realizados em um pequeno protótipo, composto por dois motores de corrente continua simples, uma ponte H (para possibilitar a inversão do sentido de rotação do motor) e um microcontrolador, o qual recebeu os dados do computador via USB e enviou o comando para o protótipo. 2 Método proposto O trabalho consiste na elaboração de um sistema de reconhecimento de comandos, independente do locutor e com finalidade de produzir um protótipo de uma cadeira de roda para reabilitação de pessoas com deficiência incapazes de se locomover de forma direta. O diagrama de blocos da figura 1 mostra as etapas necessárias no processo de reconhecimento de voz. Figura 1. Etapas do Trabalho Nas seções seguintes serão descritas as etapa desse diagrama. 2.1 Aquisição dos Dados Visto que a voz humana está em um faixa de freqüência de 80 Hz a 3.5 khz (BRANDÃO, 2006), para a aquisição dos dados utilizou-se uma taxa de amostragem de 11025 Hz em um único canal, com codificação PCM de 16 bits, atendendo o critério de Nyquist no teorema da amostragem. Os equipamentos utilizados nas gravações de voz são descritos a seguir: - Duas diferentes placas de som: Beringher UAC200 (própria para gravação em estúdio) e Conexant (Integrada ao computador Dell inspiron 1525); 3820

- Microfones: condensados (próprio para gravação de voz), integrado do computador (Dell inspiron 1525) e microfone externo simples; Deve-se ressaltar que as diferentes placas de som e os diferentes microfones foram necessários para retirar efeitos devido a diferentes sistemas de aquisição, tornando o algoritmo funcional em vários computadores. Em todas as gravações utilizou-se um programa desenvolvido para auxiliar a interação com o usuário (figura 2). Figura 3. Resposta em freqüência do Filtro Butterworth Passa- Faixa de ordem 10 com freqüências de corte 80Hz e 3500Hz É perceptível a não-oscilação e o corte abrupto na banda de passagem do filtro. Entretanto, grande distorção de fase foi gerada pelo filtro IIR Butterworth. Para evitar problema de distorção de fase foi necessária a utilização de uma filtragem com inversão de tempo (THE MATHWORKS INC, 2002b) (figura 4): Figura 2. Programa de Gravação Desenvolvido O programa, além de gravar os comandos de voz, mostra o gráfico do sinal gravado, o que facilita uma análise instantânea do nível de ruído externo e, também, o descarte de gravações com muitas interferências externas. No total, foram realizadas 1021 gravações dos comandos: direita, esquerda, siga, parar e recue. Cada gravação teve duração de 2 segundos, e envolveu 14 pessoas, do sexo masculino, de diversos sotaques com idades entre 18 e 25 anos. 2.2 Pré - Processamento Após a aquisição dos dados, foi realizado um pré-processamento para tratar o sinal de modo a normalizar os dados entre -1 e 1 (equação 1) e, cortar apenas a faixa de interesse do sinal da voz. x ( n) (1) y(n)= max x( n) Após a normalização, o sinal foi filtrado com objetivo de limitar a freqüência entre 80 Hz e 3500Hz (devido a voz masculina esta compreendida nesta faixa) (BRANDÃO, 2006). Nesse processo, um filtro passafaixa Butterworth digital de ordem 10 foi utilizado com a seguinte resposta em freqüência (figura 3): Figura 4. Filtragem com inversão no tempo O processo de filtragem com inversão de tempo é constituído de duas etapas: a primeira, na qual o sinal é filtrado pelo filtro Butterworth e a segunda, na qual o sinal é invertido no tempo e filtrado novamente para a obtenção de um sinal sem distorção de fase. Por fim, o sinal foi cortado utilizando um método empírico de energia do sinal (equação 2): E = N n 1 x ( n) 2 (2) O método consiste, primeiramente, em eliminar ruídos externos e região de silêncio. Para isso, foi detectado o ponto máximo do sinal e o mesmo foi cortado para ter a duração de 1s, sendo centralizado no ponto máximo. Logo após, definiu-se o tamanho de 0,01s para o janelamento do sinal, e verificou-se a energia das diversas janelas. Para a detecção de início, definiu-se os valores limiares com base na energia do sinal e para diferenciar as regiões de silêncio e de voz. Adotou-se o valor de 0,5 J para o início e 0,2 J para o fim (valores determinados empiricamente). 2.3 Extrações das Características A extração das características corretas é uma das mais importantes etapas no reconhecimento de voz. Para esse trabalho, são analisadas três propostas: os Coeficientes Cepstrais (Cepstrum) (TIMOSZCZUK, 3821

2004), os Coeficientes de Predição Linear (LPC) (HUANG, 2001) e os coeficientes de um modelo Auto Regressivo (AR) (THE MATHWORKS INC, 2002). Coeficientes Cepstrais A partir da modelagem matemática da voz, como citado anteriormente, é possível estimar coeficientes que descrevam a fonte geradora. Esse método consiste na desconvolução de dois sinais de freqüência distintas. y(n) = x(n) h(n) (3) Aplicando-se a Transformada de Fourier à equação 3, pode-se decompor a convolução no tempo em uma multiplicação no domínio da freqüência, aplicando-se logaritmo devido a sua propriedade de adição (equação 4). log Y(jw) log X(jw) log H(jw) (4) Fazendo a transformada inversa de Fourier na equação 4, obtém-se o Cepstrum. Para extrair os Coeficientes Cepstrais é necessário retirar os primeiros coeficientes do Cepstrum. Esses coeficientes serão uma estimativa da fonte geradora devido a sua alta freqüência. Nesse trabalho foram extraídos apenas os 12 primeiros coeficientes, as quais serão a entrada da rede neural. Coeficientes de Predição Linear (LPC) e Modelo Auto-Regressivo (AR) A extração de Coeficientes de Predição Linear (LPC, Linear Predictive Coding) consiste em relacionar determinado sinal de voz, através de combinações lineares entre as amostras de voz passadas através da minimização do quadrado da diferença entre a amostra atual e as obtidas, resultando em uma função de transferência sem pólos Os coeficientes de um preditor linear de i-ésima ordem podem ser representados pela equação 5, na qual x é o sinal e a(i) é o i-ésimo Coeficiente LPC. xˆ( n) a(2) x( n 1) a(3) x( n 2)... (5)... a( i 1) x( n i) A estimativa de um Modelo Auto-Regressivo (AR) é um método bastante semelhante ao anterior, porém possui a diferença de construir uma função de transferência sem zeros. A função de transferência discreta pode ser representada pela equação 6, na qual H(z) é a função de transferência em Z do modelo AR, a n é i-ésimo coeficiente estimado do modelo AR. H(z) = e a1... 1 3 i a2z a3z ai 1z (6) Neste trabalho fez-se a Transformada de Fourier do sinal de voz e retirou-se apenas a primeira metade do sinal no domínio da frequência. Tanto o sinal de voz no domínio da freqüência quanto o sinal de voz no domínio do tempo foram dividido em cinco partes iguais e de cada parte foi extraindo 10 coeficientes AR e 10 LPC, totalizando 50 coeficientes AR do sinal no tempo e no domínio da frequência e 50 coeficientes LPC do sinal no tempo e no domínio da frequência. Esses coeficientes foram normalizados segundo a equação 7 (BRANDÃO, 2005). x ( n) min( x( n)) (7) y(n) = 2 1 max( x( n)) min( x( n)) Ao final da extração das características obtiveram-se os seguintes parâmetros (tabela 1): Tabela1 Características extraídas Características Número de coeficientes Rede Neural CC 12 1 LPC 50 2 AR 50 3 FFTAR 50 4 FFTLPC 50 5 As siglas FFTAR e FFTLPC indicam os parâmetros extraídos do sinal de voz na freqüência. O algoritmo utilizou 5 RNAs diferentes, sendo uma para cada característica presente na tabela 1 3.4 Treinamentos das Redes O modelo de Redes Neurais Artificiais (RNA) utilizado é a estrutura MLP (Multi-Layer Perceptrons, Perceptrons Multicamadas) de 3 camadas, com função de ativação tansig para as camadas ocultas e purelin para a camada de saída. O algoritmo de treinamento utilizado foi o Levenberg-Marquardt backpropagation, devido a sua convergência rápida. Para cada característica presente na tabela 1 criou-se uma rede, com o objetivo de, posteriormente, fazer um pós-processamento. Foram retirados 20% dos dados para validação e outros 20% para teste. Criou-se um programa de treinamento de Rede Neural envolvendo a técnica de Early Stop. Esse programa gerou, randomicamente, o número de neurônios de cada camada e treinou as redes, de forma que a 3822

RNA que tivesse o menor erro quadrático médio era gravada. 3.5 Pós - Processamento Devido à saída do sistema ser uma resposta de cinco redes neurais, foi necessário a um pósprocessamento para reduzir os erros de resposta das Redes Neurais. Nessa etapa verificou-se o erro quadrático entre a resposta da rede e o seu valor de convergência. Retirou-se das respostas neurais apenas aquelas com erros menores que 0,025 e logo após, o sistema determinava o número de respostas do mesmo comando. Assim, a resposta de maior ocorrência seria a resposta do sistema e em caso de respostas iguais o sistema tem como saída a seguinte mensagem: sem resposta. Para a comunicação do computador protótipo, utilizou-se o microcontrolador PIC modelo 18F4450 da Microchip, devido a sua praticidade em comunicação USB. Esse componente faz a comunicação lógica do programa criado com a ponte H L298, o qual por sua vez, controla a rotação dois pequenos motores de corrente contínua 12 V o qual é acoplados a cadeira. A figura esquemática do circuito básico é apresentada a seguir (figura 6): 4 Resultados e Discussões 4.1 Programas Implementados Foram implementados três programas diferentes: - Reconhecimento de Comandos (figura 5): ao clicar em Gravar o sistema reconhece o comando falado pelo usuário; - Reconhecimento de Comandos em Tempo Real: o programa não necessita do clique para o reconhecimento, é necessário apenas que o usuário diga o comando próximo ao microfone; - Reconhecimento de Comandos em Tempo Real Acoplado ao Protótipo: o programa tem o mesmo funcionamento que o anterior diferenciando apenas que este comanda o protótipo. Figura 6. O protótipo da cadeira de rodas 4.3 Resultados dos Treinamentos das Redes Foram testadas 300 configurações de redes diferentes para cada característica, obtendo-se os melhores resultados, os quais são mostrados a seguir: Tabela 2. Resultados do Treinamento Características Erro quadrático Neurônio camada oculta 1 2 3 CC 0.0717 8 18 4 LPC 0.0268 9 11 16 AR 0.0142 15 8 9 FFTAR 0.0089 8 9 13 FFTLPC 0.1236 13 15 9 Devido aos baixos erros, pode-se observar o que desempenho do dos coeficientes FFTAR, AR, LPC é alto; Figura 5. Programa de Reconhecimento de Comandos 4.2 Protótipo Como a finalidade é demonstrar a aplicação desejada, o protótipo da cadeira de rodas teve características bem simples, conforme é exemplificado a seguir. 4.4 Validação do Programa Foram feitos vários testes com os programas finais. Esses testes envolveram pessoas presentes e não presentes no banco de dados. Obteve-se assim, um acerto em torno de 87 % para pessoas do banco de dados e 75 % para pessoas que não participaram do banco de dados. 5 Conclusão Esse trabalho apresentou um sistema de Reconhecimento de Comandos com Locutores Restritos 3823

em um pequeno vocabulário. O sistema identificou o comando dado pelo locutor para acionar um protótipo de uma cadeira de rodas. Para extração das características do sinal de voz utilizou-se de várias técnicas de modelagem conjugadas como os Coeficientes de Predição Linear (LPC), Cepstrais (CC), Modelo Auto-Regressivo (AR), a fim de minimizar ruídos e interferência. Utilizou-se, também, para reconhecimento de padrões as redes neurais artificiais. O sistema implementado mostrou-se bem eficiente com relação ao reconhecimento de comandos para controle do protótipo, reconhecendo, paras pessoas presentes no banco de dados 87 % das vezes. THE MATHWORKS INC. Signal Processing Toolbox, User s Guide for use with Matlab 2002b. TIMOSZCZUK, A. P. Reconhecimento Automático do Locutor com Redes Neurais Pulsadas. Tese de Doutorado. Escola Politécnica da USP SP. São Paulo 2004. Elétrica, Universidade Federal de Uberlândia UFU 2005. Agradecimentos Os autores agradecem à FAPEMG, à CAPES, ao CNPq e à FUNARBE pelo apoio financeiro. Referências Bibliográficas BRANDÃO, A. S., et al. Redes Neurais Artificiais Aplicadas ao Reconhecimento de Comandos de Voz.VII International Conference On Industrial Applications 2006. BRANDÃO, A. S. Redes Neurais Artificiais Aplicadas ao Reconhecimento de Comandos de Voz. Trabalho de Conclusão de Curso. Engenharia Elétrica, Universidade Federal de Viçosa UFV 2005. HOMAYOUNPOUR, M. M., CHOLLET, G. Neural Net approaches to speaker verification: comparison with second order statistic measure. In: ICASSP 1995. HUANG, X., ACERO, A., HON, H. Spoken Language Processing: a guide to theory, algorithm, and system development. Ed. Prentice Hall PTR 2001. MAFRA, A. T. Reconhecimento Automático de Locutor em Modo Independente de Texto por Self-Organizing Maps. Dissertação de Mestrado. Escola Politécnica da Universidade de São Paulo 2002. NIQUINI, F. M. M., Reconhecimento de Comandos de voz com Verificação de Locutores e Vocabulário Restrito Utilizando Redes Neurais Artificiais (2007) OLIVEIRA, L. E. S., MORITA, M. E. Introdução aos Modelos Escondidos de Markov (HMM). Pontifícia Universidade Católica do Paraná PUC-Pr 2005. PARREIRA, W. D. Reconhecimento de Locutor pela Voz usando o Classificador Polinomial e Quantização Vetorial. Faculdade de Engenharia THE MATHWORKS INC. Neural Network Toolbox, User s Guide for use with Matlab 2002a. 3824