ALEXANDER ROBERT KUTZKE RECONHECIMENTO AUTOMÁTICO DE LOCUTOR EM TEMPO REAL E INDEPENDENTE DE TEXTO

Transcrição

1 ALEXANDER ROBERT KUTZKE RECONHECIMENTO AUTOMÁTICO DE LOCUTOR EM TEMPO REAL E INDEPENDENTE DE TEXTO Monografia apresentada ao Curso de Ciência da Computação, Setor de Ciências Exatas, Universidade Federal do Paraná, como requisito parcial para a conclusão do curso. Orientador: Prof. Luciano Silva CURITIBA 2008

2 Resumo O propósito geral deste trabalho é a criação de um sistema capaz de reconhecer locutores em tempo real, a partir do sinal digital extraído de sua voz. Após a captação do sinal de voz através de um microfone ele é então processado e dá origem a um conjunto de características que representam a voz do locutor. Essas características são armazenadas pelo sistema e são utilizadas como a identificação de cada locutor. Com as identificações de cada locutor armazenadas, o sistema é capaz de analisar um outro sinal de voz e decidir a qual locutor ela pertence, ou ainda, afirmar se um locutor é quem ele afirma ser.

3 SUMÁRIO LISTA DE TABELAS iii LISTA DE FIGURAS iv 1 INTRODUÇÃO BIOMETRIA BIOMETRIA DA VOZ A VOZ HUMANA PRODUÇÃO DA VOZ Subsistema Respiratório Subsistema Laríngeo Subsistema Supralaríngeo MODELO FONTE - FILTRO (SOURCE - FILTER) RECONHECIMENTO AUTOMÁTICO DE LOCUTOR PROCESSAMENTO DE VOZ CARACTERíSTICAS VISÃO GERAL Aquisição do Sinal Parametrização do Sinal Criação de modelos acústicos Comparação e decisão AQUISIÇÃO E TRATAMENTO DO SINAL Windowing Pre-emphasis PARAMETRIZAÇÃO DO SINAL Predição Linear (Linear Prediction) TOMADA DE DECISÃO Modelos Acústicos Decisão O SISTEMA VISÃO GERAL MÓDULOS Comunicação entre módulos MÓDULO ENTRADA E SAíDA Interação com hardware de som Entrada de dados Resampling i

4 5.3.4 Detecção de Voz MÓDULO PARAMETRIZADOR Windowing Cálculo dos Coeficientes de Predição Linear MÓDULO COMPARADOR Criação de Modelos Tomada de decisão TESTES E RESULTADOS BASE DE TESTES TESTES DE IDENTIFICAÇÃO DE LOCUTOR Coeficiente da predição linear Coeficiente de reflexão Coeficiente LAR Comparação entre os tipos de coeficientes Análise dos resultados TESTES DE VERIFICAÇÃO DE LOCUTOR Resultados para limiar único Resultados para limiar diferente para cada locutor Análise dos resultados OUTROS TESTES Análise do tempo de processamento Testes com alterações na amplitude da base Testes com alteração na taxa de amostragem CONCLUSÕES REFERÊNCIAS BIBLIOGRÁFICAS ii

5 LISTA DE TABELAS 2.1 Comparação entre algumas biometrias[5]. Graus: A-Alto, M-Médio, B-Baixo Menores taxas de erros obtidas com o coeficiente de predição, para a base de testes de 25 locutores Menores taxas de erros obtidas com o coeficiente de predição, para a base de testes de 50 locutores Menores taxas de erros obtidas com o coeficiente de reflexão, para a base de testes de 25 locutores Menores taxas de erros obtidas com o coeficiente de reflexão, para a base de testes de 50 locutores Menores taxas de erros obtidas com o coeficiente LAR, para a base de testes de 25 locutores Menores taxas de erros obtidas com o coeficiente LAR, para a base de testes de 50 locutores Melhor taxa de erro obtida com limiar único Taxas de FAR e FRR obtidas com limiar individual Taxa de aumento da latência por janela de sinal processada iii

6 LISTA DE FIGURAS 3.1 Sistema de produção da voz humana.[6] Diagrama do modelo fonte-filtro de produção de voz[6] Divisão das áreas do processamento de voz.[3] Esquema básico de um sistema de reconhecimento de locutor.[3] Exemplo de windowing de um sinal Exemplo da aplicação da operação Hamming window sobre um sinal[6] Pre-emphasis aplicada a um sinal de voz[6] Exemplo de vector quantization para dimensão R 2 [4] Visão geral dos módulos do sistema Divisão de um sinal de voz em segmentos de voz (áreas verdes) de acordo com a amplitude Resultados para a tarefa de identificação de locutor usando coeficiente de predição linear e diferentes tamanhos de modelos. Base de 25 locutores Resultados para a tarefa de identificação de locutor usando coeficiente de predição linear e diferentes tamanhos de modelos. Base de 50 locutores Resultados para a tarefa de identificação de locutor usando coeficiente de reflexão e diferentes tamanhos de modelos. Base de 25 locutores Resultados para a tarefa de identificação de locutor usando coeficiente de reflexão e diferentes tamanhos de modelos. Base de 50 locutores Resultados para a tarefa de identificação de locutor usando coeficiente LAR e diferentes tamanhos de modelos. Base de 25 locutores Resultados para a tarefa de identificação de locutor usando coeficiente LAR e diferentes tamanhos de modelos. Base de 50 locutores Comparação entre coeficientes para a tarefa de identificação de locutor usando tamanho de modelo igual a 128. Base de 25 locutores Comparação entre coeficientes para a tarefa de identificação de locutor usando tamanho de modelo igual a 256. Base de 25 locutores Comparação entre coeficientes para a tarefa de identificação de locutor usando tamanho de modelo igual a 128. Base de 50 locutores Comparação entre coeficientes para a tarefa de identificação de locutor usando tamanho de modelo igual a 256. Base de 50 locutores Taxas de FAR e FRR obtidos com limiar único Relação FARxFRR (ROC) obtidos com limiar único i

7 6.13 Exemplo de bons scores obtidos por um modelo comparado com vozes de todos os locutores Exemplo de scores ruins obtidos por um modelo comparado com vozes de todos os locutores Análise da latência pelo número de janelas de sinal analisadas iv

8 1 1 INTRODUÇÃO Sistemas computacionais evoluíram muito nas últimas décadas e com esse avanço evoluíram também as soluções para tarefas que antes pareciam impossíveis. Uma dessas tarefas é a biometria. Atualmente, é possível observar a biometria em diversos dispositivos. Na maioria das vezes ela é utilizada para sistemas de segurança ou na identificação de pessoas. A da análise voz humana é um caso a parte no universo da biometria, pois é considerada um dos métodos de identificação biométrico menos invasivos existentes até hoje, visto que não existe nenhum contato físico do usuário com qualquer dispositivo. Muitos sistemas de identificação de pessoas através da voz, tem sido projetados e utilizados nos mais diversos aparelhos e situações, porém a maioria deles não é capaz de analisar um fluxo contínuo de dados em tempo real, como o áudio de uma reunião ou um stream de vídeo, seja pela falta de capacidade de armazenamento, ou pelo excesso no tempo de processamento. Tendo como base esse problema, o objetivo final deste projeto é a criação de um sistema que seja capaz de realizar a tarefa de reconhecimento de locutor sobre fluxos de dados de áudio sem que seja necessário para o usuário se preocupar com tempo de resposta ou com a capacidade de armazenamento, pois todo o processo é executado em tempo real. Neste trabalho, os capítulos estão organizados da seguinte forma: Capítulo 2 : Apresenta uma breve descrição da biometria e sua história. Capítulo 3 : Apresenta detalhes de todo o processo de produção da voz realizado pelo corpo humano. Capítulo 4 : Apresenta, detalhadamente, o funcionamento do processo de reconhecimento de locutor. A explicação e demonstração das principais técnicas e algoritmos presentes no sistema também são feitas neste capítulo. Capítulo 5 : Apresenta a metodologia que foi aplicada para o desenvolvimento do sistema em si, assim como a descrição de todas as suas partes.

9 Capítulo 6 : Apresenta uma série de testes realizados sobre o sistema e seus resultados, de modo a demonstrar a eficiência do processo. Capítulo 7 : Apresenta uma breve conclusão do trabalho. 2

10 3 2 BIOMETRIA O termo biometria [bio (vida) + metria (medida)] por si só refere-se ao estudo estatístico das características físicas ou comportamentais dos seres vivos[12], porém recentemente este termo também vem sendo utilizado para se referir à analise características físicas ou comportamentais das pessoas como forma de identificá-las unicamente. Sistemas de identificação de pessoas utilizam o que chamamos de características biométricas, ou biometrias, para realizar o processo de reconhecimento da identidade. Essas características são dados retirados do corpo humano através de algum processo, como foto, medição ou gravação de voz. As biometrias são comumente divididas em dois grupos: Biometrias físicas e comportamentais. Para as biometrias físicas podemos citas: Face Impressão digital Mão Íris DNA E para as biometrias comportamentais é possível citar: Assinatura Ritmo datilográfico Voz Quanto as biometrias de DNA e de voz, existem algumas divergências quanto a classificação. A análise de DNA não é considerada uma biometria por alguns estudos. Isso se deve ao fato de que o processo de identificação de pessoas através do DNA ainda não é realizado em larga escala fora de um ambiente laboratorial. Já a biometria da voz é considerada certas vezes como uma biometria física e outras como biometria comportamental. Ambas as abordagens têm argumentos válidos,

11 pois, é certo que as características de voz de um indivíduo dependem de sua estrutura anatômica, tanto do sistema respiratório como todo o trato vocal. E por outro lado é certo também que atos comportamentais, como sotaque e linguagem utilizada, influenciam muito na análise da voz. Para que haja uma comparação mais clara entre as diferentes biometrias, um conjunto de qualidades ou caraterísticas é utilizado[5]: Singularidade: Devem ser tão únicas quanto possível, ou seja, um traço idêntico jamais aparecerá em duas pessoas. Universalidade: Devem existir em tantas pessoas quanto possível. Mensurabilidade: Podem ser medidas com instrumentos técnicos simples. Aceitabilidade: São fáceis e confortáveis de serem medidas. Permanência: Não pode variar com o tempo. Desempenho: Qualidade e velocidade da tecnologia utilizada. biometrias[5]. Na tabela 2.1 é apresentado um quadro comparativo entre diferentes tipos de Biometria Universalidade Singularidade Permanência Mensurabilidade Desempenho Aceitabilidade DNA A A A B A B Face A B M A B A Impressão digital M A A M A M Geometria da mão M M M A M M Íris A A A M A B Retina A A M B A B Assinatura B B B A B A Voz M B B M B A Tabela 2.1: Comparação entre algumas biometrias[5]. Graus: A-Alto, M-Médio, B-Baixo. 2.1 BIOMETRIA DA VOZ A voz humana pode ser usada no processo de identificação de pessoas, uma prova disto é a capacidade do cérebro de reconhecer vozes de diferentes pessoas. Mas como um dispositivo pode realizar essa tarefa? 4

12 Como visto anteriormente, a biometria da voz é dependente tanto de características físicas, quanto comportamentais. Dessa forma processos de identificação de pessoas através da voz devem ser capazes de analisar todas essas características. Características físicas que participam do processo de produção de voz, como formato e tamanho do trato vocal, laringe, e outro órgãos, são consideradas invariantes para um indivíduo, ou seja, não variam de acordo com o tempo[5]. Porém outras propriedades da voz como sotaque, timbre e estado emocional podem variar muito com o tempo, dificultando o processo de biometria da voz. Outra desvantagem presente neste processo é o fato de o sinal geralmente ser muito afetado por ambientes ruidosos. Porém a biometria de voz possui uma qualidade muito importante. É um dos processos de identificação menos invasivos, pois o usuário não necessita ter nenhum contato físico com qualquer dispositivo. Apenas a voz gravada por um microfone é suficiente para a identificação. Nos capítulo seguinte, uma análise mais detalhada do processo de produção da voz humana é descrita. 5

13 6 3 A VOZ HUMANA Para a correta realização da tarefa de reconhecimento de locutor é interessante conhecermos um pouco mais detalhadamente o nosso objeto principal de estudo, a voz humana. Neste capítulo será demonstrado detalhes sobre os órgãos responsáveis pela produção da voz no corpo humano e também como todo esse processo de produção acontece. Será abordado também o conceito de modelo fonte-filtro. 3.1 PRODUÇÃO DA VOZ A produção da voz humana é um processo muito complexo que envolve o trabalho simultâneo de vários músculos e órgãos do sistema nervoso, respiratório e digestivo humano. É descrito a seguir como todo esse processo ocorre. Os componentes fisiológicos responsáveis pela produção da voz podem ser divididos em três grupos, ou subsistemas[9][6]: Subsistema Respiratório: Inclui os pulmões e outros músculos do sistema respiratório. Subsistema Laríngeo: Inclui os músculos e ligamentos da laringe, entre eles, as cordas vocais. Subsistema Supralaríngeo: É composto pelas regiões faringal, bucal e nasal.

14 Figura 3.1: Sistema de produção da voz humana.[6] Subsistema Respiratório A função básica do subsistema respiratório é gerar um fluxo de ar que será responsável por gerar toda a energia utilizada pelo processo de produção da voz. Ao realizarmos a inspiração do ar, uma força muscular é usada para encher os pulmões. Para isso, os pulmões se expandem gerando uma energia elástica que será liberada durante o movimento de expiração, gerando o fluxo de ar, que é enviado através da traquéia até a laringe. É este fluxo de ar que irá gerar a voz Subsistema Laríngeo Este subsistema, composto basicamente pela laringe, tem como principal função exercer a fonação, ou seja, realizar modificações no fluxo de ar enviado pelos pulmões gerando diferentes pulsos de ar, de acordo com cada realização fonética desejada. A laringe é um curto canal que se encontra no pescoço adiante do esôfago, e além de exercer papel indispensável na produção da fala, a laringe também tem funções importantes que mantêm o bom funcionamento dos sistemas respiratório e digestivo. Uma dessas funções é, durante o processo de deglutição, bloquear a traquéia e abrir a passagem 7

15 para o esôfago, impedindo assim que o alimento entre nas vias respiratórias. Dois componentes do subsistema Laríngeo são de grande importância para a produção da voz, são eles: A glote e as cordas vocais (ou pregas vocais). A glote é um pequeno espaço de formato triangular entre as cordas vocais. O ar enviado pelos pulmões passam através da glote, e dependendo do grau de abertura das cordas vocais, diferentes tipos do fonação são gerados. Podemos citar três tipos simples de fonação[6]: Ausência de voz (Voiceless) Cochicho (Whisper) Presença de voz (Voicing) Durante a fonação do tipo ausência de voz e do tipo cochicho, as cordas vocais estão separadas uma das outras, ou seja, o fluxo de ar irá passar através da glote aberta, criando pouca ou nenhuma resistência. A principal diferença entre a ausência de voz e o cochicho é o grau de abertura da glote. No cochicho, as cordas vocais estão mais próximas, o que causa uma certa turbulência no ar, produzindo sons conhecidos como cochicho ou sussurro. Já durante a fonação de ausência de voz, as cordas vocais estão bem separadas, permitindo uma maior abertura da glote, gerando praticamente nenhuma turbulência do ar. O tipo de fonação com presença de voz é o mais complexo. Esta fonação é gerada através de uma seqüência de movimentos de abertura e de fechamento da glote através de diferentes tensões nas cordas vocais. Gerando assim diferentes formas de vibração das cordas vocais. A freqüência com que as cordas vocais vibram é conhecida como freqüência fundamental, ou apenas F0. A inversa de F0 é o tempo que leva o ciclo de uma abertura e de um fechamento da glote. Freqüências fundamentais variam entre mulheres, homens e crianças devido ao fato de cada um ter cordas vocais de diferentes tamanhos. As mulheres geralmente tem cordas vocais menores do que as dos homens, e por isso, na maioria das vezes possuem freqüências fundamentais maiores. O tamanho das cordas vocais das crianças é ainda menor do que o das mulheres. 8

16 3.1.3 Subsistema Supralaríngeo Finalizando o processo de produção da voz, chegamos à última etapa, o subsistema supralaríngeo, o mais importante e mais complexo de todo esse processo. O subsistema supralaríngeo, é também conhecido como trato vocal. Trato vocal é um termo genérico que se refere aos órgãos produtores de voz que estão acima da laringe. Esses órgãos podem ser divididos em três cavidades: faringal, oral e nasal. As partes do trato vocal, servem como o que chamamos de articuladores. Cada movimento dos articuladores, gera uma modulação no ar proveniente da laringe, resultando no som desejado pelo locutor. O articulador mais flexível é, sem dúvida, a língua, pois pode assumir diferentes formas e posições, gerando os mais diversos sons. Como exemplo de movimento de articuladores, podemos utilizar um dos movimentos que pode ser gerado pela língua, quando apenas uma pequena abertura para a passagem de ar é deixada entre a própria língua e o céu da boca, gerando o que conhecemos por Consoante fricativa[9]. As fricativas são consoantes produzidas pela passagem do ar através de um canal estreito feito pela colocação de dois articuladores próximos um ao outro. Um exemplo de consoante fricativa, pode ser observado no início da pronuncia da palavra Som, no português brasileiro. Essa fricativa é descrita por [s]. 3.2 MODELO FONTE - FILTRO (SOURCE - FILTER) A produção da voz humana pode ser modelada por um sistema conhecido como Fonte-Filtro[9]. Este sistema considera que todo o processo de produção da voz pode ser aproximado por um modelo físico que contenha: uma fonte geradora, no caso o fluxo de ar que passa pela laringe, e filtros acústicos que representam o trato vocal. Esses filtros podem ser representados por uma série de tubos de raios variáveis. Cada tubo, por efeito de ressonância, é capaz de realizar mudanças nas freqüências do som, transformando-o, realizando a mesma função que todo o trato vocal. A figura 3.2 mostra um diagrama que representa o modelo fonte-filtro. 9

17 Figura 3.2: Diagrama do modelo fonte-filtro de produção de voz[6]. Muitos processamentos de voz são baseados sobre este modelo simples, assim como a técnica de predição linear, descrita no capítulo 4. 10

18 11 4 RECONHECIMENTO AUTOMÁTICO DE LOCUTOR Neste capítulo será apresentado uma descrição sobre o processo de reconhecimento de locutor, e suas principais etapas. 4.1 PROCESSAMENTO DE VOZ O processamento de voz tem como objetivo retirar informações desejadas a partir de um sinal de voz. No caso do processo de reconhecimento de locutor, a informação desejada é a identidade da pessoa ao qual a voz pertence. Exitem vários outros processos que derivam do processamento de voz, como por exemplo, o reconhecimento e a síntese de fala. Na figura 4.1 temos uma divisão comum das áreas envolvidas no processamento de voz[3]. Figura 4.1: Divisão das áreas do processamento de voz.[3] 4.2 CARACTERÍSTICAS Sistema de reconhecimento de locutor podem ser descritos de acordo com duas características comuns: tarefa e dependência de texto. Existem dois tipos básicos de tarefas: Identificação de locutor Verificação de locutor

19 A diferença básica entre as duas tarefas é que na identificação de locutor, o usuário que está tendo sua voz analisada não afirma quem ele é, e o sistema deve identifica-lo dentro de um grupo de indivíduos conhecidos. Já na tarefa de verificação, o usuário afirma ter uma certa identidade, e o sistema irá verificar através da voz se o usuário realmente é quem ele afirma ser. Outra característica importante é a dependência de texto. Mas antes de descrevela, é interessante entender as fases de um reconhecimento de locutor. São duas fases básicas que acontecem durante o processo: A primeira, conhecida como fase de treinamento, é quando cada locutor pronuncia uma série de frases que são processadas pelo sistema. A partir dessas frases, são retiradas características da voz, que serão capazes de identificar cada locutor. Esta fase é chamada de fase de treinamento pois o sistema está sendo treinado para reconhecer uma série de locutores, e está aprendendo como é a voz de cada um deles. A outra etapa, a fase de reconhecimento, é quando o usuário pronuncia uma frase para o sistema, e este irá comparar o sinal de voz com os dados recolhidos na frase de treinamento, e irá identificar ou verificar o locutor. A característica de dependência de texto afeta ambas as fases de treinamento e de reconhecimento. Exitem dois tipos de dependência de texto: Dependente de texto Independente de texto Quando um sistema é dito dependente de texto significa que o processo de identificação, ou de verificação, é baseado sempre nas mesma frase dita pelo usuário na fase de treinamento. Ou seja, o usuário deve ditar sempre a mesma frase, tanto na fase de treinamento quanto na fase de reconhecimento. Sendo assim, o sistema é dependente do texto pronunciado pelo usuário e se um texto diferente for pronunciado, provavelmente algumas características na voz não serão encontradas pelo sistema, dificultando o reconhecimento. No caso do processo independente de texto, não há ligação entre a frase usada para treinar o sistema e a frase dita pelo usuário durante o processo de reconhecimento. O sistema não usa características da frase dita, como duração ou pausas, ele apenas analisa as características da voz que não são dependentes de texto, ou seja, que não variam de uma pronuncia para outra. 12

20 4.3 VISÃO GERAL É apresentado a seguir uma visão geral de como um sistema de reconhecimento de locutor trabalha, e as partes que o compõe. É comum dividirmos este tipo de sistema nas seguintes etapas: Aquisição do Sinal Parametrização do Sinal Criação de modelos ou Treinamento Comparação e decisão Figura 4.2: Esquema básico de um sistema de reconhecimento de locutor.[3] A figura 4.2 apresenta um esquema comum da organização de um sistema de reconhecimento de locutor. A seguir, é apresentada uma breve descrição de cada uma das etapas do sistema Aquisição do Sinal A primeira etapa do processo tem a função de receber o sinal de voz no formato analógico, e converte-lo em sinal digital. É também durante esta etapa que é executada a divisão do sinal em pequenas partes de tamanho igual, que chamamos de frames. A divisão em frames é feita durante a conversão do formato analógico para o formato digital. Uma outra divisão do sinal, conhecida por windowing, também pode ser executada durante esta etapa. 13

21 4.3.2 Parametrização do Sinal O próximo passo é parametrizar o sinal, ou seja, retirar as principais características que possam descrever a voz que está sendo analisada. Para isso, sobre cada frame de sinal é executado um processamento que resulta em um conjunto de vetores conhecidos como features. Os valores contidos nestes vetores representam as características retiradas da voz Criação de modelos acústicos Tanto o processo de identificação, quanto o de verificação de locutor, necessitam que exista um modelo acústico para cada locutor. Este modelo acústico é uma representação digital da voz de um locutor. O processo de criação de modelos acústicos é realizado, basicamente, sobre a análise de vários sinais de voz de um mesmo locutor. Todos esses sinais são parametrizados, gerando um conjunto grande de features. As features são então analisadas e refinadas, restando apenas as características que representam melhor a voz do locutor Comparação e decisão Tendo os modelos acústicos de cada locutor, a última etapa é realizar a comparação entre o sinal de voz do locutor desconhecido e os registros presentes nos modelos. Para o processo de identificação de locutor, o sinal de voz desconhecido é parametrizado e comparado com cada um de todos os modelos. O modelo que apresentar a melhor, ou maior, semelhança, indica, a qual locutor a voz analisada pertence. Já para o processo de verificação de locutor, as features do sinal da voz desconhecida são comparadas apenas com o modelo do locutor que a pessoa que emitiu o sinal de voz afirma ser. Se a comparação resultar em um grau de semelhança maior do que um certo limiar, então a verificação é considerada verdadeira, caso o grau de semelhança seja menor do que o limiar estipulado, a verificação é considerada falsa. Nas seções a seguir detalhes e algoritmos de cada uma das etapas são descritos. 14

22 4.4 AQUISIÇÃO E TRATAMENTO DO SINAL A aquisição do sinal é feita através de um microfone que passa as informações para um conversor analógico-digital, transformando o sinal de voz analógico em um sinal digital, possibilitando assim o seu processamento. Sinais digitais possuem duas características importantes, são elas: Taxa de amostragem: Por se tratar de uma aproximação do sinal analógico, o sinal digital é formado por várias amostras retiradas do sinal analógico. A quantidade de amostras presentes em um segundo de sinal digital é conhecida como taxa de amostragem, medida em Hertz. Quanto maior a taxa de amostragem, mais próxima é a representação digital da analógica do sinal. Precisão: É o quão preciso uma amostra de sinal pode ser. Geralmente é medida em tipos computacionais de dados, como por exemplo, ponto-flutuante de 16 bits. Após a transformação da representação analógica para a representação digital, o sinal é então dividido em pequenas partes com um mesmo número de amostras. Cada uma dessas partes é conhecida como frame. Essa é uma divisão padrão feita pelo hardware de som da maioria das máquinas. Ela facilita o processo computacional sobre os sinais. Porém, processamentos de voz como reconhecimento de locutor, necessitam de uma divisão um pouco mais aprimorada, que chamamos de windowing Windowing Windowing é processo de divisão do sinal digital em janelas[1]. Essas janelas podem ser comparadas com o frames, porém possuem duas grandes diferenças: Podem conter sobreposição. Executam operações matemáticas que alteram o sinal. Sobreposição é quando uma janela compartilha um certo número de amostras com suas janelas adjacentes. Essa técnica permite que o processamento do sinal tenha um resultado mais próximo ao que ele teria se processasse o sinal inteiro, sem a divisão por frames. Pois através da sobreposição as interrupções causadas pela divisão em frame 15

23 é reduzida. A figura 4.3 demonstra um exemplo de divisão de um sinal em janelas com sobreposição. Figura 4.3: Exemplo de windowing de um sinal Outra características das janelas que podem melhorar o processamento de um sinal é a aplicação de operações matemáticas, ou window functions, sobre as amostras da janela. Essas operações matemáticas tem como objetivo realçar as amostras que estão mais ao centro de cada janela, e diminuir as que estão nas extremidades, que assim como a sobreposição, reduz a descontinuidade do sinal. Existem vários tipos de window functions, mas talvez, a mais conhecida seja a Hamming window, que tem a seguinte expressão matemática: ( ) 2πn w[n] = cos N 1 (4.1) Onde N é o tamanho da janela. Para aplicar esta operação sobre uma janela de sinal, basta apenas multiplicar o sinal por w[n]. 16

24 Figura 4.4: Exemplo da aplicação da operação Hamming window sobre um sinal[6] Pre-emphasis Geralmente em processamentos de voz, uma operação conhecida como preemphasis é executada sobre o sinal antes que ele seja analisado pelo processo desejado. Pre-emphasis nada mais é do que a aplicação de um filtro capaz de balancear as altas freqüências com as relação às baixas freqüências presentes no sinal. A razão para realizar esse balanceamento é que, entre a produção da voz humana e a captação do sinal pelo microfone, as altas freqüências perdem força, enquanto as baixas ficam mais fortes. Na figura 4.5 temos um exemplo de aplicação deste filtro. A implementação de um filtro capaz de realizar o processo de pre-emphasis é muito simples. Apenas deve-se realizar a seguinte operação sobre o frame de sinal: s[n] = s[n] αs[n 1] (4.2) Onde α é um valor estabelecido empiricamente. Um valor comum para α é: α = 0.91 (4.3) 4.5 PARAMETRIZAÇÃO DO SINAL Um sinal de voz por si só carrega muita informação, e nem todas delas podem ser interessantes para o processo de reconhecimento de locutor, como por exemplo ruídos 17

25 Figura 4.5: Pre-emphasis aplicada a um sinal de voz[6]. externos, ou segundos de silêncio e etc, além do que toda essa informação desnecessária ocupa espaço e esforço computacional se for processada[6]. Para reduzir a quantidade de informações a serem processadas pelo sistema e selecionar apenas as informações que são realmente pertinentes para o processo, deve-se realizar o que chamamos de Feature Extraction, ou Parametrização do Sinal. Nesta fase, o sinal de voz é analisado e reduzido a um conjunto de números que contêm a informação desejada pertencente ao sinal. Esse novo conjunto de números é chamado de Vetor de Features. É interessante que o vetor de features seja muito menor do que o sinal de voz própriamente dito, a fim de promover um esforço computacional menor. Existem muitas formas de retirar features de um sinal de voz que sejam capazes de representar a voz de um locutor. Algumas delas são[3][6]: Predição Linear 18

26 Mel-Cepstrum Filterbanks Muitos trabalhos têm demonstrado que a técnica de predição linear apresenta bons resultados na tarefa de reconhecimento de locutor[10][3][6][2]. Por esse motivo, essa é a feature escolhida para ser abordada neste trabalho Predição Linear (Linear Prediction) Sabe-se que a partir de um sinal s n é possível modelar uma aproximação da fonte geradora do sinal. No caso de um sinal de voz, a aproximação da fonte geradora pode ser comparada ao modelo fonte-filtro, apresentado no capítulo 3. Desta forma, a partir de um sinal de voz de um locutor, podemos gerar uma aproximação do modelo fonte-filtro responsável pela produção da voz, criando uma boa representação da voz do locutor. A técnica utilizada para modelar a aproximação da fonte geradora de um sinal é conhecida como predição linear Definição A idéia principal em que a Predição Linear se baseia é de que as amostras adjacentes de um sinal são fortemente relacionadas, e que a partir disso, é possível realizar uma previsão do comportamento do Sinal. A regra básica da Predição Linear define que o valor de cada amostra de um sinal pode ser aproximado a partir dos valores de algumas amostras anteriores[8],[3],[6], ou seja: p s n a k s n k + Gu n (4.4) k=1 Onde u n é o sinal de entrada no sistema, G é um fator escalar e p é definido como a Ordem da Predição (Prediction Order), que estipula o número de amostras anteriores que devem ser utilizadas na predição de s n. Em aplicações que envolvem a análise de sinais de voz, geralmente a entrada do sistema u n é desconhecida, logo, é desconsiderada. p s n a k s n k (4.5) k=1 19

27 O objetivo da Predição Linear é determinar os valores dos Coeficientes de Predição { a k k = 1,..., p } de uma forma que o erro da predição seja o menor possível. O erro da predição é obtido através da diferença entre o valor real da amostra e o valor obtido pela predição. p e n = s n ( a k s n k ) (4.6) k=1 Ou ainda: p e n = s n + a k s n k (4.7) k=1 p s n = a k s n k + e n (4.8) k=1 Podemos observar nas equações 4.4 e 4.8 que o erro da predição pode ser comparado à entrada do sistema u n que foi ignorada anteriormente, ou seja, o erro da predição é totalmente formado pela informação do sinal que foi desconsiderada. Se conseguirmos reduzir ao máximo e n teremos uma estimativa muito próximo do sinal real, mesmo desconsiderando a informação da entrada do sistema. A fim de reduzir ao máximo o e n, é interessante analisar o MSE - Mean Squared Error - da expressão 4.7, que é representado por: E = n e 2 n E = [ s n + n ] 2 p a k s n k (4.9) O valor mínimo de E ocorrerá quando a derivada para cada a k for igual a zero[3][6]. k=1 E a k = 0 k = 1,..., p O que resulta em[3][6]: p a k s n k s n i = n n k=1 s n s n i i = 1, 2,..., p (4.10) 20

28 Se escrevermos a expressão 4.10 para cada k = 1, 2,..., p, teremos um sistema composto de várias equações conhecidas como equações AR. Essas equações compõe o que chamamos de modelo AR - Autoregressive Model. Resolvendo as equações AR teremos os valores para os coeficientes da predição. Dois métodos de resolução são geralmente usados para resolver Modelos AR, são eles: Método da autocorrelação Método da covariância Embora em alguns casos o método da covariância apresente alguns resultados melhores[9], o método da autocorrelação tem um custo computacional menor, e sempre apresenta bons resultados. Por esses motivos, neste trabalho, abordaremos apenas o método da autocorrelação Método da Autocorrelação Uma técnica existente no campo da Estatística, chamada autocorrelação[11] é muito usada em vários outros campos. E um desses campos é a análise de sinais. A autocorrelação de uma série s n, de tamanho N, num deslocamento k no tempo, pode ser dada por: r k = N s n s n k (4.11) n=k A fim de evitar o somatório infinito e de trazer os cálculos para um ambiente discreto, é interessante aplicar uma janela, ou window, como visto em Sendo assim, temos a seguinte equação para o cálculo da autocorrelação do sinal: maneira: r k = N 1 k n=k s n s n k (4.12) Considerando a equação 4.12, podemos reescrever a equação 4.10 da seguinte p r (i k) a k = r i i = 1, 2,..., p (4.13) k=1 21

29 Reescrevendo a expressão 4.13 na forma matricial teremos as equações AR. r 0 r 1 r 2... r p 1 r 1 r 0 r 1... r p 2 r 2 r 1 r 0... r p a 1 a 2 a 3. = r 1 r 2 r 3. (4.14) r p 1 r p 2 r p 3... r 0 a p r p Resolvendo a equação 4.14 teremos os valores dos coeficientes de predição, {a 1, a 2, a 3,..., a p } que representam o modelo da fonte geradora do sinal, alcançando assim, o objetivo da predição Linear. Para isto podemos usar um algoritmo conhecido como Algoritmo Recursivo de Levinson-Durbin. Este algoritmo é o método mais eficiente para resolver expressões como O algoritmo de Levinson-Durbin recebe como entrada a seqüência de autocorrelação do sinal, e retorna os seguintes dados: Coeficientes da predição. Coeficientes de reflexão. Coeficientes LAR - Log Area Ratio. Temos a seguir uma breve descrição matemática do algoritmo Levinson-Durbin: k i = [R i+ P i 1 a i i = k i a (i) j = a i 1 j j=1 ai 1 j R i j] E i 1 E i = (1 k 2 i ) E i 1 E 0 = R 0 1 i p + k i a (i 1) i j 1 j i 1 i = 1, 2,..., p a j = a (p) j 1 j p. Os coeficientes LAR, g m, não são retornados diretamente pelo algoritmo mas podem ser obtidos através da seguinte expressão: ( ) 1 km g m = log 1 + k m (4.15) 22

30 Todos estes coeficientes podem ser usados como features de um sinal de voz[3][6]. 4.6 TOMADA DE DECISÃO É nesta etapa do processo que, através das características retiradas do sinal de voz, ocorre a tomada de decisão. Para esta decisão as features do sinal que está sendo analisado são comparadas com modelos previamente criados para cada um dos locutores. Antes de demonstrarmos como essa comparação entre feature e modelo ocorre, é interessante descrever como um modelo é, e como ele é criado Modelos Acústicos De uma forma geral, um modelo acústico é um conjunto de features retiradas de uma série de sinais de voz de um mesmo locutor. Essas features podem ser expressas na forma de vetores de números reais. No caso das features retiradas através do processo de predição linear, cada vetor é composto por p números, onde p é a ordem da predição. Esse conjunto de vetores teoricamente representa a voz, ou as características da voz de um locutor. Porém como vários sinais de voz são analisados na criação de um modelo, a quantidade de features geradas pode ser muito grande, o que pode levar a problemas tanto de tempo computacional quanto de espaço para armazenar todos esses dados. Outro ponto a ser observado é o fato de que nem todas as features extraídas dos sinais podem ser consideradas relevantes, pois podem ter sido computadas a partir de um trecho de sinal com ruído ou outro anomalia que não condiz com as características usuais do locutor. A fim de reduzir o tamanho dos modelos e ao mesmo tempo retirar informações menos relevantes sobre o locutor, várias técnicas tem sido propostas. Vamos apresentar aqui uma dessas técnicas, conhecida como vector quantization ou quantização vetorial Vector Quantization Vector quantization, VQ, é uma das muitas técnicas de quantização conhecidas. Essas técnicas tem como objetivo executar a seguinte tarefa: Mapear um conjunto de vetores de dimensão k, espaço R k, em um conjunto finito de vetores Y = {y i i = 23

31 1, 2,..., N}, onde cada vetor y i é chamado de code vector e o conjunto de todos os code vectors é chamado de code book. N é o tamanho do code book. Em outras palavras a técnica de VQ irá gerar a melhor aproximação de tamanho N para um certo conjunto de dados de entrada. Figura 4.6: Exemplo de vector quantization para dimensão R 2 [4]. Na figura 4.6 podemos observar um exemplo da execução da técnica de vector quantization para um conjunto de vetores de dimensão 2. Na figura, o conjunto de vetores de entrada são representados pelos pontos na cor verde. Os pontos em vermelho são os code vectors. Ou seja, todos os vetores de entrada presentes dentro de um dos polígonos azuis serão representados, ou aproximados, pelo code vector que representa este polígono. Dessa maneira todo o conjunto de entrada foi aproximado para um conjunto muito menor de vetores. 24

32 4.6.2 Decisão Após criar os modelos para cada locutor, e retirar as features do sinal que está sendo analisado, estamos prontos para executar a tomada de decisão. Basicamente nesta etapa do processo devemos verificar com qual dos modelos o conjunto de features retirados do sinal se aproxima mais. O grau de aproximação, ou grau de semelhança, entre um conjunto de features e um modelo acústico pode ser feito de várias maneiras. A forma mais conhecida é executando o calculo de distorção, ou distância. Considere um vetor de features x i e um modelo C = {c j j = 1, 2,..., N} de tamanho N. A distorção d do vetor x i para o modelo C é: D(x i, C) = min c j C d(x i, c j ) (4.16) Onde d(x, y) é a distorção direta entre dois vetores. Essa distorção pode ser calculada de várias formas. A mais usual e simples é utilizando distância euclidiana. Na equação 4.16 calculamos a distorção de um vetor de features para um modelo, porém ao parametrizar um sinal temos como resultado um conjunto de vários vetores. O grau de semelhança entre o sinal analisado e um modelo pode ser calculado pela distorção média entre um conjunto de vetores de features X = {x i i = 1, 2,..., M} de tamanho M e um modelo. Esta distorção média D m é calculada por: D m (X, C) = 1 M M D(x i, C) (4.17) i=1 O valor da distorção média pode ser usado como o grau de semelhança entre um sinal analisado e um modelo acústico. Quanto menor a distorção, maior o grau de semelhança. Por se tratar de uma espécie de pontuação, o termo distorção média é normalmente substituído pelo termo score. Sendo assim, o score de conjunto de features X para um modelo C, pode ser considerado como o valor da distorção média entre os conjuntos: score(x, C) = D m (X, C) (4.18) O cálculo do score é o mesmo, tanto para o procedimento de identificação de locutor quanto para o procedimento de verificação. A diferença entre esse procedimentos 25

33 acontece no passo seguinte à estimativa do score. Para realizar a identificação de um locutor, é necessário realizar o cálculo do score das features que estão sendo analisadas com todos os modelos presentes no sistema. O modelo que apresentar o menor score, ou seja, a menor distorção para as features analisadas indicará o nome do provável locutor ao qual a voz em questão pertence. Logo, o índice, ou número, i que indica o locutor escolhido, é dado por: i = arg min j score(x, S j ) (4.19) No processo de verificação, o sistema apenas compara o score do sinal analisado com o modelo do locutor que o usuário afirma ser. Desta forma, se o score obtido for menor do que um certo limiar Θ, o sistema confirma a identidade do usuário, caso contrário, a identidade é negada. Θ confirma identidade score(x, S j ) = > Θ nega identidade (4.20) O cálculo do limiar é um passo importante do treinamento de um sistema verificador de locutor[2]. Várias técnicas para este cálculo têm sido propostas. No capítulo 6 algumas dessas técnicas são descritas. 26

34 27 5 O SISTEMA Como citado anteriormente, o objetivo deste trabalho é apresentar um sistema capaz de realizar o reconhecimento automático de locutor em tempo real. Neste capítulo vamos explorar o sistema em si, abordando suas principais características como implementação, algoritmos usados, entradas e saídas do sistema, entre outros pontos interessantes. 5.1 VISÃO GERAL O funcionamento do sistema pode ser dividido em uma série de pequenos passos. Primeiramente o sinal de voz é adquirido através de um microfone ou de arquivos de áudio previamente gravados. Este sinal de voz é então dividido em frames, e cada um desses frames será analisado separadamente. A análise de um quadro de voz segue com a parametrização do sinal, ou seja, é executada a retirada das características (features) desse pedaço de sinal. Essas características serão usadas para criar o modelo de voz para o locutor que forneceu o sinal, ou serão comparadas com os modelos já criados para diferentes locutores, a fim de realizar o reconhecimento do locutor. 5.2 MÓDULOS Para garantir que o sistema tenha funcionamento em tempo real e com a menor latência possível, todo o processo foi divido em três grandes módulos, cada um com funções específicas. São eles: Entrada e Saída: Módulo responsável por toda comunicação do software com o hardware de som. Também realiza um pré-processamento do sinal. Parametrizador: Realiza a parametrização do sinal de voz, ou seja, gera o conjunto de features. Comparador: Compara as features geradas pelo Módulo Parametrizador com os modelos acústicos, e realiza a tomada de decisão ou de reconhecimento. Também é

35 responsável pela criação dos modelos. A figura 5.2 demonstra uma visão geral dos módulos quem compõe o software. Antes de abordamos cada módulo com mais detalhes, é interessante entendermos como é realizada a comunicação entre cada um dos módulos. Figura 5.1: Visão geral dos módulos do sistema Comunicação entre módulos Para realizar a tarefa de transmissão de informações entre os módulos, uma estrutura abstrata de dados foi criada. Esta estrutura é semelhante a implementação de uma fila de dados, com a diferença de que ela está preparada para trabalhar sob um ambiente de concorrência, ou seja, diferentes processos podem acessa-la ao mesmo tempo, sem que a consistência dos dados seja afetada. Para garantir o funcionamento em um ambiente de possível concorrência, apenas uma regra foi estabelecida sobre o funcionamento dessa estrutura de dados: Se uma fila Q estiver vazia e um processo P requisitar algum dado de Q, então P ficará parado até que algum outro processo insira algum dado em Q. O uso desta estrutura de dados é o único método de comunicação entre os módulos do sistema, não importando o tipo dos dados transmitidos. Este modelo de comunicação garante que cada módulo possa trabalhar independentemente e sempre com uma sincronização viável, pois se um processo está sem dados para trabalhar, ele irá aguardar até que novos dados sejam disponibilizados para o processamento, e na situação contrária, se 28

36 um processo está computando dados, outros processos podem enviar novas informações para o processo ocupado sem a preocupação com a perda desses dados, pois eles ficarão armazenados na fila até que o processo ocupado possa atender às solicitações e processar os dados da fila. 5.3 MÓDULO ENTRADA E SAÍDA Este módulo tem as seguintes funções: Realizar toda a comunicação com o hardware de som, tanto para captação quanto para a reprodução de sons. Ler arquivos de áudio quando necessário. Identificar frames de sinal que contêm voz. Resampling. Repassar frames de sinal que contêm voz para o módulo Parametrizador Interação com hardware de som Toda comunicação do sistema com o hardware de som é feito com base na biblioteca RtAudio - Real Time Audio 1. Esta biblioteca é composta por um conjunto de funções, nas linguagens de programação C e C++ programação, que auxiliam o contato de processos com o hardware de som em sistemas Windows, Linux e MacOS. É através destas funções que o sistema capta os sinais do microfone e também reproduz estes sinais quando solicitado pelo usuário Entrada de dados Duas entradas de dados podem ser usadas para alimentar o sistema, uma delas como foi vista, é a entrada de sinal a partir de um microfone ligado ao computador. A outra forma de entrada de dados é composta por uma lista de arquivos WAV passados pela linha de comando. O sistema irá interpretar o sinais presentes nesses arquivos como se fossem um único sinal passado pelo microfone. Dessa forma, não há diferença

37 no processamento das duas entradas de dados. Após a leitura da lista de arquivos, ou a captação do sinal através do microfone, o processamento é o mesmo Resampling Resampling nada mais é do que a alteração da taxa de amostragem de um sinal. Isso pode ser usado para diminuir a quantidade de dados contida no sinal, ou também, para aumenta-la. Há diversos motivos para se fazer uso do Resampling. No nosso caso ele foi usado para realizar testes do sistema com sinais de voz com taxas de amostragem menores. Mais detalhes sobre essa operação serão vistos no capítulo Detecção de Voz Ao analisar um sinal de voz, é interessante que as partes do sinal que não contenham efetivamente fragmentos de voz sejam descartados da análise, para que ruídos não atrapalhem no processo. Por esse motivo, um algoritmo de detecção de voz foi criado para que o sistema apenas processe as partes do sinal que contenham voz. Figura 5.2: Divisão de um sinal de voz em segmentos de voz (áreas verdes) de acordo com a amplitude. O algoritmo de detecção de voz criado é baseado na amplitude do sinal. O sistema considera que o sinal está livre de ruídos que tenham uma amplitude maior do que a da voz, ou seja, as partes do sinal que contêm maior amplitude são identificadas como as partes que contêm voz. Para encontrar as partes do sinal que tem uma maior amplitude, um limiar baseado na amplitude média de um sinal que contenha apenas silêncio e de um que contenha apenas voz é calculado. Essas amostras de sinal de silêncio e de voz são passados pelo usuário para o sistema, seja por arquivo de áudio ou por microfone. Após isso o sistema analisa as duas amostras, e retira o valor máximo de amplitude de cada uma. 30

38 Com os valores máximos de amplitude do sinal sem a presença de voz, S M, e do sinal com presença de voz, V M, passados pelo usuário, o sistema calcula o limiar L da seguinte forma: L = 4S M + V M 5 (5.1) Tendo o limiar L calculado, o sistema quando está em funcionamento, analisa o valor máximo de amplitude de cada frame do sinal. Se este valor máximo de amplitude for maior do que o limiar calculado, então o frame será considerado como sendo um frame de voz. Caso o valor máximo seja menor do que o limiar, então o frame será considerado como um frame contendo apenas silêncio. Dessa forma, o algoritmo é capaz de identificar se um dado frame contém sinal de voz ou não, porém, apenas isso não é suficiente para identificar sinais de voz humana com qualidade. Não é suficiente pois se analisarmos o tamanho de um frame de sinal perceberemos que a quantidade de informação presente neste frame é muito pequena. No nosso sistema, o tamanho de um frame é de 512 amostras, e a uma taxa de amostragem de 48000Hz, podemos concluir que um frame contém apenas cerca de segundos de áudio. Sendo assim, se o locutor pronunciar uma palavra que contenha uma pequena pausa entre as sílabas, o algoritmo de detecção de voz provavelmente irá reconhecer vários segmentos diferentes de voz para apenas uma palavra. Isso é de certa forma ruim para a identificação de locutor, já que pequenas pausas na dicção estão diretamente ligadas a propriedades únicas da voz de cada locutor, como sotaque e entonação, e com o algoritmo trabalhando desta forma, toda essa informação capaz de identificar um locutor será perdida. Para que isto não ocorra, uma melhora ao algoritmo de detecção de voz foi realizada. Esta melhora consiste em que o algoritmo não deve considerar que um segmento de voz seja formado apenas por um frame, mas sim por uma lista deles. Dessa forma não temos mais um algoritmo de detecção de voz, mas sim um algoritmo de detecção de segmentos de voz. Cada frame continua sendo avaliado separadamente, mas o algoritmo apenas irá considerar que o segmento de voz acabou se houver um certo número de frames sem voz consecutivos. O mesmo acontece para o início de um segmento. O algoritmo considera que um segmento de voz foi iniciado apenas se existir um certo número de frames com 31

39 voz consecutivos. A quantidade de frames de voz consecutivos para determinar o início de um segmento de voz, L V, e o número de frames sem voz consecutivos para determinar o final de um segmento de voz, L S foram definidos empiricamente, e receberam os seguintes valores: L V = 5 frames L S = 47 frames Sendo assim, um segmento de voz só será iniciado se houver registro de voz por mais de segundos, o que impede que pequenos ruídos, como o bater da mão em um microfone, sejam reconhecidos como um trecho de voz que foi iniciado. E um segmento de voz só será considerado como encerrado se houver silêncio por mais de 0.5 segundos consecutivos. Permitindo assim pequenas pausas entre as sílabas e até mesmo entre palavras, garantindo que a maioria das características da voz do locutor sejam incluídas na análise do sistema. 5.4 MÓDULO PARAMETRIZADOR Os dados retornados pelo módulo de entrada e saída são os segmentos de voz. Estes segmentos são enviados ao módulo parametrizador, o qual tem as seguintes funções: Realizar o windowing dos fragmentos de voz passados pelo módulo de entrada e saída. Calcular os coeficientes da Predição Linear para cada janela de sinal. Enviar os coeficientes calculados para o módulo comparador Windowing Assim que o módulo Parametrizador recebe os frames de segmentos de voz enviados pelo módulo de Entrada e Saída, é realizada a divisão desses segmentos em janelas. Neste trabalho, cada janela é composta por 1440 amostras, e uma sobreposição de

40 amostras é realizada sobre as janelas adjacentes. Ou seja, com uma taxa de amostragem de 48000Hz, uma janela em nosso sistema tem 30 milissegundos de sinal e cada sobreposição tem uma duração de 20 milissegundos Cálculo dos Coeficientes de Predição Linear Para cada janela de 30 milissegundos de sinal gerada, um vetor de coeficientes de predição linear é calculado. Para realizar este cálculo, foi implementado o algoritmo recursivo de Levinson-Durbin[9][3]. Como sabemos este algoritmo é capaz de retornar 3 tipos de coeficientes de predição linear: Coeficientes da predição linear puros, coeficientes de reflexão e coeficiente LAR. Dessa forma, o sistema é capaz de utilizar qualquer um desses três tipos de coeficientes para realizar a tarefa de reconhecimento de locutor. No capitulo 6 apresentaremos os resultados de testes para cada um desses tipos de coeficientes, e também para diferentes valores de ordem da predição linear. Terminado o cálculo dos coeficientes, o vetor criado é então passado ao módulo Comparador, que irá concluir o processo de reconhecimento e irá gerar o resultado. 5.5 MÓDULO COMPARADOR Chegamos ao último módulo do sistema, o módulo comparador. Aqui será processada a tomada de decisão, tanto para a verificação, quanto para a identificação de locutor. Outra tarefa muito importante realizada por este módulo é a criação e a manipulação de modelos Criação de Modelos Antes de realizar o processo de identificação ou de verificação de locutor, é necessário que o sistema seja executado no modo de treinamento, ou seja, em um modo em que o objetivo seja a criação dos modelos de voz de cada locutor. Quando o sistema está sendo executado no modo de treinamento, os módulos de Entrada e Saída e Parametrizador funcionam da mesma maneira, sem alteração alguma, o único módulo que sofre mudança no seu funcionamento é o módulo Comparador. Ao 33

41 receber os vetores de features do módulo Parametrizador, o módulo Comparador irá executar um algoritmo de quantização que irá retornar os vetores de features que melhor representam os vetores extraídos da análise da voz de cada locutor. A técnica de quantização utilizada pelo sistema é a vector quantization descrita no capítulo 4. Exitem várias propostas de implementação para algoritmos de vector quantization. A implementação contida no sistema foi baseada no algoritmo conhecido por LBG, descrito em [7]. O quadro a seguir mostra a organização de um arquivo de modelo utilizado pelo sistema: <NUMERO DE LOCUTORES> <TAMANHO DO CODEBOOK> <NOME DO LOCUTOR> <FEATURE> <ORDEM> <VALOR1> <VALOR2>... <VALOR ORDEM -1> <VALOR1> <VALOR2>... <VALOR ORDEM -1> O quadro a seguir demonstra um trecho de um arquivo de modelo utilizado em um dos testes do sistema: 34

42 17 64 Aaron LPC Tomada de decisão Depois de gerar o modelo de voz para todos os locutores, o sistema está pronto para ser executado nos modos de identificação ou de verificação Identificação de Locutor O processo de identificação tem como objetivo identificar dentre quais locutores uma certa voz se aproxima mais. Ou seja, nenhuma identificação prévia do locutor é informada e o sistema deve comparar as features retiradas da voz com os modelos de todos os locutores, e eleger um como sendo o proprietário da voz testada Verificação de Locutor No modo de verificação de locutor, o sistema recebe uma pré-identificação do locutor, no caso, o nome do locutor, e irá verificar se o locutor realmente é quem ele diz ser. 35

43 36 6 TESTES E RESULTADOS Nesse capítulo são apresentados testes executados sobre o sistema e seus resultados. É apresentado também uma análise sobre esses resultados. Foram realizados diferentes tipos de testes, tanto para a tarefa de verificação de locutor como para a tarefa de identificação de locutor. Nos testes de identificação de locutor, o objetivo foi realizar uma variação dos parâmetros do sistema a fim de gerar a melhor combinação empiricamente. Nos testes de verificação de locutor algumas alternativas de cálculo de limiar foram testadas e analisadas. 6.1 BASE DE TESTES Foram usadas duas bases de testes durante a avaliação do sistema. Uma delas contendo 25 locutores (15 do sexo masculino e 10 do sexo feminino) e a outra contendo 50 locutores (31 do sexo masculino e 19 do sexo feminino). Ambas as bases de testes foram criadas a partir de arquivos oferecidos pelo projeto VoxForge 1. VoxForge é um projeto que tem como objeto disponibilizar arquivos de áudio contendo voz e distribuí-los de uma forma gratuita e aberta ao público. Todos os arquivos contidos no projeto são gravados por voluntários por todo o mundo. Os arquivos de voz utilizados para a criação das bases de testes têm as seguintes características: Cada arquivo contém uma frase ditada pelo locutor na língua inglesa, porém, com sotaques variados. Os arquivos tem duração de no máximo 5 segundos. Taxa de amostragem de Hz. 16 bits de precisão em ponto flutuante. Cada locutor presente na base de testes possui um conjunto total de dez frases diferentes pronunciadas. Cinco utilizadas para a fase de treinamento do sistema, e as 1

44 outras cinco utilizadas na fase de testes. Dessa forma podemos ter a certeza de que o sistema é independente de texto. 6.2 TESTES DE IDENTIFICAÇÃO DE LOCUTOR São apresentados a seguir os testes realizados para a tarefa de identificação de locutor. Durante esses testes, os seguintes parâmetros do sistema foram avaliados e alterados: Tipo de coeficiente utilizado Ordem da predição linear Tamanho do modelo acústico A seguir são mostrados os resultados para cada um dos três tipos de coeficientes usados: Coeficientes da predição linear, coeficientes de reflexão e coeficientes LAR. Após, uma comparação entre os melhores resultados de cada coeficiente é apresentada. Cada um dos tipos coeficientes foram testados com diferentes valores de ordem de predição e de tamanho de modelo acústico. Os valores de ordem de predição variam de 5 à 30 e para cada um desses valores os seguintes tamanhos de modelo acústico foram utilizados: 8, 16, 32, 64, 128 e Coeficiente da predição linear modelo acústico: Taxa de erro apresentada pelo coeficiente de predição para cada tamanho de 37

45 Figura 6.1: Resultados para a tarefa de identificação de locutor usando coeficiente de predição linear e diferentes tamanhos de modelos. Base de 25 locutores. Figura 6.2: Resultados para a tarefa de identificação de locutor usando coeficiente de predição linear e diferentes tamanhos de modelos. Base de 50 locutores. 38

46 Analisando os gráficos 6.1 e 6.2 é possível notar que com o aumento do tamanho do modelo acústico temos uma grande redução na taxa de erro. E, quanto ao aumento da ordem de predição notamos uma grande variação nos resultados, sendo difícil fazer uma afirmação segura. As menores taxas de erro obtidas com a base de testes de 25 locutores, para cada tamanho de modelo acústico com os coeficientes de predição foram: Tamanho do modelo acústico Ordem da predição Taxa de erro % % % % % % Tabela 6.1: Menores taxas de erros obtidas com o coeficiente de predição, para a base de testes de 25 locutores. E para a base de testes de 50 locutores, as menores taxas de erro foram: Tamanho do modelo acústico Ordem da predição Taxa de erro % % % % % % Tabela 6.2: Menores taxas de erros obtidas com o coeficiente de predição, para a base de testes de 50 locutores Coeficiente de reflexão Taxa de erro apresentada pelo coeficiente de reflexão para cada tamanho de modelo acústico: 39

47 Figura 6.3: Resultados para a tarefa de identificação de locutor usando coeficiente de reflexão e diferentes tamanhos de modelos. Base de 25 locutores. Figura 6.4: Resultados para a tarefa de identificação de locutor usando coeficiente de reflexão e diferentes tamanhos de modelos. Base de 50 locutores. 40

48 O mesmo comportamento observado para os coeficientes de predição pode ser verificado com os coeficientes de reflexão. Quanto maior o tamanho do modelo acústico, menor a taxa de erro. Na figura 6.4 é possível perceber uma pequena tendência de redução da taxa de erros com o aumento da ordem de predição, porém o comportamento geral obtido com a variação da ordem de predição ainda é instável. As menores taxas de erro obtidas com a base de testes de 25 locutores, para cada tamanho de modelo acústico com os coeficientes de reflexão foram: Tamanho do modelo acústico Ordem da predição Taxa de erro % % % % % % Tabela 6.3: Menores taxas de erros obtidas com o coeficiente de reflexão, para a base de testes de 25 locutores. E para a base de testes de 50 locutores, as menores taxas de erro foram: Tamanho do modelo acústico Ordem da predição Taxa de erro % % % % % % Tabela 6.4: Menores taxas de erros obtidas com o coeficiente de reflexão, para a base de testes de 50 locutores Coeficiente LAR acústico: Taxa de erro apresentada pelo coeficiente LAR para cada tamanho de modelo 41

49 Figura 6.5: Resultados para a tarefa de identificação de locutor usando coeficiente LAR e diferentes tamanhos de modelos. Base de 25 locutores. Figura 6.6: Resultados para a tarefa de identificação de locutor usando coeficiente LAR e diferentes tamanhos de modelos. Base de 50 locutores. 42

50 Novamente é possível constatar que o aumento do tamanho do modelo acústico utilizado implica em uma redução significativa da taxa de erros. As menores taxas de erro obtidas com a base de testes de 25 locutores, para cada tamanho de modelo acústico com os coeficientes LAR: Tamanho do modelo acústico Ordem da predição Taxa de erro % % % % % % Tabela 6.5: Menores taxas de erros obtidas com o coeficiente LAR, para a base de testes de 25 locutores. E para a base de testes de 50 locutores, as menores taxas de erro foram: Tamanho do modelo acústico Ordem da predição Taxa de erro % % % % % % Tabela 6.6: Menores taxas de erros obtidas com o coeficiente LAR, para a base de testes de 50 locutores Comparação entre os tipos de coeficientes Nos gráficos a seguir é apresentada uma comparação entre as taxas de erros obtidas com os diferentes coeficientes, para modelos de tamanho igual a 128 e 256: 43

51 Figura 6.7: Comparação entre coeficientes para a tarefa de identificação de locutor usando tamanho de modelo igual a 128. Base de 25 locutores. Figura 6.8: Comparação entre coeficientes para a tarefa de identificação de locutor usando tamanho de modelo igual a 256. Base de 25 locutores. 44

52 Figura 6.9: Comparação entre coeficientes para a tarefa de identificação de locutor usando tamanho de modelo igual a 128. Base de 50 locutores. Figura 6.10: Comparação entre coeficientes para a tarefa de identificação de locutor usando tamanho de modelo igual a 256. Base de 50 locutores. 45

53 6.2.5 Análise dos resultados De acordo com os experimentos executados e os resultados obtidos, é possível perceber em todos os tipos de coeficientes usados, a medida que o tamanho do modelo acústico aumenta, uma taxa de erro menor é obtida. O que pode ser explicado pelo fato de que quanto maior um modelo, mais informação pode ser armazenada, discriminando melhor os locutores. Quanto a variação da ordem de predição linear fica difícil percebermos um padrão mais claro. O que pode ser observado é o fato de que com um tamanho de modelo igual a 256 os melhores resultados foram obtidos com um valor de predição entre 16 e 20. Dessa forma, foi concluído que um bom valor de ordem de predição a ser usado pelo sistema seria o valor 18. Na comparação dos resultados obtidos pelos diferentes coeficientes, fica claro que as menores taxas de erro foram alcançadas pelo coeficiente LAR, com o tamanho de modelo igual a 256. Por esse motivo, a seguinte configuração do sistema foi escolhida para executar os demais experimentos: Coeficiente LAR Ordem da predição linear igual a 18 Tamanho de modelo acústico igual a TESTES DE VERIFICAÇÃO DE LOCUTOR Para os experimentos de verificação de locutor duas alternativas de calculo de limiar foram usadas. A primeira técnica é o uso de um limiar único para todos os locutores. E a segunda técnica utilizada foi o cálculo de um limiar diferente para cada locutor, baseado nos scores obtidos durante a fase de treinamento. A apresentação dos resultados da tarefa de verificação de locutor é baseada em duas medidas muito utilizadas em sistemas de biometria: False acceptance rate - FAR e False rejection rate - FRR. A medida de FAR indica a quantidade de falsos positivos obtidos pelo sistema, ou seja, quantas verificações que os sistema deveria ter retornadas como falsas, porém, foram declaradas verdadeiras. Já a medida FRR obtém o valor oposto, 46

54 a quantidade de falsos negativos, ou seja a quantidade de verificações que deveriam ser declaradas como verdadeiras mas foram rejeitadas pelo sistema. Os experimentos de verificação foram executados apenas sobre a base de 25 locutores Resultados para limiar único A seguir são apresentados os gráficos FAR e FRR para cada limiar utilizado. Figura 6.11: Taxas de FAR e FRR obtidos com limiar único. Uma outra forma interessante de analisar resultados de FAR e FRR é através da curva ROC. Essa curva é obtida através relação FARxFRR, e pode ser vista no gráfico a seguir. 47

55 Figura 6.12: Relação FARxFRR (ROC) obtidos com limiar único. De acordo com a figura 6.11 podemos perceber que as curvas de FAR e de FRR se cruzam em um certo limiar, o qual foi considerado como melhor valor obtido para o teste de limiar único. Limiar FAR FRR % 8.75% Tabela 6.7: Melhor taxa de erro obtida com limiar único Resultados para limiar diferente para cada locutor O método de cálculo de limiar utilizado neste experimento ocorre da seguinte maneira: Durante a fase de treinamento do sistema, é executado a comparação da voz de todos os locutores entre si. Dessa forma, para cada locutor teremos os scores obtidos sobre os testes executados da sua própria voz sobre seu próprio modelo, e também dos testes executados das vozes dos demais locutores também sobre seu modelo. A partir dessa lista de scores, o limiar para um locutor m é calculado da seguinte maneira[2]: 48

56 L m = σ X m o + σ o X m (6.1) σ m σ o Onde σ m é o desvio padrão dos scores obtidos pela análise do locutor m sobre seu próprio modelo, e X m é a média desses mesmos scores. Da mesma forma σo e X o são respectivamente o desvio padrão e média dos scores das vozes dos demais locutores sobre o modelo do locutor m. Dessa forma, o limiar calculado para cada locutor carrega informações dos demais locutores, podendo assim diminuir as taxas de FAR e FRR. Que neste caso, foram as seguintes: FAR FRR 5.96% 5.13% Tabela 6.8: Taxas de FAR e FRR obtidas com limiar individual Análise dos resultados Os resultados obtidos através das diferentes formas de cálculo de limiar mostram claramente que o uso de um limiar igual para todos os locutores não é a melhor alternativa. O uso de um limiar calculado com base nos scores obtidos na comparação de todos os locutores entre si mostra resultados melhores. Porém, os resultados poderiam ser ainda melhores. As figuras 6.13 e 6.14 apresentam a análise de scores de dois locutores diferentes. Na figura 6.13 temos uma amostra de um caso em que o cálculo de limiar utilizado é o suficiente para que haja uma boa redução das taxas de FAR e FRR, pois todos os scores do próprio locutor estão abaixo do seu limiar quando os scores obtidos através da voz de todos os demais locutores estão acima do limiar. Diferente da figura 6.14 que apresenta um caso em que o limiar não calculado não foi bom o suficiente para uma boa verificação, pois há casos em que o score do próprio locutor é maior do que o limiar e vários outros casos em que o score dos demais locutores se encontra abaixo do limiar. Aliás, vale salientar que seria difícil encontrar um cálculo de limiar capaz de melhorar os resultados do locutor apresentado na figura 6.14 pela grande variedade encontrada nos scores obtidos. 49

57 Figura 6.13: Exemplo de bons scores obtidos por um modelo comparado com vozes de todos os locutores. Figura 6.14: Exemplo de scores ruins obtidos por um modelo comparado com vozes de todos os locutores. 50

Exibir mais