Reconhecimento de Locutor Usando Misturas de Gaussianas

Documentos relacionados
RECONHECIMENTO DE FALANTE

3 Identificação de Locutor Usando Técnicas de Múltiplos Classificadores em Sub-bandas Com Pesos Não-Uniformes

4 Robustez do Reconhecimento de Voz

Segurança de Sistemas

LSF na Verificação de Orador

3 Reconhecimento de Voz Distribuído

II WPPC Workshop de Pesquisas do Grupo PET Computação

AUTENTICAÇÃO DE IMPRESSÕES DIGITAIS

4 Técnica de Combinação de Medidas de Verossimilhança Baseada no Espaço Nulo

Processamento de Som com Escala de Mel para Reconhecimento de Voz

DESENVOLVIMENTO DO MÓDULO DE PRÉ-ENFASE PARA SISTEMAS DE RECONHECIMENTO AUTOMÁTICO DE VOZ EM FPGA

DETERMINAÇÃO DO GÊNERO DO LOCUTOR USANDO A TRANSFORMADA RÁPIDA DE FOURIER

detecção de voz cantada em sinais de áudio polifônicos

Visão Computacional. Alessandro L. Koerich. Programa de Pós-Graduação em Engenharia Elétrica Universidade Federal do Paraná (UFPR)

Estudo sobre decodificação iterativa usando códigos de treliça

Normalização do locutor em Sistemas de Reconhecimento de Fala para Usuários Crianças

Projeto Ralnet: avanços e resultados

7 Resultados e Discussão

Mapeamento do uso do solo para manejo de propriedades rurais

Uma abordagem educacional para o estudo de OFDM

7 Extração de Dados Quantitativos

SRM: Framework para o Reconhecimento de Som em Dispositivos Móveis

Processamento Digital de Sinais:

Figura 1 Sinais e Transformadas de Fourier (HAYKIN; VAN VEEN, 2001).

6 Análise dos Atributos de Voz em Reconhecimento Distribuído com a Utilização do Codec de Voz ITU-T G.723.1

Lip Recognition. Victor Mocelin

1 Introdução Motivação

O reconhecimento facial é dividido em três etapas: i) detecção da face, ii) extração de características e iii) reconhecimento da face.

RECONHECIMENTO FACIAL 2D

Estratégias para a criação de classes de regressão para a técnica de adaptação a locutor baseada em MLLR

IDENTIFICAÇÃO DE LOCUTOR: OTIMIZAÇÃO DO NÚMERO DE COMPONENTES GAUSSIANAS. Ricardo José da Rocha Cirigliano

[1] ALCAIM, A.. Processamento de Voz e Imagem. PUC Rio, 1999.

4 Resultados de Simulação e Avaliação das Técnicas Utilizadas para o Reconhecimento de Locutor Independente do Texto em Presença de Ruído

Características dos sons das vogais do português falado no Brasil

Diego Martin Mancini Orientador: Prof. Paulo A. V. de Miranda Instituto de Matemática e Estatística Universidade de São Paulo

6 Modelo Gamma-Cetuc (GC)

Extração de objetos de interesse em imagens digitais utilizando a biblioteca de Visão Computacional OpenCV

PADRÃO FORMÂNTICA DA VOGAL [A] REALIZADA POR CONQUISTENSES: UM ESTUDO COMPARATIVO

Aprendizagem de Máquina

Processamento Digital de Imagens

Processamento Digital de Imagens

Mineração de Dados em Biologia Molecular

2 Reconhecimento Facial

TÍTULO: IDENTIFICAÇÃO DE CARACTERES APRESENTADOS A UMA CÂMERA POR MEIO DO MOVIMENTO DOS DEDOS DA MÃO DE UM SER HUMANO

Filtros de Média Movente

Objetivos. 1. O método desenvolvido usa características de pares de pixeis para fazer estatísticas e formar

Boas Maneiras em Aprendizado de Máquinas

Reconhecimento de texturas utilizando padrão binário local e classificador knn.

Extração de características utilizando filtros de Gabor aplicado a identificação de defeitos no couro bovino

RECONHECIMENTO DE ÍRIS EM AMBIENTES NÃO COOPERATIVOS UTILIZANDO WAVELETS E GABOR 2D

Complexidade Computacional do Algoritmo de Detecção de Energia

Reconhecimento de Faces Utilizando Análise de Componentes Principais e a Transformada Census

b) 5 6 d) 1 6 e) 7 6

AULA 04 Teste de hipótese

SEMINÁRIO Visão Computacional Aluno: Afonso Pinheiro

Analisador de Espectros

3 Os Atributos MFCC e PNCC do Sinal de Voz

5 Estudo de Caso e Resultados

Color Eyes Detector. Duarte Petiz. DCC/FCUP

Autenticação biométrica utilizando impressão digital. Tales Tenorio de Souza Pimentel

Osciloscópio Digital. Diagrama em blocos:

4 Método Proposto CR AD PA NDVI Descrição geral do modelo

Transformada Discreta de Fourier

Reconhecimento de Padrões

Implementação de um sistema de validação estatística configurável de dados

ESTUDO DE ALGORITMO DE SEGMENTAÇÃO DE FALA

GEOMETRIC PROPERTY BASED ELLIPSE DETECTION METHOD

Aprendizado de Máquina. Combinando Classificadores

INF Fundamentos da Computação Gráfica Professor: Marcelo Gattass Aluno: Rogério Pinheiro de Souza

Determinação de vícios refrativos oculares utilizando Support Vector Machines

EE210 Sistemas de Comunicação II 1ª Avaliação 06/09/ h30min Prof. Dayan Adionel Guimarães. Aluno(a): Matrícula.

Processamento Digital de Sinais. Aplicações da DFT. Prof. Dr. Carlos Alberto Ynoguti

7 Desempenho dos Algoritmos de uma Classe de Usuários em Relação à Distribuição que Representa o Tempo de Permanência do Usuário na Célula

Implementação dos Algoritmos e Resultados

Sketch to Photo Matching: A Feature-based Approach (Klare and Jain [2010])

Uma Avaliação do Erro Tipo II no Uso do Teste t-student

Segurança e Auditoria de Sistemas. Autenticação

Ferramenta Computacional para o Estudo de Seqüências de Treinamento em Equalizadores LMS

Estatística: Aplicação ao Sensoriamento Remoto SER ANO Avaliação de Classificação

Módulo III Medidas de Tendência Central ESTATÍSTICA

biometria por digitação

Características da duração do ruído das fricativas de uma amostra do Português Brasileiro

Delineamento e Análise Experimental Aula 3

DETERMINAÇÃO DE FUNÇÕES DE TRANSFERÊNCIA DE PROCESSOS QUÍMICOS ATRAVÉS DO MÉTODO DE EVOLUÇÃO DIFERENCIAL UTILIZANDO O SCILAB

Teorema da Amostragem

IMPLEMENTAÇÃO DE ALGORITMO PARA IDENTIFICAÇÃO DE IMPRESSÕES DIGITAIS

5 Análise Experimental

3 Modelo Matemático Definições Iniciais. Denote-se, em geral, o desvio-padrão do processo por σ = γσ 0, sendo σ 0 o

Algoritmo Competitivo Aplicado ao Reconhecimento Automático da Identidade Vocal de Locutores

Classificação Automática de Gêneros Musicais

EFEITOS DIGITAIS APLICADOS VIA MATLAB EM SINAIS DE ÁUDIO DE UM INSTRUMENTO MUSICAL

4 Análise de Dados. 4.1.Procedimentos

Simplificações para Redução do Custo Computacional da Pré-ênfase de Voz na Plataforma Arduino

AULA 05 Teste de Hipótese

Circuitos de Comunicação. Prática 2: PLL

Circuitos Digitais I. Notas de Aula

T6.1 Reconhecimento de Padrões

Aprendizado de Máquina

Transcrição:

Reconhecimento de Locutor Usando Misturas de Gaussianas Alessandra Adami Pinto Instituto Nacional de Telecomunicações alessandra@gec.inatel.br Carlos Alberto Ynoguti Instituto Nacional de Telecomunicações ynoguti@inatel.br Resumo O presente artigo descreve um sistema de identificação de locutor baseado em modelos de misturas de gaussianas (GMM), que opera em tempo real. Estudos sobre o número ótimo de gaussianas também foram realizados, levando em consideração a quantidade de material de treinamento, o desempenho na taxa de reconhecimento e o tempo de processamento. Palavras chave biometria, GMM, reconhecimento de locutor. Abstract The present paper describes a speaker's recognition system, that works in real time and is based on Gaussian Mixture Models GMM. Also, studies were performed to define the optimal gaussian number in the mixture based on the available training material, recognition performance and running time. Keywords biometrics, GMM, speaker recognition. I. INTRODUÇÃO A identificação de pessoas através de suas características físicas e comportamentais é chamada de Biometria, e está se tornando cada dia mais presente em nossa vida corriqueira. Hoje a biometria é usada na identificação criminal, controle de acesso, e em várias outras aplicações. A origem da palavra Biometria é grega, bios (vida) e metron (medida). Apesar de sua própria procedência já ser capaz de defini-la, seu significado formal pode ser obtido em [1] como "Ramo da ciência que estuda a mensuração dos seres vivos" e, ainda, a Biometria estatística, que é a "Parte da estatística que investiga atributos biológicos quantitativos pertinentes a uma população de seres vivos". Há duas formas de classificação biométrica, uma baseada nas características físicas do indivíduo e outra, baseada em seu comportamento. Dentre as características físicas humanas, o reconhecimento da íris, do formato do rosto, da posição de veias, de retina, do DNA e do formato da mão, são alguns exemplos. As particularidades comportamentais dizem respeito à maneira como as pessoas se expressam: o jeito de andar, a forma de digitação e a grafia representam essa categoria. Os sistemas biométricos não são totalmente precisos, pois os seres humanos são inconstantes, o que significa que as suas A. A. Pinto (alessandra@gec.inatel.br) é aluna do Instituto Nacional de Telecomunicações - Inatel. Av. João de Camargo, 510 - Santa Rita do Sapucaí - MG - Brasil - 37540-000. características físicas e comportamentais mudam naturalmente com o tempo, doenças, fatores emocionais, dentre outros, e portanto, tais sistemas devem ser capazes de aceitar essas mudanças. A voz possui características de ambas as formas: quando se avaliam as características acústicas da fala, esta se classifica como uma característica física do indivíduo. Por outro lado, o ritmo da fala, e as formas dialetais utilizadas pelo indivíduo, são classificadas como características comportamentais. Neste trabalho é proposto um sistema biométrico por voz, onde são utilizadas as características físicas da pessoa para sua identificação. Este é baseado em modelos de misturas de gaussianas e parâmetros mel-cepstrais, e pode operar em tempo real na maioria dos computadores pessoais disponíveis atualmente. O artigo está organizado da seguinte maneira: na seção II será feita uma breve introdução sobre biometria, seus aspectos e formas principais. A biometria por voz é apresentada na seção III, e os modelos de misturas de gaussianas são apresentados na seção IV. O sistema desenvolvido é apresentado também na seção IV, e os testes de desempenho na seção V. Por fim, as conclusões são apresentadas na seção VI. II. BIOMETRIA Existem dois problemas principais na biometria: identificação e verificação [3]. No primeiro, a identificação, procura-se responder à pergunta: "quem é você?" Neste caso, após recolher a amostra biométrica (voz, impressão digital. etc.) o sistema a compara com os vários padrões armazenados (pessoas que podem ter acesso a um determinado sistema, por exemplo), atribuindo a identidade da pessoa ao padrão mais próximo. Já na verificação, procura-se responder à pergunta: "você é quem diz ser?" Neste caso, o sistema biométrico já possui a identidade proclamada da pessoa. A tarefa consiste então em validar ou não esta identidade. Para isso, deve comparar a característica sendo medida com um padrão armazenado. Se estas forem próximas o suficiente, então o sistema decide que esta pessoa é realmente quem diz ser. Este trabalho refere-se especificamente sobre esta forma de biometria. Há dois tipos de erros que os sistemas de verificação podem cometer: o de falsa aceitação e o de falsa rejeição. A falsa

aceitação ocorre quando um impostor consegue ludibriar o sistema, ou seja, ele é aceito como se fosse a pessoa que está tentando se passar; por outro lado, a falsa rejeição ocorre quando a própria pessoa é classificada como uma impostora. Os sistemas de verificação em geral têm o seu desempenho avaliado segundo a Curva DET (Detection Error Tradeoff) [4]. Nessa curva são plotadas a probabilidade de falsa aceitação (miss probability) contra a probabilidade de falsa rejeição (false alarm probability). Obviamente estes dois parâmetros dependem de um limiar de aceitação definido pelo sistema: se este for muito alto, então a probabilidade de falsa aceitação diminui, mas a probabilidade de falsa rejeição aumenta, e vice-versa. Portanto, deve-se encontrar um ponto de equilíbrio entre eles, chamado de Crossover Error Rate, também chamado de ponto de operação, onde estas duas probabilidades são próximas. É fácil verificar que quanto menor for o CER, mais preciso será o sistema biométrico [5]. A curva DET é plotada variando-se esse limiar e quanto melhor o desempenho do sistema, mais próxima da origem (ponto no canto inferior esquerdo do gráfico) tem-se sua curva. Na Figura 1, é possível observar três curvas DET para avaliação de reconhecimento de locutor. Os CER's de cada curva são identificados com círculos. Figura 1: Exemplo de curva DET [4]. A seguir serão apresentadas as questões relevantes para a implementação de um sistema biométrico por voz. III. BIOMETRIA POR VOZ Há dois tipos de informação que se pode extrair de um sinal de voz: as de baixo nível e as de alto nível. As de alto nível são as características que também são utilizadas pelos humanos para distinguir uma pessoa de outra. O dialeto, o sotaque, a maneira de falar e o conteúdo da fala são alguns exemplos. Já as de baixo nível são as mais utilizadas em sistemas automáticos de biometria, e como exemplo tem-se o ritmo, a frequência, o timbre e a magnitude espectral. Entretanto, algumas eventualidades podem modificar a voz de uma pessoa, uma vez que essa pode variar de acordo com seu estado físico - resfriados, perda de dentes - ou emocional - estresse, tristeza. E ainda, a voz muda à medida em que a idade aumenta. Além disso, há variações de entonação na pronúncia de uma mesma palavra até quando repetida pelo mesmo indivíduo. O reconhecimento de locutor pode ser dependente de texto, que requer a pronúncia de sentenças específicas, geralmente as mesmas usadas para treinar o sistema; ou independente de texto, em que o locutor sob teste pode falar qualquer coisa. Obviamente o primeiro caso é muito mais simples, e também leva a resultados melhores, embora sua aplicabilidade seja menor. Este trabalho foca na segunda abordagem. Embora estes aspectos da voz tornem sua identificação mais complexa quando feita por sistemas automáticos, é uma forma não intrusiva e de baixo custo (somente é necessário um microfone para aquisição do sinal). Para entender melhor como funciona a biometria por voz, um entendimento básico tanto do sistema auditivo como do aparelho fonador se faz necessário, e isto será feito a seguir. A. O aparelho auditivo O ouvido humano é capaz de perceber sons na faixa de frequências de 20 Hz a 20 khz, entretanto, vale ressaltar que ela diminui a medida em que o indivíduo envelhece e apesar de ser extensa, a maior quantidade de informação útil perceptível aos humanos se encontra entre 300 Hz e 3400 Hz. Uma particularidade deste sistema é o mesmo processa os sons em sub-bandas, chamadas de bandas críticas. A largura de cada banda difere de acordo com a faixa de frequência. Em geral, até 1 khz, as bandas críticas têm largura constante de aproximadamente 100 Hz; depois disso, elas vão ficando cada vez mais largas, sendo que a largura de cada uma delas é 20 % maior que a anterior. Este fato inspirou a criação dos parâmetros mel-cepstrais [7], amplamente utilizados na área de processamento de voz, e também neste trabalho. B. O aparelho fonador Para a produção da fala, vários músculos e órgãos que constituem o aparelho fonador (pulmões, laringe e boca, por exemplo) são acionados. A posição, forma e tamanho desses elementos definem as propriedades físicas da voz e variam de indivíduo para indivíduo. Na Figura 2 tem-se uma ilustração do aparelho fonador humano [2]. A dimensão e forma do trato vocal são diferentes para cada pessoa, e estas diferenças é que fazem com que cada pessoa tenha uma voz única. Desta forma, pode-se dizer que um sistema automático de biometria tenta inferir como é o trato vocal de cada pessoa através do sinal acústico que este produz.

aceitação será dada caso a nota do locutor seja maior que o limiar, e de rejeição, em caso contrário. 3) Modelo do locutor Um elemento importante no reconhecimento de locutor é o modelo que representa o próprio. Foram utilizados para esta tarefa os modelos de misturas de gaussianas (Gaussian Mixtude Models, GMM) [8], descritos na seção a seguir com mais detalhes. Figura 2: Aparelho fonador humano. Com base nestas informações é possível agora ver como funciona um sistema de biometria por voz: C. Sistema reconhecimento de locutor O diagrama em blocos da Figura 3 mostra esquematicamente como funciona um sistema de reconhecimento de locutor: o sinal de voz é inicialmente parametrizado através de vetores mel-cepstrais, e depois inserido no módulo de decisão. Este compara o sinal de entrada com o modelo da pessoa de quem a voz supostamente pertence, e apresenta na saída a decisão de aceitar ou rejeitar o locutor. Voz Extração de Parâmetros Decisão Aceitação Rejeição IV. GMM Uma densidade de misturas de gaussianas é uma soma ponderada de M densidades componentes [8]: p M x p b ( x) i 1 (1) onde: x é um vetor aleatório D dimensional, b i (x), i=1,2,..., M são as densidades componentes, p i são os pesos da mistura, é o modelo correspondente ao locutor. Na Figura 4, tem-se uma representação gráfica deste conceito. As gaussianas são utilizadas pois conseguem representar os parâmetros extraídos anteriormente. A Figura 5 foi adaptada de [8] para ilustrar esse comportamento: a partir de um histograma como mostrado em 5a, pode-se tentar modelá-lo com apenas uma gaussiana, como em 5b. Contudo, o resultado obtido não corresponde com fidelidade ao histograma inicial. Na Figura 5c, tem-se o mesmo histograma representado por 10 gaussianas. Pode-se ver que esta segunda configuração já corresponde melhor ao histograma da Figura 5a. Dessa forma, mais gaussianas conseguem, aparentemente, modelar mais corretamente este histograma. i i Modelo locutor Figura 3: Diagrama em blocos reconhecimento de locutor. A seguir, cada um destes blocos é explicado com maiores detalhes. 1) Extração de parâmetros A escolha da representação dos dados acústicos é uma tarefa importante em qualquer sistema de reconhecimento de locutor. Os objetivos dessa representação são: comprimir os dados da fala em um conjunto menor de informações para diminuir o tempo de processamento e representar os sinais em um espaço que permita uma maior discriminação entre os locutores. Neste trabalho foram utilizados parâmetros melcepstrais, pois estes conseguem representar a voz da forma como a ouvimos [7]. 2) Decisão O resultado final, afirmativo ou negativo, é feito pelo bloco de decisão. Neste, há a comparação entre a nota obtida pelo locutor e um valor estipulado como limiar. A resposta de Figura 4: Forma visual para a obtenção de p(x λ) como uma soma ponderada das probabilidades calculadas por cada gaussiana.

possui gravações de vinte e dois locutores femininos e vinte e três masculinos, todas livres de ruídos e em português. Dentre todos os locutores, escolheu-se um que tornou-se aquele para o qual o sistema foi treinado para identificar. Este locutor é referenciado como F01, pois tratava-se da primeira locutora contida no banco. Figura 5: Ilustração de como o número de gaussianas afeta a representação de um locutor ou de um grupo deles. V. EXPERIMENTOS O processo de reconhecimento de locutor é dividido em duas etapas: treinamento e teste. Na etapa de treinamento é gerado um modelo para um locutor dentre todos existentes em uma base de dados. Isso ocorre para que o sistema seja capaz de afirmar, quando for utilizado, se um segundo locutor corresponde àquele primeiro. Este modelo é baseado em modelos de misturas de gaussianas (GMM) e foi utilizado para o locutor F01. Já para os outros locutores foi treinado um UBM (Universal Background Model), um modelo utilizado em sistemas de verificação biométrica que representa características gerais, independentes de pessoa e que deve ser comparado a um modelo específico de uma pessoa em uma situação de aceitação ou rejeição [9]. Pode-se dizer também, em suma, que se trata de um tipo de GMM só que treinado com uma grande quantidade de dados. Uma vez criados os modelos (GMM e UBM), uma locução desconhecida é aplicada e, para cada um, calcula-se o valor de p(x λ) (visto na Eq. (1)) correspondente. Na Figura 6, tem-se o diagrama em blocos que ilustra as fases do sistema. Voz A/D Extração de Parâmetros UBM GMM GMM locutor Decisão Limiar Aceitação / Rejeição B. GMM, GMM locutor e UBM Estes três blocos correspondem a modelos que identificam determinados locutores ou grupos de locutores. Na Figura 6, o bloco GMM corresponde ao modelo que é treinado a partir da locução entrante no sistema, o que significa que este treinamento ocorre em tempo real e representa as características de um locutor desconhecido. Vale lembrar que não necessariamente trata-se de um locutor realmente desconhecido, pois esse pode ser o indivíduo que corresponde ao bloco GMM locutor. O bloco GMM locutor representa o locutor para o qual o sistema foi treinado para identificar. Já o UBM é treinado para representar todo o universo restante de locutores. Estes dois últimos modelos já estão treinados quando um usuário utiliza o sistema em tempo real. C. O funcionamento do sistema Quando a voz de um indivíduo incógnito, entra no sistema para testá-lo, ela é, primeiramente, convertida de um sinal contínuo no tempo para um sinal discreto, pois é amostrado em uma frequência de 11025Hz. Em seguida, há a extração dos parâmetros mel-cepstrais como definido na seção III item A. É cabível expor que o sistema implementado foi desenvolvido em linguagem Ansi-C para Linux, pois este sistema operacional possui a biblioteca de áudio que foi utilizada no código. No caso, a biblioteca utilizada foi a ALSA (Advanced Linux Sound Architecture). A partir dos parâmetros, tem-se o treinamento do GMM e este fica baseado nas características do locutor solicitante. Então, o sistema é capaz de calcular a diferença entre o )e o ) e uma nota final é, finalmente, gerada. De posse da nota, o bloco de decisão é o responsável por dar uma resposta afirmativa ou não ao usuário. É neste bloco em que as informações sobre todos os modelos treinados anteriormente são analisadas de forma a obter uma conclusão. A decisão final envolve uma comparação entre os modelos: caso o GMM entrante seja "parecido" o suficiente com o GMM locutor, tem-se uma resposta positiva, do contrário, o usuário é um impostor. A comparação é feita com base no valor do limiar e na nota final. Quando a nota final for maior que o limiar, tem-se a aprovação do usuário, isto significa que o locutor entrante é o mesmo para o qual o GMM locutor foi treinado. Por outro lado, se a nota final for menor que o limiar, há um impostor tentando enganar o sistema. Figura 6: Diagrama em blocos do sistema implementado. A. Base de dados Os modelos descritos previamente (GMM e UBM) foram treinados com locuções de uma base de dados. Essa base D. Testes e análise de resultados Os modelos mencionados foram treinados três vezes cada. Em cada uma das vezes, o número de gaussianas utilizado para treino foi alterado para que fosse possível perceber se o desempenho final melhorava ou não. O primeiro treino foi

feito com quatro gaussianas, o segundo com oito, o terceiro com dezesseis e a cada treino o sistema era testado novamente. Os resultados dos testes para essas três configurações podem ser vistos na curva DET da Figura 7. É possível observar que o desempenho é afetado de acordo com o número de gaussianas utilizadas, pois como visto previamente, quanto mais próxima da origem a curva se encontra, menos sujeito a erros é o sistema. Entretanto, proporcionalmente ao aumento de gaussianas, aumentam também o tempo para o treinamento dos modelos e o esforço computacional necessário. A Figura 7 mostra o resultado para os testes feitos com locuções que estavam na base de dados, mas não haviam sido utilizadas para o treinamento. REFERÊNCIAS [1] Ferreira, Aurélio Buarque de Holanda. Novo dicionário Aurélio da língua portuguesa/ Aurélio Buarque de Holanda Ferreira; coordenação Marina Baird Ferreira, Margarida dos Anjos. - 4. ed. - Curitiba: Ed. Positivo; 2009. [2] Furui, Sadaoki. "Digital Speech Processing, Synthesis, and Recognition". Signal Processing and Communications Series. 2. ed. 2001. Disponível em: http://books.google.com.br/books?id=x6mzgqzmcbgc&printsec=front cover&dq=digital+processing+of+speech+signals&client=firefoxa#v=onepage&q=digital%20processing%20of%20speech%20signals& f=false. Acessado 24 fevereiro 2013. [3] Parreira, Wemerson D. e Carrijo, Gilberto A.. "Reconhecimento de locutor pela voz usando o classificador polinomial e quantização vetorial". Sociedade Brasileira de Matemática Aplicada e Computacional. Disponível em: http://www.sbmac.org.br/eventos/cnmac/cd_xxviii_cnmac/resumos%20 estendidos/wemerson_parreira_st20.pdf. Acessado 17 fevereiro 2013. [4] MARTIN, A. et al. "The DET curve in assessment of detection task performance". Eurospeech. 1997. [5] Magalhães, Paulo Sérgio e Santos, Henrique Dinis. "Biometria e autenticação". Atas da 4ª Conferência da Associação Portuguesa de Sistemas de Informação. Porto, Portugal. 15-17/10/2003. Disponível em: 4 Gaussianas http://repositorium.sdum.uminho.pt/bitstream/1822/2184/1/capsi.pdf. Acessado 24 fevereiro 2013. [6] Furui, Sadaoki. "Fifty years of progress in speech and speaker recognition". Proc. of 148th Acoustical Society of America Meetings, San Diego, 1pSC7 (2004-11). Disponível em: http://www.furui.cs.titech.ac.jp/publication/2005/spcom05.pdf. Acessado 17 fevereiro 2013. [7] Steven B. Davis e Paul Mermelstein. "Comparison of Parametric Representations for Monosyllabic Word Recognition in Continuously Spoken Sentences". IEEE Transactions on acoustics, speech, and signal processing, vol. assp-28, no. 4, agosto 1980. 8 Gaussianas [8] Douglas A. Reynolds e Richard C. Rose. "Robust Text-Independent Speaker Identification Using Gaussian Mixture Speaker Models". IEEE Transactions on speech and audio processing, vol. 3, no. 1, janeiro 1995. 16 Gaussianas Figura 7: Curva DET para os resultados preliminares. Os testes em tempo real consistem em calcular a nota a partir de uma locução entrante no sistema durante a execução do programa, ou seja, a grosso modo é como se esse ficasse "ouvindo" até um usuário entrar com o um áudio e confirmar seu envio ao sistema. De acordo com a nota obtida, o usuário é aceito ou não, conforme explicado anteriormente. Contudo não foi plotada, ainda, uma curva que avalie o desempenho do sistema quando esse atua em tempo real. VI. CONCLUSÕES Foi possível perceber, com os resultados obtidos até o momento, que a medida que o número de gaussianas utilizadas aumenta, o desempenho melhora, pois um número maior dessas consegue um melhor mapeamento da voz de um indivíduo. É notável a melhoria ao ver a Figura 7, já que as curvas DET foram se aproximando da origem do plano. Porém uma questão, que ainda se encontra sem resposta e que será estudada posteriormente, é sobre como o desempenho será afetado quando o sistema for implementado em uma aplicação real que possui limitação de poder de processamento e de memória, uma vez que esses recursos computacionais são bastante exigidos durante a etapa de treinamento dos modelos. Disponível em: http://www.cs.toronto.edu/~frank/csc401/readings/reynoldsrose.pdf. Acessado 17 fevereiro 2013. [9] Douglas A. Reynolds. "Universal Background Models". MIT Lincoln Laboratory - Lexington, MA/EUA. Disponível em: http://www.ll.mit.edu/mission/communications/ist/publications/0802_re ynolds_biometrics_ubm.pdf. Acessado 17 fevereiro 2013. [10] Douglas A. Reynolds, Thomas F. Quatieri, e Robert B. Dunn. "Speaker Verification Using Adapted Gaussian Mixture Models". Digital Signal Processing 10, 19 41 (2000). [11] Lawrence Rabiner & Biing-Hwang Juang. "Fundamentals of Speech Recognition". Prentice Hall, 1993.