BioCPqD: uma base de dados biométricos com amostras de face e voz de indivíduos brasileiros



Documentos relacionados
5 Resultados Avaliação Baseada na Taxa de Igual Erro

3 Classificação Resumo do algoritmo proposto

Esclarecimento: Não, a operação de matching ocorre no lado cliente da solução, de forma distribuída.

Software de Imagem via Celular (SIC) baseado no sistema operacional Windows Mobile

Segundo Pré-teste. Data de realização. 18 de Novembro de Local.

SISTEMA PARA CATALOGAR PALAVRAS INDÍGENAS SISCAPI. Manual do Usuário. Versão 1.0

MANUAL DO USUÁRIO. Software de Imagem via Celular (isic) baseado no sistema operacional Symbian

Novos Recursos e Utilização de Adaptação de Locutor no Desenvolvimento de um Sistema de Reconhecimento de Voz para o Português Brasileiro

MANUAL DO USUÁRIO. Software de Imagem via ipad baseado no sistema operacional ios

Celebre este natal e ano novo junto aos seus amigos e familiares distantes.

MANUAL DO USUÁRIO. Software de Imagem via Celular (isic) baseado no sistema operacional Android

Plataforma Sentinela

Introdução. Capítulo. 1.1 Considerações Iniciais

Microsoft Lync Manual de Instalação e Uso

PALAVRAS-CHAVE: Massas Nodulares, Classificação de Padrões, Redes Multi- Layer Perceptron.

Cadastramento de Computadores. Manual do Usuário

TRBOnet MDC Console. Manual de Operação

Manual do Ambiente Moodle para Professores

4 Segmentação Algoritmo proposto

Índice: CMS 3 O que é Content Management System? Clientes 4 O que é o Cliente? 4 Configurando o i-menu/i-view para trabalhar. com o CMS.

Após a confirmação de pagamento de sua inscrição para o congresso, você estará apto a entrar no sistema de submissão de trabalho.

Arquitetura de Rede de Computadores

Tutorial para envio de comunicados e SMS

Novell. Novell Teaming 1.0. novdocx (pt-br) 6 April 2007 EXPLORAR O PORTLET BEM-VINDO DESCUBRA SEU CAMINHO USANDO O NOVELL TEAMING NAVIGATOR

Ajuda On-line - Sistema de Portaria. Versão 4.8.J

SISTEMAS DE RECONHECIMENTO DE LOCUTOR INDEPENDENTE DE TEXTO

Office LiveMeeting. Office LiveMeeting

TCEnet. Manual Técnico. Responsável Operacional das Entidades

TUTORIAL DO ALUNO. Olá, bem vindo à plataforma de cursos a distância da Uniapae!!!

CorelDRAW UM PROGRAMA DE DESIGN

CARTEIRA VIRTUAL C A R D B O A R D CAMINHOS PONTOMOBI EDU

Sumário INSTALAÇÃO DO SIATRON CONDOMÍNIO ATIVAÇÃO DA LICENÇA PRESTADORES DE SERVIÇOS PARÂMETROS DO SISTEMA

Disciplina: Programas de Edição de Textos Professora: Érica Barcelos

5 Extraindo listas de produtos em sites de comércio eletrônico

HCT Compatibilidade Manual do Usuário

TRANSMITINDO CONHECIMENTO ON-LINE

OneDrive: saiba como usar a nuvem da Microsoft

Programa de Parceria

Procedimento de anexação de peças e envio

DocuWare Mobile ProductInfo. Gerenciamento móvel de documentos. Benefícios

Google Hangouts Google Hangouts

FATEC Cruzeiro José da Silva. Ferramenta CRM como estratégia de negócios

1. Introdução pág.3 2. Apresentação do sistema Joomla! pág.4 3. Acessando a administração do site pág.4 4. Artigos 4.1. Criando um Artigo 4.2.

Como funciona a MEO Cloud?

tarefa 1. Para criar uma Tarefa clique em Ativar edição.

Manual de implantação

Tutorial para envio de comunicados

MANUAL DE UTILIZAÇÃO

TUTORIAL COLEGIADOS EM REDE

Microsoft Office Outlook Web Access ABYARAIMOVEIS.COM.BR

Superando desafios em Centros de Distribuição com Voice Picking. Rodrigo Bacelar ID Logistics Paula Saldanha Vocollect

ATENÇÃO: * Arquivos com tamanho superior a 500 KB NÃO SERÃO ACEITOS * SOMENTE serão aceitos documentos do formato: PDF

PROJETO DE REDES

1) MANUAL DO INTEGRADOR Este documento, destinado aos instaladores do sistema, com informações de configuração.

DESENVOLVIMENTO DE UM SOFTWARE NA LINGUAGEM R PARA CÁLCULO DE TAMANHOS DE AMOSTRAS NA ÁREA DE SAÚDE

Manual do usuário. Mobile Player

5 A Utilização da Técnica do Espaço Nulo e dos Atributos Baseados na Escolha de Coeficientes de Autocorrelações

ROTINAS PADRÕES DO SISTEMAS

Participação Critérios de participação - Elegibilidade Procedimento para participar da chamada: Número de propostas/aplicações

Portal Sindical. Manual Operacional Empresas/Escritórios

Google Drive: Acesse e organize seus arquivos

UNIVERSIDADE FEDERAL DE SANTA CATARINA GRADUAÇÃO EM SISTEMAS DE INFORMAÇÃO DEPARTAMENTO DE INFORMÁTICA E ESTATÍSTICA DATA MINING EM VÍDEOS

Etapas para Desenvolvimento de Base DevInfo 6.0

Soluções para Automatizar. o atendimento e ter eficiência na central

Está apto a utilizar o sistema, o usuário que tenha conhecimentos básicos de informática e navegação na internet.

BEM-VINDO AO dhl PROVIEW

Manual de Utilização de Certificados Digitais. Microsoft Word 2003

RIO ESTADO DIGITAL - Animação pra WEB platafromas de EAD

Manual do usuário. Mobile Auto Download

Como Vender. Última atualização em por Leonardo Pacheco. Nossa melhor ligação é com você

Projeto de Redes Neurais e MATLAB

3 a Lista de Exercícios

CONGRESSO DE EDUCAÇÃO FÍSICA SESC 2015 VERTENTES PARA O DESENVOLVIMENTO DA EDUCAÇÃO FÍSICA

Roteiro 3: Apresentações eletrônicas (parte 1)

Manual do usuário. Intelbras isic5 Tablet - ipad

10 DICAS DE TECNOLOGIA PARA AUMENTAR SUA PRODUTIVIDADE NO TRABALHO

O que é a estatística?

11 de maio de Análise do uso dos Resultados _ Proposta Técnica

Receber intimações: poderão receber intimações em processos eletrônicos nos quais estejam vinculados.

Desenvolvendo uma Arquitetura de Componentes Orientada a Serviço SCA

Sistema Banco de Preços Manual do Usuário OBSERVATÓRIO

MANUAL DE USO DO COMUNICADOR INSTANTÂNEO

Moodle - Tutorial para Professores

GARANTIA DA QUALIDADE DE SOFTWARE

DESENVOLVIMENTO WEB DENTRO DOS PARADIGMAS DO HTML5 E CSS3

Microsoft Office PowerPoint 2007

Microsoft Project 2007

Multiplexador. Permitem que vários equipamentos compartilhem um único canal de comunicação

ISO/IEC 12207: Gerência de Configuração

Placa Acessório Modem Impacta

1 Inicie um novo. Guia de Referência Rápida de Gerenciamento de Projeto para o Project projeto

Usar o Office 365 no iphone ou ipad

Aplicação Prática de Lua para Web

BlackBerry Mobile Voice System

Análise de Ponto de Função

LAYOUT FINAL DE PEDIDOS

Manual Administrador - Mídia System

Transcrição:

BioCPqD: uma base de dados biométricos com amostras de face e voz de indivíduos brasileiros Ricardo Paranhos Velloso Violato *, Mário Uliani Neto, Flávio Olmos Simões, Tiago de Freitas Pereira, Marcus de Assis Angeloni Este trabalho apresenta o projeto e o desenvolvimento da primeira base de dados biométricos bimodal, que contém dados de face e voz de indivíduos brasileiros. O projeto da base de dados procurou contemplar uma grande variabilidade de dispositivos (notebooks, smartphones e canais telefônicos) e de ambientes (internos e externos). Neste trabalho, são descritos os detalhes da metodologia utilizada no projeto e na coleta dos dados, bem como as especificações técnicas da base de dados biométricos gerada. Além disso, é especificado um protocolo para avaliação de sistemas de verificação biométrica que utilizam esta base de dados. Resultados obtidos com a aplicação de sistemas de autenticação biométrica de referência (facial e de locutor) são apresentados utilizando os protocolos definidos. Por fim, é avaliado o potencial da autenticação bimodal, com a fusão dos resultados das diferentes biometrias. Palavras-chave: Biometria de face. Biometria de voz. Autenticação biométrica. Base de dados biométricos. Introdução As tecnologias biométricas são uma ferramenta avançada para identificação e autenticação de pessoas, com base em suas características físicas e comportamentais. Tais características incluem a face, impressão digital, íris, voz, assinatura, palma da mão, veias, DNA, etc. (JAIN; FLYNN; ROSS, 2008). Os métodos tradicionais de identificaçao humana, como documentos de identidade e senhas para autenticação, não se mostram mais eficientes e adequados aos cenários atuais, predominantemente multisserviço, multicanal e multidispositivo. A demanda crescente por segurança e facilidade de uso constitui uma grande oportunidade para o emprego da biometria como forma de identificação e autenticação, uma vez que características biométricas não podem ser perdidas ou roubadas. Cenários com recursos como controle de acesso lógico e físico, detecção de fraudes, controle de fronteira e vigilância podem se beneficiar da utilização da biometria como mecanismo de identificação. Entre os traços biométricos, face e voz se destacam pela simplicidade e naturalidade, bem como pela facilidade com que suas amostras podem ser coletadas, uma vez que não requerem a utilização de dispositivos de captura especializados. Essas características tornam atraente a utilização desses traços biométricos como mecanismo de identificação em diferentes cenários. Sistemas de reconhecimento biométrico normalmente compreendem uma etapa de treinamento com dados reais. Durante esse treinamento, uma grande quantidade de amostras biométricas reais são apresentadas ao *Autor a quem a correspondência deve ser dirigida: rviolato@cpqd.com.br. sistema para que ele possa "aprender" as características da população-alvo. Quanto mais rica e mais representativa a base de treinamento, melhor será o desempenho do sistema (KIMMUEN; LI, 2010). A base de dados biométricos é um recurso essencial também para medir o desempenho de sistemas de reconhecimento biométrico e pode servir de base de comparação entre sistemas distintos. Uma base de dados biométricos bem estruturada oferece um protocolo de experimento associado, nos quais os dados são divididos em grupos específicos que serão utilizados nas etapas de treinamento, calibração e teste. O uso de um protocolo como baseline experimental permite que sistemas distintos possam utilizar os mesmos dados em cada uma dessas etapas, tornando os resultados dos experimentos comparáveis entre si. É importante também que a base de dados biométricos, além de retratar a população-alvo, também represente as diferentes condições de uso, como os tipos de dispositivos de captura, as distorções de canal de transmissão e ruído ambiente, as variações temporais dos indivíduos, entre outras. Tanto quanto sabemos, não existem atualmente, no mercado ou para utilização pela comunidade científica, bases de dados de face ou de voz construídas para serem empregadas no desenvolvimento de sistemas de reconhecimento biométrico com amostras de indivíduos pertencentes à população do Brasil, o que justifica a construção de uma base de dados biométricos com essa finalidade. Além disso, a construção de uma base de dados de natureza bimodal apresenta uma oportunidade única de avaliar as duas diferentes biometrias (face e voz), Cad. CPqD Tecnologia, Campinas, v. 9, n. 2, p. 7-18, jul./dez. 2013

separada e combinadamente, com a finalidade de melhorar as taxas de acerto de um sistema de autenticação biométrica. Segundo a estrutura adotada neste trabalho, na Seção 1, descreve-se detalhadamente a metodologia para coleta da base de dados biométricos; na Seção 2 são apresentados o conteúdo definido para as gravações e a organização adotada para os arquivos da base de dados biométricos; e na Seção 3, é proposto um protocolo de avaliação de sistemas de verificação biométrica utilizando a base. A Seção 4 apresenta dois algoritmos biométricos bastante conhecidos na literatura, que são adotados como baselines de outras bases de dados de face e voz, bem como os resultados obtidos por meio da submissão desses algoritmos ao protocolo proposto. Por fim, na última Seção são apresentadas as conclusões deste trabalho. 1 Metodologia de coleta das amostras biométricas Vários aspectos devem ser considerados na construção de uma base de dados biométricos: quem serão os participantes, quais sensores de captura serão utilizados (no caso, câmeras e microfones) e em quais lugares, sob quais condições, quantas vezes e com qual frequência e, especificamente no caso da biometria de voz, qual conteúdo será enunciado. Todos esses aspectos devem ser avaliados e definidos no planejamento de uma coleta de dados biométricos. A base apresentada neste trabalho é bimodal, ou seja, contém informações de dois tipos de biometria: face e voz. Para capturá-las simultaneamente, optou-se por gravar vídeos dos participantes falando. Esse procedimento, além de simplificar o processo de coleta, permitirá que a base possa ser utilizada no futuro para estudo e desenvolvimento de sistemas biométricos que empreguem correlação entre voz e movimentos labiais. Para participar da coleta, cada participante recebeu um ID numérico, com números ímpares associados a pessoas do sexo masculino e números pares a pessoas do sexo feminino. Esse identificador único de cada participante foi usado para compor o nome de cada arquivo gravado e também para gerar a estrutura de diretórios da base, conforme Seção 2.2. Para cada sessão de gravação, foi elaborado um roteiro para que o participante soubesse, com antecedência, como proceder durante o processo de gravação. Cada participante recebeu cinco roteiros, cada um associado a uma sessão (consulte Seção 2.1). Os roteiros são numerados sequencialmente, ou seja, os roteiros com numeração de 0001 a 0005 foram entregues ao usuário 001, os roteiros com numeração de 0006 a 0010 ao usuário 002, e assim por diante. Durante o processo de coleta, cada sessão de gravação foi marcada em horários convenientes para os participantes. Cada um deles recebeu, com antecedência, por e-mail, o roteiro com as informações da sessão de gravação. No dia e horário definidos, o participante se dirigia ao local previamente combinado (consulte Seção 1.4) e um monitor o acompanhava, levando consigo o kit para a coleta (notebook e smartphone, conforme descrito na Seção 1.3). Em seguida, o participante gravava o conteúdo definido para aquela sessão (especificado na Seção 2.1), utilizando um notebook, repetia o mesmo processo usando um smartphone e, por fim, um telefone comum por meio de chamada telefônica convencional. Dessa forma, segundo a sequência de dispositivos utilizados e de ambientes nos quais as coletas foram realizadas, procurou-se enriquecer a base para permitir que pudesse ser usada na análise de diversos fatores que influenciam o desempenho de sistemas de verificação biométrica, conforme explicado na Seção 1.5. 1.1 Número de participantes, sessões e gravações por sessão A versão atual da base de dados conta com gravações de 142 participantes, entre os quais, 96 são do sexo masculino e 46 são do sexo feminino. Cada participante gravou 5 sessões e em cada sessão foram feitas coletas com três tipos de dispositivos diferentes, conforme descrito na Seção 1.3. Para cada um dos dispositivos, foram feitas 27 gravações, cujo conteúdo está especificado na Seção 2.1. As sessões foram realizadas em intervalos de tempo de, no mínimo, 10 dias para favorecer a ocorrência de variações naturais na face e na voz dos indivíduos durante as gravações. Idealmente, o intervalo entre as sessões deveria ser o mais longo possível, porém optou-se por um intervalo não muito longo para evitar a desistência dos participantes e estimular o contato durante o ciclo de coletas. Portanto, para cada sessão, foram geradas 81 gravações, totalizando 405 gravações por participante. 1.2 Perfil dos participantes Os participantes da base de dados biométricos foram selecionados entre os colaboradores da Fundação CPqD 1, que voluntariamente se ofereceram para realizar as gravações. O grupo é composto predominantemente por adultos, com idade entre 20 e 60 anos, e educação de nível superior, brancos e oriundos do estado de São Paulo. 1 http://www.cpqd.com.br/ 8 Cad. CPqD Tecnologia, Campinas, v. 9, n. 2, p. 7-18, jul./dez. 2013

Figura 1 Tela do aplicativo para coleta da base de dados em notebook (a) (b) Figura 2 Telas dos aplicativos para coleta em smartphones: (a) Samsung Galaxy S II e (b) iphone 4 As seguintes informações foram coletadas de todos os participantes da base de dados biométricos: sexo, idade, local de nascimento (cidade/estado/país), sotaque e cor da pele. 1.3 Dispositivos de coleta As coletas de face e de voz foram realizadas com dispositivos diferentes. Os dados foram capturados simultaneamente para ambas as modalidades por meio de aplicativos instalados em notebooks e smartphones. Adicionalmente, para a biometria de voz, a coleta foi realizada por meio de ligações telefônicas originárias dos celulares pessoais dos participantes e de seus telefones de mesa. A seguir, são apresentados detalhes de cada um dos dispositivos utilizados nas coletas. b) webcam USB Logitech QuickCam Pro 9000 com microfone embutido; c) câmera e microfone embutidos do notebook modelo Dell Latitude core i7. Foram utilizados somente notebooks com sistema operacional Microsoft Windows 7 e com um único aplicativo para coleta, desenvolvido no CPqD. O aplicativo exibia na tela a imagem do participante, em tempo real, o texto a ser falado e uma barra indicativa do volume da gravação, conforme Figura 1. Os arquivos coletados no notebook foram salvos no formato AVI, com as seguintes propriedades: 30fps com 640x480 pixels, áudio PCM linear mono amostrado a 22 khz. 1.3.2 Smartphones 1.3.1 Notebooks Nas gravações com notebooks, foram usados três conjuntos de sensores diferentes: a) câmera e microfone embutidos do notebook modelo Compaq 510; Foram utilizados três smartphones na coleta: um Samsung Galaxy S II, com sistema operacional Android, e dois iphones 4, com sistema operacional ios. Para cada um desses sistemas operacionais, foi criado um aplicativo de coleta, que também exibia na tela o texto a ser falado e o vídeo que era capturado, conforme Figura 2. Cad. CPqD Tecnologia, Campinas, v. 9, n. 2, p. 7-18, jul./dez. 2013 9

Cada gravação feita no Samsung Galaxy S II gerava dois arquivos: um apenas com o áudio, no formato WAV (PCM linear mono amostrado a 16 khz), e um vídeo apenas com as imagens, no formato MP4 (15 fps com 640x480 pixels). O aplicativo para ios gerava um único arquivo audiovisual no formato MP4 (30 fps com 640x480 pixels e áudio no formato PCM linear mono amostrado a 16 khz). 1.3.3 Ligações telefônicas As ligações telefônicas foram feitas com os telefones de mesa dos participantes (telefones fixos), quando o ambiente de coleta era o escritório, e com os celulares pessoais dos participantes, nos demais ambientes. Nas coletas realizadas por meio de ligações telefônicas foi construída uma aplicação em uma URA, com uma árvore de diálogo, para orientar os participantes durante as gravações. As ligações realizadas com os telefones fixos que integram a rede de ramais do CPqD não trafegaram pela rede pública PSTN, mas sofreram a influência do PABX do CPqD. Por sua vez, as ligações com celulares foram todas originadas do CPqD e, portanto, estavam sujeitas a pouca variação na rede em que trafegaram. Os arquivos de áudio foram coletados no formato PCM lei-a mono, amostrado a 8 khz. 1.4 Ambientes de coleta As coletas foram realizadas em três ambientes com características diferentes: escritório, jardim e restaurante. No caso da biometria de voz, as gravações sofreram o impacto do ruído ambiente. Já no caso da biometria de face, prepondera a influência da iluminação. O ambiente de escritório apresenta um nível de ruído moderado e iluminação artificial. Já no jardim, o ruído ambiente é predominantemente baixo (ocasionalmente um ruído mais forte, como o som de um trator ou de um soprador de folhas em funcionamento) e a iluminação é natural, influenciada pela variação das condições climáticas e pela incidência de sombras provenientes de outros elementos da paisagem. No restaurante, o ruído é alto e a iluminação é artificial e heterogênea, ou seja, condições bastante diferentes das observadas no escritório, que demandaram vários ajustes de foco da câmera. A variação de iluminação dos três diferentes ambientes pode ser observada nos exemplos apresentados na Figura 3. 1.5 Categorias de usuário Para simplificar o processo de coleta, foram criados três conjuntos de dispositivos, compostos por combinações dos dispositivos notebook e smartphone. Em cada sessão de gravação foi utilizado um dos seguintes conjuntos: a) C1: composto pelo notebook Compaq e o smartphone Samsung Galaxy S II; b) C2: webcam Logitech Pro 9000 e iphone4; c) C3: notebook Dell e iphone 4. Em cada uma das sessões de gravação, para cada usuário, foram definidas a ordem de uso desses conjuntos e a ordem dos ambientes de gravação, formando seis categorias de usuário. As Tabelas 1 e 2 detalham essas distribuições. (a) (b) (c) Figura 3 Capturas de um único participante em três ambientes diferentes: (a) escritório, (b) jardim e (c) restaurante Sessão Tabela 1 Distribuição dos conjuntos de dispositivos e dos ambientes de gravação Seq. ambientes Seq. dispositivos A1 A2 A3 D1 D2 D3 D4 D5 D6 1 Escritório Jardim Restaurante C1 C1 C2 C2 C3 C3 2 Jardim Restaurante Escritório C2 C1 C3 C2 C1 C3 3 Restaurante Escritório Jardim C3 C1 C1 C2 C2 C3 4 Escritório Jardim Restaurante C1 C2 C2 C3 C3 C1 5 Escritório Jardim Restaurante C1 C3 C2 C1 C3 C2 10 Cad. CPqD Tecnologia, Campinas, v. 9, n. 2, p. 7-18, jul./dez. 2013

Tabela 2 Distribuição das sequências de conjuntos de dispositivos e de ambientes de gravação para cada categoria de usuário Categoria Seq. ambientes Seq. dispositivos 1 A1 D1 2 A1 D2 3 A2 D3 4 A2 D4 5 A3 D5 6 A3 D6 Com o emprego dessas sequências, construiu-se uma base de dados útil para análise e tratamento do impacto das variações das condições de captura e transmissão na operação de sistemas de autenticação biométrica. É possível, por exemplo, avaliar os impactos em cadastros e verificações realizados com o mesmo dispositivo e no mesmo ambiente, com o mesmo dispositivo mas em ambientes diferentes e vice-versa, bem como a influência do intervalo de tempo entre as sessões. Além disso, no caso da biometria de voz, é possível analisar o impacto dos diferentes conteúdos e durações da fala no desempenho dos sistemas de autenticação. 2 Especificação técnica da base de dados biométricos Após o ciclo de coletas, a triagem e o processamento das amostras coletadas, construiu-se uma base de dados de amostras biométricas, cujas especificações técnicas são detalhadas a seguir. 2.1 Conteúdo das gravações Em cada sessão de gravação, foram gravados 27 arquivos diferentes, classificados da seguinte forma: a) oito arquivos de leitura de texto: um arquivo com a leitura de uma frase fixa, extraída de um termo de consentimento do participante para utilização de suas amostras biométricas; quatro arquivos com a leitura de frases de riqueza fonética, sorteadas de uma lista com 562 opções; três arquivos com leituras repetidas de uma mesma frase, igual para todos os participantes, em todas as sessões. b) dez arquivos de fala espontânea: três arquivos com respostas a perguntas (todos os usuários responderam 15 perguntas ao longo das 5 sessões de gravação, em ordem aleatória); nome próprio fictício, único para cada participante e o adotado em todas as sessões; endereço fictício, único para cada participante e adotado em todas as suas sessões; data de nascimento fictícia, única para cada participante e adotada em todas as suas sessões; número de CPF fictício, único para cada participante e adotado em todas as suas sessões; número de telefone fictício, com código de país e local, de um total de 25 números de telefone diferentes, distribuídos igualmente entre os participantes; duas palavras de comando, sorteadas de um total de 10 (todos os participantes falaram os 10 comandos ao longo das 5 sessões de gravação, em ordem aleatória). c) nove arquivos de leitura de números, dígitos, horas, cadeias de caracteres alfanuméricos: uma quantia monetária entre 10 e 10 mil, gerada aleatoriamente; um número entre 10 e 1000, gerado aleatoriamente; um número entre 1000 e 10 milhões, gerado aleatoriamente; três repetições de uma sequência aleatória dos dígitos de 0 a 9 (a primeira repetição foi lida com pausas e as outras duas de forma natural); um número de cartão de crédito, de um total de 25 números de cartões de crédito diferentes, distribuídos igualmente entre os participantes; uma cadeia de caracteres alfanuméricos de tamanho 6, gerada aleatoriamente; um horário, de um total de 181 horários diferentes, distribuídos igualmente entre os participantes. 2.2 Convenção do nome dos arquivos e estrutura de diretórios A estrutura de diretórios da base é simples: um diretório por participante e um subdiretório para cada sessão. Cada subdiretório abriga os arquivos gravados. Cad. CPqD Tecnologia, Campinas, v. 9, n. 2, p. 7-18, jul./dez. 2013 11

Essa estrutura corresponde aos arquivos coletados por um determinado tipo de dispositivo (notebook, smartphone ou telefone), portanto, a base completa é composta por três estruturas idênticas, uma para cada tipo de dispositivo. Para facilitar o processamento e a interpretação dos dados da base de dados biométricos do CPqD, foi adotada a seguinte convenção para a atribuição de nomes aos arquivos: ID_Sessão_Conteúdo_Condição_Canal_Roteiro (avi/mp4/wav) onde: ID = Gênero (M ou F) + código (001 a 999) Sessão = (01 a 05) Conteúdo = Label + Numeração (1 a 9) Condição = Ambiente + TipoDispositivo (M = dispositivo móvel, N = notebook, F = ligação telefônica) + CódigoDispositivo Canal = (0 = gravação local, 1 = canal telefônico) Roteiro = Número de 0001 a 9999 Os possíveis labels do conteúdo (SENIA, 1997) são os seguintes: S = leitura de sentenças foneticamente ricas M = leitura de quantia monetária N = leitura de número T = leitura de horário B = leitura de sequência de dígitos isolados O = fala espontânea de nome próprio A = fala espontânea de endereço D = fala espontânea de data (no formato dd/mm/aaaa) I = fala espontânea de número de identificação F = fala espontânea livre L = leitura de cadeia de caracteres alfanuméricos W = comandos (Word) P = número de telefone (Phone) C = número de cartão de crédito Os possíveis ambientes são os seguintes: O = escritório (office) G = jardim (garden) P = restaurante (public indoor) Os possíveis códigos de dispositivo são os seguintes: se TipoDispositivo = M: 1 = Samsung Galaxy S II 2 = iphone 4 3 = iphone 4 se TipoDispositivo = N: 1 = Configuração 1 (e.g. Notebook Toshiba, usando microfone e câmeras embutidas) 2 = Configuração 2 3 = Configuração 3 se TipoDispositivo = F: 1 = ligação de telefone fixo 2 = ligação de telefone móvel Um arquivo com o nome /M001/02/M001_02_S1_PM1_0_0002.mp4, por exemplo, indica um usuário do sexo masculino, com ID 001, gravando a sessão 2, a primeira sentença de riqueza fonética (S1) do roteiro 0002, no ambiente público (restaurante), com o dispositivo móvel Samsung Galaxy S II e gravação local. 3 Descrição do protocolo Nesta seção, é apresentado um protocolo para a utilização da base de dados biométricos aqui descrita para avaliação de desempenho de sistemas de autenticação biométrica. O protocolo foi criado com a finalidade de padronizar o uso da referida base, possibilitando a comparação de resultados obtidos por diferentes sistemas. No protocolo proposto, os integrantes de toda a base de dados são divididos em três conjuntos mutuamente exclusivos: treinamento, desenvolvimento e teste, descritos a seguir. 3.1 Conjunto de treinamento As amostras do conjunto de treinamento devem ser utilizadas para treinar os hiperparâmetros dos sistemas de autenticação biométrica a serem avaliados, sejam eles quais forem (variam de acordo com a estratégia de reconhecimento adotada). Por exemplo, é possível utilizar o conjunto de treinamento para treinar matrizes de projeção, como PCA (Principal Component Analysis) (TURK; PENTLAND, 1991) ou LDA (Linear Discriminant Analysis) (BELHUMEUR; HESPANHA; KRIEGMAN, 1997), para treinar UBMs (Universal Background Models) (REYNOLDS; QUARTIERI; DUNN, 2000) ou ainda matrizes de variabilidade (DEHAK et al., 2011). Tabela 3 Distribuição de integrantes da base de dados nos conjuntos de treinamento, desenvolvimento e teste Conjunto Masculino Feminino Treinamento 20 20 Desenvolvimento 31 12 Teste 45 14 12 Cad. CPqD Tecnologia, Campinas, v. 9, n. 2, p. 7-18, jul./dez. 2013

Esses dados podem também ser usados para treinar coeficientes de normalização, dependendo das técnicas empregadas no sistema de verificação biométrica. 3.2 Conjunto de desenvolvimento As amostras do conjunto de desenvolvimento devem ser utilizadas para otimização dos parâmetros dos algoritmos empregados no sistema. Além disso, esse conjunto é usado para estimar um ponto de operação do sistema, o qual será avaliado no conjunto de teste. Neste conjunto e no conjunto de teste, foram definidas quais amostras de cada usuário deveriam ser utilizadas para treinar sua referência biométrica (cadastro) e quais deveriam ser utilizadas para testá-la (verificação). 3.3 Conjunto de teste As amostras do conjunto de teste devem ser utilizadas apenas para avaliar o desempenho (taxa de acerto) do sistema, empregando o ponto de operação e a calibração obtidos com o conjunto de desenvolvimento, bem como a subdivisão das amostras de cadastro e de verificação. Uma vez definidos esses conjuntos para a base de dados BioCPqD, foram criados quatro protocolos de avaliação. Cada um avalia a influência do gênero (masculino e feminino) em cada dispositivo de captura (smartphone, notebook e telefone). Conforme mencionado, as amostras de cada usuário dos conjuntos de desenvolvimento e de teste foram subdivididas em amostras de cadastro e amostras de verificação. Para o cadastro de um usuário foi selecionado o arquivo com o termo de consentimento (_S1_) da primeira sessão (_01_). Todos os demais arquivos devem ser utilizados como trials de verificação, a partir dos quais devem ser medidas as taxas de falsa aceitação e falsa rejeição. 3.4 Métricas de avaliação Uma das métricas de avaliação propostas pelo protocolo é o HTER (Half Total Error Rate) (POH; BENGIO, 2005), descrito na Equação 1: FAR, d FRR, d HTER, d = 2 (1) onde é o limiar de decisão estimado no conjunto de desenvolvimento, FAR (False Acceptance Rate) é a taxa de falsa aceitação e FRR (False Rejection Rate) é a taxa de falsa 2 http://www.idiap.ch/~mguenther/icb2013_baseline.py 3 http://www.idiap.ch/~ekhoury/baseline.zip rejeição. Nesse protocolo, o valor de foi escolhido como sendo o ponto de EER (Equal Error Rate), em que, por definição, os valores de FAR e de FRR são iguais. Como segunda métrica de avaliação, propõe-se a utilização das curvas DET (Detection Error Trade-off) (MARTIN et al., 1997). Nessa métrica, a FRR é definida em função da FAR. Com essa curva, é possível observar o custo de uma taxa de aceitação em função de determinada taxa de rejeição e vice-versa. A Tabela 3 apresenta a distribuição dos integrantes da base de dados nos conjuntos de treinamento, desenvolvimento e teste. 4 Experimentos e resultados Neste estudo, foi avaliado o desempenho de algoritmos de verificação biométrica já conhecidos na literatura, aplicados à base de dados BioCPqD, de acordo com o protocolo descrito na Seção 3. O objetivo da análise aqui descrita é avaliar quão desafiadoras são as características da base BioCPqD quando submetidas a um sistema de verificação biométrica de benchmark. Para o experimento, foram escolhidos os algoritmos fornecidos como referência para a avaliação de sistemas de autenticação de face e de voz que foram apresentados no ICB 2013 (GUNTHER et al., 2013; KHOURY et al., 2013). Esses algoritmos foram escolhidos por dois motivos: eles estão disponíveis ao público para download 2,3 e já foram aplicados a uma base de dados semelhante, que serviu de inspiração para o desenvolvimento da base descrita neste trabalho (HADID, 2008). Portanto, eles são adequados ao benchmarking. 4.1 Algoritmo de reconhecimento facial No sistema de autenticação baseado nas características faciais do usuário, as referências biométricas são calculadas através de um sistema projetivo, que emprega as técnicas PCA (TURK; PENTLAND, 1991) e LDA (BELHUMEUR; HESPANHA; KRIEGMAN, 1997), utilizando como entrada as intensidades da imagem convertida para escala de cinza. As faces são recortadas da imagem de entrada, e, em seguida, geometricamente normalizadas em 64x80 pixels. Por meio de anotações manuais da posição dos olhos dos usuários, as faces são registradas com uma distância de 32 pixels entre os olhos. Após esse processo, uma equalização de histograma é aplicada para atenuar os efeitos de iluminação. A etapa de préprocessamento das imagens é ilustrada na Figura 4. Cad. CPqD Tecnologia, Campinas, v. 9, n. 2, p. 7-18, jul./dez. 2013 13

Figura 4 Etapa de pré-processamento do algoritmo de reconhecimento de faces Computada utilizando o conjunto de treinamento, a matriz de PCA retém os 200 primeiros autovetores, com a redução da dimensionalidade do vetor de parâmetros em 96%. Os parâmetros projetados na matriz de PCA formam a entrada da matriz de LDA, na qual são retidos os primeiros 199 autovetores. Como medida de similaridade, é utilizada a distância cosseno entre vetores ( u e v ) de parâmetros projetados com essa matriz de LDA, conforme descrito na Equação 2: d cos =1 u v u 2 v 2 (2) 4.2 Algoritmo de reconhecimento de locutor No sistema de autenticação baseado nas características da voz do usuário, as referências biométricas são calculadas através de um sistema baseado em mistura de gaussianas (REYNOLDS; QUARTIERI; DUNN, 2000). Foi adotado o método tradicional de análise do sinal de fala, em que o sinal é subdividido em quadros janelados de análise. Neste caso, a função de janelamento empregada é a Hamming (BOLL, 1979), os quadros são de 20 ms e um novo quadro é obtido a cada 10 ms, gerando, portanto, uma sobreposição de 10 ms entre quadros adjacentes. Em seguida, quadros de silêncio são eliminados com um algoritmo de detecção de voz ou VAD (Voice Activity Detection). Para os quadros com fala são computados 20 coeficientes MFCC (Mel-Frequency Ceptral Coefficients) e suas primeiras e segundas derivadas (Δ e Δ 2 ), gerando um vetor de parâmetros de dimensão 60. Todos os vetores foram submetidos à técnica CMS (Cepstral Mean Subtraction). Uma vez parametrizado o sinal, esses atributos são utilizados para treinar o classificador. O sistema de referência disponibilizado na avaliação do ICB 2013 emprega a técnica conhecida como UBM-GMM (Universal Background Model Gaussian Mixture Model) (REYNOLDS; QUARTIERI; DUNN, 2000), em que os modelos dos usuários (GMM) são adaptados com base em um modelo genérico treinado previamente (UBM), utilizando o algoritmo MAP (Maximum a Posteriori). Foram utilizadas 512 misturas e um fator de adaptação α igual a 4. Uma descrição detalhada das técnicas de processamento de sinais e de parametrização e dos classificadores adotados pode ser encontrada no link 4. 4.3 Fusão de biometrias A base de dados multimodal oferece a possibilidade de combinar os resultados do sistema de autenticação de face e de locutor. 4 http://www.beat-eu.org/evaluations/icb-2013-speaker-recognition-mobio 14 Cad. CPqD Tecnologia, Campinas, v. 9, n. 2, p. 7-18, jul./dez. 2013

Com isso, espera-se uma melhora de desempenho em termos de taxas de acerto. Com a finalidade de observar o comportamento da base de dados bimodal nesse contexto, um experimento adicional foi conduzido, combinando os resultados dos dois sistemas de autenticação. Para isso, um modelo baseado em regressão logística linear (Linear Logistic Regression LLR) (HAIFLEY, 2002) foi aplicado, combinando as pontuações dos dois sistemas de autenticação biométrica. O código utilizado para a fusão dos dois sistemas também está disponível para download 5. 4.4 Resultados A Tabela 4 e a Tabela 5 apresentam os resultados da autenticação baseada em face, locutor e da fusão das duas biometrias para os quatro protocolos definidos. Nessas tabelas, é apresentado o EER no conjunto de desenvolvimento e o HTER no conjunto de teste, obtidos conforme a descrição oferecida na Seção 3.4. Esses resultados são também subsidiados pelas curvas DET, conforme Figura 5. Conforme Tabela 4 (protocolo smartphone), observa-se que o resultado do sistema de autenticação de face, para o protocolo masculino, é ligeiramente superior, quando comparado com o sistema de autenticação de locutor. O oposto é observado no protocolo feminino. Contudo, os resultados com a aplicação da fusão das duas biometrias são significativamente melhores para ambos os protocolos (masculino e feminino), quando comparado com cada biometria isoladamente. Através da análise das curvas DET, conforme Figura 5, é possível observar que o sistema de autenticação de locutor é melhor que o sistema de autenticação de face para qualquer ponto de operação escolhido no protocolo feminino, uma vez que as curvas não se cruzam. No protocolo masculino, há um ponto de intersecção entre as curvas. Isso significa que, dependendo do ponto de operação, um sistema de autenticação biométrica é mais assertivo que o outro. Contudo, essas curvas também mostram que a fusão das biometrias é melhor para ambos os protocolos, em comparação com os resultados de cada biometria isoladamente, para qualquer ponto de operação escolhido. Conforme Tabela 5 (protocolo notebook) e Figura 5 (curvas DET), os resultados do sistema de autenticação de locutor mostraram-se sistematicamente melhores que os do sistema de autenticação de face para ambos os protocolos (masculino e feminino). Contudo, assim como no protocolo smartphone, a fusão das duas biometrias trouxe uma melhora significativa em ambos os protocolos (masculino e feminino). Nota-se que os resultados apresentados no protocolo smartphone são melhores que os resultados apresentados no protocolo notebook. No reconhecimento de locutor, acreditamos que tais resultados foram obtidos também em razão de o microfone do notebook ser mais aberto (em alguns casos, é omnidirecional), capturando, desta forma, maior nível de ruído ambiente. Além disso, o notebook não dispõe de controle de ganho ou mecanismos de redução de eco e ruído. No caso dos smartphones, o participante fala mais próximo do microfone, sofrendo menos influência do ruído ambiente. Além disso, os smartphones incluem controle de ganho e redução de ruído para as gravações realizadas com o microfone. No caso do reconhecimento de faces, melhores resultados foram obtidos em razão da qualidade das câmeras frontais dos smartphones utilizados na coleta, que vêm evoluindo bastante ao longo dos anos. Outra razão refere-se à ergonomia da aplicação, uma vez que, nas coletas em smartphones, o participante fica bem mais próximo da câmera do que nas coletas em notebooks, e, desta forma, a face ocupa a região de captura quase em sua totalidade e o cenário e a iluminação de fundo tem menor influência nos ajustes automáticos de foco e do obturador. Vale ressaltar que, ambos os algoritmos utilizados para autenticação biométrica perduram há mais de uma década (BELHUMEUR; HESPANHA; KRIEGMAN, 1997), são clássicos em suas respectivas áreas de conhecimento e fornecem um referencial valioso para o início das pesquisas nesta base de dados. Tabela 4 Resultados dos algoritmos baselines no protocolo da base de dados de smartphone Característica Masculino Desenvolvimento (EER) Teste (HTER) Desenvolvimento (EER) Feminino Teste (HTER) Face 18.66% 19.35% 16.75% 23.45% Voz 18.14% 20.02% 20.36% 18.26% Fusão 12.02% 13.80% 13.13% 13.98% 5 http://www.idiap.ch/software/bob/docs/releases/last/sphinx/html/trainer/generated/bob.trainer.cglogregtrainer.html? highlight=linear%20logistic Cad. CPqD Tecnologia, Campinas, v. 9, n. 2, p. 7-18, jul./dez. 2013 15

Tabela 5 Resultados dos algoritmos baselines no protocolo da base de dados de notebook Característica Masculino Desenvolvimento (EER) Teste (HTER) Desenvolvimento (EER) Feminino Teste (HTER) Face 22.44% 23.91% 25.31% 28.23% Voz 21.64% 23.09% 27.11% 24.63% Fusão 16.04% 17.21% 19.01% 20.69% (a) (b) (c) Figura 5 Curvas DET dos protocolos: (a) base de dados masculina capturada em smartphone, (b) base de dados feminina capturada em smartphone, (c) base de dados masculina capturada em notebook, (d) base de dados feminina capturada em notebook (d) Conclusão Neste trabalho, apresentamos o método de construção da primeira base de dados multibiométrica composta por dados amostrais de brasileiros. Essa base de dados contempla capturas de vídeos, com áudio de pessoas de diferentes idades e gêneros, obtidos em diferentes cenários de uso e por meio de três canais distintos: smartphones, notebooks e chamadas telefônicas (esta última, apenas o áudio). Para cada canal, diferentes equipamentos foram utilizados a fim de fornecer uma alta variabilidade de dispositivos de captura. Além da base, propõe-se também um protocolo para sua utilização em experimentos de avaliação de desempenho de sistemas de verificação biométrica. Como referência inicial para os estudos, foram realizados experimentos com sistemas clássicos de verificação de face e de locutor e empregada 16 Cad. CPqD Tecnologia, Campinas, v. 9, n. 2, p. 7-18, jul./dez. 2013

uma estratégia de fusão das pontuações dos dois sistemas. Ambos os sistemas estão disponíveis para download, possibilitando a reprodução dos experimentos em outros cenários. Resultados preliminares apontaram que a fusão de duas biometrias distintas oferece ganhos, em termos de taxas de acerto, em comparação aos resultados de cada biometria isoladamente, corroborando a hipótese inicial. As taxas de erro superiores a 20%, obtidas pelos algoritmos de baseline no conjunto de testes, podem ser um indício de como a base é desafiadora e evidenciam as dificuldades de reconhecimento biométrico em ambientes heterogêneos, com suas diferenças inerentes, e com o emprego de diferentes dispositivos de captura. Evidenciam também o impacto do tempo entre o cadastro e as capturas para verificações. Acredita-se que essa base de dados, apesar dos desafios, possibilita uma avaliação de algoritmos biométricos mais próxima de um cenário de uso real. Agradecimentos Os autores agradecem o apoio dado a este trabalho, desenvolvido no âmbito do Projeto Autenticação Biométrica Multimodal e Iconográfica para Dispositivos Móveis, que contou com recursos do Fundo para o Desenvolvimento Tecnológico das Telecomunicações (FUNTTEL), do Ministério da Ciência, Tecnologia e Inovação, e do Ministério das Comunicações, por meio da Financiadora de Estudos e Projetos (FINEP). Referências BELHUMEUR, P. N.; HESPANHA, J.; KRIEGMAN, D. Eigenfaces vs. Fisherfaces: Recognition Using Class Specific Linear Projection. IEEE Transactions on Pattern Analysis and Machine Intelligence, v. 19, n. 7, p. 711-720. 1997. BOLL, S. Suppression of acoustic noise in speech using spectral subtraction. IEEE Trans. on Acoustics, Speech, and Signal Processing, v. 27, n. 2, p. 113-120. 1979. DEHAK, N. et al. Front-End Factor Analysis for Speaker Verification. IEEE Transactions on Audio, Speech and Language Processing, v. 19, n. 4, p. 788-798, maio de 2011. GUNTHER, M. et al. The 2013 Face Recognition Evaluation In Mobile Environment. In: 6th INTERNATIONAL CONFERENCE ON BIOMETRICS ICB 2013. Madrid, Spain. Proceedings... 2013. HADID, A. D2.2: Report on the specifications of the database. 2008. Disponível em: <http://www.mobioproject.org/public/d2.2- specifications-of-the-database/view>. Acesso em: 12 set. 2013. HAIFLEY, T. Linear logistic regression: an introduction. IEEE International Integrated Reliability Workshop Final Report, p. 184-187. outubro de 2002. JAIN, A. K.; FLYNN, P.; ROSS, A. Handbook of Biometrics, Springer-Verlag New York, Inc. 2008. KIMMUEN, T.; LI, H. An overview of textindependent speaker recognition: From features to supervectors. Speech Communication, v. 52, n. 1, janeiro de 2010. KHOURY, E. et al. The 2013 Speaker Verification Evaluation In Mobile Environment. In: 6th INTERNATIONAL CONFERENCE ON BIOMETRICS ICB 2013. Madrid, Spain. Proceedings... 2013. MARTIN, A. et al. The DET curve in assessment of detection task performance. In: 5th EUROPEAN CONFERENCE ON SPEECH COMMUNICATION AND TECHNOLOGY. Proceedings... 1997. p. 1895-1898. POH, N.; BENGIO, S. Database, protocol and tools for evaluating scorelevel fusion algorithms. Pattern Recognition, v. 39, n. 2, p. 223-233. 2005. REYNOLDS, D. A.; QUARTIERI, T. F.; DUNN, R. B. Speaker Verification Using Adapted Gaussian Mixture Models. Digital Signal Processing, v. 10, p. 19-41, 2000. SENIA, F. Specification of speech database interchange format. Technical Report. 28 de fevereiro de 1997. Disponível em: <http://gpstsc.upc.es/veu/sala2/>. Acesso em: 11 set. 2013. TURK, M; PENTLAND, A. Eigenfaces for Recognition. Journal of Cognitive Neuroscience, v. 3, n. 1, p. 71-86, MIT Press, 1991. Cad. CPqD Tecnologia, Campinas, v. 9, n. 2, p. 7-18, jul./dez. 2013 17

Abstract This paper presents the development and the design of the first bimodal biometric database containing face and speech samples colected from brazilian individuals. The database was projected to comprise a wide range of devices (notebooks, smartphones and phone calls) and environments (indoor and outdoor). This work describes the methodology used for the design and capture procedure, as well as the technical specifications of the database. Furthermore, an evaluation protocol for the database is proposed, and experimental results obtained by aplying biometric authentication baseline systems (face and speaker) according to the proposed protocol were generated. Finally, the potential of bimodal verification is evaluated by fusing the results obtained by each baseline system. Key words: Face biometric. Voice biometric. Biometric verification. Biometric database. 18 Cad. CPqD Tecnologia, Campinas, v. 9, n. 2, p. 7-18, jul./dez. 2013