Lupa Digital: Agilização da Busca Decadactilar na Identificação Criminal Através de Mineração de Dados

Documentos relacionados
PÓS GRADUAÇÃO EM PERÍCIA FORENSE PAPILOSCOPIA

Conceito de Estatística

Papiloscopia. Genética Forense Prof. Raimundo Jr

5 Resultados Dados artificiais Convergência à mediana e à média com dados artificiais

Referência Banco de dados FioCruz Doc LAB1_GEO.doc. Autor Eduardo C. G. Camargo Versão 1.0 Data DEZ / Revisão Versão Data

Descoberta de Conhecimento em Bancos de Dados - KDD

Aula 6 Mineração Streams Representação dos Dados. Profa. Elaine Faria UFU

5 Agregação das Reservas das Entidades

Protótipo de Software para Reconhecimento de Impressões Digitais

7 Congresso de Pós-Graduação MODELAGEM DE BASE DE CONHECIMENTO PARA TAREFA DE CLASSIFICAÇÃO EM MINERAÇÃO DE DADOS

FERRAMENTAS ESTATÍSTICAS PARA ANÁLISE DA CLASSIFICAÇÃO

DESCOBERTA DO CONHECIMENTO COM O USO DE TEXT MINING APLICADA AO SAC TEXT MINING. Aluno José Lino Uber. Orientador Paulo Roberto Dias

Fundamentos de Mineração de Dados

Inteligência nos Negócios (Business Inteligente)

Métodos Empíricos de Pesquisa I. } Análise Bidimensional

Ferramenta para cálculo de métricas em softwares orientados a objetos codificados em Object Pascal

Roteiro. PCC142 / BCC444 - Mineração de Dados Avaliação de Classicadores. Estimativa da Acurácia. Introdução. Estimativa da Acurácia

Aprendizagem de Máquina

Metodologia Aplicada a Computação.

Estatística Aplicada I. } Análise Bidimensional

5 ESTUDO DE CASOS 5.1 CATEGORIZAÇÃO

Tópicos Especiais em Informática Fatec Indaiatuba 13/07/2017

UNIVERSIDADE DO ESTADO DE MATO GROSSO - UNEMAT. Faculdade de Ciências Exatas e Tecnológicas FACET / Sinop Curso de Bacharelado em Engenharia Elétrica

Algoritmos de Aprendizado

Universidade Federal do Paraná (UFPR) Bacharelado em Informática Biomédica. Árvores de Decisão. David Menotti.

2284-ELE/5, 3316-IE/3

Estimação e Testes de Hipóteses

Esse material foi extraído de Barbetta (2007 cap 13)

Aprendizado de Máquina

Por que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Abordagens automáticas

3 Redes Neurais Artificiais

Regressão Linear. Fabrício Olivetti de França. Universidade Federal do ABC

KDD E MINERAÇÃO DE DADOS

7 Resultados e Discussão

Redes Neurais: RBF. Universidade Federal do Rio Grande do Norte Departamento de Engenharia de Computação e Automação

Fundamentos de Inteligência Artificial [5COP099]

Aprendizagem Bayesiana

MÉTODOS QUANTITATIVOS PARA CIÊNCIA DA COMPUTAÇÃO EXPERIMENTAL

MatrizFormatador. Introdução

Inteligência Artificial. Raimundo Osvaldo Vieira [DComp IFMA Campus Monte Castelo]

A UTILIZAÇÃO DE MÉTODOS ESTATÍSTICOS NO PLANEJAMENTO E ANÁLISE DE ESTUDOS EXPERIMENTAIS EM ENGENHARIA DE SOFTWARE (FONTE:

Sistema de Inferência Fuzzy baseado em Redes Adaptativas (ANFIS) Sistema de Inferência Fuzzy

INF 1771 Inteligência Artificial

AULA 8 Experimentos multinomiais e tabelas de contingência

Roteiro. PCC142 / BCC444 - Mineração de Dados Classicadores Bayesianos. Representação dos Dados. Introdução

Inteligência Artificial

Probabilidade e Estatística (Aula Prática - 23/05/16 e 24/05/16)

3 MÉTODO. 3.1 Introdução

CAPÍTULO 5 RESULTADOS. São apresentados neste Capítulo os resultados obtidos através do programa Classific, para

Aprendizado de Máquina (Machine Learning)

Especialização em Engenharia de Processos e de Sistemas de Produção

Bioestatística UNESP. Prof. Dr. Carlos Roberto Padovani Prof. Titular de Bioestatística IB-UNESP/Botucatu-SP

Cap. 4 - Estimação por Intervalo

Exame de Aprendizagem Automática

5 Estudo de Caso e Resultados

Pós-Graduação em Engenharia de Automação Industrial SISTEMAS INTELIGENTES PARA AUTOMAÇÃO

6 Estudos de Casos Porta Lógica OU de 4 Entradas

PROPOSTA INDICATIVA DE RESOLUÇÃO. MODELOS DE APOIO À DECISÃO Departamento de Engenharia e Gestão, Instituto Superior Técnico

Aprendizado de Máquina (Machine Learning)

4 Caso de Uso no Ambiente Oracle

3 Trabalhos Relacionados

MANUAL PARA DESENVOLVIMENTO DE SOFTWARE TRABALHO DE CONCLUSAO DE CURSO EM SISTEMAS DE INFORMAÇÃO

Conceitos centrais em análise de dados

DCBD. Avaliação de modelos. Métricas para avaliação de desempenho. Avaliação de modelos. Métricas para avaliação de desempenho...

Módulo 19 - Análise Discriminante Geração de Tabelas

Introdução a Teste de Software

Elementos de Estatística. Michel H. Montoril Departamento de Estatística - UFJF

Assim, no algoritmo BIOCLIM, qualquer ponto do espaço pode ser classificado como:

Metamodelos para Banco de Dados. Carlos Julian Menezes Araújo Prof. Dr. Robson do Nascimento Fidalgo

Extração de características utilizando filtros de Gabor aplicado a identificação de defeitos no couro bovino

Ajustar Técnica usada na análise dos dados para controlar ou considerar possíveis variáveis de confusão.

1 Classificadores Bayseanos Simples

Aprendizagem de Máquina. Prof. Júlio Cesar Nievola PPGIA - PUCPR

Implementação de um sistema de validação estatística configurável de dados

Boas Maneiras em Aprendizado de Máquinas

Variância pop. * conhecida Teste t Paramétrico Quantitativa Distribuição normal Wilcoxon (teste dos sinais, Wilcoxon p/ 1 amostra)

Aprendizagem de Máquina

PREDIÇÃO DO TEMPO DE VIDA DE BATERIAS DE LITHIUM-ION POLYMER UTILIZANDO INTERPOLAÇÃO POLINOMIAL 1

TRATAMENTO DA INFORMAÇÃO

Sumário. Prefácio... xi. Probabilidade e Estatística... 1

Estatística: Aplicação ao Sensoriamento Remoto SER ANO Avaliação de Classificação

CE001 - BIOESTATÍSTICA TESTE DO QUI-QUADRADO

CORRELAÇÃO E REGRESSÃO. Modelos Probabilísticos para a Computação Professora: Andréa Rocha. UNIVERSIDADE FEDERAL DA PARAÍBA Dezembro, 2011

4 ABORDAGENS METROLÓGICAS

CC-226 Introdução à Análise de Padrões

Conceitos de Aprendizagem de Máquina e Experimentos. Visão Computacional

Estatística Computacional (Licenciatura em Matemática) Duração: 2h Exame 14/06/10 NOME:

Química e Estatística

Inteligência Artificial

índice 2. Vetores e Tipos Primitivos PARTE 1- O Sistema R 1. Introdução ao Sistema R

2. Redes Neurais Artificiais

Classificação: 1R e Naïve Bayes. Eduardo Raul Hruschka

Dados de identificação do Acadêmico: Nome: Login: CA: Cidade: UF Assinatura: CARTÃO RESPOSTA

Universidade Federal do Paraná Departamento de Informática. Reconhecimento de Padrões. Tipos de Aprendizagem. Luiz Eduardo S. Oliveira, Ph.D.

Metodologia de inversão

Aula 7 Medidas de Distância. Profa. Elaine Faria UFU

3 Processo de Teste. 3.1.Visão Geral do Processo

Impressão Digital, Biometria e Eletrônica

Considerações de Desempenho

Transcrição:

Lupa Digital: Agilização da Busca Decadactilar na Identificação Criminal Através de Mineração de Dados Marcelo Ladeira 1, Marcelo Garrido de Oliveira 2 e Marcos Elias C. de Araújo 3 1 Departamento de Ciência da Computação Universidade de Brasília Caixa Postal 4466 70.919-970 Brasília, DF 2 Banco Central do Brasil SBS Quadra 3, Bloco B, Ed. Sede 70.074-900 Brasília, DF 3 Departamento de Polícia Federal Instituto Nacional de Identificação Brasília, DF mladeira@unb.br, marcelo.garrido@bcb.gov.br, marcos.meca@bol.com.br Abstract. This article describes cooperation with the Brazilian Federal Police (DPF/INI) and the academia to use data mining techniques to make faster the criminal identification based on the matching of deca-dactylograms. The DPF/INI fingerprint files use the Vucetich s system that codes all the ten fingers of a person with a unique dactyloscopic formula. Many times, only fragments of fingerprints are found in the scene of the crime. Our goal is to study how to deal with this missing of information to reduce the search space into the fingerprints identification processes. To infer missing codes, we had tested classifier based on naïve Bayes, Bayesian network, decision tree, neural network, and CNM. As a result, Lupa Digital was developed in Java. Resumo. Esse artigo descreve uma cooperação real entre a academia e o Departamento de Polícia Federal (DPF/INI) para aplicar mineração de dados em impressões digitais para agilizar a identificação criminal. Os arquivos do DPF/INI utilizam o sistema de codificação proposto por Vucetich. Esse sistema usa uma fórmula dactiloscópica para representar os códigos das impressões dos dez dedos da pessoa embora, em geral, somente fragmentos de impressões sejam encontrados na cena do crime. Essa pesquisa estudou como lidar com essa falta de informação. Para inferir os códigos faltantes, foram testados os classificadores naive Bayes, árvores de decisão, redes neurais e CNM. O Lupa Digital foi desenvolvido em função dos resultados obtidos. XXXII SEMISH 1945

1. Introdução A papiloscopia busca a identificação positiva, isto é, poder afirmar que uma identidade, e nenhuma outra, corresponde a determinado indivíduo e vice-versa. Para alcançar esse objetivo a papiloscopia atende aos seguintes princípios fundamentais [Gomes, 1993]: perenidade (ou permanência): o desenho digital que define o conjunto de características registradas se mantém durante toda a vida do indivíduo. imutabilidade: os desenhos papilares não mudam sua forma original durante toda a sua existência. variabilidade (ou singularidade): não há possibilidade de se encontrar duas impressões digitais idênticas. Os desenhos papilares não se repetem: variam de pessoa para pessoa e entre os dedos da própria pessoa. A dactiloscopia é o método mais utilizado nos laboratórios de polícia por atender plenamente aos princípios anteriores e se tratar de característica de identificação que deixa resíduos nos locais de crimes, ao contrário de outras. Fundamentada em informações de impressões digitais e outros atributos físicos a pesquisa de que trata o presente artigo, iniciou-se com a extração, preparação e análise de um banco de dados com 502.052 registros, denominado de MECA-Sinic, extraído do arquivo dactiloscópico criminal do Instituto Nacional de Identificação DPF/INI. O estudo estatístico e a aplicação de técnicas de mineração de dados a esse domínio contribuíram para a elaboração de novos critérios técnicos de suporte aos procedimentos periciais do DPF/INI, além de fornecer subsídios para estudos nos campos de outras ciências, em especial a Sociologia. Seus desdobramentos são multifacetados, como a Criminalística, e com repercussão em outras áreas do conhecimento humano. 1.1 O Processo de Identificação Dactiloscópica Para que possamos diferenciar uma pessoa da outra é necessário que haja um método destinado a estabelecer sua identidade, ou seja, determinar um conjunto de caracteres próprios que possam individualizar as pessoas entre si. Afinal, mais do que identificar pessoas, precisa-se individualizá-las. A biometria é o ramo da ciência que estuda as medidas físicas dos seres vivos. A identificação biométrica utiliza tecnologias que permitem a identificação das pessoas através dos traços físicos característicos e únicos de cada ser humano: os traços faciais, a íris, a retina, a voz, a grafia e a impressão digital. Historicamente, dentre os vários métodos já utilizados o papiloscópico é o mais eficaz por conseguir individualizar pessoas tanto civil quanto criminalmente [INI 1987]. A papiloscopia é a ciência que trata da identificação humana através das papilas dérmicas e que tem exercido papel de relevância no âmbito da pesquisa criminológica. Como ciência, detém seus princípios: perenidade, imutabilidade e variabilidade dos desenhos papilares. Seu campo de atuação divide-se em dactiloscopia (dedos), quiroscopia (mãos) e podoscopia (pés). Juan Vucetich (1858-1925) foi o criador do primeiro sistema de identificação humana com classificação de impressões digitais. Ele utilizou os tipos fundamentais: arco (1); presilha interna (2); presilha externa (3) e verticilo (4). Atualmente foram acrescentados mais três tipos: anômalo (5), cicatriz (6) e amputação (7). XXXII SEMISH 1946

1.2 Fórmula Dactiloscópica e Minúcias Fórmula Dactiloscópica é representada por uma fração com numerador formado pelos algarismos que representam os desenhos dos tipos fundamentais dos dedos da mão direita (polegar para o mínimo) e o denominador é construído de forma similar, para a mão esquerda. A fórmula dactiloscópica é um valor numérico que permite a classificação de forma bastante simples das impressões digitais. Por exemplo: 1-3 3 4 3 mão direita 2-2 1 4 2 mão esquerda Vucetich idealizou também uma classificação de subtipos para cada tipo fundamental. Esse detalhamento não será abordado nesta pesquisa pois o arquivo MECA-Sinic possui um alto índice de registros sem este subtipo de classificação ou com preenchimento errado no campo subtipo. O dactilograma, desenho dos dedos, tem como elementos constitutivos [INI 1987]: cristas papilares: correspondem às linhas impressas do dactilograma; sulcos interpapilares ou intercristais: correspondem à separação das linhas papilares; poros: são pequenos orifícios dispostos sobre as linhas impressas do dactilograma; pontos singulares: são utilizados para a classificação de tipos primários. pontos característicos (minúcias ou minutiae): são particularidades morfológicas que estabelecem a unicidade das impressões digitais. Do ponto de vista biológico, Francis Galton foi o primeiro a fazer um estudo dos pontos característicos das impressões digitais. Ele lançou as bases científicas da dactiloscopia ao catalogar dez classes, trinta e oito tipos nucleares e as minúcias. Baseado nestas minúcias é possível estabelecer a identidade de uma pessoa [INI 1987]. O processo de classificação baseia-se na identificação dos pontos singulares que caracteriza os tipos primários. Uma vez classificado o tipo primário, o processo de verificação consiste em mapear as minúcias. A Figura 1 ilustra a diferença de uso entre os pontos singulares (esquerda) e característicos (direita). Núcleo e delta são pontos singulares. O núcleo é região central (Figura 1, esquerda) delimitada pela diretriz marginal (linha cheia superior) e diretriz basilar (linha cheia inferior). O delta é a região compreendida entre o núcleo e as diretrizes marginal e basilar. Não existe uma padronização para a classificação das minúcias, embora sejam classificadas segundo o aspecto como: crista (final ou curta), bifurcação, ilha, espora ou cruzamento. Ilustrações dessas minúcias estão apresentadas em [Oliveira, 2004]. Figura 1. Pontos Singulares e Pontos Característicos XXXII SEMISH 1947

2. Metodologia empregada A metodologia base para aplicação de técnicas de mineração de dados (DM) utilizada neste artigo é o modelo de referência CRISP-DM [SPSS 1999]. Este modelo de processo para mineração de dados baseia-se na existência de um ciclo de vida para o projeto de mineração de dados. Suas fases são: entendimento do negócio (objetivos e requerimentos do projeto, análise de riscos e benefícios, etc), entendimento dos dados (coleta e descrição dos dados, análise da qualidade, seleção de variáveis ou amostras para mineração, etc), preparação dos dados (seleção, limpeza, construção de atributos agregados, discretização dos dados numéricos e formatação, se necessário) modelagem (aprendizagem de modelos com a aplicação de técnicas de DM), avaliação dos modelos (seleção do modelo mais adequado face aos objetivos do projeto) e colocação em uso (do modelo ou modelos selecionados). Os registros da base MECA-Sinic possuem as seguintes informações relativas a cada criminoso: Unidade da Federação em que nasceu, data de nascimento, codificação das impressões digitais das mãos direita e esquerda (tipos primários e subtipos), sexo, cútis, incidência criminal (código dos crimes praticados) e registro federal (número do registro no DPF/INI). Todas essas variáveis, exceto a data de nascimento (ou idade) são variáveis categóricas, portanto não ordenáveis. Durante a fase de entendimentos dos dados foram desconsiderados os subtipos dos dedos das duas mãos porque esses campos apresentavam diversas inconsistências relativas ao processo de coleta de dados. Com as demais variáveis foram realizadas análises da estatística descritiva (principalmente tabulações de distribuições de freqüências dos tipos primários em função das demais variáveis). Essas análises serviram para correção de valores espúrios e verificação das distribuições dos tipos primários por sexo, cútis e incidência criminal. Dados categóricos possuem a vantagem de não necessitarem de um processo de discretização complexo. Porém, pelo fato de não serem numericamente ordenáveis, carecem de ferramentas comuns a atributos numéricos como medidas de dispersão (variância e desvio padrão), médias, coeficientes de correlação (Pearson, Spearman, Hoefdinf ou Kendall) e outras. Dentro destas limitações, para análise das fórmulas dactiloscópicas foram utilizados os índices lambda assimétrico, λ(c L) e coeficiente de incerteza, U(C L), ambos assumindo valores no intervalo [0,1]. Esses índices são medidas de associação adequadas para variáveis não ordinais. O lambda mede a melhora provável em predizer o valor da variável da coluna C, dado que se conhece o valor da variável na linha L. O coeficiente de incerteza mede a proporção da entropia na variável da coluna C que é explicada pela variável na linha L. Uma decisão importante, na fase de análise dos dados, foi dividir a base em quatro grupos (arquivos A, B, C e D), visando dar maior clareza à análise. De forma resumida, o grupo A foi gerado com registros cuja fórmula possui freqüência acima de 1%, o grupo C foi gerado por fórmulas com freqüência abaixo de 12 observações e o grupo B com o meio destes. O grupo D, foi gerado somente com observações, registros, que possuíam tipos fundamentais de origem acidental, que são as cicatrizes (tipo 6) e amputações (tipo 7). As fórmulas geradas por acidentes ou doenças sobrepuseram outras originais e, desta forma, não podem ser avaliadas para geração de XXXII SEMISH 1948

modelos, além de possuírem baixa freqüência o que também prejudica a geração dos mesmos. A Tabela 1 resume as principais características que motivaram esta divisão. Tabela 1 - Divisão da Base de Dados nos Grupos A, B, C e D Um outro fator causador de um número grande de fórmulas com baixa frequência é a existência de observações com o tipo fundamental anômalo (tipo 5). Existem 2.417 registros deste tipo na base MECA-Sinic, que correspondem a 0,48% desta, estes registros estão dispersos em 1.735 diferentes fórmulas, o que corresponde a 4,55% das fórmulas. Porém, definiu-se não separar tais registros em um quinto arquivo. Por não existir, na literatura consultada, pesquisa sobre a aplicação de mineração de dados no domínio da dactiloscopia, optou-se por utilizar alguns formalismos de DM para comparação na etapa de avaliação dos modelos gerados. Foram escolhidos: árvore de decisão, rede bayesiana [Silva, 2002], Naive Bayes, rede neural artificial - ANN [Haykin, 2001] e CNM [Prado, 1999]. Um obstáculo marcante neste domínio é a não existência de variável alvo (classe) que represente a variável de interesse. Como os algoritmos dos classificadores necessitam explicitar a variável classe para geração do modelo, adotou-se para estes casos executar a tarefa de aprendizagem dez vezes. Em cada execução, nove dedos eram selecionados para inferir o décimo. Esse foi o caso de todos os formalismos usados, exceto as redes bayesianas. A necessidade de discriminar os modelos fez com que o algoritmo a priori [Agrawal, 1993], que implementa a descoberta de conhecimento por regras de associação, fosse descartado desta etapa do processo de mineração de dados, pois não se encontrou na literatura consultada nenhuma forma de se avaliar as regras de associação geradas de forma a permitir comparar os resultados obtidos com os dos outros modelos. Este tipo de treinamento gerou os modelos necessários para inferir um dedo a partir dos outros nove dedos, situação de pesquisa trivial e base para uso na hipótese de complementação de tipos primários, para reduzir o espaço de busca decadactilar. 2.1 Método da Avaliação Nos problemas de classificação é natural medir a performance do classificador em termos da taxa de erro. Entende-se por taxa de erro como sendo a proporção dos erros de classificação encontrados em um conjunto de instâncias. Alternativamente pode-se medir a performance através do complemento da taxa de erro que é a taxa de sucesso. A estrutura chamada matriz de confusão pode ser usada para representar e auxiliar o cálculo de diferentes tipos de erros como falso positivo e falso negativo. Problemas de classificação de duas classes são muito comuns, sendo estruturados para predizer a ocorrência ou a não ocorrência de um simples evento ou hipótese. A Tabela 2 ilustra as quatro possibilidades em um problema dicotômico. XXXII SEMISH 1949

Tabela 2. Matriz de Confusão para problema de duas classes Classes Preditas Classes Reais Predição Positiva Predição Negativa Classe Positiva Verdadeiro Positivo (TP) Falso Negativo (FN) Classe Negativa Falso Positivo (FP) Verdadeiro Positivo (TN) Existem problemas que exigem uma representação mais complexa, como problemas multiclasses. A Tabela 3 ilustra um problema com três classes: Tabela 3. Matriz de Confusão para problema de três classes Classes Preditas Classes Reais 1 2 3 1 30 1 0 2 1 43 2 3 0 5 75 As predições corretas localizam-se ao longo da diagonal da matriz de confusão. Todas as demais representam um tipo particular de erro de classificação. Por exemplo, a classe 2 foi classificada corretamente 43 vezes (Tabela 2), entretanto foi erroneamente classificada como classe 3 por duas vezes. Neste artigo, serão trabalhados os índices de classificações corretas da i-ésima classe (TP i ) e o índice que denominamos probabilidade de concordância PrCo (Equação 1), o qual considera não somente as classificações corretas como também o número de falsos positivos (FP i ), ponderados pela probabilidade da classe (p i ). Esse índice pode ser interpretado como um valor esperado da taxa de verdadeiros positivos líquida. c p i= 1 i i ( 1 FP ) * TP * (1), 2.2 Avaliação dos Algoritmos de Mineração i A metodologia da avaliação consistiu nos seguintes passos: (a) Construção de modelos para inferência de um dos dedos a partir dos demais nove dedos, aplicando os formalismos: árvore de decisão, redes bayesianas, Naive Bayes, redes neurais artificiais (ANN) com retropropagação (BP) e modelo neural combinatório (CNM). Foram usados os softwares UnBBayes e UnBMiner, assim como arquivos de treinamento gerados com 65% dos registros; (b) Seleção do melhor modelo por dedo com arquivos de avaliação gerados. O critério de avaliação escolhido foi a probabilidade de concordância (PrCo); (c) Análise de sensibilidade a valores faltantes (MV). Os arquivos originais de avaliação foram utilizados para gerar os arquivos com valores faltantes. A avaliação foi executada com base em dois dedos: o de melhor e o de pior avaliação. Foram XXXII SEMISH 1950

utilizadas as seguintes taxas de MV: 2%, 5%, 10%, 25% e 40%, cujos valores de avaliação geram uma curva ao serem representados em um gráfico; (d) finalizando, foi feita a seleção do modelo mais robusto para o caso característico do DPF/INI; A construção dos modelos iniciou-se com a realização de testes de calibragem de parâmetros, se fosse o caso, para análise de sensibilidade dos mesmos. A avaliação dos modelos foi feita com uso do módulo Evaluation do UnBMiner. Informações mais detalhadas sobre esta etapa podem ser encontradas em [Oliveira 2004]. Utilizou-se o algoritmo ID3 para construção da árvore de decisão no UnBMiner. Na etapa de análise de sensibilidade a valores faltantes (MV), constatou-se que o algoritmo ID3 não foi elaborado com este tratamento, o que gerou interrupção na avaliação do ID3 com uso de MV. Para aprendizagem de redes bayesianas optou-se pelo algoritmo B, disponível no UnBBayes, que implementa o paradigma de busca e pontuação. No algoritmo B a ordem das variáveis não é importante para a geração da rede. A construção de uma rede bayesiana (BN) através da aprendizagem gera uma topologia (qualitativa) S e um conjunto de parâmetros numéricos (quantitativa) θ. Nos testes com a métrica MDL constatou-se que a estrutura gerada é mais simples que com a métrica GHS e também mais rápida de se obter. A rede Naive Bayes é uma simplificação da BN na forma de uma árvore, que admite hipótese de independência de certos eventos probabilísticos. Ela assume que os valores das variáveis folhas os atributos são condicionalmente independentes dado um valor da variável raiz. Quando utilizada como um classificador, as variáveis folhas representam atributos e a variável raiz representa a classe ou alvo. No caso do MECA- Sinic foram gerados vinte modelos, cada um apontando para um dos dez dedos, procedimento que se repetiu nos grupos A e B. Redes neurais de múltiplas camadas utilizadas nesta pesquisa fizeram uso de um algoritmo de aprendizagem supervisionada chamado de algoritmo de retropropagação de erro que se baseia no método do gradiente descendente para a minimização do erro entre a saída da rede e a saída desejada [Haykin 2001]. Alguns parâmetros livres tiveram que ser ajustados para que o modelo final, com a melhor avaliação possível, fosse gerado. A ordem de ajuste destes parâmetros adotada nesta pesquisa para os grupos A e B foi: a. definição do número de épocas: 100 épocas; b. definição das taxas de aprendizagem η= 0.3 e α = 0.3, para o grupo A, e η= 0.5 e α = 0.1, para o grupo B; c. definição do tamanho da camada oculta, O = 5; d. validação do número de épocas, E = 100; e. geração dos modelos para cada dedo. Uma vez definido o ajuste de parâmetros necessário, foram gerados vinte modelos, ANN, correspondentes aos dez dedos das mãos para os grupos A e B. XXXII SEMISH 1951

Na avaliação do modelo neural combinatório, CNM, fez-se necessário ajuste em uns poucos parâmetros antes de se gerar os modelos finais com melhor percentual de PrCo, são eles: ordem máxima = 3, confiança mínima = 60% e suporte mínimo = 7%. A primeira etapa utilizou o arquivo de avaliação sem valores faltantes. Os valores utilizados na avaliação foram o TP (verdadeiro positivo) e a PrCo (Probabilidade de Concordância). A segunda etapa da avaliação foi feita como uso do arquivo de avaliação com diversas taxas (2%, 5%, 10%, 25% e 40%) de valores faltantes (MV). O cálculo de Probabilidade de Concordância para cada avaliação foi feito com o uso da Tabela 4, a seguir: Tabela 4. Cálculo da Probabilidade de Concordância Nessa tabela, os acumuladores da matriz de confusão geram os valores TP i, FP i e p i que fornecem os elementos do cálculo da PrCo (Equação 1). TP i e FP i foram calculados segundo a estratégia de um-contra-todos. Por exemplo, considere os valores para a classe 1. Na Tabela 4, p 1 = 2.424/120.198; TP 1 = 910/1.269 e FPi = (0+359+0+0)/(139+99.600+18.035+0) é a razão entre os valores preditos incorretamente para a classe 1 e a soma dos totais reais das demais classes. Em determinados casos, o valor calculado para PrCo pode ficar inferior a respectiva taxa de FP, como é o caso de diversos dedos na Figura 2, a seguir. Figura 2. Gráfico de Avaliação da ANN sem MV Para se avaliar o efeito de se tentar inferir dados com um certo percentual de valores faltantes em uma rede neural artificial com retropropagação - ANN foram escolhidos dois dedos: o melhor avaliado nos modelos (PE polegar esquerdo) e o pior avaliado (MD médio direito). Esta escolha visou criar um intervalo de avaliação que XXXII SEMISH 1952

simplificaria a visualização dos resultados. Estes dedos foram reavaliados com uso de cinco arquivos de avaliação com MV. Na avaliação ilustrada pelo gráfico da Figura 3, percebe-se que com a inserção de 40% de MV a avaliação do grupo A sofre um decréscimo de 10%. Na avaliação do grupo B o decréscimo variou entre 7 e 22% no valor de PrCo. Figura 3. Gráfico de Análise de Sensibilidade da ANN (BP) a MV O critério de avaliação de determinado modelo pelo cálculo da probabilidade de concordância (PrCo) mostrou-se ser mais adequado para a base MECA-Sinic. Um comparativo gráfico da avaliação dos modelos pode ser visto na Figura 4. Este gráfico aponta os algoritmos ID3, Naive Bayes e ANN com retropropagação como sendo os melhores. Porém, o ID3 não foi capaz de executar inferência com valor faltante (MV). E dentre o Naive Bayes e a ANN, esta obteve melhor resultado com valores faltantes. Figura 4. Gráfico Comparativo da PrCo para o Grupo B, sem MV Apesar da escolha pelo modelo de ANN com retropropagação (BP) como sendo o que melhor classifica um dedo a partir dos nove demais, tornou-se evidente a perda que existe quando da inserção de MV. Devido a esta característica do domínio, não ser um problema de classificação, optou-se pela utilização de uma estrutura largamente XXXII SEMISH 1953

utilizada na construção de modelos com algoritmos inteligentes, uma tabela de distribuição de freqüências de fórmulas (estrutura de dados denominada FreqForm). Esta estrutura foi utilizada para simplificar o esforço de busca de determinada combinação de dedos, além possuir crescimento com aceleração negativa à medida que novos registros são inseridos na base. Com o uso da estrutura de dados FreqForm a base MECA-Sinic só é acessada uma única vez durante a pesquisa para validar os filtros e extrair as RFs válidas. 3. A Aplicação Lupa Digital O termo Lupa Digital, representa uma ligação entre uma das principais ferramentas de trabalho no domínio da dactiloscopia, a lupa, e o termo digital de duplo sentido neste caso, que associa tanto os dedos quanto o significado digital empregado na computação. A linguagem JAVA foi escolhida devido à sua independência de plataforma (portabilidade), além de seguir o paradigma de orientação a objetos, o que facilita a inserção de novos recursos, a manutenção, reutilização de código e internacionalização. 3.1 Modelagem de Classes A linguagem de representação escolhida foi a UML ( Unified Modeling Language ). O Lupa Digital foi dividido em quatro pacotes, sendo eles: Pacote default: possui a classe Main, responsável pelo início da aplicação Lupa Digital. Sua única atribuição é invocar a classe Controlador do pacote AIM. Pacote AIM: Pacote ilustrado pelo diagrama de classes da Figura 5. Este pacote possui as principais classes da aplicação Lupa Digital que implementam as telas de consulta e as classes de pesquisa decadactilar. Pacote AIM.estruturas: Possui as classes que especificam as principais estruturas de dados a serem utilizadas na pesquisa decadactilar. Pacote AIM.util: Encarregado da impressão da lista de fórmulas para orientar a pesquisa manual no arquivo de individuais datiloscópicas - AID. Figura 5. Diagrama de Classes da aplicação Lupa Digital XXXII SEMISH 1954

3.2 Principais estruturas de dados FreqForm: composta pelas fórmulas extraídas da base FreqForm.dat, suas respectivas freqüências de classe (contador). Dedos: composta pelos principais atributos extraídos da base MECA-Sinic.dat; Provaveis: composta pelas fórmulas extraídas da estrutura FreqForm e suas respectivas freqüências de classe (contador). 3.3 Operação do Lupa Digital O Lupa Digital é iniciado com a execução do arquivo Lupa.jar, apresentando a tela inicial conforme Figura 6. Figura 6. Tela Inicial do Lupa Digital A opção de menu Arquivo > Pesquisa gera a tela de pesquisa decadactilar que se divide em quatro painéis, ilustrado na Figura 7: seleção da pesquisa: primeiro retângulo. Define o tipo de pesquisa; painel de digitação dos dedos e filtros: segundo retângulo; painel de botões: primeira elipse. Estes serão representados neste artigo pelo identificador dos mesmos, delimitado por colchetes, ex: [Filtros]; painel de status: delimitado na Figura 7 pela segunda elipse. Figura 7. Tela de Pesquisa do Lupa Digital XXXII SEMISH 1955

O uso de filtros é acionado pelo botão [Filtros] que habilita a área de opções de filtros no painel de digitação, conforme Figura 7. O uso dos filtros é admitido em qualquer tipo de consulta, aumentando a evidencia informada. Eles são acionados por Check box, admitindo qualquer combinação de um ou mais filtros de três atributos válidos: idade, cútis e sexo. A Figura 7 ilustra um exemplo de uso de filtros para o atributo cútis. Pesquisa Conhece Dedo Utilizada caso o especialista conheça a exata posição, nos dedos das mãos, das impressões digitais coletadas. Pesquisa Não Conhece Dedo Utilizada caso o especialista não conheça a exata posição, nos dedos das mãos, das impressões digitais coletadas. Deve-se escolher a opção de pesquisa que pode ser Aleatório, o default, ou Dedos da mesma mão. Aleatório: Deve-se digitar em qualquer ordem os tipos primários coletados nos campos sem identificação de dedos. A pesquisa, neste caso, é feita variando-se todas as possibilidades nas duas mãos. Dedos da mesma mão: Se a opção escolhida for Dedos da mesma mão então deve-se definir os valores de outros dois Combo box, são eles: o conhece a ordem dos dedos: tem-se como opção: sim, não ou contínuos; o Selecione a mão: neste campo, deve-se definir a mão alvo da pesquisa, com as opções: mão direita, mão esquerda ou ambas as mãos. Pesquisa Misto Utilizada caso o especialista conheça a exata posição, de alguns dedos das mãos, das impressões digitais coletadas, e, ao mesmo tempo, desconheça a posição de outras impressões coletadas. Saídas O Lupa Digital produz três tipos de saídas: telas de visualização, impressão e arquivo de RFs. Os RFs, registros federais, identificam de forma única criminosos no arquivo AID do INI. Tela de Visualização de Fórmulas Acionada após os algoritmos de pesquisa gerarem a lista de fórmulas que atendem o critério da pesquisa. Suponha que uma pesquisa cuja posição dos dedos é conhecida foi acionada, conforme ilustra a Figura 7. A primeira linha da área de rolagem do visualizador, Figura 8, define o percentual da base MECA-Sinic que atende ao critério de pesquisa, as evidências, especificado na Figura 7. A primeira coluna de todas as linhas corresponde a um contador de Fórmulas que servirá para auxiliar na divisão da tarefa de pesquisa no arquivo AID, manual. A segunda e terceira colunas correspondem às fórmulas que atenderam ao critério de pesquisa. A última coluna define a probabilidade condicional de uma determinada fórmula dado o critério de pesquisa. No exemplo da Figura 8 tem-se que a fórmula 4-3333/4-2232 possui a probabilidade 16,456%, que significa: dado o sub-conjunto de XXXII SEMISH 1956

0,016% do universo de pesquisa, a probabilidade da fórmula 4-3333/2-2232 corresponder aos dedos coletados é de 16,456%. Figura 8. Tela Visualizador de Fórmulas Os botões na parte inferior acionam o visualizador de impressão, a rotina de impressão e o visualizador de RFs. 4. Avaliação Destacam-se os aspectos quantitativos como a redução de tempo em uma pesquisa na base manual, o tempo de resposta da ferramenta e o ganho proporcionado pela mesma. Já os aspectos qualitativos referem-se à facilidade de uso da ferramenta e a obtenção de resultados antes impossíveis devido à complexidade do tipo de consulta [Oliveira, 2004]. Escolheu-se como ponto de partida para avaliação a situação mais simples de pesquisa que é inferir um dedo a partir da evidência dos outros nove. Para se calcular o ganho proporcionado pela ferramenta foi gerada uma planilha que quantificava o tempo gasto para pesquisar um determinado tipo primário (ex: arco) em certo dedo da mão. Esta quantidade é chamada genericamente nesta pesquisa de unidade de tempo UT, pois o tempo gasto por um dactiloscopista para uma determinada pesquisa pode ser diferente do tempo gasto por outro dactiloscopista para a mesma pesquisa. Desta forma, fez-se necessário a normalização destas unidades de tempo em uma única, a UT, para fins comparativos. A tabela gerada relaciona os dez dedos da mão com os sete tipos primários, nas células acumula-se o valor das UTs. As duas últimas linhas dessa tabela referem-se a dois percentuais de ganho de tempo para uma pesquisa realizada para a fórmula em destaque. Foram escolhidas duas fórmulas para se avaliar o ganho. A Tabela 5 refere-se à avaliação da fórmula: 4 4 4 4 4 4 4 4 4 4 O procedimento manual de busca no AID sempre começa da hipótese do tipo primário 1 e vai até o tipo 7, pois assim está organizado o AID. Neste caso, o resultado correto será sempre 4, ou seja, a busca pára neste valor. Chamou-se o percentual XXXII SEMISH 1957

acumulado até o ponto de parada de Ganho. A média do Ganho de tempo é de 44,51% para a fórmula acima. Tabela 5. Cálculo de Unidades de Tempo (UT) para a fórmula 4-4444/4-4444 A Tabela 6 documenta a avaliação de outra fórmula, composta de outros tipos primários, justificando a diferença de Ganho de tempo. 3 3 3 3 3 2 2 2 2 2 Tabela 6. Cálculo de Unidades de Tempo (UT) para a fórmula 3-3333/2-2222 Pela Tabela 6 percebe-se que com os tipos primários de menor ordem o Ganho médio de tempo também diminui (34,24%). Percebeu-se também que o ganho de tempo depende tanto do dedo como do tipo primário. Porém, independente da afirmativa anterior, sempre haverá maior ganho de tempo quanto maior for o número do tipo primário, pois esta é uma premissa da busca manual. Quanto à hipótese de se fazer a mesma simulação supondo a ausência de dois ou mais dedos pode-se afirmar ser de grande dificuldade a impossível. Ela torna-se difícil quando a quantidade de dedos em dúvida é baixa e impossível quando passar de cinco dedos. Manualmente esta tarefa é irrealizável, devido ao grande número de possibilidades. Entretanto, pode-se afirmar que sempre o ganho de tempo será maior quanto maior for a ausência dos dedos. Quanto ao ganho proporcionado pelo Lupa Digital nas pesquisas de dedos não posicionais como: aleatório, contínuos, dedos da mesma mão (com ordem conhecida, sem ordem conhecida), pode-se afirmar que se tratava de uma tarefa antes irrealizável. Além de se tornar realizável o Lupa Digital proporcionou um método de busca manual orientada focando apenas as fórmulas que atendem os critérios de pesquisa definidos na consulta. 5. Conclusão A ferramenta Lupa Digital atendeu às expectativas do DPF/INI otimizando as pesquisas realizadas com a evidência de sete ou mais dedos, viabilizando as pesquisas com XXXII SEMISH 1958

número inferior de dedos como evidência e possibilitando as pesquisas sem conhecimento de posição dos dedos, impraticáveis anteriormente. Seu desenvolvimento requereu o desenvolvimento de algoritmo específico para pesquisa decadactilar, pois não dá para se definir a priori a seleção das regras, visto que a inferência é feita de acordo com a consulta definida on-line. Adicionalmente, ela provê um meio de otimizar a pesquisa com o uso de uma solução AFIS, adquirida recentemente pela DPF, pois o arquivo com a lista de RFs gerada reduz em muito o universo de busca, ao mesmo tempo em que orienta a ordem de pesquisa neste. A aplicabilidade da ferramenta Lupa Digital extrapola o âmbito do DPF/INI, podendo ser utilizada em outros serviços de segurança pública, bastando para a isso, obviamente, o preparo dos arquivos de entrada para enriquecer a base existente com dados locais. Agradecimentos Essa pesquisa foi realizada com apoio parcial dos programas CAPES/PROCAD e CAPES/GRICES. Referências Agrawal, R., Imielinski, T. and Swami, A. (1993) Mining Association Rules Between Sets of Itens in Large Databases. Proc. 1993 Int. Conf. Management of Data (SIGMOD-93), 207-216. Gomes, Hélio. (1993). Medicina Legal (30 a Ed.). Rio de Janeiro: Freitas Bastos. Haykin, Simon. (2001) Redes Neurais: Princípios e Prática. Bookman, 2.ed., trad. Paulo Martins Engel. INI (1987). Identificação Papiloscópica. Brasília: Instituto Nacional de Identificação DPF (uso interno). Oliveira, M. G., Ladeira, M., Araújo, M. E. C. (2004). LUPA DIGITAL: Uma Ferramenta para Otimização de Busca de Impressões Digitais. In: Anais do I Congresso Internacional de Crimes Cibernéticos - ICCyber 2004. Brasília. Prado, H. A.; Machado, K. F.; Frigeri, S. R.; Engel, P. M. (1999) Data Mining Using Combinatorial Neural Model. Revista Tecnologia da Informação, Brasília - DF, v.01, Nro. 1, p. 17-22. Silva, Wagner T., Ladeira, Marcelo, (2002) Mineração de Dados em Redes Bayesianas. In: Congresso da Sociedade Brasileira de Computação, 19.; Jornada de Atualização em Informática, 2002, Rio de Janeiro. Anais. SPSS Inc., NCR Systems Engineering Copenhagen & DaimlerChrysler AG (1999). CRISP-DM 1.0 Step-by-step Data Mining Guide. SPSS & CRISP-DM Consortium. (Disponível em www.crisp-dm.org/crispwp-0800.pdf. Acesso em 05/03/2005). XXXII SEMISH 1959