FUNDAÇÃO GETULIO VARGAS ESCOLA DE ECONOMIA DE SÃO PAULO



Documentos relacionados
TÓPICOS AVANÇADOS EM ENGENHARIA DE SOFTWARE

5 Conclusões e Recomendações

6 Construção de Cenários

Capítulo 3. Avaliação de Desempenho. 3.1 Definição de Desempenho

Projeto Supervisionado

Correlação e Regressão Linear

DESENVOLVIMENTO DE UM SOFTWARE NA LINGUAGEM R PARA CÁLCULO DE TAMANHOS DE AMOSTRAS NA ÁREA DE SAÚDE

Podemos encontrar uma figura interessante no PMBOK (Capítulo 7) sobre a necessidade de organizarmos o fluxo de caixa em um projeto.

dissertação. 2 Credibilidade total, em linhas gerais, seria a capacidade de representar o comportamento

Tecnologia em Gestão Pública Desenvolvimento de Projetos - Aula 9 Prof. Rafael Roesler

1. Avaliação de impacto de programas sociais: por que, para que e quando fazer? (Cap. 1 do livro) 2. Estatística e Planilhas Eletrônicas 3.

4 Avaliação Econômica

ESTUDO DE VIABILIDADE. Santander, Victor - Unioeste Aula de Luiz Eduardo Guarino de Vasconcelos

Universidade Tecnológica Federal do Paraná UTFPR Programa de Pós-Graduação em Computação Aplicada Disciplina de Mineração de Dados

Construção de Modelos de Previsão de Risco de Crédito Utilizando Técnicas de Estatística Multivariada

MRP II. Planejamento e Controle da Produção 3 professor Muris Lage Junior

Fraudes No Varejo Virtual: O Que Aprendemos na Submarino - Maio/04

Roteiro para a escrita do documento de Especificação de Requisitos de Software (ERS)

MÓDULO 6 INTRODUÇÃO À PROBABILIDADE

PLANEJAMENTO OPERACIONAL: RECURSOS HUMANOS E FINANÇAS MÓDULO 16

PRIMAVERA RISK ANALYSIS

5 CONSIDERAÇÕES FINAIS. 5.1 Conclusão

5 Extraindo listas de produtos em sites de comércio eletrônico

Modelagem da Venda de Revistas. Mônica Barros. Julho de

Exercícios Teóricos Resolvidos

QFD: Quality Function Deployment QFD: CASA DA QUALIDADE - PASSO A PASSO

4 Segmentação Algoritmo proposto

Mídias sociais como apoio aos negócios B2C

Capítulo 7 Medidas de dispersão

Introdução. 1.1 Histórico

GARANTIA DA QUALIDADE DE SOFTWARE

Módulo 4. Construindo uma solução OLAP

Curso superior de Tecnologia em Gastronomia

Gerenciamento de Projetos Modulo II Ciclo de Vida e Organização do Projeto

Curva ROC. George Darmiton da Cunha Cavalcanti Tsang Ing Ren CIn/UFPE

CAP. 2 CONSIDERAÇÕES SOBRE OS CRITÉRIOS DE DECISÃO

MINERAÇÃO DE DADOS APLICADA. Pedro Henrique Bragioni Las Casas

QUALIDADE DE SOFTWARE. Ian Sommerville 2006 Engenharia de Software, 8ª. edição. Capítulo 27 Slide 1

NBC TSP 10 - Contabilidade e Evidenciação em Economia Altamente Inflacionária

PLANOS DE CONTINGÊNCIAS

Seção 2/E Monitoramento, Avaliação e Aprendizagem

Roteiro SENAC. Análise de Riscos. Planejamento do Gerenciamento de Riscos. Planejamento do Gerenciamento de Riscos

Modelagem e Simulação

ATIVIDADES DE LINHA E DE ASSESSORIA

Estratégia de Manutenção em Oficinas utilizando Caminho Critico

Gerenciamento de Projeto: Planejando os Recursos. Prof. Msc Ricardo Britto DIE-UFPI

Filosofia e Conceitos

Professor Severino Domingos Júnior Disciplina: Gestão de Compras e Estoques no Varejo

ENGENHARIA DE SOFTWARE I

Avaliando o que foi Aprendido

Solitaire Interglobal

O que é a estatística?

Espaço Amostral ( ): conjunto de todos os

Exemplo de Aplicação do DataMinig

Complemento II Noções Introdutória em Redes Neurais

)HUUDPHQWDV &RPSXWDFLRQDLV SDUD 6LPXODomR

PROCESSO DE DESENVOLVIMENTO DE SOFTWARE. Modelos de Processo de Desenvolvimento de Software

Manutenção de Domicílio Bancário no Mercado de Cartões

Preparando sua empresa para o forecasting:

Planejamento Estratégico de TI. Prof.: Fernando Ascani

Orientação a Objetos

PÓS GRADUAÇÃO EM CIÊNCIAS DE FLORESTAS TROPICAIS-PG-CFT INSTITUTO NACIONAL DE PESQUISAS DA AMAZÔNIA-INPA. 09/abril de 2014

Gestão de Relacionamento com o Cliente CRM

c. Técnica de Estrutura de Controle Teste do Caminho Básico

Arquitetura de Rede de Computadores

A presente seção apresenta e especifica as hipótese que se buscou testar com o experimento. A seção 5 vai detalhar o desenho do experimento.

Programa de Pós-Graduação em Comunicação e Cultura Contemporâneas. Grupo de Pesquisa em Interação, Tecnologias Digitais e Sociedade - GITS

3 Classificação Resumo do algoritmo proposto

Referências internas são os artefatos usados para ajudar na elaboração do PT tais como:

Texto para Coluna do NRE-POLI na Revista Construção e Mercado Pini Abril 2012

3 Qualidade de Software

Análise Exploratória de Dados

Métodos Matemáticos para Gestão da Informação

UNIVERSIDADE FEDERAL DO ESPÍRITO SANTO CENTRO UNIVERSITÁRIO NORTE DO ESPÍRITO SANTO DISCIPLINA: ECONOMIA DA ENGENHARIA

RESOLUÇÃO CFC Nº /09. O CONSELHO FEDERAL DE CONTABILIDADE, no exercício de suas atribuições legais e regimentais,

Gerenciamento de Riscos do Projeto Eventos Adversos

Engenharia de Software III

Do neurônio biológico ao neurônio das redes neurais artificiais

Estudo da Viabilidade da utilização de Cartão de Crédito para um Grupo de Clientes Essenciais

ROTEIRO PARA ELABORAÇÃO DE PROJETOS

FLUXO DE CAIXA: Módulo BI (Business Intelligence)

Modelagem e Simulação Material 02 Projeto de Simulação

ISO 9000:2000 Sistemas de Gestão da Qualidade Fundamentos e Vocabulário. As Normas da família ISO As Normas da família ISO 9000

Você sabia que... O pagamento numa loja virtual. Guia #6 Como as formas de pagamento podem interferir nas minhas vendas

Banco do Brasil S.A. Consulta ao Mercado - RFP - Request for Proposa Aquisição de Ferramenta de Gestão de Limites Dúvida de Fornecedor

3 a Lista de Exercícios

Figura 5.1.Modelo não linear de um neurônio j da camada k+1. Fonte: HAYKIN, 2001

CAPÍTULO 2 MATEMÁTICA FINANCEIRA

Jogos. Redes Sociais e Econômicas. Prof. André Vignatti

3 Metodologia e Objeto de estudo

Simulação Computacional de Sistemas, ou simplesmente Simulação

Programação Orientada a Objetos Herança Técnico em Informática. Prof. Marcos André Pisching, M.Sc.

5 Análise prospectiva dos investimentos das EFPC

Regressão logística na identificação de factores de risco em acidentes automóveis e fraude de seguros.

Protocolo em Rampa Manual de Referência Rápida

UM CONCEITO FUNDAMENTAL: PATRIMÔNIO LÍQUIDO FINANCEIRO. Prof. Alvaro Guimarães de Oliveira Rio, 07/09/2014.

Análise e Desenvolvimento de Sistemas ADS Programação Orientada a Obejeto POO 3º Semestre AULA 03 - INTRODUÇÃO À PROGRAMAÇÃO ORIENTADA A OBJETO (POO)

A função do primeiro grau

Transcrição:

FUNDAÇÃO GETULIO VARGAS ESCOLA DE ECONOMIA DE SÃO PAULO JHONATA EMERICK RAMOS REDES BAYESIANAS APLICADAS À MODELAGEM DE FRAUDES EM CARTÃO DE CRÉDITO SÃO PAULO 2015

JHONATA EMERICK RAMOS REDES BAYESIANAS APLICADAS À MODELAGEM DE FRAUDES EM CARTÃO DE CRÉDITO Dissertação apresentada ao Programa de Mestrado Profissional da Escola de Economia de São Paulo, da Fundação Getulio Vargas, como parte dos requisitos para a obtenção do título de Mestre em Economia, linha de pesquisa: Finanças Quantitativas. Orientador: Prof. Dr. Afonso de Campos Pinto SÃO PAULO 2015

Ramos Emerick, Jhonata. Redes Bayesianas aplicadas à modelagem de fraudes em cartão de crédito / Jhonata Emerick Ramos 2015. 59 f. Orientador: Prof. Dr. Afonso de Campos Pinto. Dissertação (MPFE) Escola de Economia de São Paulo. 1. Cartões de crédito Medidas de segurança. 2. Fraude. 3. Teoria bayesiana de decisão estatística. I. Pinto, Afonso de Campos. II. Dissertação (MPFE) - Escola de Economia de São Paulo. III. Título. CDU 336.714

JHONATA EMERICK RAMOS REDES BAYESIANAS APLICADAS À MODELAGEM DE FRAUDES EM CARTÃO DE CRÉDITO Dissertação apresentada ao Programa de Mestrado Profissional da Escola de Economia de São Paulo, da Fundação Getulio Vargas, como parte dos requisitos para a obtenção do título de Mestre em Economia, linha de pesquisa: Finanças Quantitativas. Data da Aprovação: 21 / 08 / 2015 Banca Examinadora: Prof. Dr. Afonso de Campos Pinto (Orientador) Fundação Getulio Vargas Prof. Dr. Juan Carlos Ruilova Terán Fundação Getulio Vargas Prof. Dr. Flavio Almeida de Magalhães Cipparrone POLI-USP

Agradecimentos Ao professor Dr. Afonso de Campos Pinto pela orientação, apoio e incentivo durante a realização deste trabalho, bem como pela paciência nos percalços encontrados, ao final da caminhada. À minha esposa Ivi Prado e à pequena Isabella Prado pela compreensão nos momentos de ausência. Aos amigos Davi Kobayashi e Cláudio de Nardi Queiroz pelas contribuições a este trabalho. Aos parceiros Luiz Tomazella e Andre Kobayashi pela ajuda com algumas ferramentas que fizeram a diferença. À minha família e aos meus amigos, que são a família que podemos escolher.

"Embora ninguém possa voltar atrás e fazer um novo começo, qualquer um pode recomeçar e fazer um novo fim" Chico Xavier

RESUMO Modelos para detecção de fraude são utilizados para identificar se uma transação é legítima ou fraudulenta com base em informações cadastrais e transacionais. A técnica proposta no estudo apresentado, nesta dissertação, consiste na de Redes Bayesianas (RB); seus resultados foram comparados à técnica de Regressão Logística (RL), amplamente utilizada pelo mercado. As Redes Bayesianas avaliadas foram os classificadores bayesianos, com a estrutura Naive Bayes. As estruturas das redes bayesianas foram obtidas a partir de dados reais, fornecidos por uma instituição financeira. A base de dados foi separada em amostras de desenvolvimento e validação por cross validation com dez partições. Naive Bayes foram os classificadores escolhidos devido à simplicidade e a sua eficiência. O desempenho do modelo foi avaliado levando-se em conta a matriz de confusão e a área abaixo da curva ROC. As análises dos modelos revelaram desempenho, levemente, superior da regressão logística quando comparado aos classificadores bayesianos. A regressão logística foi escolhida como modelo mais adequado por ter apresentado melhor desempenho na previsão das operações fraudulentas, em relação à matriz de confusão. Baseada na área abaixo da curva ROC, a regressão logística demonstrou maior habilidade em discriminar as operações que estão sendo classificadas corretamente, daquelas que não estão. Palavras-chave: Redes bayesianas, Detecção de fraudes, Fraudes com cartão de crédito, Machine Learning

ABSTRACT For fraud detection models are used to identify whether a transaction is legitimate or fraudulent based on registration and transactional information. The proposal on technical study presented in this thesis consists in the Bayesian Networks (BN); their results were compared to logistic regression technique (RL), widely used by the market. Bayesian classifiers were evaluated, with the Naive Bayes structure. The structures of Bayesian networks were obtained from actual data, provided by a financial institution. The database was divided into samples development and validation by cross validation ten partitions. Naive Bayes classifiers were chosen due to the simplicity and efficiency. The model performance was evaluated taking into account the confusion matrix and the area under the ROC curve. The analyzes of performance models revealed slightly higher than the logistic regression compared to bayesian classifiers. Logistic regression was chosen as the most appropriate model for performed better in predicting fraudulent operations, compared to the confusion matrix. Based on area under the ROC curve, logistic regression demonstrated greater ability to discriminate the operations being classified correctly, those that are not. Keywords: Bayesian Networks, Fraud Detection,Credit Cards Fraud, Machine Learning

Lista de ilustrações Figura 1 Exemplo de grafo.............................. 19 Figura 2 Exemplo de grafo direcionado acíclico (esquerda) e cíclico (direita)... 20 Figura 3 Exemplo de grafo não direcionado..................... 20 Figura 4 Exemplo de Rede Bayesiana aplicada em Credit Scoring........ 22 Figura 5 RB após a inferência com a variável X 2 evidenciada com X 2 = x 21.Fonte: Queiroz (2008)............................... 25 Figura 6 Estrutura do classificador Naive Bayes com três atributos e uma classe 26 Figura 7 Frequência de CHD por faixas de idade. Fonte: Hosmer e Lemeshow (2000).................................... 28 Figura 8 Gráfico de proporção de indivíduos com problemas cardíacos versus o grupo de idade. Fonte: Hosmer e Lemeshow (2000)........... 29 Figura 9 Exemplo de uma Curva ROC....................... 33 Figura 10 Cálculo da área abaixo da Curva ROC.Fonte: Martinez, Louzada-Neto e Pereira (2003).............................. 35 Figura 11 Resumo da metodologia aplicada..................... 38 Figura 12 Árvore de classificação CHAID gerada pelo software IBM SPSS, utilizandose a variável preditora sexo e a variável resposta............ 40 Figura 13 Trecho da estrutura da RB do classificador Naive Bayes com filtragem pelo ganho de informação......................... 52

Lista de tabelas Tabela 1 Probabilidades e distribuição de sexo................... 23 Tabela 2 Probabilidades e distribuição de idade.................. 23 Tabela 3 Probabilidades condicionais de créditos anteriores dado sexo e idade.. 23 Tabela 4 Probabilidades condicionais de Credit Rating dado Créditos Anteriores 23 Tabela 5 Probabilidades de X 3 condicionais aos estados de seus pais (X 1 ex 2 ).. 25 Tabela 6 Probabilidades de X 1............................ 25 Tabela 7 Probabilidades de X 2............................ 25 Tabela 8 Frequência de CHD por faixas de idade. Fonte: Hosmer e Lemeshow (2000).................................... 29 Tabela 9 Exemplo de matriz de confusão...................... 32 Tabela 10 Variáveis contidas na base de dados.................... 39 Tabela 11 Exemplo de tabela de contingência. Fonte: Vasconcellos (2002)..... 41 Tabela 12 Taxas de acerto das operações genuínas, das operações fraudulentas, área abaixo da curva ROC e número de variáveis dos modelos de regressão logística............................. 49 Tabela 13 Estimativa dos coeficientes do modelo de regressão logística para algumas variáveis................................ 50 Tabela 14 Algumas variáveis preditoras, ordenadas pela sua contribuição individual para o ganho de informação à variável resposta............. 51 Tabela 15 Taxas de acerto das operações genuínas, das operações fraudulentas, área abaixo da curva ROC e número de variáveis dos classificadores Naive Bayes................................. 52 Tabela 16 Probabilidades das operações se tornarem fraudulentas (ou não), dada a observação de cada variável preditora, isoladamente.......... 53 Tabela 17 Taxas de acerto das operações genuínas, das operações fraudulentas, área abaixo da curva ROC e número de variáveis para ambos os modelos 53

Lista de abreviaturas e siglas 1 RB - Redes Bayesianas... 2 RL - Regressão Logística... 3 RN - Redes Neurais... 4 CB - Classificadores Bayesianos... 5 NB - Naive Bayes... 6 SVM - Support Vector Machines... 7 DAG - Directed Acyclic Graph... 8 TAN - Tree Augmented Naive Bayes... 9 GBN - General Bayesian Network... 10 TAG - Taxa de acerto das operações genuínas... 11 TAF - Taxa de acerto das operações fraudulentas...

Sumário 1 Introdução.................................... 12 1.1 Motivação.................................... 12 1.2 Objetivos.................................... 13 1.3 Estrutura do trabalho............................. 13 2 Revisão Bibliográfica............................... 15 3 Revisão Teórica.................................. 19 3.1 Grafos...................................... 19 3.2 Redes Bayesianas................................ 20 3.2.1 Inferência em Redes Bayesianas.................... 24 3.3 Classificador Naive Bayes........................... 25 3.4 Regressão Logística............................... 27 3.5 Formas de mensurar resultados........................ 30 3.5.1 Matriz de confusão........................... 31 3.5.2 Curva ROC............................... 33 3.6 Aplicação.................................... 34 4 Metodologia.................................... 37 4.1 Base de dados.................................. 37 4.2 Discretização das variáveis........................... 39 4.3 Seleção das variáveis.............................. 44 4.4 Amostras de treinamento e validação..................... 46 4.5 Ferramentas................................... 46 5 Resultados..................................... 48 5.1 Regressão Logística............................... 48 5.2 Classificador Naive Bayes............................ 51 5.3 Comparação dos Modelos de Classificação.................. 53 6 Conclusões.................................... 55 Referências...................................... 57

12 1 Introdução 1.1 Motivação A utilização de Redes Bayesianas (RB) vem crescendo em diversas áreas. Elas podem ser construídas com base no conhecimento de especialistas, ou em algoritmos de aprendizagem que inferem as relações entre as variáveis do domínio, tendo-se por base o conjunto de dados de treinamento. Os modelos de detecção de fraudes são utilizados para estimar a probabilidade de uma transação ser genuína, ou fraudulenta, no momento de sua realização, levando em consideração informações da própria transação, além de informações cadastrais do cliente. Essa probabilidade obtida constitui estimativa do risco da operação ser uma fraude e deve ser utilizada na decisão de aprovar (ou não) a transação, a partir de um ponto de corte, acima do qual a operação é classificada como fraudulenta, passando, em alguns casos, por uma análise manual. Atualmente, os modelos de detecção de fraudes são considerados ferramentas essenciais para qualificar as operações de vendas baseadas em cartão de crédito, em especial as que ocorrem sem a presença física do comprador. O uso desses modelos permite que a aprovação, ou não seja feita de forma objetiva, padronizada, imparcial e na velocidade necessária, normalmente em segundos. Esses modelos estão inseridos no ciclo de relacionamento com o cliente, aumentando, assim, a responsabilidade dos mesmos. Um exemplo clássico refere-se ao cliente que decide comprar um presente para um ente querido no e-commerce de uma grande rede de varejo e, 48 horas depois, recebe um e-mail dizendo que a compra não foi aprovada por alguma divergência nos dados cadastrais. O cartão de crédito constitui instrumento muito visado pelos fraudadores, pois em poucos minutos, tem-se, por meio deste, a circulação de grandes quantias, que podem ser roubadas, uma vez que o crime normalmente só é descoberto pela instituição algumas semanas depois. Atividades fraudulentas ocorrem todos os dias nas mais diversas áreas, tais como: telecomunicações em geral, bancos online, e-commerce etc. O número de fraudes tem aumentado, drasticamente com a expansão da tecnologia e da comunicação de forma global, resultando em substanciais perdas. Consequentemente, a detecção de fraude tornou-se um desafio importante a ser explorado. A decisão sobre a legitimidade de uma operação, ou não em transação de cartão de

Capítulo 1. Introdução 13 crédito é fundamental para o resultado da empresa/instituição, já que o mesmo está diretamente ligado ao número de operações genuínas e fraudulentas que são aprovadas/negadas e ao custo para avaliar operações duvidosas. 1.2 Objetivos Quando instituições perdem dinheiro, devido às fraudes com cartões de crédito, os portadores dos cartões pagam parte dessa perda por meio de altas taxas de juros, altas taxas de anuidade e menos benefícios. Assim, tanto a instituição financeira quanto os portadores dos cartões têm interesse em reduzi-las. Detecção de fraudes envolve identificar a fraude o mais rápido possível, já que os métodos de prevenção não funcionaram adequadamente. A proposta desse trabalho é, a partir de um conjunto de dados reais, propor um procedimento por meio do uso de RB para classificar operações de cartão de crédito de acordo com o seu risco de fraude. As RB avaliadas foram os classificadores bayesianos (CB) com as estruturas Naive Bayes (NB); os resultados foram comparados com os obtidos por meio de um modelo de regressão logística (RL). Ao se procurar por pesquisas com fraudes, envolvendo cartões de crédito, duas dificuldades são citadas em Maes et al. (2002) para o desenvolvimento de novos métodos de detecção: Dificuldade de se obter base de dados com transações reais; A pouca troca de informação de resultados, obtidos em pesquisas, por se tratar de uma informação muito sensível a qualquer organização. Esse estudo é um dos primeiros a comparar o desempenho dos métodos de RB e RL, na detecção de fraudes de cartão de crédito com um conjunto de dados reais aplicados ao mercado brasileiro. 1.3 Estrutura do trabalho Esse trabalho é dividido em seis capítulos. No segundo, realiza-se a revisão bibliográfica de Redes Bayesianas, dos Classificadores Bayesianos, da Regressão Logística e das Redes Bayesianas aplicadas à análise de fraude. No terceiro capítulo, são apresentados os aspectos teóricos acerca de cartões de crédito, grafos, Redes Bayesianas, inferência e classificação em Redes Bayesianas, Regressão Logìstica, formas de mensurar resultados. No capítulo quatro, descreve-se a metodologia empregada para a obtenção do processo de detecção de fraude, dividido em: base de dados, seleção de variáveis, amostras de treinamento e validação, softwares utilizados. Já no quinto capítulo, são apresentados

Capítulo 1. Introdução 14 e comparados os resultados obtidos a partir do uso dos Classificadores bayesianos e da aplicaçação do método da Regressão Logística. No último capítulo, apresentam-se as principais conclusões e algumas sugestões para trabalhos futuros.

15 2 Revisão Bibliográfica Segundo Delamaire, Abdou e Pointon (2009), fraude consiste na obtenção de serviços/bens e/ou dinheiro por meios antiéticos. Trata-se de um problema crescente em todo o mundo. A fraude lida com casos criminosos que, geralmente, são difíceis de identificar, e tem o cartão de crédito um de seus principais alvos. Segundo Maes et al. (2002), os dois principais motivos que impedem mais avanços nessa área de pesquisa são a falta de literatura que forneça resultados experimentais e a falta de informações reais para os pesquisadores. O combate à fraude é um problema difícil do ponto de vista da modelagem estatística, pois há o desbalenceamento entre o número de operações legais e fraudulentas. Além disso, segundo Phua et al. (2010), a falta de uma base de dados pública com informações reais implica na falta de diversos métodos estudados e testados, e, consequentemente, um baixo número de publicações sobre o tema. Para Bolton e Hand (2002), a fraude está aumentando drasticamente com a expansão da tecnologia moderna e com o aumento das redes globais de comunicação, resultando na perda de bilhões de dólares em todo o mundo, anualmente. Embora as tecnologias de prevenção sejam a melhor maneira de reduzir a fraude, os fraudadores são adaptáveis e, com o tempo, geralmente encontram formas de contornar tais tecnologias. Metodologias de detecção são essenciais para evitar fraudes, já que a camada de prevenção pode ter falhado. Estatística e aprendizagem de máquina fornecem tecnologias eficazes e têm sido aplicadas com sucesso para detectar atividades como lavagem de dinheiro, fraudes em e-commerce, com cartão de crédito, em telecomunicações, dentre outros. De acordo com dados da Serasa-Experian, JORNAL (2015), em março/2015, ocorreram mais de 183 mil tentativas de fraudes contra os consumidores. Isso significa que, a cada 14 segundos, um brasileiro foi vítima de fraude com cartões ou cheques no país. É o maior número desde 2003, momento em que a pesquisa passou a ser realizada. Assim, modelos de detecção de fraudes se tornaram uma ferramenta fundamental para a gestão de risco. Embora existam mecanismos de prevenção desenvolvidos, por exemplo CHIP e PIN, estes não impedem os tipos de fraude mais comuns, tais como usos fraudulentos de cartões de crédito em terminais de POS 1 virtuais, que ocorrem por meio da internet. Como resultado, a detecção de fraudes é a ferramenta essencial e, provavelmente, a melhor maneira de deter esses tipos de ação (Sahin e Duman (2011)). Embora cartões de crédito sejam um dos mais famosos alvos de fraude, não é o único. A fraude pode ocorrer com qualquer tipo de produto de crédito, tais como empréstimos 1 POS - Point Of Service, terminais físicos que realizam as transações entre lojistas e clientes

Capítulo 2. Revisão Bibliográfica 16 pessoais, empréstimos imobiliários etc.. Além disso, a face da fraude mudou muito nas últimas décadas, tal qual a tecnologia (Delamaire, Abdou e Pointon (2009)). Várias técnicas são utilizadas para modelagem de fraudes. Kou et al. (2004) descrevem as RN como uma ferramenta muito utilizada e popular, porém de difícil implementação devido a falta de dados disponíveis. Maes et al. (2002) comparam o desempenho de RB e RN para a detecção de fraudes com cartão de crédito. Nesta comparação, as RB obtiveram melhores resultados com relação à detecção de fraudes e menor período de treinamento, porém o processo de classificação ocorre mais rapidamente com as RN. Dessa forma as RB se apresentam como uma excelente alternativa aos métodos mais tradicionais. Assim, opta-se, neste trabalho por testar o uso das RB em uma base com dados reais de transações do mercado brasileiro. Segundo Sahin e Duman (2011), alguns dos métodos de detecção de fraude mais utilizados são: RN, Árvores de decisão, Support Vector Machines (SVM) e RL. Os autores comparam o desempenho das RN com RL, utilizando um conjunto de dados reais. Como resultado, as RN apresentaram melhor desempenho. Bobbio et al. (2001) citam duas linhas de utilização das RB em análises quantitativas: análise preditiva, na qual as probabilidades de ocorrência de qualquer nó da rede são calculadas, baseadas na probabilidade a priori dos nós raizes e na probabilidade condicional de cada nó. A segunda linha constitui uma análise backward mais padrão, que utiliza a probabilidade a posteriori de um conjunto de variáveis dada uma observação (a evidência), representada como instanciação de algumas variáveis, para um dos seus valores admissíveis. Do ponto de vista estatístico, o problema de análise de fraude por uma instituição é um problema de classificação. Consoante Suman (2013), inúmeras técnicas já foram aplicadas na detecção de fraudes com cartão de crédito: RN, algoritmos genéticos, RL, árvore de decisão, RB, modelos de Markov. Na literatura, há várias pesquisas que comparam as aplicações dessas diferentes técnicas e alguns desses estudos são citados a seguir. Chaudhary, Yadav e Mallick (2012) fazem uma revisão das principais técnicas utilizadas na detecção de fraudes com cartão de crédito. A RL é útil para situações em que se busca ser capaz de prever a presença, ou ausência de uma característica ou o resultado com base em valores de um conjunto de variáveis preditoras. Isto é semelhante a um modelo de regressão linear, mas é adequado para modelos em que a variável dependente é binária. Gadi (2008) faz a comparação de cinco métodos de classificação aplicados ao mesmo problema: árvores de decisão (DT), redes neurais (NN), redes bayesianas (BN), Naive Bayes e Sistemas imunológicos artificiais (AIS). De acordo com o estudo, DT e AIS obtiveram melhores resultados que os demais, enquanto BN se mostrou como um melhor método para detecção de fraude quando comparado a NN.

Capítulo 2. Revisão Bibliográfica 17 Sharifi, Fink e Carbonell (2011) utilizam regressão logística para detecção de informações maliciosas na internet (internet scam) em que, intencionalmente, uma informação é postada com objetivo de se obter vantagens financeiras ou informações confidenciais. Segundo o artigo, os experimentos revelam que a precisão da técnica desenvolvida é de 98%. Um outro setor, em que a sobrevivência deste depende de formas efetivas de prevenção e detecção de fraudes, é a indústria de seguros. Viaene et al. (2002) fazem uma comparação de várias técnicas, para a detecção de fraudes em seguros de autómovel. Segundo os autores, técnicas relativamente simples e eficientes como a regressão logística e Support Vector Machines (SVM) demonstraram excelente capacidade de previsão, Naive Bayes também obteve um bom desempenho. Um dos mais efetivos classificadores bayesianos, quando se compara a performance preditiva deles com outros classificadores, constitui o Naive Bayes (Friedman, Geiger e Goldszmidt (1997)). Além disso, esses classificadores possuem a hipótese que todos os atributos são independentes, em relação à classe. Desta forma, apesar de existirem vários classificadores bayesianos (CB): Naive Bayes (NB), Tree Augmented Naive Bayes (TAN) e General Bayesian Network (GBN), neste trabalho, serão descritos e utilizados os classificadores Naive Bayes. Por meio de análise comparativa dos CB, Karcher (2009), escolheu o classificador TAN com aprendizado de estrutura, empregando a medida Bayes, tendo como justificativa o melhor desempenho nas previsões dos clientes "maus"pagadores. Boutilier et al. (1996) destacam o método chamado Tree Augmented Naive Bayes (TAN) que supera Naive Bayes, mas, que ao mesmo tempo, mantém a simplicidade computacional e robustez que o caracterizam. Devido à estrutura desbalanceada dos bancos de dados de fraude, Moraes (2008) sugeriu o uso do modelo logito limitado. Por meio das aplicações, a autora conclui que, para conjuntos de dados extremamente desbalanceados, não é recomendável o uso de uma amostra balanceada para a estimação dos parâmetros do modelo. Segundo Maes et al. (2002) um sistema de detecção de fraude, para obter bons resultados precisa possuir algumas características, quais sejam: O sistema deve ser capaz de lidar com distribuições assimétricas, uma vez que apenas uma pequena porcentagem de todas as transações de cartão de crédito é fraudulenta; A capacidade do sistema em tratar ruídos. Ruídos em dados reais, por exemplo, datas incorretas limitam a precisão de generalização que pode ser alcançada com o modelo. Independe do tamanho do conjunto usado no treinamento da RB;

Capítulo 2. Revisão Bibliográfica 18 Sobreposição de dados. Muitas transações parecem com uma transação fraudulenta, quando, na verdade, são legítimas.além disso, acontece, quando uma transação fraudulenta parece ser legítima; Os sistemas devem ser capazes de se adaptar a novos tipos de fraude. Passado um certo tempo, as técnicas de fraude, que antes conseguiam ter sucesso, passam a ter uma queda na sua eficiência, devido ao fato de que elas se tornam bem conhecidas; Necessidade de boas métricas para avaliação do sistema de detecção de fraude. Como exemplo, a precisão global não é adequada para a avaliação em uma distribuição assimétrica, uma vez que, mesmo com uma precisão muito elevada, quase todas as operações fraudulentas podem ser classificadas erroneamente; O sistema deve fazer um balanço entre o custo associado à fraude e o custo associado a evitar aquela fraude. Por exemplo, gastar muitos doláres para evitar uma fraude de alguns doláres. As RB têm apresentado inúmeras aplicações nas mais diversas áreas. Na financeira, Queiroz (2008) e Adusei-Poku (2005) as utilizam no gerenciamento e mensuração de riscos operacionais. Já Plentz et al. (2003) fazem uso para detecção de mudança no comportamento em dados de telefonia, possibilitando, por exemplo, identificar possíveis celulares que foram clonados. Karcher (2009) faz uso das RB aplicadas à análise do risco de crédito, comparando os resultados com o tradicional método de RL, que é a técnica mais aplicada em Credit Scoring. Guillen et al. (2002) utilizam o modelo de regressão logística para prever a probabilidade do cliente cancelar seu seguro. Uma das contribuições deste trabalho está na análise dos resultados da comparação entre duas técnicas: a tradicional RL e CB com estrutura Naive Bayes, usando um banco de dados com transações reais. Além disso, também são testados métodos de seleção de variáveis, Stepwise para RL e filtragem pelo ganho de informação para os CB. A Categorização de variáveis contínuas, baseada na análise bivariada entre as variáveis preditoras e a variável resposta, complementa este trabalho.

19 3 Revisão Teórica Nesse capítulo são descritos os principais conceitos de toda a teoria envolvida para o desenvolvimento desse trabalho. O conhecimento teórico é fundamental para o correto entendimento dos CB, que são RB aplicadas a problemas de classificação de dados. Na seção 3.1, apresenta-se a teoria dos grafos, que constituem a estrutura de uma RB. Na seção 3.2, as RB são formalmente definidas. Na seção 3.3, descreve-se o processo de classificação em RB. Na seção 3.4, apresenta-se o modelo de RL. Na seção 3.5, apresenta-se as medidas utilizadas para a avaliação dos modelos de classificação. Por fim, na seção 3.5, discutem-se aspectos teóricos e práticos dos cartões de crédito, foco da aplicação desse trabalho. 3.1 Grafos A teoria dos grafos é um ramo da matemática que estuda as relações entre os objetos de determinado conjunto. De maneira informal, um grafo constitui um conjunto de pontos ligados por linhas. Um exemplo de grafo está demonstrado na Figura 1. Formalmente, um grafo é um par de conjuntos (V, E) em que: V constitui um conjunto não vazio cujos elementos são chamados vértices ou nós; E consiste em um conjunto de pares dos vértices de V, cujos elementos são denominados arestas. Os conjuntos V e E, geralmente, são conjuntos finitos: V = {v 1,..., v n } e E = {(v i, v j ), v i V, v j V, 0 i, j N} Para a correta compreensão de uma RB, é importante entender o que são grafos direcionados e não direcionados. Se as arestas são constituídas de pares ordenados de vértices, diz-se que o grafo é direcionado. Figura 1 Exemplo de grafo

Capítulo 3. Revisão Teórica 20 Figura 2 Exemplo de grafo direcionado acíclico (esquerda) e cíclico (direita) Figura 3 Exemplo de grafo não direcionado Em um grafo direcionado, se existe uma aresta de v i para v j, diz-se que v i é pai de v j. Se existe um caminho direcionado de v i para v j diz-se que v i é ancestral de v j. Se um grafo direcionado não possuir ciclos direcionados, isto é, se, para qualquer vértice v i V, não existe um caminho direcionado que começa e termina em v i, então diz-se que é um grafo acíclico direcionado - DAG (Directed Acyclic Graph). A Figura 2 apresenta exemplos de grafo direcionado cíclico e acíclico; já a Figura 3 é um exemplo de grafo não direcionado. 3.2 Redes Bayesianas A melhor maneira de entender as RB consiste em imaginar-se tentando modelar uma situação em que a casualidade desempenha papel importante, mas em que a compreensão do que está realmente acontecendo é incompleta. Assim, precisa-se descrever a situação de forma probabilística (Charniak (1991)). Segundo Jensen (2001), uma Rede Bayesiana é definida como: Um conjunto de variáveis e um conjunto de arestas direcionadas entre as variáveis; Cada variável tem estados finitos e mutuamente exclusivos; As variáveis e as arestas direcionadas representam um grafo acíclico direcionado (DAG); Cada variável A, com pais B 1, B 2,..., B n, possui uma tabela de probabilidades condicionais P (A B 1..B n ), associada.

Capítulo 3. Revisão Teórica 21 As RB são grafos acíclicos e direcionados, sendo uma representação gráfica de variáveis e suas relações, dado um contexto específico. As RB é um dos principais tipos de modelo gráficos probabilísticos. Cada vértice representa uma variável aleatória e as arestas representam as correlações entre as variáveis. Essas dependências são expressas por probabilidades condicionais (Neapolitan et al. (2004)). Os grafos direcionados acíclicos em RB são chamados de estrutura, e os valores da distribuição de probabilidades condicionais são chamados de parâmetros. Tanto a estrutura quanto os parâmetros de uma RB podem ser definidos manualmente, com os relacionamentos entre as variáveis, sendo definidos tanto por especialistas, a partir de uma base de dados ou ainda pela combinação de ambas as abordagens (Neapolitan et al. (2004)). Segundo Neapolitan et al. (2004), as RB são estruturas gráficas para representar as relações probabilísticas entre um grande número de variáveis e para fazer inferência estatística com essas variáveis. As RB permitem eficiente e efetiva representação da distribuição da probabilidade conjunta sobre um grupo de variáveis aleatórias. O objetivo dos modelos gráficos probabilísticos é criar uma estrutura matemática que une grafos e probabilidades e que permita modelar situações complexas envolvendo aleatoriedade ou incerteza. A regra da cadeia vale tanto para distribuições condicionais discretas quanto para contínuas se a condição de Markov é satisfeita. RB com variáveis discretas satisfazem a condição de Markov (Neapolitan et al. (2004)), que é dada por: cada variável da RB é condicionalmente independente do conjunto de todos os não-descendentes desta, dado o conjunto de todos os seus pais. Em uma Rede Bayesiana, a distribuição conjunta de probabilidades de um conjunto de variáveis discretas, {X 1, X 2,..., X n }, é igual ao produtório das distribuições condicionais de todos os nós, dados os valores dos seus pais, ou seja, é dada pela regra da cadeia: n P (X 1, X 2,..., X n ) = P (X i P a i ) (3.1) i=0 Os parâmetros de uma Rede Bayesiana são definidos como: Θ i = P (X i P a i ), i = 1,..., n (3.2) Em que, Θ i é uma tabela de probabilidades condicionais de X i dado seus pais P a i. Com isso, o conjunto de parâmetros de uma RB é dado por Θ i ={Θ 1,Θ 2,..,Θ n }, ou seja, todas as tabelas de probabilidades condicionais da RB com variáveis discretas {X 1, X 2,.., X n }.

Capítulo 3. Revisão Teórica 22 Um importante aspecto de uma RB refere-se à sua estrutura (topologia do grafo), a qual permite a representação de complexas relações entre variáveis de forma gráfica e intuitiva. A estrutura gráfica de uma RB facilita o entendimento das relações entre variáveis do seu domínio, além de permitir o uso combinado de informações obtidas do conhecimento de especialistas e de dados históricos para obter a distribuição conjunta de probabilidades da rede. A Figura 4 apresenta um exemplo de RB, aplicada à análise de crédito, um problema que tem algumas caracteríticas similares à questão abordada nesse trabalho. Figura 4 Exemplo de Rede Bayesiana aplicada em Credit Scoring As variáveis binárias desta Rede Bayesiana são Sexo (S), Idade (I), Créditos Anteriores (CA) e Credit Rating (CR), conforme abaixo descritas: Sexo (M, F ) Idade (<20 anos, >=20 anos) Créditos Anteriores (1, >1) Credit Rating(bom, ruim) Na RB da Figura 4, o nó Credit Rating tem o nó Créditos Anteriores como pai e dois ancestrais Idade e Sexo. Credit Rating é dependente de Sexo e Idade, indiretamente, por meio de sua influência sobre Créditos Anteriores, segundo premissas de independência condicional. Tomando o nó Sexo, que não possui pai, é possivel afirmar

Capítulo 3. Revisão Teórica 23 que Sexo é independente de Idade. Aplicando-se a Regra da Cadeia, Equação 3.1, a distribuição conjunta de probabilidades desta RB é dada por: P (S, I, CA, CR) = P (S).P (I).P (CA S, I).P (CR CA) (3.3) Pela regra da cadeia, as tabelas de probabilidades condicionais de cada variável da RB devem ser especificadas para que seja possível obter a distribuição de probabilidades conjuntas da RB. Assim, é necessário especificar as tabelas P(Sexo), P(Idade), P(Créditos Anteriores Sexo, Idade) e P(Credit Rating Créditos Anteriores) para se determinar a distribuição conjunta de probabilidade P(Sexo, Idade, Créditos Anteriores, Credit Rating). Sexo P(Sexo) M 0.6 F 0.4 Tabela 1 Probabilidades e distribuição de sexo Idade P(Idade) <20 anos 0.18 >=20 anos 0.82 Tabela 2 Probabilidades e distribuição de idade Sexo Idade Créditos Anteriores P(Créditos Anteriores Sexo,Idade) M <20 anos =1 0.72 M <20 anos >1 0.28 M >=20 anos =1 0.45 M >=20 anos >1 0.55 F <20 anos =1 0.28 F <20 anos >1 0.72 F >=20 anos =1 0.65 F >=20 anos >1 0.35 Tabela 3 Probabilidades condicionais de créditos anteriores dado sexo e idade Créditos Anteriores Credit Rating P(Credit Rating Créditos Anteriores) 1 Bom 0.67 1 Ruim 0.33 >1 Bom 0.54 >1 Ruim 0.46 Tabela 4 Probabilidades condicionais de Credit Rating dado Créditos Anteriores Nas Tabelas 1, 2, 3 e 4, tem-se as distruições P(Sexo), P(Idade), P(Créditos Anteriores Sexo, Idade) e P(Credit Rating Créditos Anteriores), respectivamente. As pro-

Capítulo 3. Revisão Teórica 24 babilidades apresentadas nessas tabelas podem ser chamadas de parâmetros. A variável Idade foi discretizada (ou categorizada) para criar uma variável discreta binária. Se não fossem utilizadas algumas hipóteses sobre as RB e a regra da cadeia, seria necessário definir uma tabela de probabilidades para obter a distribuição conjunta das quatro variáveis em vez das quatro tabelas acima. Assim, as RB fornecem uma maneira de simplificar a representação de uma distribuição conjunta de probabilidades. 3.2.1 Inferência em Redes Bayesianas A inferência bayesiana é simples de ser feita quanto se lida com poucas variáveis. Entretanto, essa tarefa pode se tornar complexa quando se tratar de um grande conjunto de variáveis relacionadas no qual um tratamento puramente analítico não seja mais possível. O processo de inferência em uma RB permite obter as distribuições de todas as variáveis e, em caso de novas evidências, atualizar as informações sobre a rede. O processo pode ser executado em RB com variáveis discretas ou contínuas. Devido à natureza e ao foco dessa pesquisa, é abordada a inferência com variáveis discretas. Queiroz (2008) apresenta um exemplo de inferência em RB discretas, reproduzido neste trabalho. Para uma RB de variáveis discretas, pode-se calcular a distribuição de qualquer variável X i condicional a outras variáveis de um conjunto C por: P (X i C) = P (X i, C) P (C) = xj V {Xi,C}P (V ) xj V {Xi }P (V ) = xj V {Xi,C} x j V P (X j P a(x j ) xj V {Xi } x j V P (X j P a(x j ) (3.4) A primeira igualdade deve-se ao teorema de Bayes de probabilidades condicionais; a segunda, à regra de marginalização para variáveis com estados discretos mutuamente exclusivos; e a terceira, à regra da cadeia em uma RB. O denominador da equação de P (X i C) é simplesmente uma constante de normalização, pois i=1 P (X i C) = 1. Evidência sobre uma variável é uma informação sobre o seu estado. O conjunto C é o conjunto das variáveis instanciadas (ou evidenciadas). Assim, realizar inferência em uma RB permite obter as distribuições a posteriori de todas as variáveis condicionais às evidências conhecidas. Para exemplificar, suponha que a RB de variáveis discretas cujo grafo aparece na Figura 5 e cujas probabilidades condicionais aparecem nas tabelas 4,5 e 6. X 1 possui dois estados x 11 e x 12 ; X 2 também possui dois estados, x 21 e x 22 e X 3 possui três estados, x 31, x 32 e x 33. Com os dados fornecidos, pode-se, por exemplo, calcular a distribuição da variável X 3 condicional a X 2 = x 21, ou seja, determinar as probabilidades de todos os estados de X 3 condicionais a X 2 = x 21 :

Capítulo 3. Revisão Teórica 25 Figura 5 RB após a inferência com a variável X 2 evidenciada com X 2 = x 21.Fonte: Queiroz (2008) X 1 X 2 P (X 3 = x 31 X 1, X 2 ) P (X 3 = x 32 X 1, X 2 ) P (X 3 = x 33 X 1, X 2 ) x 11 x 21 32% 46% 22% x 11 x 22 60% 24% 16% x 12 x 21 54% 18% 28% x 12 x 22 8% 77% 15% Tabela 5 Probabilidades de X 3 condicionais aos estados de seus pais (X 1 ex 2 ) P (X 1 = x 11 ) P (X 1 = x 12 ) 60% 40% Tabela 6 Probabilidades de X 1 P (X 2 = x 21 ) P (X 2 = x 22 ) 10% 90% Tabela 7 Probabilidades de X 2 P (X 3 = x 31 X 2 = x 21 ) = 40.80% P (X 3 = x 32 X 2 = x 21 ) = 34.80% A probabilidade do último estado pode ser calculada em função dos demais, já que a soma deve sempre ser 1: P (X 3 = x 33 X 2 = x 21 ) = 24.40% 3.3 Classificador Naive Bayes Classificação de dados é um desafio diário em análise de dados e reconhecimento de padrões e requer a construção de um classificador, isto é, uma função que associa uma classe para objetos descritos por um conjunto de atributos. CB são classificadores estatísticos e têm como objetivo definir classes, além de classificar objetos que ainda não o tenham sido. Esse processo é feito com base na

Capítulo 3. Revisão Teórica 26 probabilidade de esse objeto pertencer a determinada classe e é utilizado em problemas de classificação de dados. Os CB mais simples conhecidos são os chamados Naive Bayes. Os Classificadores Naive Bayes partem da hipótese de que todos os atributos são independentes, dada a variável classe, e a sua representação gráfica é mostrada na Figura 6. Figura 6 Estrutura do classificador Naive Bayes com três atributos e uma classe Sob a hipótese de independência condicional entre atributos dada a classe, aplicando a Regra da Cadeia, é obtida a distribuição conjunta de probabilidades do Classificador Naive Bayes dada por: n P (A 1, A 2,..., A n, C) = P (C). P (A i C) (3.5) i=0 Em um CB, com atributos discretos e classe C, assumindo valores {0, 1}, a probabilidade de classificar um novo caso, {A 1 = a 1,..., A n = a n }, em C=1 é: P (C = 1 A 1 = a 1,..., A n = a n ) = P (C = 1).P (A 1 = a 1,..., A n = a n C = 1) P (A 1 = a 1,..., A n = a n ) (3.6) E a probabilidade de classificar um novo caso com C=0: P (C = 0 A 1 = a 1,..., A n = a n ) = P (C = 0).P (A 1 = a 1,..., A n = a n C = 0) P (A 1 = a 1,..., A n = a n ) (3.7) Com isso, uma nova observação (caso), {A 1 = a 1,.., A n = a n } é classificada na classe C=1 de acordo com o seguinte critério: P (C = 1 A 1 = a 1,..., A n = a n ) P (C = 0 A 1 = a 1,..., A n = a n ) 1 (3.8) O critério descrito em (3.8) pode ser escrito como: P (C = 1) P (C = 0).P (A 1 = a 1,..., A n = a n C = 1) P (A 1 = a 1,..., A n = a n C = 0) 1 (3.9)

Capítulo 3. Revisão Teórica 27 No caso do Classificador Bayesiano Naive Bayes, um novo caso {A 1 = a 1,.., A n = a n } é classificado em C=1 de acordo o seguinte critério: P (C = 1) n P (C = 0). P (A i = a i C = 1) P (A i = a i C = 0) 1 (3.10) i=1 O Classificador Naive Bayes é conhecido por sua simplicidade e eficiência, pois apresenta estrutura fixa e parâmetros ajustáveis. Embora sua suposição de independência seja problemática, pois essa hipótese raramente se verifica no mundo real, os Classificadores Naive Bayes têm apresentado um bom desempenho em um grande número de aplicações, especialmente naquelas em que as variáveis preditoras não são fortemente correlacionadas (Cheng e Greiner (1999)). 3.4 Regressão Logística A regressão logística é um modelo probabilístico de regressão não linear usado em situações em que as variáveis respostas são discretas e os erros não são normalmente distribuídos. A RL busca explicar a relação entre uma variável resposta dicotômica dependente e um conjunto de variáveis explicativas independentes (Hosmer e Lemeshow (2000)). A RL é utilizada quando se deseja prever um evento futuro dado um conjunto de variáveis preditoras. No contexto deste trabalho, a RL é usada para determinar a probabilidade de acontecer uma operação fraudulenta, dado um conjunto de variáveis do cliente e da transação. A variável resposta (Y ), mesmo não sendo binária, pode ser transformada e apresenta dois resultados possíveis, ou seja, Y i {0, 1} a variável resposta para o cliente com: 0 - A i-ésima operação é genuína; 1 - A i-ésima operação é fraudulenta. O modelo de regressão logística é dado por : π = exp(xt β) 1 + exp(x T β) (3.11) Em que: π é a probabilidade da operação ser genuína;

Capítulo 3. Revisão Teórica 28 x = (1, x 1,..., x p ) T é o vetor de variáveis preditoras; β = (β 0, β 1,..., β p ) T é o vetor dos coeficientes do modelo. Moraes (2008) apresenta um exemplo que pode ser encontrado em Hosmer e Lemeshow (2000). Esse exemplo considera duas variáveis: idade dos indivíduos (AGE) e se eles tinham ou não problemas cardíacos (CHD). A Figura 7 apresenta gráfico dessas duas variáveis. Observe ainda que todos os pontos caem em uma das duas linhas paralelas, representando a ausência de CHD (y=0) e a presença de CHD (y = 1). Existe uma tendência de que os indivíduos com nenhuma evidência de CHD sejam mais jovens do que aqueles com evidência de CHD. Apesar de esse gráfico descrever a natureza dicotômica da variável CHD, pode-se dizer que ele não fornece um aspecto da natureza da relação entre CHD e idade. Figura 7 Frequência de CHD por faixas de idade. Fonte: Hosmer e Lemeshow (2000) A grande variabilidade em CHD e idade dificulta a interpretação dos dados. Para remoção dessa variação, mantendo-se a estrutura da relação entre a resposta e a covariável, a variável independente foi dividida em 8 classes. Em seguida calculou-se a média condicional da variável resposta em cada grupo. Examinando a Tabela 7, pode-se observar melhor a existência de uma relação. Aparentemente, com o aumento da idade, a proporção de indivíduos com problemas cardíacos (CHD) aumenta. A Figura 8 apresenta o gráfico da proporção de indivíduos com problemas cardíacos versus o ponto médio de cada grupo de idade. Por meio dessa Figura, pode-se ter uma melhor compreensão da relação entre a variável resposta CHD e a covariável idade.

Capítulo 3. Revisão Teórica 29 CHD Idade do Grupo n Ausente Presente Média 20-29 10 9 1 0.10 30-34 15 13 2 0.13 35-39 12 9 3 0.25 40-44 15 10 5 0.33 45-49 13 7 6 0.46 50-54 8 3 5 0.63 55-59 17 4 13 0.76 60-69 10 2 8 0.80 Total 100 57 43 0.43 Tabela 8 Frequência de CHD por faixas de idade. Fonte: Hosmer e Lemeshow (2000) Hosmer e Lemeshow (2000) citam que o método usual para a estimação dos parâmetros do modelo de RL é o método de máxima verossimilhança. Figura 8 Gráfico de proporção de indivíduos com problemas cardíacos versus o grupo de idade. Fonte: Hosmer e Lemeshow (2000) Quando a variável resposta é dicotômica, a média condicional desta deve ser maior ou igual a zero e menor ou igual a um, [0 E(Y X = x) 1], aproximando-se de 0 e de 1 gradualmente (forma de "S") e cujo gráfico se parece com a distribuição acumulada da função logística. A variável resposta Y i possui distribuição Bernoulli com probabilidade de sucesso

Capítulo 3. Revisão Teórica 30 π i. A distribuição de Y i para cada observação da amostra de operações é: P (Y i = y i ) = (π i ) ( y i )(1 π i ) ( i y i )i = 1,..., n (3.12) Para fazer a estimação dos parâmetros β = (β 0, β 1,..., β p ) foi utilizado o método da Máxima Verossimilhança. Segundo Hosmer e Lemeshow (2000), a função da Verossimilhança da variável resposta Y i em todas as observações da amostra é: n n L(y 1, y 2,..., y n, β) = P (Y i = y i ) π iy ( i ) (1 pi i ) ( 1 y i ) (3.13) n=1 n=1 Os testes de significância para cada parâmetro do modelo foram feitos a partir de três hipóteses: H 0 : β j = 0; H 1 : β j 0. O teste de Wald é obtido comparando a estimativa do parâmetro da Máxima Verossimilhança com uma média do erro padrão (Hosmer e Lemeshow (2000)): W = β j se(β j ) (3.14) Em que: se(β j ) é o erro padrão de β j dado por se(β j ) = V ar(βj ) n 3.5 Formas de mensurar resultados Os modelos de detecção de fraudes têm como objetivo classificar uma operação como genuína ou fraudulenta. Nessa seção são apresentadas as duas metodologias utilizadas na mensuração e na comparação dos desempenhos dos modelos. Entre as diversas formas de avaliar classificadores, destacam-se: Medidas escalares: Taxa de Acerto (Accuracy) - representa a taxa de acerto de todo o classificador, isto é, a razão entre a soma dos acertos das duas classes e o número total de instâncias; Área sobre a curva ROC - a curva ROC é uma demonstração bidimensional da performance de um classificador. Para comparar classificadores é preciso reduzir

Capítulo 3. Revisão Teórica 31 a curva ROC a um valor escalar. Um método comum para realizar essa redução consiste em calcular a área abaixo da curva ROC (AUC). Técnicas de visualização: Curvas ROC - é um gráfico bidimensional no qual true positive rate é colocada no eixo Y e false positive rate é colocada no eixo X; Curvas de Custo - uma técnica gráfica para visualizar o desempenho (taxa de erro ou o custo esperado) de classificadores para duas classes, em toda a gama de possíveis distribuições de classe e custos da classificação incorreta. Na seção 3.5.1 são apresentadas duas taxas de acertos baseados na matriz de confusão, utilizadas para avaliar a acurácia das previsões feitas pelos modelos: Taxa de Acerto das Operações Genuínas (TAG) e das Operações Fraudulentas (TAF). Na seção 3.5.2 é apresentada a área abaixo da Curva ROC ((Receiver Operating Characteristics). Os melhores modelos são os com maior poder discriminante. Essa característica é observada pela área abaixo da curva ROC e com maiores taxas de acerto: TAG e, principalmente, maiores TAF, baseadas na matriz de confusão. 3.5.1 Matriz de confusão A construção de uma matriz de confusão é uma técnica empregada para analisar o desempenho de sistemas classificadores. Uma explicação sobre matriz de confusão pode ser encontrada em Karcher (2009). Os principais pontos são reproduzidos nessa seção. A matriz de confusão de um modelo é uma maneira fácil de observar se o modelo está prevendo adequadamente as operações genuínas e fraudulentas. Um exemplo de matriz de confusão é mostrado na Tabela 8, que apresenta as frequências do cruzamento entre classificações observadas e previstas por um modelo dado um determinado ponto de corte.

Capítulo 3. Revisão Teórica 32 Previsto Observado Genuína Fraudulenta Total Genuína n 00 n 01 n 0. Fraudulenta n 10 n 11 n 1. Total n.0 n.1 n.. Tabela 9 Exemplo de matriz de confusão Em que: n 00 : Número de operações "fraudulentas"corretamente classificadas como "fraudulentas"; n 01 : Número de operações "fraudulentas"incorretamente classificadas como "genuínas"; n 10 : Número de operações "genuínas"corretamente classificadas como "fraudulentas"; n 11 Número de operações "genuínas"incorretamente classificadas como "genuínas"; Dessa forma, os totais são dados por: n.0 = n 00 + n 10 n.1 = n 01 + n 11 n 0. = n 00 + n 01 n 1. = n 10 + n 11 n.. = n 00 + n 01 + n 11 Assim, os modelos de classificação foram avaliados e comparados com base nas três taxas de acerto definidas por: Taxa de acerto total: n.0 = n 00 + n 10 ; T AF = n 00 n 0. ; T AG = n 11 n 1..

Capítulo 3. Revisão Teórica 33 3.5.2 Curva ROC A Curva ROC (Receiver Operating Characteristics) constitui uma técnica para a visualização e a seleção de classificadores baseados no seu desempenho. A Curva ROC tem sido bastante usada pela comunidade de Aprendizagem de Máquina, além de ser útil no trato com domínios cujas classes estejam desbalanceadas e que possuam custos de classificação diferentes por classe. A Curva ROC é um gráfico bidimensional no qual true positive rate é colocada no eixo Y e false positive rate é colocada no eixo X. Figura 9 Exemplo de uma Curva ROC A curva ROC não é sensível a mudanças na proporção de exemplos positivos e negativos no conjunto de teste. Ela é baseada nas taxas true positive rate e false positive rate, as quais são apenas uma razão que não dependem da distribuição das classes. Para comparar classificadores, é desejável reduzir a curva ROC a um simples escalar: área sobre a curva ROC (AUC). A área sob a curva ROC é uma medida resumo usual do desempenho de um teste. Um teste totalmente incapaz de discriminar entre dois grupos teria uma área sob a curva de 0,5. Quanto maior a capacidade do teste em discriminar entre esses dois grupos, mais a curva se aproxima do canto superior esquerdo do gráfico e, assim, a área sob a curva ROC seria próxima de 1. Martinez, Louzada-Neto e Pereira (2003), em uma abordagem não paramétrica, calculam a área sob a curva ROC empírica, traçada com K = {1,..., K} valores t k, pode ser estimada somando as áreas do K 1 trapézios que dividem a curva, em sua totalidade (Bamber (1975)). Sejam X e Y as variáveis aleatórias que representam os valores de T

Capítulo 3. Revisão Teórica 34 para os indivíduos não doentes e doentes, respectivamente, e, sem perda da generalidade; sejam X e Y variáveis discretas. A área A k do k-ésimo trapézio será dada por: A k = P (Y t k 1 )[P (X t k ) P (X t k 1 )] +0.5[P (Y t k ) P (Y t k 1 )][P (X t k ) P (X t k 1 )] = P (X = t k )[P (Y t k 1 ) + 0.5P (Y = t k )] (3.15) é dado por: Conforme ilustrado na figura 10. O total A(X, Y ) da área sob a curva ROC empírica K A(X; Y ) = P (X = t k )P (Y t k 1 ) +0.5 k=1 K k=1 P (X = t k )P (Y t k ) = P (Y < X) + 0.5P (X = Y )] (3.16) Esse resultado pode ser generalizado quando X e Y são variáveis contínuas. 3.6 Aplicação Essa seção tem como objetivo explicar um pouco da dinâmica do mercado de cartões de crédito, instrumento financeiro alvo do nosso estudo. O mercado de cartão de crédito tem cinco participantes bem definidos: Card Holder (Portador), Merchant (Estabelecimento), Acquire (Adquirente), Brand (Bandeira) e Issuer (Emissor). Uma breve descrição desses agentes pode ser encontrada em (GADI, 2006): Portador (Card Holder): O portador do cartão de crédito é o cliente, pessoa possuidora do cartão, responsável por iniciar o funcionamento do sistema quando decide fazer algum pagamento ou saque lançando mão desse meio de pagamento eletrônico; Estabelecimento (Merchant): O estabelecimento aqui, diz respeito a qualquer empresa ou pessoa jurídica credenciada para aceitação de cartão de crédito por meio de um equipamento específico para esse propósito; Adquirente (Acquire): A principal função dessa empresa é credenciar, supervisionar e repassar os valores de compras/saques aos estabelecimentos que aceitam cartão de crédito. Responsável pela implantação e manutenção dos dispositivos de captura

Capítulo 3. Revisão Teórica 35 Figura 10 Cálculo da área abaixo da Curva ROC.Fonte: Martinez, Louzada-Neto e Pereira (2003) de transação, chamadas de POS (Point of Sales), e dos softwares de captura das transações. As principais receitas dos Adquirentes são: o financiamento dos lojistas (RAV - Recebimento adiantado de valores - empréstimo feito ao lojista, adiantando a receita que o mesmo tem a receber do adquirente); o intercâmbio (parte percentual de cada transação que passa pelo sistema de cartão de crédito que é dividida entre o Adquirente; a Bandeira e o Emissor daquele cartão segundo critérios de negociação específicas); e, por último, o aluguel mensal dos equipamentos ou softwares de captura de transações. Bandeira (Brand): Originalmente ela foi responsável por todas as funções no cartão de crédito, e isso ainda acontece na Bandeira Amex, mas, para as outras, suas funções são: (a) Definir regras e políticas (Relacionamento entre emissores e adquirentes); (b) Operar rede global de telecomunicações (Private Networks - não virtuais), garantindo interoperabilidade; (c) Executar Marketing Institucional;

Capítulo 3. Revisão Teórica 36 (d) Pesquisar e desenvolver novas tecnologias/serviços. Emissor (Issuer): Os Emissores são, em sua maioria numérica, bancos responsáveis por distribur os cartões de créditos aos seus clientes após aprovação de risco de crédito com base em políticas próprias de cada instituição. No Brasil, até 2005, boa parte dos cartões de créditos emitidos pertenciam a emissores independentes dos bancos de varejo. Os principais emissores independentes eram Credicard (hoje do banco Itaú),Fininvest e ibi. Todos esses agentes interagem por meio do processo de autorização de uma transação que ocorre, por exemplo, quando um portador executa uma compra em estabelecimento comercial. Em relação ao funcionamento do cartão de crédito, segundo Moraes (2008), quando um cliente o utiliza, no mesmo instante é transmitido um sinal para o adquirente, o qual o repassa esse sinal para a Bandeira. Essa, por sua vez, envia o sinal para o emissor do cartão, que, por meio de critérios próprios de crédito (como, por exemplo, a disponibilidade de limite, cliente em atraso ou apontamento no sistema de detecção de fraude) decide por aprovar, negar ou referir a transação. As transações referidas são aquelas em que se pede para o cliente entrar em contato com o emissor ou a bandeira, dependendo da localidade, para a confirmação de seus dados. Após a confirmação, o emissor ou a bandeira decide o que deve ser feito com a transação e emite uma resposta para o estabelecimento, retornando ao ciclo. Todo esse ciclo deve ocorrer em um limite de tempo definido, que em média é de dez segundos. O aumento do volume de transações tem como consequência o aumento do número de fraudes, gerando perda de bilhões de reais anualmente para os agentes. Por isso, é muito importante o desenvolvimento de metodologias de detecção e prevenção da fraude.

37 4 Metodologia Resumidamente, o processo de detecção de fraude consiste em, fornecida uma base de transações de cartões de crédito e identificar quais são genuínas e quais são fraudulentas. Neste capítulo é descrita a metodologia utilizada para atingir esse objetivo, a base de dados utilizada e todas as análises realizadas. Na seção 4.2, é descrito o processo de categorização das variáveis explicativas da base de dados. Na seção 4.3, é apresentada a técnica utilizada para a seleção de variáveis utilizada na construção das RB. Na seção 4.4, é apresentada a metodologia envolvida na construção das amostras de treinamento e validação e, finalmente, na seção 4.5, são apresentados os softwares empregados na elaboração dos modelos. A primeira etapa do processo é focada nos dados. Com a base original, um processo de tratamento dos dados foi realizado a partir da análise da qualidade da informação. Devido ao desbalanceamento do número de operações "fraudulentas"em relação às operações "genuínas", para garantir a inexistência de algum viés no modelo,foram mantidas todas as operações "fraudulentas"e, de forma aleatória, foi selecionado, na mesma quantidade, um conjunto de operações "genuínas", gerando assim uma amostra balanceada. A segunda etapa do processo é focada em variáveis. Com base em amostra definida anteriormente, foi realizado um processo de categorização de variáveis e uma análise bivariada entre as variáveis preditoras e a variável resposta, com base em uma árvore de classificação CHAID, com o auxílio do software IBM SPSS. A terceira etapa do processo é focada nos modelos. A partir da base categorizada, foram elaboradas variáveis dummies, partindo-se para a modelagem efetivamente. As análises da regressão logística foram feitas no software SAS, usando a seleção de variáveis por stepwise. Para as RB, as análises foram realizadas com o software WEKA, utilizando cross validation com dez partições e fazendo a seleção de variáveis pelo ganho de informação da variável preditora em relação à variável resposta. A Figura 11 apresenta um resumo de toda a metodologia utilizada nesse trabalho. 4.1 Base de dados Esse trabalho utiliza uma base de dados com operações reais, a qual foi fornecida por uma instituição que não é mencionada por questões de confidencialidade. Ela contém informações pessoais e financeiras de um conjunto de clientes, sem nenhuma informação que permita identificá-los. Além disso, cada registro da base corresponde a uma operação, com uma flag que indica quais delas são genuínas e quais são fraudulentas. Essa flag foi

Capítulo 4. Metodologia 38 Figura 11 Resumo da metodologia aplicada inserida pela instituição financeira a partir da sua experiência com essas operações. A variável resposta do nosso modelo é o risco de uma operação ser uma fraude, tomando o valor 1 caso a operação tenha sido previamente classificada como fraudulenta, e o valor 0 caso a operação tenha sido classificada como genuína. A base está dividida em dois grandes blocos de informações: cadastrais e transacionais. É composta por aproximadamente 4 milhões de operações realizadas por 274 mil clientes no período de jan/06 até mar/14, das quais 61.987 foram previamente classificadas como fraude. Além disso, há 17 variáveis preditoras, divididas em categóricas ou contínuas, conforme indicado na Tabela 9. O número de operações fraudulentas em relação às genuínas é muito pequeno. Portanto, adotou-se amostragem balanceada que consistiu em manter as operações fraudulentas, com 61.987 registros, e selecionar aleatoriamente uma amostra do mesmo tamanho (61.987 registros) de operações genuínas. Essa estratégia foi adotada a fim de evitar qualquer tipo de viés no modelo de classificação. A amostra foi utilizada na estimação dos modelos de classificação; porém, para a aplicação dos modelos à população original, é necessário que a distribuição da variável resposta seja substituída pela distribuição desta variável na amostra original.