FUNDAÇÃO GETULIO VARGAS ESCOLA DE ECONOMIA DE SÃO PAULO

Tamanho: px
Começar a partir da página:

Download "FUNDAÇÃO GETULIO VARGAS ESCOLA DE ECONOMIA DE SÃO PAULO"

Transcrição

1 FUNDAÇÃO GETULIO VARGAS ESCOLA DE ECONOMIA DE SÃO PAULO JHONATA EMERICK RAMOS REDES BAYESIANAS APLICADAS À MODELAGEM DE FRAUDES EM CARTÃO DE CRÉDITO SÃO PAULO 2015

2 JHONATA EMERICK RAMOS REDES BAYESIANAS APLICADAS À MODELAGEM DE FRAUDES EM CARTÃO DE CRÉDITO Dissertação apresentada ao Programa de Mestrado Profissional da Escola de Economia de São Paulo, da Fundação Getulio Vargas, como parte dos requisitos para a obtenção do título de Mestre em Economia, linha de pesquisa: Finanças Quantitativas. Orientador: Prof. Dr. Afonso de Campos Pinto SÃO PAULO 2015

3 Ramos Emerick, Jhonata. Redes Bayesianas aplicadas à modelagem de fraudes em cartão de crédito / Jhonata Emerick Ramos f. Orientador: Prof. Dr. Afonso de Campos Pinto. Dissertação (MPFE) Escola de Economia de São Paulo. 1. Cartões de crédito Medidas de segurança. 2. Fraude. 3. Teoria bayesiana de decisão estatística. I. Pinto, Afonso de Campos. II. Dissertação (MPFE) - Escola de Economia de São Paulo. III. Título. CDU

4 JHONATA EMERICK RAMOS REDES BAYESIANAS APLICADAS À MODELAGEM DE FRAUDES EM CARTÃO DE CRÉDITO Dissertação apresentada ao Programa de Mestrado Profissional da Escola de Economia de São Paulo, da Fundação Getulio Vargas, como parte dos requisitos para a obtenção do título de Mestre em Economia, linha de pesquisa: Finanças Quantitativas. Data da Aprovação: 21 / 08 / 2015 Banca Examinadora: Prof. Dr. Afonso de Campos Pinto (Orientador) Fundação Getulio Vargas Prof. Dr. Juan Carlos Ruilova Terán Fundação Getulio Vargas Prof. Dr. Flavio Almeida de Magalhães Cipparrone POLI-USP

5 Agradecimentos Ao professor Dr. Afonso de Campos Pinto pela orientação, apoio e incentivo durante a realização deste trabalho, bem como pela paciência nos percalços encontrados, ao final da caminhada. À minha esposa Ivi Prado e à pequena Isabella Prado pela compreensão nos momentos de ausência. Aos amigos Davi Kobayashi e Cláudio de Nardi Queiroz pelas contribuições a este trabalho. Aos parceiros Luiz Tomazella e Andre Kobayashi pela ajuda com algumas ferramentas que fizeram a diferença. À minha família e aos meus amigos, que são a família que podemos escolher.

6 "Embora ninguém possa voltar atrás e fazer um novo começo, qualquer um pode recomeçar e fazer um novo fim" Chico Xavier

7 RESUMO Modelos para detecção de fraude são utilizados para identificar se uma transação é legítima ou fraudulenta com base em informações cadastrais e transacionais. A técnica proposta no estudo apresentado, nesta dissertação, consiste na de Redes Bayesianas (RB); seus resultados foram comparados à técnica de Regressão Logística (RL), amplamente utilizada pelo mercado. As Redes Bayesianas avaliadas foram os classificadores bayesianos, com a estrutura Naive Bayes. As estruturas das redes bayesianas foram obtidas a partir de dados reais, fornecidos por uma instituição financeira. A base de dados foi separada em amostras de desenvolvimento e validação por cross validation com dez partições. Naive Bayes foram os classificadores escolhidos devido à simplicidade e a sua eficiência. O desempenho do modelo foi avaliado levando-se em conta a matriz de confusão e a área abaixo da curva ROC. As análises dos modelos revelaram desempenho, levemente, superior da regressão logística quando comparado aos classificadores bayesianos. A regressão logística foi escolhida como modelo mais adequado por ter apresentado melhor desempenho na previsão das operações fraudulentas, em relação à matriz de confusão. Baseada na área abaixo da curva ROC, a regressão logística demonstrou maior habilidade em discriminar as operações que estão sendo classificadas corretamente, daquelas que não estão. Palavras-chave: Redes bayesianas, Detecção de fraudes, Fraudes com cartão de crédito, Machine Learning

8 ABSTRACT For fraud detection models are used to identify whether a transaction is legitimate or fraudulent based on registration and transactional information. The proposal on technical study presented in this thesis consists in the Bayesian Networks (BN); their results were compared to logistic regression technique (RL), widely used by the market. Bayesian classifiers were evaluated, with the Naive Bayes structure. The structures of Bayesian networks were obtained from actual data, provided by a financial institution. The database was divided into samples development and validation by cross validation ten partitions. Naive Bayes classifiers were chosen due to the simplicity and efficiency. The model performance was evaluated taking into account the confusion matrix and the area under the ROC curve. The analyzes of performance models revealed slightly higher than the logistic regression compared to bayesian classifiers. Logistic regression was chosen as the most appropriate model for performed better in predicting fraudulent operations, compared to the confusion matrix. Based on area under the ROC curve, logistic regression demonstrated greater ability to discriminate the operations being classified correctly, those that are not. Keywords: Bayesian Networks, Fraud Detection,Credit Cards Fraud, Machine Learning

9 Lista de ilustrações Figura 1 Exemplo de grafo Figura 2 Exemplo de grafo direcionado acíclico (esquerda) e cíclico (direita) Figura 3 Exemplo de grafo não direcionado Figura 4 Exemplo de Rede Bayesiana aplicada em Credit Scoring Figura 5 RB após a inferência com a variável X 2 evidenciada com X 2 = x 21.Fonte: Queiroz (2008) Figura 6 Estrutura do classificador Naive Bayes com três atributos e uma classe 26 Figura 7 Frequência de CHD por faixas de idade. Fonte: Hosmer e Lemeshow (2000) Figura 8 Gráfico de proporção de indivíduos com problemas cardíacos versus o grupo de idade. Fonte: Hosmer e Lemeshow (2000) Figura 9 Exemplo de uma Curva ROC Figura 10 Cálculo da área abaixo da Curva ROC.Fonte: Martinez, Louzada-Neto e Pereira (2003) Figura 11 Resumo da metodologia aplicada Figura 12 Árvore de classificação CHAID gerada pelo software IBM SPSS, utilizandose a variável preditora sexo e a variável resposta Figura 13 Trecho da estrutura da RB do classificador Naive Bayes com filtragem pelo ganho de informação

10 Lista de tabelas Tabela 1 Probabilidades e distribuição de sexo Tabela 2 Probabilidades e distribuição de idade Tabela 3 Probabilidades condicionais de créditos anteriores dado sexo e idade.. 23 Tabela 4 Probabilidades condicionais de Credit Rating dado Créditos Anteriores 23 Tabela 5 Probabilidades de X 3 condicionais aos estados de seus pais (X 1 ex 2 ).. 25 Tabela 6 Probabilidades de X Tabela 7 Probabilidades de X Tabela 8 Frequência de CHD por faixas de idade. Fonte: Hosmer e Lemeshow (2000) Tabela 9 Exemplo de matriz de confusão Tabela 10 Variáveis contidas na base de dados Tabela 11 Exemplo de tabela de contingência. Fonte: Vasconcellos (2002) Tabela 12 Taxas de acerto das operações genuínas, das operações fraudulentas, área abaixo da curva ROC e número de variáveis dos modelos de regressão logística Tabela 13 Estimativa dos coeficientes do modelo de regressão logística para algumas variáveis Tabela 14 Algumas variáveis preditoras, ordenadas pela sua contribuição individual para o ganho de informação à variável resposta Tabela 15 Taxas de acerto das operações genuínas, das operações fraudulentas, área abaixo da curva ROC e número de variáveis dos classificadores Naive Bayes Tabela 16 Probabilidades das operações se tornarem fraudulentas (ou não), dada a observação de cada variável preditora, isoladamente Tabela 17 Taxas de acerto das operações genuínas, das operações fraudulentas, área abaixo da curva ROC e número de variáveis para ambos os modelos 53

11 Lista de abreviaturas e siglas 1 RB - Redes Bayesianas... 2 RL - Regressão Logística... 3 RN - Redes Neurais... 4 CB - Classificadores Bayesianos... 5 NB - Naive Bayes... 6 SVM - Support Vector Machines... 7 DAG - Directed Acyclic Graph... 8 TAN - Tree Augmented Naive Bayes... 9 GBN - General Bayesian Network TAG - Taxa de acerto das operações genuínas TAF - Taxa de acerto das operações fraudulentas...

12 Sumário 1 Introdução Motivação Objetivos Estrutura do trabalho Revisão Bibliográfica Revisão Teórica Grafos Redes Bayesianas Inferência em Redes Bayesianas Classificador Naive Bayes Regressão Logística Formas de mensurar resultados Matriz de confusão Curva ROC Aplicação Metodologia Base de dados Discretização das variáveis Seleção das variáveis Amostras de treinamento e validação Ferramentas Resultados Regressão Logística Classificador Naive Bayes Comparação dos Modelos de Classificação Conclusões Referências

13 12 1 Introdução 1.1 Motivação A utilização de Redes Bayesianas (RB) vem crescendo em diversas áreas. Elas podem ser construídas com base no conhecimento de especialistas, ou em algoritmos de aprendizagem que inferem as relações entre as variáveis do domínio, tendo-se por base o conjunto de dados de treinamento. Os modelos de detecção de fraudes são utilizados para estimar a probabilidade de uma transação ser genuína, ou fraudulenta, no momento de sua realização, levando em consideração informações da própria transação, além de informações cadastrais do cliente. Essa probabilidade obtida constitui estimativa do risco da operação ser uma fraude e deve ser utilizada na decisão de aprovar (ou não) a transação, a partir de um ponto de corte, acima do qual a operação é classificada como fraudulenta, passando, em alguns casos, por uma análise manual. Atualmente, os modelos de detecção de fraudes são considerados ferramentas essenciais para qualificar as operações de vendas baseadas em cartão de crédito, em especial as que ocorrem sem a presença física do comprador. O uso desses modelos permite que a aprovação, ou não seja feita de forma objetiva, padronizada, imparcial e na velocidade necessária, normalmente em segundos. Esses modelos estão inseridos no ciclo de relacionamento com o cliente, aumentando, assim, a responsabilidade dos mesmos. Um exemplo clássico refere-se ao cliente que decide comprar um presente para um ente querido no e-commerce de uma grande rede de varejo e, 48 horas depois, recebe um dizendo que a compra não foi aprovada por alguma divergência nos dados cadastrais. O cartão de crédito constitui instrumento muito visado pelos fraudadores, pois em poucos minutos, tem-se, por meio deste, a circulação de grandes quantias, que podem ser roubadas, uma vez que o crime normalmente só é descoberto pela instituição algumas semanas depois. Atividades fraudulentas ocorrem todos os dias nas mais diversas áreas, tais como: telecomunicações em geral, bancos online, e-commerce etc. O número de fraudes tem aumentado, drasticamente com a expansão da tecnologia e da comunicação de forma global, resultando em substanciais perdas. Consequentemente, a detecção de fraude tornou-se um desafio importante a ser explorado. A decisão sobre a legitimidade de uma operação, ou não em transação de cartão de

14 Capítulo 1. Introdução 13 crédito é fundamental para o resultado da empresa/instituição, já que o mesmo está diretamente ligado ao número de operações genuínas e fraudulentas que são aprovadas/negadas e ao custo para avaliar operações duvidosas. 1.2 Objetivos Quando instituições perdem dinheiro, devido às fraudes com cartões de crédito, os portadores dos cartões pagam parte dessa perda por meio de altas taxas de juros, altas taxas de anuidade e menos benefícios. Assim, tanto a instituição financeira quanto os portadores dos cartões têm interesse em reduzi-las. Detecção de fraudes envolve identificar a fraude o mais rápido possível, já que os métodos de prevenção não funcionaram adequadamente. A proposta desse trabalho é, a partir de um conjunto de dados reais, propor um procedimento por meio do uso de RB para classificar operações de cartão de crédito de acordo com o seu risco de fraude. As RB avaliadas foram os classificadores bayesianos (CB) com as estruturas Naive Bayes (NB); os resultados foram comparados com os obtidos por meio de um modelo de regressão logística (RL). Ao se procurar por pesquisas com fraudes, envolvendo cartões de crédito, duas dificuldades são citadas em Maes et al. (2002) para o desenvolvimento de novos métodos de detecção: Dificuldade de se obter base de dados com transações reais; A pouca troca de informação de resultados, obtidos em pesquisas, por se tratar de uma informação muito sensível a qualquer organização. Esse estudo é um dos primeiros a comparar o desempenho dos métodos de RB e RL, na detecção de fraudes de cartão de crédito com um conjunto de dados reais aplicados ao mercado brasileiro. 1.3 Estrutura do trabalho Esse trabalho é dividido em seis capítulos. No segundo, realiza-se a revisão bibliográfica de Redes Bayesianas, dos Classificadores Bayesianos, da Regressão Logística e das Redes Bayesianas aplicadas à análise de fraude. No terceiro capítulo, são apresentados os aspectos teóricos acerca de cartões de crédito, grafos, Redes Bayesianas, inferência e classificação em Redes Bayesianas, Regressão Logìstica, formas de mensurar resultados. No capítulo quatro, descreve-se a metodologia empregada para a obtenção do processo de detecção de fraude, dividido em: base de dados, seleção de variáveis, amostras de treinamento e validação, softwares utilizados. Já no quinto capítulo, são apresentados

15 Capítulo 1. Introdução 14 e comparados os resultados obtidos a partir do uso dos Classificadores bayesianos e da aplicaçação do método da Regressão Logística. No último capítulo, apresentam-se as principais conclusões e algumas sugestões para trabalhos futuros.

16 15 2 Revisão Bibliográfica Segundo Delamaire, Abdou e Pointon (2009), fraude consiste na obtenção de serviços/bens e/ou dinheiro por meios antiéticos. Trata-se de um problema crescente em todo o mundo. A fraude lida com casos criminosos que, geralmente, são difíceis de identificar, e tem o cartão de crédito um de seus principais alvos. Segundo Maes et al. (2002), os dois principais motivos que impedem mais avanços nessa área de pesquisa são a falta de literatura que forneça resultados experimentais e a falta de informações reais para os pesquisadores. O combate à fraude é um problema difícil do ponto de vista da modelagem estatística, pois há o desbalenceamento entre o número de operações legais e fraudulentas. Além disso, segundo Phua et al. (2010), a falta de uma base de dados pública com informações reais implica na falta de diversos métodos estudados e testados, e, consequentemente, um baixo número de publicações sobre o tema. Para Bolton e Hand (2002), a fraude está aumentando drasticamente com a expansão da tecnologia moderna e com o aumento das redes globais de comunicação, resultando na perda de bilhões de dólares em todo o mundo, anualmente. Embora as tecnologias de prevenção sejam a melhor maneira de reduzir a fraude, os fraudadores são adaptáveis e, com o tempo, geralmente encontram formas de contornar tais tecnologias. Metodologias de detecção são essenciais para evitar fraudes, já que a camada de prevenção pode ter falhado. Estatística e aprendizagem de máquina fornecem tecnologias eficazes e têm sido aplicadas com sucesso para detectar atividades como lavagem de dinheiro, fraudes em e-commerce, com cartão de crédito, em telecomunicações, dentre outros. De acordo com dados da Serasa-Experian, JORNAL (2015), em março/2015, ocorreram mais de 183 mil tentativas de fraudes contra os consumidores. Isso significa que, a cada 14 segundos, um brasileiro foi vítima de fraude com cartões ou cheques no país. É o maior número desde 2003, momento em que a pesquisa passou a ser realizada. Assim, modelos de detecção de fraudes se tornaram uma ferramenta fundamental para a gestão de risco. Embora existam mecanismos de prevenção desenvolvidos, por exemplo CHIP e PIN, estes não impedem os tipos de fraude mais comuns, tais como usos fraudulentos de cartões de crédito em terminais de POS 1 virtuais, que ocorrem por meio da internet. Como resultado, a detecção de fraudes é a ferramenta essencial e, provavelmente, a melhor maneira de deter esses tipos de ação (Sahin e Duman (2011)). Embora cartões de crédito sejam um dos mais famosos alvos de fraude, não é o único. A fraude pode ocorrer com qualquer tipo de produto de crédito, tais como empréstimos 1 POS - Point Of Service, terminais físicos que realizam as transações entre lojistas e clientes

17 Capítulo 2. Revisão Bibliográfica 16 pessoais, empréstimos imobiliários etc.. Além disso, a face da fraude mudou muito nas últimas décadas, tal qual a tecnologia (Delamaire, Abdou e Pointon (2009)). Várias técnicas são utilizadas para modelagem de fraudes. Kou et al. (2004) descrevem as RN como uma ferramenta muito utilizada e popular, porém de difícil implementação devido a falta de dados disponíveis. Maes et al. (2002) comparam o desempenho de RB e RN para a detecção de fraudes com cartão de crédito. Nesta comparação, as RB obtiveram melhores resultados com relação à detecção de fraudes e menor período de treinamento, porém o processo de classificação ocorre mais rapidamente com as RN. Dessa forma as RB se apresentam como uma excelente alternativa aos métodos mais tradicionais. Assim, opta-se, neste trabalho por testar o uso das RB em uma base com dados reais de transações do mercado brasileiro. Segundo Sahin e Duman (2011), alguns dos métodos de detecção de fraude mais utilizados são: RN, Árvores de decisão, Support Vector Machines (SVM) e RL. Os autores comparam o desempenho das RN com RL, utilizando um conjunto de dados reais. Como resultado, as RN apresentaram melhor desempenho. Bobbio et al. (2001) citam duas linhas de utilização das RB em análises quantitativas: análise preditiva, na qual as probabilidades de ocorrência de qualquer nó da rede são calculadas, baseadas na probabilidade a priori dos nós raizes e na probabilidade condicional de cada nó. A segunda linha constitui uma análise backward mais padrão, que utiliza a probabilidade a posteriori de um conjunto de variáveis dada uma observação (a evidência), representada como instanciação de algumas variáveis, para um dos seus valores admissíveis. Do ponto de vista estatístico, o problema de análise de fraude por uma instituição é um problema de classificação. Consoante Suman (2013), inúmeras técnicas já foram aplicadas na detecção de fraudes com cartão de crédito: RN, algoritmos genéticos, RL, árvore de decisão, RB, modelos de Markov. Na literatura, há várias pesquisas que comparam as aplicações dessas diferentes técnicas e alguns desses estudos são citados a seguir. Chaudhary, Yadav e Mallick (2012) fazem uma revisão das principais técnicas utilizadas na detecção de fraudes com cartão de crédito. A RL é útil para situações em que se busca ser capaz de prever a presença, ou ausência de uma característica ou o resultado com base em valores de um conjunto de variáveis preditoras. Isto é semelhante a um modelo de regressão linear, mas é adequado para modelos em que a variável dependente é binária. Gadi (2008) faz a comparação de cinco métodos de classificação aplicados ao mesmo problema: árvores de decisão (DT), redes neurais (NN), redes bayesianas (BN), Naive Bayes e Sistemas imunológicos artificiais (AIS). De acordo com o estudo, DT e AIS obtiveram melhores resultados que os demais, enquanto BN se mostrou como um melhor método para detecção de fraude quando comparado a NN.

18 Capítulo 2. Revisão Bibliográfica 17 Sharifi, Fink e Carbonell (2011) utilizam regressão logística para detecção de informações maliciosas na internet (internet scam) em que, intencionalmente, uma informação é postada com objetivo de se obter vantagens financeiras ou informações confidenciais. Segundo o artigo, os experimentos revelam que a precisão da técnica desenvolvida é de 98%. Um outro setor, em que a sobrevivência deste depende de formas efetivas de prevenção e detecção de fraudes, é a indústria de seguros. Viaene et al. (2002) fazem uma comparação de várias técnicas, para a detecção de fraudes em seguros de autómovel. Segundo os autores, técnicas relativamente simples e eficientes como a regressão logística e Support Vector Machines (SVM) demonstraram excelente capacidade de previsão, Naive Bayes também obteve um bom desempenho. Um dos mais efetivos classificadores bayesianos, quando se compara a performance preditiva deles com outros classificadores, constitui o Naive Bayes (Friedman, Geiger e Goldszmidt (1997)). Além disso, esses classificadores possuem a hipótese que todos os atributos são independentes, em relação à classe. Desta forma, apesar de existirem vários classificadores bayesianos (CB): Naive Bayes (NB), Tree Augmented Naive Bayes (TAN) e General Bayesian Network (GBN), neste trabalho, serão descritos e utilizados os classificadores Naive Bayes. Por meio de análise comparativa dos CB, Karcher (2009), escolheu o classificador TAN com aprendizado de estrutura, empregando a medida Bayes, tendo como justificativa o melhor desempenho nas previsões dos clientes "maus"pagadores. Boutilier et al. (1996) destacam o método chamado Tree Augmented Naive Bayes (TAN) que supera Naive Bayes, mas, que ao mesmo tempo, mantém a simplicidade computacional e robustez que o caracterizam. Devido à estrutura desbalanceada dos bancos de dados de fraude, Moraes (2008) sugeriu o uso do modelo logito limitado. Por meio das aplicações, a autora conclui que, para conjuntos de dados extremamente desbalanceados, não é recomendável o uso de uma amostra balanceada para a estimação dos parâmetros do modelo. Segundo Maes et al. (2002) um sistema de detecção de fraude, para obter bons resultados precisa possuir algumas características, quais sejam: O sistema deve ser capaz de lidar com distribuições assimétricas, uma vez que apenas uma pequena porcentagem de todas as transações de cartão de crédito é fraudulenta; A capacidade do sistema em tratar ruídos. Ruídos em dados reais, por exemplo, datas incorretas limitam a precisão de generalização que pode ser alcançada com o modelo. Independe do tamanho do conjunto usado no treinamento da RB;

19 Capítulo 2. Revisão Bibliográfica 18 Sobreposição de dados. Muitas transações parecem com uma transação fraudulenta, quando, na verdade, são legítimas.além disso, acontece, quando uma transação fraudulenta parece ser legítima; Os sistemas devem ser capazes de se adaptar a novos tipos de fraude. Passado um certo tempo, as técnicas de fraude, que antes conseguiam ter sucesso, passam a ter uma queda na sua eficiência, devido ao fato de que elas se tornam bem conhecidas; Necessidade de boas métricas para avaliação do sistema de detecção de fraude. Como exemplo, a precisão global não é adequada para a avaliação em uma distribuição assimétrica, uma vez que, mesmo com uma precisão muito elevada, quase todas as operações fraudulentas podem ser classificadas erroneamente; O sistema deve fazer um balanço entre o custo associado à fraude e o custo associado a evitar aquela fraude. Por exemplo, gastar muitos doláres para evitar uma fraude de alguns doláres. As RB têm apresentado inúmeras aplicações nas mais diversas áreas. Na financeira, Queiroz (2008) e Adusei-Poku (2005) as utilizam no gerenciamento e mensuração de riscos operacionais. Já Plentz et al. (2003) fazem uso para detecção de mudança no comportamento em dados de telefonia, possibilitando, por exemplo, identificar possíveis celulares que foram clonados. Karcher (2009) faz uso das RB aplicadas à análise do risco de crédito, comparando os resultados com o tradicional método de RL, que é a técnica mais aplicada em Credit Scoring. Guillen et al. (2002) utilizam o modelo de regressão logística para prever a probabilidade do cliente cancelar seu seguro. Uma das contribuições deste trabalho está na análise dos resultados da comparação entre duas técnicas: a tradicional RL e CB com estrutura Naive Bayes, usando um banco de dados com transações reais. Além disso, também são testados métodos de seleção de variáveis, Stepwise para RL e filtragem pelo ganho de informação para os CB. A Categorização de variáveis contínuas, baseada na análise bivariada entre as variáveis preditoras e a variável resposta, complementa este trabalho.

20 19 3 Revisão Teórica Nesse capítulo são descritos os principais conceitos de toda a teoria envolvida para o desenvolvimento desse trabalho. O conhecimento teórico é fundamental para o correto entendimento dos CB, que são RB aplicadas a problemas de classificação de dados. Na seção 3.1, apresenta-se a teoria dos grafos, que constituem a estrutura de uma RB. Na seção 3.2, as RB são formalmente definidas. Na seção 3.3, descreve-se o processo de classificação em RB. Na seção 3.4, apresenta-se o modelo de RL. Na seção 3.5, apresenta-se as medidas utilizadas para a avaliação dos modelos de classificação. Por fim, na seção 3.5, discutem-se aspectos teóricos e práticos dos cartões de crédito, foco da aplicação desse trabalho. 3.1 Grafos A teoria dos grafos é um ramo da matemática que estuda as relações entre os objetos de determinado conjunto. De maneira informal, um grafo constitui um conjunto de pontos ligados por linhas. Um exemplo de grafo está demonstrado na Figura 1. Formalmente, um grafo é um par de conjuntos (V, E) em que: V constitui um conjunto não vazio cujos elementos são chamados vértices ou nós; E consiste em um conjunto de pares dos vértices de V, cujos elementos são denominados arestas. Os conjuntos V e E, geralmente, são conjuntos finitos: V = {v 1,..., v n } e E = {(v i, v j ), v i V, v j V, 0 i, j N} Para a correta compreensão de uma RB, é importante entender o que são grafos direcionados e não direcionados. Se as arestas são constituídas de pares ordenados de vértices, diz-se que o grafo é direcionado. Figura 1 Exemplo de grafo

21 Capítulo 3. Revisão Teórica 20 Figura 2 Exemplo de grafo direcionado acíclico (esquerda) e cíclico (direita) Figura 3 Exemplo de grafo não direcionado Em um grafo direcionado, se existe uma aresta de v i para v j, diz-se que v i é pai de v j. Se existe um caminho direcionado de v i para v j diz-se que v i é ancestral de v j. Se um grafo direcionado não possuir ciclos direcionados, isto é, se, para qualquer vértice v i V, não existe um caminho direcionado que começa e termina em v i, então diz-se que é um grafo acíclico direcionado - DAG (Directed Acyclic Graph). A Figura 2 apresenta exemplos de grafo direcionado cíclico e acíclico; já a Figura 3 é um exemplo de grafo não direcionado. 3.2 Redes Bayesianas A melhor maneira de entender as RB consiste em imaginar-se tentando modelar uma situação em que a casualidade desempenha papel importante, mas em que a compreensão do que está realmente acontecendo é incompleta. Assim, precisa-se descrever a situação de forma probabilística (Charniak (1991)). Segundo Jensen (2001), uma Rede Bayesiana é definida como: Um conjunto de variáveis e um conjunto de arestas direcionadas entre as variáveis; Cada variável tem estados finitos e mutuamente exclusivos; As variáveis e as arestas direcionadas representam um grafo acíclico direcionado (DAG); Cada variável A, com pais B 1, B 2,..., B n, possui uma tabela de probabilidades condicionais P (A B 1..B n ), associada.

22 Capítulo 3. Revisão Teórica 21 As RB são grafos acíclicos e direcionados, sendo uma representação gráfica de variáveis e suas relações, dado um contexto específico. As RB é um dos principais tipos de modelo gráficos probabilísticos. Cada vértice representa uma variável aleatória e as arestas representam as correlações entre as variáveis. Essas dependências são expressas por probabilidades condicionais (Neapolitan et al. (2004)). Os grafos direcionados acíclicos em RB são chamados de estrutura, e os valores da distribuição de probabilidades condicionais são chamados de parâmetros. Tanto a estrutura quanto os parâmetros de uma RB podem ser definidos manualmente, com os relacionamentos entre as variáveis, sendo definidos tanto por especialistas, a partir de uma base de dados ou ainda pela combinação de ambas as abordagens (Neapolitan et al. (2004)). Segundo Neapolitan et al. (2004), as RB são estruturas gráficas para representar as relações probabilísticas entre um grande número de variáveis e para fazer inferência estatística com essas variáveis. As RB permitem eficiente e efetiva representação da distribuição da probabilidade conjunta sobre um grupo de variáveis aleatórias. O objetivo dos modelos gráficos probabilísticos é criar uma estrutura matemática que une grafos e probabilidades e que permita modelar situações complexas envolvendo aleatoriedade ou incerteza. A regra da cadeia vale tanto para distribuições condicionais discretas quanto para contínuas se a condição de Markov é satisfeita. RB com variáveis discretas satisfazem a condição de Markov (Neapolitan et al. (2004)), que é dada por: cada variável da RB é condicionalmente independente do conjunto de todos os não-descendentes desta, dado o conjunto de todos os seus pais. Em uma Rede Bayesiana, a distribuição conjunta de probabilidades de um conjunto de variáveis discretas, {X 1, X 2,..., X n }, é igual ao produtório das distribuições condicionais de todos os nós, dados os valores dos seus pais, ou seja, é dada pela regra da cadeia: n P (X 1, X 2,..., X n ) = P (X i P a i ) (3.1) i=0 Os parâmetros de uma Rede Bayesiana são definidos como: Θ i = P (X i P a i ), i = 1,..., n (3.2) Em que, Θ i é uma tabela de probabilidades condicionais de X i dado seus pais P a i. Com isso, o conjunto de parâmetros de uma RB é dado por Θ i ={Θ 1,Θ 2,..,Θ n }, ou seja, todas as tabelas de probabilidades condicionais da RB com variáveis discretas {X 1, X 2,.., X n }.

23 Capítulo 3. Revisão Teórica 22 Um importante aspecto de uma RB refere-se à sua estrutura (topologia do grafo), a qual permite a representação de complexas relações entre variáveis de forma gráfica e intuitiva. A estrutura gráfica de uma RB facilita o entendimento das relações entre variáveis do seu domínio, além de permitir o uso combinado de informações obtidas do conhecimento de especialistas e de dados históricos para obter a distribuição conjunta de probabilidades da rede. A Figura 4 apresenta um exemplo de RB, aplicada à análise de crédito, um problema que tem algumas caracteríticas similares à questão abordada nesse trabalho. Figura 4 Exemplo de Rede Bayesiana aplicada em Credit Scoring As variáveis binárias desta Rede Bayesiana são Sexo (S), Idade (I), Créditos Anteriores (CA) e Credit Rating (CR), conforme abaixo descritas: Sexo (M, F ) Idade (<20 anos, >=20 anos) Créditos Anteriores (1, >1) Credit Rating(bom, ruim) Na RB da Figura 4, o nó Credit Rating tem o nó Créditos Anteriores como pai e dois ancestrais Idade e Sexo. Credit Rating é dependente de Sexo e Idade, indiretamente, por meio de sua influência sobre Créditos Anteriores, segundo premissas de independência condicional. Tomando o nó Sexo, que não possui pai, é possivel afirmar

24 Capítulo 3. Revisão Teórica 23 que Sexo é independente de Idade. Aplicando-se a Regra da Cadeia, Equação 3.1, a distribuição conjunta de probabilidades desta RB é dada por: P (S, I, CA, CR) = P (S).P (I).P (CA S, I).P (CR CA) (3.3) Pela regra da cadeia, as tabelas de probabilidades condicionais de cada variável da RB devem ser especificadas para que seja possível obter a distribuição de probabilidades conjuntas da RB. Assim, é necessário especificar as tabelas P(Sexo), P(Idade), P(Créditos Anteriores Sexo, Idade) e P(Credit Rating Créditos Anteriores) para se determinar a distribuição conjunta de probabilidade P(Sexo, Idade, Créditos Anteriores, Credit Rating). Sexo P(Sexo) M 0.6 F 0.4 Tabela 1 Probabilidades e distribuição de sexo Idade P(Idade) <20 anos 0.18 >=20 anos 0.82 Tabela 2 Probabilidades e distribuição de idade Sexo Idade Créditos Anteriores P(Créditos Anteriores Sexo,Idade) M <20 anos = M <20 anos > M >=20 anos = M >=20 anos > F <20 anos = F <20 anos > F >=20 anos = F >=20 anos > Tabela 3 Probabilidades condicionais de créditos anteriores dado sexo e idade Créditos Anteriores Credit Rating P(Credit Rating Créditos Anteriores) 1 Bom Ruim 0.33 >1 Bom 0.54 >1 Ruim 0.46 Tabela 4 Probabilidades condicionais de Credit Rating dado Créditos Anteriores Nas Tabelas 1, 2, 3 e 4, tem-se as distruições P(Sexo), P(Idade), P(Créditos Anteriores Sexo, Idade) e P(Credit Rating Créditos Anteriores), respectivamente. As pro-

25 Capítulo 3. Revisão Teórica 24 babilidades apresentadas nessas tabelas podem ser chamadas de parâmetros. A variável Idade foi discretizada (ou categorizada) para criar uma variável discreta binária. Se não fossem utilizadas algumas hipóteses sobre as RB e a regra da cadeia, seria necessário definir uma tabela de probabilidades para obter a distribuição conjunta das quatro variáveis em vez das quatro tabelas acima. Assim, as RB fornecem uma maneira de simplificar a representação de uma distribuição conjunta de probabilidades Inferência em Redes Bayesianas A inferência bayesiana é simples de ser feita quanto se lida com poucas variáveis. Entretanto, essa tarefa pode se tornar complexa quando se tratar de um grande conjunto de variáveis relacionadas no qual um tratamento puramente analítico não seja mais possível. O processo de inferência em uma RB permite obter as distribuições de todas as variáveis e, em caso de novas evidências, atualizar as informações sobre a rede. O processo pode ser executado em RB com variáveis discretas ou contínuas. Devido à natureza e ao foco dessa pesquisa, é abordada a inferência com variáveis discretas. Queiroz (2008) apresenta um exemplo de inferência em RB discretas, reproduzido neste trabalho. Para uma RB de variáveis discretas, pode-se calcular a distribuição de qualquer variável X i condicional a outras variáveis de um conjunto C por: P (X i C) = P (X i, C) P (C) = xj V {Xi,C}P (V ) xj V {Xi }P (V ) = xj V {Xi,C} x j V P (X j P a(x j ) xj V {Xi } x j V P (X j P a(x j ) (3.4) A primeira igualdade deve-se ao teorema de Bayes de probabilidades condicionais; a segunda, à regra de marginalização para variáveis com estados discretos mutuamente exclusivos; e a terceira, à regra da cadeia em uma RB. O denominador da equação de P (X i C) é simplesmente uma constante de normalização, pois i=1 P (X i C) = 1. Evidência sobre uma variável é uma informação sobre o seu estado. O conjunto C é o conjunto das variáveis instanciadas (ou evidenciadas). Assim, realizar inferência em uma RB permite obter as distribuições a posteriori de todas as variáveis condicionais às evidências conhecidas. Para exemplificar, suponha que a RB de variáveis discretas cujo grafo aparece na Figura 5 e cujas probabilidades condicionais aparecem nas tabelas 4,5 e 6. X 1 possui dois estados x 11 e x 12 ; X 2 também possui dois estados, x 21 e x 22 e X 3 possui três estados, x 31, x 32 e x 33. Com os dados fornecidos, pode-se, por exemplo, calcular a distribuição da variável X 3 condicional a X 2 = x 21, ou seja, determinar as probabilidades de todos os estados de X 3 condicionais a X 2 = x 21 :

26 Capítulo 3. Revisão Teórica 25 Figura 5 RB após a inferência com a variável X 2 evidenciada com X 2 = x 21.Fonte: Queiroz (2008) X 1 X 2 P (X 3 = x 31 X 1, X 2 ) P (X 3 = x 32 X 1, X 2 ) P (X 3 = x 33 X 1, X 2 ) x 11 x 21 32% 46% 22% x 11 x 22 60% 24% 16% x 12 x 21 54% 18% 28% x 12 x 22 8% 77% 15% Tabela 5 Probabilidades de X 3 condicionais aos estados de seus pais (X 1 ex 2 ) P (X 1 = x 11 ) P (X 1 = x 12 ) 60% 40% Tabela 6 Probabilidades de X 1 P (X 2 = x 21 ) P (X 2 = x 22 ) 10% 90% Tabela 7 Probabilidades de X 2 P (X 3 = x 31 X 2 = x 21 ) = 40.80% P (X 3 = x 32 X 2 = x 21 ) = 34.80% A probabilidade do último estado pode ser calculada em função dos demais, já que a soma deve sempre ser 1: P (X 3 = x 33 X 2 = x 21 ) = 24.40% 3.3 Classificador Naive Bayes Classificação de dados é um desafio diário em análise de dados e reconhecimento de padrões e requer a construção de um classificador, isto é, uma função que associa uma classe para objetos descritos por um conjunto de atributos. CB são classificadores estatísticos e têm como objetivo definir classes, além de classificar objetos que ainda não o tenham sido. Esse processo é feito com base na

27 Capítulo 3. Revisão Teórica 26 probabilidade de esse objeto pertencer a determinada classe e é utilizado em problemas de classificação de dados. Os CB mais simples conhecidos são os chamados Naive Bayes. Os Classificadores Naive Bayes partem da hipótese de que todos os atributos são independentes, dada a variável classe, e a sua representação gráfica é mostrada na Figura 6. Figura 6 Estrutura do classificador Naive Bayes com três atributos e uma classe Sob a hipótese de independência condicional entre atributos dada a classe, aplicando a Regra da Cadeia, é obtida a distribuição conjunta de probabilidades do Classificador Naive Bayes dada por: n P (A 1, A 2,..., A n, C) = P (C). P (A i C) (3.5) i=0 Em um CB, com atributos discretos e classe C, assumindo valores {0, 1}, a probabilidade de classificar um novo caso, {A 1 = a 1,..., A n = a n }, em C=1 é: P (C = 1 A 1 = a 1,..., A n = a n ) = P (C = 1).P (A 1 = a 1,..., A n = a n C = 1) P (A 1 = a 1,..., A n = a n ) (3.6) E a probabilidade de classificar um novo caso com C=0: P (C = 0 A 1 = a 1,..., A n = a n ) = P (C = 0).P (A 1 = a 1,..., A n = a n C = 0) P (A 1 = a 1,..., A n = a n ) (3.7) Com isso, uma nova observação (caso), {A 1 = a 1,.., A n = a n } é classificada na classe C=1 de acordo com o seguinte critério: P (C = 1 A 1 = a 1,..., A n = a n ) P (C = 0 A 1 = a 1,..., A n = a n ) 1 (3.8) O critério descrito em (3.8) pode ser escrito como: P (C = 1) P (C = 0).P (A 1 = a 1,..., A n = a n C = 1) P (A 1 = a 1,..., A n = a n C = 0) 1 (3.9)

28 Capítulo 3. Revisão Teórica 27 No caso do Classificador Bayesiano Naive Bayes, um novo caso {A 1 = a 1,.., A n = a n } é classificado em C=1 de acordo o seguinte critério: P (C = 1) n P (C = 0). P (A i = a i C = 1) P (A i = a i C = 0) 1 (3.10) i=1 O Classificador Naive Bayes é conhecido por sua simplicidade e eficiência, pois apresenta estrutura fixa e parâmetros ajustáveis. Embora sua suposição de independência seja problemática, pois essa hipótese raramente se verifica no mundo real, os Classificadores Naive Bayes têm apresentado um bom desempenho em um grande número de aplicações, especialmente naquelas em que as variáveis preditoras não são fortemente correlacionadas (Cheng e Greiner (1999)). 3.4 Regressão Logística A regressão logística é um modelo probabilístico de regressão não linear usado em situações em que as variáveis respostas são discretas e os erros não são normalmente distribuídos. A RL busca explicar a relação entre uma variável resposta dicotômica dependente e um conjunto de variáveis explicativas independentes (Hosmer e Lemeshow (2000)). A RL é utilizada quando se deseja prever um evento futuro dado um conjunto de variáveis preditoras. No contexto deste trabalho, a RL é usada para determinar a probabilidade de acontecer uma operação fraudulenta, dado um conjunto de variáveis do cliente e da transação. A variável resposta (Y ), mesmo não sendo binária, pode ser transformada e apresenta dois resultados possíveis, ou seja, Y i {0, 1} a variável resposta para o cliente com: 0 - A i-ésima operação é genuína; 1 - A i-ésima operação é fraudulenta. O modelo de regressão logística é dado por : π = exp(xt β) 1 + exp(x T β) (3.11) Em que: π é a probabilidade da operação ser genuína;

29 Capítulo 3. Revisão Teórica 28 x = (1, x 1,..., x p ) T é o vetor de variáveis preditoras; β = (β 0, β 1,..., β p ) T é o vetor dos coeficientes do modelo. Moraes (2008) apresenta um exemplo que pode ser encontrado em Hosmer e Lemeshow (2000). Esse exemplo considera duas variáveis: idade dos indivíduos (AGE) e se eles tinham ou não problemas cardíacos (CHD). A Figura 7 apresenta gráfico dessas duas variáveis. Observe ainda que todos os pontos caem em uma das duas linhas paralelas, representando a ausência de CHD (y=0) e a presença de CHD (y = 1). Existe uma tendência de que os indivíduos com nenhuma evidência de CHD sejam mais jovens do que aqueles com evidência de CHD. Apesar de esse gráfico descrever a natureza dicotômica da variável CHD, pode-se dizer que ele não fornece um aspecto da natureza da relação entre CHD e idade. Figura 7 Frequência de CHD por faixas de idade. Fonte: Hosmer e Lemeshow (2000) A grande variabilidade em CHD e idade dificulta a interpretação dos dados. Para remoção dessa variação, mantendo-se a estrutura da relação entre a resposta e a covariável, a variável independente foi dividida em 8 classes. Em seguida calculou-se a média condicional da variável resposta em cada grupo. Examinando a Tabela 7, pode-se observar melhor a existência de uma relação. Aparentemente, com o aumento da idade, a proporção de indivíduos com problemas cardíacos (CHD) aumenta. A Figura 8 apresenta o gráfico da proporção de indivíduos com problemas cardíacos versus o ponto médio de cada grupo de idade. Por meio dessa Figura, pode-se ter uma melhor compreensão da relação entre a variável resposta CHD e a covariável idade.

30 Capítulo 3. Revisão Teórica 29 CHD Idade do Grupo n Ausente Presente Média Total Tabela 8 Frequência de CHD por faixas de idade. Fonte: Hosmer e Lemeshow (2000) Hosmer e Lemeshow (2000) citam que o método usual para a estimação dos parâmetros do modelo de RL é o método de máxima verossimilhança. Figura 8 Gráfico de proporção de indivíduos com problemas cardíacos versus o grupo de idade. Fonte: Hosmer e Lemeshow (2000) Quando a variável resposta é dicotômica, a média condicional desta deve ser maior ou igual a zero e menor ou igual a um, [0 E(Y X = x) 1], aproximando-se de 0 e de 1 gradualmente (forma de "S") e cujo gráfico se parece com a distribuição acumulada da função logística. A variável resposta Y i possui distribuição Bernoulli com probabilidade de sucesso

31 Capítulo 3. Revisão Teórica 30 π i. A distribuição de Y i para cada observação da amostra de operações é: P (Y i = y i ) = (π i ) ( y i )(1 π i ) ( i y i )i = 1,..., n (3.12) Para fazer a estimação dos parâmetros β = (β 0, β 1,..., β p ) foi utilizado o método da Máxima Verossimilhança. Segundo Hosmer e Lemeshow (2000), a função da Verossimilhança da variável resposta Y i em todas as observações da amostra é: n n L(y 1, y 2,..., y n, β) = P (Y i = y i ) π iy ( i ) (1 pi i ) ( 1 y i ) (3.13) n=1 n=1 Os testes de significância para cada parâmetro do modelo foram feitos a partir de três hipóteses: H 0 : β j = 0; H 1 : β j 0. O teste de Wald é obtido comparando a estimativa do parâmetro da Máxima Verossimilhança com uma média do erro padrão (Hosmer e Lemeshow (2000)): W = β j se(β j ) (3.14) Em que: se(β j ) é o erro padrão de β j dado por se(β j ) = V ar(βj ) n 3.5 Formas de mensurar resultados Os modelos de detecção de fraudes têm como objetivo classificar uma operação como genuína ou fraudulenta. Nessa seção são apresentadas as duas metodologias utilizadas na mensuração e na comparação dos desempenhos dos modelos. Entre as diversas formas de avaliar classificadores, destacam-se: Medidas escalares: Taxa de Acerto (Accuracy) - representa a taxa de acerto de todo o classificador, isto é, a razão entre a soma dos acertos das duas classes e o número total de instâncias; Área sobre a curva ROC - a curva ROC é uma demonstração bidimensional da performance de um classificador. Para comparar classificadores é preciso reduzir

32 Capítulo 3. Revisão Teórica 31 a curva ROC a um valor escalar. Um método comum para realizar essa redução consiste em calcular a área abaixo da curva ROC (AUC). Técnicas de visualização: Curvas ROC - é um gráfico bidimensional no qual true positive rate é colocada no eixo Y e false positive rate é colocada no eixo X; Curvas de Custo - uma técnica gráfica para visualizar o desempenho (taxa de erro ou o custo esperado) de classificadores para duas classes, em toda a gama de possíveis distribuições de classe e custos da classificação incorreta. Na seção são apresentadas duas taxas de acertos baseados na matriz de confusão, utilizadas para avaliar a acurácia das previsões feitas pelos modelos: Taxa de Acerto das Operações Genuínas (TAG) e das Operações Fraudulentas (TAF). Na seção é apresentada a área abaixo da Curva ROC ((Receiver Operating Characteristics). Os melhores modelos são os com maior poder discriminante. Essa característica é observada pela área abaixo da curva ROC e com maiores taxas de acerto: TAG e, principalmente, maiores TAF, baseadas na matriz de confusão Matriz de confusão A construção de uma matriz de confusão é uma técnica empregada para analisar o desempenho de sistemas classificadores. Uma explicação sobre matriz de confusão pode ser encontrada em Karcher (2009). Os principais pontos são reproduzidos nessa seção. A matriz de confusão de um modelo é uma maneira fácil de observar se o modelo está prevendo adequadamente as operações genuínas e fraudulentas. Um exemplo de matriz de confusão é mostrado na Tabela 8, que apresenta as frequências do cruzamento entre classificações observadas e previstas por um modelo dado um determinado ponto de corte.

33 Capítulo 3. Revisão Teórica 32 Previsto Observado Genuína Fraudulenta Total Genuína n 00 n 01 n 0. Fraudulenta n 10 n 11 n 1. Total n.0 n.1 n.. Tabela 9 Exemplo de matriz de confusão Em que: n 00 : Número de operações "fraudulentas"corretamente classificadas como "fraudulentas"; n 01 : Número de operações "fraudulentas"incorretamente classificadas como "genuínas"; n 10 : Número de operações "genuínas"corretamente classificadas como "fraudulentas"; n 11 Número de operações "genuínas"incorretamente classificadas como "genuínas"; Dessa forma, os totais são dados por: n.0 = n 00 + n 10 n.1 = n 01 + n 11 n 0. = n 00 + n 01 n 1. = n 10 + n 11 n.. = n 00 + n 01 + n 11 Assim, os modelos de classificação foram avaliados e comparados com base nas três taxas de acerto definidas por: Taxa de acerto total: n.0 = n 00 + n 10 ; T AF = n 00 n 0. ; T AG = n 11 n 1..

34 Capítulo 3. Revisão Teórica Curva ROC A Curva ROC (Receiver Operating Characteristics) constitui uma técnica para a visualização e a seleção de classificadores baseados no seu desempenho. A Curva ROC tem sido bastante usada pela comunidade de Aprendizagem de Máquina, além de ser útil no trato com domínios cujas classes estejam desbalanceadas e que possuam custos de classificação diferentes por classe. A Curva ROC é um gráfico bidimensional no qual true positive rate é colocada no eixo Y e false positive rate é colocada no eixo X. Figura 9 Exemplo de uma Curva ROC A curva ROC não é sensível a mudanças na proporção de exemplos positivos e negativos no conjunto de teste. Ela é baseada nas taxas true positive rate e false positive rate, as quais são apenas uma razão que não dependem da distribuição das classes. Para comparar classificadores, é desejável reduzir a curva ROC a um simples escalar: área sobre a curva ROC (AUC). A área sob a curva ROC é uma medida resumo usual do desempenho de um teste. Um teste totalmente incapaz de discriminar entre dois grupos teria uma área sob a curva de 0,5. Quanto maior a capacidade do teste em discriminar entre esses dois grupos, mais a curva se aproxima do canto superior esquerdo do gráfico e, assim, a área sob a curva ROC seria próxima de 1. Martinez, Louzada-Neto e Pereira (2003), em uma abordagem não paramétrica, calculam a área sob a curva ROC empírica, traçada com K = {1,..., K} valores t k, pode ser estimada somando as áreas do K 1 trapézios que dividem a curva, em sua totalidade (Bamber (1975)). Sejam X e Y as variáveis aleatórias que representam os valores de T

35 Capítulo 3. Revisão Teórica 34 para os indivíduos não doentes e doentes, respectivamente, e, sem perda da generalidade; sejam X e Y variáveis discretas. A área A k do k-ésimo trapézio será dada por: A k = P (Y t k 1 )[P (X t k ) P (X t k 1 )] +0.5[P (Y t k ) P (Y t k 1 )][P (X t k ) P (X t k 1 )] = P (X = t k )[P (Y t k 1 ) + 0.5P (Y = t k )] (3.15) é dado por: Conforme ilustrado na figura 10. O total A(X, Y ) da área sob a curva ROC empírica K A(X; Y ) = P (X = t k )P (Y t k 1 ) +0.5 k=1 K k=1 P (X = t k )P (Y t k ) = P (Y < X) + 0.5P (X = Y )] (3.16) Esse resultado pode ser generalizado quando X e Y são variáveis contínuas. 3.6 Aplicação Essa seção tem como objetivo explicar um pouco da dinâmica do mercado de cartões de crédito, instrumento financeiro alvo do nosso estudo. O mercado de cartão de crédito tem cinco participantes bem definidos: Card Holder (Portador), Merchant (Estabelecimento), Acquire (Adquirente), Brand (Bandeira) e Issuer (Emissor). Uma breve descrição desses agentes pode ser encontrada em (GADI, 2006): Portador (Card Holder): O portador do cartão de crédito é o cliente, pessoa possuidora do cartão, responsável por iniciar o funcionamento do sistema quando decide fazer algum pagamento ou saque lançando mão desse meio de pagamento eletrônico; Estabelecimento (Merchant): O estabelecimento aqui, diz respeito a qualquer empresa ou pessoa jurídica credenciada para aceitação de cartão de crédito por meio de um equipamento específico para esse propósito; Adquirente (Acquire): A principal função dessa empresa é credenciar, supervisionar e repassar os valores de compras/saques aos estabelecimentos que aceitam cartão de crédito. Responsável pela implantação e manutenção dos dispositivos de captura

36 Capítulo 3. Revisão Teórica 35 Figura 10 Cálculo da área abaixo da Curva ROC.Fonte: Martinez, Louzada-Neto e Pereira (2003) de transação, chamadas de POS (Point of Sales), e dos softwares de captura das transações. As principais receitas dos Adquirentes são: o financiamento dos lojistas (RAV - Recebimento adiantado de valores - empréstimo feito ao lojista, adiantando a receita que o mesmo tem a receber do adquirente); o intercâmbio (parte percentual de cada transação que passa pelo sistema de cartão de crédito que é dividida entre o Adquirente; a Bandeira e o Emissor daquele cartão segundo critérios de negociação específicas); e, por último, o aluguel mensal dos equipamentos ou softwares de captura de transações. Bandeira (Brand): Originalmente ela foi responsável por todas as funções no cartão de crédito, e isso ainda acontece na Bandeira Amex, mas, para as outras, suas funções são: (a) Definir regras e políticas (Relacionamento entre emissores e adquirentes); (b) Operar rede global de telecomunicações (Private Networks - não virtuais), garantindo interoperabilidade; (c) Executar Marketing Institucional;

37 Capítulo 3. Revisão Teórica 36 (d) Pesquisar e desenvolver novas tecnologias/serviços. Emissor (Issuer): Os Emissores são, em sua maioria numérica, bancos responsáveis por distribur os cartões de créditos aos seus clientes após aprovação de risco de crédito com base em políticas próprias de cada instituição. No Brasil, até 2005, boa parte dos cartões de créditos emitidos pertenciam a emissores independentes dos bancos de varejo. Os principais emissores independentes eram Credicard (hoje do banco Itaú),Fininvest e ibi. Todos esses agentes interagem por meio do processo de autorização de uma transação que ocorre, por exemplo, quando um portador executa uma compra em estabelecimento comercial. Em relação ao funcionamento do cartão de crédito, segundo Moraes (2008), quando um cliente o utiliza, no mesmo instante é transmitido um sinal para o adquirente, o qual o repassa esse sinal para a Bandeira. Essa, por sua vez, envia o sinal para o emissor do cartão, que, por meio de critérios próprios de crédito (como, por exemplo, a disponibilidade de limite, cliente em atraso ou apontamento no sistema de detecção de fraude) decide por aprovar, negar ou referir a transação. As transações referidas são aquelas em que se pede para o cliente entrar em contato com o emissor ou a bandeira, dependendo da localidade, para a confirmação de seus dados. Após a confirmação, o emissor ou a bandeira decide o que deve ser feito com a transação e emite uma resposta para o estabelecimento, retornando ao ciclo. Todo esse ciclo deve ocorrer em um limite de tempo definido, que em média é de dez segundos. O aumento do volume de transações tem como consequência o aumento do número de fraudes, gerando perda de bilhões de reais anualmente para os agentes. Por isso, é muito importante o desenvolvimento de metodologias de detecção e prevenção da fraude.

38 37 4 Metodologia Resumidamente, o processo de detecção de fraude consiste em, fornecida uma base de transações de cartões de crédito e identificar quais são genuínas e quais são fraudulentas. Neste capítulo é descrita a metodologia utilizada para atingir esse objetivo, a base de dados utilizada e todas as análises realizadas. Na seção 4.2, é descrito o processo de categorização das variáveis explicativas da base de dados. Na seção 4.3, é apresentada a técnica utilizada para a seleção de variáveis utilizada na construção das RB. Na seção 4.4, é apresentada a metodologia envolvida na construção das amostras de treinamento e validação e, finalmente, na seção 4.5, são apresentados os softwares empregados na elaboração dos modelos. A primeira etapa do processo é focada nos dados. Com a base original, um processo de tratamento dos dados foi realizado a partir da análise da qualidade da informação. Devido ao desbalanceamento do número de operações "fraudulentas"em relação às operações "genuínas", para garantir a inexistência de algum viés no modelo,foram mantidas todas as operações "fraudulentas"e, de forma aleatória, foi selecionado, na mesma quantidade, um conjunto de operações "genuínas", gerando assim uma amostra balanceada. A segunda etapa do processo é focada em variáveis. Com base em amostra definida anteriormente, foi realizado um processo de categorização de variáveis e uma análise bivariada entre as variáveis preditoras e a variável resposta, com base em uma árvore de classificação CHAID, com o auxílio do software IBM SPSS. A terceira etapa do processo é focada nos modelos. A partir da base categorizada, foram elaboradas variáveis dummies, partindo-se para a modelagem efetivamente. As análises da regressão logística foram feitas no software SAS, usando a seleção de variáveis por stepwise. Para as RB, as análises foram realizadas com o software WEKA, utilizando cross validation com dez partições e fazendo a seleção de variáveis pelo ganho de informação da variável preditora em relação à variável resposta. A Figura 11 apresenta um resumo de toda a metodologia utilizada nesse trabalho. 4.1 Base de dados Esse trabalho utiliza uma base de dados com operações reais, a qual foi fornecida por uma instituição que não é mencionada por questões de confidencialidade. Ela contém informações pessoais e financeiras de um conjunto de clientes, sem nenhuma informação que permita identificá-los. Além disso, cada registro da base corresponde a uma operação, com uma flag que indica quais delas são genuínas e quais são fraudulentas. Essa flag foi

39 Capítulo 4. Metodologia 38 Figura 11 Resumo da metodologia aplicada inserida pela instituição financeira a partir da sua experiência com essas operações. A variável resposta do nosso modelo é o risco de uma operação ser uma fraude, tomando o valor 1 caso a operação tenha sido previamente classificada como fraudulenta, e o valor 0 caso a operação tenha sido classificada como genuína. A base está dividida em dois grandes blocos de informações: cadastrais e transacionais. É composta por aproximadamente 4 milhões de operações realizadas por 274 mil clientes no período de jan/06 até mar/14, das quais foram previamente classificadas como fraude. Além disso, há 17 variáveis preditoras, divididas em categóricas ou contínuas, conforme indicado na Tabela 9. O número de operações fraudulentas em relação às genuínas é muito pequeno. Portanto, adotou-se amostragem balanceada que consistiu em manter as operações fraudulentas, com registros, e selecionar aleatoriamente uma amostra do mesmo tamanho ( registros) de operações genuínas. Essa estratégia foi adotada a fim de evitar qualquer tipo de viés no modelo de classificação. A amostra foi utilizada na estimação dos modelos de classificação; porém, para a aplicação dos modelos à população original, é necessário que a distribuição da variável resposta seja substituída pela distribuição desta variável na amostra original.

TÓPICOS AVANÇADOS EM ENGENHARIA DE SOFTWARE

TÓPICOS AVANÇADOS EM ENGENHARIA DE SOFTWARE TÓPICOS AVANÇADOS EM ENGENHARIA DE SOFTWARE Engenharia de Computação Professor: Rosalvo Ferreira de Oliveira Neto Estudos Comparativos Recentes - Behavior Scoring Roteiro Objetivo Critérios de Avaliação

Leia mais

5 Conclusões e Recomendações

5 Conclusões e Recomendações 5 Conclusões e Recomendações 5.1 Conclusões O objetivo deste estudo foi utilizar a base de dados de clientes de uma empresa para desenvolver um modelo de regressão logística que determine o risco de cancelamento

Leia mais

6 Construção de Cenários

6 Construção de Cenários 6 Construção de Cenários Neste capítulo será mostrada a metodologia utilizada para mensuração dos parâmetros estocásticos (ou incertos) e construção dos cenários com respectivas probabilidades de ocorrência.

Leia mais

Capítulo 3. Avaliação de Desempenho. 3.1 Definição de Desempenho

Capítulo 3. Avaliação de Desempenho. 3.1 Definição de Desempenho 20 Capítulo 3 Avaliação de Desempenho Este capítulo aborda como medir, informar e documentar aspectos relativos ao desempenho de um computador. Além disso, descreve os principais fatores que influenciam

Leia mais

Projeto Supervisionado

Projeto Supervisionado Projeto Supervisionado Caio Almasan de Moura ra: 095620 Indice 1. Introdução 2. Principal Projeto: Modelo de Score 2.1. Objetivo... pg 3 2.2. Agentes Envolvidos... pg 3 2.3. Contextualização... pg 3 2.4.

Leia mais

Correlação e Regressão Linear

Correlação e Regressão Linear Correlação e Regressão Linear A medida de correlação é o tipo de medida que se usa quando se quer saber se duas variáveis possuem algum tipo de relação, de maneira que quando uma varia a outra varia também.

Leia mais

DESENVOLVIMENTO DE UM SOFTWARE NA LINGUAGEM R PARA CÁLCULO DE TAMANHOS DE AMOSTRAS NA ÁREA DE SAÚDE

DESENVOLVIMENTO DE UM SOFTWARE NA LINGUAGEM R PARA CÁLCULO DE TAMANHOS DE AMOSTRAS NA ÁREA DE SAÚDE DESENVOLVIMENTO DE UM SOFTWARE NA LINGUAGEM R PARA CÁLCULO DE TAMANHOS DE AMOSTRAS NA ÁREA DE SAÚDE Mariane Alves Gomes da Silva Eliana Zandonade 1. INTRODUÇÃO Um aspecto fundamental de um levantamento

Leia mais

Podemos encontrar uma figura interessante no PMBOK (Capítulo 7) sobre a necessidade de organizarmos o fluxo de caixa em um projeto.

Podemos encontrar uma figura interessante no PMBOK (Capítulo 7) sobre a necessidade de organizarmos o fluxo de caixa em um projeto. Discussão sobre Nivelamento Baseado em Fluxo de Caixa. Item aberto na lista E-Plan Podemos encontrar uma figura interessante no PMBOK (Capítulo 7) sobre a necessidade de organizarmos o fluxo de caixa em

Leia mais

dissertação. 2 Credibilidade total, em linhas gerais, seria a capacidade de representar o comportamento

dissertação. 2 Credibilidade total, em linhas gerais, seria a capacidade de representar o comportamento 13 1 Introdução Esta dissertação é o estudo de um problema estatístico de classificação que diz respeito à precificação de seguros de automóveis. Devido às particularidades deste ramo, a formação dos contratos,

Leia mais

Tecnologia em Gestão Pública Desenvolvimento de Projetos - Aula 9 Prof. Rafael Roesler

Tecnologia em Gestão Pública Desenvolvimento de Projetos - Aula 9 Prof. Rafael Roesler Tecnologia em Gestão Pública Desenvolvimento de Projetos - Aula 9 Prof. Rafael Roesler Introdução Objetivos da Gestão dos Custos Processos da Gerência de Custos Planejamento dos recursos Estimativa dos

Leia mais

1. Avaliação de impacto de programas sociais: por que, para que e quando fazer? (Cap. 1 do livro) 2. Estatística e Planilhas Eletrônicas 3.

1. Avaliação de impacto de programas sociais: por que, para que e quando fazer? (Cap. 1 do livro) 2. Estatística e Planilhas Eletrônicas 3. 1 1. Avaliação de impacto de programas sociais: por que, para que e quando fazer? (Cap. 1 do livro) 2. Estatística e Planilhas Eletrônicas 3. Modelo de Resultados Potenciais e Aleatorização (Cap. 2 e 3

Leia mais

4 Avaliação Econômica

4 Avaliação Econômica 4 Avaliação Econômica Este capítulo tem o objetivo de descrever a segunda etapa da metodologia, correspondente a avaliação econômica das entidades de reservas. A avaliação econômica é realizada a partir

Leia mais

ESTUDO DE VIABILIDADE. Santander, Victor - Unioeste Aula de Luiz Eduardo Guarino de Vasconcelos

ESTUDO DE VIABILIDADE. Santander, Victor - Unioeste Aula de Luiz Eduardo Guarino de Vasconcelos ESTUDO DE VIABILIDADE Santander, Victor - Unioeste Aula de Luiz Eduardo Guarino de Vasconcelos Objetivos O que é um estudo de viabilidade? O que estudar e concluir? Benefícios e custos Análise de Custo/Benefício

Leia mais

Universidade Tecnológica Federal do Paraná UTFPR Programa de Pós-Graduação em Computação Aplicada Disciplina de Mineração de Dados

Universidade Tecnológica Federal do Paraná UTFPR Programa de Pós-Graduação em Computação Aplicada Disciplina de Mineração de Dados Universidade Tecnológica Federal do Paraná UTFPR Programa de Pós-Graduação em Computação Aplicada Disciplina de Mineração de Dados Prof. Celso Kaestner Poker Hand Data Set Aluno: Joyce Schaidt Versão:

Leia mais

Construção de Modelos de Previsão de Risco de Crédito Utilizando Técnicas de Estatística Multivariada

Construção de Modelos de Previsão de Risco de Crédito Utilizando Técnicas de Estatística Multivariada MINISTÉRIO DA EDUCAÇÃO UNIVERSIDADE FEDERAL DE PELOTAS PRÓ-REITORIA DE PESQUISA E PÓS-GRADUAÇÃO Construção de Modelos de Previsão de Risco de Crédito Utilizando Técnicas de Estatística Multivariada Equipe

Leia mais

MRP II. Planejamento e Controle da Produção 3 professor Muris Lage Junior

MRP II. Planejamento e Controle da Produção 3 professor Muris Lage Junior MRP II Introdução A lógica de cálculo das necessidades é conhecida há muito tempo Porém só pode ser utilizada na prática em situações mais complexas a partir dos anos 60 A partir de meados da década de

Leia mais

Fraudes No Varejo Virtual: O Que Aprendemos na Submarino - Maio/04

Fraudes No Varejo Virtual: O Que Aprendemos na Submarino - Maio/04 Fraudes No Varejo Virtual: O Que Aprendemos na Submarino - Maio/04 - Tópicos Características da Internet Prevenção de fraudes pelos comerciantes Sistemas de detecção Ferramentas Processos Pessoas Compromisso

Leia mais

Roteiro para a escrita do documento de Especificação de Requisitos de Software (ERS)

Roteiro para a escrita do documento de Especificação de Requisitos de Software (ERS) Roteiro para a escrita do documento de Especificação de Requisitos de Software (ERS) Definição Geral: Disciplina de Compiladores Prof. Jorge Bidarra (UNIOESTE) A especificação de requisitos tem como objetivo

Leia mais

MÓDULO 6 INTRODUÇÃO À PROBABILIDADE

MÓDULO 6 INTRODUÇÃO À PROBABILIDADE MÓDULO 6 INTRODUÇÃO À PROBBILIDDE Quando estudamos algum fenômeno através do método estatístico, na maior parte das vezes é preciso estabelecer uma distinção entre o modelo matemático que construímos para

Leia mais

PLANEJAMENTO OPERACIONAL: RECURSOS HUMANOS E FINANÇAS MÓDULO 16

PLANEJAMENTO OPERACIONAL: RECURSOS HUMANOS E FINANÇAS MÓDULO 16 PLANEJAMENTO OPERACIONAL: RECURSOS HUMANOS E FINANÇAS MÓDULO 16 Índice 1. Orçamento Empresarial...3 2. Conceitos gerais e elementos...3 3. Sistema de orçamentos...4 4. Horizonte de planejamento e frequência

Leia mais

PRIMAVERA RISK ANALYSIS

PRIMAVERA RISK ANALYSIS PRIMAVERA RISK ANALYSIS PRINCIPAIS RECURSOS Guia de análise de risco Verificação de programação Risco rápido em modelo Assistente de registro de riscos Registro de riscos Análise de riscos PRINCIPAIS BENEFÍCIOS

Leia mais

5 CONSIDERAÇÕES FINAIS. 5.1 Conclusão

5 CONSIDERAÇÕES FINAIS. 5.1 Conclusão 97 5 CONSIDERAÇÕES FINAIS 5.1 Conclusão Este estudo teve como objetivo final elaborar um modelo que explique a fidelidade de empresas aos seus fornecedores de serviços de consultoria em informática. A

Leia mais

5 Extraindo listas de produtos em sites de comércio eletrônico

5 Extraindo listas de produtos em sites de comércio eletrônico 5 Extraindo listas de produtos em sites de comércio eletrônico Existem diversos trabalhos direcionadas à detecção de listas e tabelas na literatura como (Liu et. al., 2003, Tengli et. al., 2004, Krüpl

Leia mais

Modelagem da Venda de Revistas. Mônica Barros. Julho de 1999. info@mbarros.com 1

Modelagem da Venda de Revistas. Mônica Barros. Julho de 1999. info@mbarros.com 1 Modelagem da Venda de Revistas Mônica Barros Julho de 1999 info@mbarros.com 1 Modelagem Matemática e Previsão de Negócios Em todas as empresas, grandes e pequenas, é necessário fazer projeções. Em muitos

Leia mais

Exercícios Teóricos Resolvidos

Exercícios Teóricos Resolvidos Universidade Federal de Minas Gerais Instituto de Ciências Exatas Departamento de Matemática Exercícios Teóricos Resolvidos O propósito deste texto é tentar mostrar aos alunos várias maneiras de raciocinar

Leia mais

QFD: Quality Function Deployment QFD: CASA DA QUALIDADE - PASSO A PASSO

QFD: Quality Function Deployment QFD: CASA DA QUALIDADE - PASSO A PASSO QFD: CASA DA QUALIDADE - PASSO A PASSO 1 - INTRODUÇÃO Segundo Akao (1990), QFD é a conversão dos requisitos do consumidor em características de qualidade do produto e o desenvolvimento da qualidade de

Leia mais

4 Segmentação. 4.1. Algoritmo proposto

4 Segmentação. 4.1. Algoritmo proposto 4 Segmentação Este capítulo apresenta primeiramente o algoritmo proposto para a segmentação do áudio em detalhes. Em seguida, são analisadas as inovações apresentadas. É importante mencionar que as mudanças

Leia mais

Mídias sociais como apoio aos negócios B2C

Mídias sociais como apoio aos negócios B2C Mídias sociais como apoio aos negócios B2C A tecnologia e a informação caminham paralelas à globalização. No mercado atual é simples interagir, aproximar pessoas, expandir e aperfeiçoar os negócios dentro

Leia mais

Capítulo 7 Medidas de dispersão

Capítulo 7 Medidas de dispersão Capítulo 7 Medidas de dispersão Introdução Para a compreensão deste capítulo, é necessário que você tenha entendido os conceitos apresentados nos capítulos 4 (ponto médio, classes e frequência) e 6 (média).

Leia mais

Introdução. 1.1 Histórico

Introdução. 1.1 Histórico 1 Introdução 1.1 Histórico O mercado brasileiro, assim como os mercados da maioria dos países emergentes, tem se caracterizado pela crescente volatilidade e dependência do capital estrangeiro. A integração

Leia mais

GARANTIA DA QUALIDADE DE SOFTWARE

GARANTIA DA QUALIDADE DE SOFTWARE GARANTIA DA QUALIDADE DE SOFTWARE Fonte: http://www.testexpert.com.br/?q=node/669 1 GARANTIA DA QUALIDADE DE SOFTWARE Segundo a NBR ISO 9000:2005, qualidade é o grau no qual um conjunto de características

Leia mais

Módulo 4. Construindo uma solução OLAP

Módulo 4. Construindo uma solução OLAP Módulo 4. Construindo uma solução OLAP Objetivos Diferenciar as diversas formas de armazenamento Compreender o que é e como definir a porcentagem de agregação Conhecer a possibilidade da utilização de

Leia mais

Curso superior de Tecnologia em Gastronomia

Curso superior de Tecnologia em Gastronomia Curso superior de Tecnologia em Gastronomia Suprimentos na Gastronomia COMPREENDENDO A CADEIA DE SUPRIMENTOS 1- DEFINIÇÃO Engloba todos os estágios envolvidos, direta ou indiretamente, no atendimento de

Leia mais

Gerenciamento de Projetos Modulo II Ciclo de Vida e Organização do Projeto

Gerenciamento de Projetos Modulo II Ciclo de Vida e Organização do Projeto Gerenciamento de Projetos Modulo II Ciclo de Vida e Organização do Projeto Prof. Walter Cunha falecomigo@waltercunha.com http://waltercunha.com PMBoK Organização do Projeto Os projetos e o gerenciamento

Leia mais

Curva ROC. George Darmiton da Cunha Cavalcanti Tsang Ing Ren CIn/UFPE

Curva ROC. George Darmiton da Cunha Cavalcanti Tsang Ing Ren CIn/UFPE Curva ROC George Darmiton da Cunha Cavalcanti Tsang Ing Ren CIn/UFPE Introdução ROC (Receiver Operating Characteristics) Curva ROC é uma técnica para a visualização e a seleção de classificadores baseado

Leia mais

CAP. 2 CONSIDERAÇÕES SOBRE OS CRITÉRIOS DE DECISÃO

CAP. 2 CONSIDERAÇÕES SOBRE OS CRITÉRIOS DE DECISÃO CAP. 2 CONSIDERAÇÕES SOBRE OS CRITÉRIOS DE DECISÃO 1. OS CRITÉRIOS DE DECISÃO Dentre os métodos para avaliar investimentos, que variam desde o bom senso até os mais sofisticados modelos matemáticos, três

Leia mais

MINERAÇÃO DE DADOS APLICADA. Pedro Henrique Bragioni Las Casas pedro.lascasas@dcc.ufmg.br

MINERAÇÃO DE DADOS APLICADA. Pedro Henrique Bragioni Las Casas pedro.lascasas@dcc.ufmg.br MINERAÇÃO DE DADOS APLICADA Pedro Henrique Bragioni Las Casas pedro.lascasas@dcc.ufmg.br Processo Weka uma Ferramenta Livre para Data Mining O que é Weka? Weka é um Software livre do tipo open source para

Leia mais

QUALIDADE DE SOFTWARE. Ian Sommerville 2006 Engenharia de Software, 8ª. edição. Capítulo 27 Slide 1

QUALIDADE DE SOFTWARE. Ian Sommerville 2006 Engenharia de Software, 8ª. edição. Capítulo 27 Slide 1 QUALIDADE DE SOFTWARE Ian Sommerville 2006 Engenharia de Software, 8ª. edição. Capítulo 27 Slide 1 Objetivos Apresentar o processo de gerenciamento de qualidade e as atividades centrais da garantia de

Leia mais

NBC TSP 10 - Contabilidade e Evidenciação em Economia Altamente Inflacionária

NBC TSP 10 - Contabilidade e Evidenciação em Economia Altamente Inflacionária NBC TSP 10 - Contabilidade e Evidenciação em Economia Altamente Inflacionária Alcance 1. Uma entidade que prepara e apresenta Demonstrações Contábeis sob o regime de competência deve aplicar esta Norma

Leia mais

PLANOS DE CONTINGÊNCIAS

PLANOS DE CONTINGÊNCIAS PLANOS DE CONTINGÊNCIAS ARAÚJO GOMES Capitão SC PMSC ARAÚJO GOMES defesacivilgomes@yahoo.com.br PLANO DE CONTINGÊNCIA O planejamento para emergências é complexo por suas características intrínsecas. Como

Leia mais

Seção 2/E Monitoramento, Avaliação e Aprendizagem

Seção 2/E Monitoramento, Avaliação e Aprendizagem Seção 2/E Monitoramento, Avaliação e Aprendizagem www.bettercotton.org Orientação Text to go here O documento Monitoramento, Avaliação e Aprendizagem da BCI proporciona uma estrutura para medir as mudanças

Leia mais

Roteiro SENAC. Análise de Riscos. Planejamento do Gerenciamento de Riscos. Planejamento do Gerenciamento de Riscos

Roteiro SENAC. Análise de Riscos. Planejamento do Gerenciamento de Riscos. Planejamento do Gerenciamento de Riscos SENAC Pós-Graduação em Segurança da Informação: Análise de Riscos Parte 2 Leandro Loss, Dr. Eng. loss@gsigma.ufsc.br http://www.gsigma.ufsc.br/~loss Roteiro Introdução Conceitos básicos Riscos Tipos de

Leia mais

Modelagem e Simulação

Modelagem e Simulação AULA 11 EPR-201 Modelagem e Simulação Modelagem Processo de construção de um modelo; Capacitar o pesquisador para prever o efeito de mudanças no sistema; Deve ser próximo da realidade; Não deve ser complexo.

Leia mais

ATIVIDADES DE LINHA E DE ASSESSORIA

ATIVIDADES DE LINHA E DE ASSESSORIA 1 ATIVIDADES DE LINHA E DE ASSESSORIA SUMÁRIO Introdução... 01 1. Diferenciação das Atividades de Linha e Assessoria... 02 2. Autoridade de Linha... 03 3. Autoridade de Assessoria... 04 4. A Atuação da

Leia mais

Estratégia de Manutenção em Oficinas utilizando Caminho Critico

Estratégia de Manutenção em Oficinas utilizando Caminho Critico SEGeT Simpósio de Excelência em Gestão e Tecnologia 1 Estratégia de Manutenção em Oficinas utilizando Caminho Critico RESUMO Entre as estratégias gerenciais em empresas de médio e grande porte existe o

Leia mais

Gerenciamento de Projeto: Planejando os Recursos. Prof. Msc Ricardo Britto DIE-UFPI rbritto@ufpi.edu.br

Gerenciamento de Projeto: Planejando os Recursos. Prof. Msc Ricardo Britto DIE-UFPI rbritto@ufpi.edu.br Gerenciamento de Projeto: Planejando os Recursos Prof. Msc Ricardo Britto DIE-UFPI rbritto@ufpi.edu.br Sumário Planejar as Aquisições Desenvolver o Plano de Recursos Humanos Planejar as Aquisições É o

Leia mais

Filosofia e Conceitos

Filosofia e Conceitos Filosofia e Conceitos Objetivo confiabilidade para o usuário das avaliações. 1. Princípios e definições de aceitação genérica. 2. Comentários explicativos sem incluir orientações em técnicas de avaliação.

Leia mais

Professor Severino Domingos Júnior Disciplina: Gestão de Compras e Estoques no Varejo

Professor Severino Domingos Júnior Disciplina: Gestão de Compras e Estoques no Varejo Professor Severino Domingos Júnior Disciplina: Gestão de Compras e Estoques no Varejo 1) Definições de Previsão de Demanda 2) Mercados 3) Modelo de Previsão 4) Gestão da Demanda 5) Previsão como Processo

Leia mais

ENGENHARIA DE SOFTWARE I

ENGENHARIA DE SOFTWARE I ENGENHARIA DE SOFTWARE I Prof. Cássio Huggentobler de Costa [cassio.costa@ulbra.br] Twitter: www.twitter.com/cassiocosta_ Agenda da Aula (002) Metodologias de Desenvolvimento de Softwares Métodos Ágeis

Leia mais

Avaliando o que foi Aprendido

Avaliando o que foi Aprendido Avaliando o que foi Aprendido Treinamento, teste, validação Predição da performance: Limites de confiança Holdout, cross-validation, bootstrap Comparando algoritmos: o teste-t Predecindo probabilidades:função

Leia mais

Solitaire Interglobal

Solitaire Interglobal Solitaire Interglobal POWERLINUX OU WINDOWS PARA IMPLANTAÇÃO SAP Escolher entre as plataformas concorrentes de sistema operacional Linux e Windows para SAP pode ser uma tarefa confusa para as organizações.

Leia mais

O que é a estatística?

O que é a estatística? Elementos de Estatística Prof. Dr. Clécio da Silva Ferreira Departamento de Estatística - UFJF O que é a estatística? Para muitos, a estatística não passa de conjuntos de tabelas de dados numéricos. Os

Leia mais

Espaço Amostral ( ): conjunto de todos os

Espaço Amostral ( ): conjunto de todos os PROBABILIDADE Espaço Amostral (): conjunto de todos os resultados possíveis de um experimento aleatório. Exemplos: 1. Lançamento de um dado. = {1,, 3, 4,, 6}. Doador de sangue (tipo sangüíneo). = {A, B,

Leia mais

Exemplo de Aplicação do DataMinig

Exemplo de Aplicação do DataMinig Exemplo de Aplicação do DataMinig Felipe E. Barletta Mendes 19 de fevereiro de 2008 INTRODUÇÃO AO DATA MINING A mineração de dados (Data Mining) está inserida em um processo maior denominado Descoberta

Leia mais

Complemento II Noções Introdutória em Redes Neurais

Complemento II Noções Introdutória em Redes Neurais Complemento II Noções Introdutória em Redes Neurais Esse documento é parte integrante do material fornecido pela WEB para a 2ª edição do livro Data Mining: Conceitos, técnicas, algoritmos, orientações

Leia mais

)HUUDPHQWDV &RPSXWDFLRQDLV SDUD 6LPXODomR

)HUUDPHQWDV &RPSXWDFLRQDLV SDUD 6LPXODomR 6LPXODomR GH6LVWHPDV )HUUDPHQWDV &RPSXWDFLRQDLV SDUD 6LPXODomR #5,6. Simulador voltado para análise de risco financeiro 3RQWRV IRUWHV Fácil de usar. Funciona integrado a ferramentas já bastante conhecidas,

Leia mais

PROCESSO DE DESENVOLVIMENTO DE SOFTWARE. Modelos de Processo de Desenvolvimento de Software

PROCESSO DE DESENVOLVIMENTO DE SOFTWARE. Modelos de Processo de Desenvolvimento de Software PROCESSO DE DESENVOLVIMENTO DE SOFTWARE Introdução Modelos de Processo de Desenvolvimento de Software Os modelos de processos de desenvolvimento de software surgiram pela necessidade de dar resposta às

Leia mais

Manutenção de Domicílio Bancário no Mercado de Cartões

Manutenção de Domicílio Bancário no Mercado de Cartões Manutenção de Domicílio Bancário no Mercado de Cartões Página 1 de 9 Manutenção de Domicílio Bancário no Mercado de Cartões A partir de 1º de julho de 2010, com a quebra da exclusividade, os Estabelecimentos

Leia mais

Preparando sua empresa para o forecasting:

Preparando sua empresa para o forecasting: Preparando sua empresa para o forecasting: Critérios para escolha de indicadores. Planejamento Performance Dashboard Plano de ação Relatórios Indicadores Embora o forecasting seja uma realidade, muitas

Leia mais

Planejamento Estratégico de TI. Prof.: Fernando Ascani

Planejamento Estratégico de TI. Prof.: Fernando Ascani Planejamento Estratégico de TI Prof.: Fernando Ascani BI Business Intelligence A inteligência Empresarial, ou Business Intelligence, é um termo do Gartner Group. O conceito surgiu na década de 80 e descreve

Leia mais

Orientação a Objetos

Orientação a Objetos 1. Domínio e Aplicação Orientação a Objetos Um domínio é composto pelas entidades, informações e processos relacionados a um determinado contexto. Uma aplicação pode ser desenvolvida para automatizar ou

Leia mais

PÓS GRADUAÇÃO EM CIÊNCIAS DE FLORESTAS TROPICAIS-PG-CFT INSTITUTO NACIONAL DE PESQUISAS DA AMAZÔNIA-INPA. 09/abril de 2014

PÓS GRADUAÇÃO EM CIÊNCIAS DE FLORESTAS TROPICAIS-PG-CFT INSTITUTO NACIONAL DE PESQUISAS DA AMAZÔNIA-INPA. 09/abril de 2014 PÓS GRADUAÇÃO EM CIÊNCIAS DE FLORESTAS TROPICAIS-PG-CFT INSTITUTO NACIONAL DE PESQUISAS DA AMAZÔNIA-INPA 09/abril de 2014 Considerações Estatísticas para Planejamento e Publicação 1 Circularidade do Método

Leia mais

Gestão de Relacionamento com o Cliente CRM

Gestão de Relacionamento com o Cliente CRM Gestão de Relacionamento com o Cliente CRM Fábio Pires 1, Wyllian Fressatti 1 Universidade Paranaense (Unipar) Paranavaí PR Brasil pires_fabin@hotmail.com wyllian@unipar.br RESUMO. O projeto destaca-se

Leia mais

c. Técnica de Estrutura de Controle Teste do Caminho Básico

c. Técnica de Estrutura de Controle Teste do Caminho Básico 1) Defina: a. Fluxo de controle A análise de fluxo de controle é a técnica estática em que o fluxo de controle através de um programa é analisado, quer com um gráfico, quer com uma ferramenta de fluxo

Leia mais

Arquitetura de Rede de Computadores

Arquitetura de Rede de Computadores TCP/IP Roteamento Arquitetura de Rede de Prof. Pedro Neto Aracaju Sergipe - 2011 Ementa da Disciplina 4. Roteamento i. Máscara de Rede ii. Sub-Redes iii. Números Binários e Máscara de Sub-Rede iv. O Roteador

Leia mais

A presente seção apresenta e especifica as hipótese que se buscou testar com o experimento. A seção 5 vai detalhar o desenho do experimento.

A presente seção apresenta e especifica as hipótese que se buscou testar com o experimento. A seção 5 vai detalhar o desenho do experimento. 4 Plano de Análise O desenho do experimento realizado foi elaborado de forma a identificar o quão relevantes para a explicação do fenômeno de overbidding são os fatores mencionados na literatura em questão

Leia mais

Programa de Pós-Graduação em Comunicação e Cultura Contemporâneas. Grupo de Pesquisa em Interação, Tecnologias Digitais e Sociedade - GITS

Programa de Pós-Graduação em Comunicação e Cultura Contemporâneas. Grupo de Pesquisa em Interação, Tecnologias Digitais e Sociedade - GITS Universidade Federal da Bahia Programa de Pós-Graduação em Comunicação e Cultura Contemporâneas Grupo de Pesquisa em Interação, Tecnologias Digitais e Sociedade - GITS Reunião de 18 de junho de 2010 Resumo

Leia mais

3 Classificação. 3.1. Resumo do algoritmo proposto

3 Classificação. 3.1. Resumo do algoritmo proposto 3 Classificação Este capítulo apresenta primeiramente o algoritmo proposto para a classificação de áudio codificado em MPEG-1 Layer 2 em detalhes. Em seguida, são analisadas as inovações apresentadas.

Leia mais

Referências internas são os artefatos usados para ajudar na elaboração do PT tais como:

Referências internas são os artefatos usados para ajudar na elaboração do PT tais como: Plano de Teste (resumo do documento) I Introdução Identificador do Plano de Teste Esse campo deve especificar um identificador único para reconhecimento do Plano de Teste. Pode ser inclusive um código

Leia mais

Texto para Coluna do NRE-POLI na Revista Construção e Mercado Pini Abril 2012

Texto para Coluna do NRE-POLI na Revista Construção e Mercado Pini Abril 2012 Texto para Coluna do NRE-POLI na Revista Construção e Mercado Pini Abril 2012 O RISCO DOS DISTRATOS O impacto dos distratos no atual panorama do mercado imobiliário José Eduardo Rodrigues Varandas Júnior

Leia mais

3 Qualidade de Software

3 Qualidade de Software 3 Qualidade de Software Este capítulo tem como objetivo esclarecer conceitos relacionados à qualidade de software; conceitos estes muito importantes para o entendimento do presente trabalho, cujo objetivo

Leia mais

Análise Exploratória de Dados

Análise Exploratória de Dados Análise Exploratória de Dados Profª Alcione Miranda dos Santos Departamento de Saúde Pública UFMA Programa de Pós-graduação em Saúde Coletiva email: alcione.miranda@gmail.com Introdução O primeiro passo

Leia mais

Métodos Matemáticos para Gestão da Informação

Métodos Matemáticos para Gestão da Informação Métodos Matemáticos para Gestão da Informação Aula 05 Taxas de variação e função lineares III Dalton Martins dmartins@gmail.com Bacharelado em Gestão da Informação Faculdade de Informação e Comunicação

Leia mais

UNIVERSIDADE FEDERAL DO ESPÍRITO SANTO CENTRO UNIVERSITÁRIO NORTE DO ESPÍRITO SANTO DISCIPLINA: ECONOMIA DA ENGENHARIA

UNIVERSIDADE FEDERAL DO ESPÍRITO SANTO CENTRO UNIVERSITÁRIO NORTE DO ESPÍRITO SANTO DISCIPLINA: ECONOMIA DA ENGENHARIA UNIVERSIDADE FEDERAL DO ESPÍRITO SANTO CENTRO UNIVERSITÁRIO NORTE DO ESPÍRITO SANTO DISCIPLINA: ECONOMIA DA ENGENHARIA Métodos para Análise de Fluxos de Caixa A análise econômico-financeira e a decisão

Leia mais

RESOLUÇÃO CFC Nº. 1.265/09. O CONSELHO FEDERAL DE CONTABILIDADE, no exercício de suas atribuições legais e regimentais,

RESOLUÇÃO CFC Nº. 1.265/09. O CONSELHO FEDERAL DE CONTABILIDADE, no exercício de suas atribuições legais e regimentais, NOTA - A Resolução CFC n.º 1.329/11 alterou a sigla e a numeração desta Interpretação de IT 12 para ITG 12 e de outras normas citadas: de NBC T 19.1 para NBC TG 27; de NBC T 19.7 para NBC TG 25; de NBC

Leia mais

Gerenciamento de Riscos do Projeto Eventos Adversos

Gerenciamento de Riscos do Projeto Eventos Adversos Gerenciamento de Riscos do Projeto Eventos Adversos 11. Gerenciamento de riscos do projeto PMBOK 2000 PMBOK 2004 11.1 Planejamento de gerenciamento de riscos 11.1 Planejamento de gerenciamento de riscos

Leia mais

Engenharia de Software III

Engenharia de Software III Engenharia de Software III Casos de uso http://dl.dropbox.com/u/3025380/es3/aula6.pdf (flavio.ceci@unisul.br) 09/09/2010 O que são casos de uso? Um caso de uso procura documentar as ações necessárias,

Leia mais

Do neurônio biológico ao neurônio das redes neurais artificiais

Do neurônio biológico ao neurônio das redes neurais artificiais Do neurônio biológico ao neurônio das redes neurais artificiais O objetivo desta aula é procurar justificar o modelo de neurônio usado pelas redes neurais artificiais em termos das propriedades essenciais

Leia mais

Estudo da Viabilidade da utilização de Cartão de Crédito para um Grupo de Clientes Essenciais

Estudo da Viabilidade da utilização de Cartão de Crédito para um Grupo de Clientes Essenciais Estudo da Viabilidade da utilização de Cartão de Crédito para um Grupo de Clientes Essenciais Cleyton Zanardo de Oliveira CER, DEs, UFSCar Vera Lúcia Damasceno Tomazella, DEs, UFSCar Resumo Uma única pessoa

Leia mais

ROTEIRO PARA ELABORAÇÃO DE PROJETOS

ROTEIRO PARA ELABORAÇÃO DE PROJETOS APRESENTAÇÃO ROTEIRO PARA ELABORAÇÃO DE PROJETOS Breve histórico da instituição seguido de diagnóstico e indicadores sobre a temática abrangida pelo projeto, especialmente dados que permitam análise da

Leia mais

FLUXO DE CAIXA: Módulo BI (Business Intelligence)

FLUXO DE CAIXA: Módulo BI (Business Intelligence) RELATÓRIO DE ESTÁGIO: Tânia Cristina Leite RA: 046567 Orientador: Prof. Dr. Aurelio Ribeiro Leite de Oliveira FLUXO DE CAIXA: Módulo BI (Business Intelligence) Universidade Estadual de Campinas Instituto

Leia mais

Modelagem e Simulação Material 02 Projeto de Simulação

Modelagem e Simulação Material 02 Projeto de Simulação Modelagem e Simulação Material 02 Projeto de Simulação Prof. Simão Sirineo Toscani Projeto de Simulação Revisão de conceitos básicos Processo de simulação Etapas de projeto Cuidados nos projetos de simulação

Leia mais

ISO 9000:2000 Sistemas de Gestão da Qualidade Fundamentos e Vocabulário. As Normas da família ISO 9000. As Normas da família ISO 9000

ISO 9000:2000 Sistemas de Gestão da Qualidade Fundamentos e Vocabulário. As Normas da família ISO 9000. As Normas da família ISO 9000 ISO 9000:2000 Sistemas de Gestão da Qualidade Fundamentos e Vocabulário Gestão da Qualidade 2005 1 As Normas da família ISO 9000 ISO 9000 descreve os fundamentos de sistemas de gestão da qualidade e especifica

Leia mais

Você sabia que... O pagamento numa loja virtual. Guia #6 Como as formas de pagamento podem interferir nas minhas vendas

Você sabia que... O pagamento numa loja virtual. Guia #6 Como as formas de pagamento podem interferir nas minhas vendas Guia #6 Como as formas de pagamento podem interferir nas minhas vendas Você sabia que... Hoje, 77% dos brasileiros já utilizam cartão de crédito, aponta estudo do Serviço de Proteção ao Crédito (SPC Brasil)

Leia mais

Banco do Brasil S.A. Consulta ao Mercado - RFP - Request for Proposa Aquisição de Ferramenta de Gestão de Limites Dúvida de Fornecedor

Banco do Brasil S.A. Consulta ao Mercado - RFP - Request for Proposa Aquisição de Ferramenta de Gestão de Limites Dúvida de Fornecedor 1. Em relação ao módulo para Atribuição de Limites, entendemos que Banco do Brasil busca uma solução para o processo de originação/concessão de crédito. Frente a essa necessidade, o Banco do Brasil busca

Leia mais

3 a Lista de Exercícios

3 a Lista de Exercícios Engenharia de Requisitos 3 a Lista de Exercícios (1) Em relação ao levantamento e análise de requisitos, faz-se a seguinte afirmação: Os requisitos de sistema devem ser capturados, documentados e acordados

Leia mais

Figura 5.1.Modelo não linear de um neurônio j da camada k+1. Fonte: HAYKIN, 2001

Figura 5.1.Modelo não linear de um neurônio j da camada k+1. Fonte: HAYKIN, 2001 47 5 Redes Neurais O trabalho em redes neurais artificiais, usualmente denominadas redes neurais ou RNA, tem sido motivado desde o começo pelo reconhecimento de que o cérebro humano processa informações

Leia mais

CAPÍTULO 2 MATEMÁTICA FINANCEIRA

CAPÍTULO 2 MATEMÁTICA FINANCEIRA CAPÍTULO 2 MATEMÁTICA FINANCEIRA A Matemática Financeira se preocupa com o valor do dinheiro no tempo. E pode-se iniciar o estudo sobre o tema com a seguinte frase: NÃO SE SOMA OU SUBTRAI QUANTIAS EM DINHEIRO

Leia mais

Jogos. Redes Sociais e Econômicas. Prof. André Vignatti

Jogos. Redes Sociais e Econômicas. Prof. André Vignatti Jogos Redes Sociais e Econômicas Prof. André Vignatti Teoria dos Jogos Neste curso, queremos olhar para redes a partir de duas perspectivas: 1) uma estrutura subjacente dos links de conexão 2) o comportamentos

Leia mais

3 Metodologia e Objeto de estudo

3 Metodologia e Objeto de estudo Metodologia e Objeto de estudo 36 3 Metodologia e Objeto de estudo Neste capítulo, através da explanação da metodologia de pesquisa e do objeto de estudo, serão definidas as questões centrais de estudo,

Leia mais

Simulação Computacional de Sistemas, ou simplesmente Simulação

Simulação Computacional de Sistemas, ou simplesmente Simulação Simulação Computacional de Sistemas, ou simplesmente Simulação Utilização de métodos matemáticos & estatísticos em programas computacionais visando imitar o comportamento de algum processo do mundo real.

Leia mais

Programação Orientada a Objetos Herança Técnico em Informática. Prof. Marcos André Pisching, M.Sc.

Programação Orientada a Objetos Herança Técnico em Informática. Prof. Marcos André Pisching, M.Sc. Herança Técnico em Informática, M.Sc. Herança 2 Herança Reutilização de código Exemplo Banco: Um banco oferece diversos serviços que podem ser contratados individualmente pelos clientes. Quando um serviço

Leia mais

5 Análise prospectiva dos investimentos das EFPC

5 Análise prospectiva dos investimentos das EFPC 5 Análise prospectiva dos investimentos das EFPC Nesta seção serão apresentados os resultados encontrados para os diversos modelos estimados. No total foram estimados dezessete 1 modelos onde a variável

Leia mais

Regressão logística na identificação de factores de risco em acidentes automóveis e fraude de seguros.

Regressão logística na identificação de factores de risco em acidentes automóveis e fraude de seguros. Regressão logística na identificação de factores de risco em acidentes automóveis e fraude de seguros. José Luís Mourão Faculdade de Ciências Universidade do Porto 28 de Janeiro de 2013 José Luís Mourão

Leia mais

Protocolo em Rampa Manual de Referência Rápida

Protocolo em Rampa Manual de Referência Rápida Protocolo em Rampa Manual de Referência Rápida 1 O que é o Protocolo em Rampa O protocolo em rampa é um protocolo para testes de esforço que não possui estágios. Nele o incremento da carga se dá de maneira

Leia mais

UM CONCEITO FUNDAMENTAL: PATRIMÔNIO LÍQUIDO FINANCEIRO. Prof. Alvaro Guimarães de Oliveira Rio, 07/09/2014.

UM CONCEITO FUNDAMENTAL: PATRIMÔNIO LÍQUIDO FINANCEIRO. Prof. Alvaro Guimarães de Oliveira Rio, 07/09/2014. UM CONCEITO FUNDAMENTAL: PATRIMÔNIO LÍQUIDO FINANCEIRO Prof. Alvaro Guimarães de Oliveira Rio, 07/09/2014. Tanto as pessoas físicas quanto as jurídicas têm patrimônio, que nada mais é do que o conjunto

Leia mais

Análise e Desenvolvimento de Sistemas ADS Programação Orientada a Obejeto POO 3º Semestre AULA 03 - INTRODUÇÃO À PROGRAMAÇÃO ORIENTADA A OBJETO (POO)

Análise e Desenvolvimento de Sistemas ADS Programação Orientada a Obejeto POO 3º Semestre AULA 03 - INTRODUÇÃO À PROGRAMAÇÃO ORIENTADA A OBJETO (POO) Análise e Desenvolvimento de Sistemas ADS Programação Orientada a Obejeto POO 3º Semestre AULA 03 - INTRODUÇÃO À PROGRAMAÇÃO ORIENTADA A OBJETO (POO) Parte: 1 Prof. Cristóvão Cunha Objetivos de aprendizagem

Leia mais

A função do primeiro grau

A função do primeiro grau Módulo 1 Unidade 9 A função do primeiro grau Para início de conversa... Já abordamos anteriormente o conceito de função. Mas, a fim de facilitar e aprofundar o seu entendimento, vamos estudar algumas funções

Leia mais