REDES BAYESIANAS APLICADAS NA ANÁLISE DO RISCO DE CRÉDITO

Transcrição

1 REDES BAYESIANAS APLICADAS NA ANÁLISE DO RISCO DE CRÉDITO Cristiane Karcher (USP) Flavio Almeida de Magalhães Cipparrone (USP) A tomada de decisão de concessão de crédito baseia-se fundamentalmente na avaliação do risco de inadimplência dos potenciais contratantes dos produtos de crédito e esse risco pode ser estimado através de modelos de Credit Scoring. Nesse traabalho, a técnica proposta para a construção de modelos de Credit Scoring é Redes Bayesianas, que aplicadas em problemas de classificação de dados, são chamadas de Classificadores Bayesianos (Bayesian Network Classifiers). Os classificadores bayesianos avaliados foram construídos utilizando uma base de dados real e seus desempenhos foram comparados ao da Regressão Logística, que é a técnica mais utilizada em Credit Scoring. Algumas metodologias de seleção de variáveis para os Classificadores Bayesianos foram avaliadas e os resultados dos modelos ajustados mostraram alguns Classificadores Bayesianos apresentaram desempenho superior ao Modelo de Regressão Logística, em relação à taxa de acerto dos clientes maus. Palavras-chaves: Redes Bayesianas, Risco de Crédito, Regressão Logística

2 1. Introdução A concessão de crédito é uma das decisões mais importantes em Instituições Financeiras e não Financeiras. Por isso, essas decisões são tomadas com base na estimativa do risco de inadimplência dos potenciais contratantes dos produtos de crédito, que são obtidas por modelos estatísticos. Os modelos muito aplicados em concessão de crédito são os de Credit Scoring, que produzem uma previsão da probabilidade de novos clientes pagarem o crédito, sem se tornar inadimplentes ou trazer prejuízo para o credor em determinado período, baseada em informações do passado da carteira de crédito. No processo de concessão de crédito essa probabilidade dá subsídios para que os proponentes ao crédito sejam classificados como bons ou maus pagadores, de acordo com um ponto de corte para a probabilidade. Inúmeras técnicas já foram aplicadas em modelos de Credit Scoring, tais como: Regressão Linear Múltipla, Análise Discriminante, Regressão Logística, Redes Neurais, Árvores de Decisão, entre outras. Rosa (2000) compara aplicações de Regressão Logística com técnicas baseadas em árvores de classificação e conclui que, apesar dos modelos baseados em árvores classificarem os clientes de forma um pouco mais precisa, a Regressão Logística, que também apresentou bons resultados, é vantajosa por apresentar fácil interpretação e por produzir como resultado uma probabilidade, o que permite a ordenação dos clientes quanto ao risco de inadimplência. West (2000) compara diversos tipos de Redes Neurais com técnicas de Regressão Logística, Análise Discriminante Linear e Árvores de Decisão, e conclui que as Redes Neurais, apesar de apresentarem acurácia maior, necessitam de um conhecimento maior para a construção sua topologia e para realizar seu treinamento. Baesens et al. (2002) aplicam Redes Bayesianas com aprendizado de estrutura por Markov Chain Monte Carlo (MCMC) e com seleção de variáveis pelo Markov Blanket da variável resposta, o que resultou em modelos parcimoniosos e poderosos para Credit Scoring. Nesse artigo será proposto um estudo comparativo da aplicação de Redes Bayesianas (RB) (NEAPOLITAN, 2004) e Regressão Logística (MONTGOMERY; PECK & VINING, 2001) na construção de modelos de Credit Scoring. As RB utilizadas foram as Bayesian Network Classifiers (FRIEDMAN; GEIGER & GOLDSZMIDT, 1997), que serão chamadas de Classificadores Bayesianos, e são utilizadas em problemas de classificação de dados. Esse artigo é complementar ao desenvolvido por Baesens et al. (2002), pois compara aplicações de Redes Bayesianas com a Regressão Logística, além de abordar diversos aprendizados de estrutura, seleção de variáveis em RB e por tratar a interpretação das RB em Credit Scoring. O trabalho é organizado em 6 seções como será descrito a seguir. Na seção Redes Bayesianas serão apresentados os principais de RB empregados nesse trabalho. Na seção seguinte, serão descritos os classificadores bayesianos aplicados, que diferem quanto à estrutura da RB empregada. Na seção Metodologia e Amostra são descritas a amostra utilizada, as metodologias de seleção de variáveis, a construção das amostras de teste e validação e as medidas de avaliação dos modelos ajustados. A análise empírica dos modelos é feita na Seção Resultados e na última seção são apresentadas as conclusões e trabalhos futuros. 2. Redes Bayesianas Por definição (JENSEN, 2001), uma RB é composta dos seguintes elementos: a) Um conjunto de variáveis e um conjunto de arestas direcionadas entre as variáveis; 2

3 b) Cada variável tem estados finitos e mutuamente exclusivos; c) As variáveis e as arestas direcionadas representam um grafo acíclico direcionado; d) Cada variável A, com pais, B 1,B 2,...,B n, possui uma tabela de probabilidades condicionais, P(A B 1,B 2,...,B n ), associada. Os nós de uma Rb representam suas variáves e se há uma aresta direcionada entre os nós A e B em uma RB, então dizemos que A é pai de B e B é filho de A. A presença de arestas entre nós da RB indica que existe uma relação de dependência entre essas variáveis. Nesse trabalho, as RB apresentadas possuem somente variáveis discretas, mas existem RB que permitem o uso de variáveis contínuas e são descritas por Neapolitan (2004). RB satisfazem a condição de Markov (NEAPOLITAN, 2004), que é dada por: cada variável da RB é condicionalmente independente do conjunto de todos os seus não-descendentes dado o conjunto de todos os seus pais. A distribuição conjunta de probabilidades das variáveis discretas, {X 1,X 2,...,X n }, de uma RB, é dada pela Regra da Cadeia, n i= 1 ( X Pa ) P( X, X,..., X = P (1) 1 2 n ) Os parâmetros de uma RB são tabelas de probabilidades condicionais dos X i dado seus pais Pa i, ou seja, Θ i =P(X i Pa i ), para i=1,2,...,n. O Markov Blanket de uma variável X é o conjunto das variáveis que são pais de X, filhos de X e que compartilham um filho com X (JENSEN, 2001). Com isso, em uma RB, qualquer variável é influenciada diretamente somente pelas variáveis que compõe o seu Markov Blanket e, portanto, o conceito de Markov Blanket pode ser utilizado para seleção de variáveis em uma RB. No exemplo da Figura 1, o Markov Blanket de I é {C, E, K, L, H}. i i Figura 1 - Exemplo de Rede Bayesiana A estrutura e os parâmetros de uma RB podem ser obtidos de duas maneiras: a partir de informações de especialistas, através do aprendizado a partir de uma base de dados ou combinando as duas abordagens. Nesse trabalho será utilizado o aprendizado a partir de uma base de dados. Com isso, o aprendizado de parâmetros a partir de uma base de dados será feito pela simples contagem de 3

4 freqüências (NEAPOLITAN, 2004) e o aprendizado de estrutura será feito utilizando duas abordagens: CI-Based (CHENG & GREINER, 1999, 2001) e Score-Based (HECKERMAN, 1995). Além desses aprendizados mencionados existem outras outras metodologias descritas por Neapolitan (2004). Nos aprendizados de estrutura CI-Based (Conditional Independence-based), a estrutura da RB é obtida por análise de dependência entre os nós. Nesse aprendizado, as relações de dependência entre os nós (variáveis) são avaliadas através de testes de independência condicional, como qui-quadrado ou informação mútua, e são criadas arestas para as dependências mais relevantes. Os aprendizados de estrutura Score-based (HECKERMAN, 1995) consistem em introduzir uma medida (score), que avalie o quanto cada possível estrutura da rede explica os dados, e um método de busca de uma estrutura com mais alto valor para essa medida. As medidas utilizadas foram: MDL, AIC e Bayes (WITTEN & FRANK, 2005) e para a busca de uma estrutura, foi utilizado o algoritmo Hill Climbing (WITTEN & FRANK, 2005), que consiste em adicionar e remover arestas sem uma ordem fixa para os nós. 3. Classificadores Bayesianos Os Classificadores Bayesianos utilizados nesse artigo são: Naive Bayes, Tree Augmented Naive Bayes (TAN) e General Bayesian Network Classifier (GBN). Eles possuem somente variáveis discretas {A 1,A 2,...,A n,c}, das quais uma, C, é a variável resposta (classe) e as demais, {A 1,A 2,...,A n }, são as variáveis preditoras (atributos). O classificador Naive Bayes (FRIEDMAN; GEIGER & GOLDSZMIDT, 1997) é o mais simples conhecido e possui a hipótese de que todas as variáveis preditoras são independentes, dado a variável resposta. Um exemplo do classificador Naive Bayes é apresentado na Figura 2. Figura 2 Exemplo da estrutura do Classificador Naive Bayes O classificador TAN foi proposto por Friedman, Geiger e Goldszmidt (1997) e possibilita representar dependências entre pares de variáveis preditoras, com isso, na RB, as variáveis preditoras devem ser representadas pela estrutura de uma árvore. O classificador TAN é uma extensão do Naive Bayes, pois permite o relaxamento da hipótese de independência condicional entre variáveis preditoras, dado a variável resposta. Um exemplo do classificador TAN é apresentado na Figura 3. 4

5 Figura 3 Exemplo da estrutura de um Classificador TAN Muitas relações de dependência entre as variáveis preditoras não podem ser representadas nem mesmo por estruturas tipo TAN. Para esses casos é necessário à construção de modelos mais complexos que permitam que cada nó da rede (exceto a variável resposta) tenha um número arbitrário de pais. Para essas situações, existe o classificador GBN (CHENG & GREINER, 1999), que é Rede Bayesiana Irrestrita, ou seja, uma Rede na qual cada variável pode apresentar um número arbitrário de pais e a variável resposta não necessariamente é pai de todas as demais variáveis. Um exemplo do classificador GBN é apresentado na Figura Metodologia e Amostra 4.1 Amostra Figura 4 - Estrutura de um Classificador GBN A base de dados de de créditos concedidos utilizada nesse trabalho foi a German Credit, está disponível no Repositório UCI Machine Learning (BLAKE & MERZ, 1998). Os dados contêm 1000 clientes proponentes ao crédito, dos quais 700 foram previamente classificados como bons pagadores e 300 foram previamente classificados como maus pagadores. O critério de classificação dos clientes não foi divulgado. A classificação dos clientes, de acordo com o risco de inadimplência, será a variável resposta, chamada Situação do Cliente e possui categorias bom e mau. Os dados apresentavam 20 variáveis preditoras, categóricas ou contínuas, que representam as informações pessoais e financeiras fornecidas pelos clientes e que possam influenciar na capacidade do cliente em pagar este crédito. A amostra utilizada nos ajustes dos modelos foi obtida através do esquema de Amostragem Retrospectiva (PAULA, 2004). Esse esquema foi adotado, para que a diferença entre os tamanhos das amostras de clientes bons e maus não criasse nenhum viés nos modelos ajustados, ou seja, para evitar que o modelo final seja bom para discriminar os clientes bons, porém ineficiente para discriminar os maus (ROSA, 2000). A amostragem consistiu em manter a amostra de clientes maus, com 300 clientes, e selecionar aleatoriamente uma amostra de mesmo tamanho de clientes bons. 5

6 O uso da amostragem retrospectiva requer também que o intercepto do modelo de Regressão Logística seja re-calculado e que a distribuição da variável resposta nas RB seja substituída pela da amostra. 4.2 Tratamento das Variáveis As variáveis contínuas dos dados foram categorizadas, pois os modelos ajustados tratam somente variáveis discretas (ou categóricas) e para facilitar a interpretação dos seus parâmetros. As variávies categóricas com muitos estados também tiveram alguns estados agrupados, para evitar que existam categorias com um número muito pequeno de observações, o que pode prejudicar a estimação dos parâmetros dos modelos. O procedimento de categorização e agrupamento de estados é descrito por Hand e Henley (1997) e por Rosa (2000), e se baseia no Risco Relativo (Odds Ratio) (AGRESTI, 2002). Para as variáveis contínuas, a categorização consistiu em, inicialmente, obter os decis (percentis de ordem 10%) (BUSSAB & MORETTIN, 2002) das variáveis preditoras e, para cada decil, foi obtida a distribuição de bons e maus clientes e calculada a razão entre bons e maus, o chamado risco relativo. Os decis que apresentaram risco relativo semelhante foram re-agrupados para diminuir o número de categorias da variável. Para o agrupamento de estados das variáveis categóricas foi calculado o risco relativo de cada estado e foram reagrupados os estados com risco relativo semelhante. Posteriormente, as variáveis categóricas foram transformadas em variáveis binárias (dummy) pois, o uso das mesmas contribuiu para uma melhora na assertividade dos modelos ajustados. O procedimento resultou em 55 variáveis preditoras binárias. 4.3 Amostras de Teste e Validação A construção das amostras de teste e de validação foi feita utilizando Cross-Validation (WITTEN & FRANK, 2005), o que consistiu em dividir aleatoriamente todos os clientes da base de dados em 10 partições amostrais de tamanhos iguais, as quais formaram 10 conjuntos com 9 partições para a amostra de teste e 1 para validação do modelo. Esse procedimento foi vantajoso para essa base de dados, pois todos os clientes foram utilizados tanto para o desenvolvimento dos modelos quanto para a validação, além dos modelos serem desenvolvidos com uma alta proporção de observações da base de dados. 4.4 Seleção de Variáveis Procedimentos de seleção de variáveis foram adotados, para que fossem eliminadas variáveis redundantes que pudessem reduzir a eficiência da previsão dos modelos ajustados. Para o modelo de Regressão Logística foi utilizado o procedimento Forward Stepwise (PAULA, 2004) do software livre R. Para os classificadores Naive Bayes e TAN, foram utilizados: procedimento Backward baseado no Ganho de Informação (Information Gain) das variáveis preditoras em relação à variável resposta (WITTEN & FRANK, 2005) e o método Wrapper (WITTEN & FRANK, 2005). O procedimento Backward consistiu em ordenar as variáveis preditoras por ganho de informação em relação à variável resposta e, partindo do modelo saturado (com todas as variáveis), cada variável com menor contribuição foi retirada, sem que isso prejudicasse a assertividade das previsões dos modelos Naive Bayes e TAN. O método Wrapper utiliza o próprio modelo de classificação para avaliar o conjunto de variáveis preditoras e utiliza Cross-validation para estimar a acurácia do esquema de aprendizagem para cada conjunto avaliado. Nos classificadores GBN foram selecionadas as variáveis do Markov Blanket da variável resposta. As seleções de variáveis dos classificadores bayesianos 6

7 foi feita no software livre WEKA. 4.5 Medidas de Avaliação dos Modelos As medidas utilizadas para avaliar e comparar os modelos ajustados foram taxas de acerto, obtidas da Matriz de Confusão (Tabela 1), e a medida AUC (Area Under Curve), que é a área de baixo da curva ROC (Receiver Operating Characteristic) (WITTEN & FRANK, 2005) de um modelo ajustado e assume valores entre 0 e 1. As taxas de acerto são definidas como, Taxa de acerto total: TAT = (n 11 +n 22 )/n.. Taxa de acerto dos maus : TAM = (n 11 )/n 1. Taxa de acerto dos bons : TAB = (n 22 ) / n 2. Para classificar os clientes, como bons ou maus, foi utilizado um ponto de corte de 0.5 para a probabilidade prevista do cliente ser bom, portanto, se a probabilidade prevista fosse maior que 0.5, o cliente foi classificado como bom, caso contrário, como mau. 7

8 Observado Previsto Total mau bom mau n 11 n 12 n 1. bom n 21 n 22 n 2. Total n. 1 n. 2 n.. Fonte: Trabalho de Rosa (2000) Tabela 1 - Tabela de Classificação em que, n.1 = n 11 + n 21 ; n.2 = n 12 + n 22 ; n 1. = n 11 + n 12 ; n 2. = n 21 + n 22 ; n.. = n 11 + n 12 + n 21 + n Resultados Nessa Seção apresentaremos os resultados das aplicações dos classificadores bayesianos Naive Bayes, TAN e GBN e da Regressão Logística. Os modelos ajustados tiveram seleções de variáveis para a retirada de variáveis redundantes. A seleção de variáveis aplicada na Regressão Logística foi Forward Stepwise, nos classificadores Naive Bayes foram pelo Ganho de Informação e pelo método Wrapper e nos classificadores GBN foram selecionadas as variáveis do Markov Blanket da variável resposta (Situação do Cliente). No aprendizado de estrutura dos classificadores TAN e GBN foram empregadas as medidas MDL, AIC e Bayes e, um classificador GBN teve aprendizado de estrutura por análise de dependência. As amostras de teste e de validação foram construídas por Cross-Validation. O software livre utilizado para a construção dos classificadores bayesianos foi o WEKA, desenvolvido na Universidade de Waikato na Nova Zelândia para tarefas de Data Mining, e para o ajuste do modelo de Regressão Logística foi utilizado o software R. Na Tabela 2, são apresentados as taxas de acerto, medida AUC e número de variáveis de todos os modelos ajustados e que foram obtidas das amostras de validação. Modelo Seleção de Aprendizado de Nº de TAT TAB TAM AUC Variáveis Estrutura Variáveis Regressão Logística Forward Stepwise % 73.0% 74.3% 78.7% 20 Naive Bayes Modelo Saturado % 71.0% 76.0% 79.3% 56 Naive Bayes Ganho de Informação % 71.7% 77.3% 80.1% 31 Naive Bayes Wrapper % 74.0% 75.0% 77.3% 15 TAN Ganho de Informação MDL 72.5% 71.3% 73.7% 78.5% 31 TAN Ganho de Informação Bayes 72.5% 71.0% 74.0% 78.7% 31 TAN Ganho de Informação AIC 72.2% 71.0% 73.3% 78.8% 31 TAN Wrapper MDL 73.8% 73.0% 74.7% 78.6% 45 TAN Wrapper Bayes 73.0% 74.3% 71.7% 78.7% 36 TAN Wrapper AIC 73.8% 73.0% 74.7% 78.6% 45 GBN Markov Blanket MDL 71.3% 67.7% 75.0% 76.5% 13 GBN Markov Blanket Bayes 71.0% 68.7% 73.3% 79.1% 35 GBN Markov Blanket AIC 72.0% 70.7% 73.3% 78.9% 39 GBN Markov Blanket Análise de Dependência 68.5% 61.7% 75.3% 75.1% 39 Fonte: Análise dos autores Tabela 2 Medidas de classificação correta, AUC e número de variáveis dos modelos ajustados As taxas de acerto indicam que os classificadores Naive Bayes e TAN, com aprendizados utilizando MDL e AIC, apresentaram maiores assertividades nas previsões dos clientes maus (TAM) do que o modelo de Regressão Logística. Todos os outros classificadores 8

9 bayesianos apresentaram valores equivalentes aos da Regressão Logística para as taxas de acerto total e de acerto nas previsões dos clientes bons e medida AUC, exceto os classificadores GBN apresentaram desempenho inferior na assertividade total e das previsões dos clientes bons. O classificador GBN com aprendizado de estrutura por análise de dependência, apresentou assertividade na previsão dos clientes maus e medida AUC superiores às observadas na Regressão Logística, o que não se observou nas taxas de acerto nas previsões dos clientes bons e medida AUC. Esse resultado é esperado, pois o aprendizado por análise de dependência tem como objetivo obter a melhor estrutura de dependência entre variáveis, que pode não ser a mais assertiva nas previsões de novas observações, mas contém informações sobre a dependência entre as variáveis do estudo. O desempenho dos classificadores TAN e GBN poderia ser melhorado se houvesse uma base de dados com maior número de observações, pois esses classificadores avaliam relações entre um grande número de variáveis preditoras, o que requer uma base de dados grande. Bases de dados grandes, com milhares de créditos concedidos, podem ser encontradas comumente em Instituições Financeiras. A superioridade das taxas de acerto nas previsões dos clientes maus obtida nos classificadores Naive Bayes com seleção pelo Ganho de Informação, TAN com seleção pelo método Wrapper e GBN por análise de dependência, é um resultado interessante do ponto de vista da Instituição que concede crédito, pois o uso desses modelos pode diminuir o erro de concessões de crédito equivocadas. Os coeficientes estimados do modelo de Regressão Logística e respectivos, erro padrão, estatística z e p-valor, são apresentados na Tabela 3. As interpretações, feitas a seguir, consideram que os coeficientes podem ser interpretados como o aumento (ou redução) na probabilidade do cliente não se tornar inadimplente, dado o acréscimo de uma unidade na variável preditora (binária) e sem considerar a variação das demais variáveis (MONTGOMERY; PECK & VINING, 2001). As estimativas dos coeficientes do modelo ajustado de Regressão Logística indicam que clientes com empréstimos para educação apresentaram maior risco de inadimplência do que os demais, seguidos dos clientes com empréstimos para a compra de carro novo. As características que contribuíram para maiores riscos de inadimplência, em relação aos demais clientes, foram: salário inferior a $200, poupança inferior a $500, co-aplicação em outros empréstimos, moradia alugada. Adicionalmente, as características dos clientes contribuíram para maiores probabilidades de se tornarem bons pagadores foram: empréstimos de duração inferior a 9 meses, idade entre 26 e 52 anos, com empréstimos em bancos e lojas e estrangeiro. 9

10 Variável Coeficiente Erro Padrão Estatística z p-valor Intercepto Salário < $ >= $ < 9 meses Duração do >=9meses e < 18 meses empréstimo >= 18 meses e < 36 meses Todos os empréstimos pagos pontualmente Histórico de ou sem empréstimos tomados Crédito Existem empréstimos pagos pontualmente ou com histórico de atraso no pagamento Compra de carro novo Móveis e utensílios domésticos Finalidade Rádio e TV Reforma Educação Negócios Poupança do Cliente < $ Outras dívidas Nenhuma ou garantias Co-aplicante Idade >= 26anos e < 52 anos Outros Empréstimos Bancos e Lojas Casa Alugada Estrangeiro Sim Fonte: Análise dos autores Tabela 3 Estimativas dos coeficientes, erro padrão, estatística z e p-valor do modelo de Regressão Logística utilizando Forward Stepwise Na Tabela 4, a seguir, serão apresentadas as probabilidades condicionais de cada novo cliente não se tornar inadimplente dado à observação das variáveis preditoras (binárias), sem que haja alteração nos estados das demais variáveis, do classificador Naive Bayes com seleção de variáveis pelo Ganho de Informação. Essas probabilidades condicionais informam o aumento na probabilidade do cliente não se tornar inadimplente, dada à observação de uma característica do cliente (variável binária). As probabilidades condicionais foram obtidas através de Inferências nas RB dos classificadores (NEAPOLITAN, 2004). Adicionalmente aos resultados da Regressão Logística ajustada, podemos observar no classificador Naive Bayes, que clientes com empréstimos entre $1250 e $4750 apresentam maior probabilidade de se tornarem bons do que os demais clientes e, o contrário, ocorre nos clientes com empréstimos de mais de $4750. Maiores riscos de inadimplência, em relação aos demais clientes, foram observados em clientes com as seguintes características: mulheres, com taxa de juros de mais de 4% do valor do empréstimo, com poupança maior que $500, com moradia gratuita e sem bens. Menores riscos de inadimplência, em relação aos demais clientes, foram observados em clientes com os seguintes perfis: poupança superior a $500, com tempo de trabalho acima de 4 anos, com bem imóvel e moradia própria e, contraditoriamente, com atraso em pagamentos e sem poupança. Nesse artigo, foi interpretado somente o classificador Naive Bayes com seleçãode variáveis pelo Ganho de Informação, pois foi o classificador que apresentou melhor desempenho na 10

11 previsão dos clientes maus. No entanto, a interpretação dos demais classificadores pode feita através do cálculo das probabilidades condicionais de cada novo cliente pretendente ao crédito não se tornar inadimplente dada à observação de cada um dos pais da variável preditora, sem alteração nos estados das outras variáveis da rede, utilizando Inferência em RB. Essa análise pode ser muito complexa nos classificadores GBN por eles poderem apresentar nós com muitos pais. Prob. do cliente ser Prob. do cliente ser Variável Variável Preditora bom dado var. binária=0 bom dado var. binária=1 Salário < $ Sem remuneração < 9 meses Duração do empréstimo >=9meses e < 18 meses >= 36 meses Todos os empréstimos pagos pontualmente Histórico de Crédito ou sem empréstimos tomados Atraso no pagamento ou com empréstimos tomados em outras Instituições Compra de carro novo Finalidade Compra de carro usado Rádio e TV Educação Valor do Empréstimo >= $1250 e < $ >= $ Poupança do Cliente < $ >= $ Não possui ou não conhecida Tempo de Trabalho Desempregado ou < 1ano >= 4anos Taxa de juros em % do >= 4% valor do empréstimo Estado Civil e Sexo Feminino, solteira, casada, divorciada ou separada Masculino, solteiro, casado ou viúvo Bens Imóvel Não possui bens Idade < 26 anos >= 26anos e < 52 anos Outros Empréstimos Bancos e Lojas Casa Alugada Própria Moradia gratuíta Estrangeiro Sim Tabela 4 Probabilidades dos clientes se tornarem bons pagadores, dado a observação de cada variável preditora (binária), do classificador Naive Bayes com seleção de variáveis pelo Ganho de Informação 6. Conclusão e Trabalhos Futuros Nesse artigo, foram aplicados diversos classificadores bayesianos na construção de modelos de Credit Scoring. Com isso, foi observado que classificadores Naive Bayes com seleção pelo 11

12 Ganho de Informação, TAN com seleção pelo método Wrapper e GBN com aprendizado por análise de dependência apresentaram desempenho superior à Regressão Logística nas previsões dos clientes maus pagadores. Esse resultado pode ser importante para as Instituições credoras, pois o uso desses modelos pode diminuir o erro por concessões equivocadas e que possam causar prejuízos para a Instituição caso o cliente se torne inadimplente. Em trabalhos futuros é recomendado o uso da Inferência em Redes Bayesianas para a interpretação dos classificadores bayesianos e para a criação de cenários de risco de inadimplência. Além disso, também é recomendada a aplicação de outras medidas de desempenho dos modelos ajustados, como a estatística Kolmogorov-Smirnov e o coeficiente Gini. Referências AGRESTI, A. Categorical data analysis. 2 a ed. New York: Wiley, BUSSAB, W. O. & MORETTIN, P. A. Estatística Básica. 5ª ed. São Paulo: Saraiva, BAESENS, B. et al. Learning Bayesian Network Classifiers for Credit Scoring Using Markov Chain Monte Carlo Search. In: Proceedings of the 16th International Conference on Pattern Recognition (ICPR'02), Vol. 3, p.49-52, BLAKE, C. & MERZ, C. UCI repository of machine learning databases Disponível em: < Acesso em: 01 dez BUSSAB, W. O. & MORETTIN, P. A. Estatística Básica. 5ª ed. São Paulo: Saraiva, CHENG,J. & GREINER,R. Comparing Bayesian Network Classifiers. In: Proceedings of the 15th Conference on Uncertainty in Artificial Intelligence (UAI'99), p , CHENG,J. & GREINER,R. Learning Bayesian Belief Network Classifiers: Algorithms and System. In: Proceedings of 14th Biennial Conference of the Canadian Society for Computational Studies of Intelligence, Vol. 2056, p , FRIEDMAN,N.; GEIGER,D. & GOLDSZMIDT,M. Bayesian Network Classifiers. Machine Learning, Vol. 29, p , FRIEDMAN,N. & GOLDSZMIDT,M. Building Classifiers Using Bayesian Networks. In: Proceedings of Thirteenth National Conference on Artificial Intelligence (AAAI96), Vol. 2, p , HAND, D. J. & HENLEY, W. E. Statistical classification methods in consumer Credit Scoring: a review. Journal of the Royal Statistical Society: Series A (Statistics in Society), Vol. 160, n.3, p , HECKERMAN, D.; GEIGER, D. & CHICKERING, D. Learning Bayesian networks: The combination of knowledge and statistical data. Machine Learning, Vol. 20, n.3, p , JENSEN, F.V. Bayesian Networks and Decision Graphs. New York: Springer, MONTGOMERY, D. C.; PECK, E. A. & VINING, G. G. Introduction to Linear Regression Analysis. 3ª ed. New York: John Wiley, NEAPOLITAN, R.E. Learning Bayesian Networks. New Jersey: Prentice Hall, PAULA, G.A. Modelos de Regressão com Apoio ComputacionaL. São Paulo: Instituto de Matemática e Estatística Universidade São Paulo ROSA, P. T. M. Modelos de Credit Scoring: Regressão Logística, CHAID e REAL Dissertação (Mestrado) Instituto de Matemática e Estatística, Universidade São Paulo, São Paulo, WEST, D. Neural Network Credit Scoring Models. Computers and Operations Research, Vol. 27, n.11, pp , WITTEN, I. H. & FRANK, E. Data Mining: Practical Machine Learning Tools and Techniques. 2ª ed. San 12

13 Francisco: Morgan Kaufmann,