REDES BAYESIANAS APLICADAS NA ANÁLISE DO RISCO DE CRÉDITO

Tamanho: px
Começar a partir da página:

Download "REDES BAYESIANAS APLICADAS NA ANÁLISE DO RISCO DE CRÉDITO"

Transcrição

1 REDES BAYESIANAS APLICADAS NA ANÁLISE DO RISCO DE CRÉDITO Cristiane Karcher (USP) Flavio Almeida de Magalhães Cipparrone (USP) A tomada de decisão de concessão de crédito baseia-se fundamentalmente na avaliação do risco de inadimplência dos potenciais contratantes dos produtos de crédito e esse risco pode ser estimado através de modelos de Credit Scoring. Nesse traabalho, a técnica proposta para a construção de modelos de Credit Scoring é Redes Bayesianas, que aplicadas em problemas de classificação de dados, são chamadas de Classificadores Bayesianos (Bayesian Network Classifiers). Os classificadores bayesianos avaliados foram construídos utilizando uma base de dados real e seus desempenhos foram comparados ao da Regressão Logística, que é a técnica mais utilizada em Credit Scoring. Algumas metodologias de seleção de variáveis para os Classificadores Bayesianos foram avaliadas e os resultados dos modelos ajustados mostraram alguns Classificadores Bayesianos apresentaram desempenho superior ao Modelo de Regressão Logística, em relação à taxa de acerto dos clientes maus. Palavras-chaves: Redes Bayesianas, Risco de Crédito, Regressão Logística

2 1. Introdução A concessão de crédito é uma das decisões mais importantes em Instituições Financeiras e não Financeiras. Por isso, essas decisões são tomadas com base na estimativa do risco de inadimplência dos potenciais contratantes dos produtos de crédito, que são obtidas por modelos estatísticos. Os modelos muito aplicados em concessão de crédito são os de Credit Scoring, que produzem uma previsão da probabilidade de novos clientes pagarem o crédito, sem se tornar inadimplentes ou trazer prejuízo para o credor em determinado período, baseada em informações do passado da carteira de crédito. No processo de concessão de crédito essa probabilidade dá subsídios para que os proponentes ao crédito sejam classificados como bons ou maus pagadores, de acordo com um ponto de corte para a probabilidade. Inúmeras técnicas já foram aplicadas em modelos de Credit Scoring, tais como: Regressão Linear Múltipla, Análise Discriminante, Regressão Logística, Redes Neurais, Árvores de Decisão, entre outras. Rosa (2000) compara aplicações de Regressão Logística com técnicas baseadas em árvores de classificação e conclui que, apesar dos modelos baseados em árvores classificarem os clientes de forma um pouco mais precisa, a Regressão Logística, que também apresentou bons resultados, é vantajosa por apresentar fácil interpretação e por produzir como resultado uma probabilidade, o que permite a ordenação dos clientes quanto ao risco de inadimplência. West (2000) compara diversos tipos de Redes Neurais com técnicas de Regressão Logística, Análise Discriminante Linear e Árvores de Decisão, e conclui que as Redes Neurais, apesar de apresentarem acurácia maior, necessitam de um conhecimento maior para a construção sua topologia e para realizar seu treinamento. Baesens et al. (2002) aplicam Redes Bayesianas com aprendizado de estrutura por Markov Chain Monte Carlo (MCMC) e com seleção de variáveis pelo Markov Blanket da variável resposta, o que resultou em modelos parcimoniosos e poderosos para Credit Scoring. Nesse artigo será proposto um estudo comparativo da aplicação de Redes Bayesianas (RB) (NEAPOLITAN, 2004) e Regressão Logística (MONTGOMERY; PECK & VINING, 2001) na construção de modelos de Credit Scoring. As RB utilizadas foram as Bayesian Network Classifiers (FRIEDMAN; GEIGER & GOLDSZMIDT, 1997), que serão chamadas de Classificadores Bayesianos, e são utilizadas em problemas de classificação de dados. Esse artigo é complementar ao desenvolvido por Baesens et al. (2002), pois compara aplicações de Redes Bayesianas com a Regressão Logística, além de abordar diversos aprendizados de estrutura, seleção de variáveis em RB e por tratar a interpretação das RB em Credit Scoring. O trabalho é organizado em 6 seções como será descrito a seguir. Na seção Redes Bayesianas serão apresentados os principais de RB empregados nesse trabalho. Na seção seguinte, serão descritos os classificadores bayesianos aplicados, que diferem quanto à estrutura da RB empregada. Na seção Metodologia e Amostra são descritas a amostra utilizada, as metodologias de seleção de variáveis, a construção das amostras de teste e validação e as medidas de avaliação dos modelos ajustados. A análise empírica dos modelos é feita na Seção Resultados e na última seção são apresentadas as conclusões e trabalhos futuros. 2. Redes Bayesianas Por definição (JENSEN, 2001), uma RB é composta dos seguintes elementos: a) Um conjunto de variáveis e um conjunto de arestas direcionadas entre as variáveis; 2

3 b) Cada variável tem estados finitos e mutuamente exclusivos; c) As variáveis e as arestas direcionadas representam um grafo acíclico direcionado; d) Cada variável A, com pais, B 1,B 2,...,B n, possui uma tabela de probabilidades condicionais, P(A B 1,B 2,...,B n ), associada. Os nós de uma Rb representam suas variáves e se há uma aresta direcionada entre os nós A e B em uma RB, então dizemos que A é pai de B e B é filho de A. A presença de arestas entre nós da RB indica que existe uma relação de dependência entre essas variáveis. Nesse trabalho, as RB apresentadas possuem somente variáveis discretas, mas existem RB que permitem o uso de variáveis contínuas e são descritas por Neapolitan (2004). RB satisfazem a condição de Markov (NEAPOLITAN, 2004), que é dada por: cada variável da RB é condicionalmente independente do conjunto de todos os seus não-descendentes dado o conjunto de todos os seus pais. A distribuição conjunta de probabilidades das variáveis discretas, {X 1,X 2,...,X n }, de uma RB, é dada pela Regra da Cadeia, n i= 1 ( X Pa ) P( X, X,..., X = P (1) 1 2 n ) Os parâmetros de uma RB são tabelas de probabilidades condicionais dos X i dado seus pais Pa i, ou seja, Θ i =P(X i Pa i ), para i=1,2,...,n. O Markov Blanket de uma variável X é o conjunto das variáveis que são pais de X, filhos de X e que compartilham um filho com X (JENSEN, 2001). Com isso, em uma RB, qualquer variável é influenciada diretamente somente pelas variáveis que compõe o seu Markov Blanket e, portanto, o conceito de Markov Blanket pode ser utilizado para seleção de variáveis em uma RB. No exemplo da Figura 1, o Markov Blanket de I é {C, E, K, L, H}. i i Figura 1 - Exemplo de Rede Bayesiana A estrutura e os parâmetros de uma RB podem ser obtidos de duas maneiras: a partir de informações de especialistas, através do aprendizado a partir de uma base de dados ou combinando as duas abordagens. Nesse trabalho será utilizado o aprendizado a partir de uma base de dados. Com isso, o aprendizado de parâmetros a partir de uma base de dados será feito pela simples contagem de 3

4 freqüências (NEAPOLITAN, 2004) e o aprendizado de estrutura será feito utilizando duas abordagens: CI-Based (CHENG & GREINER, 1999, 2001) e Score-Based (HECKERMAN, 1995). Além desses aprendizados mencionados existem outras outras metodologias descritas por Neapolitan (2004). Nos aprendizados de estrutura CI-Based (Conditional Independence-based), a estrutura da RB é obtida por análise de dependência entre os nós. Nesse aprendizado, as relações de dependência entre os nós (variáveis) são avaliadas através de testes de independência condicional, como qui-quadrado ou informação mútua, e são criadas arestas para as dependências mais relevantes. Os aprendizados de estrutura Score-based (HECKERMAN, 1995) consistem em introduzir uma medida (score), que avalie o quanto cada possível estrutura da rede explica os dados, e um método de busca de uma estrutura com mais alto valor para essa medida. As medidas utilizadas foram: MDL, AIC e Bayes (WITTEN & FRANK, 2005) e para a busca de uma estrutura, foi utilizado o algoritmo Hill Climbing (WITTEN & FRANK, 2005), que consiste em adicionar e remover arestas sem uma ordem fixa para os nós. 3. Classificadores Bayesianos Os Classificadores Bayesianos utilizados nesse artigo são: Naive Bayes, Tree Augmented Naive Bayes (TAN) e General Bayesian Network Classifier (GBN). Eles possuem somente variáveis discretas {A 1,A 2,...,A n,c}, das quais uma, C, é a variável resposta (classe) e as demais, {A 1,A 2,...,A n }, são as variáveis preditoras (atributos). O classificador Naive Bayes (FRIEDMAN; GEIGER & GOLDSZMIDT, 1997) é o mais simples conhecido e possui a hipótese de que todas as variáveis preditoras são independentes, dado a variável resposta. Um exemplo do classificador Naive Bayes é apresentado na Figura 2. Figura 2 Exemplo da estrutura do Classificador Naive Bayes O classificador TAN foi proposto por Friedman, Geiger e Goldszmidt (1997) e possibilita representar dependências entre pares de variáveis preditoras, com isso, na RB, as variáveis preditoras devem ser representadas pela estrutura de uma árvore. O classificador TAN é uma extensão do Naive Bayes, pois permite o relaxamento da hipótese de independência condicional entre variáveis preditoras, dado a variável resposta. Um exemplo do classificador TAN é apresentado na Figura 3. 4

5 Figura 3 Exemplo da estrutura de um Classificador TAN Muitas relações de dependência entre as variáveis preditoras não podem ser representadas nem mesmo por estruturas tipo TAN. Para esses casos é necessário à construção de modelos mais complexos que permitam que cada nó da rede (exceto a variável resposta) tenha um número arbitrário de pais. Para essas situações, existe o classificador GBN (CHENG & GREINER, 1999), que é Rede Bayesiana Irrestrita, ou seja, uma Rede na qual cada variável pode apresentar um número arbitrário de pais e a variável resposta não necessariamente é pai de todas as demais variáveis. Um exemplo do classificador GBN é apresentado na Figura Metodologia e Amostra 4.1 Amostra Figura 4 - Estrutura de um Classificador GBN A base de dados de de créditos concedidos utilizada nesse trabalho foi a German Credit, está disponível no Repositório UCI Machine Learning (BLAKE & MERZ, 1998). Os dados contêm 1000 clientes proponentes ao crédito, dos quais 700 foram previamente classificados como bons pagadores e 300 foram previamente classificados como maus pagadores. O critério de classificação dos clientes não foi divulgado. A classificação dos clientes, de acordo com o risco de inadimplência, será a variável resposta, chamada Situação do Cliente e possui categorias bom e mau. Os dados apresentavam 20 variáveis preditoras, categóricas ou contínuas, que representam as informações pessoais e financeiras fornecidas pelos clientes e que possam influenciar na capacidade do cliente em pagar este crédito. A amostra utilizada nos ajustes dos modelos foi obtida através do esquema de Amostragem Retrospectiva (PAULA, 2004). Esse esquema foi adotado, para que a diferença entre os tamanhos das amostras de clientes bons e maus não criasse nenhum viés nos modelos ajustados, ou seja, para evitar que o modelo final seja bom para discriminar os clientes bons, porém ineficiente para discriminar os maus (ROSA, 2000). A amostragem consistiu em manter a amostra de clientes maus, com 300 clientes, e selecionar aleatoriamente uma amostra de mesmo tamanho de clientes bons. 5

6 O uso da amostragem retrospectiva requer também que o intercepto do modelo de Regressão Logística seja re-calculado e que a distribuição da variável resposta nas RB seja substituída pela da amostra. 4.2 Tratamento das Variáveis As variáveis contínuas dos dados foram categorizadas, pois os modelos ajustados tratam somente variáveis discretas (ou categóricas) e para facilitar a interpretação dos seus parâmetros. As variávies categóricas com muitos estados também tiveram alguns estados agrupados, para evitar que existam categorias com um número muito pequeno de observações, o que pode prejudicar a estimação dos parâmetros dos modelos. O procedimento de categorização e agrupamento de estados é descrito por Hand e Henley (1997) e por Rosa (2000), e se baseia no Risco Relativo (Odds Ratio) (AGRESTI, 2002). Para as variáveis contínuas, a categorização consistiu em, inicialmente, obter os decis (percentis de ordem 10%) (BUSSAB & MORETTIN, 2002) das variáveis preditoras e, para cada decil, foi obtida a distribuição de bons e maus clientes e calculada a razão entre bons e maus, o chamado risco relativo. Os decis que apresentaram risco relativo semelhante foram re-agrupados para diminuir o número de categorias da variável. Para o agrupamento de estados das variáveis categóricas foi calculado o risco relativo de cada estado e foram reagrupados os estados com risco relativo semelhante. Posteriormente, as variáveis categóricas foram transformadas em variáveis binárias (dummy) pois, o uso das mesmas contribuiu para uma melhora na assertividade dos modelos ajustados. O procedimento resultou em 55 variáveis preditoras binárias. 4.3 Amostras de Teste e Validação A construção das amostras de teste e de validação foi feita utilizando Cross-Validation (WITTEN & FRANK, 2005), o que consistiu em dividir aleatoriamente todos os clientes da base de dados em 10 partições amostrais de tamanhos iguais, as quais formaram 10 conjuntos com 9 partições para a amostra de teste e 1 para validação do modelo. Esse procedimento foi vantajoso para essa base de dados, pois todos os clientes foram utilizados tanto para o desenvolvimento dos modelos quanto para a validação, além dos modelos serem desenvolvidos com uma alta proporção de observações da base de dados. 4.4 Seleção de Variáveis Procedimentos de seleção de variáveis foram adotados, para que fossem eliminadas variáveis redundantes que pudessem reduzir a eficiência da previsão dos modelos ajustados. Para o modelo de Regressão Logística foi utilizado o procedimento Forward Stepwise (PAULA, 2004) do software livre R. Para os classificadores Naive Bayes e TAN, foram utilizados: procedimento Backward baseado no Ganho de Informação (Information Gain) das variáveis preditoras em relação à variável resposta (WITTEN & FRANK, 2005) e o método Wrapper (WITTEN & FRANK, 2005). O procedimento Backward consistiu em ordenar as variáveis preditoras por ganho de informação em relação à variável resposta e, partindo do modelo saturado (com todas as variáveis), cada variável com menor contribuição foi retirada, sem que isso prejudicasse a assertividade das previsões dos modelos Naive Bayes e TAN. O método Wrapper utiliza o próprio modelo de classificação para avaliar o conjunto de variáveis preditoras e utiliza Cross-validation para estimar a acurácia do esquema de aprendizagem para cada conjunto avaliado. Nos classificadores GBN foram selecionadas as variáveis do Markov Blanket da variável resposta. As seleções de variáveis dos classificadores bayesianos 6

7 foi feita no software livre WEKA. 4.5 Medidas de Avaliação dos Modelos As medidas utilizadas para avaliar e comparar os modelos ajustados foram taxas de acerto, obtidas da Matriz de Confusão (Tabela 1), e a medida AUC (Area Under Curve), que é a área de baixo da curva ROC (Receiver Operating Characteristic) (WITTEN & FRANK, 2005) de um modelo ajustado e assume valores entre 0 e 1. As taxas de acerto são definidas como, Taxa de acerto total: TAT = (n 11 +n 22 )/n.. Taxa de acerto dos maus : TAM = (n 11 )/n 1. Taxa de acerto dos bons : TAB = (n 22 ) / n 2. Para classificar os clientes, como bons ou maus, foi utilizado um ponto de corte de 0.5 para a probabilidade prevista do cliente ser bom, portanto, se a probabilidade prevista fosse maior que 0.5, o cliente foi classificado como bom, caso contrário, como mau. 7

8 Observado Previsto Total mau bom mau n 11 n 12 n 1. bom n 21 n 22 n 2. Total n. 1 n. 2 n.. Fonte: Trabalho de Rosa (2000) Tabela 1 - Tabela de Classificação em que, n.1 = n 11 + n 21 ; n.2 = n 12 + n 22 ; n 1. = n 11 + n 12 ; n 2. = n 21 + n 22 ; n.. = n 11 + n 12 + n 21 + n Resultados Nessa Seção apresentaremos os resultados das aplicações dos classificadores bayesianos Naive Bayes, TAN e GBN e da Regressão Logística. Os modelos ajustados tiveram seleções de variáveis para a retirada de variáveis redundantes. A seleção de variáveis aplicada na Regressão Logística foi Forward Stepwise, nos classificadores Naive Bayes foram pelo Ganho de Informação e pelo método Wrapper e nos classificadores GBN foram selecionadas as variáveis do Markov Blanket da variável resposta (Situação do Cliente). No aprendizado de estrutura dos classificadores TAN e GBN foram empregadas as medidas MDL, AIC e Bayes e, um classificador GBN teve aprendizado de estrutura por análise de dependência. As amostras de teste e de validação foram construídas por Cross-Validation. O software livre utilizado para a construção dos classificadores bayesianos foi o WEKA, desenvolvido na Universidade de Waikato na Nova Zelândia para tarefas de Data Mining, e para o ajuste do modelo de Regressão Logística foi utilizado o software R. Na Tabela 2, são apresentados as taxas de acerto, medida AUC e número de variáveis de todos os modelos ajustados e que foram obtidas das amostras de validação. Modelo Seleção de Aprendizado de Nº de TAT TAB TAM AUC Variáveis Estrutura Variáveis Regressão Logística Forward Stepwise % 73.0% 74.3% 78.7% 20 Naive Bayes Modelo Saturado % 71.0% 76.0% 79.3% 56 Naive Bayes Ganho de Informação % 71.7% 77.3% 80.1% 31 Naive Bayes Wrapper % 74.0% 75.0% 77.3% 15 TAN Ganho de Informação MDL 72.5% 71.3% 73.7% 78.5% 31 TAN Ganho de Informação Bayes 72.5% 71.0% 74.0% 78.7% 31 TAN Ganho de Informação AIC 72.2% 71.0% 73.3% 78.8% 31 TAN Wrapper MDL 73.8% 73.0% 74.7% 78.6% 45 TAN Wrapper Bayes 73.0% 74.3% 71.7% 78.7% 36 TAN Wrapper AIC 73.8% 73.0% 74.7% 78.6% 45 GBN Markov Blanket MDL 71.3% 67.7% 75.0% 76.5% 13 GBN Markov Blanket Bayes 71.0% 68.7% 73.3% 79.1% 35 GBN Markov Blanket AIC 72.0% 70.7% 73.3% 78.9% 39 GBN Markov Blanket Análise de Dependência 68.5% 61.7% 75.3% 75.1% 39 Fonte: Análise dos autores Tabela 2 Medidas de classificação correta, AUC e número de variáveis dos modelos ajustados As taxas de acerto indicam que os classificadores Naive Bayes e TAN, com aprendizados utilizando MDL e AIC, apresentaram maiores assertividades nas previsões dos clientes maus (TAM) do que o modelo de Regressão Logística. Todos os outros classificadores 8

9 bayesianos apresentaram valores equivalentes aos da Regressão Logística para as taxas de acerto total e de acerto nas previsões dos clientes bons e medida AUC, exceto os classificadores GBN apresentaram desempenho inferior na assertividade total e das previsões dos clientes bons. O classificador GBN com aprendizado de estrutura por análise de dependência, apresentou assertividade na previsão dos clientes maus e medida AUC superiores às observadas na Regressão Logística, o que não se observou nas taxas de acerto nas previsões dos clientes bons e medida AUC. Esse resultado é esperado, pois o aprendizado por análise de dependência tem como objetivo obter a melhor estrutura de dependência entre variáveis, que pode não ser a mais assertiva nas previsões de novas observações, mas contém informações sobre a dependência entre as variáveis do estudo. O desempenho dos classificadores TAN e GBN poderia ser melhorado se houvesse uma base de dados com maior número de observações, pois esses classificadores avaliam relações entre um grande número de variáveis preditoras, o que requer uma base de dados grande. Bases de dados grandes, com milhares de créditos concedidos, podem ser encontradas comumente em Instituições Financeiras. A superioridade das taxas de acerto nas previsões dos clientes maus obtida nos classificadores Naive Bayes com seleção pelo Ganho de Informação, TAN com seleção pelo método Wrapper e GBN por análise de dependência, é um resultado interessante do ponto de vista da Instituição que concede crédito, pois o uso desses modelos pode diminuir o erro de concessões de crédito equivocadas. Os coeficientes estimados do modelo de Regressão Logística e respectivos, erro padrão, estatística z e p-valor, são apresentados na Tabela 3. As interpretações, feitas a seguir, consideram que os coeficientes podem ser interpretados como o aumento (ou redução) na probabilidade do cliente não se tornar inadimplente, dado o acréscimo de uma unidade na variável preditora (binária) e sem considerar a variação das demais variáveis (MONTGOMERY; PECK & VINING, 2001). As estimativas dos coeficientes do modelo ajustado de Regressão Logística indicam que clientes com empréstimos para educação apresentaram maior risco de inadimplência do que os demais, seguidos dos clientes com empréstimos para a compra de carro novo. As características que contribuíram para maiores riscos de inadimplência, em relação aos demais clientes, foram: salário inferior a $200, poupança inferior a $500, co-aplicação em outros empréstimos, moradia alugada. Adicionalmente, as características dos clientes contribuíram para maiores probabilidades de se tornarem bons pagadores foram: empréstimos de duração inferior a 9 meses, idade entre 26 e 52 anos, com empréstimos em bancos e lojas e estrangeiro. 9

10 Variável Coeficiente Erro Padrão Estatística z p-valor Intercepto Salário < $ >= $ < 9 meses Duração do >=9meses e < 18 meses empréstimo >= 18 meses e < 36 meses Todos os empréstimos pagos pontualmente Histórico de ou sem empréstimos tomados Crédito Existem empréstimos pagos pontualmente ou com histórico de atraso no pagamento Compra de carro novo Móveis e utensílios domésticos Finalidade Rádio e TV Reforma Educação Negócios Poupança do Cliente < $ Outras dívidas Nenhuma ou garantias Co-aplicante Idade >= 26anos e < 52 anos Outros Empréstimos Bancos e Lojas Casa Alugada Estrangeiro Sim Fonte: Análise dos autores Tabela 3 Estimativas dos coeficientes, erro padrão, estatística z e p-valor do modelo de Regressão Logística utilizando Forward Stepwise Na Tabela 4, a seguir, serão apresentadas as probabilidades condicionais de cada novo cliente não se tornar inadimplente dado à observação das variáveis preditoras (binárias), sem que haja alteração nos estados das demais variáveis, do classificador Naive Bayes com seleção de variáveis pelo Ganho de Informação. Essas probabilidades condicionais informam o aumento na probabilidade do cliente não se tornar inadimplente, dada à observação de uma característica do cliente (variável binária). As probabilidades condicionais foram obtidas através de Inferências nas RB dos classificadores (NEAPOLITAN, 2004). Adicionalmente aos resultados da Regressão Logística ajustada, podemos observar no classificador Naive Bayes, que clientes com empréstimos entre $1250 e $4750 apresentam maior probabilidade de se tornarem bons do que os demais clientes e, o contrário, ocorre nos clientes com empréstimos de mais de $4750. Maiores riscos de inadimplência, em relação aos demais clientes, foram observados em clientes com as seguintes características: mulheres, com taxa de juros de mais de 4% do valor do empréstimo, com poupança maior que $500, com moradia gratuita e sem bens. Menores riscos de inadimplência, em relação aos demais clientes, foram observados em clientes com os seguintes perfis: poupança superior a $500, com tempo de trabalho acima de 4 anos, com bem imóvel e moradia própria e, contraditoriamente, com atraso em pagamentos e sem poupança. Nesse artigo, foi interpretado somente o classificador Naive Bayes com seleçãode variáveis pelo Ganho de Informação, pois foi o classificador que apresentou melhor desempenho na 10

11 previsão dos clientes maus. No entanto, a interpretação dos demais classificadores pode feita através do cálculo das probabilidades condicionais de cada novo cliente pretendente ao crédito não se tornar inadimplente dada à observação de cada um dos pais da variável preditora, sem alteração nos estados das outras variáveis da rede, utilizando Inferência em RB. Essa análise pode ser muito complexa nos classificadores GBN por eles poderem apresentar nós com muitos pais. Prob. do cliente ser Prob. do cliente ser Variável Variável Preditora bom dado var. binária=0 bom dado var. binária=1 Salário < $ Sem remuneração < 9 meses Duração do empréstimo >=9meses e < 18 meses >= 36 meses Todos os empréstimos pagos pontualmente Histórico de Crédito ou sem empréstimos tomados Atraso no pagamento ou com empréstimos tomados em outras Instituições Compra de carro novo Finalidade Compra de carro usado Rádio e TV Educação Valor do Empréstimo >= $1250 e < $ >= $ Poupança do Cliente < $ >= $ Não possui ou não conhecida Tempo de Trabalho Desempregado ou < 1ano >= 4anos Taxa de juros em % do >= 4% valor do empréstimo Estado Civil e Sexo Feminino, solteira, casada, divorciada ou separada Masculino, solteiro, casado ou viúvo Bens Imóvel Não possui bens Idade < 26 anos >= 26anos e < 52 anos Outros Empréstimos Bancos e Lojas Casa Alugada Própria Moradia gratuíta Estrangeiro Sim Tabela 4 Probabilidades dos clientes se tornarem bons pagadores, dado a observação de cada variável preditora (binária), do classificador Naive Bayes com seleção de variáveis pelo Ganho de Informação 6. Conclusão e Trabalhos Futuros Nesse artigo, foram aplicados diversos classificadores bayesianos na construção de modelos de Credit Scoring. Com isso, foi observado que classificadores Naive Bayes com seleção pelo 11

12 Ganho de Informação, TAN com seleção pelo método Wrapper e GBN com aprendizado por análise de dependência apresentaram desempenho superior à Regressão Logística nas previsões dos clientes maus pagadores. Esse resultado pode ser importante para as Instituições credoras, pois o uso desses modelos pode diminuir o erro por concessões equivocadas e que possam causar prejuízos para a Instituição caso o cliente se torne inadimplente. Em trabalhos futuros é recomendado o uso da Inferência em Redes Bayesianas para a interpretação dos classificadores bayesianos e para a criação de cenários de risco de inadimplência. Além disso, também é recomendada a aplicação de outras medidas de desempenho dos modelos ajustados, como a estatística Kolmogorov-Smirnov e o coeficiente Gini. Referências AGRESTI, A. Categorical data analysis. 2 a ed. New York: Wiley, BUSSAB, W. O. & MORETTIN, P. A. Estatística Básica. 5ª ed. São Paulo: Saraiva, BAESENS, B. et al. Learning Bayesian Network Classifiers for Credit Scoring Using Markov Chain Monte Carlo Search. In: Proceedings of the 16th International Conference on Pattern Recognition (ICPR'02), Vol. 3, p.49-52, BLAKE, C. & MERZ, C. UCI repository of machine learning databases Disponível em: < Acesso em: 01 dez BUSSAB, W. O. & MORETTIN, P. A. Estatística Básica. 5ª ed. São Paulo: Saraiva, CHENG,J. & GREINER,R. Comparing Bayesian Network Classifiers. In: Proceedings of the 15th Conference on Uncertainty in Artificial Intelligence (UAI'99), p , CHENG,J. & GREINER,R. Learning Bayesian Belief Network Classifiers: Algorithms and System. In: Proceedings of 14th Biennial Conference of the Canadian Society for Computational Studies of Intelligence, Vol. 2056, p , FRIEDMAN,N.; GEIGER,D. & GOLDSZMIDT,M. Bayesian Network Classifiers. Machine Learning, Vol. 29, p , FRIEDMAN,N. & GOLDSZMIDT,M. Building Classifiers Using Bayesian Networks. In: Proceedings of Thirteenth National Conference on Artificial Intelligence (AAAI96), Vol. 2, p , HAND, D. J. & HENLEY, W. E. Statistical classification methods in consumer Credit Scoring: a review. Journal of the Royal Statistical Society: Series A (Statistics in Society), Vol. 160, n.3, p , HECKERMAN, D.; GEIGER, D. & CHICKERING, D. Learning Bayesian networks: The combination of knowledge and statistical data. Machine Learning, Vol. 20, n.3, p , JENSEN, F.V. Bayesian Networks and Decision Graphs. New York: Springer, MONTGOMERY, D. C.; PECK, E. A. & VINING, G. G. Introduction to Linear Regression Analysis. 3ª ed. New York: John Wiley, NEAPOLITAN, R.E. Learning Bayesian Networks. New Jersey: Prentice Hall, PAULA, G.A. Modelos de Regressão com Apoio ComputacionaL. São Paulo: Instituto de Matemática e Estatística Universidade São Paulo ROSA, P. T. M. Modelos de Credit Scoring: Regressão Logística, CHAID e REAL Dissertação (Mestrado) Instituto de Matemática e Estatística, Universidade São Paulo, São Paulo, WEST, D. Neural Network Credit Scoring Models. Computers and Operations Research, Vol. 27, n.11, pp , WITTEN, I. H. & FRANK, E. Data Mining: Practical Machine Learning Tools and Techniques. 2ª ed. San 12

13 Francisco: Morgan Kaufmann,

Classificação de dados em modelos com resposta binária via algoritmo boosting e regressão logística

Classificação de dados em modelos com resposta binária via algoritmo boosting e regressão logística Classificação de dados em modelos com resposta binária via algoritmo boosting e regressão logística Gilberto Rodrigues Liska 1 5 Fortunato Silva de Menezes 2 5 Marcelo Ângelo Cirillo 3 5 Mario Javier Ferrua

Leia mais

Aprendizado de Semi-Supervisionado de Classificadores Bayesianos Utilizando Testes de Independência

Aprendizado de Semi-Supervisionado de Classificadores Bayesianos Utilizando Testes de Independência Aprendizado de Semi-Supervisionado de Classificadores Bayesianos Utilizando Testes de Independência Marcelo C. Cirelo 1, Fabio G. Cozman 1 1 Escola Politécnica da Universidade de São Paulo Av. Prof. Luciano

Leia mais

Análise Multivariada Aplicada à Contabilidade

Análise Multivariada Aplicada à Contabilidade Mestrado e Doutorado em Controladoria e Contabilidade Análise Multivariada Aplicada à Contabilidade Prof. Dr. Marcelo Botelho da Costa Moraes www.marcelobotelho.com mbotelho@usp.br Turma: 2º / 2016 1 Agenda

Leia mais

Classificação e Predição de Dados - Profits Consulting - Consultoria Empresarial - Serviços SAP- CRM Si

Classificação e Predição de Dados - Profits Consulting - Consultoria Empresarial - Serviços SAP- CRM Si Classificação e Predição de Dados - Profits Consulting - Consultoria Empresarial - Serviços SAP- CRM Si Classificação de Dados Os modelos de classificação de dados são preditivos, pois desempenham inferências

Leia mais

Introdução ao tema das Redes Bayesianas

Introdução ao tema das Redes Bayesianas Introdução ao tema das Redes Bayesianas Seminário de Modelação Cátia Azevedo 25/01/2013 Índice Introdução Redes Bayesianas Aprendizagem Bayesiana Teorema de Bayes Distribuição de probabilidade conjunta

Leia mais

WEKA: Prática Carregando a base de dados no Weka

WEKA: Prática Carregando a base de dados no Weka WEKA: Prática 2 1. Introdução O objetivo desta prática é utilizar a ferramenta Weka para comparar dois algoritmos de aprendizagem de máquina em um problema de detecção de SPAM. Os algoritmos a serem comparados

Leia mais

MINISTÉRIO DA EDUCAÇÃO UNIVERSIDADE FEDERAL DE LAVRAS

MINISTÉRIO DA EDUCAÇÃO UNIVERSIDADE FEDERAL DE LAVRAS MINISTÉRIO DA EDUCAÇÃO UNIVERSIDADE FEDERAL DE LAVRAS PRÓ-REITORIA DE GRADUAÇÃO EMENTA E CONTEÚDO PROGRAMÁTICO Carga horária Código Denominação Créditos ( ) Teórica Prática Total GEX112 Estatística 04

Leia mais

Seleção de Atributos 1

Seleção de Atributos 1 Seleção de Atributos 1 Tópicos Por que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Seleção de atributos antes do aprendizado Benefícios Abordagens automáticas

Leia mais

Estudo Comparativo sobre Seleção de Variáveis em Classificação Supervisionada

Estudo Comparativo sobre Seleção de Variáveis em Classificação Supervisionada Estudo Comparativo sobre Seleção de Variáveis em Classificação Supervisionada Ana Sousa Ferreira 1 Anabela Marques 2 1 Faculdade de Psicologia, Universidade de Lisboa e Bussiness Research Unit IUL 2 Escola

Leia mais

Aprendizado Bayesiano Anteriormente...

Aprendizado Bayesiano Anteriormente... Aprendizado Bayesiano Anteriormente... Conceito de Probabilidade Condicional É a probabilidade de um evento A dada a ocorrência de um evento B Universidade de São Paulo Instituto de Ciências Matemáticas

Leia mais

Disciplina de Modelos Lineares

Disciplina de Modelos Lineares Disciplina de Modelos Lineares 2012-2 Seleção de Variáveis Professora Ariane Ferreira Em modelos de regressão múltipla é necessário determinar um subconjunto de variáveis independentes que melhor explique

Leia mais

18º Congresso de Iniciação Científica INCORPORAÇÃO DA TAREFA DE CLASSIFICAÇÃO NA FERRAMENTA DE MINERAÇÃO DE DADOS KIRA

18º Congresso de Iniciação Científica INCORPORAÇÃO DA TAREFA DE CLASSIFICAÇÃO NA FERRAMENTA DE MINERAÇÃO DE DADOS KIRA 18º Congresso de Iniciação Científica INCORPORAÇÃO DA TAREFA DE CLASSIFICAÇÃO NA FERRAMENTA DE MINERAÇÃO DE DADOS KIRA Autor(es) MIRELA TEIXEIRA CAZZOLATO Orientador(es) MARINA TERESA PIRES VIEIRA Apoio

Leia mais

UNIVERSIDADE FEDERAL DE LAVRAS DISCIPLINA

UNIVERSIDADE FEDERAL DE LAVRAS DISCIPLINA UNIVERSIDADE FEDERAL DE LAVRAS PRÓ-REITORIA DE PÓS-GRADUAÇÃO COORDENADORIA DE PÓS-GRADUAÇÃO STRICTO SENSU DISCIPLINA Carga horária Código Denominação Créditos ( ) Teórica Prática Total PEX502 Estatística

Leia mais

19 Congresso de Iniciação Científica INCLUSÃO DE UM NOVO ALGORITMO DE CLASSIFICAÇÃO NA FERRAMENTA KIRA

19 Congresso de Iniciação Científica INCLUSÃO DE UM NOVO ALGORITMO DE CLASSIFICAÇÃO NA FERRAMENTA KIRA 19 Congresso de Iniciação Científica INCLUSÃO DE UM NOVO ALGORITMO DE CLASSIFICAÇÃO NA FERRAMENTA KIRA Autor(es) MIRELA TEIXEIRA CAZZOLATO Orientador(es) MARINA TERESA PIRES VIEIRA Apoio Financeiro PIBIC/CNPQ

Leia mais

diferença não aleatória na distribuição dos fatores de risco entre os dois grupos

diferença não aleatória na distribuição dos fatores de risco entre os dois grupos Confundimento erro devido a uma diferença não aleatória na distribuição dos fatores de risco entre os dois grupos. A variável de confundimento está distribuída desigualmente entre os grupos comparados.

Leia mais

SME o semestre de Prof. Cibele Russo

SME o semestre de Prof. Cibele Russo SME0122 Introdução à Inferência Estatística 2 o semestre de 2011 Prof. Cibele Russo cibele@icmc.usp.br http://www.icmc.usp.br/ cibele Sala 3-162, ramal 6618 Aulas: Quartas e sextas-feiras das 8h10 às 9h50

Leia mais

Mensurando o Risco de Micro e Pequenas Empresas. Fabio Wendling M. de Andrade

Mensurando o Risco de Micro e Pequenas Empresas. Fabio Wendling M. de Andrade Mensurando o Risco de Micro e Pequenas Empresas Fabio Wendling M. de Andrade Agenda O perfil das MPEs O que é importante no crédito para MPEs Metodologia de quantificação de risco de MPEs Gerenciamento

Leia mais

Análise de dados, tipos de amostras e análise multivariada

Análise de dados, tipos de amostras e análise multivariada Les-0773: ESTATÍSTICA APLICADA III Análise de dados, tipos de amostras e análise multivariada AULA 1 12/05/17 Prof a Lilian M. Lima Cunha Maio de 2017 Introdução O que significa o termo estatística? No

Leia mais

PÓS-GRADUAÇÃO ANÁLISE DE DATA MINING

PÓS-GRADUAÇÃO ANÁLISE DE DATA MINING PÓS-GRADUAÇÃO ANÁLISE DE DATA MINING OBJETIVOS Na era da informação, as empresas capturam e armazenam muitos dados, e existe a real necessidade da aplicação de técnicas adequadas para a rápida tomada de

Leia mais

SERVIÇO PÚBLICO FEDERAL MINISTÉRIO DA EDUCAÇÃO UNIVERSIDADE FEDERAL RURAL DO SEMI-ÁRIDO PRO-REITORIA DE GRADUAÇÃO PROGRAMA GERAL DE DISCIPLINA

SERVIÇO PÚBLICO FEDERAL MINISTÉRIO DA EDUCAÇÃO UNIVERSIDADE FEDERAL RURAL DO SEMI-ÁRIDO PRO-REITORIA DE GRADUAÇÃO PROGRAMA GERAL DE DISCIPLINA SERVIÇO PÚBLICO FEDERAL MINISTÉRIO DA EDUCAÇÃO UNIVERSIDADE FEDERAL RURAL DO SEMI-ÁRIDO PRO-REITORIA DE GRADUAÇÃO PROGRAMA GERAL DE DISCIPLINA IDENTIFICAÇÃO (20140206) CURSOS A QUE ATENDE MEDICINA VETERINARIA

Leia mais

PREFERÊNCIA DO CONSUMIDOR: UM ESTUDO DE CASO COM APLICAÇÃO DE ANÁLISE CONJUNTA E MODELOS DE REGRESSÃO

PREFERÊNCIA DO CONSUMIDOR: UM ESTUDO DE CASO COM APLICAÇÃO DE ANÁLISE CONJUNTA E MODELOS DE REGRESSÃO PREFERÊNCIA DO CONSUMIDOR: UM ESTUDO DE CASO COM APLICAÇÃO DE ANÁLISE CONJUNTA E MODELOS DE REGRESSÃO Gustavo Rocha Aquino González 1 Ana Paula Barbosa Sobral 2 Jane Azevedo da Silva 3 Raquel Campanate

Leia mais

INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E tecnologia PARAÍBA. Ministério da Educação

INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E tecnologia PARAÍBA. Ministério da Educação INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E tecnologia PARAÍBA Ministério da Educação Instituto Federal de Educação, Ciência e Tecnologia da Paraíba - Campus Cajazeiras Diretoria de Ensino / Coord. do Curso

Leia mais

MESTRADO EM INFORMÁTICA MÉDICA UNIDADE CURRICULAR DE SISTEMAS DE ESTUDO COMPARATIVO O DE 2009

MESTRADO EM INFORMÁTICA MÉDICA UNIDADE CURRICULAR DE SISTEMAS DE ESTUDO COMPARATIVO O DE 2009 FACULDADE DE MEDICINA DA UNIVERSIDADEE DO PORTOO M MESTRADO EM INFORMÁTICA MÉDICA UNIDADE CURRICULAR DE SISTEMAS DE APOIO À DECISÃO CLÍNICA ESTUDO COMPARATIVO DE TRÊS ALGORITMOS DE MACHINE LEARNING NA

Leia mais

Ajustar Técnica usada na análise dos dados para controlar ou considerar possíveis variáveis de confusão.

Ajustar Técnica usada na análise dos dados para controlar ou considerar possíveis variáveis de confusão. Glossário Ajustar Técnica usada na análise dos dados para controlar ou considerar possíveis variáveis de confusão. Análise de co-variância: Procedimento estatístico utilizado para análise de dados que

Leia mais

Combinação de Classificadores (fusão)

Combinação de Classificadores (fusão) Combinação de Classificadores (fusão) André Tavares da Silva andre.silva@udesc.br Livro da Kuncheva Roteiro Sistemas com múltiplos classificadores Fusão por voto majoritário voto majoritário ponderado

Leia mais

DCBD. Avaliação de modelos. Métricas para avaliação de desempenho. Avaliação de modelos. Métricas para avaliação de desempenho...

DCBD. Avaliação de modelos. Métricas para avaliação de desempenho. Avaliação de modelos. Métricas para avaliação de desempenho... DCBD Métricas para avaliação de desempenho Como avaliar o desempenho de um modelo? Métodos para avaliação de desempenho Como obter estimativas confiáveis? Métodos para comparação de modelos Como comparar

Leia mais

Les Estatística Aplicada II AMOSTRA E POPULAÇÃO

Les Estatística Aplicada II AMOSTRA E POPULAÇÃO Les 0407 - Estatística Aplicada II AMOSTRA E POPULAÇÃO AULA 1 04/08/16 Prof a Lilian M. Lima Cunha Agosto de 2016 Estatística 3 blocos de conhecimento Estatística Descritiva Levantamento e resumo de dados

Leia mais

Classificação supervisionada baseada em árvore geradora mínima

Classificação supervisionada baseada em árvore geradora mínima Classificação supervisionada baseada em árvore geradora mínima Letícia Cavalari Pinheiro 1,3 Renato Martins Assunção 2 1 Introdução Classificação supervisionada é um dos problemas mais estudados na área

Leia mais

Agregação de Algoritmos de Aprendizado de Máquina (AM) Professor: Eduardo R. Hruschka Estagiário PAE: Luiz F. S. Coletta

Agregação de Algoritmos de Aprendizado de Máquina (AM) Professor: Eduardo R. Hruschka Estagiário PAE: Luiz F. S. Coletta Agregação de Algoritmos de Aprendizado de Máquina (AM) Professor: Eduardo R. Hruschka Estagiário PAE: Luiz F. S. Coletta (luizfsc@icmc.usp.br) Sumário 1. Motivação 2. Bagging 3. Random Forest 4. Boosting

Leia mais

Uma Estratégia de Preparação de Dados para Aumento de Precisão de Modelos de Classificação da Produtividade de Cana-de-açucar

Uma Estratégia de Preparação de Dados para Aumento de Precisão de Modelos de Classificação da Produtividade de Cana-de-açucar Uma Estratégia de Preparação de Dados para Aumento de Precisão de Modelos de Classificação da Produtividade de Cana-de-açucar Maria das Graças J.M. Tomazela¹, Luiz Antônio Daniel¹ ¹Faculdade de Tecnologia

Leia mais

RECONHECIMENTO DE GÊNERO ATRAVÉS DA VOZ

RECONHECIMENTO DE GÊNERO ATRAVÉS DA VOZ RECONHECIMENTO DE GÊNERO ATRAVÉS DA VOZ Marcela Ribeiro Carvalho marcela@enecar.com.br IFG/Câmpus Goiânia Hipólito Barbosa Machado Filho hipolito.barbosa@ifg.edu.br IFG/Câmpus Goiânia Programa Institucional

Leia mais

INF 1771 Inteligência Artificial

INF 1771 Inteligência Artificial INF 1771 Inteligência Artificial Aula 13 K-Nearest Neighbor (KNN) 2016.1 Prof. Augusto Baffa Formas de Aprendizado Aprendizado Supervisionado Árvores de Decisão. K-Nearest Neighbor

Leia mais

Aula 9. Prof. Adilson Gonzaga

Aula 9. Prof. Adilson Gonzaga Aula 9 Prof. Adilson Gonzaga Mapeamento Atribuir uma Instância a uma classe. Cada Instância é mapeada para um elemento do conjunto de Rótulos de Classe {p,n} p positivo n negativo Atribui uma Instância

Leia mais

Prof. MSc. Herivelto Tiago Marcondes dos Santos

Prof. MSc. Herivelto Tiago Marcondes dos Santos Prof. MSc. Herivelto Tiago Marcondes dos Santos E-mail: herivelto@fatecguaratingueta.edu.br http://herivelto.wordpress.com Ementa Fundamentos da estatística. Coleta e Apresentação de dados. Medidas de

Leia mais

ANÁLISE E MODELAGEM DE DADOS LONGITUDINAIS NO R

ANÁLISE E MODELAGEM DE DADOS LONGITUDINAIS NO R Revista da Estatística UFOP, Vol II, 2012, ISSN 2237-8111, XI Encontro Mineiro de Estatística - MGEST ANÁLISE E MODELAGEM DE DADOS LONGITUDINAIS NO R Leandro Vitral Andraos 1,2, Marcel de Toledo Vieira

Leia mais

CLASSIFICADORES BAEYSIANOS

CLASSIFICADORES BAEYSIANOS CLASSIFICADORES BAEYSIANOS Teorema de Bayes 2 Frequentemente, uma informação é apresentada na forma de probabilidade condicional Probabilidade de um evento ocorrer dada uma condição Probabilidade de um

Leia mais

Alternativas para construção de classificadores de solos brasileiros

Alternativas para construção de classificadores de solos brasileiros 48 Resumos Expandidos: XII Mostra de Estagiários e Bolsistas... Alternativas para construção de classificadores de solos brasileiros Matheus Agostini Ferraciolli¹ Luiz Manoel Silva Cunha² Resumo: Este

Leia mais

INTELIGÊNCIA ARTIFICIAL

INTELIGÊNCIA ARTIFICIAL INTELIGÊNCIA ARTIFICIAL Engenharia da Computação Professor: Rosalvo Ferreira de Oliveira Neto Dados pessoais Rosalvo Ferreira de Oliveira Neto Dr. em ciência da computação (UFPE) rosalvo.oliveira@univasf.edu.br

Leia mais

SUMÁRIO. Prefácio, Espaço amostrai, Definição de probabilidade, Probabilidades finitas dos espaços amostrais fin itos, 20

SUMÁRIO. Prefácio, Espaço amostrai, Definição de probabilidade, Probabilidades finitas dos espaços amostrais fin itos, 20 SUMÁRIO Prefácio, 1 3 1 CÁLCULO DAS PROBABILIDADES, 15 1.1 Introdução, 15 1.2 Caracterização de um experimento aleatório, 15 1.3 Espaço amostrai, 16 1.4 Evento, 17 1.5 Eventos mutuamente exclusivos, 17

Leia mais

Aprendizado Bayesiano

Aprendizado Bayesiano Aprendizado Bayesiano Marcelo K. Albertini 3 de Julho de 2014 2/1 Conteúdo Aprendizado Naive Bayes Exemplo: classificação de texto Redes Bayesiana Algoritmo EM Regressão probabiĺıstica 3/1 Classificador

Leia mais

Um Estudo Sobre a Efetividade do Método de Imputação Baseado no Algoritmo k-vizinhos Mais Próximos

Um Estudo Sobre a Efetividade do Método de Imputação Baseado no Algoritmo k-vizinhos Mais Próximos Um Estudo Sobre a Efetividade do Método de Imputação Baseado no Algoritmo k-vizinhos Mais Próximos Gustavo Enrique de Almeida Prado Alves Batista Maria Carolina Monard Laboratório de Inteligência Computacional

Leia mais

AULA 09 Regressão. Ernesto F. L. Amaral. 17 de setembro de 2012

AULA 09 Regressão. Ernesto F. L. Amaral. 17 de setembro de 2012 1 AULA 09 Regressão Ernesto F. L. Amaral 17 de setembro de 2012 Faculdade de Filosofia e Ciências Humanas (FAFICH) Universidade Federal de Minas Gerais (UFMG) Fonte: Triola, Mario F. 2008. Introdução à

Leia mais

Utilizando a função auto.arima em modelos de séries temporais

Utilizando a função auto.arima em modelos de séries temporais Utilizando a função auto.arima em modelos de séries temporais Erasnilson Vieira Camilo 1 2 Marina Rodrigues Maestre 1 Rick Anderson Freire Mangueira 1 Elias Silva de Medeiros 1 Cristian Villegas 1 1 Introdução

Leia mais

Figura 1: Metodologia de Reconhecimentos de Padrões desenvolvida na UFC

Figura 1: Metodologia de Reconhecimentos de Padrões desenvolvida na UFC Uma Solução para o GISSA: Análise Comparativa entre Algoritmos de Aprendizagem de Máquina Aplicados em um Dataset Relacionado ao Óbito Infantil Joyce Quintino Alves (1) ; Cristiano Lima da Silva (2); Antônio

Leia mais

Análise Quantitativa de Tecidos em Úlceras de Perna

Análise Quantitativa de Tecidos em Úlceras de Perna 49 5 Análise Quantitativa de Tecidos em Úlceras de Perna A avaliação das áreas proporcionais de cada tecido interno das úlceras fornece informações importantes sobre seu estado patológico [BERRISS, 2000],

Leia mais

lnteligência Artificial Raciocínio Probabilístico - Introdução a Redes Bayesianas

lnteligência Artificial Raciocínio Probabilístico - Introdução a Redes Bayesianas lnteligência Artificial Raciocínio Probabilístico - Introdução a Redes Bayesianas Referências Adicionais Russel e Norvig cap. 14 e 15 Pearl, Judea. Probabilistic Reasoning in Intelligent Systems: Network

Leia mais

2 Sentiment Analysis 2.1

2 Sentiment Analysis 2.1 2 Sentiment Analysis 2.1 Definição do Problema Sentiment Analysis é um problema de categorização de texto no qual deseja-se detectar opiniões favoráveis e desfavoráveis com relação a um determinado tópico

Leia mais

Plano de Ensino. Identificação. Câmpus de Bauru. Curso Licenciatura em Matemática. Ênfase. Disciplina A - Estatística

Plano de Ensino. Identificação. Câmpus de Bauru. Curso Licenciatura em Matemática. Ênfase. Disciplina A - Estatística Curso 1503 - Licenciatura em Matemática Ênfase Identificação Disciplina 0004123A - Estatística Docente(s) Gladys Dorotea Cacsire Barriga Unidade Faculdade de Engenharia Departamento Engenharia de Produção

Leia mais

Introdução à estatística univariada através da linguagem R

Introdução à estatística univariada através da linguagem R Introdução à estatística univariada através da linguagem R 1. Profesores Professora Doutora Maite Mascaró (mmm@ciencias.unam.mx) (Universidad Nacional Autónoma de México) Doutora Marta Rufino (marta.m.rufino@gmail.com)

Leia mais

Introdução a Sistemas Inteligentes

Introdução a Sistemas Inteligentes Introdução a Sistemas Inteligentes Conceituação Prof. Ricardo J. G. B. Campello ICMC / USP Créditos Parte do material a seguir consiste de adaptações e extensões dos originais gentilmente cedidos pelo

Leia mais

INF 1771 Inteligência Artificial

INF 1771 Inteligência Artificial INF 1771 Inteligência Artificial Aula 14 Support Vector Machines (SVM) 2016.1 Prof. Augusto Baffa Formas de Aprendizado Aprendizado Supervisionado Árvores de Decisão. K-Nearest

Leia mais

Poder Executivo Ministério da Educação Universidade Federal do Amazonas Instituto de Ciências Exatas Departamento de Estatística PLANO DE ENSINO

Poder Executivo Ministério da Educação Universidade Federal do Amazonas Instituto de Ciências Exatas Departamento de Estatística PLANO DE ENSINO PLANO DE ENSINO 1. IDENTIFICAÇÃO DA DISCIPLINA CURSO: IE01 - Estatística PERÍODO LETIVO: 2017/2 TURMA: EB01 DISCIPLINA: Probabilidade I SIGLA: IEE201 CARGA HORÁRIA TOTAL: 90 horas CRÉDITOS: 6.6.0 TEÓRICA:

Leia mais

Máquinas de Vetores de Suporte Aplicadas à Classificação de Defeitos em Couro Bovino

Máquinas de Vetores de Suporte Aplicadas à Classificação de Defeitos em Couro Bovino Máquinas de Vetores de Suporte Aplicadas à Classificação de Defeitos em Couro Bovino Ricardo Cezar Bonfim Rodrigues 24 de abril de 2006 1 Antecedentes e Justificativa Hoje, em diversos processos industriais,

Leia mais

5 Experimentos Corpus

5 Experimentos Corpus 5 Experimentos 5.1. Corpus A palavra corpus significa corpo em latim. No contexto de Aprendizado de Máquina, corpus se refere a um conjunto de dados utilizados para experimentação e validação de modelos.

Leia mais

UNIVERSIDADE DO ESTADO DE MATO GROSSO - UNEMAT. Faculdade de Ciências Exatas e Tecnológicas FACET / Sinop Curso de Bacharelado em Engenharia Elétrica

UNIVERSIDADE DO ESTADO DE MATO GROSSO - UNEMAT. Faculdade de Ciências Exatas e Tecnológicas FACET / Sinop Curso de Bacharelado em Engenharia Elétrica REDES DE FUNÇÃO DE BASE RADIAL - RBF Prof. Dr. André A. P. Biscaro 1º Semestre de 2017 Funções de Base Global Funções de Base Global são usadas pelas redes BP. Estas funções são definidas como funções

Leia mais

CE Estatística I

CE Estatística I CE 002 - Estatística I Agronomia - Turma B Professor Walmes Marques Zeviani Laboratório de Estatística e Geoinformação Departamento de Estatística Universidade Federal do Paraná 1º semestre de 2012 Zeviani,

Leia mais

Técnicas de Mineração de Dados aplicado na Universidade Federal Rural do Semi Árido (UFERSA) Campus Angicos 1*

Técnicas de Mineração de Dados aplicado na Universidade Federal Rural do Semi Árido (UFERSA) Campus Angicos 1* Técnicas de Mineração de Dados aplicado na Universidade Federal Rural do Semi Árido (UFERSA) Campus Angicos 1* Julio Cartier Maia Gomes 1, Paulo Henrique de Morais 1, Cynthia Moreira Maia¹, Walter Martins

Leia mais

Universidade Federal do Pará Instituto de Tecnologia ESTATÍSTICA APLICADA. Plano da Disciplina. Campus de Belém Curso de Engenharia Mecânica

Universidade Federal do Pará Instituto de Tecnologia ESTATÍSTICA APLICADA. Plano da Disciplina. Campus de Belém Curso de Engenharia Mecânica Universidade Federal do Pará Instituto de Tecnologia ESTATÍSTICA APLICADA Campus de Belém Curso de Engenharia Mecânica 1 IDENTIFICAÇÃO Nome da disciplina: Estatística Aplicada I Código da disciplina: EN07048

Leia mais

Modelo de previsão de partida de ônibus utilizando cadeias de Markov de alcance variável

Modelo de previsão de partida de ônibus utilizando cadeias de Markov de alcance variável Modelo de previsão de partida de ônibus utilizando cadeias de Markov de alcance variável Maria das Vitórias Alexandre Serafim 1 Manuel Rivelino Gomes de Oliveira 2 Divanilda Maia Esteves 3 Paulo José Duarte-Neto

Leia mais

METÓDOS DE REGRESSÃO KERNEL

METÓDOS DE REGRESSÃO KERNEL METÓDOS DE REGRESSÃO KERNEL George Cavalcanti de Albuquerque Júnior 1; Getúlio José Amorim do Amaral 2 1 Estudante do Curso de Estatística - CCEN UFPE; E-mail: gcdaj1@de.ufpe.br, 2 Docente/pesquisador

Leia mais

Utilização do Corte Percentual na categorização de documentos da Web com o algoritmo Naive Bayes

Utilização do Corte Percentual na categorização de documentos da Web com o algoritmo Naive Bayes Utilização do Corte Percentual na categorização de documentos da Web com o algoritmo Naive Bayes José Alberto Sousa Torres/ Grinaldo Oliveira /Cláudio Alves Amorim * Em um momento em que é crescente a

Leia mais

2 Processo de Agrupamentos

2 Processo de Agrupamentos 20 2 Processo de Agrupamentos A análise de agrupamentos pode ser definida como o processo de determinação de k grupos em um conjunto de dados. Para entender o que isso significa, observe-se a Figura. Y

Leia mais

Estatística Descritiva (I)

Estatística Descritiva (I) Estatística Descritiva (I) 1 O que é Estatística Origem relacionada com a coleta e construção de tabelas de dados para o governo. A situação evoluiu: a coleta de dados representa somente um dos aspectos

Leia mais

Rastreamento de Objetos Baseado em Grafos. Casamento Inexato entre Grafos Relacionais com Atributos

Rastreamento de Objetos Baseado em Grafos. Casamento Inexato entre Grafos Relacionais com Atributos Rastreamento de Objetos Baseado em Casamento Inexato entre Grafos Relacionais com Atributos Exame de Qualificação de Mestrado Ana Beatriz Vicentim Graciano Orientador: Roberto M. Cesar Jr. Colaboradora:

Leia mais

Análise de Sentimentos em Notícias Utilizando Dicionário Léxico e Aprendizado de Máquina

Análise de Sentimentos em Notícias Utilizando Dicionário Léxico e Aprendizado de Máquina Análise de Sentimentos em Notícias Utilizando Dicionário Léxico e Aprendizado de Máquina Ana Carolina Bras Costa 1, Êmile Cunha Lopes 1 1 Departamento de Informática Universidade Federal do Maranhão (UFMA)

Leia mais

Procedimento Complementar para Validação de Métodos Analíticos e Bioanalíticos usando Análise de Regressão Linear

Procedimento Complementar para Validação de Métodos Analíticos e Bioanalíticos usando Análise de Regressão Linear Procedimento Complementar para Validação de Métodos Analíticos e Bioanalíticos usando Análise de Regressão Linear Rogério Antonio de Oliveira 1 Chang Chiann 2 1 Introdução Atualmente, para obter o registro

Leia mais

CÁLCULO DO EQUILIBRIO DE TROCA-IÔNICA DO SISTEMA Na + -Pb 2+ -Cu 2+ USANDO REDES NEURAIS ARTIFICIAIS.

CÁLCULO DO EQUILIBRIO DE TROCA-IÔNICA DO SISTEMA Na + -Pb 2+ -Cu 2+ USANDO REDES NEURAIS ARTIFICIAIS. CÁLCULO DO EQUILIBRIO DE TROCA-IÔNICA DO SISTEMA Na + -Pb 2+ -Cu 2+ USANDO REDES NEURAIS ARTIFICIAIS. A. B. B. GIOPATTO 1, E. A. SILVA 2, T. D. MARTINS 1 1 Universidade Federal de São Paulo, Departamento

Leia mais

BIOESTATÍSTICA. Prof ª Marcia Moreira Holcman

BIOESTATÍSTICA. Prof ª Marcia Moreira Holcman BIOESTATÍSTICA Prof ª Marcia Moreira Holcman mholcman@uol.com.br Bibliografia VIEIRA S. Introdução à Bioestatística, Editora Campus Rio de Janeiro, 1998. CALLEGARI-JACQUES SIDIA M. Bioestatísticos Princípios

Leia mais

Professora: Cira Souza Pitombo. Disciplina: Aplicações de técnicas de análise de dados

Professora: Cira Souza Pitombo. Disciplina: Aplicações de técnicas de análise de dados UNIVERSIDADE FEDERAL DA BAHIA ESCOLA POLITÉCNICA MESTRADO EM ENGENHARIA AMBIENTAL E URBANA Apresentação do Curso Introdução Professora: Cira Souza Pitombo Disciplina: Aplicações de técnicas de análise

Leia mais

Utilização de técnicas de Mineração de Dados para diagnóstico de rendimento dos alunos do ensino básico do município de Indaiatuba

Utilização de técnicas de Mineração de Dados para diagnóstico de rendimento dos alunos do ensino básico do município de Indaiatuba Utilização de técnicas de Mineração de Dados para diagnóstico de rendimento dos alunos do ensino básico do município de Indaiatuba Thaís Barros Nascimento 1, Maria das Graças J. M. Tomazela 1 1 Faculdade

Leia mais

Medidas de associação para variáveis categóricas em tabelas de dupla entrada

Medidas de associação para variáveis categóricas em tabelas de dupla entrada Medidas de associação para variáveis categóricas em tabelas de dupla entrada a) Quiquadrado de Pearson: mede a associação de tabelas de dupla entrada, sendo definida por: c ( e e ij ij n ) ij, em que é

Leia mais

Análise de Risco de Crédito Bancário

Análise de Risco de Crédito Bancário UNIVERSIDADE FEDERAL DE CAMPINA GRANDE UFCG Curso de Mestrado em Informática Aluno: Francisco Fabian de Macedo Almeida Disciplina: Mineração de Dados Professor: Marcos Sampaio Data: 20 de dezembro de 2007

Leia mais

Reconhecimento de Padrões

Reconhecimento de Padrões Reconhecimento de Padrões André Tavares da Silva andre.silva@udesc.br Roteiro da aula Conceitos básicos sobre reconhecimento de padrões Visão geral sobre aprendizado no projeto de classificadores Seleção

Leia mais

CAPÍTULO 3 POPULAÇÃO E AMOSTRA

CAPÍTULO 3 POPULAÇÃO E AMOSTRA DEPARTAMENTO DE GEOCIÊNCIAS GCN 7901 ANÁLISE ESTATÍSTICA EM GEOCIÊNCIAS PROFESSOR: Dr. ALBERTO FRANKE CONTATO: alberto.franke@ufsc.br F: 3721 8595 CAPÍTULO 3 POPULAÇÃO E AMOSTRA As pesquisas de opinião

Leia mais

Estratégias para Classificação Binária Um estudo de caso com classificação de s

Estratégias para Classificação Binária Um estudo de caso com classificação de  s CE064 - INTRODUÇÃO AO MACHINE LEARNING Estratégias para Classificação Binária Um estudo de caso com classificação de e-mails Eduardo Elias Ribeiro Junior * 04 de julho de 2016 Resumo Em Machine Learning

Leia mais

Simulação de Sistemas. Adaptado de material de Júlio Pereira Machado (AULA 17)

Simulação de Sistemas. Adaptado de material de Júlio Pereira Machado (AULA 17) Simulação de Sistemas Adaptado de material de Júlio Pereira Machado (AULA 17) Análise dos Dados de Saída Além das tarefas de modelagem e validação, devemos nos preocupar com a análise apropriada dos resultados

Leia mais

Sumário. Prefácio... xi. Probabilidade e Estatística... 1

Sumário. Prefácio... xi. Probabilidade e Estatística... 1 Sumário 1 Prefácio............................................................................ xi Probabilidade e Estatística.................................................... 1 1.1 Introdução.......................................................................

Leia mais

Classificação: Árvores de Decisão e k-nn. Eduardo Raul Hruschka

Classificação: Árvores de Decisão e k-nn. Eduardo Raul Hruschka Classificação: Árvores de Decisão e k-nn Eduardo Raul Hruschka Árvores de Decisão Métodos para aproximar funções discretas, representadas por meio de uma árvore de decisão; Árvores de decisão podem ser

Leia mais

APLICAÇÃO DE REDES NEURAIS ARTIFICIAIS PARA ESTIMAR MATRIZ ORIGEM-DESTINO DE CARGA

APLICAÇÃO DE REDES NEURAIS ARTIFICIAIS PARA ESTIMAR MATRIZ ORIGEM-DESTINO DE CARGA APLICAÇÃO DE REDES NEURAIS ARTIFICIAIS PARA ESTIMAR MATRIZ ORIGEM-DESTINO DE CARGA Daniel Neves Schmitz Gonçalves Luiz Antonio Silveira Lopes Marcelino Aurelio Vieira da Silva APLICAÇÃO DE REDES NEURAIS

Leia mais

ESTUDOS SECCIONAIS. Não Doentes Expostos. Doentes Expostos. Doentes Não Expostos. Não Doentes Não Expostos

ESTUDOS SECCIONAIS. Não Doentes Expostos. Doentes Expostos. Doentes Não Expostos. Não Doentes Não Expostos ESTUDOS SECCIONAIS ESTUDOS SECCIONAIS Doentes Expostos Doentes Não Expostos Não Doentes Expostos Não Doentes Não Expostos Frequencias de doença e exposição observadas em um estudo seccional Frequencias

Leia mais

Análise do Desempenho Acadêmico Utilizando Redes Bayesianas: um estudo de caso

Análise do Desempenho Acadêmico Utilizando Redes Bayesianas: um estudo de caso Análise do Desempenho Acadêmico Utilizando Redes Bayesianas: um estudo de caso Danilo Raniery Alves Coutinho, Thereza Padilha Departamento de Ciências Exatas - Universidade Federal da Paraíba (UFPB) Campus

Leia mais

MOQ-13 PROBABILIDADE E ESTATÍSTICA. Professor: Rodrigo A. Scarpel

MOQ-13 PROBABILIDADE E ESTATÍSTICA. Professor: Rodrigo A. Scarpel MOQ-13 PROBABILIDADE E ESTATÍSTICA Professor: Rodrigo A. Scarpel rodrigo@ita.br www.mec.ita.br/~rodrigo Programa do curso: Semanas 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 e 16 Introdução à probabilidade (eventos,

Leia mais

1 Classificadores Bayseanos Simples

1 Classificadores Bayseanos Simples Aula 12 - Classificadores Bayseanos Curso de Data Mining Sandra de Amo Classificadores Bayseanos são classificadores estatísticos que classificam um objeto numa determinada classe baseando-se na probabilidade

Leia mais

Máquinas de suporte vetorial e sua aplicação na detecção de spam

Máquinas de suporte vetorial e sua aplicação na detecção de spam e sua aplicação na detecção de spam Orientador: Paulo J. S. Silva (IME-USP) Universidade de São Paulo Instituto de Matemática e Estatística Departamento de Ciência da Computação MAC499 Trabalho de Formatura

Leia mais

USO DE PLANEJAMENTO COMPOSTO CENTRAL NA AVALIAÇÃO DAS VARIÁVEIS TEMPERAURA E CONCENTRAÇÃO DE SOLVENTES NO ESTUDO DA SOLUBILIDADE DA UREIA

USO DE PLANEJAMENTO COMPOSTO CENTRAL NA AVALIAÇÃO DAS VARIÁVEIS TEMPERAURA E CONCENTRAÇÃO DE SOLVENTES NO ESTUDO DA SOLUBILIDADE DA UREIA USO DE PLANEJAMENTO COMPOSTO CENTRAL NA AVALIAÇÃO DAS VARIÁVEIS TEMPERAURA E CONCENTRAÇÃO DE SOLVENTES NO ESTUDO DA SOLUBILIDADE DA UREIA F. M. A. S. COSTA 1, A. P. SILVA 1, M. R. FRANCO JÚNIOR 1 e R.

Leia mais

ANÁLISE ESPACIAL DOS ÍNDICES EDUCACIONAIS DO RIO GRANDE DO NORTE COM O USO DE TÉCNICAS DE MINERAÇÃO DE DADOS

ANÁLISE ESPACIAL DOS ÍNDICES EDUCACIONAIS DO RIO GRANDE DO NORTE COM O USO DE TÉCNICAS DE MINERAÇÃO DE DADOS ANÁLISE ESPACIAL DOS ÍNDICES EDUCACIONAIS DO RIO GRANDE DO NORTE COM O USO DE TÉCNICAS DE MINERAÇÃO DE DADOS Fábio Abrantes Diniz 1, Fabiano Rosemberg de Moura Silva 2, Roberto Douglas da Costa 3, Thiago

Leia mais

Stela Adami Vayego DEST/UFPR

Stela Adami Vayego DEST/UFPR Resumo 5 - Análise Bivariada (Bidimensional) 5.1. Introdução O principal objetivo das análises nessa situação é explorar relações (similaridades) entre duas variáveis. A distribuição conjunta das freqüências

Leia mais

A procura da melhor partição em Classificação Hierárquica: A abordagem SEP/COP

A procura da melhor partição em Classificação Hierárquica: A abordagem SEP/COP A procura da melhor partição em Classificação Hierárquica: A abordagem SEP/COP Lúcia Sousa Escola Superior de Tecnologia e Gestão, Instituto Politécnico de Viseu Fernanda Sousa Faculdade de Engenharia

Leia mais

Metodologia Aplicada a Computação.

Metodologia Aplicada a Computação. Metodologia Aplicada a Computação gaudenciothais@gmail.com Pré-processamento de dados Técnicas utilizadas para melhorar a qualidade dos dados; Eliminam ou minimizam os problemas como ruídos, valores incorretos,

Leia mais

Exemplos Equações de Estimação Generalizadas

Exemplos Equações de Estimação Generalizadas Exemplos Equações de Estimação Generalizadas Bruno R. dos Santos e Gilberto A. Paula Departamento de Estatística Universidade de São Paulo, Brasil giapaula@ime.usp.br Modelos Lineares Generalizados dos

Leia mais

PLANO DE ENSINO. Disciplina. Código Denominação Carga horária AT 1 AP 2 APS 3 Total 311 Estatística e Probabilidade 120h/a 120h/a.

PLANO DE ENSINO. Disciplina. Código Denominação Carga horária AT 1 AP 2 APS 3 Total 311 Estatística e Probabilidade 120h/a 120h/a. ANEXO II RESOLUÇÃO Nº 282/2007 CEPE PLANO DE ENSINO PERÍODO LETIVO/ANO: 2008 ANO DO CURSO: 4 Curso: Matemática Modalidade: Licenciatura Turno: Noturno Centro: Centro de Ciências Exatas e Tecnológicas CCET

Leia mais

3 Modelos Comparativos: Teoria e Metodologia

3 Modelos Comparativos: Teoria e Metodologia 3 Modelos Comparativos: Teoria e Metodologia Para avaliar o desempenho do modelo STAR-Tree, foram estimados os modelos Naive, ARMAX e Redes Neurais. O ajuste dos modelos ARMAX e das redes neurais foi feito

Leia mais

ANÁLISE MULT1VARIADA; UM EXEMPLO USANDO MODELO LOG-LINEAR

ANÁLISE MULT1VARIADA; UM EXEMPLO USANDO MODELO LOG-LINEAR ANÁLISE MULT1VARIADA; UM EXEMPLO USANDO MODELO LOG-LINEAR José Maria Pacheco de Souza* Maria Helena D'Aquino Benicio** SOUZA, J.M.P. de & BENÍCIO, M.H.D'A. Análise multivariada: um exemplo usando modelo

Leia mais

Estatística

Estatística Estatística 1 2016.2 Sumário Capítulo 1 Conceitos Básicos... 3 MEDIDAS DE POSIÇÃO... 3 MEDIDAS DE DISPERSÃO... 5 EXERCÍCIOS CAPÍTULO 1... 8 Capítulo 2 Outliers e Padronização... 12 VALOR PADRONIZADO (Z)...

Leia mais

Teoria das Probabilidades

Teoria das Probabilidades Capítulo 2 Teoria das Probabilidades 2.1 Introdução No capítulo anterior, foram mostrados alguns conceitos relacionados à estatística descritiva. Neste capítulo apresentamos a base teórica para o desenvolvimento

Leia mais

Preparação dos Dados 1

Preparação dos Dados 1 Preparação dos Dados 1 Preparação dos Dados Compreensão dos dados Limpeza Metadado Valores Perdidos Formato de data unificado Nominal para numérico Discretização Seleção de atributos e falsos preditores

Leia mais

Aplicação da técnica de mineração de dados por meio do algoritmo J48 para definição de limiares de imagens de sensoriamento remoto

Aplicação da técnica de mineração de dados por meio do algoritmo J48 para definição de limiares de imagens de sensoriamento remoto Aplicação da técnica de mineração de dados por meio do algoritmo J48 para definição de limiares de imagens de sensoriamento remoto Rodrigo Rodrigues Antunes e Israel Rodrigues Gonçalves Resumo: O objetivo

Leia mais

Teste Chi-Quadrado de Independência. Prof. David Prata Novembro de 2016

Teste Chi-Quadrado de Independência. Prof. David Prata Novembro de 2016 Teste Chi-Quadrado de Independência Prof. David Prata Novembro de 2016 Duas Variáveis Categóricas Análise de variância envolve o exame da relação entre uma variável categórica explicativa e uma variável

Leia mais

Aprendizado Local da Estrutura de Redes Bayesianas a partir de Dados Incompletos - Bayes Ball Structure Learning (BBSL)

Aprendizado Local da Estrutura de Redes Bayesianas a partir de Dados Incompletos - Bayes Ball Structure Learning (BBSL) Aprendizado Local da Estrutura de Redes Bayesianas a partir de Dados Incompletos - Bayes Ball Structure Learning (BBSL) Roosevelt de L. Sardinha 1, Aline Paes 2, Gerson Zaverucha 1 1 COPPE-PESC Universidade

Leia mais

Avaliação dos processos de amostragem de inspeção para atributos no setor de matéria prima na indústria farmacêutica local

Avaliação dos processos de amostragem de inspeção para atributos no setor de matéria prima na indústria farmacêutica local Avaliação dos processos de amostragem de inspeção para atributos no setor de matéria prima na indústria farmacêutica local Shamon Henrique Feitosa de Souza ; Emerson Wruck 2 Bolsista PBIC/UEG, graduando

Leia mais