REDES BAYESIANAS APLICADAS NA ANÁLISE DO RISCO DE CRÉDITO
|
|
- Mikaela Fonseca Sales
- 6 Há anos
- Visualizações:
Transcrição
1 REDES BAYESIANAS APLICADAS NA ANÁLISE DO RISCO DE CRÉDITO Cristiane Karcher (USP) Flavio Almeida de Magalhães Cipparrone (USP) A tomada de decisão de concessão de crédito baseia-se fundamentalmente na avaliação do risco de inadimplência dos potenciais contratantes dos produtos de crédito e esse risco pode ser estimado através de modelos de Credit Scoring. Nesse traabalho, a técnica proposta para a construção de modelos de Credit Scoring é Redes Bayesianas, que aplicadas em problemas de classificação de dados, são chamadas de Classificadores Bayesianos (Bayesian Network Classifiers). Os classificadores bayesianos avaliados foram construídos utilizando uma base de dados real e seus desempenhos foram comparados ao da Regressão Logística, que é a técnica mais utilizada em Credit Scoring. Algumas metodologias de seleção de variáveis para os Classificadores Bayesianos foram avaliadas e os resultados dos modelos ajustados mostraram alguns Classificadores Bayesianos apresentaram desempenho superior ao Modelo de Regressão Logística, em relação à taxa de acerto dos clientes maus. Palavras-chaves: Redes Bayesianas, Risco de Crédito, Regressão Logística
2 1. Introdução A concessão de crédito é uma das decisões mais importantes em Instituições Financeiras e não Financeiras. Por isso, essas decisões são tomadas com base na estimativa do risco de inadimplência dos potenciais contratantes dos produtos de crédito, que são obtidas por modelos estatísticos. Os modelos muito aplicados em concessão de crédito são os de Credit Scoring, que produzem uma previsão da probabilidade de novos clientes pagarem o crédito, sem se tornar inadimplentes ou trazer prejuízo para o credor em determinado período, baseada em informações do passado da carteira de crédito. No processo de concessão de crédito essa probabilidade dá subsídios para que os proponentes ao crédito sejam classificados como bons ou maus pagadores, de acordo com um ponto de corte para a probabilidade. Inúmeras técnicas já foram aplicadas em modelos de Credit Scoring, tais como: Regressão Linear Múltipla, Análise Discriminante, Regressão Logística, Redes Neurais, Árvores de Decisão, entre outras. Rosa (2000) compara aplicações de Regressão Logística com técnicas baseadas em árvores de classificação e conclui que, apesar dos modelos baseados em árvores classificarem os clientes de forma um pouco mais precisa, a Regressão Logística, que também apresentou bons resultados, é vantajosa por apresentar fácil interpretação e por produzir como resultado uma probabilidade, o que permite a ordenação dos clientes quanto ao risco de inadimplência. West (2000) compara diversos tipos de Redes Neurais com técnicas de Regressão Logística, Análise Discriminante Linear e Árvores de Decisão, e conclui que as Redes Neurais, apesar de apresentarem acurácia maior, necessitam de um conhecimento maior para a construção sua topologia e para realizar seu treinamento. Baesens et al. (2002) aplicam Redes Bayesianas com aprendizado de estrutura por Markov Chain Monte Carlo (MCMC) e com seleção de variáveis pelo Markov Blanket da variável resposta, o que resultou em modelos parcimoniosos e poderosos para Credit Scoring. Nesse artigo será proposto um estudo comparativo da aplicação de Redes Bayesianas (RB) (NEAPOLITAN, 2004) e Regressão Logística (MONTGOMERY; PECK & VINING, 2001) na construção de modelos de Credit Scoring. As RB utilizadas foram as Bayesian Network Classifiers (FRIEDMAN; GEIGER & GOLDSZMIDT, 1997), que serão chamadas de Classificadores Bayesianos, e são utilizadas em problemas de classificação de dados. Esse artigo é complementar ao desenvolvido por Baesens et al. (2002), pois compara aplicações de Redes Bayesianas com a Regressão Logística, além de abordar diversos aprendizados de estrutura, seleção de variáveis em RB e por tratar a interpretação das RB em Credit Scoring. O trabalho é organizado em 6 seções como será descrito a seguir. Na seção Redes Bayesianas serão apresentados os principais de RB empregados nesse trabalho. Na seção seguinte, serão descritos os classificadores bayesianos aplicados, que diferem quanto à estrutura da RB empregada. Na seção Metodologia e Amostra são descritas a amostra utilizada, as metodologias de seleção de variáveis, a construção das amostras de teste e validação e as medidas de avaliação dos modelos ajustados. A análise empírica dos modelos é feita na Seção Resultados e na última seção são apresentadas as conclusões e trabalhos futuros. 2. Redes Bayesianas Por definição (JENSEN, 2001), uma RB é composta dos seguintes elementos: a) Um conjunto de variáveis e um conjunto de arestas direcionadas entre as variáveis; 2
3 b) Cada variável tem estados finitos e mutuamente exclusivos; c) As variáveis e as arestas direcionadas representam um grafo acíclico direcionado; d) Cada variável A, com pais, B 1,B 2,...,B n, possui uma tabela de probabilidades condicionais, P(A B 1,B 2,...,B n ), associada. Os nós de uma Rb representam suas variáves e se há uma aresta direcionada entre os nós A e B em uma RB, então dizemos que A é pai de B e B é filho de A. A presença de arestas entre nós da RB indica que existe uma relação de dependência entre essas variáveis. Nesse trabalho, as RB apresentadas possuem somente variáveis discretas, mas existem RB que permitem o uso de variáveis contínuas e são descritas por Neapolitan (2004). RB satisfazem a condição de Markov (NEAPOLITAN, 2004), que é dada por: cada variável da RB é condicionalmente independente do conjunto de todos os seus não-descendentes dado o conjunto de todos os seus pais. A distribuição conjunta de probabilidades das variáveis discretas, {X 1,X 2,...,X n }, de uma RB, é dada pela Regra da Cadeia, n i= 1 ( X Pa ) P( X, X,..., X = P (1) 1 2 n ) Os parâmetros de uma RB são tabelas de probabilidades condicionais dos X i dado seus pais Pa i, ou seja, Θ i =P(X i Pa i ), para i=1,2,...,n. O Markov Blanket de uma variável X é o conjunto das variáveis que são pais de X, filhos de X e que compartilham um filho com X (JENSEN, 2001). Com isso, em uma RB, qualquer variável é influenciada diretamente somente pelas variáveis que compõe o seu Markov Blanket e, portanto, o conceito de Markov Blanket pode ser utilizado para seleção de variáveis em uma RB. No exemplo da Figura 1, o Markov Blanket de I é {C, E, K, L, H}. i i Figura 1 - Exemplo de Rede Bayesiana A estrutura e os parâmetros de uma RB podem ser obtidos de duas maneiras: a partir de informações de especialistas, através do aprendizado a partir de uma base de dados ou combinando as duas abordagens. Nesse trabalho será utilizado o aprendizado a partir de uma base de dados. Com isso, o aprendizado de parâmetros a partir de uma base de dados será feito pela simples contagem de 3
4 freqüências (NEAPOLITAN, 2004) e o aprendizado de estrutura será feito utilizando duas abordagens: CI-Based (CHENG & GREINER, 1999, 2001) e Score-Based (HECKERMAN, 1995). Além desses aprendizados mencionados existem outras outras metodologias descritas por Neapolitan (2004). Nos aprendizados de estrutura CI-Based (Conditional Independence-based), a estrutura da RB é obtida por análise de dependência entre os nós. Nesse aprendizado, as relações de dependência entre os nós (variáveis) são avaliadas através de testes de independência condicional, como qui-quadrado ou informação mútua, e são criadas arestas para as dependências mais relevantes. Os aprendizados de estrutura Score-based (HECKERMAN, 1995) consistem em introduzir uma medida (score), que avalie o quanto cada possível estrutura da rede explica os dados, e um método de busca de uma estrutura com mais alto valor para essa medida. As medidas utilizadas foram: MDL, AIC e Bayes (WITTEN & FRANK, 2005) e para a busca de uma estrutura, foi utilizado o algoritmo Hill Climbing (WITTEN & FRANK, 2005), que consiste em adicionar e remover arestas sem uma ordem fixa para os nós. 3. Classificadores Bayesianos Os Classificadores Bayesianos utilizados nesse artigo são: Naive Bayes, Tree Augmented Naive Bayes (TAN) e General Bayesian Network Classifier (GBN). Eles possuem somente variáveis discretas {A 1,A 2,...,A n,c}, das quais uma, C, é a variável resposta (classe) e as demais, {A 1,A 2,...,A n }, são as variáveis preditoras (atributos). O classificador Naive Bayes (FRIEDMAN; GEIGER & GOLDSZMIDT, 1997) é o mais simples conhecido e possui a hipótese de que todas as variáveis preditoras são independentes, dado a variável resposta. Um exemplo do classificador Naive Bayes é apresentado na Figura 2. Figura 2 Exemplo da estrutura do Classificador Naive Bayes O classificador TAN foi proposto por Friedman, Geiger e Goldszmidt (1997) e possibilita representar dependências entre pares de variáveis preditoras, com isso, na RB, as variáveis preditoras devem ser representadas pela estrutura de uma árvore. O classificador TAN é uma extensão do Naive Bayes, pois permite o relaxamento da hipótese de independência condicional entre variáveis preditoras, dado a variável resposta. Um exemplo do classificador TAN é apresentado na Figura 3. 4
5 Figura 3 Exemplo da estrutura de um Classificador TAN Muitas relações de dependência entre as variáveis preditoras não podem ser representadas nem mesmo por estruturas tipo TAN. Para esses casos é necessário à construção de modelos mais complexos que permitam que cada nó da rede (exceto a variável resposta) tenha um número arbitrário de pais. Para essas situações, existe o classificador GBN (CHENG & GREINER, 1999), que é Rede Bayesiana Irrestrita, ou seja, uma Rede na qual cada variável pode apresentar um número arbitrário de pais e a variável resposta não necessariamente é pai de todas as demais variáveis. Um exemplo do classificador GBN é apresentado na Figura Metodologia e Amostra 4.1 Amostra Figura 4 - Estrutura de um Classificador GBN A base de dados de de créditos concedidos utilizada nesse trabalho foi a German Credit, está disponível no Repositório UCI Machine Learning (BLAKE & MERZ, 1998). Os dados contêm 1000 clientes proponentes ao crédito, dos quais 700 foram previamente classificados como bons pagadores e 300 foram previamente classificados como maus pagadores. O critério de classificação dos clientes não foi divulgado. A classificação dos clientes, de acordo com o risco de inadimplência, será a variável resposta, chamada Situação do Cliente e possui categorias bom e mau. Os dados apresentavam 20 variáveis preditoras, categóricas ou contínuas, que representam as informações pessoais e financeiras fornecidas pelos clientes e que possam influenciar na capacidade do cliente em pagar este crédito. A amostra utilizada nos ajustes dos modelos foi obtida através do esquema de Amostragem Retrospectiva (PAULA, 2004). Esse esquema foi adotado, para que a diferença entre os tamanhos das amostras de clientes bons e maus não criasse nenhum viés nos modelos ajustados, ou seja, para evitar que o modelo final seja bom para discriminar os clientes bons, porém ineficiente para discriminar os maus (ROSA, 2000). A amostragem consistiu em manter a amostra de clientes maus, com 300 clientes, e selecionar aleatoriamente uma amostra de mesmo tamanho de clientes bons. 5
6 O uso da amostragem retrospectiva requer também que o intercepto do modelo de Regressão Logística seja re-calculado e que a distribuição da variável resposta nas RB seja substituída pela da amostra. 4.2 Tratamento das Variáveis As variáveis contínuas dos dados foram categorizadas, pois os modelos ajustados tratam somente variáveis discretas (ou categóricas) e para facilitar a interpretação dos seus parâmetros. As variávies categóricas com muitos estados também tiveram alguns estados agrupados, para evitar que existam categorias com um número muito pequeno de observações, o que pode prejudicar a estimação dos parâmetros dos modelos. O procedimento de categorização e agrupamento de estados é descrito por Hand e Henley (1997) e por Rosa (2000), e se baseia no Risco Relativo (Odds Ratio) (AGRESTI, 2002). Para as variáveis contínuas, a categorização consistiu em, inicialmente, obter os decis (percentis de ordem 10%) (BUSSAB & MORETTIN, 2002) das variáveis preditoras e, para cada decil, foi obtida a distribuição de bons e maus clientes e calculada a razão entre bons e maus, o chamado risco relativo. Os decis que apresentaram risco relativo semelhante foram re-agrupados para diminuir o número de categorias da variável. Para o agrupamento de estados das variáveis categóricas foi calculado o risco relativo de cada estado e foram reagrupados os estados com risco relativo semelhante. Posteriormente, as variáveis categóricas foram transformadas em variáveis binárias (dummy) pois, o uso das mesmas contribuiu para uma melhora na assertividade dos modelos ajustados. O procedimento resultou em 55 variáveis preditoras binárias. 4.3 Amostras de Teste e Validação A construção das amostras de teste e de validação foi feita utilizando Cross-Validation (WITTEN & FRANK, 2005), o que consistiu em dividir aleatoriamente todos os clientes da base de dados em 10 partições amostrais de tamanhos iguais, as quais formaram 10 conjuntos com 9 partições para a amostra de teste e 1 para validação do modelo. Esse procedimento foi vantajoso para essa base de dados, pois todos os clientes foram utilizados tanto para o desenvolvimento dos modelos quanto para a validação, além dos modelos serem desenvolvidos com uma alta proporção de observações da base de dados. 4.4 Seleção de Variáveis Procedimentos de seleção de variáveis foram adotados, para que fossem eliminadas variáveis redundantes que pudessem reduzir a eficiência da previsão dos modelos ajustados. Para o modelo de Regressão Logística foi utilizado o procedimento Forward Stepwise (PAULA, 2004) do software livre R. Para os classificadores Naive Bayes e TAN, foram utilizados: procedimento Backward baseado no Ganho de Informação (Information Gain) das variáveis preditoras em relação à variável resposta (WITTEN & FRANK, 2005) e o método Wrapper (WITTEN & FRANK, 2005). O procedimento Backward consistiu em ordenar as variáveis preditoras por ganho de informação em relação à variável resposta e, partindo do modelo saturado (com todas as variáveis), cada variável com menor contribuição foi retirada, sem que isso prejudicasse a assertividade das previsões dos modelos Naive Bayes e TAN. O método Wrapper utiliza o próprio modelo de classificação para avaliar o conjunto de variáveis preditoras e utiliza Cross-validation para estimar a acurácia do esquema de aprendizagem para cada conjunto avaliado. Nos classificadores GBN foram selecionadas as variáveis do Markov Blanket da variável resposta. As seleções de variáveis dos classificadores bayesianos 6
7 foi feita no software livre WEKA. 4.5 Medidas de Avaliação dos Modelos As medidas utilizadas para avaliar e comparar os modelos ajustados foram taxas de acerto, obtidas da Matriz de Confusão (Tabela 1), e a medida AUC (Area Under Curve), que é a área de baixo da curva ROC (Receiver Operating Characteristic) (WITTEN & FRANK, 2005) de um modelo ajustado e assume valores entre 0 e 1. As taxas de acerto são definidas como, Taxa de acerto total: TAT = (n 11 +n 22 )/n.. Taxa de acerto dos maus : TAM = (n 11 )/n 1. Taxa de acerto dos bons : TAB = (n 22 ) / n 2. Para classificar os clientes, como bons ou maus, foi utilizado um ponto de corte de 0.5 para a probabilidade prevista do cliente ser bom, portanto, se a probabilidade prevista fosse maior que 0.5, o cliente foi classificado como bom, caso contrário, como mau. 7
8 Observado Previsto Total mau bom mau n 11 n 12 n 1. bom n 21 n 22 n 2. Total n. 1 n. 2 n.. Fonte: Trabalho de Rosa (2000) Tabela 1 - Tabela de Classificação em que, n.1 = n 11 + n 21 ; n.2 = n 12 + n 22 ; n 1. = n 11 + n 12 ; n 2. = n 21 + n 22 ; n.. = n 11 + n 12 + n 21 + n Resultados Nessa Seção apresentaremos os resultados das aplicações dos classificadores bayesianos Naive Bayes, TAN e GBN e da Regressão Logística. Os modelos ajustados tiveram seleções de variáveis para a retirada de variáveis redundantes. A seleção de variáveis aplicada na Regressão Logística foi Forward Stepwise, nos classificadores Naive Bayes foram pelo Ganho de Informação e pelo método Wrapper e nos classificadores GBN foram selecionadas as variáveis do Markov Blanket da variável resposta (Situação do Cliente). No aprendizado de estrutura dos classificadores TAN e GBN foram empregadas as medidas MDL, AIC e Bayes e, um classificador GBN teve aprendizado de estrutura por análise de dependência. As amostras de teste e de validação foram construídas por Cross-Validation. O software livre utilizado para a construção dos classificadores bayesianos foi o WEKA, desenvolvido na Universidade de Waikato na Nova Zelândia para tarefas de Data Mining, e para o ajuste do modelo de Regressão Logística foi utilizado o software R. Na Tabela 2, são apresentados as taxas de acerto, medida AUC e número de variáveis de todos os modelos ajustados e que foram obtidas das amostras de validação. Modelo Seleção de Aprendizado de Nº de TAT TAB TAM AUC Variáveis Estrutura Variáveis Regressão Logística Forward Stepwise % 73.0% 74.3% 78.7% 20 Naive Bayes Modelo Saturado % 71.0% 76.0% 79.3% 56 Naive Bayes Ganho de Informação % 71.7% 77.3% 80.1% 31 Naive Bayes Wrapper % 74.0% 75.0% 77.3% 15 TAN Ganho de Informação MDL 72.5% 71.3% 73.7% 78.5% 31 TAN Ganho de Informação Bayes 72.5% 71.0% 74.0% 78.7% 31 TAN Ganho de Informação AIC 72.2% 71.0% 73.3% 78.8% 31 TAN Wrapper MDL 73.8% 73.0% 74.7% 78.6% 45 TAN Wrapper Bayes 73.0% 74.3% 71.7% 78.7% 36 TAN Wrapper AIC 73.8% 73.0% 74.7% 78.6% 45 GBN Markov Blanket MDL 71.3% 67.7% 75.0% 76.5% 13 GBN Markov Blanket Bayes 71.0% 68.7% 73.3% 79.1% 35 GBN Markov Blanket AIC 72.0% 70.7% 73.3% 78.9% 39 GBN Markov Blanket Análise de Dependência 68.5% 61.7% 75.3% 75.1% 39 Fonte: Análise dos autores Tabela 2 Medidas de classificação correta, AUC e número de variáveis dos modelos ajustados As taxas de acerto indicam que os classificadores Naive Bayes e TAN, com aprendizados utilizando MDL e AIC, apresentaram maiores assertividades nas previsões dos clientes maus (TAM) do que o modelo de Regressão Logística. Todos os outros classificadores 8
9 bayesianos apresentaram valores equivalentes aos da Regressão Logística para as taxas de acerto total e de acerto nas previsões dos clientes bons e medida AUC, exceto os classificadores GBN apresentaram desempenho inferior na assertividade total e das previsões dos clientes bons. O classificador GBN com aprendizado de estrutura por análise de dependência, apresentou assertividade na previsão dos clientes maus e medida AUC superiores às observadas na Regressão Logística, o que não se observou nas taxas de acerto nas previsões dos clientes bons e medida AUC. Esse resultado é esperado, pois o aprendizado por análise de dependência tem como objetivo obter a melhor estrutura de dependência entre variáveis, que pode não ser a mais assertiva nas previsões de novas observações, mas contém informações sobre a dependência entre as variáveis do estudo. O desempenho dos classificadores TAN e GBN poderia ser melhorado se houvesse uma base de dados com maior número de observações, pois esses classificadores avaliam relações entre um grande número de variáveis preditoras, o que requer uma base de dados grande. Bases de dados grandes, com milhares de créditos concedidos, podem ser encontradas comumente em Instituições Financeiras. A superioridade das taxas de acerto nas previsões dos clientes maus obtida nos classificadores Naive Bayes com seleção pelo Ganho de Informação, TAN com seleção pelo método Wrapper e GBN por análise de dependência, é um resultado interessante do ponto de vista da Instituição que concede crédito, pois o uso desses modelos pode diminuir o erro de concessões de crédito equivocadas. Os coeficientes estimados do modelo de Regressão Logística e respectivos, erro padrão, estatística z e p-valor, são apresentados na Tabela 3. As interpretações, feitas a seguir, consideram que os coeficientes podem ser interpretados como o aumento (ou redução) na probabilidade do cliente não se tornar inadimplente, dado o acréscimo de uma unidade na variável preditora (binária) e sem considerar a variação das demais variáveis (MONTGOMERY; PECK & VINING, 2001). As estimativas dos coeficientes do modelo ajustado de Regressão Logística indicam que clientes com empréstimos para educação apresentaram maior risco de inadimplência do que os demais, seguidos dos clientes com empréstimos para a compra de carro novo. As características que contribuíram para maiores riscos de inadimplência, em relação aos demais clientes, foram: salário inferior a $200, poupança inferior a $500, co-aplicação em outros empréstimos, moradia alugada. Adicionalmente, as características dos clientes contribuíram para maiores probabilidades de se tornarem bons pagadores foram: empréstimos de duração inferior a 9 meses, idade entre 26 e 52 anos, com empréstimos em bancos e lojas e estrangeiro. 9
10 Variável Coeficiente Erro Padrão Estatística z p-valor Intercepto Salário < $ >= $ < 9 meses Duração do >=9meses e < 18 meses empréstimo >= 18 meses e < 36 meses Todos os empréstimos pagos pontualmente Histórico de ou sem empréstimos tomados Crédito Existem empréstimos pagos pontualmente ou com histórico de atraso no pagamento Compra de carro novo Móveis e utensílios domésticos Finalidade Rádio e TV Reforma Educação Negócios Poupança do Cliente < $ Outras dívidas Nenhuma ou garantias Co-aplicante Idade >= 26anos e < 52 anos Outros Empréstimos Bancos e Lojas Casa Alugada Estrangeiro Sim Fonte: Análise dos autores Tabela 3 Estimativas dos coeficientes, erro padrão, estatística z e p-valor do modelo de Regressão Logística utilizando Forward Stepwise Na Tabela 4, a seguir, serão apresentadas as probabilidades condicionais de cada novo cliente não se tornar inadimplente dado à observação das variáveis preditoras (binárias), sem que haja alteração nos estados das demais variáveis, do classificador Naive Bayes com seleção de variáveis pelo Ganho de Informação. Essas probabilidades condicionais informam o aumento na probabilidade do cliente não se tornar inadimplente, dada à observação de uma característica do cliente (variável binária). As probabilidades condicionais foram obtidas através de Inferências nas RB dos classificadores (NEAPOLITAN, 2004). Adicionalmente aos resultados da Regressão Logística ajustada, podemos observar no classificador Naive Bayes, que clientes com empréstimos entre $1250 e $4750 apresentam maior probabilidade de se tornarem bons do que os demais clientes e, o contrário, ocorre nos clientes com empréstimos de mais de $4750. Maiores riscos de inadimplência, em relação aos demais clientes, foram observados em clientes com as seguintes características: mulheres, com taxa de juros de mais de 4% do valor do empréstimo, com poupança maior que $500, com moradia gratuita e sem bens. Menores riscos de inadimplência, em relação aos demais clientes, foram observados em clientes com os seguintes perfis: poupança superior a $500, com tempo de trabalho acima de 4 anos, com bem imóvel e moradia própria e, contraditoriamente, com atraso em pagamentos e sem poupança. Nesse artigo, foi interpretado somente o classificador Naive Bayes com seleçãode variáveis pelo Ganho de Informação, pois foi o classificador que apresentou melhor desempenho na 10
11 previsão dos clientes maus. No entanto, a interpretação dos demais classificadores pode feita através do cálculo das probabilidades condicionais de cada novo cliente pretendente ao crédito não se tornar inadimplente dada à observação de cada um dos pais da variável preditora, sem alteração nos estados das outras variáveis da rede, utilizando Inferência em RB. Essa análise pode ser muito complexa nos classificadores GBN por eles poderem apresentar nós com muitos pais. Prob. do cliente ser Prob. do cliente ser Variável Variável Preditora bom dado var. binária=0 bom dado var. binária=1 Salário < $ Sem remuneração < 9 meses Duração do empréstimo >=9meses e < 18 meses >= 36 meses Todos os empréstimos pagos pontualmente Histórico de Crédito ou sem empréstimos tomados Atraso no pagamento ou com empréstimos tomados em outras Instituições Compra de carro novo Finalidade Compra de carro usado Rádio e TV Educação Valor do Empréstimo >= $1250 e < $ >= $ Poupança do Cliente < $ >= $ Não possui ou não conhecida Tempo de Trabalho Desempregado ou < 1ano >= 4anos Taxa de juros em % do >= 4% valor do empréstimo Estado Civil e Sexo Feminino, solteira, casada, divorciada ou separada Masculino, solteiro, casado ou viúvo Bens Imóvel Não possui bens Idade < 26 anos >= 26anos e < 52 anos Outros Empréstimos Bancos e Lojas Casa Alugada Própria Moradia gratuíta Estrangeiro Sim Tabela 4 Probabilidades dos clientes se tornarem bons pagadores, dado a observação de cada variável preditora (binária), do classificador Naive Bayes com seleção de variáveis pelo Ganho de Informação 6. Conclusão e Trabalhos Futuros Nesse artigo, foram aplicados diversos classificadores bayesianos na construção de modelos de Credit Scoring. Com isso, foi observado que classificadores Naive Bayes com seleção pelo 11
12 Ganho de Informação, TAN com seleção pelo método Wrapper e GBN com aprendizado por análise de dependência apresentaram desempenho superior à Regressão Logística nas previsões dos clientes maus pagadores. Esse resultado pode ser importante para as Instituições credoras, pois o uso desses modelos pode diminuir o erro por concessões equivocadas e que possam causar prejuízos para a Instituição caso o cliente se torne inadimplente. Em trabalhos futuros é recomendado o uso da Inferência em Redes Bayesianas para a interpretação dos classificadores bayesianos e para a criação de cenários de risco de inadimplência. Além disso, também é recomendada a aplicação de outras medidas de desempenho dos modelos ajustados, como a estatística Kolmogorov-Smirnov e o coeficiente Gini. Referências AGRESTI, A. Categorical data analysis. 2 a ed. New York: Wiley, BUSSAB, W. O. & MORETTIN, P. A. Estatística Básica. 5ª ed. São Paulo: Saraiva, BAESENS, B. et al. Learning Bayesian Network Classifiers for Credit Scoring Using Markov Chain Monte Carlo Search. In: Proceedings of the 16th International Conference on Pattern Recognition (ICPR'02), Vol. 3, p.49-52, BLAKE, C. & MERZ, C. UCI repository of machine learning databases Disponível em: < Acesso em: 01 dez BUSSAB, W. O. & MORETTIN, P. A. Estatística Básica. 5ª ed. São Paulo: Saraiva, CHENG,J. & GREINER,R. Comparing Bayesian Network Classifiers. In: Proceedings of the 15th Conference on Uncertainty in Artificial Intelligence (UAI'99), p , CHENG,J. & GREINER,R. Learning Bayesian Belief Network Classifiers: Algorithms and System. In: Proceedings of 14th Biennial Conference of the Canadian Society for Computational Studies of Intelligence, Vol. 2056, p , FRIEDMAN,N.; GEIGER,D. & GOLDSZMIDT,M. Bayesian Network Classifiers. Machine Learning, Vol. 29, p , FRIEDMAN,N. & GOLDSZMIDT,M. Building Classifiers Using Bayesian Networks. In: Proceedings of Thirteenth National Conference on Artificial Intelligence (AAAI96), Vol. 2, p , HAND, D. J. & HENLEY, W. E. Statistical classification methods in consumer Credit Scoring: a review. Journal of the Royal Statistical Society: Series A (Statistics in Society), Vol. 160, n.3, p , HECKERMAN, D.; GEIGER, D. & CHICKERING, D. Learning Bayesian networks: The combination of knowledge and statistical data. Machine Learning, Vol. 20, n.3, p , JENSEN, F.V. Bayesian Networks and Decision Graphs. New York: Springer, MONTGOMERY, D. C.; PECK, E. A. & VINING, G. G. Introduction to Linear Regression Analysis. 3ª ed. New York: John Wiley, NEAPOLITAN, R.E. Learning Bayesian Networks. New Jersey: Prentice Hall, PAULA, G.A. Modelos de Regressão com Apoio ComputacionaL. São Paulo: Instituto de Matemática e Estatística Universidade São Paulo ROSA, P. T. M. Modelos de Credit Scoring: Regressão Logística, CHAID e REAL Dissertação (Mestrado) Instituto de Matemática e Estatística, Universidade São Paulo, São Paulo, WEST, D. Neural Network Credit Scoring Models. Computers and Operations Research, Vol. 27, n.11, pp , WITTEN, I. H. & FRANK, E. Data Mining: Practical Machine Learning Tools and Techniques. 2ª ed. San 12
13 Francisco: Morgan Kaufmann,
Classificação de dados em modelos com resposta binária via algoritmo boosting e regressão logística
Classificação de dados em modelos com resposta binária via algoritmo boosting e regressão logística Gilberto Rodrigues Liska 1 5 Fortunato Silva de Menezes 2 5 Marcelo Ângelo Cirillo 3 5 Mario Javier Ferrua
Leia maisAprendizado de Semi-Supervisionado de Classificadores Bayesianos Utilizando Testes de Independência
Aprendizado de Semi-Supervisionado de Classificadores Bayesianos Utilizando Testes de Independência Marcelo C. Cirelo 1, Fabio G. Cozman 1 1 Escola Politécnica da Universidade de São Paulo Av. Prof. Luciano
Leia maisAnálise Multivariada Aplicada à Contabilidade
Mestrado e Doutorado em Controladoria e Contabilidade Análise Multivariada Aplicada à Contabilidade Prof. Dr. Marcelo Botelho da Costa Moraes www.marcelobotelho.com mbotelho@usp.br Turma: 2º / 2016 1 Agenda
Leia maisClassificação e Predição de Dados - Profits Consulting - Consultoria Empresarial - Serviços SAP- CRM Si
Classificação e Predição de Dados - Profits Consulting - Consultoria Empresarial - Serviços SAP- CRM Si Classificação de Dados Os modelos de classificação de dados são preditivos, pois desempenham inferências
Leia maisIntrodução ao tema das Redes Bayesianas
Introdução ao tema das Redes Bayesianas Seminário de Modelação Cátia Azevedo 25/01/2013 Índice Introdução Redes Bayesianas Aprendizagem Bayesiana Teorema de Bayes Distribuição de probabilidade conjunta
Leia maisWEKA: Prática Carregando a base de dados no Weka
WEKA: Prática 2 1. Introdução O objetivo desta prática é utilizar a ferramenta Weka para comparar dois algoritmos de aprendizagem de máquina em um problema de detecção de SPAM. Os algoritmos a serem comparados
Leia maisMINISTÉRIO DA EDUCAÇÃO UNIVERSIDADE FEDERAL DE LAVRAS
MINISTÉRIO DA EDUCAÇÃO UNIVERSIDADE FEDERAL DE LAVRAS PRÓ-REITORIA DE GRADUAÇÃO EMENTA E CONTEÚDO PROGRAMÁTICO Carga horária Código Denominação Créditos ( ) Teórica Prática Total GEX112 Estatística 04
Leia maisSeleção de Atributos 1
Seleção de Atributos 1 Tópicos Por que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Seleção de atributos antes do aprendizado Benefícios Abordagens automáticas
Leia maisEstudo Comparativo sobre Seleção de Variáveis em Classificação Supervisionada
Estudo Comparativo sobre Seleção de Variáveis em Classificação Supervisionada Ana Sousa Ferreira 1 Anabela Marques 2 1 Faculdade de Psicologia, Universidade de Lisboa e Bussiness Research Unit IUL 2 Escola
Leia maisAprendizado Bayesiano Anteriormente...
Aprendizado Bayesiano Anteriormente... Conceito de Probabilidade Condicional É a probabilidade de um evento A dada a ocorrência de um evento B Universidade de São Paulo Instituto de Ciências Matemáticas
Leia maisDisciplina de Modelos Lineares
Disciplina de Modelos Lineares 2012-2 Seleção de Variáveis Professora Ariane Ferreira Em modelos de regressão múltipla é necessário determinar um subconjunto de variáveis independentes que melhor explique
Leia mais18º Congresso de Iniciação Científica INCORPORAÇÃO DA TAREFA DE CLASSIFICAÇÃO NA FERRAMENTA DE MINERAÇÃO DE DADOS KIRA
18º Congresso de Iniciação Científica INCORPORAÇÃO DA TAREFA DE CLASSIFICAÇÃO NA FERRAMENTA DE MINERAÇÃO DE DADOS KIRA Autor(es) MIRELA TEIXEIRA CAZZOLATO Orientador(es) MARINA TERESA PIRES VIEIRA Apoio
Leia maisUNIVERSIDADE FEDERAL DE LAVRAS DISCIPLINA
UNIVERSIDADE FEDERAL DE LAVRAS PRÓ-REITORIA DE PÓS-GRADUAÇÃO COORDENADORIA DE PÓS-GRADUAÇÃO STRICTO SENSU DISCIPLINA Carga horária Código Denominação Créditos ( ) Teórica Prática Total PEX502 Estatística
Leia mais19 Congresso de Iniciação Científica INCLUSÃO DE UM NOVO ALGORITMO DE CLASSIFICAÇÃO NA FERRAMENTA KIRA
19 Congresso de Iniciação Científica INCLUSÃO DE UM NOVO ALGORITMO DE CLASSIFICAÇÃO NA FERRAMENTA KIRA Autor(es) MIRELA TEIXEIRA CAZZOLATO Orientador(es) MARINA TERESA PIRES VIEIRA Apoio Financeiro PIBIC/CNPQ
Leia maisdiferença não aleatória na distribuição dos fatores de risco entre os dois grupos
Confundimento erro devido a uma diferença não aleatória na distribuição dos fatores de risco entre os dois grupos. A variável de confundimento está distribuída desigualmente entre os grupos comparados.
Leia maisSME o semestre de Prof. Cibele Russo
SME0122 Introdução à Inferência Estatística 2 o semestre de 2011 Prof. Cibele Russo cibele@icmc.usp.br http://www.icmc.usp.br/ cibele Sala 3-162, ramal 6618 Aulas: Quartas e sextas-feiras das 8h10 às 9h50
Leia maisMensurando o Risco de Micro e Pequenas Empresas. Fabio Wendling M. de Andrade
Mensurando o Risco de Micro e Pequenas Empresas Fabio Wendling M. de Andrade Agenda O perfil das MPEs O que é importante no crédito para MPEs Metodologia de quantificação de risco de MPEs Gerenciamento
Leia maisAnálise de dados, tipos de amostras e análise multivariada
Les-0773: ESTATÍSTICA APLICADA III Análise de dados, tipos de amostras e análise multivariada AULA 1 12/05/17 Prof a Lilian M. Lima Cunha Maio de 2017 Introdução O que significa o termo estatística? No
Leia maisPÓS-GRADUAÇÃO ANÁLISE DE DATA MINING
PÓS-GRADUAÇÃO ANÁLISE DE DATA MINING OBJETIVOS Na era da informação, as empresas capturam e armazenam muitos dados, e existe a real necessidade da aplicação de técnicas adequadas para a rápida tomada de
Leia maisSERVIÇO PÚBLICO FEDERAL MINISTÉRIO DA EDUCAÇÃO UNIVERSIDADE FEDERAL RURAL DO SEMI-ÁRIDO PRO-REITORIA DE GRADUAÇÃO PROGRAMA GERAL DE DISCIPLINA
SERVIÇO PÚBLICO FEDERAL MINISTÉRIO DA EDUCAÇÃO UNIVERSIDADE FEDERAL RURAL DO SEMI-ÁRIDO PRO-REITORIA DE GRADUAÇÃO PROGRAMA GERAL DE DISCIPLINA IDENTIFICAÇÃO (20140206) CURSOS A QUE ATENDE MEDICINA VETERINARIA
Leia maisPREFERÊNCIA DO CONSUMIDOR: UM ESTUDO DE CASO COM APLICAÇÃO DE ANÁLISE CONJUNTA E MODELOS DE REGRESSÃO
PREFERÊNCIA DO CONSUMIDOR: UM ESTUDO DE CASO COM APLICAÇÃO DE ANÁLISE CONJUNTA E MODELOS DE REGRESSÃO Gustavo Rocha Aquino González 1 Ana Paula Barbosa Sobral 2 Jane Azevedo da Silva 3 Raquel Campanate
Leia maisINSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E tecnologia PARAÍBA. Ministério da Educação
INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E tecnologia PARAÍBA Ministério da Educação Instituto Federal de Educação, Ciência e Tecnologia da Paraíba - Campus Cajazeiras Diretoria de Ensino / Coord. do Curso
Leia maisMESTRADO EM INFORMÁTICA MÉDICA UNIDADE CURRICULAR DE SISTEMAS DE ESTUDO COMPARATIVO O DE 2009
FACULDADE DE MEDICINA DA UNIVERSIDADEE DO PORTOO M MESTRADO EM INFORMÁTICA MÉDICA UNIDADE CURRICULAR DE SISTEMAS DE APOIO À DECISÃO CLÍNICA ESTUDO COMPARATIVO DE TRÊS ALGORITMOS DE MACHINE LEARNING NA
Leia maisAjustar Técnica usada na análise dos dados para controlar ou considerar possíveis variáveis de confusão.
Glossário Ajustar Técnica usada na análise dos dados para controlar ou considerar possíveis variáveis de confusão. Análise de co-variância: Procedimento estatístico utilizado para análise de dados que
Leia maisCombinação de Classificadores (fusão)
Combinação de Classificadores (fusão) André Tavares da Silva andre.silva@udesc.br Livro da Kuncheva Roteiro Sistemas com múltiplos classificadores Fusão por voto majoritário voto majoritário ponderado
Leia maisDCBD. Avaliação de modelos. Métricas para avaliação de desempenho. Avaliação de modelos. Métricas para avaliação de desempenho...
DCBD Métricas para avaliação de desempenho Como avaliar o desempenho de um modelo? Métodos para avaliação de desempenho Como obter estimativas confiáveis? Métodos para comparação de modelos Como comparar
Leia maisLes Estatística Aplicada II AMOSTRA E POPULAÇÃO
Les 0407 - Estatística Aplicada II AMOSTRA E POPULAÇÃO AULA 1 04/08/16 Prof a Lilian M. Lima Cunha Agosto de 2016 Estatística 3 blocos de conhecimento Estatística Descritiva Levantamento e resumo de dados
Leia maisClassificação supervisionada baseada em árvore geradora mínima
Classificação supervisionada baseada em árvore geradora mínima Letícia Cavalari Pinheiro 1,3 Renato Martins Assunção 2 1 Introdução Classificação supervisionada é um dos problemas mais estudados na área
Leia maisAgregação de Algoritmos de Aprendizado de Máquina (AM) Professor: Eduardo R. Hruschka Estagiário PAE: Luiz F. S. Coletta
Agregação de Algoritmos de Aprendizado de Máquina (AM) Professor: Eduardo R. Hruschka Estagiário PAE: Luiz F. S. Coletta (luizfsc@icmc.usp.br) Sumário 1. Motivação 2. Bagging 3. Random Forest 4. Boosting
Leia maisUma Estratégia de Preparação de Dados para Aumento de Precisão de Modelos de Classificação da Produtividade de Cana-de-açucar
Uma Estratégia de Preparação de Dados para Aumento de Precisão de Modelos de Classificação da Produtividade de Cana-de-açucar Maria das Graças J.M. Tomazela¹, Luiz Antônio Daniel¹ ¹Faculdade de Tecnologia
Leia maisRECONHECIMENTO DE GÊNERO ATRAVÉS DA VOZ
RECONHECIMENTO DE GÊNERO ATRAVÉS DA VOZ Marcela Ribeiro Carvalho marcela@enecar.com.br IFG/Câmpus Goiânia Hipólito Barbosa Machado Filho hipolito.barbosa@ifg.edu.br IFG/Câmpus Goiânia Programa Institucional
Leia maisINF 1771 Inteligência Artificial
INF 1771 Inteligência Artificial Aula 13 K-Nearest Neighbor (KNN) 2016.1 Prof. Augusto Baffa Formas de Aprendizado Aprendizado Supervisionado Árvores de Decisão. K-Nearest Neighbor
Leia maisAula 9. Prof. Adilson Gonzaga
Aula 9 Prof. Adilson Gonzaga Mapeamento Atribuir uma Instância a uma classe. Cada Instância é mapeada para um elemento do conjunto de Rótulos de Classe {p,n} p positivo n negativo Atribui uma Instância
Leia maisProf. MSc. Herivelto Tiago Marcondes dos Santos
Prof. MSc. Herivelto Tiago Marcondes dos Santos E-mail: herivelto@fatecguaratingueta.edu.br http://herivelto.wordpress.com Ementa Fundamentos da estatística. Coleta e Apresentação de dados. Medidas de
Leia maisANÁLISE E MODELAGEM DE DADOS LONGITUDINAIS NO R
Revista da Estatística UFOP, Vol II, 2012, ISSN 2237-8111, XI Encontro Mineiro de Estatística - MGEST ANÁLISE E MODELAGEM DE DADOS LONGITUDINAIS NO R Leandro Vitral Andraos 1,2, Marcel de Toledo Vieira
Leia maisCLASSIFICADORES BAEYSIANOS
CLASSIFICADORES BAEYSIANOS Teorema de Bayes 2 Frequentemente, uma informação é apresentada na forma de probabilidade condicional Probabilidade de um evento ocorrer dada uma condição Probabilidade de um
Leia maisAlternativas para construção de classificadores de solos brasileiros
48 Resumos Expandidos: XII Mostra de Estagiários e Bolsistas... Alternativas para construção de classificadores de solos brasileiros Matheus Agostini Ferraciolli¹ Luiz Manoel Silva Cunha² Resumo: Este
Leia maisINTELIGÊNCIA ARTIFICIAL
INTELIGÊNCIA ARTIFICIAL Engenharia da Computação Professor: Rosalvo Ferreira de Oliveira Neto Dados pessoais Rosalvo Ferreira de Oliveira Neto Dr. em ciência da computação (UFPE) rosalvo.oliveira@univasf.edu.br
Leia maisSUMÁRIO. Prefácio, Espaço amostrai, Definição de probabilidade, Probabilidades finitas dos espaços amostrais fin itos, 20
SUMÁRIO Prefácio, 1 3 1 CÁLCULO DAS PROBABILIDADES, 15 1.1 Introdução, 15 1.2 Caracterização de um experimento aleatório, 15 1.3 Espaço amostrai, 16 1.4 Evento, 17 1.5 Eventos mutuamente exclusivos, 17
Leia maisAprendizado Bayesiano
Aprendizado Bayesiano Marcelo K. Albertini 3 de Julho de 2014 2/1 Conteúdo Aprendizado Naive Bayes Exemplo: classificação de texto Redes Bayesiana Algoritmo EM Regressão probabiĺıstica 3/1 Classificador
Leia maisUm Estudo Sobre a Efetividade do Método de Imputação Baseado no Algoritmo k-vizinhos Mais Próximos
Um Estudo Sobre a Efetividade do Método de Imputação Baseado no Algoritmo k-vizinhos Mais Próximos Gustavo Enrique de Almeida Prado Alves Batista Maria Carolina Monard Laboratório de Inteligência Computacional
Leia maisAULA 09 Regressão. Ernesto F. L. Amaral. 17 de setembro de 2012
1 AULA 09 Regressão Ernesto F. L. Amaral 17 de setembro de 2012 Faculdade de Filosofia e Ciências Humanas (FAFICH) Universidade Federal de Minas Gerais (UFMG) Fonte: Triola, Mario F. 2008. Introdução à
Leia maisUtilizando a função auto.arima em modelos de séries temporais
Utilizando a função auto.arima em modelos de séries temporais Erasnilson Vieira Camilo 1 2 Marina Rodrigues Maestre 1 Rick Anderson Freire Mangueira 1 Elias Silva de Medeiros 1 Cristian Villegas 1 1 Introdução
Leia maisFigura 1: Metodologia de Reconhecimentos de Padrões desenvolvida na UFC
Uma Solução para o GISSA: Análise Comparativa entre Algoritmos de Aprendizagem de Máquina Aplicados em um Dataset Relacionado ao Óbito Infantil Joyce Quintino Alves (1) ; Cristiano Lima da Silva (2); Antônio
Leia maisAnálise Quantitativa de Tecidos em Úlceras de Perna
49 5 Análise Quantitativa de Tecidos em Úlceras de Perna A avaliação das áreas proporcionais de cada tecido interno das úlceras fornece informações importantes sobre seu estado patológico [BERRISS, 2000],
Leia maislnteligência Artificial Raciocínio Probabilístico - Introdução a Redes Bayesianas
lnteligência Artificial Raciocínio Probabilístico - Introdução a Redes Bayesianas Referências Adicionais Russel e Norvig cap. 14 e 15 Pearl, Judea. Probabilistic Reasoning in Intelligent Systems: Network
Leia mais2 Sentiment Analysis 2.1
2 Sentiment Analysis 2.1 Definição do Problema Sentiment Analysis é um problema de categorização de texto no qual deseja-se detectar opiniões favoráveis e desfavoráveis com relação a um determinado tópico
Leia maisPlano de Ensino. Identificação. Câmpus de Bauru. Curso Licenciatura em Matemática. Ênfase. Disciplina A - Estatística
Curso 1503 - Licenciatura em Matemática Ênfase Identificação Disciplina 0004123A - Estatística Docente(s) Gladys Dorotea Cacsire Barriga Unidade Faculdade de Engenharia Departamento Engenharia de Produção
Leia maisIntrodução à estatística univariada através da linguagem R
Introdução à estatística univariada através da linguagem R 1. Profesores Professora Doutora Maite Mascaró (mmm@ciencias.unam.mx) (Universidad Nacional Autónoma de México) Doutora Marta Rufino (marta.m.rufino@gmail.com)
Leia maisIntrodução a Sistemas Inteligentes
Introdução a Sistemas Inteligentes Conceituação Prof. Ricardo J. G. B. Campello ICMC / USP Créditos Parte do material a seguir consiste de adaptações e extensões dos originais gentilmente cedidos pelo
Leia maisINF 1771 Inteligência Artificial
INF 1771 Inteligência Artificial Aula 14 Support Vector Machines (SVM) 2016.1 Prof. Augusto Baffa Formas de Aprendizado Aprendizado Supervisionado Árvores de Decisão. K-Nearest
Leia maisPoder Executivo Ministério da Educação Universidade Federal do Amazonas Instituto de Ciências Exatas Departamento de Estatística PLANO DE ENSINO
PLANO DE ENSINO 1. IDENTIFICAÇÃO DA DISCIPLINA CURSO: IE01 - Estatística PERÍODO LETIVO: 2017/2 TURMA: EB01 DISCIPLINA: Probabilidade I SIGLA: IEE201 CARGA HORÁRIA TOTAL: 90 horas CRÉDITOS: 6.6.0 TEÓRICA:
Leia maisMáquinas de Vetores de Suporte Aplicadas à Classificação de Defeitos em Couro Bovino
Máquinas de Vetores de Suporte Aplicadas à Classificação de Defeitos em Couro Bovino Ricardo Cezar Bonfim Rodrigues 24 de abril de 2006 1 Antecedentes e Justificativa Hoje, em diversos processos industriais,
Leia mais5 Experimentos Corpus
5 Experimentos 5.1. Corpus A palavra corpus significa corpo em latim. No contexto de Aprendizado de Máquina, corpus se refere a um conjunto de dados utilizados para experimentação e validação de modelos.
Leia maisUNIVERSIDADE DO ESTADO DE MATO GROSSO - UNEMAT. Faculdade de Ciências Exatas e Tecnológicas FACET / Sinop Curso de Bacharelado em Engenharia Elétrica
REDES DE FUNÇÃO DE BASE RADIAL - RBF Prof. Dr. André A. P. Biscaro 1º Semestre de 2017 Funções de Base Global Funções de Base Global são usadas pelas redes BP. Estas funções são definidas como funções
Leia maisCE Estatística I
CE 002 - Estatística I Agronomia - Turma B Professor Walmes Marques Zeviani Laboratório de Estatística e Geoinformação Departamento de Estatística Universidade Federal do Paraná 1º semestre de 2012 Zeviani,
Leia maisTécnicas de Mineração de Dados aplicado na Universidade Federal Rural do Semi Árido (UFERSA) Campus Angicos 1*
Técnicas de Mineração de Dados aplicado na Universidade Federal Rural do Semi Árido (UFERSA) Campus Angicos 1* Julio Cartier Maia Gomes 1, Paulo Henrique de Morais 1, Cynthia Moreira Maia¹, Walter Martins
Leia maisUniversidade Federal do Pará Instituto de Tecnologia ESTATÍSTICA APLICADA. Plano da Disciplina. Campus de Belém Curso de Engenharia Mecânica
Universidade Federal do Pará Instituto de Tecnologia ESTATÍSTICA APLICADA Campus de Belém Curso de Engenharia Mecânica 1 IDENTIFICAÇÃO Nome da disciplina: Estatística Aplicada I Código da disciplina: EN07048
Leia maisModelo de previsão de partida de ônibus utilizando cadeias de Markov de alcance variável
Modelo de previsão de partida de ônibus utilizando cadeias de Markov de alcance variável Maria das Vitórias Alexandre Serafim 1 Manuel Rivelino Gomes de Oliveira 2 Divanilda Maia Esteves 3 Paulo José Duarte-Neto
Leia maisMETÓDOS DE REGRESSÃO KERNEL
METÓDOS DE REGRESSÃO KERNEL George Cavalcanti de Albuquerque Júnior 1; Getúlio José Amorim do Amaral 2 1 Estudante do Curso de Estatística - CCEN UFPE; E-mail: gcdaj1@de.ufpe.br, 2 Docente/pesquisador
Leia maisUtilização do Corte Percentual na categorização de documentos da Web com o algoritmo Naive Bayes
Utilização do Corte Percentual na categorização de documentos da Web com o algoritmo Naive Bayes José Alberto Sousa Torres/ Grinaldo Oliveira /Cláudio Alves Amorim * Em um momento em que é crescente a
Leia mais2 Processo de Agrupamentos
20 2 Processo de Agrupamentos A análise de agrupamentos pode ser definida como o processo de determinação de k grupos em um conjunto de dados. Para entender o que isso significa, observe-se a Figura. Y
Leia maisEstatística Descritiva (I)
Estatística Descritiva (I) 1 O que é Estatística Origem relacionada com a coleta e construção de tabelas de dados para o governo. A situação evoluiu: a coleta de dados representa somente um dos aspectos
Leia maisRastreamento de Objetos Baseado em Grafos. Casamento Inexato entre Grafos Relacionais com Atributos
Rastreamento de Objetos Baseado em Casamento Inexato entre Grafos Relacionais com Atributos Exame de Qualificação de Mestrado Ana Beatriz Vicentim Graciano Orientador: Roberto M. Cesar Jr. Colaboradora:
Leia maisAnálise de Sentimentos em Notícias Utilizando Dicionário Léxico e Aprendizado de Máquina
Análise de Sentimentos em Notícias Utilizando Dicionário Léxico e Aprendizado de Máquina Ana Carolina Bras Costa 1, Êmile Cunha Lopes 1 1 Departamento de Informática Universidade Federal do Maranhão (UFMA)
Leia maisProcedimento Complementar para Validação de Métodos Analíticos e Bioanalíticos usando Análise de Regressão Linear
Procedimento Complementar para Validação de Métodos Analíticos e Bioanalíticos usando Análise de Regressão Linear Rogério Antonio de Oliveira 1 Chang Chiann 2 1 Introdução Atualmente, para obter o registro
Leia maisCÁLCULO DO EQUILIBRIO DE TROCA-IÔNICA DO SISTEMA Na + -Pb 2+ -Cu 2+ USANDO REDES NEURAIS ARTIFICIAIS.
CÁLCULO DO EQUILIBRIO DE TROCA-IÔNICA DO SISTEMA Na + -Pb 2+ -Cu 2+ USANDO REDES NEURAIS ARTIFICIAIS. A. B. B. GIOPATTO 1, E. A. SILVA 2, T. D. MARTINS 1 1 Universidade Federal de São Paulo, Departamento
Leia maisBIOESTATÍSTICA. Prof ª Marcia Moreira Holcman
BIOESTATÍSTICA Prof ª Marcia Moreira Holcman mholcman@uol.com.br Bibliografia VIEIRA S. Introdução à Bioestatística, Editora Campus Rio de Janeiro, 1998. CALLEGARI-JACQUES SIDIA M. Bioestatísticos Princípios
Leia maisProfessora: Cira Souza Pitombo. Disciplina: Aplicações de técnicas de análise de dados
UNIVERSIDADE FEDERAL DA BAHIA ESCOLA POLITÉCNICA MESTRADO EM ENGENHARIA AMBIENTAL E URBANA Apresentação do Curso Introdução Professora: Cira Souza Pitombo Disciplina: Aplicações de técnicas de análise
Leia maisUtilização de técnicas de Mineração de Dados para diagnóstico de rendimento dos alunos do ensino básico do município de Indaiatuba
Utilização de técnicas de Mineração de Dados para diagnóstico de rendimento dos alunos do ensino básico do município de Indaiatuba Thaís Barros Nascimento 1, Maria das Graças J. M. Tomazela 1 1 Faculdade
Leia maisMedidas de associação para variáveis categóricas em tabelas de dupla entrada
Medidas de associação para variáveis categóricas em tabelas de dupla entrada a) Quiquadrado de Pearson: mede a associação de tabelas de dupla entrada, sendo definida por: c ( e e ij ij n ) ij, em que é
Leia maisAnálise de Risco de Crédito Bancário
UNIVERSIDADE FEDERAL DE CAMPINA GRANDE UFCG Curso de Mestrado em Informática Aluno: Francisco Fabian de Macedo Almeida Disciplina: Mineração de Dados Professor: Marcos Sampaio Data: 20 de dezembro de 2007
Leia maisReconhecimento de Padrões
Reconhecimento de Padrões André Tavares da Silva andre.silva@udesc.br Roteiro da aula Conceitos básicos sobre reconhecimento de padrões Visão geral sobre aprendizado no projeto de classificadores Seleção
Leia maisCAPÍTULO 3 POPULAÇÃO E AMOSTRA
DEPARTAMENTO DE GEOCIÊNCIAS GCN 7901 ANÁLISE ESTATÍSTICA EM GEOCIÊNCIAS PROFESSOR: Dr. ALBERTO FRANKE CONTATO: alberto.franke@ufsc.br F: 3721 8595 CAPÍTULO 3 POPULAÇÃO E AMOSTRA As pesquisas de opinião
Leia maisEstratégias para Classificação Binária Um estudo de caso com classificação de s
CE064 - INTRODUÇÃO AO MACHINE LEARNING Estratégias para Classificação Binária Um estudo de caso com classificação de e-mails Eduardo Elias Ribeiro Junior * 04 de julho de 2016 Resumo Em Machine Learning
Leia maisSimulação de Sistemas. Adaptado de material de Júlio Pereira Machado (AULA 17)
Simulação de Sistemas Adaptado de material de Júlio Pereira Machado (AULA 17) Análise dos Dados de Saída Além das tarefas de modelagem e validação, devemos nos preocupar com a análise apropriada dos resultados
Leia maisSumário. Prefácio... xi. Probabilidade e Estatística... 1
Sumário 1 Prefácio............................................................................ xi Probabilidade e Estatística.................................................... 1 1.1 Introdução.......................................................................
Leia maisClassificação: Árvores de Decisão e k-nn. Eduardo Raul Hruschka
Classificação: Árvores de Decisão e k-nn Eduardo Raul Hruschka Árvores de Decisão Métodos para aproximar funções discretas, representadas por meio de uma árvore de decisão; Árvores de decisão podem ser
Leia maisAPLICAÇÃO DE REDES NEURAIS ARTIFICIAIS PARA ESTIMAR MATRIZ ORIGEM-DESTINO DE CARGA
APLICAÇÃO DE REDES NEURAIS ARTIFICIAIS PARA ESTIMAR MATRIZ ORIGEM-DESTINO DE CARGA Daniel Neves Schmitz Gonçalves Luiz Antonio Silveira Lopes Marcelino Aurelio Vieira da Silva APLICAÇÃO DE REDES NEURAIS
Leia maisESTUDOS SECCIONAIS. Não Doentes Expostos. Doentes Expostos. Doentes Não Expostos. Não Doentes Não Expostos
ESTUDOS SECCIONAIS ESTUDOS SECCIONAIS Doentes Expostos Doentes Não Expostos Não Doentes Expostos Não Doentes Não Expostos Frequencias de doença e exposição observadas em um estudo seccional Frequencias
Leia maisAnálise do Desempenho Acadêmico Utilizando Redes Bayesianas: um estudo de caso
Análise do Desempenho Acadêmico Utilizando Redes Bayesianas: um estudo de caso Danilo Raniery Alves Coutinho, Thereza Padilha Departamento de Ciências Exatas - Universidade Federal da Paraíba (UFPB) Campus
Leia maisMOQ-13 PROBABILIDADE E ESTATÍSTICA. Professor: Rodrigo A. Scarpel
MOQ-13 PROBABILIDADE E ESTATÍSTICA Professor: Rodrigo A. Scarpel rodrigo@ita.br www.mec.ita.br/~rodrigo Programa do curso: Semanas 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 e 16 Introdução à probabilidade (eventos,
Leia mais1 Classificadores Bayseanos Simples
Aula 12 - Classificadores Bayseanos Curso de Data Mining Sandra de Amo Classificadores Bayseanos são classificadores estatísticos que classificam um objeto numa determinada classe baseando-se na probabilidade
Leia maisMáquinas de suporte vetorial e sua aplicação na detecção de spam
e sua aplicação na detecção de spam Orientador: Paulo J. S. Silva (IME-USP) Universidade de São Paulo Instituto de Matemática e Estatística Departamento de Ciência da Computação MAC499 Trabalho de Formatura
Leia maisUSO DE PLANEJAMENTO COMPOSTO CENTRAL NA AVALIAÇÃO DAS VARIÁVEIS TEMPERAURA E CONCENTRAÇÃO DE SOLVENTES NO ESTUDO DA SOLUBILIDADE DA UREIA
USO DE PLANEJAMENTO COMPOSTO CENTRAL NA AVALIAÇÃO DAS VARIÁVEIS TEMPERAURA E CONCENTRAÇÃO DE SOLVENTES NO ESTUDO DA SOLUBILIDADE DA UREIA F. M. A. S. COSTA 1, A. P. SILVA 1, M. R. FRANCO JÚNIOR 1 e R.
Leia maisANÁLISE ESPACIAL DOS ÍNDICES EDUCACIONAIS DO RIO GRANDE DO NORTE COM O USO DE TÉCNICAS DE MINERAÇÃO DE DADOS
ANÁLISE ESPACIAL DOS ÍNDICES EDUCACIONAIS DO RIO GRANDE DO NORTE COM O USO DE TÉCNICAS DE MINERAÇÃO DE DADOS Fábio Abrantes Diniz 1, Fabiano Rosemberg de Moura Silva 2, Roberto Douglas da Costa 3, Thiago
Leia maisStela Adami Vayego DEST/UFPR
Resumo 5 - Análise Bivariada (Bidimensional) 5.1. Introdução O principal objetivo das análises nessa situação é explorar relações (similaridades) entre duas variáveis. A distribuição conjunta das freqüências
Leia maisA procura da melhor partição em Classificação Hierárquica: A abordagem SEP/COP
A procura da melhor partição em Classificação Hierárquica: A abordagem SEP/COP Lúcia Sousa Escola Superior de Tecnologia e Gestão, Instituto Politécnico de Viseu Fernanda Sousa Faculdade de Engenharia
Leia maisMetodologia Aplicada a Computação.
Metodologia Aplicada a Computação gaudenciothais@gmail.com Pré-processamento de dados Técnicas utilizadas para melhorar a qualidade dos dados; Eliminam ou minimizam os problemas como ruídos, valores incorretos,
Leia maisExemplos Equações de Estimação Generalizadas
Exemplos Equações de Estimação Generalizadas Bruno R. dos Santos e Gilberto A. Paula Departamento de Estatística Universidade de São Paulo, Brasil giapaula@ime.usp.br Modelos Lineares Generalizados dos
Leia maisPLANO DE ENSINO. Disciplina. Código Denominação Carga horária AT 1 AP 2 APS 3 Total 311 Estatística e Probabilidade 120h/a 120h/a.
ANEXO II RESOLUÇÃO Nº 282/2007 CEPE PLANO DE ENSINO PERÍODO LETIVO/ANO: 2008 ANO DO CURSO: 4 Curso: Matemática Modalidade: Licenciatura Turno: Noturno Centro: Centro de Ciências Exatas e Tecnológicas CCET
Leia mais3 Modelos Comparativos: Teoria e Metodologia
3 Modelos Comparativos: Teoria e Metodologia Para avaliar o desempenho do modelo STAR-Tree, foram estimados os modelos Naive, ARMAX e Redes Neurais. O ajuste dos modelos ARMAX e das redes neurais foi feito
Leia maisANÁLISE MULT1VARIADA; UM EXEMPLO USANDO MODELO LOG-LINEAR
ANÁLISE MULT1VARIADA; UM EXEMPLO USANDO MODELO LOG-LINEAR José Maria Pacheco de Souza* Maria Helena D'Aquino Benicio** SOUZA, J.M.P. de & BENÍCIO, M.H.D'A. Análise multivariada: um exemplo usando modelo
Leia maisEstatística
Estatística 1 2016.2 Sumário Capítulo 1 Conceitos Básicos... 3 MEDIDAS DE POSIÇÃO... 3 MEDIDAS DE DISPERSÃO... 5 EXERCÍCIOS CAPÍTULO 1... 8 Capítulo 2 Outliers e Padronização... 12 VALOR PADRONIZADO (Z)...
Leia maisTeoria das Probabilidades
Capítulo 2 Teoria das Probabilidades 2.1 Introdução No capítulo anterior, foram mostrados alguns conceitos relacionados à estatística descritiva. Neste capítulo apresentamos a base teórica para o desenvolvimento
Leia maisPreparação dos Dados 1
Preparação dos Dados 1 Preparação dos Dados Compreensão dos dados Limpeza Metadado Valores Perdidos Formato de data unificado Nominal para numérico Discretização Seleção de atributos e falsos preditores
Leia maisAplicação da técnica de mineração de dados por meio do algoritmo J48 para definição de limiares de imagens de sensoriamento remoto
Aplicação da técnica de mineração de dados por meio do algoritmo J48 para definição de limiares de imagens de sensoriamento remoto Rodrigo Rodrigues Antunes e Israel Rodrigues Gonçalves Resumo: O objetivo
Leia maisTeste Chi-Quadrado de Independência. Prof. David Prata Novembro de 2016
Teste Chi-Quadrado de Independência Prof. David Prata Novembro de 2016 Duas Variáveis Categóricas Análise de variância envolve o exame da relação entre uma variável categórica explicativa e uma variável
Leia maisAprendizado Local da Estrutura de Redes Bayesianas a partir de Dados Incompletos - Bayes Ball Structure Learning (BBSL)
Aprendizado Local da Estrutura de Redes Bayesianas a partir de Dados Incompletos - Bayes Ball Structure Learning (BBSL) Roosevelt de L. Sardinha 1, Aline Paes 2, Gerson Zaverucha 1 1 COPPE-PESC Universidade
Leia maisAvaliação dos processos de amostragem de inspeção para atributos no setor de matéria prima na indústria farmacêutica local
Avaliação dos processos de amostragem de inspeção para atributos no setor de matéria prima na indústria farmacêutica local Shamon Henrique Feitosa de Souza ; Emerson Wruck 2 Bolsista PBIC/UEG, graduando
Leia mais