UNIVERSIDADE FEDERAL DO PARANÁ CURSO ESTATÍSTICA CALEB SOUZA - GRR RODOLFO PIROLO GATZKE - GRR THAYS COSTA S. SOUZA - GRR

Documentos relacionados
UNIVERSIDADE FEDERAL DO PARANÁ. Adriane Machado (GRR ), Cinthia Zamin Cavassola(GRR ) e Luiza Hoffelder da Costa(GRR )

Análise do acidente do Titanic

Ajuste e validação de modelos preditivos

Análise Multivariada Aplicada à Contabilidade

UNIVERSIDADE FEDERAL DO PARANÁ CURSO ESTATÍSTICA CALEB SOUZA GRR DENNIS LEÃO GRR LUAN FIORENTIN GRR

UNIVERSIDADE FEDERAL DO PARANÁ DEPARTAMENTO DE ESTATÍSTICA

Análise dados de diagnóstico de câncer de mama

EFICIÊNCIA DE UM TRATAMENTO APLICADO A PACIENTES COM LEUCEMIA

Regressão para Dados Binários - Estudo de Dengue

Número de Consultas ao Médico

Análise de dados de Contagem

Trabalho de GLM 2. Adi M. ARAÚJO, Kristiany J. MARTINI, Konstanz W. TONEGAWA, Leonardo H. KRÜGER. 17 de outubro de 2017

UNIVERSIDADE FEDERAL DO PARANÁ. Adriane Machado (GRR ) Cinthia Zamin Cavassola (GRR ) Luiza Hoffelder da Costa (GRR )

Regressão Logística: Um Estudo sobre o Uso de Tabaco entre Alunos da Universidade Federal do Paraná Curitiba

UNIVERSIDADE FEDERAL DO PARANÁ DEPARTAMENTO DE ESTATÍSTICA

Modelos de Regressão para Dados de Contagem

UNIVERSIDADE FEDERAL DO PARANÁ. Departamento de Estatística

Regressão para Dados de Contagem - Segurança e privatização ferroviária na Grã-Bretanha

INCIDÊNCIA DE DENGUE EM UMA CIDADE DA COSTA MEXICANA: UM ESTUDO PREDITIVO

4 Modelos Lineares Generalizados

Óbitos por Acidentes de Transporte em Santa Catarina no ano de 2016

UNIVERSIDADE FEDERAL DO PARANÁ CURSO ESTATÍSTICA DENNIS LEÃO GRR LUAN FIORENTIN GRR

Relatório GLM - Predição de doênça coronária cardíaca através do modelo de regressão generalizado com resposta Binomial

Modelos Lineares Generalizados - Regressão Logística

Analise de sobreviventes em acidentes de carros

Trabalho de Modelos Lineares Generalizados

Lista 1 - Gabarito. Prof. Erica Castilho Rodrigues Disciplina: Modelos Lineares Generalizados. 29 de Abril. f(y i, θ i ) = θ i exp( yiθ i ).

O USO DE MODELOS DE REGRESSÃO LOGÍSTICA PARA AVALIAÇÃO DO PROBLEMA DE EVASÃO DE ALUNOS NO CURSO DE QUÍMICA INDUSTRIAL DA UNUCET-UEG

UNIVERSIDADE FEDERAL DO PARANÁ SETOR DE CIÊNCIAS EXATAS DEPARTAMENTO DE ESTATÍSTICA

MEDIÇÃO DA QUALIDADE DO VINHO BRANCO NORTE PORTUGUÊS

3.33pt. AIC Introdução

RELACÃO DO CRIME EM CIDADES PEQUENAS COM CUSTO, IDADE E ANOS DE ESTUDO DE ESTADOS DA AMERICA DO NORTE

Classificação de dados em modelos com resposta binária via algoritmo boosting e regressão logística

Análise de dados de contagem para jogadores de futebol americano

ESTUDO SOBRE A TAXA ANUAL DE CÂNCER NASAL EM UMA REFINARIA DE NÍQUEL NO PAÍS DE GALES

Modelos Lineares Generalizados - Modelos log-lineares para tabelas de contingência

Avaliação do Risco de Crédito: Modelos de Regressão Logística com amostras de diferentes proporções

Adriane Machado Cinthia Zamin Cavassola Luiza Hoffelder da Costa REGRESSÃO EM DADOS DE CONTAGEM: UM ESTUDO SOBRE A QUANTIDADE DE BICICLETAS ALUGADAS

Modelos Lineares Generalizados - Modelos log-lineares para tabelas de contingência

Modelos Lineares Generalizados para Dados de Contagem Ananda Bordignon, Brendha Lima, Giovanna Lazzarin 28 de novembro de 2018

RESOLUÇÃO Nº 01/2016

Modelagem de dados de consumo de combustível de veículos por meio de GAMLSS

CORRELAÇÃO E REGRESSÃO

Exemplo Regressão Robusta

Análise de Regressão EST036

Mortalidade de empresas de pequenos empreendedores no município de Parintins

SELEÇÃO DE VARIÁVEIS

Disciplina de Modelos Lineares Professora Ariane Ferreira

Referência Banco de dados FioCruz Doc LAB1_GEO.doc. Autor Eduardo C. G. Camargo Versão 1.0 Data DEZ / Revisão Versão Data

5 Modelagem e análise dos resultados

Aula 8: Árvores. Rafael Izbicki 1 / 33

UNIVERSIDADE FEDERAL DO PARANÁ CURSO DE ESTATÍSTICA. Jayme Gomes dos Santos Junior Luciana Helena Kowalski

AULA 09 Regressão. Ernesto F. L. Amaral. 17 de setembro de 2012

Regressão de Poisson e parentes próximos

Modelo Linear Generalizado Distribuição de Poisson

Modelo de regressão estável aplicado a econometria

Quantis residuais. Luziane Franciscon Acadêmica de Estatística Universidade Federal do Paraná

Aplicação dos modelos lineares generalizados na análise do

Análise de Sobrevivência

Modelo Linear Generalizado Distribuição Normal

UNIVERSIDADE FEDERAL DO PARANÁ. Adi M. A. Junior Leonardo H. B. Krüger Kristiany J. Martini Konstanz T. Winter

Exemplos Equações de Estimação Generalizadas

Exemplo Vida Útil de Ferramentas

MAE Estatística Descritiva - 1 o semestre de 2017 Professora: Márcia D Elia Branco Monitora PAE: Simone Harnik Gabarito - Lista 4

Modelos para dados de contagem

Modelos Binomial e Poisson

Regression and Clinical prediction models

AULAS 28 E 29 Análise de Regressão Múltipla com Informações Qualitativas

Modelagem de Risco de Crédito

Exemplo Multicolinearidade

Estatística Descritiva

UNIVERSIDADE FEDERAL DO PARANÁ CURSO ESTATÍSTICA

Quiz Econometria I versão 1

Aprendizado de Máquina

MAE Modelos Lineares Generalizados 2 o semestre 2017

Análise de Dados Categóricos

CONHECIMENTOS ESPECÍFICOS

EXPLORANDO OS MODELOS LINEARES GENERALIZADOS APLICAÇÃO A DADOS DE UM PEQUENO SUPERMERCADO

Exemplos Modelos de Quase-Verossimilhança

Disciplina de Modelos Lineares

SELEÇÃO DE VARIÁVEIS

Regressão Linear Múltipla no R MAE-0217: ESTATÍSTICA DESCRITIVA MAIO DE 2017 PROFESSORA: MÁRCIA D ELIA BRANCO

MARCOS VINICIUS DE ANDRADE RODRIGO CAETANO DE SOUZA

ESTUDO SOBRE A EVASÃO E O TEMPO ATÉ A FORMATURA DOS ALUNOS DO CURSO DE ESTATÍSTICA DA UFPR

CONHECIMENTOS ESPECÍFICOS

CE062c - GAMLSS. Silva, J.P; Taconeli, C.A. 09 de outubro, Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro, / 42

Regression and Clinical prediction models

1 z 1 1 z 2. Z =. 1 z n

UNIVERSIDADE FEDERAL DO PARANÁ. André Luiz Grion GRR Bruno Henrique Abreu GRR Maria Tereza Neves de Oliveira GRR

Métodos Estatísticos Avançados em Epidemiologia

CE062c José Luiz Padilha da Silva e Cesar Augusto Taconeli 06 de novembro de 2018

Estudar a relação entre duas variáveis quantitativas.

Coeficiente de determinação R 2 no modelo de regressão linear normal

Estimador de Máxima Verossimilhança Estudo de Caso - Regressão Poisson

Rafael Izbicki 1 / 38

Aplicação de modelos lineares generalizados na captura de atum da espécie Thunnus albacares.

Modelos lineares generalizados: um estudo sobre leilões de veículos

Exemplo Cupons com Desconto

Questionário GERAÇÃO SAUDÁVEL: ANÁLISE ESTATÍSTICA

UNIVERSIDADE FEDERAL DO PARANÁ. André Luiz Grion GRR Bruno Henrique Abreu GRR Maria Tereza Neves de Oliveira GRR

Transcrição:

UNIVERSIDADE FEDERAL DO PARANÁ CURSO ESTATÍSTICA CALEB SOUZA - GRR 20149072 RODOLFO PIROLO GATZKE - GRR 20149150 THAYS COSTA S. SOUZA - GRR 20159231 MODELAGEM PARA O SUCESSO DE CAMPANHA DE MARKETING CURITIBA Novembro de 2018

Sumário 1 Resumo 3 2 Introdução 3 3 Material e Métodos 3 3.1 - Material 3 3.2 Métodos 4 4 Resultados e Discussão 4 5 Conclusão 8 2

1 Resumo O presente estudo teve como objetivo a construção de um modelo estatístico que interpretasse adequadamente o resultado de campanhas de marketing realizadas a fim de captar clientes que fizessem investimentos em um determinado banco. Pelo fato da variável resposta ser do tipo binária (sucesso ou fracasso), a técnica estatística utilizada para o desenvolvimento do modelo foi a regressão logística. A escolha das covariaveis do modelo foram feitas, preliminarmente, a partir da avaliação marginal do relacionamento das covariaveis com a variavel resposta e, na sequência, utilizou-se o método de seleção AIC. Devido ao fato da base ser grande, foi possível separar parte do conjunto de dados para fazer o ajuste do modelo e outra parte para realizar a validação. Após a análise do banco de dados e seleção das covariáveis, obteve-se como resultado um modelo que se ajustou satisfatoriamente aos dados, possibilitando predições para o alcance de melhores resultados em futuras campanhas de marketing do banco. 2 Introdução Modelos Lineares Generalizados (MLG) são uma classe de modelos de regressão, sendo considerados como uma extensão dos modelos clássicos de regressão. Os MLG s são utilizados quando se tem uma única variável resposta (Y) e um conjunto de variáveis explicativas - covariáveis (X i ), envolvendo três componentes: componente aleatório, componente sistemático e função de ligação. Englobam vários métodos estatísticos para a análise de dados, considerando sua natureza. Por exemplo, enquanto a regressão logística modela a variável resposta binária a regressão de Poisson modelará respostas do tipo contagem. O Modelo de Regressão Logística é muito utilizado em áreas como medicina, ecometria, seguradoras, instituições financeiras, etc. Ainda que a variável resposta não seja originalmente binária, é possível dicotomizar a resposta de modo que possa ser ajustado um modelo de regressão logística. A regressão logistica é util para modelar a probabilidade de acontecer um evento em função de outras covariáveis, e é muito utilizada pela facilidade de interpretação dos parâmetros e possibilidade de análise discriminante. O objetivo do presente estudo foi ajustar um modelo de regressão logística para analisar o comportamento dos dados, estimar parâmetros, verificar quais as covariáveis significativas, e possibilitar predições confiáveis para campanhas de marketing s mesmos moldes da estudada neste trabalho. 3 Material e Métodos 3.1 - Material A base de dados utilizado neste estudo foi obtida respositório UCI (Machine Learning Repository). Esta base de dados contém 45.211 observações referentes à campanhas realizadas entre os as de 2008 e 2010 em uma instituição bancária de Portugal. A variável resposta está assim especificada: y = 1, significa que o cliente foi captado, logo o investimento foi efetivado; e y = 0, o cliente não foi captado, logo o investimento não foi efetivado. Quanto as covariáveis, segue abaixo a discriminação das 15 covariáveis: 3

age: idade (numérica); job: tipo de trabalho (categórica); marital: status civil (categórica) education: nível de escolaridade (categórica) default: possui dívida de credito (categórica) balance: saldo médio anual, em euros (numérica) housing: empréstimo hipotecário (categórica) loan: empréstimo pessoal (categórica) contact: dispositivo de contato (categórica) month: mês do contato (categórico) day: dia do contato (categórico) duration: tempo em segundos do contato (numérica) campaign: quantidade de contatos realizados durante a campanha (numérica) pdays: quantidade de dias que passou depois do ultimo contato antes da campanha (numérica) previous: quantidade de contatos realizado antes da campanha (numérica) poutcome: resultado da campanha anterior (numérica) 3.2 Métodos Devido ao fato da variavél resposta ser binária a técnica utilizada para a criação do modelo foi a regresão logística. A partir de uma análise inicial das covariáveis identificou-se a necessidade de transformação da variável duration de segundos para minutos e a mudança de escala da variável balance de euros para milhares de euros, estas transformações foram realizadas para facilitar a interpretação final do modelo. Além disso também foi observado que algumas variáveis não seriam úteis ao modelo, devido a grande quantidade de valores nulos. São elas: poutcome, pday, previous. Constatou-se também que as variáveis month, day, contact "e job "não foram significativas, logo, elas também foram retiradas do modelo. Outro ação realizada na base de dados foi a eliminação das observações que continham valores nulos na variável education. Essa providência foi possível pois a redução da base pela exclusão destas observações não impactaram na análise. 4 Resultados e Discussão Na Tabela 1 e Tabela 2 estão apresentadas algumas estatísticas descritivas referentea às variáveis que farão parte do modelo. As variáveis que não irão compor o modelo não serão apresentadas. Sobre as variáveis quantitativas é possível verificar distribuição bem assimétrica para age, duration e balance. Na sequencia das tabelas, vemos os gráficos boxplot para cada uma destas variáveis. Tabela 1: Estatística descritiva das variáveis quantitativas age balance duration Mínimo 18.00-8.02 0.00 Média 40.78 1.36 4.30 4

age 20 40 60 80 duration (min) 0 20 40 60 80 balance (em k euros) 0 20 40 60 80 100 cliente captado cliente captado cliente captado Figura 1: Análise de dispersão para as variáveis age, duration e balance age balance duration Máximo 95.00 102.13 81.97 Desv. Padrão 10.52 3.04 4.30 Tabela 2: Estatística descritiva das variáveis categoricas marital education default housing loan divorced: 5038 primary : 6851 :42571 :19044 :36243 married :26054 secondary:23202 : 783 :24310 : 7111 single :12262 tertiary :13301 unkwn : 0 Nos gráficos de disperção, podemos verificar que a idade mediana do gráfico age está semelhante, porém a variância do grupo captado é maior. A duração das ligações (duration) para os clientes captados é maior em relação aos não captados e, os valores médios de renda (balance) estão s mesmos níves porém, com uma variância maior para os clientes capturados. Com isto, ta-se que o perfil do cliente captado é maduro, interessado na explicação dada pelo atendente e com renda média baixa. Para chegarmos ao modelo proposto, quanto a seleção das covariáveis, utilizamos o critério de informação de Akaike - AIC, método forward. Assim, partimos do modelo nulo com uma deviance de 21411 com 29999 graus de liberdade, chegando ao modelo proposto com deviance de 16862 com 29989 graus de liberdade, gerando um AIC igual a 16884. AIC model = 2log(L) + 2p O modelo final ficou com as seguintes características: ## y ~ duration + housing + loan + education + marital + age + default + ## balance 5

Tabela 3: Parametros Estimados Betas Estimate Std..Error z.value Pr... z.. (Intercept) b0-3.6865646 0.1435533-25.680807 0.0000000 duration b1 0.2289639 0.0043144 53.070191 0.0000000 housing b2-0.9704806 0.0436251-22.245943 0.0000000 loan b3-0.6446811 0.0671377-9.602378 0.0000000 educationsecondary b4 0.3363676 0.0667616 5.038336 0.0000005 educationtertiary b5 0.5884615 0.0696824 8.444906 0.0000000 maritalmarried b6-0.1203230 0.0661556-1.818789 0.0689436 maritalsingle b7 0.3733001 0.0746615 4.999904 0.0000006 age b8 0.0115118 0.0021169 5.438119 0.0000001 default b9-0.6190548 0.2044553-3.027824 0.0024632 balance b10 0.0164720 0.0053840 3.059452 0.0022174 A variável resposta segue o modelo bimial conforme descrito abaixo: O modelo proposto é o seguinte: ln ( πi 1 π i ) y i x bimial(m i, π i ), i = 1, 2,..., n = 3, 6865 + 0, 016.duration 0, 9704.housing 0, 6446.loan +0, 3363.educationsecondary + 0, 5884.educationtertiary 0, 1203.maritalmarried +0, 3733.maritalsingle + 0, 0151.age 0, 6190.def ault + 0, 0164.balance A partir do modelo proposto é possível ver que as covaráveis que contribuem positivamente à probibilidade de captação do clientes são as seguintes (em ordem de maior contribuição): educationtertiary, maritalsingle, educationsecondary, duration e balance, sendo que a partir da idade de 50 as, a covariável duration passa contribuir mais do que educationtertiary. Seguindo esta mesma analise as covariáveis que contribuem negativamente modelo:housing, loan,default e maritalmarried. Ao analisar o modelo e as caracteristicas da estatistica descritiva é possível ver que é mais comum clientes com idade superior a 40 as e que conversaram em média 4min com o atendente, de serem captados. Ao estudar estes clientes associados as demais covariáveis é possivel fazer algumas conclusões interessantes, por exemplo: considerando que este cliente não possui divida, não possui empréstimo hipotecário ou empréstimo pessoal, tenha educação secundária e seja seja casado, a probabilidade deste cliente ser captado é 5,8%, e caso seja solteiro a probabilidade sobe para 8,21%. Se estudarmos este mesmo usuário fazendo a alteração na variavel de ensi: se for casado com ensi superior a probabilidade é de 7,34% e se for solteiro a chance sobre para 11,49%. 6

A partir da análise dos resíduos é possível constatar a aproximação da rmal, logo, pode-se supor que o modelo está bem ajustado. Figura 2: Qualidade do Ajuste Existe o interesse em classificar os clientes que receberam as ligações como captados, que são os clientes que efetivaram o investimento, e não captados, que são os clientes que receberam as ligações porém não tiveram interesse em realizar o investimento. A partir dos resultados de predição e dos valores reais observados é possível construir a tabela de classificação (Tabela 4) de onde extrai-se o poder de predição. Este poder de predição é estabelecido através de duas medidas, são elas: a sensibilidade, que é a probabilidade de classificação de sucesso dado que a observação é sucesso, e a especificidade, que é a probabilidade de classificação de fracasso dado que a observação é de fato fracasso. Inicialmente foi estabelecido o ponto de corte (pc) igual a 0.5, assim sendo, clientes serão classificados como captados quando o valor da predição for superior ou igual a 0,5. Uma vez que o interesse do banco é acertar a classificação de clientes captados, a medida de interesse será a sensibilidade. Para o pc=0.5 o valor de sensibilidade obtido foi 0.1783, que não é satisfatório. Foi utilizado a curva ROC e a curva de custo para conseguir obter o ponto de corte ideal, com o qual obteremos o melhor resultado para sensibilidade e especificidade. A partir das figuras 1 e 2 é visualmente tável que o ponto de corte ideal é próximo de 0,1. Os resultados obtidos com a utilização do pc=0.1 são satisfatórios. Conforme apresentado nas tabelas 5 e 6, constata-se um poder maior na classificação do cliente captado. Tabela 4: Tabela de Classificação para pc=0.5 Pred_ 11566 1304 Pred_ 201 283 7

(a) Curva ROC (b) Curva de custo Figura 3: Curvas que indicam o melhor ponto de corte Tabela 5: Tabela de Classificação para pc =0.1 Pred_ 8497 284 Pred_ 3270 1303 Tabela 6: Tabela poder preditivo para pc=0.1 Sensibilidade Especificidade 0.821 0.7221 5 Conclusão Diante das análises realizadas, constatou-se que o modelo de regressão logística proposto teve uma adequação satisfatória aos dados. Concluiu-se que as covariáveis tempo do contato, empréstimo hipotecário, empréstimo pessoal, nível de escolaridade, estado civil, idade, possui dívida de crédito e saldo médio anual, contribuiram significativamente para o resultado da campanha de marketing do banco. Ainda, foi possível estabelecer o perfil do cliente captado : maduro, interessado na explicação dada pelo atendente e com renda média baixa. É importante observar que a taxa de captação de clientes através de atendimentos de call-center é muito baixa, logo se faz muito necessário classificar qual o perfil do cliente que possui mais probabilidade de serem captados. Por fim, considerando como medida de maior interesse a sensibilidade, foi estabelecido um ponto de corte de 0,1, que resultou num poder preditivo de 82,1% para a Sensibilidade e 72,21% para Especificidade, o que possibilita um poder maior na classificação do cliente captado. 8