UNIVERSIDADE FEDERAL DO PARANÁ CURSO ESTATÍSTICA CALEB SOUZA - GRR 20149072 RODOLFO PIROLO GATZKE - GRR 20149150 THAYS COSTA S. SOUZA - GRR 20159231 MODELAGEM PARA O SUCESSO DE CAMPANHA DE MARKETING CURITIBA Novembro de 2018
Sumário 1 Resumo 3 2 Introdução 3 3 Material e Métodos 3 3.1 - Material 3 3.2 Métodos 4 4 Resultados e Discussão 4 5 Conclusão 8 2
1 Resumo O presente estudo teve como objetivo a construção de um modelo estatístico que interpretasse adequadamente o resultado de campanhas de marketing realizadas a fim de captar clientes que fizessem investimentos em um determinado banco. Pelo fato da variável resposta ser do tipo binária (sucesso ou fracasso), a técnica estatística utilizada para o desenvolvimento do modelo foi a regressão logística. A escolha das covariaveis do modelo foram feitas, preliminarmente, a partir da avaliação marginal do relacionamento das covariaveis com a variavel resposta e, na sequência, utilizou-se o método de seleção AIC. Devido ao fato da base ser grande, foi possível separar parte do conjunto de dados para fazer o ajuste do modelo e outra parte para realizar a validação. Após a análise do banco de dados e seleção das covariáveis, obteve-se como resultado um modelo que se ajustou satisfatoriamente aos dados, possibilitando predições para o alcance de melhores resultados em futuras campanhas de marketing do banco. 2 Introdução Modelos Lineares Generalizados (MLG) são uma classe de modelos de regressão, sendo considerados como uma extensão dos modelos clássicos de regressão. Os MLG s são utilizados quando se tem uma única variável resposta (Y) e um conjunto de variáveis explicativas - covariáveis (X i ), envolvendo três componentes: componente aleatório, componente sistemático e função de ligação. Englobam vários métodos estatísticos para a análise de dados, considerando sua natureza. Por exemplo, enquanto a regressão logística modela a variável resposta binária a regressão de Poisson modelará respostas do tipo contagem. O Modelo de Regressão Logística é muito utilizado em áreas como medicina, ecometria, seguradoras, instituições financeiras, etc. Ainda que a variável resposta não seja originalmente binária, é possível dicotomizar a resposta de modo que possa ser ajustado um modelo de regressão logística. A regressão logistica é util para modelar a probabilidade de acontecer um evento em função de outras covariáveis, e é muito utilizada pela facilidade de interpretação dos parâmetros e possibilidade de análise discriminante. O objetivo do presente estudo foi ajustar um modelo de regressão logística para analisar o comportamento dos dados, estimar parâmetros, verificar quais as covariáveis significativas, e possibilitar predições confiáveis para campanhas de marketing s mesmos moldes da estudada neste trabalho. 3 Material e Métodos 3.1 - Material A base de dados utilizado neste estudo foi obtida respositório UCI (Machine Learning Repository). Esta base de dados contém 45.211 observações referentes à campanhas realizadas entre os as de 2008 e 2010 em uma instituição bancária de Portugal. A variável resposta está assim especificada: y = 1, significa que o cliente foi captado, logo o investimento foi efetivado; e y = 0, o cliente não foi captado, logo o investimento não foi efetivado. Quanto as covariáveis, segue abaixo a discriminação das 15 covariáveis: 3
age: idade (numérica); job: tipo de trabalho (categórica); marital: status civil (categórica) education: nível de escolaridade (categórica) default: possui dívida de credito (categórica) balance: saldo médio anual, em euros (numérica) housing: empréstimo hipotecário (categórica) loan: empréstimo pessoal (categórica) contact: dispositivo de contato (categórica) month: mês do contato (categórico) day: dia do contato (categórico) duration: tempo em segundos do contato (numérica) campaign: quantidade de contatos realizados durante a campanha (numérica) pdays: quantidade de dias que passou depois do ultimo contato antes da campanha (numérica) previous: quantidade de contatos realizado antes da campanha (numérica) poutcome: resultado da campanha anterior (numérica) 3.2 Métodos Devido ao fato da variavél resposta ser binária a técnica utilizada para a criação do modelo foi a regresão logística. A partir de uma análise inicial das covariáveis identificou-se a necessidade de transformação da variável duration de segundos para minutos e a mudança de escala da variável balance de euros para milhares de euros, estas transformações foram realizadas para facilitar a interpretação final do modelo. Além disso também foi observado que algumas variáveis não seriam úteis ao modelo, devido a grande quantidade de valores nulos. São elas: poutcome, pday, previous. Constatou-se também que as variáveis month, day, contact "e job "não foram significativas, logo, elas também foram retiradas do modelo. Outro ação realizada na base de dados foi a eliminação das observações que continham valores nulos na variável education. Essa providência foi possível pois a redução da base pela exclusão destas observações não impactaram na análise. 4 Resultados e Discussão Na Tabela 1 e Tabela 2 estão apresentadas algumas estatísticas descritivas referentea às variáveis que farão parte do modelo. As variáveis que não irão compor o modelo não serão apresentadas. Sobre as variáveis quantitativas é possível verificar distribuição bem assimétrica para age, duration e balance. Na sequencia das tabelas, vemos os gráficos boxplot para cada uma destas variáveis. Tabela 1: Estatística descritiva das variáveis quantitativas age balance duration Mínimo 18.00-8.02 0.00 Média 40.78 1.36 4.30 4
age 20 40 60 80 duration (min) 0 20 40 60 80 balance (em k euros) 0 20 40 60 80 100 cliente captado cliente captado cliente captado Figura 1: Análise de dispersão para as variáveis age, duration e balance age balance duration Máximo 95.00 102.13 81.97 Desv. Padrão 10.52 3.04 4.30 Tabela 2: Estatística descritiva das variáveis categoricas marital education default housing loan divorced: 5038 primary : 6851 :42571 :19044 :36243 married :26054 secondary:23202 : 783 :24310 : 7111 single :12262 tertiary :13301 unkwn : 0 Nos gráficos de disperção, podemos verificar que a idade mediana do gráfico age está semelhante, porém a variância do grupo captado é maior. A duração das ligações (duration) para os clientes captados é maior em relação aos não captados e, os valores médios de renda (balance) estão s mesmos níves porém, com uma variância maior para os clientes capturados. Com isto, ta-se que o perfil do cliente captado é maduro, interessado na explicação dada pelo atendente e com renda média baixa. Para chegarmos ao modelo proposto, quanto a seleção das covariáveis, utilizamos o critério de informação de Akaike - AIC, método forward. Assim, partimos do modelo nulo com uma deviance de 21411 com 29999 graus de liberdade, chegando ao modelo proposto com deviance de 16862 com 29989 graus de liberdade, gerando um AIC igual a 16884. AIC model = 2log(L) + 2p O modelo final ficou com as seguintes características: ## y ~ duration + housing + loan + education + marital + age + default + ## balance 5
Tabela 3: Parametros Estimados Betas Estimate Std..Error z.value Pr... z.. (Intercept) b0-3.6865646 0.1435533-25.680807 0.0000000 duration b1 0.2289639 0.0043144 53.070191 0.0000000 housing b2-0.9704806 0.0436251-22.245943 0.0000000 loan b3-0.6446811 0.0671377-9.602378 0.0000000 educationsecondary b4 0.3363676 0.0667616 5.038336 0.0000005 educationtertiary b5 0.5884615 0.0696824 8.444906 0.0000000 maritalmarried b6-0.1203230 0.0661556-1.818789 0.0689436 maritalsingle b7 0.3733001 0.0746615 4.999904 0.0000006 age b8 0.0115118 0.0021169 5.438119 0.0000001 default b9-0.6190548 0.2044553-3.027824 0.0024632 balance b10 0.0164720 0.0053840 3.059452 0.0022174 A variável resposta segue o modelo bimial conforme descrito abaixo: O modelo proposto é o seguinte: ln ( πi 1 π i ) y i x bimial(m i, π i ), i = 1, 2,..., n = 3, 6865 + 0, 016.duration 0, 9704.housing 0, 6446.loan +0, 3363.educationsecondary + 0, 5884.educationtertiary 0, 1203.maritalmarried +0, 3733.maritalsingle + 0, 0151.age 0, 6190.def ault + 0, 0164.balance A partir do modelo proposto é possível ver que as covaráveis que contribuem positivamente à probibilidade de captação do clientes são as seguintes (em ordem de maior contribuição): educationtertiary, maritalsingle, educationsecondary, duration e balance, sendo que a partir da idade de 50 as, a covariável duration passa contribuir mais do que educationtertiary. Seguindo esta mesma analise as covariáveis que contribuem negativamente modelo:housing, loan,default e maritalmarried. Ao analisar o modelo e as caracteristicas da estatistica descritiva é possível ver que é mais comum clientes com idade superior a 40 as e que conversaram em média 4min com o atendente, de serem captados. Ao estudar estes clientes associados as demais covariáveis é possivel fazer algumas conclusões interessantes, por exemplo: considerando que este cliente não possui divida, não possui empréstimo hipotecário ou empréstimo pessoal, tenha educação secundária e seja seja casado, a probabilidade deste cliente ser captado é 5,8%, e caso seja solteiro a probabilidade sobe para 8,21%. Se estudarmos este mesmo usuário fazendo a alteração na variavel de ensi: se for casado com ensi superior a probabilidade é de 7,34% e se for solteiro a chance sobre para 11,49%. 6
A partir da análise dos resíduos é possível constatar a aproximação da rmal, logo, pode-se supor que o modelo está bem ajustado. Figura 2: Qualidade do Ajuste Existe o interesse em classificar os clientes que receberam as ligações como captados, que são os clientes que efetivaram o investimento, e não captados, que são os clientes que receberam as ligações porém não tiveram interesse em realizar o investimento. A partir dos resultados de predição e dos valores reais observados é possível construir a tabela de classificação (Tabela 4) de onde extrai-se o poder de predição. Este poder de predição é estabelecido através de duas medidas, são elas: a sensibilidade, que é a probabilidade de classificação de sucesso dado que a observação é sucesso, e a especificidade, que é a probabilidade de classificação de fracasso dado que a observação é de fato fracasso. Inicialmente foi estabelecido o ponto de corte (pc) igual a 0.5, assim sendo, clientes serão classificados como captados quando o valor da predição for superior ou igual a 0,5. Uma vez que o interesse do banco é acertar a classificação de clientes captados, a medida de interesse será a sensibilidade. Para o pc=0.5 o valor de sensibilidade obtido foi 0.1783, que não é satisfatório. Foi utilizado a curva ROC e a curva de custo para conseguir obter o ponto de corte ideal, com o qual obteremos o melhor resultado para sensibilidade e especificidade. A partir das figuras 1 e 2 é visualmente tável que o ponto de corte ideal é próximo de 0,1. Os resultados obtidos com a utilização do pc=0.1 são satisfatórios. Conforme apresentado nas tabelas 5 e 6, constata-se um poder maior na classificação do cliente captado. Tabela 4: Tabela de Classificação para pc=0.5 Pred_ 11566 1304 Pred_ 201 283 7
(a) Curva ROC (b) Curva de custo Figura 3: Curvas que indicam o melhor ponto de corte Tabela 5: Tabela de Classificação para pc =0.1 Pred_ 8497 284 Pred_ 3270 1303 Tabela 6: Tabela poder preditivo para pc=0.1 Sensibilidade Especificidade 0.821 0.7221 5 Conclusão Diante das análises realizadas, constatou-se que o modelo de regressão logística proposto teve uma adequação satisfatória aos dados. Concluiu-se que as covariáveis tempo do contato, empréstimo hipotecário, empréstimo pessoal, nível de escolaridade, estado civil, idade, possui dívida de crédito e saldo médio anual, contribuiram significativamente para o resultado da campanha de marketing do banco. Ainda, foi possível estabelecer o perfil do cliente captado : maduro, interessado na explicação dada pelo atendente e com renda média baixa. É importante observar que a taxa de captação de clientes através de atendimentos de call-center é muito baixa, logo se faz muito necessário classificar qual o perfil do cliente que possui mais probabilidade de serem captados. Por fim, considerando como medida de maior interesse a sensibilidade, foi estabelecido um ponto de corte de 0,1, que resultou num poder preditivo de 82,1% para a Sensibilidade e 72,21% para Especificidade, o que possibilita um poder maior na classificação do cliente captado. 8