FUNDAÇÃO GETULIO VARGAS ESCOLA DE ADMINISTRAÇÃO DE EMPRESAS DE SÃO PAULO MARCELO KISAHLEITNER

Tamanho: px
Começar a partir da página:

Download "FUNDAÇÃO GETULIO VARGAS ESCOLA DE ADMINISTRAÇÃO DE EMPRESAS DE SÃO PAULO MARCELO KISAHLEITNER"

Transcrição

1 FUNDAÇÃO GETULIO VARGAS ESCOLA DE ADMINISTRAÇÃO DE EMPRESAS DE SÃO PAULO MARCELO KISAHLEITNER ANÁLISE DE TÉCNICAS DE DATA MINING NA AQUISIÇÃO DE CLIENTES DE CARTÃO DE CRÉDITO NÃO CORRENTISTAS SÃO PAULO 2008

2 MARCELO KISAHLEITNER ANÁLISE DE TÉCNICAS DE DATA MINING NA AQUISIÇÃO DE CLIENTES DE CARTÃO DE CRÉDITO NÃO CORRENTISTAS Dissertação apresentada à Escola de Administração de Empresas de São Paulo da Fundação Getúlio Vargas, como requisito para obtenção do título de Mestre em Administração de Empresas. Campo de Conhecimento: Data Mining, Knowledge Discovery in Data Bases, CRM, Telemarketing. Orientador: André Luiz Silva Samartini SÃO PAULO 2008

3 Kisahleitner, Marcelo. Análise de técnicas de Data Mining na aquisição de clientes de cartão de crédito não correntistas / Marcelo Kisahleitner f. Orientador: André Luiz Silva Samartini. Dissertação (MPA) - Escola de Administração de Empresas de São Paulo. 1. Mineração de dados (Computação). 2. Cartões de crédito. 3. Clientes - Contatos. 4. Telemarketing. I. Samartini, André Luiz Silva. II. Dissertação (MPA) - Escola de Administração de Empresas de São Paulo. III. Título. CDU

4 MARCELO KISAHLEITNER ANÁLISE DE TÉCNICAS DE DATA MINING NA AQUISIÇÃO DE CLIENTES DE CARTÃO DE CRÉDITO NÃO CORRENTISTAS Projeto de dissertação apresentado à Escola de Administração de Empresas de São Paulo da Fundação Getúlio Vargas, como requisito para obtenção do título de Mestre em Administração de Empresas Campo de Conhecimento: Data Mining, Knowledge Discovery in Data Bases, CRM, Marketing Direto. Data de Aprovação: / / Banca Examinadora: Prof. Dr. André Luiz Silva Samartini (Orientador) FGV-EAESP Prof. Dr. Abraham Laredo Sicsú FGV-EAESP Prof. Dr. Luiz Carlos Murakami Universidade Federal do Ceará

5 Aos meus pais, à minha filha Beatriz, e à Fernanda

6 AGRADECIMENTOS Meus sinceros agradecimentos: Aos meus pais, que sempre me apoiaram e incentivaram-me a buscar um algo a mais. À minha filha, por ser minha inspiração diária e, apesar de ainda não ter consciência disso, motivar-me a buscar o melhor sempre. Ao meu orientador André, por sua visão do todo, sua paciência nos momentos de indefinição, sua clareza de pensamento, e sua enorme disposição em ajudar. Ao Ricardo, que acreditou no meu potencial e me criou condições de cursar o MPA com o apoio da empresa. Ao Jamal, que soube entender o que é um processo de elaboração de dissertação, e deu todo o seu apoio nos momentos necessários. À minha colega de trabalho Lívia, que me incitou ao aprofundamento no fascinante mundo da modelagem estatística, e sempre esteve disposta a sanar minhas (muitas) dúvidas conceituais. Também não posso esquecer-me de mencionar o André e a Elaine, por suas valiosas contribuições. Ao professor Laredo, por sua leitura cuidadosa do material na fase de qualificação e seus comentários extremamente enriquecedores, coerentes, consistentes, e desafiadores. A meus colegas e professores do MPA, cujo elevado nível intelectual e suas grandiosas experiências profissionais, tornaram-me uma pessoa muito mais enriquecida em saber. À Fernanda, por me fazer querer ser uma pessoa melhor, e por fazer a minha vida valer à pena ser vivida ao seu lado.

7 A mente que se abre a uma nova idéia jamais volta ao seu tamanho original (Albert Einstein)

8 RESUMO O trabalho busca analisar e entender se a aplicação de técnicas de Data Mining em processos de aquisição de clientes de cartão de crédito, especificamente os que não possuem uma conta corrente em banco, podem trazer resultados positivos para as empresas que contam com processos ativos de conquista de clientes. Serão exploradas três técnicas de amplo reconhecimento na comunidade acadêmica: Regressão Logística, Árvores de Decisão, e Redes Neurais. Será utilizado como objeto de estudo uma empresa do setor financeiro, especificamente nos seus processos de aquisição de clientes não correntistas para o produto cartão de crédito. Serão mostrados resultados da aplicação dos modelos para algumas campanhas passadas de venda de cartão de crédito não correntistas, para que seja possível verificar se o emprego de modelos estatísticos que discriminem os clientes potenciais mais propensos dos menos propensos à contratação podem se traduzir na obtenção de ganhos financeiros. Esses ganhos podem vir mediante redução dos custos de marketing abordando-se somente os clientes com maiores probabilidades de responderem positivamente à campanha. A fundamentação teórica se dará a partir da introdução dos conceitos do mercado de cartões de crédito, do canal telemarketing, de CRM, e das técnicas de data mining. O trabalho apresentará exemplos práticos de aplicação das técnicas mencionadas verificando os potenciais ganhos financeiros. Os resultados indicam que há grandes oportunidades para o emprego das técnicas de data mining nos processos de aquisição de clientes, possibilitando a racionalização da operação do ponto de vista de custos de aquisição. PALAVRAS-CHAVE: Data Mining; Cartões de Crédito; Regressão Logística; Árvores de Decisão; Redes Neurais; Telemarketing.

9 ABSTRACT This paper intends to analyze and understand the use of Data Mining techniques in processes of Customer Acquisition for Credit Cards, more specifically the customers that do not have a checking account, may bring positive results to the companies that base have active processes of customer acquisition. Three techniques that are widely known and accepted in the academy will be analyzed: Logistic Regression, Decision Trees, and Neural Networks. The subject of the study will be a company of the financial sector, focusing its processes of credit card customer acquisition. Some results of previous campaigns using the models, will be shown In order to verity if the use of statistical models - that are able to discriminate the prospects with higher propensities to acquire, from the prospects with lower propensities - may result in financial gains, by reducing marketing costs. The theoretical fundamentals will cover the basics of the Credit Card Market, the Telemarketing Channel, and the data mining techniques. This research will present some practical examples exploring the techniques, to verify the potential financial gains. The results show that are great opportunities in using the data mining techniques regarding processes of customer acquisition, making possible the cost rationalization concerning the costs of acquisition. KEY-WORDS: Data Mining; Credit Cards; Logistic Regression; Decision Trees; Neural Networks; Telemarketing.

10 LISTA DE ILUSTRAÇÕES ESQUEMAS Esquema 1 - Fluxo de Informações no Telemarketing 17 Esquema 2 - Pureza: esquemas de divisão 34 Esquema 3 Neurônio Humano 38 Esquema 4 - Topologias de redes neurais 41 Esquema 5 - Cronograma de Desenvolvimento e validação dos modelos 48 Esquema 6 - Workflow dos modelos 62 Esquema 7 - Topologia de Redes Neurais 1 e 5 camadas escondidas 63 Esquema 8 - Árvore de Decisão Gini com 3 níveis de profundidade 70 GRÁFICOS Gráfico 1 - Evolução dos Cartões no Brasil 19 Gráfico 2 - A Curva Logística (Curva S) 32 Gráfico 3 - Curva de Lorentz e o Índice Gini 35 Gráfico 4 Conceituação de Overfitting 52 Gráfico 5 - Transformação da variável Renda Original e transformada 56 Gráfico 6 - Transformação de variável: Idade 57 Gráfico 7 - Agrupamento Interativo Estados X informação de capital/interior 58 Gráfico 8 - Transformação da variável Ano do Pré-aprovado 59 Gráfico 9 - Regressão Logística Lift Backward, Forward, e Stepwise 62 Gráfico 10 Lift Comparativo Redes Neurais 1 e 5 camadas escondidas 64 Gráfico 11 - Lift para três árvores de decisão Gini, Entropia, e Chi-quadrado 65 Gráfico 12 - Resultado Regressão Logística Variáveis e seus Valores-T 66 Gráfico 13 Classificação: Previsto X Real Regressão logística 68 Gráfico 14 - Índice Gini X Nº de folhas 71 Gráfico 15 - Anel da Árvore de Decisão Gini 73 Gráfico 16 - Tabela de Classificação - Árvore de decisão 74 Gráfico 17 - Pesos Rede Neural 76 Gráfico 18 Rede Neural - Erro médio X Iterações 77 Gráfico 19 - Tabela de classificação - Rede neural 77 Gráfico 20 - Lift de todos os modelos 79

11 Gráfico 21 - Curva ROC Todos os modelos 80 Gráfico 22 - Captured Response dos modelos 81 Gráfico 23 - Lift - Back Test novembro/ Gráfico 24 - Captured Response - Back Test novembro/ Gráfico 25 - Lift - Back Test dezembro/ Gráfico 26 - Captured Response - Back Test dezembro/ EQUAÇÕES Equação 1 - Transformação logit - Regressão logística múltipla 31 Equação 2 - Modelo de Regressão Logística Múltipla 31 Equação 3 Gini - Integral 35 Equação 4 - Gini - Somatório 35 LISTA DE TABELAS Tabela 1 Evolução do mercado de cartões de crédito no Brasil 19 Tabela 2 - Comparação das técnicas de modelagem 43 Tabela 3 - Variáveis Analisadas no Modelo 49 Tabela 4 - Retornos históricos de cartão 52 Tabela 5 - Exemplo variáveis dummy 54 Tabela 6 - Agrupamento Interativo Estado / Capital X Interior 58 Tabela 7 - Regressão Logística Teste de Significância 66 Tabela 8 - Regressão Logística Análise Detalhada dos Coeficientes 67 Tabela 9 - Regressão Logística Risco Relativo 67 Tabela 10 - Resumo das folhas Árvore Gini 72 Tabela 11 - Rede Neural - Pesos 76 Tabela 12 - Coeficientes de Kolmogorov-Smirnov 82 Tabela 13 - Back Test novembro/ Tabela 14 - Back Test dezembro/

12 LISTA DE ABREVIATURAS E SIGLAS ABECS ABT EPS IC CRM KDD ACSP ANOVA RBS KS SEMMA SAC PA SQL MIS DDD CPF UF Associação Brasileira de Empresas de Cartões de Crédito e Serviços Associação Brasileira de Telesserviços Empresa Prestadora de Serviços de Telemarketing Intervalo de Confiança Customer Relationship Management Knowledge Discovery in Data bases Associação Comercial de São Paulo Análise de variância Rede Globo Sul Kolmogorov -Smirnov Sample, Explore, Modify, Model, Asses Serviço de Atendimento ao Consumidor Ponto de Atendimento Structured Query Language Management Information System Código de Discagem Direta à Distância Cadastro de Pessoa Física na Receita Federal Unidade Federativa

13 SUMÁRIO 1. INTRODUÇÃO Objetivo da Dissertação e Motivação O Mercado de Cartões De Crédito no Brasil REVISÃO DE LITERATURA Customer Relationship Management (CRM) Telemarketing Knowledge Discovery in Databases (KDD) Data Mining Regressão Logística Árvores de Decisão Redes Neurais Artificiais Comparação dos Modelos METODOLOGIA Metodologia de Pesquisa Recursos Computacionais Utilizados Descrição e seleção das variáveis Seleção das amostras Transformação das variáveis Desenvolvimento dos modelos RESULTADOS DOS MODELOS Regressão Logística: Árvore de Decisão - Gini Rede Neural 1 Camada Escondida Avaliação dos Modelos CONCLUSÃO 87 APÊNDICES 89 Apêndice B Exemplo da base de dados 89 REFERÊNCIAS BIBLIOGRÁFICAS 90

14 14 1. INTRODUÇÃO 1.1 Objetivo da Dissertação e Motivação Atualmente, a utilização do produto cartão de crédito vem tomando proporções significativas como meio de pagamento, o que começou a ocorrer desde a estabilização da economia brasileira, após a criação do Plano Real em 1994, como destaca o Jornal Monitor Mercantil Digital (2007). A estabilidade econômica também influenciou fortemente na maior utilização de sofisticadas metodologias estatísticas no mercado de produtos de crédito como um todo e, em particular, no mercado de cartões de crédito, segundo palestra proferida no SAS Institute Inc. (2007). Uma série de modelos estatísticos vem sendo usada para auxiliar na concessão, no acompanhamento, na cobrança e na retenção de clientes. Regressão logística, análise discriminante, análise de sobrevivência, árvores de decisão, inferência bayesiana e redes neurais são algumas das técnicas utilizadas, sendo que a regressão logística é provavelmente a mais utilizada e conhecida. No contexto desse mercado de competição imperfeita, com grande concentração e, portanto, extremamente competitivo, é que se encontra a oportunidade de melhorar os processos de aquisição de clientes. Segundo Banasiewicz (2004), a baixa produtividade e o baixo retorno sobre o investimento em campanhas de aquisição de novos clientes se dão em grande parte devido a negligências metodológicas especialmente no que se refere a abordar uma grande massa de clientes com ofertas muito genéricas. Na maioria das empresas, esse fator é agravado em decorrência das áreas de negócio encontrarem-se divididas por produtos, o que dificulta sobremaneira o estabelecimento de uma visão voltada ao cliente. Em outras palavras, o foco das campanhas de aquisição usualmente se dá no cumprimento de metas de vendas de produtos, e não na aquisição de clientes que venham a trazer valor para as organizações no longo prazo, sejam fiéis, e tenham um relacionamento sólido. De acordo com Sargeant e West (2001), é bem aceito entre os meios acadêmicos e a comunidade profissional que custa cinco vezes mais adquirir um novo cliente do que manter um cliente atual. Além disso, as taxas de retorno de uma mala direta fria, ou seja, para um cliente potencial, estão em retorno entre 0,1% e 5%, enquanto uma

15 15 mala direta quente, ou seja, para um cliente que já tem um relacionamento com a empresa, chega a ser de até 50%. Espera-se que o aprofundamento da utilização dos modelos preditivos na oferta de produtos bancários e não bancários, em especial cartão de crédito Canal telemarketing - permita uma significativa redução nos custos de aquisição de clientes, em decorrência do aumento da eficiência dos contatos, sendo que o projeto em questão será feito em uma grande empresa brasileira do setor financeiro, ocultandose as informações sigilosas mediante mascaramento ou aplicação de um fator de escala. Muito embora a modelagem estatística já venha sendo utilizada há muito tempo na concessão de crédito etapa que precede a disponibilização do público para abordagem de vendas e nas ações de venda cruzada, ela não vinha sendo utilizada na oferta de produtos de cartão de crédito para não correntistas para a empresa em questão, conforme mencionado por Witten e Frank (2005). E um dos grandes objetivos desse trabalho é justamente introduzir o uso de técnicas já tradicionais de Data Mining para buscar mostrar que há possibilidades de se melhorar os processos de aquisição de clientes para o produto cartão de crédito na empresa financeira que será analisada, conforme proposto por Rygielski et al. (2002). Em que pese o fato das técnicas estatísticas já serem aplicadas nas ações de clientes correntistas, e também o fato das mesmas técnicas já serem de uso comum em outras empresas, atualmente se faz apenas uma segmentação simples nas ações de aquisição de clientes de cartão de crédito não correntistas, segmentação esta que leva em conta basicamente o quão recente foi disponibilizado o crédito pré-aprovado para a primeira oferta, e quantas vezes o CPF já foi disponibilizado para a operação, no caso de reciclagem de ofertas. A idéia é fazer uso de modelos de regressão logística, redes neurais, e árvores de decisão, para buscar a melhora do retorno financeiro das ações de telemarketing não correntistas, acompanhando o ciclo completo: delineamento dos modelos, desenvolvimento, implantação, e validação. A parte empírica do trabalho será feita utilizando as informações disponíveis para uso de uma empresa do setor financeiro, cujos dados serão trabalhados de maneira a preservar a confidencialidade dos seus clientes.

16 16 As ações de telemarketing para aquisição de clientes não correntistas partem do Bureau Cadastral montado pela empresa. O Bureau é composto basicamente por todos os CPF do Brasil - ativos, pendentes, e cancelados - enriquecidos com informações cadastrais adquiridas junto a empresas como Serasa (http://www.serasa.com.br), ACSP Associação Comercial de São Paulo (http://www.acsp.com.br), RBS Rede Globo Sul, Experian (http://www.experian.com.br), Equifax (http://www.equifax.com.br), Data Listas (http://www.datalistas.com.br), entre outras. Além disso, para os CPFs que já possuem algum relacionamento com a empresa, o Bureau é enriquecido com informações provenientes das bases internas, como o cadastro de correntistas, cartonistas, segurados, mutuários, acionistas, etc. Um dos grandes desafios na operação de aquisição de clientes não correntistas é o número limitado de variáveis disponíveis, uma vez que Bureau Cadastral, como o próprio nome diz, contém apenas informações demográficas e dados de localização, como CEP, Logradouro, e telefones, sexo, idade, renda demográfica, etc. Essas variáveis serão analisadas com mais profundidade no decorrer do trabalho. Finalmente, levando-se em consideração a preocupação de vários autores, entre eles Hosmer e Lemeshow (2000), e Berry e Linoff (2004), a proliferação de softwares estatísticos extremamente poderosos, como o SAS e o SPSS, permitem a qualquer um elaborar modelos bastante sofisticados, mas com o risco de por não entenderem os fundamentos da modelagem estatística gerarem resultados desprovidos de valor teórico e prático, bem como modelos viesados em decorrência de falhas no processo de amostragem, fenômenos como multicolinearidade na regressão logística e linear - variáveis correlacionadas que comprometem a estabilidade do modelo, ou heterocedasticidade (na regressão linear) conforme Bussab e Morettin (2006) e Hosmer e Lemeshow (2000). Em contrapartida, é preocupante também ter estatísticos que não tenham envolvimento e conhecimento do negócio, qualquer que seja ele, pois as ferramentas em si podem não atingir todo o potencial de agregação de valor se não estiverem em um contexto de negócios bem definido. O esquema 1 mostra o fluxo de informações na operação de telemarketing e contextualiza o ambiente no qual serão avaliadas as ferramentas de Data Mining. O Bureau Cadastral faz a aquisição das listas conforme mencionado anteriormente, e

17 17 que servem de insumo para a área de crédito calcular o limite pré-aprovado (considerando, obviamente, as variáveis importantes para a concessão de crédito). Bureau Cadastral EPS Política de Crédito CRM Operacional CRM Analítico Esquema 1 - Fluxo de Informações no Telemarketing As informações de pré-aprovação, aliadas às informações de localização propiciadas pelo Bureau Cadastral vão para a área de CRM Analítico desenvolver e aplicar os modelos estatísticos, e efetuar ajustes históricos de retorno por grupo de clientes (passo importante para dar uma boa previsibilidade de retorno para a operação, e que não será abordado neste trabalho). Além disso, são definidas as elegibilidades dos produtos nos quesitos idades mínimas e máximas a serem abordadas, praças nas quais se devem oferecer os produtos, etc. Em um próximo passo são enviadas as ofertas (leads) para a área de CRM Operacional, que aplica as informações de localização - endereço e telefone(s), e envia os arquivos para as EPS (Empresas Prestadoras de Serviço), que irão procurar localizar os clientes e fazerem as vendas. Cada situação de retorno é registrada pela EPS e devolvida para a área de CRM Analítico poder retroalimentar os modelos de probabilidade de resposta. Ou seja, o simples fato de um cliente ter recusado uma oferta em um mês, já faz sua probabilidade de resposta em uma oferta subseqüente cair significativamente. Em suma, o que se buscará no presente trabalho é avaliar as técnicas de Data Mining mais usuais regressão logística, árvores de decisão e redes neurais, verificar sua

18 18 aderência ao problema de seleção de público para telemarketing, e compará-las em relação à facilidade de uso e à facilidade na explicação do modelo gerado, sempre no contexto da aquisição de clientes não correntistas para cartão de crédito.

19 Quantidade (milhões) O Mercado de Cartões De Crédito no Brasil O mercado de cartões de crédito no Brasil encontra-se em fase de crescimento acelerado e possui atualmente 93 milhões de cartões. Em 2007, houve um aumento de 17% em quantidade de cartões, 19% em transações realizadas e um aumento da ordem de 21% do faturamento do setor em relação ao ano anterior, passando de R$ 152 bilhões para R$ 183 bilhões (ABECS, 2007). Quando comparamos com o ano de 2000 verificamos um crescimento acumulado de quase 200% na quantidade de cartões emitidos, conforme a tabela 1 e o gráfico 1. Tabela 1 Evolução do mercado de cartões de crédito no Brasil Ano Nº Cartões milhões Variação % 31% 11% 7% 18% 28% 16% 18% Nº Transações bilhões 0,7 0,8 1 1,1 1,4 1,7 2 2,4 Variação % 14% 25% 10% 27% 21% 18% 20% Valor Transações R$ bilhões 48,4 63, , ,2 182,9 Variação % 31% 15% 21% 15% 21% 23% 21% Fonte: ABECS (2007) 100 Evolução dos Cartões no Brasil Ano Gráfico 1 - Evolução dos Cartões no Brasil Fonte: ABECS (2007)

20 20 Abaixo encontram-se algumas definições importantes sobre o mercado de Cartões de Crédito, conforme ABECS (2007): Emissores: são Instituições Financeiras que emitem e administram cartões próprios ou de terceiros e concedem financiamento direto aos portadores ou a Administradoras, que por sua vez são instituições não financeiras que emitem e administram cartões próprios ou de terceiros, mas não financiam diretamente os seus clientes. O relacionamento dos clientes se dá diretamente com os Emissores. Credenciadores: empresas responsáveis pela filiação, gerenciamento e relacionamento com os estabelecimentos comerciais e pelas condições comerciais. As empresas credenciadoras atualmente em operação no Brasil são: Redecard, Visanet, Amex (Banco Bankpar), e Hipercard. Bandeiras: são instituições que autorizam o uso de sua marca e de sua tecnologia por emissores e Credenciadores. As principais bandeiras do mercado brasileiro são Visa, MasterCard, Diners Club, Redeshop e American Express. Processadoras: são empresas que prestam serviços operacionais relacionados a administração de cartões. As principais marcas do mercado brasileiro são Orbitall, Cardsystem e Equifax/Unnisa. Variantes: limites de crédito diferenciados, dentro de um mesmo emissor, associados à renda do cliente. Sua nomenclatura varia de Electronic (menores limite e renda), passando por Nacional, Internacional, Gold, e Platinum em ordem crescente de limite de crédito. As principais diferenças se dão basicamente em relação à cobrança de anuidades, possibilidade de uso no exterior, e benefícios associados, como assistências em viagens e outras comodidades para os cartões de variantes superiores. Parceiros: empresas que atuam em outra área e fazem acordo com os emissores para oferecer um cartão com sua marca, produto também conhecido como co-branded. Geralmente oferecem algum programa de incentivo (serviço, produto ou facilidade). Os parceiros podem ser redes varejistas, companhias aéreas ou automobilísticas, entidades beneficentes ou indústrias.

21 21 2. REVISÃO DE LITERATURA 2.1 Customer Relationship Management (CRM) Conforme Ye (2004), CRM pode ser divido em estratégico e operacional. As questões estratégicas são mais focadas no poder descritivo do CRM Mining, enquanto as questões operacionais estão mais alinhadas com as capacidades preditivas do Data Mining. Na empresa em questão, a área de CRM é responsável pela parte operacional, ou seja, é responsável pelo desenvolvimento dos modelos preditivos e pela seleção do público a ser abordado pelo canal telemarketing ativo como um todo, embasando-se nos modelos citados. Ademais, é de fundamental importância que a empresa selecione muito bem os seus clientes, pois como advoga Reichheld (2001), uma empresa não pode ser tudo para todos os clientes, ou seja, deve-se selecionar entre os clientes mais propensos a contratar o produto e, dentre estes os mais rentáveis, visando a um relacionamento de longo prazo, e objetivando-se a redução dos custos, uma vez que os recursos são escassos. Essa afirmação vai ao encontro da proposta da dissertação, que é justamente arbitrar as ofertas de cartão de crédito baseando-se na propensão devolvida pelos modelos estatísticos e verificando-se o caixa gerado em função do Valuation por Variante. Reichheld (2001) ainda cita a importância de construção de parcerias no contexto do Marketing de Relacionamento, para que todos possam prosperar. O que no caso da empresa que está sendo estudada, envolve as parcerias já citadas.

22 Telemarketing Segundo ABT (2008), telemarketing é definido como toda e qualquer atividade desenvolvida através de sistemas de telemática e múltiplas mídias, objetivando ações padronizadas e contínuas de marketing. Essa definição se aplica tanto às ações ativas de telemarketing, que serão abordadas neste trabalho, como em ligações recebidas pela empresa por iniciativa do cliente, tipicamente direcionadas aos SACs Serviços de Atendimento ao Consumidor. A definição inicial de Telemarketing, no entanto, era basicamente vendas pelo telefone, conforme Schneider (1985). Essa definição foi bastante criticada e, portanto ampliada por diversos autores, como Johnson e Meiners (1987), Coppett e Staples (1993), o que mostra o quanto as vendas por telefone evoluíram. Outra definição mais completa do que é telemarketing é encontrada em Stone e Wyman (1992), tradução nossa: Telemarketing utiliza sistemas de informação e telecomunicação sofisticados, combinados com vendas pessoais e habilidades em serviço, para auxiliar as empresas a ficarem em contato próximo com seus clientes atuais e potenciais, incrementarem as vendas, e aumentarem a produtividade dos negócios. A definição ainda é complementada definindo que negócios com programas bem-sucedidos de marketing enxergam o telemarketing como uma parte estratégica de toda a estratégia de marketing. Outra consideração importante dos autores se dá em relação à vantagem competitiva, pois segundo eles o telemarketing ativo permite vencer a competição por clientes aumentando o número de contatos que se faz com cada cliente. Adicionalmente, este trabalho procura explorar ainda mais os contatos, tornando-os mais efetivos pela aplicação dos modelos estatísticos. É interessante também nesse ponto definir Telemarketing Ativo que, de acordo com Blois e Sargeant (2000) é comunicação telefônica iniciada pela empresa. Os autores ainda detalham os tipos de ligação como frias quanto não ocorre uma segmentação prévia dos clientes, ou seja, não se estipula uma propensão à contratação, e ligações quentes, quando os clientes são previamente segmentados e a oferta é mais direcionada. Os primórdios do telemarketing, segundo Johnson e Meiners (1987), remontam ao início do século XX, com o uso do telefone como instrumento para os vendedores agendarem os seus primeiros contatos ou agendarem uma visita de vendas. Outro

23 23 uso inicial se deu como instrumento de apoio de serviço para os clientes. Mas foi só nos anos 60 que o Telemarketing começou a proliferar nos EUA, após a AT&T introduzir um serviço que barateava o custo das ligações. Nos anos seguintes, a desregulamentação e o aumento na competição entre as operadoras de telefonia os EUA contribuíram para a diminuição dos custos do canal. Na empresa em questão, a área de CRM tem a função também de fomentar a área gestora do Canal Telemarketing com informações pertinentes ao retorno esperado de cada ação. Portanto, um dos objetivos da dissertação é desenvolver modelos de propensão que retornem uma probabilidade de contratação ajustada aos retornos históricos, o que permitirá à área gestora do canal ajustar a capacidade da sua operação, que é mensurada em Pontos de Atendimento (PA). Para os gestores do canal duas variáveis são de fundamental importância: quantidade de clientes e o retorno esperado, uma vez que as empresas terceirizadas, ou Empresas Prestadoras de Serviços (EPS), como são mais conhecida, são remuneradas em função do retorno esperado. Schneider (1985) aponta cinco grandes benefícios do canal telemarketing: Contato pessoal - tirando as vendas pessoais, o telemarketing permite a interação humana com o operador de telemarketing, o que dá um toque de pessoalidade nas ações de vendas, e em conseqüência provê melhores taxas de retorno do que mala direta e marketing. Flexibilidade: Os scripts - ver Harless (2004) são flexíveis e permitem ao operador mudar a direção da conversa na medida em que vai obtendo retorno do cliente potencial, bem como de acordo com a receptividade. Além disso, os scripts podem ser testados e melhorados ao longo da campanha, e caso haja melhorias sensíveis nos testes, os scripts oriundos destes podem ser facilmente incorporados na própria campanha para os clientes que ainda não foram contatados. Possibilidade de mensuração: Telemarketing é facilmente mensurável. Efetivase a venda, ou não. Localiza-se o cliente, ou não.

24 24 Compressão do tempo: o telemarketing oferece algum degrau de compressão do tempo da campanha, o que é bastante útil na venda de produtos sazonais ou relacionados à moda. Efetividade: Quando comparado com outras mídias diretas, o Telemarketing é o que apresenta as maiores taxas de retorno (vendas sobre quantidade de clientes disponibilizada) e de conversão (vendas sobre quantidade de clientes efetivamente contatados). A Mala Direta gera retornos típicos de 1,5% a 2%, enquanto uma mesma campanha no Telemarketing pode gerar retornos de 18% a 20%. Além disso, o Telemarketing pode atuar em conjunto com uma Mala Direta, eventualmente reforçando a mensagem e alavancando os retornos. No caso da empresa em análise, a infra-estrutura da operação do telemarketing é terceirizada, ou seja, a discagem e o contato com o cliente é feito pelas Empresas Prestadoras de Serviços (EPS). No entanto, a determinação do público a ser abordado, bem como dos scripts a serem utilizados permanecem como atividades internas à empresa. Segundo Blois e Sargeant (2000), a maior vantagem em se utilizar dos serviços de uma EPS - que inicia as ligações como se fizesse parte da própria empresa - é o fato delas, por lidarem com diversas outras empresas, terem a capacidade (mão de obra) necessária para lidar com flutuações na quantidade de abordagens, bem como no gerenciamento dos retornos.

25 Knowledge Discovery in Databases (KDD) Antes de adentrar na definição do que é Data Mining, que tem na aplicação das suas técnicas para a otimização da venda de cartões de crédito o escopo desta dissertação, é interessante definir com clareza o que é a KDD, ou descoberta de conhecimento em bases dados, por ser uma generalização da qual deriva o Data Mining, segundo Rigdon (1997), e Rygielski et al. (2002). De acordo com Hair et al. (2005), as empresas atuais estão fortemente motivadas a compreenderem diversos relacionamentos entre as informações, e para tanto passaram a desenvolver sistemas formais com o objetivo de registrar todos os eventos importantes em um banco de dados, sendo que a garimpagem de dados representa descoberta de conhecimento em bancos de dados, ou KDD. Segundo eles, o KDD compreende as seguintes etapas: Estabelecimento de acesso aos dados relevantes Seleção do conjunto de eventos (dados) a serem analisados. Limpeza dos dados para que sejam compreendidos pelo algoritmo Desenvolvimento e uso de regras para selecionar relações interessantes Desenvolvimento de um relatório de relações que podem afetar o desempenho da empresa. No projeto em questão passaremos por cada uma dessas etapas, sendo que o objetivo final é mostrar que há condições para que as empresas melhorem o seu desempenho, tenham redução nos custos de contato, e possam maximizar o valor trazido pelos novos clientes. Segundo Fayyad et al. (1996), o termo KDD foi criado em 1989 para se referir ao amplo processo de descoberta de conhecimento em bases de dados, e para enfatizar o alto nível das aplicações de determinadas técnicas de Data Mining. De acordo com Frawley et al. (1992), tradução nossa: descoberta de conhecimento é a extração não trivial de informações potencialmente úteis e previamente

26 26 desconhecidas, a partir de bases de dados. Detalhando a definição de KDD, os autores sugerem a seguinte nomenclatura: Fatos (dados) F: podem ser os registros em uma base de dados, contendo os atributos de cada cliente (ID ou CPF). Linguagem L: Pode ser uma linguagem do tipo Structured Query Language (SQL), que se destina a recuperar informações de bancos de dados, por exemplo. Ou ainda, pode ser uma linguagem de alto nível que descreva em português, o que a regra está estabelecendo em termos de conhecimento sobre uma base de dados (ver exemplo de padrão abaixo). Intervalo de Confiança C: Como a busca de padrões se dá por inferência estatística, é de fundamental importância que se estabeleça um intervalo de confiança (IC) adequado em função do tamanho da amostra. Declaração S: Descrição na linguagem L do padrão descoberto na base de dados. Seu propósito é descrever o comportamento (o que o padrão concluiu) e operacionalizar a descoberta (aplicar em uma base de dados e extrair as informações desejadas a partir do modelo estabelecido). Padrão = Declaração S em L que descreve um relacionamento entre um subconjunto F S de F com o intervalo de confiança C, tal que S seja mais simples do que a enumeração de todos os fatos em F S. Em outras palavras, o padrão permite que se identifiquem grupos de atributos que tenham um comportamento em comum. No caso da modelagem da propensão à compra de um cartão de crédito, o interesse é descobrir um padrão de comportamento que explique a contratação ou não do produto. Por exemplo, pode-se chegar a uma regra do tipo (na linguagem L): clientes do sexo masculino, com idade maior do que trinta anos e que residam na grande são Paulo têm a probabilidade 2,1% de contratar um cartão de crédito. Um Padrão de interesse, de acordo com uma medida de interesse estabelecida pelo usuário é aquele que, também de acordo com um intervalo de confiança estabelecido, denomina-se Conhecimento. A saída de um programa de

27 27 computador que monitore todos os Fatos em uma base de dados, neste contexto, denomina-se Descoberta de Conhecimento em Bases de Dados, ou KDD. Frawley et al. (1992) ainda detalham as seguintes definições: Padrões e Linguagens: Os autores consideram somente os padrões que podem ser expressos em linguagem de alto nível. Grau de Certeza: Como raramente uma descoberta de conhecimento é verdadeira para toda a base de dados, é importante delinear o grau de certeza que o usuário pode depositar no que foi descoberto, e este é estipulado mediante exame da integridade dos dados, o tamanho da amostra e, possivelmente, do conhecimento prévio de negócios. Interesse: Embora inúmeros padrões possam ser extraídos de uma base de dados, somente os que forem interessantes são considerados conhecimento. Os padrões devem ser novos e utilizáveis, além de não triviais. Eficiência: Os tempos de processamento dos algoritmos gerados devem ser previsíveis e aceitáveis. Os autores Apte et al. (2002) acrescentam que as técnicas de KDD enfatizam estruturas explanatórias escaláveis, confiáveis, e totalmente automatizadas, as quais demonstraram que certas vezes complementam, e algumas vezes até suplantam o conhecimento de um analista especialista humano, contribuindo para a melhoria do processo de tomada de decisão. Os autores também mencionam que a grande quantidade de informações disponíveis nas bases de dados, a demanda competitiva para a rápida construção e implantação de análises de dados, bem como a necessidade de entregar aos usuários finais resultados prontamente inteligíveis, que os auxiliem nos processos críticos de tomada de decisão, estão contribuindo para o forte desenvolvimento do KDD. Talvez a definição mais direta, clara, e simples, seja encontrada em Maimon e Rokach (2005): KDD é o processo automático de identificar padrões novos, válidos, úteis, e inteligíveis de grandes bases de dados.

28 Data Mining De acordo com Fayyad et al. (1996), o termo Data Mining tem sido comumente utilizado por estatísticos, analistas de dados e pela comunidade de MIS (Management Information Systems), enquanto KDD tem sido mais utilizado pelos pesquisadores que estudam Inteligência Artificial e Machine Learning. KDD refere-se ao processo como um todo de descoberta de conhecimento útil a partir de bases de dados, enquanto Data Mining refere-se à aplicação de algoritmos para extração dos padrões sem os passos adicionais do KDD (como incorporação de conhecimento prévio e interpretação apropriada dos resultados). Segundo Rao et al. (2005), o termo Data Mining, ou Mineração de Dados, tem sido considerado ao mesmo tempo um pária e um queridinho dos estatísticos. Para os estatísticos clássicos, Data Mining significa abandonar as raízes probabilísticas da análise estatística. De fato, ainda segundo os autores, isso realmente ocorre, uma vez que as bases de dados nas quais os algoritmos de Data Mining são aplicados são adquiridos oportunamente e foram originalmente desenhados para outros fins. Essas bases de dados não são coletadas seguindo os conceitos tradicionais de amostragem ver Stephan (1941) e Bussab e Morettin (2006), por exemplo, embora se possa fazer o uso de amostragem balanceada, como advogam SAS Institute Inc. (2006), SAS Institute Inc. (2003), Matignon (2007), Ye (2004), Maimon e Rokach (2005), entre outros. Portanto, as inferências para situações gerais, a partir de bases de dados específicas, não são válidas no sentido usual da estatística, levando-se em consideração a mensuração do risco. Independentes disso, as técnicas de Data Mining vêm provando o seu valor no mercado. Por outro lado, tem havido um interesse considerável na comunidade estatística para esse novo paradigma de dados. Rao et al. (2005) ainda contrastam a análise estatística clássica com Data Mining, afirmando que enquanto na análise confirmatória é assumido um modelo estatístico, e a partir dele são feitas inferências nos parâmetros, no Data Mining, ou Análise Exploratória de Dados, não se tem um modelo a priori, o que pode levar a erros grosseiros. Ainda na linha de comparação do Data Mining com a estatística clássica, Breiman (2001) afirma que há duas culturas que fazem uso de modelagem estatística para chegarem a conclusões sobre dados. A primeira, dos estatísticos clássicos, parte

29 29 da premissa que os dados são gerados a partir de um modelo estocástico. A segunda dos mineradores de dados faz uso de algoritmos, e trata o mecanismo de geração dos dados como desconhecido. Berry e Linoff (2004) trazem uma visão um tanto quanto mais prática do que é Data Mining, e dizem que fundamentalmente o CRM, fundamentado em técnicas de Data Mining busca reproduzir nas grandes empresas ou seja, que possuem um grande volume de clientes e de informações sobre esses clientes um relacionamento parecido com o que ocorre no pequeno comércio, aonde o dono desenvolve de fato um relacionamento singular com cada um de seus clientes, conhecendo seus gostos e sabendo o quanto investir do seu tempo em cada um deles. Portanto, Data Mining, em um sentido mais estreito, é basicamente um conjunto de ferramentas e técnicas para suportar uma visão centrada no cliente. E em um sentido mais amplo, é uma atitude que implica que as ações de negócio deveriam ser baseadas em aprendizado, decisões baseadas em informação são melhores que decisões não baseadas nelas, e que medir resultados é benéfico para os negócios. Data Mining também é um processo e uma metodologia para aplicação das técnicas e ferramentas. Para eles, há quatro requisitos para que a empresa aprenda com os seus clientes: Notar o que os clientes (ou potenciais clientes) estão fazendo; Lembrar o que a empresa e os clientes estão fazendo ao longo do tempo; Aprender com o que foi lembrado; Agir em cima do que foi aprendido para tornar os clientes mais rentáveis. No contexto deste trabalho, abordaremos todos os passos. Notar significa registrar o que aconteceu com cada cliente que foi para a operação de telemarketing, o que engloba marcar se houve contato efetivo ou não, se houve venda, e se não houve qual foi o motivo, quantas vezes esse cliente já foi abordado, qual era o seu perfil no momento do contato, etc. Aprender é justamente o escopo deste projeto, ou seja, analisar as informações disponíveis para desenvolver um modelo que melhor explique o relacionamento entre a variável resposta venda/não venda e as variáveis preditoras, como renda, sexo, idade, região, etc. Agir significa que a partir de um ou mais

30 30 modelos bem desenvolvidos e validados, as campanhas passarão a abordar os clientes mais propensos ao invés de abordar aleatoriamente. Ainda segundo Berry e Linoff (2004), há dois tipos de abordagens em Data Mining Estudos Supervisionados e Não Supervisionados, sendo que no projeto em questão empregaremos técnicas de Data Mining Supervisionadas, isto é, procura-se explicar alguma variável resposta mediante a categorização das variáveis preditoras. No caso, a contratação ou não de cartão de crédito. Avançando na classificação das atividades que podem ser desenvolvidas empregando-se técnicas de Data Mining, adotaremos a Previsão que procura prever o comportamento futuro de uma variável resposta em função da classificação das variáveis explicatórias. Ou seja, procura examinar um novo objeto - um novo cliente potencial, por exemplo - e alocá-lo em uma classe prédefinida discreta contrata cartão de crédito, por exemplo. As demais atividades possíveis são: Classificação, que procura alocar um novo objeto em uma classe prédefinida. Por exemplo, classificar clientes para concessão de crédito como baixo, médio, ou alto risco. Estimação - para variáveis resposta contínuas, Regras de associação tipicamente market basket analysis, Clustering (agrupamento) segmentação de população em grupos de comportamento homogêneo Jain (1990), Estudos de perfil determinação de perfis que determinam explicações ou descrições do que está ocorrendo em uma base de dados.

31 Regressão Logística A regressão logística ver Hosmer e Lemeshow (2000) e Witten e Frank (2005), por exemplo - é aplicada tipicamente em situações nas quais a análise de dados procura descrever o relacionamento entre uma variável resposta qualitativa e uma ou mais variáveis preditoras. Usualmente, a variável resposta é discreta, resultando em dois ou mais valores possíveis. A regressão logística tornou-se, em muitas áreas do conhecimento a metodologia padrão para casos nesta situação. No projeto em questão, a variável resposta será binária adotando-se o valor 1 para eventos de contratação de cartão de crédito, e 0 para não eventos de contratação de cartão de crédito. Para o uso efetivo na modelagem faz-se a transformação abaixo, chamada de logit (equação 1). A transformação logit permite trazer alguns dos benefícios da regressão linear, como ser linear em seus parâmetros, poder ser contínua, e poder variar de -, dependendo da faixa de x. Enquanto a distribuição dos erros na regressão linear é normal, na regressão logística ela segue uma distribuição binomial. Dado um vetor de um conjunto de p variáveis independentes x = (x 1, x 2,..., x p ), e definindo a probabilidade condicional P(Y=1 x) =, temos a transformação logit da regressão logística múltipla dada pela equação 1 e o modelo da regressão logística múltipla dado pela equação 2. Equação 1 - Transformação logit - Regressão logística múltipla Equação 2 - Modelo de Regressão Logística Múltipla Onde P(Y=1 x) é valor médio esperado de Y, dado o valor de X, que para fins de simplificação será representado como Na regressão logística, e empregando-se

32 32 a variável resposta do tipo dicotômica, o valor esperado médio deve situar-se no intervalo [0,1], conforme se observa no gráfico 2. Gráfico 2 - A Curva Logística (Curva S) Fonte: Weisstein (2008). Os autores ainda destacam dois pontos importantes acerca da formulação da regressão logística para variáveis dicotômicas: A média condicional da equação de regressão deve ser formulada para que fique entre 0 e 1, condição satisfeita pela equação 1; A distribuição dos erros segue a distribuição binomial e não a normal, e será a estatística utilizada para a análise dos erros e conseqüente ajuste dos estimadores. A estimação dos parâmetros da regressão logística será feita pelo método da máxima verossimilhança.

33 Árvores de Decisão Berry e Linoff (2004) definem Árvores de Decisão como ferramentas bastante poderosas e amplamente populares para classificação e predição, sendo seu grande atrativo o fato de que árvores de decisão representam regras que podem ser expressas em linguagem comum, de modo que os seres humanos possam entendêlas. Além disso, essas regras podem ser aplicadas em bases de dados via comandos SQL para recuperar registros pertencentes a uma determinada categoria. No contexto da empresa em análise, o fato desta técnica ser facilmente compreensível em termos de linguagem de negócio facilitará o entendimento dos gestores e a conseqüente adoção do processo de modelagem. A árvore de decisão pode ser definida como uma estrutura que pode ser usada para dividir uma grande quantidade de registros sucessivamente em conjuntos menores de registros, aplicando-se uma seqüência simples de regras de decisão. A cada divisão sucessiva, os membros do subconjunto resultante tornam-se cada vez mais semelhantes entre si. Um modelo de árvores de decisão, portanto, consiste em conjunto de regras para dividir uma população grande e heterogênea em pequenos grupos homogêneos de acordo com a variável resposta desejada no caso, a contratação ou não de um cartão de crédito. Para uma definição mais técnica das árvores de decisão, ver Safavian e Landgrebe (1991). O aspecto mais importante de uma árvore de decisão, segundo Berry e Linoff (2004), é como se faz a divisão dos grupos em grupos menores, de maneira que os novos nós tenham mais pureza (vide Esquema 2) que os seus antecessores em relação à variável resposta. Para se encontrar a melhor divisão, parte-se de um subconjunto de dados de treinamento (parte da amostra) pré-classificados, isto é, no qual se conhece a variável resposta para todos os casos. O objetivo das divisões é montar uma árvore na qual se associe um novo registro a alguma classe que tenha um determinado comportamento em relação à variável resposta. O que direciona as divisões da árvore é a pureza, e, portanto o objetivo é descobrir, em cada nível da árvore, qual é a melhor variável independente que separe os grupos

34 34 subseqüentes em que se predomine uma única classe. O esquema 2 ilustra bem o conceito de pureza: Dados Originais 1) Divisão Ruim 2) Divisão Ruim 3) Boa Divisão 4) Divisão perfeita Esquema 2 - Pureza: esquemas de divisão Fonte: Adaptado de Berry e Linoff (2004) Portanto, o processo de montagem da árvore passa por diversas iterações até achar a divisão que leva à maior pureza, sucessivamente, até que não seja mais possível fazer divisões quer por falta de registros, quer por uma divisão adicional não aumentar a pureza. Para variáveis categóricas, os testes empregados para a avaliação das divisões ainda segundo Berry e Linoff (2004) são: Gini, também conhecido como diversidade populacional, é usualmente utilizado na mensuração de desigualdade de renda nos países. Pode-se ver em Abounoori e McCloughan (2003) que o índice Gini é derivado da curva de Lorenz, cuja função é l=l(z), aonde z é proporção acumulada da variável explicativa e l é a proporção

35 % de clientes que contratam cartão 35 acumulada da variável resposta, ou no caso, o quanto os clientes que contratam cartão. O conceito do índice Gini é mostrado no gráfico Decis Igualdade Perfeita Curva de Lorentz Desigualdade Perfeita Gráfico 3 - Curva de Lorentz e o Índice Gini O índice Gini é definido como na equação 3: Equação 3 Gini - Integral O índice Gini é positivo em relação à variável resposta e quanto mais próximo da unidade maior é a concentração, ou igualdade. Aproximando a integral definida por uma somatória, chega-se à equação 4, que equivale a duas vezes à soma das áreas dos trapézios. Equação 4 - Gini - Somatório

36 36 Este critério de separação dá a probabilidade de dois itens escolhidos aleatoriamente pertencerem à mesma classe Berry e Linoff (2004). Para uma população 100% pura o índice Gini seria igual a 1 (probabilidade de 100%), dado que é atribuído o valor 1 para a área do triângulo entre as retas de igualdade perfeita, desigualdade perfeita, e o eixo x (vide gráfico 3). Para se calcular o índice Gini deve-se pegar a soma dos quadrados das proporções entre as classes de cada lado da divisão resultante, ponderando-se pela quantidade de itens que ficaram em cada nó (já que a divisão não é necessariamente em partes iguais). A título de exemplo, vamos calcular o índice para os nós do Esquema 2. O nó contendo a população inicial tem seu índice Gini calculado como, tendo em vista que há a mesma quantidade de itens de cada classe neste nó, e que a chance de retirar a mesma classe em uma seleção aleatória com reposição é de 0,5. O mesmo se aplica para a divisão número 1 do mesmo esquema, para ambos os nós. O índice Gini da divisão 2 é: para o nó da esquerda, e temos o índice da divisão 2 igual a para o nó da direita. Ponderando-se, Para a divisão número 3, o índice ficaria:, para os dois nós. E, finalmente, para a última divisão, teríamos o maior grau de pureza, pois em decorrência da separação perfeita o índice Gini para os dois nós é igual a 1, bem como o índice para a divisão como um todo:. Entropia, originada do campo de conhecimento conhecido como Teoria da Informação, também conhecida como Valor Informacional (IV Informational Value) de Kullbak. Para mais detalhes sobre origem e conceituação do termo ver Williams (1977) e Vetschera (2000). Para medir a efetividade das divisões nas árvores de decisão, a Entropia procura mensurar segundo Berry e Linoff (2004) a complexidade informacional resultante das divisões. Se o nó subseqüente tiver poucas classes, é simples descrevê-lo do ponto de vista informacional e, portanto, sua entropia será pequena. Por outro lado, se a divisão não for bem sucedida, haverá muitas classes a serem descritas, com o conseqüente aumento na entropia. Para um único nó, a fórmula da Entropia para o Esquema 2, ficaria: IV =

37 37 Teste Chi-quadrado ( 2 ). Trata de um teste que mede a significância estatística da relação entre duas variáveis qualitativas, e foi criado por Karl Pearson em É definido como a soma dos quadrados das diferenças padronizadas entre os valores esperados e os valores observados. Ou seja, é uma medida da probabilidade de que a relação observada deva-se somente ao acaso. Quando utilizado na medição da pureza das divisões das árvores de decisão, altos valores de 2 implicam que a distância entre o valor observado e o valor esperado é grande, e não é devida somente ao acaso. O algoritmo de árvores de decisão baseado nessa estatística é o CHAID, ou Chisquare Automatic Interaction Detector. O estudo de Hamza e Larocque (2005) mostra que a diferença entre os critérios de separação Gini e Entropia são desprezíveis para variáveis dependentes binárias, o que será comprovado na análise dos resultados dos modelos. De fato, até o critério de separação chi-quadrado deu resultados muito próximos. Além disso, há outros algoritmos para controlar o crescimento das árvores de decisão, baseados em diferentes filosofias, tais como o CART, ID3, e C5. Para detalhes do funcionamento, o que foge do escopo desta dissertação, consultar Berry e Linoff (2004), Breiman (1998), Ye (2004), Rao et al. (2005), Klösgen e Zytkow (2002), entre outros.

38 Redes Neurais Artificiais De acordo com Bigus (1996), Skapura (1996), e Berry e Linoff (2004), as redes neurais artificiais procuram emular as suas contrapartes biológicas, ou seja, o cérebro humano, conforme esquema 3, que detalha um neurônio. Esquema 3 Neurônio Humano Fonte: Ruiz (2007) O principal mote e atratividade das redes neurais resultam da capacidade de aprendizado a partir de situações novas. A computação digital é eficiente fundamentalmente na execução de regras claramente prescritas, que são repetidas à exaustão. Em um sistema de redes neurais o que se procura é dar respostas diferentes em caso de mudanças nos padrões exibidos, reforçando os circuitos que levem às novas situações (pesos) e enfraquecendo circuitos que não tragam mais respostas adequadas. É por esse motivo que o principal uso de redes neurais se dá na detecção de fraudes e outros casos raros, pois esses eventos novos passam a fazer parte do rol de resposta dos modelos rapidamente e de maneira flexível. O maior contraponto das redes neurais é o fato de que o resultado do treinamento de uma

39 39 rede neural resulta em uma série de pesos atribuídos internamente através da rede, e que não são facilmente interpretáveis. Ou seja, não é possível explicar o porquê de uma determinada solução, como seria fácil explicar com um modelo de regressão logística ou uma árvore de decisão. De acordo com Freeman e Skapura (1991), o surgimento das redes neurais se deu juntamente com a invenção dos computadores digitais, nos anos 40. Desde então, os computadores têm sido utilizados na modelagem de neurônios individuais e grupos de neurônios as redes neurais. O primeiro sistema baseado em redes neurais foi o Perceptron, que procurava emular um neurônio humano, mas continha algumas limitações relacionadas à linearidade das soluções e outras limitações teóricas. Na linha de evolução veio o ADALINE (Adaptive Linear Neuron) que, embora muito semelhante ao Perceptron, era capaz fazer transferências lineares, mas também padecia de limitações teóricas. Essas limitações somente foram superadas quando da introdução da propagação reversa 1 por John Hopfield em 1982, que permite treinamento das redes neurais de maneira a evitar as armadilhas teóricas dos modelos anteriores, adicionando múltiplas camadas intermediárias (ou escondidas). Como resultado, as redes neurais passaram a ser capazes de lidar com a maioria dos problemas de ordem prática, usualmente não lineares. Segundo Maimon e Rokach (2005), as redes neurais artificiais compartilham duas características com os neurônios biológicos: 1) processamento paralelo de informações e 2) aprendizado e generalização a partir da experiência. Ainda segundo os autores, a grande popularidade do emprego das redes neurais como técnica de Data Mining vem do fato de que não se faz necessário assumir hipóteses sobre as variáveis preditoras (valores missing, distribuições, correlações, etc.), uma vez que as redes neurais são excelentes em situações que requerem reconhecimento de padrões que expliquem a contratação de cartão de crédito, por exemplo, sendo que as explicações saem do aprendizado da rede, o que é ideal no mundo do Data Mining principalmente tendo em vista que os dados são abundantes mas padrões que façam sentido nem sempre o são. Além disso, segundo Freeman e Skapura (1991), as redes neurais podem seguir modelos não-lineares e não necessitam da introdução de 1 Tradução do autor de Backpropagation

40 40 parâmetros, o que permite capturar melhor os dados do mundo real. Ou seja, a rede não precisa de um algoritmo que traduza um problema em uma ou mais equações, mas funciona buscando a repetição de padrões de ativação das conexões que reproduza exemplos anteriores mediante treinamento. As Redes Neurais mais utilizadas são as do tipo multi-layer feedforward neural networks, ou multi-layer perceptrons (MLP), que são ideais nas aplicações de negócios que tenham como características a necessidade de se modelar relações entre diversas variáveis preditoras e uma ou poucas variáveis resposta. No esquema 4 encontram-se alguns exemplos de redes neurais do tipo feedforward, nas quais há apenas um caminho para o fluxo de informações entre as entradas e a(s) saída(s). As variáveis de entrada, X 1 a X 4 poderiam ser: Idade, Renda, Sexo, e UF, por exemplo.

41 41 Rede neural simples que aceita quatro Entrada X 1 entradas e produz uma saída. O W 1 resultado do treinamento dessa rede é Entrada X 2 Entrada X 3 W 2 W 3 W 4 Saída equivalente à técnica de regressão logística, na qual w 1 a w 4 são os coeficientes, a função de ativação é a Entrada X 4 logística e a saída é do tipo: Entrada X 1 Entrada X 2 Entrada X 3 Saída Rede neural com uma camada intermediária (escondida), que torna a rede mais poderosa, pois é capaz de reconhecer mais padrões. Entrada X 4 Entrada X 1 Entrada X 2 Entrada X 3 Entrada X 4 Saída Aumentar o tamanho das camadas escondidas ou adicionar camadas torna a rede mais poderosa, mas cria o risco de overfitting. Usualmente, apenas uma camada escondida é necessária. Esquema 4 - Topologias de redes neurais Fonte: Adaptado de Berry e Linoff (2004)

42 42 O neurônio artificial, utilizado nas redes neurais, combina as entradas em um único valor, que então é transformado para gerar a saída, o que é conhecido como função de ativação. As funções de ativação mais comuns são baseadas no modelo do neurônio biológico, no qual as saídas combinadas mantêm-se muito baixas até que até que elas atinjam um valor limite. Quando esse valor é atingido, a unidade de neurônio artificial á ativada, e o valor da saída fica alto. Como sua contraparte biológica, o neurônio artificial tem a propriedade de pequenas alterações nas entradas poderem gerar valores bastante altos nas saídas, e grandes alterações nas entradas poderem gerar valores pequenos nas saídas, apresentando um comportamento não linear, segundo Damásio (1998). A função de ativação tem duas partes: a função de combinação, que junta todas as entradas em um valor, sendo que cada entrada tem um peso. A função de combinação mais comum é a soma ponderada, na qual cada entrada é multiplicada pelo seu peso, sendo feita a soma no final. A segunda parte da função de ativação, ainda segundo Berry e Linoff (2004), é a função de transferência, que junta todas as combinações na saída do neurônio artificial. Funções típicas de transferência são a logística (sigmóide), linear, e tangente hiperbólica. Para os fins da dissertação a função de transferência mais adequada é a logística, pois esta produz uma saída dicotômica, que no caso representará a contratação ou não de um cartão de crédito. O treinamento da rede neural mediante propagação reversa (back propagation) funciona da seguinte maneira: A rede processa um exemplo de treinamento, empregando os pesos inicialmente estabelecidos nas conexões e calcula as saídas; A propagação reversa calcula o erro pela diferença entre o resultado esperado e o resultado real; Feito isso o erro é retroalimentado na rede e os pesos são ajustados para minimizar os erros daí o nome de propagação reversa, pois o erro é enviado de volta no caminho contrário ao fluxo de dados da rede, mediante aplicação de derivadas parciais na função de ativação.

43 Comparação dos Modelos Para fins de comparação das técnicas de modelagem estatística empregadas serão empregados alguns critérios subjetivos, que refletem em grande parte a opinião do autor, e alguns critérios objetivos, suportados pelas validações técnicas apresentadas no item anterior. A tabela 2 mostra uma visão geral dos pontos fortes e fracos de cada tipo de ferramenta de modelagem. Tabela 2 - Comparação das técnicas de modelagem Técnica Estatística Critério Regressão Logística Árvores de Decisão Redes Neurais Facilidade na explicação do resultado Velocidade de processamento Flexibilidade no desenho Flexibilidade na aplicação a problemas diversos Robustez Estatística KS Curva ROC Lift Sensibilidade a mudanças nas informações de entrada Risco de Overfitting Necessidade de trabalhar a informação "missing" Segundo Vach et al. (1996) e Schumacher et al. (1996) ilustram vários pontos da técnica de redes neurais comparada com a regressão logística. Os destaques ficam para o fato de que as redes neurais não fornecem informações diretas sobre o valor de um único parâmetro na previsão (como é o caso da regressão logística, que mostras os coeficientes da equação logística ajustada pelo método da máxima verossimilhança). Ou seja, não há estratégias simples e claras que permitam interpretar os pesos ajustados pela rede neural. Outro aspecto levantado é que as redes neurais necessitam de amostras grandes para fazer bom uso da sua flexibilidade, além do que seu emprego faz mais sentido em problemas de reconhecimento de padrões, tendo em vista que não faz muito sentido interpretar variações em nuances de cinza (em um problema de reconhecimento de imagens, por exemplo). A conclusão final dos autores é que, para problemas na área biomédica, o emprego de redes neurais não traz ganhos mensuráveis de performance, não dá

44 44 indicações claras do que está ocorrendo na estimação, e que portanto o seu uso não se justifica. Segundo Breiman (1994), as redes neurais são bastante robustas na obtenção de máximos globais, em função do mecanismo de backpropagation, mas este acaba sendo o seu ponto mais fraco, por conta da necessidade intensiva de recursos computacionais para o processamento.

45 45 3. METODOLOGIA 3.1 Metodologia de Pesquisa A metodologia adotada na dissertação será de uma pesquisa preditiva. Segundo (Collis e Hussey, 2005), a pesquisa preditiva oferece uma explicação para o que está acontecendo em determinada situação. O objetivo da pesquisa preditiva é generalizar a partir da análise, prevendo certos fenômenos com base em relações gerais e hipotéticas. (Hair, Babin et al., 2005) definem a pesquisa causal como um projeto que teste se um evento causa outro evento ou não, ou seja, X causa Y?. Uma relação causal implica que uma mudança em um evento provoca uma mudança correspondente em outro evento. A causalidade significa que uma mudança em X (a causa) faz com que ocorra uma mudança em Y (o efeito). Ainda, a causalidade está associada à comprovação de uma associação não espúria, o que significa que a relação é verdadeira e realmente não se deve a algo mais que simplesmente afeta tanto a causa quanto o efeito. No projeto em questão um dos grandes objetivos é desenvolver modelos estatísticos que expliquem quais os perfis de clientes potenciais (causas) mais propensos a contratarem um cartão de crédito (efeito) e avaliar se há possibilidade de ganhos financeiros nas campanhas de marketing direto, especificamente no canal telemarketing. De acordo com (Collis e Hussey, 2005), a pesquisa será do tipo quantitativa, seguindo o paradigma positivista. De acordo com os positivistas, as leis fornecem a base da explanação, permitem a antecipação de fenômenos, prevêem a sua ocorrência e, conseqüentemente, permitem que sejam controlados. A explicação consiste em estabelecer relações causais entre as variáveis estabelecendo leis causais e ligando-as a uma teoria dedutiva ou integrada. Em relação à coleta de dados, Hair et al. (2005) declaram que os dados observacionais são coletados com o registro sistemático da observação de pessoas, eventos ou objetos. Os dados observacionais podem ser obtidos pela observação humana, mecânica ou eletrônica. Os autores ainda citam como desvantagem da abordagem de observação o fato de não se poder observar características que não podem ser vistas ou armazenadas. A vantagem é que se trata de uma metodologia não invasiva, já que não há nenhuma interação com um pesquisador. Na empresa em questão, serão utilizadas as informações disponíveis nas bases de dados contendo informações de clientes não correntistas, e que serão exploradas mais à frente.

46 Recursos Computacionais Utilizados A parte empírica do trabalho envolverá o desenvolvimento de análises univariadas, análises de correlação, ANOVA, diagramas de dispersão, e o desenvolvimento e avaliação dos modelos propriamente ditos utilizando as técnicas de regressão logística, árvores de decisão e redes neurais. No final, será feita a avaliação de cada um deles mediante o emprego de curvas de Lift, curvas ROC, gráficos de Captured Response, e índice Kolmogorov-Smirnov (KS), que serão detalhados no momento oportuno. Para tanto, será utilizado o programa de computador ( software ) SAS/Enterprise Miner, do (SAS Institute Inc.).

47 Descrição e seleção das variáveis O objetivo a ser atingido é o de desenvolver e analisar modelos estatísticos que identifiquem os clientes não correntistas mais propensos a contratarem um cartão de crédito através do canal telemarketing. Serão empregadas três metodologias: regressão logística, árvores de decisão e redes neurais. A variável resposta será a compra ou não de um cartão de crédito, ou seja, será uma variável do tipo dicotômica. Para fins de desenvolvimento e validação do modelo, serão extraídas amostras de cinco meses de informações históricas cuja variável resposta, conseqüentemente, já seja conhecida. Serão utilizados seis meses para desenvolvimento do modelo quatro meses dividindo-se a amostra em bases de desenvolvimento e treinamento e dois meses para a validação efetiva do modelo, conforme desenhado no esquema 5, após a escoragem. Os dados analisados neste estudo são provenientes de uma grande instituição financeira brasileira, que atua fortemente no mercado de cartões de crédito. Por motivos de sigilo foi gerada uma base de dados artificial, que não reflete os retornos reais das ações de telemarketing de cartão de crédito, embora mantenha todas as características de distribuição das variáveis. Os CPFs que identificam os clientes foram criptografados, para evitar riscos durante a manipulação e garantir o sigilo total dos clientes da empresa. Variável resposta (IND_VENDA):

48 48 Abr/07 Jun/07 Ago/07 Out/07 Dez/07 Mai/07 Jul/07 Set/07 Nov/07 Período de observação para desenvolvimento do modelo Validação do Modelo Esquema 5 - Cronograma de Desenvolvimento e validação dos modelos As variáveis independentes a serem analisadas na modelagem estão descritas na tabela 3, e são basicamente de informações demográficas, do tipo CEP, faixa de renda, sexo, além de variáveis do comportamento histórico dos clientes no canal telemarketing. É importante ressaltar que, para um cliente ser potencial para uma oferta de cartão de crédito, a Área de Crédito já terá feito estudos de capacidade de pagamento e liberado o cliente para a contratação do produto. Segundo Witten e Frank (2005), o uso de informações em geral - e pessoais em particular - para Data Mining, geram uma série de implicações éticas. A operação de telemarketing dificilmente aborda o cliente uma única vez, especialmente quando se trata da venda de outros produtos que não o cartão de crédito. Para cada disponibilização, o cliente entra usualmente em um período de carência de oferta por três meses (dependendo do motivo da recusa). Portanto, uma informação presente no que se convencionou memória de CRM, e que discrimina fortemente a variável resposta (conforme ficará claro na etapa de desenvolvimento do modelo), é resultado da quantidade de vezes que o cliente já foi contatado pelo telemarketing. Essa variável mostra que, quanto maior a quantidade de contatos seguidos de recusa, menor é a chance de conversão da venda. Por outro lado, há uma variável que mostra se o cliente já contratou algum outro produto anteriormente no canal telemarketing, o que indica que o cliente é receptivo ao canal.

49 49 Tabela 3 - Variáveis Analisadas no Modelo Variável Descrição Tipo COD_CENTRAL_TELEMKT Código da EPS - Empresa Prestadora de Serviços de Telemarketing. CEPN Código de Endereçamento Postal com 8 algarismos. COD_DDD1 Código de Discagem Direta à Distância do telefone do cliente em potencial. Qualitativa nominal Quantitativa contínua Quantitativa discreta CDSEXO Sexo. M - masculino, F - feminino, - - missing. Qualitativa nominal COD_SITUACAO_RETORNO Situação detalhada do Retorno do registro da EPS, no caso de reciclagem, ou oferta anterior de outro produto no telemarketing. Qualitativa nominal DT_TMKn_TOT DAT_CLIENTE DAT_COMPRA DAT_CONTATO Nº de disponibilizações no canal telemarketing nos últimos n meses para qualquer produto (n=6,12,24 meses). Última data de contato com o cliente no canal Telemarketing (qualquer produto), mesmo CPF da abordagem. Data em que o cliente efetuou a última compra no canal Telemarketing de qualquer produto. Data do último contato telefônico com sucesso na casa do cliente (não necessariamente com o próprio cliente). Quantitativa Discreta Quantitativa Contínua Quantitativa Contínua Quantitativa Contínua DAT_NASCIMENTO Data de nascimento. Quantitativa Contínua EF_TMKn_TOT Contact Rate do cliente nos últimos n meses. Ou seja, quantas vezes foi possível localizá-lo neste período para qualquer oferta no telemarketing (n=6,12,24 meses). Quantitativa Discreta ER_TMKn_TOT ET_TMKn_TOT Número de compras de qualquer produto nos últimos n meses, no canal telemarketing (n=6,12,24 meses). Número de contatos efetivos com o cliente nos últimos n meses para oferta de cartão de qualquer produto (n = 6, 12, 24 meses). Quantitativa Discreta Quantitativa Discreta RENDA Valor da renda demográfica estimada do cliente, Quantitativa cuja determinação foge ao escopo da dissertação. contínua IDADE Idade do Cliente (criada a partir da data de nascimento). Quantitativa Contínua ID_CLIENTE CPF criptografado do cliente. Identificação do cliente (ID) IND_CLIENTE IND_CONTATO Indica se o cliente foi contatado no mês da campanha. Indica se houve contato telefônico bem sucedido na casa do cliente. Quantitativa discreta (binária) Quantitativa discreta (binária)

50 50 IND_VENDA Indica se o cliente aceitou ou não a oferta de cartão de crédito (1 = sim, 0 = não). Variável Dependente (Target) SIG_UF Unidade Federativa (Estado). Qualitativa VARIANTE R_GENERICA_n REG_DDD MESREF_RISCO REC_ER_n Variante ofertada. Electronic, Nacional, Internacional, Gold. Da menor para a maior. Número de recusas genéricas nos últimos n meses (n=6, meses). Enriquece a variável SIG_UF dividindo-as em: capital e interior, a partir do código de DDD (ex: SP-capital, RJ-interior). Ano em que o cliente obteve crédito préaprovado para cartão de crédito. Recência de compra de cartão considerando os últimos n meses (6, 12, 24 meses). CDESTCIV Código do Estado Civil. 1 = Casado, 2 = Solteiro, 4 = Separado/divorciado, 5 = Viúvo, 6 = União Estável, 7 = Outros, 8 = Sem Informação Nominal Qualitativa Ordinal Quantitativa Discreta Qualitativa Nominal Quantitativa Discreta Quantitativa Discreta Qualitativa Nominal

51 Seleção das amostras As amostras serão selecionadas segundo as melhores práticas, especialmente no que se refere a ter significância estatística (sem viés), correto balanceamento, e posterior backfitting (ajuste das probabilidades a posteriori baseadas nas probabilidades a priori), conforme Bussab e Morettin (2006), Stephan (1941), SAS Institute Inc. (2006), etc. A execução da extração das amostras iniciais será a partir da base contendo a população com um histórico de cinco meses de disponibilizações de prospects não correntistas para o telemarketing. A amostra deve ser balanceada em decorrência da contratação do cartão ser um evento raro dentro de toda a massa que foi estimulada. Ou seja, de cada cem clientes estimulados, em média apenas entre 1 a 5 contratam o cartão. Portanto, se a amostra não for balanceada, fica muito difícil analisar quais variáveis influenciam na contratação, o que nos leva a extrair uma amostra que represente igualmente os dois eventos: contratação e não contratação. Para fazer o posterior ajuste aos retornos reais emprega-se o teorema de Bayes utilizando-se a o retorno real (probabilidade condicionada). Ou seja, na amostra balanceada 50% dos clientes contratam cartão. Para voltar à probabilidade real faz-se o ajuste levando-se em conta a probabilidade condicional, já que o retorno real é de, por exemplo, 5%. Ou seja, toda vez que as proporções dos eventos nas amostras sejam significativamente diferentes da população (base de dados com todo o histórico no caso em questão), as probabilidades posteriores serão superestimadas para o evento raro (no caso o retorno médio esperado seria de 50%, longe dos 5% da base real). É interessante notar que os estimadores não sofrem influência das probabilidades a priori, independentemente da técnica utilizada. As amostras foram selecionadas segundo a Tabela 4, e foram feitas de maneira aleatória, igualando-se a quantidade de eventos de venda aos de não-venda (3.269 em abril de 2007, por exemplo, totalizando observações), para as vendas de contas novas em primeira abordagem ofertando cartão electronic, ou seja, as ofertas recorrentes foram eliminadas para fins de simplificação (o desenvolvimento do modelo é semelhante, mas os retornos são diferentes, pois há alterações na abordagem relacionadas à precificação do produto). No momento do desenvolvimento dos modelos, ainda será feito um particionamento da amostra entre desenvolvimento (55%) e validação (45%), para verificar se haverá

52 52 overfitting, e com isso se chegar a um modelo robusto, conforme Ye (2004). O overfitting ocorre usualmente em situações nas quais o modelo explica muito mais do que deveria (ajusta muito bem para os dados utilizados na estimação, mas não funciona com nenhuma outra base de dados), conforme o exemplo no gráfico 4, no qual os dados de treinamento são empregados para ajustar os pesos, e os dados de validação são utilizados para verificar a precisão do modelo. Portanto, desenvolver um modelo e validá-lo na própria amostra de desenvolvimento gera um viés considerável, e o objetivo de um bom modelo é generalizar para qualquer conjunto de dados. Gráfico 4 Conceituação de Overfitting Fonte: dados trabalhados pelo autor Tabela 4 - Retornos históricos de cartão Mês ref. Não Venda Venda Disponibilizados (Venda + Não Venda) Retorno (Venda/Disp) Abr/ ,39% Mai/ ,32% Jun/ ,13% Jul/ ,43% Ago/ ,82% Set/ ,93% Out/ ,03% Média de Retorno 2,72%

53 53 As amostras balanceadas terão o tamanho das vendas da tabela 3 e serão unificadas na base de dados de desenvolvimento, sendo que os eventos de não venda (em quantidade substancialmente maior que as vendas) serão selecionados aleatoriamente (até se igualar a quantidade das vendas).

54 Transformação das variáveis Alguns dos passos mais importantes no desenvolvimento de um modelo são transformação, padronização, e processos de qualidade nas variáveis. No caso da regressão logística em particular, segundo Hosmer e Lemeshow (2000), faz-se necessário a criação de variáveis dummy para as variáveis qualitativas, que sejam interpretáveis na equação logística resultante. Se tomarmos como exemplo as variantes de cartão: Electronic (E), Nacional (N), Internacional (I), e Gold (G), é necessário que se criem três variáveis dummy (número variáveis 1), como na tabela 5. Tabela 5 - Exemplo variáveis dummy Fonte: dados trabalhados pelo autor Variante Dummy_N Dummy_I Dummy_G Electronic Nacional Internacional Gold No entanto, atualmente as ferramentas comerciais de Data Mining fazem a criação de dummies automaticamente, ficando para um analista a tarefa de interpretá-las na equação final. O importante é que após a finalização do modelo, é necessário verificar se não há correlação entre as variáveis que foram selecionadas, e para tanto é preciso transformar as variáveis qualitativas em dummies para calcular a matriz de correlação, como veremos mais à frente. Como usualmente o número de variáveis a serem avaliadas é grande, pode-se verificar a correlação após a seleção das variáveis pelo modelo, mas nada impede que algum processo automatizado verifique as correlações antes. Para as variáveis contínuas, é interessante categorizá-las em três a quatro faixas, buscando melhorar sua relação com a variável resposta (critério de r 2 ), maximizando a associação. Para a regressão logística também é importante tratar as variáveis que contenham valores missing, ou seja, faltantes, pois estes valores não são levados em conta no cálculo, o que pode gerar perda de informações importantes. Há casos em que a

55 55 informação que falta é a mais significativa na discriminação e, portanto não pode ser desprezada. Para tanto, as informações missing serão transformadas para um valor constante: - para as variáveis qualitativas. Para as variáveis quantitativas usualmente se imputa a média, para não perder a informação. A padronização das informações para modelagem foge ao escopo da dissertação, mas para os modelos desenvolvidos neste trabalho as variáveis foram padronizadas segundo o que preconizam Kimball e Ross (1996). Quando as variáveis independentes quantitativas apresentam distribuições não lineares (logarítmica ou exponencial, por exemplo), concentrações em determinadas faixas, muitos domínios (variações possíveis nos valores) com relacionamento muito próximo em relação à variável resposta, e outras particularidades, as transformações podem melhorar em muito a resposta dos modelos, especialmente os de regressão logística, que não respondem tão bem para comportamentos não lineares que, no entanto, são muito bem tratados pelas redes neurais, por exemplo. Segundo os testes no desenvolvimento dos modelos, o agrupamento que mostrou o melhor resultado prático foi o optimal binning for relationship to target, ou agrupamento ótimo em relação à variável resposta. Esta é uma opção disponível no pacote estatístico SAS/Enterprise Miner, que faz automaticamente os agrupamentos testando os resultados em relação à variável resposta (o número de grupos é definido pelo usuário, sendo que o autor usualmente utilizou até quatro grupos). Por exemplo, temos no gráfico 5 a transformação (agrupamento) da variável RENDA (Renda demográfica), segundo o melhor relacionamento com a variável resposta IND_VENDA (indicador de venda/não venda de cartão). As cores na legenda indicam o percentual de concentração em cada faixa.

56 56 Gráfico 5 - Transformação da variável Renda Original e transformada No gráfico 6, temos a transformação da variável idade, comparando-se a distribuição original e a transformada, na qual pode-se notar que há uma concentração na faixa etária compreendendo as idades entre 24 e 47 anos. Além disso, em relação à correspondência com a variável resposta nota-se que o grupo 1, que contempla as observações com valores missing tem o maior peso (negativo) na variável resposta (concentra as não vendas), enquanto os grupos 4 e 5 concentram o maior número de vendas.

57 57 Grupo Descrição 1 Sem Informação 2 1 <= IDADE < <= IDADE < <= IDADE < <= IDADE < <= IDADE < <= IDADE < <= IDADE < 56 9 IDADE >= 56 Gráfico 6 - Transformação de variável: Idade Além disso, também é importante agrupar as variáveis qualitativas que causam variações similares na variável resposta (por exemplo, se utilizar as Unidades Federativas SP e RJ resultam na mesma variação na variável resposta, faz sentido agrupá-las). Isso é mais importante nos casos em que o domínio é extenso e muitos grupos apresentam comportamentos similares. O critério de avaliação dos agrupamentos pode ser o índice GINI (a partir do valor 2 já é considerado como um agrupamento válido), ou o Valor Informacional (no trabalho em questão foi adotado o índice GINI, mas não há praticamente nenhuma diferença nos agrupamentos ao se empregar o Valor Informacional). No gráfico 7 temos o agrupamento da variável REG_DDD, que agrega a informação de Capital ou Interior aos Estados.

58 58 Gráfico 7 - Agrupamento Interativo Estados X informação de capital/interior A parte superior do gráfico 7 mostra a variável REG_DDD com sua distribuição original, a saber, os Estados do Brasil divididos entre capital e interior. Na parte inferior esquerda, mostra-se o relacionamento de cada agrupamento (vide tabela 6) com a variável resposta IND_VENDA, e na parte inferior direita, mostra-se o peso de evidência de cada agrupamento (o grupo 4 mostra o maior diferencial em relação à variável resposta conforme os preenchimento em verde = não venda e vermelho = venda). Tabela 6 - Agrupamento Interativo Estado / Capital X Interior GRP_REG _DDD AGRUPAMENTO AL_Cap, AM_Cap, AP_Cap, BA_Cap, BA_Int, CE_Cap, ES_Cap, MA_Cap, MA_Int, MT_Cap, 1 PA_Cap, PE_Int, PI_Int, RO_Cap, SE_Cap CE_Int, MG_Cap, MG_Int, MS_Cap, PA_Int, PB_Cap, PE_Cap, RJ_Cap, RJ_Int, RN_Cap, 2 RS_Cap, TO_Cap AC_Cap, DF_Cap, ES_Int, GO_Cap, GO_Int, MT_Int, PI_Cap, PR_Cap, PR_Int, RR_Cap, 3 RS_Int, SC_Cap, SC_Int, SP_Cap, SP_Int 4 AM_Int, sem_inf No gráfico 8 encontra-se a transformação da variável mesref_risco: Ano de obtenção do pré-aprovado, que ilustra o agrupamento que será utilizado mais à frente na etapa de modelagem.

59 59 Grupo Descrição 1 Missing , 2005, Gráfico 8 - Transformação da variável Ano do Pré-aprovado

60 Desenvolvimento dos modelos O desenvolvimento de fato dos modelos é um processo altamente iterativo, e leva inúmeros processamentos para que se chegue a algo que demonstre robustez e um alto poder de explicação, notadamente no desenvolvimento de redes neurais e árvores de decisão, que são realmente processos baseados em iterações. Alguns detalhes podem acabar resultando em modelos robustos ou totalmente instáveis, especialmente no que concerne a escolha das variáveis, e os ajustes de parâmetros dos modelos. Para fins de exploração dos recursos disponíveis pelo software de Data Mining, serão empregados as seguintes técnicas: - Seleção de variáveis: Há dois processos envolvidos. O primeiro faz um teste de R 2 em relação à variável resposta, eliminando variáveis com R 2 muito baixo. O segundo processo elimina variáveis com mais de 70% de valores missing (o valor padrão é eliminar variáveis com mais de 50% de missing, mas como os modelos de não correntistas possuem relativamente poucas variáveis a serem testadas, optou-se por elevar o parâmetro de corte, além do que o missing pode ser uma informação relevante no modelo). - Transformação de Variáveis: Neste nó são criados agrupamentos das variáveis contínuas em faixas discretas buscando o melhor relacionamento com a variável resposta (optimal binning, ou agrupamento ótimo). Além disso, caso haja alguma variável que tenha alguma distribuição que requeira alguma transformação específica, conforme mencionado no item transformação de variáveis, elas são tratadas aqui. - Reposição: Este nó faz o tratamento dos valores missing, de fundamental importância quando se faz uso da regressão logística e de redes neurais. As árvores de decisão tratam os valores missing como válidos e, portanto, não necessitam desse tratamento, A técnica utilizada para as substituições será a de alocar o valor - que equivale a Sem Informação para as variáveis qualitativas, e zero para as variáveis quantitativas. No presente trabalho optou-se por fazer esse tratamento fora da ferramenta de modelagem, conforme mencionado na seção de seleção das amostras, seguindo os padrões de data warehousing criados por Kimball e Ross (1996).

61 61 - Agrupamento Interativo: Agrupa as variáveis melhorando o seu poder de previsão, gerando medidas de risco relativo em relação à variável resposta. Há duas possibilidades de verificar o poder de previsão após o agrupamento: Gini e Valor Informacional. Optou-se pelo Gini, que é o padrão, sendo que o valor mínimo aceitável é 2, mas usualmente os agrupamentos geram maior pureza, da ordem de 20 a Avaliação: Mostra um comparativo de todos os modelos detalhando algumas informações, como Lift, Curva ROC, erro médio, etc. - Escoragem: Um dos principais objetivos da aplicação de técnicas de datamining é aplicar o que foi modelado em uma base com dados reais para tomada de decisão. Um exemplo típico, e que exemplifica este trabalho, é selecionar uma lista para uma campanha de marketing direto selecionando os clientes mais propensos. Este nó codifica o modelo em linguagem de programação (SAS ou C++, por exemplo), para que possa ser aplicado à base de dados original nos meses destinados à validação (back test), ou suportar um processo automatizado em sistemas que permita o uso rotineiro do modelo. Em outras palavras, permite que se traduza a equação matemática oriunda da aplicação das técnicas de modelagem para a aplicação em uma base de dados em ambiente operacional. Um exemplo típico seria uma rede neural aplicada às transações de cartão de crédito para verificar a probabilidade de se tratar de uma transação fraudulenta, o que permite à processadora do cartão confirmar com o cliente se ele realmente está utilizando o seu cartão, e assim evitar danos para a empresa e para o cliente. - Gerador de Relatórios: Gera uma série de relatórios relacionados aos modelos, contendo todas as variáveis, as interações, os agrupamentos, os erros, enfim: todas as saídas possíveis do workflow. - Código de programação: Permite que se faça a inserção de códigos de programação para, por exemplo, calcular o KS, o que não é feito (no caso) automaticamente pelo software.

62 LIFT 62 A seguir, no esquema 6, é mostrada uma ilustração do procedimento adotado na modelagem. Esquema 6 - Workflow dos modelos Gráfico 9 - Regressão Logística Lift Backward, Forward, e Stepwise O gráfico 9 acima - no qual a legenda do gráfico de Lift mostra a concentração da distribuição em cada faixa de percentual da distribuição - permite verificar que as

63 63 diferenças entre os três métodos de seleção de variáveis na regressão logística são pouco relevantes para o tipo de problema e os dados em questão, pois produzem praticamente o mesmo resultado. Para maiores informações sobre os métodos de seleção ver Hosmer e Lemeshow (2000) e SAS Institute Inc. (2003). O mesmo ocorre na construção de redes neurais (gráfico 10), e também nas árvores de decisão (gráfico 11), nas quais há pouquíssimas mudanças nos resultados se os critérios de divisão forem alterados (a menos do Chi-quadrado, em função da significância estatística em grandes bases de dados). As redes neurais do esquema 7 diferem no número de camadas escondidas, bem como nas diferentes funções de combinação e ativação em cada nó (logística, tangente hiperbólica, etc.), A rede com 5 camadas escondidas (NEURAL_5) produz um resultado bem melhor do que a que só tem uma camada escondida (NEURAL_1), pois permite mais combinações para seu treinamento. Esquema 7 - Topologia de Redes Neurais 1 e 5 camadas escondidas

64 LIFT 64 Gráfico 10 Lift Comparativo Redes Neurais 1 e 5 camadas escondidas

65 LIFT 65 O gráfico 11 mostra que para as árvores de decisão o critério de separação entre ramos também muda relativamente pouco o resultado final, sendo que foram testados os mais usuais: Entropia, Gini, e Chi-quadrado. É notável que o critério de Chiquadrado tem um desempenho bem inferior (separa mal os prospects dos primeiros vintis), pois para grandes bases de dados a importância da significância estatística é muito pequena. Ao desenvolver os modelos é de fundamental importância verificar a correlação entre as variáveis selecionadas, pois os efeitos de multicolinearidade, conforme Bussab e Morettin (2006) e Hosmer e Lemeshow (2000) podem afetar negativamente a estabilidade do modelo, pois tendem a superestimar os erros padrão na regressão logística, ou seja, a variação dos coeficientes. Gráfico 11 - Lift para três árvores de decisão Gini, Entropia, e Chi-quadrado

66 66 4. RESULTADOS DOS MODELOS 4.1 Regressão Logística: O gráfico 12 mostra o resultado da regressão logística que empregou o método de seleção Forward, listando os coeficientes que foram selecionados, bem como a soma do valor absoluto da representatividade dos seus Valores-T, que são os coeficientes divididos pelo seu erro padrão. Gráfico 12 - Resultado Regressão Logística Variáveis e seus Valores-T A tabela 7 mostra a estatística do chi-quadrado de Wald - que testa a significância de cada variável em relação às demais do modelo - listando as variáveis que entraram efetivamente no mesmo, suas descrições, graus de liberdade, e o valor-p da estatística de Wald. Tabela 7 - Regressão Logística Teste de Significância Variável Descrição da variável GL Chi-quadrado de Wald Pr > Chi 2 RENDA Renda Demográfica 1 31,61 <,0001 GRP_CDESTCIV Agrupamento do Estado Civil ,81 <,0001 GRP_IDADE Agrupamento de Idade 8 434,16 <,0001 GRP_REG_DDD Agrupamento de Estado / Capital X Interior 3 470,65 <,0001 DT_TMK24_TOT Nº de Disponibilizações no Telemarketing 24 meses 1 54,67 <,0001 GRP_MESREF_RISCO Agrupamento Ano de obtenção do préaprovado 2 898,88 <,0001

67 67 A tabela 8 mostra a análise para cada categoria de cada variável, os coeficientes da equação (na forma da equação logística e o exponencial), a estatística chi-quadrado de Wald, e o conseqüente Valor-p (quanto menor, significa que a chance de o valor observado ser diferente do esperado se deva menos ao acaso), além dos intervalos de confiança de 95%. Tabela 8 - Regressão Logística Análise Detalhada dos Coeficientes Variável Descrição Domínio Coeficiente Erro Padrão Chi 2 de Wald Pr > Chi 2 e (coeficiente) IC 95% Intercept Intercepto -0,4707 0,048 95,10 <,0001 0,63-0,5654-0,3761 renda Renda valor da renda -0,0001 0,000 31,61 <,0001 1,00-0,0002-0,0001 GRP_CDESTCIV 1 Agrupamento Estado Civil Casado 2,3133 0, ,83 <, ,11 2,2511 2,3755 GRP_CDESTCIV 2 Agrupamento Estado Civil Solteiro -1,0014 0, ,33 <,0001 0,37-1,0844-0,9184 GRP_IDADE 1 Agrupamento de Idade 1 Sem Informação -1,7977 0, ,06 <,0001 0,17-2,0007-1,5946 GRP_IDADE 2 Agrupamento de Idade 2 Idade < 22 anos 0,5448 0,071 59,39 <,0001 1,72 0,4062 0,6833 GRP_IDADE 3 Agrupamento de Idade 3 22 <= Idade < 24 anos 0,2890 0,071 16,82 <,0001 1,34 0,1509 0,4272 GRP_IDADE 4 Agrupamento de Idade 4 24 <= Idade < 32 anos 0,0167 0,045 0,14 0,7091 1,02-0,0709 0,1042 GRP_IDADE 5 Agrupamento de Idade 5 32 <= Idade < 47 anos 0,0428 0,042 1,04 0,3071 1,04-0,0393 0,1250 GRP_IDADE 6 Agrupamento de Idade 6 47 <= Idade < 48 anos 1,0884 0, ,36 <,0001 2,97 0,8815 1,2952 GRP_IDADE 7 Agrupamento de Idade 7 48 <= Idade < 52 anos 0,0860 0,074 1,34 0,2477 1,09-0,0598 0,2319 GRP_IDADE 8 Agrupamento de Idade 8 52 <= Idade < 56 anos 0,0033 0,077 0,00 0,9661 1,00-0,1477 0,1542 GRP_REG_DDD 1 Agrupamento Estado / Capitais 1 Vide tabela 5 0,6959 0, ,03 <,0001 2,01 0,5977 0,7941 GRP_REG_DDD 2 Agrupamento Estado / Capitais 2 Vide tabela 5 0,5881 0, ,63 <,0001 1,80 0,5117 0,6645 GRP_REG_DDD 3 Agrupamento Estado / Capitais 3 Vide tabela 5 0,1617 0,036 19,87 <,0001 1,18 0,0906 0,2328 DT_TMK24_TOT Nº Disponibilizações no telemarketing 24 meses valor nº disp. -0,1404 0,019 54,67 <,0001 0,87-0,1777-0,1032 GRP_MESREF_RISCO 1 Ano de concessão do crédito pré-aprovado 1 Sem Informação 1,0067 0, ,83 <,0001 2,74 0,9406 1,0729 GRP_MESREF_RISCO 2 Ano de concessão do crédito pré-aprovado , 2005, ,1944 0,030 42,84 <,0001 0,82-0,2526-0,1362 A tabela 9 mostra o risco relativo das variáveis. O risco relativo mostra que, quanto mais distante do valor um, maior é a chance de aquela variável determinar a venda de um cartão em relação a uma não venda. Valores mais próximos de um são relativamente neutros, não afetando em muito a chance da ocorrência do evento de venda. Por exemplo, se o ano de obtenção do pré-aprovado for Sem Informação versus 2003, a chance de contratação é 6,17 vezes maior. Tabela 9 - Regressão Logística Risco Relativo Variável Descrição Faixas e valores Risco Relativo renda Renda demográfica 1,00 GRP_CDESTCIV Agrupamento Estado Civil 1 vs 3 37,53 GRP_CDESTCIV Agrupamento Estado Civil 2 vs 3 1,36 GRP_IDADE Agrupamento Idade 1 vs 9 0,22 GRP_IDADE Agrupamento Idade 2 vs 9 2,27 GRP_IDADE Agrupamento Idade 3 vs 9 1,76 GRP_IDADE Agrupamento Idade 4 vs 9 1,34 GRP_IDADE Agrupamento Idade 5 vs 9 1,37 GRP_IDADE Agrupamento Idade 6 vs 9 3,90 GRP_IDADE Agrupamento Idade 7 vs 9 1,43 GRP_IDADE Agrupamento Idade 8 vs 9 1,32 GRP_REG_DDD Agrupamento Estado X Capitais 1 vs 4 8,51 GRP_REG_DDD Agrupamento Estado X Capitais 2 vs 4 7,64 GRP_REG_DDD Agrupamento Estado X Capitais 3 vs 4 4,99 DT_TMK24_TOT Nº Disponibilizações no telemarketing 0,87 GRP_MESREF_RISCO Ano de obtenção do pré-aprovado 1 vs 3 6,17 GRP_MESREF_RISCO Ano de obtenção do pré-aprovado 2 vs 3 1,86

68 68 Também é interessante analisar a tabela de classificação no gráfico 13, que mostra o quanto o que foi previsto está de acordo com o que foi observado. Ou seja, avalia o quanto o modelo previu de vendas versus as vendas observadas, e o quanto o modelo previu de não vendas versus as não vendas observadas. Modelos válidos devem necessariamente apresentar uma taxa significativamente maior de acertos na previsão, o que é o caso. PREVISTO OBSERVADO Não Venda Venda Total Não Venda Venda Total Gráfico 13 Classificação: Previsto X Real Regressão logística É importante ressaltar que, durante o desenvolvimento do modelo, diversas variáveis foram testadas, discriminaram bem, mas estavam fortemente correlacionadas com outras (maior do que 0,7). Um exemplo claro é a variante do cartão. Como a variante é calculada a partir do limite de crédito, que por sua vez é determinado a partir da renda, pode-se apenas utilizar uma das duas: renda ou variante. O mesmo ocorreu para UF Unidade federativa e DDD Código de Discagem a Distância, pois mesmo sem verificar a correlação de fato entre elas, a própria geografia as correlaciona. No desenvolvimento do modelo de regressão logística também foram testadas as interações - ver Hosmer e Lemeshow (2000) - entre todas as variáveis, duas a duas.

69 69 No entanto, os efeitos das interações não demonstraram ser significativos para as variáveis em questão. Analisando as variáveis que entraram no modelo, conclui-se que elas fazem sentido do ponto de vista do negócio, bem como do que se tem de informações disponíveis dos clientes potenciais. Ao contrário dos modelos de correntistas, dos quais se dispõe de uma quantidade maior de informações, oriundas do relacionamento prévio, os não correntistas carecem de informações mais individualizadas, pois o que se sabe é basicamente onde moram, sua renda demográfica inferida (sujeita a muitos erros, pois há diferentes padrões de residências que às vezes coexistem no mesmo CEP), sua idade, estado civil, e seu sexo. E foram basicamente essas variáveis que fizeram parte do resultado final do modelo.

70 Árvore de Decisão - Gini O esquema 8 mostra uma visão parcial da árvore de decisão que utilizou o índice Gini como critério de divisão, restringindo a profundidade a três níveis, para fins de apresentação (o modelo final contou com uma profundidade de cinco níveis). Observa-se, na ordem dentro dos retângulos: percentual de eventos de venda e não venda (1 e 0), número de vendas e não vendas, e total do nó. Abaixo dos nós, ficam as variáveis selecionadas para a divisão, até que se chegue às folhas, quando as divisões adicionais não trazem mais pureza. Proporção em relação à variável resposta Esquema 8 - Árvore de Decisão Gini com 3 níveis de profundidade

71 71 O gráfico 14 mostra a variação do erro quadrático médio (Índice Gini) em função do número de folhas da árvore de decisão, o que norteia o crescimento da árvore. Gráfico 14 - Índice Gini X Nº de folhas

72 72 Na tabela 10, mostra-se o resumo das folhas da árvore de decisão, a quantidade de clientes em cada nó, e o percentual de clientes nos eventos de venda e não venda, para as amostras de treinamento e de validação. Tabela 10 - Resumo das folhas Árvore Gini Nó Folha N (trein.) N (valid.) % Venda=1 (valid.) % Venda=0 (valid.) % Venda=1 (trein.) % Venda=0 (trein.) ,55 92,45 5,66 94, ,6 5,4 94,44 5, ,46 4,54 96,68 3, ,21 13,79 86,84 13, ,25 10,75 90,36 9, ,33 13,67 86,32 13, ,27 22,73 81,4 18, ,36 63, ,02 52,98 46,77 53, ,81 82,19 20,36 79, ,67 58,33 31,58 68, ,66 91,34 8,6 91, ,08 91,92 3,03 96, ,11 62,89 28,18 71, ,74 46,26 52,26 47, ,87 63, ,18 56,82 41,32 58, ,71 58,29 28,5 71, ,54 79,46 19,27 80, ,34 80,66 22,85 77, ,25 85,75 14,77 85, ,72 86,28 12,44 87, ,95 90,05 8,07 91, ,47 91,53 8,15 91, ,32 92,68 1,77 98, ,65 94,35 6,16 93, ,42 95,58 3,26 96, ,99 97,01 5,62 94, ,8 97,2 4,26 95, ,87 97,13 1,55 98, ,16 98,84 0,36 99,64

73 73 O gráfico 15 mostra o anel da árvore de decisão (tree ring). Segundo Berry e Linoff (2004), essa representação é equivalente a uma secção transversal do tronco de uma árvore. O círculo no centro do gráfico representa o nó raiz, antes de qualquer divisão ter sido feita. O anel mais próximo ao centro representa a primeira divisão (no caso, o agrupamento do estado civil). O comprimento dos arcos é proporcional ao número de registros que vai para cada uma das divisões. O principal propósito desse diagrama é dar uma idéia da complexidade da árvore, bem como dos locais com alta concentração em relação à variável resposta. Proporção em relação à variável resposta Gráfico 15 - Anel da Árvore de Decisão Gini

74 74 PREVISTO OBSERVADO Não Venda Venda Total Não Venda Venda Total Gráfico 16 - Tabela de Classificação - Árvore de decisão No gráfico 16 é apresentada a tabela de classificação da árvore Gini que, como na regressão logística, mostra o que foi previsto pelo modelo versus o que foi observado na base de validação em termos de variável resposta (ind_venda). Finalmente, no Apêndice A encontram-se as regras em inglês das divisões de cada nó, que mostram, em linguagem de alto nível, como programar as divisões. A sua estrutura começa mostrando as variáveis a serem divididas no nó e seus intervalos, faixas, ou quantidades. No exemplo abaixo, toma-se a variável renda, e verifica-se se é menor do que 613,375. Além disso, o agrupamento de Estados versus capitais de ser 3 ou 4, etc. Caso essas condições sejam satisfeitas, o CPF é alocado ao nó 16. IF RENDA < AND GRP_REG_DDD IS ONE OF: 3 4 AND GRP_IDADE EQUALS 1 AND GRP_MESREF_RISCO EQUALS 1 AND GRP_CDESTCIV IS ONE OF: 2 3 THEN NODE : 32 N : 19 1 : 31.6% 0 : 68.4%

75 75 As variáveis que foram selecionadas pela árvore, bem como os critérios de separação seguiram o que foi conseguido com o modelo de regressão logística. No entanto, para fins de interpretação do resultado, a árvore é bem mais simples de ser compreendida, além de prover mais recursos de análise das saídas.

76 Rede Neural 1 Camada Escondida O gráfico 17 mostra a alocação dos pesos na rede neural, sendo que em azul estão os pesos positivos, e em vermelho os pesos negativos. H11, H12, e H13, são os neurônios da Hidden Layer, ou camada escondida. A tabela 11 mostra o detalhamento dos pesos. Esta é a rede neural sem camadas escondidas, que é equivalente a uma regressão logística (foi empregada a função de ativação logística e há somente uma camada escondida com três neurônios). Optou-se por mostrá-la ao invés da rede neural de cinco camadas escondidas em função do número de parâmetros e para manter a base de comparação com as demais técnicas empregadas. Gráfico 17 - Pesos Rede Neural Tabela 11 - Rede Neural - Pesos Origem Destino Peso Origem Destino Peso GRP_CDESTCIV1 H11 0,0000 idade H11-7,9002 GRP_CDESTCIV2 H11 0,0000 renda H11-0,0187 GRP_MESREF_RISCO1 H11 1,3503 DT_TMK24_TOT H12 0,2023 GRP_MESREF_RISCO2 H11 2,0455 idade H12 0,0924 GRP_REG_DDD1 H11 0,3524 renda H12 0,0989 GRP_REG_DDD2 H11 0,2363 DT_TMK24_TOT H13-0,0623 GRP_REG_DDD3 H11 0,0000 idade H13 0,4439 GRP_CDESTCIV1 H12 1,5459 renda H13 0,1804 GRP_CDESTCIV2 H12 0,2090 CDSEXO H11 0,1761 GRP_MESREF_RISCO1 H12 0,7694 CDSEXOF H11 0,0120 GRP_MESREF_RISCO2 H12 0,4111 CDSEXO H12 0,0471 GRP_REG_DDD1 H12 0,1002 CDSEXOF H12-0,0354 GRP_REG_DDD2 H12 0,2703 CDSEXO H13-0,0500 GRP_REG_DDD3 H12 0,8056 CDSEXOF H13-0,0781 GRP_CDESTCIV1 H13 4,5104 BIAS H11-1,7839 GRP_CDESTCIV2 H13 0,0000 BIAS H12-1,9708 GRP_MESREF_RISCO1 H13 2,0904 BIAS H13 2,4654 GRP_MESREF_RISCO2 H13 0,1989 H11 IND_VENDA1-1,0586 GRP_REG_DDD1 H13 0,0000 H12 IND_VENDA1-7,0990 GRP_REG_DDD2 H13 0,4276 H13 IND_VENDA1-2,6422 GRP_REG_DDD3 H13 2,2977 BIAS IND_VENDA1 2,9799 DT_TMK24_TOT H11-0,0532

77 77 O gráfico 18 mostra a evolução do erro médio em relação ao número de iterações, quando se chega a um patamar que novos pesos já não afetam mais o erro cometido. Gráfico 18 Rede Neural - Erro médio X Iterações Abaixo, no gráfico 19, vemos a tabela de classificação da rede neural, que também mostra o que foi previsto em termos de variável resposta versus o que foi observado. PREVISTO OBSERVADO Não Venda Venda Total Não Venda Venda Total Gráfico 19 - Tabela de classificação - Rede neural A rede neural é a mais complicada de modelar (do ponto de vista de uso do pacote estatístico), embora seja a mais flexível, e tenha produzido parâmetros de avaliação dos ajustes (Lift, AUROC, Captured Response, e KS) compatíveis com as demais

78 78 técnicas, além de contemplar praticamente as mesmas variáveis. Muito embora a rede neural não entregue nenhuma equação, como na regressão logística, e nem mostra explicitamente os critérios de separação das variáveis, como na árvore de decisão, fica muito claro que os pesos estão associados a determinados valores de variáveis, e mostrou resultados que não podem ser vistos nas outras técnicas, como a penalização (peso negativo) da variável idade, por exemplo.

79 Avaliação dos Modelos Para avaliação dos modelos serão utilizadas, inicialmente, de acordo com Berry e Linoff (2004), e Witten e Frank (2005), curvas de LIFT para comparação entre os diversos modelos. A curva de LIFT do gráfico 20, mostra basicamente o quanto o emprego do modelo otimiza a lista de seleção. Se não houver modelo, o retorno do envio de 10% dos clientes resultará no captura de 10% dos respondentes. Por outro lado, se o modelo entregar um LIFT de 1,5 para o primeiro decil, significa que ao estimular esses clientes obter-se-á um retorno 50% superior ao retorno médio. No esquema abaixo, temos o Lift de todos os modelos testados, na ordem das legendas: rede neural com cinco camadas escondidas, árvore de decisão (Gini), regressão logística stepwise, rede neural (sem camadas escondidas), árvore de decisão (chiquadrado, árvore de decisão (entropia), regressão logística forward, e regressão logística backward. Um Lift (eixo y) da ordem de 2 no primeiro decil é considerado muito bom para um modelo de não correntistas, tendo em vista as poucas informações que são disponíveis. Só com isso já se pode obter ganhos financeiros interessantes. Gráfico 20 - Lift de todos os modelos

80 80 Além do Lift, também serão utilizadas as Curvas ROC (Receiver Operating Characteristic), como em Berry e Linoff (2004), Witten e Frank (2005), Yang e Carlin (2000), Gallop et al. (2003), Sinha e May (2004). As curvas ROC mostradas no gráfico 21 - tiveram sua origem na segunda guerra mundial, quando eram utilizadas para certificar operadores de radar na identificação de navios inimigos. Atualmente, as curvas ROC são amplamente utilizadas em pesquisas médicas, tendo em vista que é extremamente importante na avaliação de um tratamento médica a mensuração dos falsos positivos e dos falsos negativos, que é o objetivo primário da Curva ROC. Quanto melhor um modelo for capaz de reduzir os dois tipos de erro, mais a curva tenderá a se concentrar no canto superior esquerdo (ou seja, uma pequena taxa de falsos positivos é acompanhada de um taxa também pequena de falsos negativos). No entanto, a medida que se usa efetivamente á a área sob a Curva ROC (AUROC Area Under ROC), medida esta chamada de discriminação. Uma discriminação perfeita vale 1, e um modelo desprovido de valor gera uma discriminação de 0,5, uma vez que é gerada uma diagonal no gráfico que mostraria há uma equivalência entre erros e acertos, ou seja, empregar um modelo ou estimular os clientes aleatoriamente resultaria no mesmo retorno esperado de vendas. Gráfico 21 - Curva ROC Todos os modelos

81 81 Outro parâmetro interessante de comparação é o gráfico de Captured Response (gráfico 22), que mostra quantos eventos ocorreriam por decil, isto é, quantas vendas esperadas seriam obtidas mandando determinado percentual da população. No gráfico abaixo se percebe que estimulando 40% dos clientes potenciais já se obteria um retorno de aproximadamente 75% das vendas (economizando em custo de abordagem). Gráfico 22 - Captured Response dos modelos Para ter mais parâmetros de avaliação da efetividade dos modelos, será utilizado o teste estatístico KS Komolgorov-Smirnov (tabela 12). O teste KS se baseia na Função Distribuição Acumulada, e permite comparar os valores observados do evento (venda / não venda) em relação a seus valores esperados. Quanto mais separados estiverem os eventos Venda=1 dos eventos Venda=0, melhor o modelo. O valor resultante do KS mostra o maior ponto de separação conseguido pelo modelo entre os eventos de venda e não venda. Para detalhes, ver Stephens (1974) e Nakas (2007). Um valor de KS na faixa de 30% a 40% é considerado bom para modelos de não correntistas, dadas as poucas informações disponíveis. Para comparar, os modelos de correntistas usualmente resultam em KS da ordem de 70% a 80%, pois a riqueza de informações disponíveis para a modelagem usualmente é maior. Nota-se também,

KDD UMA VISAL GERAL DO PROCESSO

KDD UMA VISAL GERAL DO PROCESSO KDD UMA VISAL GERAL DO PROCESSO por Fernando Sarturi Prass 1 1.Introdução O aumento das transações comerciais por meio eletrônico, em especial as feitas via Internet, possibilitou as empresas armazenar

Leia mais

Expanda suas Capacidades Analíticas

Expanda suas Capacidades Analíticas Módulos IBM SPSS Statistics Expanda suas Capacidades Analíticas Um guia resumido dos módulos para o IBM SPSS Statistics Base Destaques Existem vários produtos IBM SPSS para te ajudar em cada fase do projeto

Leia mais

Planejamento Estratégico de TI. Prof.: Fernando Ascani

Planejamento Estratégico de TI. Prof.: Fernando Ascani Planejamento Estratégico de TI Prof.: Fernando Ascani Data Warehouse - Conceitos Hoje em dia uma organização precisa utilizar toda informação disponível para criar e manter vantagem competitiva. Sai na

Leia mais

Extração de Árvores de Decisão com a Ferramenta de Data Mining Weka

Extração de Árvores de Decisão com a Ferramenta de Data Mining Weka Extração de Árvores de Decisão com a Ferramenta de Data Mining Weka 1 Introdução A mineração de dados (data mining) pode ser definida como o processo automático de descoberta de conhecimento em bases de

Leia mais

Extração de Conhecimento a partir dos Sistemas de Informação

Extração de Conhecimento a partir dos Sistemas de Informação Extração de Conhecimento a partir dos Sistemas de Informação Gisele Faffe Pellegrini & Katia Collazos Grupo de Pesquisa em Eng. Biomédica Universidade Federal de Santa Catarina Jorge Muniz Barreto Prof.

Leia mais

3 Metodologia de Previsão de Padrões de Falha

3 Metodologia de Previsão de Padrões de Falha 3 Metodologia de Previsão de Padrões de Falha Antes da ocorrência de uma falha em um equipamento, ele entra em um regime de operação diferente do regime nominal, como descrito em [8-11]. Para detectar

Leia mais

AULAS 13, 14 E 15 Correlação e Regressão

AULAS 13, 14 E 15 Correlação e Regressão 1 AULAS 13, 14 E 15 Correlação e Regressão Ernesto F. L. Amaral 23, 28 e 30 de setembro de 2010 Metodologia de Pesquisa (DCP 854B) Fonte: Triola, Mario F. 2008. Introdução à estatística. 10 ª ed. Rio de

Leia mais

Professor: Disciplina:

Professor: Disciplina: Professor: Curso: Esp. Marcos Morais de Sousa marcosmoraisdesousa@gmail.com Sistemas de informação Disciplina: Introdução a SI Noções de sistemas de informação Turma: 01º semestre Prof. Esp. Marcos Morais

Leia mais

Prof. Msc. Paulo Muniz de Ávila

Prof. Msc. Paulo Muniz de Ávila Prof. Msc. Paulo Muniz de Ávila O que é Data Mining? Mineração de dados (descoberta de conhecimento em bases de dados): Extração de informação interessante (não-trivial, implícita, previamente desconhecida

Leia mais

Mineração de Dados: Introdução e Aplicações

Mineração de Dados: Introdução e Aplicações Mineração de Dados: Introdução e Aplicações Luiz Henrique de Campos Merschmann Departamento de Computação Universidade Federal de Ouro Preto luizhenrique@iceb.ufop.br Apresentação Luiz Merschmann Engenheiro

Leia mais

http://www.publicare.com.br/site/5,1,26,5480.asp

http://www.publicare.com.br/site/5,1,26,5480.asp Página 1 de 7 Terça-feira, 26 de Agosto de 2008 ok Home Direto da redação Última edição Edições anteriores Vitrine Cross-Docking Assine a Tecnologística Anuncie Cadastre-se Agenda Cursos de logística Dicionário

Leia mais

Pós-Graduação "Lato Sensu" Especialização em Análise de Dados e Data Mining

Pós-Graduação Lato Sensu Especialização em Análise de Dados e Data Mining Pós-Graduação "Lato Sensu" Especialização em Análise de Dados e Data Mining Inscrições Abertas Início das Aulas: 24/03/2015 Dias e horários das aulas: Terça-Feira 19h00 às 22h45 Semanal Quinta-Feira 19h00

Leia mais

MESTRADO EM PESQUISA DE MERCADOS 2006 2007

MESTRADO EM PESQUISA DE MERCADOS 2006 2007 MESTRADO EM PESQUISA DE MERCADOS 2006 2007 PROGRAMA DAS DISCIPLINAS 1 1º trimestre PESQUISA DE MERCADOS Objectivos Pretende-se que os alunos: (a) adquiram os conceitos e semântica próprios do tema, (b)

Leia mais

Tarefas e Técnicas de Mineração de Dados TAREFAS E TÉCNICAS DE MINERAÇÃO DE DADOS

Tarefas e Técnicas de Mineração de Dados TAREFAS E TÉCNICAS DE MINERAÇÃO DE DADOS Tarefas e Técnicas de Mineração de Dados TAREFAS E TÉCNICAS DE MINERAÇÃO DE DADOS Sumário Conceitos / Autores chave... 3 1. Introdução... 3 2. Tarefas desempenhadas por Técnicas de 4 Mineração de Dados...

Leia mais

Fases para um Projeto de Data Warehouse. Fases para um Projeto de Data Warehouse. Fases para um Projeto de Data Warehouse

Fases para um Projeto de Data Warehouse. Fases para um Projeto de Data Warehouse. Fases para um Projeto de Data Warehouse Definição escopo do projeto (departamental, empresarial) Grau de redundância dos dados(ods, data staging) Tipo de usuário alvo (executivos, unidades) Definição do ambiente (relatórios e consultas préestruturadas

Leia mais

Curso Superior de Tecnologia em Banco de Dados Disciplina: Projeto de Banco de Dados Relacional II Prof.: Fernando Hadad Zaidan

Curso Superior de Tecnologia em Banco de Dados Disciplina: Projeto de Banco de Dados Relacional II Prof.: Fernando Hadad Zaidan Faculdade INED Curso Superior de Tecnologia em Banco de Dados Disciplina: Projeto de Banco de Dados Relacional II Prof.: Fernando Hadad Zaidan 1 Unidade 4.5 2 1 BI BUSINESS INTELLIGENCE BI CARLOS BARBIERI

Leia mais

Exemplo de Aplicação do DataMinig

Exemplo de Aplicação do DataMinig Exemplo de Aplicação do DataMinig Felipe E. Barletta Mendes 19 de fevereiro de 2008 INTRODUÇÃO AO DATA MINING A mineração de dados (Data Mining) está inserida em um processo maior denominado Descoberta

Leia mais

Gestão da Informação. Gestão da Informação. AULA 3 Data Mining

Gestão da Informação. Gestão da Informação. AULA 3 Data Mining Gestão da Informação AULA 3 Data Mining Prof. Edilberto M. Silva Gestão da Informação Agenda Unidade I - DM (Data Mining) Definição Objetivos Exemplos de Uso Técnicas Tarefas Unidade II DM Prático Exemplo

Leia mais

T2Ti Tecnologia da Informação Ltda T2Ti.COM http://www.t2ti.com Projeto T2Ti ERP 2.0. Bloco Comercial. CRM e AFV

T2Ti Tecnologia da Informação Ltda T2Ti.COM http://www.t2ti.com Projeto T2Ti ERP 2.0. Bloco Comercial. CRM e AFV Bloco Comercial CRM e AFV Objetivo O objetivo deste artigo é dar uma visão geral sobre os Módulos CRM e AFV, que fazem parte do Bloco Comercial. Todas informações aqui disponibilizadas foram retiradas

Leia mais

O QUE É E COMO FUNCIONA O CREDIT SCORING PARTE I

O QUE É E COMO FUNCIONA O CREDIT SCORING PARTE I O QUE É E COMO FUNCIONA O CREDIT SCORING PARTE I! A utilização de escores na avaliação de crédito! Como montar um plano de amostragem para o credit scoring?! Como escolher as variáveis no modelo de credit

Leia mais

Aprendizagem de Máquina

Aprendizagem de Máquina Aprendizagem de Máquina Professor: Rosalvo Ferreira de Oliveira Neto Disciplina: Inteligência Artificial Tópicos 1. Definições 2. Tipos de aprendizagem 3. Paradigmas de aprendizagem 4. Modos de aprendizagem

Leia mais

18. Qualidade de Dados em Data Warehouse - Objetivos e Sucesso

18. Qualidade de Dados em Data Warehouse - Objetivos e Sucesso 18. Qualidade de Dados em Data Warehouse - Objetivos e Sucesso Uma das características das Ciências Exatas é a precisão das informações obtidas; a segurança dos dados extraídos nos processos usados. Cálculos

Leia mais

Complemento II Noções Introdutória em Redes Neurais

Complemento II Noções Introdutória em Redes Neurais Complemento II Noções Introdutória em Redes Neurais Esse documento é parte integrante do material fornecido pela WEB para a 2ª edição do livro Data Mining: Conceitos, técnicas, algoritmos, orientações

Leia mais

Aula 2 RNA Arquiteturas e Treinamento

Aula 2 RNA Arquiteturas e Treinamento 2COP229 Aula 2 RNA Arquiteturas e Treinamento 2COP229 Sumário 1- Arquiteturas de Redes Neurais Artificiais; 2- Processos de Treinamento; 2COP229 1- Arquiteturas de Redes Neurais Artificiais -Arquitetura:

Leia mais

Pesquisa Operacional

Pesquisa Operacional GOVERNO DO ESTADO DO PARÁ UNIVERSIDADE DO ESTADO DO PARÁ CENTRO DE CIÊNCIAS NATURAIS E TECNOLOGIA DEPARTAMENTO DE ENGENHARIA Pesquisa Operacional Tópico 4 Simulação Rosana Cavalcante de Oliveira, Msc rosanacavalcante@gmail.com

Leia mais

2 Descoberta de Conhecimento em Bases de Dados 2.1. Introdução

2 Descoberta de Conhecimento em Bases de Dados 2.1. Introdução 2 Descoberta de Conhecimento em Bases de Dados 2.1. Introdução De acordo com [FAYY96], o conceito de descoberta de conhecimento em bases de dados pode ser resumido como o processo não-trivial de identificar

Leia mais

Como combater fraudes e minimizar a inadimplência no processamento de cartões Private Label

Como combater fraudes e minimizar a inadimplência no processamento de cartões Private Label Como combater fraudes e minimizar a inadimplência no processamento de cartões Private Label São Paulo, abril de 2007 Ricardo Loureiro Diretor de Produtos AGENDA Objetivo Contexto de mercado Gestão do Ciclo

Leia mais

Informativo Bimestral da Siqueira Campos Associados agosto de 2013 - ano VII - Número 21. Catálogo de Treinamentos 2013

Informativo Bimestral da Siqueira Campos Associados agosto de 2013 - ano VII - Número 21. Catálogo de Treinamentos 2013 Informativo Bimestral da Siqueira Campos Associados agosto de 2013 - ano VII - Número 21 Nesta edição Lean Office - Dez dicas para economizar tempo no trabalho Estatística Seis Sigma - Estatística não

Leia mais

TÓPICOS AVANÇADOS EM ENGENHARIA DE SOFTWARE

TÓPICOS AVANÇADOS EM ENGENHARIA DE SOFTWARE TÓPICOS AVANÇADOS EM ENGENHARIA DE SOFTWARE Engenharia de Computação Professor: Rosalvo Ferreira de Oliveira Neto Estudos Comparativos Recentes - Behavior Scoring Roteiro Objetivo Critérios de Avaliação

Leia mais

IC Inteligência Computacional Redes Neurais. Redes Neurais

IC Inteligência Computacional Redes Neurais. Redes Neurais Universidade Federal do Rio de Janeiro PÓS-GRADUAÇÃO / 2008-2 IC Inteligência Computacional Redes Neurais www.labic.nce.ufrj.br Antonio G. Thomé thome@nce.ufrj.br Redes Neurais São modelos computacionais

Leia mais

Inteligência de Negócio. Brian Cowhig

Inteligência de Negócio. Brian Cowhig Inteligência de Negócio Brian Cowhig Inteligência de Negócio O Que é Inteligência de Negócio? Três Níveis de Inteligência de Negócio Database Query OLAP Data Mining Produtos de Inteligência de Negócio

Leia mais

5. Conclusões e recomendações

5. Conclusões e recomendações 5. Conclusões e recomendações Para melhor compreensão das conclusões e recomendações que serão apresentadas neste Capítulo, é necessário rever o contexto do problema e seus objetivos conforme descritos

Leia mais

Autoatendimento Digital. Reduz custos e aprimora as relações com o cliente, criando experiências de autoatendimento personalizadas e significativas.

Autoatendimento Digital. Reduz custos e aprimora as relações com o cliente, criando experiências de autoatendimento personalizadas e significativas. Autoatendimento Digital Reduz custos e aprimora as relações com o cliente, criando experiências de autoatendimento personalizadas e significativas. Oferece aos clientes as repostas que buscam, e a você,

Leia mais

Descoberta de Conhecimento em uma Base de Dados de Bilhetes de Tarifação: Estudo de Caso em Telefonia Celular

Descoberta de Conhecimento em uma Base de Dados de Bilhetes de Tarifação: Estudo de Caso em Telefonia Celular Descoberta de Conhecimento em uma Base de Dados de Bilhetes de Tarifação: Estudo de Caso em Telefonia Celular Elionai Sobrinho 1,3, Jasmine Araújo 1,3, Luiz A. Guedes 2, Renato Francês 1 1 Departamento

Leia mais

KDD. Fases limpeza etc. Datamining OBJETIVOS PRIMÁRIOS. Conceitos o que é?

KDD. Fases limpeza etc. Datamining OBJETIVOS PRIMÁRIOS. Conceitos o que é? KDD Conceitos o que é? Fases limpeza etc Datamining OBJETIVOS PRIMÁRIOS TAREFAS PRIMÁRIAS Classificação Regressão Clusterização OBJETIVOS PRIMÁRIOS NA PRÁTICA SÃO DESCRIÇÃO E PREDIÇÃO Descrição Wizrule

Leia mais

Microsoft Innovation Center

Microsoft Innovation Center Microsoft Innovation Center Mineração de Dados (Data Mining) André Montevecchi andre@montevecchi.com.br Introdução Objetivo BI e Mineração de Dados Aplicações Exemplos e Cases Algoritmos para Mineração

Leia mais

Projeto de Redes Neurais e MATLAB

Projeto de Redes Neurais e MATLAB Projeto de Redes Neurais e MATLAB Centro de Informática Universidade Federal de Pernambuco Sistemas Inteligentes IF684 Arley Ristar arrr2@cin.ufpe.br Thiago Miotto tma@cin.ufpe.br Baseado na apresentação

Leia mais

4 Avaliação Econômica

4 Avaliação Econômica 4 Avaliação Econômica Este capítulo tem o objetivo de descrever a segunda etapa da metodologia, correspondente a avaliação econômica das entidades de reservas. A avaliação econômica é realizada a partir

Leia mais

CAPÍTULO 7. SISTEMAS DE APOIO À DECISÃO (SAD) SISTEMAS DE SUPORTE À DECISÃO (SSD)

CAPÍTULO 7. SISTEMAS DE APOIO À DECISÃO (SAD) SISTEMAS DE SUPORTE À DECISÃO (SSD) 1 CAPÍTULO 7. SISTEMAS DE APOIO À DECISÃO (SAD) SISTEMAS DE SUPORTE À DECISÃO (SSD) A necessidade dos SAD surgiu em decorrência de diversos fatores, como, por exemplo: Competição cada vez maior entre as

Leia mais

Tecnologias e Sistemas de Informação

Tecnologias e Sistemas de Informação Universidade Federal do Vale do São Francisco Curso de Administração Tecnologia e Sistemas de Informação - 02 Prof. Jorge Cavalcanti jorge.cavalcanti@univasf.edu.br www.univasf.edu.br/~jorge.cavalcanti

Leia mais

PLANEJAMENTO DE CAPACIDADE EM INFRA-ESTRUTURAS SUPORTADAS POR SERVIÇOS TERCEIRIZADOS DE REDE DE COMUNICAÇÃO DE DADOS

PLANEJAMENTO DE CAPACIDADE EM INFRA-ESTRUTURAS SUPORTADAS POR SERVIÇOS TERCEIRIZADOS DE REDE DE COMUNICAÇÃO DE DADOS PLANEJAMENTO DE CAPACIDADE EM INFRA-ESTRUTURAS SUPORTADAS POR SERVIÇOS TERCEIRIZADOS DE REDE DE COMUNICAÇÃO DE DADOS Roosevelt Belchior Lima Neste artigo será apresentada uma proposta de acompanhamento

Leia mais

Projeto Supervisionado

Projeto Supervisionado Projeto Supervisionado Caio Almasan de Moura ra: 095620 Indice 1. Introdução 2. Principal Projeto: Modelo de Score 2.1. Objetivo... pg 3 2.2. Agentes Envolvidos... pg 3 2.3. Contextualização... pg 3 2.4.

Leia mais

SISTEMAS DE APOIO À DECISÃO SAD

SISTEMAS DE APOIO À DECISÃO SAD SISTEMAS DE APOIO À DECISÃO SAD Conceitos introdutórios Decisão Escolha feita entre duas ou mais alternativas. Tomada de decisão típica em organizações: Solução de problemas Exploração de oportunidades

Leia mais

FUNDAMENTOS DE SISTEMAS DE INFORMAÇÃO

FUNDAMENTOS DE SISTEMAS DE INFORMAÇÃO @ribeirord FUNDAMENTOS DE SISTEMAS DE INFORMAÇÃO Rafael D. Ribeiro, M.Sc,PMP. rafaeldiasribeiro@gmail.com http://www.rafaeldiasribeiro.com.br Lembrando... Aula 4 1 Lembrando... Aula 4 Sistemas de apoio

Leia mais

Previsão do Índice da Bolsa de Valores do Estado de São Paulo utilizandoredes Neurais Artificiais

Previsão do Índice da Bolsa de Valores do Estado de São Paulo utilizandoredes Neurais Artificiais Previsão do Índice da Bolsa de Valores do Estado de São Paulo utilizandoredes Neurais Artificiais Redes Neurais Artificiais Prof. Wilian Soares João Vitor Squillace Teixeira Ciência da Computação Universidade

Leia mais

APLICAÇÃO DE MINERAÇÃO DE DADOS PARA O LEVANTAMENTO DE PERFIS: ESTUDO DE CASO EM UMA INSTITUIÇÃO DE ENSINO SUPERIOR PRIVADA

APLICAÇÃO DE MINERAÇÃO DE DADOS PARA O LEVANTAMENTO DE PERFIS: ESTUDO DE CASO EM UMA INSTITUIÇÃO DE ENSINO SUPERIOR PRIVADA APLICAÇÃO DE MINERAÇÃO DE DADOS PARA O LEVANTAMENTO DE PERFIS: ESTUDO DE CASO EM UMA INSTITUIÇÃO DE ENSINO SUPERIOR PRIVADA Lizianne Priscila Marques SOUTO 1 1 Faculdade de Ciências Sociais e Aplicadas

Leia mais

Técnicas de Mineração de Dados Aplicadas a Reservatórios visando à Gestão Ambiental na Geração de Energia

Técnicas de Mineração de Dados Aplicadas a Reservatórios visando à Gestão Ambiental na Geração de Energia Técnicas de Mineração de Dados Aplicadas a Reservatórios visando à Gestão Ambiental na Geração de Energia Aluno: Gabriel Leite Mariante Orientador: Marley Maria Bernardes Rebuzzi Vellasco Introdução e

Leia mais

Aplicação A. Aplicação B. Aplicação C. Aplicação D. Aplicação E. Aplicação F. Aplicação A REL 1 REL 2. Aplicação B REL 3.

Aplicação A. Aplicação B. Aplicação C. Aplicação D. Aplicação E. Aplicação F. Aplicação A REL 1 REL 2. Aplicação B REL 3. Sumário Data Warehouse Modelagem Multidimensional. Data Mining BI - Business Inteligence. 1 2 Introdução Aplicações do negócio: constituem as aplicações que dão suporte ao dia a dia do negócio da empresa,

Leia mais

Programa do Curso de Pós-Graduação Lato Sensu MBA em Business Intelligence (BI)

Programa do Curso de Pós-Graduação Lato Sensu MBA em Business Intelligence (BI) Programa do Curso de Pós-Graduação Lato Sensu MBA em Business Intelligence (BI) Apresentação O programa de Pós-graduação Lato Sensu em Business Intelligence Inteligência Competitiva tem por fornecer conhecimento

Leia mais

Análise e Projeto de. Aula 01. Profa Cristiane Koehler cristiane.koehler@canoas.ifrs.edu.br

Análise e Projeto de. Aula 01. Profa Cristiane Koehler cristiane.koehler@canoas.ifrs.edu.br Análise e Projeto de Sistemas I Aula 01 Profa Cristiane Koehler cristiane.koehler@canoas.ifrs.edu.br Análise e Projeto de Sistemas I Horário das Aulas: 2as feiras das 10h10 às 11h40 e 5as feiras das 08h25

Leia mais

Os casos de uso dão conta da maioria dos requisitos de um sistema computacional.

Os casos de uso dão conta da maioria dos requisitos de um sistema computacional. Unidade 3: Modelagem de requisitos e de soluções (Parte a) 1 Casos de uso 1.1 Conceitos básicos e parâmetros de descrição Os casos de uso dão conta da maioria dos requisitos de um sistema computacional.

Leia mais

6 Conclusões e recomendações 6.1. Resumo do estudo

6 Conclusões e recomendações 6.1. Resumo do estudo 6 Conclusões e recomendações 6.1. Resumo do estudo As operadoras de telefonia móvel do mercado brasileiro estão diante de um contexto em que é cada vez mais difícil a aquisição de novos clientes. Dado

Leia mais

Objetivo da Aula. Enterprise Resource Planning - ERP. Descrever os sistemas ERP, seus módulos e possíveis aplicações e tendências 23/4/2010

Objetivo da Aula. Enterprise Resource Planning - ERP. Descrever os sistemas ERP, seus módulos e possíveis aplicações e tendências 23/4/2010 Enterprise Resource Planning - ERP Objetivo da Aula Descrever os sistemas ERP, seus módulos e possíveis aplicações e tendências 2 1 Sumário Informação & TI Sistemas Legados ERP Classificação Módulos Medidas

Leia mais

IMPLEMENTAÇÃO DE UM ALGORITMO DE PADRÕES DE SEQUÊNCIA PARA DESCOBERTA DE ASSOCIAÇÕES ENTRE PRODUTOS DE UMA BASE DE DADOS REAL

IMPLEMENTAÇÃO DE UM ALGORITMO DE PADRÕES DE SEQUÊNCIA PARA DESCOBERTA DE ASSOCIAÇÕES ENTRE PRODUTOS DE UMA BASE DE DADOS REAL Universidade Federal de Ouro Preto - UFOP Instituto de Ciências Exatas e Biológicas - ICEB Departamento de Computação - DECOM IMPLEMENTAÇÃO DE UM ALGORITMO DE PADRÕES DE SEQUÊNCIA PARA DESCOBERTA DE ASSOCIAÇÕES

Leia mais

SISTEMAS DE INFORMAÇÃO NA EMPRESA

SISTEMAS DE INFORMAÇÃO NA EMPRESA SISTEMAS DE INFORMAÇÃO NA EMPRESA 1 OBJETIVOS 1. Quais são as principais aplicações de sistemas na empresa? Que papel eles desempenham? 2. Como os sistemas de informação apóiam as principais funções empresariais:

Leia mais

DWARF DATAMINER: UMA FERRAMENTA GENÉRICA PARA MINERAÇÃO DE DADOS

DWARF DATAMINER: UMA FERRAMENTA GENÉRICA PARA MINERAÇÃO DE DADOS DWARF DATAMINER: UMA FERRAMENTA GENÉRICA PARA MINERAÇÃO DE DADOS Tácio Dias Palhão Mendes Bacharelando em Sistemas de Informação Bolsista de Iniciação Científica da FAPEMIG taciomendes@yahoo.com.br Prof.

Leia mais

MODELOS DE PROPENSÃO: OFERTA DE CRÉDITO PESSOAL

MODELOS DE PROPENSÃO: OFERTA DE CRÉDITO PESSOAL MODELOS DE PROPENSÃO: OFERTA DE CRÉDITO PESSOAL São Paulo 04/2011 Camila Ferreira Adorno UNIVERSIDADE NOVE DE JULHO - UNINOVE camila.fadorno@gmail.com (11) 7527-9719 José de França Bueno UNIVERSIDADE NOVE

Leia mais

Sumário. Parte l. 1. Introdução à pesquisa qualitativa e quantitativa em marketing 1 1.1 Pesquisa qualitativa 1 1.2 Pesquisa quantitativa 3

Sumário. Parte l. 1. Introdução à pesquisa qualitativa e quantitativa em marketing 1 1.1 Pesquisa qualitativa 1 1.2 Pesquisa quantitativa 3 Sumário Parte l 1. Introdução à pesquisa qualitativa e quantitativa em marketing 1 1.1 Pesquisa qualitativa 1 1.2 Pesquisa quantitativa 3 2. Entrevistas 5 2.1 Tipos de entrevistas 8 2.2 Preparação e condução

Leia mais

CRM - gestão eficiente do relacionamento com os clientes

CRM - gestão eficiente do relacionamento com os clientes CRM - gestão eficiente do relacionamento com os clientes Mais que implantação, o desafio é mudar a cultura da empresa para documentar todas as interações com o cliente e transformar essas informações em

Leia mais

ARTIGO 132 A ESCORAGEM DE CRÉDITO PESQUISA MAIS PROFUNDAMENTE OS DADOS

ARTIGO 132 A ESCORAGEM DE CRÉDITO PESQUISA MAIS PROFUNDAMENTE OS DADOS ARTIGO 132 A ESCORAGEM DE CRÉDITO PESQUISA MAIS PROFUNDAMENTE OS DADOS RESUMO: Escoragem de crédito pode auxiliar na simplificação de operações e eliminação de custos, na redução de perdas, na ampliação

Leia mais

MLP (Multi Layer Perceptron)

MLP (Multi Layer Perceptron) MLP (Multi Layer Perceptron) André Tavares da Silva andre.silva@udesc.br Roteiro Rede neural com mais de uma camada Codificação de entradas e saídas Decorar x generalizar Perceptron Multi-Camada (MLP -

Leia mais

Uma aplicação de Inteligência Computacional e Estatística Clássica na Previsão do Mercado de Seguros de Automóveis Brasileiro

Uma aplicação de Inteligência Computacional e Estatística Clássica na Previsão do Mercado de Seguros de Automóveis Brasileiro Uma aplicação de Inteligência Computacional e Estatística Clássica na Previsão do Mercado de Seguros de Automóveis Brasileiro Tiago Mendes Dantas t.mendesdantas@gmail.com Departamento de Engenharia Elétrica,

Leia mais

Administração de dados - Conceitos, técnicas, ferramentas e aplicações de Data Mining para gerar conhecimento a partir de bases de dados

Administração de dados - Conceitos, técnicas, ferramentas e aplicações de Data Mining para gerar conhecimento a partir de bases de dados Universidade Federal de Pernambuco Graduação em Ciência da Computação Centro de Informática 2006.2 Administração de dados - Conceitos, técnicas, ferramentas e aplicações de Data Mining para gerar conhecimento

Leia mais

Classificação dos candidatos ao vestibular da FECILCAM via técnicas estatísticas multivariadas

Classificação dos candidatos ao vestibular da FECILCAM via técnicas estatísticas multivariadas Anais do CNMAC v. ISSN 1984-80X Classificação dos candidatos ao vestibular da FECILCAM via técnicas estatísticas multivariadas Tatiane C. da Silva Faculdade Estadual de Ciências e Letras de Campo Mourão

Leia mais

Inteligência de Dados

Inteligência de Dados Inteligência de Dados Apoio Master Transformando Dados em Vantagem Competitiva Leonardo Couto Sócio e Diretor Comercial leo.couto@wiseminer.com +55 21 9 7295 1422 Big Data Bang e os desafios da gestão

Leia mais

SISTEMAS DE APRENDIZADO PARA A IDENTIFICAÇÃO DO NÚMERO DE CAROÇOS DO FRUTO PEQUI LEARNING SYSTEMS FOR IDENTIFICATION OF PEQUI FRUIT SEEDS NUMBER

SISTEMAS DE APRENDIZADO PARA A IDENTIFICAÇÃO DO NÚMERO DE CAROÇOS DO FRUTO PEQUI LEARNING SYSTEMS FOR IDENTIFICATION OF PEQUI FRUIT SEEDS NUMBER SISTEMAS DE APRENDIZADO PARA A IDENTIFICAÇÃO DO NÚMERO DE CAROÇOS DO FRUTO PEQUI Fernando Luiz de Oliveira 1 Thereza Patrícia. P. Padilha 1 Conceição A. Previero 2 Leandro Maciel Almeida 1 RESUMO O processo

Leia mais

CADASTRO POSITIVO. Ricardo Loureiro Diretor de Produtos PF

CADASTRO POSITIVO. Ricardo Loureiro Diretor de Produtos PF CADASTRO POSITIVO Ricardo Loureiro Diretor de Produtos PF AGENDA O QUE É O BUREAU POSITIVO IMPORTÂNCIA E EFEITOS SOBRE O CRÉDITO BENCHMARKING EXPECTATIVAS DE UTILIZAÇÃO NOS NEGÓCIOS EXPERIÊNCIAS DA SERASA

Leia mais

Análise de Regressão. Tópicos Avançados em Avaliação de Desempenho. Cleber Moura Edson Samuel Jr

Análise de Regressão. Tópicos Avançados em Avaliação de Desempenho. Cleber Moura Edson Samuel Jr Análise de Regressão Tópicos Avançados em Avaliação de Desempenho Cleber Moura Edson Samuel Jr Agenda Introdução Passos para Realização da Análise Modelos para Análise de Regressão Regressão Linear Simples

Leia mais

PLANEJAMENTO - ESCOPO - TEMPO - CUSTO

PLANEJAMENTO - ESCOPO - TEMPO - CUSTO PLANEJAMENTO - ESCOPO - TEMPO - CUSTO PAULO SÉRGIO LORENA Julho/2011 1 Planejamento escopo, tempo e custo PROGRAMA DA DISCIPLINA Apresentação professor Programa da disciplina Avaliação Introdução Processos

Leia mais

1 Introdução 1.1. Segurança em Redes de Computadores

1 Introdução 1.1. Segurança em Redes de Computadores 1 Introdução 1.1. Segurança em Redes de Computadores A crescente dependência das empresas e organizações modernas a sistemas computacionais interligados em redes e a Internet tornou a proteção adequada

Leia mais

Engenharia de Software-2003

Engenharia de Software-2003 Engenharia de Software-2003 Mestrado em Ciência da Computação Departamento de Informática - UEM Profa. Dra. Elisa H. M. Huzita eng. de software-2003 Elisa Huzita Produto de Software Conceitos Software

Leia mais

PÓS GRADUAÇÃO EM CIÊNCIAS DE FLORESTAS TROPICAIS-PG-CFT INSTITUTO NACIONAL DE PESQUISAS DA AMAZÔNIA-INPA. 09/abril de 2014

PÓS GRADUAÇÃO EM CIÊNCIAS DE FLORESTAS TROPICAIS-PG-CFT INSTITUTO NACIONAL DE PESQUISAS DA AMAZÔNIA-INPA. 09/abril de 2014 PÓS GRADUAÇÃO EM CIÊNCIAS DE FLORESTAS TROPICAIS-PG-CFT INSTITUTO NACIONAL DE PESQUISAS DA AMAZÔNIA-INPA 09/abril de 2014 Considerações Estatísticas para Planejamento e Publicação 1 Circularidade do Método

Leia mais

3 Market Basket Analysis - MBA

3 Market Basket Analysis - MBA 2 Mineração de Dados 3 Market Basket Analysis - MBA Market basket analysis (MBA) ou, em português, análise da cesta de compras, é uma técnica de data mining que faz uso de regras de associação para identificar

Leia mais

Modelo de dados do Data Warehouse

Modelo de dados do Data Warehouse Modelo de dados do Data Warehouse Ricardo Andreatto O modelo de dados tem um papel fundamental para o desenvolvimento interativo do data warehouse. Quando os esforços de desenvolvimentos são baseados em

Leia mais

Aplicações Práticas com Redes Neurais Artificiais em Java

Aplicações Práticas com Redes Neurais Artificiais em Java com em Java Luiz D Amore e Mauro Schneider JustJava 2009 17 de Setembro de 2009 Palestrantes Luiz Angelo D Amore luiz.damore@metodista.br Mauro Ulisses Schneider mauro.schneider@metodista.br http://blog.mauros.org

Leia mais

Transformação do call center. Crie interações com o cliente mais lucrativas e agregue valor adicionando insights e eficiência em todas as chamadas.

Transformação do call center. Crie interações com o cliente mais lucrativas e agregue valor adicionando insights e eficiência em todas as chamadas. Transformação do call center Crie interações com o cliente mais lucrativas e agregue valor adicionando insights e eficiência em todas as chamadas. Lucre com a atenção exclusiva de seus clientes. Agora,

Leia mais

Figura 5.1.Modelo não linear de um neurônio j da camada k+1. Fonte: HAYKIN, 2001

Figura 5.1.Modelo não linear de um neurônio j da camada k+1. Fonte: HAYKIN, 2001 47 5 Redes Neurais O trabalho em redes neurais artificiais, usualmente denominadas redes neurais ou RNA, tem sido motivado desde o começo pelo reconhecimento de que o cérebro humano processa informações

Leia mais

INFLUÊNCIA DE VARIÁVEIS SOCIODEMOGRÁFICAS SOBRE O EMPREENDEDORISMO DO BRASIL

INFLUÊNCIA DE VARIÁVEIS SOCIODEMOGRÁFICAS SOBRE O EMPREENDEDORISMO DO BRASIL UNIVERSIDADE FEDERAL DO PARANÁ SETOR DE CIÊNCIAS EXATAS DEPARTAMENTO DE ESTATÍSTICA CURSO DE ESTATÍSTICA Adriano Luiz Antunes Denis Antoniazzi INFLUÊNCIA DE VARIÁVEIS SOCIODEMOGRÁFICAS SOBRE O EMPREENDEDORISMO

Leia mais

Palavras-chave: Mortalidade Infantil, Análise Multivariada, Redes Neurais.

Palavras-chave: Mortalidade Infantil, Análise Multivariada, Redes Neurais. UMA ANÁLISE COMPARATIVA DE MODELOS PARA CLASSIFICAÇÃO E PREVISÃO DE SOBREVIVÊNCIA OU ÓBITO DE CRIANÇAS NASCIDAS NO RIO DE JANEIRO EM 2006 NO PRIMEIRO ANO DE VIDA Mariana Pereira Nunes Escola Nacional de

Leia mais

Características do Software

Características do Software Questionamentos Por que tanta demora para entregar? Por que os prazos se atrasam? Por que os custos são altos? Por que não achar todos os erros antes de entregar? Por que dificuldade em medir o progresso

Leia mais

Aula 03 Gestão de Marketing

Aula 03 Gestão de Marketing Aula 03 Gestão de Marketing Análise SWOT, Segmentação de Mercado e Mix de Marketing Prof. Marcopolo Marinho Prof. Esp. Marcopolo Marinho Segmentação é a identificação sistemática de conjuntos e subconjuntos

Leia mais

Como a automação de marketing pode aumentar suas vendas

Como a automação de marketing pode aumentar suas vendas edição 04 Guia do inbound marketing Como a automação de marketing pode aumentar suas vendas Como a automação de marketing pode aumentar suas vendas Há um tempo atrás o departamento de marketing era conhecido

Leia mais

MINERAÇÃO DE DADOS PARA DETECÇÃO DE SPAMs EM REDES DE COMPUTADORES

MINERAÇÃO DE DADOS PARA DETECÇÃO DE SPAMs EM REDES DE COMPUTADORES MINERAÇÃO DE DADOS PARA DETECÇÃO DE SPAMs EM REDES DE COMPUTADORES Kelton Costa; Patricia Ribeiro; Atair Camargo; Victor Rossi; Henrique Martins; Miguel Neves; Ricardo Fontes. kelton.costa@gmail.com; patriciabellin@yahoo.com.br;

Leia mais

Pesquisa FGV-EAESP de Comércio Eletrônico no Mercado Brasileiro 16 a Edição 2014

Pesquisa FGV-EAESP de Comércio Eletrônico no Mercado Brasileiro 16 a Edição 2014 Resumo Introdução O Comércio Eletrônico é um dos aspectos relevantes no ambiente empresarial atual e tem recebido atenção especial das empresas nos últimos anos, primeiro por ser considerado como uma grande

Leia mais

Módulo 2. Definindo Soluções OLAP

Módulo 2. Definindo Soluções OLAP Módulo 2. Definindo Soluções OLAP Objetivos Ao finalizar este módulo o participante: Recordará os conceitos básicos de um sistema OLTP com seus exemplos. Compreenderá as características de um Data Warehouse

Leia mais

A Pitney Bowes está ajudando corporações e agências do governo a prepararem o caminho para a análise de rede avançada.

A Pitney Bowes está ajudando corporações e agências do governo a prepararem o caminho para a análise de rede avançada. Gerenciamento de Informações dos Clientes Gerenciamento e Integração de dados Análise de Rede Social Soluções para possibilitar relacionamentos duradouros com clientes A Pitney Bowes está ajudando corporações

Leia mais

SISTEMAS DE INFORMAÇÃO NA EMPRESA

SISTEMAS DE INFORMAÇÃO NA EMPRESA 2 SISTEMAS DE INFORMAÇÃO NA EMPRESA OBJETIVOS Quais são as principais aplicações de sistemas na empresa? Que papel eles desempenham? Como os sistemas de informação apóiam as principais funções empresariais:

Leia mais

No mundo atual, globalizado e competitivo, as organizações têm buscado cada vez mais, meios de se destacar no mercado. Uma estratégia para o

No mundo atual, globalizado e competitivo, as organizações têm buscado cada vez mais, meios de se destacar no mercado. Uma estratégia para o DATABASE MARKETING No mundo atual, globalizado e competitivo, as organizações têm buscado cada vez mais, meios de se destacar no mercado. Uma estratégia para o empresário obter sucesso em seu negócio é

Leia mais

ADM041 / EPR806 Sistemas de Informação

ADM041 / EPR806 Sistemas de Informação ADM041 / EPR806 Sistemas de Informação UNIFEI Universidade Federal de Itajubá Prof. Dr. Alexandre Ferreira de Pinho 1 Sistemas de Apoio à Decisão (SAD) Tipos de SAD Orientados por modelos: Criação de diferentes

Leia mais

Redes Neurais. Profa. Flavia Cristina Bernardini

Redes Neurais. Profa. Flavia Cristina Bernardini Redes Neurais Profa. Flavia Cristina Bernardini Introdução Cérebro & Computador Modelos Cognitivos Diferentes Cérebro Computador Seqüência de Comandos Reconhecimento de Padrão Lento Rápido Rápido Lento

Leia mais

NÃO DEIXE A FRAUDE ON-LINE ATRAPALHAR SEUS NEGÓCIOS SIMPLIFIQUE

NÃO DEIXE A FRAUDE ON-LINE ATRAPALHAR SEUS NEGÓCIOS SIMPLIFIQUE NÃO DEIXE A FRAUDE ON-LINE ATRAPALHAR SEUS NEGÓCIOS SIMPLIFIQUE A GESTÃO DE PAGAMENTO WWW.CYBERSOURCE.COM BRASIL@CYBERSOURCE.COM COMO SER MAIS EFICIENTE, RÁPIDO E SEGURO PARA QUE OS CLIENTES PREFIRAM COMPRAR

Leia mais

Os novos usos da tecnologia da informação na empresa

Os novos usos da tecnologia da informação na empresa Os novos usos da tecnologia da informação na empresa Internet promoveu: Transformação Novos padrões de funcionamento Novas formas de comercialização. O maior exemplo desta transformação é o E- Business

Leia mais

Aula 15. Tópicos Especiais I Sistemas de Informação. Prof. Dr. Dilermando Piva Jr.

Aula 15. Tópicos Especiais I Sistemas de Informação. Prof. Dr. Dilermando Piva Jr. 15 Aula 15 Tópicos Especiais I Sistemas de Informação Prof. Dr. Dilermando Piva Jr. Site Disciplina: http://fundti.blogspot.com.br/ Conceitos básicos sobre Sistemas de Informação Conceitos sobre Sistemas

Leia mais

Cartões Private Label

Cartões Private Label Cartões Private Label Quando implementar? Como ativar? Por que ir além? Walter Rabello Quando Implementar Como Ativar Por que Ir além O que é Private Label? Para quem trabalha no mercado de cartões: Cartão

Leia mais

Aula 04 Método de Monte Carlo aplicado a análise de incertezas. Aula 04 Prof. Valner Brusamarello

Aula 04 Método de Monte Carlo aplicado a análise de incertezas. Aula 04 Prof. Valner Brusamarello Aula 04 Método de Monte Carlo aplicado a análise de incertezas Aula 04 Prof. Valner Brusamarello Incerteza - GUM O Guia para a Expressão da Incerteza de Medição (GUM) estabelece regras gerais para avaliar

Leia mais

Engenharia de Software

Engenharia de Software CENTRO UNIVERSITÁRIO NOVE DE JULHO Profº. Edson T. França edson.franca@uninove.br Software Sistemas Conjunto de elementos, entre os quais haja alguma relação Disposição das partes ou dos elementos de um

Leia mais

5 Conclusões e Recomendações

5 Conclusões e Recomendações 5 Conclusões e Recomendações 5.1 Conclusões O objetivo deste estudo foi utilizar a base de dados de clientes de uma empresa para desenvolver um modelo de regressão logística que determine o risco de cancelamento

Leia mais

Uma nova perspectiva sobre a experiência digital do cliente

Uma nova perspectiva sobre a experiência digital do cliente Uma nova perspectiva sobre a experiência digital do cliente Redesenhando a forma como empresas operam e envolvem seus clientes e colaboradores no mundo digital. Comece > Você pode construir de fato uma

Leia mais

Nossa atuação no setor financeiro

Nossa atuação no setor financeiro Nossa atuação no setor financeiro No mundo No Brasil O porte da equipe de Global Financial Services Industry (GFSI) da Deloitte A força da equipe do GFSI da Deloitte no Brasil 9.300 profissionais;.850

Leia mais