CRM e Prospecção de Dados



Documentos relacionados
CRM e Prospecção de Dados

CRM e Prospecção de Dados

CRM e Prospecção de Dados

[2.000] (IP:

Análise de Variância com dois ou mais factores - planeamento factorial

Utilização do SOLVER do EXCEL

Análise de Regressão Linear Simples e Múltipla

Regressão Linear em SPSS

Exercícios Teóricos Resolvidos

PÓS GRADUAÇÃO EM CIÊNCIAS DE FLORESTAS TROPICAIS-PG-CFT INSTITUTO NACIONAL DE PESQUISAS DA AMAZÔNIA-INPA. 09/abril de 2014

Cláudio Tadeu Cristino 1. Julho, 2014

[ \ x Recordemos o caso mais simples de um VLVWHPD de duas HTXDo}HVOLQHDUHV nas duas LQFyJQLWDV [ e \.

Análise de regressão linear simples. Departamento de Matemática Escola Superior de Tecnologia de Viseu

O modelo ANOVA a dois factores, hierarquizados

Tarefa Orientada 14 Subconsultas

Métodos Matemáticos para Gestão da Informação

a 1 x a n x n = b,

Ministério das Finanças Instituto de Informática. Departamento de Sistemas de Informação

Testes (Não) Paramétricos

CAPÍTULO 9 Exercícios Resolvidos

Manual do Gestor da Informação do Sistema

Parece claro que há uma, e uma só, conclusão a tirar destas proposições. Esa conclusão é:

Notas sobre a Fórmula de Taylor e o estudo de extremos

5 Circuitos Equivalentes

Aula 6. Testes de Hipóteses Paramétricos (I) Métodos Estadísticos 2008 Universidade de Averio Profª Gladys Castillo Jordán. Teste de Hipóteses

1. Os métodos Não-Paramétricos podem ser aplicados a uma ampla diversidade de situações, porque não exigem populações distribuídas normalmente.

MANUAL DO UTILIZADOR

ficha 3 espaços lineares

CURSO ON-LINE PROFESSOR: VÍTOR MENEZES. Comentários sobre as provas de estatística e financeira ICMS RJ

Pindyck & Rubinfeld, Capítulo 15, Mercado de Capitais::REVISÃO

Expansão linear e geradores

PALAVRAS-CHAVE Indicadores sócio-econômicos. Campos Gerais. Paraná.

Explorações de alunos

INTRODUÇÃO AOS MÉTODOS FACTORIAIS

AULAS 24 E 25 Análise de Regressão Múltipla: Inferência

Introdução. Procura, oferta e intervenção. Cuidados continuados - uma visão económica

Fórmula versus Algoritmo

2 Independência e dependência das taxas de juro

Material Teórico - Módulo de Divisibilidade. MDC e MMC - Parte 1. Sexto Ano. Prof. Angelo Papa Neto

Usando o Excel ESTATÍSTICA. Funções

IMES Catanduva. Probabilidades e Estatística. no Excel. Matemática. Bertolo, L.A.

CAPÍTULO 5 APRESENTAÇÃO E ANÁLISE DOS RESULTADOS

2 A Derivada. 2.1 Velocidade Média e Velocidade Instantânea

CAPÍTULO 2. Grafos e Redes

Faculdade de Engenharia Optimização. Prof. Doutor Engº Jorge Nhambiu

Capítulo 2 Endogamia. Acasalamentos Preferenciais. Introdução

Conciliação Bancária - conceito e como realizar na prática

Análise de Regressão. Tópicos Avançados em Avaliação de Desempenho. Cleber Moura Edson Samuel Jr

A MATEMÁTICA NO ENSINO SUPERIOR POLICIAL 1

Barómetro Regional da Qualidade Avaliação da Satisfação dos Utentes dos Serviços de Saúde

Probabilidades e Estatística

Tabela Progressiva do IR Pessoa Física - ano-calendário de Base de cálculo

CAP. I ERROS EM CÁLCULO NUMÉRICO

Capítulo 1. x > y ou x < y ou x = y

Algoritmos e Estrutura de Dados III. Árvores

Múltiplos Estágios processo com três estágios Inquérito de Satisfação Fase II

C5. Formação e evolução estelar

Modelo Linear Geral V

Escolha de Portfólio. Professor do IE-UNICAMP

Introdução à Análise Química QUI 094 ERRO E TRATAMENTO DE DADOS ANALÍTICOS

MÓDULO 6 INTRODUÇÃO À PROBABILIDADE

COMO CALCULAR A PERFORMANCE DOS FUNDOS DE INVESTIMENTOS - PARTE II

Capítulo 5: Aplicações da Derivada

Novo Formato de Logins Manual de Consulta

PERGUNTAS MAIS FREQÜENTES SOBRE VALOR PRESENTE LÍQUIDO (VPL)

Modelos, em escala reduzida, de pontes e barragens. Simuladores de voo (ou de condução), com os quais se treinam pilotos (ou condutores).

Investigação Operacional- 2009/10 - Programas Lineares 3 PROGRAMAS LINEARES

3. Características amostrais. Medidas de localização e dispersão

1. Objectivo Durante uma experiência, medem-se certas variáveis, ex.: concentrações, pressões, temperaturas,

5 Conclusões e Recomendações

Capítulo 3 - Sistemas de Equações Lineares

Escola Evaristo Nogueira

Tarefa Orientada 12 Junção Externa, Auto-Junção e União

ipea A ESCOLARIDADE DOS PAIS E OS RETORNOS À EDUCAÇÃO NO MERCADO DE TRABALHO 1 INTRODUÇÃO 2 DADOS

Capítulo 3 - Sistemas de Equações Lineares

DELIBERAÇÃO CVM Nº 731, DE 27 DE NOVEMBRO DE 2014

A ideia de coordenatização (2/2)

QUEDA LIVRE. Permitindo, então, a expressão (1), relacionar o tempo de queda (t), com o espaço percorrido (s) e a aceleração gravítica (g).

ANÁLISE DE VARIÂNCIA ANOVA. Prof. Adriano Mendonça Souza, Dr. Departamento de Estatística - PPGEMQ / PPGEP - UFSM

O ESPAÇO NULO DE A: RESOLVENDO AX = 0 3.2

Hipótese Estatística:

Por que o quadrado de terminados em 5 e ta o fa cil? Ex.: 15²=225, 75²=5625,...

CURSO ON-LINE PROFESSOR: VÍTOR MENEZES

DEPRECIAÇÃO E OBSOLÊNCIA

PHC Serviços CS. A gestão de processos de prestação de serviços

3.4 O Princípio da Equipartição de Energia e a Capacidade Calorífica Molar

Exercícios Resolvidos sobre: I - Conceitos Elementares


INE Procedimentos de Análise Bidimensional de variáveis QUANTITATIVAS utilizando o Microsoft Excel. Professor Marcelo Menezes Reis

Notas de aula número 1: Otimização *

4 Segmentação Algoritmo proposto

PERGUNTAS FREQUENTES NOVO REGIME DE TRIBUTAÇÃO DE IMPOSTO DE RENDA:

INVESTIGAÇÃO OPERACIONAL MÉTODOS DE PLANEAMENTO. Capítulo II Método PERT

REC 3600 Finanças 1 primeira prova

Desigualdades criam dificuldades à sustentabilidade da Segurança Social Pág. 1

E A D - S I S T E M A S L I N E A R E S INTRODUÇÃO

Problemas de Valor Inicial para Equações Diferenciais Ordinárias

Gestão de Pessoas - 4w

Transcrição:

CRM e Prospecção de Dados Marília Antunes aula de 18 de Maio 09 6 Modelos de regressão (continuação) 6.1 Interpretação do modelo ajustado Os coeficientes do modelo de regressão múltipla podem ser interpretados da seguinte forma: por cada unidade de incremento no valor da j-ésima variável regressora, x j, e mantendo-se todas as outras variáveis do modelo inalteradas, a variável resposta sofre um incremento igual a α j. Os coeficientes de regressão são, portanto, uma medida do efeito de cada variável regressora, controlada pelas restantes variáveis, isto é, admitindo que as restantes variáveis regressoras se mantêm constantes. O valor do coeficiente de regressão é uma medida da importância da variável no modelo se as variáveis regressoras se encontrarem todas representadas na mesma unidade. Na prática, tal raramente acontece a menos que as variáveis sejam estandardizadas (divididas pelos respectivos desvios padrões). Quando os modelos são construídos de forma sequencial, isto é, quando se vão construindo modelos sucessivamente acrescentando uma variável de cada vez, é natural que ao introduzir-se uma nova variável os coeficientes daquelas que já se encontravam no modelo se alterem. A única excepção para este caso surge quando as variáveis regressoras são ortogonais, o que na prática é muito raro acontecer. A soma dos quadrados dos resíduos (diferença entre os valores observados da variável resposta e os valores ajustados pelo modelo), e(i) 2 = (y(i) ŷ(i)) 2, é a função utilizada para determinar quais os coeficientes de regressão a adoptar. De entre todos os modelos possíveis, o pior é aquele que prevê ȳ para todos os casos, ou seja ŷ(i) = ȳ, o que significa que não é usada qualquer 1

CRM e Prospecção de Dados 2008/09 M. Antunes, DEIO-FCUL 2 informação existente nas variáveis regressoras. Este modelo é chamado o modelo nulo. Neste caso, a soma dos quadrados dos resíduos é dada por (y(i) ȳ) 2, que se designa por soma total dos quadrados (dos devios dos valores observadosda variável resposta em relação à sua média). Quando se considera um modelo diferente do modelo nulo, a soma dos quadrados dos resíduos do modelo é menor do que a soma total dos quadrados dos resíduos. A diferença entre esta quantidade e a soma total dos quadrados dos resíduos (chamada soma de quadrados residual) designa-se por soma de quadrados da regressão. Verifica-se a seguinte igualdade (y(i) ȳ) 2 = (ŷ(i) ȳ) 2 + (y(i) ŷ(i)) 2. (1) A soma dos quadrados da regressão, (ŷ(i) ȳ)2 traduzem a o afastamento entre os valores ajustados pelo modelo e a média da variável regressora, ou seja, a diferença entre o modelo ajustado e o modelo nulo, sendo, por isso, uma medida do ajustamento do modelo aos dados. Para que essa diferença possa ser avaliada em termos relativos, a soma dos quadrados da regressão é dividida pela soma total dos quadrados, obtendo-se o coeficiente de correlação linear múltiplo: R 2 = (ŷ(i) ȳ)2 (2) (y(i) ȳ)2. Este coeficiente indica a proporção da variação existente nos dados que é explicada pelo modelo. O menor valor que R 2 pode tomar é zero, que corresponde ao modelo nulo. Note-se que no modelo nulo ŷ(i) = ȳ, para todo o i = 1,...,n, donde (ŷ(i) ȳ)2 = (ȳ ȳ)2 = 0, levando a que R 2 = 0. No outro extremo encontrar-se-á o modelo tal que ŷ(i) = y(i) para todo o i = 1,...,n, que fará com que R 2 = 1. O número de componentes independentes que contribuem para cada uma das expressões das somas de quadrados corresponde aos chamados graus de liberdade da respectiva soma de quadrados. O número de graus de liberdade da soma total é n 1, que corresponde à dimensão da amostra menos o número de ligações existentes no cálculo das parcelas. Como nesta soma de quadrados, para além das observações apenas está envolvida a média (uma ligação), o resultado possui n 1 graus de liberdade. No que se refere à soma

CRM e Prospecção de Dados 2008/09 M. Antunes, DEIO-FCUL 3 Fonte de Soma de Graus de Quadrados variação quadrados liberdade médios Regressão Residual Total SSReg = (ŷ(i) ȳ)2 p MSReg = SSRes = (y(i) ŷ(i))2 n p 1 MSRes = SST = (y(i) ȳ)2 n 1 (ŷ(i) ȳ)2 p (y(i) ŷ(i))2 n p 1 Tabela 1: Tabela de decomposição da soma de quadrados para análise de variância do modelo de regressão. de quadrados residual, no cálculo nas n parcelas desta soma estão envolvidas p + 1 ligações (as correspondentes às equações que permitem estimar os p + 1 coeficientes de regressão), pelo que o número de graus de liberdade correspondente é n p 1. A diferença entre os n 1 graus de liberdade da soma de quadrados total e os n p 1 graus de liberdade da soma de quadrados residual corresponde aos p graus de liberdade da soma de quadrados da regressão. Estas somas de quadrados, os seus graus de liberdade e os correspondentes quadrados médios encontram-se resumidos na Tabela 1 e servem de base à análise de variância, que será abordada na secção seguinte. 6.2 Inferência e generalização Recordemos que o nosso principal interesse nos modelos de regressão é a possibilidade de utilizá-los para fazer previsão. Isto é, para podermos predizer o valor de y relativamente a objectos para os quais este valor é desconhecido, usando para tal a informação contida noutras variáveis (variáveis regressoras) e o modelo de regressão. Isto significa que obter o melhor ajustamento possível do modelo aos dados do conjunto de treino não é exactamente o nosso objectivo. Note-se que o facto de, num modelo, o coeficiente de uma determinda variável ser diferente de zero, tal não significa que esta e a variável regressora estejam, efectivamente, relacionadas. Pode querer dizer apenas que o modelo captou alguma idiossincrasia do conjunto de treino. Tal como já foi dito anteriormente, é necessário testar o modelo com o objectivo de averiguar se a relação encontrada (o modelo) se deve apenas ao acaso. Neste caso,

CRM e Prospecção de Dados 2008/09 M. Antunes, DEIO-FCUL 4 o que se pretende testar é se os coeficientes do modelo não serão todos, na verdade, iguais a zero. Pode mostrar-se que se os valores de α j forem todos efectivamente nulos (continuando a admitir-se que os ǫ(i) são independentes e identicamente distribuídos seguindo uma distribuição N(0,σ 2 )), então F = (ŷ(i) ȳ)2 p (y(i) ŷ(i))2 n p 1 = MSReg MSRes F(p,n p 1), (3) isto é, F segue uma distribuição de Fisher-Snedecor com p e n p 1 graus de liberdade. Se o pressuposto de que todos os coeficientes de regressão são nulos for verdadeiro, então espera-se que F apresente um valor pequeno, próximo de zero. Valores grandes da estatística levam à rejeição da hipótese postulada, concluindo-se que existe uma relação linear entre y e as variáveis x j em que os coeficientes não serão todos nulos (ou que algo muito estranho terá ocorrido no conjunto de treino, que tenha levado à aparente relação linear entre y e as variáveis regressoras consideradas). 6.3 Selecção e construção do modelo O teste apresentado acima corresponde ao teste simultâneo da nulidade dos coeficientes do modelo. A rejeição desta hipótese não significa, porém, que todos os coeficientes do modelo sejam não nulos nem que o modelo encontrado é o mais conveniente. O caso mais comum é examinarmos diversos modelos com o objectivo de escolher aquele que é, nalgum sentido, o melhor modelo. Em particular, necessitamos frequentemente de avaliar o efeito de adicionarmos uma variável ao modelo ou o efeito de lhe retiramos uma variável. Exploraremos a primeira possibilidade apenas, já que a segunda é semelhante a esta, sendo apenas diferente a ordem pela qual consideramos os modelos. Para se poder comparar dois modelos é necessário utilizar uma função score. Mais uma vez, a soma dos quadrados dos desvios entre os valores observados e os valores ajustados é a escolha óbvia. Suponhamos que pretendemos comparar dois modelos: um com p variáveis preditoras (modelo M) e um modelo maior, com q variáveis (estas q variáveis são todas as p presentes no modelo M e ainda outras não consideradas aí), a que chamaremos modelo M. Estes modelos dizem-se aninhados. Mais concretamente, diz-se que o modelo M se encontra aninhado no modelo M. A cada um destes modelos corresponde uma soma de quadrados dos resíduos e a diferença entre estes valores indica quão melhor o modelo M se ajusta aos dados do que o modelo M. De forma equivalente, pode-se comparar as somas de quadrados da regressão. Uma vez que tanto a soma de quadrados dos resíduos como a

CRM e Prospecção de Dados 2008/09 M. Antunes, DEIO-FCUL 5 Fonte de Soma de Graus de Quadrados variação quadrados liberdade médios Mod. reg. SS(M) p menor Mod. reg. SS(M ) q maior Diferença SS(M ) SS(M) q p Residual SS(T) SS(M ) n q 1 SS(M) p SS(M ) q SS(M ) SS(M) q p SS(T) SS(M ) n q 1 Total SS(T) n 1 Tabela 2: Tabela de decomposição da soma de quadrados para análise de variância para comparar modelos aninhados. soma de quadrados da regressão, quando somadas, dão a soma de quadrados total, é indiferente analisar uma ou outra soma para comparar os modelos. Note-se, no entanto, que isto é apenas válido se na construção dos dois modelos estiverem envolvidos exactamente os mesmos dados. O número de graus de liberdade associado à diferença das somas de quadrados de resíduos é q p, que corresponde ao número de parâmetros (variáveis) que o modelo M possui a mais do que o modelo M. A diferença das somas de quadrados dos resíduos divididos pelos correspondentes q p graus de liberdade constitui mais um quadrado médio - o associado à diferença entre os modelos. A razão deste quadrado médio pelo quadrado médio da regressão do modelo M resulta numa estatística F que permite testar a hipótese nula de que não existe diferença significativa entre os dois modelos. Ou seja, permite testar, de forma simultânea, se todos os parâmetros que o modelo M possui a mais são nulos. A Tabela 2 ilustra esta extensão. A partir da tabela, a expressão da estatística F é F = SS(M ) SS(M) q p SS(T) SS(M ) n q 1 F(q p,n q 1). (4) Valores elevados da estatística F levam à rejeição da hipótese de semelhança dos dois modelos devendo-se, de seguida, investigar individulamente todos os

CRM e Prospecção de Dados 2008/09 M. Antunes, DEIO-FCUL 6 coeficientes que o modelo M possui a mais, para se apurar quais são significativos. Perante uma não rejeição da hipótese de semelhança dos modelos, deve-se optar pelo modelo menor uma vez que é o mais simples. Na prática, em prospecção de dados, a situação mais frequente é aquela em que se dispõe de uma quantidade elevada de variáveis candidatas a variáveis regressoas do modelo. O processo de construção e selecção do melhor modelo torna-se, nesses casos, uma tarefa complicada e morosa deviso ao número elevado de modelos possíveis a comparar. Note-se que o desejável seria considerar todos os modelos contendo todas as combinações possíveis de variáveis para se poder escolher aquele se fosse considerado o melhor segundo algum critério, o que significaria comparar 2 p modelos, considerando que existem à partida p variáveis além da variável resposta. Mesmo para p tão pequeno quanto 10, tal significaria comparar 2 10 = 1024 modelos. Uma estratégia possível, e que envolve menos comparações, é a chamada selecção progressiva (forward selection) e que consiste em começar com um modelo simples e ir acrescentando variáveis ao modelo. Em cada passo, são estimados todos os modelos resultantes da adição de uma variável ao modelo seleccionado no passo anterior, sendo escolhida para entrar no modelo a variável cuja adição trouxer maior incremento à capacidade preditiva do modelo (maior redução na soma de quadrados dos resíduos), desde que esta seja significativa. O procedimento é repetido até que se esgotem as variáveis que tragam melhoria significativa ao modelo. Embora este princípio seja simples, a sua implementação prática também não é simples pois envolve a estimação de numerosos modelos e a realização de muitos testes (não independentes) nas fases intermédias. Outro aspecto, é que a análise de variâncias apresentada atrás para comparar modelos não é aplicável neste caso pois os modelos que se pretendem comparar não se encontram aninhados - são extensões distintas de um mesmo modelo menor, para além da questão de se estarem a realizar múltiplos testes. Uma alternativa é partir de um modelo completo (com todas as variáveis) e ir, sucessivamente, descartando as variáveis menos interessantes (aquelas cuja saída não implica uma perda significativa da capacidade preditiva do modelo). Este processo é designado por método de eliminação progressiva (backward elimination). Na prática a escolha mais sensata recai sobre uma combinação dos dois métodos acima - partindo-se de um modelo completo, a cada passo elimina-se a variável menos interessante, ao mesmo tempo que se averigua, de entre as que já foram eliminadas, se o seu regresso ao modelo é útil. Este processo é conhecido por stepwise selection. No processo de selecção de modelos através do método stepwise, é necessário considerar uma medida que permita comparar os modelos em geral,

CRM e Prospecção de Dados 2008/09 M. Antunes, DEIO-FCUL 7 já que por vezes estarão a ser comparados modelos aninhados e outras vezes modelos não aninhados. A solução passa por considerar uma medida alternativa ao teste F. Akaike Information Criteria (AIC): trata-se de uma medida de qualidade de ajustamento de um modelo estimado. De uma forma genérica, pode dizer-se que engloba a precisão e a complexidade do modelo: AIC = 2 ln(l) + 2k, (5) onde L representa a verosimilhança do modelo e k o número de parâmetros presentes no modelo. Quanto maior for o número de variáveis consideradas no modelo (e consequente mais parâmetros), maior será o valor da verosimilhança, pelo que ln(l) cresce com a complexidade do modelo. Por outro lado, porque um modelo mais complexo acarreta maiores custos (a todos os níveis), pelo que a introdução de variáveis no modelo é penalizada. Perante um conjunto de dados e vários modelos candidatos, estes podem ser ordenados de acordo com o AIC, considerando-se o melhor modelo aquele que apresentar menor valor de AIC. Isto permite dizer que um modelo é preferível a outro mas não é possível estabelecer um valor para o AIC acima do qual um modelo deva ser rejeitado uma vez que não se trata de uma estatística de teste. 6.4 Diagnóstico do modelo Apesar da regressão linear múltipla ser uma técnica poderosa e de ampla utilização, exige o cumprimento de um determinado número de requisitos algo restritivos e que devem ser cumpridos sob o risco de não serem válidos os procedimentos de selecção e de avaliação do modelo, bem como da inferência e previsão que se façam a partir dele. Um dos pressupostos do modelo é o de que a variância da distribuição de y é a mesma para todos os vectores possíveis x. Este pressuposto tem a designação de homocesdaticidade, dizendo-se que existe heterocedasticidade caso contrário. Um exemplo de heterocedasticidade pode ser visto na Figura 1. Os dados exibem um padrão em cunha, denotando um aumento da variabilidade de y à medida que os valores de x crescem. O diagnóstico do modelo envolve essencialmente a análise gráfica dos resíduos. Nomeadamente, a representação de resíduos do modelo vs valores ajustados; resíduos estandardizados (resíduos divididos pelo respectivo erro padrão) vs valores ajustados;

CRM e Prospecção de Dados 2008/09 M. Antunes, DEIO-FCUL 8 temperatura 0 10 20 30 40 50 60 25 30 35 40 45 latitude Figura 1: Temperatura (graus Farenheit) vs latitude ( o N) de 52 cidade dos Estados Unidos. resíduos estandardizados vs quantis da distribuição normal padrão. Esta última representação gráfica recebe a designação de normal QQplot ou ainda de normal probability plot. Se a distribuição dos resíduos for aproximadamente normal, os pontos deverão formar uma linha recta. Um outro aspecto muito importante refere-se ao espaço de utilização do modelo - o modelo não deve ser usado para fazer previsão no caso em que o vector das variáveis regressoras se situe fora dos limites dos valores presentes no conjunto de treino. Leitura recomendada: Capítulo 11 de Principles of Data Mining. Hand, David J.; Mannila, Heikki; Smyth, Padhraic. (Fotocópias disponíveis na reprografia do departamento.)