XVIII CONGRESSO DE PÓS-GRADUAÇÃO DA UFLA 19 a 23 de outubro de 2009



Documentos relacionados
EXCEL NA ANÁLISE DE REGRESSÃO

1. Os métodos Não-Paramétricos podem ser aplicados a uma ampla diversidade de situações, porque não exigem populações distribuídas normalmente.

Ajuste do modelo logístico ao número de alunos ingressos nos cursos superiores do IFSEMG - Câmpus Rio Pomba

Estatística II Antonio Roque Aula 9. Testes de Hipóteses

Faculdade Sagrada Família

ESTUDO DO TEMPO ATÉ APOSENTADORIA DOS SERVIDORES TÉCNICO-ADMINISTRATIVOS DA UFLA VIA MODELO DE COX

AULAS 14, 15 E 16 Análise de Regressão Múltipla: Problemas Adicionais

Eng Civil Washington Peres Núñez Dr. em Engenharia Civil pela Universidade Federal do Rio Grande do Sul

Função bayesiana em R para o problema de Behrens-Fisher multivariado

4 Aplicação: Modelo LOGIT para Avaliar o Risco de Crédito

ANÁLISE DA PROVA DE PORTUGUÊS PARA O CURSO DE AGRONOMIA ATRAVÉS DA TEORIA DA RESPOSTA AO ITEM

Contabilometria. Aula 11 Regressão Linear Múltipla e Variáveis Dummy

MODIFICAÇÃO DO TESTE DE NORMALIDADE DE SHAPIRO-WILK MULTIVARIADO DO SOFTWARE ESTATÍSTICO R

Grupo A - 1 o semestre de 2014 Gabarito Lista de exercícios 11 - Teste Qhi-quadrado C A S A

de Piracicaba-SP: uma abordagem comparativa por meio de modelos probabilísticos

INVESTIMENTO A LONGO PRAZO 1. Princípios de Fluxo de Caixa para Orçamento de Capital

Documentação da Pesquisa de Satisfação Sistemas de TI 2010

UNIVERSIDADE FEDERAL DE JUIZ DE FORA INSTITUTO DE CIÊNCIAS EXATAS DEPARTAMENTO DE ESTATÍSTICA Programa de Graduação em Estatística. Samuel de Oliveira

Contabilometria. Aula 10 Grau de Ajustamento e Verificação das Premissas MQO

MAPEAMENTO DA INOVAÇÃO EM EMPRESAS SERGIPANAS: UMA APLICAÇÃO DE REGRESSÃO LOGÍSTICA

Exemplos de Testes de Hipóteses para Médias Populacionais

ANÁLISE DE VARIÂNCIA ANOVA. Prof. Adriano Mendonça Souza, Dr. Departamento de Estatística - PPGEMQ / PPGEP - UFSM

Análise de regressão linear simples. Departamento de Matemática Escola Superior de Tecnologia de Viseu

LISTA DE INTERVALO DE CONFIANÇA E TESTE DE HIPÓTESES

Aula 4 Estatística Conceitos básicos

Técnicas Multivariadas em Saúde. Comparações de Médias Multivariadas. Métodos Multivariados em Saúde Roteiro. Testes de Significância

Análise de componentes independentes aplicada à avaliação de imagens radiográficas de sementes

Modelos de Equações simultâneas

Aula 4 Conceitos Básicos de Estatística. Aula 4 Conceitos básicos de estatística

O comportamento conjunto de duas variáveis quantitativas pode ser observado por meio de um gráfico, denominado diagrama de dispersão.

DISTRIBUIÇÃO DA RENDA NO BRASIL EM Palavras-chaves: desigualdade, pobreza, equações de rendimento, distribuição de renda.

UTILIZAÇÃO DE SOFTWARES NA RESOLUÇÃO DE UM PROBLEMA DE PROGRAMAÇÃO LINEAR. Cintia da Silva Araújo, Tiago de Souza Marçal, Magda Aparecida Nogueira

Testes (Não) Paramétricos

Análise de Regressão Linear Simples e Múltipla

Resumo. Introdução. na UNIPIAGET, orientado pelo segundo autor. 2 Aluna de Economia e Gestão na Universidade Jean Piaget de Cabo Verde.

6 OS DETERMINANTES DO INVESTIMENTO NO BRASIL

3º Ano do Ensino Médio. Aula nº10 Prof. Daniel Szente

Sumário. 1 Introdução. Demonstrações Contábeis Decifradas. Aprendendo Teoria

Resoluções comentadas de Raciocínio Lógico e Estatística SEFAZ - Analista em Finanças Públicas Prova realizada em 04/12/2011 pelo CEPERJ

5 Apresentação dos resultados estatísticos

Predição do preço médio anual do frango por intermédio de regressão linear

Probabilidade - aula I

AULAS 02 E 03 Modelo de Regressão Simples

ESPAÇOS MUNIDOS DE PRODUTO INTERNO

Introdução aos Modelos Lineares em Ecologia

[2.000] (IP:

DÓLAR FUTURO X DÓLAR PRONTO NO FUTURO: EVIDÊNCIA EMPÍRICA PÓS-PLANO REAL. Autoria: Maurício Barreto Campos e Adonírio Panzieri Filho

36ª Olimpíada Brasileira de Matemática GABARITO Segunda Fase

Previsão de vendas de materiais de construção civil na elaboração de planejamento estratégico

Encontro de Ensino, Pesquisa e Extensão, Presidente Prudente, 17 a 20 de outubro, RESUMOS SIMPLES...36 RESUMO DE PROJETOS...

Regressão Logística. Propriedades

ITA º DIA MATEMÁTICA BERNOULLI COLÉGIO E PRÉ-VESTIBULAR

Modelagem do total de passageiros transportados no aeroporto internacional de Belém: Um estudo preliminar

O ENSINO DE CÁLCULO NUMÉRICO: UMA EXPERIÊNCIA COM ALUNOS DO CURSO DE CIÊNCIA DA COMPUTAÇÃO

Resoluções comentadas de Raciocínio Lógico e Estatística - SEPLAG APO

RELATÓRIO MENSAL DE ACOMPANHAMENTO DE MERCADO Setembro de 2014 ÓLEO DIESEL

CONTROLO DE SISTEMAS

Testes de Hipóteses para Diferença entre duas Médias - Amostras relacionadas

Regressão Logística. Daniel Araújo Melo - dam2@cin.ufpe.br. Graduação

Potenciação no Conjunto dos Números Inteiros - Z

25 a 30 de novembro de 2013

Reconhecimento de Padrões Utilizando Filtros Casados

CLEIBSON APARECIDO DE ALMEIDA MODELAGEM ESTATÍSTICA PARA PREVISÃO DE RESULTADOS EM JOGOS DE FUTEBOL ON-LINE

Capítulo 3 Modelos Estatísticos

Curvas em coordenadas polares

Tecnologia da Informação Prof. Mário Henrique de Souza Pardo Resumo Aula 4

PREVISÃO DE DEMANDA - O QUE PREVISÃO DE DEMANDA - TIPOS E TÉCNICAS DE PREVISÃO DE DEMANDA - MÉTODOS DE PREVISÃO - EXERCÍCIOS

RESOLUÇÃO DA PROVA DE MATEMÁTICA DA UNESP FASE 1. POR PROFA. MARIA ANTÔNIA CONCEICÃO GOUVEIA.

Ajuste de Curvas. Ajuste de Curvas

Resolução de sistemas lineares

CONCURSO PÚBLICO PARA PROVIMENTO DE CARGO EFETIVO PROFESSOR DE ENSINO BÁSICO, TÉCNICO E TECNOLÓGICO Edital 23/2015 Campus Rio Pomba FOLHA DE PROVA

Delineamento em Blocos ao Acaso

Análise bioestatística em fumantes dinamarqueses associado

Um modelo estatístico para gestão de programas de pós-graduação

3 Previsão da demanda

Discussão de Sistemas Teorema de Rouché Capelli

Cálculo Numérico Faculdade de Engenharia, Arquiteturas e Urbanismo FEAU

Predição em Modelos de Tempo de Falha Acelerado com Efeito Aleatório para Avaliação de Riscos de Falha em Poços Petrolíferos

Exemplo Demanda de TV a Cabo

Relatório - 5ª Experiência - Calorimetria, ajuste de reta e propagação de erros

Capítulo 8 - Testes de hipóteses. 8.1 Introdução

IFRS TESTE DE RECUPERABILIDADE CPC 01 / IAS 36

Exercícios Teóricos Resolvidos

Modelos mistos na análise de dados longitudinais de um experimento para armazenamento de banana

6. Pronunciamento Técnico CPC 23 Políticas Contábeis, Mudança de Estimativa e Retificação de Erro

2) A área da parte mostarda dos 100 padrões é ) A área total bordada com a cor mostarda é ( ) cm 2 = 9100 cm 2

UMA ANÁLISE DA CONCORRÊNCIA BANCÁRIA NA ECONOMIA BRASILEIRA

O mercado de bens CAPÍTULO 3. Olivier Blanchard Pearson Education Pearson Education Macroeconomia, 4/e Olivier Blanchard

MODELAGEM MATEMÁTICA: PRINCIPAIS DIFICULDADES DOS PROFESSORES DO ENSINO MÉDIO 1

EA616B Análise Linear de Sistemas Resposta em Frequência

ECF ESCRITURAÇÃO CONTÁBIL FISCAL

5 A Metodologia de Estudo de Eventos

Processos Estocásticos

Análise Espacial da Colheita de Cana-de-açúcar no estado de São Paulo. Wagner F. Silva Daniel A. Aguiar

TEMPO DE ESPERA NA FILA DE ESTABELECIMENTOS COMERCIAIS NA CIDADE DE PONTES E LACERDA, MT

Avaliação 1 - MA Gabarito

Sistemas Lineares. Módulo 3 Unidade 10. Para início de conversa... Matemática e suas Tecnologias Matemática

Método analítico para o traçado da polar de arrasto de aeronaves leves subsônicas aplicações para a competição Sae-Aerodesign

Transcrição:

REGRESSÃO MÚLTIPLA APLICADA AOS DADOS DE VENDAS DE UMA REDE DE LOJAS DE ELETRODOMÉSTICOS VANESSA SIQUEIRA PERES 1 RESUMO: Esse trabalho foi realizado com o objetivo de ajustar os dados de vendas de uma rede de lojas de eletrodomésticos com três variáveis regressoras: número de visitas diárias dos clientes, número populacional e renda mensal da população. Foi utilizado o procedimento de regressão linear múltipla Stepwise para analisar a multicolinearidade entre as variáveis independentes. O modelo obtido ajustado foi bom, pois não apresentou multicolinearidade e tem um AKAIKE que explica muito. Palavras-chaves: Regressão Múltipla, Multicolinearidade, Análise de Resíduos, Stepwise, Critério de AKAIKE. INTRODUÇÃO Uma rede de lojas de eletrodomésticos fez uma pesquisa associando as vendas de eletrodomésticos por mês (v) com: o número de visitas diárias dos clientes à loja (n), a população local (p) e a renda mensal da população local (r). Em termos práticos, o objetivo foi verificar o grau de interação entre essas variáveis, simultaneamente, ou seja, a correlação entre as variáveis independentes. Para isso temos que verificar se existe correlação entre as variáveis independentes. Isso pode ser feito através de dois diagnósticos: informais e formais. O diagnóstico informal é feito através da análise de gráficos ou diagramas de dispersão das variáveis independentes. O diagnóstico formal é baseado na matriz de correlação(c). Existem técnicas para detectar a multicolinearidade das variáveis independentes.dessa forma, devemos ajustar os dados de vendas a um modelo de regressão com as três variáveis regressoras e interpretar as estimativas dos parâmetros do modelo. Isso será feito para verificar estatisticamente se existe uma relação significativa entre as vendas de eletrodomésticos por mês e as variáveis regressoras, ao nível de significância de 5% de probabilidade. Em seguida, vamos determinar se cada uma das variáveis explicativas contribuiu significativamente no modelo de regressão. Ao final, será feito uma análise residual para verificar se o modelo ajustado está adequado. MATERIAL E MÉTODOS A metodologia adotada para a compreensão e interpretação dos dados foi a análise gráfica e a aplicação de algumas técnicas para detectar a multicolinearidade entre as variáveis independentes. Para selecionar o melhor modelo, que explique as variáveis envolvidas no estudo, utilizamos para a análise dos dados o software R. A técnica para verificar a multicolinearidade entre as variáveis independentes é a da matriz de correlação, cujos elementos são os coeficientes de correlação de Pearson (r ij ) (Drapher, Smith, (1998)); Detectando a multicolinearidade vamos retirar as variáveis correlacionadas, usando critérios estatísticos Stepwise (Charnet, et al., 2008). O procedimento Stepwise permite selecionar variáveis a partir de um conjunto inicial de variáveis regressoras. A escolha de variáveis não garante que a regressão encontrada possui o maior R 2, nem que o modelo encontrado é o melhor, do ponto de vista prático. A escolha das variáveis é feita a partir do teste F (Snedecor, (1922)), de cada variável. Para a escolha do melhor modelo será utilizado o Critério de AKAIKE (AIC) (programa R version 2.8.1 (www.r-project.org)). Quanto menor o valor de AIC melhor é o modelo. O procedimento Stepwise faz a seleção de variáveis utilizando os procedimentos Backward (Charnet, et al., 2008) e Forward (CHARNET, et al., 2008). O procedimento Backward ajusta o modelo completo com todas as ¹ Mestranda em Estatística e Experimentação Agropecuária. DEX/UFLA, spvanessa@yahoo.com.br

variáveis independentes (V.I.). Em seguida retira a V.I. com maior p-valor > α. O próximo passo é ajustar o modelo sem a V.I. retirada. O procedimento se repete até todas as V.I. do modelo apresentarem valor-p < α, onde α é denominado de nível de significância de exclusão de variáveis. A literatura sugere 0,10 α 0,20. O procedimento Forward é o reverso de Backward. Os passos para fazer Forward são: (1) Ajustar modelo incluindo apenas β 0 (intercepto); (2) Incluir no modelo a V.I. que apresenta a maior correlação com a variável dependente (V.D.); (3) Se a V.I. incluída não for estatisticamente significante o modelo ficará apenas com β 0. Caso contrário repetir passo (2) com variáveis restantes; (4) Repetir passos (2) e (3) até não ter variáveis a serem incluídas. Assim, os passos do procedimento Stepwase são: (1) Utilize o procedimento Backward para eliminar o maior número possível de V.I.; (2) Utilize o procedimento Forward uma única vez. Para testar a normalidade dos resíduos vamos utilizar o teste de Shapiro-Wilk (Drapher, Smith, (1998)). Para testar a independência dos resíduos será utilizado o teste de Durbin-Watson (DRAPHER, SMITH, (1998)). Dados coletados Os dados coletados são de uma rede de loja de eletrodomésticos, e estão disponíveis no site <http:// www.profscorciapino.com/files/corr_regr_mult_adm.doc >. As variáveis analisadas foram: vendas de eletrodomésticos por mês, número de visitas diárias dos clientes à loja, população local e renda mensal da população local. Análise estatística As vendas de eletrodomésticos por mês foi a variável dependente analisada e as demais variáveis estudadas foram as regressoras ou independentes. Todas as análises estatísticas desses dados foram feitas no software R. Inicialmente foi ajustado um modelo de regressão linear múltipla envolvendo todas as variáveis: v= β + β n+ β p+ β r 0 1 2 3 O ajuste de um modelo eliminando as variáveis colineares para obter um modelo parcimonioso foi realizado. O procedimento de seleção de variáveis foi o Stepwise. E para a escolha do melhor modelo foi utilizado o Critério de AKAIKE (AIC). Em seguida foi feito uma comparação entre o modelo de regressão envolvendo todas as variáveis com o modelo ajustado pelo procedimento Stepwise, através da análise de resíduos. Nessa análise foi verificada pelo teste de Shapiro-Wilk que a normalidade dos resíduos não estava satisfeita. Portanto foi preciso fazer uma transformação nos dados para satisfazer a condição de normalidade dos resíduos no modelo. RESULTADOS E DISCUSSÃO A equação de regressão múltipla que representa o modelo ajustado é descrita como: v = 184,373402 + 14,455440 n 0.001618 p + 0.017603 r O coeficiente de determinação (R 2 ) ajustado indica que 44,3% das variações ocorridas nas vendas de eletrodomésticos devido à visita diária, ao nº da população e a renda mensal dessa população são explicadas pelo modelo de regressão. A análise gráfica completa dos resíduos (Análise de Resíduos; Análise da Variância; Análise de Normalidade; Análise de Pontos Influentes) está apresentada nos gráficos 1,2,3,4, respectivamente.

Gráfico 1 Análise de Resíduos Gráfico 2 Análise da Variância Gráfico 3 Análise de Normalidade Gráfico 4 Análise de Pontos Influentes Analisando os gráficos pode-se verificar que os resíduos são aproximadamente normais, pois estão próximos do zero, que a variância dos resíduos não é constante, que o erro não é aparentemente normal (pois os pontos não se ajustam em uma reta com 45º de inclinação e que temos um ponto influente). Ao testar a normalidade dos resíduos a partir da análise do teste de Shapiro-Wilk foi observado que o p-value é 0,0057 < 0,05. Portanto rejeita-se a hipótese de normalidade dos resíduos. Ao fazer o teste de hipótese para testar a independência dos resíduos, utilizando o teste de Durbin- Watson, tem-se que a estatística do teste é D=2,66. Então aceita-se a hipótese de independência dos resíduos. Analisando a matriz de correlação observa-se que existe multicolinearidade entre as variáveis independentes. Então o procedimento de Stepwise será aplicado para eliminação das variáveis regressoras que estão correlacionadas. Após a aplicação desse procedimento, verifica-se que o modelo ajustado é descrito por: v = 131,87+ 16,27 n 2 Neste modelo o valor do R ajustado foi de 61,2%. Fazendo a regressão com a variável independente (n), temos que o seu valor-p < 0,15. Então o processo está encerrado. Este modelo não tem multicolinearidade e tem um AKAIKE que explica muito. A análise de resíduos para este segundo modelo está apresentada nos gráficos 5,6,7,8, respectivamente.

Gráfico 5 Análise de Resíduos Gráfico 6 Análise da Variância Gráfico 7 Análise de Normalidade Gráfico 8 Análise de Pontos Influentes Analisando os gráficos 5-8 foi possível observar que os resíduos são aproximadamente normais, pois estão próximos do zero. E, a variância dos resíduos continua sendo não constante, mas comparando com o modelo anterior houve uma melhora na heterocedasticidade. E, o erro ainda não é aparentemente normal e que não temos um ponto influente. Ao testar a normalidade dos resíduos a partir da análise do teste de Shapiro-Wilk foi observado que o p-value é 0,023 < 0,05. Portanto rejeitase a hipótese de normalidade dos resíduos. Ao fazer o teste de hipótese para testar a independência dos resíduos, utilizando o teste de Durbin-Watson, tem-se que a estatística do teste é D=2,65. Então aceitase a hipótese de independência dos resíduos. Para corrigir o problema da falta de normalidade dos resíduos fizemos uma transformação nos dados v 1/2. Em seguida, foi realizado um novo procedimento Stepwise, e o novo modelo obtido foi: v = 16,48 + 0,28 n Ao testar a normalidade dos resíduos a partir da análise do teste de Shapiro-Wilk foi observado que o p-value é 0,072< 0,05. Portanto aceita-se a hipótese de normalidade dos resíduos, tornando o modelo válido. A análise residual do modelo dos dados transformados está representada nos gráficos 9-12 descritos abaixo.

Gráfico 9 Análise de Resíduos Gráfico 10 Análise da Variância Gráfico 11 Análise de Normalidade Gráfico 12 Análise de Pontos Influentes CONCLUSÃO O trabalho foi feito com o objetivo de ajustar os dados a um modelo de regressão com três variáveis regressoras. Esse ajuste foi feito eliminando as variáveis independentes correlacionadas. O procedimento para a eliminação das variáveis correlacionadas foi o Stepwise. Após o ajuste do modelo de regressão foi possível verificar, estatisticamente, que existe uma relação significativa entre as vendas de eletrodomésticos por mês (v) com o número de visitas diárias dos clientes (n), ao nível de significância de 5% de probabilidade. A variável número de visitas diárias dos clientes (n) foi a que contribuiu significativamente no modelo de regressão. Portanto, o modelo ajustado foi descrito como: v = 16,48 + 0,28 n No modelo inicial foram eliminadas as variáveis independentes população local (p) e renda mensal da população local (r). Assim, o modelo foi ajustado apenas com a variável independente número de visitas diárias dos clientes (n). Isso é ótimo, pois o modelo que apresenta o menor número de variáveis independentes é mais fácil de ser interpretado e de ser utilizado no dia-a-dia, reduzindo assim a possibilidade de ocorrência de multicolinearidade. Outra vantagem é a redução do número de parâmetros, que aumenta o número de graus de liberdade, aumentando assim a precisão das estimativas.

Dessa forma concluímos que esse modelo não tem multicolinearidade e tem um AKAIKE que explica muito. Portanto, o ajuste do modelo é bom. REFERÊNCIAL BIBLIOGRÁFICO AS DISTRIBUIÇÕES DE PROBABILIDADE T, F e QUI-QUADRADO: Teoria e Prática com o uso da planilha. Disponível em: < www.sbem.com.br/files/ix_enem/.../cc78542162072t.doc>. Acesso em: 4 jul. 2009. CHARNET, R. et.al. Análise de Modelos de Regressão Linear com Aplicações, (2008). DADOS DE VENDAS COLETADOS DE UMA REDE DE LOJAS DE ELETRODOMÉSTICOS. Disponível em: <http:// www.profscorciapino.com/files/corr_regr_mult_adm.doc >. Acesso em: 4 jul. 2009. DRAPER, N. R.; SMITH, H. Applied regression analysis. New York: John Wiley, 1998. HAIR et al.(orgs.),(2005). Análise multivariada de dados. Editora: Bookman Notas: Regressão Stepwise no MINITAB. Página Disponível em: <http://www.mbarros.com/sitebuildercontent/sitebuilderfiles/stepwise.pdf>. Acesso em: 4 jul. 2009. R DEVELOPMENT CORE TEAM. R: a language and environment for statistical computing. Vienna: R Foundation for Statistical Computing. www.r-project.org, 2008.