LISTA DE EXERCÍCIOS - TÉCNICAS DE REGRESSÃO SIMPLES E MÚLTIPLA 1 1) Em um estudo foi utilizada, erroneamente, uma amostra de apenas 3 observações para se estimarem os coeficientes de uma equação de regressão. Obteve-se R 2 = 0,96. A título de brincadeira, foi dito ao analista responsável que, se ele quisesse melhorar os resultados, bastaria eliminar uma observação e ficar com apenas n = 2. Faça uma crítica sobre o uso de amostras muito pequenas em modelos de regressão. Discuta também o impacto que amostras pequenas podem exercer sobre a significância estatística do intercepto (parâmetro α). 2) Buscando detectar um padrão de comportamento dos retornos das ações negociadas na bolsa de valores BM&FBovespa, um analista coletou dados referentes aos retornos anuais de 112 empresas (arquivo retorno.dta). Com base nesses dados, pede-se: a) Estime uma regressão em que retorno seja a variável dependente e as demais variáveis apresentadas sejam as variáveis explicativas. b) Qual é o coeficiente de determinação R²? Interprete-o. c) Qual é o valor-p geral do teste F? A um nível de 95% de confiança, você rejeitaria a hipótese nula referente ao teste? Qual interpretação pode ser realizada diante do resultado do teste? d) Focando no nível geral de cada variável específica, a um nível de 95% de confiança, você rejeita a hipótese nula de que o intercepto e as variáveis explicativas são estatisticamente iguais a zero? e) Re-estime a regressão mantendo apenas as variáveis consideradas estatisticamente significativas. Interprete e compare os resultados com a equação anterior. 3) Com base no arquivo acoes.dta, que traz dados sobre os retornos dos papéis das empresas ACESITA e CESP listados na Bolsa de Valores de São Paulo, bem como o retorno do próprio índice Ibovespa ao longo de um período composto por 71 dias úteis, pede-se: a) Estime como a variação do retorno do Ibovespa influencia o retorno da empresa ACESITA. b) Interpreto o nível de significância da reta de regressão e dos parâmetros individuais, bem como o coeficiente de determinação. c) Estime um novo modelo, desta vez com o retorno da empresa CESP como variável dependente. Interprete os resultados.
2 d) Se o retorno do Ibovespa for de 0,5%, quais serão os retornos previstos para as ações das empresas ACESITA e CESP. Além disso, quais são os intervalos de previsão para os retornos destas ações com 95% de confiança? 4) A companhia Multifator está analisando o comportamento dos Custos Indiretos de Fabricação (CIF) em função das variáveis: horas de mão-de-obra direta (HMOD) e horas - máquina (HM) nos últimos 15 meses. Período CIF HMOD HM 1,00 350,00 4,00 10,00 2,00 400,00 8,00 14,00 3,00 470,00 12,00 16,00 4,00 550,00 10,00 26,00 5,00 620,00 15,00 31,00 6,00 380,00 7,00 12,00 7,00 290,00 6,00 13,00 8,00 490,00 10,00 21,00 9,00 580,00 11,00 26,00 10,00 610,00 13,00 24,00 11,00 560,00 12,00 23,00 12,00 420,00 8,00 12,00 13,00 450,00 11,00 19,00 14,00 510,00 12,00 19,00 15,00 380,00 5,00 11,00 Pede-se: a) Analise a variável CIF em função de cada uma das variáveis (HMOD e HM) isoladamente e em função das duas simultaneamente. b) Para facilitar as análises, obtenha também a matriz de correlação de todas as variáveis envolvidas. c) Após a análise do modelo de regressão com as duas variáveis simultaneamente, refaça o estudo, considerando o modelo de regressão stepwise. Compare os resultados das duas modelagens de regressão múltipla. d) Analise também eventuais problemas de autocorrelação dos resíduos, heterocedasticidade e multicolinearidade das variáveis explicativas.
5) A base de dados a seguir apresenta os dados correspondentes às vendas de produtos de determinada categoria, ao preço, às horas de treinamento dos vendedores e se é ou não marca própria (se sim, Marca Própria = 1). Vendas Preço Horas Marca Própria 100,00 10,00 2,00 1 120,00 11,00 3,00 1 105,00 13,00 2,00 1 110,00 12,00 3,00 1 95,00 15,00 2,00 1 104,00 18,00 4,00 1 100,00 20,00 5,00 1 108,00 19,00 6,00 1 115,00 20,00 5,00 1 125,00 12,00 7,00 0 98,00 21,00 5,00 1 130,00 15,00 8,00 0 135,00 18,00 10,00 0 140,00 17,00 12,00 0 120,00 20,00 10,00 1 121,00 19,00 6,00 0 132,00 14,00 9,00 0 125,00 19,00 7,00 0 140,00 15,00 13,00 0 130,00 17,00 11,00 0 135,00 14,00 14,00 0 128,00 16,00 10,00 0 137,00 13,00 13,00 0 139,00 12,00 15,00 0 125,00 18,00 5,00 0 134,00 16,00 7,00 0 127,00 19,00 4,00 0 135,00 15,00 11,00 0 140,00 13,00 15,00 0 133,00 14,00 10,00 0 126,00 17,00 7,00 0 145,00 10,00 16,00 0 150,00 9,00 18,00 0 134,00 12,00 10,00 0 126,00 15,00 6,00 0 145,00 9,00 12,00 0 134,00 11,00 9,00 0 136,00 10,00 10,00 0 128,00 13,00 7,00 0 132,00 8,00 11,00 0 3 Pede-se: a) Obtenha a matriz de correlação de todas as variáveis deste estudo.
4 b) Obtenha a reta de regressão múltipla de vendas sobre preço, horas de treinamento e marca própria (modelo linear). c) Analise os outputs do modelo (teste F, testes t, R² e equação de predição). d) Estime as vendas ao preço de $ 25 e 6 horas de treinamento (sendo ou não marca própria). Observação: na previsão das vendas, utilize a reta de regressão que apresentar todos os coeficientes significantes, ou seja, cujos testes de hipótese indicarem rejeição de H 0. e) Repita o item d para o cenário de banda inferior, com nível de confiança do intervalo de 95%. f) Repita o item d para o cenário de banda superior, com nível de confiança do intervalo de 95%. g) Analise também eventuais problemas de heterocedasticidade e multicolinearidade das variáveis explicativas. h) Elabore o histograma da variável Vendas, bem como o teste Shapiro Francia e discuta o pressuposto de normalidade da variável dependente. i) Elabore uma transformação de Box-Cox na variável Vendas e analise novamente o seu histograma. Elabore novamente o teste Shapiro Francia e discuta a razão para que este procedimento tenha sido elaborado. j) Qual a melhor forma funcional do modelo de regressão múltipla? Escreva a equação.
6) O arquivo Imóveis.sav (ou Imóveis.dta) apresenta os preços de lançamento de 134 imóveis pertencentes a distritos / municípios localizados na Região Metropolitana de São Paulo. São apresentadas também algumas características intrínsecas aos imóveis, como área total, número de dormitórios, banheiros e vagas na garagem, cujas descrições são explicitadas a seguir: 5 AREA DORM1 e DORM2 BANH1 e BANH2 VAGA1 e VAGA2 Área Total do Imóvel Dormitórios no Apartamento: Se DORM1 = 0 e DORM2 = 0: 01 dormitório Se DORM1 = 1 e DORM2 = 0: 02 dormitórios Se DORM1 = 0 e DORM2 = 1: 03 dormitórios Banheiros no Apartamento: Se BANH1 = 0 e BANH2 = 0: 01 banheiro Se BANH1 = 1 e BANH2 = 0: 02 banheiros Se BANH1 = 0 e BANH2 = 1: 03 banheiros Vagas na Garagem: Se VAGA1 = 0 e VAGA2 = 0: 01 vaga Se VAGA1 = 1 e VAGA2 = 0: 02 vagas Se VAGA1 = 0 e VAGA2 = 1: 03 vagas Além disso, são apresentadas 11 variáveis sócio-demográficas referentes a cada localidade em que se encontra o lançamento imobiliário. São elas: VARIÁVEL SÓCIO- DEMOGRÁFICA DESCRIÇÂO FONTE Prefeitura do Município de São Paulo - PMSP, em www.prodam.sp.gov.br/svma/atlas_amb Renda Média Familiar Renda média familiar em valores em R$
6 % da População com até ½ Salário Mínimo por Mês Porcentagem de chefes (homens ou mulheres) responsáveis pelo domicílio, agrupados por classe de rendimento expresso em até ½ salário mínimo por mês. % da População com até 10 Salários Mínimos por Mês Porcentagem de chefes (homens ou mulheres) responsáveis pelo domicílio, agrupados por classe de rendimento expresso em mais de 10 salários mínimos por mês. Escolaridade Taxa de Mortalidade Infantil Taxa de Crescimento Populacional Índice de Mortalidade por Causas Externas Média de anos de estudo da população de 4 anos ou mais. Relação entre os óbitos de menores de um ano, residentes numa unidade geográfica, num determinado período de tempo (geralmente um ano) e os nascidos vivos na mesma unidade, no período, segundo a expressão: TMI = óbitos de menores de 1 ano ocorridos no período dividido pelo número de nascidos vivos no mesmo período, multiplicado por 1000. Expressa, em termos percentuais, o crescimento médio da população em um determinado período de tempo, geralmente ao ano. Quociente entre os óbitos por homicídio ocorridos em uma determinada unidade geográfica e período de tempo e a população da mesma unidade estimada ao meio do período, segundo a fórmula: Taxa de mortalidade por homicídios = (Óbitos por homicídio / População ao meio do período X 100.000).
7 Densidade Demográfica População Número de Domicílios Particulares Taxa de Urbanização Número de habitantes residentes de uma unidade geográfica em determinado momento, em relação à área desta mesma unidade. A densidade demográfica é um índice utilizado para verificar a intensidade de ocupação de um território, dado em habitantes / km 2. Os dados de população são apresentados de acordo com a divisão geográfica e administrativa vigente. Total de domicílios particulares permanentes. O domicílio é considerado particular quando o relacionamento entre seus ocupantes é ditado por laços de parentesco, de dependência doméstica ou por normas de convivência. Percentual da população urbana em relação à população total. É calculado, geralmente, a partir de dados censitários. Pede-se: a) Efetuar uma regressão em que os preços sejam dependentes das características intrínsecas. b) Analise eventuais problemas de heterocedasticidade e multicolinearidade das variáveis explicativas. c) Determinar, por meio da transformação Box-Cox na variável Y (PREÇO), qual a melhor especificação para a regressão múltipla.