Regressão Linear Múltipla

Documentos relacionados
Análise de Regressão Linear Simples III

Regressão linear múltipla. Prof. Tatiele Lacerda

Capítulo 4 Inferência Estatística

Análise de Regressão. Notas de Aula

Capítulo 5. Inferência no Modelo de Regressão Simples: Estimação de Intervalos, Teste de Hipóteses e Previsão

BIOESTATÍSTICA. Parte 1 - Estatística descritiva e análise exploratória dos dados

Consideremos os seguintes exemplos de hipóteses cuja veracidade interessa avaliar:

Análise estatística. Aula de Bioestatística. 17/9/2008 (2.ª Parte) Paulo Nogueira

Para mais de duas variáveis independentes, em função de uma variável dependente.

INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA. Prof. Anderson Rodrigo da Silva

Correlação e Regressão linear simples

Plano da Apresentação. Correlação e Regressão linear simples. Correlação linear. Associação entre hábitos leitura e escolaridade.

IV Regressão e correlação IV.4. (cont.) Significância Estatística e Regressão Múltipla

Método dos mínimos quadrados Wikipédia, a enciclopédia livre

Estimação. Como definir um estimador. Como obter estimativas pontuais. Como construir intervalos de confiança

MAE116 - Noções de Estatística

Aula 8. Teste Binomial a uma proporção p

AULA 12 Inferência a Partir de Duas Amostras

Testes Qui-Quadrado - Teste de Aderência

Probabilidade e Estatística, 2009/2

REGRESSÃO. Análise de Correlação

Testes de variância e Análise de Variância (ANOVA)

Aula 12 Teste de hipótese sobre proporções amostras grandes

CAPÍTULO 8. de Variância - ANOVA ANOVA. Análise

Estatística II Aula 4. Prof.: Patricia Maria Bortolon, D. Sc.

Medidas de Localização

ANOVA. (Analysis of Variance) Prof. Dr. Guanis de Barros Vilela Junior

Como rodar a regressão no gretl. Usando o Console para calcular elasticidade. Elasticidade. Usando o Console para calcular predição

Inferência sobre duas proporções

Teste de Hipótese e Intervalo de Confiança. Parte 2

Modelos de Probabilidade e Inferência Estatística

Planejamento e Análise Estatística de Experimentos Fatoriais em blocos completos

Introdução. Ou seja, de certo modo esperamos que haja uma certa

Técnicas estatísticas para análise de dados e de resultados de modelos de simulação

Intervalos Estatísticos para Uma Única Amostra

IND 1115 Inferência Estatística Aula 8

Curso de Análise Estatística Comparação entre variáveis contínuas: correlação e regressão Linear

Análise de Regressão Múltipla com informação qualitativa: variáveis binárias (dummy)

AMOSTRAGEM: DIMENSIONAMENTO DE AMOSTRAS. SELEÇÃO DOS ELEMENTOS DE UMA AMOSTRA. ESTIMATIVA DA CARACTERÍSTICA TOTAL DA POPULAÇÃO INVESTIGADA

Aula 8 Intervalos de confiança para proporções amostras grandes

AULAS 19, 20, 21 E 22 Análise de Regressão Múltipla com Informações Qualitativas

AULA 04 Estimativas e Tamanhos Amostrais

25 a 30 de novembro de 2013

Probabilidade e Estatística, 2011/2

Distribuições Conjuntas (Tabelas de Contingência)

A Significância Estatística do Proger na Redução da Taxa de Desemprego por Haroldo Feitosa Tajra

cuja distribuição é t de Student com n 1 graus de liberdade.

Teste de hipóteses para médias e proporções amostrais

Química Analítica IV ERRO E TRATAMENTO DE DADOS ANALÍTICOS

Medidas de dispersão e assimetria

Inspeção de Qualidade

Conteúdo. 1 Introdução. Histograma do Quinto Sorteio da Nota Fiscal Paraná 065/16. Quinto Sorteio Eletrônico da Nota Fiscal Paraná

Conteúdo. 1 Introdução. Histograma do 1o Sorteio da Nota Fiscal Paraná 152/15. 1º Sorteio Eletrônico da Nota Fiscal Paraná

Métodos Quantitativos Aplicados

Variáveis Frequências Gráficos Medidas de Posição Medidas de Dispersão Medidas Complementares Inferência

Coeficiente de Assimetria e Curtose. Rinaldo Artes. Padronização., tem as seguintes propriedades: Momentos

é 4. Portanto, o desvio padrão é 2. Neste caso 100% dos valores da população estão a um desvio padrão da média.

AULA 11 Experimentos Multinomiais e Tabelas de Contingência

Aula 11 Teste de hipótese sobre a média de uma população normal - σ 2 conhecida

Aula Prática: Regressão Linear Simples

Unidade 5.2. Teste de hipóteses. Hipótese estatística. (uma população) Formulando as hipóteses. Teste de Hipóteses X Intervalo de Confiança

Desvio Padrão ou Erro Padrão

Erros e Incertezas. Rafael Alves Batista Instituto de Física Gleb Wataghin Universidade Estadual de Campinas (Dated: 10 de Julho de 2011.

Exercícios de Aprofundamento Mat Polinômios e Matrizes

SEEC UNIVERSIDADE DO ESTADO DO RIO GRANDE DO NORTE UERN FACULDADE DE CIÊNCIAS EXATAS E NATURAIS FANAT DEPARTAMENTO DE CIÊNCIAS BIOLÓGICAS DECB

x = xi n x = xifi fi 1. MÉDIA Exercício: Quando a distribuição é simétrica, a média e a mediana coincidem.

Stela Adami Vayego DEST/UFPR

Contabilometria. Análise Discriminante

Regressão, Interpolação e Extrapolação Numéricas

Aula 6 Propagação de erros

Árvore de Decisão. 3. Árvore de Decisão

AULA 32 Problemas Adicionais de Especificação e de Dados

Estimação da Esperança de Vida ao Nascer dos Estados Brasileiros no Ano 2008 via Modelos Aditivos Generalizados para Posição, Escala e Forma

MODELAGEM ESTATÍSTICA PARA ENSAIOS DE RESISTÊNCIA NA INDÚSTRIA DE CELULOSE E PAPEL

Testes Não Paramétricos

Métodos Quantitativos Aplicados a Custos Análise Estatística como um auxiliar valioso nas decisões

Linha Técnica Sessão IV Variáveis Instrumentais

1 Introdução. 1.1 Importância da Utilização da Amostragem

3 Modelos de Simulação

Teorema do Limite Central e Intervalo de Confiança

Equação e Inequação do 2 Grau Teoria

Capacidade preditiva como critério para determinação do número de componentes principais em Seleção Genômica Ampla

ESCOLA SUPERIOR DE TECNOLOGIA DE VISEU

EXAME DE MACS 2º FASE 2014/2015 = 193

Experimento. Guia do professor. Quantos peixes há no lago? Secretaria de Educação a Distância. Ministério da Ciência e Tecnologia

(1, 6) é também uma solução da equação, pois = 15, isto é, 15 = 15. ( 23,

ME613 - Análise de Regressão

Métodos Quantitativos Aplicados

ÁLGEBRA LINEAR. Transformações Lineares. Prof. Susie C. Keller

PLANO DE ENSINO CONTEÚDO PROGRAMÁTICO. Unidade 1: MEDIDAS E GRANDEZAS Introdução Padrões usados para avaliar grandezas físicas

CAPÍTULO O Método Simplex Pesquisa Operacional

Exemplo de heterocedasticidade. Heterocedasticidade. Gráficos residuais. Gráficos residuais. Gráficos residuais. Gráficos residuais

AULAS 06, 07, 08 E 09 Análise de Regressão Múltipla: Estimação e Inferência

ESCOLA SUPERIOR DE TECNOLOGIA DE SETÚBAL DEPARTAMENTO DE MATEMÁTICA PROBABILIDADES E ESTATÍSTICA Teste Final 2009/2010. Curso: 12/06/2010.

CONHECIMENTOS ESPECÍFICOS

Lição 5 Medidas Descritivas Medidas de Dispersão

Meta-análise: aplicações em fisioterapia

Transcrição:

UNIVERSIDADE FEDERAL DO PARÁ INSTITUTO DE CIÊNCIAS EATAS E NATURAIS FACULDADE DE ESTATÍSTICA DISCIPLINA: Estatística Aplicada PROFESSORES: Heliton Tavares e Regina Madruga ALUNO: Wemenson avier Trabalho Módulo I Regressão Linear Múltipla Belém 04

Análise de Regressão Múltipla A análise de regressão é uma técnica estatística para investigar e modelar a relação entre variáveis, sendo uma das mais utilizadas na análise de dados (Freedmanet al 004, Lyles & Kupper 997, Chen & Wang 004) Hoffmann (006) afirma que temos uma regressão linear múltipla quando admitimos que o valor da variável dependente é função linear de duas ou mais variáveis exploratórias Geralmente, tem-se o interesse em avaliar a relação de uma variável de interesse Y (variável dependente ou variável resposta) em relação a k variáveis (variável independente ou covariável), j =,,, k Portanto, um possível modelo para avaliar essa relação pode ser dado por Em que o valor observado para variável dependente Y no i-ésimo nível da variável independente = ( ) é um vetor de observações das variáveis independentes para o i-ésimo indivíduo, ( ) é um vetor de coeficientes de regressão (parâmetros) e "i é um componente de erro aleatório Assumese que esses erros são independentes e seguem distribuição normal com média zero e variância desconhecida O modelo () é chamado de regressão linear múltipla, pois envolve mais de um coeficiente de regressão O adjetivo linear indica que o modelo é linear em relação aos parâmetros ( ), e não porque y é uma função linear dos x s As condições subjacentes à regressão linear múltipla são análogas à da regressão linear simples, resumidamente: As variáveis independentes são não aleatórias (fixas); Para cada conjunto de valores de há uma subpopulação de valores de Y Para a construção dos intervalos de confiança e dos testes de hipóteses deve poder-se assumir que estas subpopulações seguem a distribuição normal; 3 As variâncias das subpopulações de Y são iguais;

4 Os valores de Y são estatisticamente independentes Por outras palavras, quando se extrai a amostra, assume-se que os valores de Y obtidos para um determinado conjunto de valores de são independentes dos valores de Y obtidos para outro qualquer conjunto de valores de O modelo apresentado na equação é um sistema de n equações que pode ser representado matricialmente por Y n x Y Y Y n n x p n, p, p n, p β p x 0 p ε n x n Sobre a constituição das diferentes matrizes pode referir-se o seguinte: ) Matriz Y, é o vetor coluna ( nx ) constituído pelas observações da variável resposta ) Matriz ( nxp ), as linhas são constituídas pelos valores das variáveis independentes, isto é, na linha i (i=,,n)aparecem sucessivamente os coeficientes de ( ) da j-ésima equação do sistema Alternativamente, pensando em termos de colunas ter-se-á: ª coluna todos os valores iguais a, os coeficientes de em cada equação ª coluna surge diretamente as observações da variável são coeficientes de em cada equação i (i=,,n) Colunas seguintes aparecem as observações das variáveis mesmas razões são pelas 3) Matriz β, é o vetor coluna ( px ) dos coeficientes de regressão 4) Matriz ℇ, é o vetor coluna ( nx ) dos erros aleatórios

A significância de modelo de regressão múltipla Até agora se assumiu um modelo linear da forma obtivemos estimadores para os coeficientes de regressão Queremos verificar se as variáveis independentes, contribuem significativamente com informação para explicar linearmente a variação da variável resposta (variável dependente) Y Pois quanto maior for esta contribuição melhores serão os resultados da estimação e da predição O teste de significância para a regressão é um teste para se determinar se há uma relação linear entre a função resposta y e os regressores x, para este efeito pode-se utilizar um teste de hipótese Esses testes hipóteses acerca dos parâmetros do modelo de regressão requerem que os termos do erro independentemente distribuídos com média zero e variância As hipóteses a testar são: H no modelo de regressão sejam normais e Temos, portanto, um teste bilateral face a n observações (a amostra) A hipótese nula que se pretende testar é a não existência de regressão A rejeição de significa que pelo menos umas das variáveis independentes (regressores) contribui significativamente para explicar a variação da variável dependente Y, e esta explicação pode ser representada por um modelo de regressão linear (o modelo diz-se significativo) 0 : Caso não se rejeite ter-se-á o modelo, ou seja, E constante, concluindo-se que os não contribuem para explicar a variação de Y O que leva à conclusão de que não há relação linear entre as variáveis (mau ajustamento do modelo linear em relação aos dados) O modelo diz-se não significativo e não deve ser utilizado H : pelo menos um K k 0 é diferentede zero Quando se pretende realizar um teste bilateral a análise de variância (Anova) pode ser utilizada para se analisar a significância do modelo de regressão Para isso, utiliza-se a partição da soma de quadrados, a identidade da análise de variância, O procedimento da análise de variância para a regressão linear múltipla tem a seguinte estrutura: Hipótese nula:

Hipóteses alternativa para algum ; F * QMRegressão QMErro Se F * > F( ; p-,n-p), rejeitamos a hipótese nula, caso contrário, aceitamos a hipótese Não devemos esquecer de usar o valor p A tabela evidencia o fato: Causa de Variação Graus de liberdade Soma de Quadrados Média Quadrática Regressão (modelo) k Erro (residual) n-p Total n- Tabela : Anova para a regressão linear múltipla Assim, relativamente à hipótese rejeita-se a hipótese nula, com um grau de significância α se o valor da estatística de teste, (valor de F observado a partir da regressão), for maior do que o valor de (valor tabelado para a distribuição F) com e graus de liberdade 3 Coeficiente de determinação Tal como no modelo de regressão simples o coeficiente de determinação é dado por R SQRegressão SQTotal SQErro SQTotal Este coeficiente é uma medida da proporção da variação da variável resposta Y que é explicada pela equação de regressão quando estão envolvidas as variáveis independentes Devido à identidade da análise de variância Contudo, um grande valor de não implica necessariamente que o modelo de regressão seja um bom ajustamento, uma vez que a adição de uma variável aumenta sempre o valor deste coeficiente (a adição de uma variável ao modelo faz sempre com que a soma de quadrados da regressão aumente), sem ter em conta se a variável que se

adiciona é ou não estatisticamente significativa Assim, modelos com um elevado valor de podem produzir predições pouco fiáveis de novas observações ou estimativas pouco fiáveis do valor esperado de Y Por este motivo não será um bom indicador do grau de ajustamento do modelo Por este fato, alguns investigadores preferem utilizar o coeficiente de determinação ajustado, R a SQErro n p SQTotal n n n p R Este coeficiente dá uma melhor ideia da proporção de variação de Y explicada pelo modelo de regressão uma vez que tem em conta o número de regressores Ao contrário do que acontecia com o coeficiente de determinação múltiplo, não aumentam sempre, quando uma nova variável é adicionada ao modelo Este só aumenta se de alguma maneira houver vantagem na adição de uma nova variável De fato, se forem adicionados termos desnecessários, o valor de na maior parte dos casos decresce Quando a diferença entre e é acentuada, há uma boa hipótese de que tenham sido incluídos no modelo termos estatisticamente não significativos Na regressão múltipla, temos muitas vezes o interesse de testar hipóteses sobre os coeficientes de regressão Estas constituem outra maneira de se determinar o potencial de cada regressor no modelo de regressão Por exemplo, o modelo pode tornar-se mais eficaz com a inclusão de novas variáveis ou com a exclusão de uma ou mais variáveis existentes no modelo A inclusão de uma variável ao modelo faz, sempre, aumentar a soma de quadrados da regressão e diminuir a soma de quadrados do erro Deve-se decidir se o aumento na soma de quadrados do erro justifica a inclusão da nova variável Para, além disso, a inclusão de uma variável pouco importante ao modelo pode fazer com que a média quadrática do erro aumente, fazendo decrescer a utilidade do modelo (isto é, indicando que esta inclusão não faz sentido, uma vez que empobrece o grau de ajustamento do modelo aos dados) Um teste de significância para os coeficientes de regressão, os seguinte; é elaborado de modo Hipótese nula: Hipótese alternativa:

Estatística teste: Região de rejeição Se não for rejeitada, isto indica que o regressor pode ser eliminado do modelo Este teste é considerado parcial uma vez que o coeficiente de regressão depende de todos os outros regressores (i j) existentes no modelo Caso na equação de regressão linear múltipla um dos coeficientes de regressão tenha um valor próximo de zero não quer dizer que a variável correspondente possa ser eliminada do modelo Devemos ter em conta que as variáveis independentes podem ter diferentes unidades de medida e, portanto os respectivos coeficientes de regressão ordens de grandeza diferentes 4 Intervalos de confiança para os coeficientes de regressão Nestes modelos é útil construir intervalos de confiança para as estimativas dos coeficientes de regressão Vimos que então cada estatística, j=0,,k, tem uma distribuição t com n-p, j=0,,k, Os extremos do intervalo de confiança a 00(-α)% para os coeficientes de regressão, os com são, ± se Convém salientar que existe uma relação fundamental entre os testes de hipóteses e os intervalos de confiança, essa pode ser enunciada nos termos seguintes: uma hipótese nula pode ser rejeitada a um nível de significância a se, e só se, o intervalo de confiança de a 00(-α)% não incluir o valor 0 Note-se que esta condição impõe que o intervalo de confiança seja compatível com a natureza de ou seja, para testes bilaterais se construam intervalos de confiança bilaterais e para testes unilaterais (num sentido) se construam intervalos de confiança unilaterais (no mesmo sentido) A implicação essencial desta relação é que se pode proceder ao teste de hipóteses recorrendo a intervalos de confiança

5 Intervalos de confiança para os valores esperados de Y No caso da regressão linear múltipla pode obter-se um intervalo de confiança para o valor esperado da resposta dado um determinado ponto, Este último, não é mais do que uma linha da matriz, ou seja, o vetor, O valor esperado para Y considerando é = = que é estimado por = Este estimador é não enviesado, uma vez que = e tem variância = = podemos definir o seguinte erro padrão se ( = da estatística O intervalo de confiança a 00(-α) para pode ser construído a partir que segue uma distribuição t com n - p graus de liberdade Os extremos do intervalo de confiança para o valor esperado da resposta para um determinado ponto, são dados por 6 Análise de resíduos Para a construção dos modelos de regressão linear foram consideradas algumas hipóteses relativamente aos resíduos Prioritariamente os resíduos foram considerados independentes, e, i=,,n Esta última suposição é absolutamente exigida para a construção, por exemplo, dos testes F Em consequência, se o modelo ajustado for o correto os resíduos devem evidenciar tendências que confirmem, ou pelo menos não desmintam, as suposições feitas Assim, ainda que, eventualmente, com base num qualquer teste não haja razão para duvidar de que o modelo seja adequado não se deve prescindir da análise dos resíduos Os resíduos de um modelo de regressão representam as diferenças entre aquilo que foi realmente observado e o que foi estimado através da equação de regressão, ou seja, a quantidade que a equação de regressão não foi capaz de explicar,

ie,, i=,,n onde é uma determinada observação e o seu correspondente valor ajustado (estimado) através do modelo de regressão Pode-se, assim, pensar nos resíduos como sendo os erros observados se o modelo é correto A análise dos resíduos é útil para se verificar se estes erros têm, aproximadamente, uma distribuição normal com média zero e variância constante, bem como para se determinar se a inclusão/exclusão de novos termos ao modelo se torna útil Na análise dos resíduos, quando se tenta saber se as suposições feitas são violadas, ou se conclui que elas parecem ser violadas ou se conclui que essas não parecem ser violadas Esta última situação não significa que estejamos a concluir que as suposições são corretas, mas tão só que, tomando por base os dados, não temos razões para afirmar que elas sejam incorretas Mesmo que o modelo seja significativo e correto não significa que ele seja o modelo adequado, mas apenas um plausível que não foi declarado incorreto através dos dados Se for declarado não ajustado, existência de falta de ajustamento torna-se necessário um modelo diferente, eventualmente um modelo quadrático Referência Freedman, L S, Fainberg, V, Kipnis, V, Midthune, D & Carroll, R J (004), A new Method for Dealing with Measurement Error in Explanatory Variables of Regression Models, Biometrics 60(), 7 8 HOFFMANN, Rodolfo Regressão linear múltipla In-Análise de Regressão: Uma Introdução à Econometria Hucitec, São Paulo 006 UNIVERSIDADE DO ALGARVE Escola Superior de Tecnologia Curso Bietápico em Engenharia Civil Algarve, Portugal, 008 Disponível em [http://w3ualgpt/~cfsousa/ensino/comp_mat/regress%c3%a3o%0linear%0m%c3 %BAltipla_07-08_pdf] Acesso em: de setembro de 04