Coeficiente de determinação R 2 no modelo de regressão linear normal

Documentos relacionados
Ralph S. Silva

Modelo de Regressão Múltipla

Introdução ao modelo de Regressão Linear

Exercícios Selecionados de Econometria para Concursos Públicos

Análise de Regressão Linear Simples e

Regressão Linear - Parte I

Disciplina de Modelos Lineares Professora Ariane Ferreira

Métodos Numéricos e Estatísticos Parte II-Métodos Estatísticos

CORRELAÇÃO E REGRESSÃO. Modelos Probabilísticos para a Computação Professora: Andréa Rocha. UNIVERSIDADE FEDERAL DA PARAÍBA Dezembro, 2011

REGRESSÃO E CORRELAÇÃO

Modelos de Regressão Linear Simples - parte II

Análise de Regressão EST036

Estudar a relação entre duas variáveis quantitativas.

Análise Multivariada Aplicada à Contabilidade

Análise de Regressão Linear Múltipla III

Análise de regressão linear simples. Diagrama de dispersão

9 Correlação e Regressão. 9-1 Aspectos Gerais 9-2 Correlação 9-3 Regressão 9-4 Intervalos de Variação e Predição 9-5 Regressão Múltipla

RESUMO DO CAPÍTULO 3 DO LIVRO DE WOOLDRIDGE ANÁLISE DE REGRESSÃO MÚLTIPLA: ESTIMAÇÃO

Regressão. PRE-01 Probabilidade e Estatística Prof. Marcelo P. Corrêa IRN/Unifei

AULAS 14 E 15 Modelo de regressão simples

Análise de Regressão Prof. MSc. Danilo Scorzoni Ré FMU Estatística Aplicada

Esse material foi extraído de Barbetta (2007 cap 13)

Modelos de Regressão Linear Simples - parte III

Análise de Dados Longitudinais Aula

RELAÇÃO DO TEOR DE UMIDADE COM O CONSUMO DO COMBUSTÍVEL BPF NO PROCESSO DE SECAGEM DA MADEIRA EM UMA AGROINDÚSTRIA

CORRELAÇÃO E REGRESSÃO

Modelos de regressão para dados correlacionados. Cibele Russo

Multicolinariedade e Autocorrelação

Renda x Vulnerabilidade Ambiental

AULA 09 Regressão. Ernesto F. L. Amaral. 17 de setembro de 2012

Disciplina de Modelos Lineares

Prova de Estatística

Modelos Lineares Generalizados - Verificação do Ajuste do Modelo

Predição do preço médio anual do frango por intermédio de regressão linear

Prof. Lorí Viali, Dr.

AULAS 14 E 15 Modelo de regressão simples

Modelo de regressão Beta

Modelos Lineares Mistos

CONHECIMENTOS ESPECÍFICOS

Definição Há correlação entre duas variáveis quando os valores de uma variável estão relacionados, de alguma maneira, com os valores da outra variável

CONHECIMENTOS ESPECÍFICOS

Procedimento Complementar para Validação de Métodos Analíticos e Bioanalíticos usando Análise de Regressão Linear

Capítulo 9 - Regressão Linear Simples (RLS): Notas breves

Modelos de Regressão Linear Simples - Análise de Resíduos

UNIVERSIDADE FEDERAL DO PARANÁ CURSO DE ESTATÍSTICA. Jayme Gomes dos Santos Junior Luciana Helena Kowalski

REGRESSÃO LINEAR Parte I. Flávia F. Feitosa

Métodos Quantitativos Aplicados

PREVISÃO. Prever o que irá. acontecer. boas decisões com impacto no futuro. Informação disponível. -quantitativa: dados.

ECONOMETRIA. Prof. Patricia Maria Bortolon, D. Sc.

CONHECIMENTOS ESPECÍFICOS

O parâmetro β1 indica a mudança ocorrida na esperança de Y a cada unidade de mudança em X 1 quando X2 é mantida fixa.

Regressão Linear Simples

Aula 2 Uma breve revisão sobre modelos lineares

AULA 07 Regressão. Ernesto F. L. Amaral. 05 de outubro de 2013

Capítulo 9 - Regressão Linear Simples (RLS): Notas breves

ANÁLISE ESTATÍSTICA DA RELAÇÃO ENTRE A ATITUDE E O DESEMPENHO DOS ALUNOS

Aula inaugural do curso Análise de Regressão

Regressão linear simples

Exemplo Multicolinearidade

Probabilidade e Estatística. Estimação de Parâmetros Intervalo de Confiança

Lucas Santana da Cunha de julho de 2018 Londrina

aula ANÁLISE DO DESEMPENHO DO MODELO EM REGRESSÕES

Estatística - Análise de Regressão Linear Simples. Professor José Alberto - (11) sosestatistica.com.br

REGRESSÃO LINEAR SIMPLES E MÚLTIPLA

Regression and Clinical prediction models

M l u t l i t c i oli l n i e n arid i a d de

Modelos de Regressão Linear Simples - parte I

Modelos de Regressão Linear Simples - Análise de Resíduos

Modelos de Regressão

UNIVERSIDADE FEDERAL DA FRONTEIRA SUL Campus CERRO LARGO. PROJETO DE EXTENSÃO Software R: de dados utilizando um software livre.

Inferência para CS Tópico 10 - Princípios de Estimação Pontual

Seleção de Variáveis e Construindo o Modelo

Transformações e Ponderação para corrigir violações do modelo

Regressão Linear. Prof. Dr. Leandro Balby Marinho. Análise de Dados II. Introdução Regressão Linear Regressão Múltipla

Resolução da Prova de Matemática Financeira e Estatística do ISS Teresina, aplicada em 28/08/2016.

LES0773 Estatística Aplicada III

Econometria. Econometria ( ) O modelo de regressão linear múltipla. O modelo de regressão linear múltipla. Aula 2-26/8/2010

INSTRUÇÕES. O tempo disponível para a realização das duas provas e o preenchimento da Folha de Respostas é de 5 (cinco) horas no total.

Prof. Dr. Lucas Barboza Sarno da Silva

Econometria. Regressão Linear Simples Lista de Exercícios

Modelo de regressão estável aplicado a econometria

Sumário. CAPÍTULO 1 Conceitos preliminares 1. CAPÍTULO 2 Descrição de dados: análise monovariada 47

étodos uméricos AJUSTE DE FUNÇÕES Prof. Erivelton Geraldo Nepomuceno PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA

ANÁLISE DE REGRESSÃO

AULA 8 - MQO em regressão múltipla:

Correlação e Regressão

Revisão de Modelos de regressão. Prof. Thais C O Fonseca - DME, UFRJ

CONHECIMENTOS ESPECÍFICOS

Exemplo Cupons com Desconto

AULA 10 - MQO em regressão múltipla: Propriedades Estatísticas (Variância)

Correlação e Regressão

Quantis residuais. Luziane Franciscon Acadêmica de Estatística Universidade Federal do Paraná

AULAS 21 E 22 Análise de Regressão Múltipla: Estimação

Estatística Aplicada ao Serviço Social

Modelos Lineares Generalizados - Modelos log-lineares para tabelas de contingência

Econometria. Econometria MQO MQO. Resíduos. Resíduos MQO. 1. Exemplo da técnica MQO. 2. Hipóteses do Modelo de RLM. 3.

Análise da Regressão múltipla: MQO Assintótico y = β 0 + β 1 x 1 + β x +... β k x k + u 3. Propriedades assintóticas Antes, propriedades sobre amostra

AULA 10 - MQO em regressão múltipla: Propriedades Estatísticas (Variância)

4 Modelos de Regressão Dinâmica

Modelos Lineares Generalizados - Estimação em Modelos Lineares Generalizados

Transcrição:

Coeficiente de determinação R 2 no modelo de regressão linear normal Fernando Lucambio Departamento de Estatística Universidade Federal do Paraná Curitiba/PR, 81531 990, Brasil email: lucambio@ufpr.br Outubro de 2011

Um modelo de regressão descreve a variável de interesse como a soma de uma parte considerada determinística e uma parte aleatória, sendo a parte determinística uma função de variáveis explicativas, também chamadas de regressoras e a parte aleatória o erro. Os modelos de regressão constituem uma das metodologias mais utilizadas na análise de dados devido a sua estrutura simples, aplicabilidade e interpretabilidade. A literatura deste tema é extensa, um livro clássico deste tema é Applied Regression Analysis de Draper & Smith (1998) e outros. Em português uma referência mais abrangente é o livro Modelos de Regressão com apoio computacional do Prof. Gilberto A. Paula do IME-USP. 1

O modelo clássico de regressão linear simples é escrito como Y i = β 0 + x i β 1 + ɛ i, onde β 0 +x i β 1 é a parte determinística e ɛ 1,..., ɛ n o erro aleatório (i = 1,..., n). Neste modelo a variável aleatória Y representa a resposta, x representa as observações da variável preditora, explicativa ou covariável X e β 0 e β 1 os parâmetros da regressão desconhecidos. Em situações nas quais exista mais do que uma variável para explicar a resposta o modelo de regressão é Y i = β 0 + x i1 β 1 +... + x ip β p + ɛ i, i = 1,..., n, denominado de modelo de regressão linear múltipla. 2

Como qualquer modelo estatístico devemos fazer suposições para poder obtermos estimadores, realizar testes de hipóteses de interesse e verificarmos a adequação deste modelo aos dados, a final, a utilidade de qualquer modelo é sua qualidade em representar os dados. Suposição de Linearidade: esta suposição é impĺıcita na definição do modelo e significa que cada valor observado da resposta y i pode ser escrito como uma função linear de x i. Suposição Computacional: para que possamos encontrar estimador único do vetor de parâmetros β é necessário que (X X) 1 exista, ou equivalentemente que posto(x) = p, onde X é uma matriz formada pelas observações das variáveis explicativas. 3

Suposição Distribucional: a estimação dos parâmetros é por mínimos quadrados e para isso assume-se que X é mensurada sem erros, ɛ i não depende de x i, i = 1,..., n e ɛ N n (0, σ 2 I), isto é, a distribuição de probabilidade do erro é normal multivariada de órdem n, com média zero e matriz de variancias e covariancias σ 2 I, onde I representa a matriz identidade. Isto significa que E{ɛ i } = 0 e para i = 1,..., n. cov{ɛ i, ɛ j } = { σ 2 se i j 0 se i = j, Suposição Impĺıcita: todas as observações são igualmente possíveis de serem observadas e tem a mesma importância na determinação dos resultados de mínimos quadrados e na influência nas conclussôes. 4

Coeficiente de determinação Uma vez escolhido um modelo de regressão, isto é, uma vez decididas as variáveis explicativas significativas à resposta queremos saber o grau de certeza ou o grau de acerto do modelo. Utilizamos para isso uma medida da qualidade do modelo. Qualificar um modelo poder ser realizado de diversas maneiras, por exemplo, observando o desvio padrão das estimativas dos parâmetros de regressão; se estes forem pequenos em relação à estimativa significa uma boa qualidade na estimação. Para fugir de termos ambiguos foram pensados e amplamente estudados índices que quantificam a qualidade de um modelo de regressão. Um deles, amplamente utilizado, é conhecido como coeficiente de determinação, denota-se R 2 e constitui nosso objeto de estudo. 5

O coeficiente de determinação R 2, segundo o conhecemos, é uma medida da bondade do ajuste do modelo selecionado e também uma medida da precissão na predição, tanto de novas observações quanto da média de novas observações, do modelo de regressão linear. Uma medida eficaz de calcular a relação entre duas variáveis aleatórias é o coeficiente de correlação e o coeficiente de determinação é justamente a correlação ao quadrado entre as observações y e os valores preditos pelo modelo µ. Uma vez estimados os coeficientes do modelo encontramos os valores preditos pelo modelo como ou µ i = x i β. Ê{Y i } = x i β, 6

Definição 1. Para o modelo de regressão linear normal o coeficiente de determinação define-se como R 2 = corr 2 {y, µ}, ou simplesmente R 2 = 1 ni=1 (y i µ i ) 2 ni=1 (y i y) 2, onde y i são as observações dependentes, µ i os valores preditos e y o correspondente valor predito pelo modelo nulo y i = β 0 + ɛ i, sendo ɛ i N(0, σ 2 ), i = 1,..., n. 7

Podemos afirmar que o R 2 é uma medida da proporção que a soma de quadrados dos desvios de cada y i em relação a y pode ser explicada pelas covariáveis x 1,..., x n. Então, o R 2 é uma medida da bondade do ajuste do modelo Y i = β 0 + x i1 β 1 +... + x ip β p + ɛ i, incluindo as covariáveis, em relação ao modelo y i = β 0 + ɛ i, no qual nenhuma das covariáveis é considerada. 8

Propriedades do coeficiente de determinação O coeficiente de determinação, definido como quadrado de um coeficiente de correlação satisfaz que 0 R 2 1. Esta propriedade nos permite melhor interpretar-lo. Podemos perceber que R 2 = 0 somente quando E{Y } = y, como é o caso do modelo y i = β 0 + ɛ i,, nessa situação E{Y i } = µ = β 0, µ = β 0 = y, logo n i=1 (y i µ) 2 = n i=1 (y i y) 2 e R 2 = 1 ni=1 (y i y) 2 ni=1 (y i y) 2 = 0 9

Interpretamos então que se R 2 0 o modelo não é apropriado para explicar a variável resposta através das variáveis explicativas selecionadas, significando que o R 2 é uma medida da utilidade dos outros termos além do β 0 no modelo. Um modelo cujo ajuste seja perfeito implicaria que µ i = y i, portanto n i=1 (y i µ i ) 2 = 0 e, consequentemente, R 2 = 1. Significando que, quanto mais próximo de 1 estiver o valor do coeficiente de determinação melhor o ajuste aos dados do modelo proposto. 10

Limitações É importante notar que altos valores de R 2 não necessariamente implicam que o modelo de regressão está bem ajustado. Podemos entender isso através dos exemplos apresentados por Anscombe em 1973. Nesse trabalho o autor apresentou quatro conjuntos de dados com as mesmas médias, variancias e correlação entre as variáveis resposta e explicativa. Algumas estatísticas descritivas importantes destes dados, como média, variancia, correlação entre X e Y e outras assumem os mesmos valores e, portanto, as retas de regressão também coincidem. Porém somente em um dos exemplos o modelo de regressão é adequado, nos outros a relação não é linear ou mesmo não existe relação entre as variáveis resposta e explicativa. Outras estatísticas descritivas que não influenciam na estimação da reta de regressão não coincidem, como é o caso da mediana e os valores estremos. 11

Conjunto de dados de Anscombe No.1 Conjunto de dados de Anscombe No.2 y1 4 6 8 10 12 y2 4 6 8 10 12 5 10 15 5 10 15 x1 x2 12

Conjunto de dados de Anscombe No.3 Conjunto de dados de Anscombe No.4 y3 4 6 8 10 12 y4 4 6 8 10 12 5 10 15 5 10 15 x3 x4 13

Limitações Desde trabalhos muito cedo é conhecido que uma maneira articial de aumentar o valor do R 2 é acrescentar variáveis explicativas ao modelo, mesmo que nada tenham a ver com o problema estudado. Então é possível que alguns modelos tenham grandes valores de R 2 e sua qualidade seja ruim para estimação ou predição de novas observações. Também devemos ressaltar que podemos diminuir o valor do R 2 aumentado o número de pontos repetidos, isto é, observando mais do que um valor de Y para o mesmo valor de X obtemos sempre um R 2 menor do que se observamos somente um Y para cada X. 14

Aplicações Além da utilização do coeficiente de determinação como medida de certeza ou como medida da qualidade do modelo, podemos mencionar otras duas aplicações também muito importantes: seleção de variáveis, identificação de colinearidade e importância relativa. Calculando o R 2 em todas as possíveis regressões permite escolher quais variáveis explicativas devem permanecer no modelo. O procedimento de escolha das variáveis que realmente explicam a resposta é chamado de seleção de variáveis. Àquele modelo que forneça maior valor de R 2 deveria ser o mais apropriado. No entanto, este método tem uma série de inconvenientes. 15

Encontrar todas as possíveis regressões é um procedimento intensivo computacionalmente e sua aplicação restringe-se a tamanhos de amostra relativamente pequenos. Além disso, mencionamos que quantas mais variáveis explicativas maior o valor do R 2. Uma maneira comum de evitar este problema é usar uma versão adaptada de R 2, em vez de si mesmo. A versão adaptada é conhecida como coeficiente de determinação ajustado o qual, para um modelo com p variáveis explicativas, é dado por R 2 adj = 1 n 1 n p 1 (1 R2 ) Esta versão corrige o valor do R 2 pelos graus de liberdade permitindo que não necessariamente o Radj 2 seja maior no modelo com todas as variáveis explicativas. A deficiência computacional se corrige com procedimentos conhecidos como FORWARD, BACKWARE, STEPWARE e outros. 16

Identificação de colinearidade O termo restante, V IF = 1 1 R 2 j é chamado de fator de identificação da variância. Reflete todos os outros fatores que influenciam a incerteza nas estimativas do j-ésimo coeficiente. O VIF é igual a 1 quando X j é ortogonal a cada uma das outras variáveis preditoras, caso contrário, o VIF é maior que 1., Para calcular Rj 2 devemos considerar um modelo de regressão de X j em relação às outras variaáveis preditoras sem considerar a resposta Y. 17

Importância relativa O termo importancia relativa refere-se à contribuição individual das variáveis explanatorias em relação à resposta no modelo de regressão linear ajustado. Uma idéia intuitiva, que funciona somente se as regressoras forem não correlacionadas, é justamente o R 2 de cada regressão linear simples, uma vez que a soma destes é igual ao R 2 do modelo completo. No entanto, na maioria das situações práticas, as variáveis regressoras são tipicamente correlacionadas. Logo não é evidente particionar o R 2 no valor correspondente das regressões simples. Diversas propostas existem na literatura para medir a importância relativa baseadas no R 2, sendo as mais importantes chamadas na literatura de FIRST, LAST e LMG, constituindo estas em aplicações do R 2 uma vez escolhido o modelo de regressão. 18