Correlação e Regressão Linear

Documentos relacionados
Correlação e Regressão Linear

Correlação e Regressão Linear. Prof. Marcos Vinicius Pó Métodos Quantitativos para Ciências Sociais

Correlação e Regressão Linear

Correlação e Regressão Linear. Prof. Marcos Vinicius Pó Métodos Quantitativos para Ciências Sociais

Teste de hipótese de variância e Análise de Variância (ANOVA)

Teste de hipótese de variância e Análise de Variância (ANOVA)

Teste de hipótese de variância e Análise de Variância (ANOVA)

Correlação e Regressão

Análise da Regressão. Prof. Dr. Alberto Franke (48)

Modelo de Regressão Múltipla

Regressão linear simples

9 Correlação e Regressão. 9-1 Aspectos Gerais 9-2 Correlação 9-3 Regressão 9-4 Intervalos de Variação e Predição 9-5 Regressão Múltipla

CORRELAÇÃO E REGRESSÃO

REGRESSÃO LINEAR Parte I. Flávia F. Feitosa

Estatística Aplicada II. } Regressão Linear

Regressão Linear Simples

1 semestre de 2014 Gabarito Lista de exercícios 3 - Estatística Descritiva III C A S A

AULAS 14 E 15 Modelo de regressão simples

AULAS 14 E 15 Modelo de regressão simples

Estudar a relação entre duas variáveis quantitativas.

Análise de Regressão EST036

Noções sobre Regressão

Na aula do dia 24 de outubro analisamos duas variáveis quantitativas conjuntamente com o objetivo de verificar se existe alguma relação entre elas.

Análise Multivariada Aplicada à Contabilidade

Regressão. PRE-01 Probabilidade e Estatística Prof. Marcelo P. Corrêa IRN/Unifei

Estatística - Análise de Regressão Linear Simples. Professor José Alberto - (11) sosestatistica.com.br

AULA 09 Regressão. Ernesto F. L. Amaral. 17 de setembro de 2012

Correlação e Regressão

Análise de Regressão Linear Simples e

Análise de regressão linear simples. Diagrama de dispersão

Definição Há correlação entre duas variáveis quando os valores de uma variável estão relacionados, de alguma maneira, com os valores da outra variável

Estatística Aplicada II. } Correlação e Regressão

Cap. 13 Correlação e Regressão

Prof. Lorí Viali, Dr.

Renda x Vulnerabilidade Ambiental

ANÁLISE DE REGRESSÃO

Modelos de Regressão Linear Simples - parte III

UNIVERSIDADE FEDERAL DA FRONTEIRA SUL Campus CERRO LARGO. PROJETO DE EXTENSÃO Software R: de dados utilizando um software livre.

Contabilometria. Aula 9 Regressão Linear Inferências e Grau de Ajustamento

Modelos de Regressão Linear Simples - parte II

Regressões: Simples e MúltiplaM. Prof. Dr. Luiz Paulo Fávero 1

MOQ-14 PROJETO e ANÁLISE de EXPERIMENTOS. Professor: Rodrigo A. Scarpel

Esse material foi extraído de Barbetta (2007 cap 13)

CORRELAÇÃO E REGRESSÃO

Introdução ao modelo de Regressão Linear

Seção 2.6 Duas Variáveis Quantitativas: Regressão Linear

Hoje vamos analisar duas variáveis quantitativas conjuntamente com o objetivo de verificar se existe alguma relação entre elas.

PARTE 1 ANÁLISE DE REGRESSÃO COM DADOS DE CORTE TRANSVERSAL CAPÍTULO 2 O MODELO DE REGRESSÃO SIMPLES

Capacitação em R e RStudio PROJETO DE EXTENSÃO. Software R: capacitação em análise estatística de dados utilizando um software livre.

PREVISÃO. Prever o que irá. acontecer. boas decisões com impacto no futuro. Informação disponível. -quantitativa: dados.

CORRELAÇÃO E REGRESSÃO

Análise de Regressão Prof. MSc. Danilo Scorzoni Ré FMU Estatística Aplicada

Modelos de Regressão Linear Simples parte I

Regression and Clinical prediction models

MOQ-14 PROJETO e ANÁLISE de EXPERIMENTOS. Professor: Rodrigo A. Scarpel

Modelos de Regressão Linear Simples - parte I

REGRESSÃO LINEAR SIMPLES E MÚLTIPLA

Estatística aplicada ao Melhoramento animal

REGRESSÃO E CORRELAÇÃO

Capítulo 9 - Regressão Linear Simples (RLS): Notas breves

Aula 2 Uma breve revisão sobre modelos lineares

Princípios em Planejamento e Análise de Dados Ecológicos. Regressão linear. Camila de Toledo Castanho

Revisão de Modelos de regressão. Prof. Thais C O Fonseca - DME, UFRJ

Estatística Aplicada ao Serviço Social

Exemplo 1. Conjunto de dados de uma amostra de 12 meninas da escola: y i x i

Análise da Variância. Prof. Dr. Alberto Franke (48)

aula ANÁLISE DO DESEMPENHO DO MODELO EM REGRESSÕES

Métodos Quantitativos para Avaliação de Políticas Públicas

MÓDULO V: Análise Bidimensional: Correlação, Regressão e Teste Qui-quadrado de Independência

REGRESSÃO E CORRELAÇÃO

Aula inaugural do curso Análise de Regressão

Disciplina de Modelos Lineares Professora Ariane Ferreira

Virgílio A. F. Almeida DCC-UFMG 2005

Física Geral - Laboratório. Aula 8: Estimativas e erros em medidas indiretas: Ajuste de funções

Estatística. Correlação e Regressão

Capítulo 9 - Regressão Linear Simples (RLS): Notas breves

Lucas Santana da Cunha de julho de 2018 Londrina

AULA 07 Regressão. Ernesto F. L. Amaral. 05 de outubro de 2013

VERIFICAÇÃO DA ADEQUAÇÃO DO MODELO DE ANÁLISE DE VARIÂNCIA ANÁLISE DE RESÍDUOS

Prof. Dr. Marcone Augusto Leal de Oliveira UFJF CURSO INTRODUTÓRIO DE 12 HORAS OFERECIDO PARA A PÓS-GRADUAÇÃO DA UFABC EM NOVEMBRO DE 2017

Universidade Federal do Paraná (UFPR) Bacharelado em Informática Biomédica. Regressão. David Menotti.

PROVAS Ciência da Computação. 2 a Prova: 13/02/2014 (Quinta) Reavaliação: 20/02/2014 (Quinta)

AGOSTO 2017 INTERPRETAÇÃO DE RESULTADOS ESTATÍSTICOS EM MODELOS DE REGRESSÃO MÚLTIPLA

CORRELAÇÃO. Flávia F. Feitosa

Mais Informações sobre Itens do Relatório

CÁLCULO NUMÉRICO. Profa. Dra. Yara de Souza Tadano

AULA 03 Análise de regressão múltipla: estimação

Testes de Aderência, Homogeneidade e Independência

Análise de Regressão

Correlação e Regressão. Correlação entre variáveis

Módulo 2 AVALIAÇÃO DA DEMANDA EM TRANSPORTES

Planejamento de Experimentos

Associação entre duas variáveis

Tópicos Extras 1ª parte. Testes Não Paramétricos, Análise Multivariada, Outras Técnicas

Instituto Federal Goiano

Métodos Quantitativos Aplicados

ECONOMETRIA. Prof. Danilo Monte-Mor

variável dependente natureza dicotômica ou binária independentes, tanto podem ser categóricas ou não estimar a probabilidade associada à ocorrência

AULA 8 - MQO em regressão múltipla:

Transcrição:

Correlação e Regressão Linear Prof. Marcos Vinicius Pó Métodos Quantitativos para Ciências Sociais

Tabela da ANOVA n: número de elementos da amostra n i : número de elementos da subamostra de uma subpopulação k: número de subpopulações Variação SQe (Soma dos Quadrados dos Erros) Graus de Liberdade MQ (Média dos Quadrados) F obs Entre subpopulações SQ e gl e = k-1 MQe SQe gle MQe MQd Dentro das subpopulações SQ d gl d = n-k MQd SQd gld Total SQ t gl t = n-1 R : coeficiente de explicação. Significa a quantidade de informação que é explicada pelo modelo em relação ao modelo mais simples (puro acaso). R SQe SQt p-valor de F: indica a possibilidade de generalização do modelo para a população, ou seja, o nível em que podemos afirmar que o modelo é significativo.

CORRELAÇÃO LINEAR 3

Coeficiente de correlação linear r Mede o grau de relacionamento linear entre valores pareados x e y em uma amostra e também a proximidade dos dados a uma reta. É também chamado de coeficiente de Pearson. Varia de -1 a 1, sendo que zero significa não haver correlação. corr( X, Y) r ( x i n. xy i nx i n. x. y )([ Ny ( y) ] 4

Exemplos de correlações Fonte: Wikipédia (http://en.wikipedia.org/wiki/file:correlation_examples.svg) 5

Há correlação entre comprimento da barba e poder mágico? 6

Teste de r O coeficiente de correlação pode ser testado usando a estatística t de Student, que é calculado usando-se a seguinte fórmula: t r N 1 r O valor crítico é verificado na tabela t de Student, com os graus de liberdade definidos por N- ) N = pares de escore X e Y 7

Correlação e causalidade Haver correlação entre duas variáveis não implica em causalidade. Pode haver correlações espúrias ou viés. Contudo, a correlação é uma pista significativa para ser investigada em busca de causalidade e sua direção. A ausência de correlação também não quer dizer não haver relação entre duas variáveis. Apenas uma análise do modelo pode apontar isso. Além disso, pode haver relações nãolineares entre as variáveis. Correlações espúrias no site www.tylervigen.com 8

Fonte: Chocolate Consumption, Cognitive Function, and Nobel Laureates Franz H. Messerli, M.D. N Engl J Med 01; 367:156-1564October 18, 01 http://www.nejm.org/doi/full/10.1056/nejmon111064, acesso em 04/11/01 Consumo de chocolate e prêmios Nobel Correlation between Countries' Annual Per Capita Chocolate Consumption and the Number of Nobel Laureates per 10 Million Population. 9

REGRESSÃO LINEAR 10

Regressão linear simples Calcula médias condicionais da variável Y a partir de uma variável X supostamente relacionada, estabelecendo um modelo para: Explicar o total ou parcialmente um fenômeno observado. Mensurar a relação entre duas variáveis. Permitir predições. Modelo linear simples: Y = a + bx + Usaremos a notação Y = a + bx + para os parâmetros calculados Y: variável dependente (aquela que é explicada;) X 1, X,..., X n : variáveis explicativas (ou independentes) : erro, parte não explicada pelo modelo 11

Suposições do modelo de regressão linear Variáveis independentes. As variáveis X n não podem ser combinações lineares entre si. O número de parâmetros a serem estimados é menor que o número de observações. Resíduos possuem variância constante e têm média zero. Os resíduos são independentes e mostram um comportamento normal. O relacionamento entre as variáveis pode ser razoavelmente representado por uma reta. 1

Estimação dos parâmetros Objetivos: estabelecer uma reta que: Minimize o total de erros (ε). Possua significância estatística. Possua bom fator explicativo (R ). Só é possível trabalhar o primeiro, os demais são avaliados. O ajuste da reta deve minimizar as distâncias entre os valores preditos pela reta e os valores observados. 13

Regressão linear Erros (ε i ) y i = a+bx i + i Princípio: ajustar os parâmetros para minimizar a soma dos erros quadrados entre as previsões e os valores amostrais. i ~N(0,² ) (erros independentes) Os parâmetros do nosso modelo são: Y = a + bx + (equação da reta) Temos que determinar: a: intercepto ou valor fixo; b: inclinação da reta 14

Aplicando ao modelo A soma dos quadrados dos erros é: Assumindo uma distribuição normal dos erros deduzimos que: Os estimadores a e b possuem distribuição normal e intervalos de confiança com uma distribuição t, com n- graus de liberdade. n x x nx y xy b n i n i i x y e i i SQ 1 1 )} ( { ), ( b a b a bx y a Para mais informações consultar Bussab e Morettin: Estatística Básica, capítulo 15 15 ) (.. ) ; ( ) ( x x n x Se t a IC i n i a ) (. 1. ) ; ( ) ( x x n Se t b IC i n b

Correlação x Regressão Correlação linear Não determina causalidade, mas dá pistas. Pode ser testada estatisticamente. Identifica se duas variáveis se relacionam de forma linear. Não indica o quanto uma variável afeta a outra. Determina o quão mais próximo de uma reta é a relação entre as variáveis. Regressão linear Não determina causalidade, mas dá pistas. Pode ser testada estatisticamente. Determina uma relação linear entre duas variáveis. Identifica o quanto uma variável afeta a outra. Traz elementos que permitem fazer predições. Necessita de uma análise dos resíduos para decidir sobre sua adequação. 16

Começando a analisar os dados Primeiro é necessário termos uma boa idéia do comportamento de nossos dados, de forma a avaliar se o modelo linear é adequado. Isso é muito importante! Uma sugestão é colocar os dados em diagramas de dispersão. 17

Por que a análise gráfica é importante? Esses quatro conjuntos de dados possuem as mesmas propriedades estatísticas,... 1 3 4 x y x y x y x y 10,0 8,04 10,0 9,14 10,0 7,46 8,0 6,58 8,0 6,95 8,0 8,14 8,0 6,77 8,0 5,76 13,0 7,58 13,0 8,74 13,0 1,74 8,0 7,71 9,0 8,81 9,0 8,77 9,0 7,11 8,0 8,84 11,0 8,33 11,0 9,6 11,0 7,81 8,0 8,47 14,0 9,96 14,0 8,10 14,0 8,84 8,0 7,04 6,0 7,4 6,0 6,13 6,0 6,08 8,0 5,5 4,0 4,6 4,0 3,10 4,0 5,39 19,0 1,50 1,0 10,84 1,0 9,13 1,0 8,15 8,0 5,56 7,0 4,8 7,0 7,6 7,0 6,4 8,0 7,91 5,0 5,68 5,0 4,74 5,0 5,73 8,0 6,89 Propriedade Valor Média de x 9,00 Variância de x 10,00 Média de y 7,50 Variância de y 3,75 Correlação 0,898 Regressão linear y =,50 + 0,500x Esses dados compõe o chamado Quarteto de Anscombe 18

Quarteto de Anscombe... mas são bem diferentes graficamente. 19

Julgando o modelo: ANOVA para regressão n: número de amostras p: número de parâmetros estimados R : mede a variabilidade de Y explicada pelo modelo. R SQRe g SQTot Fonte de variação Soma dos Quadrados (SQ) Graus de Liberdade Quadrado das Médias (QM) F obs SQRe g ( yˆ iy) t1 Regressão gl N = p 1 n b ( xix) t1 n QM Re g SQRe g gln QM Re g se Resíduo SQRe s n ( y i yˆ t1 i ) gl D = n p se SQ Re s gld n Total SQTot ( yi y) gl T = n 1 t1 0

Regressão: interpolação e extrapolação A Regressão permite fazer predições. Interpolação: em geral é bastante confiável. Extrapolação: deve-se tomar cuidado para garantir que a linearidade entre as variáveis permaneça válido além da região de observação. Já o modelo II permite categorizar as observações e simplificar as predições, mas apenas dentro do intervalo já observado Seria possível combinar os dois modelos? 1

Análise de resíduos Tão importante quanto verificar se os dados servem ao modelo de regressão e estabelecer os parâmetros, é fazer a análise de resíduos com o objetivo de verificar se: O modelo se ajusta bem As suposições não foram violadas o Homocedasticidade o Independência o Comportamento normal Aconselha-se a fazer uma análise gráfica dos resíduos.

Bussab; Morettin, 00:456 Plotagem dos resíduos Quais dessas plotagens mostram normalidade dos resíduos? Quais os problemas das outras? 3

Transformação de variáveis: linearização Considere os dados abaixo e os gráficos abaixo. Ano 1967 1969 1971 1973 1975 1977 1979 Inflação 18 19 77 373 613 136 639 Você teria alguma restrição em adotar o modelo linear nesse caso? Se transformarmos a variável inflação por meio de logaritmo (Log), poderíamos adotar o modelo linear? Inflação 3000 500 000 1500 1000 500 0 1967 1969 1971 1973 1975 1977 1979 1981 Log(inflação) 3,6 3,4 3, 3,8,6,4, 1966 1968 1970 197 1974 1976 1978 1980 4

Voltando ao nosso exemplo Deseja-se avaliar explicações para o tempo de reação das pessoas a determinado estímulo visual. Variável dependente: Tempo de reação = Y Variáveis Independentes: Gênero; Idade; Acuidade Visual (podem explicar o fenômeno) = X 1, X,... Indivíduo Tempo de Gênero Idade Acuidade reação (ms) (M/F) (anos) Visual (%) i y w x z 1 96 M 0 90 9 F 0 100 3 106 M 0 80 4 100 F 0 90 5 98 F 5 100 6 104 M 5 90 7 110 M 5 80 8 101 F 5 90 9 116 F 30 70 10 106 M 30 90 11 109 M 30 90 1 100 F 30 80 13 11 F 35 90 14 105 F 35 80 15 118 M 35 70 16 108 M 35 90 17 113 F 40 90 18 11 F 40 90 19 17 M 40 60 0 117 M 40 80 Dados tirados de Bussab, Wilton. Análise de Variância e Regressão. a. Ed. Editora Atual: São Paulo. 1988 5

No nosso exemplo (tempo de reação) Calcular as correlações Tempo de reação x Idade 0,768 Tempo de reação x Acuidade visual -0,755 Idade x Acuidade visual -0,399 O que esses números significam? 6

Avaliando os dados Já testamos e descartamos Gênero; Traçar diagramas de dispersão para Idade e para Acuidade Visual Idade Acuidade visual 140 140 10 10 100 100 80 80 60 60 40 40 0 0 0 0 10 0 30 40 50 0 0 0 40 60 80 100 10 O modelo de regressão linear é aplicável em ambos os casos? 7

Exemplo Determinar os parâmetros a e b para Tempo de reação x Acuidade Colocar na equação e interpretar Quais suas conclusões? Plots do SPSS 8

Comparação entre modelo II e modelo III Qual é o melhor? Modelo II Médias por faixa etária Modelo III Regressão com acuidade visual p-valor 0,61% <0,01% R 58,7% 57,1% Estatisticamente, ambos possuem um p-valor significativo. Na diminuição da variabilidade (R ), ambos estão próximos. Como escolher? o Utilização o Facilidade, conveniência 9

Exemplo As suposições foram violadas? Homocedasticidade: Independência Comportamento normal? Plots do SPSS 30

Etapas de análise de regressão linear 1. Exploração dos dados a. Gráficos de dispersão b. Mapa de correlações. Determinação da regressão linear a. Verificação da significância (p-valor) b. Verificar o grau de explicação (R ) c. Determinação dos coeficientes da reta de regressão ( a e b ) d. Julgamento se o modelo é interessante e pertinente 3. Avaliação de atendimento dos pressupostos da correlação a. Análise dos resíduos: normalidade; homocedasticidade 31

Atividade com banco de dados Health expenditure Total expenditure on health, % of gross domestic product Total health expenditure per capita, US$ PPP Public health expenditure per capita, US$ PPP Pharmaceutical expenditure per capita, US$ PPP Health care resources Physicians, density per 1 000 population Nurses, density per 1 000 population Hospital beds, density per 1 000 population Health care activities Doctor consultations per capita Hospital discharge rates, all causes, per 100 000 population Average length of stay for a normal delivery, days Caesarean sections, per 1 000 live births Health status (Mortality) Life expectancy at birth, total population Infant mortality rate, deaths per 1 000 live births Risk factors Tobacco consumption, % of adult population who are daily smokers Alcohol consumption, litres per population aged 15+ Obesity, percentage of total adult population with a BMI>30 kg/m, based on self-reports Obesity, percentage of total adult population with a BMI>30 kg/m, based on measures of height and weight 3

Plots do SPSS 33