Correlação e Regressão linear simples

Documentos relacionados
Plano da Apresentação. Correlação e Regressão linear simples. Correlação linear. Associação entre hábitos leitura e escolaridade.

Medidas de dispersão e assimetria

BIOESTATÍSTICA. Parte 1 - Estatística descritiva e análise exploratória dos dados

Análise de Regressão. Notas de Aula

Medidas de Localização

Regressão linear múltipla. Prof. Tatiele Lacerda

Como rodar a regressão no gretl. Usando o Console para calcular elasticidade. Elasticidade. Usando o Console para calcular predição

Análise de Regressão Linear Simples III

Análise estatística. Aula de Bioestatística. 17/9/2008 (2.ª Parte) Paulo Nogueira

Curso de Análise Estatística Comparação entre variáveis contínuas: correlação e regressão Linear

x = xi n x = xifi fi 1. MÉDIA Exercício: Quando a distribuição é simétrica, a média e a mediana coincidem.

IV Regressão e correlação IV.4. (cont.) Significância Estatística e Regressão Múltipla

Capítulo 4 Inferência Estatística

Stela Adami Vayego DEST/UFPR

Teste 1. (a) 0.33 (b) 0.50 (c) 0.30 (d) 0.20

Variáveis Frequências Gráficos Medidas de Posição Medidas de Dispersão Medidas Complementares Inferência

Métodos Quantitativos Aplicados

é 4. Portanto, o desvio padrão é 2. Neste caso 100% dos valores da população estão a um desvio padrão da média.

REGRESSÃO. Análise de Correlação

Métodos Quantitativos Aplicados a Custos Análise Estatística como um auxiliar valioso nas decisões

Estatística. Slide 0. Ana M. Abreu /07

Contabilometria. Análise Discriminante

Aula 12: Correlação e Regressão

Desvio Padrão ou Erro Padrão

Para mais de duas variáveis independentes, em função de uma variável dependente.

Estatística Multivariada. Visão Panorâmica. Aplicações: Associação. Classificação. Comparação. Associação. Correlação Bivariada.

ESTATÍSTICA PARTE 1 OBJETIVO DA DISCIPLINA

Análise de Regressão Múltipla com informação qualitativa: variáveis binárias (dummy)

MEDIDAS DE DISPERSÃO. o grau de variabilidade, ou dispersão, dos valores em torno da média.

DISTRIBUIÇÃO DE FREQUÊNCIA DE VARIÁVEIS QUALITATIVAS E QUANTITATIVAS DISCRETAS (TABELAS E GRÁFICOS)

Medidas de Tendência Central. Introdução Média Aritmética Moda Mediana

Aula 6 Propagação de erros

Estimação. Como definir um estimador. Como obter estimativas pontuais. Como construir intervalos de confiança

1 Introdução. 1.1 Importância da Utilização da Amostragem

1. Estatística Descritiva

Os dados quantitativos também podem ser de natureza discreta ou contínua.

AULA 12 Inferência a Partir de Duas Amostras

Análise de Regressão Linear Simples e

Regressão, Interpolação e Extrapolação Numéricas

Estatística Aplicada ao Serviço Social

Programa de Ciências Experimentais

Método dos mínimos quadrados Wikipédia, a enciclopédia livre

Estatística AMOSTRAGEM

Conteúdo. 1 Introdução. Histograma do Quinto Sorteio da Nota Fiscal Paraná 065/16. Quinto Sorteio Eletrônico da Nota Fiscal Paraná

Conteúdo. 1 Introdução. Histograma do 1o Sorteio da Nota Fiscal Paraná 152/15. 1º Sorteio Eletrônico da Nota Fiscal Paraná

Distribuições Conjuntas (Tabelas de Contingência)

Consumo. Revisão e Modelo Ciclo de Vida. Wilson Correa. April 26, 2016

ANÁLISE DE REGRESSÃO LINEAR: ABORDAGEM TRADICIONAL E ESPACIAL EM UM ESTUDO DE CASO

MOQ 13 PROBABILIDADE E ESTATÍSTICA. Professor: Rodrigo A. Scarpel

ANOVA. (Analysis of Variance) Prof. Dr. Guanis de Barros Vilela Junior

Coeficiente de Assimetria e Curtose. Rinaldo Artes. Padronização., tem as seguintes propriedades: Momentos

Análise de regressão linear simples. Diagrama de dispersão

CORRELAÇÃO E REGRESSÃO. Modelos Probabilísticos para a Computação Professora: Andréa Rocha. UNIVERSIDADE FEDERAL DA PARAÍBA Dezembro, 2011

Aula 8. Teste Binomial a uma proporção p

Linha Técnica Sessão IV Variáveis Instrumentais

CAPÍTULO 8. de Variância - ANOVA ANOVA. Análise

Medidas e Escalas: Escalas não Comparativas

Lição 5 Medidas Descritivas Medidas de Dispersão

Unidade Medidas de Posição ou de Tendência Central

Estatística. Conjunto de métodos e processos quantitativos que serve para estudar e medir os fenômenos coletivos ou de massa.

Escola Básica e Secundária de Velas Planificação Anual

Administração Central Unidade de Ensino Médio e Técnico - Cetec. Ensino Técnico. Qualificação: Assistente Administrativo

Regressão Linear Múltipla

INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA. Prof. Anderson Rodrigo da Silva

AULA 32 Problemas Adicionais de Especificação e de Dados

AMOSTRAGEM: DIMENSIONAMENTO DE AMOSTRAS. SELEÇÃO DOS ELEMENTOS DE UMA AMOSTRA. ESTIMATIVA DA CARACTERÍSTICA TOTAL DA POPULAÇÃO INVESTIGADA

PLANO DE ENSINO CONTEÚDO PROGRAMÁTICO. Unidade 1: MEDIDAS E GRANDEZAS Introdução Padrões usados para avaliar grandezas físicas

ROTEIRO PARA ELABORAÇÃO DO PROJETO DE PESQUISA

AULA 11 Experimentos Multinomiais e Tabelas de Contingência

DISCIPLINA DE ESTATÍSTICA

Análise de Regressão Prof. MSc. Danilo Scorzoni Ré FMU Estatística Aplicada

AULAS 19, 20, 21 E 22 Análise de Regressão Múltipla com Informações Qualitativas

Erros e Incertezas. Rafael Alves Batista Instituto de Física Gleb Wataghin Universidade Estadual de Campinas (Dated: 10 de Julho de 2011.

MODELAGEM ESTATÍSTICA PARA ENSAIOS DE RESISTÊNCIA NA INDÚSTRIA DE CELULOSE E PAPEL

Capítulo 1. Uma Introdução à Econometria

UNIPAC Araguari FACAE - Faculdade de Ciências Administrativas e Exatas SISTEMAS DE INFORMAÇÃO

MATEMÁTICA B 10ºANO ANO LETIVO 2015/2016 Módulo Inicial

Intervalos Estatísticos para Uma Única Amostra

Planejamento e Análise Estatística de Experimentos Fatoriais em blocos completos

Capítulo 5. Inferência no Modelo de Regressão Simples: Estimação de Intervalos, Teste de Hipóteses e Previsão

Testes de variância e Análise de Variância (ANOVA)

A forma geral de uma equação de estado é: p = f ( T,

Modelos de Probabilidade e Inferência Estatística

Métodos Quantitativos Aplicados

Aula 8 Intervalos de confiança para proporções amostras grandes

Medidas de Tendência Central

Razões, proporções e taxas. Medidas de frequência.

Capacidade preditiva como critério para determinação do número de componentes principais em Seleção Genômica Ampla

Introdução. Ou seja, de certo modo esperamos que haja uma certa

Probabilidade III. Ulisses U. dos Anjos. Departamento de Estatística Universidade Federal da Paraíba. Período

Melhorias de Processos segundo o PDCA Parte IV

Capítulo 9 - Regressão Linear Simples (RLS): Notas breves

Correlação e Regressão

Plano da Apresentação. Medidas de localização central. Medidas de localização central. Média. Média. Exemplo nota média em Metodologias

Capítulo 9 - Regressão Linear Simples (RLS): Notas breves

ME613 - Análise de Regressão

Métodos Quantitativos Aplicados

ESCOLA SECUNDÁRIA DE CALDAS DAS TAIPAS PLANIFICAÇÃO ANUAL. Ano letivo 2014 / 2015

Aula 2 Regressão e Correlação Linear

Transcrição:

Metodologia de Diagnóstico e Elaboração de Relatório FASHT Correlação e Regressão linear simples Prof. Cesaltina Pires cpires@uevora.pt Plano da Apresentação Correlação linear Diagrama de dispersão Covariância Coeficiente de correlação de Pearson Teste de correlação de Spearman Regressão linear simples A recta de regressão O método dos mínimos quadrados Poder explicativo da regressão Metodologias de Diagnóstico Profª Cesaltina Pires 1

Associação entre hábitos leitura e escolaridade Anos de Nº de livros Escolaridade lidos por ano Escolaridade média = Nº médio de livros lidos = 1 1 15 13 Em geral, quanto maior é a escolaridade, maior é o nº de livros lidos. Mas a relação não é exacta. Metodologias de Diagnóstico Profª Cesaltina Pires 3 Correlação linear A análise de correlação é usada para medir o grau de associação (linear) entre variáveis quantitativas Queremos estudar «relação» entre variáveis. Esta relação não é uma relação matemática exacta, é uma relação estatística. Exemplo: relação entre nº de livros lidos por ano e anos de escolaridade. Em geral, quanto maior o nº de anos de escolaridade, maior é o nº de livros lidos (mas esta relação não é exacta, há muitas excepções) Diagrama de dispersão pode ajudar a visualizar o grau de associação Metodologias de Diagnóstico Profª Cesaltina Pires 4

Diagrama de dispersão Nº de livros lidos por ano 1 1 14 4 0 0 5 15 0 Anos de escolaridade Metodologias de Diagnóstico Profª Cesaltina Pires 5 Covariância Anos de Nº livros Desvio Desvio Produto Escolaridade lidos (anos esc) (nº livros) desvios -1-5 5 1 5 0 0 0-4 1-4 - -4 1 15 4 0-0 13 1-3 -1 3 Covariância = 5++0-4+++0++3 3

Coeficiente de correlação de Pearson A covariância é sensível às unidades de medida O coeficiente de correlação também mede o grau de associação entre as variáveis mas não é sensível às unidades de medida O coeficiente de correlação entre as variáveis x e y obtêm-se dividindo a covariância entre x e y pelos seus desvios padrões: O coeficiente de correlação pode tomar valores entre -1 e +1. Metodologias de Diagnóstico Profª Cesaltina Pires Diagrama de dispersão e correlação Correlação positiva perfeita????? Correlação positiva??=??= 1 Metodologias de Diagnóstico Profª Cesaltina Pires 4

Diagrama de dispersão e correlação Correlação negativa perfeita?????? Correlação negativa???=??= 0 Metodologias de Diagnóstico Profª Cesaltina Pires Diagrama de dispersão e correlação Quando? = 0 as variáveis não Estão linearmente relacionadas. Mas pode existir outro tipo de relação (não linear) entre as variáveis. Correlação linear nula????? Metodologias de Diagnóstico Profª Cesaltina Pires 5

Coeficiente de correlação de Spearman O coeficiente de correlação de Pearson é bastante sensível á presença de outliers Testes de hipóteses da correlação são baseados na hipótese da normalidade da população Por isso, pode ser conveniente usar medidas que sejam válidas seja qual for a distribuição na população e menos sensíveis á presença de outliers. Pode também ser interessante ter medidas de correlação mesmo que as variáveis sejam qualitativas (mas com escala ordinal) Metodologias de Diagnóstico Profª Cesaltina Pires Coeficiente de correlação de Spearman As observações são ordenadas por ordem crescente da variável x e são também ordenadas por ordem crescente da variável y. Ficamos assim a saber a ordem (o rank) de cada observação relativamente à variável x e relativamente à variável y. O coeficiente de Correlação de Spearman é o coeficiente de correlação entre a rank da variável x e o rank da variável y. Metodologias de Diagnóstico Profª Cesaltina Pires

Coeficiente de correlação de Spearman Anos de Escolaridade Rank escolaridade Nº livros lidos Rank nº de Livros lidos 4 1 1 5 5 1 3 1 15 5 3 13 4 Metodologias de Diagnóstico Profª Cesaltina Pires 13 Que significa a existência de correlação? As variáveis podem estar correlacionadas porque uma delas depende da outra (há uma relação de causalidade). As variáveis podem estar correlacionadas porque são interdependentes (Ex: idade do marido, idade da esposa) As duas variáveis podem estar correlacionadas porque ambas são influenciadas por uma terceira variável e é o facto de ambas «responderem» a variações nessa variável que explica a correlação (Ex: nº de insolações e produção de trigo) A existência de correlação não implica causalidade Metodologias de Diagnóstico Profª Cesaltina Pires 14

Regressão linear simples Quando medimos correlação linear estamos a medir o grau de associação linear entre as variáveis. Tanto faz falar de correlação entre x e y, como correlação entre y e x. Quando fazemos regressão linear também queremos estudar relação entre variáveis, mas queremos estudar se uma das variáveis depende da outra. Na regressão linear simples há uma variável explicativa (ou independente) e uma variável explicada (ou dependente). O que queremos saber é se a variável explicativa ajuda (ou não) a explicar o comportamento da variável explicada. Metodologias de Diagnóstico Profª Cesaltina Pires 15 Regressão linear simples A relação entre y e x é uma relação linear: Variável explicativa Variável explicada ß 0 e ß 1 são constantes ß 0 é a intersecção na origem da recta e ß 1 é o declive da recta. O termo e i é um termo aleatório que capta a influência de outros pequenos factores que influenciam y, para além do x. A média dos e i é zero. Na regressão linear simples há só uma variável explicativa. Se houver várias variáveis explicativas temos regressão linear múltipla Metodologias de Diagnóstico Profª Cesaltina Pires 1

Regressão linear simples A relação entre y e x é uma relação linear: Variável explicativa Variável explicada ß 0 e ß 1 são constantes ß 0 diz-nos qual é o valor médio de y quando x toma o valor 0. ß 1 diz-nos quão sensível é y às variações de x. Mais concretamente, se x aumentar de 1 unidade, o valor de y aumenta ß 1 unidades. Metodologias de Diagnóstico Profª Cesaltina Pires 1 Regressão linear simples y i? i y?? x x i Se a relação entre y e x fosse exacta todas as observações estariam na recta. Mas a relação não é exacta, há outros factores aleatórios que influenciam y, para além de x. Há pontos acima da recta (desvios positivos) e pontos abaixo da recta (desvios negativos). Metodologias de Diagnóstico Profª Cesaltina Pires 1

Regressão linear simples O que vamos ter é uma amostra de observações, cada uma das quais com determinados valores de x e y. Se representamos o diagrama de dispersão ficamos com uma «nuvem de pontos» no espaço (x,y). Com base nessa amostra queremos estimar a relação entre y e x. Qual é a recta que melhor se ajusta à nuvem de pontos? Qual é a intersecção na origem e qual é o declive dessa recta (quanto são ß 0 e ß 1 )? Metodologias de Diagnóstico Profª Cesaltina Pires 1 Método dos mínimos quadrados É um método para estimar os parâmetros ß 0 e ß 1, com base na informação de uma amostra Para uma dada recta podemos calcular os desvios em relação à recta (desvios positivos e negativos compensam-se). Podemos também calcular a soma dos desvios ao quadrado. A «melhor recta» é aquela para o qual a soma dos desvios ao quadrado é menor. Usando este método ficamos com estimativas dos parâmetros ß 0 e ß 1. O Excel estima regressão, só é preciso saber interpretar. Metodologias de Diagnóstico Profª Cesaltina Pires 0

Exemplo o que explica o salário? Consideremos o seguinte modelo: S i = ß 0 + ß 1 Exp i +e i, Onde S i salário do indivíduo i Exp i anos de experiência do indivíduo i ß 0 diz-nos qual é o valor médio do salário para trabalhadores sem experiência. ß 1 diz-nos quanto varia o salário por cada ano adicional de experiência. Será que este modelo é bom? Não haverá outros factores importantes que influenciam o salário? Será que a relação é linear?... Metodologias de Diagnóstico Profª Cesaltina Pires 1 Estimação da regressão no Excel Amostra com 0 observações (é pouco!) Variáveis Salário e experiência No menu das Ferramentas escolher Análise de Dados, depois escolher regressão. Metodologias de Diagnóstico Profª Cesaltina Pires

Estimação da regressão no Excel onde estão dados da variável explicada onde estão dados da variável explicativa onde queremos por os resultados opções Metodologias de Diagnóstico Profª Cesaltina Pires 3 Resultados da regressão medidas da qualidade do ajustamento Estimadores dos parâmetros ß 0 e ß 1. A recta estimada é: S i = 0,34+ 3,45Exp i, Metodologias de Diagnóstico Profª Cesaltina Pires 4

Qualidade do ajustamento R Pode mostrar-se que a variação total da variável explicada se pode decompor em: Variação explicada pelo modelo (y depende de x, e com x varia y também varia) + variação residual (não explicada pelo modelo) R = Variação explicada Variação total Metodologias de Diagnóstico Profª Cesaltina Pires 5 Qualidade do ajustamento R R diz-nos qual é a percentagem da variação total da variável dependente que é explicada pelo modelo No nosso exemplo R = 0,3, o que significa que 3% da variação total no salário é explicada pelo nosso modelo. Metodologias de Diagnóstico Profª Cesaltina Pires 13