Correlação Estatística e Probabilidade Uma correlação é uma relação entre duas variáveis. Os dados podem ser representados por pares ordenados (x,y), onde x é a variável independente ou variável explanatória e y é a variável dependente ou resposta. Nesta aula aprenderemos* a descrever o tipo de relação ou correlação que há entre duas variáveis e a determinar se a correlação é significante. *espero...
Correlação Estatística e Probabilidade Variável explanatória (ou independente) x Uma relação entre duas variáveis. Horas de treinamento Número do sapato Cigarros fumados por dia Nota no vestibular Altura Variável resposta (ou dependente) Que tipo de relação existe entre as duas variáveis? A correlação é significante? y Número de acidentes Altura Capacidade pulmonar Média de notas na graduação QI
Correlação Mapas de Dispersão Mapas de dispersão podem ser usados para determinar se existe uma correlação linear (uma reta, do you know?!) entre duas variáveis. Exemplo: 60 50 x = horas de treinamento y = número de acidentes Acidentes 40 30 20 10 0 0 2 4 6 8 10 12 14 16 18 20 Horas de treinamento Correlação negativa: à medida que x cresce, y decresce.
Correlação Mapas de Dispersão Exemplo: Média de notas na graduação 4,00 3,75 3,50 3,25 3,00 2,75 2,50 2,25 2,00 1,75 1,50 300 350 400 450 500 550 600 650 700 750 800 Nota no vestibular Correlação positiva: à medida que x cresce, y cresce também.
Correlação Mapas de Dispersão Exemplo: QI 160 150 140 130 120 110 100 90 80 x = altura y = QI 60 64 68 72 76 80 Altura Não há correlação linear.
Coeficiente de correlação - r O Coeficiente de correlação é uma medida do grau e da relação entre duas variáveis. O símbolo r representa o coeficiente de correlação amostral e é dado por: Na equação acima n é o número de pares de dados. O coeficiente de correlação populacional é definido por ρ. Lembre-se que: x ( x) 2 significa elevar ao quadrado cada valor e somar os quadrados 2 significa somar os valores e elevar ao quadrado a soma
Coeficiente de correlação - r O intervalo de r varia de 1 a 1. 1 0 1 Se r está próximo de 1, há uma forte correlação negativa. Se r está próximo de 0, não há correlação linear. Se r está próximo de 1, há uma forte correlação positiva.
Coeficiente de correlação - r Exemplo: Na tabela abaixo temos os dados do número de faltas e da nota final para a disciplina de Estatística, do curso de Eng. Alimentos da UFMA lá de Imperatriz Calcule o coeficiente de correlação r. Faltas (x) Nota Final (y) 100 90 8 2 5 12 78 92 90 58 Nota Final 80 70 60 15 43 50 9 6 74 81 40 0 2 4 6 8 10 12 14 16 Faltas
Exemplo (cont): Calculando r... Estatística e Probabilidade Dica: Organize seus dados em uma tabela e calcule o que for necessário x 8 2 5 12 15 y 78 92 90 58 43 xy 624 184 450 696 645 x 2 64 4 25 144 225 y 2 6.084 8.464 8.100 3.364 1.149 9 74 666 81 5.476 Soma 6 57 81 516 486 3751 36 579 6.561 39.898 = 7(3.753) (57)(516) 7(579) (57) 2 7(39.898) (516) 2 3.155 Como r está próximo de -1, temos uma 0,975 forte correlação linear negativa 13.030
Teste de hipóteses para um coeficiente de correlação populacional.
Teste de hipóteses para determinar a significância de um coeficiente de correlação O coeficiente de correlação para uma amostra é r O coeficiente de correlação populacional é ρ (rô). Um teste de hipóteses para ρ pode ser mono ou bicaudal. (não existe correlação negativa significante.) (A correlação negativa é significante.) Teste monocaudal esquerdo (não existe correlação positiva significante.) (A correlação positiva é significante.) Teste monocaudal direito
Teste de hipóteses para determinar a significância de um coeficiente de correlação Neste curso consideraremos apenas testes de hipótese para ρ que seja bicaudal (A correlação não é significante.) (A correlação é significante.) Teste bicaudal A distribuição amostral de r é uma distribuição t com g.l = n 2 Estatística teste padronizada:
Teste t para um coeficiente de correlação Acabamos de encontrar a correlação entre o número de faltas e a nota final dos alunos de estatística da UFMA, r = 0,975. Há sete pares de dados. Teste a significância α dessa correlação r. Use α = 0,01. 1. Estabeleça as hipóteses nula e alternativa. H 0 H a (A correlação não é significante.) (A correlação é significante.) Teste bicaudal 2. Estabeleça o nível de significância. α= 0,01 Teste bicaudal 3. Identifique a distribuição amostral. Uma distribuição t com cinco graus de liberdade. Para 5 g.l. e α/2=0,005 temos t c = 4,032 α/2=0,005
Teste t para um coeficiente de correlação 4. Determine o valor crítico. 5. Determine a região de rejeição. Regiões de rejeição t 4,032 0 4,032 6. Determine a estatística teste. Valores críticos ± t 0 0,975 0,975 0,975 0,975, 0,049375 0,009875 0,09937 9,811
Teste t para um coeficiente de correlação 7. Tome sua decisão. t = 9,811 cai na região de rejeição. Rejeite a hipótese nula. 8. Interprete sua decisão. t 0 4,032 4,032 Há, sim, uma correlação significante entre o número de faltas e as notas finais. Nos testes de hipótese para correlação, rejeitar a hipótese nula sempre significa que há evidências suficiente para provar que a correlação é significante.
Regressão linear Encontrando a equação da reta
Regressão linear A reta de regressão Depois de constatar que existe uma correlação linear significante, você pode escrever uma equação que descreva a relação entre as variáveis x e y. Essa equação chama-se reta de regressão ou reta do ajuste ótimo. Pode-se escrever a equação de uma reta como y = mx + b, onde m é a inclinação da reta e b, o intercepto y. Assim, a reta de regressão é: A inclinação m é: E o intercepto y é:
Regressão linear A reta de regressão No mapa de dispersão abaixo, d representa a diferença entre o valor observado de y e o valor previsto de y sobre a reta. Resíduo d = (valor y observado) (valor y previsto) valor observado Receita d 4 valor previsto d 3 Investimento em publicidade A reta de regressão é aquela para qual a soma dos quadrados de todos os resíduos é um mínimo d 2 é um mínimo
Regressão linear A reta de regressão Calcule m e b e escreva a equação da reta de regressão x 8 2 5 y 78 92 90 xy 624 184 450 x 2 64 4 25 y 2 6.084 8.464 8.100 x = número de faltas y = nota final. 12 15 9 58 43 74 696 645 666 144 225 81 3.364 1.149 5.476 6 81 486 36 6.561 57 516 3751 579 39.898 (3.751) 73,714 ( 3,924)(8,143) 105,667 A reta de regressão é: = 3,924x + 105,667
Regressão linear A reta de regressão m = 3,924 e b = 105,667 A reta de regressão é: 3,924 105,667 Nota final 95 90 85 80 75 70 65 60 55 50 45 40 0 2 4 6 8 10 12 14 16 Faltas Note que o ponto = (8,143, 73,714) está na reta.
Prevendo valores y Com a reta de regressão, é possível prever valores de y correspondentes aos valores de x que caiam em determinado intervalo de dados. A equação de regressão para o número de faltas e a nota final é: = 3,924x + 105,667 Use essa equação para prever a nota esperada de um aluno com: (a) 3 faltas (b) 12 faltas (a) = 3,924(3) + 105,667 = 93,895 (b) = 3,924(12) + 105,667 = 58,579
Medidas de regressão O Coeficiente de determinação O coeficiente de determinação, r 2, é a razão entre a variação explicada em y e a variação total em y. Variação explicada Variação total O coeficiente de correlação entre as faltas e a nota final era r = 0,975. O coeficiente de determinação é r 2 = ( 0,975) 2 = 0,9506. Interpretação: cerca de 95% da variação nas notas finais pode ser explicada pelo número de vezes que o aluno falta. Os outros 5% são inexplicados e podem dever-se a um erro amostral ou outras variáveis, como inteligência, tempo dedicado aos estudos, etc.
O erro padrão da estimativa O erro padrão da estimativa, s e, é o desvio padrão dos valores y i observados em torno do valor previsto para um dado x i. Ele é dado por: Onde n é o número de pares ordenados do conjunto dado
O erro padrão da estimativa Exemplo Calcule o erro padrão da estimativa Calcule 3,924x 105,667 para cada x i valor previsto x y 2 ( y yˆ) 8 78 2 92 5 90 12 58 15 43 9 74 6 81 74,275 97,819 86,047 58,579 46,807 70,351 82,123 13,8756 33,8608 15,6262 0,3352 14,4932 13,3152 1,2611 92,767 92,767 = 4,307 Erro padrão ou desvio padrão
E hoje hoje acabou acabou tudo... tudo... Terminou Terminou hoje hoje a matéria matéria da da 3ª. 3ª. avaliação. avaliação. Data Data da da Prova Prova (02/06/10, (02/06/10, Ok???!!!) Ok???!!!) Lista Lista de de exercícios exercícios no no site! site!