1 ESTATÍSTICA E PROBABILIDADE Aula Regressão e Correlação Linear Professor Luciano Nóbrega
Regressão e Correlação Quando consideramos a observação de duas ou mais variáveis, surge um novo problema: -as relações que podem existir entre as variáveis estudadas. Assim, quando consideramos variáveis como por exemplo: -peso e altura de um grupo de pessoas; -uso de cigarro e incidência de câncer; -horas trabalhadas e salário à receber; etc... Procuramos verificar se existe alguma relação entre as variáveis de cada um dos pares e qual o grau dessa relação. Uma vez caracterizada a relação, procuramos descrevê-la através de uma função matemática. A regressão é o instrumento adequado para a determinação dos parâmetros da função. Sendo a relação entre as variáveis de natureza quantitativa, dizemos que a correlação é o instrumento adequado para descobrir e medir essa relação.
3 Correlação As relações entre grandezas do tipo: perímetro e lado de um quadrado são conhecidas como relações funcionais, pois existe uma função que associa uma à outra. Aqui, perímetro = 4 x lado. Enquanto que as grandezas do tipo: peso e altura são conhecidas como relações estatísticas, uma vez que, apesar de podermos fazer uma estimativa do peso de uma pessoa baseando-se na sua altura, não podemos formalizar uma expressão matemática. Quando duas variáveis estão ligadas por uma relação estatística, dizemos que existe correlação entre elas.
4 Correlação Diagrama de dispersão Consideremos uma amostra aleatória, formada por dez dos 98 alunos desta classe e pelas notas obtidas por eles em Matemática Financeira e Estatística. Representando, em um plano Aluno Notas Mat. Finaceira Estatística A 5,0 6,0 M 8,0 9,0 O 7,0 8,0 T 10,0 10,0 Od 6,0 5,0 Os 7,0 7,0 V 9,0 8,0 Oc 3,0 4,0 Ê 8,0 6,0 Xs,0,0 cartesiano, os pares ordenados (x,y), obtemos uma nuvem de pontos que denominamos diagrama de dispersão.
5 Correlação Correlação Linear Se os pontos obtidos, vistos em conjunto, formam uma elipse diagonal, então essa correlação de forma elíptica tem como imagem uma reta, e por isso é denominada correlação linear.
6 Correlação Classificação Assim, uma correlação pode ser: - Linear positiva: se os pontos têm como imagem uma reta ascendente; - Linear negativa: se os pontos têm como imagem uma reta descendente; - Não-linear: se os pontos têm como imagem uma curva.
7 Correlação Coeficiente de Correlação Linear O instrumento empregado para a medida da correlação linear é o coeficiente de correlação. Esse coeficiente deve indicar o grau de intensidade da correlação entre as duas variáveis e, ainda, o sentido dessa correlação (positivo ou negativo). r O coeficiente de correlação de Pearson é dado por: n x i yi xi yi n x i xi n y i yi Calma! Essa fórmula é mais fácil do que parece...
8 Correlação r n x i yi xi yi n x i xi n y i yi Onde: r é o coeficiente de correlação;r está sempre entre -1 e 1 n é o número de observações; x i e y i são as observações de uma mesma linha. O numerador é a diferença entre o somatório de x i e y i multiplicado por n e o produto entre o somatório de x i e o somatório de y i O denominador é o produto entre o somatório dos quadrados de x i multiplicado por n menos o quadrado do somatório de x i e a mesma coisa só que y ao invés de x. Quando: r = +1 então há correlação positiva entre duas variáveis; r = -1 então há correlação negativa; r = 0 então não há correlação entre as variáveis.
9 Correlação Para que o Coeficiente de Correlação de Pearson possa descrever um resultado expressivo, é imprescindível que ele se aproxime de uma função linear. Isso ocorre quando verificamos que o diagrama de dispersão se comporta aparentemente como uma reta. Algebricamente, podemos tirar conclusões segundo os parâmetros: 0,6 r 1 Ideal 0,3 r < 0,6 Correlação Fraca 0 < r < 0,3 Correlação Muito Fraca Não serve! r = 0 Não existe Correlação.
Exemplo: 10 Vamos calcular o coeficiente de correlação da tabela que segue: Aluno Notas Mat. Finaceira Estatística A 5,0 6,0 M 8,0 9,0 O 7,0 8,0 T 10,0 10,0 Od 6,0 5,0 Os 7,0 7,0 V 9,0 8,0 Oc 3,0 4,0 Ê 8,0 6,0 Xs,0,0 Total x i f i x i y i r n xi yi xi yi n x i xi n y i yi
Exemplo: Calcule o coeficiente de correlação da tabela que segue: 11 x i 4 6 8 10 1 Y i 1 10 8 1 14
1 Regressão Ajustamento da Reta Sempre que desejamos estudar determinada variável em função de outra fazemos uma análise de regressão. A análise de regressão tem por objetivo descrever, através de um modelo matemático, a relação entre duas variáveis, partindo de n observações das mesmas. A variável a qual desejamos fazer uma estimativa recebe o nome de variável dependente e a outra recebe o nome de variável independente. Supondo X a variável independente e Y a dependente, vamos procurar determinar o ajustamento de uma reta à relação entre essas variáveis, ou seja, vamos obter uma função definida por: Y = ax + b onde a e b são parâmetros.
13 Regressão Sejam duas variáveis X e Y, entre as quais exista uma correlação acentuada, embora não perfeita, como as que formam a tabela a seguir: x i 5 8 7 10 6 7 9 3 8 y i 6 9 8 10 5 7 8 4 6 Podemos concluir, pela forma do diagrama, que se trata de uma correlação retilínea, de modo a permitir o ajustamento de uma reta, imagem da função definida por: Y = ax + b. Onde: n é o número de observações; x é a média dos valores de x; y é a média dos valores de y.
14 Regressão Vamos então completar a tabela: a =? x =? y =? b =? Y =? Total 5,0 6,0 8,0 9,0 7,0 8,0 10,0 10,0 6,0 5,0 7,0 7,0 9,0 8,0 3,0 4,0 8,0 6,0,0,0 x i y i x i y i
15 Solução: Regressão Assim, podemos estimar valores que não pertenciam à tabela inicial: Exemplo: Se X = 4,0, temos Y = 4,33 Se X = 1,0, temos Y = 1,75
Exemplo: Calcule o ajustamento de uma reta para os dados: 16 x i 4 6 8 10 1 14 Y i 30 5 18 15 11 10 x i y i =? x i =?
17 Testando seus conhecimentos 1 A tabela abaixo apresenta valores que mostram como o comprimento de uma barra de aço varia conforme a temperatura: Temperatura 10 15 0 5 30 Comprimento 1,003 1,005 1,010 1,011 1,014 a) Construa o diagrama de dispersão; b) Calcule o coeficiente de correlação; c) O ajustamento da reta; d) O valor estimado do comprimento da barra para uma temperatura de 18º C; e) O valor estimado da temperatura quando a barra medir exatamente 1