AULA 12 - AJUSTAMENTO DE CURVAS E O MÉTODO DOS MÍNIMOS QUADRADOS Ajustamento de Curvas Sempre que desejamos estudar determinada variável em função de outra, fazemos uma análise de regressão. Podemos dizer que a análise de regressão tem por objetivo descrever, através de um modelo matemático, a relação entre duas variáveis, partindo de N observações das mesmas. A variável sobre a qual desejamos fazer uma estimativa recebe o nome de variável dependente e a outra recebe o nome de variável independente. Por exemplo, admita-se que X e Y representem, respectivamente, a altura e o peso de adultos do sexo masculino. Então, uma amostra de N indivíduos apresentaria as alturas X 1, X 2,...,X N e os pesos correspondentes Y 1, Y 2,...,Y N. Se marcarmos os pontos (X 1,Y 1 ), (X 2,Y 2 ),..., (X N,Y N ) em um sistema de coordenadas cartesianas. O conjunto de pontos resultantes é denominado, às vezes, diagrama de dispersão. No diagrama de dispersão é possível, frequentemente, visualizar uma curva regular que se aproxime dos dados. Essa curva é denominada de ajustamento. Método dos Mínimos Quadrados Para evitar o critério individual na construção de curvas que se adaptem ao conjunto de dados, é necessário instituir uma definição da melhor curva de ajustamento. DEF.: De todas as curvas que se ajustam a um conjunto de pontos, a que tem a propriedade de apresentar o mínimo valor de D 1 2 + D 2 2 +... + D N 2 é denominada a melhor curva de ajustamento. Sendo D i (desvio, erro, ou resíduo) a diferença entre Y i e o valor correspondente determinado na curva C (ajustamento). Consideremos os seguintes dados: X i 5 8 7 10 6 7 9 3 8 2 Y i 6 9 8 10 5 7 8 4 6 2 cujo diagrama de dispersão é dado por: MÉTODOS QUANTITATIVOS 1
Podemos concluir, pela forma do diagrama, que se trata de uma correlação retilínea, de modo a permitir o ajustamento de uma reta. A reta de mínimos quadrados que se ajusta ao conjunto de pontos (X 1,Y 1 ), (X 2,Y 2 ),..., (X N,Y N ) tem a equação: Y = a 0 + a 1 X, em que as constantes a 0 e a 1 são determinadas mediante a resolução simultânea do sistema de equações: ΣY = a 0 N + a 1 ΣX ΣXY = a 0 ΣX + a 1 ΣX 2 que são denominadas equações normais da reta de mínimos quadrados. As constantes a 0 e a 1 podem ser determinadas por meio das fórmulas: As equações normais são facilmente lembradas, quando se observa que a primeira pode ser obtida, formalmente, mediante a soma, membro a membro da equação Y = a 0 + a 1 X, isto é, ΣY = Σ( a 0 + a 1 X) = a 0 N + a 1 ΣX, enquanto a segunda é obtida, na realidade, multiplicando-se, primeiramente, ambos os membros de Y = a 0 + a 1 X por X e depois somando-as, isto é, ΣXY = ΣX(a 0 +a 1 X) = a 0 ΣX + a 1 ΣX 2. Note que não é feita dessa forma a dedução das equações normais, mas que esse é simplesmente um modo de recorda-las. O trabalho necessário para a determinação de uma reta de mínimos quadrados pode, muitas vezes, ser abreviado, por meio de uma transformação de coordenadas. A equação da reta de mínimos quadrados pode ser escrita como: onde, x = X X e y = Y - Y _ Em particular, se X é tal que ΣX = 0, isto é, X = 0, ela torna-se: A parábola de mínimos quadrados que se ajusta ao conjunto de pontos (X 1,Y 1 ), (X 2,Y 2 ),..., (X N,Y N ) tem a equação: Y = a 0 + a 1 X + a 2 X 2, cujas constantes a 0, a 1 e a 2 são determinadas mediante a resolução das equações: ΣY = a 0 N + a 1 ΣX + a 2 ΣX 2 ΣXY = a 0 ΣX + a 1 ΣX 2 + a 2 ΣX 3 ΣX 2 Y = a 0 ΣX 2 + a 1 ΣX 3 + a 2 ΣX 4 MÉTODOS QUANTITATIVOS 2
denominadas equações normais da parábola de mínimos quadrados. As equações normais da parábola são facilmente relembradas, quando se observar que elas podem ser obtidas, formalmente, mediante a multiplicação da equação Y = a 0 + a 1 X + a 2 X 2 por 1, X e X 2, respectivamente, e a soma membro a membro das equações resultantes. Essa técnica pode ser estendida, para obtenções das equações normais das curvas de 3 grau de mínimos quadrados, das de 4 grau e, em geral, de qualquer das curvas de mínimos quadrados que corresponda à equação Y = a 0 + a 1 X + a 2 X 2 +... +nax n. REGRESSÃO Deseja-se frequentemente, com base em dados amostrais, estimar o valor de uma variável Y, correspondente ao valor conhecido de uma variável X. Isso pode ser alcançado mediante uma estimação do valor de Y, a partir de uma curva de mínimos quadrados que se ajuste aos dados amostrais. A curva resultante é denominada de regressão de Y para X, visto que Y é estimado a partir de X. Se desejar estimar o valor de X a partir de um valor atribuído a Y, usar-se-á uma curva de regressão de X para Y, o que importa em uma permutação das variáveis, no diagrama de dispersão, de modo que X passa a ser a variável dependente e Y a independente. Isso equivale a substituir, na definição de curva de mínimos quadrados, os desvios verticais pelos horizontais. Em geral, a reta ou curva de regressão de Y para X não é igual à de X para Y. CORRELAÇÃO LINEAR Anteriormente, consideramos o problema da regressão ou estimação de uma variável (a dependente) a partir de uma ou mais variáveis correlatas (as independentes). Agora, consideraremos o problema estritamente relacionado, o da correlação, ou do grau de relação entre as variáveis, que procura determinar o quanto bem uma equação linear, ou de outra espécie, descreve ou explica a relação entre as variáveis. Se todos os valores das variáveis satisfazem exatamente uma equação, dizse que elas estão perfeitamente correlacionadas ou que há correlação perfeita entre elas. Assim, as circunferências C e os raios r de todos os círculos estão perfeitamente correlacionados, porque C = 2π r. Se dois dados são lançados simultaneamente 100 vezes, não há relação entre os pontos correspondentes a cada um deles (a não ser que os dados sejam viciados), isto é, eles são não correlacionados. Quando estão em análise apenas duas variáveis, fala-se em correlação e regressão simples. Quando se trata de mais de duas variáveis, fala-se de correlação e regressão múltipla. Se X e Y representam duas variáveis consideradas, um diagrama de dispersão mostra a localização dos pontos (X, Y) em um sistema de coordenadas MÉTODOS QUANTITATIVOS 3
retangulares. Se todos os pontos desse diagrama parecem cair nas proximidades de uma reta, como nas partes (a) e (b) da figura abaixo, a correlação é denominada linear. Nesses casos, uma equação linear é apropriada aos fins de regressão ou estimação. Se Y tende a aumentar quando X cresce, como na parte (a), a correlação é denominada positiva ou direta. Se Y tende a diminuir quando X aumenta, como na parte (b), a correlação é denominada negativa ou inversa. Se não há relação indicada entre as variáveis, como na parte (c) diz-se que não há correlação entre elas, isto é, elas são não correlacionadas. Observe que através de uma transformação conveniente, a origem pode ser colocada no centro da nuvem de dispersão. Na figura (a) nota-se que a grande maioria dos pontos estão situados no primeiro e no terceiro quadrantes. Nestes quadrantes as coordenadas têm o mesmo sinal, e, portanto o produto será sempre positivo. Assim, se para cada ponto fizermos o produto de suas coordenadas e somarmos esses produtos, o resultado será um número positivo, pois existem mais produtos positivos que negativos. Na figura (b) procedendo como anteriormente, a soma dos produtos das coordenadas será negativa. MÉTODOS QUANTITATIVOS 4
Na figura (c), a soma dos produtos das coordenadas deverá ser próxima de zero, pois cada resultado positivo tem um resultado negativo simétrico, anulando-se na soma. Baseado nessas propriedades é que iremos definir o coeficiente de correlação linear. Coeficiente de correlação O coeficiente de correlação linear irá medir quanto dos dados aproxima-se de uma reta. Antes de passarmos à definição do coeficiente de correlação, através do exemplo abaixo, cabe a seguinte observação: a soma dos produtos das coordenadas depende, e muito, do número de elementos. Numa situação de correlação positiva, a soma dos produtos das coordenadas tende a aumentar com o número de pontos, e ficaria difícil comparar essa medida para dois conjuntos diferentes de pontos. Isto é atenuado usando-se a média da soma dos produtos das coordenadas. Exemplo: Para a TABELA 1, TABELA 1 NÚMERO DE ANOS DE SERVIÇO POR NÚMERO DE CLIENTES DE 5 AGENTES DE UMA COMPANHIA DE SEGUROS - 2003 AGENTE ANOS DE SERVIÇO (X) NÚMERO DE CLIENTES (Y) A 2 48 B 4 56 C 5 64 D 6 60 E 8 72 o TOTAL 25 300 FONTE: Dados Hipotéticos onde temos os dados referentes ao número de anos de sérvio (X) e o número de clientes de clientes (Y) de 5 agentes. O primeiro problema que devemos resolver é a mudança da origem do sistema para o centro da nuvem de dispersão. O ponto mais conveniente é aquele formado pelas duas médias (x, y). As novas coordenadas obtidas são representadas na quarta e quinta colunas da tabela seguinte. MÉTODOS QUANTITATIVOS 5
x = 5 Dp(X) = 2 y = 60 Dp(Y) = 8 Observando esses valores centrados, verificamos que ainda existe um problema quanto à escala usada. A variável Y tem variabilidade muito maior do que X, e o produto ficará muito mais afetado pelos resultados de Y do que de X. Para corrigir isso, podemos reduzir as duas variáveis a uma mesma escala; isso é obtido dividindo-se os desvios pelos respectivos desvios padrões. Estes novos valores estão nas colunas 6 e 7. Observe as mudanças (escalas dos eixos) de variáveis realizadas, acompanhando as figura abaixo. Finalmente, na coluna 8, indicamos os produtos das coordenadas reduzidas e a soma dos mesmos, que como esperávamos, é positiva. Para completar a definição descrita acima, basta calcular a média dos produtos das coordenadas reduzidas, isto é: Portanto, para este exemplo, o grau de associabilidade linear está quantificado em 95%. MÉTODOS QUANTITATIVOS 6
Na discussão feita até aqui, podemos definir o coeficiente de correlação do seguinte modo: DEF.: Dados n pares de valores (x 1, y i ), (x 2, y 2 ),...,(x n, y n ), chama-se de coeficiente de correlação entre duas variáveis X e Y a ou seja, a média dos produtos dos valores reduzidos (padronizados) da variável. O coeficiente de correlação é um número que varia entre 1 e 1, isto é, -1 Corr (X,Y) 1 A definição acima é pouco operacional; assim, costuma-se usar as seguintes fórmulas equivalentes de cálculo: _ Substituindo, nesta última x por Σx i /n obtemos a fórmula seguinte, conhecida como coeficiente de correlação de Pearson. Erro padrão da estimativa Se Y est representar os valores de Y correspondentes a valores de X, estimados por meio da equação Y = a 0 + a 1 X, uma medida da dispersão em relação à reta de regressão de Y para X será dada pela fórmula: que é denominado erro padrão da estimativa de Y para X. Esta equação pode ser escrita sob a forma: que pode ser mais conveniente para o cálculo. MÉTODOS QUANTITATIVOS 7
O erro padrão da estimativa tem propriedades análogas às do desvio padrão. Por exemplo, se se construírem retas paralelas à de regressão de Y para X, com respectivas distâncias verticais s Y.X, 2s Y.X e 3s Y.X entre elas, verificar-se-á se N for suficientemente grande que estarão incluídos, entre essas retas, cerca de 68%, 95% e 99,7% dos pontos amostrais. Da mesma forma que o desvio padrão corrigido, dado por é conveniente para pequenas amostras, também o é o erro padrão corrigido dado por Por essa razão, alguns estatísticos preferem definir a expressão do erro padrão da estimativa, com o denominador modificado de N para N 2. Isto é, - Exercícios de Aplicação 1. Considere os resultados de dois testes, X e Y, obtidos por um grupo de alunos da escola A: (X) 11 14 19 19 22 28 30 31 34 37 (Y) 13 14 18 15 22 17 24 22 24 25 a) Verifique pelo diagrama de dispersão, se existe correlação retilínea. b) Em caso afirmativo, calcule o coeficiente de correlação. 2. Certa empresa, estudando a variação da demanda de seu produto em relação à variação de preço de venda, obteve a tabela: Preço (X) 38 42 50 56 59 63 70 80 95 110 Demanda 350 325 297 270 256 246 238 223 215 208 (Y) a) Existe alguma relação entre o preço e a demanda? Em caso afirmativo estabeleça a relação existente. b) Estime Y para X = 60 e X =120 3. A produção de aço nos Estados Unidos, em milhões de toneladas, durante os anos de 1946 1 1956, está indicada na TABELA 1: TABELA 1 PRODUÇÃO DE AÇO NOS ESTADOS UNIDOS MÉTODOS QUANTITATIVOS 8
TONELADAS 1946-1956 ANOS PRODUÇÃO (tn) 1946 66,6 1947 84,9 1948 88,6 1949 78,0 1950 96,8 1951 105,2 1952 93,2 1953 111,6 1954 88,3 1955 117,0 1956 115,2 FONTE: Instituto Americano de Ferro e Aço a) Representar graficamente os dados b) Determinar a equação de uma reta de mínimos quadrados que se ajuste aos dados c) Estimar a produção de aço, durante os anos de 1957 e 1958, e compará-la com os valores reais, de 112,7 e 85,3 milhões de toneladas, respectivamente. d) Estimar a produção de aço, durante os anos de 1945 e 1944, e compará-la com os valores reais, de 79,7 e 89,6 milhões de toneladas; respectivamente. 4. Pretendendo-se estudar a relação entre as variáveis consumo de energia elétrica (X) e volume de produção nas empresas industriais (Y), fez-se uma amostragem que inclui vinte empresas, computando-se os seguintes valores: Σx i = 11,34, Σy i =20,72, Σx i 2 = 12,16, Σy i 2 = 84,96 e Σx i y i = 22,13 Determine: a) o cálculo do coeficiente de correlação b) a equação de regressão de Y para X c) a equação de regressão de X para Y 5. Um grupo de pessoas fez uma estimação do peso aparente de alguns objetos. Com o peso real e a média dos pesos aparentes, dados pelo grupo, obteve-se a tabela: PESO REAL 18 30 42 62 73 97 120 MÉTODOS QUANTITATIVOS 9
PESO APARENTE 10 23 33 60 91 98 159 a) Calcule o coeficiente de correlação entre os pesos aparente e real. b) Calcule o erro padrão da estimativa. c) É correto afirmar que houve uma boa estimação dos pesos dos objetos? MÉTODOS QUANTITATIVOS 10