Prof. Lorí Viali, Dr.

Documentos relacionados
É o grau de associação entre duas ou mais variáveis. Pode ser: correlacional ou experimental.

CORRELAÇÃO E REGRESSÃO

Em muitas situações duas ou mais variáveis estão relacionadas e surge então a necessidade de determinar a natureza deste relacionamento.

É o grau de associação entre duas ou mais variáveis. Pode ser: correlacional ou. experimental.

Prof. Lorí Viali, Dr.

Análise de Regressão

1. CORRELAÇÃO E REGRESSÃO LINEAR

Associação entre duas variáveis quantitativas

Estatística II Antonio Roque Aula 18. Regressão Linear

NOÇÕES SOBRE CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES

Análise de Regressão. Profa Alcione Miranda dos Santos Departamento de Saúde Pública UFMA

Regressão Múltipla. Parte I: Modelo Geral e Estimação

3 Metodologia de Avaliação da Relação entre o Custo Operacional e o Preço do Óleo

Análise Exploratória de Dados

Covariância na Propagação de Erros

Contabilometria. Aula 8 Regressão Linear Simples

PRESSUPOSTOS DO MODELO DE REGRESSÃO

CAPÍTULO 2 DESCRIÇÃO DE DADOS ESTATÍSTICA DESCRITIVA

Gabarito da Lista de Exercícios de Econometria I

MOQ-14 PROJETO E ANÁLISE DE EXPERIMENTOS LISTA DE EXERCÍCIOS 1 REGRESSÃO LINEAR SIMPLES

Curso de extensão, MMQ IFUSP, fevereiro/2014. Alguns exercício básicos

Algarismos Significativos Propagação de Erros ou Desvios

MODELOS DE REGRESSÃO PARAMÉTRICOS

Eventos coletivamente exaustivos: A união dos eventos é o espaço amostral.

O problema da superdispersão na análise de dados de contagens

Os modelos de regressão paramétricos vistos anteriormente exigem que se suponha uma distribuição estatística para o tempo de sobrevivência.

DEFINIÇÃO - MODELO LINEAR GENERALIZADO

RISCO. Investimento inicial $ $ Taxa de retorno anual Pessimista 13% 7% Mais provável 15% 15% Otimista 17% 23% Faixa 4% 16%

Testes não-paramétricos

Regressão Linear Simples. Frases. Roteiro

É o grau de associação entre duas ou mais variáveis. Pode ser: correlacional ou experimental.

2 Incerteza de medição

PROVA DE ESTATÍSTICA & PROBABILIDADES SELEÇÃO MESTRADO/UFMG 2010/2011

Capítulo 1. Exercício 5. Capítulo 2 Exercício

MOQ-14 PROJETO e ANÁLISE de EXPERIMENTOS. Professor: Rodrigo A. Scarpel

Regressão e Correlação Linear

FICHA de AVALIAÇÃO de MATEMÁTICA A 10.º Ano Versão 4

FICHA de AVALIAÇÃO de MATEMÁTICA A 10.º Ano Versão 1

Ao se calcular a média, moda e mediana, temos: Quanto mais os dados variam, menos representativa é a média.

FICHA de AVALIAÇÃO de MATEMÁTICA A 10.º Ano Versão 3

Ao se calcular a média, moda e mediana, temos: Quanto mais os dados variam, menos representativa é a média.

Universidade de São Paulo Escola Superior de Agricultura Luiz de Queiroz Departamento de Ciências Exatas

Realimentação negativa em ampliadores

Modelo de Regressão Simples

ANÁLISE DA VARIÂNCIA DA REGRESSÃO

X = 1, se ocorre : VB ou BV (vermelha e branca ou branca e vermelha)

UMA ABORDAGEM ALTERNATIVA PARA O ENSINO DO MÉTODO DOS MÍNIMOS QUADRADOS NO NÍVEL MÉDIO E INÍCIO DO CURSO SUPERIOR

UNIVERSIDADE NOVA DE LISBOA Faculdade de Economia Análise de Dados e Probabilidade 2º Semestre 2008/2009 Exame Final 1ª Época. Grupo I (4 Valores)

Eletrotécnica AULA Nº 1 Introdução

Problemas Propostos. Frações mássicas, volúmicas ou molares. Estequiometria.

Transcrição:

Prof. Lorí Val, Dr. val@mat.ufrgs.br http://www.mat.ufrgs.br/~val/ 1

É o grau de assocação entre duas ou mas varáves. Pode ser: correlaconal ou expermental.

Numa relação expermental os valores de uma das varáves são controlados. No relaconamento correlaconal, por outro lado, não se tem nenhum controle sobre as varáves sendo estudadas. 3

4

Um engenhero químco está nvestgando o efeto da temperatura de operação do processo no rendmento do produto. O estudo resultou nos dados da tabela segunte: 5

Temperatura, C 0 (X) Rendmento (Y) 100 45 110 51 10 54 130 61 140 66 150 70 160 74 170 78 180 85 190 89 6

O prmero passo para determnar se exste relaconamento entre as duas varáves é obter o dagrama de dspersão (scatter dagram). 7

100 75 Rendmento (Y) 50 5 Temperatura (X) 0 100 10 140 160 180 00 8

O dagrama de dspersão fornece uma déa do tpo de relaconamento entre as duas varáves. Neste caso, percebe-se que exste um relaconamento lnear. 9

Quando o relaconamento entre duas varáves quanttatvas for do tpo lnear, ele pode ser meddo através do: 10

11

Observado um relaconamento lnear entre as duas varáves é possível determnar a ntensdade deste relaconamento. O coefcente que mede este relaconamento é denomnado de Coefcente de Correlação (lnear). 1

Quando se está trabalhando com amostras o coefcente de correlação é ndcado pela letra r e é uma estmatva do coefcente de correlação populaconal que é representado por ρ (rho). 13

14

Para determnar o coefcente de correlação (grau de relaconamento lnear entre duas varáves) vamos determnar ncalmente a varação conjunta entre elas, sto é, a covarânca. 15

A covarânca entre duas varáves X e Y, é representada por Cov(X Cov(X; Y) e calculada por: Cov( X,Y ) ( X X )( Y n 1 Y ) 16

17 Mas + + + + nxy Y X nxy nxy nxy Y X XY X Y Y X Y X XY Y X X Y Y X ] XY Y X X Y Y X [ ) Y Y )( X X (

Então: Cov( X,Y ) ( X X )( Y n 1 Y ) X Y n nxy 1 18

A covarânca podera ser utlzada para medr o grau e o snal do relaconamento entre as duas varáves, mas ela é dfícl de nterpretar por varar de - a +. Assm vamos utlzar o coefcente de correlação lnear de Pearson. 19

O coefcente de correlação lnear (de Pearson) é defndo por: r Cov( X,Y S X S Y ) 0

Onde: Cov( X,Y ) X Y n nxy 1 S X X n X n 1 S Y Y ny n 1 1

Esta expressão não é muto prátca para calcular manualmente o coefcente de correlação. Pode-se obter uma expressão mas convenente para o cálculo manual e o cálculo de outras meddas necessáras mas tarde.

Tem-se: Cov( X,Y ) r S X SY X Y nxy n 1 X n X Y ny n 1 n 1 X Y nxy ( X )( ) n X ny Y 3

F a z e n d o S Fazendo: S S XY XX YY X Y X n X Y ny S XY Tem se : r S XX YY.S nxy 4

A vantagem do coefcente de correlação (de Pearson) é ser admensonal e varar de 1 a + 1, que o torna de fácl nterpretação. 5

Assm se r -1, temos uma relaconamento lnear negatvo perfeto, sto é, os pontos estão todos alnhados e quando X aumenta Y decresce e vce-versa. 6

50 40 r 1 30 0 10 0 10 15 0 5 30 7

Se r +1, temos uma relaconamento lnear postvo perfeto, sto é, os pontos estão todos alnhados e quando X aumenta Y também aumenta. 8

50 40 r +1 30 0 10 0 10 15 0 5 30 9

Assm se r 0, temos uma ausênca de relaconamento lnear, sto é, os pontos não mostram alnhamento. 30

50 40 r 0 30 0 10 0 10 15 0 5 30 31

Assm se 1 < r < 0, temos uma relaconamento lnear negatvo, sto é, os pontos estão mas ou menos alnhados e quando X aumenta Y decresce e vce-versa. 3

50 40 1 < r < 0 30 0 10 0 10 15 0 5 30 33

Assm se 0 < r < 1, temos uma relaconamento lnear postvo, sto é, os pontos estão mas ou menos alnhados e quando X aumenta Y também aumenta. 34

50 40 0 < r < 1 30 0 10 0 10 15 0 5 30 35

Uma correlação amostral não sgnfca necessaramente uma correlação populaconal e vce-versa. É necessáro testar o coefcente de correlação para verfcar se a correlação amostral é também populaconal. 36

Observada uma amostra de ses pares, pode-se perceber que a correlação é quase um, sto é, r 1. No entanto, observe o que ocorre quando mas pontos são acrescentados, sto é, quando se observa a população! 37

50 40 r 1 30 0 10 0 ρ 0 10 15 0 5 30 38

39

Determnar o grau de relaconamento lnear entre as varáves X temperatura de operação do processo versus Y rendmento do produto, conforme tabela. 40

X Y XY X Y 100 45 4500 10000 05 110 51 5610 1100 601 10 54 6480 14400 916 130 61 7930 16900 371 140 66 940 19600 4356 150 70 10500 500 4900 160 74 11840 5600 5476 170 78 1360 8900 6084 180 85 15300 3400 75 190 89 16910 36100 791 1450 673 101570 18500 475 41

Vamos calcular r utlzando a expressão em destaque vsta anterormente, sto é, através das quantdades, S xy, S XX e S YY. 4

Tem-se: n 10 X 1450 Y 673 X 145 Y 67,3 XY 101570 X 18500 Y 475 Então: S XY X Y nxy 101570 10.145.67,3 3985 43

S XX 18500 850 X n X 10.145 S YY Y ny 475 10.67,3 193,10 44

r S S XX XY.S YY 850.193,10 0,9981 3985 45

Apesar de r ser um valor admensonal, ele não é uma taxa. Assm o resultado não deve ser expresso em percentagem. 46

Prof. Lorí Val, Dr. val@mat.ufrgs.br http://www.mat.ufrgs.br/~val/ 47

Em mutas stuações duas ou mas varáves estão relaconadas e surge então a necessdade de determnar a natureza deste relaconamento. 48

A análse de regressão é uma técnca estatístca para modelar e nvestgar o relaconamento entre duas ou mas varáves. 49

De fato a regressão pode ser dvdda em dos problemas: () o da especfcação e () o da determnação. 50

O problema da especfcação é descobrr dentre os possíves modelos (lnear, quadrátco, exponencal, etc.) qual o mas adequado. 51

O problema da determnação é uma vez defndo o modelo (lnear, quadrátco, exponencal, etc.) estmar os parâmetros da equação. 5

Normalmente é suposto que exsta uma varável Y (dependente ou resposta), que está relaconada a k varáves (ndependentes ou regressoras) X ( 1,,..., k). 53

A varável resposta Y é aleatóra, enquanto que as varáves regressoras X são normalmente controladas. O relaconamento entre elas é caracterzado por uma equação denomnada de equação de regressão 54

Quando exstr apenas uma varável regressora (X) tem-se a regressão smples, se Y depender de duas ou mas varáves regressoras, então tem-se a regressão múltpla. 55

Vamos supor que a regressão é do tpo smples e que o o modelo seja lnear, sto é, vamos supor que a equação de regressão seja do tpo: Y α + βx + U 56

y Y α + βx + U; x 1 x x n x 57

O termo U é o termo erro, sto é, U representa outras nfluêncas sobre a varável Y, além da exercda pela varável X. A varação resdual (termo U) é suposto de méda zero e desvo constante e gual a σ. 58

Ou anda pode-se admtr que o modelo fornece o valor médo de Y, para um dado x, sto é, E(Y/x) α + βx 59

Y α + βx + U; E(Y/x) α + βx, sto é, E(U) 0 V(Y/x) σ ; Cov(U, Uj) 0, para j; A varável X permanece fxa em observações sucessvas e os erros U são normalmente dstrbuídos. 60

O modelo suposto E(Y/x) E(Y/x) α + βx é populaconal. Vamos supor que se tenha n pares de observações, dgamos: (x (x 1, y 1 ), (x, y ),..., (x n, y n ) e que através deles queremos estmar o modelo acma. 61

por: A reta estmada será representada Ŷ a + bx ou Y a + bx + Onde a é um estmador de α e b é um estmador de β, sendo estmador de E(Y/x). Ŷ E um 6

Exstem dversos métodos para a determnação da reta desejada. Um deles, denomnado de MMQ (Métodos dos Mínmos Quadrados), consste em mnmzar a soma dos quadrados das dstâncas da reta aos pontos. 63

Tem-se: Y a + bx + E, Então: E Y - (a + bx ) 64

65 Deve-se mnmzar: φ n 1 n 1 n 1 ) bx a Y ( ) Ŷ Y ( E

Y a + b X + E y ŷ E x 66

67 Dervando parcalmente tem-se: ) X b a Y ( x b ) X b a Y ( a n 1 n 1 φ φ

68 Igualando as dervadas parcas a zero vem: 0 ) X b a Y ( x 0 ) X b a Y ( n 1 n 1

Isolando as ncógntas, tem-se: Y na + b X X Y n X + b X 69

Resolvendo para a e b, segue: b X y X nxy n X S S XY XX a Y bx 70

Lembrando que: Fazendo: S S S XY XX YY X Y nxy X n X Y ny 71

7

Um engenhero químco está nvestgando o efeto da temperatura de operação do processo no rendmento do produto. O estudo resultou nos dados da tabela, ao lado. Determnar a lnha de regressão. 73

Temperatura, C 0 (X) Rendmento (Y) 100 45 110 51 10 54 130 61 140 66 150 70 160 74 170 78 180 85 190 89 74

Da mesma forma que para calcular o coefcente de correlação é necessáro a construção de três novas colunas. Uma para X, uma para Y e outra para XY. 75

X Y XY X Y 100 45 4500 10000 05 110 51 5610 1100 601 10 54 6480 14400 916 130 61 7930 16900 371 140 66 940 19600 4356 150 70 10500 500 4900 160 74 11840 5600 5476 170 78 1360 8900 6084 180 85 15300 3400 75 190 89 16910 36100 791 1450 673 101570 18500 475 76

Tem-se: n 10 X 1450 Y 673 X 145 Y 67,3 XY 101570 X 18500 Y 475 Então: S XY X Y nxy 101570 10.145.67,3 3985 77

S XX 18500 850 X n X 10.145 S YY Y ny 475 10.67,3 193,10 78

A equação de regressão, será, então: b S S XY XX 3985 850 0,4830 0,48 a Y bx 67,30 0,4830.145,7394, 74 Ŷ,74 + 0,48x 79

A pergunta que cabe agora é: este modelo representa bem os pontos dados? A resposta é dada através do erro padrão da regressão. 80

81

O objetvo do MMQ é mnmzar a varação resdual em torno da reta de regressão. Uma avalação desta varação é dada por: S E n ( Y a bx n ) 8

O cálculo da varânca resdual, por esta expressão, é muto trabalhoso, pos é necessáro prmero determnar os valores prevstos. Entretanto é possível obter uma expressão que não requera o cálculo dos valores prevstos, sto é, de Ŷ a + bx 83

( Desenvolvendo o numerador da expressão, vem: Y a bx ) [ Y ( Y bx ) bx ] [ Y Y + bx bx ] [ Y Y b( X X )] ( Y Y ) b ( X X )( Y Y ) + b ( X X ) S YY bs XY + b S XX 84

Uma vez que: ( X X )( Y Y ) X Y nxy S ( X X ) ( Y Y ) X n X XY Y ny S S XX YY 85

Mas: Deste modo, tem-se: ( Y a bx ) SYY bs XY + b S XX Então: b S S ( Y a bx ) S YY b S XY XX XX S YY + b S b S S XX XY XY S YY b S + b b S S XX XX XX 86

87 Fnalmente: n b S S n S b S n ) bx a Y ( n E s XY YY XX YY

88

Consderando os valores do exemplo anteror, determnar o erro padrão da regressão. Tem-se se: S YY 193,10 S XX 850 b S S XY XX 3985 850 0,4830 89

Então: s S YY n b S XY 193,10 10 3985 850.3985 0,9503 0,95 90

91

Y Ŷ Y Y Y Y Ŷ Ŷ Y Y Y Y Ŷ + Ŷ Y ( Y Y ) ( Y Ŷ ) + ( Ŷ Y ) VT VR + VE x 9

VR (a) Varação Total: VT VT ( ) Y Y S YY (b) Varação Resdual: VR ( ) Y Ŷ S b YY S XX VT VE (c) Varação Explcada: VE VE ( ) Ŷ Y b S XX 93

Uma manera de medr o grau de aderênca (adequação) de um modelo é verfcar o quanto da varação total de Y é explcada pela reta de regressão. 94

Para sto, toma-se o quocente entre a varação explcada, VE, pela varação total,vt: R VE / VT Este resultado é denomnado de Coefcente de Determnação. 95

R VE bs XX b S XY VT SYY S YY Este resultado mede o quanto as varações de uma das varáves são explcadas pelas varações da outra varável. S S XY S XX YY 96

Ou anda, ele mede a parcela da varação total que é explcada pela reta de regressão, sto é: VE b S XX R SYY A varação resdual corresponde a: VR ( 1 R ) SYY Assm 1 R é o Coefcente de Indetermnação. 97

98

O % de mpurezas no gás oxgêno produzdo por um processo de destlação supõem-se que esteja relaconado com o % de hdrocarbono no condensador prncpal do processador. Os dados de um mês de operação produzram a segunte tabela 99

X Y X Y 1,0 86,91 1,46 96,73 1,11 89,85 1,55 99,4 1,43 90,8 1,55 98,66 1,11 86,34 1,55 96,07 1,01 9,58 1,40 93,65 0,95 87,33 1,15 87,31 1,11 86,9 1,01 95,00 0,87 91,86 0,99 96,85 1,43 95,61 0,95 85,0 1,0 89,86 0,98 90,56 100

(a) Ajuste um modelo lnear aos dados; (b) Teste a exstênca da regressão; (c) Determne o valor de R para este modelo; (d) Determne um IC, de 95%, para o valor da pureza, na hpótese do % de hdrocarbono ser 1,0%. 101