É o grau de associação entre duas ou mais variáveis. Pode ser: correlacional ou experimental.

Documentos relacionados
Prof. Lorí Viali, Dr.

Prof. Lorí Viali, Dr.

Prof. Lorí Viali, Dr.

É o grau de associação entre duas ou mais variáveis. Pode ser: correlacional. ou experimental.

Prof. Lorí Viali, Dr.

Em muitas situações duas ou mais variáveis estão relacionadas e surge então a necessidade de determinar a natureza deste relacionamento.

É o grau de associação entre duas ou mais variáveis. Pode ser: correlacional ou. experimental.

CORRELAÇÃO E REGRESSÃO

Análise de Regressão

1. CORRELAÇÃO E REGRESSÃO LINEAR

NOÇÕES SOBRE CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES

Estatística II Antonio Roque Aula 18. Regressão Linear

Associação entre duas variáveis quantitativas

Prof. Lorí Viali, Dr.

Regressão Múltipla. Parte I: Modelo Geral e Estimação

Análise de Regressão. Profa Alcione Miranda dos Santos Departamento de Saúde Pública UFMA

REGRESSÃO E CORRELAÇÃO

Gráficos de Controle para Processos Autocorrelacionados

3 Metodologia de Avaliação da Relação entre o Custo Operacional e o Preço do Óleo

Cap. 11 Correlação e Regressão

Contabilometria. Aula 8 Regressão Linear Simples

Covariância na Propagação de Erros

REGRESSÃO NÃO LINEAR 27/06/2017

PRESSUPOSTOS DO MODELO DE REGRESSÃO

Análise Exploratória de Dados

Métodos Avançados em Epidemiologia

CAPÍTULO 2 DESCRIÇÃO DE DADOS ESTATÍSTICA DESCRITIVA

É o grau de associação entre duas ou mais variáveis. Pode ser: correlacional ou experimental.

Regressão Linear Simples by Estevam Martins

Gabarito da Lista de Exercícios de Econometria I

Estatística Aplicada II CORRELAÇÃO. AULA 21 07/11/16 Prof a Lilian M. Lima Cunha

O problema da superdispersão na análise de dados de contagens

MOQ-14 PROJETO E ANÁLISE DE EXPERIMENTOS LISTA DE EXERCÍCIOS 1 REGRESSÃO LINEAR SIMPLES

Curso de extensão, MMQ IFUSP, fevereiro/2014. Alguns exercício básicos

4 Critérios para Avaliação dos Cenários

Em muitas situações duas ou mais variáveis estão relacionadas e surge então a necessidade de determinar a natureza deste relacionamento.

Algarismos Significativos Propagação de Erros ou Desvios

Escola Superior de Tecnologia de Viseu. Fundamentos de Estatística 2006/2007 Ficha nº 7

UNIDADE IV DELINEAMENTO INTEIRAMENTE CASUALIZADO (DIC)

3. Estatística descritiva bidimensional

INSTITUTO POLITÉCNICO DE VISEU ESCOLA SUPERIOR DE TECNOLOGIA E GESTÃO

O problema da superdispersão na análise de dados de contagens

Modelo linear clássico com erros heterocedásticos. O método de mínimos quadrados ponderados

Os modelos de regressão paramétricos vistos anteriormente exigem que se suponha uma distribuição estatística para o tempo de sobrevivência.

Eventos coletivamente exaustivos: A união dos eventos é o espaço amostral.

MODELOS DE REGRESSÃO PARAMÉTRICOS

Modelo linear normal com erros heterocedásticos. O método de mínimos quadrados ponderados

Testes não-paramétricos

Correlação. Frases. Roteiro. 1. Coeficiente de Correlação 2. Interpretação de r 3. Análise de Correlação 4. Aplicação Computacional 5.

DIAGNÓSTICO EM MODELOS LINEARES GENERALIZADOS

Ajuste de Curvas Regressão. Computação 2º Semestre 2016/2017

RISCO. Investimento inicial $ $ Taxa de retorno anual Pessimista 13% 7% Mais provável 15% 15% Otimista 17% 23% Faixa 4% 16%

INTRODUÇÃO À CALIBRAÇÃO MULTIVARIADA

DEFINIÇÃO - MODELO LINEAR GENERALIZADO

UNIVERSIDADE DE PERNAMBUCO. Física Experimental. Prof o José Wilson Vieira

Análise de Regressão Linear Múltipla IV

PROVA DE ESTATÍSTICA & PROBABILIDADES SELEÇÃO MESTRADO/UFMG 2010/2011

Métodos Experimentais em Ciências Mecânicas

Tabela 1. Porcentagem de crianças imunizadas contra DPT e taxa de mortalidade de menores de 5 anos para 20 países, 1992.

MOQ-14 PROJETO e ANÁLISE de EXPERIMENTOS. Professor: Rodrigo A. Scarpel

CAPÍTULO 9 REGRESSÃO LINEAR PPGEP REGRESSÃO LINEAR SIMPLES REGRESSÃO LINEAR SIMPLES REGRESSÃO LINEAR SIMPLES UFRGS. Regressão Linear Simples

2 Incerteza de medição

Análise Exploratória de Dados

Realimentação negativa em ampliadores

FICHA de AVALIAÇÃO de MATEMÁTICA A 10.º Ano Versão 4

Serão abordados nesse capítulo os modelos causais, utilizados como ferramentas para o desenvolvimento e análise desse trabalho.

FICHA de AVALIAÇÃO de MATEMÁTICA A 10.º Ano Versão 2

MOQ-14 PROJETO e ANÁLISE de EXPERIMENTOS. Professor: Rodrigo A. Scarpel

Variação ao acaso. É toda variação devida a fatores não controláveis, denominadas erro.

Capítulo 1. Exercício 5. Capítulo 2 Exercício

AULA 4. Segundo Quartil ( Q observações são menores que ele e 50% são maiores.

FICHA de AVALIAÇÃO de MATEMÁTICA A 10.º Ano Versão 1

Regressão Linear Simples. Frases. Roteiro

Redução dos Dados. Júlio Osório. Medidas Características da Distribuição. Tendência Central (Localização) Variação (Dispersão) Forma

Ao se calcular a média, moda e mediana, temos: Quanto mais os dados variam, menos representativa é a média.

FICHA de AVALIAÇÃO de MATEMÁTICA A 10.º Ano Versão 3

Ao se calcular a média, moda e mediana, temos: Quanto mais os dados variam, menos representativa é a média.

MOQ-14 PROJETO e ANÁLISE de EXPERIMENTOS. Professor: Rodrigo A. Scarpel

Regressão e Correlação Linear

REGRESSÃO LINEAR ANÁLISE DE REGRESSÃO LINEAR MÚLTIPLA REGRESSÃO CURVILÍNEA FUNÇÃO QUADRÁTICA

UNIVERSIDADE NOVA DE LISBOA Faculdade de Economia Análise de Dados e Probabilidade 2º Semestre 2008/2009 Exame Final 1ª Época. Grupo I (4 Valores)

ANÁLISE DA VARIÂNCIA DA REGRESSÃO

R X. X(s) Y Y(s) Variáveis aleatórias discretas bidimensionais

DELINEAMENTOS EXPERIMENTAIS

Como Construir Modelos Empíricos

EXERCÍCIO: VIA EXPRESSA CONTROLADA

É o grau de associação entre duas ou mais variáveis. Pode ser: correlacional ou experimental.

3 A técnica de computação intensiva Bootstrap

Programa do Curso. Sistemas Inteligentes Aplicados. Análise e Seleção de Variáveis. Análise e Seleção de Variáveis. Carlos Hall

X = 1, se ocorre : VB ou BV (vermelha e branca ou branca e vermelha)

UMA ABORDAGEM ALTERNATIVA PARA O ENSINO DO MÉTODO DOS MÍNIMOS QUADRADOS NO NÍVEL MÉDIO E INÍCIO DO CURSO SUPERIOR

(B) Considere X = antes e Y = depois e realize um teste t para dados pareados e um teste da ANOVA de um DBC com 5 blocos. Compare os resultados.

Eletrotécnica AULA Nº 1 Introdução

Problemas Propostos. Frações mássicas, volúmicas ou molares. Estequiometria.

Prof. Cláudio Serra, Esp. 1. Produção de Leite x índice Pluviométrico y = 0.8x R 2 =

Dados ajustáveis a uma linha recta

Universidade de São Paulo Escola Superior de Agricultura Luiz de Queiroz Departamento de Ciências Exatas

FACULDADE DE ECONOMIA DO PORTO. Licenciatura em Economia E C O N O M E T R I A II

Transcrição:

Prof. Lorí Val, Dr. val@mat.ufrgs.br http://www.mat.ufrgs.br/~val/ É o grau de assocação entre duas ou mas varáves. Pode ser: correlaconal ou expermental. Numa relação expermental os valores de uma das varáves são controlados. No relaconamento correlaconal, por outro lado, não se tem nenhum controle sobre as varáves sendo estudadas. Um engenhero químco está nvestgando o efeto da temperatura de operação do processo no rendmento do produto. O estudo resultou nos dados da tabela segunte: Temperatura, C 0 ( Rendmento ( 100 45 110 51 10 54 130 61 140 66 150 70 160 74 170 78 180 85 190 89 1

O prmero passo para determnar se exste relaconamento entre as duas varáves é obter o dagrama de dspersão (scatter dagram. 100 75 50 5 0 Rendmento ( Temperatura ( 100 10 140 160 180 00 O dagrama de dspersão fornece uma déa do tpo de relaconamento entre as duas varáves. Neste caso, percebe-se que exste um relaconamento lnear. Quando o relaconamento entre duas varáves quanttatvas for do tpo lnear, ele pode ser meddo através do: Observado um relaconamento lnear entre as duas varáves é possível determnar a ntensdade deste relaconamento. O coefcente que mede este relaconamento é denomnado de Coefcente de Correlação (lnear.

Quando se está trabalhando com amostras o coefcente de correlação é ndcado pela letra r e é uma estmatva do coefcente de correlação populaconal que é representado por ρ (rho. Para determnar o coefcente de correlação (grau de relaconamento lnear entre duas varáves vamos determnar ncalmente a varação conjunta entre elas, sto é, a covarânca. A covarânca entre duas varáves e, é representada por Cov( Cov(; e calculada por: Cov(, ( Mas [ ( n n n + ] + + n + Então: Cov(, ( n 3

A covarânca podera ser utlzada para medr o grau e o snal do relaconamento entre as duas varáves, mas ela é dfícl de nterpretar por varar de - a +. Assm vamos utlzar o coefcente de correlação lnear de Pearson. O coefcente de correlação lnear (de Pearson é defndo por: Cov( r, Onde: n Cov(, n n Esta expressão não é muto prátca para calcular manualmente o coefcente de correlação. Pode-se obter uma expressão mas convenente para o cálculo manual e o cálculo de outras meddas necessáras mas tarde. Tem-se: Cov( r, n n n n ( n ( n F a z Fazendo: e n d o n n n Tem se : r. 4

A vantagem do coefcente de correlação (de Pearson é ser admensonal e varar de 1 a + 1, que o torna de fácl nterpretação. Assm se r -1, temos uma relaconamento lnear negatvo perfeto, sto é, os pontos estão todos alnhados e quando aumenta decresce e vce-versa. 50 40 30 0 10 r 1 0 10 15 0 5 30 e r +1, temos uma relaconamento lnear postvo perfeto, sto é, os pontos estão todos alnhados e quando aumenta também aumenta. 50 40 30 0 10 r +1 Assm se r 0, temos uma ausênca de relaconamento lnear, sto é, os pontos não mostram alnhamento. 0 10 15 0 5 30 5

50 r 0 40 30 0 10 0 10 15 0 5 30 Assm se 1 < r < 0, temos uma relaconamento lnear negatvo, sto é, os pontos estão mas ou menos alnhados e quando aumenta decresce e vce-versa. 50 1 < r < 0 40 30 0 10 0 10 15 0 5 30 Assm se 0 < r < 1, temos uma relaconamento lnear postvo, sto é, os pontos estão mas ou menos alnhados e quando aumenta também aumenta. 50 0 < r < 1 40 30 0 10 0 10 15 0 5 30 Uma correlação amostral não sgnfca necessaramente uma correlação populaconal e vce-versa. É necessáro testar o coefcente de correlação para verfcar se a correlação amostral é também populaconal. 6

Observada uma amostra de ses pares, pode-se perceber que a correlação é quase um, sto é, r 1. No entanto, observe o que ocorre quando mas pontos são acrescentados, sto é, quando se observa a população! 50 40 30 0 10 0 r 1 ρ 0 10 15 0 5 30 Determnar o grau de relaconamento lnear entre as varáves temperatura de operação do processo versus rendmento do produto, conforme tabela. 100 45 4500 10000 05 110 51 5610 1100 601 10 54 6480 14400 916 130 61 7930 16900 371 140 66 940 19600 4356 150 70 10500 500 4900 160 74 11840 5600 5476 170 78 1360 8900 6084 180 85 15300 3400 75 190 89 16910 36100 791 1450 673 101570 18500 475 Vamos calcular r utlzando a expressão em destaque vsta anterormente, sto é, através das quantdades, x, e. 7

Tem-se: Então: n 10 1450 673 145 67,3 101570 18500 475 n 101570 10.145.67,3 3985 18500 10.145 850 n n 475 10.67,3 193,10 r. 3985 850.193,10 0,9981 Apesar de r ser um valor admensonal, ele não é uma taxa. Assm o resultado não deve ser expresso em percentagem. Prof. Lorí Val, Dr. val@mat.ufrgs.br http://www.mat.ufrgs.br/~val/ Em mutas stuações duas ou mas varáves estão relaconadas e surge então a necessdade de determnar a natureza deste relaconamento. 8

A análse de regressão é uma técnca estatístca para modelar e nvestgar o relaconamento entre duas ou mas varáves. De fato a regressão pode ser dvdda em dos problemas: ( o da especfcação e ( o da determnação. O problema da especfcação é descobrr dentre os possíves modelos (lnear, quadrátco, exponencal, etc. qual o mas adequado. O problema da determnação é uma vez defndo o modelo (lnear, quadrátco, exponencal, etc. estmar os parâmetros da equação. A varável resposta é aleatóra, Normalmente é suposto que exsta uma varável (dependente ou resposta, que está relaconada a k varáves (ndependentes ou regressoras ( 1,,..., k. enquanto que as varáves regressoras são normalmente controladas. O relaconamento entre elas é caracterzado por uma equação denomnada de equação de regressão 9

Quando exstr apenas uma varável regressora ( tem-se a regressão smples, se depender de duas ou mas varáves regressoras, então tem-se a regressão múltpla. Vamos supor que a regressão é do tpo smples e que o o modelo seja lnear, sto é, vamos supor que a equação de regressão seja do tpo: α + β + U y α + β + U; x 1 x x n x O termo U é o termo erro, sto é, U representa outras nfluêncas sobre a varável, além da exercda pela varável. A varação resdual (termo U é suposto de méda zero e desvo constante e gual a σ. Ou anda pode-se admtr que o modelo fornece o valor médo de, para um dado x, sto é, E(/x α + β α + β + U; E(/x α + β, sto é, E(U 0 V(/x σ ; Cov(U, Uj 0, para j; A varável permanece fxa em observações sucessvas e os erros U são normalmente dstrbuídos. 10

O modelo suposto E(/x α + β é populaconal. Vamos supor que se tenha n pares de observações, dgamos: (x 1, y 1, (x, y,..., (x n, y n e que através deles queremos estmar o modelo acma. A reta estmada será representada por: Ŷ a + b ou a + b + E Onde a é um estmador de α e b é um estmador de β, sendo Ŷ um estmador de E(/x. Exstem dversos métodos para a determnação da reta desejada. Um deles, denomnado de MMQ (Métodos dos Mínmos Quadrados, consste em mnmzar a soma dos quadrados das dstâncas da reta aos pontos. Tem-se: a + bx + E, Então: E - (a + bx φ Deve-se mnmzar: n E 1 n 1 n Ŷ 1 a b y ŷ E x a + b + E 11

Dervando parcalmente tem-se: φ n a 1 φ n x b 1 ( a b a b Igualando as dervadas parcas a zero vem: n 1 n x 1 ( a b a b 0 0 Isolando as ncógntas, tem-se: Resolvendo para a e b, segue: na + b n + b b a y n n b Lembrando que: Fazendo: n n n 1

Um engenhero químco está nvestgando o efeto da temperatura de operação do processo no rendmento do produto. O estudo resultou nos dados da tabela, ao lado. Determnar a lnha de regressão. Temperatura, C 0 ( Rendmento ( 100 45 110 51 10 54 130 61 140 66 150 70 160 74 170 78 180 85 190 89 Da mesma forma que para calcular o coefcente de correlação é necessáro a construção de três novas colunas. Uma para, uma para e outra para. 100 45 4500 10000 05 110 51 5610 1100 601 10 54 6480 14400 916 130 61 7930 16900 371 140 66 940 19600 4356 150 70 10500 500 4900 160 74 11840 5600 5476 170 78 1360 8900 6084 180 85 15300 3400 75 190 89 16910 36100 791 1450 673 101570 18500 475 Tem-se: Então: n 10 1450 673 145 67,3 101570 18500 475 n 101570 10.145.67,3 3985 18500 10.145 850 n n 475 10.67,3 193,10 13

b a A equação de regressão, será, então: b 3985 850, 7394, 74 0,4830 0,48 67,30 0,4830.145 Ŷ, 74 + 0,48x A pergunta que cabe agora é: este modelo representa bem os pontos dados? A resposta é dada através do erro padrão da regressão. O objetvo do MMQ é mnmzar a varação resdual em torno da reta de regressão. Uma avalação desta varação é dada por: E n a b n O cálculo da varânca resdual, por esta expressão, é muto trabalhoso, pos é necessáro prmero determnar os valores prevstos. Entretanto é possível obter uma expressão que não requera o cálculo dos valores prevstos, sto é, de Ŷ a + b Desenvolvendo o numerador da expressão, vem: a b [ + b b ] b [ ( b b ] b + b [ b( ] ( + b 14

Uma vez que: ( n n n Deste modo, tem-se: a b b + b Mas: b b Então: a b b + b b + b b Fnalmente: s E n a b n b n b n Consderando os valores do exemplo anteror, determnar o erro padrão da regressão. Tem-se se: 193,10 850 b 3985 850 0,4830 Então: s b n 3985 193,10.3985 850 10 0,9503 0,95 15

Ŷ Ŷ Ŷ Ŷ + Ŷ Ŷ + Ŷ VT VR + VE x VR (a Varação Total: VT VT ( (b Varação Resdual: VR ( Ŷ b VT VE (c Varação Explcada: VE VE ( Ŷ b Uma manera de medr o grau de aderênca (adequação de um modelo é verfcar o quanto da varação total de é explcada pela reta de regressão. Para sto, toma-se o quocente entre a varação explcada, VE, pela varação total,vt: R VE / VT Este resultado é denomnado de Coefcente de Determnação. R VE b b VT Este resultado mede o quanto as varações de uma das varáves são explcadas pelas varações da outra varável. 16

Ou anda, ele mede a parcela da varação total que é explcada pela reta de regressão, sto é: VE b R A varação resdual corresponde a: VR ( 1 R Assm 1 R é o Coefcente de Indetermnação. O % de mpurezas no gás oxgêno produzdo por um processo de destlação supõem-se que esteja relaconado com o % de hdrocarbono no condensador prncpal do processador. Os dados de um mês de operação produzram a segunte tabela 1,0 86,91 1,46 96,73 1,11 89,85 1,55 99,4 1,43 90,8 1,55 98,66 1,11 86,34 1,55 96,07 1,01 9,58 1,40 93,65 0,95 87,33 1,15 87,31 1,11 86,9 1,01 95,00 0,87 91,86 0,99 96,85 1,43 95,61 0,95 85,0 1,0 89,86 0,98 90,56 (a Ajuste um modelo lnear aos dados; (b Teste a exstênca da regressão; (c Determne o valor de R para este modelo; (d Determne um IC, de 95%, para o valor da pureza, na hpótese do % de hdrocarbono ser 1,0%. 17