CE071 - ANÁLISE DE REGRESSÃO LINEAR

Documentos relacionados
9 Correlação e Regressão. 9-1 Aspectos Gerais 9-2 Correlação 9-3 Regressão 9-4 Intervalos de Variação e Predição 9-5 Regressão Múltipla

étodos uméricos AJUSTE DE FUNÇÕES Prof. Erivelton Geraldo Nepomuceno PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA

Análise da Regressão. Prof. Dr. Alberto Franke (48)

Contabilometria. Aula 9 Regressão Linear Inferências e Grau de Ajustamento

AULAS 14 E 15 Modelo de regressão simples

Capítulo 3. O Modelo de Regressão Linear Simples: Especificação e Estimação

Estatística aplicada ao Melhoramento animal

Conceitos matemáticos:

REGRESSÃO E CORRELAÇÃO

Econometria - Lista 6

A Metodologia de Box & Jenkins

CATÁLISE ENZIMÁTICA. CINÉTICA Controle da velocidade de reações. CINÉTICA Equilíbrio e Estado Estacionário

Estatística Descritiva (I)

Prof. Lorí Viali, Dr.

Exercícios Selecionados de Econometria para Concursos Públicos

Estatística. Professor Jair Vieira Silva Júnior.

Exemplo (tabela um) distribuições marginais enquanto que. Distribuição Conjunta

4 Modelos de Regressão Dinâmica

MÓDULO V: Análise Bidimensional: Correlação, Regressão e Teste Qui-quadrado de Independência

Escrita correta de resultados em notação

MOQ-14 PROJETO e ANÁLISE de EXPERIMENTOS. Professor: Rodrigo A. Scarpel

MINISTÉRIO DA EDUCAÇÃO INSTITUTO NACIONAL DE ESTUDOS E PESQUISAS EDUCACIONAIS - INEP DIRETORIA DE AVALIAÇÃO PARA CERTIFICAÇÃO DE COMPETÊNCIAS

ANOVA - parte I Conceitos Básicos

Aula 4: Gráficos lineares

Teste de hipótese de variância e Análise de Variância (ANOVA)

Estatística. Professor Jair Vieira Silva Júnior.

A Estatística é aplicada como auxílio nas tomadas de decisão diante de incertezas para justificar cientificamente as decisões

Carga Horária: 80 horas (correspondem a aulas e atividades extra-classe)

Conceito de Estatística


REGRESSÃO LINEAR SIMPLES E MÚLTIPLA

Filho, não é um bicho: chama-se Estatística!

Procedimento Complementar para Validação de Métodos Analíticos e Bioanalíticos usando Análise de Regressão Linear

Estatística descritiva básica: Medidas de associação ACH2021 Tratamento e Análise de Dados e Informações

1. Avaliação de impacto de programas sociais: por que, para que e quando fazer? (Cap. 1 do livro) 2. Estatística e Planilhas Eletrônicas 3.

Modelos de regressão para dados correlacionados. Cibele Russo

1 Introdução aos Métodos Estatísticos para Geografia 1

Pesquisa Científica. Atividade da Aula Passada... Pesquisa Científica. Pesquisa Científica...

REGRESSÃO LINEAR Parte I. Flávia F. Feitosa

PARTE I EQUAÇÕES DE UMA VARIÁVEL REAL

APROXIMAÇÃO DE FUNÇÕES MÉTODO DOS MÍNIMOS QUADRADOS

Conceitosintrodutórios Planejamentode Experimentos. Prof. Dr. Fernando Luiz Pereira de Oliveira Sala1 ICEB I DEMAT

CURSO DE SPSS AULA 2 MEDIDAS DESCRITIVAS. UFBA/FACED José Albertino Lordello Sheila Regina Pereira

Estatística Aplicada ao Serviço Social

Resolução da Prova de Matemática Financeira e Estatística do ISS Teresina, aplicada em 28/08/2016.

CE Estatística I

Técnicas Experimentais Aplicadas à Zootecnia UNIDADE 1. NOÇÕES DE PLANEJAMENTO EXPERIMENTAL

Pesquisa Científica. Pesquisa Científica. Classificação das Pesquisas... Pesquisa Científica... Interpretar resultados. Realizar a pesquisa

Probabilidade e Estatística. Estimação de Parâmetros Intervalo de Confiança

Aula 2. ESTATÍSTICA E TEORIA DAS PROBABILIDADES Conceitos Básicos

INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E tecnologia PARAÍBA. Ministério da Educação

Modelagem do comportamento da variação do índice IBOVESPA através da metodologia de séries temporais

Aula 14 - Correlação e Regressão Linear

Elementos de Estatística. Michel H. Montoril Departamento de Estatística - UFJF

Noções de Amostragem

Plano de Trabalho Docente 2014

Material exclusivo para o livro ESTATÍSTICA (São Paulo, Pleiade, 2008). Proibida a reprodução, sob pena da lei.

Ajuste de mínimos quadrados

Aula 1 -Fundamentos e conceitos básicos (Notas de aula) Prof. Idemauro Antonio Rodrigues de Lara

Aula 2 Regressão e Correlação Linear

FAMÍLIA EXPONENCIAL DE DISTRIBUIÇÕES

Cap 3 Introdução à Experimentação

Questão 1 Sabe-se que o consumo mensal per capita de um determinado produto tem distribuição normal com desvio padrão σ = 2kg

(ii) Acrescente lucros ao modelo da parte (i). Por que essa variável não pode ser

Curso Profissional de Nível Secundário

Instrumentação Industrial. Fundamentos de Instrumentação Industrial: Introdução a Metrologia Incerteza na Medição

MAE Estatística Descritiva - 1 o semestre de 2017 Professora: Márcia D Elia Branco Monitora PAE: Simone Harnik Gabarito - Lista 4

PERFIL DOS AUTORES... XVII PREFÁCIO... XIX INTRODUÇÃO... XXI

Prof. Anderson Rodrigo da Silva.

Princípios de Modelagem Matemática Aula 10

Estatística 1 - Lista de Exercícios 4-21/06/ Professor José Carlos Fogo

Coeficiente de Assimetria

Algoritmos Numéricos 2 a edição

Teoria da Correlação. Luiz Carlos Terra

ESCOLA SECUNDÁRIA DE LOUSADA

UNIVERSIDADE FEDERAL DE UBERLÂNDIA FACULDADE DE MATEMÁTICA LISTA DE EXERCÍCIOS PROVA 2- BIOESTATÍSTICA

Modelos Lineares Generalizados - Modelos log-lineares para tabelas de contingência

Métodos Numéricos Interpolação / Aproximação. Renato S. Silva, Regina C. Almeida

Principais Conceitos em Estatística

P L A N I F I C A Ç Ã 0 E n s i n o S e c u n d á r i o

Exercícios Matemática I (M193)

PROGRAMA e Metas Curriculares Matemática A. Estatística. António Bivar, Carlos Grosso, Filipe Oliveira, Luísa Loura e Maria Clementina Timóteo

( ) Referem-se aos dados coletados e podem ser

CINÉTICA QUÍMICA. Obs.: a variação da quantidade deverá ser sempre um valor positivo, então ela deverá ser em módulo. 1.

7. Testes de Hipóteses

CONCEITOS FUNDAMENTAIS

UNIVERSIDADE FEDERAL DE RONDÔNIA CAMPUS DE JI-PARANÁ DEPARTAMENTO DE ENGENHARIA AMBIENTAL LISTA DE EXERCÍCIOS 5

Aula 05 INTRODUÇÃO. Prezado(a) Aluno(a),

Correlação e Regressão Lista de Exercícios

PLANIFICAÇÃO ANUAL. Documento(s) Orientador(es): Programa de Matemática dos Cursos Profissionais

Nessa situação, a média dessa distribuição Normal (X ) é igual à média populacional, ou seja:

Definição. Os valores assumidos pelos estimadores denomina-se estimativas pontuais ou simplesmente estimativas.

MINICURSO. Uso da Calculadora Científica Casio Fx. Prof. Ms. Renato Francisco Merli

AULA 07 Inferência a Partir de Duas Amostras

PROBABILIDADE E ESTATÍSTICA. Profa. Dra. Yara de Souza Tadano

Introdução ao Planejamento e Análise Estatística de Experimentos 1º Semestre de 2013 Capítulo 3 Introdução à Probabilidade e à Inferência Estatística

UNIVERSIDADE FEDERAL DE RONDÔNIA CAMPUS DE JI-PARANÁ DEPARTAMENTO 3 ENGENHARIA AMBIENTAL LISTA DE EXERCÍCIOS 4

aula PLANEJAMENTO FATORIAL 2 2 META OBJETIVOS PRÉ-REQUISITOS

Princípios de Modelagem Matemática Aula 09

Transcrição:

CE071 - ANÁLISE DE REGRESSÃO LINEAR 1

Parte 1 Introdução 2

Análise de Regressão Metodologia estatística aplicada na investigação e modelagem da relação entre variáveis. Mais especificamente, a análise de regressão explora a distribuição de uma variável (ou de algum parâmetro de sua distribuição, como a média), condicionada aos valores de outras variáveis. Todos os modelos são errados, mas alguns são úteis George Box 3

Algumas possíveis aplicações de análise de regressão o Existe relação entre a dose administrada de certa medicação e a redução da pressão arterial? o Existe relação entre a nota obtida num exame e o tempo dedicado ao estudo? o Qual a relação entre o valor de venda de terrenos em certa localidade com as respectivas áreas? A análise de regressão baseia-se na proposição (e ajuste, a partir dos dados amostrados) de funções que expliquem adequadamente a relação entre as variáveis. 4

o Existe relação da pontuação final de times de um campeonato de futebol com o investimento em contratações e o número de títulos obtidos anteriormente? o Qual a relação do índice de massa corporal de crianças de certa localidade e as seguintes variáveis: renda familiar per-capita, escolaridade da mãe, idade e peso da criança ao nascer? o Qual a relação entre a quantia aplicada em fundos de determinado banco e características dos clientes como: sexo, ocupação, renda, idade, nível de escolaridade, estado civil, se o cliente tem conta em outros bancos,...? 5

Objetivos principais da análise de regressão Analisar (descrever) a relação entre uma variável de interesse e uma ou mais variáveis explicativas; Retomando o exemplo da pressão arterial vs dose da medicação, para fins de ilustração: o A pressão sangüínea diminui conforme se aumenta a dose da medicação? Mantém-se constante? Aumenta? o A diminuição na pressão arterial é linear conforme o aumento da dose (diminui a uma taxa constante)? Diminui de forma não linear? o Há alguma dose a partir da qual a pressão sanguínea já não responde mais a incrementos na dose? Em algum momento o aumento na dose pode ocasionar o efeito contrário (aumento na pressão)? 6

Seleção e análise das variáveis que de fato estão relacionadas à resposta; o No estudo do desempenho acadêmico de alunos de certo nível, pode-se ter interesse em identificar variáveis sócio-econômicas e demográficas (como renda familiar, ocupação, escolaridade e situação conjugal dos pais, número de irmãos, tipo de residência,...) relacionadas; o No estudo do valor devido por inadimplentes de uma instituição de crédito, pode-se ter interesse em identificar variáveis sócio-econômicas e demográficas (como renda, ocupação, escolaridade, número de filhos, sexo, idade,...), e comportamentais (existência de dívidas anteriores, situação do cliente em diferentes cadastros, como Serasa,...) relacionadas; 7

Estimação de parâmetros e testes de hipóteses de interesse; o A redução na pressão arterial é estatisticamente significativa frente ao aumento na dose da medicação? o Qual a alteração esperada na pressão arterial decorrente do acréscimo de 1 mg na dose da medicação? o Qual a alteração esperada na pressão arterial decorrente do acréscimo de k mg na dose da medicação? 8

Predição do valor da resposta para valores específicos das variáveis explicativas. o Qual a diminuição média na pressão arterial para uma dose administrada x 0? o Qual a diminuição a ser observada na pressão arterial para uma dose administrada x 0? o Qual a dose necessária x 0 para se obter uma resposta desejada y 0? 9

Exemplo 1 Deseja-se investigar se o ganho de peso de bovinos está relacionado à quantidade de certa substância presente no pasto. Para isso, um estudo foi conduzido com 15 bois de mesma raça e idade, submetidos a dietas com diferentes concentrações da referida substância. Variáveis consideradas: X Concentração da substância (em mg litro); Y Ganho de peso do animal após 30 dias (em kg ); 10

Dados: Quadro 1 Concentração da substância adicionada à dieta e ganhos de peso para os 15 bois. Animal X Y Animal X Y 1 0,2 9,4 9 3,0 16,2 2 0,5 11,4 10 3,5 17,7 3 0,6 12,3 11 4,0 18,8 4 0,7 10,2 12 4,5 19,9 5 1,0 11,9 13 5,0 22,5 6 1,5 13,6 14 5,5 24,7 7 2,0 14,2 15 6,0 23,1 8 2,5 16,2 Uma primeira avaliação da relação entre as variáveis pode ser obtida por meio de um gráfico de dispersão. 11

23 21 Ganho de peso (kg) 19 17 15 13 11 9 0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 5.5 6.0 Concentração (mg l) Figura 1 Gráfico de dispersão Ganho de peso vs concentração da substância na dieta. 12

A Figura 1 evidencia fortemente uma relação linear entre o ganho de peso e a concentração da substância na dieta. Uma forma de explicar a relação entre o ganho de peso e a concentração da substância na dieta seria por meio da equação da reta (modelo) que descrevesse tal relação, de tal forma que, para um animal submetido a uma dieta com concentração x o ganho de peso fosse dado por: y = β + 1x. (1) 0 β Problema: diferentemente do modelo (1), o ganho de peso não pode ser determinado simplesmente a partir da concentração da substância na dieta (há uma oscilação dos pontos em torno da reta, conforme notado na Figura 2). 13

23 21 Ganho de peso (kg) 19 17 15 13 11 9 0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 5.5 6.0 Concentração (mg l) Figura 2 Gráfico de dispersão Ganho de peso vs concentração da substância na dieta. 14

Assim, um modelo mais apropriado para o problema seria da seguinte forma: y 1 = β 0 + β x + ε, (2) de tal forma que ε corresponde à diferença entre o valor observado y e o valor verificado na reta para o respectivo x ( β + ), ε y ( β 0 + β1x) x 0 β 1 = configurando uma quantidade aleatória à qual denominamos erro. 15

Um pouco de terminologia o O modelo apresentado em (2) configura um modelo de regressão, e com algumas suposições adicionais acerca da distribuição do componente aleatório que estudaremos adiante, é denominado modelo de regressão linear simples (o termo simples refere-se ao fato dele conter apenas uma variável explicativa). o No contexto de análise de regressão, é usual denominarmos a variável a ser explicada (no caso do Exemplo 2, o ganho de peso), como variável resposta (ou variável dependente), e as variáveis que explicam a resposta como variáveis explicativas (ou variáveis independentes). o As constantes que compõem o modelo (no caso do exemplo 2 os coeficientes da reta, β 0 e β 1 ), são denominadas parâmetros. Os parâmetros exprimem a relação entre as variáveis. o O termo ajuste de um modelo refere-se ao processo de estimação dos parâmetros (e, consequentemente, da função de regressão) do modelo com base nos dados disponíveis, ou à própria função de regressão gerada pelas estimativas obtidas. 16

Modelos de regressão lineares e não lineares O modelo apresentado em (2) pode ser expresso, numa forma mais geral, por: ( x; ) + ε y = f β, (3) em que β ( β ) 0, β é o vetor de parâmetros, sendo ( x) f ( x;β) = 1 aleatória) do modelo. f = a parte fixa (não aleatória) e ε o erro (parte Diferentes alternativas podem ser consideradas para f ( x;β), produzindo diferentes modelos de regressão. O modelo apresentado em (3) pode ser generalizado para um maior número (k ) de variáveis: em que = ( β β,..., ) 0, 1 β p ( x; ) + ε y = f β β é o vetor de parâmetros e = ( x x,..., ) sendo ( x) f ( x;β) x k x 1, 2 é o vetor de variáveis explicativas, f = a parte fixa (não aleatória) e ε o erro (parte aleatória) do modelo. 17

Uma representação informal dos modelos de regressão a serem tratados nesta disciplina é a seguinte: Variável resposta = função do mod elo + erro aleatório. No entanto, nessa disciplina trataremos prioritariamente dos modelos de regressão lineares. O termo linear, neste caso, se refere à forma como os parâmetros (e não as variáveis explicativas) aparecem na função do modelo. y = f β + é linear se: Assim, dizemos que um modelo de regressão da forma ( x; ) ε y β j = [ f ( x; β) + ε ] β j = h ( x), j = 0,1,2,..., p, ou seja, cada uma das derivadas parciais relativas aos dados. β s não depende de parâmetros, mas apenas dos 18

Exercício 1 Considere os modelos de regressão relacionados abaixo. Verifique se cada um deles corresponde a um modelo de regressão linear. a) = β + β x + ε y 0 1 ; b) y = β + β ln( x) + ε 0 1 ; 2 3 0 1 2 3x c) y = β + β x + β x + β + ε ; d) y β + β x + β x + β + ε ; = 0 1 1 2 2 3x3 β y = β 0 + 1 ln x1 + + 3x1x2 + ; x 2 e) β ( ) β ε β x 2 2 f) y = β + β e + ε ; 0 β0 g) y = + ε ; β 2 x 1+ e h) ( β β ) ε 1 y = β 0 sen 1 + 2x +. 2 Na sequencia são apresentados mais alguns exemplos de possíveis aplicações de análise de regressão. 19

Exemplo 2 Dados referentes à resistência de amostras de papel ( y, expressas em libras por polegada quadrada psi) e à concentração de madeira na mistura usada na produção do papel ( x, expressa em %). Quadro 2 Concentração de madeira e resistência do papel. Amostra X Y Amostra X Y 1 1 6,3 11 7 42,0 2 1,5 11,1 12 8 46,1 3 2 20,0 13 9 53,1 4 3 24,0 14 10 52,0 5 4 26,1 15 11 52,5 6 4,5 30,0 16 12 48,0 7 5 33,8 17 13 42,8 8 5,5 34,0 18 14 27,8 9 6 38,1 19 15 21,9 10 6,5 39,9 20

50 45 40 Resistência (psi) 35 30 25 20 15 10 5 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Concentração (%) Figura 3 Gráfico de dispersão Resistência do papel vs concentração de madeira na mistura. 21

A relação entre a resistência do papel e a quantidade de madeira na mistura claramente não é linear. Um polinômio de segundo grau pode proporcionar melhor explicação da relação entre as variáveis do que uma reta. x; β = β + β x + β x Neste caso, pode-se considerar ( ) 2 f 0 1 2, produzindo: 2 0 1 2x y = β + β x + β + ε. A figura 3 apresenta a curva referente ao modelo ajustado. Trataremos adiante do ajuste de modelos de regressão e, mais especificamente, de modelos baseados em polinômios (modelos polinomiais). 22

50 45 40 Resistência (psi) 35 30 25 20 15 10 5 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Concentração (%) Figura 4 Gráfico de dispersão Resistência do papel vs concentração de madeira na mistura. 23

Exemplo 4 Dados (adaptados) referentes à velocidade de uma reação enzimática ( y, expressa em contagens/min 2 ) e à concentração de certo substrato ( x, expressa em ppm). Quadro 2 Velocidade da reação e concentração de substrato. Repetição X Y Repetição X Y 1 0,02 47 7 0,02 76 2 0,06 97 8 0,06 107 3 0,11 123 9 0,11 139 4 0,22 152 10 0,22 159 5 0,56 191 11 0,56 201 6 1,10 200 12 1,10 207 24

200 180 160 Velocidade (c/min2) 140 120 100 80 60 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1 Concentração (ppm) Figura 5 Gráfico de dispersão para os dados da reação enzimática. 25

Novamente, observa-se uma relação não linear entre as variáveis. Uma alternativa seria considerar algum modelo polinomial. No entanto, sabe-se da teoria da Química, que o modelo de Michaelis-Menten descreve adequadamente problemas de cinética enzimática, como o estudo em questão. Neste caso, considera-se ( x; ) β1 x = x f β, produzindo: + β 2 β1 x y = + ε. x + β 2 Nota É prática comum usar algum modelo proveniente da teoria correspondente (no caso, da Química, mas poderia ser da Física, Matemática,...) como base para a proposição de um modelo de regressão. Isso é conveniente por vários motivos, dentre os quais o fato de se obter um melhor ajuste, do modelo ter propriedades pertinentes ao problema em questão e dos parâmetros terem interpretações práticas. 26

200 180 160 Velocidade (c/min2) 140 120 100 80 60 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1 Concentração (ppm) Figura 6 Gráfico de dispersão para os dados da reação enzimática com modelo de regressão ajustado. 27

Exemplo 5 Os dados apresentados na sequência referem-se ao tempo de serviço ( x 1, em anos) e à renda ( y, em reais), de 20 profissionais de um mesmo segmento. Adicionalmente, sabe-se se cada um deles possui ou não curso superior, o que configura uma segunda variável indicadora, que podemos definir da seguinte forma: x 2 0, se não possui curso superior = 1, se possui curso superior Nota Este problema envolve uma variável explicativa quantitativa (tempo de serviço) e outra qualitativa (formação). Modelos de regressão para tal situação são contemplados por uma técnica denominada análise de covariância, que será estudada adiante. 28

Quadro 3 Dados de renda, tempo de serviço e formação de 20 profissionais Profissional X 1 X 2 Y Profissional X 1 X 2 1 21 0 4535 11 3 1 3414 2 6 0 3195 12 20 1 6928 3 10 0 3539 13 11 1 4651 4 11 0 3742 14 5 1 3836 5 24 0 4707 15 15 1 5595 6 24 0 5034 16 12 1 5172 7 15 0 4331 17 12 1 4732 8 10 0 3748 18 24 1 7612 9 17 0 3887 19 18 1 6478 10 17 0 4436 20 20 1 6779 Y 29

7500 7000 Curso superior Não Sim 6500 Renda (reais) 6000 5500 5000 4500 4000 3500 3 6 9 12 15 18 21 24 Tempo de serviço (anos) Figura 7 Gráfico de dispersão para a renda segundo tempo de serviço e formação de 20 profissionais. 30

Neste caso, parece haver uma relação linear entre a renda e o tempo de serviço. No entanto, essa relação não é a mesma nos dois grupos (graduados e não graduados). Considerando relação linear entre a renda e o tempo de serviço, diferentes modelos poderiam ser considerados, de acordo com algum dos seguintes cenários: 1. Uma única reta é capaz de descrever a relação entre as variáveis para os dois grupos (interceptos e taxas de variação iguais nos dois grupos): y β + β + ε. = 0 1x1 2. A relação entre as variáveis para os dois grupos requer o ajuste de duas retas, mas o coeficiente angular é o mesmo para os dois grupos (taxas de variação iguais): y β + β x + β + ε. = 0 1 1 2x2 31

3. A relação entre as variáveis para os dois grupos requer o ajuste de duas retas, mas o coeficiente linear é o mesmo para os dois grupos (interceptos iguais): y β + β x + β x + ε. = 0 1 1 2 1x2 4. A relação entre as variáveis para os dois grupos requer o ajuste de duas retas, com interceptos e coeficientes angulares distintos: y β + β x + β x + β x + ε. = 0 1 1 2 2 3 1x2 Dos quatro cenários apresentados, o terceiro ou o quarto parecem mais plausíveis, de acordo com a Figura 8. 32

7500 7500 Renda (reais) 7000 6500 6000 5500 5000 Curso superior Não Sim Renda (reais) 7000 6500 6000 5500 5000 Curso superior Não Sim 4500 4500 4000 4000 3500 3500 3 6 9 12 15 18 21 24 3 6 9 12 15 18 21 24 Tempo de serviço (anos) Tempo de serviço (anos) Renda (reais) 7500 7000 6500 6000 5500 5000 Curso superior Não Sim Renda (reais) 7500 7000 6500 6000 5500 5000 Curso superior Não Sim 4500 4500 4000 4000 3500 3500 3 6 9 12 15 18 21 24 3 6 9 12 15 18 21 24 Tempo de serviço (anos) Tempo de serviço (anos) Figura 8 Gráficos de dispersão para a renda segundo tempo de serviço e formação de 20 profissionais com retas de regressão ajustadas. 33

Os problemas a serem abordados com análise de regressão, em geral, contemplam bases de dados maiores, com amostras numerosas e grande quantidade (e diversidade de tipos) de variáveis explicativas. 34

Processo de ajuste de um modelo de regressão 1) Fase de especificação - Com base na teoria e nos dados disponíveis, propor um modelo de regressão; o Determinar quais variáveis explicativas são relevantes para explicar a variável resposta; o Especificar o escopo do modelo a região de valores para as variáveis explicativas que será considerada no estudo; o Determinar a forma funcional que relaciona a variável resposta e as variáveis explicativas (Linear? Quadrática? Alguma forma não linear extraída da teoria da área do problema?). Nota A análise preliminar dos dados, com a construção de diagramas de dispersão, ajuste de regressão não paramétrica,... é fundamental na etapa de se propor o modelo. 35

2) Fase de ajuste - Usando a teoria estatística estimar os parâmetros do modelo; 3) Fase de diagnóstico - Analisar a adequação e validar o modelo ajustado; o Avaliar se o modelo proposto é compatível com os dados disponíveis; o Caso o modelo não se mostre adequado, deve-se voltar ao primeiro passo e rever sua especificação. Nota A Figura 9 apresenta quatro cenários distintos, envolvendo apenas duas variáveis, que produzem a mesma reta de regressão. Tente diagnosticar, com base na dispersão dos dados, cada um dos ajustes. Você diria que os quatro ajustes são adequados? 36

Figura 9 Quatro cenários distintos que produzem a mesma reta de regressão. Fonte: Anscombe, 1973. 4) Fase de análise - Se o ajuste se mostrar adequado, o modelo pode ser usado para fins de descrição, inferência e predição. 37

Alguns problemas recorrentes em análise de regressão 1) Extrapolação: corresponde à extensão indevida do modelo obtido, particularmente para fins de predição, para valores não amostrados das variáveis explicativas. Exemplo Considere duas variáveis x e y, que apresentam uma relação não linear, conforme representado pela linha contínua na Figura 9. Suponha que se tenha amostrado apenas valores de x no intervalo ( x 1, x 2 ) e proposto um modelo de regressão linear simples (ajuste de uma reta), conforme representado pela linha tracejada. o Como pode ser verificado, a relação entre as variáveis pode ser bem aproximada por uma reta no intervalo que se dispõe de dados. Fora desse intervalo, a aproximação é insatisfatória. A predição do valor de y correspondente a x 3, por exemplo, seria bem problemática. 38

y x 1 x 2 x 3 x Figura 9 Ilustração de problemas de extrapolação. 39

2) Generalização: os resultados produzidos por uma análise de regressão não devem ser generalizados para outras populações que não a população sob estudo. Por exemplo, o fato de a renda estar relacionada ao grau de escolaridade numa região não implica que o mesmo ocorra em outras regiões; o A definição adequada da população sob estudo e do delineamento do estudo são fundamentais para que os modelos de regressão produzidos possam ser adequadamente utilizados. 40

3) Dedução de relações de causa- efeito: modelos de regressão, em geral, não permitem comprovar relações de causa e efeito, possibilitando apenas avaliar possíveis relações entre as variáveis. Muitas das relações observadas podem ser espúrias, não configurando relação de causa-efeito. Segue um exemplo de ilustração. o Um levantamento realizado com crianças e adolescentes pode facilmente revelar a relação entre a habilidade de leitura e o tamanho dos pés (quanto maior o tamanho dos pés, maior habilidade de leitura). Obviamente isso configura uma relação espúria. Ocorre que o tamanho dos pés está relacionado à idade da criança (fator não considerado no estudo), e a habilidade de leitura aumenta conforme a criança cresce. A comprovação de relações de causa-efeito requer a realização de estudos controlados (experimentos), delineados com tal finalidade. Falaremos um pouco sobre os tipos de estudo logo adiante. Embora estudos observacionais não permitam comprovar relações de causa-efeito, a avaliação cuidadosa dos resultados produzidos e o bom conhecimento do contexto do estudo possibilitam extrair indicativos de tais relações. 41

Trabalho 1 Os alunos (divididos em duplas) deverão pesquisar um artigo científico de qualquer área do conhecimento que contenha uma análise estatística de dados baseada no ajuste de modelos de regressão. Para o artigo escolhido, caberá ao aluno redigir um breve relatório (de aproximadamente duas ou três páginas, descontando a capa com nome dos alunos, da instituição, da disciplina e do professor, além do título do trabalho), no qual sejam devidamente identificados e descritos: O contexto e o objetivo do estudo; A população sob estudo; O delineamento amostral; As variáveis consideradas (identificar a variável resposta e as variáveis explicativas, indicando as respectivas escalas); A metodologia estatística aplicada; As técnicas descritivas (medidas resumo, tabelas e gráficos) utilizadas; O objetivo do uso da análise de regressão; 42

As relações funcionais entre as variáveis (linear, quadrática, exponencial, alguma forma não-linear específica...); O escopo do estudo; Os modelos de regressão utilizados são lineares ou não lineares? Tente identificar as quatro fases do processo de ajuste de um modelo de regressão. Apresente, se possível, elementos do texto que caracterizem cada uma delas; Os principais resultados indicados no texto; Comentários ou críticas dos alunos com relação ao artigo; Há algum problema no artigo referente a extrapolação, generalização ou relações de causa-efeito equivocadas? Há a menção dos autores sobre cuidados específicos para evitar tais erros? Será realizada uma discussão em sala de aula, a respeito dos artigos, em data agendada pelo professor. 43