Valeska Andreozzi 2010



Documentos relacionados
Introdução. Existem situações nas quais há interesse em estudar o comportamento conjunto de uma ou mais variáveis;

PLANO DE ENSINO. Mestrado em Matemática - Área de Concentração em Estatística

AULAS 13, 14 E 15 Correlação e Regressão

Todos os exercícios sugeridos nesta apostila se referem ao volume 1. MATEMÁTICA I 1 FUNÇÃO DO 1º GRAU

6 Construção de Cenários

Uma lei que associa mais de um valor y a um valor x é uma relação, mas não uma função. O contrário é verdadeiro (isto é, toda função é uma relação).

Correlação e Regressão Linear

Módulo 4 PREVISÃO DE DEMANDA

Projeto Supervisionado

Métodos Matemáticos para Gestão da Informação

Análise Exploratória de Dados

4 Avaliação Econômica

MAPEAMENTO DA INOVAÇÃO EM EMPRESAS SERGIPANAS: UMA APLICAÇÃO DE REGRESSÃO LOGÍSTICA

REGRESSÃO LINEAR SIMPLES

Análise de Regressão. Tópicos Avançados em Avaliação de Desempenho. Cleber Moura Edson Samuel Jr

MOQ-23 ESTATÍSTICA. Professor: Rodrigo A. Scarpel

Método dos mínimos quadrados - ajuste linear

Modelos Logísticos e Hierárquicos

Simulação Transiente

COMENTÁRIO AFRM/RS 2012 ESTATÍSTICA Prof. Sérgio Altenfelder

O que é a estatística?

Desempenho dos Aprovados no Vestibular da UFPA antes e após a Política de Cotas: Uma Aplicação de Regressão Quantílica

Estatística e Probabilidade

Estudo dos fatores que influenciam no tempo até o transplante renal nos pacientes em tratamento de Hemodiálise

A seguir, uma demonstração do livro. Para adquirir a versão completa em papel, acesse:

Alterações em Bibliografias de disciplinas do Bacharelado em Matemática

O Processo de KDD. Data Mining SUMÁRIO - AULA1. O processo de KDD. Interpretação e Avaliação. Seleção e Pré-processamento. Consolidação de dados

Slides de Estatística Descritiva na HP-12C 01/10/2009 ESTATÍSTICAS. Na HP-12C. 01/10/2009 Bertolo 2. O que é Estatística?

Só Matemática O seu portal matemático FUNÇÕES

XVIII CONGRESSO DE PÓS-GRADUAÇÃO DA UFLA 19 a 23 de outubro de 2009

LISTA DE EXERCÍCIOS 2 INE 7001 PROF. MARCELO MENEZES REIS ANÁLISE BIDIMENSIONAL

C Curso destinado à preparação para Concursos Públicos e Aprimoramento Profissional via INTERNET RACIOCÍNIO LÓGICO AULA 7

Í N D I C E Introdução Função Constante Função Linear... 02

UTILIZAÇÃO DE RECURSOS ESTATÍSTICOS AVANÇADOS DO EXCEL PREVISÃO

Modelo Linear Geral V

PERGUNTAS MAIS FREQÜENTES SOBRE VALOR PRESENTE LÍQUIDO (VPL)

DISTRIBUIÇÃO DE WEIBULL CONCEITOS BÁSICOS APLICAÇÕES

AULAS 04 E 05 Estatísticas Descritivas

Palavras-chave: Mortalidade Infantil, Análise Multivariada, Redes Neurais.

Curso CPA-10 Certificação ANBID Módulo 4 - Princípios de Investimento

O gráfico de. Freqüentemente você se depara com tabelas. Nossa aula

Departamento de Matemática - UEL Ulysses Sodré. Arquivo: minimaxi.tex - Londrina-PR, 29 de Junho de 2010.

Resoluções comentadas de Raciocínio Lógico e Estatística - SEPLAG EPPGG

Regressão Linear Multivariada

GERAÇÃO DE VIAGENS. 1.Introdução

Modelagem da Venda de Revistas. Mônica Barros. Julho de

CURSO ON-LINE PROFESSOR GUILHERME NEVES

SisDEA Home Windows Versão 1

MESTRADO EM MACROECONOMIA e FINANÇAS Disciplina de Computação. Aula 04. Prof. Dr. Marco Antonio Leonel Caetano

MAT 461 Tópicos de Matemática II Aula 3: Resumo de Probabilidade

Pesquisa Operacional. Função Linear - Introdução. Função do 1 Grau. Função Linear - Exemplos Representação no Plano Cartesiano. Prof.

Espaço Amostral ( ): conjunto de todos os

ANÁLISE DAS ATITUDES EM RELAÇÃO À ESTATÍSTICA DE ALUNOS DOS CURSOS DE ADMINISTRAÇÃO DE EMPRESAS, FARMÁCIA E LICENCIATURA EM MATEMÁTICA

NECESSIDADE DE CAPITAL DE GIRO E OS PRAZOS DE ROTAÇÃO Samuel Leite Castelo Universidade Estadual do Ceará - UECE

x 1 f(x) f(a) f (a) = lim x a

Protocolo em Rampa Manual de Referência Rápida

AVALIAÇÃO DO MODELO DE ONDAS

INTERPRETAÇÃO DAS PROVAS DE REPRODUTORES LEITEIROS

TÓPICOS AVANÇADOS EM ENGENHARIA DE SOFTWARE

Correlação e Regressão

CURSO ON-LINE PROFESSOR: VÍTOR MENEZES

Avaliação de Desempenho em Sistemas de Computação e Comunicação

Equações Diferenciais

Seleção e Monitoramento de Fundos de Investimentos

Unidade II MATEMÁTICA APLICADA. Profa. Maria Ester Domingues de Oliveira

Risco e Retorno dos Investimentos. Paulo Pereira Ferreira Miba 507

IBM1018 Física Básica II FFCLRP USP Prof. Antônio Roque Aula 6. O trabalho feito pela força para deslocar o corpo de a para b é dado por: = =

VALIDAÇÃO DE MODELOS DE REGRESSÃO POR BOOTSTRAP. João Riboldi 1

Exercícios Resolvidos sobre Amostragem

Tópico 8. Estatística Inferencial Teste de Hipóteses

INFLUÊNCIA DE VARIÁVEIS SOCIODEMOGRÁFICAS SOBRE O EMPREENDEDORISMO DO BRASIL

ANEXO 2 VALIDADE DE INSTRUMENTOS DE DIAGNÓSTICO

Análise bioestatística em fumantes dinamarqueses associado

Universidade da Beira Interior - Departamento de Matemática ESTATÍSTICA APLICADA À PSICOLOGIA I

Erros. Número Aproximado. Erros Absolutos erelativos. Erro Absoluto

DESENVOLVIMENTO DE UM SOFTWARE NA LINGUAGEM R PARA CÁLCULO DE TAMANHOS DE AMOSTRAS NA ÁREA DE SAÚDE

Epidemiologia. Profa. Heloisa Nascimento

Conjuntos numéricos. Notasdeaula. Fonte: Leithold 1 e Cálculo A - Flemming. Dr. Régis Quadros

INSTITUTO DE APLICAÇÃO FERNANDO RODRIGUES DA SILVEIRA (CAp/UERJ) MATEMÁTICA ENSINO MÉDIO - PROF. ILYDIO SÁ CÁLCULO DE PROBABILIDADES PARTE 1

Faturamento de Restaurantes

11/07/2012. Professor Leonardo Gonsioroski FUNDAÇÃO EDSON QUEIROZ UNIVERSIDADE DE FORTALEZA DEPARTAMENTO DE ENGENHARIA ELÉTRICA.

Medidas e Incertezas

ESTIMAÇÃO DA DISTRIBUIÇÃO ESPACIAL DO RISCO DE ACIDENTES DE TRABALHO EM PIRACICABA SEGUNDO GRAVIDADE.

MÓDULO 6 INTRODUÇÃO À PROBABILIDADE

9. Derivadas de ordem superior

CÁLCULO DE ZEROS DE FUNÇÕES REAIS

Medidas de tendência central: onde a maior parte dos indivíduos se encontra?

26/05 - Convergência de Métodos para Avaliação de Dados: Fatorial, Clusters e Testes Bivariados /06 - Regressão Linear Simples e Múltipla

Resoluções comentadas das questões de Estatística da prova para. ANALISTA DE GERENCIAMENTO DE PROJETOS E METAS da PREFEITURA/RJ

Pindyck & Rubinfeld, Capítulo 15, Mercado de Capitais::REVISÃO

Notas de Aula - Álgebra de Boole Parte 1

O valor econômico e social das trasformações urbanas

Estudos Avançados de Metodologia de Pesquisa (CCP 945) Dr. Enivaldo Rocha (PPGCP UFPE) Dalson Filho (Doutorando PPGCP UFPE)

DELIBERAÇÃO CVM Nº 731, DE 27 DE NOVEMBRO DE 2014

Análise de causalidade dentro e entre os mercados BRIC e G8

INTRODUÇÃO AOS MÉTODOS FACTORIAIS

Função. Definição formal: Considere dois conjuntos: o conjunto X com elementos x e o conjunto Y com elementos y. Isto é:

Métodos de Síntese e Evidência: Revisão Sistemática e Metanálise

Potenciação no Conjunto dos Números Inteiros - Z

Tópico 11. Aula Teórica/Prática: O Método dos Mínimos Quadrados e Linearização de Funções

Transcrição:

Introdução Valeska Andreozzi 2010 Referências 3 Modelagem estatística 8 Modelagem................................................................... 9 Objetivos.................................................................... 11 Construção do modelo........................................................... 13 Regressão linear simples 15 Motivação................................................................... 16 O modelo................................................................... 17 Interpretação................................................................. 19 No R...................................................................... 20 Eercício de revisão............................................................. 21 Correlação linear 22 Coeficiente de Correlação......................................................... 23 1

Programa Referências Modelagem estatística Regressão linear simples Correlação linear CEAUL Valeska Andreozzi slide 2 Referências slide 3 Referências Krzanowski, W (1998). An Introduction to Statistical Modelling. Arnold Tets in Statistics. Harrel, F (2001). Regression Modeling Strategies. Springer-Verlag. Dobson, AJ (2001). An introduction to generalized linear models. Chapman & Hall/CRC Kleinbaum DG, Klein M (2002). Logistic Regression - A Self-Learning Tet. Second Edition. Springer Hosmer DW, Lemeshow S (1989). Applied Logistic Regression. John Wiley e Sons. CEAUL Valeska Andreozzi slide 4 Referências Fo, J (1997). Applied Regression Analysis, Linear Models, and Related Methods. Sage Fo, J (2008). Applied Regression Analysis and Generalized Linear Models. Sage. Second Edition McCullagh P, Nelder JA (1989). Generalized linear models. Second Edition. Chapman and Hall CEAUL Valeska Andreozzi slide 5 Referências Venables WN, Ripley, BD (2002). Moderns Applied Statistics with S. Fourth Edition. Springer Fo, J (2002). An R and S-Plus Companion to Applied Regression. Sage Publications. Faraway, J. Practical Regression and Anova using R (http://cran.r-project.org/doc/contrib/faraway-pra.pdf). Dados e scripts disponíveis em http://www.maths.bath.ac.uk/~jjf23/lmr/ Hardin J, Hilbe J (2001). Generalized Linear Models and Etensions. Stata Press. CEAUL Valeska Andreozzi slide 6 2

Referências Material disponível online Amaral Turkman, MA e Silva, G (2000). Modelos Lineares Generalizados - da Teoria à Prática, Edições SPE, Lisboa http://docentes.deio.fc.ul.pt/maturkman/mlg.pdf Rodríguez, G (16/01/2010). Generalized Linear Models (notes). http://data.princeton.edu/wws509/notes/ Demétrio, CGB (16/01/2010). Modelos Lineares Generalizados em Eperimentação Agronômica http://www.lce.esalq.usp.br/clarice/apostila.pdf Paula, G (16/01/2010). Modelos de regressão com apoio computacional http://www.ime.usp.br/~giapaula/livro.pdf CEAUL Valeska Andreozzi slide 7 Modelagem estatística slide 8 Modelagem Modelagem estatística é um processo de descobrimento. O que é um modelo estatístico? Modelo estatístico = modelo matemático (equação que descreve o processo) + incerteza (flutuações devido ao acaso) CEAUL Valeska Andreozzi slide 9 3

Modelagem Modelo é uma versão simplificada de alguns aspectos do mundo real. Podemos dizer que modelo é uma representação em pequena escala de entidades físicas. A construção de modelos implica numa compreensão dos dados Dados disponíveis que são um subconjunto dos dados que poderiam ser coletados O modelo serve para obter inferências para um grupo maior ou para obter compreensão do mecanismo (sistema) gerador dos dados observados Os modelos variam de acordo com a acurácia da sua representação. O ponto chave da modelagem está nesta acurácia que varia de acordo com o objetivo da análise. CEAUL Valeska Andreozzi slide 10 Objetivos de um modelo Modelo Eplicativo ou Descritivo Estudar a associação entre fatores de risco e desfecho (outcome). Eemplos: Avaliar a magnitude de associação de uma eposição e um desfecho ajustada pelo efeitos de possíveis fatores de confundimento ou de interação Investigar fatores determinantes de uma doença, ie, avaliar o efeito de um determinado fator de risco na ocorrência de uma doença controlano por fatores de confundimento e considerando possíveis fatores modificadores de efeito da associação principal em questão Acurácia do modelo não precisa ser perfeita CEAUL Valeska Andreozzi slide 11 Objetivos de um modelo Modelo Preditivo Modelo em que o objetivo central é fazer predição do desfecho. Eemplos: Predição de um defecho para ajudar na tomada de decisão de um tratamento Desenvolvimento de classificação de doença ou estagiamento (elaboração de um score) Identificação de fatores biológicos que podem ajudar elucidar a patologia da doença Acurácia do modelo é importante CEAUL Valeska Andreozzi slide 12 4

Construção de um modelo Passos envolvidos na construção de um modelo estatístico 1. Formulação dos modelos Especificar um epressão matemática para descrever o comportamento geral de acordo com as crenças do analista/investigador. Esta epressão também é conhecida como componente sistemático do modelo. Incorporar, na parte sistemática do modelo, uma certa quantidade de flutuações da variável resposta, denominada componente aleatório do modelo Especificar como combinar os componentes sistemático e aleatório CEAUL Valeska Andreozzi slide 13 Construção de um modelo Passos envolvidos no desenvolvimento de um modelo estatístico 2. Estimação dos parâmetros do modelo 3. Avaliação dos modelos avaliar premissas dos modelos avaliar o ajuste global do modelo que poderá depender do objetivo do modelo 4. Reformulação (se necessário) CEAUL Valeska Andreozzi slide 14 Regressão linear simples slide 15 Motivação Qual a relação entre pressão sistólica e idade em indivíduos adultos sadios? A pressão em geral aumenta com a idade Relação é eata? Variação na pressão pode não ser eplicada totalmente pela idade Componente aleatório E por que gostaríamos de estimar um modelo de regressão? Descrever a relação entre as variáveis pressão e idade Predição da pressão dado que um novo indivíduo tenha 50 anos Tendência da pressão de acordo com a idade CEAUL Valeska Andreozzi slide 16 5

Modelos de Regressão Linear Simples O que podemos dizer da relação entre tensão arterial e idade? pa 120 140 160 180 200 220 20 30 40 50 60 70 id CEAUL Valeska Andreozzi slide 17 Modelos de Regressão Linear Simples Y = β 0 +β 1 X +ǫ pa 120 140 160 180 200 220 20 30 40 50 60 70 id Relação entre a idade e pressão: conforme aumenta a idade a pressão arterial aumenta. Relação não é perfeita, pois os pontos se apresentam dispersos em torno da reta. Indicação de que alguma variação na pressão arterial não é eplicada pela idade. Reta ajustada que descreve a relação estatística entre pressão e idade Ŷ = 98.71+0.97X CEAUL Valeska Andreozzi slide 18 6

Interpretação dos Coeficientes pa 120 140 160 180 200 220 20 30 40 50 60 70 Pressão = 98.71+0.97 idade ˆβ 0 = 98.71 é o coeficiente linear onde a reta corta o eio das ordenadas (Y) valor estimado da pressão quando a idade é igual a zero ˆβ 1 = 0.97 é o coeficiente angular traduz a velocidade de mudança (tendência) da pressão para cada uma unidade de idade neste caso temos que para cada ano id de idade a pressão arterial média aumenta 0.97 mmhg CEAUL Valeska Andreozzi slide 19 Regressão Linear Simples no R setwd("e:/valeska/cursos/2010/glm") dados<-read.table("pasis.dat",header=t) names(dados) head(dados) plot(dados) modelo<-lm(pa~id,data=dados) summary(modelo) plot(dados) abline(modelo,col=2) CEAUL Valeska Andreozzi slide 20 Eercício de revisão Liste e descreva, suscintamente, os métodos necessários para desenvolver uma análise descritiva e multivariada na investigação da associação entre obesidade (índice de massa corporal) e fatores sócio-econômicos (escolaridade e renda). Material: Estudo realizado por meio de um questionário autopreenchível com 4000 registros de adultos incluindo informação completa de peso e estatura aferidos Outros dados: género, renda ĺıquida informada, escolaridade (até 1o, 2o e 3o grau completo ou mais), idade em anos, raça informada pelo participante (branca, parda, preta) CEAUL Valeska Andreozzi slide 21 7

Correlação linear slide 22 Coeficiente de Correlação Antes de estimar os parâmetros do modelo de regressão, temos que avaliar se a relação entre a variável resposta Y e a covariável X é linear Para tal efeito vamos utilizar o coeficiente de correlação de Pearson, para quantificar essa associação linear i r = ( i )(y i ȳ) i ( i ) 2 i (y i ȳ) 2 CEAUL Valeska Andreozzi slide 23 Propriedades do Coeficiente de Correlação r é um valor entre +1 e 1, inclusive. r = 1 (ou -1) se todas as observações estiverem sobre uma linha reta. r = 0 quando não eiste associação linear entre X e Y (não eclui a possibilidade de eistir uma relação não-linear) r > 0 correlação positiva ou direta r < 0 correlação negativa ou indireta r nao depende da unidade de medida de X e de Y é invariante em relação a escala de medida adotada CEAUL Valeska Andreozzi slide 24 Padrões de Associação CEAUL Valeska Andreozzi slide 25 8

Padrões de Associação No gráfico d, os pontos se distribuem com uma inclinação ascendente, da esquerda para a direita, o que indica eistir uma tendência para associar os menores valores de X aos menores de Y, bem como os maiores de X aos maiores de Y. Neste caso a correlação é positiva e a medida que estes pontos tendem a aproimar-se mais de uma reta, mais próima estará a correlação do valor +1. No gráfico e, verifica-se que os pontos se distribuem com uma inclinação descendente, da esquerda para a direita, indicando uma tendência de associação dos menores valores de X aos maiores valores de Y e vice-versa. Neste caso a correlação é negativa e a medida que estes pontos tendem a aproimar-se mais de uma reta, mais próima estará a correlação do valor -1. Nos gráficos c e f a correlação é nula, contudo no gráfico f há indicação de associação não linear entre as variáveis X e Y. Os gráficos f e h mostram que o coeficiente de correlação não capta relação não linear. O gráfico g mostra a influência de outliers na correlação O gráfico j sugere que eistem três subgrupos, dentro de cada subgrupo eiste correlação positiva, mas a correlação é negativa quando os grupos são combinados. CEAUL Valeska Andreozzi slide 26 Padrões de Associação Qual a correlação dos dois grupos de dados (vermelho e azul)? y 0 50 100 150 200 y=+e y=2+0.5+e 0 20 40 60 80 100 CEAUL Valeska Andreozzi slide 27 9

Padrões de Associação Qual a correlação dos dois grupos de dados (vermelho e azul)? y y 0 50 100 150 200 y=2+0.5+e r= 0.9969 y=+e r= 0.9979 0 20 40 60 80 100 CEAUL Valeska Andreozzi slide 28 Padrões de Associação r não é uma medida de adequação do modelo de regressão linear r 0 r = 0.03 0 5 10 y r = 0.1 2 1 0 1 2 1. No primeiro gráfico não há uma associação linear 2. No segundo gráfico não há uma associação linear, mas uma relação quadrática entre X e Y CEAUL Valeska Andreozzi slide 29 10

y y Padrões de Associação r não é uma medida de adequação do modelo de regressão linear r 0 r = 0.88 r = 0.82 1. No primeiro gráfico há uma associação linear 2. No segundo gráfico, apesar do coeficiente de correlação linear se bastante diferente de zero, não há uma associação linear, mas uma relação quadrática entre X e Y CEAUL Valeska Andreozzi slide 30 11