Modelo Linear Generalizado

Tamanho: px
Começar a partir da página:

Download "Modelo Linear Generalizado"

Transcrição

1 Modelo Linear Generalizado Valeska Andreozzi 2012 Referências 2 Modelagem Estatística 7 Modelagem Objetivos Construção do modelo MLG 14 Motivações O modelo Distribuições Sumário Exercício Estimação 36 Máxima Verossimilhança Solução Anaĺıtica Solução Gráfica R MMV nos MLG Método iterativo NR Método iterativo IWLS Estimação de φ Teste de Hipotéses 53 Introdução Teste de Wald Teste da RV Int. Confiança Seleção de modelos 62 Modelo saturado Modelo nulo Função desvio Seleção de Modelos Dicas de modelagem Diagnóstico 92 Introdução Tipos de resíduos Variância constante Inclusão nova variável Relação Linear Pontos Influentes Função de ligação

2 Exemplo Adequação do modelo Estatística Hosmer e Lemeshow Erro de predição AUC - Curvas ROC Cartão de Referência Miscelânias Modelo binomial Miscelânias Quase-verossimilhança

3 Referências slide 2 Referências Krzanowski, W (1998). An Introduction to Statistical Modelling. Arnold Texts in Statistics. Harrel, F (2001). Regression Modeling Strategies. Springer-Verlag. Dobson, AJ (2001). An introduction to generalized linear models. Chapman & Hall/CRC Kleinbaum DG, Klein M (2002). Logistic Regression - A Self-Learning Text. Second Edition. Springer Hosmer DW, Lemeshow S (1989). Applied Logistic Regression. John Wiley e Sons. DEIO/CEAUL Valeska Andreozzi slide 3 Referências Fox, J (1997). Applied Regression Analysis, Linear Models, and Related Methods. Sage Fox, J (2008). Applied Regression Analysis and Generalized Linear Models. Sage. Second Edition McCullagh P, Nelder JA (1989). Generalized linear models. Second Edition. Chapman and Hall DEIO/CEAUL Valeska Andreozzi slide 4 3

4 Referências Venables WN, Ripley, BD (2002). Moderns Applied Statistics with S. Fourth Edition. Springer Fox, J (2002). An R and S-Plus Companion to Applied Regression. Sage Publications. Faraway, J. Practical Regression and Anova using R ( Dados e scripts disponíveis em Hardin J, Hilbe J (2001). Generalized Linear Models and Extensions. Stata Press. DEIO/CEAUL Valeska Andreozzi slide 5 Referências Material disponível online Amaral Turkman, MA e Silva, G (2000). Modelos Lineares Generalizados - da Teoria à Prática, Edições SPE, Lisboa Rodríguez, G (16/01/2010). Generalized Linear Models (notes). Demétrio, CGB (16/01/2010). Modelos Lineares Generalizados em Experimentação Agronômica Paula, G (16/01/2010). Modelos de regressão com apoio computacional DEIO/CEAUL Valeska Andreozzi slide 6 4

5 Modelagem Estatística slide 7 Modelagem Modelagem estatística é um processo de descobrimento. O que é um modelo estatístico? Modelo estatístico = modelo matemático (equação que descreve o processo) + incerteza (flutuações devido ao acaso) DEIO/CEAUL Valeska Andreozzi slide 8 Modelagem Modelo é uma versão simplificada de alguns aspectos do mundo real. Podemos dizer que modelo é uma representação em pequena escala de entidades físicas. A construção de modelos implica numa compreensão dos dados Dados disponíveis que são um subconjunto dos dados que poderiam ser coletados O modelo serve para obter inferências para um grupo maior ou para obter compreensão do mecanismo (sistema) gerador dos dados observados Os modelos variam de acordo com a acurácia da sua representação. O ponto chave da modelagem está nesta acurácia que varia de acordo com o objetivo da análise. DEIO/CEAUL Valeska Andreozzi slide 9 5

6 Objetivos de um modelo Modelo Explicativo ou Descritivo Estudar a associação entre fatores de risco e desfecho (outcome). Exemplos: Avaliar a magnitude de associação de uma exposição e um desfecho ajustada pelo efeitos de possíveis fatores de confundimento ou de interação Investigar fatores determinantes de uma doença, ie, avaliar o efeito de um determinado fator de risco na ocorrência de uma doença controlano por fatores de confundimento e considerando possíveis fatores modificadores de efeito da associação principal em questão Acurácia do modelo não precisa ser perfeita DEIO/CEAUL Valeska Andreozzi slide 10 Objetivos de um modelo Modelo Preditivo Modelo em que o objetivo central é fazer predição do desfecho. Exemplos: Predição de um defecho para ajudar na tomada de decisão de um tratamento Desenvolvimento de classificação de doença ou estagiamento (elaboração de um score) Identificação de fatores biológicos que podem ajudar elucidar a patologia da doença Acurácia do modelo é importante DEIO/CEAUL Valeska Andreozzi slide 11 6

7 Construção de um modelo Passos envolvidos na construção de um modelo estatístico 1. Formulação dos modelos Especificar uma expressão matemática para descrever o comportamento geral de acordo com as crenças do analista/investigador. Esta expressão também é conhecida como componente sistemático do modelo. Incorporar, na parte sistemática do modelo, uma certa quantidade de flutuações da variável resposta, denominada componente aleatório do modelo Especificar como combinar os componentes sistemático e aleatório DEIO/CEAUL Valeska Andreozzi slide 12 Construção de um modelo Passos envolvidos no desenvolvimento de um modelo estatístico 2. Inferência dos parâmetros do modelo (estimação e testes de hipóteses) 3. Avaliação dos modelos avaliar premissas dos modelos avaliar o ajuste global do modelo que poderá depender do objetivo do modelo 4. Reformulação (se necessário) DEIO/CEAUL Valeska Andreozzi slide 13 7

8 Modelo Linear Generalizado slide 14 Motivação 1 Objetivo do estudo: avaliar a resposta de uma droga de acordo com a dose Foi realizado um estudo experimental em que foi registrado a dose x i da droga e a resposta a droga y i para 26 ratinhos Variável resposta: Y i = 1 se o rato respondeu a droga e Y i = 0 caso contrário; Covariável: x i (contínua) resposta 0 ou dose DEIO/CEAUL Valeska Andreozzi slide 15 Motivação 1 Modelo linear não é apropriado Vamos considerar que para cada dose x i, existe uma probabilidade µ i do rato responder a droga (P(Y i = 1)), logo Y i Bernoulli(µ i ) com E(Y i ) = µ i e Var(Y i ) = µ i (1 µ i ) Caso especial da Binomial(n,µ) com n = 1 Para modelarmos E(Y i ) = µ i precisamos utilizar uma função de ligação entre o µ i e x i de tal forma que valores do lado direito da equação possam ser assumidos no lado esquerdo. Uma opção é utilizar a função de ligação logit: ( ) µi logit(µ i ) = ln = a+bx i 1 µ i µ i = exp(a+bx i) 1+exp(a+bx i ) = 1 1+e (a+bxi) DEIO/CEAUL Valeska Andreozzi slide 16 8

9 Motivação 1 resposta 0 ou dose DEIO/CEAUL Valeska Andreozzi slide 17 Motivação 2 Objetivo: estudar a tendência do número de mortes por Aids (y i ) na Austrália a cada três meses de 1983 a 1986 (t i ) Número de mortes por Aids jan mar 1983 até abr jun 1986 Reta de regressão parece razoável mais fornece valores esperados negativos para os períodos 1 e 2. DEIO/CEAUL Valeska Andreozzi slide 18 9

10 Motivação 2 Modelo alternativo: Y i Poi(µ i ) E(Y i ) = Var(Y i ) = µ i ln(µ i ) = β 0 +β 1 t i Número de mortes por Aids jan mar 1983 até abr jun 1986 DEIO/CEAUL Valeska Andreozzi slide 19 Modelo Linear Generalizado (MLG) Teoria unificada de modelos lineares para variáveis resposta contínua e discreta introduzida por Nelder e Wedderburn em Modela o valor esperado da variável resposta É considerado uma extensão do modelo linear clássico. Extensão da distribuição considerada e da função que relaciona o valor esperado e as covariáveis. Distribuição da variável resposta Família exponencial (Normal, Binomial, Bernoulli, Poisson, Exponencial, Gama, Binomial Negativa, Multinomial) Os MLG são caracterizados pela seguinte estrutura: 1. Componente Aleatório 2. Componente Sistemático (ou estrutural) DEIO/CEAUL Valeska Andreozzi slide 20 10

11 Componente Aleatório Família Exponencial Y é uma variável aleatória (v.a.) com distribuição pertencente à família exponencial { } 1 f(y;θ,φ) = exp [yθ b(θ)] a(φ) +c(y,φ) (1) θ e φ são parâmetros escalares, a( ), b( ) e c( ) são funções reais conhecidas θ é a forma canônica de localização φ é o parâmetro de dispersão, suposto, em geral, conhecido b( ) é uma função diferenciável. a família exponencial obedece às condições habituais de reguralidade a a Sen and Singer, 1993, Large Sample Methods in Statistics. An Introduction with Applications. Chapman and Hall, New York DEIO/CEAUL Valeska Andreozzi slide 21 Componente Aleatório Família Exponencial - Valor médio e variância Seja l(θ;φ,y) = ln(f(y θ,φ)). Define-se a função escore Para famílias regulares, tem-se: S(θ) = l(θ;φ,y) θ E(S(θ)) = 0 [ ( l(θ;φ,y) ) ] 2 [ E(S 2 2 ] l(θ;φ,y) (θ)) = E = E θ θ 2 (2) De (1), tem-se que: l(θ;φ,y) = yθ b(θ) a(φ) + c(y, φ), logo: S(θ) = Y b (θ) a(φ) e S(θ) θ = b (θ) a(φ) (3) DEIO/CEAUL Valeska Andreozzi slide 22 11

12 Componente Aleatório Família Exponencial - Valor médio e variância De (2) e (3), tem-se: A variância de Y é o produto de duas funções: E(Y) = µ = a(φ)e[s(θ)]+b (θ) = b (θ) (4) Var(Y) = a 2 (φ)var(s(θ)) = a 2 (φ) b (θ) a(φ) = a(φ)b (θ) (5) b (θ) que depende somente do parâmetro canônico θ (logo, depende do valor médio µ), a que se denomina função de variância e representa-se por V(µ) a(φ) que depende apenas do parâmetro dispersão φ. Em muitas situações a(φ) toma a forma: a(φ) = φ ω (6) em que ω é uma constante conhecida DEIO/CEAUL Valeska Andreozzi slide 23 Componente Aleatório Família Exponencial Assim sendo a família exponencial fica definida da seguinte forma: f(y;θ,φ) = exp {(yθ b(θ)) ωφ } +c(y,φ) DEIO/CEAUL Valeska Andreozzi slide 24 12

13 Componente Sistemático O valor esperado µ i está relacionado com o preditor linear formado pelas covariáveis η i = β 0 +β 1 x i1 +β 2 x i2 + +β p x ip = x t iβ i = 1,2,...,n através da relação: g(µ i ) = η i g(µ i ) = β 0 +β 1 x i1 +β 2 x i2 + +β p x ip g(µ i ) = x t iβ em que g é a função de ligação; β é o vetor de parâmetros; x i vetor de covariáveis DEIO/CEAUL Valeska Andreozzi slide 25 Componente Sistemático A escolha da função de ligação g(.) depende do tipo de resposta (Y) que está sendo analisada Quando o preditor linear coincide com o parâmetro canônico θ i = η i, diz-se que a função de ligação correspondente é uma função de ligação canônica. DEIO/CEAUL Valeska Andreozzi slide 26 13

14 Distribuição Normal Y N(µ,σ 2 ) { } f(y) = 1 exp 2πσ (y µ)2 2 2σ 2 ] [ ]} f(y) = exp {[yµ µ2 1 1 y 2 +ln(2πσ 2 ) 2 σ 2 2 σ 2 } f(y;θ,φ) = exp {[yθ b(θ)] 1 φ +c(y,φ) θ = µ φ = σ 2 b(θ) = µ2 2 b (θ) = µ b (θ) = V(µ) = 1 DEIO/CEAUL Valeska Andreozzi slide 27 Distribuição Binomial Y B(m,π) ( ) m f(y) = π y y (1 π) m y Mostre que a distribuição binomial pertence a família exponencial e que θ = ln( π 1 π ); π = eθ /(1+e θ ) = 1/(1 e θ ) φ = 1 b(θ) = m ln(1 π) E(Y) = b (θ) = mπ Var(Y) = b (θ) = V(µ) = mπ(1 π) DEIO/CEAUL Valeska Andreozzi slide 28 14

15 Sumário: MLG Independência: Variáveis respostas Y i são observações independentes Distribuição: Y i possui distribuição da família exponential com valor esperado µ i Preditor Linear: As covariáveis x i1,...,x ip influenciam a variável resposta através de um preditor linear η i = β 0 +β 1 x i1 +β 2 x i2 + +β p x ip i = 1,2,...,n Função de Ligação: O valor esperado, µ i, e o preditor linear, η i, estão relacionados por uma função de ligação g( ) tal que: g(µ i ) = η i = β 0 +β 1 x i1 +β 2 x i2 + +β p x ip DEIO/CEAUL Valeska Andreozzi slide 29 Sumário: MLG Interpretação: Como o valor esperado de Y (E(Y) = µ) varia com as covariáveis. Covariáveis: Discretas, Contínuas, e funções de variáveis contínuas (exemplo: x 2, log(x)). Linearidade: preditor linear η é linear nos parâmetros β. DEIO/CEAUL Valeska Andreozzi slide 30 15

16 Histogram of rnorm(n = 1000, 4, 1.5) rnorm(n = 1000, 4, 1.5) Histogram of rbinom(n = 1000, size = 15, 0.2) rbinom(n = 1000, size = 15, 0.2) Sumário: MLG Para modelar dados através dos MLG, precisamos: Formular o modelo escolha da distribuição para a variável resposta; escolha das covariáveis (codificação, transformação); escolha da função de ligação; Ajustar o modelo estimação dos parâmetros do modelo (coeficientes β e do parâmetro de dispersão φ, caso necessário); estimação de intervalos de confiança dos parâmetros; teste de hipótese; seleção de covariáveis; Diagnosticar o modelo averiguar premissas do modelo e discrepâncias entre valores observados e preditos; existência de outliers e observações influentes; Um modelo útil é capaz de explicar o problema em estudo levando-se em consideração três fatores adequabilidade, parcimônia e interpretação. DEIO/CEAUL Valeska Andreozzi slide 31 Distribuições e funções de ligação Normal Binomial Frequency Frequency Notação N(µ,σ 2 ) B(m,µ) Intervalo (, ) {0, 1}ou(0, 1) Dispersão φ σ 2 1 Fç. ligação canônica θ = g(µ) identidade = µ logit = lnµ/(1 µ) E(Y) = µ η exp(η)/(1+exp(η)) V(µ) 1 mµ(1 µ) Outras Funções de ligação probit, log, cloglog DEIO/CEAUL Valeska Andreozzi slide 32 16

17 Histogram of rpois(1000, lambda = 2) rpois(1000, lambda = 2) Histogram of rgamma(1000, shape = 2, rate = 1) rgamma(1000, shape = 2, rate = 1) Distribuições e funções de ligação Poisson Gama Frequency Frequency Notação P oi(µ) G(µ, ν) Intervalo 0(1) (0, ) Dispersão φ 1 ν 1 Func. ligação canônica θ = g(µ) ln(µ) 1/µ E(Y) = µ exp(η) 1/η V(µ) µ µ 2 Outras Funções de ligação ident., sqrt ident., inverso, log DEIO/CEAUL Valeska Andreozzi slide 33 Exercício Mostre que as funções de densidade de probabilidade abaixo pertencem a família exponential e encontre θ, φ, b(θ), b (θ), b (θ) Y Poisson(µ) com f(y) = µy e µ y! Y Gama(ν,ν/µ) ( em que ν e ν/µ são parâmetros de forma e escala, respectivamente com ν ) f(y) = 1 ν Γ(ν) µ) y ν 1 exp ( νµ y Das distribuições acima encontre utilizando os resultados do exercício anterior: E(Y) Var(Y) DEIO/CEAUL Valeska Andreozzi slide 34 17

18 Exercício The folowing relationships can be describe by generalized linear models. For each one, identify the response variable and the explanatory variables, select a probability distribution for the response (justifying your choice) and write down the linear component. 1. The effect of age, sex, height, mean daily food intake and mean daily energy expenditure on a person s weight. 2. The proportions of laboratory mice that became infected after exposure to bacteria when five different exposure levels are used and 20 mice are exposed at each level. 3. The relationship between the number of trips per week to the supermarket for a household and the number of people in the household, the household income and the distance to the supermarket. DEIO/CEAUL Valeska Andreozzi slide 35 Estimação slide 36 Método da Máxima Verossimilhança (MMV) Consiste em adotar como estimativa do parâmetro populacional o valor que maximize a função de verossimilhança correspondente ao resultado obtido na amostra Fornece estimadores: consistentes, assintoticamente eficientes e com distribuição assintoticamente normal DEIO/CEAUL Valeska Andreozzi slide 37 18

19 Máxima Verossimilhança Suponha uma população com parâmetro τ e com função de densidade de probabilidade (fdp) conhecida (f(x τ) em que X são os dados). Podemos gerar uma amostra X dado que conhecemos a fdp Exemplo: Idade das crianças internadas no Hospital São João segue uma distribuição normal com média 13 anos e variância igual a 4. E o mundo real? DEIO/CEAUL Valeska Andreozzi slide 38 Máxima Verossimilhança No mundo real não conhecemos o parâmetro τ da população Temos em mãos uma amostra X da população e queremos fazer inferência sobre o parâmetro populacional (τ) Objetivo do MMV Achar uma estimativa para o parâmetro populacional τ que maximize a probabilidade de encontrarmos a amostra que possuímos. Em outras palavras, para determinar o estimador de máxima verossimilhança do parâmetro τ, basta achar o valor de τ que maximiza a fdp f(x τ) fixando a amostra X (L(τ X) função de máxima verossimilhança). DEIO/CEAUL Valeska Andreozzi slide 39 19

20 Exemplo Distribuição normal com variância conhecida. Seja X=(12, 15, 9, 10, 17, 12, 11, 18, 15, 13) uma amostra aleatória das idades das crianças do Hospital São João que segue uma distribuição normal de média µ e variância conhecida e igual a 4. Qual a estimativa de máxima verossimilhança da média µ das idades das crianças? O objetivo é fazer um gráfico da função de log-verossimilhança e achar o ponto máximo que será a estimativa da média µ. DEIO/CEAUL Valeska Andreozzi slide 40 Solução Anaĺıtica 1. Temos que x 1,...,x n é uma amostra aleatória de X N(µ,4), { } 2. a função de densidade (fdp) para cada observação é dada por f(x i ) = 1 exp 2πσ (xi µ)2 2 2σ 2 3. assumindo que as observações são independentes a função de verossimilhanca é dada por L(µ) = 10 1 f(x i), 4. e a log-verossimilhança é dada por l(µ) = 10 1 ln(f(x i )) = 5log(8π) 1 8 ( 10 1 ) 10 x 2 i 2µ x i +10µ 2 DEIO/CEAUL Valeska Andreozzi slide

21 Solução Gráfica R 1. Amostra de uma distribuição normal com variância igual a 4 > x <- c(12, 15, 9, 10, 17, 12, 11, 18, 15, 13) > x 2. e calculamos as quantidades 10 1 x2 i e 10 1 x i > sx2 <- sum(x^2) > sx <- sum(x) 3. Intervalo para os possíveis valores de µ (sabemos que a média aritmética é um estimativa de µ por isso criamos valores ao redor de 13 = mean(x)) > mu.vals <- seq(11, 15, l=100) > mu.vals DEIO/CEAUL Valeska Andreozzi slide 42 Solução Gráfica no R 4. e a seguir calculamos os valores de l(µ) de acordo com a equação anterior > lmu <- -5 * log(8 * pi) - (sx2-2 * mu.vals * sx + 10 * (mu.vals^2))/8 5. Fazendo o grafico > plot(mu.vals, lmu, type="l", xlab=expression(mu), ylab=expression(l(mu))) DEIO/CEAUL Valeska Andreozzi slide 43 21

22 Solução Gráfica no R l(µ) µ DEIO/CEAUL Valeska Andreozzi slide 44 Solução Gráfica no R 6. Obtendo o valor de µ que corresponde ao valor máximo do log da verossimilhança > mu.vals[lmu==max(lmu)] [1] Comparando com a média amostral > mean(x) [1] 13.2 DEIO/CEAUL Valeska Andreozzi slide 45 22

23 Aplicando MMV nos MLG Considere o exemplo número de mortes por Aids (exemplo motivação) Y i Poi(µ i ) e log(µ i ) = β 0 +β 1 t i A contribuição de cada observação para a função de verossimilhança é dada por Pr(Y = y µ) = µy e µ y! DEIO/CEAUL Valeska Andreozzi slide 46 Aplicando MMV nos MLG O log da função de verossimilhança de (β 0,β 1 ) obtida de uma amostra aleatória l(β 0,β 1 y i ) = ln i Pr(Y = y i µ i ) l(β 0,β 1 y i ) = ln i µ yi i e µi y i! l(β 0,β 1 y i ) = i. {y i (β 0 +β 1 t i ) exp(β 0 +β 1 t i ) log(y i!)} DEIO/CEAUL Valeska Andreozzi slide 47 23

24 Estimativa de Máxima Verossimilhança A estimativa do método da máxima verossimilhança é o valor do parâmetro que maximiza o logarítmo (log) da função de verossimilhança Em casos especiais o log das funções de verossimilhança podem ser resolvidos algebricamente Em outros casos é necessário estimar o parâmetro através da maximização numérica, por exemplo através do método de Newton-Raphson DEIO/CEAUL Valeska Andreozzi slide 48 Método de Newton-Raphson Seja l(β 0,β 1 y i ) = l(β) Para calcular os valores β que maximize a função de verossimilhança temos que derivar e igualar a zero l(β) β k = l (β) = 0 Para resolvermos a equação numericamente fazemos uma expansão de Taylor l (β (0) )+(β β (0) )l (β (0) ) 0 Reescrevendo, temos: β = β (0) l (β (0) ) l (β (0) ) DEIO/CEAUL Valeska Andreozzi slide 49 24

25 Método Iterativo Passo1: Início: assume qualquer valor inicial para Passo2: Iteração 1: β(1) = β (0) +ǫ Passo3: Iteração k: β(k) = β (k 1) +ǫ Passo4: Volta para o passo 3 até que ǫ seja menor que uma tolerância desejável ǫ = l (β) l (β) No R é utilizado o método iterativo dos mínimos quadrados ponderados, que é baseado no método de Newton-Raphson Critério de parada no R: ǫ = 10 8 β (0) Caso ǫ não atinja este valor dizemos que o processo não convergiu DEIO/CEAUL Valeska Andreozzi slide 50 Método iterativo dos mínimos quadrados ponderados Método iterativo do mínimos quadrados ponderados é baseado no método dos scores de Fisher, que procede com o cálculo das sucessivas iteradas através da relação em que: β (k+1) = β (k) +I( β (k) ) 1 s( β (k) ) I(.) 1 é a inversa (que se supõe existir) da matriz de informação de Fisher (I(β) = E [ 2 l(β) β β T ]) s(β) = l(β) β o vetor de scores A diferença existente entre este algoritmo e o de Newton-Raphson para resolver sistemas de equações não lineares, reside na utilização da matriz de informação de Fisher em vez da matriz Hessiana (H(β) = 2 l(β) ). A β β T vantagem desta substituição deve-se ao facto de, em geral, ser mais fácil calcular a matriz de informação I, para além de ser sempre uma matriz semi-definida positiva. DEIO/CEAUL Valeska Andreozzi slide 51 25

26 Estimação do parâmetro de dispersão O parâmetro de dispersão apesar de poder ser estimado pelo MMV, pode também ser estimado por um método mais simples. Tal método baseia-se na distribuição de amostragem, para grandes valores de n, da estatística de Person generalizada: φ = 1 n ω i (y i µ i ) 2 n p V( µ) i=1 DEIO/CEAUL Valeska Andreozzi slide 52 Teste de Hipotéses slide 53 Introdução Nesta seção serão apresentados testes de hipóteses sobre o vetor de parâmetro β. Basicamente, dois tipos de hipóteses serão testados Hipótese da nulidade de um componente do vetor de parâmetro para algum j. H 0 : β j = 0 versus H 1 = β j 0 Hipótese da nulidade de um subvetor do vetor de parâmetro H 0 : β r = 0 versus H 1 = β r 0 para algum subvetor de r componentes de β. Esta hipótese corresponde a testar submodelos do modelo original, que será apresentado na seção seguinte. DEIO/CEAUL Valeska Andreozzi slide 54 26

27 Teste de Wald Através da MMV temos que: β a NMV(β,V ) V = I(β) 1 EP( β k ) = V kk WALD: Testa H 0 : β k = 0 através da estatística t t = β k EP( β k ) Sob a H 0, t segue assintoticamente um distribuição normal com média zero e variância igual a 1 DEIO/CEAUL Valeska Andreozzi slide 55 Exemplo: Fatores de risco do peso ao nascer > birth <- read.table("bw.dat", header = T) > birth$weight<-birth$weight/1000 > head(birth) weight age sex M M M M M M > tail(birth) weight age sex F F F F F F DEIO/CEAUL Valeska Andreozzi slide 56 27

28 Teste de Wald > summary(glm(weight~age+ sex, data = birth)) Estimate Std. Error t value Pr(> t ) (Intercept) * age e-06 *** sexm * --- Signif. codes: 0 *** ** 0.01 * DEIO/CEAUL Valeska Andreozzi slide 57 Teste da razão de verossimilhanças O teste da RV é definido por em que RV = 2 ln ( Lp L q ) L p estimativa de máxima verossimilhança do modelo com p parâmetros L q estimativa de máxima verossimilhança do modelo com q < p parâmetros DEIO/CEAUL Valeska Andreozzi slide 58 28

29 Teste da razão de verossimilhanças Sob a hipótese nula de que os parâmetros adicionais p q são iguais a zero, a estatística RV tem uma distribuição assintótica de um χ 2 sendo p q o número de graus de liberdade l = logaritmo da máxima verossimilhança do modelo RV = 2(l p l q ) a χ 2 p q De acordo com o teste da RV, a hipótese nula é rejeitada a favor da H 1 : pelo menos um parâmetro é diferente de zero, a um nível de significância α, se o valor observado da estatística RV for superior ao quantil de probabilidade 1 α de um χ 2 p q O teste da RV é utilizado na comparação de modelos encaixados (modelos em que um é subconjunto do outro) DEIO/CEAUL Valeska Andreozzi slide 59 Intervalo de confiança para β s Temos que β NMV(β,I(β) a 1 ) Intervalo de Confiança de (1 α)% [ β k z 1 α/2 EP( β k ) ; βk +z 1 α/2 EP( β k )] DEIO/CEAUL Valeska Andreozzi slide 60 29

30 Exemplo > bw.glm<-glm(weight~age+ sex, data = birth) > bw.sum<-summary(bw.glm) > bw.glm$coeff (Intercept) age sexm > sqrt(diag(bw.sum$cov.scaled)) (Intercept) age sexm > bw.glm$coeff - qnorm(1-(.05/2))*sqrt(diag(bw.sum$cov.scaled)) (Intercept) age sexm > bw.glm$coeff + qnorm(1-(.05/2))*sqrt(diag(bw.sum$cov.scaled)) (Intercept) age sexm #forma simples de encontrar IC para os par^ametros betas > confint(bw.glm) DEIO/CEAUL Valeska Andreozzi slide 61 Seleção de modelos slide 62 Modelo saturado Para um MLG com n observações, o número máximo de parâmetros é igual a n, isto é, um parâmetro para cada observação de tal forma que o modelo se ajusta perfeitamente aos dados. Não oferece qualquer simplificação e, como tal, não tem interesse na interpetação do problema, já que não faz sobressair características importantes transmitidas pelos dados. O modelo saturado fornece o maior valor que a função de verossimilhança pode atingir. Toda a variação do modelo saturado é atribuída ao componente sistemático. DEIO/CEAUL Valeska Andreozzi slide 63 30

31 Modelo saturado > summary(glm(weight~factor(1:nrow(birth)), data = birth)) Deviance Residuals: [1] Estimate Std. Error t value Pr(> t ) (Intercept) NA NA NA factor(1:nrow(birth)) NA NA NA factor(1:nrow(birth)) NA NA NA factor(1:nrow(birth)) NA NA NA factor(1:nrow(birth)) NA NA NA... factor(1:nrow(birth)) NA NA NA factor(1:nrow(birth)) NA NA NA factor(1:nrow(birth)) NA NA NA factor(1:nrow(birth)) NA NA NA (Dispersion parameter for gaussian family taken to be NaN) Null deviance: e+00 on 23 degrees of freedom Residual deviance: e-29 on 0 degrees of freedom AIC: DEIO/CEAUL Valeska Andreozzi slide 64 Modelo nulo Modelo nulo é um modelo que possui um único parâmetro. Todas as observações tem um parâmetro em comum e igual a E(Y i ) = µ = y É um modelo de estrutura muito simples, que raramente captura a estrutura inerente aos dados. Toda a variação do modelo nulo é atribuída ao componente aleatório. DEIO/CEAUL Valeska Andreozzi slide 65 31

32 Modelo nulo > summary(glm(weight~1, data = birth)) Deviance Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) <2e-16 *** --- Signif. codes: 0 *** ** 0.01 * (Dispersion parameter for gaussian family taken to be ) Null deviance: on 23 degrees of freedom Residual deviance: on 23 degrees of freedom AIC: DEIO/CEAUL Valeska Andreozzi slide 66 Função desvio (Deviance) Função desvio D (residual deviance) D = 2φ{l s l m } l s = log verossimilhança do modelo saturado (valor máximo) l m = log verossimilhança do modelo em questão D é uma distância entre a log verossimilhança do modelo saturado e a log verossimilhança do modelo em questão Quanto mais próximo o MLG estimado, ˆµ, estiver dos dados observados, y, menor será o valor da função desvio D Como l s é o maior valor da log verossimilhança temos que l m será sempre menor e consequentemente D é sempre positiva DEIO/CEAUL Valeska Andreozzi slide 67 32

33 Função desvio Representação gráfica da função desvio D/φ = 2{l s l m } Scaled Deviance Função desvio D é análoga a Soma dos Quadrados dos Erros (SQE = n i=1 (y i ˆµ i ) 2 ) do modelo de regressão linear No caso de Y Normal temos que D é igual a SQE DEIO/CEAUL Valeska Andreozzi slide 68 Função desvio Função desvio de um modelo de Poisson Seja a variável resposta Y 1,...,Y n independentes e Y i Poisson(λ i ) com função de log-verossimilhança l(β,y) = y i lnλ i λ i lny i! Para o modelo saturado temos as estimativas de máxima verossimilhança para λ i = y i, logo o valor máximo da função de log-verossimilhança é l s (β,y) = y i lny i y i lny i! DEIO/CEAUL Valeska Andreozzi slide 69 33

34 Função desvio Função desvio de um modelo de Poisson Para um modelo com p < n parâmetros podemos utilizar as estimativas de máxima verossimilhança dos parâmetros do modelo (β) para calcular λ i e consequentemente os valores ajustados ŷ i = λ i. Logo a função de log- verossimilhança fica assim definida l m (β,y) = y i lnŷ i ŷ i lny i! E a função desvio tem a seguinte expressão: D = 2{l s l m } = 2{ yi lny i /ŷ i } (y i ŷ i ) DEIO/CEAUL Valeska Andreozzi slide 70 Exercício Escreva a função desvio para um modelo binomial. (Y 1,...,Y n independentes e Y i binomial(m i,π i )) DEIO/CEAUL Valeska Andreozzi slide 71 34

35 Exemplo: Fatores de risco do peso ao nascer > attach(birth) > plot(age,weight,pch=19,col="blue") > points(age[sex=="f"],weight[sex=="f"],pch=19,col=2) weight age DEIO/CEAUL Valeska Andreozzi slide 72 Exemplo: Fatores de risco do peso ao nascer > summary(glm(weight~age+sex, data = birth)) Deviance Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) * age e-06 *** sexm * --- Signif. codes: 0 *** ** 0.01 * (Dispersion parameter for gaussian family taken to be ) Null deviance: on 23 degrees of freedom Residual deviance: on 21 degrees of freedom AIC: Number of Fisher Scoring iterations: 2 DEIO/CEAUL Valeska Andreozzi slide 73 35

36 Comparando com modelo linear Função desvio = SQE > summary(lm(weight~age+sex, data = birth)) Estimate Std. Error t value Pr(> t ) (Intercept) * age e-06 *** sexm * Residual standard error: on 21 degrees of freedom Multiple R-squared: 0.64, Adjusted R-squared: F-statistic: on 2 and 21 DF, p-value: 2.194e-05 > anova(lm(weight~age+sex, data = birth)) Analysis of Variance Table Response: weight Df Sum Sq Mean Sq F value Pr(>F) age e-05 *** sex * Residuals DEIO/CEAUL Valeska Andreozzi slide 74 Exemplo: Fatores de risco do peso ao nascer Escreva a equação do modelo > plot(age,weight,pch=19,col="blue") > points(age[sex=="f"],weight[sex=="f"],pch=19,col=2) > fx<-function(x){ *x} > curve(fx,35,42,add=t,col=2) > fx<-function(x){ *x} > curve(fx,35,42,add=t,col="blue") weight age DEIO/CEAUL Valeska Andreozzi slide 75 36

37 Outro exemplo: Estudo experimental > mice<-read.table("mice.dat",header=t) > dim(mice) [1] 26 2 > mice dose response DEIO/CEAUL Valeska Andreozzi slide 76 Outro exemplo: Estudo experimental > summary(glm(response~dose, data = mice, family=binomial)) Call: glm(formula=response~dose, family=binomial, data=mice) Deviance Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) * dose ** (Dispersion parameter for binomial family taken to be 1) Null deviance: on 25 degrees of freedom Residual deviance: on 24 degrees of freedom AIC: Number of Fisher Scoring iterations: 6 DEIO/CEAUL Valeska Andreozzi slide 77 37

38 Análise de deviance Notação M q Modelo com p q parâmetros M m Modelo com p m parâmetros M m M q, isto é, o modelo M m é um subconjunto do modelo M q, em outras palavras, o modelo M q contém todas as covariáveis do modelo M m = modelos encaixados D q função desvio do modelo M q D m função desvio do modelo M m DEIO/CEAUL Valeska Andreozzi slide 78 Análise de deviance Sob a H 0 de que o modelo mais simples M m é melhor, temos o resultado assintótico (D m D q )/φ a χ 2 p q p m Este resultado é exato quando Y Normal com σ 2 conhecido Diferença entre função desvio equivale ao Teste da Razão de Verossimilhança(D m D q )/φ = 2(l q l m ) = 2ln ( ) Lq L m DEIO/CEAUL Valeska Andreozzi slide 79 38

39 Análise de deviance Para modelos normais em que não conhecemos σ 2 usamos o teste F ao invés do teste χ 2 Sob a H 0 de que o modelo simples M m é melhor, temos o resultado exato (D m D q )/p q p m D q /(n p q ) F pq p m,n p q DEIO/CEAUL Valeska Andreozzi slide 80 Comparando modelos encaixados 1. Y Normal com σ 2 desconhecido Teste F: (Dm Dq)/pq pm D q/(n p q) F pq p m,n p q No R > anova(mm,mq, test = "F") 2. Caso contrário Teste χ 2 : (D m D q )/φ a χ 2 p q p m No R > anova(mm,mq, test = "Chisq") DEIO/CEAUL Valeska Andreozzi slide 81 39

40 Exemplo > mice.reg1<-glm(response~1, data = mice, family=binomial) > mice.reg2<-glm(response~dose, data = mice, family=binomial) > anova(mice.reg1,mice.reg2,test = "Chisq") Analysis of Deviance Table Model 1: response ~ 1 Model 2: response ~ dose Resid. Df Resid. Dev Df Deviance P(> Chi ) e-05 DEIO/CEAUL Valeska Andreozzi slide 82 Comparando modelos não encaixados Critério de Akaike - AIC (Akaike Information Criteria) Penaliza o log da verossimilhança pelo número de parâmetros do modelo AIC = 2l(β)+2p l: logaritmo da função de verossimilhança do modelo e p: número de parâmetros do modelo Quanto menor o AIC melhor o modelo No R: extractaic(modelo) DEIO/CEAUL Valeska Andreozzi slide 83 40

41 Exemplo > mice.reg1<-glm(response~1, data = mice, family=binomial) > mice.reg2<-glm(response~dose, data = mice, family=binomial) > extractaic(mice.reg1) [1] > extractaic(mice.reg2) [1] DEIO/CEAUL Valeska Andreozzi slide 84 Seleção sequencial de variáveis Procedimentos Forward: modelos são sistematicamente construídos através da adição de variáveis uma a uma no modelo nulo. Backward: modelos são sistematicamente reduzidos através da exclusão de variáveis uma a uma do modelo completo. Stepwise: é uma combinação dos dois procedimentos anteriores Para qualquer dos procedimentos, a decisão crucial está na escolha da regra de paragem. Algumas escolhas são Akaike Information Criteria, o qual não possui nenhuma distribuição associada para proceder um teste formal, ou a Análise de deviance, em que o nível de significância para adicionar ou excluir a uma variável deve ser escolhido. Antes de adotar um critério de seleção de modelos (ou variáveis), defina claramente o objetivo do modelo Modelo Preditivo - Ex.: Prever a pressão arterial dado o valor da idade e do sexo Modelo Explicativo - Ex.: quantificar a associação entre pressão arterial e variáveis sócio-econômicas (idade e sexo). Sempre que possível descreva um modelo teórico da associação entre o desfecho e as covariáveis. DEIO/CEAUL Valeska Andreozzi slide 85 41

42 Modelo Teórico Exemplo de seleção de modelo Artigo: Fuchs, Victora e Fachel (1996). Modelo Hierarquizado: uma proposta de modelagem aplicada à investigação de fatores de risco para diarréia grave. Revista de Saúde Pública, 30(2): Clique para obter PDF online DEIO/CEAUL Valeska Andreozzi slide 86 Peso ao nascer: birth.dat 1. bwt - peso ao nascer 2. low - peso categorizado em 0 - normal, 1 < 2500g 3. age - idade da mãe 4. lwt - peso da mãe em libras na última regra 5. race - raça da mãe: 1 - branco, 2 - negro, 3 - outros 6. smoke - hábito de fumar 0 - não, 1 - sim 7. ptl - número de prematuros em gestações anteriores 8. ht - indicador de hipertensão: Existe e NE (não existe) 9. ftv - número de consultas de pré-natal DEIO/CEAUL Valeska Andreozzi slide 87 42

43 Exemplo no R bw <- read.table("birth.dat", header = T) head(bw) names(bw) bw$ht <- relevel(bw$ht, "NE") bw$race <- factor(bw$race,labels=c("bco", "Ngo", "Out")) bw$smoke <- factor(bw$smoke) bw$bwt <- bw$bwt/1000 summary(bw) bw.mod1 <- glm(bwt ~ age+lwt+race+smoke+ht+ftv, data = bw) summary(bw.mod1) anova(bw.mod1,test="f") mod.both<-step(bw.mod1,direction="both") mod.both mod.back<-step(bw.mod1,direction="backward") mod.back bw.nulo <- glm(bwt ~ 1, data = bw) mod.forw<-step(bw.nulo,scope=list(upper=~age+lwt+race+smoke+ht+ftv), direction="forward") mod.forw mod.back mod.both DEIO/CEAUL Valeska Andreozzi slide 88 Dicas de modelagem Covariável contínua ou discreta Quando usar a covariável contínua ou quando categorizar? A diferença fundamental está na premissa de linearidade. Se esta premissa estiver ok, utilize a covariável contínua, mas caso isso não ocorre, teríamos que usar tranformações da covariável (ex.: termos polinomiais) dificultando a interpretação do modelo. Alternativa é categorizar a variável permitindo que a variável resposta varie arbitrariamente de uma categoria para outra. Vantagem de categorizar a covariável: fácil interpretação Desvantagem: ao agrupar a covariável não estamos fazendo o uso de toda a informação dos dados. DEIO/CEAUL Valeska Andreozzi slide 89 43

44 Dicas de modelagem Modelos mais complicados Inclusão de termos polinomiais, transformação de covariáveis para capturar a não-linearidade. No caso de termos polinomiais temos que ter cuidado para não introduzir covariáveis altamente correlacionadas (multicolinearidade) Inclusão de termos de interação: o efeito de uma covariável depende do valor da outra covariável Para avaliar se termos mais complicados nos modelos são realmente necessários, verifique se sua inclusão reduz significativamente o deviance. DEIO/CEAUL Valeska Andreozzi slide 90 Dicas de modelagem Não são regras e por isso podem ser violadas 1. Se existe uma interação A : B no modelo entre duas covariáveis A e B devemos evitar retirar o efeito principal das variáveis 2. Se temos um conhecimento prévio de que uma covariável afeta uma variável resposta, podemos mantê-la no modelo mesmo que a análise de desvio indique que ela não é importante DEIO/CEAUL Valeska Andreozzi slide 91 44

45 Diagnóstico slide 92 Introdução Não se deve esquecer que um modelo é apenas uma aproximação da realidade. Todos os modelos envolvem várias premissas em relação aos dados. Contudo, na maioria das vezes apenas uma porção dos dados se mostra consoante as premissas do modelo. Logo, torna-se essencial avaliar se as premissas dos modelos ajustados foram respeitadas para garantir a interpretabilidade do modelo. DEIO/CEAUL Valeska Andreozzi slide 93 Introdução Tópicos a serem verificados na etapa de diagnóstico do modelo Verificar se o modelo se ajusta aos dados Premissas do modelo Procurar pontos outliers Procurar pontos influentes Necessidade de inclusão de covariáveis Escolha correta da função de ligação Escolha da escala das covariáveis DEIO/CEAUL Valeska Andreozzi slide 94 45

46 Valores ajustados e resíduos No caso dos MLG os resíduos ordinários r i = y i µ i apresentam diferentes variabilidades Logo torna-se necessário padronizar os resíduos ordinários pelo erro padrão de y i. Em geral, o erro padrão de r i é uma função dos parâmetros do modelo estimado por V( µ i ) Temos também que levar em consideração os efeitos das covariáveis nos resíduos através da matriz hat. Cálculos relativamente simples, mas morosos, permitem estabelecer que, assintoticamente: DEIO/CEAUL Valeska Andreozzi slide 95 Valores ajustados e resíduos Var(r i ) = Var(Y i )(1 h ii ) Var(r i ) = φv( µ i )(1 h ii ) h ii são os valores da diagonal da matriz hat ( µ = Hy). h ii são uma medida de influência exercida por y i no cálculo de µ i Este resultado mostra que os resíduos podem ter variâncias diferentes, mesmo que a variância da variável resposta seja constante, porque a precisão dos resíduos depende do padrão das covariáveis. Conclusão: devemos utilizar resíduos padronizados DEIO/CEAUL Valeska Andreozzi slide 96 46

47 Resíduo de Pearson Resíduo de Pearson r p i = yi µi = yi µi Var(Yi) φv( µi) > res <- residuals(fit, type = "pearson") Resíduo de Pearson padronizado r p i = y i µ i φv( µi)(1 h ii) > res <- rstandard(fit, type="pearson") r p i corresponde à contribuição de cada observação para o cálculo da estatística de Pearson generalizada. A desvantagem do resíduo de Pearson é que sua distribuição é geralmente assimétrica para modelos não normais. DEIO/CEAUL Valeska Andreozzi slide 97 Resíduo de Pearson Resíduo de Pearson Padronizado Modelo Normal Modelo Poisson Modelo Binomial r p i = y i µ i φ(1 h ii ) r p y i µ i i = µi (1 h ii ) r p y i µ i i = µi (1 µ i )(1 h ii ) DEIO/CEAUL Valeska Andreozzi slide 98 47

48 Resíduo Deviance Resíduo Deviance r d i = sinal(y i µ i ) d i d i = contribuição da i-ésima observação para a função desvio > res <- residuals(fit, type = "deviance") Resíduo Deviance Padronizado ri d = r D φ(1 hii) > res <- rstandard(fit, type="deviance") DEIO/CEAUL Valeska Andreozzi slide 99 Resíduos Resíduos de Pearson e Deviance devem ser aproximadamente Normais(0,1) para dados que seguem uma distribuição Normal, de Poisson e Binomial com grandes contagens. 95% dos resíduos devem estar entre 2 e 2 Para dados Bernoulli e Binomial com pequenas contagens não podemos esperar que os resíduos de Pearson e Deviance possuam uma distribuição Normal padronizada, em geral a distribuição é assimétrica. Contudo a maioria dos resíduos devem estar entre 2 e 2 e sua variância deve ser unitária DEIO/CEAUL Valeska Andreozzi slide

49 Variância constante Para avaliar evidência de variância não constante utilizamos o seguinte gráfico Gráficos dos resíduos padronizados vs preditores lineares η ou vs função dos valores ajustados µ ou vs índice Devemos encontrar um padrão nulo, Os resíduos devem estar distribuídos em torno do zero com amplitude constante para diferentes valores de µ Transformações sugeridas por McCullagh e Nelder µ para o modelo normal 2 µ para o modelo de Poisson 2sin 1 µ para o modelo binomial 2ln( µ) para o modelo gamma DEIO/CEAUL Valeska Andreozzi slide 101 Variância constante bw <- read.table("birth.dat", header = T) bw$ht <- relevel(bw$ht, "NE") bw$race <- factor(bw$race,labels=c("bco", "Ngo", "Out")) bw$smoke <- factor(bw$smoke) bw.mod2<-glm(formula = bwt ~ lwt + race + smoke + ht, data = bw) res<-rstandard(bw.mod2,type="deviance") plot(bw.mod2$fitted.values,res,xlab="valores ajustados", ylab="resíduos deviance padronizados") lines(lowess(bw.mod2$fitted.values,res),col="red") abline(h=0,lty=2) DEIO/CEAUL Valeska Andreozzi slide

50 Variância constante resíduos deviance padronizados valores ajustados DEIO/CEAUL Valeska Andreozzi slide 103 Inclusão de nova variável Para avaliar a inclusão de uma nova variável no modelo utilizamos: Gráficos dos resíduos do modelo vs a nova covariável não incluída no modelo Não existe evidência de associação da variável resposta e a nova variável caso um padrão nulo seja encontrado plot(bw$age,res,xlab="age",ylab="resíduos deviance padronizados") lines(lowess(bw$age,res)) abline(h=0,lty=2) DEIO/CEAUL Valeska Andreozzi slide

51 Inclusão de nova variável resíduos deviance padronizados age DEIO/CEAUL Valeska Andreozzi slide 105 Relação linear das covariáveis Para avaliar se a relação da covariável é linear Gráficos dos resíduos vs covariáveis incluídas no modelo + função de alisamento plot(bw$lwt,res,xlab="lwt",ylab="resíduos deviance padronizados") lines(lowess(bw$lwt,res)) abline(h=0,lty=2) DEIO/CEAUL Valeska Andreozzi slide

52 Relação linear das covariáveis resíduos deviance padronizados lwt DEIO/CEAUL Valeska Andreozzi slide 107 Relação linear das covariáveis Estamos interessados em avaliar a relação linear parcial da variável resposta Y com a covariável x j ( controlando pelas outras covariáveis presentes no modelo) e não na relação marginal (ignorando as outras covariáveis). Neste caso outro gráfico útil na avaliação da relação linear da covariável é Component-plus-residuals plot também conhecido como partial-residuals plot O gráfico é composto pelo resíduo parcial da covariável x j dado por r (j) i = r i +B j x ij versus a própria covariável x j. (r i = y i µ i ) O resíduo parcial r (j) i é definido através da adição do termo linear da relação entre Y e x j aos resíduos do modelo (r i ), que podem conter um componente não linear Espera-se encontrar uma relação linear entre r (j) e x j. Geralmente a não linearidade é aparente, e por isso é aconselhado incluir um função de alisamento no gráfico library(car) bw.mod2<-glm(formula = bwt ~ lwt + race + smoke + ht, data = bw) crplots(bw.mod2,terms=~lwt) crplots(bw.mod2) #vers~oes antigas do R: cr.plots DEIO/CEAUL Valeska Andreozzi slide

53 Relação linear das covariáveis Component+Residual Plot Component+Residual(bwt) lwt DEIO/CEAUL Valeska Andreozzi slide 109 Relação não-linear das covariáveis Quando a relação entre a variável resposta e a covariável contínua é não linear o que devemos fazer? Categorizar a covariável, caso a não-linearidade seja caracterizada por uma função segmentada. Adicionar termos polinomiais. Podemos incluir termos quadráticos da covariável em questão, ou seja X 2 j, mas nem sempre a não-linearidade é de natureza parabólica. A adição de termos polinominais pode ser uma solução, contudo apresentam algumas propriedades não desejáveis (presença de picos e depressões; problemas em modelar dados com threshold) Utilizar transformações Box-Cox. Problemas: perda de interpretação da covariável Uma outra alternativa é incluir termos não lineares através de funções de alisamento (paramétricos ou não paramétricos). Desta forma são caracterizados os modelos aditivos generalizados. DEIO/CEAUL Valeska Andreozzi slide

54 Pontos influentes - Leverage µ = X β = HY µ i = H ii y i + j i H ihy i H matriz hat h ii Leverage de uma observação y i h ii mede a influência de y em µ quanto maior h ii, maior é o peso de y i no valor ajustado n i=1 h ii = p, onde n = número de observações e p = número de parâmetros do modelo. Rule of thumb h ii é considerado grande se for maior que duas ou três vezes p/n. Logo podemos investigar valores maiores de h i /(p/n) maiores que 2 como sendo possíveis pontos influentes. Caso os resíduos desses pontos identificados como influentes não sejam grandes, não precisamos nos preocupar. DEIO/CEAUL Valeska Andreozzi slide 111 Exemplos h<-hatvalues(bw.mod2) p <- dim(model.matrix(bw.mod2))[[2]] #num de parametros n <- dim(model.matrix(bw.mod2))[[1]] #num de observaç~oes plot(h/(p/n), ylab = "Leverage h/(p/n)", xlab = "Índice", cex.lab = 1.5, pch = 19) abline(h=2, lty = 2) Leverage h/(p/n) Índice DEIO/CEAUL Valeska Andreozzi slide

55 Pontos influentes: Cooks Distance Informação conjunta do Leverage e Resíduo CD i rp i p hii 1 h ii res <- rstandard(bw.mod2, type="deviance") plot(h,res) abline(h=c(-2,2),lty=2) abline(v=c(2,3)*mean(h),lty=2) library(car) plot(cooks.distance(bw.mod2)) #vers~oes antigas do R: cookd() ao invés de cooks.distance() res Cooks Distance h Índice DEIO/CEAUL Valeska Andreozzi slide 113 Função de ligação Um método para verificar se a função de ligação escolhida é adequada consite em simplesmente adicionar η 2 (preditor linear) como covariável extra no modelo e examinar a mudança ocorrida na deviance, isto é, fazer o teste da razão de verossimilhanças. Se o teste da razão de verosimillhanças for significativo podemos dizer que há evidência de que a função de ligação não é adequada. Observação importante: A adequação da função de ligação pode ser afetada pela falha em estabelecer escalas corretas para as variáveis explanatórias no preditor linear. Em particular, se o teste formal construído pela adição de η 2 indica desvio do modelo, isto pode indicar função de ligação errada ou escalas erradas para as variáveis explanatórias ou ambas. Pontos atípicos, também, podem afetar a escolha da função de ligação. No source("glmfunc.r") foi construído a função goodlink() para testar a adequação da função de ligação DEIO/CEAUL Valeska Andreozzi slide

Valeska Andreozzi 2010

Valeska Andreozzi 2010 Introdução Valeska Andreozzi 2010 Referências 3 Modelagem estatística 8 Modelagem................................................................... 9 Objetivos....................................................................

Leia mais

Regressão Logística. Daniel Araújo Melo - dam2@cin.ufpe.br. Graduação

Regressão Logística. Daniel Araújo Melo - dam2@cin.ufpe.br. Graduação Regressão Logística Daniel Araújo Melo - dam2@cin.ufpe.br Graduação 1 Introdução Objetivo Encontrar o melhor modelo para descrever a relação entre variável de saída (variável dependente) e variáveis independentes

Leia mais

Regressão Logística. Propriedades

Regressão Logística. Propriedades Regressão Logística Propriedades Geralmente a grande questão a ser respondida nos estudos epidemiológicos é saber qual a relação entre uma ou mais variáveis que refletem a exposição e a doença (efeito).

Leia mais

AULAS 14, 15 E 16 Análise de Regressão Múltipla: Problemas Adicionais

AULAS 14, 15 E 16 Análise de Regressão Múltipla: Problemas Adicionais 1 AULAS 14, 15 E 16 Análise de Regressão Múltipla: Problemas Adicionais Ernesto F. L. Amaral 20 e 22 de abril e 04 de maio de 2010 Métodos Quantitativos de Avaliação de Políticas Públicas (DCP 030D) Fonte:

Leia mais

5 Cap 8 Análise de Resíduos. Outline. 2 Cap 2 O tempo. 3 Cap 3 Funções de Sobrevida. Carvalho MS (2009) Sobrevida 1 / 22

5 Cap 8 Análise de Resíduos. Outline. 2 Cap 2 O tempo. 3 Cap 3 Funções de Sobrevida. Carvalho MS (2009) Sobrevida 1 / 22 Outline Cap 8 Análise de Resíduos 1 Cap 1 Introdução 2 Cap 2 O tempo 3 Cap 3 Funções de Sobrevida 4 Cap 4 Não-Paramétrica 5 Cap 8 Análise de Resíduos Carvalho MS (2009) Sobrevida 1 / 22 Objetivos Analisar

Leia mais

XVIII CONGRESSO DE PÓS-GRADUAÇÃO DA UFLA 19 a 23 de outubro de 2009

XVIII CONGRESSO DE PÓS-GRADUAÇÃO DA UFLA 19 a 23 de outubro de 2009 REGRESSÃO MÚLTIPLA APLICADA AOS DADOS DE VENDAS DE UMA REDE DE LOJAS DE ELETRODOMÉSTICOS VANESSA SIQUEIRA PERES 1 RESUMO: Esse trabalho foi realizado com o objetivo de ajustar os dados de vendas de uma

Leia mais

Capítulo 3 Modelos Estatísticos

Capítulo 3 Modelos Estatísticos Capítulo 3 Modelos Estatísticos Slide 1 Resenha Variáveis Aleatórias Distribuição Binomial Distribuição de Poisson Distribuição Normal Distribuição t de Student Distribuição Qui-quadrado Resenha Slide

Leia mais

Principais tipos de resíduos utilizados na análise de diagnóstico em MLG com aplicações para os modelos: Poisson, ZIP e ZINB

Principais tipos de resíduos utilizados na análise de diagnóstico em MLG com aplicações para os modelos: Poisson, ZIP e ZINB Francisco William Pereira Marciano Principais tipos de resíduos utilizados na análise de diagnóstico em MLG com aplicações para os modelos: Poisson, ZIP e ZINB Fortaleza CE Setembro / 2009 Francisco William

Leia mais

Testes (Não) Paramétricos

Testes (Não) Paramétricos Armando B. Mendes, DM, UAç 09--006 ANOVA: Objectivos Verificar as condições de aplicabilidade de testes de comparação de médias; Utilizar ANOVA a um factor, a dois factores e mais de dois factores e interpretar

Leia mais

Estimação bayesiana em modelos lineares generalizados mistos: MCMC versus INLA

Estimação bayesiana em modelos lineares generalizados mistos: MCMC versus INLA Estimação bayesiana em modelos lineares generalizados mistos: MCMC versus INLA Everton Batista da Rocha 1 2 3 Roseli Aparecida Leandro 2 Paulo Justiniano Ribeiro Jr 4 1 Introdução Na experimentação agronômica

Leia mais

UNIVERSIDADE FEDERAL DE JUIZ DE FORA INSTITUTO DE CIÊNCIAS EXATAS DEPARTAMENTO DE ESTATÍSTICA Programa de Graduação em Estatística. Samuel de Oliveira

UNIVERSIDADE FEDERAL DE JUIZ DE FORA INSTITUTO DE CIÊNCIAS EXATAS DEPARTAMENTO DE ESTATÍSTICA Programa de Graduação em Estatística. Samuel de Oliveira UNIVERSIDADE FEDERAL DE JUIZ DE FORA INSTITUTO DE CIÊNCIAS EXATAS DEPARTAMENTO DE ESTATÍSTICA Programa de Graduação em Estatística Samuel de Oliveira INFERÊNCIA E ANÁLISE DE RESÍDUOS E DE DIAGNÓSTICO EM

Leia mais

Análise de Sobrevivência Aplicada à Saúde

Análise de Sobrevivência Aplicada à Saúde Roteiro Análise de Sobrevivência Aplicada à Saúde Lupércio França Bessegato Dep. Estatística/UFJF 1. Conceitos Básicos 2. Técnicas Não Paramétricas 3. Modelos Probabilísticos e Inferência 4. Modelos de

Leia mais

Faculdade Sagrada Família

Faculdade Sagrada Família AULA 12 - AJUSTAMENTO DE CURVAS E O MÉTODO DOS MÍNIMOS QUADRADOS Ajustamento de Curvas Sempre que desejamos estudar determinada variável em função de outra, fazemos uma análise de regressão. Podemos dizer

Leia mais

1. Os métodos Não-Paramétricos podem ser aplicados a uma ampla diversidade de situações, porque não exigem populações distribuídas normalmente.

1. Os métodos Não-Paramétricos podem ser aplicados a uma ampla diversidade de situações, porque não exigem populações distribuídas normalmente. TESTES NÃO - PARAMÉTRICOS As técnicas da Estatística Não-Paramétrica são, particularmente, adaptáveis aos dados das ciências do comportamento. A aplicação dessas técnicas não exige suposições quanto à

Leia mais

AULAS 02 E 03 Modelo de Regressão Simples

AULAS 02 E 03 Modelo de Regressão Simples 1 AULAS 02 E 03 Modelo de Regressão Simples Ernesto F. L. Amaral 04 e 09 de março de 2010 Métodos Quantitativos de Avaliação de Políticas Públicas (DCP 030D) Fonte: Wooldridge, Jeffrey M. Introdução à

Leia mais

O comportamento conjunto de duas variáveis quantitativas pode ser observado por meio de um gráfico, denominado diagrama de dispersão.

O comportamento conjunto de duas variáveis quantitativas pode ser observado por meio de um gráfico, denominado diagrama de dispersão. ESTATÍSTICA INDUTIVA 1. CORRELAÇÃO LINEAR 1.1 Diagrama de dispersão O comportamento conjunto de duas variáveis quantitativas pode ser observado por meio de um gráfico, denominado diagrama de dispersão.

Leia mais

Sessão Saber profundo Contribuição dos xs (http://www.midomenech.com.br/artigos.asp)

Sessão Saber profundo Contribuição dos xs (http://www.midomenech.com.br/artigos.asp) Sessão Saber profundo Contribuição dos xs (http://www.midomenech.com.br/artigos.asp) Carlos H. Domenech e Patrícia Fonseca Em 0 palavras ou menos Durante a etapa Analisar do DMAIC o Belt usualmente deseja

Leia mais

Datas Importantes 2013/01

Datas Importantes 2013/01 INSTRUMENTAÇÃO CARACTERÍSTICAS DE UM SISTEMA DE MEDIÇÃO PROBABILIDADE PROPAGAÇÃO DE INCERTEZA MÍNIMOS QUADRADOS Instrumentação - Profs. Isaac Silva - Filipi Vianna - Felipe Dalla Vecchia 2013 Datas Importantes

Leia mais

Potenciação no Conjunto dos Números Inteiros - Z

Potenciação no Conjunto dos Números Inteiros - Z Rua Oto de Alencar nº 5-9, Maracanã/RJ - tel. 04-98/4-98 Potenciação no Conjunto dos Números Inteiros - Z Podemos epressar o produto de quatro fatores iguais a.... por meio de uma potência de base e epoente

Leia mais

de Piracicaba-SP: uma abordagem comparativa por meio de modelos probabilísticos

de Piracicaba-SP: uma abordagem comparativa por meio de modelos probabilísticos Descrição da precipitação pluviométrica no munícipio de Piracicaba-SP: uma abordagem comparativa por meio de modelos probabilísticos Idemauro Antonio Rodrigues de Lara 1 Renata Alcarde 2 Sônia Maria De

Leia mais

Conceitos Básicos de Estatística Aula 2

Conceitos Básicos de Estatística Aula 2 Conceitos Básicos de Estatística Aula 2 ISCTE - IUL, Mestrados de Continuidade Diana Aldea Mendes diana.mendes@iscte.pt 13 de Setembro de 2011 DMQ, ISCTE-IUL (diana.mendes@iscte.pt) Estatística 13 de Setembro

Leia mais

Capítulo 5. Modelos de Confiabilidade. Gustavo Mello Reis José Ivo Ribeiro Júnior

Capítulo 5. Modelos de Confiabilidade. Gustavo Mello Reis José Ivo Ribeiro Júnior Capítulo 5 Modelos de Confiabilidade Gustavo Mello Reis José Ivo Ribeiro Júnior Universidade Federal de Viçosa Departamento de Informática Setor de Estatística Viçosa 007 Capítulo 5 Modelos de Confiabilidade

Leia mais

Testedegeradoresde. Parte X. 38 Testes de Ajuste à Distribuição. 38.1 Teste Chi-Quadrado

Testedegeradoresde. Parte X. 38 Testes de Ajuste à Distribuição. 38.1 Teste Chi-Quadrado Parte X Testedegeradoresde números aleatórios Os usuários de uma simulação devem se certificar de que os números fornecidos pelo gerador de números aleatórios são suficientemente aleatórios. O primeiro

Leia mais

P. P. G. em Agricultura de Precisão DPADP0803: Geoestatística (Prof. Dr. Elódio Sebem)

P. P. G. em Agricultura de Precisão DPADP0803: Geoestatística (Prof. Dr. Elódio Sebem) Considerações Iniciais É impossível saber, antes de amostrar, de que maneira os valores das variáveis irão se comportar: se dependente ou independente uma da outra. Devido as limitações da estatística

Leia mais

Aula 4 Estatística Conceitos básicos

Aula 4 Estatística Conceitos básicos Aula 4 Estatística Conceitos básicos Plano de Aula Amostra e universo Média Variância / desvio-padrão / erro-padrão Intervalo de confiança Teste de hipótese Amostra e Universo A estatística nos ajuda a

Leia mais

Aula 4 Conceitos Básicos de Estatística. Aula 4 Conceitos básicos de estatística

Aula 4 Conceitos Básicos de Estatística. Aula 4 Conceitos básicos de estatística Aula 4 Conceitos Básicos de Estatística Aula 4 Conceitos básicos de estatística A Estatística é a ciência de aprendizagem a partir de dados. Trata-se de uma disciplina estratégica, que coleta, analisa

Leia mais

A finalidade dos testes de hipóteses paramétrico é avaliar afirmações sobre os valores dos parâmetros populacionais.

A finalidade dos testes de hipóteses paramétrico é avaliar afirmações sobre os valores dos parâmetros populacionais. Prof. Janete Pereira Amador Introdução Os métodos utilizados para realização de inferências a respeito dos parâmetros pertencem a duas categorias. Pode-se estimar ou prever o valor do parâmetro, através

Leia mais

Revisão: Noções básicas de estatística aplicada a avaliações de imóveis

Revisão: Noções básicas de estatística aplicada a avaliações de imóveis Curso de Avaliações Prof. Carlos Aurélio Nadal cnadal@ufpr.br 1 AULA 03 Revisão: Noções básicas de estatística aplicada a avaliações de imóveis 2 OBSERVAÇÃO: é o valor obtido durante um processo de medição.

Leia mais

Equações Diferenciais Ordinárias

Equações Diferenciais Ordinárias Capítulo 8 Equações Diferenciais Ordinárias Vários modelos utilizados nas ciências naturais e exatas envolvem equações diferenciais. Essas equações descrevem a relação entre uma função, o seu argumento

Leia mais

Exercícios Teóricos Resolvidos

Exercícios Teóricos Resolvidos Universidade Federal de Minas Gerais Instituto de Ciências Exatas Departamento de Matemática Exercícios Teóricos Resolvidos O propósito deste texto é tentar mostrar aos alunos várias maneiras de raciocinar

Leia mais

Problemas de Valor Inicial para Equações Diferenciais Ordinárias

Problemas de Valor Inicial para Equações Diferenciais Ordinárias Problemas de Valor Inicial para Equações Diferenciais Ordinárias Carlos Balsa balsa@ipb.pt Departamento de Matemática Escola Superior de Tecnologia e Gestão de Bragança Matemática Aplicada - Mestrados

Leia mais

Análise de Regressão Linear Simples e Múltipla

Análise de Regressão Linear Simples e Múltipla Análise de Regressão Linear Simples e Múltipla Carla Henriques Departamento de Matemática Escola Superior de Tecnologia de Viseu Carla Henriques (DepMAT ESTV) Análise de Regres. Linear Simples e Múltipla

Leia mais

Distribuição Gaussiana. Modelo Probabilístico para Variáveis Contínuas

Distribuição Gaussiana. Modelo Probabilístico para Variáveis Contínuas Distribuição Gaussiana Modelo Probabilístico para Variáveis Contínuas Distribuição de Frequências do Peso, em gramas, de 10000 recém-nascidos Frequencia 0 500 1000 1500 2000 2500 3000 3500 1000 2000 3000

Leia mais

Resoluções comentadas de Raciocínio Lógico e Estatística - SEPLAG-2010 - APO

Resoluções comentadas de Raciocínio Lógico e Estatística - SEPLAG-2010 - APO Resoluções comentadas de Raciocínio Lógico e Estatística - SEPLAG-010 - APO 11. O Dia do Trabalho, dia 1º de maio, é o 11º dia do ano quando o ano não é bissexto. No ano de 1958, ano em que o Brasil ganhou,

Leia mais

3 Planejamento de Experimentos

3 Planejamento de Experimentos 3 Planejamento de Experimentos Segundo Montgomery (2004) os métodos de controle estatístico do processo e o planejamento experimental, são duas ferramentas muito poderosas para a melhoria e otimização

Leia mais

Cálculo Numérico Faculdade de Engenharia, Arquiteturas e Urbanismo FEAU

Cálculo Numérico Faculdade de Engenharia, Arquiteturas e Urbanismo FEAU Cálculo Numérico Faculdade de Engenharia, Arquiteturas e Urbanismo FEAU Prof. Dr. Sergio Pilling (IPD/ Física e Astronomia) III Resolução de sistemas lineares por métodos numéricos. Objetivos: Veremos

Leia mais

Modelos Pioneiros de Aprendizado

Modelos Pioneiros de Aprendizado Modelos Pioneiros de Aprendizado Conteúdo 1. Hebb... 2 2. Perceptron... 5 2.1. Perceptron Simples para Classificaçãod e Padrões... 6 2.2. Exemplo de Aplicação e Motivação Geométrica... 9 2.3. Perceptron

Leia mais

CAP5: Amostragem e Distribuição Amostral

CAP5: Amostragem e Distribuição Amostral CAP5: Amostragem e Distribuição Amostral O que é uma amostra? É um subconjunto de um universo (população). Ex: Amostra de sangue; amostra de pessoas, amostra de objetos, etc O que se espera de uma amostra?

Leia mais

O teste de McNemar. A tabela 2x2. Depois

O teste de McNemar. A tabela 2x2. Depois Prof. Lorí Viali, Dr. http://www.pucrs.br/famat/viali/ viali@pucrs.br O teste de McNemar O teste de McNemar para a significância de mudanças é particularmente aplicável aos experimentos do tipo "antes

Leia mais

Estatística II Antonio Roque Aula 9. Testes de Hipóteses

Estatística II Antonio Roque Aula 9. Testes de Hipóteses Testes de Hipóteses Os problemas de inferência estatística tratados nas aulas anteriores podem ser enfocados de um ponto de vista um pouco diferente: ao invés de se construir intervalos de confiança para

Leia mais

MAE0325 - Séries Temporais

MAE0325 - Séries Temporais MAE0325 - Séries Temporais Fernando Henrique Ferraz Pereira da Rosa Vagner Aparecido Pedro Junior 26 de setembro de 2004 E7p80. Considere a série A (M-ICV): Lista 1 1 (a) teste a existência de tendência,

Leia mais

Capítulo 8 - Testes de hipóteses. 8.1 Introdução

Capítulo 8 - Testes de hipóteses. 8.1 Introdução Capítulo 8 - Testes de hipóteses 8.1 Introdução Nos capítulos anteriores vimos como estimar um parâmetro desconhecido a partir de uma amostra (obtendo estimativas pontuais e intervalos de confiança para

Leia mais

Estatística descritiva. Também designada Análise exploratória de dados ou Análise preliminar de dados

Estatística descritiva. Também designada Análise exploratória de dados ou Análise preliminar de dados Estatística descritiva Também designada Análise exploratória de dados ou Análise preliminar de dados 1 Estatística descritiva vs inferencial Estatística Descritiva: conjunto de métodos estatísticos que

Leia mais

Contabilometria. Aula 10 Grau de Ajustamento e Verificação das Premissas MQO

Contabilometria. Aula 10 Grau de Ajustamento e Verificação das Premissas MQO Contabilometria Aula 10 Grau de Ajustamento e Verificação das Premissas MQO Ferramentas -------- Análise de Dados -------- Regressão Regressão Linear - Exemplo Usando o Excel Regressão Linear Output do

Leia mais

Classificação da imagem (ou reconhecimento de padrões): objectivos Métodos de reconhecimento de padrões

Classificação da imagem (ou reconhecimento de padrões): objectivos Métodos de reconhecimento de padrões Classificação de imagens Autor: Gil Gonçalves Disciplinas: Detecção Remota/Detecção Remota Aplicada Cursos: MEG/MTIG Ano Lectivo: 11/12 Sumário Classificação da imagem (ou reconhecimento de padrões): objectivos

Leia mais

Técnicas Multivariadas em Saúde. Comparações de Médias Multivariadas. Métodos Multivariados em Saúde - 2015. Roteiro. Testes de Significância

Técnicas Multivariadas em Saúde. Comparações de Médias Multivariadas. Métodos Multivariados em Saúde - 2015. Roteiro. Testes de Significância Roteiro Técnicas Multivariadas em Saúde Lupércio França Bessegato Dep. Estatística/UFJF 1. Introdução 2. Distribuições de Probabilidade Multivariadas 3. Representação de Dados Multivariados 4. Testes de

Leia mais

Equações Diferenciais Ordinárias

Equações Diferenciais Ordinárias Equações Diferenciais Ordinárias Uma equação diferencial é uma equação que relaciona uma ou mais funções (desconhecidas com uma ou mais das suas derivadas. Eemplos: ( t dt ( t, u t d u ( cos( ( t d u +

Leia mais

PP 301 Engenharia de Reservatórios I 11/05/2011

PP 301 Engenharia de Reservatórios I 11/05/2011 PP 301 Engenharia de Reservatórios I 11/05/2011 As informações abaixo têm como objetivo auxiliar o aluno quanto à organização dos tópicos principais abordados em sala e não excluem a necessidade de estudo

Leia mais

AULAS 13, 14 E 15 Correlação e Regressão

AULAS 13, 14 E 15 Correlação e Regressão 1 AULAS 13, 14 E 15 Correlação e Regressão Ernesto F. L. Amaral 23, 28 e 30 de setembro de 2010 Metodologia de Pesquisa (DCP 854B) Fonte: Triola, Mario F. 2008. Introdução à estatística. 10 ª ed. Rio de

Leia mais

REGRESSÃO NÃO PARAMÉTRICA

REGRESSÃO NÃO PARAMÉTRICA REGRESSÃO NÃO PARAMÉTRICA TX 753- Métodos probabilísticos em Engenharia Ambiental Cybelli Barbosa Thiago Brandão REGRESSÃO PARAMÉTRICA Relação funcional entre as variáveis explicativa e resposta é supostamente

Leia mais

Processos Estocásticos

Processos Estocásticos Processos Estocásticos Terceira Lista de Exercícios 22 de julho de 20 Seja X uma VA contínua com função densidade de probabilidade f dada por Calcule P ( < X < 2. f(x = 2 e x x R. A fdp dada tem o seguinte

Leia mais

Cálculo Numérico Faculdade de Engenharia, Arquiteturas e Urbanismo FEAU

Cálculo Numérico Faculdade de Engenharia, Arquiteturas e Urbanismo FEAU Cálculo Numérico Faculdade de Engenharia, Arquiteturas e Urbanismo FEAU Prof. Dr. Sergio Pilling (IPD/ Física e Astronomia) II Métodos numéricos para encontrar raízes (zeros) de funções reais. Objetivos:

Leia mais

Um estudo sobre funções contínuas que não são diferenciáveis em nenhum ponto

Um estudo sobre funções contínuas que não são diferenciáveis em nenhum ponto Um estudo sobre funções contínuas que não são diferenciáveis em nenhum ponto Maria Angélica Araújo Universidade Federal de Uberlândia - Faculdade de Matemática Graduanda em Matemática - Programa de Educação

Leia mais

Cláudio Tadeu Cristino 1. Julho, 2014

Cláudio Tadeu Cristino 1. Julho, 2014 Inferência Estatística Estimação Cláudio Tadeu Cristino 1 1 Universidade Federal de Pernambuco, Recife, Brasil Mestrado em Nutrição, Atividade Física e Plasticidade Fenotípica Julho, 2014 C.T.Cristino

Leia mais

Matemática Básica - 08. Função Logarítmica

Matemática Básica - 08. Função Logarítmica Matemática Básica Função Logarítmica 08 Versão: Provisória 0. Introdução Quando calculamos as equações exponenciais, o método usado consistia em reduzirmos os dois termos da equação à mesma base, como

Leia mais

Resolução de sistemas lineares

Resolução de sistemas lineares Resolução de sistemas lineares J M Martínez A Friedlander 1 Alguns exemplos Comecemos mostrando alguns exemplos de sistemas lineares: 3x + 2y = 5 x 2y = 1 (1) 045x 1 2x 2 + 6x 3 x 4 = 10 x 2 x 5 = 0 (2)

Leia mais

Análise de Arredondamento em Ponto Flutuante

Análise de Arredondamento em Ponto Flutuante Capítulo 2 Análise de Arredondamento em Ponto Flutuante 2.1 Introdução Neste capítulo, chamamos atenção para o fato de que o conjunto dos números representáveis em qualquer máquina é finito, e portanto

Leia mais

Análise e Processamento de Bio-Sinais. Mestrado Integrado em Engenharia Biomédica. Sinais e Sistemas. Licenciatura em Engenharia Física

Análise e Processamento de Bio-Sinais. Mestrado Integrado em Engenharia Biomédica. Sinais e Sistemas. Licenciatura em Engenharia Física Análise e Processamento de Bio-Sinais Mestrado Integrado em Engenharia Biomédica Licenciatura em Engenharia Física Faculdade de Ciências e Tecnologia Slide Slide 1 1 Tópicos: Representação de Sinais por

Leia mais

ESTUDO DO TEMPO ATÉ APOSENTADORIA DOS SERVIDORES TÉCNICO-ADMINISTRATIVOS DA UFLA VIA MODELO DE COX

ESTUDO DO TEMPO ATÉ APOSENTADORIA DOS SERVIDORES TÉCNICO-ADMINISTRATIVOS DA UFLA VIA MODELO DE COX ESTUDO DO TEMPO ATÉ APOSENTADORIA DOS SERVIDORES TÉCNICO-ADMINISTRATIVOS DA UFLA VIA MODELO DE COX Patrícia de Siqueira Ramos 1, Mário Javier Ferrua Vivanco 2 INTRODUÇÃO O servidor técnico-administrativo

Leia mais

Distribuição de probabilidades

Distribuição de probabilidades Luiz Carlos Terra Para que você possa compreender a parte da estatística que trata de estimação de valores, é necessário que tenha uma boa noção sobre o conceito de distribuição de probabilidades e curva

Leia mais

Variabilidade do processo

Variabilidade do processo Variabilidade do processo Em todo processo é natural encontrar certa quantidade de variabilidade. Processo sob controle estatístico: variabilidade natural por causas aleatórias Processo fora de controle:

Leia mais

Variáveis aleatórias contínuas e distribuiçao Normal. Henrique Dantas Neder

Variáveis aleatórias contínuas e distribuiçao Normal. Henrique Dantas Neder Variáveis aleatórias contínuas e distribuiçao Normal Henrique Dantas Neder Definições gerais Até o momento discutimos o caso das variáveis aleatórias discretas. Agora vamos tratar das variáveis aleatórias

Leia mais

Tipos de Modelos. Exemplos. Modelo determinístico. Exemplos. Modelo probabilístico. Causas Efeito. Determinístico. Sistema Real.

Tipos de Modelos. Exemplos. Modelo determinístico. Exemplos. Modelo probabilístico. Causas Efeito. Determinístico. Sistema Real. Tipos de Modelos Sistema Real Determinístico Prof. Lorí Viali, Dr. viali@mat.ufrgs.br http://www.mat.ufrgs.br/~viali/ Probabilístico Modelo determinístico Exemplos Gravitação F GM M /r Causas Efeito Aceleração

Leia mais

Somatórias e produtórias

Somatórias e produtórias Capítulo 8 Somatórias e produtórias 8. Introdução Muitas quantidades importantes em matemática são definidas como a soma de uma quantidade variável de parcelas também variáveis, por exemplo a soma + +

Leia mais

Introdução aos Modelos Lineares em Ecologia

Introdução aos Modelos Lineares em Ecologia Introdução aos Modelos Lineares em Ecologia Prof. Adriano Sanches Melo - Dep. Ecologia UFG asm.adrimelo no gmail.com Página do curso: www.ecologia.ufrgs.br/~adrimelo/lm/ Livro-texto: Crawley, M.J. 2005.

Leia mais

Universidade Federal de São João Del Rei - UFSJ

Universidade Federal de São João Del Rei - UFSJ Universidade Federal de São João Del Rei - UFSJ Instituída pela Lei 0.45, de 9/04/00 - D.O.U. de /04/00 Pró-Reitoria de Ensino de Graduação - PROEN Disciplina: Cálculo Numérico Ano: 03 Prof: Natã Goulart

Leia mais

5 A Metodologia de Estudo de Eventos

5 A Metodologia de Estudo de Eventos 57 5 A Metodologia de Estudo de Eventos 5.1. Principais Conceitos Introduzido em 1969 pelo estudo de Fama, Fisher, Jensen e Roll, o estudo de evento consiste na análise quanto à existência ou não de uma

Leia mais

36 a Olimpíada Brasileira de Matemática Nível Universitário Primeira Fase

36 a Olimpíada Brasileira de Matemática Nível Universitário Primeira Fase 36 a Olimpíada Brasileira de Matemática Nível Universitário Primeira Fase Problema 1 Turbo, o caracol, está participando de uma corrida Nos últimos 1000 mm, Turbo, que está a 1 mm por hora, se motiva e

Leia mais

Exercício de Revisao 1

Exercício de Revisao 1 Exercício de Revisao 1 Considere que seu trabalho é comparar o desempenho de dois algoritmos (A e B) de computação gráfica, que usam métodos diferentes para geração de faces humanas realistas. São sistema

Leia mais

CURSO de CIÊNCIAS ECONÔMICAS - Gabarito

CURSO de CIÊNCIAS ECONÔMICAS - Gabarito UNIVERSIDADE FEDERAL FLUMINENSE TRANSFERÊNCIA 2 o semestre letivo de 2006 e 1 o semestre letivo de 2007 CURSO de CIÊNCIAS ECONÔMICAS - Gabarito INSTRUÇÕES AO CANDIDATO Verifique se este caderno contém:

Leia mais

OUTLIERS Conceitos básicos

OUTLIERS Conceitos básicos Outliers: O que são? As observações que apresentam um grande afastamento das restantes ou são inconsistentes com elas são habitualmente designadas por outliers. Estas observações são também designadas

Leia mais

4 Análise dos Resultados

4 Análise dos Resultados 4 Análise dos Resultados 4.1 Construção do o de Regressão Logística No SPSS 13.0, foi aplicado o modelo de regressão logística binário, método stepwise foward, para definir o modelo final que minimiza

Leia mais

Metodologia para seleção de amostras de contratos de obras públicas (jurisdicionados) utilizando a programação linear aplicativo Solver

Metodologia para seleção de amostras de contratos de obras públicas (jurisdicionados) utilizando a programação linear aplicativo Solver REVISTA Metodologia para seleção de amostras de contratos de obras públicas (jurisdicionados) utilizando a programação linear aplicativo Solver André Mainardes Berezowski 1 Resumo Trata da apresentação

Leia mais

A otimização é o processo de

A otimização é o processo de A otimização é o processo de encontrar a melhor solução (ou solução ótima) para um problema. Eiste um conjunto particular de problemas nos quais é decisivo a aplicação de um procedimento de otimização.

Leia mais

PROBABILIDADE. Aula 5

PROBABILIDADE. Aula 5 Curso: Psicologia Disciplina: Métodos Quantitativos Profa. Valdinéia Data: 28/10/15 PROBABILIDADE Aula 5 Geralmente a cada experimento aparecem vários resultados possíveis. Por exemplo ao jogar uma moeda,

Leia mais

MD Sequências e Indução Matemática 1

MD Sequências e Indução Matemática 1 Sequências Indução Matemática Renato Martins Assunção assuncao@dcc.ufmg.br Antonio Alfredo Ferreira Loureiro loureiro@dcc.ufmg.br MD Sequências e Indução Matemática 1 Introdução Uma das tarefas mais importantes

Leia mais

Estudaremos métodos numéricos para resolução de sistemas lineares com n equações e n incógnitas. Estes podem ser:

Estudaremos métodos numéricos para resolução de sistemas lineares com n equações e n incógnitas. Estes podem ser: 1 UNIVERSIDADE FEDERAL DE VIÇOSA Departamento de Matemática - CCE Cálculo Numérico - MAT 271 Prof.: Valéria Mattos da Rosa As notas de aula que se seguem são uma compilação dos textos relacionados na bibliografia

Leia mais

Prova de Admissão para o Mestrado em Matemática IME-USP - 23.11.2007

Prova de Admissão para o Mestrado em Matemática IME-USP - 23.11.2007 Prova de Admissão para o Mestrado em Matemática IME-USP - 23.11.2007 A Nome: RG: Assinatura: Instruções A duração da prova é de duas horas. Assinale as alternativas corretas na folha de respostas que está

Leia mais

6 OS DETERMINANTES DO INVESTIMENTO NO BRASIL

6 OS DETERMINANTES DO INVESTIMENTO NO BRASIL 6 OS DETERMINANTES DO INVESTIMENTO NO BRASIL Este capítulo procurará explicar os movimentos do investimento, tanto das contas nacionais quanto das empresas abertas com ações negociadas em bolsa através

Leia mais

Exemplo Demanda de TV a Cabo

Exemplo Demanda de TV a Cabo Exemplo Demanda de TV a Cabo Gilberto A. Paula Departamento de Estatística IME-USP, Brasil giapaula@ime.usp.br 2 o Semestre 2015 G. A. Paula (IME-USP) Demanda de TV a Cabo 2 o Semestre 2015 1 / 21 Demanda

Leia mais

Correlação e Regressão

Correlação e Regressão Correlação e Regressão Análise de dados. Tópico Prof. Dr. Ricardo Primi & Prof. Dr. Fabian Javier Marin Rueda Adaptado de Gregory J. Meyer, University of Toledo, USA; Apresentação na Universidade e São

Leia mais

Delineamento em Blocos ao Acaso

Delineamento em Blocos ao Acaso Costa, S.C. 1 Universidade Estadual de Londrina Departamento de Estatística Delineamento em Blocos ao Acaso Silvano Cesar da Costa Londrina - Paraná Costa, S.C. 2 Delineamento em Blocos Casualizados Experimento

Leia mais

MÓDULO 1. I - Estatística Básica

MÓDULO 1. I - Estatística Básica MÓDULO 1 I - 1 - Conceito de Estatística Estatística Técnicas destinadas ao estudo quantitativo de fenômenos coletivos e empíricamente observáveis. Unidade Estatística nome dado a cada observação de um

Leia mais

EXCEL NA ANÁLISE DE REGRESSÃO

EXCEL NA ANÁLISE DE REGRESSÃO EXCEL NA ANÁLISE DE REGRESSÃO _2010_03_Exercicio _Regressão_exemplo O gerente de uma loja de artigos escolares, cada semana, deve decidir quanto gastar com propaganda e que atrativo (por exemplo preços

Leia mais

Introdução a Inferência Bayesiana. Ricardo S. Ehlers

Introdução a Inferência Bayesiana. Ricardo S. Ehlers Introdução a Inferência Bayesiana Ricardo S. Ehlers Versão Revisada em junho de 2003 Sumário 1 Introdução 2 1.1 Teorema de Bayes.......................... 2 1.2 Princípio da Verossimilhança....................

Leia mais

Aula 3 CONSTRUÇÃO DE GRÁFICOS EM PAPEL DILOG. Menilton Menezes. META Expandir o estudo da utilização de gráficos em escala logarítmica.

Aula 3 CONSTRUÇÃO DE GRÁFICOS EM PAPEL DILOG. Menilton Menezes. META Expandir o estudo da utilização de gráficos em escala logarítmica. Aula 3 CONSTRUÇÃO DE GRÁFICOS EM PAPEL DILOG META Expandir o estudo da utilização de gráficos em escala logarítmica. OBJETIVOS Ao final desta aula, o aluno deverá: Construir gráficos em escala di-logarítmica.

Leia mais

Teste de Hipóteses e Intervalos de Confiança

Teste de Hipóteses e Intervalos de Confiança Teste de Hipóteses e Intervalos de Confiança Teste de Hipótese e Intervalo de Confiança para a média Monitor Adan Marcel 1) Deseja-se estudar se uma moléstia que ataca o rim altera o consumo de oxigênio

Leia mais

Objetivos: Construção de tabelas e gráficos, escalas especiais para construção de gráficos e ajuste de curvas à dados experimentais.

Objetivos: Construção de tabelas e gráficos, escalas especiais para construção de gráficos e ajuste de curvas à dados experimentais. 7aula Janeiro de 2012 CONSTRUÇÃO DE GRÁFICOS I: Papel Milimetrado Objetivos: Construção de tabelas e gráficos, escalas especiais para construção de gráficos e ajuste de curvas à dados experimentais. 7.1

Leia mais

Universidade Federal do Rio Grande do Norte. Centro De Ciências Exatas e da Terra. Departamento de Física Teórica e Experimental

Universidade Federal do Rio Grande do Norte. Centro De Ciências Exatas e da Terra. Departamento de Física Teórica e Experimental Universidade Federal do Rio Grande do Norte Centro De Ciências Exatas e da Terra Departamento de Física Teórica e Experimental Programa de Educação Tutorial Curso de Nivelamento: Pré-Cálculo PET DE FÍSICA:

Leia mais

Análise de regressão linear simples. Departamento de Matemática Escola Superior de Tecnologia de Viseu

Análise de regressão linear simples. Departamento de Matemática Escola Superior de Tecnologia de Viseu Análise de regressão linear simples Departamento de Matemática Escola Superior de Tecnologia de Viseu Introdução A análise de regressão estuda o relacionamento entre uma variável chamada a variável dependente

Leia mais

Modelando a Variância

Modelando a Variância Capítulo 6 Modelando a Variância 6.1 Introdução Nos modelos vistos até aqui a variância dos erros foi assumida constante ao longo do tempo, i.e. V ar(ɛ t ) = E(ɛ 2 t ) = σɛ 2. Muitas séries temporais no

Leia mais

Exemplos de Testes de Hipóteses para Médias Populacionais

Exemplos de Testes de Hipóteses para Médias Populacionais Exemplos de Testes de Hipóteses para Médias Populacionais Vamos considerar exemplos de testes de hipóteses para a média de uma população para os dois casos mais importantes na prática: O tamanho da amostra

Leia mais

4 Aplicação: Modelo LOGIT para Avaliar o Risco de Crédito

4 Aplicação: Modelo LOGIT para Avaliar o Risco de Crédito 4 Aplicação: Modelo LOGIT para Avaliar o Risco de Crédito 4.1 Preparação de Dados Foi utilizada uma base de dados de 156 clientes que tiveram o vencimento de seus títulos compreendidos no período de abril

Leia mais

MARCELO RIBEIRO DA LUZ MARCOS FABIANE KUFNER

MARCELO RIBEIRO DA LUZ MARCOS FABIANE KUFNER MARCELO RIBEIRO DA LUZ MARCOS FABIANE KUFNER Comparação entre Análise Discriminante e Regressão Logística como método de melhor resultado na verificação de fatores que influenciam a evasão de alunos do

Leia mais

por séries de potências

por séries de potências Seção 23: Resolução de equações diferenciais por séries de potências Até este ponto, quando resolvemos equações diferenciais ordinárias, nosso objetivo foi sempre encontrar as soluções expressas por meio

Leia mais

Universidade de São Paulo. Escola Politécnica

Universidade de São Paulo. Escola Politécnica Universidade de São Paulo Escola Politécnica Engenharia Química Vitor Gazzaneo Modelagem do Equilíbrio Líquido-Líquido para o sistema Água- Ácido Acético-Acetato de Butila Prof. Orientador José Luis Pires

Leia mais

1 Propagação de Onda Livre ao Longo de um Guia de Ondas Estreito.

1 Propagação de Onda Livre ao Longo de um Guia de Ondas Estreito. 1 I-projeto do campus Programa Sobre Mecânica dos Fluidos Módulos Sobre Ondas em Fluidos T. R. Akylas & C. C. Mei CAPÍTULO SEIS ONDAS DISPERSIVAS FORÇADAS AO LONGO DE UM CANAL ESTREITO As ondas de gravidade

Leia mais

Métodos de Monte Carlo

Métodos de Monte Carlo Departamento de Estatística - UFJF Outubro e Novembro de 2014 são métodos de simulação São utilizados quando não temos uma forma fechada para resolver o problema Muito populares em Estatística, Matemática,

Leia mais

Cap. 12 Testes Qui- Quadrados e Testes Não-Paramétricos. Statistics for Managers Using Microsoft Excel, 5e 2008 Prentice-Hall, Inc.

Cap. 12 Testes Qui- Quadrados e Testes Não-Paramétricos. Statistics for Managers Using Microsoft Excel, 5e 2008 Prentice-Hall, Inc. Cap. 1 Testes Qui- Quadrados e Testes Não-Paramétricos Statistics for Managers Using Microsoft Excel, 5e 008 Prentice-Hall, Inc. Chap 1-1 Final de curso... tempo de recordar : ) Cap. 9 Fundamentos de testes

Leia mais

MAPEAMENTO DA INOVAÇÃO EM EMPRESAS SERGIPANAS: UMA APLICAÇÃO DE REGRESSÃO LOGÍSTICA

MAPEAMENTO DA INOVAÇÃO EM EMPRESAS SERGIPANAS: UMA APLICAÇÃO DE REGRESSÃO LOGÍSTICA MAPEAMENTO DA INOVAÇÃO EM EMPRESAS SERGIPANAS: UMA APLICAÇÃO DE REGRESSÃO LOGÍSTICA Alberth Almeida Amorim Souza 1 Íkaro Daniel de Carvalho Barreto 2 Suzana Leitão Russo³ 1 Introdução O significado de

Leia mais