Métodos de Diagnóstico para Modelos Lineares Mistos p.1/58

Documentos relacionados
Influência Local Gilberto A. Paula

Aula 2 Uma breve revisão sobre modelos lineares

Modelos de regressão para dados correlacionados. Cibele Russo

Métodos de Diagnóstico para. Modelos Lineares Mistos. Juvêncio Santos Nobre

Ralph S. Silva

Modelo de Regressão Múltipla

Análise de Dados Longitudinais Aula

Modelos de regressão para dados correlacionados. Cibele Russo

Análise de Dados Longitudinais Modelos Lineares Mistos

Capítulo 9 - Regressão Linear Simples (RLS): Notas breves

Capítulo 9 - Regressão Linear Simples (RLS): Notas breves

Explorando a Flexibilidade do Modelo Linear Misto - Aplicações no Mapeamento de Genes

Análise de Regressão Linear Simples e

Modelos de Regressão Múltipla - Parte VIII

Técnicas computacionais em probabilidade e estatística II

MAE Planejamento e Pesquisa II

Modelo Linear Generalizado Exponencial Potência

Modelos Lineares Generalizados - Estimação em Modelos Lineares Generalizados

Econometria IV Modelos Lineares de Séries Temporais. Fernando Chague

Econometria. Econometria MQO MQO. Resíduos. Resíduos MQO. 1. Exemplo da técnica MQO. 2. Hipóteses do Modelo de RLM. 3.

Modelos de Regressão Linear Simples - Análise de Resíduos

Modelos de Regressão Linear Simples - Análise de Resíduos

Análise de Dados Longitudinais Modelos de Regressão - Perspecitva Histórica

Transformações e Ponderação para corrigir violações do modelo

Métodos Quantitativos para Avaliação de Políticas Públicas

Multicolinariedade e Autocorrelação

Modelos Lineares Generalizados - Verificação do Ajuste do Modelo

Econometria. Econometria ( ) O modelo de regressão linear múltipla. O modelo de regressão linear múltipla. Aula 2-26/8/2010

Modelo de regressão estável aplicado a econometria

Exemplo Abastecimento de Refrigerantes

ANÁLISE DE VARIÂNCIA. y j = µ + τ i + e i j = µ i + e i j

Econometria em Finanças e Atuária

Exemplo Regressão Robusta

Modelos de Regressão Linear Simples - parte III

Análise de variância para experimentos com dependência espacial entre parcelas: abordagem autoregressiva e Geoestatística

INTRODUÇÃO A MODELOS MISTOS

UNIVERSIDADE DE SÃO PAULO ESCOLA SUPERIOR DE AGRICULTURA LUIZ DE QUEIROZ DEPARTAMENTO DE CIÊNCIAS EXATAS

Coeficiente de determinação R 2 no modelo de regressão linear normal

MAE Modelos Lineares Generalizados 2 o semestre 2017

Modelo de regressão log-weibull-exponenciada para dados com censura intervalar

Delineamento e Análise Experimental Aula 3

Exemplos Equações de Estimação Generalizadas

Correlação e Regressão Linear

Modelos Lineares Generalizados - Introdução

CONHECIMENTOS ESPECÍFICOS

2 A questão da restrição na aleatorização e a utilização de Modelos mistos

1 z 1 1 z 2. Z =. 1 z n

Modelo marginal de odds proporcionais para dados longitudinais: um estudo de simulação

Correlação e Regressão

CC-226 Aula 07 - Estimação de Parâmetros

Análise de Dados Longitudinais Aula

5.3 Experimentos fatoriais a dois fatores. Ambos os fatores são supostos fixos e os efeitos de tratamento são definidos como desvios da média tal que

Análise de regressão linear simples. Diagrama de dispersão

Métodos Numéricos e Estatísticos Parte II-Métodos Estatísticos

Modelos Lineares Generalizados - Introdução

Introdução ao modelo de Regressão Linear

Regressão Linear - Parte I

Análise de Regressão EST036

Análise de modelos lineares mistos com dois fatores longitudinais: um fator quantitativo e um qualitativo ordinal.

Técnicas Multivariadas em Saúde. Vetores Aleatórios. Métodos Multivariados em Saúde Roteiro. Definições Principais. Vetores aleatórios:

b χ 2 (a 1)(b 1), sob H 0,

Exemplos Regressão Dados de Contagem

Modelos Lineares Generalizados - Modelos log-lineares para tabelas de contingência

Econometria Espacial Aula 2: Matrizes de pesos espaciais

REGRESSÃO E CORRELAÇÃO

Instituto Federal Goiano

MAE Introdução à Probabilidade e Estatística II Resolução Lista 5

Modelos Lineares Generalizados - Modelos log-lineares para tabelas de contingência

Análise de Regressão EST036

Planejamento de Experimentos Medidas Repetidas

REGRESSÃO LINEAR Parte I. Flávia F. Feitosa

A Metodologia de Box & Jenkins

Modelagem da estrutura de covariância na análise de medidas repetidas

CONHECIMENTOS ESPECÍFICOS

MODELOS LINEARES MISTOS: UMA APLICAÇÃO NA CURVA DE LACTAÇÃO DE VACAS DA RAÇA SINDI

Análise de dados em Geociências

MÉTODO MEAN SHIFT PARA DETECÇÃO DE OUTLIERS EM MODELOS NORMAIS ASSIMÉTRICOS

Modelos de Regressão Linear Simples - parte II

LES0773 Estatística Aplicada III

Minera c ao de Dados Aula 6: Finaliza c ao de Regress ao e Classifica c ao Rafael Izbicki 1 / 33

Séries Temporais e Modelos Dinâmicos. Econometria. Marcelo C. Medeiros. Aula 9

Aula 2 Tópicos em Econometria I. Porque estudar econometria? Causalidade! Modelo de RLM Hipóteses

Probabilidades e Estatística - LEIC + LERCI + LEE 2 o semestre 2004/05

Testes de Raiz Unitária para Dados em Painel

Disciplina de Modelos Lineares Professora Ariane Ferreira

Regressão Linear Simples

3 IMPLEMENTAÇÃO DO ELEMENTO FINITO

Capacitação em R e RStudio PROJETO DE EXTENSÃO. Software R: capacitação em análise estatística de dados utilizando um software livre.

Exemplo Multicolinearidade

Modelos de regressão para dados correlacionados. Cibele Russo

Modelos Lineares Generalizados

θ depende de um parâmetro desconhecido θ.

4 Modelos Lineares Generalizados

RESUMO DO CAPÍTULO 3 DO LIVRO DE WOOLDRIDGE ANÁLISE DE REGRESSÃO MÚLTIPLA: ESTIMAÇÃO

Estimadores de MáximaVerossimilhança Corrigidosem Modelos de Regressão Não-Lineares Heteroscedásticos p. 1/35

Análise de Dados Longitudinais Análise Exploratória

Avaliação Monte Carlo do teste para comparação de duas matrizes de covariâncias normais na presença de correlação

Transcrição:

Métodos de Diagnóstico para Modelos Lineares Mistos Aluno: Juvêncio Santos Nobre juvencio@ime.usp.br Orientador: Prof. PhD Júlio da Motta Singer jmsinger@ime.usp.br IME-USP Métodos de Diagnóstico para Modelos Lineares Mistos p.1/58

Introdução Experimentos com medidas repetidas referem-se a casos no qual cada unidade experimental é observada pelo menos duas vezes. Exemplo Estudo realizado na FOUSP. Métodos de Diagnóstico para Modelos Lineares Mistos p.2/58

Introdução Experimentos com medidas repetidas referem-se a casos no qual cada unidade experimental é observada pelo menos duas vezes. Exemplo Estudo realizado na FOUSP. Objetivo: comparar dois tipos de escova, monobloco e convencional, quanto à manuntenção da capacidade de remoção da placa bacteriana (durabilidade) sob uso diário. Métodos de Diagnóstico para Modelos Lineares Mistos p.2/58

Modelagem da Estrutura de Correlação Espera-se uma dependência entre as observações referentes a uma mesma unidade experimental. Propostas para modelar a estrutura de correlação intra-unidade experimental: Inclusão de variáveis latentes em modelos lineares (não lineares), gerando assim os modelos lineares (não lineares) mistos e os modelos lineares generalizados mistos [Laird & Ware (1982), McCulloch & Searle (2001)]; Inclusão de uma matriz de correlação de trabalho (EEG)[Liang & Zeger (1986)]. Métodos de Diagnóstico para Modelos Lineares Mistos p.3/58

Modelos Lineares Mistos Um modelo linear misto pode ser escrito na forma Y i = X i β + Z i γ i + ε i (i = 1,..., c), (1) Considerando Y = (Y 1,, Y c ), X = (X 1 X c ), Z=diag(Z 1,, Z c ), γ = (γ 1,, γ c ) e ε = (ε 1,, ε c ) temos: Y n 1 = X n p β p 1 + Z n cq γ cq 1 + ε n 1. (2) Usualmente, assume-se que [ γ ε ] N cq+n ([ 0 cq 0 n ], [ 0 n cq Σ 0 cq n ]), (3) com γ 1,..., γ c i.i.d. N q (0, G) [ = I c G]. Métodos de Diagnóstico para Modelos Lineares Mistos p.4/58

Modelos Lineares Mistos e Σ são funções de poucos parâmetros (desconhecidos) θ que independem dos parâmetros de localização β, ou seja, = σ 2 D(θ) e Σ = σ 2 R(θ). Fazendo ξ = Zγ + ε, obtém-se com ξ N n (0 n, V), em que Y = Xβ + ξ, (4) V = σ 2 ( ZDZ + R ). (5) Se R = I n modelo de independência condicional homocedástico. Métodos de Diagnóstico para Modelos Lineares Mistos p.5/58

BLUE e BLUP Seja ˆγ ( ˆβ) o BLUP (BLUE) de γ (β) então: ˆγ e ˆβ são funções lineares de Y; IE[ˆγ γ] = 0 (IE[ ˆβ β] = 0), ou seja, ˆγ ( ˆβ) é não viesado para γ (β); ˆγ ( ˆβ) é o melhor preditor (estimador) de γ (β) dentro da classe dos preditores (estimadores) lineares, no sentido, de que o mesmo minimiza o erro quadrático médio de previsão (estimação). Supondo V conhecida, mostra-se que ˆβ = ( X MX ) 1 X MY = ( X V 1 X ) 1 X V 1 Y e ˆγ = DZ M(Y X ˆβ) = DZ V 1 (Y X ˆβ) = DZ QY. Métodos de Diagnóstico para Modelos Lineares Mistos p.6/58

BLUE e BLUP com M = σ 2 V 1 e Q = M MX ( X MX ) 1 X M uma matriz simétrica semi-definida positiva de ordem n (posto(q)=n p), com QM 1 Q = Q e QX = 0. Pode-se mostrar que Cov [ ˆβ β ˆγ γ ] = σ 2 [ X R 1 X Z R 1 X X R 1 Z Z R 1 Z + D 1 ] 1. (6) Métodos de Diagnóstico para Modelos Lineares Mistos p.7/58

BLUE e BLUP com M = σ 2 V 1 e Q = M MX ( X MX ) 1 X M uma matriz simétrica semi-definida positiva de ordem n (posto(q)=n p), com QM 1 Q = Q e QX = 0. Pode-se mostrar que Cov [ ˆβ β ˆγ γ ] = σ 2 [ X R 1 X Z R 1 X X R 1 Z Z R 1 Z + D 1 ] 1. (7) EBLUE e EBLUP Como D (V) depende de um vetor de componentes de covariância θ desconhecido, calculamos o BLUE e BLUP com base no estimador θ ; nesse caso eles são denominados como BLUE e BLUP empíricos (EBLUE e EBLUP). Métodos de Diagnóstico para Modelos Lineares Mistos p.7/58

Testes de hipóteses e critérios de informação Teste da Razão de Verossimilhanças; Teste de Wald/Score [Verbeke & Molenberghs (2003)]. Problemas quando a hipótese de interesse situa-se na borda do espaço paramétrico [Self & Liang (1987)]. Métodos de Diagnóstico para Modelos Lineares Mistos p.8/58

Testes de hipóteses e critérios de informação Teste da Razão de Verossimilhanças; Teste de Wald/Score [Verbeke & Molenberghs (2003)]. Problemas quando a hipótese de interesse situa-se na borda do espaço paramétrico [Self & Liang (1987)]. É comum utilizar alguns critérios de informação como o AIC, o BIC definidos como AIC = 2l + 2d, (8) BIC = 2l + d ln n, (9) com l representando o máximo da log-verossimilhança (completa ou restrita), d o número de parâmetros do modelo e n o número de observações. Métodos de Diagnóstico para Modelos Lineares Mistos p.8/58

Aplicação Singer & Andrade (1997) apontam as seguintes características que o modelo adotado para representar dados deste tipo deve apresentar: (i) Um índice pré-tratamento nulo implica um índice pós-tratamento também nulo; (ii) Os índices pré-tratamento e pós-tratamento são não-negativos; (iii) Os dados são possivelmente heterocedásticos (pois são não-negativos e satisfazem a desigualdade y x); (iv) A relação entre os índices pré-tratamento e pós-tratamento é possivelmente não-linear; (v) As observações realizadas numa mesma unidade experimental são possivelmente correlacionadas. Métodos de Diagnóstico para Modelos Lineares Mistos p.9/58

Modelo Singer et al. (2004) sugerem o seguinte modelo y ijd = β jd x γ jd ijd ξ ijd, (10) com β jd > 0, i = 1, 2,..., 32, j = 0, 1, d = 1, 2, 3, 4. y ijd (x ijd ) é o índice de placa bacteriana pós-tratamento (pré-tratamento) relativo a i-ésima criança com a j-ésima escova na d-ésima sessão de avaliação; β jd é um coeficiente de placa bacteriana residual relativo à j-ésima escova e à d-ésima sessão de avaliação; γ jd é um coeficiente de uniformidade da taxa de placa residual esperada relativo à j-ésima escova e a d-ésima sessão de avaliação e ξ ijd é um erro aleatório não-negativo. Métodos de Diagnóstico para Modelos Lineares Mistos p.10/58

Modelo Considerando a seguinte transformação ln y ijd = ln β jd + γ jd ln x ijd + ln ξ ijd y ijd = λ jd + γ jd x ijd + ξ ijd, (11) ξijd = ln ξ ijd N(0, σi 2 ). Para satisfazer a característica (v), consideramos que o logaritmo do erro é decomposto da seguinte forma: ξ ijd = ψ i + ε ijd, (12) com ψ i N(0, τ 2 ) e ε ijd N(0, σ 2 ), denotando respectivamente, o efeito aleatório da criança e o erro de medida. Métodos de Diagnóstico para Modelos Lineares Mistos p.11/58

Modelo adotado ln Y i = X i β + Z i ψ i + ε i, (13) em que β = (λ 01, λ 02,, λ 13, λ 14, γ 01, γ 02,, γ 13, γ 14 ) e Z i = 1 4. A priori, consideramos Σ i = Var[ε i ] = σ 2 1 ρ ρ 2 ρ 3 ρ 1 ρ ρ 2 ρ 2 ρ 1 ρ ρ 3 ρ 2 ρ 1. (14) Métodos de Diagnóstico para Modelos Lineares Mistos p.12/58

Estratégia de análise (i) Simplificação da estrutura de covariâncias (ρ = 0), ou seja, Σ i = σ 2 I 4 ; (ii) Testar a homogeneidade entre os coeficientes de uniformidade para as duas escovas nas quatro sessões de avaliação, ou seja, testar se γ jd = γ (j = 0, 1, d = 1,..., 4); (iii) Testar a significância do efeito de interação e dos efeitos principais dos tipos de escova com relação aos coeficientes de placa bacteriana residual, ou seja, λ 01 λ 11 = λ 02 λ 12 = λ 03 λ 13 = λ 04 λ 14 e λ jd = λ j ; (iv) Ajustar o modelo que incorpora as conclusões obtidas em (i), (ii) e (iii), ou seja, reduzir o modelo (10) para y ijd = β j x γ ijd ξ ijd. (15) Métodos de Diagnóstico para Modelos Lineares Mistos p.13/58

Ajuste do modelo final Figura 1: Ajuste do modelo final. Indice de placa bacteriana pos-tratamento 0.0 0.5 1.0 1.5 2.0 Convencional Monobloco 1.0 1.5 2.0 Indice de placa bacteriana pre-tratamento As observações representadas por referem-se as crianças que utilizaram a escova monobloco. Métodos de Diagnóstico para Modelos Lineares Mistos p.14/58

Objetivos da análise de diagnóstico Verificar as suposições do modelo; Identificar observações/unidades experimentais que exercem influência desproporcional no modelo ajustado; Avaliar a robustez do modelo quando ele está sujeito a algum tipo de perturbação (qualquer mudança nas suposições ou nos dados). Métodos de Diagnóstico para Modelos Lineares Mistos p.15/58

Análise de Resíduos No modelo (2), podemos definir três tipos de erro: Erro condicional: ε = Y IE[Y γ] = Y Xβ Zγ; Efeitos aleatórios: Zγ = IE[Y γ] IE[Y]; Erro marginal: ξ = Y IE[Y] = Y Xβ = Zγ + ε. Os respectivos resíduos (e matrizes de covariâncias ) são dados por Resíduo condicional: ˆε = Y X ˆβ Zˆγ EBLUP: Zˆγ (Var[Zˆγ] = σ 2 ZDZ QZDZ ); (Var[ˆε] = σ 2 Q); Resíduo marginal: ˆξ = Y X ˆβ (Var[ˆξ] = σ 2 M 1 QM 1 ). Métodos de Diagnóstico para Modelos Lineares Mistos p.16/58

Resíduo marginal e resíduo condicional Resíduo marginal Avaliar a suposição de linearidade entre IE[Y] e as covariáveis X [Hilden-Minton (1995)];(ˆξ vs. x) Avaliar o ajuste da estrutura de covariâncias [Weiss (1995)], uma vez que Var[ξ] = V. Resíduo condicional Avaliar a hipótese de homocedasticidade do erro condicional; Verificar a existência de observações discrepantes [Weiss & Lazaro (1992), Weiss (1995), Oman (1995) e Pinheiro & Bates (2000, p.175)]; Métodos de Diagnóstico para Modelos Lineares Mistos p.17/58

Resíduo com confundimento mínimo Sob a validade do modelo (2) temos ˆε = Qε + QZγ, (16) implicando que ˆε é confundido pela presença de γ. Hilden-Minton (1995) define a fração de confundimento para ˆε i 0 CF i = Var[U i ZγU i] Var[ˆε i ] = 1 U i QQU i U i QU i = U i QZDZ QU i U i QU i 1. (17) Para minimizar o efeito de confundimento, Hilden-Minton (1995) sugere utilizar uma tranformação linear de ˆε, L ˆε, que minimize o confundimento em algum sentindo. Métodos de Diagnóstico para Modelos Lineares Mistos p.18/58

Resíduo com confundimento mínimo Denotando as colunas de L por l i, uma sugestão é minimizar o confundimento de l i ˆε, ou seja maximizar λ i = l i QQl i l i Ql i, (18) sujeito a restrição Var[l i ˆε] l i Ql i > 0. Desta forma, mostra-se que o vetor l i que minimiza o confundimento é dado por l i = π 1/2 i K i (i = 1,..., n p), com K i representando a i-ésima coluna de K, em que Q = KΠK, com K n (n p) ; K K = I n p e Π=diag(π 1,..., π n p ) com elementos π 1... π n p. Mostra-se que l i ˆε = π i K i Y e Cov[l i ˆε, l j ˆε] = σ 2 11(i = j). (i, j = 1,..., n p) Métodos de Diagnóstico para Modelos Lineares Mistos p.19/58

EBLUP Encontrar possíveis unidades experimentais discrepantes [Waternaux et al. (1989), Verbeke (1995), Verbeke & Lesaffre (1996a), Pinheiro & Bates (2000) e Longford (2001)] Métodos de Diagnóstico para Modelos Lineares Mistos p.20/58

EBLUP Encontrar possíveis unidades experimentais discrepantes [Waternaux et al. (1989), Verbeke (1995), Verbeke & Lesaffre (1996a), Pinheiro & Bates (2000) e Longford (2001)] Z iˆγ i reflete a diferença entre o valor predito e o valor médio populacional para a i-ésima unidade experimental, desta forma podemos utilizar o EBLUP para encontrar unidades experimentais discrepantes através de ζ i = ˆγ i Var[ˆγ i γ i ]ˆγ i χ 2 n i. Métodos de Diagnóstico para Modelos Lineares Mistos p.20/58

EBLUP Encontrar possíveis unidades experimentais discrepantes [Waternaux et al. (1989), Verbeke (1995), Verbeke & Lesaffre (1996a), Pinheiro & Bates (2000) e Longford (2001)] Z iˆγ i reflete a diferença entre o valor predito e o valor médio populacional para a i-ésima unidade experimental, desta forma podemos utilizar o EBLUP para encontrar unidades experimentais discrepantes através de ζ i = ˆγ i Var[ˆγ i γ i ]ˆγ i χ 2 n i. Avaliar a hipótese de normalidade de γ [Lange & Ryan (1989) e Jiang (2001)]. Métodos de Diagnóstico para Modelos Lineares Mistos p.20/58

EBLUP Encontrar possíveis unidades experimentais discrepantes [Waternaux et al. (1989), Verbeke (1995), Verbeke & Lesaffre (1996a), Pinheiro & Bates (2000) e Longford (2001)] Z iˆγ i reflete a diferença entre o valor predito e o valor médio populacional para a i-ésima unidade experimental, desta forma podemos utilizar o EBLUP para encontrar unidades experimentais discrepantes através de ζ i = ˆγ i Var[ˆγ i γ i ]ˆγ i χ 2 n i. Avaliar a hipótese de normalidade de γ [Lange & Ryan (1989) e Jiang (2001)]. Estimativas consistentes mesmo quando γ não segue distribuição normal [Verbeke & Lesaffre (1996b)]; Métodos de Diagnóstico para Modelos Lineares Mistos p.20/58

Figura 2: Resíduo Marginal e EBLUP do modelo final. (a) (b) Residuo Marginal -1.0-0.5 0.0 0.5 1.0 29.3 12.2 29.4 EBLUP -0.4-0.2 0.0 0.2 0.4 29-0.4-0.2 0.0 0.2 0.4 0.6 0.8 0 5 10 15 20 25 30 Logaritmo do indice de placa bacteriana pre-escovacao Unidade Experimental Métodos de Diagnóstico para Modelos Lineares Mistos p.21/58

Figura 3: Resíduo condicional padronizado e envelope simulado com 95% para o resíduo com confundimento mínimo. (a) (b) Residuo Condicional Padronizado -4-2 0 2 4 12.2 29.4 Residuo com confundimento minimo -2 0 2 4 0 5 10 15 20 25 30 Unidade Experimental -2-1 0 1 2 Quantis da N(0,1) Métodos de Diagnóstico para Modelos Lineares Mistos p.22/58

Análise de Sensibilidade Identificar observações/unidades experimentais que exercem influência desproporcional no modelo ajustado; Avaliar a robustez do modelo quando está sujeito a algum tipo de perturbação (qualquer mudança nas suposições ou nos dados). Métodos de Diagnóstico para Modelos Lineares Mistos p.23/58

Pontos/Observações Alavanca Observações que exercem uma forte influência no respectivo valor predito; destacam-se observações com valores atípicos das variáveis explicativas [Cook & Weisberg (1982) e Wei et al. (1998)]. Considerando um modelo estatístico em que Ŷ = ÎE[Y] = µ( ˆβ), Wei et al. (1998) definem a matriz de alavancagem generalizada GL( ˆβ) = Ŷ Y = ( ) ŷi y j n n, (19) que reflete a taxa de mudança instantânea no respectivo valor predito quando a variável resposta é acrescida por um infinitésimo. A alavancagem generalizada" da i-ésima observação é definida por GL( ˆβ) ii = ŷ i / y i. Métodos de Diagnóstico para Modelos Lineares Mistos p.24/58

Observações alavanca para os efeitos fixos Considerando γ como um parâmetro de pertubação no modelo, uma vez que IE[Y] não depende do mesmo, e lembrando ˆβ = ( X V 1 X ) 1 X V 1 Y, tem-se que a matriz (19) fica GL( ˆβ) = X ( X V 1 X ) 1 X V 1. (20) Definindo h ii = GL( ˆβ) ii, consideraremos o i-ésimo ponto como alavanca" se h ii 2p/n. Usando a abordagem de Banerjee & Frees (1997) podemos definir uma unidade experimental como alavanca se tr(h i) n i 2p/n, em que H i = X i (X V 1 X) 1 X i V 1 i. Métodos de Diagnóstico para Modelos Lineares Mistos p.25/58

Alavancagem nos efeitos fixos e aleatórios Uma observação pode influenciar tanto as estimativas dos efeitos fixos como as predições dos efeitos aleatórios; Aconselhável medir esta influência de forma conjunta. Uma proposta para incorporar informações a respeito dos efeitos aleatórios, é considerar Ŷ = IE[Y γ] = X ˆβ + Zˆγ. Derivando Ŷ com relação a Y GL( ˆβ, ˆγ) = Ŷ Y = Ŷ Y + Zˆγ Y = GL( ˆβ) + ZDZ Q. (21) Métodos de Diagnóstico para Modelos Lineares Mistos p.26/58

Figura 4: Alavancagem generalizada. Alavanca Generalizada 0.02 0.04 0.06 0.08 0.10 3.1 6.3 11.2 12.1 (a) Efeitos fixos por observacao 19.1 31.1 31.4 Alavanca Generalizada 0.020 0.025 0.030 0.035 0.040 0.045 11 12 (b) Efeitos fixos por UE 0 5 10 15 20 25 30 Unidade Experimental 0 5 10 15 20 25 30 Unidade Experimental (c) Efeitos fixos e aleatorios por observacao 11.2 (d) Efeitos fixos e aleatorios por UE 11 12 Alavanca Generalizada 0.16 0.18 0.20 3.1 6.3 12.1 31.1 Alavanca Generalizada 0.145 0.150 0.155 0.160 0.165 0 5 10 15 20 25 30 Unidade Experimental 0 5 10 15 20 25 30 Unidade Experimental Métodos de Diagnóstico para Modelos Lineares Mistos p.27/58

Eliminação de observações Avaliar a influência de um conjunto de observações I através da sua eliminação; Importância de obter a relação entre ˆθ e ˆθ (I), evitando assim reajustar o modelo; Incoveniente: Estimativas dos parâmetros de covariâncias são obtidas iterativamente (processo computacionalmente intensivo); Propostas: Considerar a estrutura de covariância conhecida, encontrar a relação e avaliar sobre a estrutura de covariância estimada [Hilden-Minton (1995), Haslett (1999) e Fung et al. (2002)]; Aproximação por 1 passo [Pregibon (1981)]. Métodos de Diagnóstico para Modelos Lineares Mistos p.28/58

Fórmulas de atualização do BLUE e BLUP Considerando V conhecida e que I = {i 1, i 2,..., i k } mostra-se ˆβ ˆβ (I) = ( X MX ) 1 X MU I ˆφI (22) e ˆγ ˆγ (I) = DZ QU I ˆφI, (23) com ˆφ I = ( U ) 1 I QU I U I QY (24) U I = (u ij ) n k = (U i1, U i2,..., U ik ), (25) em que U i denota a i-ésima coluna da matriz I n. Métodos de Diagnóstico para Modelos Lineares Mistos p.29/58

Medidas baseadas na eliminação de observações Uma das medidas mais utilizadas para avaliar a influência de um conjunto de observações, via eliminação, é a distância de Cook [Cook (1977)] ( θ θ(i) ) U ( θ θ(i) ) D I = c, (26) sendo U uma matriz positiva definida e c um parâmetro de escala. D I mede a influência das observações do conjunto I na estimativa do vetor de parâmetros θ, segundo a métrica definida por U e c. No caso linear normal, costuma-se utilizar U = X X e c = p σ 2 [Cook (1977)]. Métodos de Diagnóstico para Modelos Lineares Mistos p.30/58

Generalizações da distância de Cook Algumas generalizações" de (26) são propostas dentro do contexto de modelos lineares mistos. Uma proposta [Christensen et al. (1992), Banerjee & Frees (1997) e Fung et al. (2002) ] é utilizar D I = ( ˆβ ˆβ (I) ) (X V 1 X)( ˆβ ˆβ (I) ) ˆσ 2 = (Ŷ Ŷ(I)) V 1 (Ŷ Ŷ(I)) ˆσ 2, (27) para medir a influência das observações do conjunto I nas estimativas dos parâmetros fixos. Métodos de Diagnóstico para Modelos Lineares Mistos p.31/58

Desvantagem de D I Pode não detectar observações influentes nas estimativas dos parâmetros de covariância [Banerjee (1998) e Tan et al. (2001)]; Dado que o efeito causado pela eliminação de uma observação na estrutura de covariância é equivalente ao efeito causado no BLUP ˆγ, então Tan et al. (2001) sugerem a utilização da medida de Cook condicional nos efeitos aleatórios (i = 1,..., n) D cond i = c j=1 P j(i) Var[Y γ] 1 P j(i) (n 1)c + p = c j=1 P j(i) P j(i) k, (28) com P j(i) = Ŷj Ŷj(i) = (X j + Z j ˆγ j ) (X j (i) + Z j ˆγ j(i) ) e k = ˆσ 2 ([n 1]c + p). Métodos de Diagnóstico para Modelos Lineares Mistos p.32/58

Decomposição de D cond i Podemos decompor (28) da seguinte forma D cond i = D cond 1i + D cond 2i + D cond 3i, (29) em que D cond 1i = ( ˆβ ˆβ (i) ) (X X)( ˆβ ˆβ (i) ) k = (Ŷ Ŷ(i)) (Ŷ Ŷ(i)), k e 2i = (ˆγ ˆγ (i)) Z Z(ˆγ ˆγ (i) ), k D cond 3i = 2( ˆβ ˆβ (i) ) X Z(ˆγ ˆγ (i) ). k D cond Métodos de Diagnóstico para Modelos Lineares Mistos p.33/58

Influência de uma unidade experimental Ao eliminar todas as observações de uma unidade experimental não podemos prever o correspondente efeito aleatório. Proposta: Avaliar a influência da i-ésima unidade experimental utilizando a média das distâncias (28) referentes a todas as observações da unidade experimental, ou seja, D cond i. = (n i ) 1 j I D cond j, (30) com I representando o conjunto das n i observações da i-ésima unidade experimental. Métodos de Diagnóstico para Modelos Lineares Mistos p.34/58

Figura 5: Distância de Cook condicional por observação. (a) Distancia de Cook condicional (b) D1i 12.2 Di 0.0 0.01 0.02 0.03 0.04 0.05 29.4 Di1 0.0 0.01 0.02 0.03 0.04 0.05 12.2 29.4 12.1 0 5 10 15 20 25 30 Unidade Experimental 0 5 10 15 20 25 30 Unidade Experimental (c) D2i (d) D3i D2i 0.0 0.01 0.02 0.03 0.04 0.05 12.2 29.4 D3i -0.001 0.0 0.001 12.2 12.4 12.1 0 5 10 15 20 25 30 Unidade Experimental 0 5 10 15 20 25 30 Unidade Experimental Métodos de Diagnóstico para Modelos Lineares Mistos p.35/58

Figura 6: Distância de Cook condicional por unidade experimental. (a) Distancia de Cook condicional (b) D1i Di 0.0 0.005 0.010 0.015 0.020 12 29 D1i 0.0 0.005 0.010 0.015 0.020 12 29 0 5 10 15 20 25 30 0 5 10 15 20 25 30 Unidade Experimental Unidade Experimental (c) D2i (d) D3i D2i 0.0 0.005 0.010 0.015 0.020 12 29 0 5 10 15 20 25 30 D3i -0.0006-0.0002 0.0 0.0002 0.0004 0.0006 12 0 5 10 15 20 25 30 Unidade Experimental Unidade Experimental Métodos de Diagnóstico para Modelos Lineares Mistos p.36/58

Influência Local Proposto por Cook (1986) com o objetivo de avaliar a mudança nos resultados da análise quando incorporamos pequenas perturbações" ao modelo. A abordagem original baseia-se na análise do afastamento da verossimilhança ( likelihood displacement") em que: LD(w) = 2 { } L( θ) L( θ w ), (31) L( ) é a log-verossimilhança do modelo postulado; θ é um vetor p 1 de parâmetros ; L( w) é a log-verossimilhança do modelo perturbado"; w representa um vetor q 1 de perturbações relevantes, restrito a um intervalo aberto Ω IR q ; Métodos de Diagnóstico para Modelos Lineares Mistos p.37/58

Influência Local θ e θ w são, respectivamente, os EMV baseados em L( ) e L( w); w 0 Ω é o vetor que representa a ausência de perturbação, ou seja, L(θ w 0 ) = L(θ), θ Θ. Quanto maior for LD(w) maior é a sensibilidade com relação ao esquema de perturbação proposto. Nesse contexto LD(w) é utilizada para comparar θ e θ w com respeito aos contornos da logverossimilhança L( ). Métodos de Diagnóstico para Modelos Lineares Mistos p.38/58

Influência Local Cook (1986) considerou o gráfico de influência (LD(w) vs. w) como uma superfície em IR q+1 formada pelos valores do vetor α(w) = ( w, LD(w) ), (32) com w variando em Ω. Para medir a sensibilidade do afastamento da verossimilhança, Cook (1986) utilizou a curvatura normal de (32) ao redor de w 0 na direção de um vetor d (q 1) de norma unitária, que doravante será denominada C d. Métodos de Diagnóstico para Modelos Lineares Mistos p.39/58

Curvatura Normal A curvatura normal de α(w) é dada por [Cook (1986, eq.16)] C d = 2d H L 1 Hd, (33) com L = { 2 L(θ)/ θ θ } θ= θ e H = { 2 L(θ w)/ θ w } w=w0 ;θ= θ. A curvatura normal (33) assume seu valor máximo quando d = d max, com d max representando o autovetor normalizado associado ao maior autovalor de H L 1 H. d max indica qual o tipo de perturbação que produz a maior mudança em LD(w); O gráfico de d max pode revelar qual o tipo de perturbação que possue a maior influência em LD(w) na vizinhança" de w 0 [Cook (1986) e Paula (2003)]; Na literatura, outros tipos de gráficos são sugeridos para diagnóstico. Métodos de Diagnóstico para Modelos Lineares Mistos p.40/58

Influência Local em Modelos Lineares mistos Beckman et al. (1987) e Lesaffre & Verbeke (1998) utilizaram o conceito de influência local em modelos lineares mistos; Ambos basearam-se na verossimilhança marginal de Y L(ψ) = (1/2) { ln V + (Y Xβ) V 1 (Y Xβ) }, (34) com ψ = (β, σ 2, θ ) = (β, (θ ) ). Métodos de Diagnóstico para Modelos Lineares Mistos p.41/58

Tipos de perturbação Perturbação na matriz de covariâncias de ε. Métodos de Diagnóstico para Modelos Lineares Mistos p.42/58

Tipos de perturbação Perturbação na matriz de covariâncias de ε. Identificar observações sensíveis a suposição de homocedasticidade. Métodos de Diagnóstico para Modelos Lineares Mistos p.42/58

Tipos de perturbação Perturbação na matriz de covariâncias de ε. Identificar observações sensíveis a suposição de homocedasticidade. Perturbação na variável resposta. Métodos de Diagnóstico para Modelos Lineares Mistos p.43/58

Tipos de perturbação Perturbação na matriz de covariâncias de ε. Identificar observações sensíveis a suposição de homocedasticidade. Perturbação na variável resposta. Identificar observações sensíveis a pequenas perturbações na variável resposta; No caso linear normal destacam-se as observações com alto erro de predição y i ŷ i [Schwarzmann (1991)]. Métodos de Diagnóstico para Modelos Lineares Mistos p.43/58

Tipos de perturbação Perturbação na matriz de covariâncias de ε Identificar observações sensíveis a suposição de homocedasticidade. Perturbação na variável resposta Identificar observações sensíveis a pequenas perturbações na variável resposta; No caso linear normal destacam-se as observações com alto erro de predição y i ŷ i [Schwarzmann (1991)]. Perturbação na matriz de covariâncias de γ i. Métodos de Diagnóstico para Modelos Lineares Mistos p.44/58

Tipos de perturbação Perturbação na matriz de covariâncias de ε Identificar observações sensíveis a suposição de homocedasticidade. Perturbação na variável resposta Identificar observações sensíveis a pequenas perturbações na variável resposta; No caso linear normal destacam-se as observações com alto erro de predição y i ŷ i [Schwarzmann (1991)]. Perturbação na matriz de covariâncias de γ i. Identificar unidades experimentais sensíveis a suposição de homogeneidade entre as matrizes de covariâncias dos efeitos aleatórios. Métodos de Diagnóstico para Modelos Lineares Mistos p.44/58

Figura 7: Perturbação na matriz de covariâncias de ε. 12.2 dmax 0.0 0.2 0.4 0.6 0.8 1.0 1.2 29.4 0 5 10 15 20 25 30 Observacao Métodos de Diagnóstico para Modelos Lineares Mistos p.45/58

Figura 8: Perturbação na variável resposta. dmax 0.0 0.2 0.4 0.6 0.8 1.0 1.2 12.2 29.4 0 5 10 15 20 25 30 Observacao Métodos de Diagnóstico para Modelos Lineares Mistos p.46/58

Figura 9: Perturbação na matriz de covariâncias de γ i. dmax 0.0 0.2 0.4 0.6 0.8 1.0 29 0 5 10 15 20 25 30 Unidade Experimental Métodos de Diagnóstico para Modelos Lineares Mistos p.47/58

Caso ponderado Lesaffre & Verbeke (1998) consideraram o modelo linear misto, com a respectiva matriz de covariâncias Var[γ i ] = G não estruturada. Nesse caso, a log-verossimilhança pode ser reescrita da seguinte forma L(ψ) = c L i (ψ) = i=1 c i=1 ( 1/2) { ln V i + r i V 1 i r i }, (35) com r i = ξ i = Y i X i β e L i (ψ) representando a log-verossimilhança referente a i-ésima U.E., respectivamente. Eles surgeriram perturbar o modelo da seguinte forma L i (ψ w) = c w i L i (ψ), (36) i=1 em que w é um vetor c 1 de perturbações (w 0 = 1 c ). Métodos de Diagnóstico para Modelos Lineares Mistos p.48/58

Influência local referente ao i-ésimo indivíduo Lesaffre & Verbeke (1998) definiram a influência local referente ao i-ésimo indíviduo como sendo a curvatura normal (33) calculada na direção do vetor d i, com d i representando um vetor de dimensão c 1 com valor 1 na i-ésima posição e zero nas demais. Nesse caso a curvatura normal é dada por C i = 2 d i H L 1 Hd i = 2 H L i 1 H i, (37) com H i representando a i-ésima coluna da matriz H. Métodos de Diagnóstico para Modelos Lineares Mistos p.49/58

Propriedades de C i C i converge para 2ρ i, com ρ i representando a proposta de Pregibon (1981) para medir a influência da i-ésima unidade experimental, via aproximação por 1 passo de ψ (i) [Verbeke (1995)]; Pode-se mostrar que C i = 2 c λ j vji, 2 (38) j=1 com λ 1 λ 2 λ c denotando os c autovalores de H L 1 H e d max v 1,, v c os autovetores ortogonais normalizados correspondentes, com v ji representando o i-ésimo componente do vetor v j. Métodos de Diagnóstico para Modelos Lineares Mistos p.50/58

Figura 10: Caso ponderado 12 29 Ci 0 2 4 6 29 dmax 0.0 0.2 0.4 0.6 0.8 12 0 5 10 15 20 25 30 0 5 10 15 20 25 30 Unidade Experimental Unidade Experimental Métodos de Diagnóstico para Modelos Lineares Mistos p.51/58

Decomposição de C i Podemos reescrever C i como C i = 2 L 1 cos φ i H i 2, (39) com φ i representando o ângulo entre vec( L 1 ) e vec(h i H i ), com A = vec(a) denotando a norma de Frobenius da matriz A. A idéia de Lesaffre & Verbeke (1998) foi decompor H i 2 como a soma dos quadrados das normas da contribuição do i-ésimo indivíduo para o vetor score de β, θ e σ 2, ou seja, Métodos de Diagnóstico para Modelos Lineares Mistos p.52/58

Decomposição de C i H i 2 = X i V 1 i ˆr i 2 + 1 2 Z i V 1 i Z i Z i V 1 i ˆr iˆr i V 1 i Z i 2 + 1 1 tr{ V i } ˆr i 4 V 1 i V 1 i ˆr i 2. (40) Desta forma, pode-se mostrar que C i = a i + b i + d i com { } a i = 2 cos φ i cos ψ i L 1 X i Xi 2 R i 2, (41) { } b i = cos φ i cos κ i L 1 Z i Zi 2 I ni R i R i 2, (42) d i = 1 { } cos φ i cos 2 ν i L 1 1 V i 2 I ni R i R i 2. (43) 2 Métodos de Diagnóstico para Modelos Lineares Mistos p.53/58

Decomposição de C i em que ψ i, κ i e υ i representam ângulos similares a φ i e 1/2 1/2 1/2 R i = V i ˆr i, X i = V i X i e Z i = V i Z i. L 1 é a parte comum a todas as componentes; ψ i, κ i e υ i representam as partes não interpretáveis de a i, b i e d i, respectivamente; Partes interpretáveis: X i X i 2 (a i ); R i 2 (a i ); Z i Z i 2 (b i ); I ni R i R i 2 (b i e d i ); V 1 i 2 (d i ). Métodos de Diagnóstico para Modelos Lineares Mistos p.54/58

Decomposição de C i Um alto valor de a i pode ser causado por uma unidade experimental que tem muitas observações ou que não é bem predita pelo modelo; b i tende a assumir um valor alto, para uma unidade experimental com muitas observações com a respectiva matriz de covariâncias mal ajustada; d i tende a assumir um grande valor, para uma unidade experimental com pequena variabilidade e com respectiva matriz de covariâncias mal ajustada; Em um estudo desbalanceado as partes interpretáveis a podem sofrer uma alta influência do número de observações de cada unidade experimental; Através da decomposição proposta podemos explicar por qual motivo uma unidade experimental é influente. Métodos de Diagnóstico para Modelos Lineares Mistos p.55/58

Figura 11: Quantidades interpretáveis de C i (f) Norma de Frobenius da Matriz de planejamento dos efeitos fixos padronizada (g) Norma de Frobenius dos residuos marginais padronizados norx 70 75 80 85 90 95 ri ^2 1 2 3 4 5 12 29 0 5 10 15 20 25 30 Unidade Experimental 0 5 10 15 20 25 30 Unidade Experimental Residuos para a estrutura da matriz de covariancias noresi 5 10 15 20 25 12 29 0 5 10 15 20 25 30 Unidade Experimental Métodos de Diagnóstico para Modelos Lineares Mistos p.56/58

Unidades experimentais atípicas". # 11: Essa criança utilizou a escova convencional e apresentou o menor índice de placa bacteriana pré-escovação (0.60); # 12: Essa criança utilizou a escova convencional e apresentou o segundo menor índice de placa bacteriana pré-escovação (0.71) na segunda sessão; apresenta também um alto índice, entre as 25% maiores, de placa bacteriana pós-escovação (1.31) na quarta sessão; # 29: Essa criança apesar de ter utilizado a escova monobloco, apresentou todos seus índices de placa bacteriana pós-escovação entre os 25% menores índices, inclusive o menor (0.37) obtido na quarta sessão. Métodos de Diagnóstico para Modelos Lineares Mistos p.57/58

Pesquisas futuras Estender o gráfico da variável adicionada para efeitos aleatórios; Utilizar o EBLUP com confundimento mínimo, como ferramenta para avaliar a suposição de normalidade dos efeitos aleatórios; Estender as técnicas de diagnóstico aqui apresentadas para os modelos lineares mistos sem se restringir ao modelo de independência condicional, modelos não-lineares mistos e para os modelos lineares generalizados mistos; Estudar a sensibilidade das medidas de diagnóstico apresentadas, devido a má especificação das matrizes R e D; Criação de uma macro (S-Plus). Métodos de Diagnóstico para Modelos Lineares Mistos p.58/58