Influência Local Gilberto A. Paula

Influência Local p. 1/18 Influência Local Gilberto A. Paula Instituto de Matemática e Estatística Universidade de São Paulo e-mail:giapaula@ime.usp.br

Influência Local p. 2/18 Preliminares O método de influência local proposto por Cook (1986) consiste em avaliar, através de uma medida apropriada de influência, a robustez das estimativas fornecidas pelo modelo mediante pequenas perturbações aplicadas no modelo ou nos dados. Diferentes gráficos de influência podem ser desenvolvidos. A metodolgia não exige deleção de observações e permite avaliar a influência conjunta de todos os pontos. Mais de 300 artigos foram publicados no assunto nos últimos 20 anos.

Influência Local p. 3/18 Seja L(θ) o logaritmo da função de verossimilhança definida conforme Cox e Hinkley (1974, Cap. 9), em que θ IR r é um vetor que contém os parâmetros do modelo. Seja L(θ ω) o logaritmo da função de verossimilhança perturbada, em que ω = (ω 1,...,ω s ) T é o vetor de perturbações, ω Ω IR s. Existe ω 0 (vetor de não perturbação) tal que L(θ ω 0 ) = L(θ).

Influência Local p. 4/18 Alguns Tipos de Perturbação As formas mais comuns de perburbação são: perturbação de casos: L(θ ω) = n i=1 ω il i (θ), 0 ω i 1; perturbação na resposta (alavancagem): y iω = y i + σ yi ω i, ω i IR; perturbação em x i (contínua): x iω = x i + σ xi ω i, ω i IR; perturbação na matriz de variância-covariância: Σ iω = ω 1 i Σ i, ω i IR {0}.

Influência Local p. 5/18 Medida de Influência A medida de influência mais utilizada para avaliar o efeito das perturbações nas estimativas fornecidas pelo modelo é o afastamento da verossimilhança definido por LD(ω) = 2{L(ˆθ) L(ˆθ ω )}, em que LD(ω) 0 e ˆθ e ˆθ ω são as estimativas de máxima verossimilhança dos modelos não perturbado L(θ) e perturbado L(θ ω), respectivamente. Note que LD(ω 0 ) = 0.

Influência Local p. 6/18 Definição A idéia de influência local é estudar o comportamento da função LD(ω) numa vizinhança de ω 0. Para tanto, considera-se a superfície geométrica (s + 1)-dimensional formada pelos valores do vetor α(ω) = [ ω LD(ω) ], quando ω varia em Ω. Essa superfície é denominada gráfico de influência.

Influência Local p. 7/18 O estudo de influência local consiste em analisar como a superfície α(ω) desvia-se de seu plano tangente em ω 0 (T 0 ). Essa análise pode ser feita estudando-se as curvaturas das seções normais da superfície α(ω) em ω 0 - que são intersecções de α(ω) com planos contendo o vetor normal com seu plano tangente em ω 0. As curvaturas dessas seções são denominadas curvaturas normais.

Figura 1. Curvatura normal a para uma superfície α(ω) e direção unitária h. Influência Local p. 8/18 a Figura extraída de Verbeke e Molenberghs (2000, p. 155)

Influência Local p. 9/18 Curvatura Normal A intersecção entre a seção normal e o plano tangente T 0 é denominada linha projetada. Essa linha pode ser obtida através do gráfico de LD(ω 0 + ah) contra a IR. A curvatura normal da linha projetada, denotada por C h, é definida como sendo a curvatura de (a, LD{ω(a)}) em a = 0, em que ω(a) = ω 0 + ah. Denomina-se C h curvatura normal da superfície α(ω) em ω 0 e na direção unitária h. Segue da Geometria Diferencial (vide, por exemplo Kreyszig, 1991, p.35) que C h = LD{ω(a)} a=0 = 2 LD{ω(a)}/ a 2 a=0.

Influência Local p. 10/18 Curvatura Normal Após manipulações algébricas Cook mostra que a curvatura normal na direção unitária h fica dada por C h (θ) = 2 h T T L 1 ˆθˆθ h, em que Lˆθˆθ é a matriz observada de Fisher e é uma matriz r s com elementos avaliada em ˆθ e ω 0. ji = 2 L(θ ω) θ j ω i,

Influência Local p. 11/18 Interesse particular está na direção (ou nas direções) que produz(em) maior influência local. Mostra-se que a direção de maior curvatura normal, denotada por h max, é o autovetor normalizado correspondente ao maior autovalor C hmax da matriz A = T L 1 ˆθˆθ. Por exemplo, examinando-se o vetor h max pode-se identificar as observações mais influentes sob o esquema de perturbação adotado.

Influência Local p. 12/18 Gráficos de Diagnóstico Gráficos mais usuais de diagnóstico de influência local: gráfico de índices de h maxi ; gráficos de índices de C i = C h i n j=1 C h j em que h i é um vetor unitário na direção da i-ésima observação que é formado por zeros com o valor 1 na i-ésima posição. Outras formas de padronização de C h (θ) são propostas por Poon e Poon (1999).

Influência Local p. 13/18 Vamos supor que o interesse está num subvetor θ 1 de θ = (θ T 1,θ T 2 ) T. Nesse caso a curvatura normal na direção h fica dada por C h (θ 1 ) = 2 h T T ( L 1 ˆθˆθ B 1) h, sendo B 1 = ( 0 0 0 L 1 ˆθ 2ˆθ2 com Lˆθ2ˆθ2 denotando a informação de Fisher observada para θ 2. O gráfico do maior autovetor de T ( L 1 ˆθˆθ B 1) contra a ordem das observações pode revelar os pontos com maior influência local em ˆθ 1. ),

Influência Local p. 14/18 Modelos Lineares Generalizados Vamos supor um modelo linear generalizado com ligação canônica, φ conhecido e ponderação de casos, em que L(β ω) = n i=1 ω i L i (β), em que 0 ω i 1. Então obtemos o seguinte: Lˆβ ˆβ = φ(x T ˆVX) e = φx T diag{ˆr P1,..., ˆr Pn }.

Influência Local p. 15/18 A curvatura normal na direção unitária h fica então dada por C h (θ) = 2 h T Ah, em que A = diag{ˆr P1,..., ˆr Pn }Ĥdiag{ˆr P 1,..., ˆr Pn }, com H = V 1/2 X(X T VX) 1 X T V 1/2 e r Pi = φ(y i µ i )/ V i. Uma possibilidade é encontrar o autovetor correspondente ao maior autovalor da matrix A, denotado por h max e contruir o gráfico de h max contra as observações.

Influência Local p. 16/18 Outra possibilidade é construir o gráfico da curvatura normal na direção unitária da i-ésima observação, ou seja, h i = (0,...,0, 1, 0,..., 0), em que h i é um vetor de zeros com um na iésima posição. Assim teremos C i = 2 h T i Ah i = 2ˆr 2 P i ĥ ii.

Influência Local p. 17/18 Referências Cook, R. D. (1986). Assessment of local influence (with discussion). Journal of the Royal Statistical Society B 48, 133-169. Cox, D.R. e Hinkley, D.V. (1974). Theoretical Statistics. Chapman and Hall: London. Kreyszig, E. (1991). Differential Geometry. Dover: New York.

Influência Local p. 18/18 Poon, W. e Poon, Y.S. (1999). Conformal normal curvature and assessment of local influence. Journal of the Royal Statistical Society B 61, 51-61. Verbeke, G. e Molenberghs, G. (2000). Linear Mixed Models for Longitudinal Data. Springer: New York.