Jackkife, Bootstrap e outros métodos de reamostragem Camilo Daleles Reó camilo@dpi.ipe.br Referata Biodiversa (http://www.dpi.ipe.br/referata/idex.html) São José dos Campos, 8 de dezembro de 20
Iferêcia Estatística iferir certas características da população S distribuição descohecida e/ou parâmetros descohecidos amostra idivíduos (ou objetos) da população ex: sortear pixels de uma imagem (com ou sem reposição) realizações da v.a. ex: medir a reflectâcia de um objeto vezes a amostra costitui um cojuto de v.a. X, X 2,..., X com mesma distribuição (descohecida) Amostra Aleatória
Estimação de Parâmetros População Amostra Distribuição de Probabilidade (ou FDP) Distribuição Amostral (Frequêcias) Parâmetros (valor fixo) estimar Estatísticas (variável aleatória) Estimação potual (estatísticas) por itervalo (itervalos de cofiaça) Como as estatísticas são usadas para estimar o parâmetro, elas também são chamadas estimadores
Estimação Potual Característica ideal de um estimador ão tedecioso exatidão/acurácia variâcia míima precisão/icerteza Exato Impreciso Iexato Preciso Tiro ao alvo
Avaliação da Icerteza de um Estimador Exemplo: Seja X uma v.a. com distribuição descohecida, com a média (µ) e a variâcia (σ 2 ) também descohecidas. Retira-se uma amostra de tamaho com a fialidade de se estimar µ. ˆ µ = X = i= x i N = x FR( X = x ) j= j j Var( ˆ µ ) = Var( X ) 2 σ = dados agrupados Como X é uma v.a., qual sua distribuição? X 2 σ ~ N µ, X µ ~? N (0,) σ (Normal Padrão) se X tiver distribuição ormal ou for grade (TLC) X µ ~? s t (t de studet) desvio padrão amostral
Desvatages da Estatística Clássica em todos os estimadores têm sua distribuição amostral facilmete defiida, mesmo quado se cohece a distribuição origial da variável aleatória estudada exemplo: mediaa, coeficietes de regressões ão lieares, etc quado a amostra é pequea, certas suposições podem ão ser válidas, dificultado a obteção da distribuição amostral de um estimador qualquer. exemplo: média amostral pode ão ter distribuição ormal (amostra pequea = TLC iválido)
Suposições de algumas Estatísticas Clássicas ANOVA (comparação etre r médias) r populações ormalmete distribuídas com variâcias iguais regressão Y Y = β + β X + ε i 0 i i = β X β ε i 0 i i ε σ 2 i ~ N(0, ) ε σ 2 log i ~ N(0, ) proporção p( p) pˆ ( pˆ ) Var(p) ˆ = amostras grades ídice de cocordâcia Kappa ˆκ 2 2 θ θ θ ( ) ( )( ) 4 2 2 θ 2 θ 4 2θ θ 2 θ θ θ θ 3 = Var(κ) ˆ = + + 2 3 4 ˆκ κ θ 2 ( ) ~ N(0,) ( κˆ ) ( ) κˆ 2 κ κ2 ( ˆ ) Var ( κˆ ) + Var ( κˆ ) Var κ ( ) ( ) ( ) ( ) θ θ θ 2 2 2 2 ~ N(0,) amostras grades e idepedetes
Reamostragem Testes paramétricos clássicos comparam estatísticas calculadas a partir de uma amostra à distribuições amostrais teóricas. A reamostragem é o ome que se dá a um cojuto de técicas ou métodos que se baseiam em calcular estimativas a partir de repetidas amostrages detro da mesma amostra (úica). Tipos de reamostragem: Testes de Aleatorização (Testes de Permutação) Validação Cruzada Jackkife Bootstrap
Testes de Aleatorização Testes de aleatorização (ou testes de permutação ou testes exatos) são típicos testes de sigificâcia ode a distribuição da estatística testada é obtida calculado-se todos os possíveis valores desta estatística rearrajado-se os valores da amostra cosiderado uma hipótese ula verdadeira. Pode-se usar a simulação Mote Carlo quado úmero exato de permutações é muito grade. Região Área corretamete classificada imagem 2 images Dif 70 7 47 2 5 48-3 3 60 63 3 4 57 90 33 5 43 4-2 6 5 2 6 7 25 36 8 03 22 9 Dif média = 4,25 Qual valor esperado caso ão houvesse difereça etre o úmero de images utilizadas? Quão raro seria ecotrar o valor 4,25 esse caso? (ver exemplos.xls)
Validação Cruzada Tipicamete, a validação cruzada, a amostra é dividida aleatoriamete em dois subcojutos: um de treiameto e outro de teste (validação). Num estudo de regressão, por exemplo, um cojuto pode ser usado para calcular os coeficietes da equação e o outro para comparar com os valores estimados por esta regressão. Esta aálise pode ficar comprometida quado a amostra é muito pequea. X Y,2 6,4,9 3,3 2,8 8,4 4,3 2,4 5,5 27,7 6,0 9,6 7,2 23,0 7,8 27,2 9, 25,8 0,3 32, X Y, 34,0 3,7 44,2 4,7 4,0 2,5 2,8 3,6 22, 5,6 23,3 7,8 24,7 0, 3,9 2,0 38,0 2,4 39,2 Y 50,0 45,0 40,0 35,0 30,0 25,0 20,0 5,0 0,0 5,0 y = 2,26x + 0,898 R² = 0,9073 0,0 0,0 2,0 4,0 6,0 8,0 0,0 2,0 4,0 6,0 (ver exemplos.xls) X
Jackkife Também chamado leave-oe-out Usado para estimar a variâcia e a tedêcia de um estimador qualquer. Baseia-se a remoção de amostra (podedo ser mais) do cojuto total observado, recalculado-se o estimador a partir dos valores restates. É de fácil implemetação e possui úmero fixo de iterações ( caso se retire apeas amostra por vez).
Jackkife População, θ amostragem X, X 2,..., X Estimado por iferêcia reamostragem vezes X 2, X 3,..., X X, X 3,..., X X, X 2,..., X - estatísticas () () ()
Variâcia de Jackkife Supoha que um determiado parâmetro θ pode ser estimado a partir de uma amostra de valores, ou seja, ˆ θ = (,,..., ) f x x2 x Etão a i-ésima replicação Jackkife correspode ao valor estimado sem a amostra i: ˆ (,,...,,..., ) θ( i) = f x x2 xi xi + x Defie-se o i-ésimo pseudovalor como: x = N ˆ θ ( N ) ˆ θ * ( i) ( i)
Variâcia de Jackkife Com base os pseudovalores, pode-se calcular etão: ˆ θ ˆ ˆ jk = = θ θ * x( i) N ( N ) ode ˆ (.) θ(.) = ˆ θ( i) i= i= Var jk ( ˆ θ ) ( ˆ ˆ θ ) 2 ( i) θ(.) i= X 2,2 2 3,5 3 3,4 4 6,7 5 6,2 6 8,2 7 9,2 8 7,9 9 9,0 0 0, Qual a média geométrica? Qual a icerteza associada a esta estimativa? (ver exemplos.xls)
Bootstrap Pode ser cosiderado uma estratégia mais abragete que o Jackkife por permitir uma maior úmero de replicações. Também é usado para estimar a variâcia e a tedêcia de um estimador qualquer. Baseia-se a geração de uma ova amostra de mesmo tamaho da amostra origial, a partir do sorteio aleatório com reposição de seus elemetos.
Bootstrap População, θ amostragem X, X 2,..., X Estimado por iferêcia reamostragem B vezes Y 2, Y 3,..., Y Y, Y 3,..., Y Y, Y 2,..., Y - estatísticas () () ()
Variâcia de Bootstrap Supoha que um determiado parâmetro θ pode ser estimado a partir de uma amostra de valores, ou seja, ˆ θ = (,,..., ) f x x2 x Etão a cada iteração j o valor estimado a partir da amostra será: ˆ (,,... ) θ ( j) = f y y2 y ode y i é um dos valores da amostra (com reposição)
Variâcia de Bootstrap Com base as estimativas, pode-se calcular etão: ˆ θ b = θ j= ( j) Var b m ( ˆ θ ) ( ˆ θ ˆ ) 2 ( j) θ(.) m j= X 2,2 2 3,5 3 3,4 4 6,7 5 6,2 6 8,2 7 9,2 8 7,9 9 9,0 0 0, Qual a média geométrica? Qual a icerteza associada a esta estimativa? (ver exemplos.xls)