Jackknife, Bootstrap e outros métodos de reamostragem



Documentos relacionados
Estatística: Aplicação ao Sensoriamento Remoto SER ANO Técnicas de Reamostragem

1.4- Técnicas de Amostragem

Duas Fases da Estatística

Testes de Hipóteses para a Diferença Entre Duas Médias Populacionais

PROBABILIDADES E ESTATÍSTICA

Estatística stica para Metrologia

INTRODUÇÃO. Exemplos. Comparar três lojas quanto ao volume médio de vendas. ...

Lista 9 - Introdução à Probabilidade e Estatística

5. A nota final será a soma dos pontos (negativos e positivos) de todas as questões

AMOSTRAGEM. metodologia de estudar as populações por meio de amostras. Amostragem ou Censo?

O erro da pesquisa é de 3% - o que significa isto? A Matemática das pesquisas eleitorais

PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA DE TRANSPORTES E GESTÃO TERRITORIAL PPGTG DEPARTAMENTO DE ENGENHARIA CIVIL ECV

SUMÁRIO 1. AMOSTRAGEM Conceitos básicos 4

ActivALEA. ative e atualize a sua literacia

Probabilidades. José Viegas

A Inferência Estatística é um conjunto de técnicas que objetiva estudar a população através de evidências fornecidas por uma amostra.

PUCRS FAMAT DEPTº DE ESTATÍSTICA Estimação e Teste de Hipótese- Prof. Sérgio Kato

INTERPOLAÇÃO. Interpolação

CAPÍTULO 5 - INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA

Universidade Federal do Maranhão Centro de Ciências Exatas e Tecnologia Coordenação do Programa de Pós-Graduação em Física

ESTIMAÇÃO DE PARÂMETROS

Lista de Exercícios #4. in Noções de Probabilidade e Estatística (Marcos N. Magalhães et al, 4ª. edição), Capítulo 4, seção 4.4, páginas

Distribuições de Estatísticas Amostrais e Teorema Central do Limite

CAPÍTULO 8 - Noções de técnicas de amostragem

Cap. 4 - Estimação por Intervalo

DISTRIBUIÇÃO AMOSTRAL DA MÉDIA E PROPORÇÃO ESTATISTICA AVANÇADA

1.1 Comecemos por determinar a distribuição de representantes por aplicação do método de Hondt:

Introdução ao Estudo de Sistemas Lineares

somente um valor da variável y para cada valor de variável x.

Faculdade Campo Limpo Paulista Mestrado em Ciência da Computação Complexidade de Algoritmos Avaliação 2

Profa. Regina Maria Sigolo Bernardinelli. Estatística. Gestão Financeira / Gestão de Recursos Humanos / Logística / Marketing

AULA: Inferência Estatística

Neste capítulo, pretendemos ajustar retas ou polinômios a um conjunto de pontos experimentais.

Testes χ 2 (cont.) Testes χ 2 para k categorias (cont.)

Anexo VI Técnicas Básicas de Simulação do livro Apoio à Decisão em Manutenção na Gestão de Activos Físicos

Revisando... Distribuição Amostral da Média

Carteiras de Mínimo VAR ( Value at Risk ) no Brasil

SÉRIE: Estatística Básica Texto v: CORRELAÇÃO E REGRESSÃO SUMÁRIO 1. CORRELAÇÃO...2

Faculdade de Engenharia Investigação Operacional. Prof. Doutor Engº Jorge Nhambiu

Lista de Exercícios #4 Assunto: Variáveis Aleatórias Contínuas

Lista 2 - Introdução à Probabilidade e Estatística

Capítulo 1. Teoria da Amostragem

defi departamento de física

Séries de Potências AULA LIVRO

Avaliação de Desempenho de Sistemas Discretos

Teste de Hipóteses VÍCTOR HUGO LACHOS DÁVILAD

VII Equações Diferenciais Ordinárias de Primeira Ordem

Objetivo. Estimar a média µ de uma variável aleatória X, que representa uma característica de interesse de uma população, a partir de uma amostra.

O QUE SÃO E QUAIS SÃO AS PRINCIPAIS MEDIDAS DE TENDÊNCIA CENTRAL EM ESTATÍSTICA PARTE li

Exercício 1. Quantos bytes (8 bits) existem de modo que ele contenha exatamente quatro 1 s? Exercício 2. Verifique que

FACULDADE DE ADMINISTRAÇÃO E NEGÓCIOS DE SERGIPE

5- CÁLCULO APROXIMADO DE INTEGRAIS 5.1- INTEGRAÇÃO NUMÉRICA

Solução de Equações Diferenciais Ordinárias Usando Métodos Numéricos

DISTRIBUIÇÃO AMOSTRAL E ESTIMAÇÃO PONTUAL INTRODUÇÃO ROTEIRO POPULAÇÃO E AMOSTRA. Estatística Aplicada à Engenharia

Capítulo 2 Análise Descritiva e Exploratória de Dados

d) A partir do item c) encontre um estimador não viciado para σ 2.

Distribuição Amostral da Média: Exemplos

Análise de Projectos ESAPL / IPVC. Critérios de Valorização e Selecção de Investimentos. Métodos Estáticos

Capitulo 6 Resolução de Exercícios

Faculdade de Economia Universidade Nova de Lisboa ESTATÍSTICA. Exame Final 2ª Época 26 de Junho de Grupo I (3 valores)

Estatística. Estatística II - Administração. Prof. Dr. Marcelo Tavares. Distribuições de amostragem. Estatística Descritiva X Estatística Inferencial

Aplicação de geomarketing em uma cidade de médio porte

Estatística: Aplicação ao Sensoriamento Remoto SER ANO Teoria da amostragem

Capítulo 5- Introdução à Inferência estatística.

Analise de Investimentos e Custos Prof. Adilson C. Bassan adilsonbassan@adilsonbassan.com

Sistema Computacional para Medidas de Posição - FATEST

Pedro Alberto Barbetta / Marcelo Menezes Reis / Antonio Cezar Bornia São Paulo: Atlas, 2004

ESTIMAÇÃO DA PROPORÇÃO POPULACIONAL p

Matemática Ficha de Trabalho

Introdução à análise de dados discretos

UNIVERSIDADE ESTADUAL DE CAMPINAS FACULDADE DE ENGENHARIA MECÂNICA IM 317 METODOLOGIA PARA PLANEJAMENTO EXPERIMENTAL E ANÁLISE DE RESULTADOS

O TESTE DOS POSTOS ORDENADOS DE GALTON: UMA ABORDAGEM GEOMÉTRICA

1 Distribuições Amostrais

Intervalos de Confiança

Stela Adami Vayego DEST/UFPR

Diferentes testes para verificar normalidade de uma amostra aleatória

Objetivo. Estimar a média de uma variável aleatória X, que representa uma característica de interesse de uma população, a partir de uma amostra.

Transcrição:

Jackkife, Bootstrap e outros métodos de reamostragem Camilo Daleles Reó camilo@dpi.ipe.br Referata Biodiversa (http://www.dpi.ipe.br/referata/idex.html) São José dos Campos, 8 de dezembro de 20

Iferêcia Estatística iferir certas características da população S distribuição descohecida e/ou parâmetros descohecidos amostra idivíduos (ou objetos) da população ex: sortear pixels de uma imagem (com ou sem reposição) realizações da v.a. ex: medir a reflectâcia de um objeto vezes a amostra costitui um cojuto de v.a. X, X 2,..., X com mesma distribuição (descohecida) Amostra Aleatória

Estimação de Parâmetros População Amostra Distribuição de Probabilidade (ou FDP) Distribuição Amostral (Frequêcias) Parâmetros (valor fixo) estimar Estatísticas (variável aleatória) Estimação potual (estatísticas) por itervalo (itervalos de cofiaça) Como as estatísticas são usadas para estimar o parâmetro, elas também são chamadas estimadores

Estimação Potual Característica ideal de um estimador ão tedecioso exatidão/acurácia variâcia míima precisão/icerteza Exato Impreciso Iexato Preciso Tiro ao alvo

Avaliação da Icerteza de um Estimador Exemplo: Seja X uma v.a. com distribuição descohecida, com a média (µ) e a variâcia (σ 2 ) também descohecidas. Retira-se uma amostra de tamaho com a fialidade de se estimar µ. ˆ µ = X = i= x i N = x FR( X = x ) j= j j Var( ˆ µ ) = Var( X ) 2 σ = dados agrupados Como X é uma v.a., qual sua distribuição? X 2 σ ~ N µ, X µ ~? N (0,) σ (Normal Padrão) se X tiver distribuição ormal ou for grade (TLC) X µ ~? s t (t de studet) desvio padrão amostral

Desvatages da Estatística Clássica em todos os estimadores têm sua distribuição amostral facilmete defiida, mesmo quado se cohece a distribuição origial da variável aleatória estudada exemplo: mediaa, coeficietes de regressões ão lieares, etc quado a amostra é pequea, certas suposições podem ão ser válidas, dificultado a obteção da distribuição amostral de um estimador qualquer. exemplo: média amostral pode ão ter distribuição ormal (amostra pequea = TLC iválido)

Suposições de algumas Estatísticas Clássicas ANOVA (comparação etre r médias) r populações ormalmete distribuídas com variâcias iguais regressão Y Y = β + β X + ε i 0 i i = β X β ε i 0 i i ε σ 2 i ~ N(0, ) ε σ 2 log i ~ N(0, ) proporção p( p) pˆ ( pˆ ) Var(p) ˆ = amostras grades ídice de cocordâcia Kappa ˆκ 2 2 θ θ θ ( ) ( )( ) 4 2 2 θ 2 θ 4 2θ θ 2 θ θ θ θ 3 = Var(κ) ˆ = + + 2 3 4 ˆκ κ θ 2 ( ) ~ N(0,) ( κˆ ) ( ) κˆ 2 κ κ2 ( ˆ ) Var ( κˆ ) + Var ( κˆ ) Var κ ( ) ( ) ( ) ( ) θ θ θ 2 2 2 2 ~ N(0,) amostras grades e idepedetes

Reamostragem Testes paramétricos clássicos comparam estatísticas calculadas a partir de uma amostra à distribuições amostrais teóricas. A reamostragem é o ome que se dá a um cojuto de técicas ou métodos que se baseiam em calcular estimativas a partir de repetidas amostrages detro da mesma amostra (úica). Tipos de reamostragem: Testes de Aleatorização (Testes de Permutação) Validação Cruzada Jackkife Bootstrap

Testes de Aleatorização Testes de aleatorização (ou testes de permutação ou testes exatos) são típicos testes de sigificâcia ode a distribuição da estatística testada é obtida calculado-se todos os possíveis valores desta estatística rearrajado-se os valores da amostra cosiderado uma hipótese ula verdadeira. Pode-se usar a simulação Mote Carlo quado úmero exato de permutações é muito grade. Região Área corretamete classificada imagem 2 images Dif 70 7 47 2 5 48-3 3 60 63 3 4 57 90 33 5 43 4-2 6 5 2 6 7 25 36 8 03 22 9 Dif média = 4,25 Qual valor esperado caso ão houvesse difereça etre o úmero de images utilizadas? Quão raro seria ecotrar o valor 4,25 esse caso? (ver exemplos.xls)

Validação Cruzada Tipicamete, a validação cruzada, a amostra é dividida aleatoriamete em dois subcojutos: um de treiameto e outro de teste (validação). Num estudo de regressão, por exemplo, um cojuto pode ser usado para calcular os coeficietes da equação e o outro para comparar com os valores estimados por esta regressão. Esta aálise pode ficar comprometida quado a amostra é muito pequea. X Y,2 6,4,9 3,3 2,8 8,4 4,3 2,4 5,5 27,7 6,0 9,6 7,2 23,0 7,8 27,2 9, 25,8 0,3 32, X Y, 34,0 3,7 44,2 4,7 4,0 2,5 2,8 3,6 22, 5,6 23,3 7,8 24,7 0, 3,9 2,0 38,0 2,4 39,2 Y 50,0 45,0 40,0 35,0 30,0 25,0 20,0 5,0 0,0 5,0 y = 2,26x + 0,898 R² = 0,9073 0,0 0,0 2,0 4,0 6,0 8,0 0,0 2,0 4,0 6,0 (ver exemplos.xls) X

Jackkife Também chamado leave-oe-out Usado para estimar a variâcia e a tedêcia de um estimador qualquer. Baseia-se a remoção de amostra (podedo ser mais) do cojuto total observado, recalculado-se o estimador a partir dos valores restates. É de fácil implemetação e possui úmero fixo de iterações ( caso se retire apeas amostra por vez).

Jackkife População, θ amostragem X, X 2,..., X Estimado por iferêcia reamostragem vezes X 2, X 3,..., X X, X 3,..., X X, X 2,..., X - estatísticas () () ()

Variâcia de Jackkife Supoha que um determiado parâmetro θ pode ser estimado a partir de uma amostra de valores, ou seja, ˆ θ = (,,..., ) f x x2 x Etão a i-ésima replicação Jackkife correspode ao valor estimado sem a amostra i: ˆ (,,...,,..., ) θ( i) = f x x2 xi xi + x Defie-se o i-ésimo pseudovalor como: x = N ˆ θ ( N ) ˆ θ * ( i) ( i)

Variâcia de Jackkife Com base os pseudovalores, pode-se calcular etão: ˆ θ ˆ ˆ jk = = θ θ * x( i) N ( N ) ode ˆ (.) θ(.) = ˆ θ( i) i= i= Var jk ( ˆ θ ) ( ˆ ˆ θ ) 2 ( i) θ(.) i= X 2,2 2 3,5 3 3,4 4 6,7 5 6,2 6 8,2 7 9,2 8 7,9 9 9,0 0 0, Qual a média geométrica? Qual a icerteza associada a esta estimativa? (ver exemplos.xls)

Bootstrap Pode ser cosiderado uma estratégia mais abragete que o Jackkife por permitir uma maior úmero de replicações. Também é usado para estimar a variâcia e a tedêcia de um estimador qualquer. Baseia-se a geração de uma ova amostra de mesmo tamaho da amostra origial, a partir do sorteio aleatório com reposição de seus elemetos.

Bootstrap População, θ amostragem X, X 2,..., X Estimado por iferêcia reamostragem B vezes Y 2, Y 3,..., Y Y, Y 3,..., Y Y, Y 2,..., Y - estatísticas () () ()

Variâcia de Bootstrap Supoha que um determiado parâmetro θ pode ser estimado a partir de uma amostra de valores, ou seja, ˆ θ = (,,..., ) f x x2 x Etão a cada iteração j o valor estimado a partir da amostra será: ˆ (,,... ) θ ( j) = f y y2 y ode y i é um dos valores da amostra (com reposição)

Variâcia de Bootstrap Com base as estimativas, pode-se calcular etão: ˆ θ b = θ j= ( j) Var b m ( ˆ θ ) ( ˆ θ ˆ ) 2 ( j) θ(.) m j= X 2,2 2 3,5 3 3,4 4 6,7 5 6,2 6 8,2 7 9,2 8 7,9 9 9,0 0 0, Qual a média geométrica? Qual a icerteza associada a esta estimativa? (ver exemplos.xls)