Análise de Dados e Simulação

Documentos relacionados
ESTATÍSTICA COMPUTACIONAL

BOOTSTRAP. - APLICAÇÃO DO MB: podem ser aplicados quando existe, ou não, um modelo probabilístico bem definido para os dados.

1) Deseja-se usar o algoritmo de rejeição para simular de uma v.a. normal positiva, cuja densidade é dada por. 2 x > 0.

ESTIMAÇÃO DE PARÂMETROS

Estatística Computacional e Simulação

Técnicas computacionais em probabilidade e estatística II

Inferência estatística

Comparação entre intervalos de confiança calculados com métodos bootstrap e intervalos assintóticos

Probabilidade e Estatística. Estimação de Parâmetros Intervalo de Confiança

4.1 Conceitos Básicos em Reamostragem

Estimação: (A) Propriedades e Distribuições Amostrais

MAE0212 Introdução à Probabilidade e Estatística II

Análise de Dados e Simulação

Intervalos de Confiança

Capítulo 4 Inferência Estatística

Solução dos Exercícios - Capítulos 1 a 3

Professora Ana Hermínia Andrade. Universidade Federal do Amazonas Faculdade de Estudos Sociais Departamento de Economia e Análise. Período 2017.

Cap. 4 - Estimação por Intervalo

Exemplo 7.0 Numa linha de produção, os pesos de pacotes de pó de café embalados por uma máquina têm distribuição Normal, com média

Inferência Estatistica

Simulação com Modelos Teóricos de Probabilidade

Estimativas e Tamanhos de Amostras

Turma: Engenharia Data: 12/06/2012

Uma estatística é uma característica da amostra. Ou seja, se

CONHECIMENTOS ESPECÍFICOS

Inferência. 1 Estimativa pontual de uma média 2 Estimativa intervalar de uma média. Renata Souza

MAE Introdução à Probabilidade e Estatística II Resolução Lista 5

AULA 03 Estimativas e tamanhos amostrais

Métodos Computacionais em Física

Estimação e Testes de Hipóteses

Professora Ana Hermínia Andrade. Período

Distribuições Amostrais e Estimação Pontual de Parâmetros

Inferência. 1 Estimativa pontual de uma média 2 Estimativa intervalar de uma média. Renata Souza

Fernando de Pol Mayer

3. Estimação pontual USP-ICMC-SME. USP-ICMC-SME () 3. Estimação pontual / 25

DISTRIBUIÇÃO AMOSTRAL E ESTIMAÇÃO PONTUAL INTRODUÇÃO ROTEIRO POPULAÇÃO E AMOSTRA. Estatística Aplicada à Engenharia

Método de amostragem por conglomerados em dois estágios para estimativa de população canina/felina domiciliada.

Inferência Estatística: DEEST/UFOP Prof.: Spencer Barbosa da Silva

Estatística e Probabilidade Aula 08 Estimativas e Tamanho Amostral. Prof. Gabriel Bádue

Distribuições Amostrais e Estimação Pontual de Parâmetros

Distribuições Amostrais e Estimação Pontual de Parâmetros

Distribuições Amostrais

1 Que é Estatística?, 1. 2 Séries Estatísticas, 9. 3 Medidas Descritivas, 27

Intervalos de Confiança

SUMÁRIO. 1.1 Introdução, Conceitos Fundamentais, 2

Aula 3 - Revisão de Probabilidade e Estatística: Esclarecimento de Dúvidas

MOQ-13 PROBABILIDADE E ESTATÍSTICA. Professor: Rodrigo A. Scarpel

Universidade Federal de Lavras

Inferência Estatística: Conceitos Básicos II

Universidade Federal Fluminense INSTITUTO DE MATEMÁTICA E ESTATÍSTICA DEPARTAMENTO DE ESTATÍSTICA

Análise Exploratória e Estimação PARA COMPUTAÇÃO

Inferência Estatística:

Tamanho Amostral. Tiago Viana Flor de Santana

Introdução ao Planejamento e Análise Estatística de Experimentos 1º Semestre de 2013 Capítulo 3 Introdução à Probabilidade e à Inferência Estatística

Medidas resumo. Wagner H. Bonat Elias T. Krainski Fernando P. Mayer

3 Modelo Matemático Definições Iniciais. Denote-se, em geral, o desvio-padrão do processo por σ = γσ 0, sendo σ 0 o

1 Inferência Estatística - Teoria da Estimação

TAMANHO AMOSTRAL. Lucas Santana da Cunha 31 de julho de Universidade Estadual de Londrina. Tamanho da Amostra

ANÁLISE DE RESULTADOS

ESTATÍSTICA. Lucas Santana da Cunha 18 de setembro de Universidade Estadual de Londrina

LEEC Probabilidades e Estatística 1 a Chamada 13/06/2005. Parte Prática C (C) M 1% 9% 10% (M) 4% 86% 90% 5% 95% 100%

Nessa situação, a média dessa distribuição Normal (X ) é igual à média populacional, ou seja:

X 2. (σ 2 + µ 2 ) = 1 n (nσ 2 + nµ 2 ) = σ 2 + µ 2. µ = 0 E(T ) = σ 2

MEDIDAS DE DISPERSÃO. Os dados a seguir referem-se ao índice pluviométrico de três cidades no Estado de São Paulo, em 3 diferentes ocasiões

MAE0229 Introdução à Probabilidade e Estatística II

Introdução à Probabilidade e à Estatística II

x P(X = x) 0,1 0,7 0,2

6EMA Lucas Santana da Cunha 19 de abril de Universidade Estadual de Londrina

Fernando de Pol Mayer

ESTATÍSTICA RESUMO E EXERCÍCIOS DE PROVAS ANTERIORES * *Resoluções destes exercícios grátis em simplificaaulas.com

Estatística Descritiva

A Inferência Estatística é um conjunto de técnicas que objetiva estudar a população através de evidências fornecidas por uma amostra.

Introdução ao Planejamento e Análise Estatística de Experimentos 1º Semestre de 2013 Capítulo 3 Introdução à Probabilidade e à Inferência Estatística

Testes de Hipóteses Paramétricos

Transcrição:

Universidade de São Paulo Instituto de Matemática e Estatística http:www.ime.usp.br/ mbranco Análise Estatística.

Análise Estatística Motivação: Fila de 1 servidor. Clientes chegam em um banco (sistema) segundo um PPNH com função intensidade λ(t), t > 0. O banco possue um único caixa (servidor). Se ele esta livre o cliente é atendido, caso contrário, espera na fila. O tempo de atendimento do cliente pelo servidor é uma v.a. Y com distribuição G, independente do processo de ingresso no sistema e do atendimento do cliente anterior. Existe um tempo T 0 a partir do qual não é mais permitido a entrada no sistema. Todos os clientes que já entraram serão atendidos.

Análise Estatística Possíveis interesses: (1) Determinar o tempo médio gasto por um cliente no banco. T E : tempo de entrada no sistema. T S : tempo de saída do sistema Tempo de permanência: X = T S T E. Parâmetro de interesse: θ 1 = E[X]. (2) Determinar o tempo extra de trabalho. T Su : tempo de saída do último cliente (máximo T S ). Tempo extra: Y = T Su T 0. Parâmetro de interesse: θ 2 = E[Y ].

Análise Estatística Questão de simulação: Quantos dias devem ser simulados? Similar ao problema estatístico de determinar o tamanho da amostra. Primeiro devemos estabelecer o parâmetro de interesse e seu estimador. Em geral estamos interessados em estimar uma média populacional: E[X]. Usamos como estimador a média amostral X = 1 n n i=1 X i. Considerando as propriedades usuais da média amostral, estabelecemos uma expressão para o tamanho da amostra que depende da confiança (1 α) e da precisão (2ǫ) desejadas.

Análise Estatística Lembre que, para n grande, com S 2 n = 1 n 1 n (X i X) 2 e i=1 ǫ = Z 1 α/2 S n n Z 1 α/2 o percentil de ordem 1 α/2 da N(0, 1). A seguinte estratégia de simulação pode ser usada. (i) Simular n 0 valores iniciais de X. (ii) Fixado α 0 e ǫ 0, segue simulando novos valores de X até obter Z 1 α/2 S n n ǫ 0.

Análise Estatística Caso especial: Proporção X i = 1 com probabilidade p e X i = 0, com probabilidade 1 p. Então E[X i ] = p e V ar[x i ] = p(1 p). Note que X = ˆp é a proporção de 1 s na amostra. Neste caso ˆp(1 ˆp) ǫ = Z 1 α/2. n OBS: Dependendo do parâmetro de interesse pode não haver fórmula explicita para o erro padrão do estimador. Neste caso, devemos estimá-lo. Métodos de reamostragem são úteis para este propósito.

Métodos de reamostragem (bootstrap e Jackknife) O método de bootstrap foi introduzido por Efron (1979). Para mais informação sobre a metodologia ver o livro de Efron and Tibshirani(1998). Chapman and Hall/CRC. O termo provem de uma frase do romance As aventuras do Barão de Munchausen escrito por Rudolph Raspe, to pull oneself up by one s bootstrap. Na ĺıngua portuguesa poderia ser interpretado como pular sobre suas próprias botas ou subir com seus próprios esforços. O método de Jackknife é mais simples e anterior ao bootstrap. O objetivo dos métodos é estimar a variabilidade de um estimador reamostrando da própria amostra observada.

O método de Jackknife Considere x 1, x 2,...,x n a amostra observada. As amostras de Jack serão construídas retirando-se um elemento da amostra original, x (i) = (x 1,...,x i 1, x i+1,...,x n ), i = 1,...,n 1. Obtemos assim n amostras de Jack. Para cada uma destas amostras calcula-se o valor do estimador de interesse ˆθ(i). A estimativa de Jackknife para o Erro Quadrático Médio (EQM) do estimador ˆθ é dada por com θ = 1 n EQM Jack (ˆθ) = n 1 n n θ(i). ˆ i=1 n [ θ(i) ˆ θ] 2 i=1

Exemplo 1: Estimando a média populacional Parâmetro de interesse µ = E[X]. Estimador X. Considere a amostra x = (10, 27, 31, 40, 46, 50, 52, 104, 146). Amostras de Jack de tamanho (n-1): x (i) x mediana (27,31,40,46,50,52,104,146) 62.00 48 (10,31,40,46,50,52,104,146) 59.87 48 (10,27,40,46,50,52,104,146) 59.37 48 (10,27,31,46,50,52,104,146) 58.25 48 (10,27,31,40,50,52,104,146) 57.50 45 (10,27,31,40,46,52,104,146) 57.00 43 (10,27,31,40,46,50,104,146) 56.75 43 (10,27,31,40,46,50,52,146) 50.25 43 (10,27,31,40,46,50,52,104) 45.00 43

θ = 56.22, o qual é igual a média amostra é x. EQM Jack ( X) = 8 9 9 [ x(i) θ] 2 = 199.9 i=1 O real valor de erro quadrático médio para X é dado por V ar(x) n Usando a variância amostral s 2 = 1 n 1 n (x i x) 2 como estimador de V ar(x), temos que EQM ˆ = 1799.19/9 = 199.9 É possível mostrar que i=1 EQM Jack ( X) = s2 n

Problema com o Jackknife: uso de funções não suaves. Considere ˆθ = med(x), então EQM Jack (md) = 47.11 Se utilizarmos a metodologia de bootstrap obtemos EQM Boot = 91.78 com base em 1000 amostras simuladas.

O método de bootstrap não paramétrico Um amostra de bootstrap é obtida simulando, com reposição, n valores segundo a distribuição empírica F e. Denotada por x = (x 1, x 2,...,x n). Simula-se um número B de amostras e para cada uma avalia-se o estimador. Obtendo-se ˆθ 1,..., ˆθ B. No exemplo, possíveis amostras (ou réplicas) são: x x mediana (10,27,31,40,46,50,52,104,146) 56.22 46 (10,10,27,27,40,40,50,50,104) 39.78 40 (10,10,27,40,40,50,50,104,104) 48.33 40 (10,27,27,27,46,50,52,104,104) 49.67 46 (27,27,31,46,50,140,140,146,146) 83.67 50 (40,50,52,52,104,104,104,104,146) 84.00 104

A função de distribuição empírica é F e (x i ) = numero de valores menores ou iguais a x i n Como simular de uma v.a. discreta? (i) Gerar u U (0,1) (ii) Se F e (x (i 1) ) < u F e (x (i) ) fazer x = x (i) i = 1, 2,...,k. F e (x (0) ) = e x (1) < x (1) < < x (k) são as estatísticas de ordem.

O erro quadrático médio de bootstrap é definido como EQM Boot (ˆθ) = E Fe [(ˆθ(X) θ) 2 ] e denominado estimativa ideal de bootstrap para o EQM. No caso particular θ = µ e ˆθ = X obtemos EQM Boot (ˆθ) = 1 n 2 n (x i x) 2 a qual difere levemente da usual estimativa do EQM( X) dada por 1 n(n 1) i=1 n (x i x) 2 i=1

Uma medida de interesse em estatística é o erro padrão do estimador (desvio padrão do estimador). O algoritmo proposto por Efron e Tibshirani para estimar o ep(ˆθ) é dado por: (i) Considere x 1, x 2,...,x B réplicas de Boot. (ii) Calcule o estimador em cada amostra obtida, ˆθ(x j ), j = 1,...,B. (iii) Estime o erro padrão ( ep ˆ B ) por com θ = 1 B B ˆθ(x j ). j=1 B [ˆθ(x j ) θ ] 2 j=1 B 1 1/2

Exemplo: Em uma amostra de 15 turmas de uma escola de direito duas medidas foram consideradas: LSAT, o escore médio da turma no exame nacional de admissão ao curso, e GPA, a nota média do curso de graduação. LSTA 576 635 558 578 666 580 555 661 GPA 3.39 3.30 2.81 3.03 3.44 3.07 3.00 3.43 LSTA 651 605 653 575 545 572 594 GPA 3.36 3.13 3.12 2.74 2.76 2.88 2.96 O coeficiente de correlação amostral é r xy = 0.776. Qual o erro associado a esta estimativa?

A tabela a seguir apresenta a estimativa de bootstrap para o erro padrão do coeficiente de correlação amostral. B 25 50 100 200 400 800 1600 3200 ep ˆ B 0.140 0.142 0.151 0.143 0.141 0.137 0.133 0.132 Foi observada uma forte assimetria na distribuição de frequências dos valores obtidos para r xy, indicando que o uso da aproximação normal para este estimador não é aconselhável. Assumindo que as observações tem distribuição normal é possível mostrar que o erro padrão de r xy é 0.115, próximo dos valores obtidos

O método de bootstrap paramétrico A versão paramétrica do algoritmo de bootstrap assume parcialmente conhecida a distribuição de probabilidade F geradora dos dados observados, sendo necessário apenas definir os parâmetros dessa distribuição. O algoritmo para estimar o erro padrão de um estimador é igual ao estabelecido anteriormente, a única alteração é a maneira como simular as réplicas. A função empírica é substituída pela verdadeira F com os parâmetros estimados via amostra original.