Técnicas estatísticas para análise de dados e de resultados de modelos de simulação



Documentos relacionados
IND 1115 Inferência Estatística Aula 8

Avaliação e Desempenho Aula 1 - Simulação

Capítulo 4 Inferência Estatística

AULA 04 Estimativas e Tamanhos Amostrais

Estimação. Como definir um estimador. Como obter estimativas pontuais. Como construir intervalos de confiança

Modelos de Probabilidade e Inferência Estatística

Aula 8 Intervalos de confiança para proporções amostras grandes

Então, a distribuição de converge para a distribuição normal com média nμ e variância nσ 2

Regressão linear múltipla. Prof. Tatiele Lacerda

Inspeção de Qualidade

Processos Estocásticos

Análise de Regressão Linear Simples III

3 Modelos de Simulação

Teorema do Limite Central e Intervalo de Confiança

Probabilidade III. Ulisses U. dos Anjos. Departamento de Estatística Universidade Federal da Paraíba. Período

O QUE É AMOSTRAGEM? PARTE I

Aula 12 Teste de hipótese sobre proporções amostras grandes

Unidade 5.2. Teste de hipóteses. Hipótese estatística. (uma população) Formulando as hipóteses. Teste de Hipóteses X Intervalo de Confiança

Erros e Incertezas. Rafael Alves Batista Instituto de Física Gleb Wataghin Universidade Estadual de Campinas (Dated: 10 de Julho de 2011.

2) Escreva um algoritmo que leia um conjunto de 10 notas, armazene-as em uma variável composta chamada NOTA e calcule e imprima a sua média.

MAE116 - Noções de Estatística

Teste de Hipótese e Intervalo de Confiança. Parte 2

AULA 12 Inferência a Partir de Duas Amostras

Jogos Bayesianos Estratégias e Equilíbrio Aplicações. Jogos Bayesianos. Prof. Leandro Chaves Rêgo

Lição 5 Medidas Descritivas Medidas de Dispersão

Análise de Regressão. Notas de Aula

Intervalos Estatísticos para Uma Única Amostra

Aula 1 Variáveis aleatórias contínuas

INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA. Prof. Anderson Rodrigo da Silva

Variáveis Frequências Gráficos Medidas de Posição Medidas de Dispersão Medidas Complementares Inferência

CAP. II RESOLUÇÃO NUMÉRICA DE EQUAÇÕES NÃO LINEARES

ESTATÍSTICA PARTE 1 OBJETIVO DA DISCIPLINA

Aula 11 Teste de hipótese sobre a média de uma população normal - σ 2 conhecida

Modelo Uniforme. como eu e meu colega temos 5 bilhetes, temos a mesma probabilidade de ganhar a rifa:

Análise estatística. Aula de Bioestatística. 17/9/2008 (2.ª Parte) Paulo Nogueira

BIOESTATÍSTICA. Parte 1 - Estatística descritiva e análise exploratória dos dados

Probabilidade e Estatística - EST0003 Intervalos Estatísticos para uma única Amostra

AULAS 08 E 09 Distribuição de Probabilidade Normal

cuja distribuição é t de Student com n 1 graus de liberdade.

é 4. Portanto, o desvio padrão é 2. Neste caso 100% dos valores da população estão a um desvio padrão da média.

População e Amostra POPULAÇÃO AMOSTRA AMOSTRAGEM TIPOS DE AMOSTRAGEM I. Amostra probabilística: II. Amostra não-probabilística

Medidas de dispersão e assimetria

REGRESSÃO. Análise de Correlação

Matemática Aplicada às Ciências Sociais

Qual é o estoque mínimo que irá garantir o nível de serviço ao cliente desejado pela empresa?

Probabilidade II. Departamento de Estatística. Universidade Federal da Paraíba. Prof. Tarciana Liberal (UFPB) Aula Distribuição Uniforme 11/13 1 / 19

Probabilidade e Estatística, 2009/2

AMOSTRAGEM: DIMENSIONAMENTO DE AMOSTRAS. SELEÇÃO DOS ELEMENTOS DE UMA AMOSTRA. ESTIMATIVA DA CARACTERÍSTICA TOTAL DA POPULAÇÃO INVESTIGADA

Estatística. Slide 0. Ana M. Abreu /07

x = xi n x = xifi fi 1. MÉDIA Exercício: Quando a distribuição é simétrica, a média e a mediana coincidem.

Probabilidade. Distribuição Binomial

Controle Estátistico de Processo.

Continuação: Teoria - Racionalização do Trabalho. Avaliação de velocidade do operador

AULA 11 Experimentos Multinomiais e Tabelas de Contingência

Desvio Padrão ou Erro Padrão

Aula 00. Raciocínio Lógico Quantitativo para IBGE. Raciocínio Lógico Quantitativo Professor: Guilherme Neves

Modelo Normal. Aplicações: Parte 1. Prof. Caio Azevedo. Prof. Caio Azevedo

alocação de custo têm que ser feita de maneira estimada e muitas vezes arbitrária (como o aluguel, a supervisão, as chefias, etc.

Correlação e Regressão linear simples

Plano da Apresentação. Correlação e Regressão linear simples. Correlação linear. Associação entre hábitos leitura e escolaridade.

1 Introdução. 1.1 Importância da Utilização da Amostragem

Aplicações das derivadas ao estudo do gráfico de funções

Estatística AMOSTRAGEM

Método do Lugar das Raízes

Medidas de Tendência Central. Introdução Média Aritmética Moda Mediana

Planejamento e Análise Estatística de Experimentos Fatoriais em blocos completos

Vamos denotar por C o evento balancete de custo e por O o evento balancete de orçamento. Temos: #O = 4 #C = 3 # = 7 Logo, Pr(O) =4/7 Pr(C) =2/7

Carta de controle para o desvio-padrão

Distribuição Binomial e Normal

CONHECIMENTOS ESPECÍFICOS

Exemplo Turbinas de Avião

ESCOLA SUPERIOR DE TECNOLOGIA DE SETÚBAL DEPARTAMENTO DE MATEMÁTICA PROBABILIDADES E ESTATÍSTICA Teste Final 2009/2010. Curso: 12/06/2010.

ANÁLISE DE FALHAS DE COMPUTADORES

Plano de Ensino PROBABILIDADE E ESTATÍSTICA APLICADA À ENGENHARIA - CCE0292

Árvore de Decisão. 3. Árvore de Decisão

Teoria dos Grafos. Valeriano A. de Oliveira Socorro Rangel Departamento de Matemática Aplicada.

Prova Escrita de MATEMÁTICA A - 12o Ano a Fase

Aula de Exercícios - Variáveis Aleatórias Discretas

Apresentação de Dados

CAPÍTULO 8. de Variância - ANOVA ANOVA. Análise

Aula 1 Assimetria e Curtose

UNIPAC Araguari FACAE - Faculdade de Ciências Administrativas e Exatas SISTEMAS DE INFORMAÇÃO

ANÁLISE EXPLORATÓRIA DE DADOS

Linha Técnica Sessão IV Variáveis Instrumentais

Experimento. Guia do professor. Quantos peixes há no lago? Secretaria de Educação a Distância. Ministério da Ciência e Tecnologia

Intervalo de Confiança - Margem de Erro

Matemática Fascículo 05 Manoel Benedito Rodrigues

Regressão, Interpolação e Extrapolação Numéricas

Executivo Cíclico. Executivo Cíclico Introdução. Sistemas de Tempo Real: Executivo Cíclico Introdução. Executivo Cíclico Exemplo

Universidade Federal do Amazonas Instituto de Ciências Exatas Departamento de Estatística

Capítulo 5. Inferência no Modelo de Regressão Simples: Estimação de Intervalos, Teste de Hipóteses e Previsão

Aula 6 Propagação de erros

Notas de aula de Lógica para Ciência da Computação. Aula 11, 2012/2

Algoritmos e Estruturas de Dados I. Variáveis Indexadas. Pedro O.S. Vaz de Melo

Regressão Linear Múltipla

Aula 8. Teste Binomial a uma proporção p

Projetos CUSTOS. Prof. Anderson Valadares

A Derivada. 1.0 Conceitos. 2.0 Técnicas de Diferenciação. 2.1 Técnicas Básicas. Derivada de f em relação a x:

O Modelo Econômico da Empresa em Condições de Incerteza - Aplicação do Método de Simulação de Monte Carlo

Como rodar a regressão no gretl. Usando o Console para calcular elasticidade. Elasticidade. Usando o Console para calcular predição

Transcrição:

Parte XIV Técnicas estatísticas para análise de dados e de resultados de modelos de simulação A saída de um modelo de simulação geralmente constitui-se de VA s, muitas das quais podem ter variância grande. Portanto, não é seguro fazer inferências (tomar decisões) com base na saída de uma única execução do modelo. Seja Y 1,Y 2,... a saída de um processo estocástico gerado por uma execução da simulação. Ex.: Y i pode representar o número de itens produzidos na i-ésima hora. Geralmente os Y i s são VA que não são independentes nem identicamente distribuídas. Portanto, os métodos clássicos para determinação dos intervalos de confiança não podem ser diretamente aplicados. Agora assuma que vamos executar a simulação n vezes, utilizando o mesmo estado inicial. Se coletarmos m observações de cada simulação, teremos no total nm observações y j,i (a i-ésima observação da execução j). Para cada execução, vamos utilizar conjuntos independentes de números aleatórios. Portanto, mesmo que as observações de uma mesma execução j não sejam IID, as i-ésimas observações de todas as execuções são IID (para qualquer i). Portanto, o objetivo da análise de resultados é utilizar as observações y j,i para realizar inferências sobre as distribuições das VA s Y 1,...,Y m. Ex.: y i = n j=1 y j,i/n é um estimador não viesado de E[Y i ]. 48 Comportamento transiente e estacionário de um processo estocástico Considere o processo estocástico Y 1,Y 2,... Seja F i (y C) = Pr[Y i y C], i = 1,2,..., onde y é um número real e C representa as condições utilizadas no início da simulação (no instante 0). Ex.: a condição inicial em um sistema de filas pode ser o tamanho de cada fila. F i (y C) é chamado de distribuição transiente da saída de um processo no instante (discreto) i, para as condições iniciais C. Geralmente, F i (y C) é diferente para cada i (Figura 9.1, Law). Para valores fixos de y e C, se F i (y C) F(y) quando i (para qualquer escolha de y e C), dizemos que F(y) é a distribuição estacionária do processo Y i,y 2,... A distribuição estacionária não depende das condições iniciais C, mas a taxa de convergência depende (Figura 9.2). 49 Tipos de simulação com relação à analise de dados A análise de dados mais apropriada depende de algumas características da simulação. Vamos então classificar a simulação de acordo com estas características. Uma simulação é finita se existe um evento natural E que determina a duração de uma execução. O evento E normalmente ocorre em um instante a partir do qual nenhuma informação relevante pode ser produzida, ou quando o sistema é reinicializado. Ex.: para analisar o tempo de espera de um cliente em um banco, sabemos que os clientes serão atendidos se chegarem entre 10h e 16h. Depois de 16h nenhum novo cliente pode entrar, e os que já estavam no banco serão atendidos. A condição inicial é de zero clientes. Ex.: determinar qual tropa vai vencer em uma simulação de guerra. Uma condição de parada pode ser quando alguma tropa perder mais de 30% do efetivo. Ex.: como cumprir um contrato de fabricação de 100 aviões em 18 meses? Como o número de observações é finito, a determinação das condições iniciais geralmente afeta a medida de interesse. Por outro lado, se não existe um evento que determina a duração da simulação, dizemos que a simulação é infinita. Se a simulação é infinita e a medida de interesse tem distribuição estacionária, dizemos que a simulação é de parâmetro estacionário. 46

Ex.: desejamos estimar o número de itens produzidos por hora. A perda de produção é desprezível entre o final do trabalho em um dia e o início no dia seguinte (startup time). A maioria dos sistemas reais não têm distribuição estacionária, visto que o sistema muda com o tempo (ex.: número e localização das máquinas). Porém a saída de uma simulação (que é uma abstração da realidade) pode ter distribuição estacionária, já que normalmente o modelo assume que as características não mudam com o tempo. Considere uma simulação infinita onde a medida não tem distribuição estacionária. Suponha que o tempo é dividido em intervalos de igual comprimento, chamados de ciclos. Seja Yi c ciclo. uma VA definida com base no i-ésimo Se o processo Y c 1,Y c 2,... tem distribuição estacionária F c, dizemos que a simulação é de parâmetro cíclico. Ex.: no exemplo anterior, se o startup time não for desprezível, a produção por hora não é estacionária. Porém, a produção por dia será. Quando a medida tem distribuição estacionária, podemos reduzir o ciclo indefinidamente. Como o tempo é discretizada nas análises de parâmetros estacionários, estas análises podem ser empregadas para parâmetros cíclicos.ex9.29. Podemos ter ainda casos onde a simulação é infinita, e nenhum tamanho de ciclo apropriado fornece uma distribuição estacionária. Isto acontece quando o modelo muda com o tempo. Ex.: o departamento de marketing determina, em função das vendas, um cronograma de 3 meses de produção, onde indica o número e tipos de computadores que devem ser produzidos em cada semana. Nestes casos, como normalmente existe uma quantidade finita de dados que descrevem como o modelo muda com o tempo, podemos analisar este simulador como se fosse finito. 50 Análise estatística de simulações finitas Neste caso, executamos a simulação até o fim n vezes, e coletamos ao final de cada execução uma medida X. Seja X i a medida observada na i-ésima execução. Como os números aleatórios em cada execução são independentes, e o mesmo estado inicial é mantido, temos que os X i s são IID. 50.1 Estimando médias Como as VAs são IID, temos os seguintes estimadores não viesados para a média µ e variância σ 2 de X: n i=1 X = X i n n S 2 i=1 = (X i X) 2. n 1 Ou seja, E[X] = µ e E[S 2 ] = σ 2. Pelo Teorema do Limite Central, temos que a distribuição de X tende (com o aumento de n) para uma distribuição normal. Assim, com confiança 100(1 α)%, podemos calcular o seguinte intervalo de confiança para µ: X ± t n 1,1 α/2 S 2 n, onde t n 1,1 α/2 é o ponto crítico com probabilidade acumulada 1 α/2 em uma distribuição t com n 1 graus de liberdade. Ex.: 9.14 e 9.15, Law. Se a distribuição de X for muito diferente de uma normal, é importante verificar se n é grande o bastante para gerar uma boa aproximação normal para a distribuição da média X. 50.1.1 Obtendo determinada precisão Para obter maior precisão (tamanho máximo do intervalo de confiança) na estimativa de X, basta aumentar o número de execuções n. Como determinar o menor valor de n que garanta uma dada precisão? Denotamos δ(n,α) = t n 1,1 α/2 S2 /n. Procedimento de amostra fixa O erro absoluto de X é definido como X µ. Se n é tal que δ(n,α) β (onde β > 0), então 1 α Pr(X δ(n,α) µ X + δ(n,α)) = Pr( X µ δ(n,α)) Pr( X µ β) Portanto, para obter um erro absoluto de no máximo β com probabilidade maior que 1 α, devemos encontrar o menor valor de n tal que δ(n,α) β. 47

1. Escolha um valor inicial para n de modo que a estimativa S 2 não mude consideravelmente com o aumento de n. 2. Utilizando esta estimativa de S 2, aumente o valor de n até que δ(n,α) β. A principal dificuldade deste procedimento é identificar um valor inicial apropriado para n no Passo 1, pois a corretude do procedimento depende de S 2 ser uma boa estimativa de σ 2. Podemos ajustar o procedimento para limitar o erro relativo X µ / µ. Neste caso, se encontrarmos o menor valor de n tal que δ(n,α)/ X γ, temos que 1 α Pr( X µ / X δ(n,α)/ X ) Pr( X µ γ X ) = Pr( X µ γ X µ + µ ) Pr( X µ γ( X µ + µ )) ( X µ = Pr γ ) µ 1 γ Ou seja, para obter um erro relativo de no máximo γ (com probabilidade de pelo menos 1 α), devemos encontrar o menor valor de n tal que δ(n,α)/ X γ = γ/(γ + 1). Neste caso, o valor inicial para n no Passo 1 deve ser tal que as estimativas X e S 2 não modifiquem consideravelmente com o aumento de n. Ex.: 9.17 e 9.18, Law. Procedimento sequencial 1. Escolha um valor inicial n = n 0 e execute o simulador n vezes. 2. Calcule X, S 2 e δ(n,α). 3. Se δ(n,α)/ X γ, pare. Caso contrário, substitua n por n + 1, execute mais uma vez o simulador, e vá para o passo 2. Ao contrário do procedimento de amostra fixa, o procedimento sequencial vai atualizando as estimativas X e S 2 para cada nova observação (execução do simulador). Ex.: 9.19, Law. Para maior chance de corretude do procedimento, alguns trabalhos recomendam n 0 10 e γ 0.15. Recomendações para escolha dos procedimentos Se a precisão do intervalo de confiança não é muito importante, recomenda-se o procedimento de amostra fixa (mais simples). Se as observações são muito diferentes de uma normal, e o número de execuções é pequeno, o intervalo obtido pode ser muito diferente do real. Caso deseja-se γ 0.15, o procedimento sequencial é indicado. Caso contrário, recomenda-se aplicações sucessivas do procedimento de amostra fixa. Após estimar n, colete mais (n n)/2 observações. Se o intervalo de confiança ainda não possui a precisão desejada, atualize as estimativas X e S 2, e continue o processo. As aplicações sucessivas do procedimento de amostra fixa também é recomendado para β pequeno. Independente do custo para repetir as execuções, recomenda-se pelo menos de 3 a 5 execuções. 50.2 Escolhendo condições iniciais A medida de performance em simulações finitas depende explicitamente das condições iniciais. Ex.: a estimativa do tempo de atendimento entre 12h e 13h depende do núm. de clientes no sistema às 12h. Uma alternativa é iniciar a simulação em um instante anterior onde as condições iniciais são conhecidas. Ex.: Às 10h nenhum cliente estava no banco. Desvantagem: simular (modelar e executar) período onde os dados não são relevantes. Outra alternativa é determinar empiricamente a distribuição de clientes às 12h, e sortear este número para cada execução do simulador. 51 Análise estatística de parâmetros estacionários 51.1 Remoção de transientes iniciais Parâmetros estacionários podem ser obtidos com base na distribuição estacionária F(y). Ex.: E[Y ]. Como geralmente não é possível obter as condições que já iniciam o processo em estado estacionário, o estimador do parâmetro com base em um conjunto finito de observações é viesado. A abordagem mais sugerida para este problema é a remoção de dados iniciais. A técnica mais simples e geral para determinar quantas observações iniciais remover foi proposta por Welch(1981). Procedimento (figura 9.5): 48

1. Execute n 5 vezes a simulação, cada execução com m (grande) observações. Seja Y j,i a i-ésima observação da execução j. 2. Seja Y i = n j=1 Y j,i/n, i = 1,...,m. O processo Y 1,Y 2,... tem médias E[Y i ] = E[Y i ] e variâncias Var[Y i ] = Var[Y i ]/n. Ou seja, mesma média e 1/n da variância original. 3. Caso seja necessário suavizar ainda mais o gráfico de Y 1,...,Y m, geramos o gráfico das médias móveis Y i (w) com janela w. Y i (w) = w s= w Y i+s 2w+1, i 1 i = w + 1,...,m w s= (i 1) Y i+s 2i 1, i = 1,...,w 4. Com base no gráfico, escolha o valor l para o índice i a partir do qual o processo parece ter convergido. Remova os dados com índice menor que l. Ex.: 9.25 (Figuras 9.6, 9.7 e 9.8). Recomendações para a escolha de n,m,w: Inicialmente faça n = 5 ou 10 (dependendo do custo), e m tão grande quanto possível. O valor de m deveria ser grande o bastante para que eventos infrequentes (como quebra de máquinas) ocorram um número razoável de vezes. Gere o gráfico de Y i (w) para vários valores de w, e escolha o menor valor para w de modo que o gráfico fique razoavelmente suave. Se nenhum valor de w é satisfatório, gere mais 5 ou 10 execuções de tamanho m. Repita todo o processo até ser capaz de determinar l. 51.2 Método Replicação/Remoção para médias Dentre as várias propostas para determinar médias estacionárias, apresentaremos o método R/R, pois: É o mais fácil de entender e implementar. Fornece boa performance estatística. Pode ser aplicado para todos os tipos de parâmetros, e permite estimar vários parâmetros de uma mesma simulação. 1. Determine a quantidade mínima de observações iniciais l que devem ser removidas (Welch). 2. Produza novas observações Y ji executando a simulação n vezes, coletando m observações por execução. m deve ser muito maior que l. 3. Seja X j = m i=l+1 Y ji m, j = 1,...,n. l 4. Como as observações com índice maior que l são consideradas convergentes, E[X j ] E[Y ]. Utilizando os X j s, estimamos X, S 2 e o intervalo de confiança para Y : S 2 X ± t n 1,1 α/2 n. Se m for muito maior que l, podemos utilizar o mesmo conjunto de observações para determinar l e o intervalo de confiança. Porém, utilizar conjuntos independentes é mais correto estatisticamente. Ex.: 9.27. 52 Estimando proporções Em alguns casos, não conseguimos tomar a decisão com base apenas nas médias. Ex.: No exemplo 9.20, dois sistemas apresentaram as mesmas médias (tabela 9.4). Entretanto, o histograma (tabela 9.5) revelou que o sistema com 5 filas tem maior dispersão (com mais clientes aguardando muito tempo). Como observado no exemplo, o uso de proporções é uma alternativa ao uso de médias. Seja Y i = { 1, Xi B 0, caso contrário Então, S = n i=1 Y i é o número de observações X i que pertencem ao conjunto B. Se as observações são IID, S tem distribuição binomial com parâmetros n e p = Pr(X B). Desejamos entrar um intervalo de confiança para ˆp = S/n. Note que E[S/n] = p. Para n grande, S tem distribuição aproximadamente normal com média np e variância np(1 p). Portanto, Z = X np ˆp p = np(1 p) p(1 p)/n tem distribuição aprox. normal padrão. Portanto, temos o seguinte intervalo de confiança para ˆp, p(1 p) ˆp ± z 1 α/2, n onde podemos substituir p por ˆp. 49

53 Múltiplas medidas de performance blank Geralmente estamos interessados em coletar várias medidas de performance de uma mesma simulação. Suponha que geramos (com base em execuções do simulador), para cada medida µ s, um intervalo de confiança I s com confiança 100(1 α s )%. Qual a confiança de que todas as medidas estão contidas em seus respectivos intervalos de confiança? Seja A s o evento que indica que a medida µ s não pertence a I s. Então, de acordo a desigualdade de Boole, ( n ) n n Pr A s Pr(A s ) = α s. Portanto, Pr(µ s I s, para todo s = 1,...,n) 1 n α s. Este resultado não é animador para o caso de muitas medidas. Ex.: 10 medidas, todas com α = 0.1. Assim, só podemos garantir que a probabilidade (de todas pertencerem aos intervalos de confiança) é maior ou igual a zero. Se n não é grande, podemos escolher os α s de modo que n α s = α, onde α é a probabilidade conjunta desejada. Podemos utilizar valores menores de α s para medidas µ s mais importantes. A desvantagem é que os I s serão maiores, ou mais dados serão necessários. Recomenda-se que n 10. Ex.: 9.30 (figura 9.9). 50