Revisão de Estatística (Aplicada a Análise de Desempenho) Profa. Jussara M. Almeida 1 o Semestre de 2014

Documentos relacionados
Estimating Population from Samples

Estimating Population from Samples

Teoria das Filas aplicadas a Sistemas Computacionais. Aula 08

Teoria das Filas aplicadas a Sistemas Computacionais. Aula 09

Avaliação e Desempenho Aula 5

Modelos Probabilísticos Filas M/M/1, M/G/1. Profa. Jussara M. Almeida 1 o Semestre de 2014

Avaliação de Desempenho

Métodos Quantitativos para Ciência da Computação Experimental. Aula #2c

EELT-7035 Processos Estocásticos em Engenharia. Variáveis Aleatórias. EELT-7035 Variáveis Aleatórias Discretas. Evelio M. G.

Estatística e Modelos Probabilísticos - COE241

Estatística e Modelos Probabilísticos - COE241

Conceitos Básicos, Básicos,Básicos de Probabilidade

TE802 Processos Estocásticos em Engenharia. Valores Esperados de Somas de Variáveis Aleatórias. TE802 Somas de Variáveis Aleatórias

Teorema do Limite Central

Modelos Probabilísticos Teóricos Discretos e Contínuos. Bernoulli, Binomial, Poisson, Uniforme, Exponencial, Normal

Estatística e Modelos Probabilísticos - COE241

TE802 Processos Estocásticos em Engenharia. Valores Esperados de Somas de Variáveis Aleatórias Notes. PDF da Soma de Duas Variáveis Aleatórias.

Estatística e Modelos Probabilísticos - COE241

TE802 Processos Estocásticos em Engenharia. Processo Aleatório. TE802 Processos Aleatórios. Evelio M. G. Fernández. 18 de outubro de 2017

MOQ-13 PROBABILIDADE E ESTATÍSTICA. Professor: Rodrigo A. Scarpel

Modelos de Distribuição PARA COMPUTAÇÃO

Estatística e Modelos Probabilísticos - COE241

Estatística e Modelos Probabilísticos - COE241

Probabilidade e Modelos Probabilísticos

Aula 4. Aula de hoje. Aula passada

Estatística e Modelos Probabilísticos - COE241

Variáveis Aleatórias Discretas e Distribuição de Probabilidade

Distribuições Contínuas de Probabilidade

Estatística e Modelos Probabilísticos - COE241

Modelos Probabilísticos de Desempenho. Profa. Jussara M. Almeida 1º Semestre de 2014

Distribuições de Probabilidade Contínuas 1/19

Probabilidade e Estatística

rio de Guerra Eletrônica EENEM 2008 Estatística stica e Probabilidade Aleatórias nuas

4ª LISTA DE EXERCÍCIOS - LOB1012. Variáveis Aleatórias Contínuas, Aproximações e TLC

Avaliação e Desempenho Aula 18

Estatística Descritiva e Exploratória

Avaliação de Desempenho de Sistemas Discretos

Sumário. 2 Índice Remissivo 11

Modelagem e Análise de Sistemas - COS767

Professora Ana Hermínia Andrade. Período

(a) Se X Poisson(λ) e Y Poisson(µ), então X + Y Poisson(λ + µ). (b) Se X Binomial(n, p) e Y Binomial(m, p), então (X + Y ) Binomial(n + m, p).

Estatística e Modelos Probabilísticos - COE241

Estatística e Modelos Probabilísticos - COE241

Cap. 6 Variáveis aleatórias contínuas

Estatística Planejamento das Aulas

PRINCIPAIS DISTRIBUIÇÕES DISCRETAS DE PROBABILIDADE

Variáveis Aleatórias Contínuas

Modelagem e Avaliação de Desempenho. Pós Graduação em Engenharia Elétrica - PPGEE Prof. Carlos Marcelo Pedroso 2017

MOQ 13 PROBABILIDADE E ESTATÍSTICA. Professor: Rodrigo A. Scarpel

ALGUNS MODELOS DE VARIÁVEIS ALEATÓRIAS UNIDIMENSIONAIS. Prof.: Idemauro Antonio Rodrigues de Lara

Variáveis Aleatórias Discretas 1/1

Variáveis Aleatórias Bidimensionais &Teoremas de Limite 1/22

Modelagem e Análise de Sistemas de Computação Aula 19

3 a Lista de PE Solução

5. PRINCIPAIS MODELOS CONTÍNUOS

Instituto Tecnológico de Aeronáutica Divisão de Engenharia Mecânica-Aeronáutica. Professora: Denise Beatriz T. P. do Areal Ferrari

Processos Estocásticos. Luiz Affonso Guedes

Processos Estocásticos

Capítulo 2. Variáveis Aleatórias e Distribuições

Análise e Modelagem de Desempenho de Sistemas de Computação. Profa. Jussara M. Almeida 1 o Semestre de 2014

Modelagem e Avaliação de Desempenho. Pós Graduação em Engenharia Elétrica - PPGEE Prof. Carlos Marcelo Pedroso 2018

Cap. 6 Variáveis aleatórias contínuas

Distribuição Normal. Prof. Eduardo Bezerra. (CEFET/RJ) - BCC - Inferência Estatística. 25 de agosto de 2017

{ C(1 x 2 ), se x ( 1, 1), f(x) = Cxe x/2, se x > 0, x + k, se 0 x 3; 0, c.c. k, se 1 < x 2; kx + 3k, se 2 < x 3;

Probabilidades e Estatística TODOS OS CURSOS

Redes Complexas Aula 7

Modelagem e Avaliação de Desempenho. Pós Graduação em Engenharia Elétrica - PPGEE Prof. Carlos Marcelo Pedroso 2014

AULA 8. DISTRIBUIÇÕES DE VARIÁVEIS CONTÍNUAS Uniforme, Exponencial e Normal 19/05/2017

4. Distribuições de probabilidade e

Distribuições de Probabilidade. Distribuição Uniforme Distribuição Exponencial Distribuição Normal

TE802 Processos Estocásticos em Engenharia

Capítulo 3. Introdução à Probabilidade E à Inferência Estatística

CE Estatística I

Modelos Probabilísticos

Probabilidade. 1 Distribuição de Bernoulli 2 Distribuição Binomial 3 Multinomial 4 Distribuição de Poisson. Renata Souza

AULA 3: DISTRIBUIÇÕES DE PROBABILIDADES. Gleici Castro Perdoná

a) o time ganhe 25 jogos ou mais; b) o time ganhe mais jogos contra times da classe A do que da classe B.

Noções de Simulação. Ciências Contábeis - FEA - Noturno. 2 o Semestre MAE0219 (IME-USP) Noções de Simulação 2 o Semestre / 23

Aula de hoje. administração. São Paulo: Ática, 2007, Cap. 3. ! Tópicos. ! Referências. ! Distribuição de probabilidades! Variáveis aleatórias

Distribuições conjuntas de probabilidades e complementos

Probabilidade II. Departamento de Estatística. Universidade Federal da Paraíba. Prof. Tarciana Liberal (UFPB) Aula Desigualdades 02/14 1 / 31

ME-310 Probabilidade II Lista 1

Modelagem e Análise Aula 11

Processos de Poisson

DISTRIBUIÇÃO NORMAL DISTRIBUIÇÕES DE PROBABILIDADE CONJUNTAS ROTEIRO DISTRIBUIÇÃO NORMAL

Outras distribuições contínuas. Gama Qui-quadrado t-student F-Snedecor Pareto Weibull Beta Log-Normal Meia-normal Cauchy etc...

Processos Estocásticos aplicados à Sistemas Computacionais

Bioestatística e Computação I

PARTE TEÓRICA Perguntas de escolha múltipla

Probabilidades e Estatística

Aula 1. Objetivo: Mostrar o papel fundamental da distribuição de Poisson no comportamento de grandes populações.

Aula 1. Objetivo: Mostrar o papel fundamental da distribuição de Poisson no comportamento de grandes populações.

Módulo III: Processos de Poisson, Gaussiano e Wiener

Principais distribuições discretas Distribuição de Bernoulli sucesso fracasso X = 1, se sucesso X = 0, se fracasso P(X) TOTAL 1 Exemplo 5:

AULAS 6 e 7. ESPERANÇA, MOMENTOS E DISTRIBUIÇÕES DE PROBABILIDADES de VARIÁVEIS DISCRETAS 05/05/2017

Distribuições de Probabilidade

UNIVERSIDADE FEDERAL DA PARAÍBA. Variáveis Aleatórias. Departamento de Estatística Luiz Medeiros

Distribuições de probabilidade contínuas

Par de Variáveis Aleatórias

4. ([Magalhães, 2011] - Seção 2.4) Seja X U( α, α), determine o valor do parâmetro α de modo que:

Transcrição:

Revisão de Estatística (Aplicada a Análise de Desempenho) Profa. Jussara M. Almeida 1 o Semestre de 2014

Por quê? Modelagem probabilística Avaliação dos resultados Qual a probabilidade do tempo de residência no disco 1 ser inferior a 0.5 segundo? Depende da distribuição de probabilidade do tempo de residência!!! O tempo médio de resposta é uma boa estimativa do desempenho do sistema? Depende da variabilidade de R: variância, desvio padrão Caracterização da carga Como modelar o tempo entre chegada de requisições no servidor?

Variável Aleatória Uma variável aleatória (VA) X em um espaço amostral s é uma função X: S R que atribui um número real a cada ponto amostral em S ou Uma variável aleatória é uma variável que recebe um valor numérico como resultado de um experimento.

Exemplos de Variável Aleatória Tempo entre chegadas de clientes em um servidor # visitas à CPU de uma requisição Tempo de residência no sistema Seja R n o tempo de residência de um cliente j que encontra n clientes na fila no momento de chegada X i = tempo de serviço de cliente i (iid) Y = tempo residual do cliente em serviço quando o dado cliente j chega Então: R o = X i, R n = Y + X 1 + X 2 +... + X n, n 1

Distribuição de Probabilidade de uma Variável Aleatória Função de distribuição acumulada (CDF) F da VA X é definida para todos os números reais b, b R, como: F(b) = P(X b) Propriedades de uma CDF F é uma função não decrescente: se a < b F(a) < F(b) CDF é uma caracterização completa de uma VA.

Exemplo de CDF e CCDF Intervalo de tempo entre check-ins de um mesmo usuário no Foursquare CDF: P(X <= x) Número de check-ins por usuário do Foursquare CCDF : P (X> x)

Variáveis Aleatórias Discretas Pode assumir um número contável de valores Função Probabilidade de Massa (PMF) p(): p(a) = P(X = a) Propriedades: p(x i ) 0, i = 1, 2,... p(x) = 0, para todos outros valores de x CDF e PMF:

Função de Probabilidade de Massa Representação gráfica da PMF Seja X o número de visitas que cada requisição faz ao disco p(x): p(0) = 0.25 p(1) = 0.5 p(2) = 0.25

Histograma Outra representação gráfica equivalente Plota o número de vezes que a saída de um experimento aleatório foi igual a cada ponto amostral Ex: se total de requisições ao servidor = 1000

Variáveis Aleatórias Contínuas Pode assumir um número incontável de valores Função Densidade de Probabilidade (PDF) f(): Propriedades: f(x) 0, x CDF e PDF:

Métricas Simples para Caracterização de uma Variável Aleatória

Expectativa Valor Esperado de uma VA X X discreta X contínua Ex: demanda média nos discos se: 90% das requisições visitam disco 1 e 10% visitam o disco 2, tempo de serviço de disco 1 é 15 ms, tempo de serviço do disco 2 é de 10 ms e número de visitas por requisição é o mesmo para os dois discos e igual a 20 (arquivos com mesmo tamanho) D = D 1 0.9 + D 2 0.1 = 20 0.015 0.9 + 20 0.010 0.1

Expectativa Expectativa de uma função da VA X X discreta X contínua Ex: utilização média dos discos para λ = 100 U = λd U = U 1 0.9 + U 2 0.1 = λ D 1 0.9 + λ D 2 0.1 = = 100 20 0.015 0.9 + 100 20 0.010 0.1

Variância Variância de uma VA X: variabilidade, espalhamento dos valores de X E(X) = E(Y) = 100 Var(X) = 162.5 Var(Y) = 4645.8

Variância Variância de uma VA X: variabilidade, espalhamento dos valores de X

Desvio Padrão e Coeficiente de Variabilidade Desvio Padrão SD(X) Coeficiente de Variabilidade (CV) Diferentemente de SD, que depende da unidade das medições, o CV é uma medida sem unidade Mede a quantidade de variabilidade relativo ao valor médio Permite comparar a variabilidade existente em distribuições/ amostras diferentes

Distribuição de Probabilidade Para uma caracterização completa de uma VA é preciso determinar a sua distribuição de probabilidade CDF ou PMF (se discreta) ou PDF (se contínua) Existem várias distribuições discretas e contínuas na literatura que seguem comportamento bem definido Conhecê-las é importante, pois podemos aplicar resultados previamente desenvolvidos Ex: uma distribuição exponencial tem uma cauda mais leve do que uma distribuição Pareto Caudas pesadas têm impacto no consumo de recursos (ex: tempo de serviço) Vamos fazer uma revisão rápida. Maior detalhamento nos caps 4 e 5 de A First Course in Probability, Sheldon Ross

Distribuições Discretas Bernoulli Binomial Poisson Geométrica Zipf Várias outras no livro do Ross

Bernoulli (p) Distribuições Discretas X = {0,1} X = {sucesso, falha} p(0) = P(X=0) = 1-p p(1) = P(X=1) = p Binomial (n, p) X = # sucessos em n experimentos independentes, onde a probabilidade de sucesso em um experimento é p E(X) = np Var(X) = np(1-p)

Poisson (λ) Distribuições Discretas Número de eventos independentes que ocorrem em um intervalo de tempo (veja discussão em Ross, 4.8) Número de chegadas em um servidor em 1 hora Número de erros de impressão em uma página de um livro E(X) = Var(X) = λ λ = # médio de eventos que ocorrem no período

Poisson (λ) Distribuições Discretas Muito comumente usado para modelar chegada de sessões de usuários servidores Web, multimídia, banco de dados, ftp, e-mail Sessões são iniciadas por usuários Chegada de duas sessões tendem a ser independentes: Poisson é uma boa aproximação Contra-exemplo: Chegada de requisições em um servidor Web Premissa de independência não é válida: existe dependência entre requisições para o arquivo HTML e as imagens embutidas nele

Geométrica (p) Distribuições Discretas Número de experimentos (sucesso/falha) até que um sucesso ocorra E(X) = 1/p Var(X) = (1-p)/p 2 Número de retransmissões de mensagem

Zipf(α) Distribuições Discretas Comumente usada quando a distribuição é altamente concentrada em poucos valores Popularidade de arquivos em servidores Web/multimídia 90% dos acessos são para 10% dos arquivos Popularidade de palavras na língua inglesa Seja i, o elemento que ocupa a i-esima posição no ranking de concentração C é a constante de normalização Zipf: lei das Potências

Distribuição Zipf Modela popularidade dos remetentes de e-mails para a UFMG

Distribuições Contínuas Uniforme Normal Exponencial Pareto LogNormal Gamma : ver Ross Weibull : ver Ross

Uniforme (a,b) Distribuições Contínuas X é uniformemente distribuída no intervalo [a,b], se Normal (µ, σ) ou Gaussiana µ= valor esperado σ 2 = variância

Distribuições Contínuas Exponencial (λ) Quantidade de tempo até que determinado evento ocorra Tempo entre chegadas de sessões em um servidor λ = taxa de chegadas 1/ λ = tempo médio entre chegadas P(X 1/λ ) = 1 e -λ 1/λ = 1 1/e ~ 63% E(X) = 1/ λ Var(X) = 1/λ 2 SD(X) = 1/λ CV(X) = 1 CV = 1 exponencial (aproximação???)

Distribuições Exponencial e Poisson Processo de Chegadas Poisson Tempo entre Chegadas Exponencial Independência entre eventos

Distribuições Exponencial e Poisson Seja uma distribuição Poisson que denote o número de eventos N(t) em um intervalo de tempo t Seja T 1 o momento do 1o evento Seja T n o tempo entre o (n-1)-esimo e o n-esimo eventos Sequência {T n, n=1, 2,...}: tempos entre chegadas P(T 1 > t) = P(N(t) = 0) = e -λt T1 exponencial(λ) P(T 2 > t T 1 = s) = Prob (0 eventos em (s, s+t) T1 = s) = Prob (0 eventos em (s, s+t) (eventos Poisson são independentes) = e -λt T 2 exponencial(λ) T 1, T 2,..., T n são independentes e têm mesma distribuição exponencial(λ)

Exponencial (λ) : Distribuição Exponencial P(X t + x X > t) = Propriedade sem memória (memoryless) = = P([X t + x] [X > t]) P(X > t) P(t < X t + x) 1 P(X t) P(X t + x) P(X t) 1 P(X t) = 1 e λ(t +x ) (1 e λt ) 1 (1 e λt ) = 1 e λt e λx 1+ e λt e λt = e λr (1 e λx ) e λt =1 e λx = P(X x)

Propriedade Memoryless Tempo de residência R de um cliente depende do # de clientes na fila quando ele chega ao centro, dos tempos de serviços destes clientes e do tempo que o cliente que está sendo servido no momento de chegada ainda permanecerá em serviço. Seja X i a VA para o tempo de serviço de cliente i na CPU Seja X i : exponencial(µ) para todos os clientes Seja Y a VA que denota o tempo residual que o cliente que está em serviço no momento de chegada ainda permanecerá em serviço Y também tem distribuição exponencial com parâmetro µ Tempo que ainda falta independe do tempo que já esteve em serviço Nós usamos este resultado quando derivamos R para MVA Estado futuro não depende do estado passado

Propriedade Memoryless Distribuição exponencial é a única distribuição contínua que tem a propriedade memoryless Por sua vez, distribuição geométrica é a única discreta que tem a propriedade memoryless (FAZER)

Outras Distribuições Contínuas Pareto(α, k) Tamanho de arquivos Web Número de bytes em uma transferência FTP Lognormal (µ, σ) Duração de sessões de usuários e de requisições interativas a vídeo Tamanho de e-mails Uma VA X é Lognormal (µ, σ) se Y = ln(x) é Normal (µ, σ)

Sumário Caracterização de uma VA X Média de X Variância, desvio padrão, CV CDF PMF (discreta) ou PDF (contínua) Modelo de distribuição e seus parâmetros Várias outras Melhor caracterização depende do que você está tentando calcular

Caracterização: Exemplo Tempo entre sessões em um servidor de vídeo

Combinando Variáveis Aleatórias

Funções de Distribuição Conjuntas Se X e Y são independentes F X,Y (a,b) = F(a)F(b) p X,Y (a,b) = P(X=a)P(X=b) f X,Y (x,y)= f(x)f(y) (contínuas) Prob(X = a, Y b) =p(x=a)f,y (b) (X discreta, Y contínua) E(g(X)h(Y)) = E(g(X)) E(h(Y))

Aplicações de Distribuição Conjunta Distribuição multinomial: Chegada de clientes p 1 p 2 p m fluxo 1 fluxo 2 fluxo m n n P(X 1 = n 1 X 2 = n 2... X m = n m ) = p 1 n n 1 n 2...n 1 p 2 n 2...p m m m = n! n 1!n 2!...n m! p n 1 n 1 p 2 n 2...p m m

Aplicações de Distribuição Conjunta Transações no servidor A têm tempo de execução T A exponencial(λ) Transações no servidor B têm tempo de execução T B exponencial(µ) Se duas transações T 1 e T 2 chegam nos sites A e B, respectivamente, ao mesmo tempo e são servidas imediatamente, qual a probabilidade de que T 1 termine antes que T 2

Funções de Variáveis Aleatórias

Soma de Poissons X e Y são VAs independentes, X Poisson(λ 1 ) e Y Poisson(λ 2 ) Qual a distribuição de Z=X+Y? Z=X+Y é Poisson(λ 1 + λ 2 )

Aplicação: Soma de Poissons Chegada de sessões em um servidor Web, clientes estão em duas regiões. Mede separadamente em cada região e acha Poisson. Qual o processo de chegada agregado? Poisson λ 1 Poisson λ 2 Poisson λ 1 + λ 2 + + λ n Poisson λ n Resultado se estende para n VAs independentes, cada uma com distribuição Poisson

Soma de Exponenciais X e Y são independentes, X exponencial (λ) e Y exponencial(λ) Qual a distribuição de Z=X+Y? Z=X+Y é Erlang com 2 estágios e parâmetro λ Aplicação: tempo de operação de um sistema com redundância (X = tempo de operação de componente principal, Y = tempo do standby)

Soma de Exponenciais Genericamente: X 1, X 2,... X n, todas independentes e exponencial(λ): Z = X 1 + X 2 +... X n Erlang de n estágios Ex: tempo de processamento dividido em várias etapas. A duração de cada etapa é exponencialmente distribuída com mesmo λ Exp(λ) Exp(λ) Exp(λ) Exp(λ) 1 2 3 n Erlang(n,λ) Se X i exponencial (λ i ), onde λ i são diferentes Z = X 1 + X 2 +... X n Hipoexponencial (ver Trivedi)

Distribuição dos Mínimos Sistema composto de n componentes. Sistema funciona se todos componentes estão operando corretamente Tempo de falha : X 1, X 2,..., X n exponencial (λ) Tempo de vida do sistema Z = min (X 1, X 2,..., X n ) P(Z z) = P (pelo menos um X i z) =? P (exatamente um X i z) =?

Distribuição dos Mínimos P(Z z) = P (pelo menos um X i z) Z tem distribuição exponencial com parâmetro λn p = (1-e -λz )

Distribuição dos Máximos n tarefas independentes : X 1, X 2,..., X n : exponencial (λ) Tempo de resposta = tempo de execução da tarefa mais longa Z = max (X 1, X 2,..., X n ) Ex: tempo de resposta de máquina de busca composta de n processadores executando em paralelo. Cada máquina processa consulta em uma partição do dicionário Front-end: atraso desprezível

Distribuição dos Máximos n tarefas independentes : X 1, X 2,..., X n : exponencial (λ) Tempo de resposta = tempo de execução da tarefa mais longa Z = max (X 1, X 2,..., X n )

Exercício Considere um computador paralelo com n processadores. Sejam X 1, X 2,..., X n, os tempos de falha dos processadores, cada um exponencialmente distribuído com parâmetro λ. Qual a distribuição da capacidade de processamento C n do computador? Ordene X i s em ordem crescente. Seja Y i a VA que ocupa a i-esima posição: Y 1 = min(x i ) C n = ny 1 + (n-1) (Y 2 Y 1 ) + (n-2)(y 3 -Y 2 )+... + (n-j)(y j+1 Y j )+... + (Y n Y n-1 ) Y 1 = min(x i ) exponencial(nλ)

Exemplo (cont.) Sejam W 1, W 2,..., W n-j os tempos restantes de processamento de cada um dos processadores ainda operando depois que j processadores falharam Y j+1 Y j = min(w 1, W 2,..., W n-j ) Pela propriedade memoryless da exponencial W i exponencial(λ) Logo Y j+1 Y j exponencial((n-j) λ)

Exemplo (cont.) Lembre que: C n = ny 1 +... +(n-j)(y j+1 Y j )+... + (Y n Y n-1 ) Quais as distribuições de: (n-j)(y j+1 Y j ) e ny 1? Se X exponencial(λ): Y = rx exponencial(λ/r) Y 1 = min(x i ) exponencial(nλ) ny 1 exp (nλ/n) ~ exp(λ) Y j+1 Y j exponencial((n-j) λ) (n-j)(y j+1 Y j ) exp((n-j)λ/(n-j)) ~ exp(λ) Logo C n = soma de exponencial(λ): C n Erlang(λ,n)