Avaliação de Desempenho de Sistemas Discretos Probabilidade Professor: Reinaldo Gomes reinaldo@dsc.ufcg.edu.br
Planejamento Experimental 2 fatores manipuláveis x 1 x 2 x p entradas Processo...... saídas y z 1 z 2 z q fatores não manipuláveis Planejamento de Experimento: selecionar fatores manipuláveis x1,...,xp e determinar formas de utilizá-los em experimentos, de modo que sejam obtidas informações suficientes sobre o processo com pequeno número de ensaios Otimizar o processo: dado um critério quantitativo, encontrar a combinação dos níveis dos fatores controláveis que levam à melhor resposta
Seleção das Variáveis 3 Variáveis Independentes Fatores a serem estudados ou avaliados num processo (que podem ser controladas) Ex.: Formulação, temperatura, ph, agitação, aeração, tempo de residência, vazão, pressão, etc... Variáveis Dependentes Respostas desejadas (determinadas experimentalmente) Ex.: Rendimento, produtividade, atributos sensoriais, fator de pureza, atividade enzimática, etc...
Design de Experimentos 4 Conceitos importantes: Níveis: valores que podem ser assumidos por cada fator manipulável Tratamentos: uma particular combinação de níveis dos fatores incluídos no estudo experimental. Replicações: repetições de um ensaio em cada condição tratamento para avaliar erros experimentais Aleatorização: forma de realizar os ensaios em que a seqüência é aleatória, evitando vieses Blocagem: organização das unidades experimentais em subgrupos mais homogêneos
Design de Experimentos 5 Escolha de tratamentos Como projetar um experimento para uma avaliação de um sistema? Quais tratamentos (combinações de níveis de fatores) devem ser usados? Minimizar custo, tempo Maximizar a representatividade e precisão Usar todas as combinações de níveis pode gerar uma explosão de ensaios
Tipos de Design de Experimentos 6 Fator simples Estuda a influência de uma variável independente Conclusões erradas se houver interação entre fatores Múltiplos Fatores Estuda a influência de múltiplas variáveis independentes no sistema e suas interações Pode ter diversos níveis Design Fatorial Completo Design Fatorial Parcial
Tipos de Design de Experimentos 7 Experimento com um fator Deseja-se comparar 3 tipos de redes de computadores, C1, C2 e C3, em termos do tempo médio de transmissão entre duas máquinas. Realizou-se um experimento com 8 replicações com cada tipo de rede, aleatorizando a ordem dos 24 ensaios e mantendo fixos os demais fatores manipuláveis Deseja-se testar as hipóteses: H0: os tempos de transmissão são iguais para os três tipos de rede H1: os tempos de transmissão não são todos iguais (depende do tipo de rede)
Tipos de Design de Experimentos 8 Experimento com um fator fatores x assumindo valores C1, C2 e C3 entradas Processo... z 1 z 2 z q fatores não manipuláveis saídas y = tempo médio de transmissão
Tipos de Design de Experimentos 9 Experimento com um fator - Resultados Tipo de rede Replicação C1 C2 C3 1 7,2 7,8 6,3 2 9,3 8,2 6,0 3 8,7 7,1 5,3 4 8,9 8,6 5,1 5 7,6 8,7 6,2 6 7,2 8,2 5,2 7 8,8 7,1 7,2 8 8,0 7,8 6,8 Média 8,21 7,94 6,01
Tipos de Design de Experimentos 10 Experimento com múltiplos fatores A B entradas Processo saídas y Fator B b 1 b 2 b 3 b 4 Fator A a 1 a 2 a 1 b 1 a 1 b 2 a 1 b 3 a 1 b 4 a 2 b 1 a 2 b 2 a 2 b 3 a 2 b 4 Todas as combinações de a i e b j
Tipos de Design de Experimentos 11 Experimento com múltiplos fatores Projeto fatorial 2 k Efeito de k fatores usando apenas 2 níveis para cada fator Pode estimar interações entre fatores Determinar quais fatores mais afetam os efeitos Não pode estimar erros (não há replicação) Projeto fatorial 2 kr com replicação Como 2 k mas com r repetições, permitindo estimar erros e, portanto, intervalos de confiança
Tipos de Design de Experimentos 12 Experimento com múltiplos fatores Deseja-se estudar os efeitos da quantidade de memória principal (fator A) e de memória cache (fator B) no desempenho de um servidor de banco de dados. O fator A foi foram considerados os níveis 16 e 32 Gbytes e o fator B nos níveis 4 e 8 Mbytes.
Tipos de Design de Experimentos 13 Experimento com múltiplos fatores A + y(a+,b ) = a y(a+,b+) = ab y(a,b ) = (1) y(a,b+) = b B +
Tipos de Design de Experimentos 14 Experimento com múltiplos fatores Deseja-se estudar os fatores que mais influenciam na taxa de falhas de transmissão de uma rede de computadores Taxa máxima de transmissão (10 / 100 Mbps) Quantidade de informação (10000 / 100000 bytes) Comprimento do cabo ( 20 / 100 m)
Tipos de Design de Experimentos 15 Experimento com múltiplos fatores ac abc ensaio 1 2 3 4 5 6 7 8 tratamento (1) a b ab c ac bc abc A + a (1) b B c + ab A B C AB AC BC ABC + + + + + + + + + + + + + + + + + + + + + + + + + + + + C bc +
Tipos de Design de Experimentos 16 Experimento com múltiplos fatores
Tipos de Design de Experimentos 17 Experimento com múltiplos fatores Projeto fatorial 2 k Determina efeito de k fatores mas usam-se apenas 2 níveis para cada fator Pode estimar interações entre fatores Determinar quais fatores mais afetam os efeitos Não pode estimar erros (não há replicação) Projeto fatorial 2 kr com replicação Como 2 k mas com r repetições, permitindo estimar erros e, portanto, intervalos de confiança
Tipos de Design de Experimentos 18 Experimento com múltiplos fatores Projeto fatorial fracionário 2 k-p Útil quando há muito fatores (k grande) k fatores de 2 níveis mas com menos tratamentos Haverá fatores confundidos (misturados) confounding factors Deve escolher quais fatores serão confundidos (os menos importantes) para maximizar obtenção de informação dos fatores importantes
Tipos de Design de Experimentos 19 Experimento com múltiplos fatores Exemplo 2 3-1 : ac abc A a ab + (1) + b B c C bc +
Distribuições Comuns 20 Uniforme Normal Poisson Hipergeométrica Binomial Student's Geométrica Lognormal Exponencial Beta Gamma Qui-Quadrado Weibull Pareto Erlang Pascal
21 Distribuição de Poisson Parâmetro: λ (média) Utilização: Número de pessoas que chegam em um lugar por hora Número de chamadas telefônicas em uma central Número de conexões TCP recebidas em um servidor por hora Número de vezes que um servidor Web é acessado por minuto Número de carros que passam na rua em um período Número de navios que chegam no porto por dia Em geral: Processos de nascimento
22 Distribuição de Poisson
Distribuição Uniforme - Contínua 23 Parâmetros: a e b (limite inferior e superior) Utilização: Quando a probabilidade de eventos é a mesma O número observado no lançamento de um dado Direção do movimento de um usuário em um rede celular Dia do mês do aniversário de uma pessoa
24 Distribuição Uniforme - Contínua
25 Distribuição Uniforme - Discreta
Distribuição Exponencial 26 Parâmetro: λ (média) Utilização: Tempo entre eventos sucessivos O tempo entre acidentes de carro Tempo entre chamadas telefônicas Tempo entre requisições a um servidor de BD Tempo entre falhas de um equipamento
27 Distribuição Exponencial
Distribuição Normal (Gaussiana) 28 Parâmetros: µ, σ² (média e variância) Utilização: Aleatoriedade causada por várias fontes independentes agindo em conjunto Erros em medições Dados relativamente padronizados
29 Distribuição Normal (Gaussiana)
Distribuição Normal 30 Aplicações da Distribuição Normal Normal (m, v) Média Variância Altura das mulheres entre 18 e 24 é uma Normal( 164, 6²) cm 68% têm entre 158 e 170 (média ± 1 Desvio Padrão) 95% têm entre 154 e 176 (média ± 2 Desvios Padrão)
Distribuição Normal 31 Aplicações da Distribuição Normal A probabilidade de uma variável aleatória X ter um valor dentro do intervalo [a,b] é a área sob a curva no intervalo entre x=a e x=b
Distribuição Normal 32 Se a média é µ=100 e o desvio padrão é σ =10, qual a probabilidade de uma ocorrência entre A e B Assuma um coeficiente k que determina os pontos A e B em função do desvio padrão. A=µ - kσ, B= µ + kσ k=0.1 A=99 B=101 P[A x B]=7.96%
Distribuição Normal 33 Se a média é µ=100 e o desvio padrão é σ =10, qual a probabilidade de uma ocorrência entre A e B A=µ - kσ, B= µ + kσ k=0.5 A=95 B=105 P[A x B]=38.29%
Distribuição Normal 34 Se a média é µ=100 e o desvio padrão é σ =10, qual a probabilidade de uma ocorrência entre A e B A=µ - kσ, B= µ + kσ k=1 A=90 B=110 P[A x B]=68.27%
Distribuição Normal 35 Se a média é µ=100 e o desvio padrão é σ =10, qual a probabilidade de uma ocorrência entre A e B A=µ - kσ, B= µ + kσ k=2 A=80 B=120 P[A x B]=95.45%
Distribuição Normal 36 Se a média é µ=100 e o desvio padrão é σ =10, qual a probabilidade de uma ocorrência entre A e B A=µ - kσ, B= µ + kσ k=3 A=70 B=130 P[A x B]=99.73%
Distribuição Normal 37 Se a média é µ=100 e o desvio padrão é σ =10, qual a probabilidade de uma ocorrência entre A e B A=µ - kσ, B= µ + kσ k=4 A=60 B=140 P[A x B]=99.99%
Distribuição Normal 38 Se a média é µ=100 e o desvio padrão é σ =10, qual a probabilidade de uma ocorrência entre A e B A=µ - kσ, B= µ + kσ k=5 A=50 B=150 P[A x B]=99.9999%
Distribuição Normal 39 Caracteristicas A função densidade é simétrica em torno da média A média é também a moda e a mediana 68.26894921371% da área sob a curva está a 1 desvio padrão (DP) da média 95.44997361036% da área sob a curva está a 2 DP da média 99.73002039367% da área sob a curva está a 3 DP da média 99.99366575163% da área sob a curva está a 4 DP da média 99.99994266969% da área sob a curva está a 5 DP da média 99.99999980268% da área sob a curva está a 6 DP da média 99.99999999974% da área sob a curva está a 7 DP da média
40 Probabilidade e Estatística Amostragem e estimação de parâmetros Intervalo de confiança para média
População, Amostra e Estimador 41 Amostra é um subconjunto de uma população Exemplo: População: Todas as mulheres do Brasil Amostra: 1000 mulheres de 5 cidades diferentes Qual a altura média da mulher brasileira? Usamos a média da amostra para estimar a média da população Média da amostra = 168cm, desvio padrão = 4cm µ é a média da população (parâmetro estimado) χ é a média amostral (da amostra) e o estimador de µ
População, Amostra e Estimador 42 Qual a certeza de que a média da amostra estima bem a média da população? Não é possível ter um estimador perfeito a partir de uma amostra de tamanho finito O melhor que podemos fazer é obter limites probabilísticos, Ou seja, ao invés de dizermos: a média de altura da mulher brasileira é 168cm Dizemos: a média da mulher brasileira é algum valor entre 168-c e 168+c, com probabilidade p Quanto mais próximo de 1 for p, mais certeza haverá E c depende: De p: maior p maior c Do tamanho da amostra: poucas amostras maior c Da variabilidade observada na amostra: muita variabilidade maior c
Média Amostral Seja x i uma V.A. obtida de uma população que tem distribuição de probabilidade estacionária com média finita e variância 2 Seja x m a média amostral quando n observações independentes são feitas para x i (observe que x i também é uma V.R.), onde: n x m = 1/n x i i = 1
Intervalo de confiança 44 Intervalo de confiança é um intervalo que contém o parâmetro estimado com uma certa probabilidade Determina os limites probabilísticos: Probabilidade{ c1 µ c2 } = 1 α c1 = x c e c2 = x + c O intervalo (c1,c2) é o intervalo de confiança α é o nível de significância (menor é melhor) 100(1-α) é o nível de confiança (ex: 90%, 95%, 99%) p=(1-α) é a probabilidade de acerto do estimador Como calcular c?
Intervalo de Confiança Deseja-se encontrar um intervalo em torno de x m onde se pode afirmar que a média verdadeira se localiza com probabilidade 1- (chamada nível de confiança) Do Teorema do Limite Central, a distribuição de x m tende a uma distribuição normal com média e variância 2 ( 2 é a verdadeira variância da medida) Para se usar tabelas estatísticas padrões, considera-se a V.R. Z = (x m - ) / ( / n) que aproximadamente tem distribuição normal com média 0 e variância 1 (distribuição normal padrão)
46 Sem Intervalo de Confiança
47 Com Intervalo de Confiança
Distribuição t-student Na prática, 2 não é conhecida, sendo substituída por s 2 = 1/(n-1) (x i - x m ) 2 n i=1 Agora, a variável z não pode mais ser aproximada pela distribuição normal e sim pela distribuição t-student ou, simplesmente distribuição t, com (n-1) graus de liberdade
Nível de confiança Resumindo: para encontrar um intervalo em torno de x m (x m - w ; x m + w) onde se pode afirmar que a média verdadeira se localiza com probabilidade 1- (Nível de Confiança - NC) temos: W = t ( /2, n-1) * s 2 / n Onde: NC = (1- )% t ( /2, n-1) = valor da distribuição t (t-distribution), para NC (100- )%, com n-1 graus de liberdade
Nível de confiança Que nível de confiança usar? Quanta perda você pode suportar caso o parâmetro da população esteja fora do seu intervalo? Quanto ganho você teria se o parâmetro estivesse dentro do intervalo? Precisão: repetibilidade dos valores obtidos através das medições feitas Se medir várias vezes o mesmo fenômeno, quão dispersos são os resultados? Acurácia: é a diferença entre o valor medido e um valor de referência Quão perto do correto está a medição? Menor α => Maior IC => Maior confiança IC maior => Menor a precisão Existe mais incerteza sobre quem de fato é a média
Nível de confiança
Calculando o Intervalo de Confiança 52 Amostras=1000 Média=168 Desvio=4 Nível de confiança=95% α = 0.05 P=1- α = 0.95 Probabilidade{ 167.75 µ 168.25 } = 0.95 Ou a mulher brasileira tem entre 167.75 e 168.25 de altura com probabilidade de 95%
53 Com Intervalo de Confiança
Exemplo Um modelo de um canal de comunicação de uma RC foi simulado para se obter o tempo médio de transmissão de pacotes (microsegundos). Os valores encontrados em 10 simulações realizadas foram: 9,252; 9,273; 9,413; 9,198; 9,532 9,355; 9,155; 9,558; 9,310; 9,269 Deseja-se encontrar o tempo médio de transmissão dos pacotes e o intervalo de confiança para um nível de confiança igual a 95%.
Exemplo Temos: n = 10 NC = 95% = (100- )% => =0.05 Da distribuição t, para /2=0,025, com 9 graus de liberdade t ( /2, n-1) = t (0,025, 9) = 2,26 n x m = 1/n x i n i = 1 => x m =9,331 s 2 = 1/(n-1) (x i - x m ) 2 => s 2 = 0,018 i=1 Então: x m ± w = 9.331 ± 0.096 <= => 9,235 9,331 9,427 x m
Calculando o Intervalo de Confiança 57 é um valor tabelado, baseado na distribuição Normal Reduzida N(0,1) s é o desvio padrão da amostra n é o tamanho da amostra
58 Com Intervalo de Confiança
Tamanho da Amostra 59 Quantas observações são necessárias para obtermos uma precisão de r% com um nível de confiança de 100(1- α)%? O intervalo de confiança deve ficar entre Quantidade de repetições: