Planejamento e Otimização de Experimentos Um Pouco de Estatística Prof. Dr. Anselmo E de Oliveira anselmo.quimica.ufg.br anselmo.disciplinas@gmail.com
Populações, Amostras e Distribuições População Amostra aleatória representativa Distribuições Normal t de Student F 2 Não paramétricas
Populações, Amostras e Distribuições Com quantos grãos se faz uma feijoada? depende do tamanho da feijoada receita: 1 kg de feijão Quantos grãos existem em 1 kg de feijão?
Populações, Amostras e Distribuições contar todos os caroços abordagem estatística descobrir o peso de um caroço e dividir 1.000 g por esse valor caroços/kg caroços/kg os pesos dos caroços não são idênticos os pesos dos caroços variam de modo imprevisível
Populações, Amostras e Distribuições deve haver limite para as massas dos caroços 0 g < m c < 1 kg m c não deve flutuar muito População - conjunto de todos os valores possíveis - conjunto dos pesos individuais de todos os caroços do pacote
Populações, Amostras e Distribuições Obter uma estimativa a partir de uma amostra da população Amostra representativa aleatória
Populações, Amostras e Distribuições Como deve ser feita a amostragem em um saco de feijão? a chance de um caroço de feijão ser pesado deve ser exatamente a mesma para todos os caroços pesar e colocar novamente no saco a hipótese da aleatoriedade deve ser obedecida
Histograma Pesos de 140 caroços extraídos aleatoriamente de um pacote de 1 kg de feijão preto (em gramas) flutuação restrita maior = 0,3043 g menor = 0,1188 g maioria 0,20 g
Populações, Amostras e Distribuições Ocorrência número de caroços em um dado intervalo Frequência/Frequência Relativa número de caroços em um dado intervalo dividido pelo número total de caroços.
8,6% dos pesos medidos estão entre 0,18 e 0,19 g
Histograma de frequência peso x frequência facilidade da representação gráfica concentração em torno de 0,20 g diminuição progressiva quando se afasta de 0,20 g simetria na distribuição.
Populações, Amostras e Distribuições Média Amostral x = 1 N N i x i Desvio d i = x i x = 0,2024 g essa média calculada está em concordância com o histograma dos pesos Variância Amostral V x = 1 N 1 N i d i 2 = 0,0132 g 2 Desvio Padrão Amostral s x = V x = 0,0363 g
Populações, Amostras e Distribuições Exemplo x = 0,2024 g s x = 0,0363 g Um desvio padrão 0,2024 ± 0,0363 g [0,1661 g, 0,2387 g] Dois desvios padrão 0,2024 ± 0,0726 g [0,1298 g, 0,2750 g] 66 % da área total do histograma 96,8 % da área total do histograma
Populações, Amostras e Distribuições 66% da área 96,8% da área
Populações, Amostras e Distribuições Estimativas Amostrais x e s Parâmetros Populacionais e Modelo Estatístico Distribuição Normal, ou Gaussiana
Distribuição Normal
Distribuição Normal
Freqüência Distribuição Normal: sempre? Medidas de condutividade realizadas em um poço d água em um ano Condutividade (S/cm) 14 12 10 8 6 4 2 0 Histograma 10 33 56 79 101 124 Mais Bloco 9,43 Bloco Freqüência 49,00 10 1 116,80 33 4 111,80 56 1 28,40 79 0 120,40 101 0 116,80 124 12 111,80 28,40 120,40 116,80 111,80 28,40 120,40 116,80 111,80 28,40 114,20 média 86,77 desv pad 42,91
Freqüência Distribuição Log-Normal A sample of data from a log-normal distribution 914.9 1568.3 50.5 94.1 199.5 23.8 70.5 213.1 44.1 331.7 139.3 115.6 38.4 357.1 725.9 253.2 905.6 155.4 138.1 95.2 75.2 275.0 401.1 653.8 390.8 483.5 62.6 128.5 81.5 218.5 308.2 41.2 60.3 506.9 221.8 112.5 93.7 199.3 210.6 39.2 30 25 20 15 Média = 275.0 10 5 0 244.8 465.8 686.8 907.8 1128.8 1349.8 1570.8 Mais
Freqüência Distribuição Log-Normal 10 9 8 7 Média = 2.2267 6 5 4 3 2 1 0
Probabilidade de Ocorrência Distribuição normal da variável aleatória x N μ, σ 2 z N 0,1 p a < x < b = p a x b = a b f x dx a b
Probabilidade de Ocorrência
Probabilidade de Ocorrência
Probabilidade de Ocorrência Qual a probabilidade de ocorrência de um evento em um dado intervalo? Se uma amostra se distribui normalmente, pode-se utilizar a Distribuição Normal para fazer inferências exemplo da feijoada: área total do histograma área total para variável aleatória 66,6% 68,3% 96,8% 95,4% 100% 99,7% boa concordância
Probabilidade de Ocorrência Na prática, não é necessário calcular uma integral faz-se uma padronização da variável aleatória x, de média e variância 2, 2 x N z N0,1 z x z representa o afastamento de x em relação à média populacional,, medido em desvios padrão,
Probabilidade de Ocorrência Exemplo Padronizar os resultados de uma análise laboratorial calculando, por exemplo, uma concentração ou qualquer outra propriedade que esteja sendo avaliada, cujo resultado esteja 2,5 desvios padrão acima da média z x x z z 2, 5 x 2, 5
Probabilidade de Ocorrência P(1-q), q = confiança P() = 0,05 ou 5% P(0,05) q = 0,95 = 95 % P(0,05) representa uma confiança de 95 % 1 em 20 P < 0,05 q incerteza e vice-versa P(0,05) representa uma confiança menor (incerteza maior) que P(0,01)
Probabilidade de Ocorrência z = 1,96 P(0,025) fração da área total sob a curva que está localizada à direita de z = 1,96 como a curva é simétrica, essa área é idêntica à esquerda de z = 1,96 a soma das duas caudas representa 5% da área total os 95% restantes estão entre [1,96; 1,96]
Probabilidade de Ocorrência Considere um população com média 0,2024 e desvio 0,0363. Qual a probabilidade de encontrar valores entre 0,18 e 0,25? x 1 = 0,18 x 2 = 0,25 P x x 1 x 2 z1 z2 P P z z 1 z 2 0,62 z 1,31 z = x μ σ z 1 = 0,18 0,2024 0,0363 z 2 = 0,25 0,2024 0,0363 z1 0,62 z 2 1,31
Probabilidade de Ocorrência Área Correspondente a P(-0,62 < z < 1,31) -0,62 1,31
Probabilidade de Ocorrência A probabilidade de ocorrência do evento será, então, toda a área da curva (100%) menos a área hachuriada 1,0 P(0,62 < z < 1,31) -0,62 1,31
1,0 P 0,62 z 1,31 1,0 0, 2676 0, 0951 0,6373 Conclusão: 63,73% dos valores devem estar entre 0,18 e 0,25 standard normal distribution
Amostragem Aleatória Desvio Padrão da Média Limite de Confiança, Distribuição Normal Distribuição t de Student λ = t ν s N graus de liberdade (df) = N 1
Amostragem Aleatória Intervalo de Confiança para a média Distribuição Normal Distribuição t de Student x t ν sn < μ < x + t ν s N
Amostragem Aleatória Quando o número de graus de liberdade do desvio padrão é maior do que 30, utiliza-se a distribuição Normal.
Amostragem Aleatória Tomando como base o peso de um caroço, escolhido aleatoriamente, m c = 0,1188 g, e usando a distribuição normal N = 1 x = 0,1188 p(0,05) z = 1,96 supondo = 0,0363 g (valor amostral, s, 140 caroços) intervalo de confiança para a média populacional a partir de uma observação
Amostragem Aleatória Intervalo de confiança para a média populacional a partir da distribuição normal Com quantos grãos se faz uma feijoada? N = 140 s = 0,0363 z = 1,96, com 95% de confiança = 0,2024 g Logo, com 95% de confiança, nossa feijoada deve conter entre 4.798 e 5.092 caroços
Amostragem Aleatória Usando a distribuição t x t ν sn < μ < x + t ν s N Com quantos grãos se faz uma feijoada? N = 10 s = 0,0423 t ν =?, com 95% de confiança = 0,1887 g
Amostragem Aleatória t 9 = 2,262 P(0,025) como a curva é simétrica: P(20,025) = P(0,05) ou 95% de confiança
Amostragem Aleatória Usando a distribuição t x t ν sn < μ < x + t ν s N Com quantos grãos se faz uma feijoada? N = 10 caroços s = 0,0423 g t 9 = 2,262 (95% de confiança) = 0,1887 g Logo, com 95% de confiança, nossa feijoada deve conter entre 4.566 e 6.313 caroços
Amostragem Aleatória Comparação entre a distribuição normal e a distribuição t, com 95% de confiança Distribuição Normal (N = 140) 0,1964 g < μ < 0,2084 g 4.798 < n c < 5.052 Distribuição t de Student, com 9 graus de liberdade 0,1584 g < μ < 0,2190 g 4.566 < n c < 6.313 obs: o intervalo de confiança varia conforme o inverso de N
Apresentação dos resultados μ = x ± λ 95% λ = t ν s N intervalo de confiança pode ser usado como teste para avaliação de erro sistemático
Teste com Intervalo de confiança A escala de absorvância de um espectrofotômetro é testada em um comprimento de onda particular com uma solução padrão, que tem uma absorvância de 0,470. 10 medidas da absorvância com um espectrofotômetro fornecem um valor médio de 0,461, e um desvio padrão de 0,003. Encontre o intervalo de confiança para a absorvância média medida pelo espectrofotômetro, e então decida se há erro sistemático presente. μ = x ± λ μ = x ± t ν s N?
Uma cauda 1-0,05 = 95% 1-0,025 = 97,5% Intervalo de Confiança Duas caudas 1 2*0,05 = 90% 1 2*0,025 = 95% confiança
Teste com Intervalo de confiança μ = x ± t ν s N x = 0,461 s = 0,003 t 9 = 2,262 N = 10 μ = 0,461 ± 2,262 0,003 μ = 0,461 ± 0,002 10 Como o intervalo de confiança não inclui a absorvância conhecida de 0,470, tudo indica que há um erro sistemático
Tamanho da Amostra Tamanho da Amostra Distribuição Normal μ ± z σ N Distribuição t de Student precisão L x ± t ν s N
Tamanho da Amostra N z L 2 Distribuição Normal N > t νs L 2 Distribuição t de Student Uma precisão de 0,1%, significa L = 0,1%
Tamanho da Amostra Após 20 titulações o desvio padrão obtido foi 0,1509%. Qual o número mínimo de titulações para estimar a concentração média, dentro de uma precisão de 0,1%? N t νs L 2
Pontos de probabilidade da distribuição t com graus de liberdade
Tamanho da Amostra 10 titulações são necessárias para estimar a concentração, com 95% de confiança
Tamanho da Amostra As estimativas também podem ser feitas a partir de uma série histórica Calcule N para = 0,5% L = 0,2% z(95%) = 1,96 N zσ L 2 1,96 0,5 0,2 2 24 O INMETRO exige, no mínimo, 07 medidas para um padrão
Testes de Significância Comparando com um valor de referência Teor de ácido acético no vinagre deve ser de 4% Procedimento: titulação com base Três titulações resultaram em 3,91; 4,01 e 3,61% x =? s =?
Testes de Significância Média e Desvio padrão (N=3) x = 3,843% s = 0,2082% Intervalo de confiança (distribuição t de Student) x t ν sn < μ < x + t s ν N t = t 3-1 = t 2 = 4,30 com 95% de confiança, ou p(0,05) 0,2082 3,843 4,30 3,843 3 4,30 0,2082 3 3,32% 4,36% O intervalo de confiança contém o valor de referência (4%) O lote está dentro da especificação
Testes de Significância Mais cinco titulações x = 3,818% s = 0,1286% t = t 8-1 = t 7 = 2,365 com 95% de confiança, ou p(0,05) 3,71% 3,93% O intervalo de confiança não contém o valor de referência, 4 % O lote está fora da especificação Logo, existe evidência, com 95% de confiança, que o teor médio de ácido acético no lote de vinagre é inferior a 4%
Testes de Significância Comparando Dois Tratamentos Comparando Duas Médias Comparações Emparelhadas Comparando Duas Variâncias
Testes de Significância Comparando Duas Médias Hipótese Nula μ A = μ B μ A μ B = 0 Verificar se o intervalo de confiança contém o zero Médias para os métodos A e B, de acordo com a distribuição t de Student μ A = xa ± t νa s A N A μ B = x B ± t νb s B N B
Testes de Significância μ A μ B = xa x B ± t ν s 1 N A + 1 N B s 2 N A 1s A NB 1 N 1 N 1 A B s 2 B nesse caso, admite-se que s A 2 e s B 2 são estimativas da mesma variância populacional ν = ν A + ν B = N A 1 + N B 1 = N A + N B 2
Testes de Significância Dois métodos para a determinação de boro em plantas apresentam os seguintes resultados, após 10 determinações de cada método: Espectrofotométrico média = 28,0 g/g; desvio padrão = 0,3 g/g Flurimétrico média = 26,25 g/g; desvio padrão = 0,23 g/g Esses dois métodos apresentam médias que diferem significativamente?
Testes de Significância s 2 0,3 2 NE 1s E NF 1 N 1 N 1 E F s 2 F 2 0,23 x E xf E F 28,0 t s 1 N E 1 N 26,25 10 F = 2 x (N-1) = 2 x (10-1) = 18 t 18 =? P(0.05) t 18 = 2.101 P 0.05
Testes de Significância Intervalo para as diferenças das médias, com 95 % de confiança Como o intervalo de confiança não inclui o zero, as duas médias diferem significativamente.
Testes de Significância Quando a suposição que os desvios padrão são iguais não é válida 1 1 2 2 2 2 2 2 2 B B B A A A B B A A N N s N N s N s N s e deve ser arredondado ao número inteiro mais próximo.
Testes de Significância Comparações Emparelhadas Amostra 1: Técnico A, N ensaios Amostra 2: Técnico B, N ensaios Hipótese Nula: 1 = 2 Pergunta: Existe diferença sistemática entre os dois técnicos? (diferença na maneira de se realizar a análise química)
Testes de Significância Desvio μ A μ B = d ± t ν s d N d i x Ai x Bi Desvio Padrão s 1 N 1 N 2 d d i i Média dos Desvios d 1 N N i d i Se não existe diferença analítica entre o técnico A e o técnico B, a hipótese nula é verdadeira.
Testes de Significância Teste t pareado μ A μ B = d ± t ν s d N μ A μ B = 0.159 ± 2.262 0.57 = 0.159 ± 0.408 10 d i = 1.48; 0.66; 0.24; 0.21; 0.10; 0.61; 0.10; 0.09; 0.07; 0.21 d = 0.159 s d = 0.57 t 9 =? P(0.05) Como o intervalo de confiança inclui o zero, as duas médias não diferem significativamente. t 9 = 2.262 P 0.05
Testes de Significância Comparando Duas Variâncias Método A Método B Pergunta: Existe diferença significativa entre os dois métodos? (um dos métodos é mais preciso que o outro)
Testes de Significância Hipótese Nula: s 2 2 A s B Teste F F = s A 2 s B 2
Testes de Significância Uma ou Duas Caudas? Teste com duas caudas diferenças entre médias em ambas direções diferença entre um valor experimental e um valor de referência independentemente do sinal da diferença Teste com uma cauda um resultado é maior (ou menor) que o outro
Ficamos por aqui