Intervalos de Confiança INTERVALOS DE CONFIANÇA.1 Conceitos básicos.1.1 Parâmetro e estatística Parâmetro é a descrição numérica de uma característica da população. Estatística é a descrição numérica de uma característica da amostra. Parâmetro Estatística Média populacional (µ ). Média amostral ( x ). Variância populacional (σ ). Variância amostral (s ). Desvio-padrão populacional (σ). Desvio-padrão amostral (s). Na Estatística Indutiva, fazemos afirmações sobre os parâmetros da população a partir de estatísticas obtidas de amostras da população. Em geral, os valores obtidos da média amostral e do desviopadrão amostral são diferentes dos valores da média populacional e do desvio-padrão populacional, respectivamente..1. Estimativa pontual e intervalar Estimativa pontual é a estimativa de um único valor para um parâmetro populacional. 6
ESTATÍSTICA INDUTIVA Estimativa Intervalar é um intervalo de valores para estimar um parâmetro populacional..1.3 Nível de confiança Nível de confiança é a probabilidade de que um intervalo estimado contenha o parâmetro populacional.. Intervalos de confiança para a média Considerando uma amostra casual simples com n elementos, dizemos que a média dos dados da amostra é uma estimativa da média da população. Para termos uma idéia mais precisa dessa estimativa, devemos encontrar um intervalo de confiança para a média...1 Intervalos de confiança para a média (n > 30) Para determinar um intervalo de confiança para a média populacional, devemos primeiramente estabelecer um nível de confiança. Para dado tamanho da amostra: 1 --Quanto maior o nível de confiança, maior será o intervalo. 0 --Quanto maior o intervalo, menor será a precisão da estimativa... Erro para a média Dado um nível de confiança, o erro (E) da estimativa é a maior distância possível entre a estimativa pontual e o valor do parâmetro a ser estimado. 7
Para calcularmos esse erro, usamos a fórmula: E = z. c σ n Z c : valor crítico. σ: desvio-padrão populacional. n: número de elementos da amostra. Encontramos o valor crítico na tabela de distribuição normal reduzida. Tabela 1. Distribuição Normal Reduzida. Nível de confiança 90% 9% 99% Z c 1,64 1,96,7 No caso em que n > 30, substituímos σ (desvio-padrão populacional) por s (desvio-padrão amostral). Um intervalo de confiança c para a média populacional µ é dado por: x - E < µ < x + E Nesse caso, dizemos que a probabilidade de que o intervalo de confiança contenha a média populacional µ é c. Leitura Complementar: Distribuição Normal: A distribuição normal é amplamente utilizada para modelar medidas biológicas, medidas de produtos fabricados em série, etc. Características da Distribuição Normal I. A variável aleatória pode assumir qualquer valor real. 8
ESTATÍSTICA INDUTIVA II. O gráfico é uma curva em forma de sino. A curva é simétrica em relação à média (µ ). σ µ = 0 σ = 1-3 - -1 µ 1 3 x III. A área sob a curva normal é igual a 1. Essa área corresponde à probabilidade de a variável aleatória assumir qualquer valor real. Teorema do Limite Central: Quando são retiradas amostras (com 30 ou mais elementos) de uma população qualquer, a distribuição amostral das médias das amostras terá uma distribuição aproximadamente normal, mesmo quando os dados da população não forem normalmente distribuídos. Devemos observar que, quanto maior o tamanho da amostra, melhor será a aproximação. Exemplo 1. Uma amostra aleatória de 40 elementos retirados de uma população aproximadamente normal forneceu média de x =1,4 e desvio-padrão s=,1. Construir um intervalo de confiança de 9% para a média dessa população. s Para encontrarmos o erro, utilizamos a fórmula: E = zc, pois n > 30 e σ s. n c= 9%, então Z c =1,96 (vide tabela anterior). n=40 s=,1 E = 196,,. 1 = 0, 67 40 9
O intervalo de confiança é dado por: x - E < µ < x + E 1,4-0,67 < µ < 1,4 + 0,67 11,78 < µ < 13,1. Portanto, com 9% de confiança, podemos dizer que a média populacional está entre 11,78 e 13,1...3 Intervalos de confiança para a média (n < 30) Quando desconhecemos o desvio-padrão da população e também não temos acesso a uma amostra com 30 ou mais elementos, construímos um intervalo de confiança para a média utilizando a distribuição t de Student. Leitura Complementar. Distribuição t de Student. As propriedades da curva t são: - A curva tem a forma de um sino. - A área total sob a curva é igual a 1. - A curva t é simétrica em torno da média. - A distribuição t é uma família de curvas; cada uma delas depende de um parâmetro denominado grau de liberdade. Quando usamos a distribuição t para estimar a média populacional, o número de graus de liberdade é igual ao tamanho da amostra menos 1 (g.l.=n-1). g1=6 g1=3 30
ESTATÍSTICA INDUTIVA A distribuição t é uma família de curvas. Cada uma delas depende de um parâmetro denominado grau de liberdade. Quando utilizamos a distribuição t para estimar a média populacional, o número do grau de liberdade é igual ao tamanho da amostra menos 1. (g.l.=n-1). s Para encontrarmos o erro, utilizamos a fórmula: E = tc, n onde o valor de t c é encontrado na tabela da distribuição t. Tabela. Distribuição t. Liberdade (n-1) c=90% c=9% c=99% 1 6,314 1,706 63,67,90 4,303 9,9 3,33 3,18,841 4,13,776 4,604,01,71 4,03 6 1,943,447 3,707 7 1,89,36 3,499 8 1,860,306 3,3 9 1,833,6 3,0 1,81,8 3,169 11 1,796,01 3,6 1 1,78,179 3,0 13 1,771,160 3,01 14 1,761,14,977 1 1,73,131,947 16 1,746,,91 17 1,740,1,898 18 1,734,1,878 19 1,79,093,861 0 1,7,086,84 1 1,71,080,831 1,717,074,819 3 1,714,069,807 31
4 1,711,064,797 1,708,060,787 6 1,706,06,779 7 1,703,0,771 8 1,701,048,763 9 1,699,04,76 1,64 1,960,76 O valor de t c é visualizado na intersecção da linha (que representa o grau de liberdade) e da coluna (que representa o valor de c). Veja, a seguir, o caso em que n= (g.l=-1=9) e c=90%. Liberdade (n-1) c=90% c=9% c=99% 1 6,314 1,706 63,67,90 4,303 9,9 3,33 3,18,841 4,13,776 4,604,01,71 4,03 6 1,943,447 3,707 7 1,89,36 3,499 8 1,860,306 3,3 9 1,833,6 3,0 1,81,8 3,169 Exemplo. Uma amostra de elementos, extraída de uma população com distribuição normal, forneceu média x =3,4 e desvio-padrão s=0,7. Construir um intervalo de confiança de 90% para a média dessa população. s Para encontrarmos o erro, utilizamos a fórmula: E = tc. n s=0,7 c=90% n= e grau de liberdade=-1=9. t c = 1,833 (veja a tabela a seguir). 3
ESTATÍSTICA INDUTIVA Liberdade (n-1) c=90% c=9% c=99% 6 1,943,447 3,707 7 1,89,36 3,499 8 1,860,306 3,3 9 1,833,6 3,0 1,81,8 3,169 E = 1833 0,,. 7 = 0,43 O intervalo de confiança é dado por: x - E < µ < x + E 3,4-0,43 < µ < 3,4 + 0,43 3,0 < µ < 3,88. Portanto, com 90% de confiança, podemos dizer que a média populacional está entre 3,0 e 3,88..3 Intervalos de confiança para a variância e desvio-padrão Muitas vezes, o pesquisador pode estar interessado em verificar a variabilidade de um determinado processo. Para essa necessidade, utiliza a distribuição (lê-se qui-quadrado). Leitura Complementar: Distribuição qui-quadrado: A distribuição qui-quadrado é uma família de curvas, cada uma das quais determinada pelo número de graus de liberdade. Quando usamos a distribuição para estimar a variância populacional, o número de graus de liberdade é igual ao tamanho da amostra menos 1 (g.l.= n-1). A área sob cada uma das curvas é igual a 1. c 1 33
Para encontrarmos um intervalo de confiança para a variância, devemos encontrar os valores de 1 tabela de distribuição qui-quadrado. e na 1 Calculamos 1 = c e, conforme o grau de liberdade, encontramos o valor de 1 na tabela. 1 Calculamos = + c e, conforme os graus de liberdade encontramos o valor de na tabela. Tabela 3. Distribuição (qui-quadrado). liberdade 0,99 0,97 0,90 0,0 0,0 0,00 1 0,001 0,004 3,841,04 7,879 0,0 0,01 0,3,991 7,378,97 3 0,07 0,16 0,3 7,81 9,348 1,838 4 0,07 0,484 0,711 9,488 11,143 14,860 0,41 0,831 1,14 11,071 1,833 16,70 6 0,676 1,37 1,63 1,9 14,449 18,48 7 0,989 1,690,167 14,067 16,013 0,78 8 1,344,180,733 1,07 17,3 1,9 9 1,73,700 3,3 16,919 19,03 3,89,16 3,47 3,940 18,307 0,483,188 11,603 3,816 4,7 19,67 1,90 6,77 1 3,074 4,404,6 1,06 3,337 8,99 13 3,6,009,89,36 4,736 9,819 14 4,07,69 6,71 3,68 6,119 31,139 1 4,601 6,6 7,61 4,996 7,488 3,801 16,14 6,908 7,96 6,96 8,84 34,67 17,697 7,64 8,67 7,87 30,191 3,718 18 6,6 8,31 9,390 8,869 31,6 37,16 19 6,844 8,907,117 30,144 3,8 38,8 0 7,434 9,91,81 31,4 34,170 39,997 34
ESTATÍSTICA INDUTIVA 1 8,034,83 11,91 3,671 3,479 41,401 8,643,98 1,338 33,94 36,781 4,796 3 9,6 11,689 13,091 3,17 38,076 44,181 4 9,886 1,401 13,848 36,41 39,364 4,9,0 13, 14,611 37,6 40,646 46,98 6 11,160 13,844 1,379 38,88 41,93 48,90 7 11,808 14,73 16,11 40,113 43,194 49,64 8 1,461 1,308 16,98 41,337 44,461 0,993 9 13,11 16,047 17,708 4,7 4,7,336 30 13,787 16,791 18,493 43,773 46,979 3,67 40 0,707 4,433 6,09,78 9,34 66,766 0 7,991 3,37 34,764 67,0 71,40 79,490 60 3,34 40,48 43,188 79,08 83,98 91,9 70 43,7 48,78 1,739 90,31 9,03 4,1 80 1,17 7,13 60,391 1,879 6,69 116,31 90 9,196 6,647 69,16 113,14 118,136 18,99 0 67.38 74, 77,99 14,34 19,61 140,169 Veja um exemplo para o cálculo de 1 e. Para um nível de confiança de 90% (c=90%) e amostra n=0, temos: = 1 c 1 0 90 =, = 0,0. 1 1 Grau de liberdade =n-1=0-1=19. Logo, o valor de 1 =30,144 liberdade 0,99 0,97 0,90 0,0 0,0 0,00 17,697 7,64 8,67 7,87 30,191 3,718 18 6,6 8,31 9,390 8,869 31,6 37,16 19 6,844 8,907,117 30,144 3,8 38,8 0 7,434 9,91,81 31,4 34,170 39,997 = 1 + c 1 0 90 = +, = 0,9. 3
Grau de liberdade =n-1=0-1=19. Logo o valor de =,117. liberdade 0,99 0,97 0,90 0,0 0,0 0,00 17,697 7,64 8,67 7,87 30,191 3,718 18 6,6 8,31 9,390 8,869 31,6 37,16 19 6,844 8,907,117 30,144 3,8 38,8 0 7,434 9,91,81 31,4 34,170 39,997 Após encontrarmos os valores de 1 e, utilizamos as fórmulas a seguir para determinarmos os intervalos. ( n 1). s ( n 1). s < σ < 1 (variância populacional). ( n 1). s ( n 1). s < σ < 1 (desvio-padrão populacional). Exemplo 3. Uma amostra de 1 elementos, extraída de uma população com distribuição normal, forneceu desvio-padrão de 0,89. Construir intervalos de confiança de 9% para a variância populacional e o desvio-padrão populacional. Para um nível de confiança de 9% (c=0,9) e amostra n=1, temos: = 1 c 1 0 9 =, = 0,0. 1 1 Grau de liberdade=n-1=1-1=14. Logo, o valor de 1 1 =6,119. liberdade 0,99 0,97 0,90 0,0 0,0 0,00 11,603 3,816 4,7 19,67 1,90 6,77 1 3,074 4,404,6 1,06 3,337 8,99 13 3,6,009,89,36 4,736 9,819 14 4,07,69 6,71 3,68 6,119 31,139 1 4,601 6,6 7,61 4,996 7,488 3,801 = 1 + c 1 0 9 = +, = 0,97. 36
ESTATÍSTICA INDUTIVA liberdade =n-1=1-1=14. Logo, o valor de =,69. liberdade 0,99 0,97 0,90 0,0 0,0 0,00 11,603 3,816 4,7 19,67 1,90 6,77 1 3,074 4,404,6 1,06 3,337 8,99 13 3,6,009,89,36 4,736 9,819 14 4,07,69 6,71 3,68 6,119 31,139 1 4,601 6,6 7,61 4,996 7,488 3,801 Para encontrarmos um intervalo de confiança para a variância, utilizamos a fórmula: ( n 1). s ( n 1). s < σ < 1 n=1 s=0,89, onde: 1 =6,119 e =,69. ( 1 1). 0, 89 6, 119 0, 4 < σ < 197,. ( 1 1). 0, 89 < σ <, 69 Portanto, com 9% de confiança, podemos dizer que a variância populacional está entre 0,4 e 1,97. Para encontrarmos um intervalo de confiança para o desvio-padrão populacional, utilizamos a fórmula: 1 ( n 1). s ( n 1). s < σ < 1 0, 4 < σ < 197, 0, 6 < σ < 140,. 37
Portanto, com 9% de confiança, podemos dizer que o desvio-padrão populacional está entre 0,6 e 1,40..4 Exercícios resolvidos 1. A altura dos alunos de uma academia apresenta uma distribuição aproximadamente normal. Para estimar a altura média dessa população, foi observada a altura de 30 alunos, obtendo-se x =17 cm e s=1 cm. Determine: a--um intervalo de confiança de 99% para a média populacional. b--um intervalo de confiança de 99% para a variância. 1 c--um intervalo de confiança de 99% para o desvio-padrão populacional. s a) Para encontrarmos o erro, utilizamos a fórmula: E = zc, pois n > 30 e σ s. n c= 99%, então Z C =,7 (vide tabela1). n=30 s=1 cm. E =, 7. 1 = 7, 0. 30 O intervalo de confiança é dado por: x - E < µ < x + E 0 17 7, 0 < µ < 17 + 7, 0 167, 9 < µ < 18, 0. Portanto, com 99% de confiança, podemos dizer que a média populacional está entre 167,9 cm e 18,0 cm. b) Para um nível de confiança de 99% (c=0,99) e amostra n=30, temos: = 1 c 1 0 99 =, = 0,00. 1 1 38
ESTATÍSTICA INDUTIVA Grau de liberdade=n-1=30-1=9. Logo, o valor de 1 =,336. liberdade 0,99 0,97 0,90 0,0 0,0 0,00 6 11,160 13,844 1,379 38,88 41,93 48,90 7 11,808 14,73 16,11 40,113 43,194 49,64 8 1,461 1,308 16,98 41,337 44,461 0,993 9 13,11 16,047 17,708 4,7 4,7,336 30 13,787 16,791 18,493 43,773 46,979 3,67 = 1 + c 1 0 99 = +, = 0,99. Grau de liberdade=n-1=30-1=9. Logo o valor de =13,11. liberdade 0,99 0,97 0,90 0,0 0,0 0,00 6 11,160 13,844 1,379 38,88 41,93 48,90 7 11,808 14,73 16,11 40,113 43,194 49,64 8 1,461 1,308 16,98 41,337 44,461 0,993 9 13,11 16,047 17,708 4,7 4,7,336 30 13,787 16,791 18,493 43,773 46,979 3,67 Para encontrarmos um intervalo de confiança para a variância, utilizamos a fórmula: ( n 1). s ( n 1). s < σ < n=30 s=1 1, onde: 1 =,336 e ( 30 1). 1, 336 =13,11. ( 30 1). 1 < σ < 13, 11 14, 68 < σ < 497, 9. 39
Portanto, com 99% de confiança, podemos dizer que a variância populacional está entre 14,68 cm e 497,9 cm. Para encontrarmos um intervalo de confiança para o desvio-padrão populacional, utilizamos a fórmula: ( n 1). s ( n 1). s < σ < 1 14, 68 < σ < 497, 9 1117, < σ <, 3 Portanto, com 99% de confiança, podemos dizer que o desvio-padrão populacional está entre 11,17 cm e,3 cm. 1 0. Os salários dos funcionários de uma fábrica de tecidos têm uma distribuição aproximadamente normal. Para estimar o salário médio desta população, foram observados os salários de 0 funcionários, obtendo-se x = 80 reais e s = reais. Determine: a--um intervalo de confiança de 9% para a média populacional. b--um intervalo de confiança de 9% para a variância. c--um intervalo de confiança de 9% para o desvio-padrão populacional. s a) Para encontrarmos o erro utilizamos a fórmula: E = tc. n s= reais c=9% n=0 e graus de liberdade=0-1=19. t C =,093 (veja a tabela a seguir). 40
ESTATÍSTICA INDUTIVA Liberdade (n-1) c=90% c=9% c=99% 17 1,740,1,898 18 1,734,1,878 19 1,79,093,861 0 1,7,086,84 E =, 093. = 6, 16 0 O intervalo de confiança é dado por: x - E < µ < x + E 80 6, 16 < µ < 80 + 6, 16 793, 84 < µ < 906, 16. Portanto, com 9% de confiança, podemos dizer que a média populacional dos salários está entre 793,84 reais e 906,16 reais. b) Para um nível de confiança de 9% (c=0,9) e amostra n=0, temos: = 1 c 1 0 9 =, = 0,0 1 1 Grau de liberdade=n-1=0-1=19. Logo, o valor de 1 =3,8. liberdade 0,99 0,97 0,90 0,0 0,0 0,00 16,14 6,908 7,96 6,96 8,84 34,67 17,697 7,64 8,67 7,87 30,191 3,718 18 6,6 8,31 9,390 8,869 31,6 37,16 19 6,844 8,907,117 30,144 3,8 38,8 0 7,434 9,91,81 31,4 34,170 39,997 = 1 + c 1 0 9 = +, = 0,97. 41
Grau de liberdade=n-1=30-1=9. Logo, o valor de =8,907. liberdade 0,99 0,97 0,90 0,0 0,0 0,00 16,14 6,908 7,96 6,96 8,84 34,67 17,697 7,64 8,67 7,87 30,191 3,718 18 6,6 8,31 9,390 8,869 31,6 37,16 19 6,844 8,907,117 30,144 3,8 38,8 0 7,434 9,91,81 31,4 34,170 39,997 Para encontrarmos um intervalo de confiança para a variância, utilizamos a fórmula: ( n 1). s ( n 1). s < σ < 1 n=0 s=, onde: 1 =3,8 e =8,907. ( 0 1). 3, 8 ( 0 1). < σ < 8, 907 8. 38, 6 < σ < 30. 717, 41. 1 Portanto, com 9% de confiança, podemos dizer que a variância populacional está entre 8.38,6 reais² e 30.717,41 reais². Para encontrarmos um intervalo de confiança para o desvio-padrão utilizamos a fórmula: ( n 1). s ( n 1). s < σ < 1 8. 38, 6 < σ < 30. 717, 41 916, < σ < 17, 6 4
ESTATÍSTICA INDUTIVA Portanto, com 9% de confiança, podemos dizer que o desvio-padrão populacional está entre 91,6 reais e 17,6 reais. 3. Em certo dia, numa maternidade foi feita uma pesquisa sobre altura em centímetros, em bebês recém-nascidos do sexo masculino. Os resultados estão listados a seguir. Altura, em cm, de recém-nascidos do sexo masculino na Maternidade A. 4 48 4 4 0 44 49 4 1 a--determine um intervalo de confiança de 90% para a média populacional. b--determine um intervalo de confiança de 90% para a variância populacional. c--determine um intervalo de confiança de 90% para o desvio-padrão populacional. a) Primeiramente, devemos calcular a média amostral e o desvio-padrão amostral utilizando as fórmulas: xi x = e n ( xi x) s =. n 1 Altura, em cm. (x i - x) 4 (4-48) = (-3) = 9 48 (48-48) = 0 = 0 4 (4-48) = (-6) = 36 4 (4-48) = (-3) = 9 0 (0-48) = = 4 44 (44-48) = (-4) = 16 49 (49-48) = 1 = 1 4 (4-48) = 6 = 36 1 (1-48) = 3 = 9 ( - 48) = 4 = 16 x i = 480 (x i - x) = 136 1 480 136 x = = 48 cm e s = = 3, 89 cm. 9 43
s Para encontrarmos o erro, utilizamos a fórmula: E = tc. n s=3,89 c=90% n= e grau de liberdade=-1=9. t C = 1,833 (veja a tabela abaixo). Liberdade (n-1) c=90% c=9% c=99% 6 1,943,447 3,707 7 1,89,36 3,499 8 1,860,306 3,3 9 1,833,6 3,0 1,81,8 3,169 E = 1833 3,,. 89 =,6 O intervalo de confiança é dado por: x - E < µ < x + E 48, 6 < µ < 48 +, 6 4, 74 < µ < 0, 6 Portanto, com 90% de confiança, podemos dizer que a média populacional está entre 4,74 e 0,6 cm. b) Para um nível de confiança de 90% (c=0,90) e amostra n=, temos: = 1 c 1 0 9 =, = 0,0. 1 1 1 Grau de liberdade=n-1=-1=9. Logo, o valor de 1 =16,919. liberdade 0,99 0,97 0,90 0,0 0,0 0,00 7 0,989 1,690,167 14,067 16,013 0,78 8 1,344,180,733 1,07 17,3 1,9 9 1,73,700 3,3 16,919 19,03 3,89,16 3,47 3,940 18,307 0,483,188 11,603 3,816 4,7 19,67 1,90 6,77 = 1 + c 1 0 90 = +, = 0,9. 44
ESTATÍSTICA INDUTIVA Grau de liberdade=n-1=-1=9. Logo, o valor de =3,3. liberdade 0,99 0,97 0,90 0,0 0,0 0,00 7 0,989 1,690,167 14,067 16,013 0,78 8 1,344,180,733 1,07 17,3 1,9 9 1,73,700 3,3 16,919 19,03 3,89,16 3,47 3,940 18,307 0,483,188 11,603 3,816 4,7 19,67 1,90 6,77 Para encontrarmos um intervalo de confiança para a variância, utilizamos a fórmula: ( n 1). s ( n 1). s < σ < 1 n= s=3,89 cm, onde: 1 =16,919 e =3,3. ( 1). 3, 89 16, 919 ( 1). 3, 89 < σ < 3, 3 9 1, 131 9 1 131 < <, σ 16, 919 3, 3 136, 1889 136, 1889 < σ < 16, 919 3, 3 8, 0 < σ < 40, 96 Portanto, com 90% de confiança, podemos dizer que a variância populacional está entre 8,0 e 40,96 (cm²). 4
c) Para o desvio-padrão populacional basta usar a fórmula: ( n 1). s ( n 1). s < σ < 1 8, 0 < σ < 40, 96, 84 < σ < 6, 40 Portanto, com 90% de confiança, podemos dizer que o desvio-padrão populacional está entre,84 e 6,40 cm. 3 TESTES DE HIPÓTESES Na grande maioria das vezes, o pesquisador tira conclusões para toda uma população, tendo observado apenas uma amostra. Este processo é denominado inferência. 1 Tomar decisões para uma população tendo como base apenas uma amostra pode ocasionar erros. Para atenuar esses erros, aplicamos testes de hipóteses. O teste de hipótese deve ser utilizado para tomar decisões sobre o valor de um parâmetro de uma população, tais como a média, a variância e o desvio-padrão. Em um teste de hipótese, existem duas hipóteses a serem analisadas: -Hipótese Nula (H 0 ): Hipótese a ser testada. 0 -Hipótese Alternativa (H a ): Hipótese a ser considerada como uma alternativa à hipótese nula. A aplicação de um teste de hipóteses pode levar a erros que podem ser classificados como: -Erro tipo I: Ocorre quando rejeitamos a hipótese nula e aceitamos a hipótese alternativa, porém a hipótese nula era a verdadeira. 46
ESTATÍSTICA INDUTIVA -Erro tipo II: Ocorre quando aceitamos a hipótese nula quando ela é falsa. Ao testar uma hipótese, a probabilidade máxima de ocorrer um erro do tipo I é chamada de nível de significância (). Usualmente utilizamos níveis de significância de %, % ou 1%. Existem diversos testes utilizados na Estatística Indutiva; fica a critério do pesquisador utilizar o mais apropriado para a situação. 3.1 Teste de Qui-Quadrado O teste de Qui-Quadrado ( ) verifica as hipóteses de Aderência e de Independência. 3.1.1 Teste de Qui-Quadrado ( ) Aderência Neste caso, o pesquisador verifica se os dados coletados experimentalmente, numa população, estão de acordo com os dados que seriam obtidos em uma determinada teoria. 1 Para a aplicação do teste de Qui-Quadrado ( ) de Aderência, seguimos os seguintes passos: 1. Estabelecemos um nível de significância.. Calculamos o valor do qui-quadrado, dado pela fórmula: n O i Ei c = ( ) i= 1 Ei 0 O i : representa as freqüências observadas e E i : representa as freqüências esperadas. 47
3. Comparamos o valor calculado de com o valor da tabela, ao nível de significância estabelecida e com n-1 graus de liberdade. Em geral, o teste de aderência indica: Se o valor de c calculado for maior que o t tabelado, a hipótese nula (H O ) é rejeitada. Se o valor de c calculado for menor que o t tabelado, a hipótese nula (H 0 ) não é rejeitada. Tabela 1. Tabela de Qui-quadrado. Liberdade 0, 0,0 0,01 1,706 3,841 6,63 4,60,991 9, 3 6,1 7,81 11,34 4 7,779 9,488 13,77 9,36 11,071 1,086 6,64 1,9 16,81 7 1,017 14,067 18,47 8 13,36 1,07 0,090 9 14,684 16,919 1,666 1,987 18,307 3,09 11 17,7 19,67 4,7 1 18,49 1,06 6,17 13 19,81,36 7,688 14 1,064 3,68 9,141 1,307 4,996 30,78 16 3,4 6,96 3,000 17 4,769 7,87 33,409 18,989 8,869 34,80 19 7,04 30,144 36,191 0 8,41 31,4 37,66 1 9,61 3,671 38,93 30,813 33,94 40,89 48
ESTATÍSTICA INDUTIVA 3 3,007 3,17 41,638 4 33,196 36,41 4,980 34,38 37,6 44,314 6 3,63 38,88 4,64 7 36,741 40,113 46,963 8 37,916 41,337 48,78 9 39,087 4,7 49,88 30 40,6 43,773 0,89 40 1,80,78 63,691 0 63,167 67,0 76,14 60 74,397 79,08 88,379 70 8,7 90,31 0,4 80 96,78 1,879 11,39 90 7,6 113,14 14,116 0 118,498 14,34 13,807 Veja o exemplo a seguir: Exemplo 1. Em um período de seis meses, uma empresa de autopeças teve 80 acidentes de trabalho. O responsável pelo setor de segurança do trabalho deseja verificar se o número de acidentes de trabalho muda conforme o dia da semana. O número de acidentes de trabalho para cada dia da semana está listado a seguir: Tabela. Número de acidentes por dia da semana. Dia da Semana Número de Acidentes Segunda 14 Terça 1 Quarta 17 Quinta 16 Sexta 18 Total: 80 Quais as conclusões que podem ser obtidas desses dados ao nível de significância =%? 49
Vamos, primeiramente, verificar as hipóteses a serem testadas. H 0 : O número de acidentes não muda conforme o dia da semana. H a : O número de acidentes muda conforme o dia da semana. O total de acidentes por semana é de 80, o valor esperado para cada dia da semana é: 80 = 16. Dia da Semana Número de Acidentes Observados (O i ). Número de Acidentes Esperados (E i ). Segunda 14 16 Terça 1 16 Quarta 17 16 Quinta 16 16 Sexta 18 16 Total: 80 80 O Cálculo do : i Ei c = ( ) E n i= 1 i Dia da Semana ( O E ) (O i ). (E i ). (O i - E i ) i i E i Segunda 14 16 (14-16) = 4 Terça 1 16 (1-16) = 1 Quarta 17 16 (17-16) = 1 Quinta 16 16 (16-16) = 0 Sexta 18 16 (18-16) = 4 4 = 0, 16 1 16 = 0,06 1 16 = 0,06 0 = 0 16 4 = 0, 16 n Oi Ei = i= 1 Ei ( ) = 0, 6 O valor de c é de 0,6. 0
ESTATÍSTICA INDUTIVA Para encontrar o valor de t utilizamos a tabela 1, com g.l=-1=4 com =%. t =9,488. Liberdade 0, 0,0 0,01 1,706 3,841 6,63 4,60,991 9, 3 6,1 7,81 11,34 4 7,779 9,488 13,77 9,36 11,071 1,086 6,64 1,9 16,81 7 1,017 14,067 18,47 Como c (0,6)< t (9,488), a hipótese nula não é rejeitada (ou seja, o número de acidentes não muda conforme o dia da semana). 3.1. Teste de Qui-Quadrado ( ) Independência Por meio do Teste de Qui-Quadrado, é possível verificar se existe dependência entre duas variáveis. O teste de independência é semelhante ao de aderência, porém no caso de independência são utilizadas tabelas de dupla entrada com a intenção de estudar a relação entre duas variáveis. 1 Quanto maior for o valor de c, maior a dependência entre as duas variáveis. O número de graus de liberdade para o teste de independência é calculado pelo produto entre o número de linhas (m) da tabela menos um e o número de colunas (n) menos um. 1
Grau de Liberdade=(m - 1) x (n - 1). Veja o exemplo a seguir: Exemplo. A tabela abaixo indica o número de telespectadores de emissoras de Televisão X e Y em cada um dos dois tipos de programação: Novela e Noticiário. Ao nível de % de significância, testar a independência entre a escolha da emissora pelos telespectadores e sua programação. Tabela 3. Programação por emissora. Programação: Novela Programação: Noticiário Totais Emissora X 4 46 Emissora Y 8 6 4 Totais 48 0 Vamos, primeiramente, verificar as hipóteses a serem testadas. H 0 : A escolha da emissora não depende da programação. H a : A escolha da emissora depende da programação. Pela tabela podemos verificar que de um total de 0 telespectadores, preferem novelas. Ou seja = 0, ou 0 1 % dos telespectadores preferem novela. Caso esta proporção seja mantida, seriam esperados 46x0,=3,9 telespectadores da Emissora X e 48x0,=4,96 telespectadores da Emissora Y.
ESTATÍSTICA INDUTIVA Podemos verificar os resultados a seguir: Resultado Observado Proporção (Tabela) Resultado Esperado 4 8 6 = 0, 0, x 46=3,9 0 = 0, 0, x 4=8,08 0 48 = 0, 48 0,48 x 46=,08 0 48 = 0, 48 0,48 x 4=,9 0 O Cálculo do i Ei c = ( ) : E n i= 1 i Resultado Observado (O i ) Resultado Esperado (E i ) ( O E ) (O i - E i ) i i E i 4 3,9 (4-3,9) = 0,08 = 0,0064 8 8,08 (8-8,08) = (-0,08 ) = 0,0064,08 ( -,08) = (-0,08 ) = 0,0064 6,9 (6 -,9) = 0,08 = 0,0064 0, 0064 = 0,0007 3, 9 0, 0064 = 0,0003 8, 08 0, 0064 = 0,0009, 08 0, 0064 = 0,000, 9 n = ( O i E i ) i= 1 Ei = 0,004 O valor de c é de 0,004. Para encontrarmos o valor de t utilizamos a tabela 1. Como o número de linhas da tabela é igual a e o número de colunas 3
da tabela é igual a, temos: grau de liberdade =(-1) x (-1)=1 com =%=0,0. t =3,841. Liberdade 0, 0,0 0,01 1,706 3,841 6,63 4,60,991 9, 3 6,1 7,81 11,34 4 7,779 9,488 13,77 9,36 11,071 1,086 6,64 1,9 16,81 7 1,017 14,067 18,47 Como c (0,004)< t (3,841) a hipótese nula não é rejeitada (ou seja a escolha da emissora não depende do programa). Exemplo. Os conceitos obtidos nas disciplinas Física e Matemática foram os seguintes, para um grupo de 00 estudantes do Ensino Médio. Tabela 4. Conceitos em Física e Matemática. Conceito em Matemática: A Conceito em Matemática: B Conceito em Matemática: C Conceito em Física: A Conceito em Física: B Conceito em Física: C Totais 4 70 14 138 46 160 34 40 1 3 7 1 Totais 11 6 00 Os conceitos em Matemática e Física são dependentes (usar = %)? 4
ESTATÍSTICA INDUTIVA Vamos, primeiramente, verificar as hipóteses a serem testadas. H 0 : Os conceitos em Matemática e Física não são dependentes. H a : Os conceitos em Matemática e Física são dependentes. Resultado Observado Proporção (Tabela) Resultado Esperado 4 70 14 46 160 34 1 3 7 11 = 0, 3 0,3 x 138=31,74 00 6 = 0, 3 0,3 x 138=73,14 00 = 0, 4 0,4 x 138=33,1 00 11 = 0, 3 0,3 x 40=,0 00 6 = 0, 3 0,3 x 40=17,0 00 = 0, 4 0,4 x 40=7,60 00 11 = 0, 3 0,3 x 1=8,06 00 6 = 0, 3 0,3 x 1=64,66 00 6 = 0, 4 0,4 x 1=9,8 00
Cálculo do O i Ei c = ( ) : E n i= 1 i Resultado Observado (O i ) Resultado Esperado (E i ) ( Oi Ei) E i 4 31,74 70 73,14 14 33,1 46,0 160 17,0 34 7,60 1 8,06 3 64,66 7 9,8 ( 4 3174, ) 3174, ( 70 73, 14) 7314, ( 14 33, 1) 331, ( 46, 0), 0 ( 160 17, 0) 17, 0 ( 34 7, 60) 7, 60 ( 1 8, 06) 8, 06 ( 3 64, 66) 64, 66 ( 7 9, 8) 9, 8, 6 49, 076 = = = 1, 611 3174, 3174, ( 314, ) 9, 896 = = = 0, 1348 7314, 7314, ( 19, 1) 36, 744 = = = 11, 0379 331, 331, ( 9, ) 84, 64 = = = 1333,, 0, 0 3, 8 7, 84 = = = 8, 479 17, 0 17, 0 ( 3, 6) 6, 96 = = = 9, 6694 7, 60 7, 60 ( 13, 06) 170, 636 = = = 6, 078 8, 06 8, 06 ( 9, 66) 879, 716 = = = 13, 603 64, 66 64, 66 4, 7 184, 9984 = = = 6, 39 9, 8 9, 8 n = ( O i E i ) i= 1 Ei = 18,478 O valor de c é de 18,478. Para encontrarmos o valor de t utilizamos a tabela 1. Como o número de linhas da tabela é igual a 3 e o número de colunas 6
ESTATÍSTICA INDUTIVA da tabela é igual a 3, temos: grau de liberdade =(3-1) x (3-1)=4 com =%=0,. t =7,779. Liberdade 0, 0,0 0,01 1,706 3,841 6,63 4,60,991 9, 3 6,1 7,81 11,34 4 7,779 9,488 13,77 9,36 11,071 1,086 6,64 1,9 16,81 7 1,017 14,067 18,47 Como c (18,478)> t (7,779) a hipótese nula é rejeitada (ou seja, os conceitos são dependentes). 3. Exercícios resolvidos 1. Em 30 lançamentos de uma moeda, foram observados os seguintes resultados: caras e 0 coroas. Teste com nível de significância = % se a moeda é considerada honesta. Neste exemplo, devemos lembrar que no lançamento de uma moeda a probabilidade de sair cara é de 0% e a probabilidade de sair coroa é de 0%. Em 30 lançamentos, temos: 0% de 30 = 1 caras e 1 coroas (esses são os dados esperados para que uma moeda seja considerada honesta). Resultado Observado Resultado Esperado caras 0% de 30=1 0 coroas 0% de 30=1 7
O Para calcular o valor de i Ei c = ( ), utilizaremos a i= 1 E tabela a seguir: i n ( O E ) (O i ) (E i ) (O i - E i ) i i E i 1 ( - 1) = (-) = 0 1 ( - 1) = = 1 =1,67 1 =1,67 n = ( O i E i ) i= 1 Ei = 3,34 O valor de c é de 3,34. Para encontrarmos o valor de t, utilizamos a tabela 1. Como o número de linhas da tabela é igual a, temos grau de liberdade = -1=1 com =%=0,. t =,706. Liberdade 0, 0,0 0,01 1,706 3,841 6,63 4,60,991 9, 3 6,1 7,81 11,34 4 7,779 9,488 13,77 Como c (3,34)> t (,706), a hipótese nula é rejeitada (ou seja, a moeda não pode ser considerada honesta para o nível de significância de %). 1. Em 60 lançamentos de uma moeda, foram observados os seguintes resultados: 3 caras e 8 coroas. Teste com nível de significância =% se a moeda é considerada honesta. Neste exemplo, devemos lembrar que no lançamento de uma moeda a probabilidade de sair cara é de 0% e a probabilidade de sair coroa é de 0%. 8
ESTATÍSTICA INDUTIVA Em 60 lançamentos temos: 0% de 60 = 30 caras e 30 coroas (esses são os dados esperados para que uma moeda seja considerada honesta). Resultado Observado Resultado Esperado 3 caras 0% de 60=30 8 coroas 0% de 60=30 O Para calcular o valor de i Ei c = ( ), utilizaremos a tabela a seguir: i= 1 Ei n ( O E ) (O i ) (E i ) (O i - E i ) i i E i 3 30 (3-30) = = 4 8 30 (8-30) = (-) = 4 4 30 = 0,13 4 30 = 0,13 n = ( O i E i ) i= 1 Ei = 0,6 O valor de c é de 0,6. Para encontrarmos o valor de t, utilizamos a tabela 1. Como o número de linhas da tabela é igual a, temos graus de liberdade = -1=1 com =%=0,0. t =3,841. Liberdade 0, 0,0 0,01 1,706 3,841 6,63 4,60,991 9, 3 6,1 7,81 11,34 4 7,779 9,488 13,77 Como c (0,6)< t (3,841), a hipótese nula não é rejeitada (ou seja, a moeda pode ser considerada honesta para o nível de significância de %). 9
3. Em uma academia foi feita uma pesquisa com pessoas sobre o tipo de esporte praticado. Os resultados obtidos estão listados a seguir. Tabela. Esporte praticado Musculação Hidroginástica Totais Sexo masculino 3 3 8 Sexo feminino 1 47 6 Totais 0 70 Testar se o esporte praticado depende do sexo do entrevistado, usando = %. Vamos, primeiramente, verificar as hipóteses a serem testadas. H 0 : A escolha do esporte praticado não dependente do sexo. H a : A escolha do esporte praticado dependente do sexo. Resultado Observado Proporção (Tabela) Resultado Esperado 3 3 1 47 0 = 0,4 0,4 x 8 = 4,36 70 = 0,8 0,8 x 8 = 33,64 0 = 0,4 0,4 x 6 = 6,04 70 = 0,8 0,8 x 6 = 3,96 60
ESTATÍSTICA INDUTIVA n Cálculo do = ( O i E i ) E : i= 1 i ( O E ) (O i ) (E i ) (O i - E i ) i i E i 3 4,36 (3-4,36) =,64 =113,096 3 33,64 (3-33,64) = (-,64) =113,096 1 6,04 (1-6,04) = (-11,04) =11,8816 47 3,96 (47-3,96) = (-11,04) =11,8816 113, 096 = 4,6474 4, 36 113, 096 = 3,363 33, 64 118816, = 4,6806 6, 04 118816, = 3,3894 3, 96 n = ( O i E i ) i= 1 Ei = 16,087 O valor de c é de 16,087 Para encontrarmos o valor de t, utilizamos a tabela 1. Como o número de linhas da tabela é igual a e o número de colunas da tabela é igual a, temos: graus de liberdade = (-1) x (-1) =1 com = % = 0,0. t = 3,841. Liberdade 0, 0,0 0,01 1,706 3,841 6,63 4,60,991 9, 3 6,1 7,81 11,34 4 7,779 9,488 13,77 Como c (16,087)> t (3,841), a hipótese nula é rejeitada (ou seja, a escolha do esporte dependente do sexo). 61
4. Estão sendo estudados os defeitos em peças fabricadas pela Empresa x. Há 3 tipos de defeitos: A, B e C. A empresa trabalha em turnos: diurno e noturno. Para essa finalidade foi recolhida uma amostra com 80 peças defeituosas, e os resultados obtidos estão descritos a seguir: Tabela 6. Quantidade de defeitos por tipo e turno. Defeito tipo A Defeito tipo B Defeito tipo C Totais Turno Diurno 6 3 44 Turno Noturno 0 38 40 98 Totais 46 70 84 00 Teste a independência entre o número de defeitos e o turno trabalhado. Use = 1%. Vamos, primeiramente, verificar as hipóteses a serem testadas. H 0 : O número de defeitos não depende do turno de trabalho. H a : O número de defeitos depende do turno de trabalho. Resultado Observado Proporção (Tabela) Resultado Esperado 6 3 44 0 38 40 46 = 0,3 0,3 x =3,46 00 70 = 0,3 0,3 x =3,70 00 84 = 0,4 0,4 x =4,84 00 46 = 0,3 0,3 x 98=,4 00 70 = 0,3 0,3 x 98=34,30 00 84 = 0,4 0,4 x 98=41,16 00 6
ESTATÍSTICA INDUTIVA O Cálculo do i Ei c = ( ) : E n i= 1 i ( O E ) (O i ) (E i ) (O i - E i ) i i E i 6 3,46 ( 6 3, 46) =, 4 = 6, 416 3 3,70 ( 3 3, 70) = ( 3, 7) = 13, 69 44 4,84 ( 44 4, 84) = 116, = 1346, 0,4 ( 0, 4) = (, 4) = 6, 416 38 34,30 ( 38 34, 30) = 3, 7 = 13, 69 40 41,16 ( 40 4116, ) = ( 116, ) = 1346, 6, 416 = 0,70 3, 46 13, 69 = 0,383 3, 70 1346, = 0,0314 4, 84 6, 416 = 0,86, 4 13, 69 = 0,3991 34, 30 1346, = 0,037 4116, n = ( O i E i ) i= 1 Ei = 1,4079 O valor de c é de 1,4079. Para encontrarmos o valor de t utilizamos a tabela 1. Como o número de linhas da tabela é igual a e o número de colunas da tabela é igual a 3, temos: grau de liberdade = (-1) x (3-1) = com =1%=0,01. t = 9,. Liberdade 0, 0,0 0,01 1,706 3,841 6,63 4,60,991 9, 3 6,1 7,81 11,34 4 7,779 9,488 13,77 Como c (1,4079)< t (9,), a hipótese nula não é rejeitada (ou seja, o número de defeitos não depende do turno. 63
Referências Bibliográficas LARSON e FARBER. Estatística Aplicada. São Paulo: Prentice Hall, 004. LEVIN, J. e FOX, J.A. Estatística para ciências humanas. São Paulo: Prentice Hall, 004. MOORE, D. A Estatística Básica e sua prática. Rio de Janeiro: LTC, 000. NEUFELD, J. L. Estatística aplicada à Administração usando excel. São Paulo: Pearson Prentice Hall, 003. PEREIRA, P. H. Noções de Estatística. São Paulo: Papirus, 004. SPIEGEL, M. R. Estatística. São Paulo: Makron Books, 1993. VIEIRA, S. Introdução à Bioestatística. Rio de Janeiro: Campus, 1980. 64