ActivALEA ative e atualize a sua literacia N.º 29 O QUE É UMA SONDAGEM? COMO É TRANSMIITIIDO O RESULTADO DE UMA SONDAGEM? O QUE É UM IINTERVALO DE CONFIIANÇA? Por: Maria Eugéia Graça Martis Departameto de Estatística e Ivestigação Operacioal da FCUL memartis@fc.ul.pt IINTRODUÇÃO O objetivo de uma sodagem é o de recolher iformação acerca de uma população, selecioado e observado um cojuto de elemetos dessa população. SONDAGEM Estudo estatístico de uma população, feito através de uma amostra, destiado a estudar uma ou mais características tais como elas se apresetam essa população 1. Cosidere-se a população costituída por todos os poteciais eleitores para as próximas eleições legislativas. De um modo geral e com alguma atecedêcia relativamete à data das eleições, os partidos políticos pretedem obter uma estimativa de como se fará a distribuição de votos ou obter outras características desta população. O tempo, custos e outros icoveietes impedem os partidos de fazer a perguta a todos os elemetos da população, pelo que a iformação pretedida será obtida iquirido apeas uma parte do cojuto de todos os eleitores (amostra), mas com o objetivo de tirar coclusões para o cojuto todo (população). Às características uméricas da população para a qual se pretede obter iformação damos o ome de parâmetros. Assim, relativamete à população costituída pelos 1 Por vezes, cofude-se sodagem com amostragem. No etato, a amostragem diz respeito ao procedimeto da recolha da amostra qualquer que seja o estudo estatístico que se preteda fazer, pelo que a amostragem é uma das fases das sodages, já que estas devem icluir aida o estudo dos dados recolhidos, assim como a elaboração do relatório. 1/8
poteciais eleitores das legislativas, algus parâmetros que pode ter iteresse cohecer são: Idade média dos poteciais eleitores; Percetagem de eleitores que estão decididos a votar; Percetagem de eleitores que estão decididos a votar em cada partido; Etc. Os parâmetros são estimados por estatísticas, úmeros que se calculam a partir dos valores obtidos como resultado da observação da variável de iteresse os elemetos selecioados para a amostra (vamos também desigar por amostra o cojuto destas observações ou dados). Como, de um modo geral, podemos obter muitas amostras diferetes, embora da mesma dimesão, teremos muitas estimativas do(s) parâmetro(s) em estudo. Tatas as amostras diferetes que se puderem selecioar da população (2 amostras da mesma dimesão serão diferetes, se diferirem pelo meos um dos elemetos selecioados), tatas as estimativas, evetualmete diferetes, que se podem calcular para o parâmetro. Podemos cosiderar que todas estas estimativas são os valores observados de uma fução dos elemetos da amostra a que se dá o ome de estimador. Assim: Um parâmetro é uma característica umérica da população, equato a estatística é uma característica umérica da amostra. Um estimador é uma fução dos elemetos da amostra, que se utiliza para estimar parâmetros. Ao valor do estimador calculado para uma determiada amostra, dá-se o ome de estimativa (ou estatística). IINTERVALO DE CONFIANÇA PARA O VALOR MÉDIO OU MÉDIA POPULACIONAL Admitamos que o parâmetro a estudar é a média (populacioal) das idades de todos os poteciais eleitores. Para obter uma estimativa deste valor, recolhe-se uma amostra de poteciais eleitores, regista-se a idade de cada um e calcula-se a média das idades obtidas. Por exemplo, supoha-se que se recolheu uma amostra de 15 eleitores e os dados obtidos (registos das idades dos 15 eleitores) foram 54 29 92 33 81 57 41 60 20 42 37 36 57 26 72 A média da amostra aterior é 49,1 aos, de modo que este valor é uma estimativa para o valor médio ou média (populacioal) das idades de toda a população. Será que os podemos dar por satisfeitos? De maeira ehuma! Se recolhermos várias amostras da mesma dimesão, o resultado obtido pode ser diferete de amostra para amostra, isto é, as várias médias calculadas, uma para cada uma das amostras, serão evetualmete diferetes. Por exemplo, supohamos que se recolheram 10 amostras de dimesão 15, tedose registado as seguites idades: 2/8
Amostras 1 2 3 4 5 6 7 8 9 10 54 54 64 87 58 64 26 75 50 70 80 29 52 70 48 32 67 80 68 68 32 92 50 69 51 18 40 40 33 49 47 33 71 49 35 25 42 54 35 66 62 81 50 64 58 79 87 48 61 57 42 57 54 32 55 37 38 81 57 47 83 41 32 84 77 41 78 57 46 34 54 60 73 22 58 41 79 46 54 55 39 20 47 71 36 44 63 59 83 49 49 42 42 67 71 39 74 36 53 26 36 37 49 48 70 76 73 43 51 58 39 36 57 51 56 60 20 59 31 43 80 57 44 60 47 90 21 74 78 95 89 26 29 86 61 24 50 84 48 68 83 72 26 55 70 78 21 42 62 54 Para cada uma das amostras ateriores calculou-se a média, tedo-se obtido os valores registados o seguite gráfico de potos: Obtivemos 10 estimativas variado etre 49,1 e 61,0. Qual destas estimativas é a melhor? Qual é a que está mais perto da média das idades de todos os eleitores? Não sabemos, em temos processo de saber, já que a média das idades de todos os eleitores é descohecida e por isso é que estamos a estimá-la! Não desaimemos! Vamos tetar resolver a situação, abordado o problema de outra forma. Mas, primeiro, vejamos o que acotece se aumetar a dimesão das amostras recolhidas. Em vez de amostras de dimesão 15, vamos cosiderar, por exemplo, amostras de dimesão 100. Cosiderámos, etão, 10 amostras de dimesão 100 e calculámos as médias, cujos valores são apresetados o gráfico seguite: Qual a difereça etre os dois gráficos? As estimativas obtidas com amostras de maior dimesão estão mais perto umas das outras, variam etre 52,2 e 58,4 e assim esperamos que estejam mais perto do valor do parâmetro (descohecido!). Nesta altura é ecessário fazer uma chamada de ateção muito importate: estamos a partir do pricípio de que as amostras foram bem selecioadas 2 e são represetativas da população de ode foram recolhidas. Ao estimar o parâmetro valor médio ou média (populacioal) das idades de todos os poteciais eleitores, estamos a utilizar o estimador Média (amostral). Mesmo que as diferetes amostras teham a mesma dimesão, as estimativas forecidas por este estimador são diferetes de amostra para amostra; cosiderámos 10 amostras e obtivemos 10 valores para o estimador, ou seja, 10 estimativas. Assim, a questão para a qual gostaríamos de ter resposta, é a seguite: 2 Cosultar explicação mais detalhada sobre seleção de amostras o Curso de Itrodução à Iferêcia Estatística do ALEA http:///html/statofic/html/dossier/doc/modulo1-it_amostragemfial.pdf 3/8
Como se comportam, relativamete ao parâmetro em estudo, todas as estimativas forecidas por um dado estimador, para todas as amostras possíveis, de uma determiada dimesão? Ou seja, como é que se distribuem todos os valores obtidos pelo estimador para todas as amostras possíveis? Ou, o caso que estamos a tratar, qual a distribuição de amostragem 3 do estimador Média, que represetaremos, daqui em diate, por X? A resposta à perguta aterior é crucial, como veremos mais à frete. Para já, podemos adiatar que ormalmete ão se cohece a forma da distribuição de amostragem exata da Média X, mas sabe-se que 4 : Resultado 1 Se a população tiver dimesão grade, valor médio e desvio padrão, etão, para amostras de dimesão, o valor médio (média de todas as estimativas forecidas pelo estimador, para todas as amostras possíveis) do estimador X é também e o seu desvio padrão é σ. E quato à forma da distribuição? Temos o seguite resultado, que é de grade relevâcia, a medida em que os vai resolver o problema da estimação que estamos a tratar: Resultado 2 Quado se faz amostragem sem reposição e as populações têm dimesão razoavelmete grade ou o caso de a amostragem ser com reposição, as populações terem qualquer dimesão e as amostras têm dimesão grade (é usual cosiderar maior ou igual a 30), a distribuição de amostragem do estimador Média X pode ser aproximada pela distribuição Normal, idepedetemete da distribuição dos valores da variável sobre os elemetos da população de ode se selecioam as amostras (ou seja, idepedetemete da distribuição da população subjacete). Este resultado é uma cosequêcia de um dos teoremas mais importates da Probabilidade, o Teorema Limite Cetral, que legitima a grade utilização do modelo Normal ou Gaussiao 5. Repare-se que os resultados 1 e 2 permitem cocluir que as estimativas forecidas pelo estimador Média se distribuem de forma aproximadamete simétrica em toro do parâmetro valor médio ( ) que se está a estimar e que, quato maior for a dimesão das amostras cosideradas, meor será a variabilidade ( σ/ ) com que esses valores se distribuem em toro do parâmetro. 3 À distribuição de um estimador dá-se o ome de distribuição de amostragem. 4 Ver http:///html/statofic/html/dossier/doc/modulo2-it_estimacaofial.pdf, págia 39 e seguites. 5 Ver http:///html/statofic/html/dossier/doc/modulo2-it_estimacaofial.pdf, págia 40 e seguites. 4/8
O comportameto da distribuição de amostragem da Média X tem cosequêcias muito importates o que diz respeito à estimação do parâmetro valor médio ou média populacioal, pelo que vamos aproveitá-lo para ecarar este problema (o da estimação do parâmetro) de um outro âgulo. Em vez de procurarmos um valor (estimativa potual) como aproximação do valor do parâmetro descohecido, este caso a média da população, vamos procurar obter um itervalo (estimativa itervalar ou itervalo de cofiaça) que, com uma determiada cofiaça, coteha o valor desse parâmetro! 6 Vamos etão procurar um itervalo aleatório [A, B] que, com uma grade probabilidade, por exemplo, 95%, coteha o parâmetro : P([A, B] coter ) = 95% Ora, é precisamete a costrução destes itervalos de cofiaça que vamos aproveitar o facto de a distribuição de amostragem da Média X poder ser aproximada pelo modelo Normal, com valor médio igual ao valor médio (parâmetro que estamos a estimar) da População e desvio padrão igual a /, ode é o desvio padrão da população. Como o desvio padrão da População é quase sempre descohecido, vamos estimá-lo pelo desvio padrão amostral s, de modo que um valor aproximado para o desvio padrão do estimador X, também cohecido como erro padrão, é s/. Etão, tedo em cosideração as propriedades da distribuição Normal, podemos escrever: X -μ P(-1,96 1,96) 0,95 (1) s/ O valor 1,96 pode ser obtido cosultado uma tabela, a calculadora ou a folha de Excel. De (1) vem ou P( -1,96 s/ X +1,96 s/ ) 0,95 P( X -1,96 s/ X +1,96 s/ ) 0,95 6 Ver http:///html/statofic/html/dossier/doc/modulo3-it_ifereciaestatisticafial.pdf 5/8
Etão a expressão de um itervalo de cofiaça com uma cofiaça de 95% é dada pelo itervalo [ x -1,96 x s/ ; x +1,96 x s/ ] ode x e s são, respetivamete, a média e o desvio padrão de uma amostra de dimesão, recolhida para estimar. A metade da amplitude do itervalo de cofiaça atribui-se a desigação margem de erro. Afial, o que sigifica um itervalo de 95% de cofiaça? Sigifica que, se recolhermos muitas amostras de dimesão, calcularmos as médias e os desvios padrões dessas amostras e costruirmos os itervalos de cofiaça respetivos, utilizado a expressão aterior, cerca de 95% desses itervalos coterão o valor médio, equato os restates 5% ão o coterão. Não temos a certeza de que um dado itervalo, em particular, coteha o parâmetro descohecido, mas estamos cofiates de que assim acoteça, isto é, estamos 95% cofiates que o itervalo que calculámos a partir da amostra selecioada (a prática, só selecioámos uma amostra) coteha o valor do parâmetro. E se pretedermos um itervalo de 90% de cofiaça? Ou de 99%? A forma geral do itervalo de cofiaça é [ x -z x s/ ; x +z x s/ ] ode o valor de z depede da cofiaça com que se quer costruir o itervalo. Algus valores (obtidos a partir da distribuição da Normal (0,1)) são Cofiaça z 90% 1,645 95% 1,960 97,5% 2,326 99% 2,576 99,5% 3,090 Caso prático Como proceder, etão, para obter um itervalo de cofiaça, com uma cofiaça de 95% para a idade média dos poteciais eleitores? Passo 1 - Recolher uma amostra da população dos poteciais eleitores. Repare-se que da expressão do itervalo de cofiaça se coclui que, quato maior for a dimesão da amostra, melhor será a amplitude do itervalo (quato meor for a amplitude, melhor!). Recolhemos uma amostra de dimesão 40, que apresetamos a seguir: 24 65 33 25 79 73 52 63 18 46 28 97 53 87 26 78 89 62 45 30 57 82 66 52 19 41 75 58 55 42 51 18 43 82 46 36 57 59 93 65 6/8
Passo 2 Calcular a média e o desvio padrão da amostra selecioada. Para a amostra aterior, temos x = 54,25 e s=21,99 Passo 3 Obter os limites do itervalo de cofiaça [47,4; 61,1] Passo 4 Cocluir, dizedo que um itervalo de 95% de cofiaça para a média das idades da população em estudo é [47,4 aos; 61,1 aos] ou que uma estimativa para a idade média é 54,25 aos, com uma margem de erro de 6,82 aos e uma cofiaça de 95%. IINTERVALO DE CONFIANÇA PARA A PROPORÇÃO POPULACIONAL Supohamos agora que o que se pretedia era estimar a proporção (ou percetagem) de eleitores que pesam votar o partido SOL (fictício). Sedo agora o parâmetro em estudo a proporção populacioal, será atural estimar o valor deste parâmetro através da proporção (amostral) de eleitores que, uma amostra recolhida da população de eleitores, pesam votar o partido SOL. Cosideremos etão a população de poteciais eleitores e seja p a proporção (descohecida) de eleitores que pesam votar o partido Sol. Repare-se que a proporção p ão é mais do que uma média (populacioal) de 0 s e 1 s, em que atribuímos o valor 1 a um elemeto da população que perteça à categoria em estudo (o que, este caso, sigifica votar o partido SOL) e o valor 0 a um elemeto que ão perteça a essa categoria. Assim, como a proporção p é o valor médio de uma população cujos elemetos são 0 s e 1 s, o estudo ateriormete feito para a estimação do valor médio será facilmete adaptado para a estimação da proporção. Para esta população tão particular, costituída por 0 s e 1 s, em que a proporção populacioal é a média populacioal, a Proporção amostral também será a Média (amostral), que será, assim, o estimador ituitivo para a proporção populacioal. Assim, ão temos mais do que trasportar para o estudo da proporção os resultados obtidos quado se cosiderou o estimador Média. Temos etão uma população costituída por 0 s e 1 s em que a proporção de 1 s é p e a proporção de 0 s é (1-p): Classe Freq. relativa 0 (1-p) 1 p Total 1 É imediato que o valor médio e a variâcia (populacioal) desta população são, respetivamete: =p (=0 x (1-p)+1 x p) e 2 = (=(0-p) 2 x (1-p)+(1-p) 2 x p) Represetado o estimador da proporção p por p e adaptado os resultados obtidos para o estimador Média X, temos o seguite resultado. 7/8
Resultado Supohamos que se selecioa uma amostra aleatória simples de uma População de dimesão grade, ou que se selecioa uma amostra aleatória, com reposição de uma população de dimesão qualquer, em que a característica em estudo está presete uma proporção p (descohecida). Etão, se a dimesão da amostra for suficietemete grade (um valor que é usual cosiderar como suficietemete grade é 30), a distribuição de amostragem da Proporção amostral p pode ser aproximada pela distribuição Normal com valor médio p e desvio padrão. Assim, a expressão de um itervalo de 95% de cofiaça para a proporção p tem a seguite forma: [p -1,96 ; p +1,96 ] Como p é descohecido, é substituído por uma sua estimativa p, pelo que a forma de um itervalo de cofiaça para a proporção tem o seguite aspeto: [p -1,96 ; p +1,96 ] Caso prático Como proceder, etão, para obter um itervalo de cofiaça, com uma cofiaça de 95%, para a proporção dos eleitores que pesam votar o partido SOL? Passo 1 - Recolher uma amostra da população dos poteciais eleitores. Decidimos recolher uma amostra de dimesão 50 e os dados obtidos foram os seguites, (represetou-se por 1 uma resposta de um eleitor que pesa votar o SOL): 0 0 0 0 0 1 0 0 0 0 0 1 0 1 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 1 0 0 0 0 1 0 1 1 1 0 1 0 1 1 0 0 1 1 0 Passo 2 Calcular a proporção (amostral) de eleitores que pesam votar o SOL (frequêcia relativa de 1 s. Para a amostra aterior, temos p =0,28 Passo 3 - Obter os limites do itervalo de cofiaça para a proporção p [0,156; 0,404] Passo 4 - Cocluir, dizedo que um itervalo de 95% de cofiaça para a proporção de eleitores da população em estudo, que pesam votar o partido Sol, é [15,6%; 40,4%], ou etão dizer que uma estimativa para a proporção de eleitores que pesam votar o SOL é de 28%, com uma margem de erro de 12,4% e uma cofiaça de 95%. Nota É possível obter um itervalo de cofiaça com uma determiada cofiaça e com uma margem de erro iferior a determiado valor d, fixado ates da recolha da amostra. Neste caso, a dimesão da amostra ecessária ficará codicioada por esta escolha (Cosultar o Curso de Itrodução à Iferêcia Estatística do ALEA, http:///html/statofic/html/dossier/doc/modulo3-it_ifereciaestatisticafial.pdf, págia 75). 8/8