Coleção UAB UFSCar Sistemas de Informação Benedito Galvão Benze Estatística aplicada a sistemas de informações
Estatística aplicada a sistemas de informações
Reitor Targino de Araújo Filho Vice-Reitor Pedro Manoel Galetti Junior Pró-Reitora de Graduação Emília Freitas de Lima Secretária de Educação a Distância - SEaD Aline Maria de Medeiros Rodrigues Reali Coordenação UAB-UFSCar Claudia Raimundo Reyes Daniel Mill Denise Abreu-e-Lima Joice Otsuka Sandra Abib Valéria Sperduti Lima Coordenadora do Curso de Sistemas de Informação Vânia Neris Conselho Editorial José Eduardo dos Santos José Renato Coury Nivaldo Nale Paulo Reali Nunes Oswaldo Mário Serra Truzzi (Presidente) Secretária Executiva Fernanda do Nascimento UAB-UFSCar Universidade Federal de São Carlos Rodovia Washington Luís, km 235 13565-905 - São Carlos, SP, Brasil Telefax (16) 3351-8420 www.uab.ufscar.br uab@ufscar.br EdUFSCar Universidade Federal de São Carlos Rodovia Washington Luís, km 235 13565-905 - São Carlos, SP, Brasil Telefax (16) 3351-8137 www.editora.ufscar.br edufscar@ufscar.br
Benedito Galvão Benze Estatística aplicada a sistemas de informações
2009, Benedito Galvão Benze Concepção Pedagógica Daniel Mill Supervisão Douglas Henrique Perez Pino Equipe de Revisão Linguística Ana Luiza Menezes Baldin Clarissa Neves Conti Francimeire Leme Coelho Jorge Ialanji Filholini Letícia Moreira Clares Luciana Rugoni Sousa Paula Sayuri Yanagiwara Sara Naime Vidal Vital Equipe de Editoração Eletrônica Christhiano Henrique Menezes de Ávila Peres Izis Cavalcanti Rodrigo Rosalis da Silva Equipe de Ilustração Jorge Luís Alves de Oliveira Lígia Borba Cerqueira de Oliveira Priscila Martins de Alexandre Capa e Projeto Gráfico Luís Gustavo Sousa Sguissardi Ficha catalográfica elaborada pelo DePT da Biblioteca Comunitária da UFSCar B479e Benze, Benedito Galvão. Estatística aplicada a sistemas de informações / Benedito Galvão Benze. -- São Carlos : EdUFSCar, 2009. 232 p. -- (Coleção UAB-UFSCar). ISBN 978-85-7600-169-0 1. Estatística matemática. 2. Pesquisa - planejamento. 3. Amostragem (Estatística). 4. Teoria das probabilidades. 5. Análise exploratória de dados. I. Título. CDD 519.5 (20 a ) CDU 519.7 Todos os direitos reservados. Nenhuma parte desta obra pode ser reproduzida ou transmitida por qualquer forma e/ou quaisquer meios (eletrônicos ou mecânicos, incluindo fotocópia e gravação) ou arquivada em qualquer sistema de banco de dados sem permissão escrita do titular do direito autoral.
........... SUMÁRIO APRESENTAÇÃO.... 15 UNIDADE 1: A estatística como metodologia científica 1.1 Primeiras palavras... 19 1.2 Problematizando o tema... 19 1.3 Texto básico para estudo.... 19 1.3.1 Tipos de estudos.... 20 1.3.2 Os objetivos, as variáveis e os dados.... 23 1.3.3 População e amostra... 23 1.3.4 Escalas de medida, tipos de variáveis e a variação aleatória.... 25 1.3.5 Os instrumentos de coleta de dados... 28 1.4 Considerações finais... 29 1.5 Atividades de aplicação e prática.... 29 1.5.1 Atividades individuais... 30 1.5.2 Atividades coletivas... 30 1.6 Estudos complementares... 30 1.6.1 Saiba mais.... 30 1.6.2 Referências.... 31 UNIDADE 2: Alguns procedimentos amostrais básicos 2.1 Primeiras palavras... 35
2.2 Problematizando o tema... 35 2.3 Texto básico para estudo.... 35 2.3.1 Sistema de referência e mecanismos de sorteio da amostra.... 36 2.3.2 Principais procedimentos amostrais probabilísticos.... 36 2.3.2.1 Amostra aleatória simples... 37 2.3.2.2 Amostra sistemática aleatória... 39 2.3.2.3 Amostra aleatória estratificada.... 41 2.3.2.4 Amostra aleatória por conglomerados... 44 2.3.3 Considerações adicionais.... 45 2.4 Considerações finais... 46 2.5 Atividades de aplicação e prática.... 46 2.5.1 Atividades individuais... 46 2.5.2 Atividades coletivas... 46 2.6 Estudos complementares... 46 2.6.1 Saiba mais.... 47 2.6.2 Referências.... 47 UNIDADE 3: Representação gráfica de dados 3.1 Primeiras palavras... 51 3.2 Problematizando o tema... 51 3.3 Elaboração de planilhas de dados.... 51 3.3.1 Tabelas-resumo.... 53 3.3.1.1 Distribuições de frequências para dados contínuos............56 3.3.2 Técnicas gráficas de análise descritiva... 58
3.3.2.1 O gráfico de barras... 59 3.3.2.2 O diagrama circular.... 59 3.3.2.3 O esquema de ramos e folhas.... 61 3.3.2.4 O diagrama de pontos (ou de dispersão)... 62 3.3.2.5 O histograma.... 63 3.3.2.6 O gráfico de tendência.... 64 3.4 Considerações finais... 65 3.5 Atividades de aplicação e prática.... 65 3.5.1 Atividades individuais... 66 3.5.2 Atividades coletivas... 66 3.6 Estudos complementares... 66 3.6.1 Saiba mais.... 66 3.6.2 Referências.... 66 UNIDADE 4: Análise estatística unidimensional 4.1 Primeiras palavras... 71 4.2 Problematizando o tema.... 71 4.3 Texto básico para estudo.... 71 4.3.1 As medidas de centralidade (ou de posição).... 71 4.3.2 As medidas de variabilidade (ou de dispersão).... 76 4.3.2.1 A variância.... 77 4.3.2.2 O desvio padrão.... 78 4.3.2.3 Reescrevendo as expressões da média e da variância.... 79 4.3.3 Medida da assimetria de uma distribuição... 79 4.3.4 Escores padronizados... 80 4.3.5 O coeficiente de variação... 82 4.3.6 As separatrizes... 84
4.3.6.1 Os quartis.... 84 4.3.6.2 Outras separatrizes.... 85 4.3.7 O desenho esquemático (box-plot)... 86 4.4 Considerações finais... 90 4.5 Atividades de aplicação e prática.... 90 4.5.1 Atividades individuais... 90 4.5.2 Atividades coletivas... 90 4.6 Estudos complementares... 90 4.6.1 Saiba mais.... 91 4.6.2 Referências.... 91 UNIDADE 5: Análise bidimensional conjunta 5.1 Primeiras palavras... 95 5.2 Problematizando o tema.... 95 5.3 Texto básico para estudo.... 95 5.3.1 Dependência entre duas variáveis quantitativas... 96 5.3.2 Duas variáveis qualitativas... 100 5.3.3 Distribuição conjunta de frequências relativas ou proporções... 101 5.3.4 Não associação entre duas variáveis qualitativas... 103 5.4 Considerações finais... 106 5.5 Atividades de aplicação e prática.... 106 5.5.1 Atividades individuais... 106 5.5.2 Atividades coletivas... 106 5.6 Estudos complementares... 106
5.6.1 Saiba mais.... 106 5.6.2 Referências.... 107 UNIDADE 6: Introdução à Teoria de Probabilidades 6.1 Primeiras palavras... 111 6.2 Problematizando o tema... 111 6.3 Texto básico para estudo.... 111 6.3.1 Definições de probabilidade... 112 6.3.1.1 Definição clássica de probabilidade.... 112 6.3.1.2 Definição geométrica de probabilidade.... 113 6.3.1.3 Definição frequentista de probabilidade... 115 6.3.2 Teoria axiomática de probabilidade.... 116 6.3.2.1 O espaço amostral.... 117 6.3.2.2 Os eventos aleatórios... 119 6.3.2.3 Outros eventos complexos... 123 6.3.2.4 Leis de Morgan.... 123 6.3.3 Definição axiomática de Kolmogorov... 124 6.3.4 Consequências da definição axiomática... 126 6.3.5 Probabilidade condicional... 130 6.3.6 Regra do produto... 133 6.3.7 Regras da probabilidade total e de Bayes.... 136 6.3.7.1 Regra da probabilidade total.... 136 6.3.7.2 Regra de Bayes.... 137 6.3.8 Independência de dois eventos... 138 6.3.8.1 Independência aos pares e independência coletiva... 140 6.4 Considerações finais... 143 6.5 Atividades de aplicação e prática.... 143
6.5.1 Atividades individuais.... 143 6.5.2 Atividades coletivas.... 143 6.6 Estudos complementares... 143 6.6.1 Saiba mais.... 143 6.6.2 Referências.... 144 UNIDADE 7: Variáveis aleatórias discretas 7.1 Primeiras palavras... 147 7.2 Problematizando o tema... 147 7.3 Texto básico para estudo.... 147 7.3.1 Variáveis aleatórias.... 147 7.3.2 Técnicas de contagem... 149 7.3.2.1 O princípio da multiplicação... 149 7.3.2.2 O número de permutações... 151 7.3.2.3 O número de arranjos de n elementos tomados k a k.... 152 7.3.2.4 O número de combinações de n elementos tomados k a k.... 153 7.3.3 Distribuição de probabilidades de uma variável aleatória discreta.... 153 7.3.4 Determinação de probabilidades em intervalos.... 157 7.3.5 Independência entre variáveis aleatórias.... 159 7.3.6 Esperança e variância de variáveis aleatórias discretas.... 160 7.3.6.1 A esperança de variáveis aleatórias discretas... 160 7.3.6.2 A variância de variáveis aleatórias discretas... 161 7.3.7 Algumas distribuições discretas básicas.... 166 7.3.7.1 Distribuição de Bernoulli.... 166 7.3.7.2 Distribuição binomial... 167 7.3.7.3 Distribuição de Poisson.... 170 7.4 Considerações finais... 173
7.5 Atividades de aplicação e prática.... 173 7.5.1 Atividades individuais... 173 7.5.2 Atividades coletivas... 174 7.6 Estudos complementares... 174 7.6.1 Saiba mais.... 174 7.6.2 Referências.... 174 UNIDADE 8: Variáveis aleatórias contínuas 8.1 Primeiras palavras... 177 8.2 Problematizando o tema... 177 8.3 Texto básico para estudo.... 177 8.3.1 Distribuição de probabilidades de uma v.a. contínua.... 177 8.3.1.1 Função densidade de probabilidade.... 177 8.3.1.2 Função distribuição acumulada de uma v.a. contínua.... 179 8.3.2 Determinação de probabilidades em intervalos... 180 8.3.3 A distribuição uniforme... 181 8.3.4 Independência entre variáveis aleatórias contínuas.... 181 8.3.5 Esperança e variância de variáveis aleatórias contínuas.... 183 8.3.5.1 A esperança de variáveis aleatórias contínuas.... 183 8.3.5.2 A variância de variáveis aleatórias contínuas.... 183 8.3.6 Relação entre a distribuição exponencial e a de Poisson.... 185 8.3.7 A distribuição normal... 186 8.3.7.1 Cálculo de probabilidades na distribuição normal.... 188 8.3.7.2 Aproximação da distribuição binomial pela normal.... 191 8.3.8 Outras distribuições contínuas importantes.... 192 8.3.8.1 A distribuição gama e relacionadas.... 192
8.4 Considerações finais... 193 8.5 Atividades de aplicação e prática.... 193 8.5.1 Atividades individuais... 193 8.5.2 Atividades coletivas... 193 8.6 Estudos complementares... 193 8.6.1 Saiba mais.... 193 8.6.2 Referências.... 194 UNIDADE 9: Intervalos de confiança 9.1 Primeiras palavras... 197 9.2 Problematizando o tema... 197 9.3 Texto básico para estudo.... 197 9.3.1 Intervalos de confiança para a média populacional.... 197 9.3.2 Intervalos de confiança para a proporção populacional.... 204 9.4 Considerações finais... 206 9.5 Atividades de aplicação e prática.... 206 9.5.1 Atividades individuais... 206 9.5.2 Atividades coletivas... 207 9.6 Estudos complementares... 207 9.6.1 Saiba mais.... 207 9.6.2 Referências.... 207
UNIDADE 10: Noções gerais sobre testes de hipóteses 10.1 Primeiras palavras.... 211 10.2 Problematizando o tema.... 211 10.3 Texto básico para estudo... 211 10.3.1 O raciocínio básico de um teste de hipóteses.... 211 10.3.2 Testes unilaterais.... 216 10.3.3 Testes bilaterais... 217 10.3.4 O poder de um teste.... 217 10.3.5 Alguns testes de hipóteses específicos... 218 10.3.5.1 Comparação das médias de dois grupos dependentes... 218 10.3.5.2 Comparação das médias de dois grupos independentes.... 221 10.3.5.3 Comparação de duas proporções em amostras independentes.... 224 10.3.6 Intervalos de confiança para diferenças de parâmetros.... 226 10.3.7 Análise de variância.... 227 10.3.8 Outras aplicações dos testes de hipóteses.... 227 10.4 Considerações finais.... 228 10.5 Atividades de aplicação e prática... 228 10.5.1 Atividades individuais... 228 10.5.2 Atividades coletivas.... 228 10.6 Estudos complementares.... 228 10.6.1 Saiba mais.... 229 10.6.2 Referências... 229
Apresentação Com este texto você se iniciará nos chamados métodos estatísticos. Eles são essenciais para qualquer área, como a de Sistemas de Informação, em que o conhecimento é adquirido e o processo de tomada de decisões é realizado com base em alguma informação. Um aspecto importante é o planejamento das pesquisas, antes da coleta de dados. Isso pode evitar ou minimizar erros que, de alguma forma, venham a comprometer os resultados deste processo. Também, os métodos de resumo da informação facilitam a sua análise e agilizam a tomada de decisões. Com o desenvolvimento do raciocínio probabilístico, você, em sua atual ou futura profissão, poderá melhorar a qualidade do seu trabalho considerando em suas inferências a atuação da variabilidade dos dados. Não se pode ignorar que, dependendo da quantidade de dados, a maioria dos procedimentos requer algum cálculo, que realizado manualmente pode desestimular o iniciante na aplicação da Estatística em suas atividades. Felizmente, isso pode ser contornado pelo uso de sistemas e procedimentos computacionais, cada vez mais acessíveis. 15
Unidade 1 A estatística como metodologia científica
1.1 Primeiras palavras Nesta unidade é ressaltada a importância da Estatística como metodologia científica e como ferramenta útil para a aquisição do conhecimento na área de Sistemas de Informação e outras. Como toda área de conhecimento, a Estatística também tem a sua terminologia própria, que começa a ser introduzida aqui. 1.2 Problematizando o tema É muito comum pensar-se em Estatística somente como a elaboração de tabelas e gráficos, pois esta é a imagem que os meios de comunicação passam no dia a dia. Por outro lado, imagina-se a Estatística só como um ramo da Matemática e não como uma ciência em si. Além de contribuir para o desenvolvimento das chamadas ciências empíricas, em que o conhecimento é obtido com base em dados, a Estatística possui a sua própria metodologia, que continua se desenvolvendo aceleradamente nos últimos anos. 1.3 Texto básico para estudo A Estatística pode ser definida como a disciplina em que são abordados os métodos relacionados ao planejamento, à coleta, à análise e à interpretação de dados informativos. É até possível realizar e interpretar algumas pesquisas na área de Sistemas de Informação sem apelar para recursos estatísticos mais sofisticados, a não ser a construção de determinadas tabelas e gráficos simplificados e o cálculo de algumas medidas resumo simples e de fácil compreensão. Por exemplo: as porcentagens de ocorrências, em uma certa época, de alguns eventos, de interesse para uma determinada organização empresarial. Entretanto, uma maior afinidade com o raciocínio e os métodos estatísticos de planejamento, coleta e análise de dados, pode proporcionar ao profissional dessa e de outras áreas o diferencial para o melhor exercício da sua atividade. Ao contrário do que usualmente se imagina, o trabalho estatístico não começa na análise dos dados, mas sim, muito antes disso, na fase de planejamento da pesquisa. Os conhecimentos da metodologia estatística já devem ser empregados em decisões como: por quê, o quê, como, quando, onde e quanto observar ou medir. 19
Os resultados de qualquer análise estatística dependem muito da qualidade e quantidade adequada das informações obtidas, além da validade e confiabilidade dos métodos e meios utilizados na coleta e tratamento dos dados. É muito comum um profissional de qualquer área em que o conhecimento seja adquirido com base em dados descobrir que muito esforço, tempo e recursos gastos em seu trabalho de pesquisa acabaram sendo inúteis. As falhas no planejamento podem ter inviabilizado a coleta de dados importantes, quando, por outro lado, outras informações redundantes, pouco vinculadas aos objetivos do problema em estudo, podem ter sido inutilmente levantadas. O planejamento é a especificação detalhada dos procedimentos a serem cumpridos pelo pesquisador, dentro dos objetivos propostos (no sentido de se conseguir respostas satisfatórias às questões formuladas na pesquisa). É claro que o conhecimento da metodologia estatística não substitui o conhecimento específico que cada profissional tenha que adquirir em seu próprio campo de atuação. Entretanto, um planejamento e uma análise estatística bem feitos poderão contribuir para evitar erros grosseiros, facilitar a comunicação dos resultados obtidos, permitir a ampliação do conhecimento sobre o assunto pesquisado e, até mesmo, provocar mudanças na gestão e na organização da empresa em que o profissional esteja atuando. 1.3.1 Tipos de estudos Em pesquisas na área de sistemas de informação, os dados podem ser gerados por estudos descritivos ou por estudos comparativos. 01 Nos primeiros, conforme a própria terminologia sugere, o interesse é de simplesmente descrever os fatos, sem a preocupação de realizar comparações de situações (entre duas ou mais empresas, ou entre dois ou mais momentos na mesma empresa, por exemplo). Isso ocorre, nos chamados estudos de casos (que consiste, por exemplo, na cuidadosa e minuciosa descrição do diagnóstico e evolução de um problema em uma ou em um pequeno número de empresas). 01 Outro exemplo são os estudos institucionais (em que os dados são coletados e organizados por instituições públicas, como o Instituto Brasileiro de Geografia e Estatística (IBGE), ou privadas, como o Instituto Brasileiro de Opinião Pública e Estatística (IBOPE)) e depois, de certa forma, disponibilizados para uso público ou privado. Os estudos comparativos, por sua vez, recaem em um dos dois seguintes tipos: os observacionais ou os experimentais. 01 20
Nos estudos observacionais, a partir da identificação de um problema pela observação, pode-se formular uma (ou mais) hipótese(s) que o explique. Essas hipóteses devem ser afirmações do pesquisador, sugerindo respostas simples às questões em estudo. 03 Com base na evidência dos dados, elas serão corroboradas ou refutadas mediante estudos realizados em condições naturais (isto é, sem o controle do pesquisador). Por exemplo, em uma empresa que comercializa um determinado produto, uma hipótese poderia ser: o tipo de estratégia de venda, presencial ou virtual, provoca diferenças significativas no faturamento da empresa. Os resultados de um trabalho de pesquisa observacional serão consolidados e incorporados ao conhecimento corrente somente depois de comprovados em um número razoavelmente grande de repetições do estudo, sob condições naturais similares. São exemplos de estudos observacionais, que podem ser usados na área de sistemas de informação, as chamadas pesquisas de mercado. Nos estudos experimentais, também, parte-se de um problema identificado pela observação e pode-se formular uma hipótese para explicar esse fato. Mas, ao invés das previsões a serem comprovadas em condições naturais, são impostas condições a serem controladas experimentalmente durante a pesquisa. 01 Isto é, para a obtenção dos dados, pode-se planejar e executar um experimento em condições mantidas sob controle, muitas vezes mais abrangentes do que as encontradas nas situações naturais. Com isso procura-se maximizar a confiança na validade empírica dos resultados. 03 Por exemplo, dentre três métodos de treinamento de futuros operadores de telemarketing: o primeiro poderia ser desenvolvido somente com aulas expositivas tradicionais e uso de um texto básico impresso; o segundo, com o uso intensivo de recursos de informática e manuais virtuais e o terceiro, constituído pela mistura de procedimentos dos dois primeiros métodos. Uma hipótese a ser comprovada seria: O primeiro método é menos eficiente que os outros. Nos estudos experimentais são constituídos dois ou mais grupos de indivíduos (no exemplo anterior seriam três grupos) semelhantes em todos os aspectos considerados relevantes para o problema abordado (isto é, as condições são controladas para tornar os grupos comparáveis), menos nas diferenças entre os tratamentos recebidos por cada grupo. No caso anterior, na constituição dos grupos de indivíduos para cada método de treinamento deveriam ser, de alguma forma, controlados fatores tais como: o grau de escolaridade dos candidatos, a experiência anterior, a faixa etária, a facilidade ou não de comunicação e a dicção. Esse controle pode ser feito, 21
compondo-se os três grupos, ou somente com pessoas nas mesmas condições em relação aos fatores mencionados, ou mantendo diversidades semelhantes dos indivíduos nos três grupos. Assim, as possíveis diferenças nas respostas apresentadas pelos candidatos de grupos distintos podem ser atribuídas às diferenças entre os tratamentos (métodos de treinamento) recebidos. Nessa pesquisa, poderia, inclusive, ser constituído um quarto grupo, formado por indivíduos não expostos a qualquer método de treinamento, o que usualmente denomina-se de grupo controle. Geralmente, a quantidade de dados gerados em um estudo experimental é muito menor que a dos estudos observacionais, mas, devido ao controle durante a pesquisa, eles se apresentam mais bem estruturados, permitindo a aplicação de análises estatísticas apropriadas. 01 Pode-se, então, conforme será visto na última unidade, decidir, com uma margem de erro estabelecida, a validade ou não da hipótese previamente formulada. A atribuição dos indivíduos aos grupos deve ser feita de uma forma aleatória (aleatorização ou casualização), garantindo a independência entre eles dentro de um mesmo grupo e entre os indivíduos pertencentes a grupos distintos, o que também contribui para a comparabilidade dos grupos. Recomenda-se que os participantes de um grupo não tenham contato com os de outros grupos para evitar possíveis interações que possam influenciar e confundir os resultados. T1 T2 T3 I 1,1 I 1,2 I 1,3 I 2,1 I 2,2 I 2,3 I 3,1 I 3,2 I 3,3... I K,1 I K,2 I K,3 Figura 1.1 Representação de um estudo experimental para a comparação de três grupos. Na Figura 1.1, é apresentado um esquema de comparação de três grupos, com os tratamentos T1, T2 e T3 contendo a mesma quantidade K de indivíduos em cada grupo (grupos balanceados), em que I i,j representa o i-ésimo indivíduo dentro do j-ésimo tratamento. Pelas características dos problemas da área de Sistemas de Informação, as pesquisas são mais direcionadas a levantamento de dados em estudos observacionais do que experimentais. 22
1.3.2 Os objetivos, as variáveis e os dados Em qualquer trabalho de pesquisa envolvendo levantamento de dados, os objetivos devem ser formulados inicialmente de forma bastante clara, pois as demais etapas baseiam-se neles. 02 Por exemplo, o objetivo geral de uma pesquisa observacional poderia ser: Avaliar a qualidade dos serviços prestados por uma determinada empresa prestadora de serviços. A indicação das características (isto é, das variáveis) que devem ser observadas ou medidas (isto é, fornecer os dados) em uma pesquisa é, geralmente, apresentada na listagem dos objetivos específicos. Para o exemplo anterior, alguns dos objetivos específicos poderiam ser, não necessariamente nessa ordem: 1. Especificar a distribuição da população de clientes por gênero, faixa etária, escolaridade, nível socioeconômico e tipos de serviços requeridos; 2. Determinar a frequência e o tempo de utilização dos serviços pelos usuários; 3. Levantar as principais ocorrências de reprovações e aprovações aos serviços; 4. Levantar informações sobre a expectativa inicial dos usuários com relação ao serviço requerido e a sua impressão sobre o atendimento recebido; 5. Levantar o grau de satisfação dos usuários com relação ao serviço prestado. As variáveis a serem explicadas no estudo são denominadas variáveis dependentes (ou variáveis respostas, no caso de estudos experimentais). As variáveis independentes (ou covariáveis, para os estudos experimentais) são aquelas em que se pode, com alguma autonomia, impor os valores, visando explicar o comportamento da variável dependente. Por exemplo, na pesquisa sobre avaliação da qualidade dos serviços prestados por uma empresa, a variável grau de satisfação dos usuários é uma variável dependente e o nível de escolaridade dos usuários é uma variável independente, pois o grau de satisfação com os serviços pode mudar dependendo do nível de escolaridade (baixo, médio ou alto) do cliente. 1.3.3 População e amostra Um dos primeiros passos no planejamento de uma pesquisa em sistemas de informação é definir a população na qual se tem interesse em obter as 23
informações. O termo população é aqui usado no sentido da totalidade dos elementos que se desejaria estudar, constituindo as unidades de análise. 03 Para os estudos observacionais na área de Sistemas de Informação, estes podem ser, por exemplo, pessoas, domicílios, lojas, empresas, produtos, ou ocorrências de eventos relacionados a essa atividade. A definição da população deve ser cuidadosamente especificada, no espaço (área ou território) e no tempo (época), de acordo com os objetivos da pesquisa. Uma maneira de fazer isso é começar definindo a população ideal (população alvo), até chegar-se à população acessível, levando-se em conta as restrições de ordem prática, 03 que geralmente impedem a abordagem direta da população inicial. Definida a população, deve-se tratar do delineamento da amostra. Isto é, quanto (qual tamanho da amostra) e como (qual método usar para) selecionar, dentre os elementos da população, aqueles a serem realmente estudados (observados ou medidos). Se essa escolha for feita por um mecanismo de sorteio (isto é, aleatório), cada elemento da população terá uma chance conhecida e diferente de zero de ser incluído na amostra aleatória. Com isso, além de se evitar o viés de seleção (escolha inconsciente pelo pesquisador de alguns elementos), pode-se lançar mão da teoria estatística para definir os chamados estimadores, que são as fórmulas empregadas para transformar os dados amostrais (dados obtidos por meio de amostras) nos valores amostrais (estimativas) que melhor representem os parâmetros populacionais (medidas que caracterizam a população) de interesse. Por exemplo, desejando-se estimar a duração média da fidelidade da população de clientes de uma determinada loja (isto é, a média de tempo contínuo em que os clientes permanecem comprando nessa mesma loja), pode-se usar o estimador dado pela média aritmética dos períodos de tempo contínuo, desde a primeira até a última compra de cada cliente, calculada em uma amostra aleatória de n ex-clientes sorteados do cadastro de ex-compradores da loja. Os períodos de tempos dos atuais clientes não devem ser incluídos porque ainda estão incompletos. Os períodos de fidelidade devem ser estabelecidos conforme um rigoroso critério que defina qual é precisamente o início e o fim da realização de compras de cada ex-cliente. Essa média aritmética é referida como estimador média amostral da média populacional do período de tempo em que os clientes permanecem comprando na loja. 24 Então, calculado esse estimador em uma específica amostra aleatória de períodos de permanência, obtém-se um valor que é uma estimativa da duração média da fidelidade de compra dos clientes da loja. Procedimentos semelhantes poderiam ser usados para estimar outros parâmetros de interesse da loja, como
a proporção populacional de clientes maus pagadores e o número total populacional de vendas mensais. Dependendo do método de seleção das unidades amostrais, dos parâmetros a serem estimados, do tamanho da população e da variabilidade (oscilação) dos dados, pode-se determinar tecnicamente o tamanho da amostra para calcular as correspondentes estimativas, dentro de um erro máximo admitido e uma confiabilidade fixada. Para entender os detalhes sobre isso, torna-se necessário a assimilação de algum conhecimento teórico de Probabilidade e Estatística. Algumas vezes, a amostra é composta por um método subjetivo (isto é, sem sorteio). Por exemplo, nos estudos observacionais em pesquisa de mercado, algumas vezes, os elementos são escolhidos propositalmente, na tentativa de, no máximo, refletir na amostra a representatividade das características que ocorrem na população. Nesses casos, fica prejudicada a utilização de toda a estrutura teórica da Estatística para assegurar a validade da inferência para toda a população, dos resultados observados na amostra. Entretanto, as repetições do mesmo estudo em outras amostras permitem a agregação de resultados, o acúmulo de conhecimento e a sua posterior generalização. Esse procedimento é conhecido em ciência como meta análise. Pode-se elaborar uma variedade de esquemas amostrais, aleatórios, resultantes da combinação de alguns procedimentos básicos que serão abordados adiante. 1.3.4 Escalas de medida, tipos de variáveis e a variação aleatória A qualidade dos dados de uma pesquisa também depende de uma escala de medida que apresente alta validade e fidedignidade. 01 Enquanto a primeira dessas propriedades significa a capacidade da escala medir realmente a característica para a qual foi elaborada, a segunda é a capacidade de produzir os mesmos dados mediante a reaplicação da escala na mesma amostra. 01 Existem procedimentos estatísticos apropriados para a comprovação dessas propriedades, 05 mas, em geral, utiliza-se o senso comum. 01 As escalas de medição são classificadas em quatro níveis de mensuração, de acordo com a sua ordem de complexidade: 01 1. Nominais (quando a única relação especificada entre os dados é que sejam iguais ou diferentes). Por exemplo, para a variável queixas levantadas entre os usuários de um tipo de serviço prestado por uma empresa, pode-se ter as categorias de queixas relacionadas: à qualidade do atendimento, ao tempo de espera pelo atendimento, ao tempo para 25
conclusão do serviço, à dificuldade de diálogo da empresa com os clientes, à falta de outras opções de serviços, etc. 2. Ordinais (quando indicam as posições relativas dos dados, mas não especificam as suas magnitudes). Por exemplo, para a variável classificação do atendimento aos usuários de um serviço, pode-se adotar as categorias: péssimo, ruim, regular, bom e ótimo. 3. Intervalares (quando as diferenças entre os dados são claramente determinadas, mas não possuem um zero natural que expresse a ausência da característica de interesse). Por exemplo: para a variável temperatura, pode-se afirmar que a diferença entre 70ºC e 35ºC é de 35ºC, mas não que 70ºC é duas vezes mais quente que 35ºC, pois o zero aqui é determinado arbitrariamente. 4. Da razão (quando existe o zero natural e também é possível realizar, com os dados obtidos, operações aritméticas de razões e quocientes). Por exemplo: para a variável tempo de duração para execução de uma tarefa, o zero é estabelecido naturalmente se a tarefa é descartada sem qualquer tentativa de execução. Portanto, uma tarefa que tenha demorado 60 minutos para ser executada tem o triplo da duração de outra com 20 minutos de execução. As escalas nominal e ordinal são claramente qualitativas (expressam qualidades) e as correspondentes variáveis são denominadas de variáveis qualitativas (ou categóricas). Então, as variáveis qualitativas podem ser: Nominais (por exemplo: tipo de atividade das empresas, método de execução de uma tarefa, etc.) ou Ordinais (por exemplo, na classificação do grau de satisfação do cliente com os serviços prestados por uma empresa em: I (muito insatisfeito), II (insatisfeito), III (pouco satisfeito), IV (satisfeito) e V (muito satisfeito), não se pode afirmar, por exemplo, que o estágio V é duas vezes melhor do que o III e nem que a diferença entre o V e III é equivalente àquela entre III e I). As escalas 3 e 4 são quantitativas (quantificam, medem), dando origem às variáveis quantitativas que, por sua vez, podem ser classificadas em discretas ou contínuas. 26
Uma variável quantitativa é discreta quando os seus possíveis valores diferem entre si por quantidades fixas. Nenhum valor intermediário é possível e geralmente expressam contagens. Por exemplo: o número de clientes de uma empresa, o número de tentativas até a obtenção de uma determinada informação desejada e o número de falhas em um equipamento (como um microcomputador, uma filmadora, etc.) durante o tempo de realização de uma tarefa. Uma variável é contínua quando os seus possíveis valores não são contáveis. Por mais próximos que sejam dois valores assumidos pela variável, sempre é possível haver um valor intermediário entre eles. Usualmente essas variáveis são medidas por dispositivos, tais como: paquímetros ou fitas métricas, cronômetros, balanças, etc. Na prática, costuma-se anotar os valores com uma precisão menor do que a registrada pelo aparelho de medição, o que corresponde a uma certa discretização dos dados. Por exemplo, se um cronômetro registra o tempo de realização de uma tarefa como 6 minutos e 57 segundos, isso poderia ter sido aproximado para 6 minutos e 50 segundos ou, pior ainda, para 7 minutos. Essas aproximações podem acarretar perdas importantes de informações. Comumente, as escalas quantitativas são mais informativas que as qualitativas, mas a opção do pesquisador pelo tipo de mensuração a ser adotada dependerá dos objetivos da pesquisa e da viabilidade da aplicação de cada método de observação ou medição. 01 Uma variável medida ou observada em um indivíduo deve gerar um e apenas um resultado. 01 Por exemplo, para as variáveis relacionadas com dados econômicos e informações demográficas, dificilmente ocorrem dificuldades com relação a esse aspecto. Entretanto, para algumas variáveis, como as psicossociais, podem ocorrer problemas, pela inexistência de padrões já consolidados de avaliação. É o caso da variável grau de satisfação do cliente com os serviços prestados por uma organização, em que os procedimentos de avaliação devem ser padronizados antes do início da coleta de dados, adotando-se, por exemplo, uma escala quantitativa de zero a dez ou uma escala qualitativa do tipo: insatisfeito, indiferente, satisfeito. Em qualquer nível de medição, a obtenção de dados, de alguma variável de interesse em uma pesquisa, constitui um processo sujeito à atuação de fontes intrínsecas de variação, incontroláveis pelo pesquisador. 27
Mesmo quando se tomam todos os cuidados no sentido de tentar reproduzir do mesmo modo, inclusive no mesmo indivíduo, uma determinada medição, quer seja em estudos observacionais, como nos experimentais, ocorrem variações aleatórias para mais ou para menos em relação ao valor real, produzindo alguma incerteza no processo de medição. Para a descrição dessa incerteza, recorre-se aos modelos probabilísticos, que são a base teórica da inferência estatística. A variação aleatória só não é detectada quando, por um erro de planejamento ou falta dele, adota-se uma escala de mensuração muito grosseira. Um exemplo um tanto exagerado seria a decisão de medir o tempo até o acesso a uma determinada informação simples via internet, aproximando os resultados obtidos para horas, desprezando-se as demais frações de tempo (minutos, segundos, etc.). Ainda na fase de planejamento das pesquisas, pelo menos para as variáveis principais, as magnitudes das correspondentes variações aleatórias devem ser aproximadamente previstas de alguma forma, pois isso pode ser necessário para, por exemplo, determinar o número de unidades populacionais a serem selecionadas (tamanho da amostra) para estudo. Depois de coletados os dados, pode-se, com base neles, estimar as magnitudes reais dessas variações e usá-las, por exemplo, como medidas de confiabilidade dos resultados da análise estatística. 1.3.5 Os instrumentos de coleta de dados Particularmente em estudos experimentais, os instrumentos de coleta de dados são, em geral, dispositivos de medição, os quais devem, antes do início da tomada das medidas, serem avaliados e mantidos calibrados. Com isso, consegue-se evitar ou minimizar os chamados erros sistemáticos de medida, 05 provocados por defeitos ou desvios de regulagens, muito comuns nesses aparelhos. Nos estudos observacionais, as medições/observações, nas unidades (ou elementos) amostrais, de algumas características de interesse, podem também necessitar da utilização de dispositivos de medida como os já citados anteriormente. Mas, em geral, são empregados questionários ou roteiros, ou as duas coisas juntas. A construção desses questionários é um processo típico de tentativa-erro até a obtenção de uma versão satisfatória. Basicamente, a confecção do questionário consiste na transformação dos objetivos específicos da pesquisa em perguntas, em que uma ou mais delas referem-se a cada característica a ser observada ou medida. 28 O principal esforço deve ser centrado na melhor sequência, menor quantidade possível e tipos de questões formuladas, procurando-se desse modo manter o
interesse do respondente. Por exemplo, um questionário de uma pesquisa de mercado de um produto, conduzida em uma determinada região, pode conter perguntas visando informações dos respondentes sobre: gênero, idade, estado civil, ocupação, renda familiar, uso ou não do produto em questão, marcas preferidas, etc. Nem sempre cada pergunta gerará uma única variável a ser analisada. Dependendo do grau de detalhe desejado para as informações, pode-se associar mais de uma variável a uma mesma pergunta, ou mais de uma pergunta para obter as informações de uma determinada variável. Por exemplo, para uma pergunta que indagasse o respondente (um médico de um serviço de saúde) sobre os tipos de doenças diagnosticadas por ele durante um certo período de tempo, pode-se associar as variáveis qualitativas: diabetes mellitus (sim, não); anemias (sim, não); bronquite (sim, não); hipertensão (sim, não), etc. Com isso obtém-se, além do número de doenças diagnosticadas, também a distribuição delas. Por outro lado, para se obter o valor da variável índice de massa corporal de um indivíduo (IMC), deve-se medir as duas variáveis altura e peso, pois peso IMC =. 2 (altura) As perguntas devem ser suficientemente claras para o tipo de respondente a que se destinam, cuidando-se para que elas não induzam as respostas. Também, durante a elaboração do questionário, deve-se levar em conta a futura análise estatística dos dados. O tamanho da amostra deve ser muito maior do que a quantidade de variáveis a serem medidas ou observadas. 1.4 Considerações finais Nesta unidade foram abordados os cuidados com o planejamento de pesquisas e introduzidos alguns termos técnicos utilizados em Estatística, como parâmetros populacionais, estimador e estimativa, que serão utilizados e aprofundados nas próximas unidades. 1.5 Atividades de aplicação e prática O texto desta unidade dá uma visão geral dos procedimentos a serem seguidos durante o desenvolvimento de uma pesquisa para a coleta e a análise de 29
dados. Recomenda-se a sua releitura à medida que se tenha conhecimento do conteúdo das próximas unidades. 1.5.1 Atividades individuais Após a leitura desta unidade, o leitor deve tentar identificar, na área de sua atual ou futura atuação profissional, situações em que o emprego do planejamento de pesquisas, da coleta objetiva dos dados e da sua análise e inferência estatística contribuirão para a aquisição da informação e para o melhoramento da qualidade das decisões. 1.5.2 Atividades coletivas O conhecimento e o domínio da metodologia estatística pode realçar a participação efetiva de um profissional durante as atividades em grupo, propagando essa e outras formas objetivas de abordagem de problemas. 1.6 Estudos complementares Neste material foi abordado o papel que a Estatística desempenha na metodologia científica. É recomendável o aprofundamento desse assunto com a consulta de textos mais abrangentes, da área de metodologia de pesquisa. 1.6.1 Saiba mais Em pesquisas do tipo psicossocial, uma fase essencial é a elaboração dos instrumentos de coleta de dados, como o questionário. Deve-se testá-lo e validá-lo antes da aplicação. Nesta tarefa, aconselha-se as consultas a outros profissionais como psicólogos e sociólogos. Para o cálculo do tamanho da amostra, leva-se em conta as principais variáveis a serem observadas/medidas, suas variabilidades, os parâmetros populacionais a serem estimados, os erros máximos de estimação admitidos e confiabilidades. Neste processo deve-se, além da variação amostral, prever a ocorrência de erros não amostrais como os: de não resposta, não cobertura, não elegibilidade e outros. Na utilização de dispositivos de medição, deve-se, antes, avaliá-los, mediante: o viés, a acurácia, a precisão, a repetibilidade e a reprodutibilidade de suas medidas. A bibliografia especializada de amostragem e metodologia científica trata desses assuntos. 30
1.6.2 Referências 01 HEATH, O. V. S. A Estatística na Pesquisa Científica. São Paulo: EDUSP, 1981. 02 BENZE, B. G. Metodologia Científica e Estatística. In: NUNES SOBRINHO, F. de P.; NAUJORKS, M. I. Pesquisa em Educação Especial: o desafio da qualificação. Bauru: EDUSC, 2001. p. 31-45. 03 KISH, L. Survey Sampling. New York: John Wiley & Sons, Inc, 1965. 04 SILVA, N. N. Amostragem Probabilística: um curso introdutório. São Paulo: EDUSP, 1998. 05 WERKEMA, M. C. C. Avaliação da Qualidade de Medidas. Belo Horizonte: Fundação Christiano Ottoni-UFMG, 1996. 06 BENZE, B. G. Bioestatística Uma iniciação com exemplos em Saúde Curso de Especialização em Saúde da Família. São Carlos: Unicep, 2009. Apostila. 31
Unidade 2 Alguns procedimentos amostrais básicos
2.1 Primeiras palavras Para a obtenção de informações confiáveis, o procedimento de coleta dos dados deve ser feito por um método científico, o mais objetivo possível. Nesta unidade são apresentados alguns desses procedimentos. 2.2 Problematizando o tema A tomada de decisões é uma constante em qualquer ramo de atividade, e é muito comum a ocorrência de erros quando as informações disponíveis são inconsistentes pela falta de rigor na coleta dos dados. 2.3 Texto básico para estudo Na maioria dos problemas em Sistemas de Informação, e mesmo em outras áreas de conhecimento, torna-se impraticável obter informações sobre toda a população de interesse. Assim, trabalha-se com o que é possível ou acessível, isto é, com uma amostra de elementos dessa população (as unidades amostrais), dentro da maior confiabilidade possível. 04 A coleta daquelas unidades populacionais para compor a amostra não pode ser feita de maneira desordenada ou sem critérios. Ela deve ser metódica a tal ponto que se houvessem dois pesquisadores distintos, realizando o mesmo tipo de estudo, eles poderiam selecionar duas amostras, no mínimo, com características semelhantes, caso adotassem o mesmo procedimento (ou delineamento amostral), na mesma população. 01 Para isso, as regras a serem seguidas nessa escolha devem ser objetivas, com as unidades amostrais sendo retiradas da população, de preferência, mediante mecanismos de sorteio. Isso é o que se chama de amostras aleatórias (ou probabilísticas). 02 Algumas vezes, pelas características das unidades sob estudo, não se pode sorteá-las. É o caso, por exemplo, de substâncias líquidas depositadas em algum reservatório, constituindo a população daquele produto. Nessas situações, após uma ação de homogeneização do líquido, as retiradas de pequenas porções (unidades amostrais), para serem examinadas separadamente, podem ser realizadas a esmo. Essa amostra de porções não é probabilística, mas funciona aproximadamente como tal. 35
2.3.1 Sistema de referência e mecanismos de sorteio da amostra Para o sorteio da amostra aleatória, deve-se estabelecer um sistema de referência, numerando-se as unidades populacionais de 1 a N (em que N = tamanho da população). Dependendo da utilização do sistema de referência, podem ser acrescentados, à esquerda de cada número dessa sequência, que tenha menos dígitos do que o número final N, tantos zeros quantos forem necessários para que esses números fiquem com a mesma quantidade de dígitos que a apresentada por N. Por exemplo, se o tamanho da população for N = 379, o sistema de referência será registrado como: 001, 002, 003,..., 099, 100, 101,..., 378, 379. O sorteio dos números do sistema de referência deve ser realizado mediante o uso de números aleatórios (muitas vezes inadequadamente referidos na literatura de outras áreas como números randômicos). Eles são obtidos por algum mecanismo como uma tabela de números aleatórios, geralmente encontrada nos livros de Estatística, ou por um gerador de números aleatórios implementado em uma calculadora científica ou em um microcomputador. Os valores dos números aleatórios gerados por um desses mecanismos são identificados no sistema de referência citado acima, e os seus elementos populacionais correspondentes passam a ser considerados como unidades amostrais. As tabelas de números aleatórios, por exemplo, são construídas de modo a garantir que cada dígito, cada par de dígitos, e assim por diante, apareçam com a mesma frequência em uma longa sequência de números. Veja a tabela a seguir em que é apresentado um pedaço retirado de uma relação de números aleatórios: Tabela 2.1 Parte de uma tabela de números aleatórios. 67 28 96 25 68 36 24 72 03 85 49 24 85 86 94 78 32 59 51 82 86 43 73 84 40 10 60 09 05 88 Esse fragmento será utilizado aqui somente a título de ilustração da operacionalização de uma tabela de números aleatórios real em procedimentos de amostras probabilísticas. 2.3.2 Principais procedimentos amostrais probabilísticos Amostra Aleatória Simples (AAS); Amostra Sistemática Aleatória (ASA); 36 Amostra Aleatória Estratificada (AAE);
Amostra Aleatória por Conglomerados (AAC). Na descrição destes procedimentos será mantida a notação: N = tamanho da população e n = tamanho da amostra. A proporção do tipo N k. n = (2.1) é chamada de fração amostral. Se, por exemplo, 1 λ= = 0,011, então serão selecionados, de alguma for- 90 ma, cinco elementos para compor a amostra, a cada mil elementos da população. 2.3.2.1 Amostra aleatória simples É um procedimento básico utilizado, inclusive, nos demais métodos probabilísticos de amostragem. É usado quando nada se sabe sobre a estrutura da população, a não ser o seu tamanho. Uma AAS consiste na seleção, em uma população, de um grupo de n unidades amostrais, de tal modo que cada possível distinto conjunto de n unidades populacionais nessa população tenha a mesma chance de ser selecionada como amostra. A retirada é com reposição (AAS c ), quando permite-se que uma mesma unidade seja sorteada mais de uma vez na mesma amostra, ou sem reposição (AAS s ), quando não são permitidas tais repetições. Pelo maior interesse prático, o foco aqui será direcionado à segunda situação. 01 02 03 04 05 Figura 2.1 Representação do fichário de um programa de treinamento. Exemplo 2.1 Para retirar uma AAS s de n = 6 pessoas das N = 60 inscritas em um programa de treinamento de um serviço de realocação profissional, pode-se usar a tabela de números aleatórios, considerando-se o seguinte sistema de referência: 37
01, 02, 03,..., 09, 10, 11, 12,..., 58, 59, 60, correspondente à ordem das fichas dessas pessoas no arquivo (físico ou virtual) da instituição. Deve-se, então, preestabelecer as regras de leitura e de retirada dos números da tabela de números aleatórios, que representarão as unidades amostrais, conforme a sequência de numeração do sistema de referência adotado. Assim: 1. O início de leitura na tabela (início casual) é um dígito que poderia ser determinado por sorteio ou não. Por exemplo: o 9 o número da 2 a linha da tabela, da esquerda para a direita. 2. Como os números do sistema de referência aqui possuem dois dígitos, então devem ser lidos dois dígitos de cada vez na tabela, a partir do início casual. 3. A sequência de leitura dos números na tabela será da esquerda para a direita, até o final da linha, reiniciando a leitura no início da próxima linha, e assim por diante, até se conseguir todos os números que indiquem todas as unidades da amostra. 4. As repetições dos números já sorteados serão ignoradas, e 5. se ocorrer no sorteio os dois dígitos 00, este número será associado ao valor 60 do sistema de referência, caso ele ainda não tenha sido sorteado. De acordo com essas regras, tem-se, da Tabela 2.1, o esquema: 67 28 96 25 68 36 24 72 03 85 49 24 85 86 94 78 32 59 51 82 86 43 73 84 40 10 60 09 05 88 Início casual 5 a 4 a 3 a 6 a 2 a 1 a A partir do dígito 8 (início casual), foram lidos dez números de dois dígitos, assinalando-se na tabela os valores menores ou iguais a 60. Então, foram selecionados para a amostra, pela ordem das fichas no arquivo: a quinta, a nona, a décima, a quadragésima, a quadragésima terceira e a sexagésima pessoas dessa população. 38 Para diminuir a quantidade de números lidos na tabela, pode-se usar a seguinte opção: quando um número ultrapassar o último valor (N) do sistema de referência, ele será dividido por N e o resto dessa divisão será considerado como o valor sorteado. Usando esse atalho, no exemplo anterior, tem-se agora o esquema alternativo:
67 28 96 25 68 36 24 72 03 85 49 24 85 86 94 78 32 59 51 82 86 43 73 84 40 10 60 09 05 88 Início casual 6 a 5 a 22 26 13 24 2 a 4 a 1 a 3 a Assim, as pessoas sorteadas na população, pela ordem das suas fichas, foram: a décima terceira, a vigésima segunda, a vigésima quarta, a vigésima sexta, a quadragésima e a quadragésima terceira. Dispondo-se de um programa computacional com um módulo de sorteio, ou de uma calculadora científica com uma rotina de sorteio, a seleção das unidades amostrais a partir de um sistema de referência pode se tornar mais simples do que o procedimento até agora descrito. Nesse caso não é necessário a adição dos zeros aos números do sistema de referência, como foi feito para a utilização da tabela de números aleatórios. 2.3.2.2 Amostra sistemática aleatória Mesmo sendo simples, o procedimento AAS exige algum trabalho do pesquisador na realização do sorteio e na identificação das unidades sorteadas na população. Considerando o sistema de referência com N elementos (unidades) e desejando-se retirar uma amostra de n elementos, pode-se proceder de uma forma mais sistemática, da seguinte maneira: 1. Determina-se o período do intervalo sistemático de amostragem, definido por: N k. n = (2.2) 2. Sorteia-se, então, um dos k primeiros valores do sistema de referência, para corresponder ao primeiro número sorteado. 3. A partir daí, somando-se k sistematicamente e seguindo a ordem do sistema de referência, vão sendo obtidos os elementos dos próximos intervalos amostrais, até ser atingido o tamanho desejado para a amostra. Com isso, percorre-se todo o sistema de referência, sorteando-se um a cada k números. 39
A aleatoriedade na amostragem sistemática só é válida se a disposição das unidades no sistema de referência puder ser considerada aleatória. Muitas vezes, essa suposição é razoável, como para a população de ligações telefônicas (ou de mensagens eletrônicas) em uma central de atendimento de uma grande empresa de telecomunicações. Nesse caso, pode-se selecionar, para o estudo da população de ligações, uma amostra aleatória sistemática de ligações telefônicas, separando-se, por exemplo, uma a cada dez ligações, conforme a ordem cronológica dos atendimentos. Exemplo 2.2 No exemplo anterior, para se obter uma amostra aleatória sistemática de n = 6 pessoas do fichário do programa de treinamento, tem-se: N 60 k = = = 10. n 6 Usando-se o mesmo início casual 8, já determinado anteriormente para a leitura da tabela de números aleatórios, e considerando como primeiro intervalo de amostragem a sequência: 01, 02, 03, 04, 05, 06, 07, 08, 09, 10 (que é aqui o sistema de referência), tem-se, na tabela, que o número sorteado de dois dígitos é 82. A divisão desse número por 10 (o maior valor do sistema de referência) apresenta como resultado 8 e resto 02. Esse resto corresponde à pessoa 02 do sistema de referência (primeira pessoa sorteada na amostra sistemática). Os próximos valores serão então 2+k = 2+10 = 12; 12+k = 12+10 = 22; 22+k = 22+10 = 32; 32+k = 32+10 = 42; 42+k = 42+10 = 52. De modo geral, os valores sorteados por este procedimento para uma amostra de tamanho n podem ser expressos por: ( ) V = V + ik, em que: i = 0,1, 2,..., n 1 ev é o início casual. (2.3) o o Portanto, por esse esquema seriam sorteadas: a segunda, a décima segunda, a vigésima segunda, a trigésima segunda, a quadragésima segunda e a quinquagésima segunda fichas, conforme a ordem delas no fichário. A amostragem sistemática tem sido comumente aplicada em pesquisas amostrais urbanas (enquetes ou surveys) para diversos fins, como selecionar uma amostra de domicílios e, em consequência, de famílias, em que são entrevistado(a)s o(a)s chefes de família, visando o levantamento de informações relacionadas a algum tema de interesse. 40 Quando os resultados da variável em estudo for sazonal, o uso de amostragem sistemática pode ser inadequado, pois os intervalos sistemáticos podem coincidir com o período dessa sazonalidade.
Por exemplo, alguns eventos têm a tendência de incidir a determinados espaços de tempo, como: os congestionamentos de trânsito nas vias públicas centrais da maioria das zonas urbanas, em dias úteis, ocorrem no início das manhãs e final das tardes. Nesse caso, quando se pretende refletir as condições gerais de trânsito de uma cidade, não é aconselhável o uso de uma amostra sistemática, pois os períodos de coleta de informações podem coincidir com esses horários. Os congestionamentos em linhas de telecomunicação também seguem sazonalidades deste tipo. 2.3.2.3 Amostra aleatória estratificada Quando a população é heterogênea em relação à principal característica que se deseja estudar, pode-se dividi-la em subpopulações mais homogêneas, mutuamente exclusivas (chamadas estratos). Isso pode ser feito com base no pré-conhecimento de uma outra variável (auxiliar) que esteja fortemente vinculada à(s) variável(eis) de interesse. N 2 n 2 n 3 N 3 N 5 Sorteio n 5 n6 N 1 N 4 n 1 n 4 N 6 População de tamanho N, amostra estratificada de tamanho n, com estratos de tamanho N i com estratos de tamanho n i Figura 2.2 Representação esquemática de uma amostragem estratificada. Exemplo 2.3 Em um levantamento amostral, para estimar o tempo médio gasto diariamente assistindo televisão em uma população adulta de classe média, deve-se lembrar que a distribuição do tempo assistindo televisão é diferente quando se considera a idade e o gênero das pessoas. Nesse caso, torna-se recomendável a estratificação dessa população segundo essas duas características, antes de coletar a amostra. Uma sugestão seria subdividir a população nos seguintes estratos E 1 = {mulheres, com idades entre 15 e 35 anos), E 2 = {homens, com idades entre 15 e 35 anos), E 3 = {mulheres, com idades entre 36 e 59 anos), E 4 = {homens, com 41
idades entre 36 e 59 anos), E 5 = {mulheres, com 60 anos ou mais de idade) e E 6 = {homens, com 60 anos ou mais de idade). Então, os estratos são constituídos com base na informação de uma variável auxiliar de modo que a heterogeneidade entre eles, em relação a essa variável, seja a maior possível, mas haja homogeneidade dentro deles. Se a população for subdividida em E estratos, a amostra aleatória estratificada de tamanho n será a composição de E Amostras Aleatórias Simples de tamanhos n e, e = 1, 2,..., E, selecionadas independentemente dentro de cada estrato. Então, nessas condições: [ ] P A = medida de A. medida de S (2.4) Se as quantidades de elementos em cada estrato forem indicadas por Ne, e = 1, 2,..., E então Ne We =, e = 1, 2,..., E, (2.5) N e as proporções populacionais dos elementos contidos em cada estrato serão representadas por: Ne We =, e = 1, 2,..., E, (2.6) N com E e= 1 W = 1. e Por analogia, as correspondentes proporções amostrais (ou frações amostrais) em cada estrato são dadas por: ( ), A A A = A A A 1 2 3 1 2 3 (2.7) com a fração amostral global dada por: 42 N k. n = (2.8)
Exemplo 2.4 Supondo que, no exemplo anterior, a população total fosse constituída de N = 31.000 pessoas adultas, com N 1 = 10.000 mulheres com idades entre 15 e 35 anos, N 2 = 8.000 homens com idades entre 15 e 35 anos, N 3 = 5.000 mulheres com idades entre 36 e 59 anos, N 4 = 4.000 homens com idades entre 39 e 59 anos, N 5 = 2.500 mulheres com idades iguais ou maiores que 60 anos e N 6 = 1.500 homens com idades iguais ou maiores que 60 anos, as correspondentes proporções populacionais são: c A { DDN, DND, NDD, DDD} : ocorrer no mínimo dois programas com defeito(s) =. 2 { ( ) } Ω B = L, D R 9 horas L < D 12 horas, A forma de alocação dos n e elementos de cada estrato na população para compor a amostra depende das informações que se deseja obter na pesquisa e do conhecimento sobre a estrutura populacional. Dois dos principais tipos de alocação são: Alocação Uniforme: o tamanho global n da amostra é dividido pelo número E de estratos, obtendo-se: m n [ ] =. P A (2.9) Isto é, as quantidades de elementos a serem alocados de cada estrato para a amostra são iguais. Exemplo 2.5 Para conduzir um estudo sobre as condições de consumo de N = 1297 famílias de baixa renda de um município, residentes em três áreas urbanas, em que se desconhece a distribuição das famílias pelas áreas, poderia ser decidido por uma amostra estratificada de 129 famílias, alocando-se aleatoriamente 43 famílias de cada área. Alocação Proporcional: as quantidades n e são determinadas mantendo-se a fração global de amostragem em cada estrato. Isto é: 2 σ X = σ X = 0,45 0,67. (2.10) 43
Exemplo 2.6 No exemplo 2.4, se tivesse sido decidido por uma fração amostral global f = 0,05 (seleção de cinco a cada cem pessoas), o tamanho da amostra seria de 1.550 pessoas adultas. Então, pela alocação uniforme, seriam tomados 1.550 6 = 258,3 258 adultos de cada estrato e pela alocação proporcional: ( )( ) ( )( ) ( )( ) n = 0,05 10.000 = 500; n = 0,05 8.000 = 400; n = 0,05 5.000 = 250; 1 2 3 ( )( ) ( )( ) ( )( ). n = 0,05 4.000 = 200; n = 0,05 2500 = 125; n = 0,05 1500 = 75 4 5 6 Espera-se que a precisão das estimativas obtidas via amostras aleatórias estratificadas seja maior do que as obtidas pelos métodos anteriores, quando essas amostras têm o mesmo tamanho. Para isso, é essencial a escolha eficaz da variável auxiliar de estratificação e a capacidade do pesquisador no delineamento dos estratos. Deve-se também ressaltar que durante a análise de dados obtidos, via amostra estratificada, não se pode ignorar as ponderações adequadas a serem aplicadas a cada medida/observação, conforme o estrato de onde elas provêm. 2.3.2.4 Amostra aleatória por conglomerados É empregada quando a população for composta por A agrupamentos de elementos que apresentem, com relação à(s) característica(s) em estudo, heterogeneidade dentro deles e homogeneidade entre eles. Nesse caso, é selecionada uma amostra aleatória simples de a desses agrupamentos (chamados conglomerados) e todos os seus elementos são analisados. Os conglomerados são considerados as unidades amostrais, e os seus elementos são as unidades elementares de análise. Nessa situação, a fração amostral é dada por: { X = x,y = y}, (2.11) Embora menos preciso que os métodos anteriores, esse procedimento é muito usado em estudos observacionais, pela sua maior praticidade e economia. Isto é, menor complexidade dos sistemas de referência, maior facilidade de acesso às unidades amostrais, redução de custos no transporte, diárias e retornos dos entrevistadores, etc. 44
Quanto maior a heterogeneidade dentro dos conglomerados, melhor será o desempenho deste procedimento com relação à precisão das estimativas. Por outro lado, a análise dos dados obtidos via amostragem por conglomerados é muito mais sofisticada que nos procedimentos anteriores. Da mesma forma, como já foi comentado para amostragem estratificada, durante a análise, também, deve-se levar em conta ponderações relacionadas à forma como as observações foram obtidas. Exemplo 2.7 Em uma pesquisa para investigar o gasto com saúde dos moradores de uma grande cidade, as famílias podem ser consideradas como as unidades elementares. Porém, é praticamente impossível dispor de um sistema de referência com a listagem de todas as famílias. Pode-se, então, associar famílias com domicílios e empregar amostragem por conglomerados, os quais são constituídos pelos chamados setores censitários (áreas bem delimitadas pelo IBGE, com aproximadamente 300 domicílios cada). Então, sorteia-se um certo número de setores censitários por meio de uma AAS e entrevista-se todas as famílias dentro de cada setor sorteado. Para aumentar a precisão do processo, costuma-se realizar a escolha dos elementos amostrais em duas ou mais etapas (procedimentos multietapas). É o caso do exemplo anterior em que na primeira etapa poderiam ser sorteados os setores censitários e na segunda etapa poderiam ser sorteados somente alguns domicílios (e não considerados todos) para a entrevista. 2.3.3 Considerações adicionais É muito comum, em estudos observacionais com o emprego de levantamentos amostrais, a ocorrência das chamadas não respostas. Isto é, as pessoas podem se recusar a responder total ou parcialmente as perguntas que lhe são formuladas, ou então elas não são encontradas ou localizadas. Outros problemas comumente encontrados são os chamados erros de não cobertura (elementos não registrados no sistema de referência) e erros de elegibilidade (elementos sorteados, mas com perfil inadequado para a pesquisa). Por exemplo, nem todos os domicílios são cobertos por um serviço de Registro de Imóveis e em um domicílio sorteado para uma pesquisa pode-se não encontrar pessoas dentro da faixa etária requerida pelo estudo. Esses problemas são tratados com bastante detalhe por Kish. 01 45
2.4 Considerações finais Nesta unidade foram tratados com mais detalhes alguns dos termos já citados na unidade anterior. Também foram introduzidos novos termos relacionados especificamente aos procedimentos amostrais. A aleatorização foi enfatizada no processo de coleta dos dados para, principalmente, evitar o chamado viés de seleção. Mesmo para populações relativamente pequenas, o emprego de procedimentos amostrais pode agilizar a obtenção da informação e a tomada de decisões. Com isso, economiza-se tempo, recursos físicos, humanos e financeiros. Pode-se obter a informação até com mais precisão, pelo envolvimento de uma equipe menor, mais especializada e com um banco de dados mais reduzido. 2.5 Atividades de aplicação e prática Os métodos de amostragem podem ser mais bem dominados com a simulação dos procedimentos em populações hipotéticas, organizando-se os sistemas de referência e utilizando mecanismos computacionais de sorteio das unidades de observação. 2.5.1 Atividades individuais É muito comum a divulgação de pesquisas, pela mídia, com informações de interesse para a toda a sociedade ou direcionadas para alguns setores específicos. O leitor deve tentar identificar nessas situações o tipo de procedimento de coleta e as populações de abrangência. Um exercício interessante é imaginar, à luz desses novos conhecimentos, a coleta de informações na sua atual ou futura escolha profissional. 2.5.2 Atividades coletivas Na prática, o planejamento e emprego dos métodos de amostragem quase sempre exigem a realização de trabalho multiprofissional. Mesmo que cada membro dessa equipe tenha a sua atribuição específica, o trabalho conjunto pode minimizar os erros e melhorar os resultados de cada atividade. 2.6 Estudos complementares 46 Um procedimento prático interessante, não abordado aqui, com resultados muitas vezes equiparáveis aos da amostragem estratificada é a chamada
amostragem por cotas. Nesse esquema, muito utilizado pelas empresas de pesquisa de mercado, não é necessário um sistema de referência da forma como foi apresentado no texto. A escolha das unidades amostrais é realizada pelo próprio pesquisador de campo, conforme um critério objetivo preestabelecido no planejamento, visando representar na amostra, via cotas, indivíduos com características representativas das observadas na população. 2.6.1 Saiba mais Neste texto só foram tratados os procedimentos amostrais básicos. Os chamados procedimentos complexos envolvem a combinação de dois ou mais desses procedimentos, em um ou mais estágios de amostragem. A primeira das referências, a seguir, é indicada para o interessado em se aprofundar mais neste assunto. 2.6.2 Referências 01 KISH, L. Survey Samplang. New York: John Wiley & Sons, Inc, 1965. 02 SILVA N. N. Amostragem Probabilística: um curso introdutório. São Paulo: EDUSP, 1998. 03 BENZE, B. G. Metodologia Científica e Estatística. In: NUNES SOBRINHO, F. de P.; NAUJORKS, M. I. Pesquisa em Educação Especial: o desafio da qualificação. Bauru: EDUSC, 2001. p. 31-45. 04. Notas de Estatística e Probabilidade. São Carlos: Departamento de Estatística UFSCar, 2007. 120 p. Apostila. 05. Bioestatística Uma iniciação com exemplos em Saúde. Curso de Especialização em Saúde da Família. São Carlos: Unicep, 2008. 71 p. Apostila. 47
Unidade 3 Representação gráfica de dados