1 Dirce Maria Trevisan Zanetta ETAPAS DO MÉTODO ESTATÍSTICO 1.1 Introdução 1.2 As etapas do Método Estatístico 1.2.1 Planejamento do estudo 1.2.2 Coleta de dados Fontes de dados 1.2.3 Apuração dos dados 1.2.4 Apresentação dos resultados 1.2.5 Análise e interpretação 1.3 Erros aleatório e sistemático 1.4 Conclusão Referências Métodos estatísticos: coleta, tratamento e análise de dados; aplicação nas pesquisas de saúde pública, controle de doenças e epidemias. Licenciatura em Ciências USP/ Univesp
O material desta disciplina foi produzido pelo Centro de Ensino e Pesquisa Aplicada (CEPA) do Instituto de Física da Universidade de São Paulo (USP) para o projeto Licenciatura em Ciências (USP/Univesp). Créditos Coordenação de Produção: Beatriz Borges Casaro. Design Instrucional: Juliana Moraes Marques Giordano, Melissa Gabarone, Michelle Carvalho e Vani Kenski. Estagiárias: Maria Angélica S. Barrios e Tainã Pereira Damião. Projeto Gráfico: Daniella de Romero Pecora, Leandro de Oliveira, Priscila Pesce Lopes de Oliveira e Rafael de Queiroz Oliveira. Diagramação: Daniella de Romero Pecora, Leandro de Oliveira e Priscila Pesce Lopes de Oliveira. Ilustração: Alexandre Rocha, Aline Antunes, Benson Chin, Camila Torrano, Celso Roberto Lourenço, João Costa, Mauricio Rheinlander Klein e Thiago A. M. S.
Licenciatura em Ciências USP/Univesp Módulo 5 3 1.1 Introdução Nesta primeira aula, vamos estudar o que é o método estatístico e sua importância, bem como rever alguns conceitos estudados anteriormente, utilizados para a análise estatística descritiva de dados. Serão apresentadas as principais fontes de dados utilizados para o estudo da saúde em populações. Vamos definir erros aleatórios e sistemáticos que podem ocorrer na coleta e análise de dados, como também entender o que os diferencia. O conhecimento é construído a partir da acumulação de informações, consolidando-se por meio de permanente atualização, confrontando informações antigas e novas, adquiridas a todo momento. Esse processo é particularmente importante na saúde pública. Por exemplo, a relação entre o nível de atividade física e a ocorrência de doenças cardíacas tem sido verificada em vários estudos que avaliam diferentes aspectos dessa relação, como o tipo ou a quantidade de atividade, e relacionam essas informações com a mudança de estilo de vida no último século, com a urbanização da população, o aumento do sedentarismo, as mudanças na alimentação das pessoas etc. Saber o número de pessoas que contraem uma nova variedade de vírus da gripe, como foi o caso das infecções por H1N1 em 2009, e avaliar a tendência ao longo do tempo do número de infectados é importante para o planejamento dos cuidados necessários para o controle da sua transmissão. A estatística é utilizada para descrever e analisar os resultados de levantamentos e também como uma ferramenta na pesquisa científica, para tomar decisões com base em experimentos controlados. Atenção! É importante conhecer os fundamentos estatísticos para fazer pesquisa, mas esse conhecimento também é útil para a leitura e compreensão das publicações científicas em sua área de atuação ou outras, aumentando sua capacidade de julgar a validade dos resultados obtidos. Para isso, é necessário conhecer o vocabulário, os símbolos, os conceitos e os procedimentos estatísticos. Quando se diz que a temperatura de uma pessoa está normal, que ela tem níveis séricos de colesterol aumentados, que o diabetes ocorre em 20% da população adulta ou que o fumo aumenta o risco de câncer de pulmão, estas são informações que resultaram de observação, cálculos, análises e julgamentos. Métodos estatísticos: coleta, tratamento e análise de dados; aplicação nas pesquisas de saúde pública, controle de doenças e epidemias.
4 Licenciatura em Ciências USP/Univesp Módulo 5 A estatística é a área da ciência preocupada com a extração de informação de dados numéricos (estatística exploratória ou descritiva) e em fazer inferência, isto é, a partir da observação de uma parte (da amostra), poder fazer afirmações sobre o todo (a população da qual os dados foram obtidos). As informações são obtidas do processamento de dados, relacionando os fatos por eles descritos e encontrando significado naquilo que se observa. Para isso, os dados são coletados, registrados, classificados, organizados, analisados e interpretados, auxiliando a tomada de decisões ante a incerteza. Esse processo compreende o método estatístico. Pronto para conhecer essas etapas? Veja a seguir. 1.2 As etapas do Método Estatístico 1.2.1 Planejamento do estudo Para prepará-lo, é necessário definir e formular corretamente o problema a ser estudado. Com base nessa definição é possível fazer o planejamento adequado da pesquisa, decidindo qual a população que será avaliada. É nesta fase que se decide pela observação da população ou por uma amostra dessa população. Se esse for o caso, é calculado o tamanho da amostra. Uma população é definida como um conjunto de pessoas com uma característica (ou várias) comum. Em geral, é definida por critérios geográficos, mas, em pesquisa, também pode ser definida por características clínicas, demográficas e temporais. Por exemplo, podemos estar interessados em estudar a população de pacientes com diagnóstico de diabetes ou os idosos. Quando os dados são obtidos da população inteira, é feito um censo ou levantamento censitário. Como já foi visto no módulo 3, em Estatística, uma característica ou medida com todos os valores de dados de uma população específica é denominada parâmetro. O interesse de conhecimento em geral é obter ou saber as características populacionais, os parâmetros da população ou funções desses parâmetros. No entanto, raramente é possível estudar todos os indivíduos da população, considerando o custo e a logística. A abordagem, então, é estudar uma amostra, que é uma parte da população. O interesse, entretanto, continua sendo conhecer aspectos da população que a amostra está representando. A melhor forma de escolha da amostra a ser estudada é por amostragem aleatória simples ou casualizada, em que cada indivíduo da população tem chance conhecida de participar. 1 Etapas do método estatístico
Licenciatura em Ciências USP/Univesp Módulo 5 5 Outras formas de amostragem são a estratificada e a sistemática. Entretanto, no estudo das doenças e suas causas, raramente é possível a amostragem aleatória. Por exemplo, para estudar pacientes com diabetes, em geral, eles são recrutados em clínicas ou hospitais e não são escolhidos ao acaso para visitar a clínica ou hospital. De fato, é impossível identificar toda a população de pacientes com diabetes. Em muitas situações, por razões de custo (dinheiro e tempo) ou por problemas éticos, por exemplo, não se pode fazer um estudo experimental, selecionando ao acaso quem vai ser ou não exposto. Muitos estudos envolvem seres humanos e não é possível expô-los a fatores que se suspeita sejam de risco para a ocorrência da doença para fazer o estudo. Nesses casos, é necessário fazer estudos observacionais, em que se avaliam pessoas que estão de alguma forma expostas a esses fatores. Por exemplo, para avaliar o papel do hábito de fumar na ocorrência de câncer de pulmão, não se pode sortear os indivíduos de forma aleatória para que fumem, mas podemos estudar aqueles que por vontade própria fumam e compará-los com outros indivíduos que não fumam. Também no planejamento devem ser escolhidas as variáveis que serão medidas e a forma como essas medidas serão feitas, assim como a forma como elas serão analisadas. 1.2.2 Coleta de dados A coleta de dados é feita por meio de variáveis que são as características observadas e registradas para cada elemento de uma amostra. Quando se decide qual variável deve ser medida, também é necessário escolher a forma como vai ser medida. A coleta dos dados é etapa importante em uma pesquisa. Se ela não for bem feita, compromete as etapas posteriores, que são a análise dos dados e as conclusões tiradas com os resultados da pesquisa. Fontes de dados Os dados podem ser primários, quando coletados pelo próprio pesquisador e sua equipe; ou secundários, quando são obtidos de outras fontes, como em institutos de pesquisa, bases de dados epidemiológicos ou administrativos como: DATASUS, IBGE, sistema de notificação Métodos estatísticos: coleta, tratamento e análise de dados; aplicação nas pesquisas de saúde pública, controle de doenças e epidemias.
6 Licenciatura em Ciências USP/Univesp Módulo 5 obrigatório de doenças (SINAM), da OMS (Organização Mundial de Saúde) etc. O levantamento dos dados pode ainda ser feito no registro de óbitos ou de nascimentos, por exemplo. Esses dados podem ser coletados de forma contínua, como o registro de óbito, ou periódica, como os dados de recenseamento feito pelo IBGE a cada década ou ainda de forma pontual, como em situações de ocorrência de uma epidemia. O prontuário médico tem um papel importante na prática médica: é o meio de comunicação, registrando as informações necessárias para seguimento do paciente, mas também é uma fonte de dados para pesquisa. Outras fontes de dados para estudo das doenças são as notificações de acidentes de trabalho, resultados de exames laboratoriais etc. Os dados primários podem ser obtidos por meio de questionários, autorresponsivos (o próprio indivíduo que participa do estudo lê e responde ao questionário) ou aplicados por um entrevistador, pessoalmente ou por telefone, ou ainda enviado pelo correio, ou respondido pela internet. 1.2.3 Apuração dos dados Após a coleta dos dados, eles devem ser analisados. Para isso, deve ser feita a sua conferência e a construção de um arquivo de dados, em geral uma planilha, em que cada variável tem seu nome no topo de cada coluna e cada linha recebe os valores obtidos de cada sujeito, como no exemplo a seguir. Após isso, é necessário verificar se houve erros na digitação, se existe algum valor não aceitável. Tabela 1.1: Exemplo de Planilha de Dados Em geral, nessa etapa, o cálculo das frequências de cada variável facilita essa conferência. Em pesquisa, é comum que os dados sejam digitados de forma independente por dois digitadores e, a seguir, é feita a comparação das duas planilhas para identificar possíveis diferenças entre elas, permitindo identificar com mais facilidade eventuais erros de digitação, uma vez que é muito difícil que os dois digitadores cometam o mesmo erro. 1 Etapas do método estatístico
Licenciatura em Ciências USP/Univesp Módulo 5 7 A análise exploratória permite perceber informações contidas nos dados. Ela organiza, resume e apresenta os dados (gráficos e tabelas), permite verificar presença de erros nas medidas, como, por exemplo, uma idade registrada de 800 anos, e avaliar se os dados podem ser analisados com os testes estatísticos que se pretende. Algumas técnicas estatísticas supõem que os dados se ajustam a uma determinada forma de distribuição, como a distribuição normal, por exemplo, ou que o gráfico de uma variável em função de outra resulta em uma linha reta e a análise exploratória permite avaliar se essas suposições são aceitáveis. 1.2.4 Apresentação dos resultados Para entender as formas de distribuição, as tendências, associações que existem nos dados, não basta simplesmente olhar para eles. A menos que sejam organizados de forma sistemática, eles permanecem como um monte de números somente. O que fazemos, então, é criar sumários dos dados por meio de alguns números chamados de estatísticas, como foi estudado em disciplinas anteriores. As médias, com seus desvios-padrão, as medianas, proporções (ou porcentagem) etc. são todas estatísticas, as estatísticas básicas, utilizadas para a descrição dos dados. Para facilitar a visualização dos dados e auxiliar na sua compreensão, também construímos gráficos e tabelas com os sumários dos dados. Essa etapa da análise é denominada estatística descritiva ou análise exploratória de dados. Esta última denominação realça o papel mais descritivo dos gráficos, tabelas e estatísticas básicas. 1.2.5 Análise e interpretação Os dados podem ser qualitativos ou quantitativos. Essa é uma distinção importante, pois os métodos estatísticos para estas duas grandes classes de dados são bem diferentes. Os dados qualitativos são os medidos em categorias, por exemplo, sexo (masculino ou feminina), estado conjugal (solteiro, casado, divorciado, viúvo), etc. Esses exemplos são de dados qualitativos nominais. Quando as categorias da variável podem ser ordenadas, por exemplo, excelente, satisfatório e não satisfatório, ou estadiamento de um câncer (em geral classificados em estágios 1, 2, 3 ou 4, em que a gravidade aumenta de forma crescente com a classificação), Métodos estatísticos: coleta, tratamento e análise de dados; aplicação nas pesquisas de saúde pública, controle de doenças e epidemias.
8 Licenciatura em Ciências USP/Univesp Módulo 5 isto é, quando, ao compararmos duas categorias de uma variável, sabemos qual é a melhor ou a maior, esses dados são denominados qualitativos ordinais. Quando os dados são numéricos, são chamados dados quantitativos. São dados quantitativos discretos, quando assumem valores que podem ser contados (números inteiros). Ex. número de filhos, número de alunos em uma classe, etc. São contínuos quando obtidos através de medidas. Podem assumir todos os valores entre quaisquer dois valores especificados. Ex. peso, altura, tempo, nível de glicemia etc. Os dados qualitativos (as variáveis categóricas) são resumidos por meio da frequência com que as observações estão presentes em cada categoria. São apresentados em forma de tabelas de frequência ou em gráficos de barras, de colunas ou de setores (as pizzas). Os dados quantitativos podem ser resumidos por meio de estatísticas, as características numéricas de uma amostra. Existem as estatísticas básicas, que resumem os dados para estimativas de medida de tendência central e de dispersão dos dados. Essas medidas amostrais podem ser utilizadas para inferir sobre os parâmetros populacionais. As medidas de tendência central descrevem a localização central de uma distribuição (conjunto de observações) e são as chamadas estimativas pontuais. As mais comuns são a média aritmética (somatória das medidas dividida pelo tamanho da amostra), a mediana (valor central que divide os dados de forma que 50% dos valores fiquem acima da mediana) e a moda (observação mais frequente). Para lembrar, a média X é calculada pela fórmula: onde: Xi i-ésimo valor da variável X; X n Σ i = =1 X n i S soma. Σ n X i i= 1 = soma de todas as observações de 1 a n n = tamanho da amostra X representa a anotação de média de uma amostra e deve ser distinguida da média da população, que é geralmente representada pela letra grega µ. 1 Etapas do método estatístico
Licenciatura em Ciências USP/Univesp Módulo 5 9 Para poder ter uma ideia da variação dos valores dos dados, estimam-se também as medidas de dispersão, que indicam quanto os dados se agrupam em torno da medida de tendência central. A variância estima o desvio médio dos valores dos indivíduos em relação à média do grupo. As diferenças são elevadas ao quadrado para que elas não possam se anular (pela somatória de desvios acima e abaixo da média). Entretanto, ela passa a ter como unidade aquela da variável ao quadrado, que nem sempre é de fácil entendimento. Assim, uma medida de dispersão muito utilizada é a da raiz quadrada da variância, o chamado desvio-padrão, com unidade igual à da variável. A variância S 2 é soma dos desvios quadrados de valores individuais em relação à média dividida pelo tamanho da amostra menos 1: e o desvio-padrão é: S = n =Σ 2 i 1 ( Xi X) n 1 2 S S 2 S 2 representa a anotação de variância da amostra e deve ser distinguida da variância da população, geralmente representada pela letra grega σ 2. A fase posterior da análise descritiva ou exploratória é a análise confirmatória. Veremos em outras aulas alguns dos métodos utilizados para essa análise. O propósito da análise estatística é descrever e resumir dados, comparar variáveis, identificando relações e diferenças entre elas, e fazer previsões. Permite tomar decisões sobre as características da população a partir de dados obtidos na amostra. A interpretação dos resultados inclui relacioná-los com outros conhecimentos adquiridos anteriormente. 1.3 Erros aleatório e sistemático Como já vimos anteriormente, os parâmetros populacionais são os valores verdadeiros da população, isto é, aqueles que obteríamos se a população inteira fosse avaliada. Eles são em geral representados por letras gregas como nos exemplos do quadro a seguir: Métodos estatísticos: coleta, tratamento e análise de dados; aplicação nas pesquisas de saúde pública, controle de doenças e epidemias.
10 Licenciatura em Ciências USP/Univesp Módulo 5 População: Média = µ Variância = s 2 Proporção = p Amostra: Média = x estimador de µ Variância = S 2 estimador de s 2 Proporção = p estimador de p Em geral, a pesquisa é feita em uma amostra utilizada para, a partir dos dados obtidos nela, inferir o que ocorre com a população da qual ela foi retirada. Isso significa que, com os dados dessa amostra, por meio de um estimador, que é a fórmula utilizada, faz-se a estimativa dos parâmetros populacionais. O estimador é então a regra que diz como calcular a estimativa, que por sua vez é o valor obtido. Por exemplo, a média e desvio-padrão amostrais são estimadores da média e desvio-padrão da população, e os valores da média e desvio-padrão obtidos com os cálculos feitos com os dados da amostra são as estimativas. A inferência estatística é o processo de extrapolar para a população as informações obtidas a partir da observação de uma amostra dessa população. As estimativas são feitas com os dados coletados das variáveis medidas. Para descrever o comportamento de uma variável qualquer na população, precisamos de instrumentos de medidas que sejam precisos e exatos. Precisão é a capacidade do instrumento de medida de obter resultados com pequena variação ao fazer medidas repetidas de um mesmo objeto. A exatidão é a capacidade do instrumento de obter valores próximos do valor real da grandeza que se pretende medir. Se imaginarmos que o parâmetro populacional é o centro de um alvo de um atirador, no primeiro alvo à esquerda do Quadro 1.1 temos um atirador preciso com uma arma bem calibrada (exata). À direita, temos também um atirador preciso, mas usa arma que não está calibrada (não é exata). Já nos dois alvos inferiores, temos exemplo de atirador não preciso com uma arma exata (à esquerda) e não exata (à direita). 1 Etapas do método estatístico
Licenciatura em Ciências USP/Univesp Módulo 5 11 Quadro 1.1: Precisão e Exatidão. / Fonte: Adaptado de Jekel, 2005. O resultado de um estudo é válido quando seus resultados estão próximos do parâmetro que se deseja estimar, isto é, os parâmetros são estimados com exatidão. O estudo é preciso quando existe pouca variabilidade dos resultados se forem feitas replicações desse estudo. Toda observação é feita por meio de um instrumento, seja uma aferição visual, seja um peso por balança mecânica ou eletrônica, seja por uma dosagem laboratorial de uma substância na urina ou no sangue, ou mesmo por uma simples pergunta sobre qual é o sexo de uma pessoa. Todas as observações estão sujeitas a dois tipos de erros: Sistemáticos Erros Aleatórios O erro sistemático é aquele que produz um desvio determinado em relação ao valor verdadeiro que se quer estimar. Assim, por exemplo, se o peso dos indivíduos de uma amostra é medido em uma balança não calibrada, o peso médio estimado nessa amostra não vai representar o peso médio desses indivíduos e, portanto, a estimativa do parâmetro populacional será errada, isto é, não será exata. Métodos estatísticos: coleta, tratamento e análise de dados; aplicação nas pesquisas de saúde pública, controle de doenças e epidemias.
12 Licenciatura em Ciências USP/Univesp Módulo 5 Esse tipo de erro deve ser previsto e evitado no planejamento do experimento, com os cuidados necessários de calibração dos instrumentos, com a validação dos questionários etc. Uma vez que tenha ocorrido, se o valor do erro for conhecido, é possível ajustar os valores obtidos, corrigindo o erro. No exemplo acima, se soubermos que a balança pesava 2 kg a mais do que o peso real, a retirada de 2 kg em cada indivíduo vai corrigir o erro da medida realizada. Essa é uma situação pouco frequente. Outro exemplo de erro sistemático ocorre quando se seleciona uma amostra que não representa a população, como por exemplo: escolher jogadores de basquete para estimar a altura média da população. É evidente que jogadores de basquete não representam a população em geral no que diz respeito à altura. Em geral, não sabemos como corrigir esse tipo de erro na observação feita e é necessário fazer o experimento outra vez. O erro aleatório, por sua vez, decorre da variabilidade que existe tanto com os indivíduos que compõem a população, como entre diferentes populações. Isso significa que, toda vez que um experimento for realizado, os resultados vão ser diferentes dependendo dos indivíduos que vão ser selecionados para compor a amostra. Diferentes amostras de uma população devem resultar em diferentes estimativas de peso médio, pois os pesos variam entre as pessoas selecionadas em cada amostra. As médias calculadas em diferentes amostras variam em torno do verdadeiro valor da média, e essa variabilidade representa o erro aleatório. A estatística consegue calcular o efeito do erro aleatório nas estimativas feitas. Nós veremos como isso é feito nas próximas aulas. 1.4 Conclusão Aprendemos nesta aula o que é o método estatístico e as suas etapas, que consistem no planejamento do estudo, coleta e apuração dos dados, apresentação, análise e interpretação dos resultados. Vimos que para o estudo das doenças e de seu controle são utilizadas diversas fontes de dados, que podem ser primários, quando coletados pelo próprio pesquisador e sua equipe, ou secundários, quando obtidos de outras fontes e não coletados diretamente pelo pesquisador. 1 Etapas do método estatístico
Licenciatura em Ciências USP/Univesp Módulo 5 13 Aprendemos os conceitos de precisão, que é a ausência de erros aleatórios, e de exatidão, quando há ausência de erro sistemático. São necessários cuidados especiais para evitar o erro sistemático, escolhendo instrumentos de medidas bem calibrados e observando os cuidados para seleção de amostra representativa da população, por exemplo, pois ele interfere na exatidão das medidas. O erro aleatório acontece pela variabilidade dos indivíduos que compõem uma população e influi na precisão das medidas feitas em uma amostra. Ele pode ser estimado e controlado por métodos estatísticos. Na próxima aula, vamos aprender o que é a inferência estatística e como a estimativa da probabilidade do erro aleatório auxilia na tomada de decisão para se fazer a inferência. Agora é a sua vez... Acesse o Ambiente Virtual de Aprendizagem e realize a(s) atividade(s) proposta(s). Referências Bonita, R.; Beaglehole, R.; Kjellström, T. Epidemiologia Básica. 2.ed. São Paulo: Santos, 2010. Dawson-Sanders, B.; Trapp, R.G. Bioestatística Básica e Clínica. 3.ed. Rio de Janeiro: Lange- Appleton & Lange/ Mc Graw-Hill, 2001. Jekel, J. F.; Katz D. L.; Elmore, J. G. Epidemiologia, Bioestatística e Medicina Preventiva. 2. ed. Porto Alegre: Artmed, 2005. Lopes, A. P. Probabilidades e Estatística. Rio de Janeiro: Reichmann & Affonso, 2000. Magalhães, M. N. Noções de Probabilidade e Estatística. 6. ed. São Paulo: Edusp, 2008. Massad, E. et al. Métodos Quantitativos em Medicina. São Paulo: Manole, 2004. Pagano, M. et al. Princípios de Bioestatística. Tradução da 2.ed. norte-americana. São Paulo: Thompson Learning, 2006. Métodos estatísticos: coleta, tratamento e análise de dados; aplicação nas pesquisas de saúde pública, controle de doenças e epidemias.
14 Licenciatura em Ciências USP/Univesp Módulo 5 Glossário Dados primários: aqueles coletados pelo próprio pesquisador e sua equipe. Dados secundários: aqueles obtidos de outras fontes e não coletados diretamente pelo pesquisador. Erro aleatório: considerando que, geralmente, trabalhamos com uma amostra, é a estimativa diferente do valor populacional, dependendo da amostra que temos, e que ocorre pela variabilidade que normalmente existe entre os indivíduos que compõem a população. Erro sistemático: desvio na estimativa em relação ao valor verdadeiro que se quer estimar, em geral decorrente de falhas no instrumento de medida ou na seleção da amostra. Estatística: é a área da ciência preocupada com a extração de informação de dados numéricos (estatística exploratória ou descritiva) e em fazer inferência, isto é, a partir da observação de uma parte (da amostra), poder fazer afirmações sobre o todo (a população da qual foram obtidos os dados). Estimador: regra que diz como calcular a estimativa, isto é, a fórmula utilizada para fazer a estimativa dos parâmetros populacionais. Estimativa: resultado do cálculo dos dados usando um estimador. Etapas do Método Estatístico: planejamento do estudo, coleta e apuração dos dados, apresentação, análise e interpretação dos resultados. Exatidão: a capacidade do instrumento de obter valores próximos do valor real da grandeza que se pretende medir. Inferência estatística: conjunto de técnicas que permite, a partir de dados amostrais, tirar conclusões sobre a população de interesse, controlando erros. Parâmetro: uma característica de uma população. Precisão: capacidade do instrumento de medida de obter resultados com pequena variação ao fazer medidas repetidas de um mesmo objeto. 1 Etapas do método estatístico