Instituto Fernandes Figueira FIOCRUZ Programa de Pós Graduação em Saúde da Criança e da Mulher Disciplina Bioestatística e Computação I 2009 Professores Responsáveis: Maria Virgínia Peixoto Dutra, Vania de Mattos Fonseca Professor Colaborador: Eloane Gonçalves Ramos Apostila Software de Análise Estatística Epi Info Índice Introdução...2 Comandos do grupo Data...3 Read...3 Write...4 Comandos do grupo Variables...4 Display...4 Define...5 Recode...5 Recodificar uma variável categórica...5 Categorizar uma variável numérica...5 Assign...6 Comandos do grupo Statistics...6 List...6 Frequencies...8 Means...8 Comparação de médias entre grupos...9 Graph...9 Histograma...10 Box-plot...10 Gráfico de Barras...11 1
Software de Análise Estatística Epi Info Introdução O Epi Info é um software gratuito que permite a construção de questionários e formulários para entrada de dados, análise estatística, construção de tabelas, gráficos e mapas. Sua primeira versão foi desenvolvida pelo CDC norte-americano em 1985 com o objetivo de promover acesso a uma ferramenta flexível e amigável de análise estatística para investigação de epidemias e vigilância epidemiológica. O público alvo do Epi Info são os profissionais da saúde. O software está disponível gratuitamente na internet, no site do CDC (http://www.cdc.gov/epiinfo/) e, no Brasil, no site do Lâmpada/UERJ (http://www.lampada.uerj.br/epiinfo/download.htm). A versão em português não é recomendada devido a pequenos problemas na análise dos dados e na construção de questionários. Para fins didáticos serão utilizados bancos de dados já coletados de pesquisas anteriores e disponibilizados pelos autores do livro adotado na disciplina. Um banco de dados, antes de ser implementado necessita passar por um processo de planejamento que depende dos objetivos e hipótese da pesquisa, tipo de análise e resultados esperados. O projeto do banco de dados definirá as variáveis que serão coletadas e deve gerar uma documentação contendo o Dicionário de Dados, uma tabela que define cada variável com nome, descrição, tipo, formato, unidades e valores possíveis. Não é o projeto de pesquisa que deve se ajustar a dados já coletados e sim o banco de dados que deve ser desenhado de acordo com o projeto de pesquisa. O planejamento e projeto do banco de dados de pesquisa não faz parte do escopo dessa disciplina e deverá ser tratado em um curso a parte. Abaixo está uma figura com a tela inicial do Epi Info. Elaboração de questionários Entrada de dados Análise estatística O software é composto por vários módulos e ferramentas. O botão "Analyze Data" leva ao módulo de análise estatística, que está ilustrado na próxima figura. O painel à esquerda possui todos os comandos disponíveis, agrupados por objetivo. O painel superior direito mostra os resultados de cada comando executado. O painel inferior direito mostra os comandos que executamos na liguagem interna do Epi Info. Um conjunto de comandos gerará um programa que poderá ser editado e salvo nessa mesma janela. Na janela de comandos, existem vários grupos, sendo os mais relevantes para nós: 2
Data - contém comandos relativos à leitura, escrita e manipulação de tabelas de dados. Variables - comandos utilizados para visualizar e manipular variáveis. Select/If - comandos para seleção e ordenação de registros bem como o comando para realização de tarefas condicionais. Statistics - comandos de análise estatística descritiva e inferencial. Advanced statistics - comandos de modelagem estatística Janela de comandos Janela de resultados Janela de edição de linhas de comandos Comandos do grupo Data Read Permite ler ou abrir um banco de dados para análise. No Epi Info tanto as fichas de entrada de dados (views) quanto as tabelas de dados são armazenadas num mesmo arquivo chamado de "projeto" ou banco de dados. Este banco de dados possui a extensão mdb, que é a mesma utilizada no Access, software de banco de dados do pacote Microsoft Office. Isso permite que tabelas criadas no Epi Info podem ser abertas no Access e vice-versa. Para abrir um banco de dados no o Epi Info: Clicar no comando "Read". Verificar qual é o projeto atual (Current project). Se o projeto atual não for o banco que desejamos analisar o projeto atual deve ser alterado. Para alterar o projeto atual use o botão "change project". Aponte para o banco de dados que se deseja trabalhar. Este comando pode ser utilizado tanto para criar um novo projeto, quanto para abrir um projeto existente. Um mesmo projeto do Epi Info pode conter várias tabelas, que são lilstadas na janela branca. É aconselhável armazenar no mesmo projeto somente tabelas relacionadas a um mesmo tema. Escolher a tabela que se deseja analisar. Clicar no botão "OK". Na Janela de Resultados aparece o nome do banco lido (Current view), o número de registros ou casoslidos (Record count) e a data. Na janela "Program Editor" aparece o comando em sua linguagem de programação. 3
Write As alterações feitas no banco durante a análise não são salvas automaticamente, com exceção da opção "Alow update" do comando "List". Para que outras alterações sejam permanentes, como criação e recodificação de variáveis, é necessário salvar o banco com o comando "Write". Clicar no comando "Write". Em "Output Mode" escolher "Replace". Nunca esquecer de escolher essa opção. Caso a opção "Append" seja escolhida os dados serão acrescentados novamente ao final do banco original. Na opção "File name" clique no quadradinho à direita para escolher o nome do banco de dados atual ou, se desejar, de um novo banco. Na opção "Data table" digite o nome da tabela atual, caso deseje sobreescrever a tabela anterior. Ou digite um novo nome caso deseje criar uma nova tabela. À esquerda, na opção "Variables" pode-se deixar marcado a opção "All" para salvar todas as variáveis. Alternativamente pode-se escoler na lista logo abaixo as variáveis que deseja salvar. Clicar em OK. Comandos do grupo Variables Display Permite mostrar as variáveis contidas no banco de dados, também chamadas de colunas do banco de dados. Mostra também o tipo de variável, o formato e uma descrição, caso tenha sido inserida na criação do banco de dados. Clicar no comando "Display". Não precisa alterar nenhuma opção. Clicar em OK. Verificar, na janela de resultados, os nomes das variáveis, o nome da tabela a qual pertencem e os tipos das variáveis. 4
Define Cria uma nova variável no banco de dados. Clicar no comando "Define". Na caixa "Variable Name" digitar o nome da nova variável. Em "Optional Settings", opção "Variable Type" digite o tipo da variável. Os tipos disponíveis são data (Date), numérica (Numeric), texto (Text) e dicotômica (Yes-No). Na opção "Prompt" digite uma descrição breve da variável, incluindo as unidades. Clique em Ok. Para se certificar de que a variável foi criada utilize o comando "Display". Recode Recodifica uma variável. Pode ser utilizada para alterar os códigos utilizados em uma variável categórica (ex: sexo 1 e 2 para masculino e feminino) ou para categorizar uma variável numéricar (ex: IMC para estado nutricional "normal", "sobrepeso" e "obeso"). Clicar no commando "Recode". Na opção "From", escolher a variával que deseja-se recodificar ou categorizar. Na opção "To", escolher a variável que receberá a nova codificação. Pode ser a mesma variável, como no caso de sexo 1 e 2 para masculino e feminino. Ou pode ser uma variável diferente, como no caso do IMC para estado nutricional. Nesse caso, a nova variável categorizada deve ser criada anteriormente com o comando "Define". Recodificar uma variável categórica Na tabela de codificação serão preenchidas apenas duas colunas: "Value" e "Recoded Value". Deixar a coluna "To Value" em branco. Será utilizada uma linha para cada código existente. Na primeira linha preencha a coluna "Value" com o primeiro código (no exemplo "1"). Teclar <Enter> para passar para a segunda coluna ("To Value") e <Enter> novamente para passar para a coluna "Recoded Value". Digite o novo código desejado (no exemplo "Masculino"). Veja a figura. Teclar <Enter> para criar a segunda linha. Esse processo será repetido para cada código existente na variável. Nada será mostrado na janela de resultados. Para verificar se a recodificação foi realizada corretamente deve-se inspecionar os dados com o comando "List". Categorizar uma variável numérica Uma variável numérica será categorizada para uma nova variável categórica. Será criado um código para cada faixa de valores da variável original. As faixas serão definidas nas colunas "Value" e "To Value" e o código na coluna "Recoded Value". Na primeira linha preencha a coluna "Value" com o limite inferior da primeira faixa. Teclar <Enter> para passar para a seguda coluna ("To Value"). Digite o limite superior da faixa. Teclar <Enter> e digitar o código da faixa na coluna "Recoded Value". Repetir esse processo para cada faixa que desejar criar. 5
As palavras "LOVALUE" e "HIVALUE" podem ser utilizadas para representar os valores mínimo e máximo respectivamente. Assim, na primeira linha da figura anterior a faixa de LOVALUE a 25 representa os valores menores ou iguais a 25. Analogamente, na última linha a faixa 35 a HIVALUE representa os valores maiores que 35. As faixas são sempre definidas como > "Value" e "To Value". Assign Atribui valores a uma variável, podendo calcular expressões matemáticas e lógicas a partir de outras variáveis. Clicar no commando "Assign". Na opção "Assign Variable" escolher a variável que vai receber novos valores. Se essa variável ainda não exsite, deve ser criada previamente com o comando "Define". Na caixa "=Expression", entre com a expressão matemática ou lógica que se deseja calcular. Utilize a caixa "Available Variables" para escolher entre variáveis existentes e os botões de operações matemáticas e lógícas, à direita, para construir a expressão. Nada aparecerá na janela de resultados. Portanto, para se certificar de que a expressão foi calculada corretamente, liste os dados com o comando "List". Comandos do grupo Statistics List Permite listar os dados contidos no banco no formato de tabela. Cada coluna representa uma variável do banco e cada linha representa um registro, ou um caso, ou um elemento da amostra. Clicar no comando "List". As opções "Display Mode" alteram a forma como a listagem de dados é feita. Na opção "Web(HTML)" a listagem terá a forma parecida com a listagem de variáveis feita pelo comando "Display" (figura acima). Esta é a melhor opção para copiar e colar a listagem de dados em outro documento como o Word. Na opção "Grid" a listagem é feita como na figura abaixo. Copiar e colar não é permitido. A opção "Allow Updates" permite alterar os dados do banco. Não use a não ser que tenha muita certeza disso! Os dados são alterados no mesmo instante e o software não pede nenhuma confirmação. Deixe o "Display Mode" na opção "Grid" e clique em Ok. Os dados serão listados na janela de resultados. 6
Identificar os casos (registros) nas linhas e as variáveis nas colunas. Identificar as variáveis quantitativas discretas e contínuas e as variáveis categóricas. A opção "Variables" permite escolher somente algumas variáveis para serem mostradas. É muito útil quando o banco possui grande quantidade de variáveis. Cada variável escolhida na caixa aparece na lista logo abaixo. Clicar no comando "List" novamente e escolher apenas algumas variáveis. Clicar em Ok. 7
Frequencies Constrói uma tabela de frequência absoluta, relativa e acumulada. Deve ser utilizada apenas para variáveis categóricas ou ordinais. Clicar no comando "Frequencies". Na caixa "Frequency of", escolher uma ou mais variáveis para as quais se deseja calcular as frequências. Será gerada uma tabela de frequências para cada variável escolhida. Na janela de resultados é mostrada cada tabela de freqüências com várias colunas. A primeira coluna mostra cada valor encontrado na variável. Na segunda é mostrada a freqüência absoluta, em seguida a freqüência relativa percentual e na quarta coluna é mostrada a freqüência cumulativa, que permite identificar os percentis, caso a variável seja ordinal. Means Calcula as medidas resumo numéricas: média, mediana, moda, mínimo, máximo, variância, desvio-padrão e quartis. Mostra também o número de casos válidos (não nulos) e a soma total da variável. Utilizada apenas com variáveis numéricas. Clicar no comando "Means". Na caixa "Means of", escolher a variável desejada. Clicar no botão "Settings" e desmarcar a opção "Show Tables in Output". Isso desativa a visualização da tabela de frequência que, nesse caso, seria inútil. Essa opção será útil quando desejarmos identificar percentis. Clicar em Ok para voltar para a tela de configuração do comando Means. Clicar e em Ok novamente. Verificar os resultados na janela de saída. 8
Comparação de médias entre grupos A caixa "Cross-tabulate by Value of" permite escolher uma variável de agrupamento. Por exemplo, quando deseja-se calcular a média, a mediana etc de pressão sanguínea segundo o sexo. Clicar no comando "Means". Na caixa "Means of", escolher a variável desejada. Clicar no botão "Settings" e desmarcar a opção "Show Tables in Output". Na opção "Cross tabulate by value of", escolher a variável de agrupamento. Na janela de resultados serão mostradas as medidas resumo para cada valor da variável de agrupamento. Rolando a janela de resultados para baixo serão mostrados os resultados do teste de hipótese de diferença de médias entre grupos, realizado automaticamente pelo Epi Info. São mostrados o valor da estatística de teste t e o p-valor. A ANOVA é o teste para diferença de médias entre mais de dois grupos. Graph Constrói vários tipos de gráficos para análise visual. Clicar no comando "Graph". A opção "Graph type" permite escolher o tipo de gráfico desejado. Os tipos disponíveis são: linha (line), barras (bar), barras horizontais (rotated bar), histograma (histogram), linhas suavizadas (spline), pontos (point), torta ou pizza (pie), área (area), pareto ou soma acumulada (pareto), dispersão (scatter X-Y), boxplot (box-whisker), entre outros. 9
Histograma Próprio para visualizar distribuição de probabilidade de variáveis numéricas, sejam discretas ou contínuas. A variável será classificada em faixas que podem ser escolhidas pelo usuário. Escolha "Histogram" na opção "Graph Type". Na opção "X-axis", "Main Variable(s)", escolha a variável para a qual deseja-se fazer o histograma. Essa será a variável do eixo X (horizontal). Na opção "X-axis", "Label", digite a legenda do eixo X. Colocar sempre o nome completo da variável e as unidades. Lembre-se que geralmente o gráfico não é pra você e sim para alguém externo a sua pesquisa. Em "Y-axis", "Show Value of" escolha se o eixo Y (vertical) apresentará a frequência absoluta (Count) ou relativa (Count %). Em "Y-axis", "Label" digite a legenda do eixo Y. Colocar sempre a legenda mais informativa possível e sempre indicar se é percentual ou não. O Epi Info calcula automaticamente o número de barras e o intervalo. Para intervalos diferentes deve-se utilizar as opções "Interval" e "1st value". Na opção "Interval" entre com o intervalo de cada barra do histograma e na opção "1st value" digite o primeiro valor do eixo X do histograma. Uma nova janela é mostrada com o histograma feito. Enquanto essa janela ela não é fechada o Epi Info não volta para a análise. Após fechar a janela do gráfico, esse será mostrado numa versão menor na janela de resultados. Box-plot Esse é o gráfico mais adequado para comparar distribuições de uma variável numérica entre categorias de uma outra variável, por exemplo variação da frequência cardíaca por faixa etária. Será sempre uma comparação da distribuição de uma variável numérica entre as categorias de uma variável categórica. Clicar no comando "Graph". Escolha "Box-Whisker" na opção "Graph type". Na opção "Analyze", "Variables" escolha a variável numérica que se deseja conhecer a distribuição. No exemplo de variação da frequência cardíaca por faixa etária seria "frequência cardíaca". Essa será a variável do eixo Y (vertical). Na opção "Series", "Bar for Each Value of" escolha a variável categórica que definirá o agrupamento. No exemplo de variação da frequência cardíaca por faixa etária seria "faixa etária". Essa será a variável do eixo X (horizontal). Na opção "Analyze", "Label" digite a legenda do eixo X. Colocar sempre o nome completo da variável e as unidades da variável categórica. Na opção "Display", "Label" digite a legenda do eixo Y, ou seja, da variável numérica. 10
Na opção "Display", "Box-Whisker Type" escolha Median-25%-5%. Essa opção mostrará a mediana com cada caixa representando o intervalo interquartílico e as barras representando os percentis 5 e 95. Clique em Ok. No box-plot resultante a barra inferior se extende até o percentil de 5%. A caixa engloba os 50% valores mais freqüentes, onde o limite inferior representa o 1o quartil e o superior o 3o quartil (intervalo interquartílico). A barra superior se extende até o percentil 95%, enquanto o ponto central indica a mediana. Fechar a janela do gráfico para retornar para a análise. Gráfico de Barras Próprio para visualizar distribuição de probabilidade de variáveis categóricas ou ordinais. Escolha "Bar" na opção "Graph Type". Na opção "X-axis", "Main Variable(s)", escolha a variável para a qual deseja-se fazer o gráfico de barras. Essa será a variável do eixo X (horizontal). Na opção "X-axis", "Label", digite a legenda do eixo X. Colocar sempre o nome completo da variável e as unidades. Lembre-se que geralmente o gráfico não é pra você e sim para alguém externo a sua pesquisa. Em "Y-axis", "Show Value of" escolha se o eixo Y (vertical) apresentará a frequência absoluta (Count) ou relativa (Count %). Em "Y-axis", "Label" digite a legenda do eixo Y. Colocar uma legenda mais informativa possível e sempre indicar se é percentual ou não. Fechar a janela do gráfico para retornar para a análise. 25 20 % de pacientes 15 10 5 0 0 1 2 3 4 5 6 7 8 9 Apgar no 5o minuto 11