1 Organização de dados quantitativos Uma contribuição importante da estatística no manejo das informações foi a criação de procedimentos para a organização e o resumo de grandes quantidades de dados. A descrição das variáveis é imprescindível como um passo prévio para a adequada interpretação dos resultados de uma investigação, e a metodologia empregada faz parte da estatística descritiva. Os dados podem ser organizados em tabelas ou gráficos. Neste capítulo, serão apresentados conceitos básicos para a montagem e a apresentação dessas estruturas quando os dados são quantitativos. Para a descrição dos dados podem-se utilizar, além de tabelas e gráficos, medidas de tendência central e de dispersão, que serão abordadas em capítulos subseqüentes. Suponha que, ao estudar a quantidade de albumina no plasma de pessoas com determinada doença, um pesquisador obtenha, em 25 indivíduos, os seguintes valores (em g/100 ml): 5,1 4,9 4,9 5,1 4,7 5,0 5,0 5,0 5,1 5,4 5,2 5,2 4,9 5,3 5,0 4,5 5,4 5,1 4,7 5,5 4,8 5,1 5,3 5,3 5,0 Dos dados obtidos, o pesquisador pode concluir inicialmente que: (1) Os valores de albumina nos pacientes variam de indivíduo para indivíduo. (2) Alguns indivíduos apresentam valores iguais. (3) Os valores oscilam entre 4,5 e 5,5. As duas primeiras conclusões são obtidas de forma imediata, mas a terceira exige paciência e atenção, especialmente se a amostra for grande. Organizando os dados em tabelas de freqüências, nas quais se indicam os valores obtidos e a freqüência com que ocorrem, estas e outras conclusões podem ser obtidas mais rapidamente e com menor probabilidade de erro.
20 Sidia M. Callegari-Jacques DISTRIBUIÇÕES DE FREQÜÊNCIAS: TABELAS Tabela de grupamento simples As tabelas de grupamento simples mostram os valores obtidos e o número de vezes que cada valor foi observado. Inicia-se a construção de uma tabela de grupamento simples procurando-se o menor valor obtido. A partir dele, organiza-se uma lista por ordem crescente dos valores que podem ocorrer (coluna 1 da Tabela 1.1). A seguir, volta-se aos valores anotados de forma desorganizada e, lendo um a um, marca-se um traço vertical ao lado do valor correspondente na tabela (tabulação ou contagem). TABELA 1.1 Taxa de albumina (g/100 ml) no plasma de 25 pacientes Albumina (x) Contagem f fr F Fr 4,5 / 10,04 10,04 4,6 0 0,00 10,04 4,7 // 2 0,08 3 0,12 4,8 / 10,04 4 0,16 4,9 /// 3 0,12 7 0,28 5,0 //// 5 0,20 12 0,48 5,1//// 5 0,20 17 0,68 5,2 // 2 0,08 19 0,76 5,3 /// 3 0,12 22 0,88 5,4 // 2 0,08 24 0,96 5,5 / 10,04 25 1,00 S ou soma 25 1,00 Recomenda-se reunir os traços de 5 em 5, cortando quatro traços com o quinto, para facilitar a contagem. O método de procurar cada valor ao longo de toda a amostra, verificando quantas vezes ele ocorre, é bastante desaconselhado, pois leva facilmente a erro, além de exigir que a seqüência de dados seja lida várias vezes. Costuma-se chamar de x os valores da variável quantitativa em estudo. O total de traços obtidos em cada valor de x é denominado freqüência absoluta simples, sendo indicada por f. O sinal å (sigma maiúsculo; letra S no alfabeto grego) é usado para indicar soma. Observe que a soma dos valores de f (Sf) é igual ao número de indivíduos examinados, que também costuma ser indicado por n. Portanto, Sf = n. Dividindo f por Sf, obtém-se a freqüência relativa simples (fr), que representa a proporção com que cada valor ocorre. Os valores mais freqüentes apresentados na Tabela 1.1 são x = 5,0 e x =5,1, tendo, cada um, uma freqüência relativa fr = 0,20 (ou 20% do total de indivíduos estudados). A tabela pode, ainda, indicar as freqüências acumuladas (F), que identificam quantos indivíduos têm taxa de albumina igual ou menor do que um determinado valor. Observando-se a coluna F da Tabela 1.1, é possível notar que quatro pessoas possuem uma taxa de albumina igual ou menor do que 4,8. As freqüências acumuladas são obtidas somando-se a freqüência simples (f) da linha desejada (x)
Bioestatística 21 com as freqüências simples dos valores de x menores do que o considerado. A soma da coluna F não tem o menor sentido. Para saber a proporção de pessoas com taxa de albumina igual ou menor do que 4,8, calcula-se a freqüência acumulada relativa (Fr), obtida ou por meio da divisão de F por Sf (4/25 = 0,16 ou 16%) ou pela soma acumulada das fr a partir do valor de interesse [fr (4,8) = 0,04 + 0,08 + 0 + 0,04 = 0,16]. Qualquer freqüência relativa (fr ou Fr) pode ser transformada em freqüência percentual, bastando multiplicá-la por 100. A Fr pode ser usada para se obter percentis, quantidades bastante usadas em certas áreas da medicina. O percentil de ordem k (P k ) é o valor de x que é precedido por k% valores e seguido por (100-k)% dos valores. Por exemplo, P 25 é o valor de x que é precedido por 25% dos valores (os 25% menores da série) e seguido pelos restantes 75%. Os percentis P 25, P 50 e P 75 dividem o conjunto de dados em quatro partes iguais; por isso, recebem o nome de quartis e são respectivamente os quartis Q 1, Q 2 e Q 3. Na Tabela 1.1, o percentil P 25 é um valor entre 4,8 e 4,9, já que 16% dos indivíduos têm valores iguais ou menores do que 4,8 e 28% das pessoas têm níveis de albumina iguais ou menores do que 4,9. Estima-se, então, o percentil pela média entre 4,8 e 4,9, obtendo-se P 25 = 4,85. São bastante populares os percentis P 5 e P 95, que delimitam os 5% valores menores, os 90% centrais e os 5% maiores de um conjunto de dados. As tabelas elaboradas para realizar cálculos estatísticos não se prestam para publicação em relatórios ou artigos científicos. Em tabelas para publicação, não se apresenta a tabulação dos dados. Tampouco se apresentam informações redundantes: se for indicado f, não se apresenta fr ou a percentagem. Além disso, a estrutura da tabela segue regras determinadas. As principais são: (1) A tabela deve ser precedida de um título, suficientemente claro para que o leitor não necessite voltar ao texto para entender o conteúdo da mesma. (2) A tabela é limitada por uma linha limitante superior e outra inferior, que indica seu final. O cabeçalho deve ser separado do restante do texto por uma linha horizontal. (3) Não se usam linhas verticais separando as colunas; usam-se espaços em branco. (4) As abreviaturas e os símbolos pouco conhecidos devem ser explicados no rodapé da tabela. (5) Deve ser indicada a fonte dos dados. Tabela de grupamento por intervalo de classe Quando os valores de uma característica variam muito, como é o caso da estatura ou do peso das pessoas, uma tabela como a Tabela 1.1 tenderia a ser muito extensa, perdendo a propriedade de condensar a informação. A solução é grupar os dados por intervalos de classe, como foi feito na Tabela 1.2 para valores de peso em 256 universitárias gaúchas. Cada intervalo de classe possui um extremo ou limite inferior e um extremo ou limite superior. O sinal ¾ indica que o extremo inferior está incluído no intervalo, mas o superior, não. Intervalos indicados por esse sinal são denominados intervalos abertos à direita e são os mais comumente usados.
22 Sidia M. Callegari-Jacques TABELA 1.2 Pesos (kg) de 256 alunas da Universidade Federal do Rio Grande do Sul, obtidos no período de 1980 a 1999 (dados organizados em intervalos de classe) Peso (kg) f fr 40 ¾ 45 9 0,035 45 ¾ 50 36 0,141 50 ¾ 55 78 0,304 55 ¾ 60 55 0,215 60 ¾ 65 53 0,207 65 ¾ 70 11 0,043 70 ¾ 75 7 0,027 75 ¾ 80 5 0,020 80 ¾ 85 10,004 85 ¾ 90 10,004 å 256 1,000 A notação envolvendo intervalos abertos à direita ( ¾), abertos à esquerda (¾ ) ou fechados em ambos os lados ( ¾ ) é muito útil quando se quer elaborar tabelas de freqüências para variáveis contínuas, pois não permite ambigüidade na locação dos valores nos intervalos. Note, porém, que é comum encontrar, referindo-se à idade de crianças, por exemplo, a notação 3-4 anos, 5-6 anos, 7-8 anos para indicar 3 a 4 anos, 5 a 6 anos, 7 a 8 anos. A notação é de intervalo aberto, mas a idéia transmitida é a de intervalo fechado em ambas as extremidades! O número escolhido de classes fica geralmente entre 6 e 8, podendo oscilar entre 5 e 20, dependendo do detalhamento desejado pelo investigador e do tamanho da amostra. Nas tabelas de grupamento por intervalo de classe, além de f e fr pode-se calcular F e Fr, do mesmo modo como foi explicado para tabelas de grupamento simples. DISTRIBUIÇÕES DE FREQÜÊNCIAS: GRÁFICOS A representação gráfica é bastante interessante, porque dá uma visão mais imediata de como se distribuem os indivíduos nos diferentes valores da variável. Nas publicações, os gráficos devem ser chamados de figuras. O título do gráfico deve ser claro, para evitar que o leitor volte ao texto para entender a que se refere, sendo colocado ao pé do desenho, ao contrário da tabela que tem o título colocado na sua parte superior. Histograma O histograma é o gráfico mais utilizado para variáveis contínuas. Consiste de uma sucessão de retângulos contíguos, cuja base é o intervalo de classe, e a altura, a freqüência relativa em cada classe dividida por h, a amplitude do intervalo de classe. Se as classes forem todas de igual amplitude, não é necessário realizar a divisão. No final, tem-se uma figura geométrica, com área total considerada como
Bioestatística 23 f 80 60 100% ou 1 (a soma de todas as freqüências relativas). A Figura 1.1 apresenta o histograma relativo ao peso corporal de estudantes do sexo feminino da Universidade Federal do Rio Grande do Sul (UFRGS), obtido no período 1980-1999. 40 Ogiva A ogiva é o gráfico adequado para representar as freqüências acumuladas (F 20 ou Fr). No eixo horizontal, são colocados os intervalos de classe. No ponto médio de cada intervalo, levanta-se uma perpendicular imaginária e marca-se um ponto na altura corresponden- 0 45 55 65 75 85 te à freqüência acumulada na classe. A FIGURA 1.1 Peso (kg) observado em 256 alunas da Universidade Federal do Rio Grande do Sul. seguir, os pontos são unidos por segmentos de reta. A ogiva é útil para se identificar graficamente percentis de interesse, como, por exemplo, a mediana (percentil 50). A Figura 1.2 apresenta a ogiva correspondente a dados de pressão arterial sistólica medida nas primeiras 24 horas de vida, em 96 recém-nascidos de Porto Alegre (Oliveira, 1991; Tabela 1.3). Desenhando uma linha auxiliar a partir da freqüência acumulada igual a 50% até a ogiva e desta para o eixo horizontal, pode-se obter graficamente uma estimativa para a mediana da pressão arterial sistólica nesses recém-nascidos (md: 65 mmhg). Diagrama de bastões A representação gráfica apropriada para variáveis quantitativas discretas é o diagrama em bastão. Esse gráfico é parecido com um histograma, com uma importante diferença: as freqüências para cada valor de x são agora representadas por TABELA 1.3 Pressão arterial sistólica medida em 96 recém-nascidos, nas primeiras 24 horas de vida PAS (mmhg) f Fr Fonte: Oliveira, 1991. 55 ¾ 59 3 0,031 59 ¾ 63 5 0,083 63 ¾ 67 40 0,500 67 ¾ 7124 0,750 71 ¾ 75 15 0,906 75 ¾ 79 8 0,990 79 ¾ 83 11,000 Total 96
24 Sidia M. Callegari-Jacques 100 90 80 70 60 50 40 30 20 10 0 Freq. acumulada (%) 50 55 60 65 70 75 80 85 90 Pressão arterial sistólica (mmhg) FIGURA 1.2 Pressão arterial sistólica (mmhg) de 96 recém-nascidos, nas primeiras 24 horas de vida. (Fonte: Oliveira, 1991.) bastões e não retângulos, pois inexiste continuidade entre os valores. A Tabela 1.4 e a Figura 1.3 apresentam um exemplo de representação tabular e gráfica para dados deste tipo. FREQÜÊNCIA RELATIVA E PROBABILIDADE A freqüência relativa (fr) de um valor estima a probabilidade verdadeira de ocorrência deste valor, que só é conhecida tendo-se informação quanto a todos os indivíduos da população. A freqüência relativa associada a x = 2 irmãos, conforme mostra a Tabela 1.4, é de 0,35 na amostra estudada. Pode-se, então, estimar em 35% a fração de universitários que têm dois irmãos. Isto equivale também a dizer que se estima em 0,35 a probabilidade de que um universitário, selecionado ao acaso desta população, tenha dois irmãos. Estas conclusões são válidas se a amostra for representativa da população de estudantes da UFRGS. Por outro lado, quanto maior for uma amostra representativa, melhor será a idéia da ocorrência relativa (fr) do valor x = 2 na população, isto é, melhor será a estimativa da probabilidade verdadeira. O mesmo raciocínio vale para as tabelas de dados grupados por intervalo de classe (Tabela 1.2). A probabilidade estimada de que uma estudante tenha peso entre 45 e 50 kg é 0,14. 40 30 % 20 10 0 0 1 2 3 4 5 6 7 8 9 Número de irmãos FIGURA 1.3. Número de irmãos relatados por 115 estudantes universitários da UFRGS.
Bioestatística 25 TABELA 1.4 Número de irmãos relatados por 115 estudantes universitários da UFRGS (dados obtidos entre 1986 e 1992) N o de irmãos f fr Fr 0 8 0,07 0,07 120 0,17 0,24 2 40 0,35 0,59 3 26 0,23 0,82 4 9 0,08 0,90 5 7 0,06 0,96 6 4 0,03 0,99 7 0 0,00 0,99 8 0 0,00 0,99 9 10,011,00 No histograma relativo a estes dados (Figura 1.1), a área do retângulo referente ao intervalo 45 ¾ 50 corresponde a 14% da área de todo o histograma (100%). Portanto, a área deste retângulo é a representação geométrica da probabilidade estimada de se encontrar valores entre 45 e 50 na população. No gráfico de bastões, a probabilidade estimada para cada valor é a altura do bastão.