BIOESTATÍSTICA Unidade III - Medidas de Tendência Central e de Dispersão 0
INTRODUÇÃO Vamos abordar um assunto importante no que diz respeito a transmissão das informações relativas à amostra ou população estudada. A condensação dos dados facilita a compreensão das características essenciais de uma amostra ou população, em se tratando de dados obtidos desses. Para viabilizar essa etapa, usamos as medidas de tendência central e de dispersão. Hoje vamos conhecer um pouco mais sobre essas medidas. http://pro.corbis.com/enlargement/enlargement.aspx?id=42-20283648&cat=20,14,17,15,16,19&caller=search 1- MEDIDAS DE TENDÊNCIA CENTRAL As medidas de tendência central são muito confiáveis quanto mais representativo for o conjunto de elementos da amostra ou da população. Se o conjunto de elementos for bem selecionado, se guardar características semelhantes da população que foi extraída e se for suficientemente grande, melhor os dados refletirão o que poderíamos encontrar na população. Pode-se dizer também que essas medidas de tendência central e de dispersão- são uma primeira caracterização dos conjuntos populacionais ou amostrais. 1
1.1 Média Aritmética A média aritmética consiste na soma dos valores de um conjunto de dados, divididos pelo número de elementos. Veja o exemplo abaixo. Considere o seguinte conjunto de dados: 11 10 10 12 23 24 30 A média aritmética será = 11+10+10+12+23+24+30 / 7 = 17,14 Observação: Frequentemente a média aritmética vem acompanhada de outra medida: o desvio padrão. Essa é uma medida de dispersão e indica o quanto os valores se afastam ou se aproximam da média. Observação 2: A média aritmética é muito influenciada por valores extremos, ou seja, valores muito menores ou maiores influenciam de forma marcante o valor real da média. As médias também podem ser de outras naturezas, como ponderada e geométrica. Como exemplo pode-se dizer que no cálculo da média ponderada atribui-se um peso menor a um determinado valor ou conjunto de valores. Isso indicará que sua representatividade na análise dos dados não será igual aos demais valores. DICA! Para saber mais sobre cálculo de médias, consulte o livro: - Arango, H.G. Bioestatística- Teórica e Computacional. 2.ed. Rio de Janeiro: Guanabara Koogan, 2005. (acompanha CD demonstrativo). 2
http://pro.corbis.com/enlargement/enlargement.aspx?id=42-17346030&cat=20,14,17,15,16,19&caller=search Dividir a conta em um bar (rachar a conta!) é um bom exemplo prático de média aritmética. 1.2 Mediana A mediana é outra medida que indica a caracterização do conjunto de valores. Essa indica o valor que divide ao meio o conjunto de valores, isto é, indica o valor que ocupa a posição central do conjunto de valores, não sofrendo qualquer interferência dos valores extremos. O seu cálculo depende da ordenação dos dados, o que corresponde em colocá-los em ordem crescente ou decrescente. Continuando com exemplo usado no calculo da média: 11 10 10 12 23 24 30 A mediana seria assim calculada: 10 10 11 12 23 24 30 Essa é a mediana, pois é o valor central de um conjunto de dados. Quando o número de valores for ímpar (como no caso acima), a mediana será sempre o valor do meio. E quando for par, soma-se os dois valores centrais e divide-se por 2. 3
1.3 Moda http://pro.corbis.com/enlargement/enlargement.aspx?id=42-21052967&cat=20,14,17,15,16,19&caller=search Moda é o valor que ocorre com maior freqüência. Essa medida, juntamente com a média e a mediana, ajudam a compreender o padrão homogêneo dos dados. Quando essas três medidas estão próximas, podemos dizer que o conjunto de dados é homogêneo, ou seja, não há valores extremos, mas sim uma tendência de que boa parte dos números localizam-se próximos a essas três medidas. Se um conjunto de dados possui um único valor que se repete com maior freqüência, diz-se que o conjunto e unimodal; quando dois números aparecem com maior freqüência, é bimodal; se três ou mais números aparecem com maior freqüência, é multimodal. A ausência de moda caracteriza-se um conjunto amodal. Veja o exemplo abaixo. Considere o seguinte conjunto de dados: 0 1 1 2 3 4 4 4 5 Analisando os dados, observa-se que o número 4 é o número que se repete com maior freqüência (3 vezes). Dessa forma dizemos que o conjunto é unimodal. Observação: A moda, diferentemente da média, pode também ser usada para descrever dados qualitativos. Consideramos como moda a categoria que ocorre com maior freqüência. 4
2. MEDIDAS DE DISPERSÃO As medidas de tendência central, vistas anteriormente, ajudam a explicar a tendência central dos dados, ou seja, o quanto esse conjunto é homogêneo. Essas medidas precisam estar acompanhadas de outras informações que indique a VARIABILIDADE dos dados, isto é, o quanto os valores divergem em relação aos valores de caracterizarão geral da população ou amostra. Considere a situação apresentada no livro Introdução à bioestatística, da autora Sônia Vieira (2008): Considerando 2 domicílios, sendo que em um deles moram 7 pessoas, todas com 22 anos de idade. A média de idade será de 22 anos. No outro domicilio, poderíamos ter a mesma média de idade, no entanto, nesse segundo domicilio, moram uma garota de 17 anos, um garoto com 23 anos, duas crianças de 2 e 3 anos, respectivamente, além de uma mulher de 38 anos, outra criança de 8 anos e uma senhora de 65 anos. Nesse exemplo acima, temos dois conjuntos de valores, cuja variabilidade é diferente, embora a média seja a mesma. No primeiro conjunto de valores, a variabilidade é bem menor, condição contraria a que ocorre no segundo grupo, no qual a variabilidade é maior, pois as idades variam do 2 até os 65 anos. 2.1 Quartis e Percentis Já aprendemos que a mediana é o valor que divide ao meio o conjunto de valores. Poderíamos dizer também que a mediana indica que, abaixo daquele valor temos 50% das observações, dos valores. Mas, há situações em que podemos dividir o conjunto de valores em partes menores. Quartis, Decis e Percentis indicam essa possbilidade. Sendo assim, o primeiro quartil indica que 25% dos valores estão abaixo desse valor; o segundo quartil indica que 50% da amostra está abaixo desse valor. E assim por diante. Veja o modelo abaixo: 5
1o quartil 2o quartil 3o quartil 25% 25% 25% 25% 50% dos valores 75% dos valores 2.2 Amplitude, Mínimo e Máximo Já os percentis consideram as posições dividindo o conjunto de valores em 100 partes. Da mesma forma que o quartil, o percentil 70, por exemplo, indica que 70% dos valores de um conjunto encontram-se abaixo desse valor. Observação: Percebam, no modelo esquemático abaixo, que uma posição (ou valor) pode ser indicada de mais uma forma. 25% 25% 25% 25% 50% 50% 2o. quartil Percentil 50 2.2 Amplitude, Mínimo e Máximo A amplitude explica a variabilidade de valores, e por isso é considerada uma medida de dispersão. É definida como a diferença entre o maior e o menor valor de um determinado conjunto de valores. Menor, também chamado de mínimo, é o menor valor de um determinado conjunto 6
de valores. Maior, também chamado de máximo, é o maior valor de um determinado conjunto de valores. Maior - menor A M P L I T U D E Observação: assim como a média, a amplitude é muito influenciada por valores extremos, isto é, um valor muito baixo ou muito alto altera facilmente essa medida e pode, em determinados casos, não representar a real variabilidade do conjunto de valores, pois houve o comprometimento em razão desse(s) valor(es) extremo(s). 2.3 Variância e Desvio Padrão Essas duas medidas indicam a variabilidade, distância dos valores em torno do valor médio encontrado para um determinado conjunto de dados (valores). Se menores- a variância e o desvio padrão-, indicam pouca variabilidade dos valores, caracterizando um conjunto de valores mais homogêneo, ou seja, a de variabilidade pequena. Considere as informações abaixo: 7
Fonte: Curso de Bioestatística Profa. Dra. Ângela Paes, 2006 Percebam que tanto a variância quanto o desvio padrão partem do cálculo da distância de um valor em relação à media. Faz-se a somatória dessas distâncias e, por necessidades matemáticas, eleva-se ao quadrado (para eliminar os valores negativos das distâncias), ou extraímos a raiz quadrada (pois queremos eliminar a elevação ao quadrado de uma determinada medida. Definiremos como Variância a soma dos quadrados dos desvios de cada observação em relação à media, dividida por (n-1) E Desvio Padrão como a raiz quadrada da variância. SUGESTÃO DE LEITURA: Recomendo a leitura do Livro: Introdução à Bioestatística, da autora Sônia Vieira, ano de 2008, Capítulos 4 e 5. 2.4 Coeficiente de Variação Esse medida indica a dispersão dos valores em relação à média. Para se calcular o coeficiente de variação, usamos o desvio padrão e a média. 8
CV= desvio padrão / média x 100 Percebam que o CV não possuirá unidade de medida (é adimensional). Dessa forma, podemos comparar a dispersão de valores para dados quantitativos que utilizaram medidas diferentes, como metros e quilogramas. O uso de coeficientes não é tão frequente quanto o uso das outras medidas discutidas nesse capitulo. Os coeficientes são importantes na elaboração de indicadores de saúde. CONCLUSÃO As medidas de tendência central e de dispersão são úteis na compreensão e caracterização dos dados populacionais ou amostrais. A apresentação dessas medidas ajuda a entender o caráter homogêneo ou não dos dados, bem como a forma de dispersão dos mesmos em relação a um determinado valor médio. 9
10 www.cruzeirodosul.edu.br Campus Liberdade R. Galvão Bueno, 868 01506-000 São Paulo SP Brasil Tel: (55 11) 3385-3000