MÓDULO 4 DISTRIBUIÇÃO DE FREQÜÊNCIS Como vimos no módulo 1, para que nós possamos extrair dos dados estatísticos de que dispomos a correta análise e interpretação, o primeiro passo deverá ser a correta organização e sumarização destes dados, caso contrário estes números não farão qualquer sentido para nós. Também no módulo 1 vimos que a depender do tamanho do nosso conjunto de dados, poderemos organizá los em um rol, ou seja, por ordem de grandeza (crescente ou decrescente), ou em uma distribuição de freqüências. distribuição de freqüências é o modo de tratamento de dados utilizado quando é grande a quantidade de dados brutos, e passamos a agrupar os dados estatísticos em subconjuntos com características semelhantes as ou categorias. distribuição de freqüência será, portanto, a organização de dados em ou intervalos, a fim de que se possa determinar o número de observações ou a percentagem de observações de cada classe, chamada de freqüência de. Para apresentar estes dados posso utilizar gráficos e tabelas, bem como utilizar as medidas de posição e variabilidade para interpretá los, mas não sem organizá los previamente em uma distribuição, sem a qual ficaria impossível o cálculo de algumas das medidas necessárias, como média, variância, etc. Tabela 4.1. Idade de 100 estudantes formandos do curso de Direito de uma Universidade B em dez/2006 Idade Número de estudantes 20 a 22 8 22 a 24 10 24 a 26 12 26 a 28 20 28 a 30 17 30 a 32 15 32 a 34 9 34 a 36 5 36 a 38 3 38 a 40 1 Total 100 tabela 4.1 acima é uma distribuição de freqüências das idades dos estudantes que estão se formando no curso de Direito de uma determinada Universidade fictícia B. primeira classe corresponderia ao grupo de estudantes formandos em Direito no ano de 2006 e que possuem entre 20 e 22 anos, e é indicada pelo símbolo 20 22. freqüência desta classe corresponde a 3 porque existem 3 estudantes cuja idade faz parte desta classe. 4.1. CONSTRUÇÃO DE UM DISTRIBUIÇÃO DE FREQÜÊNCIS PR DDOS CONTÍNUOS
Para se construir uma determinada distribuição de freqüências é preciso em primeiro lugar definir o tipo de variável em questão, para depois definir os passos que devem ser seguidos para a construção desta distribuição. Vamos supor que eu tenho o seguinte conjunto de dados abaixo, referente às idades de uma amostra de 100 alunos formandos de Direito de uma Universidade B: Tabela 4.2. Dados das idades dos estudantes formandos de Direito da Universidade B 20 20,4 20,5 21 21 22 22 22 22,1 22,2 22,3 22,5 22,6 22,7 22,8 22,9 23 24 24,1 24,2 24,3 24,4 24,5 25 25 25,3 25,5 25,7 26 26 26,2 26,3 26,4 26,5 26,6 26,7 26,8 26,9 27 27 27,1 27,2 27,3 27,4 28 28 28 28 28 28 28,2 28,3 28,5 29 29 29 29 29,1 29,1 29,2 29,3 29,4 29,5 29,5 30 30 30 31 31 31 31 31,1 31,2 31,3 31,4 31,5 31,6 31,6 32 32 32 32 32,3 33 33 33 34 34 34 34 34 34,5 35 35 36 36 37 37,5 38 40 Na tabela acima dispomos o conjunto de dados referente a uma amostra fictícia para ilustrar o presente módulo e ajudar os alunos a construir uma distribuição de freqüências a partir da série de dados estatísticos colocados acima. Como podemos observar, os dados já estão dispostos em ordem crescente de grandeza, em um rol, muito embora se trate de um conjunto de números superior a 30 observações. Esta amostra diz respeito às idades dos alunos de uma determinada Universidade fictícia B que estão se formando no curso de Direito. Estamos considerando, portanto, uma variável contínua. Como vimos no módulo 1, uma variável contínua é aquela que pode assumir qualquer valor num intervalo contínuo. Como vimos, tratar um conjunto de dados sob a forma de uma distribuição de freqüências significa organizá los em intervalos de. É preciso, portanto, construir estas. Precisamos, então, definir o número de, o tamanho destas para então enquadrar os dados nas pela simples contagem destes dados amostrais. primeira coisa que devemos fazer ao nos depararmos com um conjunto de dados como este apresentado na tabela 4.2 é procurar calcular a amplitude (ou intervalo). Neste caso será muito mais fácil já que os números já estão dispostos em um rol. Conforme vimos no módulo 3, a amplitude ou intervalo poderá ser calculada da seguinte forma: V máximo V mínimo 40 20 20
No caso do nosso exemplo, a amplitude será igual a 20. O valor da amplitude será importante porque, juntamente com o número de, definirá a chamada amplitude de. Mas como então estabelecer o número de? teoria estatística tem se desenvolvido ao longo dos anos e chegou ao consenso que é aconselhável estabelecer o número de entre um mínimo de 5 e um máximo de 20. Uma distribuição de freqüências que possua mais de 20 torna a apresentação dos dados muito confusa e de mais difícil avaliação. Se estabelecermos um número de inferior a 5, poderemos correr o risco de ocultar informações importantes sobre os dados disponíveis. Quando se quer determinar o número de em função do conjunto de dados disponíveis, basta tirarmos a raiz quadrada de n, onde n corresponderia ao de observações (seja da população ou da amostra). Sendo assim, teremos: Número n No caso do exemplo apresentado acima, temos um de observações n100, portanto o número de será igual a 10, senão vejamos: N N n 100 10 Ora, uma vez que estabelecemos o número de, é preciso pensar qual será o tamanho de cada classe, ou dito de outra forma, faz se necessário determinar a amplitude de classe desta distribuição de freqüências. Para isto calculamos a amplitude desta distribuição, a qual corresponde a uma medida absoluta de variabilidade. amplitude de será calculada, então, tomando se o valor da amplitude e dividindo se pelo número de. ssim, teremos: mplitude mplitude Número Seguindo o exemplo que estamos trabalhando, já fizemos o cálculo da amplitude e do número de, podemos então passar para o cálculo da amplitude de do referido exemplo. Teremos, então: N 20 2 10 amplitude das da distribuição de freqüências que estamos procurando construir em nosso exemplo será igual a dois. Isto representa o intervalo ou tamanho de cada classe, onde iremos dispor os nossos dados. É importante ressaltar que uma distribuição de freqüência não obrigatoriamente apresenta uma
única amplitude de, conquanto mantenha a composição estrutural da distribuição. Dispomos agora do número de, da amplitude de, podemos então construir o chamado intervalo de. O intervalo de é composto por um limite inferior (número menor) e por um limite superior (número maior). Os limites inferior e superior podem ou não estar incluídos no intervalo de, existindo uma simbologia própria dentro da estatística para se expressar isto. Senão vejamos exemplos possíveis a partir da tabela 4.1 acima: a) 20 22: diz se que é um intervalo fechado, pois tanto o 20 quanto o 22 participam do intervalo; b) 22 24: diz se que este é um intervalo aberto, já que o limite inferior, 22, não participa do intervalo, ao passo que o limite superior participa do intervalo; c) 20 22: caso o exemplo se apresentasse assim, teríamos um intervalo de classe aberto, já que o limite inferior participa do intervalo, mas o limite superior não participa do intervalo; d) 20 22: aqui teríamos um intervalo de classe aberto, onde nem o limite inferior, nem o limite superior participam do intervalo. pós o cálculo do número de e da amplitude de, deveremos definir os limites inferior e superior de cada classe, começando com o menor valor, ou, no caso de dados fracionais, com um inteiro logo abaixo do menor valor. No nosso exemplo, poderíamos calcular as da seguinte forma: Para a primeira classe: Limite inferior: 20 Limite superior: 20 + amplitude de classe 20 + 2 22 Para a segunda classe: Limite inferior: limite superior da classe anterior 22 Limite superior: limite inferior da seg. classe + amp. Classes 22 + 2 24 E assim sucessivamente até a classe de número 10, no nosso exemplo, que terá como limite inferior 38 e como limite superior 40. É importante frisar que determinado valor não pode pertencer a mais de uma classe, mas por outro lado, para cada valor deve haver uma classe, não permitindo a existência de lacunas na fixação destas mesmas. Bem, uma vez que já definimos o número de e a amplitude, a partir delas pudemos estabelecer a amplitude de, e pudemos também definir os limites superior e inferior de cada classe, resta nos agora confrontar as nossas com as observações que dispomos na tabela 4.2. Mediante contagem, devemos construir nossa distribuição de freqüência, fixando cada observação numa classe determinada. Quando indicamos o número de observações existentes em um dado intervalo, temos a chamada freqüência absoluta simples ( f i ). Em outras palavras, a freqüência absoluta é o número de
vezes que o dado aparece naquele determinado conjunto de números. É importante destacar que nenhuma classe poderá apresentar freqüência absoluta igual a zero. ssim, uma primeira construção que poderemos fazer nos leva à tabela 4.1, só que agora colocaremos a notação estatística trabalhada por nós até agora. Então, teremos: Tabela 4.3. Distribuição de Freqüência das Idades Classes Freqüência bsoluta Simples 20 22 8 22 24 10 24 26 12 26 28 20 28 30 17 30 32 15 32 34 9 34 36 5 36 38 3 38 40 1 100 É importante ressaltar que na construção da distribuição de freqüências acima, uma vez que determinado valor tenha sido incluído em determinado intervalo de, não deverá ser incluído em um outro. Daí a razão porque temos intervalos onde o limite inferior não está incluído, pois ele corresponde ao mesmo valor do limite superior da classe anterior, portanto o referido valor provavelmente já deve ter sido alocado numa classe anterior. Por exemplo, na tabela 4.2 temos a observação do dado 22 que se repete 3 vezes, e que será incluído no primeiro intervalo de. Mas este valor não deverá ser incluído novamente no segundo intervalo de. seguir, deveremos calcular as freqüências absolutas simples acumuladas ( f i, ), que indica o número de observações acumuladas até o limite superior de uma classe. Por exemplo, na terceira classe teríamos 30 alunos com idade entre 20 e 26 anos se formando em Direito. Senão vejamos como ficaria a nova tabela, incluindo se a nova notação da freqüência acumulada:
TBEL 4.4 Classes Freqüência bsoluta Simples ( f i ) Freqüência absoluta simples acumulada( f i, ) 20 22 8 8 22 24 10 18 24 26 12 30 26 28 20 50 28 30 17 67 30 32 15 82 32 34 9 91 34 36 5 96 36 38 3 99 38 40 1 100 100 Um outro dado importante que podemos extrair da construção de uma distribuição de freqüências é a freqüência relativa simples ( f i, R ), que nos mostra a participação relativa do número de observações em uma dada classe, e deverá ser calculada da seguinte forma: f i f i, R, geralmente expresso em percentual. f i soma das freqüências relativas de todas as será igual a 1, se expressa em forma fracionária, ou a 100% se expressa em percentual. No caso da distribuição de freqüências que estamos construindo, teremos agora a seguinte tabela:
Classes TBEL 4.5 f i f i, f i, R 20 22 8 8 0,08 22 24 10 18 0,10 24 26 12 30 0,12 26 28 20 50 0,20 28 30 17 67 0,17 30 32 15 82 0,15 32 34 9 91 0,09 34 36 5 96 0,05 36 38 3 99 0,03 38 40 1 100 0,01 100 1 4.2. CONSTRUÇÃO DE UM DISTRIBUIÇÃO DE FREQÜÊNCIS PR DDOS DISCRETOS Numa distribuição de freqüência de dados contínuos os valores individuais sofrem uma perda de identidade uma vez agrupados em, e isto gera a perda de uma certa quantidade de informações. Isto ficará claro ao calcularmos a média aritmética em uma distribuição de freqüência e comparar o resultado ao obtido mediante o cálculo dos dados individualmente, até mesmo no exemplo que demos neste módulo. Os resultados não serão os mesmos haja vista esta perda de informação. Dependendo do tipo de dados e dos objetivos do observador, este fenômeno pode ou não ocorrer numa distribuição de freqüência com dados discretos. Quando não há perda de informação, é possível que os dados originais sejam reconstituídos a partir da tabela de distribuição de freqüência com dados discretos. No caso de dados contínuos isto não é possível. Essencialmente, não existem diferenças substanciais entre uma distribuição de freqüência com dados contínuos e uma com dados discretos. Os cálculos das freqüências acumuladas e relativas são feitos da mesma forma, bem como os cálculos das medidas de posição e variabilidade.