Distribuição de Frequência Tabela de requências Tabela de classiicação simples Tabela de classiicação cruzada Representação gráica Histograma Polígono de requências Distribuição de requências e gráicos A distribuição de requências é uma orma muito útil de resumir a inormação sobre uma ou mais variáveis Trata da organização de um conunto de medidas ou observações em classes, indicando a requência de observações em cada classe Formato é muito sensível ao número de observações disponíveis 1 Distribuição de requências e gráicos Além de resumir a inormação, tem por inalidade: 1. Representar a orma como os valores das variáveis se distribuem (localização da maioria dos valores, simetria, número de picos e ormato das caudas). Indicar qual modelo de distribuição de probabilidade poderia ser adequado para esses dados, pois ornece uma idéia empírica da distribuição da população Tabelas de classiicação simples As características dessas tabelas variam de acordo com o tipo de variável em estudo. Se a variável é do tipo categórica ou numérica discreta (com poucos valores), devemos obter as requências para cada nível dessa variável. Se a variável é do tipo numérica contínua nua, devemos primeiro construir intervalos e depois obter as requências para cada intervalo. 3 1
Distribuição de requências Construção da tabela Quando a variável or categórica ou numérica discreta (com poucos valores), a tabela de distribuição de requências apresentará a seguinte característica: cada valor da variável constituirá uma classe. Exemplo VARIÁVEL CATEGÓRICA Variável em estudo: conceito na disciplina de Estatística stica Dados brutos: ruim, médio, bom, médio, ruim, médio, ruim, médio, ruim, bom, médio, médio, bom, médio, médio, médio, ótimo, médio, bom, ótimo, bom, ótimo, médio, ótimo, médio, ruim, médio, ótimo, médio, médio, bom, ruim, bom, bom, médio, ruim, médio, médio, ótimo, médio, bom, ruim, ruim, bom, médio, médio, ruim, bom, médio, médio, bom, bom, bom, médio, ruim, bom, médio, médio, ruim, médio 5 Para construir a tabela devemos seguir apenas dois passos: 1 o passo: Identiicar e ordenar as categorias ou valores da variável. Cada categoria ou valor constituirá uma classe. O número da classe é representado por, tal que =1,,..., k, k onde k é o número total de classes. Número da classe () Classe 1 Ruim Médio 3 Bom Ótimo º passo: Contar o número de elementos em cada classe, ou sea, contar quantas vezes o dado está repetido. Classe F 1 Ruim 1 Médio 3 Bom 15 Ótimo Σ 0 Os valores provenientes desta contagem, denotados por F, são denominados requências absolutas das classes. Outras requências importantes: Frequência absoluta acumulada, denotada por, expressa o número de elementos acumulados em cada classe. Classe F 1 Ruim 1 1 Médio 39 3 Bom 15 5 Ótimo 0 Σ 0-8
Outras requências importantes: Frequência relativa, denotada por, expressa a proporção de elementos em cada classe. Classe F 1 Ruim 1 1 0, Médio 39 0,5 3 Bom 15 5 0,5 Ótimo 0 0,1 Σ 0-1 Outras requências importantes: Frequência relativa acumulada, denotada por, expressa a proporção de elementos acumulada em cada classe. Classe F 1 Ruim 1 1 0, 0, Médio 39 0,5 0,5 3 Bom 15 5 0,5 0,90 Ótimo 0 0,1 1 Σ 0-1 - F 9 10 Interpretação proporção de alunos que obtiveram até conceito MédioM número de alunos que obtiveram até conceito Bom Classe F 1 Ruim 1 1 0, 0, Médio 39 0,5 0,5 3 Bom 15 5 0,5 0,90 Ótimo 0 0,1 1 Σ 0-1 - proporção de alunos que obtiveram conceito Ruim número de alunos que obtiveram conceito Ótimo 11 Exemplo - VARIÁVEL VEL NUMÉRICA DISCRETA Variável em estudo: número de animais portadores de brucelose em 350 propriedades Dados brutos:, 5,, 0,,, 3,,,, 3, 3, 5, 3, 5, 1,,,, 3, 5,, 3, 3,, 3, 0,,, 3,, 0,, 0,, 3, 3, 1,,,,... 1º passo: Identiicar e ordenar os valores da variável º passo: Contar o número de elementos em cada classe. Classe F 1 0 55 1 0 3 11 3 8 5 31 5 8 Σ 350 1 3
Interpretação Classe F 1 0 55 55 0,151 0,151 1 0 115 0,11 0,38 3 11 0,3 0,8 3 8 309 0,33 0,889 5 31 30 0,088 0,91 5 8 38 0,09 0,993 350 0,005 1 Σ 350-1 - Exercício proposto: Os dados a seguir se reerem ao número diário de pães não vendidos em uma certa padaria até a hora do encerramento do expediente: 0 0 0 1 0 0 1 0 0 3 0 1 0 0 0 0 0 1 0 0 3 1 0 1 0 0 0 0 3 1 Construa a distribuição de requências para esses dados. 13 1 Resolução: Classe F 1 0 0 0 0,5 0,5 1 0,15 0,5 3 3 0,15 0,85 3 3 3 0,05 0,95 5 39 0,05 0,95 5-39 - 0,95-39 - 0,95 8 1 0 0,05 1 Σ 0-1 - Distribuição de requências para variáveis contínuas Exemplo: Variável em estudo: valores gastos (em reais) pelas primeiras 50 pessoas que entraram num determinado Supermercado, no dia 01/01/000. Dados brutos: 3,03 19,5 5,0 5,13,9 18,3 13,8 15,3 3,3 15, 1,00,5 85, 38, 8,3,58 0,1 93,3 8,5, 3,0,9 8,0 5,5 3,11 8,88 9, 10,81 1,9 8,38 18,3 1, 1,0, 19,50 1,39 39,1,08 38,98 19,, 8,08 59,0 8,0,, 5,80 0,3 50,39 0,59 15 1
As variáveis veis contínuas nuas, em geral, assumem muitos valores dierentes uns dos outros. Para contornar problemas desse tipo, as tabelas de distribuição de requências são construídas de modo que cada classe sea constituída por um intervalo de valores da variável. Quando variáveis discretas assumem muitos valores dierentes é usual agrupar os dados discretos em intervalos de classe. Construção da tabela 1 o passo: Ordenar o conunto de dados: colocar os dados brutos em ordem crescente de grandeza (rol). Dados ordenados: 3,11 8,88 9, 10,81 1,9 13,8 15,3 15, 1,00 1,39 18,3 18,3 19, 19,50 19,5 0,1 0,59, 3,0,,58 5,13,,,5 8,0 8,08 8,38 3,03 3,3 38,98 38, 39,1 1,0,9,08, 5,0,9 8,5 50,39 5,5 5,80 59,0 1, 0,3 8,0 85, 8,3 93,3 1 18 Construção da tabela o passo: Determinar o número de classes (k) da tabela. De modo geral, esse valor não deverá ser inerior a 5 e nem superior a 15. Essa deinição deverá ser orientada pelos obetivos do trabalho, mas existem algumas regras obetivas de determinação, como, por exemplo: Regras para determinação do número de classes: Arredondar para cima (inteiro) k = n k = 1+ 3,3 log n Regra empírica onde: k: número n de classes n: número n de observações Fórmula de Sturges 19 3 o passo: Determinar a amplitude do intervalo de classe. Para isso utilizamos a expressão onde: i: amplitude do intervalo a t : amplitude total = x (n) x (1) at i = k o passo: Construir os intervalos de classe. Classe 1 x (1) x (1) + i x (1) + i x (1) + i 3 x (1) + i x (1) + 3i Arredondar para cima x (1) = Extremo Inerior x (n) = Extremo Superior 5 o passo: Contar o número de elementos em cada classe. 0 5
Na construção dos intervalos de classe, é importante observar que: Recomenda-se o uso de intervalos de mesma amplitude, mas eventualmente uma amplitude variável poderá ser mais adequada ao contexto; Deve ser garantido que todas as observações seam classiicadas; As classes são mutuamente exclusivas, ou sea, uma observação pertence a uma única classe; Com exceção da última classe, que é echada à esquerda e à direita, os intervalos são echados à esquerda e abertos à direita, de modo que um valor que coincida com o extremo superior será classiicado na classe seguinte. Exemplo: Tomemos a seguinte variável: X = peso ao nascer (em kg) de 0 bovinos machos da raça Ibagé, para a qual os valores observados (e á ordenados) oram: 1, 1, 1, 18, 18, 18, 19, 0, 0, 0, 0, 0, 1, 1,,, 3, 3, 3, 3, 3, 3, 3, 3, 3, 5, 5, 5, 5, 5, 5,,,,,,, 8, 8, 8, 9, 9, 9, 30, 30, 30, 30, 30, 30, 30, 31, 3, 33, 33, 33, 3, 3, 35, 3, 39. Faça a distribuição de requências desses dados. 1 Resolução: 1 3 5 n = 0 k = 1+ 3,3 log n = 1 + 3,3 1,8 =,9 at ES EI 39-1 i = = = = 3,85 3,3 k k Classes 1 19,3 19,3,, 5,9 5,9 9, 9, 3,5 3,5 35,8 35,8 39,1 Σ F 9 15 1 9 0 1 31 3 5 58 0 0,11 0,15 0,5 0, 0,15 0,1 0,0333 1,0000 0,11 0, 0,51 0,1 0,8 0,9 1,0000 Ponto médio ou centro de classe c 1,5 0,95,5,55 30,85 3,15 3,5 3 Exercício proposto: Os dados em rol abaixo (ordenação horizontal) se reerem aos valores gastos (em reais) pelas primeiras 50 pessoas que entraram em um determinado Supermercado, no dia 01/01/000. 3,11 8,88 9, 10,81 1,9 13,8 15,3 15, 1,00 1,39 18,3 18,3 19, 19,50 19,5 0,1 0,59, 3,0,,58 5,13,,,5 8,0 8,08 8,38 3,03 3,3 38,98 38, 39,1 1,0,9,08, 5,0,9 8,5 50,39 5,5 5,80 59,0 1, 0,3 8,0 85, 8,3 93,3 Faça a distribuição de requências desses dados.
Resolução: n = 50 k = 1+ 3,3 log n = 1 + 3,3 1, =, at ES EI 93,3-3,11 i = = = = 1,89 k k Classe F 1 3,11 1,00 8 8 0,1 0,1 1,00 8,89 0 8 0, 0,5 3 8,89 1,8 3 0,1 0,8 1,8 5, 8 0,1 0,8 5 5,,5 3 5 0,0 0,9,5 80,5 1 0,0 0,9 80,5 93,3 50 0,08 1 c Σ 50-1 - - 9,5,5 35,3 8,3 1,1,01 8,90 5 Representação gráica As distribuições de requências podem ser representadas graicamente através de: Histograma Polígono de requências Histograma (variável contínua) O histograma consiste de um conunto de retângulos contíguos cua base é igual à amplitude do intervalo e a altura proporcional à requência das respectivas classes. Frequência no intervalo Polígono de requências (variável contínua) O polígono de requências é constituído por segmentos de retas que unem os pontos cuas coordenadas são o ponto médio e a requência de cada classe. Para echá-lo toma-se uma classe anterior a primeira e uma posterior a última, uma vez que ambas possuem requência zero. Figura - Histograma para o peso ao nascer de 0 bovinos da raça Ibagé. UFPel, 001. Figura - Polígono de requências para o peso ao nascer de 0 bovinos da raça Ibagé. UFPel, 001. 8
Polígono de requências (variável contínua) variável discreta (dados de enumeração) Quando trabalhamos com variáveis discretas, os retângulos dos histogramas se reduzem a retas e, consequentemente, deixam de ser contíguos. Frequência no ponto 9 Figura - Número de animais portadores de brucelose em 350 propriedades rurais. UFPel, 001. 30 Variável Categórica Tabelas de classiicação cruzada Gráico de colunas Alunos 30 5 0 15 10 5 0 Ruim Médio Bom Ótimo Conceito Figura - Conceito dos alunos na disciplina de Estatística. UFPel, 001. Gráico de setores 10% 0% Ruim 5% Médio Bom Ótimo 5% Figura - Conceito dos alunos na disciplina de Estatística. UFPel, 001. Em algumas situações, pode haver interesse no estudo de duas ou mais variáveis simultaneamente. Daí surgem as distribuições conuntas de requências. As tabelas de classiicação cruzada são tabelas de requências relativas a duas variáveis, categóricas ou numéricas. 31 3 8
Frequências cruzadas de variáveis categóricas Representação gráica São conhecidas também como tabelas de dupla entrada, tabelas de associação ou tabelas de contingência. As regras básicas para sua construção são semelhantes às das tabelas de classiicação simples. Tabela.1. Distribuição dos alunos da escola E, segundo o hábito de umar e conceito em Estatística. Conceito Sim Hábito de umar Não Totais Ruim 5 8 13 Médio 10 1 Bom 5 10 15 Ótimo Totais 38 0 33 Gráicos em duas dimensões (diagramas): descrevendo a variação de um ator dentro dos níveis do outro. Número de alunos 18 1 1 1 10 8 0 Ruim Médio Bom Ótimo Fumante Não Fumante Conceito Figura - Distribuição dos alunos da escola E, segundo o hábito de umar e conceito em Estatística. Número de alunos 18 1 1 1 10 8 0 Fumante Não Fumante Ruim Médio Bom Ótimo Figura - Distribuição dos alunos da escola E, segundo o hábito de umar e conceito em Estatística. 3 Frequências cruzadas de variáveis numéricas Ao estudarmos conuntamente duas variáveis numéricas, as tabelas de classiicação cruzada são, agora, denominadas tabelas de correlação. As tabelas de requências cruzadas de duas variáveis contínuas também são construídas de modo similar às de classiicação simples. Representação gráica Diagramas de dispersão: este tipo de gráico pode ornecer uma indicação do tipo de relacionamento que existe entre as duas variáveis. Observação ( i ) 1 3 5 8 9 10 Peso dos pais (xi) 8 5 8 8 83 8 5 80 8 Peso dos ilhos (yi) 0 5 8 53 5 5 58 5 53 Tabela.1. Distribuição dos alunos do Colégio C, segundo suas notas em Estatística e Matemática. Estatística Matemática 0 10 Totais 0 3 5 5 0 183 8 85 10 19 53 Totais 59 35 10 00 35 Figura - Gráico de dispersão dos pesos (em kg) de dez alunos do Colégio C e de seus respectivos pais. 3 9