Estatística descritiva básica: Tabelas e Gráficos ACH2021 Tratamento e Análise de Dados e Informações Marcelo de Souza Lauretto marcelolauretto@usp.br www.each.usp.br/lauretto *Parte do conteúdo baseada nos slides da Profa. Patrícia Rufino Oliveira
Tabelas Após a coleta dos dados, é necessário que os dados e resultados obtidos a partir daqueles sejam dispostos de uma forma ordenada e resumida, a fim de: auxiliar o pesquisador em sua análise; facilitar ao leitor a compreensão das conclusões obtidas. Tabelas são uma das formas mais comuns de apresentação de informações. Uma tabela deve ser auto-suficiente, isto é, deve ter significado próprio, de modo a prescindir, quando isolada de consultas ao texto.
Título: Obrigatório Elementos essenciais da tabela Deve conter a designação do fato observado, o local e a época em que foi registrado. Deve ser claro e conciso. Colocado na parte superior da tabela Corpo da tabela: É o conjunto de colunas e linhas onde se encontram as informações numéricas sobre o fato observado. A unidade de informação na tabela é a casa ou célula. Usualmente contêm frequência, porcentagem, razão, taxa, média, etc. Cabeçalho: Corresponde à 1ª linha (ou 1 as linhas) da tabela, onde se especifica o conteúdo de cada coluna. Coluna indicadora: É a parte da tabela onde se especifica o conteúdo de cada linha.
Elementos complementares da tabela Elementos complementares são opcionais, e apresentados no rodapé da tabela. Fonte: Indicação da bibliografia ou da entidade responsável pelo fornecimento ou elaboração dos dados. Notas: Contém informações gerais destinadas a conceituar ou esclarecer o conteúdo das tabelas. Chamadas: Servem para esclarecer minúcias em relação às casas, colunas ou linhas.
Forma geral
Exemplo: Título Cabeçalho Nota geral Fonte Chamada (ou nota específica)
Observações Nenhuma casa da tabela deve ficar em branco. As unidades de medida devem ser apresentadas no espaço do cabeçalho ou nas colunas indicadoras, sempre que houver necessidade de se indicar, complementarmente ao título, a expressão quantitativa ou metrológica dos dados numéricos. Na ausência de um dado numérico, emprega-se algum dos sinais convencionais como hífen, reticências, etc. Em publicações que compreendem muitas tabelas, estas devem ser numeradas em ordem crescente, conforme a ordem do aparecimento. Em cada coluna, deverá ser mantida a uniformidade quanto ao número de casas decimais.
Distribuições de frequências Distribuições de frequências são tabelas que contêm o número de casos em cada categoria de uma variável. Usualmente, são o primeiro passo em qualquer análise estatística. Distribuições de frequências de variáveis qualitativas: A distribuição é realizada por simples contagem nas categorias; Para variáveis ordinais, valores devem ser dispostos em ordem. Distribuições de frequências de variáveis quantitativas: Variável deve ser dividida em intervalos Contam-se as frequências de valores em cada intervalo.
Distribuições de frequências variáveis qualitativas Para variáveis nominais e ordinais, categorias podem ser eventualmente agrupadas. Alguns critérios de agrupamentos: Agrupamento de categorias com baixas frequências; Agrupamento de categorias que não sejam objetos de estudo. Exemplo 1: agrupamento de categorias em variáveis nominais
Exemplo 2: agrupamento de categorias em variáveis ordinais
Frequência acumulada Para variáveis qualitativas ordinais e variáveis quantitativas, em certas situações pode ser de interesse expressar as frequências acumuladas. Para obter a frequência acumulada de determinada categoria, soma-se, à frequência dessa categoria, a frequência acumulada da categoria anterior.
Exemplo: Frequências de alunos de odontologia segundo sua capacidade de extrair dentes Quantos alunos não se sentem capazes de extrair um dente de um paciente? R: Todos os alunos com escores 0, 1 e 2.
Exemplo: Frequências de alunos de odontologia segundo sua capacidade de extrair dentes Quantos alunos não se sentem capazes de extrair um dente de um paciente? R: Todos os alunos com escores 0, 1 e 2, ou seja, 6 alunos.
Frequências acumuladas também podem ser expressas em termos relativos ou percentuais. Exemplo: Frequências de alunos de odontologia segundo sua capacidade de extrair dentes. 12% dos alunos não se sentem capazes de extrair um dente.
Distribuição de frequências variáveis quantitativas Usualmente, variáveis quantitativas possuem um grande número de escores possíveis Para que se possa obter uma distribuição de frequências razoável (isto é, interpretável), deve-se agrupar os elementos em faixas de valores (ou classes). Dois parâmetros para decidir: Quantas faixas de valores? Qual a amplitude de cada classe? (Ou quais os limites mínimo e máximo de cada intervalo?) Exemplo: Idade dos alunos do curso de medicina veterinária da UFBA, no ano de 1993 (Ferreira et al, 2002). 24-23 - 22-28 - 35-21 - 23-33 - 34-24 - 21-25 - 36-26 - 22-30 - 32-25 - 26-33 - 34-21 - 31-25 - 31-26 - 25-35 - 33 31
Exemplo (cont): Idade dos alunos do curso de medicina veterinária da UFBA, no ano de 1993: agrupamento dos dados em tabelas de frequência. Distribuição de frequências dos dados não agrupados em classes: Distribuição de frequências dos dados agrupados em classes: Símbolo indica intervalo fechado no limite inferior e aberto no limite superior. Ex: 21 24 contém o valor 21 mas não contém o valor 24.
Quantas classes? Literatura apresenta diversos métodos. Ferreira et al. (2002) descrevem dois critérios: denotando por n o tamanho da amostra e k o número de classes: Método 1: Para n 25, k = 5; para n > 25, k = n. Método 2: Fórmula de Sturges: k = 1 + log 2 n = 1 + 3,3 log 10 n (O símbolo representa arredondamento para cima) Este método é indicado quando os dados seguem distribuição aproximadamente normal e n >30. Método utilizado em alguns pacotes e ambientes estatísticos. Exemplo: se n = 49: Pelo método 1: k = 49 = 7. Pelo método 2: k = 1 + log 2 49 = 6,61 = 7. Exemplo (cont): Idade dos alunos do curso de medicina veterinária da UFBA, no ano de 1993. n = 30 k = 30 = 5,48 k 5.
Definido o número de classes, é necessário calcular os limites inferior e superior de cada classe. Passo 1: calcular a amplitude dos dados (denotada por A), dada pela diferença entre o valor máximo e o valor mínimo dentre os valores: A = Max Min onde Max e Min representam, respectivamente, o valor máximo e o valor mínimo entre os dados. Passo 2: calcular a amplitude das classes dos dados (denotada por h), dada pela divisão entre a amplitude dos dados (A) e o número de classes (k): h = A k Passo 3: calcular os limites inferior e superior de cada intervalo (denotados por LI j e LS j ): LI 1 = Min; LS 1 = LI 1 + h LI 2 = LS 1 ; LS 2 = LI 2 + h LI 3 = LS 2 ; LS 3 = LI 3 + h...
Exemplo (cont): Idade dos alunos do curso de medicina veterinária da UFBA, no ano de 1993. 24-23 - 22-28 - 35-21 - 23-33 - 34-24 - 21-25 - 36-26 - 22-30 - 32-25 - 26-33 - 34-21 - 31-25 - 31-26 - 25-35 - 33 31 Número de intervalos: k = n = 5,48 5; Amplitude dos dados: A = Max Min = 36 21 = 15 Amplitude das classes: h = A/k = 15/5 = 3 Limites dos intervalos: LI 1 =21; LS 1 = LI 1 + h = 21 + 3 = 24; LI 2 =24; LS 2 = LI 2 + h = 24 + 3 = 27; LI 3 =27; LS 3 = 27 + 3 = 30; LI 4 =30; LS 4 = 30 + 3 = 33; LI 5 =33; LS 5 = 33 + 3 = 36;
Observações: 1. Em certas variáveis quantitativas, faixas podem ser determinadas por convenção. Ex: para idade, uma possível convenção (mas não a única) é: de 0 a 4 anos; de 5 a 9 anos; de 10 a 19 anos; de 20 a 29 anos; de 30 a 39 anos; de 40 a 49 anos; de 50 a 59 anos; de 60 a 69 anos; 70 anos e mais. 2. Em alguns casos, o extremo inferior da primeira classe ou o extremo superior da última classe (ou ambos) podem não estar definidos. Distribuição de frequências de pessoas conforme a altura: 3. As classes podem ser estabelecidas de antemão pelo próprio pesquisador, por uma autoridade no assunto ou por alguma instituição.
Gráficos A apresentação gráfica é um complemento importante da apresentação tabular. Principal vantagem de um gráfico é que, em geral, este permite uma visualização mais imediata da distribuição dos valores observados. Através de gráficos, dados estatísticos se apresentam em termos de grandezas visualmente interpretáveis. Gráficos devem ser autoexplicativos e de fácil compreensão Todo gráfico deve apresentar um título e uma escala.
Tipos básicos de gráficos Cartogramas: são mapas geográficos ou topográficos em que as frequências das categorias de uma variável são projetadas nas áreas específicas do mapa, utilizando-se cores ou traçados cujos significados constam em legendas anexadas às figuras. Diagramas: são gráficos em que a magnitude da estatística de interesse (frequência, média, etc) é representada por certa mensuração de uma determinada figura geométrica. São os gráficos mais usados e se apresentam através de uma grande variedade de tipos.
Tipos mais comuns de diagramas Gráficos em linhas: frequentemente usados para a representação de séries temporais. Permitem a identificação de: Intensas flutuações; Tendências, sazonalidades, ciclos, etc Permitem a comparação de várias séries. Gráficos de barras (horizontais ou verticais): Cada coluna ou barra representa uma categoria: Altura ou comprimento da barra representa a estatística que se quer medir (média, frequência absoluta, frequência relativa, etc). Gráficos de setores (ou de pizza): Utilizados para representar valores absolutos ou porcentagens complementares. Úteis quando se pretende comparar cada valor da série com o total.
Exemplo de cartograma: Fonte: IBGE, Censo Demográfico 2010. http://www.censo2010.ibge.gov.br/ sinopse/webservice/frm_cartogram as.php?codigo=0
Exemplo gráfico em linha Faturamento anual de brinquedos (sem IPI), em R$ milhões Fonte: Fabricantes Nacionais / Sistema Aliceweb Referência: Associação Brasileira dos Fabricantes de Brinquedos. A Força do Brinquedo 2013. São Paulo, 2014. http://www.abrinq.com.br/download/a_forca_do_brinquedo_estatisticas_2013.pdf
Exemplo gráfico em linha Bergamaschi et al. (2010)
Exemplo gráfico de barras verticais Ferreira et al. (2002)
Exemplo gráfico de barras horizontais, variável qualitativa nominal; por questão de clareza, países são apresentadas em ordem crescente de consumo. Distribuição do consumo médio (kg/ano) per capita de carne vermelha, segundo país. Bergamaschi et al. (2010)
Exemplo gráfico de setores http://www.censo2010.ibge.gov.br/sinopse/webservice/default.php?cod1=0&cod2=&co d3=0&frm=hom_mul
Exemplo gráfico de setores Ferreira et al. (2002)
Exemplo gráfico de barras verticais múltiplas % http://www.censo2010.ibge.gov.br/sinopse/webservice/default.php?cod1=0&cod2=& cod3=0&frm=alf_rur_urb
Histogramas: Os histogramas são gráficos adequados para descrever distribuições de frequências sobre variáveis quantitativas São oriundos a partir de uma tabela de distribuição de frequências. São usualmente parecidos com gráficos de barras verticais, onde: largura de cada barra corresponde à amplitude do intervalo correspondente; altura da barra corresponde à frequência (absoluta ou relativa) no intervalo.
Exemplo: Construir uma tabela de distribuição de frequências e o histograma das idades dos funcionários de uma amostra de 50 elementos da empresa XPTO Anexo A (Martins e Domingues, 2011).
Exemplo (cont): tabela de distribuição de frequências dos funcionários segundo suas idades:
Exemplo (cont): Histograma: frequências absolutas
Exemplo (cont): Histograma: frequências relativas
Exemplo histograma Distribuição das pessoas por sexo, segundo os grupos de idade. Brasil 2010. http://www.censo2010.ibge.gov.br/sinopse/webservice/default.php?cod1=0&cod2=&cod 3=0&frm=hom_mul_cri_ad_ol
Exemplo histograma (barras horizontais) http://www.censo2010.ibge.gov.br/sinopse/webservice/default.php?cod1=0&cod2=&cod 3=0&frm=piramide
Gráficos Escala aritmética e escala logarítmica Exemplo (Bergamaschi, 2010): Suponha que, em uma escola, tenham sido observadas as seguintes frequências de alunos com sobrepeso e alunos obesos nos anos de 2000 e 2002. Pergunta: qual dos dois grupos de alunos teve maior queda relativa entre 2000 e 2002? Resp: Ambos tiveram uma redução de 50%: 150/300 = 0.5 = 50%; 50/100 = 0.5 = 50%.
Gráfico em escala aritmética: Usando a escala aritmética, tenderemos a achar que o grupo de alunos com sobrepeso teve a maior redução relativa.
Gráfico em escala logarítmica: Na escala logarítmica, as duas retas possuem a mesma inclinação, indicando que os dois grupos tiveram a mesma redução relativa: log 10 150 log 10 300 = log 10 150/300 = log 10 0.5 = 0,3 log 10 50 log 10 100 = log 10 50/100 = log 10 0.5 = 0,3
Escala logarítmica é útil quando estamos interessados em comparar as variações relativas entre duas ou mais categorias cujos valores da estatística têm ordens de grandeza distintas. Outro exemplo (Bergamaschi, 2010): Coeficiente de mortalidade pelas doenças X e Y (100.000 hab.). Determinada localidade, 1990 1995. Qual doença teve maior redução relativa no coeficiente de mortalidade?
Gráfico em escala aritmética:
Gráfico em escala logarítmica: