2. Representação de dados qualitativos em tabelas e gráficos Para a representação de dados qualitativos em tabelas e gráficos vamos precisar definir algumas quantidades: n = tamanho da amostra ou frequência absoluta total; k = número de categorias ou classes; n i = frequência absoluta da i-ésima categoria ou classe, i = 1, 2,..., k; k ni i 1 f i = frequência relativa da i-ésima categoria ou classe, i = 1, 2,..., k; n f i i, n k k n f i i 1 n i 1 i 1 2.1. Tabelas de frequências de variáveis qualitativas Representação das frequências das categorias da variável qualitativa numa tabela com as frequências absolutas e relativas. Categorias Freq. absolutas Freq. relativas Categoria 1 n 1 f 1 = n 1 / n Categoria i n i f i = n i / n Categoria k n k f k = n k / n Totais n 1 n
Exemplo 1: Tipo de moradia dos alunos de Estatística 1, anos 2015 1 2017. Tabela 1: Tipo de moradia dos alunos de Estatística 1. Tipo de Moradia Valores Valores absolutos n i relativos f i % Mora com os pais 34 0.410 41.0 Apartamento 22 0.265 26.5 República 13 0.157 15.7 Alojamento UFSCar 8 0.096 9.6 Fora de São Carlos 4 0.048 4.8 Pensão 2 0.024 2.4 Total Geral 83 1.00 100.0 Fonte: Coleta de dados dos professores da disciplina das turmas de 2015 a 2017. Obs: Existe uma norma especifica do IBGE para a construção de tabelas que pode ser observada. 2.2. Representação gráfica de variáveis qualitativas A representação gráfica de variáveis qualitativas é feita basicamente de gráficos de barras (ou colunas) ou gráficos de setores (pizza), com suas diversas variações. Podem, também, ser utilizados gráficos pictóricos, que, na prática são variações dos gráficos de barras. A seguir são apresentados os gráficos de barras e setores para a Tabela 1.
i) Gráfico de barras verticais ou colunas: Figura 1: Tipo de moradia dos alunos de Estatística 1, anos 2015 a 2017. ii) Gráfico de barras horizontais: Figura 2: Tipo de moradia dos alunos de Estatística 1, anos 2015 a 2017.
iii) Gráfico de setores (pizza): Figura 3: Causas mais frequentes de intoxicação e envenenamento em crianças de 1 a 5, anos em valores percentuais. Gráfico de pizza com destaque numa categoria: Figura 4: Intoxicação por produtos domésticos, em crianças de 1 a 5 anos, comparado com outras causas.
Classificação B Variação do gráfico de pizza, o gráfico de rosca Figura 5: Causas mais frequentes de intoxicação e envenenamento em crianças de 1 a 5, anos em valores percentuais. 2.3. Variáveis qualitativas em tabelas com dupla classificação Muitas vezes as variáveis são apresentadas em tabelas com duas classificações, conforme esquema. Tabela 3: Representação de uma tabela de dupla entrada l x c. Classificação A Totais das A1 Aj Ac linhas B1 n 11 n 1j n 1c n 1 Totais das colunas Bi n i1 n ij n ic n i B l nl1 nlj nlc nl n 1 n j n c n
A Classificação A tem c categorias (número de colunas da tabela). A Classificação B tem l categorias (número de linhas da tabela). A tabela assim constituída pode ser identificada como: tabela de dupla entrada (tabela l x c ); tabela cruzada ou tabela de contingência.
As quantidades apresentadas na tabela são definidas como: n ij = Total observado nas categorias A i e B j, simultaneamente. É dado pelo valor no cruzamento da i-ésima linha e j-ésima coluna. i 1, 2,, e j 1, 2,, c. n i = Total das observações da categoria B i É dado pela soma dos valores da i-ésima linha. n j = Total das observações da categoria A j É dado pela soma dos valores da j-ésima coluna. n = Total das observações ou tamanho da amostra. É dado pela soma de todos os valores da tabela. Obs: Se estivermos estudando a população toda, então teremos N = tamanho da população. Ainda: c n i n ij j 1 total da i-ésima linha; j n ij i 1 n total da j-ésima coluna; c n ij i 1 j 1 n total geral (tamanho da amostra).
2.3.1. Caso especial l = c = 2, tabelas 2x2. Tabela 4: Representação de uma tabela de dupla entrada 2 x 2. A 1 A 2 Totais das linhas B 1 n 11 n 12 n 1 B 2 n 21 n 22 n 2 Totais das colunas n 1 n 2 n Exemplo 1: Crianças expostas a violência doméstica do pai contra a mãe, variáveis situação civil da mãe e grupo (tabela 2x2). Tabela 5: Tabela com dupla classificação segundo situação civil da mãe por grupo. Vive com o companheiro Separada Totais Expostos 11 4 15 Não Expostos 14 1 15 Totais 25 5 30 Assim temos: n 11 = 11 n 12 = 4 n 21 =14 n 22 =1 n 1 = 15 n 2 = 15 n 1 = 25 n 2 = 5 n = 30
Representação gráfica: Figura 5: Representação gráfica da dupla classificação situação civil da mãe por grupo. 2.3.2. Caso especial, tabelas em porcentagens. A tabela de dupla classificação pode, ainda, ser construída levando em consideração os percentuais em relação às colunas. Desta forma, no exemplo acima teremos: Tabela 6: Tabela situação civil da mãe por grupo, em valores percentuais Vive com o companheiro Separada Totais Expostos 44 80 50 Não Expostos 56 20 50 Totais 100 100 100
Neste caso, a representação gráfica deve acompanhar a ordem de grandeza. Figura 6: Representação gráfica da situação civil da mãe por grupo, em valores percentuais Obs: quando se tem uma tabela com dupla classificação para se comparar diferentes perfis é prudente que esse comparação seja realizada considerando-se os valores percentuais.
Exemplo 2: Condições clínicas do periodonto de pacientes atendidos na Clínica de Graduação da Faculdade de Odontologia de Araraquara - UNESP, no período de 1994 a 1999 (tabela 4x3). Tabela 7: Presença de doença por idade (anos). Faixa etária do paciente (anos) Presença de Contagens Porcentagens Doença 19-40 41-60 60 ou + 19-40 41-60 60 ou + Diabete 11 11 3 30.6 17.7 15.8 Hipertensão 10 34 11 27.8 54.8 57.9 Discr. Sanguineas 5 1 3 13.9 1.6 15.8 Alt. Hormonais 10 16 2 27.8 25.8 10.5 Total 36 62 19 100.0 100.0 100.0 64 48 Idade x Presença de Doença 54.8 57.9 % 32 30.6 27.8 27.8 25.8 16 13.9 17.7 15.8 15.8 10.5 0 19-40 anos 41-60 anos 60 anos ou+ 1.6 Diabete Hipetensão Discr.Sanguineas Alt.Hormonais Figura 7: faixa etária do paciente por Presença de doença.
2.4. Representações gráfica: o que se deve evitar: a) Barras (ou colunas) muito afinadas e compridas: Figura 5: Origem dos alunos da turma de Bioestatística por distância, em km. b) Barras (ou colunas) muito largas e baixas, com cores distintas: Figura 6: Origem dos alunos da turma de Bioestatística por distância, em km.
c) Gráfico muito pequeno num espaço grande: Figura 7: Origem dos alunos da turma de Bioestatística por distância, em km. d) Gráfico muito grande para o espaço: Figura 7: Origem dos alunos da turma de Bioestatística por distância, em km.
e) Gráfico fora de escala (propositalmente): Tabela 3: Intenção de votos Candidato Votos (%) Candidato A 29.5 Candidato B 26.3 Candidato C 25.2 Candidato D 19.0 Total Geral 100 Figura 7: Intenção de votos para os 4 candidatos Figura 8: Intenção de votos para os 4 candidatos
Figura 9: Intenção de votos para os 4 candidatos, lado a lado. f) Gráfico muitas categorias: Figura 10: Cidade de origem dos alunos de Bioestatística.
g) Tipo inapropriado para uma sequência de tempo muito longa: Figura 11: Acidentes no rapel no período 2001-2010.
h) Gráfico com uma quantidade exagerada de setores muito finos. Figura 12: Cidade de origem dos alunos de Estatística 1, 2015. (Fictício)
i) Gráficos com forte poluição visual Artigo de Osler Desouzart (OD Consulting) no site Engormix, 13/03/2012: Dados e fatos sobre o comércio internacional de gado bovino http://pt.engormix.com/ma-pecuaria-corte/administracao/artigos/dados-fatos-sobre-comercio-t957/124- p0.htm http://www.acrismat.com.br/novo_site/arquivos/26052010063341osler%20desouzart.pdf
j) Erros nos gráficos e na apresentação Artigo do Blog Carta Maior, 16/12/2014: Os limites atuais da distribuição de renda e riqueza no Brasil Os 0,9% mais ricos do País detêm entre 59,90% e 68,49% da riqueza, sendo as principais fontes de acumulação de riqueza os fluxos de renda e heranças. http://idg.receita.fazenda.gov.br/dados/receitadata/estudos-e-tributarios-e-aduaneiros/trabalhosacademicos/trabalhos-academicos-pagina
Gráficos com erros apresentados por uma renomada rede de notícias brasileira (?)