% 100 90 80 70 60 50 40 30 20 10 0 Sim Sindicalização Não Análise Descritiva de Dados Parte II: Organizando e apresentando os dados de variáveis quantitativas 20 Tabelas e Gráficos Porcentagem 10 0 20 30 40 50 IdadeMotorista
Relembrando: Planilha de Dados
Estudando a Distribuição de Frequências Variáveis Discretas
Exemplo: Riqueza de espécies de formigas Elisson(2004) coletoudados sobrea riquezade espéciesde formigasemdoistiposde localidades: pântanoe floresta. Para 25 localidadesde florestae 36 localidadesde pântano, ele contou o número de espécies diferentes de formigas identificadas. Floresta 2 2 1 2 5 1 3 5 2 1 3 2 0 2 1 3 3 2 4 2 2 3 2 4 3 Pântano 2 1 1 0 1 1 1 0 0 0 0 1 2 0 1 1 0 3 2 0 1 1 2 3 2 2 1 1 2 0 1 1 0 1 4 3 1 *valores fictícios
Variáveis discretas que assumem poucos valores distintos
Florestas 0 1 2 3 4 5 Número de espécies Frequência Relativa (%) 0 10 20 30 40
Variáveis discretas que assumem poucos valores distintos
Pântanos 0 1 2 3 4 5 Número de espécies Frequência Relativa (%) 0 10 20 30 40
Comparando os dois tipos de habitats Frequência Relativa (%) 0 10 20 30 40 0 1 2 3 4 5 0 1 2 3 4 5 Número de espécies Número de espécies Frequência Relativa (%) 0 10 20 30 40
Variável discreta que assume um grande número de valores distintos [Reis e Reis, 2001] Solução: agrupar valores em classes
Estudando a Distribuição de Frequências Variáveis Contínuas
Variáveis contínuas assumem muitos valores distintos Solução: agrupar valores em classes
Histograma de frequências Frequências relativas(%) Frequencia Absoluta 0 200 400 600 800 10.06 44.89 32.64 10.27 1.82 0.21 0.05 0.05 5 10 15 20 Area das folhas, cm2 Gráfico para a distribuição de frequências de variáveis contínuas
Densidade 0.00 0.05 0.10 0.15 0.20 Histograma de densidade Área da barra = frequência relativa da classe Soma das áreas de todas as barras = 1 2 x 0.0514 = 0.1027 Densidade = 5 10 15 20 frequência relativa da classe tamanho da classe
Vantagem do histograma de densidade Densidade 0.00 0.05 0.10 0.15 0.20 Cálculo da frequência em classes diferentes daquelas apresentadas no histograma. Exemplo: qual é a frequência de plantas com área foliar entre 7.0 e 11.0 cm 2? ( 1 x 0.2244 ) + ( 2 x 0.1632 ) + ( 1 x 0.0513 ) = 0.6022 5 7 10 11 15 20
Classificação da Distribuição de Frequências de uma Variável Contínua quanto a sua Forma 6 Simétrica Frequência relativa (%) 5 4 3 2 1 0 50 60 70 80 90 100 110 120 130 140 150 Variável Com concentração à esquerda Assimétrica Com concentração à direita 10 9 6 Frequência relativa (%) 8 7 6 5 4 3 2 1 Frequência relativa (%) 5 4 3 2 1 0 0 10 20 30 Variável 0 92 93 94 95 96 97 98 99 100 101 102 Variável
Ogiva: gráfico das frequências acumuladas Frequencia Relativa Acumulada 0 20 40 60 80 100 5 10 15 20 Área das folhas, cm2
4 6 8 10 12 14 16 18 20 O eixo horizontal utiliza os limites superiores das classes
Frequencia Relativa Acumulada 0 20 40 60 80 100 Uma ogiva sempre começa em 0% 4 6 8 10 12 14 16 18 20 5 10 15 20 Área das folhas, cm2 Uma ogiva sempre termina em 100%
Qual é o percentual de plantas que possuem área foliar abaixo de 11 cm 2? Frequencia Relativa Acumulada 0 20 40 60 80 100 92 4 5 6 8 10 15 11 12 14 16 18 20 Área das folhas, cm2
Qual é o valor de área foliar que deixa 50% das plantas abaixo dele? Frequencia Relativa Acumulada 0 20 40 60 80 100 50 4 5 6 8 10 12 14 15 16 18 20 7.9 Área das folhas, cm2
Formas básicas para a distribuição de frequências de uma variável contínua Assimétrica (concentração à esquerda) ou (cauda à direita) Simétrica Assimétrica (concentração à direita) ou (cauda à esquerda)
Comparando duas distribuições de frequências Frequencia Relativa Acumulada 0 20 40 60 80 100 Variedade 1 Variedade 2 A distribuição da área foliar das plantas da variedade 2 é mais assimétrica concentrada à esquerda do que a distribuição da área foliar das plantas da variedade 1. 5 10 15 20 Área das folhas, cm2
Visualizando pequenos conjuntos de dados Diagrama de Pontos Diagrama de Ramo-e-folhas
Diagrama de Pontos [Reis e Reis, 2001]
Diagrama de Pontos: comparando dois conjuntos de dados Riqueza de espécies Floresta Pântano 5 10 15 Número de espécies de formigas na localidade
Diagrama de Ramo-e-Folhas Número de espécies de formigas em 22 pontos de coleta em habitats de floresta (valores ordenados) 4 4 5 6 6 6 6 6 7 7 7 8 9 9 10 10 12 14 15 16 17 18 Separando os dados pelas dezenas, uma em cada linha 4 4 5 6 6 6 6 6 7 7 7 8 9 9 10 10 12 14 15 16 17 18
Diagrama de Ramo-e-Folhas Separando as unidades de cada dezena em dois grupos: de 0 a 4 e de 5 a 9 4 4 5 6 6 6 6 6 7 7 7 8 9 9 10 10 12 14 15 16 17 18 Colocando as dezenas em evidência ramos 0 4 4 0 5 6 6 6 6 6 7 7 7 8 9 9 1 0 0 2 4 1 5 6 7 8 folhas
Diagrama de Ramo-e-Folhas
Ramo-e-Folhas duplo
Estudando uma variável quantitativa ao longo do tempo Gráfico de linha (Séries Temporais)
Séries temporais (ou séries históricas) são um conjunto de observações de uma mesma variável quantitativa (discreta ou contínua) feitas ao longo do tempo. Número de ovos de Aedes Aegypti em ovitrampas ao longo de 10 semanas Semana 1 2 3 4 5 6 7 8 9 10 Ovos 15 14 22 24 25 28 23 20 25 22 Os gráficos mais comuns para a representação de uma série temporal são os gráficos de linha.
2 4 6 8 10 Semana Número de ovos por armadilha 15 20 25 30
Área 1 Área 2 Área 3 2 4 6 8 10 Semana Número de ovos por armadilha 0 10 20 30 40
Desvio do Nível de Água do Rio Negro (médias mensais das observações diárias, em metros) Altura em relação a um ponto arbitrário -6-4 -2 0 2 4 1900 1920 1940 1960 1980 Ano
Fonte: O Estado de São Paulo (on-line) (maio a julho de 2009)
Cuidados ao elaborar um gráfico de linhas : a escala do gráfico Gráfico de linhas para o preço médio do litro de leite Folha de São Paulo (set/2001) 0,40 0,35 0,30 0,25 0,20 0,15 0,10 0,05 0,00 Maio Junho Julho Agosto [Reis e Reis, 2001]
Efeitos da mudança no início e/ou final da escala do gráfico de linhas da série temporal do preço do leite. 0,40 0,40 0,36 0,35 0,34 0,35 0,30 0,32 0,25 0,30 0,30 0,20 0,28 0,25 0,15 0,26 0,10 M aio Junho Julho Agosto 0,20 Maio Junho Julho A gos to 0,24 Maio Junho Julho A gos to [Reis e Reis, 2001]
Efeitos de alterações na dimensão horizontal do gráfico de linhas da série do preço do leite 0,60 0,55 0,50 0,45 0,40 0,35 0,30 0,25 0,20 0,15 0,10 0,05 0,00 0,60 0,55 0,50 0,45 0,40 0,35 0,30 0,25 0,20 0,15 0,10 0,05 0,00 0,60 0,55 0,50 0,45 0,40 0,35 0,30 0,25 0,20 0,15 0,10 0,05 0,00 Maio Junho Julho Agosto Maio Junho Julho Agosto
Alguns cuidados para que... 1) O início do eixo vertical seja o valor mínimo possível para a variável que está sendo representada (para o caso do preço de leite, o valor zero, leite de graça) 2) O final do eixo vertical seja tal que a série fica centrada em relação ao eixo vertical 3) Os tamanhos dos eixos sejam o mais parecidos possível. 0,60 0,55 0,50 0,45 0,40 0,35 0,30 0,25 0,20 0,15 0,10 0,05 0,00 Maio Junho Julho Agosto
Para compreender melhor Caderno de Exercícios Exercícios da Seção 2 Exercícios 2.4, 2.5, 2.6 (letras a e b) e 2.18. www.minha.ufmg.br
Praticando Estatística Como fazer histogramas, ogivas, ramo-e-folhas e gráficos de linhas usando o?
Como fazer usando o R? Gráfico de Barras para Dados de Variáveis Discretas Quando não se conhece as frequências das classes (dados brutos) formigas <- read.table("formigas.txt",header=t) tabela <- table(formigas$riqueza[formigas$habitat=="floresta"]) barplot(tabela, ylab="frequência Absoluta", main="riqueza de Espécies de Formigas", xlab="número de espécies de formigas", col="darkred")
Como fazer usando o R? Gráfico de Barras para Dados de Variáveis Discretas Quando já se conhece as frequências das classes Classes <- c(1, 2, 3, 4, 5, 6) # Classes Formigas.pantano <- c(4.0,16.0,40.0,24.0,8.0,8.0) # Frequências Relativas das classes names(formigas.pantano) <- Classes #Nomes das classes barplot(formigas.pantano, ylab="frequência Relativa(%)", main="riqueza de Espécies de Formigas", xlab="número de espécies de formigas", col="darkblue")
Como fazer usando o R? Histograma de Frequências hist(ciclame$area,breaks=seq(4,20,by=2), xlim=c(4,20), xlab="area das folhas, cm2", ylab="frequencia Absoluta", main="", col="lightgreen") Histograma de Densidade hist(ciclame$area,breaks=seq(4,20,by=2), xlim=c(4,20), xlab="area das folhas, cm2", ylab="frequencia Absoluta", main="", col="purple", freq=f)
Como fazer usando o R? Construindo as classes e frequências acumuladas Ogiva classes <- hist(ciclame$area, breaks=seq(4,20,by=2))[[1]] frequencias<-hist(ciclame$area, breaks=seq(4,20,by=2))[[2]] freq.cum <- round(cumsum(frequencias)/ sum(frequencias),4)*100 Desenhando a ogiva plot(classes,c(0,freq.cum),type="l",lwd=2, xlim=c(4,20), xlab="área das folhas, cm2", ylab="frequencia Relativa Acumulada", main=" ",col="red")
Como fazer usando o R? Ramo-e-folhas # Riqueza de Especies em Habitats de Floresta stem(formigas$riqueza[formigas$habitat=="floresta"]) # Riqueza de Especies em Habitats de Floresta stem(formigas$riqueza[formigas$habitat=="pantano"])
Como fazer usando o R? Gráficos de Linhas rionegro <- read.table("rionegro.txt",header=t) # Lendo a série temporal mensal de alturas ( height ) plot(rionegro$year,rionegro$height,type="b", xlab="ano", ylab="altura em relação a um ponto arbitrário") abline(h=0) # Linha horizontal na altura zero
Fim da terceira aula Análise Descritiva de Dados: Organizando e apresentando Dados de Variáveis Quantitativas Próxima Aula Análise Descritiva de Dados: Resumindo os Dados de Variáveis Quantitativas
Referências Bibliográficas ELLISON, A. E (2004). Bayesian inference in ecology. Ecology Letters, 7, 509 520. REIS, E.A.; REIS, I.A. (2001) Análise Descritiva de Dados- Tabelas e Gráficos, Relatório Técnico do Departamento de Estatística da UFMG. Disponível em: http://www.est.ufmg.br