Estatística-2018/2 Turma: Geografia
Objetivos da aula Mostrar como o usar o R para: calcular medidas de posição e dispersão de um conjunto de dados; construir um boxplot.
Determinação dos quantis de uma distribuição usando o R A função apropriada do R para obter os quantis de uma distribuição é a função quantile. Se x é o vetor contendo os dados, e desejamos determinar os três quartis, digitamos quantile(x,c(0.25,0.5,0.75)) Se desejamos o quinto (5%) e o nonagésimoquinto (95%) percentis, pedimos quantile(x,c(0.05,0.95)) Em geral, q(p) quantile(x,p)
Exemplo dos salários: dados=read.table( E:\\geografia\\ciaMB.txt,header=T) # calculando os quartis quantile(dados$sal, c(0.25,0.5,0.75)) 25% 50% 75% 7.5525 10.1650 14.0600 Pedindo a saída com duas casas decimais round(quantile(dados$sal,c(0.25,0.5,0.75)),digits=2) 25% 50% 75% 7.55 10.16 14.06
Continuação do Exemplo: Esquema dos cinco números: fivenum(dados$sal) [1] 4.000 7.515 10.165 14.270 23.300 mean(dados$sal) # média [1] 11.12222 median(dados$sal) #mediana [1] 10.165 max(dados$sal) # máximo [1] 23.3 min(dados$sal) #mínimo [1] 4
Exemplo 1: Emissão de Dióxido de Carbono Os dados no arquivo dados13bm.txt fornecem emissões de dióxido de carbono "per capita", para uma amostra de 72 países. Os dados são do ano de 1995. Fonte: Stabilizing The Atmosphere: Population, Consumption and Greenhouse Gases.
Comando para ler o arquivo dados=read.table( c:\\flavia\\dados13bm.txt,header=t) # na primeira coluna está o nome do país e, na segunda, o dado sobre emissão do país.
Exemplo 1: Emissão de Dióxido de Carbono (cont.) Determine os três quartis, os decis, a média e o desvio-padrão das emissões registradas para os 72 países em 1995.
Exemplo 1: Emissão de Dióxido de Carbono (cont.) names(dados) # nomes atribuídos as duas colunas do conjunto de dados "pais" "emissao" quantile(dados$emissao,c(0.25,0.5,0.75)) # comando para retornar os quantis de 25%, 50% e 75%, os três quartis. 25% 50% 75% 0.0675 0.4150 1.4725
Exemplo 1: Emissão de Dióxido de Carbono (cont.) quantile(dados$emissao,c(.1,.2,.3,.4,.5,.6,.7,.8,.9)) # comando para retornar os 9 decis, a saber, 10%, 20%,..., 90%. 10% 20% 30% 40% 50% 60% 70% 80% 90% 0.02 0.05 0.14 0.28 0.42 0.87 1.26 1.99 3.02 Observe que nessa lista os valores estão arredondados com duas casas decimais.
Exemplo 1: Emissão de Dióxido de Carbono (cont.) > mean(dados$emissao) # retorna a média de emissões [1] 1.174167 > var(dados$emissao) # retorna a variância 2.853036 > sd(dados$emissao) #retorna o desvio padrão de emissões [1] 1.689093 median(dados$emissao) # retorna a mediana de emissões [1] 0.415
Exemplo 1: Emissão de Dióxido de Carbono (cont.) > round(mean(dados$emissao),digit=2) # retorna a média de emissões com duas casas decimais [1] 1.17 > round(sd(dados$emissao),digit=2) #retorna o desvio padrão de emissões com duas casas decimais [1] 1.69
Histograma das emissões Observe que a distribuição de frequências de dados sobre emissão apresenta forte assimetria positiva Observe também que há uma classe sem representantes nessa distribuição
Histograma das emissões: sugerindo 10 intervalos: (0,0.33,0.67,1,1.33,1.67,2,3,4,6,10) Observe que nesse histograma os intervalos têm comprimentos diferentes. Nesse caso devemos usar a escala de densidade de frequência dada pela razão da frequência com o comprimento do intervalo.
Observe que nessa figura tem-se Q2-Q1<Q3-Q2 Q2-x(1)<<x(n)-Q2 Q1-x(1)<<x(n)-Q3
Esquema dos cinco números É uma lista de informações da distribuição que inclui cinco medidas, a saber, x (1), Q1, Q2, Q3 e x (n). Estes cinco valores são importantes para se ter uma boa ideia da assimetria dos dados.
Esquema dos cinco números Para uma distribuição simétrica ou aproximadamente simétrica, deveríamos ter: (a) Q2- x (1) x (n) -Q2; (b) Q2-Q1 Q3-Q2; (c) Q1- x (1) x (n) -Q3;
Comandos summary() e fivenum() O R possui uma função que retorna as informações do esquema dos cinco números: fivenum(x), se x é o vetor que contém os dados. Exemplo: x<-c(1,1,1,2,2,2,2,3,3,3,4,4,4,5,5,6,7,8,9,10) fivenum(x) [1] 1.0 2.0 3.5 5.5 10.0
Comandos summary() e fivenum() summary(x) Min. 1st Qu. Median Mean 3rd Qu. Max. 1.00 2.00 3.50 4.10 5.25 10.00 O comando summary(x), quando x é um vetor numérico, produz as informações do esquema dos cinco números e a média.
Desenho Esquemático (Box Plots) A informação contida no esquema dos cinco números pode ser traduzida graficamente num diagrama, conhecido como box plot. A figura a seguir, ilustra o boxplot.
Boxplot O retângulo no boxplot é traçado de tal maneira que suas bases têm alturas correspondentes aos primeiro e terceiro quartis da distribuição. O retângulo é cortado por um segmento paralelo às bases, na altura correspondente ao segundo quartil. Assim, o retângulo do boxplot correponde aos 50% valores centrais da distribuição.
Cosntruindo o boxplot Depois de desenhado o retângulo, traça-se um segmento paralelo ao eixo, partindo do ponto médio da base superior do retângulo até o maior valor observado que NÃO supera o valor de Q3+(1,5)DEQ. O mesmo é feito a partir do ponto médio da base inferior do retângulo, até o menor valor que NÃO é menor do que Q1-(1,5)DEQ.
Fechando o boxplot As observações que estiverem acima de Q3+(1,5)DEQ ou abaixo de Q1-(1,5)DEQ são chamadas pontos exteriores e representadas por asteriscos. Essa observações destoantes das demais podem ser o que chamamos de outliers ou valores atípicos.
Observações Não necessariamente haverá a presença de pontos exteriores num boxplot. Quando for este o caso, o esquema terá a seguinte aparência:
A função boxplot no R Experimente pedir ao R para construir um boxplot dos dados sobre emissões de dióxido de carbono: boxplot(dados$emissao)
Alguns argumentos da função boxplot Observação: é possível construir vários boxplots na mesma função. boxwex: controla a largura dos retângulos no boxplot. O default é 0.8. outline: valor lógico. Se T, os pontos exteriores são assinalados (default). Se F, os pontos exteriores não são assinalados
Exemplo 2 Vamos trabalhar com os dados sobre salários para diferentes profissões/formações do conjunto dados6bm.txt. dados<-read.table( c:\\flavia\\dados6bm.txt,header=t) Há quatro profissões diferentes, a saber, nivelmedio, mecanico, administrador, engeletrico. boxplot(dados[,2],dados[,3],dados[,4],dados[,5],names=c( nivel medio, mecanico, administrador, eng.eletrico ))
1 nível médio 2 mecânico 3 administrador 4 Eng. Elétrico
Cores col - cor de preenchimento dos retângulos
Boxplots horizontais horizontal - valor lógico, se T o boxplot fica na posição horizontal. Se F (default) fica na posição vertical.
Outros argumentos ylim: controla a escala de valores main: título sub: sub-título names: vetor com os rótulos dos conjuntos de dados, quando são pedidos mais de um boxplot. pch: específica o caracter a ser usado nos pontos exteriores. Ex.: pch= *.
Exemplo 3 Dados sobre temperaturas médias mensais. (dados5bm.txt) Com as temperaturas médias mensais, separadas mês a mês, para cada cidade, construa boxplots para analisar o comportamento das mesmas, para cada cidade.
Boxplots das temperaturas mensais de Ubatuba e Cananéia mês do ano mês do ano