Percentis e Boxplots

Densidade de probabilidade Percentis e Boxplots Exemplo 1: Regularmente, o Banco Mundial publica um índice de controle de corrupção (ICC) para diversos países do mundo. Este índice faz parte da pesquisa World Governance Indicators 1. O ICC pode variar entre -2,5 e 2,5 e quanto maior o seu valor, melhor a situação do país. A Figura 1, traz o histograma referente aos resultados da pesquisa de 2012, na qual o valor do ICC foi calculado para 210 países. O país com pior ICC foi a Somália (-1,59) e com melhor foi a Dinamarca (2,29). O ICC do Brasil foi -0,07. Como comparar o valor do ICC brasileiro em relação aos demais países do mundo? Uma maneira de fazer isso é verificar que, colocando os países em ordem crescente de ICC, o Brasil ocupa a 119ª posição, num total de 210 países; ou seja, há cerca de 57% de países com ICC menores ou iguais ao do Brasil. Esse tipo de informação é útil quando se deseja, por exemplo, acompanhar a evolução temporal do Brasil em relação a este indicador. O valor -0,07 é o 57º percentil do ICC em 2012. 0,5 0,4 0,3 0,2 0,1 0,0-1,6-0,8 0,0 ICC 0,8 1,6 2,4 Figura 1: Histograma do ICC calculado para 215 países em 2012. A Figura 2 ilustra a evolução do ICC do Brasil e sua posição frente às demais nações, entre 1996 e 2012. Da análise desses dados, nota-se que o ICC brasileiro sempre variou entre -0,17 e 0,15, sendo que o pior momento ocorreu em 2005 (-0,17), ano em que o Brasil ocupava a 52ª posição frente aos demais países pesquisados (0,15 era o 52º 1 Kaufmann, Daniel, Kraay, Aart and Mastruzzi, Massimo, The Worldwide Governance Indicators: Methodologyand Analytical Issues (September 2010). World Bank Policy Research Working Paper No. 5430. Available at SSRN: http://ssrn.com/abstract=1682130 1

percentil) e o melhor momento foi 2011 (0,15), quando o Brasil chegou a ocupar a 63ª posição (0,15 era o percentil 63 dos países pesquisados). Tabela 1: ICC brasileiro e sua respectiva posição relativa frente aos demais países pesquisados. Ano ICC Percentil 1996-0,07 56 1998 0,00 61 2000 0,02 60 2002 0,01 59 2003 0,10 59 2004 0,05 57 2005-0,17 52 2006-0,14 54 2007-0,12 55 2008-0,02 58 2009-0,12 56 2010 0,00 60 2011 0,15 63 2012-0,07 57 2

1995 1997 1999 2001 2003 2005 2007 2009 2011 2013 1995 1997 1999 2001 2003 2005 2007 2009 2011 2013 ICC ICC Densidade de probabilidade 0,5 Paraguai Brasil Venezuela Argentina EUA Uruguai Chile 0,4 0,3 0,2 0,1 0,0-1,6-0,8 0,0 0,8 ICC - 2012 1,6 2,4 0,20 0,15 0,10 0,05 0,00-0,05-0,10-0,15-0,20 ICC Ano 64 62 60 58 56 54 52 50 Posição relativa Ano Figura 2: Evolução do ICC brasileiro e respectiva posição relativa frente aos demais países pesquisados. Definição: Define-se o percentil, ou quantil, de ordem de uma amostra de dados, ao valor,, que é maior do que os menores valores da amostra ordenada ( A definição de percentis para modelos contínuos de probabilidade é autossuficiente para sua obtenção, no entanto, o mesmo não ocorre quando se tem um conjunto de dados reais. Numa amostra de 353 observações, qual seria o valor do 14º percentil? Há diversas maneiras de se obter um percentil para um conjunto de dados, um algoritmo simples, descrito por Anderson (2007, p.75) é 1) Ordene os dados em ordem crescente:. 2) Determine: sendo a ordem de e o tamanho amostral. 3) Se não é um número inteiro, defina como o número inteiro seguinte maior que, então. Se é um número inteiro, o percentil de ordem, adote como o percentil de ordem é dados por. 3

Outros algoritmos de cálculo podem ser encontrados em Hyndman e Fan (1996), Journet (1999) e Langford (2006). Quartis Podemos ter uma boa ideia sobre o comportamento de uma variável analisando seus valores mínimo ( ), máximo ( ) e demais quartis (,, ). Dessas medidas, podemos extrair as seguintes informações: a. Tendência central: expressa pelo segundo quartil (, correspondendo à mediana dos dados. b. Variabilidade: pode-se calcular a amplitude dos dados ( ) e a amplitude do intervalo interquartil ( ), por exemplo. c. Assimetria: numa distribuição simétrica positiva espera-se que e, caso inexistam valores aberrantes, que. Numa distribuição assimétrica negativa, inverte-se o sinal das desigualdades. O coeficiente de Bowley 2 pode ser utilizado para medir o grau de assimetria de uma distribuição; ele é dado por Note que quando temos a maior evidência possível de assimetria à direita que pode ser obtida a partir dos quartis nesse caso,. Por outro lado, se, temos a maior evidência de assimetria positiva, nesse caso. Caso a distribuição seja perfeitamente simétrica, temos, o que implica em cabe ressaltar que o fato de ser zero não é condição suficiente para garantir a simetria da distribuição. d. Valores aberrantes (outlyers): quando os dados seguem uma distribuição normal, espera-se que 99,3% das observações estejam no intervalo [ ] e Assim, qualquer ponto fora desse intervalo seria de ocorrência rara, podendo ser considerado suspeito de ser aberrante. O fato da regra ter sido construída a partir de um modelo normal faz com que sua aplicação a dados assimétricos ou com algum tipo de simetria que não corresponda à normalidade, seja feita com cuidado. A aplicação em distribuições assimétricas, por exemplo, pode levar à identificação de um número elevado de valores suspeitos no sentido da cauda mais longa da distribuição. Há um fato estilizado que diz que o comportamento dos retornos de uma aplicação é, em geral, simétrico, mas não normal. Nesse caso, haveria mais observações distantes do centro dos dados do que seria esperado numa distribuição normal (caudas pesadas ou alta curtose); ao aplicar esta regra a esse tipo de dado, um número elevado de pontos suspeitos poderá ser identificado. A Figura 3 apresenta uma maneira de visualizar essas medidas: o esquema de cinco pontos. O esquema de cinco pontos é uma maneira de apresentar essas medidas. 2 Ver Zar (1996), por exemplo. 4

n Figura 3: Esquema de cinco pontos O esquema de cinco pontos dos dados do ICC de 2012 é dado por 210-0,29-0,78 0,82-1,59 2,39 Note que Metade dos países tem ICC superior a -0,29. A amplitude observada para o ICC em 2012 é ; enquanto que os 50% países que ocupam valores centrais do ICC têm uma amplitude de. e, compatível com uma assimetria positiva dos dados. e. Como não há pontos fora do intervalo [ ], não se identificam pontos suspeitos no conjunto de dados. Boxplot A distribuição de um conjunto de dados pode ser ilustrada por meio de um gráfico construído a partir de seus quartis: boxplot. A Figura 4 ilustra sua construção. Tome, inicialmente, a figura indicada por A. Os valores da variável estão representados no eixo horizontal. e definem os limites da caixa; é o traço que divide a caixa em duas. A partir da caixa são estendidas linhas (hastes) que terminam nos valores mínimo e máximo. Já a figura indexada por B traz uma variação do gráfico de caixas. Nesse caso, há valores que superam os limites descritos no item (d). Tais pontos estão indicados por asteriscos. Nesse caso a linha contínua (haste) é estendida até a última observação que não considerada suspeita. A Figura 5 ilustra o padrão observado para boxplots construídos para dados com distribuição aproximadamente simétrica, assimétrica positiva e assimétrica negativa. 5

Figura 4: Boxplots 6

Distribuição simétrica Assimetria Positiva Assimetria Negativa Figura 5: Exemplos de boxplots para dados com distribuição simétrica, assimétrica positiva e assimétrica negativa. A Figura 6 traz boxplots construídos para quatro conjuntos de dados todos com média zero e desvio-padrão um. O primeiro traz dados gerados a partir de um modelo normal. Note que há indícios de simetria (veja a distância entre as bordas da caixa e seu centro e tamanho das hastes) e que a quantidade de pontos suspeitos é compatível com o esperado numa distribuição normal (aproximadamente 0,7% das observações). O segundo também aparenta ser simétrico, no entanto, a quantidade de valões suspeitos é muito maior do que esperado num modelo normal. O que nos leva a concluir que tal modelo não é adequado para descrever o comportamento desses dados. Trata-se de uma distribuição com caudas mais pesadas do que a distribuição normal (alta curtose). Em relação a identificação de valores 7

aberrantes, talvez devêssemos nos preocupar com a maior observação (bem afastada dos demais pontos) e, eventualmente, as três ou quatro menores. O terceiro gráfico representa uma distribuição assimétrica positiva veja que a caixa acima da mediana é maior do que abaixo dela, além disso, a haste superior é maior do que a inferior. Como salientado anteriormente, há uma tendência a identificar um número elevado de valores suspeitos na região dos valores mais altos, no entanto, apenas dois destacam-se de fato do restante dos dados, podendo de fato serem considerados aberrantes. Por fim, o quarto gráfico traz um boxplot típico de uma distribuição com assimetria negativa. Agora a caixa (e a haste) abaixo da mediana é mais larga do que a caixa (e a haste) acima. Novamente a identificação de valores aberrantes deve ser feita com cuidado. A menor observação parece, de fato, ser aberrante e, eventualmente, a segunda menor. As demais estão próximas demais entre si e do final da haste para serem consideradas outlyers. Figura 6: Exemplos de boxplots e identificação de valores aberrantes 8

O boxplot para os dados do ICC de 2012 é apresentado na Figura 7. Sua análise confirma as conclusões extraídas do esquema de cinco pontos. Figura 7: Boxplot para os dados do ICC de 2012 de 210 países Referências Bibliográficas ANDERSON, D.R., SWEENEY, D.J.; WILLIAMS, T.A. Estatística Aplicada à Administração e Economia. São Paulo: Pioneira Thomson Learning, 2007. HYNDMAN, R.J. E FAN, Y. (1996). Quantiles in statistical packages. The American Statistician, 50. 361-365. JOURNET, D. (1999). Quartiles: How to calculate them? itss Wallingford. 13p. Disponível em http://www.haiweb.org/medicineprices/manual/quartiles_itss.pdf, acessado em 02/02/2015. LANGFORD, E. (2006). Quantiles in elementary Statistics. Journal of Statistics Education, 14. Disponível em http://www.amstat.org/publications/jse/v14n3/langford.html, acessado em 02/02/2015. ZAR, J.H. (1996). Biostatistical Analysis. New Jersey: Prentice-Hall 9