Figura 1: Gráfico de pontos.

Documentos relacionados
u unidades elementares, i = 1, 2,..., N.

Sumário dos exemplos:

u unidades elementares, i = 1, 2,..., N.

3.1. Representação de Variáveis Quantitativas em tabelas e gráficos: Tabelas de frequências para variáveis discretas:

Estatística: é uma medida numérica, que descreve uma característica da amostra. A Estatística é uma função da amostra: S = f(x 1, X 2,...

x n 3.3. Medidas descritiva de variáveis quantitativas: Medidas de Posição: Considere uma amostra com n observações: x 1, x 2,..., x n.

Introdução à probabilidade e estatística I

1. ANÁLISE EXPLORATÓRIA E ESTATÍSTICA DESCRITIVA

Análise descritiva de Dados. a) Média: (ou média aritmética) é representada por x e é dada soma das observações, divida pelo número de observações.

Fernando de Pol Mayer

PROBABILIDADE E ESTATÍSTICA ESTATÍSTICA DESCRITIVA

Estatística Descritiva

3.1 - Medidas de Posição Medidas de Dispersão Quantis Empiricos Box-plots Graficos de simetria 3.

ESTATÍSTICA Medidas de Síntese

AULA 2 UNIDADE 1 DISTRIBUIÇÃO DE FREQUÊNCIAS 1.1 INTRODUÇÃO

Distribuição de frequências:

CE001 Bioestatística. Prof. Cesar Augusto Taconeli. Curitiba-PR 2015

Tutorial para o desenvolvimento das Oficinas

PARTE 1. Profa. Dra. Alessandra de Ávila Montini

Estatística Descritiva. Objetivos de Aprendizagem. 6.1 Sumário de Dados. Cap. 6 - Estatística Descritiva 1. UFMG-ICEx-EST. Média da amostra: Exemplo:

Estatística Computacional Profª Karine Sato da Silva

Estatística para Cursos de Engenharia e Informática

Estatística Descritiva

Estatística Aplicada

CAPÍTULO 4 DESCRIÇÃO E EXPLORAÇÃO DOS DADOS 2ª parte

Estatística Descritiva

Análise descritiva de Dados. A todo instante do nosso dia-a-dia nos deparamos com dados.

Técnicas Computacionais em Probabilidade e Estatística I. Aula I

ESTATÍSTICA COMPUTACIONAL AULA 5 ASSIMETRIA E CURTOSE

Estatística Descritiva

Unidade III Medidas Descritivas

Estatística Descritiva

Representação de dados

MEDIDAS DE TENDÊNCIA CENTRAL

um conjunto de métodos e processos quantitativos que servem para estudar e medir os fenômenos coletivos Aplicações em quase todas as áreas de

Bioestatística Aula 2

Técnicas Computacionais em Probabilidade e Estatística I. Aula III

Elementos de Estatística

Medidas de Posição ou Tendência Central

Capítulo 1. Análise Exploratória de Dados

Estatística Aplicada

Estatística Descritiva

Aula 2 Planejamento e Análise de Experimentos

Medidas resumo. Wagner H. Bonat Elias T. Krainski Fernando P. Mayer

Unidade III Medidas Descritivas

CONCEITOS BASICOS, ORGANIZAÇÃO E APRESENTAÇÃO DOS RESULTADOS, DISTRIBUIÇÃO DE FREQUÊNCIA

2EMA007 ESTATÍSTICA A

INTRODUÇÃO À ESTATÍSTICA

ESTATÍSTICA. Estatística é o conjunto de métodos para a obtenção, organização, resumo, análise e interpretação dos dados.

Aula 4: Medidas Resumo

Estatística Descritiva (I)

Importância prática do desvio padrão. Obs. Para uma distribuição normal.

Análise Exploratória e Estimação PARA COMPUTAÇÃO

Conceito de Estatística

25/08/2016. Estatística. Estatística. Medidas Estatísticas Medidas de Posição. Mariele Bernardes. Mariele Bernardes

Medidas Descritivas de Posição, Tendência Central e Variabilidade

Métodos Estatísticos Básicos

Estatística Descritiva

GRÁFICOS ESTATÍSTICOS

Estatística Descritiva

Prof. Dr. Engenharia Ambiental, UNESP

Professora Ana Hermínia Andrade. Período

Métodos Experimentais em Ciências Mecânicas

1. ANÁLISE EXPLORATÓRIA E ESTATÍSTICA DESCRITIVA

Medidas Descritivas de Posição, Tendência Central e Variabilidade

Sumário. Estatistica.indb 11 16/08/ :47:41

Estatística Aplicada. UNIVERSIDADE ESTÁCIO DE SÁ-RECIFE 2013 Prof: Wildson Cruz

CAP1: Estatística Descritiva para análise da variabilidade uma amostra de dados quantitativos

ESTATÍSTICA DESCRITIVA E INDUTIVA 2EMA010

Bioestatística. Luiz Ricardo Nakamura Cristiane Mariana Rodrigues da Silva. Ciências biológicas a USP ESALQ. Estatística

Sintetizando dados qualitativos e quantitativos

3. Representação de variáveis quantitativas

ESTATÍSTICA PARA GEOGRAFIA AULA DE 23/08/2017

Estatística Descritiva

IFF FLUMINENSE CST EM MANUTENÇÃO INDUSTRIAL

Estatística Descritiva (I)

Adilson Cunha Rusteiko

Cap. 6 Medidas descritivas

Organização de dados

Unidade II Estatística descritiva

MAE0219 Introdução à Probabilidade e Estatística I

Estatística Descritiva

Medidas resumo numéricas

Introdução à análise exploratória de dados

12/06/14. Estatística Descritiva. Estatística Descritiva. Medidas de tendência central. Medidas de dispersão. Separatrizes. Resumindo numericamente

Bioestatística. October 28, UFOP October 28, / 57

NOTAS DE AULA. Medidas Descritivas. Prof.: Idemauro Antonio Rodrigues de Lara

Eng a. Morgana Pizzolato, Dr a. Aula 02 Revisão de Estatística DPS1037 SISTEMAS DA QUALIDADE II ENGENHARIA DE PRODUÇÃO CT/UFSM

Estatística Descritiva (I)

Revisão de estatística descritiva

Princípios de Bioestatística Estatística Descritiva/Exploratória

Medidas Estatísticas de Posição

(a) Use cinco intervalos e construa um histograma e o polígono de frequência. (b) Determine uma medida de posição central e uma medida de dispersão.

Estatística. 1 Medidas de Tendência Central 2 Medidas de Posição 3 Medidas de Dispersão. Renata Souza

Enrico Antonio Colosimo Depto. Estatística UFMG

Medidas Estatísticas NILO FERNANDES VARELA

Transcrição:

4. Representação gráfica para variáveis quantitativas Gráfico de pontos O gráfico de pontos é a primeira representação da amostra, fornecendo um aspecto visual da concentração e distribuição dos pontos na nossa escala de medidas. No exemplo abaixo, percebemos o conjunto de dados concentrado na primeira metade da escala, com uma grande concentração entre os valores 2.5 e 7.5, e uma dispersão mais acentuada no lado superior (direito) da distribuição, com valores chegando a 17.5. Esta dispersão indica uma forte assimetria na cauda superior da distribuição (assimetria à direita). Figura 1: Gráfico de pontos.

Histograma Uma forma prática de representação gráfica para dados quantitativos (em especial dados contínuos) é dada pelo histograma, no qual, representamos as frequências de uma tabela por barras adjacentes para cada intervalo de classe. Tabela 1: Tabela de frequências com k = 7 classes: Classe (X i ) n i f i 0.0 --- 2.5 34 0.136 2.5 --- 5.0 74 0.296 5.0 --- 7.5 86 0.344 7.5 --- 10.0 30 0.120 10.0 --- 12.5 16 0.064 12.5 --- 15.0 5 0.020 15.0 --- 17.5 5 0.020 Total 250 1,000 Figura 2: Histograma (sobre o gráfico de pontos).

O polígono de frequências Marcando o ponto médio de cada retângulo do histograma na sua na parte superior e ligando esses pontos, teremos uma figura que chamaremos de Polígono de Frequências (Figura 3). Figura 3: Polígono de frequências.

Distribuição de frequências As linhas retas que compõem o polígono de frequências são uma aproximação rudimentar para uma curva que representa uma Distribuição de Frequências. Essa distribuição é descrita por uma função f(x), contínua e diferenciável, definida num intervalo dos reais, a qual será denotada por função distribuição de probabilidades ou fdp (Figura 4). Figura 4: Função de distribuição de probabilidades sobre o histograma.

4.1. Representação gráfica para dados discretos Um pesquisador contou o número de ervilhas/vagem em 60 vagens coletadas aleatoriamente num canteiro de sua plantação, tendo obtido os seguintes dados: 3 3 3 3 3 4 3 1 4 3 5 3 2 5 6 5 4 3 1 4 4 2 6 4 3 4 4 4 5 4 4 3 5 3 5 2 3 4 4 5 2 3 5 4 4 6 3 5 4 3 4 3 5 3 3 4 7 3 6 3 Dados ordenados 1 1 2 2 2 2 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 5 5 5 5 5 5 5 5 5 5 6 6 6 6 7 Vamos construir uma tabela com as contagens e frequências relativas do número de ervilha/vagem Tabela 2: Distribuição de frequências para o número de ervilha por vagem. Freq. Freq. Freq. Ervilhas por absoluta relativa acumulada vagem n i f i F ac 1 2 0.033 0.033 2 4 0.067 0.100 3 21 0.350 0.450 4 18 0.300 0.750 5 10 0.167 0.917 6 4 0.067 0.084 7 1 0.017 1.001 Totais 60 1.001 Um gráfico para representar as frequências da variável número de ervilhas por vagem é dado a seguir:

Figura 5: Gráfico de frequências para a variável número de ervilhas por vagem (feito no R). Também podemos representar a distribuição acima por um gráfico de barras contínuas (histograma), porém, o mais apropriado seria a primeira forma uma vez que os dados são discretos. Figura 6: Histograma para a variável número de ervilhas por vagem (feito no Excel)

4.2. Representação gráfica para dados contínuos Seja a variável horas gastas por semana assistindo TV, referentes aos alunos do primeiro ano do curso de engenharia: Dados ordenados: 0 2 2 2 2 3 4 5 5 5 5 5 5 5 6 7 7 8 8 8 10 10 10 10 10 10 10 10 10 10 10 12 12 12 12 14 14 14 14 14 15 16 18 20 20 20 25 25 28 30 Descriptive Statistics: horastv Estatísticas descritivas no MINITAB Variable N Mean Median StDev SE Mean horastv 50 10.780 10.000 6.891 0.974 Variable Minimum Maximum Q1 Q3 horastv 0.000 30.000 5.000 14.000 Gráfico de pontos para horas de TV 0 10 horas 20 30 Figura 7: Gráfico de pontos (feito no Minitab).

Como construir a tabela de frequências? Para variáveis contínuas vamos utilizar a regra de Sturges. a) Número de classes: seja k o número de classes, então, k é determinado por: k 1 3.32 log10( n), em que a função [.] indica o maior inteiro contido que, na prática, representa o truncamento do valor obtido. b) Amplitude de classe: denotada por h, é dada por: Seja A max min x( n) x(1), a amplitude da amostra, então, h A k Obs: normalmente o resultado da expressão acima não é inteiro, por isso, o valor de h deve ser arredondado (convenientemente) para cima. Exemplo: Seja a variável: horas gastas por semana assistindo TV. Como n = 50, temos 1 3.32 log10(50) 6.64 6 k classes, 30 0 h 5h. 6

Tabela 3: Distribuição de frequências de horas TV, com k = 6 classes e h = 5h. Freq. Freq. Freq. Horas TV absoluta relativa acumulada classes n i f i F ac 0 --- 5 7 0.14 0.14 5 --- 10 13 0.26 0.40 10 --- 15 20 0.40 0.80 15 --- 20 3 0.06 0.86 20 --- 25 3 0.06 0.92 25 --- 30 4 0.08 1.00 Totais 50 1.00 Figura 8: Histograma de horas TV, com k = 6 classes e amplitude h = 5h (feito no R).

Notas: 1) Observe que o valor 30 foi incluído na última classe, para que não seja criada uma nova classe; 2) Isto se deve pela forma como foi calculada a amplitude de classes h e pelo fato dos intervalos serem fechados à esquerda e abertos à direita. Para contornar esse fato, podemos aumentar ligeiramente o valor de h (e de forma conveniente) para que os extremos fiquem contidos na amplitude total das classes. Para o exemplo o limite inferior deve ser 0 pela natureza da variável, mas o valor de h pode ser aumentado em 0.5 unidades, levando o limite superior a 33.0. Tabela 4: Distribuição de frequências de horas TV, com k = 6 classes e h = 5.5h. Freq. Freq. Freq. Horas TV absoluta relativa acumulada classes n i f i F ac 0 --- 5.5 14 0.28 0.28 5.5 --- 11.0 17 0.34 0.62 11.0 --- 16.5 12 0.24 0.86 16.5 --- 22.0 4 0.08 0.94 22.0 --- 27.5 2 0.04 0.96 27.5 --- 33.0 2 0.04 1.00 Totais 50 1.00

Freqüência Histograma de horas de TV 15 10 5 0 0.0 5.5 11.0 16.5 22.0 27.5 33.0 horas Figura 9: Histograma de horas TV, com k = 6 classes e amplitude h = 5.5h (feito no Minitab). 4.2.1. Regras para a escolha do número de classes k Existem diversas propostas para a determinação do número de classes k. A regra de Sturges é a mais popular delas, estando implementada em diversos softwares tal como o R-gui. A seguir apresentaremos outras maneiras para se definir o número de classes de um histograma. a) Sturges: k 1 3.32 log10( n) em que [.] indica a função maior inteiro contido. b) Raiz quadrada: pela regra da raiz quadrada, se: se n 100 k n se n > 100 k 5log( n) c) Velleman (1976): se n 50 k 2 n

Outros autores, ainda, criaram procedimentos que primeiro determina a amplitude das classes h, após o que, o número de classes é determinado pela relação A k. h A ideia por trás desses procedimentos consiste em obter uma melhor visualização para o histograma. Mais detalhes podem ser obtidos no link: http://www.galileu.esalq.usp.br/vsol.php?posi=3&cod=90&excod=11

Freqüência 4.2.2. Exemplos: a) Excel: Tabela de frequências e histograma para variáveis contínuas, no Excel. Bloco Frequência 0 1 4.3 6 8.6 13 12.9 15 17.1 7 21.4 4 25.7 2 Mais 2 Histograma 16 12 8 Freqüência 4 0 0 4.3 8.6 12.9 17.1 21.4 25.7 Mais Bloco Figura 10: Histograma de horas TV, com k = 6 classes e amplitude h = 5.5h (feito no Excel).

b) Dados discretizados: Uma grande companhia está preocupada com o tempo que seus equipamentos ficam em manutenção na assistência técnica. Sendo assim, fez um levantamento do tempo de manutenção (dias) de 50 equipamentos para um estudo mais detalhado. X = dias em manutenção de equipamentos. 15 13 21 9 5 5 10 6 2 2 9 10 3 4 2 13 12 16 7 6 4 11 8 6 6 10 17 13 9 5 2 5 9 14 15 3 6 18 3 4 5 7 8 3 10 5 5 4 5 2 Dados Ordenados: 2 2 2 2 2 3 3 3 3 4 4 4 4 5 5 5 5 5 5 5 5 6 6 6 6 6 7 7 8 8 9 9 9 9 10 10 10 10 11 12 13 13 13 14 15 15 16 17 18 21 Tabela de frequências: k = [1 + 3.32 log 10 50] = [ 6.64 ] = 6 a 7 classes A = 21 2 = 19 h = 19/6 = 3.16 3.2

Com k = 7 classes: X i (dias) n i f i F ac 2 a 4 13 0.26 0.26 5 a 7 15 0.30 0.56 8 a 10 10 0.20 0.76 11 a 13 5 0.10 0.86 14 a 16 4 0.08 0.94 17 a 19 2 0.04 0.98 20 a 22 1 0.02 1.00 Total 50 1.00 - Figura 11: Histograma de dias de manutenção, dados discretizados (feito no Excel).

Figura 12: Gráfico frequências acumuladas de dias de manutenção (feito no Excel). Medidas Descritivas de Posição: 392 i) Média: x i = 392 x 7. 84 dias 50 x(25) x(26) 6 6 ii) Mediana: Md(x) = 6 2 2 dias iii) Moda: Mo(x) = 5 dias aparece 8 vezes na amostra.

Com k = 6 classes: X i (dias) n i f i F ac 0 a 3 9 0.18 0.18 4 a 7 19 0.38 0.56 8 a 11 11 0.22 0.78 12 a 15 7 0.14 0.92 16 a 19 3 0.06 0.98 20 a 23 1 0.02 1.00 Total 50 1.00 - Figura 13: Histograma de dias de manutenção, (k = 6) dados discretizados (feito no Excel).

Comandos do R-gui para o histograma: x <-c(15, 13, 21, 9, 5, 5, 10, 6, 2, 2, 9, 10, 3, 4, 2, 13, 12, 16, 7, 6, 4, 11, 8, 6, 6, 10, 17, 13, 9, 5, 2, 5, 9, 14, 15, 3, 6, 18, 3, 4, 5, 7, 8, 3, 10, 5, 5, 4, 5, 2) # pela regra de Sturges ####################### nclass.sturges(x) hist(x, col="bisque") hist(x, breaks="sturges", col="bisque") # pela regra de Scott ##################### nclass.scott(x) hist(x, breaks="scott", col="bisque") # pela regra de Fridman-Diacomis ################################ nclass.fd(x) hist(x, breaks="fd", col="bisque") hist(x, breaks=7, col="bisque") hist(x, breaks=8, col="bisque") # definindo os intervalos ######################### h1 <- c(0.5,4.5,8.5,12.5,16.5,20.5,24.5) hist(x, breaks=h1, col="bisque") h2 <- c(1.5,4.5,7.5,10.5,13.5,16.5,18.5,22.5) hist(x, breaks=h2, col="bisque")

c) Dados contínuos: X = notas de avaliação de teste verbal aplicado em 87 alunos. 2.5 2.8 2.8 3.2 3.5 3.6 3.7 3.8 3.9 4.0 4.1 4.1 4.1 4.1 4.2 4.5 4.6 4.7 4.7 4.7 4.7 4.8 4.8 4.9 4.9 5.0 5.0 5.1 5.1 5.1 5.2 5.2 5.2 5.2 5.2 5.3 5.3 5.3 5.3 5.4 5.4 5.4 5.4 5.5 5.5 5.5 5.6 5.7 5.7 5.8 5.9 5.9 5.9 5.9 6.0 6.1 6.1 6.1 6.1 6.2 6.2 6.2 6.3 6.4 6.4 6.4 6.4 6.5 6.5 6.5 6.5 6.5 6.6 6.6 6.7 6.7 6.7 6.7 6.8 6.9 6.9 7.0 7.0 7.1 7.2 7.3 7.5 k = [1 + 3.32 log 10 (87)] = [ 7.44 ] = 7 a 8 classes A = 7.5 2.5 = 5 h = 5/7 = 0.714 0.72 Com k = 7 classes: X i (nota) n i f i F ac 2.50 --- 3.22 4 0.046 0.046 3.22 --- 3.94 5 0.057 0.103 3.94 --- 4.66 8 0.092 0.195 4.66 --- 5.38 22 0.253 0.448 5.38 --- 6.10 16 0.184 0.632 6.10 --- 6.82 24 0.276 0.908 6.82 --- 7.54 8 0.092 1.000 Total 87 1.000 -

Figura 11: Histograma de nota de avaliação verbal, (feito no Excel). Medidas descritivas de posição: 475.8 i) Média: x i = 475.8 x 5. 47 87 ii) Mediana: Md x) x ( 5. 50 ( 44) iii) Moda: Mo (x) 5.2 e 6.5 (bimodal)

Comandos do R para o histograma: v <- c(2.5, 2.8, 2.8, 3.2, 3.5, 3.6, 3.7, 3.8, 3.9, 4.0, 4.1, 4.1, 4.1, 4.1, 4.2, 4.5, 4.6, 4.7, 4.7, 4.7, 4.7, 4.8, 4.8, 4.9, 4.9, 5.0, 5.0, 5.1, 5.1, 5.1, 5.2, 5.2, 5.2, 5.2, 5.2, 5.3, 5.3, 5.3, 5.3, 5.4, 5.4, 5.4, 5.4, 5.5, 5.5, 5.5, 5.6, 5.7, 5.7, 5.8, 5.9, 5.9, 5.9, 5.9, 6.0, 6.1, 6.1, 6.1, 6.1, 6.2, 6.2, 6.2, 6.3, 6.4, 6.4, 6.4, 6.4, 6.5, 6.5, 6.5, 6.5, 6.5, 6.6, 6.6, 6.7, 6.7, 6.7, 6.7, 6.8, 6.9, 6.9, 7.0, 7.0, 7.1, 7.2, 7.3, 7.5) hist(v, col="bisque") # pela regra de Sturges ####################### Nclass.Sturges(v) hist(v, breaks="sturges", col="bisque") # pela regra de Scott ##################### nclass.scott(v) hist(v, breaks="scott", col="bisque") # pela regra de Fridman-Diaconis ################################ nclass.fd(v) hist(v, breaks="fd", col="bisque") hist(v, breaks=7, col="bisque") hist(v, breaks=8, col="bisque") # definindo os intervalos ######################### h <- c(2.50,3.22,3.94,4.66,5.38,6.10,6.82,7.54) hist(v, breaks=h, col="bisque") boxplot(v, col="yellow2", horizontal=false) boxplot(v, col="yellow2") boxplot(v, plot=f)

4.3. Média. moda, mediana e a simetria dos dados Figura 12: Função de distribuição de probabilidades sobre o histograma. O que podemos dizer acerca desta distribuição de frequências em relação a sua simetria? Quando uma distribuição de frequências é simétrica, teremos que a média, a moda e a mediana serão iguais, ou seja: x = Mo(x) = Md(x)

E quanto ao exemplo acima, como podemos classificá-lo em função da sua falta de simetria? Quando a distribuição não é simétrica, podemos distinguir duas situações possíveis a) Quando a cauda superior da distribuição for mais alongada, puxando a distribuição para a direita. Neste caso, a média é maior do que a moda e a assimetria é dita à direita ou positiva. b) Quando a cauda inferior da distribuição for mais alongada. puxando a distribuição para a esquerda. Neste caso, a média é menor do que a moda e a assimetria é dita à esquerda ou negativa. Figura 13: Assimetrias à direita e à esquerda, respectivamente.

4.3.1. Relação entre média, moda e mediana i) A Média é sempre influenciada por valores extremos, sendo puxada na direção da cauda mais alongada; ii) A Moda é o elemento de maior frequência, sendo o ponto de máximo de f(x); iii) A Mediana está sempre no meio do conjunto, dividindo-o em duas partes iguais, ficando entre as duas medidas anteriores. Assim, para cada situação, teremos: a) Quando a simetria é perfeita as três medidas são iguais.

b) Na situação em que ocorre a assimetria à direita, teremos a moda menor do que a mediana que é menor do que a média. c)e, para a assimetria à esquerda, devemos ter a média menor do que a mediana que é menor do que a moda.

4.3.2. Relação empírica entre média, moda e mediana Karl Pearson, metemático famoso, no final do século XIX e início do XX, observou empiricamente, a seguinte relação entre as três medidas de posição média mediana e moda. x mo( x) 3 x med ( x) Observações: i) A relação só se aplica à distribuições com boa simetria; ii) Só é valida para casos unimodais; iii) Depende de um tamanho de amostra n elevado. 4.3.3. Moda de Czuber Figura 14: Cálculo da moda de Czuber

Distribuição de frequências de horas TV, Freq. Freq. Freq. Horas TV absoluta relativa acumulada classes n i f i F ac 0 --- 5.5 14 0.28 0.28 5.5 --- 11.0 17 0.34 0.62 11.0 --- 16.5 12 0.24 0.86 16.5 --- 22.0 4 0.08 0.94 22.0 --- 27.5 2 0.04 0.96 27.5 --- 33.0 2 0.04 1.00 Totais 50 1.00 mo CZ 3 60.5 ( x) 5.5 5.5 7.56 (3 5) 8 4.4. O gráfico box-plot Representação gráfica da dispersão dos dados em torno da mediana Valores discrepantes Valores discrepantes Q 1 1.5A Q Q 1 x ~ Q 3 Q 3 +1.5A Q

Procedimento para a construção do box-plot i) Construir a caixa ou box com os quartis Q 1 e Q 3 ; ii) Com uma linha, demarcar a mediana, dividindo a caixa em duas partes; iii) Calcular os limites inferior (L I ) e superior (L s ): - L I = Q 1 1.5A Q - L S = Q 3 + 1.5A Q Os valores da amostra menores do que L I ou maiores do que L S são identificados como valores discrepantes e destacados no box-plot com pontos além desses limites. iv) Para os braços do box-plot, traçar linhas a partir dos centros das laterais inferior e superior da caixa até os valores mais afastados que não sejam discrepantes, ou seja: - traçar uma linha da lateral inferior da caixa até o menor valor que não seja discrepante e marcar os pontos discrepantes (menores do que L I ); - traçar uma linha da lateral superior da caixa até o maior valor que não seja discrepante e marcar os pontos discrepantes (menores do que L S ); Exemplo: Seja a variável: horas gastas por semana assistindo TV. 10 Q 5 14 E 0 30

Figura 15: Box-plot para a variável horas de TV Comandos do R para o box-plot: x <- c( 0, 2, 2, 2, 2, 3, 4, 5, 5, 5, 5, 5, 5, 5, 6, 7, 7, 8, 8, 8, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 12, 12, 12, 12, 14, 14, 14, 14, 14, 15, 16, 18, 20, 20, 20, 25, 25, 28, 30) boxplot(x, col="bisque", main="horas assistindo TV", ylab="horas", pch=19)

Exemplo: Dados do estudo sobre exposição à violência familiar de crianças em idade escolar (2 grupos Expostos à violência e Não Expostos) Variável: Renda PC grupo (Exposto e Não Exposto) Grupo: EXP 68 96 100 100 112 112 117 120 120 135 150 160 160 200 260 - Mediana: Md x) x ( 120 reais ( 8) - 1 o Quartil: Q 1 = x (4) = 100 reais - 3 o Quartil: Q 3 = x (12) = 160 reais 2010 - Média: x x 134 reais n 15 2 - Variância: x 300942 s 2 2 2 2 x nx ( n 1) 300942 15(134) (15 1) 300942 269340 14 s 2 31602 14 2257.286 2 - Desvio-padrão: s s 2257.286 47. 51 reais

Freqüência Box-plot renda per capita 50 150 250 Grupo Exposto Figura 16: Box-plot renda, grupo exposto 8 7 6 5 4 3 2 1 0 35 85 135 185 235 285 Grupo Exposto Figura 17: Histograma renda, grupo exposto

Grupo NEXP 36 50 70 84 108 109 120 120 150 150 180 220 250 260 300 - Mediana: Md x) x ( 120 reais ( 8) - 1 o Quartil: Q 1 = x (4) = 184 reais - 3 o Quartil: Q 3 = x (12) = 220 reais 2207 - Média: x x 147. 13 reais n 15 2 - Variância: x 413997 2 2 2 413997 15(147.13) 413997 324723.27 x nx s ( n 1) (15 1) 14 2 s 2 89273.73 14 6376.695 2 - Desvio-padrão: s s 6376.695 79. 85 reais

Freqüência Box-plot renda per capita 0 100 200 300 Grupo Não Exposto Figura 18: Box-plot renda, grupo não exposto 6 5 4 3 2 1 0 0 66 132 198 264 330 Grupo não Exposto Figura 19: Histograma renda, grupo não exposto

Figura 20: Box-plot renda, comparativo entre os grupos exposto e não exposto Comandos do R-gui para o box-plot comparativo ex <- c( 68, 96,100,100,112,112,117,120,120,135,150, 160,160,200,260) nex <- c( 36, 50, 70, 84,108,109,120,120,150,150,180, 220,250,260,300) renda <- c(ex,nex) gr <- c(rep("ex",length(ex)),rep("nex",length(nex))) boxplot(renda~gr, col=c("red3","green3"))

Exemplo: Dados simulados do tempo de uma reação química em função do tipo do catalisador. Comandos do R para o exemplo # Entrada dos dados ################### Cat.A <- c(77.9,72.6,74.2,76.1,77.8,81.9,83.2,76.3,79.3,77.2,90.8, 79.7,79.7,80.4,84.4,81.7,80.0,71.5,73.4,81.7,71.5,70.9, 85.1,84.0,63.4) Cat.B <- c(87.4,89.3,99.4,100.2,99.4,85.6,102.2,94.7,92.4,89.4, 91.9,88.9,98.0,99.8,91.9,99.1,95.9,89.4,90.5,91.4,87.6, 89.7,92.5,77.4,90.8) Cat.C <- c(89.4,84.2,86.2,82.2,83.4,87.0,82.3,81.9,86.4,80.7,83.2, 87.6,88.9,84.2,85.1,83.8,85.2,88.1,84.2,87.1,87.6,87.3, 85.1,85.6,96.7) Cat.D <- c(84.6,92.3,85.7,88.1,85.5,98.0,98.1,86.5,89.3,93.4,91.2, 93.7,97.3,79.5,94.6,87.9,87.4,88.2,97.3,92.2,98.5,94.5, 93.3,92.8,94.4) # Estatísticas descritivas ########################## medias <- round(c(mean(cat.a), mean(cat.b), mean(cat.c), mean(cat.d)),3) desvios <- round(c(sd(cat.a),sd(cat.b),sd(cat.c),sd(cat.d)),4) quantis <- rbind(quantile(cat.a), quantile(cat.b), quantile(cat.c), quantile(cat.d)) descr <- cbind(medias, desvios, quantis) dimnames(descr)[1] <- list(c("catalisador A","Catalisador B","Catalisador C","Catalisador D")) dimnames(descr)[2] <- list(c("média","d.padrão","min.", "Q1", "Mediana", "Q3","Max.")) dimnames(descr)[1] <- list(c("catalisador A","Catalisador B", "Catalisador C","Catalisador D")) descr Média D.Padrão Min. Q1 Mediana Q3 Max. Catalisador A 78.188 5.7634 63.4 74.2 79.3 81.7 90.8 Catalisador B 92.592 5.6885 77.4 89.4 91.9 98.0 102.2 Catalisador C 85.736 3.2337 80.7 83.8 85.2 87.3 96.7 Catalisador D 91.372 4.9439 79.5 87.9 92.3 94.5 98.5

# box-plot comparativo ###################### tempo <- c(cat.a, Cat.B, Cat.C, Cat.D) ni <- length(cat.a) cat <- c(rep("catalisador A",ni), rep("catalisador B",ni), rep("catalisador C",ni), rep("catalisador D",ni)) boxplot(tempo ~ cat, col=c("green4","blue3","red3","yellow3", main="tempo de reação x catalisador"), ylab="tempo de reação", cex=0.8)

4.5. Estatísticas descritivas para dados agrupados Exemplo 1: dados coletados em entrevistas com 500 pessoas a) variável número de divórcios por indivíduo b) variável tempo (em anos) até o primeiro divórcio a) Variável discreta: tabela do número de divórcios por indivíduo. Divórcios = x i n i f i x i f i F ac 2 n i x i 1 240 0.480 0.480 0.480 240 2 125 0.250 0.500 0.730 500 3 81 0.162 0.486 0.892 729 4 48 0.096 0.384 0.988 768 5 6 0.012 0.060 1.000 150 Total 500 1.000 1.910-2387 Média amostral: x x i f i = 1.91 divórcios Variância e desvio-padrão amostrais: 2 2 2 2387 500 (1.910) xi nx s ( n 1) (500 1) s 1.06 divórcios 2 562.95 499 1.13 Outra forma de representação: Divórcios = x i n i f i x i f i F ac (x i x ) n i (x i x ) 2 1 240 0.480 0.480 0.480 0.910 198.744 2 125 0.250 0.500 0.730 0.090 1.013 3 81 0.162 0.486 0.892 1.090 96.236 4 48 0.096 0.384 0.988 2.090 209.669 5 6 0.012 0.060 1.000 3.090 57.289 Total 500 1.000 1.910 562.951 Média amostral: x Variância amostral: x i fi = 1.91 divórcios x x ( n 1) 2 s i 2 562.951 499 1.13

b) Variável contínua: tabela do tempo até o primeiro divórcio. Anos ponto médio Casados x i n i f i x i f i F ac 2 n i x i 0 ----- 6 3 280 0.56 1.68 0.56 2520 6 ----- 12 9 140 0.28 2.52 0.84 11340 12 ----- 18 15 60 0.12 1.80 0.96 13500 18 ----- 24 21 15 0.03 0.63 0.99 6615 24 ----- 30 27 5 0.01 0.27 1.00 3645 Total 500 1.00 6.90 37620 Média amostral: x x i f i = 6.90 anos Variância e desvio-padrão amostrais: 2 2 2 37620 500 (6.90) xi nx s ( n 1) (500 1) 2 13815 499 27.685 s 5.26 anos Outra forma de representação: Anos = x i ptos. médios n i f i x i f i F ac (x i x ) n i (x i x ) 2 3 280 0.56 1.68 0.56-3.9 4258.80 9 140 0.28 2.52 0.84 2.1 617.40 15 60 0.12 1.80 0.96 8.1 3936.60 21 15 0.03 0.63 0.99 14.1 2982.15 27 5 0.01 0.27 1.00 20.1 2020.05 Total 500 1.00 6.90 - - 13815.00 Média amostral: x Variância amostral: x i fi = 6.90 anos x x ( n 1) 2 s i 2 13815.00 499 27.685

Exemplo 2: Escores GMAT (Graduate Management Apititude Test) aplicado num processo seletivo para a escolha de alunos num programa de graduação. Escores Pto. Médio x i n i f i F ac x i f i n i x i 2 300 -- 350 325 3 0.035 0.035 11.5 316875 350 -- 400 375 7 0.082 0.117 30.9 984375 400 -- 450 425 18 0.212 0.329 90.0 3251250 450 -- 500 475 24 0.282 0.611 134.1 5415000 500 -- 550 525 15 0.177 0.788 92.6 4134375 550 -- 600 575 10 0.118 0.906 67.6 3306250 600 -- 650 625 4 0.047 0.953 29.4 1562500 650 -- 700 675 4 0.047 1.000 31.8 1822500 Totais 85 1.000 488 20793125 Histograma:

Pela interpolação linear (ou semelhança de triângulos), temos: a) Q 400 450 400 0.25 0.117 0.212 1 50(0.133) Q 1 400 431. 4 0.212 b) ~ x 450 0.50 0.329 50 0.282 ~ 50(0.171) x 450 480. 3 0.282 c) Q 500 50 0.75 0.611 0.177 3 50(0.139) Q 3 500 539. 3 0.177

4.6. Representação gráfica para variáveis qualitativas Exemplo 1: Pesquisa PNAD 2004 Moradores por domicílio Brasil. a) Tabela de uma entrada: número de domicílios por região Região Domicílios % SE 23157114 44.8 NE 13090124 25.3 S 8198266 15.8 CO 3745500 7.2 N 3561524 6.9 51752528 100.0 b) Tabela de dupla entrada: moradores/dom, por região (dados brutos) Moradores Região por domicílio N NE SE S CO 1 292910 1190705 2612431 890834 424563 2 506597 2141312 4816793 1857904 739632 3 747866 2793052 5630782 2103424 843770 4 791985 2936946 5532907 1888026 948878 5 532447 1858876 2682387 917583 457745 6 308311 991114 1094518 322794 189354 7 161696 532787 410151 131936 75022 8 ou + 219712 645332 377145 85765 66536 Total 3561524 13090124 23157114 8198266 3745500

Tabela de dupla entrada: moradores/dom, por região (porcentagens) Moradores por domicílio Região N NE SE S CO 1 8.2 9.1 11.3 10.9 11.3 2 14.2 16.4 20.8 22.7 19.7 3 21.0 21.3 24.3 25.7 22.5 4 22.2 22.4 23.9 23.0 25.3 5 14.9 14.2 11.6 11.2 12.2 6 8.7 7.6 4.7 3.9 5.1 7 4.5 4.1 1.8 1.6 2.0 8 OU + 6.2 4.9 1.6 1.0 1.8 Total 100.0 100.0 100.0 100.0 100.0 c) Gráfico de setores (pizza): número de domicílios por região Região Domicílios proporção ângulo SE 23157114 0.447 161 NE 13090124 0.253 91 S 8198266 0.158 57 CO 3745500 0.072 26 N 3561524 0.069 25 51752528 1 360 - Para achar o ângulo, deve-se usar a relação: 100% = 360 o. - Portanto, se uma categoria tem proporção de 0.447, basta multiplicar 0.447 por 360 o para encontrar o ângulo correspondente (regra de três). Logo: 0.447 360 o = 161 o 0.072 360 o = 26 o 0.253 360 o = 91 o 0.069 360 o = 25 o 0.158 360 o = 57 o

Domicílios por região 16% 7% 7% 25% 45% SE NE S CO N

d) Gráfico de colunas:

Exemplo 2: Variável: Notas de português por grupo de estudantes expostos à violência familiar. Nota português Expostos Não expostos n i % ângulo n i % ângulo I 5 33% 119 o 3 20% 74 o S 8 54% 194 o 6 40% 144 o PS 5 13% 47 o 6 40% 144 o I = Insatisfatória, S = Satisfatória e PS = Plenamente Satisfatória a) Gráfico de colunas: Perfil por grupo Perfil por nota

b) Gráfico de setores (pizza):