TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 09. Universidade Federal Fluminense



Documentos relacionados
ActivALEA. active e actualize a sua literacia

Aula 11 Esperança e variância de variáveis aleatórias discretas

Exercícios Teóricos Resolvidos

Construção do Boxplot utilizando o Excel 2007

Soluções Nível 1 5 a e 6 a séries (6º e 7º anos) do Ensino Fundamental

Aula 4 Estatística Conceitos básicos

Departamento de Matemática - UEL Ulysses Sodré. Arquivo: minimaxi.tex - Londrina-PR, 29 de Junho de 2010.

AULAS 04 E 05 Estatísticas Descritivas

4Distribuição de. freqüência

Por que o quadrado de terminados em 5 e ta o fa cil? Ex.: 15²=225, 75²=5625,...

Curso: Logística e Transportes Disciplina: Estatística Profa. Eliane Cabariti

Batalha Naval Algoritmos de Busca. Correlações curriculares Matemática: Números: maior que, menor que, iguais a.

AV2 - MA (a) De quantos modos diferentes posso empilhá-los de modo que todos os CDs de rock fiquem juntos?

CURSO ON-LINE PROFESSOR GUILHERME NEVES 1

Hoje estou elétrico!

MÓDULO 6 INTRODUÇÃO À PROBABILIDADE

O BOXPLOT. Ana Maria Lima de Farias Departamento de Estatística (GET/UFF)

Princípio da Casa dos Pombos I

Calculando probabilidades

Stela Adami Vayego - DEST/UFPR 1

INE 5111 Gabarito da Lista de Exercícios de Probabilidade INE 5111 LISTA DE EXERCÍCIOS DE PROBABILIDADE

Aula 4 Conceitos Básicos de Estatística. Aula 4 Conceitos básicos de estatística

Só Matemática O seu portal matemático FUNÇÕES

QUESTÃO 1 ALTERNATIVA B

x0 = 1 x n = 3x n 1 x k x k 1 Quantas são as sequências com n letras, cada uma igual a a, b ou c, de modo que não há duas letras a seguidas?

Decis: dividem os dados em décimas partes (cada parte tem 10% dos dados). São indicados por D 1, D 2,..., D 9.

Análise descritiva de Dados. a) Média: (ou média aritmética) é representada por x e é dada soma das observações, divida pelo número de observações.

Equações do primeiro grau

IBM1018 Física Básica II FFCLRP USP Prof. Antônio Roque Aula 6. O trabalho feito pela força para deslocar o corpo de a para b é dado por: = =


MÓDULO 4 DISTRIBUIÇÃO DE FREQÜÊNCIAS

5 Equacionando os problemas

(Modelo de) Relatório: 1-Introdução. 2-Materiais e métodos. 3-Análise descritiva dos dados

Matemática - UEL Compilada em 18 de Março de Prof. Ulysses Sodré Matemática Essencial:

Dadas a base e a altura de um triangulo, determinar sua área.

Fórmula versus Algoritmo

Capítulo 1. x > y ou x < y ou x = y

O Problema do Troco Principio da Casa dos Pombos. > Princípios de Contagem e Enumeração Computacional 0/48

MAT 461 Tópicos de Matemática II Aula 3: Resumo de Probabilidade

Conceitos Fundamentais

16 Comprimento e área do círculo

INTRODUÇÃO AO ESTUDO DO FLUXO DE CAIXA

Contagem I. Figura 1: Abrindo uma Porta.

Exercícios Resolvidos sobre Parâmetros e tabelas de frequência

Pisa 2012: O que os dados dizem sobre o Brasil

Métodos Estatísticos II 1 o. Semestre de 2010 ExercíciosProgramados1e2 VersãoparaoTutor Profa. Ana Maria Farias (UFF)

GUIA DE INTERPRETAÇÃO DO CELLA DA FLÓRIDA

Notas de Cálculo Numérico

Capítulo 7 Medidas de dispersão

Simulado OBM Nível 2

Anexo 1. Definição das variáveis de análise

Fração como porcentagem. Sexto Ano do Ensino Fundamental. Autor: Prof. Francisco Bruno Holanda Revisor: Prof. Antonio Caminha M.

E A D - S I S T E M A S L I N E A R E S INTRODUÇÃO

O ESPAÇO NULO DE A: RESOLVENDO AX = 0 3.2

A equação do 2º grau

APLICAÇÕES DA DERIVADA

Matemática - UEL Compilada em 18 de Março de Prof. Ulysses Sodré Matemática Essencial:

Prova da segunda fase - Nível 1

Dicas para a 6 a Lista de Álgebra 1 (Conteúdo: Homomorfismos de Grupos e Teorema do Isomorfismo para grupos) Professor: Igor Lima.

SUB12 Campeonato de Resolução de Problemas de Matemática Edição 2009/2010

Física II Ondas, Fluidos e Termodinâmica USP Prof. Antônio Roque Aula 15

SISTEMA CLÁSSICO DE REDUÇÃO

Material Teórico - Módulo de Divisibilidade. MDC e MMC - Parte 1. Sexto Ano. Prof. Angelo Papa Neto

REFLEXÃO DA LUZ: ESPELHOS 412EE TEORIA

Sumário. Prefácio... xi. Prólogo A Física tira você do sério? Lei da Ação e Reação... 13

Projeção ortográfica de modelos com elementos paralelos e oblíquos

2. Representação Numérica

EXERCÍCIOS EXERCÍCIOS. Definições Básicas. Definições Básicas. Definições Básicas. Introdução à Estatística. Dados: valores de variáveis observadas.

Prof. Júlio Cesar Nievola Data Mining PPGIa PUCPR

RESUMO 2 - FÍSICA III

Corte total. Qualquer pessoa que já tenha visto um regis- A U L A

Como fazer para deixar firme uma estante de hastes com prateleiras que está balançando para os lados?

UNIVERSIDADE DE SÃO PAULO. Faculdade de Arquitetura e Urbanismo

Tópico 02: Movimento Circular Uniforme; Aceleração Centrípeta

Exercícios Resolvidos sobre probabilidade total e Teorema de Bayes

quociente razão. mesma área a partes de um tablete de chocolate

iq2 - Análise de uma tabela cruzada simples

RESOLUÇÃO DAS QUESTÕES DE RACIOCÍNIO LÓGICO-MATEMÁTICO

Projeção ortográfica da figura plana

Corte total. Qualquer pessoa que já tenha visto um regis- A U L A

Equações do segundo grau

Microsoft Access: Criar consultas para um novo banco de dados. Vitor Valerio de Souza Campos

Resolução de sistemas lineares

Cotagem de dimensões básicas

Múltiplos Estágios processo com três estágios Inquérito de Satisfação Fase II

Apresentação de Dados em Tabelas e Gráficos

casa. Será uma casa simples, situada em terreno plano, com sala, dois quartos, cozinha, banheiro e área de serviço.

COMO PARTICIPAR EM UMA RODADA DE NEGÓCIOS: Sugestões para as comunidades e associações

Prova Parcial de Estatística I. Turma: AE1 AE2 AE3 AE4

SUMÁRIO 1. AULA 6 ENDEREÇAMENTO IP:... 2

Exercícios Adicionais

Prof. Flávio Henrique de Lima Araújo 19

Contagem II. Neste material vamos aprender novas técnicas relacionadas a problemas de contagem. 1. Separando em casos

Problemas de Jogos e Tabuleiros

Computadores XXI: Busca e execução Final

Avaliação de Desempenho

Fundamentos da Matemática

Tópico 2. Conversão de Unidades e Notação Científica

Solução da prova da 1 a fase OBMEP 2008 Nível 1

Nome: N.º: endereço: data: telefone: PARA QUEM CURSA O 8 Ọ ANO EM Disciplina: matemática

Transcrição:

CURSO DE ESPECIALIZAÇÃO EM ENSINO DE MATEMÁTICA INSTITUTO DE MATEMÁTICA E ESTATÍSTICA 7 DE OUTUBRO DE 2014 TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 09 Humberto José Bortolossi http://www.professores.uff.br/hjbortol/ Universidade Federal Fluminense

SEÇÃO 14.3: RESUMOS NUMÉRICOS DE DADOS

RESUMOS NUMÉRICOS DE DADOS Como vimos, uma figura pode ser uma excelente ferramenta para resumir grandes conjuntos de dados. Infelizmente, as circunstâncias nem sempre permitem o uso de imagens: diagramas de barras e diagramas de setores não podem ser facilmente usados na conversação diária. Uma abordagem diferente e muito importante é usar alguns números bem escolhidos para resumir um conjunto de dados. Nas próximas seções, vamos discutir dois tipos de resumos numéricos de um conjunto de dados: medidas de posição e medidas de dispersão. Medidas de posição, tais como a média, a mediana e os quartis, são números que fornecem informações sobre os valores dos dados. Medidas de dispersão, como a amplitude, a amplitude interquartílica, e o desvio padrão são números que fornecem informações sobre a dispersão dentro do conjunto de dados. Na Seção 14.3 vamos nos concentrar nas medidas de posição. Na Seção 14.4 vamos discutir medidas de dispersão.

A MÉDIA A média A de um conjunto de N números d 1, d 2,..., d N é definida por i 1+ 2 + + N i= 1. d d d A = = N N N d

EXEMPLO 14.9: RESULTADOS DO EXAME DE ESTATÍSTICA PARTE 4

EXEMPLO 14.9: RESULTADOS DO EXAME DE ESTATÍSTICA PARTE 4 A soma das 75 pontuações pode ser simplificada consideravelmente se tivermos à disposição uma tabela de frequências. S = (1 1) + (6 1) + (7 2) + (8 6) +... + (16 1) + (24 1) = 814. A = S/N = 814/75 10,85 pontos.

A MÉDIA Mais geralmente, dada uma tabela de frequência com valores d 1, d 2,..., d k e respectivas frequências f 1, f 2,..., f k, a média A associada é dada por d f + d f + + d f A = = 1 1 2 2 k k i= 1 k f1+ f2 + + fk k d i= 1 i f i f i.

EXEMPLO 14.10: SALÁRIOS INICIAIS DOS FORMANDOS DE FILOSOFIA Imagine que você acabou de ler no jornal a seguinte notícia: O salário médio inicial dos 75 alunos de filosofia que se formaram recentemente na Universidade Estadual da Tasmânia é de US$ 76 400,00 por ano! Este salário médio é bem alto! Acontece que um dos formandos, Hoops Tallman, também é jogador da NBA (National Basketball Association), com salário anual de US$ 3 500 000,00! Qual é a média dos demais 74 formandos de filosofia?

EXEMPLO 14.10: SALÁRIOS INICIAIS DOS FORMANDOS DE FILOSOFIA O total dos 75 salários é igual a 75 vezes o salário médio: 75 US$ 76 400,00 = US$ 5 730 000,00. O total dos outros 74 salários (excluindo-se o salário de US$ 3 500 000,00 de Hoops Tallman) é igual a US$ 5 730 000,00 US$ 3 500 000,00 = US$ 2 230 000,00. A média dos outros 74 salários é então igual a US$ 2 230 000,00/74 US$ 30 135,00.

EXEMPLO 14.11: VIVENDO ALÉM DA MÉDIA A Tabela 14-9 exibe o balanço mensal (ganhos menos gastos mensais) de Billy durante o último ano. Uma quantidade negativa indica que Billy gastou mais do que ganhou (ele usou seu cartão de crédito). A média do balanço mensal de Billy é de US$ 26,00. Esta média esconde a verdadeira situação de Billy: ele tem vivido além de seus meios, mas foi socorrido por um golpe de sorte e pela ajuda de uma mãe generosa.

PERCENTIS Enquanto que um resumo numérico único (como a média) pode ser útil, raramente isto é suficiente para obter uma descrição significativa de um conjunto de dados. Uma descrição melhor do conjunto de dados pode ser apresentada por meio de um quadro bem organizado de resumos numéricos. A maneira mais comum de se fazer isto é por meio de percentis. O p-ésimo percentil (ou percentil de ordem p) de um conjunto de dados é um valor tal que p% dos dados coincidem ou estão abaixo deste valor e os demais dados coincidem ou estão acima dele. O p-ésimo percentil divide o conjunto de dados em duas partes: os p% dos valores inferiores e os (100 p)% dos valores superiores. Existem várias maneiras diferentes para calcular os percentis de modo a satisfazer a definição dada. Livros de Estatística diferentes descrevem métodos diferentes. Vamos ilustrar um tal método a seguir.

PERCENTIS O primeiro passo para calcular o p-ésimo percentil de um conjunto de dados com N números é ordenar esses números do menor para o maior. Vamos denotar os valores ordenados por d 1, d 2,..., d N, onde d 1 representa o menor número no conjunto de dados, d 2 representa o segundo menor número no conjunto de dados, etc. Note que d 2 pode ser igual a d 1. Em algumas situações será necessário considerar a média de dois números consecutivos na lista ordenada, de modo que usaremos subscritos pouco usuais tais como d 3,5 para representar a média entre os valores d 3 e d 4, d 7,5 para representar a média entre os valores d 7 e d 8 e assim por diante. O próximo e mais importante passo é identificar qual d representa o p-ésimo percentil do conjunto de dados. Para fazer isto, calculamos p% de N, cujo valor denominaremos de localizador e o denotaremos por L: L = (p/100) N. Se L é um número inteiro, então o p-ésimo percentil será d L,5 (a média de d L e d L + 1 ). Se L não é um número inteiro, então o p-ésimo percentil será d L+, onde L+ representa o valor de L arredondado para cima.

PROCEDIMENTO PARA CALCULAR O P-ÉSIMO PERCENTIL DE UM CONJUNTO DE DADOS Passo 0. Ordene o conjunto de dados do menor para o maior: d 1, d 2,..., d N. Passo 1. Calcule o localizador L = (p/100) N. Passo 2. Dependendo se L é um número inteiro ou não, o p-ésimo percentil é dado por d L,5 se L é um número inteiro. d L+ se L não é um número inteiro (L+ é L arredondado para cima).

EXEMPLO 14.12: BOLSAS DE ESTUDO POR PERCENTIS Para recompensar o desempenho acadêmico de seus atletas, a Universidade Estadual da Tasmânia tem um programa no qual os seus atletas com CR no 20 o percentil superior entre os CRs de seus times ganham uma bolsa de US$ 5 000,00. Atletas com CR no 45 o percentil superior entre os CRs de seus times que não ganharam uma bolsa de US$ 5 000,00 ganham uma bolsa de US$ 2 000,00. O time de futebol feminino tem N = 15 jogadoras. A lista de seus CRs é a seguinte: 3,42; 3,91; 3,33; 3,65; 3,57; 3,45; 4,0; 3,71; 3,35; 3,82; 3,67; 3,88; 3,76; 3,41; 3,62. Ordenando essa lista, obtemos: 3,33; 3,35; 3,41; 3,42; 3,45; 3,57; 3,62; 3,65; 3,67; 3,71; 3,76; 3,82; 3,88; 3,91; 4,0. Uma vez que a lista vai do menor para o maior CR, estamos procurando pelo 80 o percentil e acima (20 o percentil superior) para as bolsas de US$ 5 000,00 e pelo 55 o percentil e acima (45 o percentil superior) para as bolsas de US$ 2 000,00.

EXEMPLO 14.12: BOLSAS DE ESTUDO POR PERCENTIS Lista ordenada: 3,33; 3,35; 3,41; 3,42; 3,45; 3,57; 3,62; 3,65; 3,67; 3,71; 3,76; 3,82; 3,88; 3,91; 4,0. Bolsas de US$ 5 000,00: o localizador do 80 o percentil é 0,8 15 = 12. Aqui o localizador é um número inteiro, de modo que o 80 o percentil é dado por d 12,5 = 3,85 (a média entre d 12 = 3,82 e d 13 = 3,88). Assim, três estudantes (aqueles com CRs de 3,88, 3,91 e 4.0) vão ganhar uma bolsa de US$ 5 000,00. Bolsas de US$ 2 000,00: o localizador do 55 o percentil é 0,55 15 = 8,25. Aqui o localizador não é um número inteiro. Arredondando-o para cima, obtemos 9 e, portanto, o 55 o percentil é dado por d 9 = 3,67. Assim, os estudantes com CRs de 3,67, 3,71, 3,76 e 3,82 (todos os estudantes com CR de 3,67 ou superior exceto aqueles que já ganharam uma bolsa de US$ 5 000,00) vão ganhar uma bolsa de US$ 2 000,00.

A MEDIANA E OS QUARTIS O 50º percentil de um conjunto de dados é conhecido como mediana. Denotaremos a mediana por M. A mediana divide o conjunto de dados em duas metades: metade do conjunto de dados é igual ou está acima da mediana e a outra metade é igual ou está abaixo da mediana. Podemos calcular a mediana simplesmente aplicando a definição de percentil com p = 50. Assim: (1) quando N é ímpar, a mediana é o valor na posição (N + 1)/2 da lista ordenada de dados; (2) quando N é par, a mediana é a média dos valores nas posições N/2 e (N/2) + 1 da lista ordenada de dados. Tudo isto se segue do fato de que o localizador para a mediana é L = N/2. Quando N é par, L é um número inteiro; quando N é ímpar, L não é um número inteiro.

PROCEDIMENTO PARA CALCULAR A MEDIANA DE UM CONJUNTO DE DADOS Ordene o conjunto de dados do menor para o maior: d 1, d 2,..., d N. Se N é ímpar, a mediana é d (N+1)/2. Se N é par, a mediana é a média entre d N/2 e d (N/2) + 1.

A MEDIANA E OS QUARTIS Depois da mediana, os percentis mais usados são o primeiro e terceiro quartis. O primeiro quartil (denotado por Q 1 ) é o 25º percentil. O terceiro quartil (denotado por Q 3 ) é o 75º percentil.

EXEMPLO 14.13: VENDA DE CASAS NO VALE VERDE Durante o ano passado, 11 casas foram vendidas no Vale Verde. Os preços de venda, em ordem cronológica, foram US$267.000,00, US$252.000,00, US$228.000,00, US$234.000,00, US$292.000,00, US$263.000,00, US$221.000,00, US$245.000,00, US$270.000,00, US$238.000,00 e US$255.000,00. Vamos calcular a mediana e os quartis dos N = 11 preços dos imóveis. Classificando os preços das casas do menor para o maior (e omitindo os 000 ) obtemos a lista: 221, 228, 234, 238, 245, 252, 255, 263, 267, 270, 292. O localizador da mediana é 0,5 11 = 5,5, o localizador do primeiro quartil é 0,25 11 = 2,75 e o localizador do terceiro quartil é 0,75 11 = 8,25. Uma vez que os localizadores não são números inteiros, eles devem ser arredondados para cima: 5,5 par 6, 2,75 para 3 e 8,25 para 9. Assim, a mediana dos preços de venda é igual a d 6 = 252 (isto é, M = US$252.000,00), o primeiro quartil é dado por d 3 = 234 (isto é, Q 1 = US$234.000,00) e o terceiro quartil é dado por d 9 = 267 (isto é, Q 3 = US$267.000,00).

EXEMPLO 14.13: VENDA DE CASAS NO VALE VERDE (CONTINUAÇÃO) Oops! Uma casa acaba de ser vendida esta manhã no Vale Verde por US$264.000,00. Precisamos recalcular a mediana e quartis para os agora N = 12 preços dos imóveis. Podemos utilizar os dados que já ordenamos, basta inserir o preço novo (264) no lugar certo (lembre-se, não estamos escrevendo o 000!): 221, 228, 234, 238, 245, 252, 255, 263, 264, 267, 270, 292. Agora N = 12 e neste caso a mediana é a média de d 6 = 252 e d 7 = 255. Segue-se, portanto, que a mediana dos preços de venda é M = US$253.500,00. O localizador do primeiro quartil é 0,25 12 = 3. Desde que o localizador é um número inteiro, o primeiro quartil é a média de d 3 = 234 e d 4 = 238 (isto é, Q 1 = US$236.000,00). Analogamente, o terceiro quartil é Q 3 = US$265.500,00 (a média de d 9 = 264 e d 10 = 267).

EXEMPLO 14.14: RESULTADOS DO EXAME DE ESTATÍSTICA PARTE 5 Vamos agora calcular a mediana e os quartis das pontuações do exame de estatística. A tabela de frequências elimina a necessidade de ordenar as pontuações: de fato, a tabela de frequências já fez isso por nós. Como N = 75 é ímpar, então a mediana é a trigésima oitava pontuação (a contar da esquerda) na tabela de frequências. Para encontrar o trigésimo oitavo número na Tabela 14-10, contamos ao nos mover da esquerda para a direita: 1 + 1 = 2, 1 + 1 + 2 = 4, 1 + 1 + 2 + 6 = 10, 1 + 1 + 2 + 6 + 10 = 20, 1 + 1 + 2 + 6 + 10 + 16 = 36. Neste ponto, sabemos que a 36ª pontuação é um 10 (o último dos 10s) e as próximas 13 pontuação são todas de iguais a l1. Podemos concluir que a 38ª pontuação do exame é 11. Assim, M = 11.

EXEMPLO 14.14: RESULTADOS DO EXAME DE ESTATÍSTICA PARTE 5 Vamos agora calcular a mediana e os quartis das pontuações do exame de estatística. O localizador do primeiro quartil é L = 0,25 75 = 18,75. Então Q 1 = d 19. Para encontrar a décima nona pontuação na tabela de frequências, contamos as frequências da esquerda para a direita: 1 + 1 = 2; 1 + 1 + 2 = 4; 1 + 1 + 2 + 6 = 10; 1 + 1 + 2 + 6 + 10 = 20. Neste ponto, percebemos que d 10 = 8 (o último dos 8s) e que de d 11 a d 20 todas as pontuações são iguais a 9. Assim, o primeiro quartil das pontuações do exame de estatística é igual a Q 1 = d 19 = 9.

EXEMPLO 14.14: RESULTADOS DO EXAME DE ESTATÍSTICA PARTE 5 Vamos agora calcular a mediana e os quartis das pontuações do exame de estatística. Uma vez que os primeiro e terceiro quartis estão a uma "distância" igual dos dois extremos da lista ordenada pontuações, uma maneira rápida de se localizar o terceiro quartil é olhar para a décima nona pontuação na tabela de frequências quando contamos frequências da direita para a esquerda. Deixamos para o leitor verificar que o terceiro quartil do conjunto de dados é igual a Q 3 = 12.

EXEMPLO 14.15: OS RESULTADOS EM MATEMÁTICA DO TESTE SAT EM 2007 PARTE 2

EXEMPLO 14.15: OS RESULTADOS EM MATEMÁTICA DO TESTE SAT EM 2007 PARTE 2 Lembre-se N = 1.494.531 alunos americanos fizeram o teste SAT em 2007. Conforme relatado pelo Conselho Universitário, a mediana das pontuações do teste foi igual a M = 510, o primeiro quartil foi igual a Q 1 = 430 e o terceiro quartil foi igual a Q 3 = 590. O que podemos concluir com estas informações? Vamos começar com a mediana. De N = 1.494.531 (um número ímpar), podemos concluir que a mediana (510 pontos) é a pontuação de número 747.266 na lista ordenada de pontuações do teste. Isto significa que existem pelo menos 747.266 estudantes que marcaram 510 pontos ou menos. Por que usamos pelo menos" na frase anterior? Poderia haver mais alunos que marcaram 510 pontos ou menos? Sim, quase certamente. Como o número de alunos que marcou 510 pontos está na casa dos milhares, é muito improvável que a pontuação de número 747.266 seja a última dos 510s. Do mesmo modo, podemos concluir que havia pelo menos 373.633 pontuações iguais ou menores do que Q 1 = 430 (o localizador do primeiro quartil é (0,25) 1.494.531 = 373.632,75) e pelo menos 1.120.899 pontuações iguais ou menores do que Q 3 = 590.

UMA NOTA DE ADVERTÊNCIA Medianas, quartis e percentis gerais são frequentemente calculados usando-se calculadoras ou softwares estatísticos, o que é necessário desde que os cálculos envolvidos podem ser tediosos. O problema é que não há um consenso universal sobre o procedimento para calcular percentis. Por isso, diferentes tipos de calculadoras e diferentes softwares estatísticos podem apresentar respostas ligeiramente diferentes umas das outras (todos concordam com a mediana). Tenha isso em mente ao fazer os exercícios: a resposta dada pela sua calculadora pode ser um pouco diferente daquela que se obtém a partir dos procedimentos que apresentamos aqui.

O RESUMO DOS CINCO NÚMEROS Uma maneira comum de se resumir um conjunto de dados grande é através do resumo dos cinco números. O resumo dos cinco números é dado por (1) o menor valor no conjunto de dados (denominado o Min), (2) o primeiro quartil Q 1, (3) a mediana M, (4) o terceiro quartil Q 3 e (5) o maior valor no conjunto de dados (denominado o Max). Estes cinco números, juntos, frequentemente nos dizem muito sobre os dados.

EXEMPLO 14.16: RESULTADOS DO EXAME DE ESTATÍSTICA PARTE 6 Para os resultados do exame de estatística do Exemplo 14.1 (lembre-se que as pontuações variam de 0 a 25), o resumo dos cinco números é Min = 1, Q 1 = 9, M = 11, Q 3 = 12 e Max = 24. Que informação útil podemos obter com isto? Logo de cara, podemos ver que os N = 75 os resultados do exame não estão uniformemente distribuídos ao longo do intervalo de pontuações possíveis. Por exemplo, a partir de M = 11 e Q 3 = 12 pode-se concluir que pelo menos 25% da classe (o que significa, pelo menos, 18 estudantes) tiraram 11 ou 12 pontos no exame. Ao mesmo tempo, a partir de Q 3 = 12 e Max = 24 pode-se concluir que menos de um quarto da classe (isto é, no máximo, 18 alunos) tiveram pontuações na faixa de 13 a 24 pontos. Utilizando argumentos semelhantes, podemos concluir que pelo menos 18 alunos tiveram pontuações entre Q 1 = 9 e M = 11 pontos e não mais de 18 alunos pontuaram na faixa de 1 a 8 pontos.

BOXPLOTS Inventado em 1977 pelo estatístico John Tukey, um boxplot (também conhecido como diagrama de caixa e bigodes) é uma representação gráfica do resumo de cinco números de um conjunto de dados. O boxplot consiste em uma caixa retangular que fica acima de uma escala e que se estende do primeiro quartil Q 1 para o terceiro quartil Q 3. A linha vertical que atravessa a caixa indica a posição da mediana M. Em ambos os lados da caixa são desenhados bigodes ( whiskers ) que se estendem para o menor valor, Min, e o maior valor, Max, dos dados. A Figura 14-12 mostra um boxplot genérico para um conjunto de dados.

BOXPLOTS A Figura 14-13 (a) mostra um boxplot para os resultados do exame de Estatística (Exemplo 14.14). Os bigodes longos neste diagrama são devidos aos outliers 1 e 24. A Figura 14-13 (b) mostra uma variação do mesmo boxplot, mas com os dois outliers marcados com um e separados do resto dos dados. Quando existem outliers, é útil separá-los do resto do conjunto de dados: podemos pensar em outliers como "anomalias" dentro do conjunto de dados.

EXEMPLO 14.17: COMPARANDO OS SALÁRIOS ANUAIS INICIAIS EM AGRONOMIA E EM ENGENHARIA A Figura 14-14 mostra dois boxplots para os salários anuais iniciais de duas populações diferentes: os formandos em engenharia e em agronomia da Universidade Estadual da Tasmânia. Sobrepor os dois boxplots em uma mesma escala nos permite fazer algumas comparações úteis. É claro, por exemplo, que, em geral, os formandos de engenharia estão se saindo melhor do que os formandos em agronomia, embora os melhores salários em agronomia são mais bem pagos do que os melhores salários em engenharia.

EXEMPLO 14.17: COMPARANDO OS SALÁRIOS ANUAIS INICIAIS EM AGRONOMIA E EM ENGENHARIA A Figura 14-14 mostra dois boxplots para os salários anuais iniciais de duas populações diferentes: os formandos em engenharia e em agronomia da Universidade Estadual da Tasmânia. Outro ponto interessante é que a mediana dos salários dos diplomados em agronomia (43.000 dólares) é menor do que o primeiro quartil dos salários dos diplomados em engenharia (45.000 dólares).

EXEMPLO 14.17: COMPARANDO OS SALÁRIOS ANUAIS INICIAIS EM AGRONOMIA E EM ENGENHARIA A Figura 14-14 mostra dois boxplots para os salários anuais iniciais de duas populações diferentes: os formandos em engenharia e em agronomia da Universidade Estadual da Tasmânia. O bigode muito curto no lado esquerdo do boxplot da agronomia nos diz que os 25% salários mais baixos em agronomia estão concentrados em uma faixa salarial muito estreita (US$32.500,00 US$35.000,00).

EXEMPLO 14.17: COMPARANDO OS SALÁRIOS ANUAIS INICIAIS EM AGRONOMIA E EM ENGENHARIA A Figura 14-14 mostra dois boxplots para os salários anuais iniciais de duas populações diferentes: os formandos em engenharia e em agronomia da Universidade Estadual da Tasmânia. Também podemos ver que os salários em agronomia estão muito mais dispersos do que os salários de engenharia, embora a maioria da dispersão ocorre no ponto mais alto da escala salarial.

AGORA: EXERCÍCIOS EM SALA DE AULA