Descrevendo Distribuições com Números TADI

Documentos relacionados
TADI Tratamento e Análise de Dados/Informações Prof. Camilo Rodrigues Neto

TADI Tratamento e Análise de Dados/Informações Prof. Camilo Rodrigues Neto

Estatística Descritiva 1. Renato Vicente EACH-USP/2008

TADI Tratamento e Análise de Dados/Informações Prof. Camilo Rodrigues Neto

Fernando de Pol Mayer

Medidas de dispersão. 23 de agosto de 2018

Estatística

Estatística Descritiva

Unidade III Medidas Descritivas

Estatística Descritiva. Objetivos de Aprendizagem. 6.1 Sumário de Dados. Cap. 6 - Estatística Descritiva 1. UFMG-ICEx-EST. Média da amostra: Exemplo:

Estatística Descritiva

Seção 2.3 Uma Variável Quantitativa: Medidas de Dispersão

Estatística Descritiva

3.1 - Medidas de Posição Medidas de Dispersão Quantis Empiricos Box-plots Graficos de simetria 3.

Métodos Quantitativos II

Aula 4: Medidas Resumo

Medidas de tendência central,dispersão, posição, associação e boxplot

Grupo A - 1 semestre de 2012 Lista de exercícios 2 - Estatística Descritiva II C A S A (gabarito)

Estatística Descritiva

AULA 5 MEDIDAS DESCRITIVAS DOCENTE: CIRA SOUZA PITOMBO

Elementos de Estatística

Para caracterizar um conjunto de dados é importante não só a média, mas também a dispersão dos valores em torno da média

Introdução à probabilidade e estatística I

MEDIDAS DE DISPERSÃO

2. Estatística Descritiva

Revisão de estatística descritiva

Notas de Aula. Estatística Elementar. by Mario F. Triola. Tradução: Denis Santos

Capítulo 3 Estatísticas para Descrição, Exploração e Comparação de Dados. Seção 3-1 Visão Geral. Visão Geral. Estatísticas Descritivas

INTRODUÇÃO À ESTATÍSTICA

Estatística Descritiva

MEDIDAS DE DISPERSÃO

ESTATÍSTICA DESCRITIVA. Aula 07 Estatística Descritiva

Amostragem Aleatória e Descrição de Dados - parte I

SCC0173 Mineração de Dados Biológicos

Prof. Dr. Lucas Santana da Cunha de abril de 2018 Londrina

Estatística. 1 Medidas de Tendência Central 2 Medidas de Posição 3 Medidas de Dispersão. Renata Souza

Mas, para começar a aplicar métodos estatísticos, é preciso conhecer alguns conceitos básicos.

CAPÍTULO 4 DESCRIÇÃO E EXPLORAÇÃO DOS DADOS 2ª parte

Lista de Exercícios Cap. 2

Medidas Descritivas de Posição, Tendência Central e Variabilidade

MAIS SOBRE MEDIDAS RESUMO. * é muito influenciada por valor atípico

Revisão de estatística descritiva

Estatísticas Descritivas. Estatística

Estatística Computacional Profª Karine Sato da Silva

Medidas Descritivas de Posição, Tendência Central e Variabilidade

Estatística I Aula 3. Prof.: Patricia Maria Bortolon, D. Sc.

Probabilidade e Estatística

Métodos Estocásticos da Engenharia II

CE001 Bioestatística. Prof. Cesar Augusto Taconeli. Curitiba-PR 2015

Excel INTERMEDIÁRIO Estatística. Prof. Cassiano Isler Turma 3

Eng a. Morgana Pizzolato, Dr a. Aula 02 Revisão de Estatística DPS1037 SISTEMAS DA QUALIDADE II ENGENHARIA DE PRODUÇÃO CT/UFSM

Medidas resumo. Wagner H. Bonat Elias T. Krainski Fernando P. Mayer

ANÁLISE DE DADOS: DÉCIMA LISTA DE EXERCÍCIOS

MAIS SOBRE MEDIDAS RESUMO. * é muito influenciada por valor atípico

Grupo A - 1 semestre de 2012 Lista de exercícios 1 - Introdução à Estatística Descritiva C A S A (gabarito)

Bioestatística. October 28, UFOP October 28, / 57

Variável Salário: Quantitativa contínua. Para construir os histogramas solicitados temos,

1. ANÁLISE EXPLORATÓRIA E ESTATÍSTICA DESCRITIVA

ESTATÍSTICA Medidas de Síntese

ESTATÍSTICA. PROF. RANILDO LOPES U.E PROF EDGAR TITO

Universidade Federal de Lavras Departamento de Estatística Prof. Daniel Furtado Ferreira 4 a Aula Prática Medidas de Dispersão

Aula 03: Dados Profa. Ms. Rosângela da Silva Nunes

Estatística Aplicada ao Serviço Social AULA 06. Estatística Descritiva - Medidas de dispersão. Universidade Federal da Paraíba

PROBABILIDADE E ESTATÍSTICA. Profa. Dra. Yara de Souza Tadano

MÉTODOS QUANTITATIVOS APLICADOS. Prof. Danilo Monte-Mor

ANÁLISE EXPLORATÓRIA DE DADOS 2ª PARTE

TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 10. Universidade Federal Fluminense

ANÁLISE EXPLORATÓRIA E ESTATÍSTICA DESCRITIVA

12/06/14. Estatística Descritiva. Estatística Descritiva. Medidas de tendência central. Medidas de dispersão. Separatrizes. Resumindo numericamente

Bioestatística Medidas de tendência central, posição e dispersão PARTE II Roberta de Vargas Zanini 11/05/2017

Introdução à Estatística Estatística Descritiva 22

Universidade Federal Fluminense INSTITUTO DE MATEMÁTICA E ESTATÍSTICA DEPARTAMENTO DE ESTATÍSTICA

Medidas de Posição ou Tendência Central

Física Geral - Laboratório. Aula 2: Organização e descrição de dados e parâmetros de dispersão e correlação

PROBABILIDADE E ESTATÍSTICA ESTATÍSTICA DESCRITIVA

um conjunto de métodos e processos quantitativos que servem para estudar e medir os fenômenos coletivos Aplicações em quase todas as áreas de

Métodos Quantitativos Aplicados Aulas 1 e 2. 1 Profa. Msc. Érica Siqueira

Física Geral - Laboratório. Aula 2: Organização e descrição de dados e parâmetros de dispersão e correlação

EXPERIMENTAÇÃO AGRÍCOLA. Profa. Dra. Amanda Liz Pacífico Manfrim Perticarrari

Estatística Aplicada. UNIVERSIDADE ESTÁCIO DE SÁ-RECIFE 2013 Prof: Wildson Cruz

Tutorial para o desenvolvimento das Oficinas

Medidas Separatrizes

Análise Exploratória e Estimação PARA COMPUTAÇÃO

Conceitos básicos Revisão de estatística descritiva

Introdução à Bioestatística Turma Nutrição Aula 3 Análise Descritiva: Medidas de Tendência Central Medidas de Variabilidade

CURSO DE SPSS AULA 2 MEDIDAS DESCRITIVAS. UFBA/FACED José Albertino Lordello Sheila Regina Pereira

MAE0219 Introdução à Probabilidade e Estatística I

Stela Adami Vayego DEST/UFPR

Vimos que é possível sintetizar os dados sob a forma de distribuições de frequência e gráficos. Pode ser de interesse apresentar esses dados através d

MEDIDAS SEPARATRIZES

Apresentação Caule e Folha. Exemplo. Ramo e Folha. Análise Exploratória de Dados

Estatística Aplicada a Negócios

MEDIDAS DE POSIÇÃO E DE DISPERSÃO. Profª Andréa H Dâmaso

Escola Superior de Agricultura Luiz de Queiroz Universidade de São Paulo

Universidade Federal Fluminense INSTITUTO DE MATEMÁTICA E ESTATÍSTICA DEPARTAMENTO DE ESTATÍSTICA

Estatística Aplicada à Educação

Mediana. Dr. NIELSEN CASTELO DAMASCENO DANTAS AULA 5

Transcrição:

Descrevendo Distribuições com Números TADI 1

Quanto ganha quem tem curso superior? Entrevistamos 15 pessoas que responderam (em milhares de R$/mês): 11 2,5 5 5 5,5 3 3,5 3 0,4 3,2 5 3 3,2 7,4 6 Salário de Indivíduos com Curso Superior 8 Freqüência 6 4 2 0 2 4 6 8 10 12 Mais Salário Como resumir esta informação? 2

Média Para achar a média aritmética, ou simplesmente média, você deve somar cada um dos valores e dividir pelo número de observações. A média é comumente denotada por uma barra sobre a variável, assim para nosso exemplo: x = 11 + 2,5 + 5 + 5 + 5,5 + 3 + 3,5 + 3 + 15 0,4 + 3,2 + 5 + 3 + 3,2 + 7 = 66,7 15 = 4,45 A forma geral para a média é: x = ou x 1 + x 2 + + n x n x = n i = 1 n x i 3

O que a média representa? Representa quanto cada um receberia se o total de salários fosse dividido identicamente. Ela é também o ponto onde você conseguiria equilibrar o histograma, ou seja, o seu centro de massa. 4,5 4 3,5 3 2,5 2 1,5 1 0,5 0 1 2 3 4 5 6 7 8 9 10 11 12 Mais Freqüência outlier Salários E se removermos o outlier da amostra? O que acontece com a média? 4

Eliminando o outlier Calculando a média novamente: x = 2,5 + 5 + 5 + 5,5 + 3 + 3,5 + 3 + 14 0,4 + 3,2 + 5 + 3 + 3,2 + 7 = 55,7 14 = 3,98 4,5 4 3,5 3 2,5 2 1,5 1 0,5 0 1 2 3 4 5 6 7 8 9 10 11 12 Mais Freqüência Salários E se entrevistássemos um felizardo que ganhe R$200 mil/mês? O que ocorre com a média? 5

Efeito do outlier Calculando a média novamente: x = 200 + 2,5 + 5 + 5 + 5,5 + 3 + 3,5 + 15 3 + 0,4 + 3,2 + 5 + 3 + 3,2 + 7 = 17 8 6 4 2 0 2 16 30 44 58 72 86 100 114 128 142 156 170 184 198 Freqüência Salários CUIDADO: A média é uma medida sensível a valores grandes. 6

Mediana Para achar a mediana ordenamos os dados e encontramos o valor que divide as observações ao meio: Dados fora de ordem: 11 2,5 5 5 5,5 3 3,5 3 0,4 3,2 5 3 3,2 7,4 6 Dados ordenados: 0,4 2,5 3 3 3 3,2 3,2 3,5 5 5 5 5,5 6 7,4 11 A mediana M será: M=3,5 E se eliminarmos o outlier? 7

Eliminando o outlier Dados ordenados sem o outlier: 0,4 2,5 3 3 3 3,2 3,2 3,5 5 5 5 5,5 6 7,4 A mediana M será: M=(3,2+3,5)/2 = 3,35 A mediana é bem menos sensível a valores grandes do que a média. Mas, e se agora introduzirmos nosso felizardo assalariado que recebe R$200 mil/mês? 8

Efeito do outlier Dados ordenados sem o outlier: 0,4 2,5 3 3 3 3,2 3,2 3,5 5 5 5 5,5 6 7,4 200 A mediana M será: M=3,5 Um único valor muito grande não altera a mediana. A mediana é dita uma medida de posição resistente. Por outro lado, dependendo da informação que se busca, esta característica pode não ser desejável. A alteração de 11 para 200 em um dos salários não alterou em nada a mediana. 9

Moda Qual seria o salário (ou salários) mais freqüentes? Para achar a moda montamos uma tabela de freqüências e procuramos pelo salário ou faixa com maior freqüência: É mais fácil começar com dados ordenados: 0,4 2,5 3 3 3 3,2 3,2 3,5 5 5 5 5,5 6 7,4 11 Montamos a tabela de freqüências: x n [0,1) 1 [1,2) 0 [2,3 ) 1 [3,4) 6 [4,5) 0 [5,6 ) 4 [6,7) 1 [7,8) 1 [8,9) 0 [9,10) 0 [10,11) 1 A moda está no intervalo [3,4), escolhemos o meio do intervalo como indicador: MODA=3,5. 10

Pense a respeito 1 1. Como deve ser a distribuição para que a média e a mediana sejam idênticas? Desenhe o histograma. 2. Como deve ser o histograma para que a mediana seja igual a moda mas a média seja maior que a mediana? 3. Como deve ser o histograma para que a moda seja maior que a mediana e a mediana seja maior que a média? 11

Pense a respeito 2 Você está procurando emprego para o próximo ano. As empresas A e B são totalmente equivalentes a menos de suas políticas de remuneração. As características de remuneração de cada uma das empresas são resumidas na tabela a seguir: Empresa Média Mediana Moda A 2500 1700 1500 B 2000 1900 1900 Qual das duas empresas você escolheria? Justifique 12

Pense a respeito 3 Quais medidas de posição são mais adequadas nos seguintes casos? Justifique. Estão disponíveis dados mensais sobre a incidência de envenenamento por picada de cobra. Deseja-se planejar a compra mensal de antídoto. O número diário de usuários, entre 17 e 19 horas, de determinada linha de ônibus foi anotado. Pretende-se utilizar essa informação para dimensionar a frota em circulação. Um fabricante de baterias deseja divulgar a durabilidade do seu produto e coleta a informação sobre a duração de 100 de suas baterias. 13

Exercício 1 Vinte e cinco residência de um bairro foram sorteadas e visitadas por um entrevistador que, entre outras questões, perguntou sobre o número de televisores. Os dados foram os seguintes: 2,2,2,3,1,2,1,1,1,1,0,1,2,2,2,2,3,1,1,3,1,2,1,0,2 Organize os dados em uma tabela de freqüência e determine as diversas medidas de posição. 14

Exercício 2 Num experimento, 15 coelhos foram alimentados com uma nova ração e seu peso avaliado ao fim de um mês. Os dados referentes ao ganho de peso (em kg) foram os seguintes: 1,5; 1,6; 2,3; 1,7; 1,5; 2,0; 1,5; 1,8; 2,1; 2,1; 1,9; 1,8; 1,7; 2,5; 2,2 a. Utilizando os dados brutos acima, determine média, moda e mediana. b. Organize uma tabela de freqüência com faixas de amplitude 0,2 a partir de 1,5. c. Calcule a partir da tabela de freqüência e com o ponto médio representando cada faixa, a média, a moda e a mediana. Comente as diferenças em relação ao item a. d. Se ao invés de 15, fossem 500 coelhos, qual seria o procedimento mais conveniente (a) ou (c)? 15

Quartis Quartis - outra forma de caracterizar quantitativamente a distribuição de uma variável. Consiste em encontrar os valores abaixos dos quais está 25% dos dados (Primeiro Quartil), 50% dos dados (Mediana) e 75% dos dados (Terceiro Quartil). Por exemplo, retornando aos dados salariais temos: Dados fora de ordem: 200 11 2,5 5 5 5,5 3 3,5 3 0,4 3,2 5 3 3,2 7,4 6 Dados ordenados: 0,4 2,5 3 3 3 3,2 3,2 3,5 5 5 5 5,5 6 7,4 11 200 25% dos dados está abaixo de 3, assim, o Primeiro Quartil é Q1=3; 50% dos dados está abaixo de 4,25, assim, o Segundo Quartil, que também é a Mediana é Q2=M=4,25; 75% dos dados está abaixo de 5,75, assim, o Teceiro Quartil é Q3=5,75 16

Cálculo da Mediana, Quartis, Percentis Para o cálculo da mediana ( j = 2), do quartil Q i ( j = 4 P ( j = 100 ), calcula-se i k = i n j ) ou do percentil Se k não é inteiro, arredonda-se para cima e o valor procurado é dado por x k + xk + 1 x k. Se k é inteiro, valor procurado é dado por 2 17

Sumário de 5 números Podemos descrever uma distribuição de forma resumida fornecendo 5 números apenas: mínimo, Q1, M, Q3, máximo. No exemplo: Dados ordenados: 0,4 2,5 3 3 3 3,2 3,2 3,5 5 5 5 5,5 6 7,4 11 200 MIN = 0,4 Q1 = 3,0 M = 4,25 Q3 = 5,75 MAX = 200 18

Dados sobre rendimentos anuais da Aula 5: Histograma Freqüência 500 400 300 200 100 0 0 15000 30000 45000 60000 75000 90000 105000 120000 135000 Bloco MIN=-19.998 Q1=14.000 Média= 34.295,20 Q2=27.479,50 Q3=47.962,50 MAX=319.350 19

Quantis: Generalizando a idéia de Quartis Ao invés de fixarmos os percentuais de interesse em 25%, 50% e 75% dos dados podemos trabalhar com um percentual qualquer, ou quantil. Observando novamente os dados brutos de peso colhidos em classe podemos montar uma tabela de freqüências: Bloco Freqüência % cumulativo 0 116 2,98% 5000 184 7,72% 10000 352 16,77% 15000 401 27,08% 20000 396 37,27% 25000 353 46,35% 30000 296 53,96% 35000 249 60,37% 40000 247 66,72% 45000 215 72,25% 50000 187 77,06% 55000 168 81,38% 60000 130 84,72% 65000 111 87,58% 70000 70 89,38% 75000 57 90,84% 80000 59 92,36% 85000 39 93,36% 90000 37 94,32% 95000 30 95,09% 100000 25 95,73% 20

Exercício 3 a. Ordene os dados e calcule o sumário de 5 números para a variável Pontos no problema dos dois jogadores de basqyete. Há variação perceptível entre os dois? b. Faça um gráfico para cada jogador com os quantis em intervalos de 20%. Represente as duas distribuições no mesmo gráfico. O que se pode dizer a respeito da diferença entre os dois? 21

Boxplot (ou Gráfico de Caixa) O Box plot é um gráfico que apresenta a informação contida nos quartis e nos pontos extremos dos dados, permitindo, caso se tenha mais de um caso (por exemplo, dados associados a diferentes valores de uma variável qualitativa), fazer a comparação entre os casos de forma visualmente fácil. 22

Vejamos Boxplot dos Salários 12 10 8 Salários 6 4 2 0 23

Interpretando A caixa mostra o intervalo que contém os 50% centrais dos dados (entre Q1 e Q3), com a mediana marcada como uma linha central. As linhas acima e abaixo da caixa são chamadas de bigodes e tem a função de mostrar até onde se observaram dados (exceto pelos outliers, marcados por asteriscos). 24

Construindo um Box plot Primeiro, calcule os quartis, de forma a desenhar a caixa. Obtenha a distãncia entre o primeiro e o terceiro quartil (amplitude interquartil): Q3-Q1 Os bigodes tem como tamanho máximo 1,5 vezes a amplitude interquartil, mas vão apenas até o último dado dentro desta distância. Dados que estiverem além são marcados por asteriscos (outliers). 25

No computador Infelizmente, as planilhas (Excel ou OpenOffice) não possuem o boxplot como gráfico. O OpenOffice tem um gráfico que se parece, mas não é um boxplot! Os boxplots apresentados aqui foram feitos usando o Minitab. No entanto, há formas de se usar o Excel para fazer um boxplot, se você já tiver calculado os quartis (infelizmente, ele errará quanto aos outliers): http://www.mis.coventry.ac.uk/~nhunt/boxplot.htm http://www.olemiss.edu/courses/psy501/lectures/lecture1/html_files/assgnmt1_howto.htm 26

Comparando O box-plot é bastante útil para comparar relações entre dados qualitativos e quantitativos. Pont os 90 80 70 60 50 40 30 20 10 0 Jogadores A e B A B 27

Medidas de Dispersão Queremos agora medir o quanto os dados estão espalhados (dispersos). Note que é possível que conjuntos de dados com a mesma média estejam muito concentrados (quase todos próximos a média), muito espalhados (quase todos distantes) ou algo intermediário. Portanto é interessante medir esta dispersão. 28

Amplitudes A medida mais simples que podemos ter da dispersão é a amplitude, definida como o valor máximo observado menos o valor mínimo. Portanto, todos os dados encontram-se dentro desta distância. Como uma medida central, temos a amplitude interquartil Q3-Q1. Só metade dos dados (a metade central) se encontra dentro desta distância. 29

Desvio Médio Outra medida de dispersão é o desvio médio, dm. Para calculá-lo, obtenha a distância de cada dado xi à média, x i. x Para os salários, teremos a lista 4,05 1,95 1,45 1,45 1,45 1,25 1,25 0,95 0,55 0,55 0,55 1,05 1,55 2,95 6,55 Tomando a média destes números teremos que o desvio médio é dm=1,84, ou seja, os salários estão, em média, a uma distância de R$1.840,00 do salário médio. 30

Exemplos Tomemos os dois conjuntos de dados abaixo: 4, 4, 6, 6 3, 5, 5, 7 Qual dos dois você diria que está mais disperso? 31

Tomemos os dois conjuntos de dados abaixo: 4, 4, 6, 6 3, 5, 5, 7 Qual dos dois você diria que está mais disperso? Na verdade, o desvio médio é igual para os dois conjuntos (igual a 1). Dados mais distantes, no entanto, parecem ter um efeito maior na dispersão. Se mudarmos a medida, tomando o quadrado dos dados, teríamos este efeito. 32

Variância Obtendo o quadrado de cada uma das distâncias, temos: 16,4 3,8 2,1 2,1 2,1 1,56 1,56 0,9 0,3 0,3 0,3 1,1 2,4 8,7 42,9 Se calcularmos a média destes valores, teremos a variância σ 2 = 5,77. No entanto, como estes salários são apenas uma amostra de todos os salários, costuma-se calcular a variância da amostra. 33

Variância de Amostra Para amostras, ao calcular a média, ao invés de se dividir pelo total de elementos n (no caso, 15 salários), divide-se por n-1 (ou seja, 14). Teríamos então: s 2 = 6, 18 34

Assim, temos População (conjunto completo que se está interessado): σ 2 = i ( x µ ) i N 2 Amostra (parte do conjunto completo que se está interessado): s 2 = i ( x x ) i n 1 2 35

Desvio Padrão Note, no entanto, que interpretar a variância não é simples. No caso dos salários, estes estavam em reais, mais as distâncias foram elevadas ao quadrado e a variância é dada em reais ao quadrado (o que quer que isto signifique). Para resolver este problema, extraímos a raiz quadrada, obtendo o desvio padrão. 36

Desvio Padrão dos Salários Temos então que o desvio dos salários será de 2,49, ou seja, cerca de R$2.500,00. Isto quer dizer que os salários estão a uma distância típica de R$2.486,00 do salário médio, R$ 4.447,00. Note que está não é uma distância média, é uma distância típica. 37

Exemplo i. Jogador A Jogador B 15 50 45 12 32 46 16 10 30 20 90 0 26 52 52 44 34 10 40 45 38