Análise descritiva de Dados. a) Média: (ou média aritmética) é representada por x e é dada soma das observações, divida pelo número de observações.



Documentos relacionados
x n 3.3. Medidas descritiva de variáveis quantitativas: Medidas de Posição: Considere uma amostra com n observações: x 1, x 2,..., x n.

Análise descritiva de Dados. A todo instante do nosso dia-a-dia nos deparamos com dados.


Stela Adami Vayego - DEST/UFPR 1

CRITÉRIOS PARA A DETERMINAÇÃO DOS INTERVALOS DE CLASSE

AULAS 04 E 05 Estatísticas Descritivas

Distribuição de Freqüência

MÉDIA ARITMÉTICA MÉDIA PONDERADA MODA MEDIANA

Curso: Logística e Transportes Disciplina: Estatística Profa. Eliane Cabariti

Estatística descritiva. Também designada Análise exploratória de dados ou Análise preliminar de dados

Estatística Aplicada ao Serviço Social

Estatística Descritiva

Medidas de Tendência Central

Medidas de Variação ou Dispersão

MEDIDAS DE DISPERSÃO

1. Registou-se o número de assoalhadas da população de 100 apartamentos vendidos num bairro residencial

Capítulo 7 Medidas de dispersão

CURSO ON-LINE PROFESSOR GUILHERME NEVES

Análise Exploratória de Dados

TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 09. Universidade Federal Fluminense

Apresentação de Dados em Tabelas e Gráficos

UNIDADE 3 MEDIDAS DE POSIÇÃO E DISPERSÃO OBJETIVOS ESPECÍFICOS DE APRENDIZAGEM

3. Características amostrais. Medidas de localização e dispersão

EXERCÍCIOS EXERCÍCIOS. Definições Básicas. Definições Básicas. Definições Básicas. Introdução à Estatística. Dados: valores de variáveis observadas.

Decidir como medir cada característica. Definir as características de qualidade. Estabelecer padrões de qualidade

Estatística Descritiva I

Lista 2. Considere os dados abaixo sobre distribuição de salário (em reais) num grupo de 1000 individuos.

ESTATÍSTICA. aula 1. Insper Ibmec São Paulo. Prof. Dr. Marco Antonio Leonel Caetano

QUALITATIVA VARIÁVEL QUANTITATIVA

Revisão: Noções básicas de estatística aplicada a avaliações de imóveis

Figura 1: Gráfico de pontos.

NOÇÕES BÁSICAS DE ESTATÍSTICA

CURSO ON-LINE PROFESSOR GUILHERME NEVES 1

Exemplo Considere novamente os dados sobre a dureza do alumínio. Fonte: Hoaglin, Mosteller e Tukey, 1983, apud Morettin & Bussab,

Departamento de Matemática - UEL Ulysses Sodré. Arquivo: minimaxi.tex - Londrina-PR, 29 de Junho de 2010.

Cláudio Tadeu Cristino 1. Julho, 2014

Instituto Politécnico de Viseu Escola Superior de Tecnologia

LISTA DE MATEMÁTICA. Aluno(a): Nº. 1. Determinada editora pesquisou o número de páginas das revistas mais vendidas em uma cidade.

Métodos Estatísticos II 1 o. Semestre de 2010 ExercíciosProgramados1e2 VersãoparaoTutor Profa. Ana Maria Farias (UFF)

Estatística Descritiva II

Omatematico.com ESTATÍSTICA DESCRITIVA

6) Estatística Gráfica:

Lista de Exercícios 1 - Estatística Descritiva

CAPÍTULO 9 Exercícios Resolvidos

Método dos mínimos quadrados - ajuste linear

Estatísticas Descritivas. Estatística

CURSO ONLINE REGULAR ESTATÍSTICA BÁSICA PROF. SÉRGIO CARVALHO AULA 13 RELAÇÃO DOS EXERCÍCIOS FINAIS

AGRUPAMENTO DE ESCOLAS DR. VIEIRA DE CARVALHO

u unidades elementares, i = 1, 2,..., N.

A Estatística, um ramo da Matemática, é aplicada em diferentes áreas, como Administração, Engenharia, Medicina, Psicologia, Ciências Sociais etc.

4Distribuição de. freqüência

AVALIAÇÃO DO MODELO DE ONDAS

Decis: dividem os dados em décimas partes (cada parte tem 10% dos dados). São indicados por D 1, D 2,..., D 9.

Introdução à probabilidade e estatística I

Aula 7 Medidas de Tendência Central 2ª parte

Universidade da Beira Interior - Departamento de Matemática ESTATÍSTICA APLICADA À PSICOLOGIA I

UNIVERSIDADE DE SÃO PAULO. Faculdade de Arquitetura e Urbanismo

DISTRIBUIÇÃO NORMAL 1

Guia do professor. Ministério da Ciência e Tecnologia. Ministério da Educação. Secretaria de Educação a Distância.

Estatística Descritiva

1ª Actividade Formativa

OBS. Essas fórmulas acima, são para determinar os termos da mediana (posição)

Aula 11 Esperança e variância de variáveis aleatórias discretas

Histogramas. 12 de Fevereiro de 2015

COMENTÁRIO AFRM/RS 2012 ESTATÍSTICA Prof. Sérgio Altenfelder

Especialização em Engenharia Clínica

Medidas Descritivas de Posição, Tendência Central e Variabilidade

CAP5: Amostragem e Distribuição Amostral

Teste Intermédio A I (50%)

Resoluções comentadas de Raciocínio Lógico e Estatística - SEPLAG APO

Medidas e Incertezas

Estatística Básica. Introdução à Análise Exploratória de Dados. Renato Dourado Maia. Instituto de Ciências Agrárias

RESUMO DA AULA PRÁTICA DE EXCEL

Apostila para o minicurso. Estatística Básica. Usando o

37ª OLIMPÍADA BRASILEIRA DE MATEMÁTICA PRIMEIRA FASE NÍVEL 1 (6º e 7º anos do Ensino Fundamental) GABARITO

Lista de Exercícios #1. in Noções de Probabilidade e Estatística (Marcos N. Magalhães et al, 4ª. edição), Capítulo 1, seção 1.4, páginas

Elementos de Estatística

AT = X MÁX - X MÍN. Σ F i =n


O BOXPLOT. Ana Maria Lima de Farias Departamento de Estatística (GET/UFF)

ActivALEA. active e actualize a sua literacia

CURSO ON-LINE PROFESSOR: VÍTOR MENEZES

MÉTODOS ESTATÍSTICOS I 3ª. AVALIAÇÃO PRESENCIAL 1º Semestre de 2010 Prof. Moisés Lima de Menezes (pode usar calculadora) Versão Tutor

CAPÍTULO 2 ANÁLISE PRELIMINAR DE DADOS HIDROLÓGICOS. 2.1 Apresentação Gráfica de Dados Hidrológicos

Distribuição de Frequência

MÓDULO 1. I - Estatística Básica

DISTRIBUIÇÃO DE WEIBULL CONCEITOS BÁSICOS APLICAÇÕES

ActivALEA. active e actualize a sua literacia

ESTATÍSTICA APLICADA À GESTÃO Ficha de exercícios 1 Estatística Descritiva 2014/2015

CURSO ON-LINE PROFESSOR: VÍTOR MENEZES. Comentários sobre as provas de estatística e financeira ICMS RJ

Medidas de tendência central: onde a maior parte dos indivíduos se encontra?

Medidas de dispersão: os valores estão próximos entre si ou variam muito?

Tópico 3. Limites e continuidade de uma função (Parte 2)

Qual é o risco real do Private Equity?

O comportamento conjunto de duas variáveis quantitativas pode ser observado por meio de um gráfico, denominado diagrama de dispersão.


Introdução à Análise Química QUI 094 ERRO E TRATAMENTO DE DADOS ANALÍTICOS

Estatística Aplicada. Gestão de TI. Evanivaldo Castro Silva Júnior

Transcrição:

Análise descritiva de Dados 4. Medidas resumos para variáveis quantitativas 4.1. Medidas de Posição: Considere uma amostra com n observações: x 1, x,..., x n. a) Média: (ou média aritmética) é representada por x e é dada soma das observações, divida pelo número de observações. x n i 1 n x i b) Mediana: representada por med (x), é observação que ocupa a posição central das observações ordenadas. Sejam as observações ordenadas: x (1) x ()... x (n), então, a n 1 posição central é dada por, portanto, med ( x) x n1 Notas: i) A mediana também é presentada por x ~. ii) Se n é par, a mediana é dada pela média aritmética das duas observações centrais. c) Moda: representada por mo (x), é observação da amostra com maior frequência, ou seja, a que mais se repete.

Um conjunto de dados pode ter mais de uma moda, ou até mesmo, não ter moda. Em relação ao número de modas um conjunto de dados pode ser: i) unimodal: quando o conjunto tem uma única moda; ii) bimodal: quando o conjunto tem duas modas; iii) multimodal: quando o conjunto tem três ou mais modas; iv) amodal: quando o conjunto não tem moda (neste caso, todas as observações aparecem uma única vez na amostra). Exemplos de medidas da posição: Exemplo 1: Número de pessoas com diabetes em 0 grupos de 1000 pessoas cada. Neste caso, foram obtidos os seguintes dados: 7, 8, 8, 9, 9, 9, 9, 9, 10, 10, 10, 10, 10, 10, 10, 10, 11, 11, 11, 1 Medidas Descritivas de Posição: 193 i) Média: x i = 193 x 9, 65 casos/grupo ( 10) 0 ii) Mediana: Determinando a posição da mediana: n 1 0 1 10,5

logo a mediana é a média entre a 10ª e 11ª observações ordenadas x(10) x(11) 10 10 med ( x) 10 casos/grupo. iii) Moda: mo(x) = 10 casos/grupo, aparece 8 vezes na amostra o conjunto é unimodal. Exemplo : Em 1798 o cientista Henry Cavendish mediu a densidade do globo terrestre em 9 ensaios. Os dados foram obtidos do Annals os Statistics, 1977. X = densidade do globo terrestre (g/cm 3 ). 5,50 5,61 4,88 5,07 5,6 5,55 5,36 5,9 5,58 5,65 5,57 5,53 5,6 5,9 5,44 5,34 5,79 5,10 5,7 5,39 5,4 5,47 5,63 5,34 5,46 5,30 5,75 5,68 5,85 Dados ordenados 4,88 5,07 5,10 5,6 5,7 5,9 5,9 5,30 5,34 5,34 5,36 5,39 5,4 5,44 5,46 5,47 5,50 5,53 5,55 5,57 5,58 5,61 5,6 5,63 5,65 5,68 5,75 5,79 5,85 n = 9 observações Medidas Descritivas de Posição: 157,99 i) Média: x i = 157,99 x 5, 45g/cm 3 9

ii) Mediana: Determinando a posição da mediana: n 1 15 logo a mediana é a 15ª observação ordenada med x) x ( 5,46 g/cm 3 ( 15) iii) Moda: mo(x) = 5,9 g/cm 3 e mo(x) = 5,34 g/cm 3 o conjunto é bimodal. Exemplo 3: Altura dos alunos da turma B de Bioestatística no primeiro semestre de 015. X = altura dos alunos (em metros). Dados ordenados 1,51 1,55 1,56 1,57 1,58 1,58 1,58 1,60 1,60 1,60 1,60 1,6 1,6 1,6 1,63 1,63 1,65 1,65 1,65 1,65 1,65 1,65 1,66 1,67 1,67 1,70 1,70 1,70 1,7 1,73 1,73 1,74 1,75 1,75 1,75 1,76 1,77 1,78 1,80 1,80 1,80 1,80 1,81 n = 43 observações x i = 71,94

Medidas Descritivas de Posição: i) Média: x i = 71,94 71,94 x 1, 67 m 43 ii) Mediana: Determinando a posição da mediana: n 1 44 logo a mediana é a ª observação ordenada: med ( ) x) x ( 1,65m iii) Moda: mo(x) = 1,65m aparece 5 vezes na amostra, o conjunto é unimodal.

4.. Medidas de Dispersão (ou variação): a) Amplitude: é dada pela diferença entre o maior e o menor valor da amostra. Sejam x( 1) min [ x1, x,, xn] e x( n) max[ x1, x,, xn], x então, a amplitude da amostra é definida por A x ( x. n) A amplitude A representa o tamanho da região na qual os dados foram observados. b) Variância amostral: a variância amostral é definida pela soma dos quadrados dos desvios das observações em relação à media amostral x, dividida por (n 1), ou seja (1) x s n x i1 i x n 1. Mostra-se facilmente que s pode ser escrita como s n i 1 x i n 1 nx. c) Amplitude Interquartil: é dada pela diferença entre o 3º e o 1º quartis. Para definir a amplitude interquartil, vamos primeiro definir o que são quartis amostrais.

Quartis amostrais são medidas descritivas que dividem a amostra ordenada em quatro parcelas iguais de 5%, ou seja: 5% 5% 5% 5% ------------ ------------ ------------ ------------ Q 1 Q Q 3 med(x) Assim sendo: i) Q 1 é o primeiro quartil; ii) Q = med(x), é o segundo quartil, iii) Q 3 é o terceiro quartil. Desta forma, denotada por A q, é definida por A q = Q 3 Q 1 A Q determina o tamanho da região em torno da mediana que contém 50% das observações centrais.

4..1. Métodos para a obtenção dos quartis amostrais: Para a obtenção dos quartis devemos proceder da mesma forma que para a mediana. Uma vez que a mediana esteja determinada, temos o conjunto de dados ordenados dividido em duas partes. Os quartis, então, são dados pelas observações centrais destas duas metades. Q 1 med(x) Q 3 Observação central da metade inferior Observação central da metade superior O procedimento para encontrar os quartis é o mesmo usado para a mediana, porém, teremos dois procedimentos dependendo do tamanho da amostra n ser par ou ímpar. i) Se o tamanho da amostra n for par: o procedimento é o mesmo da mediana, sendo aplicada a cada uma das metades (inferior e superior). Exemplo: Dados: 1 1 3 4 5 5 6 6 6 7 8 8 9 n = 14 med ( x) x (7) x (8) 5 6 5,5 A mediana med(x) = 5,5 divide os dados em dois grupos ordenados de 7 observações cada. Assim,

7 1 4 Q 1 é a 4ª observação da metade inferior e, Q 3 é a 4ª observação da metade superior. Desta forma, os quartis serão as observações ordenadas que ocupam as posições 4 e 11. 5,5 1 1 3 4 5 5 6 6 6 7 8 8 9 Q Q 1 x(4) 3 x(11) 3 7 ii) Se o tamanho da amostra n for ímpar: devemos optar por incluir, ou não, a mediana nos cálculos para a determinação dos quartis. ii.1) se a mediana não for incluída, então teremos dois grupos, inferior e superior à mediana, cada um com ( n 1) observações. n 1 observações inferiores n 1 observações superiores Q 1 med(x) Q 3 e os quartis Q 1 e Q 3 são obtidos normalmente.

Exemplo: Dados: 1 1 3 4 5 5 6 6 6 7 8 9 n = 13 A mediana med x) x ( 5 divide os dados em dois grupos ( 7) ordenados de 6 observações cada. 6 1 3, 5 Q 1 é a média da 3ª e 4ª observações do grupo inferior e, Q 3 é a média da 3ª e 4ª observações do grupo superior. 5 1 1 3 4 5 6 6 6 7 8 9 Q x x 3 (3) (4) 1,5 Q x x 6 7 (10) (11) 3 6,5 ii.) se a mediana for incluída, então, ela deve ser considerada 1 tanto para a obtenção do 1º quartil, na metade inferior como na obtenção do 3º quartil, na metade superior. Desta forma, teremos grupos, com ( n 1) observações cada. 1 Observe que a mediana é uma só. Ela é apenas considerada nos dois grupos para as contagens das posições dos quartis.

Grupo inferior grupo superior Q 1 med(x) Q 3 e os quartis Q 1 e Q 3 são obtidos normalmente. Exemplo: Dados: 1 1 3 4 5 5 6 6 6 7 8 9 n = 13 A mediana med x) x ( 5 divide os dados em dois grupos ( 7) ordenados de 6 observações cada. Incluindo a mediana ao procedimento, teremos uma observação a mais em cada grupo, ou seja, teremos 7 observações. 7 1 4 Q 1 é a 4ª observação do grupo inferior e, Q 3 é a 4ª observação do grupo superior, ou seja, a 11ª observação ordenada (7 + 4). Q Q 1 1 3 4 5 5 5 6 6 6 7 8 9 1 x(4) 3 3 x(11) 6

iii) Outra forma para a obtenção dos quartis é apresentada por Murteira (00). ] Se a mediana ocupa a posição (n + 1)/, então Q 1 deverá ocupar a posição: n 1 1 n 3 4 Para a posição de Q 3 fazemos: ( n 1) n 3 4 3n 1 4 Portanto, Q 1 e Q 3 são dados pelas observações ordenadas que n 3 3n 1 ocupam as posições e, respectivamente. 4 4 n 3 3n 1 Se os valores de e não forem inteiros, Q 1 e Q 3 4 4 devem ser obtidos por interpolação linear. Por exemplo, se n 3 4 k, em que k é a parte inteira e a parte decimal, então, Q 1 pertence ao intervalo x ; x ) e ( ( k) ( k1) Q x [ x x )]. 1 ( k) ( k 1) ( k

Para Q 3 o procedimento é semelhante, ou seja, se 3n 1, 4 então, Q 3 pertence ao intervalo x ; x ) e Q ( ( ) ( 1) x [ x x )]. 3 ( ) ( 1) ( Exemplo: Dados: 1 1 3 4 5 5 6 6 6 7 8 8 9 n = 14 Para a determinação de Q 1, temos: 14 3 17 posição de Q 1 : 4, 5. 4 4 Como = 0,5, Q 1 é a interpolação entre a 4ª e 5ª observações ordenadas: Q 3 0,5(4 3) 3,5. 1 Para a determinação de Q 3, temos: 314 1 43 posição de Q 3 : 10, 75. 4 4 Aqui = 0,75 e Q 3 é a interpolação entre a 10ª e 11ª observações ordenadas: Q 6 0,75(7 6) 6,75. 3 Obs: o item (iii) com n ímpar é equivalente ao item e (ii.).

Notas: Assim como a mediana, os quartis amostrais dependem do tamanho da amostra n, fazendo com que nem sempre os quatro grupos tenham o mesmo tamanho; Existem diversas outras formas para a determinação dos quartis, Nesta disciplina daremos ênfase nos itens (i) e (ii.1); Para n pequeno, pode-se, ainda, obter os quartis graficamente pelo histograma dos dados; Os quartis são casos especiais dos quantis (ou percentis), que são denotados por: x(p) p-ésimo quantil ou quantil de ordem p; Portanto, o quantil x(p) é dado pela observação ordenada que deixa uma frequência acumulada igual 100p % abaixo de si. Assim sendo temos que: i) Q 1 = x(0,5) quantil de ordem 0,5; ii) Q = med(x) = x(0,5) quantil de ordem 0,50; iii) Q 3 = x(0,75) quantil de ordem 0,75.

Exemplo 1: Número de pessoas com diabetes em 0 grupos de 1000 pessoas cada. Neste caso, foram obtidos os seguintes dados: 7, 8, 8, 9, 9, 9, 9, 9, 10, 10, 10, 10, 10, 10, 10, 10, 11, 11, 11, 1 n i 1 x 193 e x 1889 i n i 1 i 193 a) Média: x 9, 65 casos/grupo ( 10); 0 x(10) x(11) 10 10 b) Mediana: ( x) 10 med casos/grupo; c) Moda: mo(x) = 10 casos/grupo. i) Variância amostral: 1889 0(9,65) 1889 186,45 s 0 1 19 6,55 s 1,397 (casos/grupo) 19 Desvio padrão amostral: s 1,397 1, 18 casos/grupo ( 1) ii) Amplitude amostral: A 1 7 5 casos/grupo.

iii) Amplitude interquartil: 7, 8, 8, 9, 9, 9, 9, 9, 10, 10, 10, 10, 10, 10, 10, 10, 11, 11, 11, 1 n = 10 observações do grupo inferior à mediana n = 10 observações do grupo superior à mediana Para a determinação de Q 1, temos: posição de Q 1 : 10 1 5,5, logo o 1º quartil é a média entre a 5ª e 6ª observações ordenadas: x(5) x(6) 9 9 Q 1 9 casos/grupo. Para a determinação de Q 1, temos: posição de Q 1 : 10 5.5 15,5, logo o 3º quartil é a média entre a 15ª e 16ª observações ordenadas, x(15) x(16) 10 10 Q 3 10 casos/grupo. Desta forma, a amplitude interquartil é: A 19 9 1 caso/grupo. q

Relação entre as amplitudes amostral e interquartil: A q A 1 5 0, Ou seja, a metade das observações centrais representam 0% da amplitude total dos dados. Exemplo : Altura dos alunos da turma B de Bioestatística no primeiro semestre de 015. X = altura dos alunos (em metros). Dados ordenados 1,51 1,55 1,56 1,57 1,58 1,58 1,58 1,60 1,60 1,60 1,60 1,6 1,6 1,6 1,63 1,63 1,65 1,65 1,65 1,65 1,65 1,65 1,66 1,67 1,67 1,70 1,70 1,70 1,7 1,73 1,73 1,74 1,75 1,75 1,75 1,76 1,77 1,78 1,80 1,80 1,80 1,80 1,81 n = 43 observações n i 1 x 71,94 e x 10, 63 i n i 1 i 71,94 a) Média: x 1, 67 m; 43 b) Mediana: med x) x ( 1, 65m; ( ) c) Moda: mo(x) = 1,65m.

iv) Variância amostral: 10,63 43(1,67) 0,7073 s 0,01684 m 4 4 Desvio padrão amostral: s 0,01684 0, 198 m v) Amplitude amostral: A 1,811,51 0. 30 m vi) Amplitude interquartil: (sem incluir a mediana) med ( ) x) x ( 1,65m O primeiro quartil é a posição central da metade inferior Q 1 x(11) 1,60m O terceiro quartil é a posição central da metade superior Q 3 x(33) 1,75m Desta forma, a amplitude interquartil é: Aq 1,75 1,60 0,15m Relação entre as amplitudes amostral e interquartil: A q 0,15 0,50 A 0,30 Metade das observações centrais representam 50% da amplitude total.

4.3. Mais Exemplos Exemplo 1: Dias de manutenção de equipamentos de uma grande companhia, (n = 50 observações) X = dias em manutenção de equipamentos, Dados Ordenados: 3 3 3 3 4 4 4 4 5 5 5 5 5 5 5 5 6 6 6 6 6 7 7 8 8 9 9 9 9 10 10 10 10 11 1 13 13 13 14 15 15 16 17 18 1 n i n i 1 1 x i 39 e x i 4178 39 a) x 7, 84 dias ( 8 dias) 50 x(5) x(6) b) med ( x) 6 dias c) mo(x) = 5 dias (8) i) Variância amostral: 4178 50(7,84) 4178 3073,8 s,55 dias 50 1 49 Desvio padrão amostral: s,545 4, 748 dias

ii) Amplitude amostral: A 1 19 dias iii) Amplitude interquartil: O 1º quartil é a 13ª observação ordenada 5 1 13, Q x 4 dias. 1 (13) O 3º quartil é a 38ª observação ordenada 13 15 8, Q x 10 dias. 3 (38) Desta forma, a amplitude interquartil é: A 10 4 = 6 dias Q Relação da amplitude interquartil com a amplitude total: A q 6 0,316 A 19. Metade das observações centrais representam 31,6% da amplitude total. Exemplo : Dados Cavendish, X = densidade do globo terrestre (g/cm 3 ), Dados ordenados 4,88 5,07 5,10 5,6 5,7 5,9 5,9 5,30 5,34 5,34 5,36 5,39 5,4 5,44 5,46 5,47 5,50 5,53 5,55 5,57 5,58 5,61 5,6 5,63 5,65 5,68 5,75 5,79 5,85 n = 9 observações

n i 1 x 157,99 e x 86, 0855 i n i 1 i 157,99 a) x 5, 448g/cm 3 9 b) med x) x ( 5, 46g/cm 3 ( 15) c) mo(x) = 5,9 g/cm 3 e 5,34 g/cm 3 i) Variância amostral: 86,0855 9(5,448) 1,3669 s 0,0488 (g/cm 3 ) 9 1 8 Desvio padrão amostral: s 0,0488 0, 09 g/cm 3 ii) Amplitude amostral: A 5,85 4,88 0, 97 g/cm 3 iii) Amplitude interquartil: A mediana é 15ª observação ordenada, o primeiro quartil (excluindo-se a mediana do cálculo) é a posição central da metade inferior dos dados, ou seja: 14 1 Q 1 é a média da 7ª e 8ª observações ordenadas 7,5, x(7) x(8) 5,9 5,30 Q 1 5,95 g/cm 3,

Q 3 é a média da ª e 3ª observações ordenadas 7,5 15,5, x() x(3) 5,61 5,6 Q 3 5,615 g/cm 3 Desta forma, a amplitude interquartil é: A 5,615 5,95 0,3g/cm 3, q Relação da amplitude interquartil com a amplitude total: A q 0,3 0,330 ( 1/3). A 0,97 Metade das observações centrais representam 33,0% da amplitude total.

4.4. O coeficiente de variação amostral: Uma medida utilizada para quantificar a variabilidade dos dados é o coeficiente de variação, ou cv. O cv de variação amostral é dado pela razão do desvio padrão da amostra s e a média amostral x : cv s x Notas: O coeficiente de variação compara a magnitude do desvio padrão s com a média x. Se cv 1 s x. O coeficiente de variação é uma medida adimensional (é um número puro) também podendo ser expresso em %. Exemplos: a) Número de casos com diabetes em 0 grupos de 1000 pessoas: x 9,65 pessoas/grupo s 1,397 (pessoas/grupo) s 1.397 1,18 pessoas/grupo 1,18 cv 0.1 ou 1,% 9,65

b) Altura dos alunos da turma B da disciplina Bioestatística: x 1,67 m s 0,01684 m s 0.01684 0,198 m 0,198 cv 0,078 ou 7,8% 1,67 c) Dias de manutenção de equipamentos: x 7,84 dias s,545 dias s,545 4,748 dias 4,748 cv 0,606 ou 60,6% 7,84 d) Dados Cavendish: x 5,45g/cm 3 s 0,10 g/cm 3 0,10 cv 0,0406 ou 4,06%, 5.45

Nos exemplos acima temos os cv s de quatro processos distintos, sendo o maior deles (dias manutenção) 15 vezes maior do que o menor (Cavendish), indicando claramente as diferenças na dispersão dos dados. Tabela: Coeficientes de variação dos exemplos. Dados cv cv (%) Manutenção 0.606 60.6% Diabetes 0.1 1.% Alturas 0.078 7.8% Cavendish 0.041 4.1% Um ponto de grande interesse, contudo, diz respeito a quantificar o cv e poder dizer se um conjunto de dados tem uma dispersão muito alta, ou não. A seguir serão apresentados três critérios para classificação do coeficiente de variação. 4.4.1. Como classificar o Coeficiente de Variação O cv tem uma característica particular de ser intrínseco a cada processo, tendo sido muito estudado na área agrícola, mais especificamente, na experimentação agronômica. Vários autores indicam diferentes métodos para se classificar o coeficiente de variação. A seguir, são apresentadas três classificações.

I) Classificação segundo Pimentel Gomes (1985), baseada em ensaios agrícolas. Faixa cv dispersão menor ou igual a 10% baixo baixa dispersão dos dados entre 10% e 0% médio média dispersão dos dados entre 0% e 30% alto alta dispersão dos dados maior do que 30% muito alto dispersão dos dados muito alta II) Classificação segundo Ferreira, F,V, (1991), Estatística Experimental Aplicada à Agronomia, classifica com respeito à precisão do processo. Faixa cv precisão entre 10% e 15% baixo ótima entre 15% e 0% médio boa entre 0% e 30% alto regular maior do que 30% muito alto muito ruim (ou péssima) III) Classificação obtida no site www.datalyser.com.br, muito utilizada em CEP Controle Estatístico do Processo. Faixa cv dispersão menor ou igual a 15% baixo baixa dispersão dos dados entre 15% e 30% médio média dispersão dos dados maior do que 30% Alto alta dispersão dos dados

Nos exemplos: a) Diabetes: 1,18 cv 0.1 (1,%) cv baixo a médio. 9,65 b) Aturas dos alunos: 0,198 cv 0,078 (7,8%) cv baixo. 1,67 c) Dias de manutenção de equipamentos: 4,748 cv 0,606 (60,6%) cv alto ou muito alto. 7,84 d) Dados Cavendish: 0,09 cv 0,0406 (4,06%) cv baixo. 5,448

5. Relação empírica entre média, mediana e moda Karl Pearson, metemático famoso, no final do século XIX e início do XX, observou empiricamente, a seguinte relação entre as três medidas de posição média mediana e moda. Observações: x mo( x) 3 x med( x) 1) A relação só se aplica a distribuições com boa simetria; ) Só é valida para casos unimodais; 3) Depende de um tamanho de amostra n elevado. 5.1. Moda de Czuber Em muitas situações quando analisamos dados contínuos a moda amostral pode não representar adequadamente os dados, especialmente quando o conjunto for bimodal ou multimodal. Nessas situações, a distribuição teórica f(x), a qual buscamos identificar pelo histograma, pode não ser bem representada pela amostra devido a diversas razões: poucas observações; grande variabilidade; formado da distribuição. Nesses casos, pode-se indicar não uma moda, mas uma classe modal, dada pela classe na distribuição com a maior frequência. Uma alternativa, entretanto, é utilizar a moda de Czuber, que leva em conta a classe modal e as frequências das classes imediatamente anteriores e posteriores à classe modal.

A moda de Czuber é calculada pela seguinte expressão: mo cz ( x) L i hda ( d d a p, ) Em que: L i é o limite inferior da classe modal; h é a amplitude de classe da distribuição de frequências; d a é a diferença da frequência da classe modal (relativa ou absoluta) com a classe imediatamente anterior; d p é a diferença da frequência da classe modal (relativa ou absoluta) com a classe imediatamente posterior.

Exemplo: Considere os dados do tempo de TV de uma turma de estudantes de primeiro de universidade. 0,,,,, 3, 4, 5, 5, 5, 5, 5, 5, 5, 6, 7, 7, 8, 8, 8, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 1, 1, 1, 1, 14, 14, 14, 14, 14, 15, 16, 18, 0, 0, 0, 5, 5, 8, 30 Distribuição de frequências de horas TV, Horas TV classes Freq. absoluta Freq. relativa Freq. acumulada n i f i F ac 0 --- 5.5 14 0.8 0.8 5.5 --- 11.0 17 0.34 0.6 11.0 --- 16.5 1 0.4 0.86 16.5 ---.0 4 0.08 0.94.0 --- 7.5 0.04 0.96 7.5 --- 33.0 0.04 1.00 Totais 50 1.00 mo cz ( x) 5.5 3 5.5 (3 5) 60.5 7.56 horas 8 Na representação gráfica a seguir, pode-se observar a moda de Czuber

Figura: Moda de Czuber

6. Relação entre média, moda e mediana Considere o histograma abaixo: Figura: Função de distribuição de probabilidades sobre o histograma. O que podemos dizer com relação a simetria da distribuição de frequências representa por este histograma? Quando uma distribuição de frequências é perfeitamente simétrica, teremos que a média aritmética, a moda e a mediana serão iguais, ou seja: x = Mo(x) = Md(x) E quanto ao exemplo acima, o que podemos dizer? Quando a distribuição não é simétrica, podemos distinguir duas situações possíveis, conforme destacado pela figura abaixo:

a) A a cauda superior da distribuição é mais alongada, puxando a distribuição para a direita. Neste caso, a média é maior do que a moda e a assimetria é dita à direita ou positiva. b) A cauda inferior da distribuição é mais alongada, puxando a distribuição para a esquerda. Neste caso, a média é menor do que a moda e a assimetria é dita à esquerda ou negativa. Figura: Assimetrias à direita e à esquerda, respectivamente.

6.1. Média, moda e mediana e a simetria dos dados i) A Média é sempre influenciada por valores extremos, sendo puxada na direção da cauda mais alongada (ver a seta na Figura 5); ii) A Moda é o elemento de maior frequência, sendo o ponto de máximo de f(x); iii) A Mediana está sempre no meio do conjunto, dividindo-o em duas partes iguais, ficando entre as duas medidas anteriores. Assim, para cada situação, teremos: a) Quando a simetria é perfeita as três medidas são iguais.

b) Na situação em que ocorre a assimetria à direita, teremos a moda menor do que a mediana que é menor do que a média. c) E, para a assimetria à esquerda, devemos ter a média menor do que a mediana que é menor do que a moda.

7. O diagrama box-plot Representação gráfica da dispersão dos dados em torno da mediana, é construído com as 5 medidas ordenadas: mínimo, Q 1, med(x), Q 3 e máximo. As cinco medidas podem ser apresentadas pela representação dos cinco números: med(x) Q Q 1 Q 3 E mínimo máximo Observações: i) A representação dos cinco números, além da construção do box-plot, ajuda na comparação da assimetria das caudas; ii) Outros percentis podem ser incluídos, ampliando a representação. O diagrama box-plot fornece uma visão simplificada da dispersão e simetria dos dados, além de indicar possíveis valores fora do padrão (valores discrepantes). Além disso, pode ser utilizado na comparação de diferentes processos quanto à centralidade (posição) e variabilidade (dispersão). O nome box-plot refere-se à caixa construída para representar a metade das observações centrais entre os quartis.

O box plot é constituído de 3 partes: caixa central, braços e valores discrepantes. i) A caixa central representa a metade das observações centrais entre os quartis Q1 e Q3. A mediana é destacada na caixa por uma linha que a divide em duas partes. Com isso, pode-se avaliar a simetria na região central da distribuição dos dados; ii) Os braços são construídos a partir da caixa central, representando as caudas da distribuição. A construção dos braços é baseada nos valores dos quartis e, o tamanho dos braços serve para avaliar a simetria das caudas. iii) Valores discrepantes são valores fora do padrão de dispersão, aparecendo muito distantes da maioria dos dados, podendo indicar grande forte assimetria ou variabilidade (ou ambos). Os valores discrepantes nem sempre estão presentes, sendo representados individualmente a partir das caudas. Valores discrepantes Valores discrepantes Q 1 1.5A Q Q 1 med(x) Q 3 Q 3 + 1.5A Q

7.1. Procedimento para a construção do box-plot i) Construir a caixa ou box com os valores dos quartis Q 1 e Q 3 ; ii) Com uma linha, demarcar a mediana na caixa, dividindo-a em duas partes; iii) Calcular os limites inferior (L I ) e superior (L s ): L I = Q 1 1.5A q L S = Q 3 + 1.5A q Os limites L I e L s são utilizados para se identificar valores discrepantes. Valores discrepantes são observações menores do que L I ou maiores do que L S e são destacados individualmente no boxplot com pontos além desses limites. iv) Para os braços do box-plot, traçar linhas a partir dos centros das laterais inferior e superior da caixa, obedecendo ao seguinte critério: traçar uma linha da lateral inferior da caixa até o menor valor que não seja discrepante ou até min(x); marcar os pontos discrepantes menores do que L I, caso existam; traçar uma linha da lateral superior da caixa até o maior valor que não seja discrepante ou até max(x); marcar os pontos discrepantes maiores do que L S, caso existam.

Exemplo 1: variável: horas gastas por semana assistindo TV. 10 Q 5 14 E 0 30 Figura 7.1: Box-plot s para a variável horas de TV, nas posições vertical e horizontal. Comandos do R para o box-plot: x <- c( 0,,,,, 3, 4, 5, 5, 5, 5, 5, 5, 5, 6, 7, 7, 8, 8, 8,10,10,10,10,10,10,10,10, 10,10,10,1,1, 1,1,14,14,14,14,14,15,16, 18,0,0,0,5,5,8,30) boxplot(x, col="bisque", main="horas assistindo TV", ylab="horas", pch=19)

Freqüência Freqüência Exemplo : variável Renda PC por exposição à violência doméstica (grupos exposto e não exposto). Grupo exposto não exposto 68 96 100 100 11 11 117 10 10 135 150 160 160 00 60 36 50 70 84 108 109 10 10 150 150 180 0 50 60 300 Estatísticas descritivas (reais), por grupo. Grupo n x med(x) s s Q 1 Q 3 Exposto 15 134,00 10,00 57,9 47,51 100 160 Não exposto 15 147,13 10,00 6376,70 79,85 184 0 8 7 6 5 4 3 1 0 35 85 135 185 35 85 Grupo Exposto 6 5 4 3 1 0 0 66 13 198 64 330 Grupo não Exposto Box-plot renda per capita Box-plot renda per capita 50 150 50 0 100 00 300 Grupo Exposto Grupo Não Exposto Figura 7.: Histogramas e box-plot s individuais

Figura 7.3: box-plot s por grupo lado-a-lado. Comandos do R para o box-plot lado-a-lado: exp <- c(68,96,100,100,11,11,117,10,10,135,150,160, 160,00,60) nexp <- c(36,50,70,84,108,109,10,10,150,150,180,0, 50,60,300) renda <- c(nexp,exp) gr <- c(rep("nexp",length(nexp)), rep("exp",length(exp))) boxplot(renda~gr, pch=19, col=c("mediumseagreen","lightcoral")) # para o box-plot horizontal boxplot(renda~gr, pch=19, horizontal=t, col=c("mediumseagreen","lightcoral"))