1. ANÁLISE EXPLORATÓRIA E ESTATÍSTICA DESCRITIVA

Documentos relacionados
1. ANÁLISE EXPLORATÓRIA E ESTATÍSTICA DESCRITIVA

Importância prática do desvio padrão. Obs. Para uma distribuição normal.

1. ANÁLISE EXPLORATÓRIA E ESTATÍSTICA DESCRITIVA

Estatística Descritiva (I)

Estatística Descritiva (I)

Estatística Descritiva (I)

Noções de Estatística Airlane P. Alencar LANE

ESTATÍSTICA DESCRITIVA. Aula 07 Estatística Descritiva

Estatística Descritiva (I)

Estatística Descritiva

Tutorial para o desenvolvimento das Oficinas

Esta%s&ca Descri&va I Ciências Contábeis - FEA - Diurno 2º Semestre 2016

MAE116 Farmácia Estatística Descritiva (I)

Medidas Descritivas de Posição, Tendência Central e Variabilidade

Medidas Descritivas de Posição, Tendência Central e Variabilidade

Estatística Descritiva (aula 2) Curso de Farmácia Prof. Hemílio Fernandes

Bioestatística UNESP. Prof. Dr. Carlos Roberto Padovani Prof. Titular de Bioestatística IB-UNESP/Botucatu-SP

Introdução à análise exploratória de dados

Profa. Lidia Rodella UFPE-CAA

Conceito de Estatística

Introdução à análise exploratória de dados

um conjunto de métodos e processos quantitativos que servem para estudar e medir os fenômenos coletivos Aplicações em quase todas as áreas de

Estatítica Descritiva e Exploratória

Prof. Lorí Viali, Dr. Prof. Lorí Viali, Dr. PUCRS FAMAT: Departamento de Estatística

Técnicas Computacionais em Probabilidade e Estatística I. Aula I

CONCEITOS BASICOS, ORGANIZAÇÃO E APRESENTAÇÃO DOS RESULTADOS, DISTRIBUIÇÃO DE FREQUÊNCIA

Autores: Fernando Sebastião e Helena Silva

ANÁLISE EXPLORATÓRIA E ESTATÍSTICA DESCRITIVA

Análise de dados em Geociências

Estatística Descritiva

Unidade I ESTATÍSTICA APLICADA. Prof. Luiz Felix

Organização de dados

Estatística Descritiva II

Bioestatística. Luiz Ricardo Nakamura Cristiane Mariana Rodrigues da Silva. Ciências biológicas a USP ESALQ. Estatística

Métodos Quantitativos

SS714 - Bioestatística

ESTATÍSTICA PROFESSOR: ALEXSANDRO DE SOUSA

Módulo VII: Estatística elementar

Capítulo 1. Análise Exploratória de Dados

Prof. Lorí Viali, Dr.

Estatística Básica. Profa. Andreza Palma

Estatística Básica. PhD. Wagner Hugo Bonat 1/2017. Universidade Federal do Paraná. Bonat, W. H. (LEG/UFPR) 1/ / 18

Estatística Descritiva

Princípios de Bioestatística Estatística Descritiva/Exploratória

INTRODUÇÃO À ESTATÍSTICA

Probabilidade e Estatística (Aula Prática - 23/05/16 e 24/05/16)

Prof. Lorí Viali, Dr.

Distribuição de frequências:

6EMA Lucas Santana da Cunha 17 e 19 de abril de Universidade Estadual de Londrina

Prof. Lorí Viali, Dr. PUCRS Prof. Titular da FAMAT - Departamento de Estatística. Curso: Engenharia de Produção

Estatística para Cursos de Engenharia e Informática

Estatística Descritiva II

Estatística descritiva

Elementos de Estatística. Michel H. Montoril Departamento de Estatística - UFJF

Estatística: Conceitos e Organização de Dados

Adilson Cunha Rusteiko

3. Representação de variáveis quantitativas

ESTATÍSTICA ECONÔMICA A 6EMA

Universidade Federal de Mato Grosso - UFMT Probabilidade e Estatística

Física Geral - Laboratório. Aula 2: Organização e descrição de dados e parâmetros de dispersão e correlação

6EMA Lucas Santana da Cunha 19 de abril de Universidade Estadual de Londrina

Estatística 1. Resumo Teórico

* Descrição: organização, resumo, apresentação e interpretação de dados (tabelas, gráficos e sumários estatísticos, de posição e de dispersão)

Física Geral - Laboratório. Aula 2: Organização e descrição de dados e parâmetros de dispersão e correlação

Estatística Descritiva

MOQ-13 PROBABILIDADE E ESTATÍSTICA. Professor: Rodrigo A. Scarpel

Análise descritiva de Dados. A todo instante do nosso dia-a-dia nos deparamos com dados.

Medidas de localização (ou de tendência central) Média: definida como o centro de massa (ou ponto de equilíbrio) do conjunto.

INTRODUÇÃO A ESTATISTICA PROF. RANILDO LOPES

Medidas Estatísticas NILO FERNANDES VARELA

Cap. 6 Medidas descritivas

ESTATÍSTICA Medidas de Síntese

Estatística Aplicada. UNIVERSIDADE ESTÁCIO DE SÁ-RECIFE 2013 Prof: Wildson Cruz

Conceitos básicos Revisão de estatística descritiva

Sumário. Estatistica.indb 11 16/08/ :47:41

Introdução à Estatística Estatística Descritiva 22

Estatística Descritiva. Objetivos de Aprendizagem. 6.1 Sumário de Dados. Cap. 6 - Estatística Descritiva 1. UFMG-ICEx-EST. Média da amostra: Exemplo:

PARTE 1. Profa. Dra. Alessandra de Ávila Montini

Eng a. Morgana Pizzolato, Dr a. Aula 02 Revisão de Estatística DPS1037 SISTEMAS DA QUALIDADE II ENGENHARIA DE PRODUÇÃO CT/UFSM

Enrico Antonio Colosimo Depto. Estatística UFMG

Física Geral - Laboratório. Aula 2: Organização e descrição de dados e parâmetros de dispersão e correlação

Estatística Descritiva/Exploratória

BIOESTATÍSTICA AULA 2. Anderson Castro Soares de Oliveira Jose Nilton da Cruz. Departamento de Estatística/ICET/UFMT

Bioestatística Aula 2

NOÇÕES BÁSICAS DE ESTATÍSTICA

Apontamentos de Introdução às Probabilidades e à Estatística

Função prcomp. 1. Introdução

Medidas-Resumo. Tipos de Variáveis

Estatística Descritiva

Função prcomp em R. 1. Introdução

Estatística Descritiva

Estatística Computacional Profª Karine Sato da Silva

Prof.Letícia Garcia Polac. 28 de agosto de 2017

ESTATÍSTICA DESCRITIVA

Grupo A - I semestre de 2014 Lista de exercícios 2 - Introdução à Estatística Descritiva C A S A (gabarito)

Bioestatística. Parte I. Prof a Dr a Alcione Miranda dos Santos. Abril, 2011

Análise Exploratória e Estatistica Descritiva

Transcrição:

1. ANÁLISE EXPLORATÓRIA E ESTATÍSTICA DESCRITIVA 010

Estatística Descritiva e Análise Exploratória Etapas iniciais. Utilizadas para descrever e resumir os dados. A disponibilidade de uma grande quantidade de dados e de métodos computacionais muito eficientes revigorou estas áreas da Estatística. Probabilidade Permite estudar os fenômenos aleatórios, ou seja, aqueles em que está presente a incerteza sobre os seus resultados.

Estatística 3

Estatística 4

O que é Estatística? Para muitos, Estatística não passa de conjuntos de tabelas de dados numéricos. Os estatísticos são pessoas que coletam esses dados. A Estatística originou-se com a coleta de dados e a construção de tabelas para os governos. A situação evoluiu e esta coleta de dados representa somente um dos aspectos da Estatística. 5

Definição de Estatística A Estatística é uma ciência baseada na Teoria da Probabilidade, cujo objetivo principal é nos auxiliar a tomar decisões ou tirar conclusões em situações de incerteza, a partir de dados. População: conjunto de todas as unidades que são de interesse em um certo estudo. Amostra: qualquer subconjunto da população selecionado de acordo com certas regras. Censo: estudo que inclui todos os elementos da população. 6

Coleta Experimento planejado Efeito de um ou mais fatores sobre outro(s). Interferência do pesquisador. Controle sobre fatores externos. Levantamento observacional Dados são coletados como estão. Não há interferência do pesquisador. Levantamento amostral (survey) População bem definida. Protocolo de coleta. 7

Amostragem Uma área importante em muitas aplicações estatísticas é a da Tecnologia de Amostragem. Exemplos: Pesquisa de mercado, Pesquisa de opinião, Avaliação do processo de produção. 8

Exemplo em R > alunos = read.csv("listadepresença.csv", header = TRUE, sep = ";") > names(alunos) [1] "Codigo" "Ingresso" "Curso" "Nome" > nal = dim(alunos)[1] >(amostra = sample(1:nal, 5)) [1] 9 3 38 0 1 > alunos[amostra, -dim(alunos)[]] Codigo Ingresso Curso 9 64647 008/1 55051 3 5910474 007/1 97001 38 681198 009/1 18083 0 681139 009/1 18083 1 688318 009/1 18083 9

Amostragem Aleatória Cada elemento da população tem uma chance conhecida de ser selecionado. Amostragem Estratificada Classificar a população em pelo menos dois estratos e selecionar uma amostra de cada um. Amostragem Sistemática Selecionar um elemento a cada k. 10

Amostragem por Conglomerados Dividir a população em conjuntos homogêneos, mas com elementos heterogêneos. Selecionar aleatoriamente alguns destes conjuntos e tomar amostras deles. Amostragem por Conveniência Selecionar elementos de fácil acesso ou de interesse para o estudo. 11

Confronto no segundo turno 1

Exemplo Numa pesquisa eleitoral um instituto de pesquisa procura, com base nos resultados de um levantamento aplicado a uma amostra da população, prever o resultado da eleição. Eleição presidencial. Os institutos de pesquisa de opinião colhem periodicamente amostras de eleitores para obter as estimativas de intenção de voto da população. As estimativas são fornecidas com um valor e uma margem de erro. A figura a seguir (Instituto Toledo & Associados) refere-se à intenção de voto no 1 o turno das eleições para presidente em 00. 13

Intenção de voto para presidente do Brasil-00 Voto estimulado, em % do total de votos. A última pesquisa ouviu.0 eleitores. Margem de erro de,09%. Fonte:Pesquisa Toledo & Associados. 14

O que fazer com os dados coletados? 1 a etapa: Estatística Descritiva e Análise Exploratória Medidas resumo, tabelas e gráficos. Obs. Se x representa uma variável, uma amostra com valores x 1,x,...,x n é chamada de conjunto de dados. n é o tamanho da amostra. 15

Variável Qualquer característica de interesse associada aos elementos de uma população. Classificação de variáveis Qualitativa { Nominal Cor, tipo de máquina Ordinal Classe social, grau de desgaste Quantitativa { Discreta Contínua Número de acidentes, número de defeitos em um item Peso, viscosidade, pressão 16

Exemplo. Estudo de resistência. Observação Espessura Tipo de cola Resistência 1 13 1 46,5 14 1 45,9 3 1 1 49,8 4 1 1 46,1 5 14 1 44,3 6 1 48,7 7 10 49,0 8 11 50,1 9 1 48,5 10 14 45, 11 15 3 46,3 1 14 3 47,1 13 11 3 48,9 14 11 3 48, 15 10 3 50,3 16 16 4 44,7 17 15 4 43,0 18 10 4 51,0 19 1 4 48,1 0 11 4 48,6 Fonte: Montgomery, D. C. (005), Design and Analysis of Experiments, 6th Edition, Wiley: New York 17

Medidas resumo Medidas de posição: moda, média, mediana, percentis, quartis. (medidas de tendência central: três primeiras) Medidas de dispersão: amplitude, intervalo interquartil, variância, desvio padrão, coeficiente de variação. 18

Medidas de posição Moda (Mo): É o valor (ou atributo) que ocorre com maior freqüência. Ex. Dados: 4,5,4,6,5,8,4,4 mo = 4 Obs. 1. Nem sempre a moda existe.. Pode haver mais de uma moda. Média: x = Ex. Dados:,5,3,7,11 x1 + x + x3 +... + x n n = n i= 1 n x i x = (+5+3+7+11)/5 = 5,6 19

Mediana (Md) A mediana é o valor que ocupa a posição central de um conjunto de n valores ordenados. Posição da mediana: pm = (n+1)/ Ex. Dados:,6,3,7,8 (n = 5) Dados ordenados:,3,7,8, 6 => pm = (5+1)/=3 => Md = 7 Ex. Dados:,15,,1,8,5 (n = 6) Dados ordenados: 1,,,5,8,15 => pm = (6+1)/=3,5 => Md = (+5) / = 3,5 (média dos elementos nas posições 3 e 4). 0

Quantis (quantiles) O quantil de ordem p (0 < p < 1), em um conjunto de dados com n observações, é o valor que ocupa a posição p x (n+1) nos dados ordenados. O quantil de ordem p deixa px100% das observações abaixo dele na amostra ordenada. Casos particulares: Quantil 0,5 = mediana ou segundo quartil (md) Quantil 0,5 = primeiro quartil (Q1) Quantil 0,75 = terceiro quartil (Q3) 1

Exemplos Ex. 1. 1,9,0,1,5 3,0 3,1 3,3 3,7 6,1 7,7 (n = 10) Posição da Md: 0,5(n+1)=0,5x11=> Md =(3+3,1)/ = 3,05 Posição de Q1: 0,5(11)=,75 => Q1 = (+,1)/ =,05 Posição de Q3: 0,75(11)=8,5 => Q3 = (3,7+6,1)/ = 4,9 Ex.. 0,9 1,0 1,7,9 3,1 5,3 5,5 1, 1,9 14,0 33,6 (n = 11) Md = 5,3 Q1 = 1,7 Q3 = 1,9

Moda, mediana e média (mode, median and mean) A moda não é muito utilizada com variáveis quantitativas. Se a variável for qualitativa nominal, a moda é a única medida de posição. A mediana é mais resistente do que a média. É menos afetada pela presença de valores extremos. Média = 6,1 5 10 15 0 5 30 x Média = 7,8 5 10 15 0 5 30 x Obs. Os quantis também são chamados de separatrizes. 3

Considere as notas de uma prova aplicada a três grupos de alunos: Grupo 1: 3, 4, 5, 6, 7; Grupo : 1, 3, 5, 7,9; e Grupo 3: 5,5,5,5,5. Grupo 1 0 10 Grupo 0 10 Grupo 3 0 10 x 3 1 = x3 = x3 = 5; Md1 = Md3 = Md = 5 5 4

Medidas de dispersão Finalidade: encontrar um valor que resuma a variabilidade de um conjunto de dados. Amplitude (A): A = MAX - min Para os grupos anteriores (lâmina 4), temos Grupo 1: A = 4 Grupo : A = 8 Grupo 3: A = 0 5

Intervalo ou amplitude interquartil (d q ) (interquartile range) É a diferença entre o terceiro quartil e o primeiro quartil: d q = Q3 - Q1. Ex. 1,9,0,1,5 3,0 3,1 3,3 3,7 6,1 7,7 Q1 =,05 e Q3 = 4,9. d q = Q3- Q1 = 4,9-,05 =,85. Obs. d q é uma medida mais resistente do que A. 6

Variância (s ) (variance) S = (x 1 x) +(x x) +... +(xn x) i= 1 = n 1 n ( x x ) i n 1 Desvio padrão (s) (standard deviation) s = s Obs. O desvio padrão tem a mesma unidade da variável x. 7

Cálculo da variância para o grupo 1 (lâmina 4): Grupo 1: 3, 4, 5, 6, 7: Vimos que x = 5 S = ( 3 5 ) +( 4 5 ) +( 5 5 ) 5 1 +( 6 5 ) +( 7 5 ) = 10 4 =,5 Desvio padrão: Grupo1: s Grupo : s Grupo 3 : s =,5 s = = 10 s = = 0 s = 0 1,58 3,16 8

Propriedades: x,, x uma amostra com média e variância 1 n x x s. Transformação (posição e escala): y i = a + b x i, i = 1,...,n. y = a + bx, s y = b s x e s y = b s x. 9

Coeficiente de variação (CV) É uma medida de dispersão relativa. Exprime a variabilidade em relação à média. CV = S x 100, see x 0. 30

Exemplo. Altura e peso de alunos Média Desvio padrão Coeficiente de variação Altura 1,143m 0,063m 5,5% Peso 50Kg 6kg 1% Conclusão. O peso dos alunos apresenta variabilidade relativa aproximadamente duas vezes maior do que a altura. 31

Um exemplo em R Rendimento (em %) de 90 bateladas de um substrato de cerâmica no qual um revestimento metálico foi aplicado. > dados = scan("dados-11-mont.txt") Read 90 items > summary(dados) Min. 1st Qu. Median Mean 3rd Qu. Max. 78.30 86.10 89.5 89.38 93.10 98.00 > sd(dados) [1] 4.315905 > quantile(dados, c(0.1, 0.4, 0.7, 0.9)) 10% 40% 70% 90% 84.10 87.60 91.8 95.1 3

Exemplo em R (Gráfico de pontos) > stripchart(dados, xlab="rendimento (%)", pch= 0, method = "stack") > abline(h = 0.98) > points(mean(dados), 0.93, pch = 17, col = "red", cex = ) Propriedade : n i= 1 ( x i x) = 0. 80 85 90 95 Rendimento (%) 33

Organização e representação dos dados Uma das formas de organizar e resumir a informação contida em dados observados é por meio de tabelas de frequências e gráficos. A frequencia de um valor da variável é o número de vezes que este valor ocorre no conjunto de dados. Tabela de frequências. Tabela com os diferentes valores de uma variável (ou intervalos de valores) e suas respectivas frequencias. 1. Variáveis qualitativas. Tabela de frequências dos diferentes valores da variável. Representação gráfica: gráfico de barras, de Pareto e gráfico de setores ( de pizza ). 34

Exemplo. Variável Grau de instrução (variável qualitativa ordinal) Grau de instrução Contagem f i f ri 1 o Grau 1 0,3333 o Grau 18 0,5000 Superior 6 0,1667 Total n = 36 1,0000 f i : frequência absoluta do valor i (número de indivíduos com grau de instrução i), i {1 o Grau, o Grau, Superior}. f ri = f i n : frequência relativa do valor I. 35

Elementos de um gráfico Figura 1. Descrição do gráfico. 36

Representação gráfica de variáveis qualitativas Gráfico de barras: retângulos verticais (ou horizontais) espaçados com alturas (ou bases) iguais às frequencias dos valores da variável. 60,00% 50,00% 40,00% 30,00% 0,00% 10,00% Diagrama de barras para a variável grau de instrução 33,33% 50,00% 16,70% Região de origem SE NE S CO N 3.75 7.5 16.5 31.5 41.5 0,00% 1o Grau o Grau Superior Grau de instrução 0 10 0 30 40 Percentagem 37

Gráfico de Pareto Gráfico de barras com os valores da variável em ordem decrescente de frequencias e com as frequencias relativas acumuladas no segundo eixo vertical. Frequencia 0 0 40 60 80 SE NE S CO N 0% 5% 50% 75% 100% Cumulative Percentage Região de origem 38

Gráficos de setores ( de pizza ) Gráfico circular utilizado para destacar a composição das partes de um todo. O ângulo central de cada setor é proporcional à frequencia representada (usualmente em %). Diagrama circular para a variavel grau de instrução 1o Grau (33.3%) Diagrama circular para a variável grau de instrução Superior 17% 1o Grau 33% o Grau (50.0%) Superior (16.7%) o Grau 50% 39

. Organização e representação de variáveis quantitativas.1 Discretas. Organizam-se mediante tabelas de frequências e a representação gráfica é mediante gráfico de pontos, de barras ou de linha. Frequência relativa do valor x i : f ri = f i / n. Frequência acumulada do valor x i : Exemplo. Número de defeitos em lotes de produtos. Distribuição de frequências do número de defeitos por lote. F i = f 1 + f + + f i = i j= 1 f j 40

Representação gráfica 41

Medidas de posição e dispersão para variáveis quantitativas discretas agrupados em tabela de freqüências: Média: x = x1 f1 + x f + + x n Exemplo. Determine o número médio de defeitos por lote. Mediana: 0 x = 4+ 1 k f k 5+ 7+ 3 0 n = 0: pm = (0+1) / = 10,5 => = k i= 1 3+ 5 x n i f i 1 = 33 0 = 1,65 Md = média dos valores com frequencias acumuladas iguas a 10 e 11 = ( + ) / = (lâmina 40). Moda =? 4

Variância: s = Exemplo. s = (x 1 4( 0 = x ) 16,315 = 0,859 19 Desvio padrão: 1,65 ) f 1 +(x + 5( 1 s = 1,65 ) x ) f + +(x n 1 s = 0,97 k + 7( 1,65 ) 19 x ) + 3( 3 f k = 1,65 ) k i= 1 (x i n +( 5 x ) 1 f 1,65 ) Coeficiente de variação: s 0,9 CV = 100% = 100% = 55,8% x 1,65 i 43

. Construção de tabelas de frequências para variáveis contínuas Escolha o número de intervalos de classe (k) Identifique o menor valor (min) e o valor máximo (MAX) dos dados. Calcule a amplitude (A): A = MAX min. Calcule a amplitude de classe (h): h = A / k. Obtenha os limites inferior (LI) e superior (LS) de cada classe. 1 o intervalo: Limite inferior : LI Limite superior : LS 1 = 1 min = LI 1 +h... intervalo : Limite inferior : LI Limite superior : LS i - ésimo intervalo : Limite inferior : LI Limite superior : LS i = LS = LI = LS i = LI Prossiga até que seja obtido um intervalo que contenha o valor máximo (MAX). o 1 i 1 i + h + h 44

Obs. Muitas vezes, por conveniência, arrredondamos os valores de h e/ou LI 1. Tabela de de frequências com as colunas: Número de ordem de cada intervalo (i) Limites de cada intervalo. Os intervalos são fechados à esquerda e abertos à direita. Notação: Ponto médio (ou marca de classe) de cada classe: x = LS + LI * i i i. 45

Frequência absoluta de uma classe (f i ): número de observações pertencentes à classe i. Frequência relativa de uma classe: f ri = f i / n. Frequência acumulada absoluta de uma classe: F i = f 1 + f + + f i = i j= 1 f j. Frequência acumulada relativa de uma classe: F r i = f r 1 + f r + + f r i = F i i fr ou F = j r i j= 1 n. 46

Exemplo Variável: viscosidade (em u.v.) de um líquido a uma certa temperatura. 13.9 14.9 15.9 15.8 14.8 15.1 15.8 15.0 15.1 14.6 14.7 16.6 13.6 15.9 13.1 15. 14.7 16.0 15.6 17.4 15.3 14. 15.9 15.1 15.9 16.1 16. 13.8 14.6 16.0 15.8 15.5 16.5 17.1 15.3 15.5 17.8 15.4 15.4 14.6 Amostra ordenada: 13.1 13.6 13.8 13.9 14. 14.6 14.6 14.6 14.7 14.7 14.8 14.9 15.0 15.1 15.1 15.1 15. 15.3 15.3 15.4 15.4 15.5 15.5 15.6 15.8 15.8 15.8 15.9 15.9 15.9 15.9 16.0 16.0 16.1 16. 16.5 16.6 17.1 17.4 17.8 n = 40 Min. Median Mean Max. 13.10 15.40 15.39 17.80 Procedimento: Adotamos k = 5. min = 13,10 e MAX = 17,80. A = MAX min = 17,8 13,10 = 4,7. h = 4,7 / 5 = 0,94. Adotamos h = 1 e LI 1 = 13. Limites das classses: LI 1 = 13, LS 1 = LI 1 + h = 14, LI = LS 1 = 14, LS = LI + h = 15,, LI 5 = LS 4 = 17 e LS 5 = LI 5 + h = 18. 47

Pontos médios: x 13 + 14 * 14 + 15 * = = 13,5; x = = 14,5;...; x5 17 + 18 = * 1 = 17,5. Tabela. Distribuição de frequências da variável viscosidade. Ordem Classe Ponto médio Frequência Frequência relativa Frequência acumulada Frequência relativa acumulada 1 13 -- 14 13,5 4 0,1 4 0,1 14 -- 15 14,5 8 0, 1 0,3 3 15 -- 16 15,5 19 0,475 31 0,775 4 16 -- 17 16,5 6 0,15 37 0,95 5 17 -- 18 17,5 3 0,075 40 1 Total 40 1 - - Nesta organização de dados temos perda de informação. Em um gráfico de pontos não há perda de informação, mas se n for grande, pode haver perda de clareza. Densidade de freqüência (ou densidade): = i. f d i f r h 48

Representação gráfica: Histograma Gráfico de barras adjacentes com bases iguais às amplitudes das classes e alturas iguais às densidades. Obs. Se as classes tiverem amplitude constante, as alturas das barras usualmente são iguais às frequencias. Propriedade. Se utilizarmos densidades, soma das áreas dos retângulos = 1, pois f k k k f = r = f i h h i = 1 di i = 1 h i = 1 Obs. 1. A amplitude das classes pode variar.. Na construção de um histograma, quanto maior for n, melhor. r i = 1. 49

Exemplo. Variável viscosidade. 50

Escolha do número de classes (geralmente, 5 k 15). k=31 k=13 Densidade 0.0 0. 0.4 Densidade 0.0 0.1 0. 0.3 7 8 9 10 11 1 13 7 8 9 10 1 X X k=7 k=4 Densidade 0.00 0.10 0.0 0.30 6 7 8 9 10 1 Densidade 0.00 0.10 0.0 6 8 10 1 14 X X 51

Média e variância para variáveis contínuas agrupadas em classes x = Média: Variância: 13,5 616 40 = 4+ 14,5 15,4. * * * x x1 f1 + x f + xk fk i= 1 x = n n s i= 1 * ( x x) n Exemplo. Variável viscosidade (lâmina 47) 8+ 15,5 19+ 16,5 40 k 6+ 17,5 Média dos dados não agrupados (dados brutos) : f i i 1 x1 + x + + x36 13,9+ 14,9+ + 14, 6 x = = = 15,39. 40 40 Este resultado difere do valor obtido anteriormente. Por quê? 3 k * i f i 5 * ( x x) fi i i 1 41,6 = = 1,067. 40 1 39 s = 1,033 (desvio padrão). = s 5

Gráfico de caixas (boxplot) Representação dos dados por meio de um retângulo construído com os quartis. Fornece informação sobre a variabilidade (d q = Q 3 Q 1 ) e valores extremos. 53

Exemplo. Variável viscosidade. 1 º quartil (Q1) = 14,775. Em R: quantile(dados, 0.5) Mediana (Md ou Q) = 15,4. Em R: quantile(dados, 0.5) 3 º quartil (Q3) = 15,9. Em R: quantile(dados, 0.75) d q = intervalo interquartil = Q3 Q1 = 1,15. Lnhas auxiliares passam por Q1 1,5d q = 13,0875 e Q3 +1,5d q = 17,5875. > boxplot(viscosidade, xlab = Viscosidade", horizontal = TRUE) 54

Exemplo. Variável viscosidade medida em duas temperaturas. Temperatura 1 (lâmina 47). 13.9 14.9 15.9 15.8 14.8 15.1 15.8 15.0 15.1 14.6 14.7 16.6 13.6 15.9 13.1 15. 14.7 16.0 15.6 17.4 15.3 14. 15.9 15.1 15.9 16.1 16. 13.8 14.6 16.0 15.8 15.5 16.5 17.1 15.3 15.5 17.8 15.4 15.4 14.6 Temperatura (n = 40). 13.3 14.5 15.3 15.3 14.3 14.8 15. 14.5 14.6 14.1 14.3 16.1 13.1 15.5 1.6 14.6 14.3 15.4 15. 16.8 14.9 13.7 15. 14.5 15.3 15.6 15.8 13.3 14.1 15.4 15. 15. 15.9 16.5 14.8 15.1 17.0 14.9 14.8 14.0 55

Boxplot em R Redução de volume 0 0 40 60 80 100 10 A B C D E F G H Tipo de aditivo Análise exploratória. Redução versus tipo. Variabilidade. Simetria. Valores extremos. 56

Gráfico de linha O Estado de S. Paulo, 8//010. 57

Associação entre variáveis quantitativas (x 1,y 1 ),..., (x n,y n ): amostra bivariada. Representação gráfica: gráfico de dispersão (scatter plot) Medida de associação: coeficiente de correlação linear de Pearson. r = 1 n 1 n i = 1 ( x s x i s y x)( y i y) Numerador: covariância entre x e y. Propriedades: (1) 1 r 1 e () r = 1 se, e somente se, a relação entre x e y for linear (y = a + bx, b 0 e o sinal de r é o sinal de b. 58

Associação entre variáveis quantitativas 59

Associação entre variáveis quantitativas 60

Associação entre variáveis quantitativas 61

Associação entre variáveis quantitativas Exemplo 1 Exemplo Y 4 5 6 7 8 9 10 11 Y 3 4 5 6 7 8 9 4 6 8 10 1 14 4 6 8 10 1 14 X X Correlações: Exemplo 1: 0,8164 Exemplo : 0,816 Exemplo 3: 0,8163 Exemplo 4: 0,8165 Exemplo 3 Exemplo 4 Y 6 8 10 1 Y 6 8 10 1 4 6 8 10 1 14 X 8 10 1 14 16 18 X 6

Exemplo em R. Dados na lâmina 17. > plot(espessura, resistencia, xlab = "Espessura", ylab = "Resistência", pch = 0) > lines(lowess(espessura, resistencia), col = "blue") Resistência 44 46 48 50 10 11 1 13 14 15 16 Espessura 63

Exemplo em R. Dados na lâmina 17. > cores = rainbow(length(levels(cola))) > plot(espessura, resistencia, xlab = "Espessura", ylab = "Resistência", pch = 0, col = cores[cola]) > legend("topright", levels(cola), pch = 0, col = cores) Resistência 44 46 48 50 1 3 4 10 11 1 13 14 15 16 Espessura 64