3. Representação de variáveis quantitativas

Documentos relacionados
3. Representação de variáveis quantitativas

Importância prática do desvio padrão. Obs. Para uma distribuição normal.

Unidade II Estatística descritiva

Escola Superior de Agricultura Luiz de Queiroz Universidade de São Paulo. Estatística Descritiva

Capítulo II Apresentação de dados

Estatística-2017/2 aula de 14/08 TURMA: IGA

1. ANÁLISE EXPLORATÓRIA E ESTATÍSTICA DESCRITIVA

Escola Superior de Agricultura Luiz de Queiroz Universidade de São Paulo. Estatística Descritiva

Estatística Descritiva

1 Estatística Descritiva

Estatística Descritiva

1. ANÁLISE EXPLORATÓRIA E ESTATÍSTICA DESCRITIVA

Probabilidade e Estatística

9. Representação de dados multidimensionais

Estatística Descritiva

Unidade II Estatística descritiva

Sintetizando dados qualitativos e quantitativos

Capítulo 2 Resumindo Dados e Gráficos. Seção 2-1 Visão Geral. Visão Geral Características Importantes dos Dados

Figura 1: Gráfico de pontos.

Aula 2: Tipos de variáveis

TABELAS DE DISTRIBUIÇÃO DE FREQUÊNCIAS

BIOESTATÍSTICA AULA 2. Anderson Castro Soares de Oliveira Jose Nilton da Cruz. Departamento de Estatística/ICET/UFMT

Bioestatística Aula 2

9. Representação de dados multidimensionais

1. ANÁLISE EXPLORATÓRIA E ESTATÍSTICA DESCRITIVA

Princípios de Bioestatística Estatística Descritiva/Exploratória

Distribuição de Frequência de Variáveis Quantitativas Contínuas (Tabelas e Gráficos)

AT = Maior valor Menor valor

ESTATÍSTICA DESCRITIVA. Aula 07 Estatística Descritiva

Organização de dados

Módulo VII: Estatística elementar

Estatística descritiva básica: Tabelas e Gráficos

3.1. Representação de Variáveis Quantitativas em tabelas e gráficos: Tabelas de frequências para variáveis discretas:

Estatística: é uma medida numérica, que descreve uma característica da amostra. A Estatística é uma função da amostra: S = f(x 1, X 2,...

Universidade Federal de Mato Grosso - UFMT Probabilidade e Estatística

um conjunto de métodos e processos quantitativos que servem para estudar e medir os fenômenos coletivos Aplicações em quase todas as áreas de

Aula 4. Departamento de Métodos Estatísticos Instituto de Matemática Universidade Federal do Rio de Janeiro

RESUMO DA AULA PRÁTICA DE EXCEL

6 - Apresentação de Dados em Gráficos

CURSO DE ESTATÍSTICA STICA DESCRITIVA Adriano Mendonça Souza Departamento de Estatística - UFSM -

INTRODUÇÃO À ESTATÍSTICA

Negócios II - Estatística -- Séries Estatísticas Slide 1 de 34

Capítulo 1. Análise Exploratória de Dados

GRÁFICOS DESCRITIVOS 49. Frequência Dados simulados. Figura 2.6: Gráfico de histograma para dados simulados.

8. Medidas de associação Parte 2

Teste de Wilcoxon-Mann-Whitney

Distribuição de Frequência de Variáveis Quantitativas Contínuas (Tabelas e Gráficos)

RANILDO LOPES. Estatística

2 ESTATÍSTICA DESCRITIVA. Silvio Sandoval Zocchi

Elementos de Estatística

u unidades elementares, i = 1, 2,..., N.

Módulo IV Sumarização dos Dados ESTATÍSTICA

Distribuição de frequências:

Conceito de Estatística

Distribuição de Frequências

2EMA007 ESTATÍSTICA A

É um tipo de tabela que condensa uma coleção de dados conforme as frequências (repetições de seus valores).

Estatística Descritiva/Exploratória

Métodos Quantitativos Aplicados a Gestão

Atividade 1 - Análise estatística

RECURSOS GRÁFICOS TIAGO M. MAGALHÃES. São Paulo, 13 de janeiro de 2014

TABELAS ESTATÍSTICAS Em geral, uma tabela estatística deve apresentar a seguinte estrutura: Título; Corpo; Rodapé.

RECURSOS GRÁFICOS TIAGO M. MAGALHÃES. São Paulo, 10 de janeiro de 2013

Estatística Aplicada. UNIVERSIDADE ESTÁCIO DE SÁ-RECIFE 2013 Prof: Wildson Cruz

É um tipo de tabela que condensa uma coleção de dados conforme as freqüências (repetições de seus valores).

Estatística I Aula 2. Prof.: Patricia Maria Bortolon, D. Sc.

RESUMO DE DADOS. Lucas Santana da Cunha Universidade Estadual de Londrina. 24 de abril de 2017

Tabelas e Gráficos. Tabelas e Gráficos. Tabelas e Gráficos 27/10/2016

Métodos Estatísticos Básicos

RESUMO DE DADOS. Lucas Santana da Cunha 03 de maio de Universidade Estadual de Londrina

Distribuição de Frequências

ESTATÍSTICA DESCRITIVA E INDUTIVA 2EMA010

Variável Salário: Quantitativa contínua. Para construir os histogramas solicitados temos,

Profa. Lidia Rodella UFPE-CAA

Análise exploratória de dados

PARTE 1- INTRODUÇÃO VERSÃO: JANEIRO DE 2017

ESTATÍSTICA COMPUTACIONAL AULA 1 RESUMO DE DADOS

Estatística Descritiva

Estatística Descritiva

MAE Introdução à Probabilidade e Estatística I 2 o semestre de 2017 Gabarito da Lista de Exercícios 2 - Estatística Descritiva II - CASA

Estatística Descritiva

Aula 2: Resumo de Dados

Função discriminante linear de Fisher

TIPOS DE VARIÁVEIS E RESUMO DE DADOS

Resumo de Dados. Tipos de Variáveis

Bioestatística. Luiz Ricardo Nakamura Cristiane Mariana Rodrigues da Silva. Ciências biológicas a USP ESALQ. Estatística

Unidade III Medidas Descritivas

TIPOS DE VARIÁVEIS E RESUMO DE DADOS

GRÁFICOS ESTATÍSTICOS 1

SÉRIES ESTATÍSTICAS Í N D I C E

Estatística Descritiva. Objetivos de Aprendizagem. 6.1 Sumário de Dados. Cap. 6 - Estatística Descritiva 1. UFMG-ICEx-EST. Média da amostra: Exemplo:

HEP Bioestatística

Teste de Wilcoxon-Mann-Whitney

8/20/2010 MEDIDAS DE POSIÇÃO

Estatística Aplicada

Aula 3 Distribuição de Frequências.

Professora Ana Hermínia Andrade. Período

x n 3.3. Medidas descritiva de variáveis quantitativas: Medidas de Posição: Considere uma amostra com n observações: x 1, x 2,..., x n.

Estatística Básica. PhD. Wagner Hugo Bonat 1/2017. Universidade Federal do Paraná. Bonat, W. H. (LEG/UFPR) 1/ / 18

Transcrição:

3. Representação de variáveis quantitativas 2011

3.1 VARIÁVEIS DISCRETAS Dados: n observações de uma variável discreta x. Existem k dierentes valores x 1 < x 2 <... < x k, 1 k n. Tabela de requencias: tabela com os valores de x e uma das ou ambas as requencias e *, = 1,..,k. Tabela 1. Descrição da tabela. x Frequencia Frequencia relativa x 1 1 * 1 x 2 2 * 2......... x k k * k Total n 1 (100%) As requencias acumuladas F e F * estão bem deinidas, = 1,...,k e podem ser uma coluna de uma tabela de requencias.

Tabelas e gráicos em R > x = c(2, 3, 3, 1, 0, 0, 2, 2, 2, 2, 2, 1, 2, 3, 2, 0, 2, 0, 2, 2, 1, 3, 1, 3, 5, 0, 3, 2, 3, 2, 2, 3, 1, 3, 3, 0, 2, 2, 2, 2) > barplot(reqa) > (n = length(x)) 40 > (reqa = table(x)) 0 1 2 3 5 6 5 18 10 1 > reqa / n * 100 0 1 2 3 5 15.0 12.5 45.0 25.0 2.5 0 5 10 15 0 1 2 3 5

Tabelas e gráicos em R Gráico de pontos (dot plot) Cada observação é representada por um ponto. Valores repetidos produzem pontos empilhados. > library(plotrix) > dotplot.mtb(x, xlab = "Número de deeitos") > plot(reqa, type = "p", pch = 20, xlab = "Número de deeitos", ylab = "Frequencia") Frequencia 0 5 10 15 0 1 2 3 5 Número de deeitos 0 1 2 3 4 5 Número de deeitos

Tabelas e gráicos em R > plot(reqa, xlab = "Número de deeitos", ylab = "Frequencia") > reqaux = table(c(x, 4)) > reqaux[which(names(reqaux) == "4")] = 0 > barplot(reqaux, xlab = "Número de deeitos", ylab = "Frequencia") Frequencia 0 5 10 15 0 1 2 3 5 Número de deeitos Frequencia 0 5 10 15 0 1 2 3 4 5 Número de deeitos

3.2 VARIÁVEIS CONTÍNUAS Dados: n observações de uma variável contínua x. Existem m dierentes valores x 1 < x 2 <... < x m, 1 m n. Tabela de requencias. Se m é grande, uma tabela com todos os dierentes valores não cumpre o papel de resumir os dados. Representação em k intervalos de classe (ou classes) do tipo [LI, LS ), = 1,...,k. Li : limite inerior e LS : limite superior. Construção. 1. Escolha do número de classes (k). Usualmente, 5 k 15. 2. Cálculo da amplitude (A): A = MAX min, sendo que min e MAX são o menor e o maior valor dos dados. 3. Cálculo da amplitude de classe (h): h = A / k. 4. Obtenção dos limites das classes: LI 1 = min, LS 1 = LI 1 + h, LI 2 = LS 1, LS 2 = LI 2 + h,..., LI k = LS k-1, LS k = MAX.

Obs. (1) h e LI 1 podem ser arredondados por conveniência. (2) Cada valor de x pertence a uma e apenas uma classe. (3) h pode variar com a classe. + LS * = Ponto médio da classe (ou marca de classe):. Frequência absoluta da classe ( i ): número de observações [Li,LS ). Frequência relativa de cada intervalo de classe: * = / n. Frequência acumulada da classe (F ): F = 1 + + + Frequência acumulada relativa da classe: F * = F n ( F * k 2 1). = l= 1 l x ( F k LI 2 n). Obs. Na representação por classes há perda de inormação.

Densidade de requência (ou densidade):. 1,...,, ou * * k h = h = d d Representação gráica: Histograma (histogram Karl Pearson, 1895) Gráico de barras adacentes com bases iguais às amplitudes das classes e alturas iguais às densidades. Obs. Se as classes tiverem amplitude constante, as alturas das barras usualmente são iguais às requencias. Propriedade : 1. ou 1 1 * * 1 * 1 1 1 k k k d k i k k d h h h n h h h Obs. Na construção de um histograma, quanto maior or n, melhor.

Histograma em R >? co2 > x = as.vector(co2) > hist(x) > hx = hist(x, right = FALSE, plot = FALSE) > names(hx) > hx$breaks [1] 310 315 320 325 330 335 340 345 350 355 360 365 370 > hx$counts [1] 8 62 65 52 46 40 39 37 41 45 28 5 Fornece uma ideia sobre a distribuição. > hx$mid [1] 312.5 317.5 322.5 327.5 332.5 337.5 342.5 347.5 352.5 357.5 362.5 367.5

Histograma em R > hist(x, right = FALSE, req = FALSE) > hist(x, right = FALSE, req = FALSE, main = "", xlab = expression(co[2] (ppm)), ylab = "Densidade") Densidade 0.000 0.005 0.010 0.015 0.020 0.025 310 320 330 340 350 360 370 CO 2 ppm

Histograma em R > hist(x, right = FALSE, req = FALSE, main = "", xlab = expression(co[2] (ppm)), ylab = "Densidade") > rug(x) > lines(density(x), col = "blue") > box() Número de classes: órmula de Sturges se breaks não or especiicado. Outras opções: 1. Fórmula de Scott: breaks = Scott. Densidade 0.000 0.005 0.010 0.015 0.020 0.025 2. Fórmula de Freedman-Diaconis: breaks = FD. 3. breaks = número: nem sempre unciona. 4. breaks = vetor ordenado com k + 1 elementos com os limites das classes. 310 320 330 340 350 360 370 CO 2 ppm

Escolha do número de classes (k) k=31 k=13 Densidade 0.0 0.2 0.4 Densidade 0.0 0.1 0.2 0.3 7 8 9 10 11 12 13 7 8 9 10 12 X X k=7 k=4 Densidade 0.00 0.10 0.20 0.30 6 7 8 9 10 12 Densidade 0.00 0.10 0.20 6 8 10 12 14 X X

Histograma humano The American Statistican 56(3), 223 229, 2002.

Polígono de requencias Formado pelos segmentos unindo os pontos centrais dos topos das barras. > hist(x, right = FALSE, main = "", xlab = expression(co[2] (ppm)), ylab = "Frequencia") > lines(hx$mid, hx$counts, col = red") > (n = length(x)) > rel = hx$counts / n > plot(hx$mid, rel, type = "l", xlab = expression(co[2] (ppm)), ylab = Frequencia relativa") [1] 468 Frequencia 0 10 20 30 40 50 60 310 320 330 340 350 360 370 CO 2 ppm

Polígono de requencias acumuladas (ogiva) Formado por segmentos de retas unindo o limite superior das classes no topo das barras. > Frel = cumsum(rel) > plot(hx$breaks, c(0, Frel), type = "l", xlab = expression(co[2] (ppm)), ylab = "Frequencia relativa acumulada") > posb = barplot(frel, col = "white", space= 0, xlab = expression(co[2] (ppm)), ylab = "Frequencia relativa acumulada") > lines(posb + posb[1], Frel, col = "red") > segments(0, 0, (posb[1] + posb[2]) / 2, Frel[1], col = "red") > axis(1, c(0, posb + posb[1]), hx$breaks) Frequencia relativa acumulada 0.0 0.2 0.4 0.6 0.8 1.0 310 315 320 325 330 335 340 345 350 355 360 365 370 CO 2 ppm

Gráico de pontos Cada observação é representada por um ponto. Não há perda de inormação. Sem arredondamento Se n or grande, o gráico pode perder em clareza. > par(mrow = c(2, 1)) > stripchart(x, pch = 20, method = "stack", xlab = expression(co[2] (ppm)), main = "Sem arredondamento") > stripchart(round(x, 1), pch = 20, method = "stack", xlab = expression(co[2] (ppm)), main = "Com arredondamento") 320 330 340 350 360 CO 2 ppm Com arredondamento 320 330 340 350 360 CO 2 ppm

Gráico de linhas Utilizado para representar variáveis coletadas com reerência a uma unidade de tempo. Chamadas de séries históricas ou séries temporais (time series). Obs. Séries temporais podem ser de variáveis discretas ou qualitativas. >? AirPassengers Monthly Airline Passenger Numbers 1949-1960 > class(airpassengers) [1] "ts" > plot(airpassengers) AirPassengers 100 200 300 400 500 600 1950 1952 1954 1956 1958 1960 Time

Gráico de linhas O Estado de S. Paulo, 28/2/2010.

Gráico de ramos-e-olhas (stem-and-lea plot) Representação com nenhuma ou pouca perda de inormação. Cada valor da variável é dividido em duas partes: ramo (dígitos dominantes) e olha (dígitos dominados). Os ramos se situam à esquerda de uma linha vertical e as olhas à direita. O número de ramos é escolhido. Usualmente uma olha representa o último dígito de um número (números podem ser arredondados ou representados como múltiplos de potências de 10). Os dígitos restantes de um número compõem o ramo.

Gráico de ramos-e-olhas Notas de 100 alunos em uma certa prova. > notas 5.3 7.0 6.0 7.0 4.4 5.5 9.0 3.1 5.9 4.4 5.5 5.7 3.4 4.8 9.6 7.9 4.7 4.1 7.7 4.2 9.3 3.6 4.6 3.7 8.9 6.0 3.4 7.2 4.2 5.9 5.0 1.8 7.1 5.9 7.3 6.9 3.5 6.4 4.7 4.6 5.2 6.8 8.4 9.3 8.7 4.0 7.6 7.2 3.4 7.8 6.4 4.1 7.9 6.0 5.3 5.3 5.7 5.1 4.0 4.5 8.2 2.6 5.1 5.8 9.0 5.6 5.4 4.1 3.8 5.5 5.6 4.9 8.3 6.8 5.5 5.0 4.6 3.4 6.2 5.1 4.4 6.8 10.0 6.5 7.7 6.1 5.3 6.2 4.6 4.8 8.5 7.2 3.5 2.5 5.3 6.5 4.6 3.9 6.6 7.7 > sort(notas) 1.8 2.5 2.6 3.1 3.4 3.4 3.4 3.4 3.5 3.5 3.6 3.7 3.8 3.9 4.0 4.0 4.1 4.1 4.1 4.2 4.2 4.4 4.4 4.4 4.5 4.6 4.6 4.6 4.6 4.6 4.7 4.7 4.8 4.8 4.9 5.0 5.0 5.1 5.1 5.1 5.2 5.3 5.3 5.3 5.3 5.3 5.4 5.5 5.5 5.5 5.5 5.6 5.6 5.7 5.7 5.8 5.9 5.9 5.9 6.0 6.0 6.0 6.1 6.2 6.2 6.4 6.4 6.5 6.5 6.6 6.8 6.8 6.8 6.9 7.0 7.0 7.1 7.2 7.2 7.2 7.3 7.6 7.7 7.7 7.7 7.8 7.9 7.9 8.2 8.3 8.4 8.5 8.7 8.9 9.0 9.0 9.3 9.3 9.6 10.0 Parte racionária: olhas. Parte inteira: ramos.

Gráico de ramos-e-olhas > stem(notas) The decimal point is at the 1 8 2 56 3 14444556789 4 001112244456666677889 5 001112333334555566778999 6 000122445568889 7 00122236777899 8 234579 9 00336 10 0 Fornece uma ideia sobre a distribuição. > stem(notas, scale = 2) The decimal point is at the 1 8 2 2 56 3 14444 3 556789 4 0011122444 4 56666677889 5 001112333334 5 555566778999 6 00012244 6 5568889 7 0012223 7 6777899 8 234 8 579 9 0033 9 6 10 0