9. Representação de dados multidimensionais

Documentos relacionados
Função prcomp. 1. Introdução

Função prcomp em R. 1. Introdução

Pacotes Lattice e tables. Cristiano de Carvalho

Aula 2: Tipos de variáveis

Trabalho 4. Simulações e exemplo

Análise de agrupamentos por métodos hierárquicos aglomerativos

Testes qui-quadrado e da razão de verossimilhanças

Importação e Exportação de dados

Função discriminante linear de Fisher

Teste de Cochran-Mantel-Haenszel

Lista de Exercícios Cap. 2

1. ANÁLISE EXPLORATÓRIA E ESTATÍSTICA DESCRITIVA

Capítulo 1 Estatística Descritiva. Prof. Fabrício Maciel Gomes

BIE5782. Unidade 5: Criação e Edição de Gráficos

1. Dispersão. 2. Assimetria e Curtose. 3. Concentração e desigualdade

1. ANÁLISE EXPLORATÓRIA E ESTATÍSTICA DESCRITIVA

RESUMO DA AULA PRÁTICA DE EXCEL

Teste de Wilcoxon-Mann-Whitney

Módulo VII: Estatística elementar

Escola Superior de Agricultura Luiz de Queiroz Universidade de São Paulo. Estatística Descritiva

Análise fatorial em R

1. ANÁLISE EXPLORATÓRIA E ESTATÍSTICA DESCRITIVA

UTILIZAÇÃO DO R NO ENSINO DA ESTATÍSTICA BÁSICA I. Autores: Carolina Valani Cavalcante * Luciane Ferreira Alcoforado **

Nov/2016. José Roberto Motta Garcia

MAE116 Noções de Estatística

Módulo IV Sumarização dos Dados ESTATÍSTICA

CURSO RÁPIDO. E l a b o r a ç ã o : W a n d e r s o n K l e b e r d e O l i v e i r a W i l d o N a v e g a n t e s d e A r a u j o

Princípios de Bioestatística Estatística Descritiva/Exploratória

GRÁFICOS. Profa. Raquel C. de Melo Minardi

Análise Estatística em Epidemiologia Utilizando o Ambiente R - I

Análise Exploratória de Dados

Microsoft Excel: # 1

INTRODUÇÃO AO MATLAB - PARTE 2

Excel INTERMEDIÁRIO. Prof. Cassiano Isler Turma 3

um conjunto de métodos e processos quantitativos que servem para estudar e medir os fenômenos coletivos Aplicações em quase todas as áreas de

Representação Gráfica de Medidas Elétricas

2 ESTATÍSTICA DESCRITIVA. Silvio Sandoval Zocchi

Teste qui-quadrado e teste exato de Fisher

Gráficos usando o PGFPlots

ANÁLISE EXPLORATÓRIA E ESTATÍSTICA DESCRITIVA

Distribuição de Frequência de Variáveis Quantitativas Contínuas (Tabelas e Gráficos)

Estatística no Controle da qualidade. Profa. Luciane

MLG gama em R. # Estatísticas descritivas by(dados$resist, dados[, c("volt", "temp")], function(x) c(length(x), mean(x), sd(x), sd(x) / mean(x)))

Objetivo: Determinar experimentalmente a resistência elétrica de um resistor a partir da curva V x I.

É um tipo de tabela que condensa uma coleção de dados conforme as frequências (repetições de seus valores).

APOSTILA Uso do Programa EXCEL

TABELAS DE DISTRIBUIÇÃO DE FREQUÊNCIAS

Aula Teórica: Elaboração de gráficos com o Excel

GRÁFICOS ESTATÍSTICOS 1

Unidade III Medidas Descritivas

Capítulo 1. Análise Exploratória de Dados

1 AULA 3 - MODELO DE REGRESSÃO LINEAR

Introdução à análise estatística com SPSS. Guião nº2: Descrição de variáveis estatísticas

Análise Descritiva de Dados

Distribuição de Frequência de Variáveis Quantitativas Contínuas (Tabelas e Gráficos)

Capítulo 2- Funções. Dado dois conjuntos não vazios e e uma lei que associa a cada elemento de um único elemento de, dizemos que é uma função de em.

ANPEC. Prova de Matemática Exame de 2017

Capacitação em R e RStudio PROJETO DE EXTENSÃO

Estudo dirigido de Análise Multivariada

INTRODUÇÃO À ESTATÍSTICA

Estatística Básica. PhD. Wagner Hugo Bonat 1/2017. Universidade Federal do Paraná. Bonat, W. H. (LEG/UFPR) 1/ / 18

Transcrição:

9. Representação de dados multidimensionais 2012

Dados: x i, i = 1,...,n, vetores p 1 (p 2) cujos componentes podem ser p variáveis qualitativas, p variáveis quantitativas ou de ambos os tipos. Problema central. Existe algum tipo de relação entre as variáveis? p variáveis quantitativas: matriz de gráficos de dispersão. p variáveis qualitativas: tabelas de contingência multidimensionais e gráficos de mosaico. Utilizaremos os gráficos em grade (trellis plots) em R (pacote lattice). Sintaxe baseada em fórmulas. Exemplos. (1) var1 ~ var2 var3 + var4 + var5 (2) ~ var1 var2 + var3 A barra vertical ( ) indica condicionamento. O sinal + não é adição. Em (1), var1 é a variável dependente e var2 é a variável independente. Todas as combinações de (var3, var4, var5) são consideradas na relação var2 var1. Em (2), não há variável dependente. Todas as combinações de (var2, var3) são consideradas.

9.1 Variáveis quantitativas Função splom (lattice): matriz de gráficos de dispersão (scatter plot matrix). Dados USArrests (Seção 8.1). >library(lattice) >splom(usarrests) >splom(usarrests, type = c("p", "smooth")) Gráficos com pontos (p) e linhas de tendência (smooth).

9.1 Variáveis quantitativas >splom(usarrests, type = c("g", "p", "smooth"), col = "black", xlab = "", varnames = c("homicídio", "Assalto", "População \n a (%)", "Estupro")) 40 30 40 30 Estupro 20 10 20 10 15 10 15 10 Homicídio 5 0 5 0 350 300 250 200 200250 300 350 Assalto 50 100 150 200 200 150 100 50 90 80 70 60 60 70 80 90 População a (%) 30 40 50 60 60 50 40 30 Gráficos com reticulados (g), pontos (p) e linhas de tendência (smooth).

9.1 Variáveis quantitativas Gráficos condicionais (conditional plots): gráfico de dispersão de (x 1, x 2 ) para faixas de valores de outras variáveis quantitativas. Funções coplot (graphics) e xyplot (lattice). > attach(usarrests) > coplot(murder ~ Assault UrbanPop) Por default, são criadas seis faixas com aproximadamente o mesmo número de observações da variável condicionante e com superposição (overlap) de 50% (estes argumentos podem ser mudados). Ver > co.intervals(urbanpop, number = 6, overlap = 0.5) Os painéis são dispostos a partir do canto inferior esquerdo. Permite avaliar se a relação entre x 1 e x 2 depende de valores de outra(s) variável(is).

9.1 Variáveis quantitativas Duas variáveis condicionantes: UrbanPop e Rape. Número de intervalos (faixas) é diferente para cada variável condicionante. > coplot(murder ~ Assault UrbanPop * Rape, number = c(2, 3), pch = 20, cex = 1.5, panel = panel.smooth)

9.1 Variáveis quantitativas UrbanPop com três intervalos de igual comprimento. > xyplot(murder ~ Assault cut(urbanpop, 3)) (71.4,91.1] Gráfico com pontos (p) e linhas de tendência (smooth) > xyplot(murder ~ Assault cut(urbanpop, 3), type = c("p", "smooth"), pch = 20) (71.4,91.1] 15 15 10 10 5 5 Murder (31.9,51.6] (51.6,71.4] Murder (31.9,51.6] (51.6,71.4] 15 15 10 10 5 5 50 100 150 200 250 300 350 50 100 150 200 250 300 350 Assault Assault

9.1 Variáveis quantitativas Inclusão do nome da variável condicionante nos painéis > xyplot(murder ~ Assault cut(urbanpop, 3), type = c("p", "smooth"), pch = 20, strip.custom(strip.names = TRUE, var.name = "UrbanPop")) Duas variáveis dependentes, sem variável condicionante > xyplot(murder + Rape ~UrbanPop, type = c("p", "smooth"), pch =20) 40 30 Murder + Rape 20 10 0 30 40 50 60 70 80 90 UrbanPop Obs. + não significa adição. Exercício. Incluir uma legenda.

9.1 Variáveis quantitativas Duas variáveis dependentes e uma variável condicionante > xyplot(murder + Rape ~UrbanPop cut(assault, 3), type = c("p", "smooth"), pch = 20, strip = strip.custom(strip.names = TRUE, var.name = "Assault")) Duas variáveis condicionantes > xyplot(murder ~ UrbanPop cut(assault, 3) + cut(rape, 2), pch = 20, strip = strip.custom(strip.names = TRUE, var.name = c("assault", "Rape")))

9.1 Variáveis quantitativas Duas variáveis dependentes, duas variáveis independentes e uma variável condicionante (cinco variáveis) Obs. (1) Quatro cores correspondem aos quatro pares de variáveis (x, y). Neste exemplo, em cada painel podemos ter até quatro gráficos de dispersão. (2) Em uma fórmula, se quisermos somar variáveis (e se fizer sentido), utilizamos I(x1 + x2) e/ou I(y1 + y2).

9.1 Variáveis quantitativas Função parallel (lattice): gráfico de coordenadas paralelas. p 1 segmentos de retas para cada observação unindo os valores escalonados em [Min, Max] para cada variável. >parallel(usarrests, >parallel(usarrests) varnames = c("homicídio", "Assalto", "População \n a (%)", "Estupro")) Estupro População a (%) Assalto Podem ser úteis para identificar grupos de observações (cluster analysis). Homicídio Min Max

9.1 Variáveis quantitativas As variáveis x 1 e x 3 separam as observações em dois grupos. x4 Em um dos grupos os valores de x 1 são os menores e os valores de x 3 são os maiores. x3 No outro grupo há uma inversão. x2 As variáveis x 2 e x 4 não permitem uma separação tão nítida quanto x 1 e x 3. x1 Min Max

9.2 Variáveis qualitativas Dados Ilocos da Seção 8.2. > library(ineq) > data(ilocos) > dados = Ilocos > attach(dados) > names(dados) Função ftable: tabela de contingências multidimensional. > (tab3 = ftable(ity, province, sex)) > tab3rel = prop.table(tab3, margin = 1) > (tab3relp = tab3rel * 100)

9.2 Variáveis qualitativas Gráfico de barras > rownames(tab3relp) = paste(rep(levels(ity), each = length(levels(province))), levels(province), sep = "\n") > barplot(t(tab3relp), beside = TRUE, legend = levels(sex), density = 15, ylab = "Percentagem") > box() Gráfico com as distribuições condicionais de sex (ity, province). Exercício. Apresentar os rótulos e a legenda em português. Percentagem 0 20 40 60 80 female male

9.2 Variáveis qualitativas Função xtabs: tabelas multidimensionais utilizando uma formula. > (tab3var = xtabs(~ ity + province + sex)) As duas vírgulas indicam as outras duas variáveis. > class(tab3var) [1] "xtabs" "table" Tabela na forma de uma folha de dados (data frame) > as.data.frame(tab3var) ity province sex Freq 1 female 5 2 female 3 3 female 9 4 female 9 5 female 9 6 female 9 7 female 18 8 female 52 9 male 42 10 male 15 11 male 36 12 male 14 13 male 62 14 male 36 15 male 120 16 male 193

9.2 Variáveis qualitativas Gráfico de barras de sex com frequencias relativas ao par (ity, province). 0 20 40 60 80 100 Função barchart (lattice). > barchart(prop.table( tab3var, margin = c(1, 2)) * 100, xlab ="Percentagem, ylab = "Localização") Cada nível de sex com uma cor diferente. Exercícios. Localização 1. Mudar as cores e adicionar uma legenda. 2. Verificar o resultado da função prop.table. 0 20 40 60 80 100 Percentagem

9.2 Variáveis qualitativas Gráfico de barras de sex com frequencias relativas ao par (ity, province). Níveis de province empilhados. > barchart(prop.table( tab3var, margin = c(1, 2)) * 100, xlab = Percentagem", ylab = "Localização", layout = c(1, 4)) Exercício. Compare com o gráfico da lâmina 14. Localização O que pode ser afirmado sobre a associação entre as variáveis? 0 20 40 60 80 100 Percentagem

9.3 Variáveis quantitativas e qualitativas Dados Ilocos da Seção 8.2. > names(dados) Gráfico de pontos Função stripplot (lattice) > stripplot(log(income / 1000, 10) ~ sex province, xlab = "Sexo do responsável", ylab = "Log renda domiciliar (1000 pesos)") P angasinan 3.0 Duas variáveis condicionantes e acréscimo de ruído > stripplot(log(income / 1000, 10) ~ sex province + ity, xlab = "Sexo do responsável", ylab = "Log renda domiciliar (1000 pesos)", jitter.data = TRUE) urb a n Ilo c o s N o rte urb a n Ilo c o s S ur urb a n L a U nio n urb a n P a ng a s ina n 3.0 2.5 2.5 2.0 2.0 3.0 2.5 2.0 Ilocos S ur 1.5 3.0 2.5 2.0 rura l Ilo c o s N o rte rura l Ilo c o s S ur rura l L a U nio n rura l P a ng a s ina n 1.5 1.0 1.5 1.5 1.0 fem ale m ale fem ale S exo do responsável m ale fe m ale m ale fe m ale m ale fe m ale m ale S e xo d o re s p o ns á ve l fe m ale m ale

9.3 Variáveis quantitativas e qualitativas Gráfico de caixas Função bwplot (lattice) > bwplot(log(income / 1000, 10) ~ sex, xlab = "Sexo do responsável", ylab = "Log renda domiciliar (1000 pesos)") 3. 0 2. 5 2. 0 1. 5 1. 0 f e m a l e S e x o d o r e s p o n s á v e l m a l e

9.3 Variáveis quantitativas e qualitativas Uma variável condicionante > bwplot(log(income / 1000, 10) ~ sex province, xlab = "Sexo do responsável", ylab = "Log renda domiciliar (1000 pesos)", layout = c(4, 1)) Duas variáveis condicionantes > bwplot(log(income / 1000, 10) ~ sex province + ity, xlab = "Sexo do responsável", ylab = "Log renda domiciliar (1000 pesos)") 3.0 3.0 2.5 2.0 2.5 2.0 1.5 3.0 2.5 2.0 1.5 1.5 female male female male female Sexo do responsável male female male female male female male female Sexo do responsável male female male

9.3 Variáveis quantitativas e qualitativas Histograma Função histogram (lattice) > histogram(~ log(income / 1000, 10) province, type = "percent", ylab = "Percentagem", xlab = "Log renda domiciliar (1000 pesos)", col = "white") 1.5 2.0 2.5 3.0 > histogram(~ log(income / 1000, 10) province, type = "density", layout = c(1, length(levels(province))), ylab = "Densidade", xlab = "Log renda domiciliar (1000 pesos)", col = "white") 0.5 30 0.0 20 0.5 Percentagem 30 10 0 Densidade 0.0 0.5 20 0.0 10 0.5 0 0.0 1.5 2.0 2.5 3.0 1.5 2.0 2.5 3.0

9.3 Variáveis quantitativas e qualitativas Gráfico de densidade Função densityplot (lattice) > densityplot(~ log(income / 1000, 10) province, ylab = "Densidade", xlab = "Log renda domiciliar (1000 pesos)") 0.5 1.5 2.0 2.5 3.0 Grupos em um só painel > densityplot(~ log(income / 1000, 10), groups = sex, ylab = "Densidade", xlab = "Log renda domiciliar (1000 pesos)", plot.points = FALSE, auto.key = TRUE) female male 0.5 Densidade 0.0 Densidade 0.5 0.5 0.0 0.0 0.5 1.5 2.0 2.5 3.0 0.5 1.5 2.0 2.5 3.0

9.3 Variáveis quantitativas e qualitativas Histograma e função densidade normal 1.5 2.0 2.5 3.0 > histogram(~ log(income / 1000, 10) province, type = "density", ylab = "Densidade", xlab = "Log renda domiciliar (1000 pesos)", col = "white", 0.5 panel = function(x,...) { panel.histogram(x,...) panel.mathdensity(dmath = dnorm, col = "blue", args = list(mean = mean(x),sd = sd(x))) }) Density 0.0 Exercícios. 1. Substituir a função densidade normal pela densidade estimada. 2. Incluir os pontos no eixo horizontal. 0.5 0.0 1.5 2.0 2.5 3.0

9.3 Variáveis quantitativas e qualitativas Gráfico de dispersão Função xyplot (lattice) > xyplot(log(income / 1000, 10) ~ family.size province, xlab = "Tamanho da família", ylab = "Log renda domiciliar (1000 pesos)") 2 4 6 8 10 12 3.0 Gráfico com pontos (p) e reta ajustada (r) > xyplot(log(income / 1000, 10) ~ family.size province, xlab = "Tamanho da família", ylab = "Log renda domiciliar (1000 pesos)", pch = 20, type = c("p", "r")) 2 4 6 8 10 12 3.0 2.5 2.5 2.0 2.0 3.0 2.5 2.0 1.5 1.5 3.0 2.5 2.0 1.5 1.5 2 4 6 8 10 12 Tamanho da família Exercício. Substituir as retas ajustadas por linhas de tendência. 2 4 6 8 10 12 Tamanho da família

9.3 Variáveis quantitativas e qualitativas Grupos de acordo com a variável sex > xyplot(log(income / 1000, 10) ~ family.size province, group = sex, auto.key = TRUE, xlab = "Tamanho da família", ylab = "Log renda domiciliar (1000 pesos)", pch = 20, type = c("p", "r")) female male Duas variáveis condicionantes > xyplot(log(income / 1000, 10) ~ family.size province + ity, group = sex, auto.key = TRUE, xlab = "Tamanho da família", ylab = "Log renda domiciliar (1000 pesos)", pch = 20, type = c("p", "r")) female male 2 4 6 8 10 12 2 4 6 8 10 12 2 4 6 8 10 12 3.0 3.0 2.5 2.5 3.0 2.5 2.0 1.5 2.0 1.5 3.0 2.5 2.0 2.0 1.5 1.5 2 4 6 8 10 12 Tamanho da família 2 4 6 8 10 12 2 4 6 8 10 12 Tamanho da família

9.3 Variáveis quantitativas e qualitativas Gráfico de coordenadas paralelas Função parallel (lattice) > parallel(~ cbind( family.size, income) province, varnames = c("tamanho da \nfamília", "Renda\n domiciliar")) Renda domiciliar Min Max Duas variáveis condicionantes > parallel(~ cbind(family.size, income) province + ity, varnames = c("tamanho da \nfamília", "Renda domiciliar")) Renda domiciliar Min Max Min Max Tamanho da família Renda domiciliar Tamanho da família Renda domiciliar Tamanho da família Min Max Tamanho da família Min Max Min Max