Estatística para Cursos de Engenharia e Informática Pedro Alberto Barbetta / Marcelo Menezes Reis / Antonio Cezar Bornia São Paulo: Atlas, 2004 Cap. 3 Análise exploratória de dados APOIO: Fundação de Apoio à Pesquisa Científica e Tecnológica do Estado de Santa Catarina (FAPESC) Departamento de Informática e Estatística UFSC (INE/CTC/UFSC)
Dados e variáveis
Dados e variáveis
Dados e variáveis quantitativa dados quantitativos variável qualitativa ou categórica dados qualitativos ou categorizados
Distribuição de freqüências A distribuição de freqüências consiste na organização dos dados de acordo com as ocorrências dos diferentes resultados observados. Pode ser apresentada em tabela ou gráfico.
Dados Provedor usado por cada usuário indivíduo provedor indivíduo provedor indivíduo provedor indivíduo provedor 1 2 3 4 5 6 7 8 9 10 C A B B C B D B B A 11 12 13 14 15 16 17 18 19 20 C A B D A B B C D B 21 22 23 24 25 26 27 28 29 30 B A A B A A B D D C 31 32 33 34 35 36 37 38 39 40 A A B C B D B B B C
Distribuição de freqüências para variáveis qualitativas Tabela. Distribuição de freqüências do provedor usado pelo visitante do site. Provedor A B C D Total Freqüência 10 17 7 6 40 Percentagem 25,0 42,5 17,5 15,0 100,0
Distribuição de freqüências para variáveis qualitativas 50% 40% 30% 20% 10% 0% A B C D provedor Gráfico de colunas para a apresentação da distribuição de freqüências do provedor usado pelo visitante do site.
Distribuição de freqüências para variáveis qualitativas 15% 25% 18% A B C D 42% Gráfico de setores para a apresentação da distribuição de freqüências do provedor usado pelo visitante do site.
Distribuição de freqüências para variáveis quantitativas discretas % de itens 16 14 12 10 8 6 4 2 0 0 1 2 3 4 5 6 7 Número de defeitos
Variáveis contínuas Construção da distribuição de freqüências 5,2 6,4 5,7 8,3 7,0 5,4 4,8 9,1 5,5 6,2 4,9 5,7 6,3 5,1 8,4 6,2 8,9 7,3 5,4 4,8 5,6 6,8 5,0 6,7 8,2 7,1 4,9 5,0 8,2 9,9 5,4 5,6 5,7 6,2 4,9 5,1 6,0 4,7 14,1 5,3 4,9 5,0 5,7 6,3 6,0 6,8 7,3 6,9 6,5 5,9 amplitude dos dados 4,7 14,1 4 5 6 7 8 9 10 11 12 13 14 15 11 classes de amplitude unitária
Tabela de freqüências: variável contínua Classes de tempo Ponto médio Número de observações n j Percentagem de observações 100f j Percentagem acumulada 100F j 4 5 5 6 6 7 7 8 8 9 9 10 10 11 11 12 12 13 13 14 14 15 4,5 5,5 6,5 7,5 8,5 9,5 10,5 11,5 12,5 13,5 14,5 7 18 13 4 5 2 0 0 0 0 1 14 36 26 8 10 4 0 0 0 0 2 14 50 76 84 94 98 98 98 98 98 100 Total - 50 100 -
Histograma 20 18 número de observações 16 14 12 10 8 6 4 2 0 3 4 5 6 7 8 9 10 11 12 13 14 15 tempo (em segundos) para carga de um aplicativo
Formas de uma distribuição de freqüências Distribuições diferentes em termos da posição central
Formas de uma distribuição de freqüências Distribuições diferentes quanto à dispersão
Formas de uma distribuição de freqüências Distribuições diferentes quanto à assimetria
Formas de uma distribuição de freqüências Distribuições diferentes quanto à curtose
Medidas descritivas A média aritmética: uma medida de posição central. x = x + x +... + 1 1 2 n n x = n n i= 1 x i
Exemplo Tempo (minutos) Temperatura ( 0 C) 20 25 30 60 29,7 28,7 30,2 31,3 31,2 31,7 31,0 30,6 32,8 31,9 31,2 31,2 32,9 32,7 34,8 34,9 33,8 34,9 70 36,6 35,7 35,3 35,1 30,2 37,2 35,7 40,4 41,7 36,9 34,5 40,0 34,8 36,8 37,4 38,9 38,7 42,5 80 40,2 33,6 33,4 35,2 38,1 33,0 37,0 34,4 29,8 33,9 43,2 35,5 36,0 31,3 36,6 32,5 39,2 35,9
Exemplo Médias aritméticas do rendimento, para diferentes níveis de temperatura e tempo de reação, num processo químico. Tempera- Tempo (minutos) tura ( 0 C) 20 25 30 60 30,5 31,4 34,0 70 35,0 38,2 38,2 80 35,6 35,6 35,3
Exemplo 39 Rendimento médio em função do tempo e temperatura 38 37 Rendimento (%) 36 35 34 33 32 31 30 29 20 25 30 Tempo (minutos) 60 graus 70 graus 80 graus
Exemplo: notas dos alunos de três turmas Turma A B C Notas dos alunos 4 5 5 6 6 7 7 8 1 2 4 6 6 9 10 10 0 6 7 7 7 7,5 7,5 Média da turma 6,00 6,00 6,00
Exemplo: notas dos alunos de três turmas Turma A Turma B Turma C 0 2 4 6 8 10 12 notas
Como medir a dispersão? Exemplo: Turma A (4 5 5 6 6 7 7 8) 4 5 6 7 8 distância (desvio) em relação à média
Como medir a dispersão? Descrição Valores (notas dos alunos) Média Desvios em relação à média Desvios quadráticos notação x i x x i x ( x ) 2 i x resultados numéricos 4 5 5 6 6 7 7 8 6-2 -1-1 0 0 1 1 2 4 1 1 0 0 1 1 4 Variância (da amostra): s 2 = 1 n 1 n ( x ) i x i= 1 2 s 2 = 4 + 1+ 1+ 0 + 0 8 1 + 1+ 1+ 4 = 1,71
Como medir a dispersão? Descrição Valores (notas dos alunos) Média Desvios em relação à média Desvios quadráticos notação x i x x i x ( x ) 2 i x resultados numéricos 4 5 5 6 6 7 7 8 6-2 -1-1 0 0 1 1 2 4 1 1 0 0 1 1 4 Desvio padrão (da amostra): s = ( x i x) 1 n 1 n i= 1 2 s = 4 + 1+ 1+ 0 + 0 + 1+ 1+ 4 8 1 = 1,71= 1,31
Medidas descritivas das notas finais dos alunos de três turmas. Turma Número de alunos Média Desvio padrão A B C 8 8 7 6,00 6,00 6,00 1,31 3,51 2,69 Interprete.
Ex: Rendimento de um processo químico 39 38 Rendimento médio em função do tempo e temperatura 5,0 Desvio padrão do rendimento em função do tempo e temperatura 37 4,5 Rendimento (%) 36 35 34 33 32 31 30 29 20 25 30 Tempo (minutos) 60 graus 70 graus 80 graus Desvio padrão do rendimento 4,0 3,5 3,0 2,5 2,0 1,5 1,0 0,5 0,0 20 25 30 Tempo 60 graus 70 graus 80 graus Interprete.
Outra forma de calcular o desvio padrão s n 1 = n 1 i= 1 x 2 i nx 2 Valores x i : 4 5 5 6 6 7 7 8 Valores ao quadrado x i2 : 16 25 25 36 36 49 49 64 n i= 1 x i = 48 x = 6 n i= 1 x 2 i = 300 s = 300 8.(6) 7 2 = 300 7 288 = 12 7 =1,31
Medidas baseadas na ordenação dos dados 25% 25% 25% 25% q i m d q s Quartil inferior mediana Quartil superior
Medidas baseadas na ordenação dos dados Dados ordenados: posição de q i : n + 1 4 25% 25% 25% 25% posição de m d : n + 1 2 q i m d q s posição de q s : 3( n + 1) 4 Se fracionário interpolação linear
Exemplo Observações: 15, 18, 5, 7, 9, 11, 3, 5, 6, 8, 12. Ordenando: 3 5 5 6 7 8 9 11 12 15 18 n = 11 n + 1 posição de q i : = 3 4 n + 1 posição de m d : = 6 2 q i m d = 5 = 8 3( n + 1) posição de : = 4 q q = 12 s s 9
Comparação entre média e mediana A média é mais influenciada por valores discrepantes. 50% dos valores 50% dos valores 0 10 20 30 40 50 60 70 m d = 22,5 x = 24,7
Comparação entre média e mediana (a) distribuição simétrica 50% 50% média = mediana 50% mediana (b) distribuição assimétrica 50% média
Diagrama em caixas max q s + 1,5d q q s d q = q s -q i m d q i min
Diagrama em caixas e forma da distribuição 25% 25% 25% 25% 25% 25% 25% 25%
Interprete o gráfico Renda familiar (sal. mín.) 28 23 18 13 8 3 Monte Verde Encosta do Morro
Observações ao longo do tempo EXEMPLO: todos os dias é retirada uma amostra de dez sacos de leite de um laticínio, durante 23 dias. Quer-se acompanhar o nível e a variabilidade do peso.
Observações ao longo do tempo 1037 1036 1035 1034 Gráfico das médias amostrais 1036,2 peso (g) 1033 1032 1033,0 1031 1030 1029,8 1029 1 5 10 15 20 amostra
Observações ao longo do tempo 7 Gráfico dos desvios padrão amostrais 6 5 5,68 peso (g) 4 3 3,30 2 1 0,92 0 1 5 10 15 20 amostra
Orientação geral para análise exploratória de dados não temporais Análise univariada Variável qualitativa Variável quantitativa Distribuição de freqüências Percentagens Distribuição de freqüências Medidas descritivas (média, desvio padrão, mediana, etc.) Tabela Gráfico de barras, colunas ou setores Histograma Ramo-e-folhas
Orientação geral para análise exploratória de dados não temporais Análise biivariada Uma variável quantitativa e outra qualitativa Duas variáveis qualitativas Medidas descritivas da variável quantitativa em cada categoria da qualitativa Diagrama em caixas múltiplo Tabela de contingência (Cap. 10) Duas variáveis quantitativas Diagrama de dispersão (Cap. 11) Coeficiente de correlação (Cap. 11)