Análise Exploratória de Dados processo de usar as ferramentas estatísticas (gráficos, medidas de tendência central e de variabilidade) para investigar o conjunto de dados, de maneira a compreender suas características mais importantes. 1
Outliers um valor localizado muito distante de quase todos os outros valores; um valor extremo; pode ter um efeito dramático na média, no desvio-padrão e na escala do histograma, distorcendo a verdadeira natureza da distribuição. 2
Revela: Boxplots (Diagrama em Caixas) o centro dos dados; a dispersão dos dados; a distribuição dos dados; a presença de outliers ; Excelente para comparar dois ou mais conjuntos de dados. 3
Boxplots Resumo de cinco números: Mínimo 1º Quartil (Q 1 ) Mediana (Q 2 ) 3º Quartil (Q 3 ) Máximo 4
Boxplots 2 4 6 14 2 4 6 8 12 14 Figura 2-18
Figura 2-19 Boxplots Forma de Sino Uniforme Assimétrico 6
Exploração de Dados Medidas de tendência central: Média, mediana e moda. Medidas de variação: Desvio-padrão e amplitude. Medidas de posição: Valor mínimo, valor máximo e quartis. Valores incomuns: Outliers Distribuição: Histogramas, gráfico ramo-e-folhas e boxplots. 7
Exemplo de Aplicação Descrição: Empreendimento imobiliário, consistindo de dois edifícios residenciais, com apartamentos de 1 dormitório e área útil de 3m 2. Histórico: Em uma 1ª fase, foi construído apenas um edifício, denominado Bloco A. Para a conclusão do Bloco B houve uma troca de empreiteiras. Objetivo: Verificar inicialmente a suspeita de que os apartamentos foram construídos com metragem diferente daquela especificada na escritura. Fonte: Noções de Probabilidade e Estatística, de Marcos Nascimento Magalhães e Antonio Carlos Pedroso de Lima, Edusp. 8
Exercício 3: a) b) c) Área Útil Total Análise Global (Blocos A e B): Descriptive Statistics: Total Variable N Mean Median TrMean StDev SE Mean Total 12,914,7,887 3,11,244 Variable Minimum Maximum Q1 Q3 Total 44,6 8,4 48,2 3, 44 49 Total 4 9 Figura 3 - Histograma Área Útil (Todos os Blocos)
Análise por Bloco: Descriptive Statistics: Total by Bloco Variable Bloco N Mean Median TrMean StDev Total A 76 3,422 3, 3,396 1,772 B 76 48,47 48, 48,43 1,38 Variable Bloco SE Mean Minimum Maximum Q1 Q3 Total A,3 48,8 8,4 2, 4,7 B,176 44,6 1,7 47,2 49,6 Histogram of Total (Bloco = A) 44 49 4 9 Total Histogram of Total (Bloco = B) 44 49 4 9 Total Boxplots of Total by Bloco 9 4 Total 49 Bloco 44 A B Figura 4 - Análise Gráfica Área Útil por Bloco
Análise por cômodo: Descriptive Statistics: Sala by Bloco Variable Bloco N Mean Median TrMean StDev Sala A 76 28,93 27,9 28,91 1,83 B 76 23,132 23, 23,147,849 Variable Bloco SE Mean Minimum Maximum Q1 Q3 Sala A,124 2,6 3,9 27, 28,9 B,97,9 2, 22, 23,77 Histogram of S l (Bloco = A) 1 n c y u e q F r e 2 Sala 3 Histogram of Sala (Bloco = B) 2 Sala 3 3 Sala 2 A Bloco B Figura - Análise Gráfica Área Sala por Bloco
Variable Bloco N Mean Median TrMean StDev Global 12 2,613 2,3 2,93 2,671 Sala A 76 28,93 27,9 28,91 1,83 B 76 23,132 23, 23,147,849 Variable Bloco SE Mean Minimum Maximum Q1 Q3 Global,217,9 3,9 23, 27,97 Sala A,124 2,6 3,9 27, 28,9 B,97,9 2, 22, 23,77 Histograma Sala (Global) Histogram of S l (Bloco = A) 1 y n c u e q F r e 2 Sala 3 2 Sala 3 Histogram of Sala (Bloco = B) 3 Sala 2 A Bloco B 2 Sala 3
Descriptive Statistics: Cozinha by Bloco Variable Bloco N Mean Median TrMean StDev Cozinha A 76 7,9289 8, 7,9441,463 B 76 7,8816 7,8 7,8824,648 Variable Bloco SE Mean Minimum Maximum Q1 Q3 Cozinha A,34 6, 9, 7,7 8, B,694 6,4 9,6 7, 8,37 Histogram of Cozinha (Bloco = A) 6 7 8 9 Cozinha Histogram of C i h(bloco = B) 1 n c y u e q F r e 6 7 8 9 Cozinha 9, 8, Cozinha 7, 6, A Bloco B Figura 6 - Análise Gráfica Área Cozinha por Bloco
Descriptive Statistics: Banheiro by Bloco Variable Bloco N Mean Median TrMean StDev Banheiro A 76 4,4 4, 4,41,4623 B 76 4,464 4, 4,4647,18 Variable Bloco SE Mean Minimum Maximum Q1 Q3 Banheiro A,3 3,,4 4, 4,7 B,92 2,9,8 4, 4,8 Histogram of Banheiro (Bloco = A) 3 4 6 Banheiro Histogram of Banheiro (Bloco = B) 1 3 4 6 Banheiro 6 Banheiro 4 3 A Bloco B Figura 7 - Análise Gráfica Área Banheiro por Bloco
Descriptive Statistics: Dorm by Bloco Variable Bloco N Mean Median TrMean StDev Dorm A 76 12,9 13, 12,947 1,173 B 76 12,929 12,9 12,9 1,177 Variable Bloco SE Mean Minimum Maximum Q1 Q3 Dorm A,13, 1,9 12, 13,67 B,13,6 1,7 12, 13,6 Histogram of Dorm (Bloco = B) 1 9,, 11, 12, 13, 14, 1, 16, Dorm Histogram of Dorm (Bloco = A) 9,, 11, 12, Dorm 13, 14, 1, 16, 16 1 14 Dorm 13 12 11 A Bloco B Figura 8 Análise Gráfica Área Dormitório por Bloco
d) Problemas Estruturais Tabulated Statistics: Rachadura; Bloco Rows: Rachadur Columns: Bloco A B All 43 42 8,9 49,41, 1 33 34 67 49,2,7, All 76 76 12,,, Tabulated Statistics: Infiltr; Bloco Rows: Infiltr Columns: Bloco A B All 3 8 49,7,93, 1 23 21 44 2,27 47,73, All 76 76 12,,, Cell Contents -- Count % of Row
e) Ocorrência de Problemas Estruturais: Tabulated Statistics: Rachadura; Categoria Rows: Rachadur Columns: Categori Alto Baixo Médio All 34 36 1 8 4, 42,3 17,6, 1 14 12 41 67,9 17,91 61,19, All 48 48 6 12 31,8 31,8 36,84, Cell Contents -- Count % of Row Gráfico de Barras - Freqüência de Rachadura 4 41 Sum of Rachadura 3 14 12 Alto Baixo Categoria Médio Tabulated Statistics: Infiltr; Categoria Rows: Infiltr Columns: Categori Alto Baixo Médio All 41 47 8 18,2 37,96 43,2, 1 28 7 9 44 63,64 1,91,4, All 48 48 6 12 31,8 31,8 36,84, Cell Contents -- Count % of Row Gráfico de Barras - Freqüência de Infiltração 3 28 Sum of Infiltr 2 1 7 9 Alto Baixo Categoria Médio