Análise Exploratória de Dados Profª Alcione Miranda dos Santos Departamento de Saúde Pública UFMA Programa de Pós-graduação em Saúde Coletiva email: alcione.miranda@gmail.com Introdução O primeiro passo em qualquer análise de dados consiste em explorar os dados coletados. A análise exploratória nos fornece uma idéia de como os nossos dados se distribuem e qual a forma que apresentam. Além disso, na análise exploratória podemos verificar se os pressupostos teóricos exigidos para a análise que escolhemos são ou não verificados. 2 1
Classificação das variáveis As variáveis, de acordo a sua natureza se classificam em quantitativas (discretas e contínuas) e qualitativas (nominal e ordinal). De acordo a sua função em variáveis dependentes e independentes. Independentes: variáveis que o pesquisador seleciona para verificar sua relação com o comportamento de outras variáveis. Dependentes ou Resposta: variável que o pesquisador quer investigar, cujos efeitos provocados pela variável independente, interessam ao pesquisador medir. 3 Classificação das variáveis Exemplo: Qual a relação entre IMC e o que uma pessoa come? Variáveis Variáveis independentes: número de vezes que a pessoa come por dia, tipo de alimento, idade. Variável dependente: IMC 4 2
Análise das relações entre variáveis Análise univariada cada variável é tratada isoladamente Análise bivariada estabelecem-se relações entre duas variáveis. Análise multivariada - estabelecem-se relações entre três ou mais variáveis. 5 Análise Univariada Objetivo: apresentar característica ou tendência dos dados de uma variável. Tabulação de variáveis Representação gráfica Medidas de Tendência Central (Média, Mediana, Moda, Percentis) Medidas de Dispersão (amplitude, variância, desvio-padrão) 6 3
Exemplo de tabela de frequências Tabela 1: Distribuição dos recém-nascidos segundo o sexo, São Luís-MA Sexo Freqüências Percentual (%) Feminino 249 54,61 Masculino 207 45,39 Total 456 100,00 7 Exemplo de tabela de frequências Tabela 2: Tempo de Internação (em dias) de 160 pacientes no Hospital X Tempo de Internação (dias) N o de pacientes 10 --- 20 38 20 --- 30 45 30 --- 40 30 40 --- 50 22 50 --- 60 10 60 --- 70 15 Total 160 8 4
Representação Gráfica Vendas das marcas Freqüência 850 750 650 550 450 350 250 150 Gradiente Panasonic Phillips Samsung Toshiba Marcas 9 Representação Gráfica Número de observações Histograma: Renda por Estado Civil 500 450 400 350 300 250 200 150 100 50 0 0.68 6.46 12.24 18.02 23.80 29.58 0.68 6.46 12.24 18.02 23.80 29.58 3.57 9.35 15.13 20.91 26.69 3.57 9.35 15.13 20.91 26.69 Solteiro Divorciado 500 450 400 350 300 250 200 150 100 50 0 0.68 6.46 12.24 18.02 23.80 29.58 0.68 6.46 12.24 18.02 23.80 29.58 3.57 9.35 15.13 20.91 26.69 3.57 9.35 15.13 20.91 26.69 Outros Renda Casado 10 5
Representação Gráfica 210 Box Plot das Alturas 200 190 180 170 160 150 140 130 ALTURA 11 Representação Gráfica 12 6
Avaliação de assimetria freq Assimétrica à esquerda ou negativa freq. Assimétrica à direita ou positiva Média Moda Mediana Moda Mediana Média freq. Simétrica Moda = Média = Mediana 13 Medidas de assimetria 1. Coeficiente de assimetria de Pearson: As 3( x med) = s média desvio-padrão mediana Nota: Se AS estiver contido no intervalo [-0,5; 0,5], podemos assumir que a variável em estudo tem distribuição simétrica 14 7
Análise Bivariada Variáveis qualitativas: realizações são atributos. Análise de duas variáveis qualitativas: Avaliar se existe associação entre elas. Avaliar a força do relacionamento entre elas. Teste de associação: Teste Qui-Quadrado Coeficiente de associação: Coeficiente de contingência. 15 Tabela de Contingência TABELA 3. Tipo de parto segundo categoria de internação em nascidos vivos de parto único. São Luís - MA, 1997/98 Fonte: Silva et al (2001) 16 8
Análise Bivariada Variáveis quantitativas: valores numéricos Análise de duas variáveis quantitativas: Avaliar se existe correlação entre elas. Avaliar a força do relacionamento entre elas. Representação gráfica: Diagrama de Dispersão Coeficiente de correlação: Coeficiente de Pearson ou Coeficiente de Spearman. 17 Gráfico de Dispersão 90 80 Peso 70 60 50 40 1,45 1,5 1,55 1,6 1,65 1,7 1,75 1,8 1,85 1,9 Altura 18 9
Coeficiente de Correlação de Pearson A correlação é calculada independente da unidade de medida das variáveis. A técnica usada para calcular este coeficiente, supõe que a associação entre as variáveis seja linear, ou seja, expressa por uma reta ou linha. Se a relação apresentada no diagrama de dispersão não for do tipo linear, o coeficiente de correlação de Pearson não deve ser calculado. Fórmula: r = n i= 1 n i= 1 i ( x x)( y i 2 ( x x) n i i= 1 y) 2 ( y y) i 19 Coeficiente de Correlação de Pearson Interpretando o valor de r r 1 r - assume valores entre 1 e + 1. associação linear negativa forte; x y r 0 ausência de associação linear; r + 1 associação linear positiva forte; x y 20 10
Coeficiente de Correlação Linear de Pearson 20 15 10 5 0 0 5 10 Relação perfeita r = +1 r - 0,80 30 25 20 15 10 5 20 15 10 0 0 5 10 5 0 0 5 10 r + 0,80 30 25 20 15 10 5 60 50 40 30 20 10 0 0 5 10 0 0 5 10 r 0 Relação perfeita r = - 1 21 Normalidade 22 11
Teste de Normalidade Teste Shapiro-Wilk ou Kolmogorov-Simirnov O que se pretende testar é então: H o : A população tem distribuição normal H 1 : A população não tem distribuição normal Assim, valores grandes do p-valor conduzem à aceitação da hipótese nula. É importante ressaltar que esses testes são extremamente rigorosos e facilmente rejeitam a hipótese de normalidade. Portanto, devemos ter cautela, e não basear a decisão apenas no valor p desses testes. 23 Recodificação e Transformação Criar novas variáveis usando condições fixadas. Recodificação: Criar novos valores para uma variável qualitativa. Agrupar os valores de uma variável quantitativa contínua em classes, através de expressões numéricas que têm como resultados caracteres. Transformação: Criar novas variáveis quantitativas através da aplicação de operações matemáticas às variáveis existentes. 24 12
Transformação Diversas técnicas estatísticas são baseadas na suposição de que os dados provêm de uma distribuição normal ou, pelo menos, aproximadamente simétrica. Porém, em muitas situações, os dados em que estamos interessados apresentam assimetria e/ou podem conter valores atípicos. Existem métodos estatísticos que são desenvolvidos para dados não normais (Testes não paramétricos). Se quisermos utilizar algum método para dados normais, quando os dados não parecem ter esse tipo de comportamento, o que se pode fazer é uma transformação desses dados visando simetria. 25 Transformação A transformação logarítmica é a mais comum e geralmente resolve os problemas de assimetria. Existem outras transformações que podem ser utilizadas dependendo da característica dos dados. Por exemplo, a transformação raiz quadrada é mais usada quando a variável é uma contagem. A transformação recíproca (1/x) tem um efeito muito mais drástico do que tomar o logaritmo e pode ser útil se os dados observados têm uma distribuição extremamente assimétrica. 26 13
Observações atípicas Dados atípicos (outliers) em relação aos demais, influenciam enormemente as médias e a variabilidade dos dados, podendo até mesmo distorcer conclusões. É fundamental sua detecção e tratamento. Possíveis causas de valores espúrios: Erro na fase de mensuração viés de aferição. Erro na transcrição ou anotação do registro. Mudanças reais não-controláveis nas condições experimentais. Característica da variável 27 Observações Atípicas Detectando Observações atípicas (Outliers) Nesta etapa de análise dos dados, as técnicas de estatística descritiva são de extrema utilidade, pois permitem a inspeção visual da distribuição dos dados. Assim, para este fim, utilizam-se os seguintes recursos: Box-plots Gráficos de dispersão (bivariado). 28 14