Conjunto de Dados Existe uma estimativa de que a cada 20 meses dobra a quantidade de dados armazenada nos bancos de dados do mundo. No entanto, tem aumentando também a distância entre a quantidade de dados existente e a porção deles que é analisada e compreendida.
Conjunto de Dados Objetos que representam objetos físicos ou uma noção abstrata (como sintomas). Cada objeto é descrito por um conjunto de atributos de entrada ou vetor de características. Cada objeto corresponde a uma ocorrência dos dados. Cada atributo está associado a uma propriedade do objeto.
Conjunto de Dados Os dados podem ser representados por uma matriz de objetos X nxd, em que n é o número de objetos e d é o número de atributos de entrada de cada objeto. O valor de d define a dimensionalidade dos objetos ou do espaço dos objetos.
Pré-processamento Eliminação manual de atributos Integração de dados Amostragem de dados Balanceamento de dados Limpeza de dados Redução de dimensionalidade Transformação de dados
Análise de Dados Conjunto: hospital; objeto: paciente; valores de atributos de entrada (atributos preditivos): características do paciente. Além disso, a tabela apresenta um atributo alvo (atributo meta ou de saída): representa o fenômeno de interesse sobre o qual se deseja fazer previsões.
Caracterização de Dados Tabela atributo-valor Id. Nome Idade Sexo Peso Manchas Temp. #Int. Est. Diagnóstico 4201 João 28 M 79 Concentradas 38,0 2 SP Doente 3217 Maria 18 F 67 Inexistentes 39,5 4 MG Doente 4039 Luiz 49 M 92 Espalhadas 38,0 2 RS Saudável 1920 José 18 M 43 Inexistentes 38,5 8 MG Doente 4340 Cláudia 21 F 52 Uniformes 37,6 1 PE Saudável 2301 Ana 22 F 72 Inexistentes 38,0 3 RJ Doente 1322 Marta 19 F 87 Espalhadas 39,0 6 AM Doente 3027 Paulo 34 M 67 Uniformes 38,4 2 GO Saudável Número de Internações
Tipo O tipo define se o atributo representa quantidades: quantitativo ou número; ou qualidades: qualitativo. Qualitativo (pequeno, médio, grande). Uma medida quantitativa possui uma unidade. Id. Nome Idade Sexo Peso Manchas Temp. #Int. Est. Diagnóstico 4201 João 28 M 79 Concentradas 38,0 2 SP Doente
Escala A escala define as operações que podem ser realizadas sobre os valores do atributo. Nominais (nomes diferentes, não existe relação de ordem) Ordinais (ordem das categorias representadas) Intervalares (números variam dentro de um intervalo) Racionais (os números tem um valor absoluto) Id. Nome Idade Sexo Peso Manchas Temp. #Int. Est. Diagnóstico 4201 João 28 M 79 Concentradas 38,0 2 SP Doente
Exploração de Dados Estatística Descritiva: resume de forma quantitativa as principais características de um conjunto de dados. Exemplos: idade média dos pacientes porcentagem de pacientes do sexo masculino
Exploração de Dados Distribuição normal com média 0 e variância 1. Frequência Localização ou tendência central (média) Dispersão ou espalhamento (desvio padrão) Distribuição ou formato
Frequência Mede a proporção de vezes que um atributo assume um dado valor em um determinado conjunto de dados. Manchas Concentradas Inexistentes Espalhadas Inexistentes Uniformes Inexistentes Espalhadas Uniformes
Dados Univariados Um objeto possui apenas um atributo. O mesmo valor pode aparecer mais de uma vez em um atributo.
Medidas de Localidade Definem pontos de referência nos dados e variam para dados numéricos e simbólicos. Manchas Concentradas Inexistentes Espalhadas Inexistentes Moda: Dados simbólicos: valor encontrado com maior frequência para um atributo. Uniformes Inexistentes Espalhadas Uniformes
Moda Para atributos numéricos: Média Mediana Percentil Média: x j = 1 n n i=1 x i
Mediana Menos sensível a outliers Ordenar de forma crescente o conjunto de valores. Se o número de valores, n, é ímpar, a mediana é igual ao valor do meio do conjunto ordenado. Caso contrário, é dado pela média dos dois valores do meio.
Exemplos {17, 4, 8, 21, 4} {17, 4, 8, 21, 4, 15, 13, 9} O uso da mediana torna mais fácil observar se a distribuição é assimétrica ou se existem outliers.
Outras medidas Média truncada: descarta os exemplos nos extremos da sequência ordenada dos dados. Quartis: dividem os valores ordenados em quartos Percentil: valor para o qual x% dos demais valores são menores ou iguais a ele.
Boxplot
Boxplot primeiro quartil (designado por Q1/4) = quartil inferior = é o valor aos 25% da amostra ordenada = 25º percentil segundo quartil (designado por Q2/4) = mediana = é o valor até ao qual se encontra 50% da amostra ordenada = 50º percentil, ou 5º decil. terceiro quartil (designado por Q3/4) = quartil superior = valor a partir do qual se encontram 25% dos valores mais elevados = valor aos 75% da amostra ordenada = 75º percentil 19
Medidas de Espalhamento Medem a dispersão ou espalhamento de um conjunto de valores. Intervalo Variância Desvio Padrão
Medidas de Espalhamento Intervalo Intervalo(x j ) = max(x i )-min(x i ) Variância var(x j ) = 1 n 1 n i=1 (x i x j ) 2
Medias de Espalhamento Desvio padrão: raiz quadrada da variância. Desvio médio absoluto (AAD, absolute average deviation) n AAD(x j ) = 1 n Desvio mediano absoluto (MAD, i=1 median absolute deviation) x i x j MAD(x j ) = mediana({ x 1 x j,..., x n x j }) Intervalo interquartil (IQR, interquartil range) IQR(x j ) = P 75% P 25%
Medidas de Distribuição momento k (x j ) = n i=1 (x i x j ) k (n 1) Quando k = 1, tem-se o valor 0 (medida de localidade) Quando k = 2, tem-se a variância (medida de espalhamento) Quando k = 3, tem-se a obliquidade (medida de distribuição) Quando k = 4, tem-se a curtose (medida de distribuição)
Obliquidade Mede a simetria da distribuição dos dados em torno da média. obliquidade(x j ) = momento 3(x j ) s 3 = n i=1 (x i x j ) 3 (n 1)s 3 Obliquidade = 0 (simétrica) distribuição normal Obliquidade > 0 (positiva) concentração do lado esquerdo Obliquidade < 0 (negativa) concentração do lado direito
Obliquidade
Curtose Captura o achatamento da função de distribuição. curtose(x j ) = momento 4 (x j ) s 4 3 = (x i x j ) 4 Curtose = 0 (normal) distribuição normal Curtose > 0 (positiva) mais alta e concentrada que a distribuição normal Curtose < 0 (negativa) mais achatada que a distribuição normal n i=1 (n 1)s 4 3
Curtose
Dados Multivariados Permitem ainda análises da relação entre dois ou mais atributos. Covariância = mede o grau com que os atributos variam juntos. cov(x i, x j ) = 1 n 1 n k=1 (x k i x i ) 2 (x k j x j ) 2
Correlação correlação(x i, x j ) = cov(xi, x j ) s i s j
Scatterplot
Bagplot
Diagramas de Chernoff
Starplot
Heatmap Coluna = paciente; Linha = gene Vermelho = expressão gênica; Verde = não expressão