Uma exploração preliminar dos dados para compreender melhor suas características. Motivações-chave da exploração de dados incluem Ajudar na seleção da técnica correta para pré-processamento ou análise Fazer uso das habilidades humanas de reconhecimento de padrões Pessoas podem reconhecer padrões não capturados pelas técnicas de análise de dados Relacionado à área de Análise Exploratória de Dados (EDA) Criada pelo estatístico John Tukey Livro seminal: Exploratory Data Analysis escrito por Tukey Uma boa introdução online pode ser encontrada no capítulo 1 do NIST Engineering Statistics Handbook http://www.itl.nist.gov/div898/handbook/index.htm
Em EDA, como originalmente definido por Tukey O foco está na visualização Agrupamento e detecção de anomalias eram vistos como técnicas exploratórias Em mineração de dados, agrupamento e detecção de anomalias são grandes áreas de interesse, e não são vistas apenas como exploração Nesta discussão de exploração de dados, o foco está em Estatística Sumária Visualização Online Analytical Processing (OLAP)
Muitas das técnicas de exploração de dados são ilustradas com o conjunto de dados da planta Iris. Pode ser obtido do UCI Machine Learning Repository http://www.ics.uci.edu/~mlearn/mlrepository.html Criada pelo estatístico Douglas Fisher Três tipos de flores (classes): Setosa Virginica Versicolour Quatro atributos (não-classes) Sepal width e length Petal width e length Virginica. Robert H. Mohlenbrock. USDA NRCS. 1995. Northeast wetland flora: Field office guide to plant species. Northeast National Technical Center, Chester, PA. Courtesy of USDA NRCS Wetland Science Institute.
!" Estatística Sumária são números que resumem as propriedades dos dados Propriedades sumarizadas incluem freqüência, posição e dispersão Exemplos: posição média dispersão desvio padrão A maioria das estatísticas sumárias pode ser calculada em um único passo através dos dados
#$% A freqüência do valor de um atributo é a percentagem do tempo em que o valor ocorre no conjunto de dados Por exemplo, dado o atributo gênero e uma população representativa de pessoas, o gênero feminino ocorre cerca de 50% do tempo. A moda de um atributo é o valor mais freqüente do atributo As noções de freqüência e moda são usadas tipicamente com dados categóricos
& Para dados contínuos, a noção de percentil é mais útil. Dados um atributo contínuo ou ordinal x e um número p entre 0 e 100, x p o p-ésimo percentil é um valor x p de x tal que p% dos valores observados de x são menores que x p. Por exemplo, o percentil 50 é o valor x 50% tal que 50% de todos os valores de x são menores que x 50%.
A média é a medida mais comum de posição de um conjunto de pontos. Entretanto, a média é muito sensitiva a outliers. Então, a mediana ou uma mediana ajustada é usada comumente.
#'( Faixa é a diferença entre o máximo e mínimo A variância ou desvio padrão é a medida mais comum de desvio de um conjunto de pontos. Entretanto, elas são sensitivas a outliers, e outras medidas são freqüentemente utilizadas.
') Visualização é a conversão dos dados para um formato visual ou tabular de tal forma que as características dos dados e os relacionamentos entre itens de dados ou atributos possa ser analisada ou reportada. Visualização de dados é uma das técnicas de maior apelo e poder para exploração de dados. Os seres humanos tem uma habilidade bem desenvolvida de analisar grandes quantidades de informação que seja apresentada visualmente Pode detectar padrões gerais e tendências Pode detectar outliers e padrões não usuais
!! * Abaixo tem-se a Temperatura da Superfície do Mar em Julho de 1982 Dezenas de milhares de pontos de dados estão sumarizados em uma única figura
+ É o mapeamento da informação em um formato visual Objetos de dados, seus atributos e as relações entre objetos de dados são traduzidos em elementos gráficos tais como pontos, linhas, formatos e cores. Exemplo: Objetos são representados freqüentemente como pontos Seus valores de atributo podem ser representados como a posição dos pontos ou as características dos pontos, e.g., cor, tamanho e formato Se a posição é usada, então os relacionamentos entre os pontos, i.e., se eles formam grupos ou um ponto é um outlier, são facilmente percebidos.
, É a colocação de elementos visuais dentro de um display Pode fazer uma grande diferença no quão fácil é para compreender os dados Exemplo:
É a eliminação ou a tirada de ênfase de certos objetos e atributos Seleção pode envolver a escolha de um subconjunto de atributos Redução de dimensionalidade é muito usada para reduzir o número de dimensões para duas ou três De outra forma, pares de atributos podem ser usados Seleção também pode envolver escolher um subconjunto de objetos Uma região da tela mostra um número fixo de pontos Pode-se amostrar, mas querer preservar pontos em áreas esparsas
') -.! Histograma Usualmente mostra distribuição de valores de uma variável Divide os valores em faixas e mostra um gráfico de barras do número de objetos em cada faixa. A altura de cada barra indica o número de objetos Formato do histograma depende do número de faixas Exemplo: Petal Width (10 e 20 faixas, respectivamente)
-.!/0! Mostra a distribuição conjunta dos valores de dois atributos Exemplo: petal width e petal length O que isto nos mostra?
') 1"* Gráficos de Caixa Inventados por J. Tukey Outra forma de indicar a distribuição dos dados Figura mostra a parte básica de um gráfico de caixa Outlier Percentil 90 Percentil 75 Percentil 50 Percentil 25 Percentil 10
! 1"* Gráficos de Caixa podem ser usados para comparar atributos
') 1"* Gráficos de Dispersão Valores dos atributos determinam a posição Gráficos de dispersão bidimensionais são mais comuns, mas também há gráficos tridimensionais Freqüentemente atributos adicionais podem ser mostrados usando tamanho, forma e cor dos marcadores que representam os objetos É útil ter arranjos de gráficos de dispersão para sumarizar de maneira compacta os relacionamentos de vários pares de atributos Exemplo a seguir
, 1"*,2
') 1"* Gráficos de Contorno Útil quando um atributo contínuo é medido em uma grade espacial Particionam o plano em regiões de valores similares Linhas de contorno que formam os limites destas regiões conectam pontos com valores iguais O exemplo mais comum são os mapas de contorno de elevação Também pode indicar temperatura, precipitação, pressão do ar, etc. Exemplo para Temperatura da Superfície do mar a seguir
! 1"* 34556 Celsius
') 1"* Gráficos Matriciais Podem plotar a matriz de dados Pode ser útil quando os objetos são ordenados de acordo com a classe Normalmente os atributos são normalizados para evitar que um atributo domine o gráfico Gráficos de similaridade ou matrizes de distância também podem ser úteis para visualizar os relacionamentos entre objetos Exemplos de gráficos matriciais estão a seguir
') ) standard deviation
') )
') & Coordenadas Paralelas Usadas para plotar os valores dos atributos de dados de alta dimensionalidade Em lugar de eixos perpendiculares, usa-se um conjunto de eixos paralelos Valores dos atributos de cada objeto são plotados como um ponto em cada um dos eixos coordenados correspondentes e os pontos são ligados por linhas Então, cada objeto é representado como uma linha Freqüentemente linhas representam uma classe distinta de objetos agrupados, ao menos para alguns atributos Ordenar atributos é importante para ver os grupos
1"* &
') Gráficos Estrela Abordagem similar a coordenadas paralelas, mas eixos irradiam a partir de um ponto central A linha conectando os valores de um objeto é um polígono Faces de Chernoff Abordagem criada por Herman Chernoff Esta abordagem associa cada atributo com a característica de uma face Valores de cada atributo determinam a aparência da característica facial correspondente Cada objeto torna-se uma face separada Baseia-se na habilidade humana de distinguir faces
1"* Setosa Versicolour Virginica
#7 * Setosa Versicolour Virginica