Pré-processamento de dados

Transcrição

1 Pré-processamento de dados Clodoaldo A. M. Lima, Sarajane M. Peres 13 de agosto de 2015 Programa de Pós-Graduação em Sistemas de Informação Mestrado acadêmico - EACH - USP Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53

2 Pré-processamento de dados textuais Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53

3 Pré-processamento de dados textuais Dados textuais Para realização da análise automática de textos, seja com fins de resolução de tarefas de mineração sobre dados textuais, processamento de linguagem natural ou recuperação de informação, é necessário preparar a coleção de documentos textuais (o corpus) a fim de adequá-los ao processamento automático. Alguns dos procedimentos apresentados ao longo dessa aula são comumente aplicados a todas as áreas citadas, outros são mais adequados para uso em uma ou outra área citada. Um conjunto de dados organizado a partir de um corpus Um conjunto de n documentos X = {doc 1, doc 2,..., doc n}. Cada um dos documentos, por sua vez, é definido como um conjunto de m termos (radicais, palavras ou conjunto de palavras), na forma doc i = {wt 1, wt 2,..., wt m}, sendo que wt j pode assumir valores boolenos ou reais. Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53

4 Pré-processamento de dados textuais Lei de Zipft Lei empírica que diz que: a n th maior frequência de ocorrência de uma palavra em uma ĺıngua é inversamente proporcional ao seu posto {rank}. Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53

5 Pré-processamento de dados textuais O experimento de Luhn mostrou que palavras muito frequentes num texto, assim como palavras raras, não são significativas para caracterizá-lo. Com base em seus testes empíricos, ele propôs uma curva normal centrada na palavra de frequência média para indicar o poder de resolução (resolving power) de palavras significativa. Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53

6 Pré-processamento de dados textuais Alta dimensionalidade e alto grau de espasidade Os conjunos de dados X gerados a partir de um corpus possuem alta dimensionalide e alto grau de esparsidade (a proporção de zeros na matriz é muito alta). Maldição da dimensionalidade Diz respeito ao aumento exponencial do volume associado quando se adiciona dimensões extras a um espaço matemático. Assim, quanto mais características descritivas for necessário processar, maior a quantidade de exemplares necessários para obter um modelo que explique os dados (em algum sentido). Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53

7 Pré-processamento de dados textuais Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53

8 Pré-processamento de dados textuais Preparação dos documentos Há uma série de procedimentos que são úteis para preparar uma coleção de documentos antes que ela seja representada como um conjunto de dados X. análise léxica (tokenizing) eliminação de stopwords; redução dos termos aos seus radicais; Vector Space Model - VSM Modelo de representação dos textos em um espaço de vetores. Cada documento é um vetor de termos (index term). Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53

9 Pré-processamento de dados textuais Análise léxica eliminação de caracteres de pontuação e outros caracteres; determinação de um separador para separação das palavras (criação da lista de termos inicial); eliminação de dígitos e acentos; alteração da capitalização das palavras. Problemas U.S us ou u s; campo grande Campo Grande; 510 D.C dc; mangá manga; http www each usp br sarajane; Tomada de decisão dependente do contexto. Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53

10 Pré-processamento de dados textuais Eliminação de stopwords Stopwords é uma lista de palavras muito comum em uma ĺıngua, e que não tem potencial para contribuir para a caracterização do conteúdo presente no texto. Nessa lista geramente estão: artigos definidos e indefinidos, preposições, pronomes, numerais, conjunções e advérbios. Além das palavras pertencentes a essas classes gramaticais, podem entrar na lista as palavras muito comuns dentro do contexto referente aos documentos do corpus. Exemplos Leia mais num portal de notícias escola ou professor tem textos de monografias de uma especialização em Ética, valores e cidadania na escola ; A eliminação de stopwords pode representar uma redução de 30% a 50% o tamanho dos textos. Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53

11 Pré-processamento de dados textuais Redução dos termos aos seus radicais Um termo no documento pode sofrer variações como plural, gerúndio, verbos flexionados, aumentativo, diminutivo e etc. Com a redução do termo ao seu radical, processo também conhecido por stemming, os prefixos e sufixos são eliminados, possibilitando a uniformização de termos. Exemplos - Snowball para português quilos quil / bóia bói / boiando boi Stemmers Snowball PTStemmer Problemas - exemplos no inglês factual fact (sufixo UAL) equal eq (sufixo UAL) absorb absor (sufixo B) absorpt absor (sufixo PT) Esse processo também tem o efeito de reduzir o tamanho de um documento. Há experimentos que apontam 5% de redução. Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53

12 Pré-processamento de dados textuais Space Vector Model - construção do conjunto C representação binária representação por frequência representação tf-idf representação tf-idf normalizado Representação binária Representação simplificada na qual valores binários (ou pesos binários) indicam a presença ou ausência do termo em um documento. Os termos presentes possuem todos a mesma importância na representação de um documento. doc 1 = {0, 0, 0, 1, 1, 0, 1, 0, 1, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 1, 1, 0, 0, 0, 0, 1, 0, 0, 0, 1, 1, 1} Os dois mais importantes fatores que direcionam a efetividade de uma representação: exaustividade (completude) da indexação e especificidade da representação. Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53

13 Pré-processamento de dados textuais Representação por frequência - term frequency tf Representação na qual a frequência de um termo no documento é associada ao peso do termo na representação daquele documento. doc 1 = {3, 6, 1, 0, 0, 4, 9, 1, 1, 0, 0, 0, 0, 6, 0, 0, 3, 0, 0, 12, 1, 0, 0, 0, 0, 1, 0, 0, 0, 1, 1, 3} Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53

14 Pré-processamento de dados textuais Existem termos com frequência maior que possuem poder de resolução mais baixo do que termos com frequência menor. Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53

15 Pré-processamento de dados textuais Exaustividade (completude) da indexação - exhaustivity of indexing Número de termos associados a um dado documento. Número de tópicos diferentes que foram indexados. Especificidade da representação - specificity of the index language Número de documentos ao qual um dado termo está associado dentro de uma coleção de documentos. Habilidade de representação em descrever um tópico precisamente. Nosso problema é encontrar um trade-off entre os objetivos acima. É necessário atribuir pesos aos índices de forma maximizar a chance de encontrar esse trade-off. Precisão X Revocação - Precision X Recall - na recuperação de informação Precisão: proporção de documentos recuperados que são relevantes Revocação: proporção de documentos relevantes recuperados Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53

16 Pré-processamento de dados textuais Frequência inversa nos documentos inverse document frequency idf idf (t j ) = log n nt j (1) em que n é o número de documentos no corpus e nt j é o número de documentos nos quais o termo t aparece. Representação por td-idf Representação na qual o peso associado a uma palavra é calculando considerando tanto a frequência com a qual ele aparece no texto, quanto ao número de documentos no qual ele aparece. tf idf (t j, doc i ) = tf (t j, doc i ) idf (t j ) (2) Nessa representação quanto maior a frequência do termo no documento, maior é a representatividade do termo para aquele documento; quanto maior o número de documentos no qual um termo aparece, menos discriminante o termo é; Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53

17 Pré-processamento de dados textuais Representação por td-idf normalizado Representação na qual o peso associado a uma palavra é calculando considerando tanto a frequência com a qual ele aparece no texto, quanto o número de documentos no qual ele aparece. tf idf normalizado (t j, doc i ) = tf idf (t j, doc i ) s=1 ntermos (tf idf (ts, doc i )) 2 (3) Essa representação é útil pois coloca os pesos dentro do intervalo [0, 1] e também suaviza o efeito de diferenças entre os tamanhos dos documentos. Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53

18 Interpretações geométricas e similaridades Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53

19 Interpretações geométricas e similaridades Interpretações geométricas Nossos exemplares, de um conjunto de dados, podem ser interpretados geométricamente (ou podem ser vistos como vetores em um espaço vetorial). Considere o exemplo dos gafanhotos e esperanças Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53

23 Interpretações geométricas e similaridades Similaridade É a qualidade, caráter ou condição de coisas similares (análogas, equivalentes, semelhantes). O problema é como identificar e como medir. Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53

24 Interpretações geométricas e similaridades Similaridade É a qualidade, caráter ou condição de coisas similares (análogas, equivalentes, semelhantes). O problema é como identificar e como medir. Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53

25 Interpretações geométricas e similaridades Distâncias são normalmente usadas como medida de similaridade entre objetos. Há uma variedade enorme de medidas de distâncias, e algumas delas são mais comuns nos algoritmos de mineração de dados: Manhattan, Hamming, Euclidiana. Alternativas ao uso de medidas de distâncias são medida como entropia, correlação e concordâncias; a comparação entre os dados é de outra natureza. Outras alternativas podem aparecer por aí... Propriedade de uma medida de distância: d(i, j) 0; d(i, i) = 0 d(i, j) = d(i, j) d(i, j) d(i, k) + d(k, j) Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53

26 Interpretações geométricas e similaridades Distância Euclidiana d(i, j) = (x i1 x j1 ) 2 + (x i2 x j2 ) (x ip x jp ) 2 (4) Distância de Hamming Considerando duas strings de mesmo comprimento, a distância de Hamming fornece o número de posições nas quais as strings diferem. Entropia Comumente associada ao que se entende por desordem. Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53

27 Normalização de dados Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53

28 Normalização de dados Normalização é um procedimento de pré-processamento de dados cujo objetivo é escalar os valores dos atributos de forma que todos fiquem ou dentro de um intervalo específico, por exemplo [0, 1] ou [-1, 1], ou distribuídos em torno de sua média de acordo com seu desvio padrão. Esse procedimento é especialmente útil quando os algoritmos de análise de dados são baseados em distância (similaridades e diferenças são mensuradas usando métricas de distância). Também é útil para acelerar o processo de convergência de um algoritmo de Machine Learning (como por exemplo, redes neurais artificiais). Valores normalizados são mais fáceis de interpretar. Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53

29 Normalização de dados (a) Conjunto de dados (b) Atributo X (c) Atributo Y Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53

30 Normalização de dados Plotando o conjunto de dados com os valores originais, usando diferentes escalas para visualização no eixo x (atributo X). (d) (e) (f) Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53

31 Normalização de dados Distância euclidiana entre exemplares (entre os vetores), considerando apenas o atributo X, apenas o atributo Y (vetores unidimensionais) e considerando ambos os atributos (vetores bidimensionais) - ilustrando apenas a parte inicial da matriz de distâncias: (g) Dist. X (h) Dist. Y (i) Dist. XY Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53

32 Normalização de dados Considere os exemplares (originais): (5 257) (7 114,56) (2 336,4) (5,5 332,8) - em vermelho no gráfico. Observe as distâncias (euclidiana). (j) (k) Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53

33 Normalização de dados Normalização Min-max Trata-se de uma transformação linear sobre os valores originais de um atributo A. Sendo min A e max A os valores mínimos e máximos de um atributo, o procedimento mapeia um valor v de A para v no intervalo [new min A, new max A, estabelecidos pelo analista de dados, computando: v = v min A max A min A (new maxa new mina) + new min A (5) Essa transformação preserva o relacionamento entre os valores originais. Observe que os valores min A e max A precisam ser defindos com cuidado, ou uma entrada futura pode cair fora desses intervalos e causar um problema na preservação dos relacionamentos originais. Os min A e max A precisam ser armazenados para que possam ser usados na normalização de novos exemplares. Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53

34 Normalização de dados Plotando o conjunto de dados normalizado - Min-max - intervalo [0,1] (l) Min-max (m) Original (n) Normalizado Os valores de mínimo e máximo do atributo A foram tomados dentre os valores existentes no atributo. min x = 1.7 min y = 45.2 max x = 9.3 max y = Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53

35 Normalização de dados Plotando o conjunto de dados normalizado - Min-max - intervalo [0,1] (o) Min-max (p) Original (q) Normalizado Os valores de mínimo e máximo do atributo A foram tomados nos limites do domínio dos atributos. min x = 0 min y = 10 max x = 10 max y = 1000 Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53

36 Normalização de dados Considerando cada um dos casos de escolha dos valores de mínimo e máximo do atributo A, e tomando como entrada para a normalização, um novo exemplar: novo exemplar = (10, 999) novo exemplar x = 10 e novo examplar y = 999 Seguindo a primeira normalização (mínimo e máximo dentro dos valores dos exemplares existentes: x norm = 1.09 y norm = 1.08 Seguindo a segunda normalização (mínimo e máximo dentro dos limites do domínio x norm = 1 y norm = Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53

37 Normalização de dados Distância euclidiana entre exemplares (entre os vetores), considerando o conjunto de dados original e o conjunto de dados normalizado (Minmax) (r) Dist. XY (s) Dist. XY norm Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53

38 Normalização de dados Considere os exemplares (agora normalizados): (0,4342 0,2409) (0,6974 0,0789) (0,0395 0,3312) (0,5000 0,3271) - em vermelho no gráfico. E observe as distâncias (euclidiana). (t) (u) Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53

39 Normalização de dados Normalização z-score Nesse caso, a normalização dos valores de um atributo A é realizada com base na média e no desvio padrão dos valores existentes no atributo. O valor v de A é transformado para v computando: v = v Ā σ A (6) onde Ā é a média dos valores existentes no atributo A e σ A é o desvio padrão do mesmo conjunto de vaores. Esse procedimento de normalização é útil principalmente quando os valores limites do domínio do atributo não são conhecidos, ou quando existem outliers no conjunto de valores. Essa normalização pode alterar levemente os relacionamentos originais entre os exemplares, inclusive contribuindo para suavizar efeitos de outliers. A suavização da presença de outliers pode ser melhorada também pela substuição da média pela mediana e do desvio padrão para o desvio padrão abosulto (σ abs A = m i=1 x i µ, onde x i é o i th valor do atributo A, m é o número de valores assumido pelo atributo A, e µ é ou a média ou a mediana dos valores do atributo A). Os valores Ā e σ A precisam ser armazenados para que possam ser usados na normalização de novos exemplares. Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53

40 Normalização de dados Plotando o conjunto de dados normalizado - z-score (v) z-score (w) Original (x) Normalizado Os valores de média e desvio padrão do conjunto original de valores assumido por A são: x = 4.78 ȳ = σ x = 2.25 σ y = Os coeficientes de variação (desvio padrão / média) são: cv x = cv y = Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53

41 Normalização de dados Outro exemplo - com coeficientes de variação diferentes Onde x = ȳ = σ x = σ y = cv x = cv y = Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53

42 Normalização de dados Normalização por escalonamento decimal Transforma os valores para decimais, da seguinte forma: v = v 10 j (7) onde j é igual a 1 se o maior valor absoluto no conjunto de valores do atributo A é < 10, é igual a 2 se o maior valor absoluto no conjunto de valores do atributo A é 10 e < 100, e assim por diante. Essa normalização pode alterar os relacionamentos originais entre os exemplares. O valor j precisam ser armazenado para que possa ser usado na normalização de novos exemplares. Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53

43 Normalização de dados Onde max(abs(x)) = 9, 3 max(abs(y)) = 924, 5 j x = 1 j y = 3 Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53

44 Normalização de dados Um exemplo com outlier: original, minmax, z-score e escalonamento decimal. Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53

45 Valores faltantes (missing values), outliers e ruídos Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53

46 Valores faltantes, outliers e ruídos Valores faltantes Não raramente, exemplares do conjunto de dados apresentam a atributos sem valores associados. É um problema para o trabalho em mineração de dados, pois os algoritmos se baseiam sua tomada de decisão levando em consideração todos os valores associados a um exemplar. Considere uma revisão sistemática Valores faltantes ocorrem pode diferentes motivos: um estudo pode ser perdido porque não foi possível encontrá-lo em sua versão completa (falta); um estudo pode ser perdido porque as informações presentes nele não são relevantes para a revisão (irrelevância); um estudo pode ser perdido porque o responsável por analisá-lo não entendeu o conteúdo do arquivo, ou não apresentou o resultado da análise (perda); um estudo pode ser perdido porque o conteúdo dele não está relacionado ao assunto da revisão (inaplicável); Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53

47 Valores faltantes (missing values), outliers e ruídos Consider o conjunto de dados referente a registros de um hospital: Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53

48 Valores faltantes (missing values), outliers e ruídos É interessante analisar porque os valores estão faltando. Há diferentes cenários: missing at random: se o motivo pelo qual eles se perderam não está relacionado aos próprios valores faltantes. Imagine que alguns questionários sobre satisfação dos clientes, respondidos por entrevistados foram extraviados nos Correios. A perda não está relacionada com a satisfação dos clientes (esperamos que não ). Esses casos tendem a não ser importantes, e as análises dos dados sofrerão por se ter uma amostra menor para estudo. not missing at random: se o motivo pelo qual eles se perderam está relacionado aos próprios valores dos dados. Se um teste de medicamento está sendo feito com pacientes que possuem depressão, alguns participantes podem ser mais suscetíveis a não seguir as regras do experimento, e por isso faltar em uma entrevista, não fazer uma medição, ou tomar a medicação de forma inadequada. Esses problemas não podem ser ignorados pois podem levar a análises tendenciosas. Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53

49 Valores faltantes (missing values), outliers e ruídos Como lidar com os valores faltantes analisar somente os dados disponíveis (isso pode implicar em excluir exemplares ou atributos); imputar os valores faltantes usando estratégias estatísticas (média, mediana, moda, regressão...) imputar os valores faltantes e levar em consideração a incerteza relacionada (fazer múltiplas imputações, usar média considerando desvio padrão, considerar a tendência da distribuição) usar estratégias estatísticas considerando asserções sobre o relacionamento com os exemplares disponíveis Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53

50 Valores faltantes (missing values), outliers e ruídos Outliers... Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53

51 Valores faltantes (missing values), outliers e ruídos Ruído Exemplares imperfeitos que podem ser derivados do processo de aquisição, transformação ou rotulação, por exemplo. Clodoaldo A. M. Lima, Sarajane M. Peres Pré-processamento de dados 13 de agosto de / 53