Classificação de textos: definição & relevância para ORI

Transcrição

1 Conteúdo Classificação de textos: definição & relevância para ORI Classificação de textos & Naive Bayes 1 / 47

2 Conteúdo Classificação de textos: definição & relevância para ORI Classificação de textos & Naive Bayes 1 / 47

3 Conteúdo Classificação de textos: definição & relevância para ORI Naive Bayes: classificador de textos Classificação de textos & Naive Bayes 1 / 47

4 Conteúdo Classificação de textos: definição & relevância para ORI Naive Bayes: classificador de textos Teoria: derivação da regra de classificação de Naive Bayes Classificação de textos & Naive Bayes 1 / 47

5 Conteúdo Classificação de textos: definição & relevância para ORI Naive Bayes: classificador de textos Teoria: derivação da regra de classificação de Naive Bayes Avaliação de classificação de textos: como saber se está funcionando Classificação de textos & Naive Bayes 1 / 47

6 Outline 1 Classificação de textos 2 Naive Bayes 3 Teoria de Naive Bayes 4 Avaliação de classificação de textos Classificação de textos & Naive Bayes 2 / 47

7 A tarefa de classificação de textos: filtragem de s spam De: "UFU Contas Suporte Técnico c 2013 " <upgrade@fcm.unicamp.br> Assunto: Caro UFU Usuário (Urgente!). Caro UFU Usuário Estamos atualizando nosso banco de dados dos EUA e centro conta de . Estamos a excluir todas as contas de webmail n~ao utilizados da UFU e criar mais espaço para novas contas. Para garantir que você n~ao experimenta interrupç~ao do serviço durante este período, você precisa clicar no link de validaç~ao abaixo e preencher as informaç~oes yourufu: Validaç~ao Link: Você receberá uma confirmaç~ao de uma nova senha alfanumérica que só é válida durante este período e podem ser alteradas por esse processo. Pedimos desculpas por qualquer inconveniente que isso possa custar-lhe. Por favor, responda a este para que possamos dar-lhe melhores serviços online com o nosso webmail funcionalidade e melhorias novo e melhorado. ================================================= Classificação de textos & Naive Bayes 3 / 47

8 Definição de classificação de textos: treinamento Considerando: Um espaço de documentos X Classificação de textos & Naive Bayes 4 / 47

9 Definição de classificação de textos: treinamento Considerando: Um espaço de documentos X Documentos são representados nesse espaço tipicamente algum tipo de espaço de alta-dimensionalidade. Classificação de textos & Naive Bayes 4 / 47

10 Definição de classificação de textos: treinamento Considerando: Um espaço de documentos X Documentos são representados nesse espaço tipicamente algum tipo de espaço de alta-dimensionalidade. Um conjunto fixo de classes C = {c 1,c 2,...,c J } Classificação de textos & Naive Bayes 4 / 47

11 Definição de classificação de textos: treinamento Considerando: Um espaço de documentos X Documentos são representados nesse espaço tipicamente algum tipo de espaço de alta-dimensionalidade. Um conjunto fixo de classes C = {c 1,c 2,...,c J } As classes/rótulos são definidas de acordo com a necessidade da aplicação: (e.g., spam vs. não-spam). Classificação de textos & Naive Bayes 4 / 47

12 Definição de classificação de textos: treinamento Considerando: Um espaço de documentos X Documentos são representados nesse espaço tipicamente algum tipo de espaço de alta-dimensionalidade. Um conjunto fixo de classes C = {c 1,c 2,...,c J } As classes/rótulos são definidas de acordo com a necessidade da aplicação: (e.g., spam vs. não-spam). Um conjunto de treinamento de D documentos rotulados Cada documento rotulado d,c X C Classificação de textos & Naive Bayes 4 / 47

13 Definição de classificação de textos: treinamento Considerando: Um espaço de documentos X Documentos são representados nesse espaço tipicamente algum tipo de espaço de alta-dimensionalidade. Um conjunto fixo de classes C = {c 1,c 2,...,c J } As classes/rótulos são definidas de acordo com a necessidade da aplicação: (e.g., spam vs. não-spam). Um conjunto de treinamento de D documentos rotulados Cada documento rotulado d,c X C Classificação de textos & Naive Bayes 4 / 47

14 Definição de classificação de textos: treinamento Considerando: Um espaço de documentos X Documentos são representados nesse espaço tipicamente algum tipo de espaço de alta-dimensionalidade. Um conjunto fixo de classes C = {c 1,c 2,...,c J } As classes/rótulos são definidas de acordo com a necessidade da aplicação: (e.g., spam vs. não-spam). Um conjunto de treinamento de D documentos rotulados Cada documento rotulado d,c X C Usando um algoritmo de aprendizado podemos aprender um classificador γ que mapeia documentos para classes: γ : X C Classificação de textos & Naive Bayes 4 / 47

15 Definição formal de classificação de textos: aplicação/testes Considerando: uma descrição d X de um documento Determinar: γ(d) C, isto é, a classe é a mais apropriada para d Classificação de textos & Naive Bayes 5 / 47

16 Classificação de tópicos regiões indústrias interesses γ(d ) =China classes: Inglaterra China aves café eleições esportes d conj. treino: tráfego Londres Olimpíadas Beijing alimento frango torragem grãoes recontagem votos campo baseball conj. teste: primeira cia aérea privada chinesa Parlamento Big Ben turismo Muralha patê patos arabica robusta cargo 2 o turno ataque futebol Windsor a Rainha Mao comunista aviária gripe Quênia colheita comerciais campanha time capitão Classificação de textos & Naive Bayes 6 / 47

17 Exemplos de como motores de busca usam classificação Identificação de idioma (classes: inglês vs. francês etc.) Classificação de textos & Naive Bayes 7 / 47

18 Exemplos de como motores de busca usam classificação Identificação de idioma (classes: inglês vs. francês etc.) Detecção automática de páginas de spam web Classificação de textos & Naive Bayes 7 / 47

19 Exemplos de como motores de busca usam classificação Identificação de idioma (classes: inglês vs. francês etc.) Detecção automática de páginas de spam web Detecção automática de conteúdo sexualmente expĺıcito Classificação de textos & Naive Bayes 7 / 47

20 Exemplos de como motores de busca usam classificação Identificação de idioma (classes: inglês vs. francês etc.) Detecção automática de páginas de spam web Detecção automática de conteúdo sexualmente expĺıcito Buscas contínuas (e.g., Alertas do Google) Classificação de textos & Naive Bayes 7 / 47

21 Exemplos de como motores de busca usam classificação Identificação de idioma (classes: inglês vs. francês etc.) Detecção automática de páginas de spam web Detecção automática de conteúdo sexualmente expĺıcito Buscas contínuas (e.g., Alertas do Google) Detecção de sentimento: avaliação de filme/produto é positiva ou negativa Classificação de textos & Naive Bayes 7 / 47

22 Exemplos de como motores de busca usam classificação Identificação de idioma (classes: inglês vs. francês etc.) Detecção automática de páginas de spam web Detecção automática de conteúdo sexualmente expĺıcito Buscas contínuas (e.g., Alertas do Google) Detecção de sentimento: avaliação de filme/produto é positiva ou negativa Função de ranking sem informação de retorno: documento é relevante ou não relevante Classificação de textos & Naive Bayes 7 / 47

23 Métodos de classificação: 1. Manual Classificação manual (usado pelo Yahoo no começo da Web e PubMed) Classificação de textos & Naive Bayes 8 / 47

24 Métodos de classificação: 1. Manual Classificação manual (usado pelo Yahoo no começo da Web e PubMed) Classificação de textos & Naive Bayes 8 / 47

25 Métodos de classificação: 1. Manual Classificação manual (usado pelo Yahoo no começo da Web e PubMed) Acurácia alta se feito por especialistas Classificação de textos & Naive Bayes 8 / 47

26 Métodos de classificação: 1. Manual Classificação manual (usado pelo Yahoo no começo da Web e PubMed) Acurácia alta se feito por especialistas Consistente quando problema e time de especialistas é pequeno Classificação de textos & Naive Bayes 8 / 47

27 Métodos de classificação: 1. Manual Classificação manual (usado pelo Yahoo no começo da Web e PubMed) Acurácia alta se feito por especialistas Consistente quando problema e time de especialistas é pequeno Classificação manual para problemas grandes é difícil e proibitivo Classificação de textos & Naive Bayes 8 / 47

28 Métodos de classificação: 1. Manual Classificação manual (usado pelo Yahoo no começo da Web e PubMed) Acurácia alta se feito por especialistas Consistente quando problema e time de especialistas é pequeno Classificação manual para problemas grandes é difícil e proibitivo necessitamos de métodos automáticos para classificação Classificação de textos & Naive Bayes 8 / 47

29 Métodos de classificação: 2. Baseado em regras E.g., Alertas do Google funciona com regras Classificação de textos & Naive Bayes 9 / 47

30 Métodos de classificação: 2. Baseado em regras E.g., Alertas do Google funciona com regras Comum: combinações booleanas Classificação de textos & Naive Bayes 9 / 47

31 Métodos de classificação: 2. Baseado em regras E.g., Alertas do Google funciona com regras Comum: combinações booleanas Acurácia é alta se regra foi refinada com o tempo por especialista Classificação de textos & Naive Bayes 9 / 47

32 Métodos de classificação: 2. Baseado em regras E.g., Alertas do Google funciona com regras Comum: combinações booleanas Acurácia é alta se regra foi refinada com o tempo por especialista Construir e manter um sistema de classificação com regras pode ser problemático e caro Classificação de textos & Naive Bayes 9 / 47

33 Uma regra de classificação complexa Classificação de textos & Naive Bayes 10 / 47

34 Métodos de classificação: 3. aprendizado de máquina Classificação de textos como um problema de aprendizado Classificação de textos & Naive Bayes 11 / 47

35 Métodos de classificação: 3. aprendizado de máquina Classificação de textos como um problema de aprendizado (i) Aprendizado supervisionado de uma função de classificação γ e (ii) aplicação de γ para classificar novos documentos Classificação de textos & Naive Bayes 11 / 47

36 Métodos de classificação: 3. aprendizado de máquina Classificação de textos como um problema de aprendizado (i) Aprendizado supervisionado de uma função de classificação γ e (ii) aplicação de γ para classificar novos documentos Para isso estudaremos Naive Bayes Classificação de textos & Naive Bayes 11 / 47

38 Classificador probabiĺıstico: Naive Bayes Computar a probabilidade de um documento d sendo uma classe c da seguinte forma: P(c d) P(c) P(t k c) 1 k n d Classificação de textos & Naive Bayes 13 / 47

39 Classificador probabiĺıstico: Naive Bayes Computar a probabilidade de um documento d sendo uma classe c da seguinte forma: P(c d) P(c) P(t k c) 1 k n d n d é o tamanho do documento. (número de tokens) Classificação de textos & Naive Bayes 13 / 47

40 Classificador probabiĺıstico: Naive Bayes Computar a probabilidade de um documento d sendo uma classe c da seguinte forma: P(c d) P(c) P(t k c) 1 k n d n d é o tamanho do documento. (número de tokens) P(t k c) é a probabilidade condicional do termo t k ocorrer em um documento da classe c Classificação de textos & Naive Bayes 13 / 47

41 Classificador probabiĺıstico: Naive Bayes Computar a probabilidade de um documento d sendo uma classe c da seguinte forma: P(c d) P(c) P(t k c) 1 k n d n d é o tamanho do documento. (número de tokens) P(t k c) é a probabilidade condicional do termo t k ocorrer em um documento da classe c P(t k c) pode ser vista como uma medida de quanta evidência t k contribui para que c seja da classe correta Classificação de textos & Naive Bayes 13 / 47

42 Classificador probabiĺıstico: Naive Bayes Computar a probabilidade de um documento d sendo uma classe c da seguinte forma: P(c d) P(c) P(t k c) 1 k n d n d é o tamanho do documento. (número de tokens) P(t k c) é a probabilidade condicional do termo t k ocorrer em um documento da classe c P(t k c) pode ser vista como uma medida de quanta evidência t k contribui para que c seja da classe correta P(c) é a probabilidade a priori de c. Classificação de textos & Naive Bayes 13 / 47

43 Classificador probabiĺıstico: Naive Bayes Computar a probabilidade de um documento d sendo uma classe c da seguinte forma: P(c d) P(c) P(t k c) 1 k n d n d é o tamanho do documento. (número de tokens) P(t k c) é a probabilidade condicional do termo t k ocorrer em um documento da classe c P(t k c) pode ser vista como uma medida de quanta evidência t k contribui para que c seja da classe correta P(c) é a probabilidade a priori de c. Se os termos de um documento não dão evidência clara para classe vs. outra, escolhemos a classe c com maior P(c). Classificação de textos & Naive Bayes 13 / 47

44 Classe com probabilidade a posteriori máxima Objetivo da classificação Naive Bayes é encontrar a melhor classe Classificação de textos & Naive Bayes 14 / 47

45 Classe com probabilidade a posteriori máxima Objetivo da classificação Naive Bayes é encontrar a melhor classe A melhor classe é a mais provável ou classe de máxima probabilidade a posteriori (MAP) c map : c map = argmax c C ˆP(c d) = argmax c C ˆP(c) 1 k n d ˆP(t k c) Classificação de textos & Naive Bayes 14 / 47

46 Fazendo o logaritmo Multiplicar muitas probabilidades pequenas resulta em erro de ponto flutuante Classificação de textos & Naive Bayes 15 / 47

47 Fazendo o logaritmo Multiplicar muitas probabilidades pequenas resulta em erro de ponto flutuante Como log(xy) = log(x)+log(y), podemos somar o logaritmo das probabilidades em vez de multiplicar Classificação de textos & Naive Bayes 15 / 47

48 Fazendo o logaritmo Multiplicar muitas probabilidades pequenas resulta em erro de ponto flutuante Como log(xy) = log(x)+log(y), podemos somar o logaritmo das probabilidades em vez de multiplicar Como log é uma função monotônica, a classe com pontuação mais alta não muda Classificação de textos & Naive Bayes 15 / 47

49 Fazendo o logaritmo Multiplicar muitas probabilidades pequenas resulta em erro de ponto flutuante Como log(xy) = log(x)+log(y), podemos somar o logaritmo das probabilidades em vez de multiplicar Como log é uma função monotônica, a classe com pontuação mais alta não muda Na prática, calculamos: c map = argmax c C [log ˆP(c)+ 1 k n d log ˆP(t k c)] Classificação de textos & Naive Bayes 15 / 47

50 Classificador Naive Bayes Regra de classificação: c map = argmax c C [log ˆP(c)+ 1 k n d log ˆP(t k c)] Classificação de textos & Naive Bayes 16 / 47

51 Classificador Naive Bayes Regra de classificação: c map = argmax c C Interpretação: [log ˆP(c)+ 1 k n d log ˆP(t k c)] Classificação de textos & Naive Bayes 16 / 47

52 Classificador Naive Bayes Regra de classificação: c map = argmax c C [log ˆP(c)+ 1 k n d log ˆP(t k c)] Interpretação: n d é o número de tokens no documento d Classificação de textos & Naive Bayes 16 / 47

53 Classificador Naive Bayes Regra de classificação: c map = argmax c C [log ˆP(c)+ 1 k n d log ˆP(t k c)] Interpretação: n d é o número de tokens no documento d Cada parâmetro condicional log ˆP(t k c) é um peso que indica o quão bom indicador o termo t k é para c Classificação de textos & Naive Bayes 16 / 47

54 Classificador Naive Bayes Regra de classificação: c map = argmax c C [log ˆP(c)+ 1 k n d log ˆP(t k c)] Interpretação: n d é o número de tokens no documento d Cada parâmetro condicional log ˆP(t k c) é um peso que indica o quão bom indicador o termo t k é para c A probabilidade a priori log ˆP(c) é um peso que indica a frequência relativa de c Classificação de textos & Naive Bayes 16 / 47

55 Classificador Naive Bayes Regra de classificação: c map = argmax c C [log ˆP(c)+ 1 k n d log ˆP(t k c)] Interpretação: n d é o número de tokens no documento d Cada parâmetro condicional log ˆP(t k c) é um peso que indica o quão bom indicador o termo t k é para c A probabilidade a priori log ˆP(c) é um peso que indica a frequência relativa de c A soma do log de probabilidades e os pesos dos termos é então uma medida de quanta evidência há para o documento ser da classe c Classificação de textos & Naive Bayes 16 / 47

56 Classificador Naive Bayes Regra de classificação: c map = argmax c C [log ˆP(c)+ 1 k n d log ˆP(t k c)] Interpretação: n d é o número de tokens no documento d Cada parâmetro condicional log ˆP(t k c) é um peso que indica o quão bom indicador o termo t k é para c A probabilidade a priori log ˆP(c) é um peso que indica a frequência relativa de c A soma do log de probabilidades e os pesos dos termos é então uma medida de quanta evidência há para o documento ser da classe c Selecionamos a classe com maior evidência c MAP Classificação de textos & Naive Bayes 16 / 47

57 Estimação de parâmetros 1: máxima verossimilhança Estimar parâmetros ˆP(c) e ˆP(t k c) a partir dos dados de treino: como? Classificação de textos & Naive Bayes 17 / 47

58 Estimação de parâmetros 1: máxima verossimilhança Estimar parâmetros ˆP(c) e ˆP(t k c) a partir dos dados de treino: como? Prior: ˆP(c) = N c N Classificação de textos & Naive Bayes 17 / 47

59 Estimação de parâmetros 1: máxima verossimilhança Estimar parâmetros ˆP(c) e ˆP(t k c) a partir dos dados de treino: como? Prior: ˆP(c) = N c N N c : número de docs na classe c; N: número total de docs Classificação de textos & Naive Bayes 17 / 47

60 Estimação de parâmetros 1: máxima verossimilhança Estimar parâmetros ˆP(c) e ˆP(t k c) a partir dos dados de treino: como? Prior: ˆP(c) = N c N N c : número de docs na classe c; N: número total de docs Probabilidades condicionais: ˆP(t c) = T c,t t V T c,t Classificação de textos & Naive Bayes 17 / 47

61 Estimação de parâmetros 1: máxima verossimilhança Estimar parâmetros ˆP(c) e ˆP(t k c) a partir dos dados de treino: como? Prior: ˆP(c) = N c N N c : número de docs na classe c; N: número total de docs Probabilidades condicionais: ˆP(t c) = T c,t t V T c,t T c,t é o número de tokens de t nos documentos de treino da classe c (inclui múltiplas ocorrências) Classificação de textos & Naive Bayes 17 / 47

62 Estimação de parâmetros 1: máxima verossimilhança Estimar parâmetros ˆP(c) e ˆP(t k c) a partir dos dados de treino: como? Prior: ˆP(c) = N c N N c : número de docs na classe c; N: número total de docs Probabilidades condicionais: ˆP(t c) = T c,t t V T c,t T c,t é o número de tokens de t nos documentos de treino da classe c (inclui múltiplas ocorrências) Usamos a premissa de independência de Naive Bayes aqui: ˆP(t k1 c) = ˆP(t k2 c), independência da posição Classificação de textos & Naive Bayes 17 / 47

63 O problema com estimativas de máxima verossimilhança: zeros C=China X 1 =Beijing X 2 =e X 3 =Taipei X 4 =aderem X 5 =OMC P(China d) P(China) P(Beijing China) P(e China) P(Taipei China) P(aderem China) P(OMC China) Se OMC nunca ocorrer na classe China no conjunto de treinamento: ˆP(OMC China) = T China,OMC 0 t V T = China,t t V T = 0 China,t Classificação de textos & Naive Bayes 18 / 47

66 Problema com estimativas de máx. verossimilhança: zeros Se não há ocorrências de OMC nos documentos na classe China, temos uma estimativa: ˆP(OMC China) = T China,OMC t V T China,t = 0 Classificação de textos & Naive Bayes 19 / 47

67 Problema com estimativas de máx. verossimilhança: zeros Se não há ocorrências de OMC nos documentos na classe China, temos uma estimativa: ˆP(OMC China) = T China,OMC t V T China,t = 0 Teremos P(China d) = 0 para qualquer documento que contém OMC! Classificação de textos & Naive Bayes 19 / 47

68 Evitar zeros: suavização somar-um Antes: ˆP(t c) = T c,t t V T c,t Classificação de textos & Naive Bayes 20 / 47

69 Evitar zeros: suavização somar-um Antes: ˆP(t c) = T c,t t V T c,t Agora: somar um para cada contador para evitar zeros: ˆP(t c) = T c,t +1 t V (T c,t +1) = T c,t +1 ( t V T c,t )+B Classificação de textos & Naive Bayes 20 / 47

70 Evitar zeros: suavização somar-um Antes: ˆP(t c) = T c,t t V T c,t Agora: somar um para cada contador para evitar zeros: ˆP(t c) = T c,t +1 t V (T c,t +1) = T c,t +1 ( t V T c,t )+B B = V é o tamanho do vocabulário Classificação de textos & Naive Bayes 20 / 47

71 Resumo: Naive Bayes Estimar parâmetros do corpus de treino usando suavização soma-um Classificação de textos & Naive Bayes 21 / 47

72 Resumo: Naive Bayes Estimar parâmetros do corpus de treino usando suavização soma-um Para um novo documento, para cada classe, calcular a soma de (i) log das probabilidades a priori e (ii) logs das probabilidades condicionais dos termos Classificação de textos & Naive Bayes 21 / 47

73 Resumo: Naive Bayes Estimar parâmetros do corpus de treino usando suavização soma-um Para um novo documento, para cada classe, calcular a soma de (i) log das probabilidades a priori e (ii) logs das probabilidades condicionais dos termos Atribuir o documento para a classe com maior pontuação Classificação de textos & Naive Bayes 21 / 47

74 Naive Bayes: treino NB = Naive Bayes TreinoMultinomialNB(C, D) 1 V ExtrairVocabulario(D) 2 N ContaDocs(D) 3 for each c C 4 do N c ContaDocsNaClasse(D,c) 5 priori[c] N c /N 6 texto c ConcatenaTextoTodosDocsNaClasse(D,c) 7 for each t V 8 do T c,t ContaTokensDeTermo(texto c,t) 9 for each t V 10 do probcond[t][c] Tc,t+1 11 return V,priori,probcond t (T c,t +1) Classificação de textos & Naive Bayes 22 / 47

75 Naive Bayes: teste AplicarMultinomialNB(C, V, priori, probcond, d) 1 W ExtrairTokensDeDoc(V, d) 2 for each c C 3 do pontuacao[c] log priori[c] 4 for each t W 5 do pontuacao[c]+ = log probcond[t][c] 6 return argmax c C pontuacao[c] Classificação de textos & Naive Bayes 23 / 47

76 Exercício docid palavras no documento em c = China? conj. treino 1 Chinês Beijing Chinês sim 2 Chinês Chinês Shanghai sim 3 Chinês Macao sim 4 Tóquio Japão Chinês não conj. testes 5 Chinês Chinês Chinês Tóquio Japão? Estimar parâmetros do classificador de Naive Bayes Classificar documentos de teste Classificação de textos & Naive Bayes 24 / 47

77 Exemplo: estimação de parâmetros Probabilidades a priori: ˆP(c) = 3/4 e ˆP(c) = 1/4 Probabilidades condicionais: ˆP(Chinês c) = (5+1)/(8+6) = 6/14 = 3/7 ˆP(Tóquio c) = ˆP(Japão c) = (0+1)/(8+6) = 1/14 ˆP(Chinês c) = (1+1)/(3+6) = 2/9 ˆP(Tóquio c) = ˆP(Japão c) = (1+1)/(3+6) = 2/9 Os denominadores são (8+6) e (3+6) porque os tamanhos de text c e text c são 8 e 3 e porque a constante B é 6 como o vocabulário consiste de seis termos Classificação de textos & Naive Bayes 25 / 47

78 Exemplo: classificação ˆP(c d 5 ) 3/4 (3/7) 3 1/14 1/ ˆP(c d 5 ) 1/4 (2/9) 3 2/9 2/ Então o classificador atribui o documento de teste para classe c = China. A razão para essa decisão de classificação é que as três ocorrências do indicador positivo Chinês em d 5 supera as ocorrências de dois indicadores negativos Japão e Tóquio. Classificação de textos & Naive Bayes 26 / 47

79 Custo do Naive Bayes Classificação de textos & Naive Bayes 27 / 47

80 Custo do Naive Bayes modo número de operações treino D L ave + C V teste L a + C M a = C M a Classificação de textos & Naive Bayes 27 / 47

81 Custo do Naive Bayes modo número de operações treino D L ave + C V teste L a + C M a = C M a D: conj. treino; Classificação de textos & Naive Bayes 27 / 47

82 Custo do Naive Bayes modo número de operações treino D L ave + C V teste L a + C M a = C M a D: conj. treino; V: conj. vocabulário; Classificação de textos & Naive Bayes 27 / 47

83 Custo do Naive Bayes modo número de operações treino D L ave + C V teste L a + C M a = C M a D: conj. treino; V: conj. vocabulário; C: conj. de classes. Classificação de textos & Naive Bayes 27 / 47

84 Custo do Naive Bayes modo número de operações treino D L ave + C V teste L a + C M a = C M a D: conj. treino; V: conj. vocabulário; C: conj. de classes. Classificação de textos & Naive Bayes 27 / 47

85 Custo do Naive Bayes modo número de operações treino D L ave + C V teste L a + C M a = C M a D: conj. treino; V: conj. vocabulário; C: conj. de classes. L ave : tamanho médio de um documento de treino; Classificação de textos & Naive Bayes 27 / 47

86 Custo do Naive Bayes modo número de operações treino D L ave + C V teste L a + C M a = C M a D: conj. treino; V: conj. vocabulário; C: conj. de classes. L ave : tamanho médio de um documento de treino; L a : tamanho de um documento de teste; Classificação de textos & Naive Bayes 27 / 47

87 Custo do Naive Bayes modo número de operações treino D L ave + C V teste L a + C M a = C M a D: conj. treino; V: conj. vocabulário; C: conj. de classes. L ave : tamanho médio de um documento de treino; L a : tamanho de um documento de teste; M a : número de termos distintos no doc de teste; Classificação de textos & Naive Bayes 27 / 47

88 Custo do Naive Bayes modo número de operações treino D L ave + C V teste L a + C M a = C M a D: conj. treino; V: conj. vocabulário; C: conj. de classes. L ave : tamanho médio de um documento de treino; L a : tamanho de um documento de teste; M a : número de termos distintos no doc de teste; Classificação de textos & Naive Bayes 27 / 47

89 Custo do Naive Bayes modo número de operações treino D L ave + C V teste L a + C M a = C M a D: conj. treino; V: conj. vocabulário; C: conj. de classes. L ave : tamanho médio de um documento de treino; L a : tamanho de um documento de teste; M a : número de termos distintos no doc de teste; D L ave é o custo para calcular todas as contagens Classificação de textos & Naive Bayes 27 / 47

90 Custo do Naive Bayes modo número de operações treino D L ave + C V teste L a + C M a = C M a D: conj. treino; V: conj. vocabulário; C: conj. de classes. L ave : tamanho médio de um documento de treino; L a : tamanho de um documento de teste; M a : número de termos distintos no doc de teste; D L ave é o custo para calcular todas as contagens C V é o custo para obter parâmetros a partir de contagens Classificação de textos & Naive Bayes 27 / 47

91 Custo do Naive Bayes modo número de operações treino D L ave + C V teste L a + C M a = C M a D: conj. treino; V: conj. vocabulário; C: conj. de classes. L ave : tamanho médio de um documento de treino; L a : tamanho de um documento de teste; M a : número de termos distintos no doc de teste; D L ave é o custo para calcular todas as contagens C V é o custo para obter parâmetros a partir de contagens Tempos de treino e teste são lineares Classificação de textos & Naive Bayes 27 / 47

93 Naive Bayes: análise Queremos ver melhor as propriedades de Naive Bayes. Classificação de textos & Naive Bayes 29 / 47

94 Naive Bayes: análise Queremos ver melhor as propriedades de Naive Bayes. Derivaremos a regra de classificação... Classificação de textos & Naive Bayes 29 / 47

95 Naive Bayes: análise Queremos ver melhor as propriedades de Naive Bayes. Derivaremos a regra de classificação e faremos as premissas explicitamente Classificação de textos & Naive Bayes 29 / 47

96 Derivação da regra de Naive Bayes Queremos encontrar a classe que é mais provável para um dado documento: c map = argmax c C P(c d) Aplicar regra de Bayes P(A B) = P(B A)P(A) P(B) : c map = argmax c C P(d c)p(c) P(d) Ignorar denominador uma vez que P(d) é igual para todas as classes: c map = argmax c C P(d c)p(c) Classificação de textos & Naive Bayes 30 / 47

97 Muitos parâmetros / esparsidade c map = argmax P(d c)p(c) c C = argmaxp( t 1,...,t k,...,t nd c)p(c) c C Classificação de textos & Naive Bayes 31 / 47

98 Muitos parâmetros / esparsidade c map = argmax P(d c)p(c) c C = argmaxp( t 1,...,t k,...,t nd c)p(c) c C Há muitos parâmetros P( t 1,...,t k,...,t nd c), um para cada combinação única de uma classe e sequência de palavras Classificação de textos & Naive Bayes 31 / 47

99 Muitos parâmetros / esparsidade c map = argmax P(d c)p(c) c C = argmaxp( t 1,...,t k,...,t nd c)p(c) c C Há muitos parâmetros P( t 1,...,t k,...,t nd c), um para cada combinação única de uma classe e sequência de palavras Precisaríamos um número muito grande de exemplos de treinamento para estimar esse número de parâmetros. Classificação de textos & Naive Bayes 31 / 47

100 Muitos parâmetros / esparsidade c map = argmax P(d c)p(c) c C = argmaxp( t 1,...,t k,...,t nd c)p(c) c C Há muitos parâmetros P( t 1,...,t k,...,t nd c), um para cada combinação única de uma classe e sequência de palavras Precisaríamos um número muito grande de exemplos de treinamento para estimar esse número de parâmetros. Esse é o problema da esparsidade dos dados. Classificação de textos & Naive Bayes 31 / 47

101 Premissa da independência condicional de Naive Bayes Para reduzir o número de parâmetros para um tamanho razoável, usamos a premissa da independência condicional de Naive Bayes: P(d c) = P( t 1,...,t nd c) = 1 k n d P(X k = t k c) Supomos que a probabilidade de observar a conjunção de atributos é igual ao produto de probabilidades individuais P(X k = t k c). obter de antes as estimativas para essas probabilidades condicionais : ˆP(t c) = T c,t+1 ( t V T c,t )+B Classificação de textos & Naive Bayes 32 / 47

102 Modelos generativos C=China X 1 =Beijing X 2 =e X 3 =Taipei X 4 =aderem X 5 =OMC P(c d) P(c) 1 k n d P(t k c) Classificação de textos & Naive Bayes 33 / 47

103 Modelos generativos C=China X 1 =Beijing X 2 =e X 3 =Taipei X 4 =aderem X 5 =OMC P(c d) P(c) 1 k n d P(t k c) Gerar uma classe com probabilidade P(c) Classificação de textos & Naive Bayes 33 / 47

104 Modelos generativos C=China X 1 =Beijing X 2 =e X 3 =Taipei X 4 =aderem X 5 =OMC P(c d) P(c) 1 k n d P(t k c) Gerar uma classe com probabilidade P(c) Gerar cada uma das palavras (nas suas respectivas posições ), condicional na classe, mas independente entre si, com probabilidade P(t k c) Classificação de textos & Naive Bayes 33 / 47

105 Modelos generativos C=China X 1 =Beijing X 2 =e X 3 =Taipei X 4 =aderem X 5 =OMC P(c d) P(c) 1 k n d P(t k c) Gerar uma classe com probabilidade P(c) Gerar cada uma das palavras (nas suas respectivas posições ), condicional na classe, mas independente entre si, com probabilidade P(t k c) Para classificar docs, reprojetamos esse processo e encontramos a classe que é mais provável de ter gerado o documento. Classificação de textos & Naive Bayes 33 / 47

106 Segunda premissa de independência ˆP(X k1 = t c) = ˆP(X k2 = t c) Classificação de textos & Naive Bayes 34 / 47

107 Segunda premissa de independência ˆP(X k1 = t c) = ˆP(X k2 = t c) Por exemplo, para um documento na classe Inglaterra, a probabilidade de ter rainha na primeira posição do documento é a mesma de ter na última posição Classificação de textos & Naive Bayes 34 / 47

108 Segunda premissa de independência ˆP(X k1 = t c) = ˆP(X k2 = t c) Por exemplo, para um documento na classe Inglaterra, a probabilidade de ter rainha na primeira posição do documento é a mesma de ter na última posição As duas premissas de independência nos leva ao modelo de coleção de palavras. Classificação de textos & Naive Bayes 34 / 47

109 Um modelo de Naive Bayes: modelo de Bernoulli C=China U Alaska =0 U Beijing =1 U India =0 U aderem =1 U Taipei =1 U OMC =1 Classificação de textos & Naive Bayes 35 / 47

110 Violação das premissas de independência de Naive Bayes Independência condicional: P( t 1,...,t nd c) = 1 k n d P(X k = t k c) Classificação de textos & Naive Bayes 36 / 47

111 Violação das premissas de independência de Naive Bayes Independência condicional: P( t 1,...,t nd c) = P(X k = t k c) 1 k n d Independência posicional: Classificação de textos & Naive Bayes 36 / 47

112 Violação das premissas de independência de Naive Bayes Independência condicional: P( t 1,...,t nd c) = Independência posicional: ˆP(X k1 = t c) = ˆP(X k2 = t c) 1 k n d P(X k = t k c) Classificação de textos & Naive Bayes 36 / 47

113 Violação das premissas de independência de Naive Bayes Independência condicional: P( t 1,...,t nd c) = Independência posicional: ˆP(X k1 = t c) = ˆP(X k2 = t c) 1 k n d P(X k = t k c) As premissas de independência não são realmente verificadas em documentos escritos em linguagem natural Classificação de textos & Naive Bayes 36 / 47

114 Violação das premissas de independência de Naive Bayes Independência condicional: P( t 1,...,t nd c) = Independência posicional: ˆP(X k1 = t c) = ˆP(X k2 = t c) 1 k n d P(X k = t k c) As premissas de independência não são realmente verificadas em documentos escritos em linguagem natural Como é possível Naive Bayes funcionar se essas premissas não são apropriadas? Classificação de textos & Naive Bayes 36 / 47

115 Porquê Naive Bayes funciona? Naive Bayes pode funcionar bem apesar das premissas de independência não serem respeitadas Classificação de textos & Naive Bayes 37 / 47

116 Porquê Naive Bayes funciona? Naive Bayes pode funcionar bem apesar das premissas de independência não serem respeitadas Exemplo: c 1 c 2 classe escolhida prob. verdadeira P(c d) c 1 ˆP(c) 1 k n d ˆP(tk c) estimativa NB ˆP(c d) c 1 Classificação de textos & Naive Bayes 37 / 47

117 Porquê Naive Bayes funciona? Naive Bayes pode funcionar bem apesar das premissas de independência não serem respeitadas Exemplo: c 1 c 2 classe escolhida prob. verdadeira P(c d) c 1 ˆP(c) 1 k n d ˆP(tk c) estimativa NB ˆP(c d) c 1 Contagem duplicada de evidência causa subestimação (0.01) e superestimação (0.99). Classificação de textos & Naive Bayes 37 / 47

118 Porquê Naive Bayes funciona? Naive Bayes pode funcionar bem apesar das premissas de independência não serem respeitadas Exemplo: c 1 c 2 classe escolhida prob. verdadeira P(c d) c 1 ˆP(c) 1 k n d ˆP(tk c) estimativa NB ˆP(c d) c 1 Contagem duplicada de evidência causa subestimação (0.01) e superestimação (0.99). Classificação deve predizar a classe e não necessariamente as probabilidades Classificação de textos & Naive Bayes 37 / 47

119 Porquê Naive Bayes funciona? Naive Bayes pode funcionar bem apesar das premissas de independência não serem respeitadas Exemplo: c 1 c 2 classe escolhida prob. verdadeira P(c d) c 1 ˆP(c) 1 k n d ˆP(tk c) estimativa NB ˆP(c d) c 1 Contagem duplicada de evidência causa subestimação (0.01) e superestimação (0.99). Classificação deve predizar a classe e não necessariamente as probabilidades Naive Bayes é ruim para estimação as probabilidades... Classificação de textos & Naive Bayes 37 / 47

120 Porquê Naive Bayes funciona? Naive Bayes pode funcionar bem apesar das premissas de independência não serem respeitadas Exemplo: c 1 c 2 classe escolhida prob. verdadeira P(c d) c 1 ˆP(c) 1 k n d ˆP(tk c) estimativa NB ˆP(c d) c 1 Contagem duplicada de evidência causa subestimação (0.01) e superestimação (0.99). Classificação deve predizar a classe e não necessariamente as probabilidades Naive Bayes é ruim para estimação as probabilidades......mas funciona bem para predição de classes Classificação de textos & Naive Bayes 37 / 47

121 Naive Bayes funciona bem Naive Bayes tem sido aplicado em competições (e.g., KDD-CUP 97) Classificação de textos & Naive Bayes 38 / 47

122 Naive Bayes funciona bem Naive Bayes tem sido aplicado em competições (e.g., KDD-CUP 97) Mais robusto para termos não relevantes que métodos mais complexos Classificação de textos & Naive Bayes 38 / 47

123 Naive Bayes funciona bem Naive Bayes tem sido aplicado em competições (e.g., KDD-CUP 97) Mais robusto para termos não relevantes que métodos mais complexos Mais robusto para mudança de conceitos (alteração de definição de classe com o tempo) que métodos mais complexos Classificação de textos & Naive Bayes 38 / 47

124 Naive Bayes funciona bem Naive Bayes tem sido aplicado em competições (e.g., KDD-CUP 97) Mais robusto para termos não relevantes que métodos mais complexos Mais robusto para mudança de conceitos (alteração de definição de classe com o tempo) que métodos mais complexos Melhor que métodos como árvores de decisão quando temos muitos atributos igualmente importantes Classificação de textos & Naive Bayes 38 / 47

125 Naive Bayes funciona bem Naive Bayes tem sido aplicado em competições (e.g., KDD-CUP 97) Mais robusto para termos não relevantes que métodos mais complexos Mais robusto para mudança de conceitos (alteração de definição de classe com o tempo) que métodos mais complexos Melhor que métodos como árvores de decisão quando temos muitos atributos igualmente importantes Um bom nível de desempenho para classificação de textos (mas não o melhor) Classificação de textos & Naive Bayes 38 / 47

126 Naive Bayes funciona bem Naive Bayes tem sido aplicado em competições (e.g., KDD-CUP 97) Mais robusto para termos não relevantes que métodos mais complexos Mais robusto para mudança de conceitos (alteração de definição de classe com o tempo) que métodos mais complexos Melhor que métodos como árvores de decisão quando temos muitos atributos igualmente importantes Um bom nível de desempenho para classificação de textos (mas não o melhor) Ótimo se premissas de independência forem verdadeiras (nunca verdade para textos, mas verdade para alguns domínios) Classificação de textos & Naive Bayes 38 / 47

127 Naive Bayes funciona bem Naive Bayes tem sido aplicado em competições (e.g., KDD-CUP 97) Mais robusto para termos não relevantes que métodos mais complexos Mais robusto para mudança de conceitos (alteração de definição de classe com o tempo) que métodos mais complexos Melhor que métodos como árvores de decisão quando temos muitos atributos igualmente importantes Um bom nível de desempenho para classificação de textos (mas não o melhor) Ótimo se premissas de independência forem verdadeiras (nunca verdade para textos, mas verdade para alguns domínios) Muito rápido Classificação de textos & Naive Bayes 38 / 47

128 Naive Bayes funciona bem Naive Bayes tem sido aplicado em competições (e.g., KDD-CUP 97) Mais robusto para termos não relevantes que métodos mais complexos Mais robusto para mudança de conceitos (alteração de definição de classe com o tempo) que métodos mais complexos Melhor que métodos como árvores de decisão quando temos muitos atributos igualmente importantes Um bom nível de desempenho para classificação de textos (mas não o melhor) Ótimo se premissas de independência forem verdadeiras (nunca verdade para textos, mas verdade para alguns domínios) Muito rápido Baixos requisitos de armazenamento Classificação de textos & Naive Bayes 38 / 47

130 Avaliação no corpus Reuters regiões indústrias interesses γ(d ) =China classes: Inglaterra China aves café eleições esportes d conj. treino: tráfego Londres Olimpíadas Beijing alimento frango torragem grãos recontagem votos campo baseball conj. teste: primeira privada Chinês cia aérea Parlamento Big Ben turismo Muralha patê patos arábica robusta cargo 2 o turno ataque futebol Windsor a Rainha Mao comunismo aviária gripe Quênia colheita comerciais campanha time capitão Classificação de textos & Naive Bayes 40 / 47

131 Exemplo: Corpus Reuters símbolo estatística valor N documentos 800,000 L média. # tokens por documento 200 M palavras 400,000 Classificação de textos & Naive Bayes 41 / 47

132 Exemplo: Corpus Reuters símbolo estatística valor N documentos 800,000 L média. # tokens por documento 200 M palavras 400,000 tipo de classe número exemplos região 366 Inglaterra, China indústria 870 aves, café interesses 126 eleições, esportes Classificação de textos & Naive Bayes 41 / 47

133 Um documento do corpus Reuters Classificação de textos & Naive Bayes 42 / 47

134 Avaliando classificação Avaliação precisa ser feita em conjunto de testes que seja independente dos dados de treino, i.e., conjuntos de treino e teste são disjuntos Classificação de textos & Naive Bayes 43 / 47

135 Avaliando classificação Avaliação precisa ser feita em conjunto de testes que seja independente dos dados de treino, i.e., conjuntos de treino e teste são disjuntos Fácil obter bom desempenho em um conjunto de teste que estava disponível durante o treino. Classificação de textos & Naive Bayes 43 / 47

136 Avaliando classificação Avaliação precisa ser feita em conjunto de testes que seja independente dos dados de treino, i.e., conjuntos de treino e teste são disjuntos Fácil obter bom desempenho em um conjunto de teste que estava disponível durante o treino. Medidas: Precisão, recuperação, F 1, acurácia de classificação Classificação de textos & Naive Bayes 43 / 47

137 Precisão P and recuperação R na classe não na classe predito como estar na classe verd. positivos (VP) falso positives (FP) predito como não estar classe falso negativos (FN) verd. negativos (VN) TP, FP, FN, TN são contagens de documentos. A soma dos quatro números é igual ao número de documentos precisão:p = TP/(TP + FP) recuperação:r = TP/(TP + FN) Classificação de textos & Naive Bayes 44 / 47

138 Uma medida combinada : F F 1 equilibrar taxa de precisão e recuperação Classificação de textos & Naive Bayes 45 / 47

139 Uma medida combinada : F F 1 equilibrar taxa de precisão e recuperação F 1 = P R = 2PR P +R Classificação de textos & Naive Bayes 45 / 47

140 Uma medida combinada : F F 1 equilibrar taxa de precisão e recuperação F 1 = P R Média de P e R: 1 F = 1 2 ( 1 P + 1 R ) = 2PR P +R Classificação de textos & Naive Bayes 45 / 47

141 Média: Micro vs. Macro Agora temos uma medida de avaliação (F 1 ) para uma classe. Classificação de textos & Naive Bayes 46 / 47

142 Média: Micro vs. Macro Agora temos uma medida de avaliação (F 1 ) para uma classe. Mas também queremos um número único que mede o desempenho agregado sobre todas as classes na coleção Classificação de textos & Naive Bayes 46 / 47

143 Média: Micro vs. Macro Agora temos uma medida de avaliação (F 1 ) para uma classe. Mas também queremos um número único que mede o desempenho agregado sobre todas as classes na coleção Macro-média Classificação de textos & Naive Bayes 46 / 47

144 Média: Micro vs. Macro Agora temos uma medida de avaliação (F 1 ) para uma classe. Mas também queremos um número único que mede o desempenho agregado sobre todas as classes na coleção Macro-média Calcular F 1 para cada uma das classes em C Classificação de textos & Naive Bayes 46 / 47

145 Média: Micro vs. Macro Agora temos uma medida de avaliação (F 1 ) para uma classe. Mas também queremos um número único que mede o desempenho agregado sobre todas as classes na coleção Macro-média Calcular F 1 para cada uma das classes em C Médias desses F 1 para cada classe C Classificação de textos & Naive Bayes 46 / 47

146 Média: Micro vs. Macro Agora temos uma medida de avaliação (F 1 ) para uma classe. Mas também queremos um número único que mede o desempenho agregado sobre todas as classes na coleção Macro-média Calcular F 1 para cada uma das classes em C Médias desses F 1 para cada classe C Micro-média Classificação de textos & Naive Bayes 46 / 47

147 Média: Micro vs. Macro Agora temos uma medida de avaliação (F 1 ) para uma classe. Mas também queremos um número único que mede o desempenho agregado sobre todas as classes na coleção Macro-média Calcular F 1 para cada uma das classes em C Médias desses F 1 para cada classe C Micro-média Computar TP, FP, FN para cada classe de C Classificação de textos & Naive Bayes 46 / 47

148 Média: Micro vs. Macro Agora temos uma medida de avaliação (F 1 ) para uma classe. Mas também queremos um número único que mede o desempenho agregado sobre todas as classes na coleção Macro-média Calcular F 1 para cada uma das classes em C Médias desses F 1 para cada classe C Micro-média Computar TP, FP, FN para cada classe de C Somar esses C números (e.g., todos os TP são somados) Classificação de textos & Naive Bayes 46 / 47

149 Média: Micro vs. Macro Agora temos uma medida de avaliação (F 1 ) para uma classe. Mas também queremos um número único que mede o desempenho agregado sobre todas as classes na coleção Macro-média Calcular F 1 para cada uma das classes em C Médias desses F 1 para cada classe C Micro-média Computar TP, FP, FN para cada classe de C Somar esses C números (e.g., todos os TP são somados) Computar F 1 para os TP, FP, FN somados Classificação de textos & Naive Bayes 46 / 47

150 Naive Bayes vs. outros métodos (a) NB Rocchio knn SVM micro-média-l (90 classes) macro-média (90 classes) (b) NB Rocchio knn árvores SVM earn acq money-fx grain crude trade interest ship wheat corn micro-média(top 10) micro-média-d (118 classes) n/a n/a 87 Medida de avaliação: F 1 Classificação de textos & Naive Bayes 47 / 47

151 Naive Bayes vs. outros métodos (a) NB Rocchio knn SVM micro-média-l (90 classes) macro-média (90 classes) (b) NB Rocchio knn árvores SVM earn acq money-fx grain crude trade interest ship wheat corn micro-média(top 10) micro-média-d (118 classes) n/a n/a 87 Medida de avaliação: F 1 Naive Bayes funciona bem, mas alguns métodos são consistentemente melhores (e.g., SVM). Classificação de textos & Naive Bayes 47 / 47