Classificação de textos Naive Bayes Teoria de Naive Bayes Avaliação de classificação de textos. Classificação de textos & Naive Bayes 1 / 48

Tamanho: px
Começar a partir da página:

Download "Classificação de textos Naive Bayes Teoria de Naive Bayes Avaliação de classificação de textos. Classificação de textos & Naive Bayes 1 / 48"

Transcrição

1 Conteúdo Classificação de textos & Naive Bayes 1 / 48

2 Conteúdo Classificação de textos: definição & relevância para ORI Classificação de textos & Naive Bayes 1 / 48

3 Conteúdo Classificação de textos: definição & relevância para ORI Naive Bayes: classificador de textos Classificação de textos & Naive Bayes 1 / 48

4 Conteúdo Classificação de textos: definição & relevância para ORI Naive Bayes: classificador de textos Teoria: derivação da regra de classificação de Naive Bayes Classificação de textos & Naive Bayes 1 / 48

5 Conteúdo Classificação de textos: definição & relevância para ORI Naive Bayes: classificador de textos Teoria: derivação da regra de classificação de Naive Bayes Avaliação de classificação de textos: como saber se está funcionando Classificação de textos & Naive Bayes 1 / 48

6 Outline 1 Classificação de textos 2 Naive Bayes 3 Teoria de Naive Bayes 4 Avaliação de classificação de textos Classificação de textos & Naive Bayes 2 / 48

7 A tarefa de classificação de textos: filtragem de s spam De: "UFU Contas Suporte Técnico c 2013 " <upgrade@fcm.unicamp.br> Assunto: Caro UFU Usuário (Urgente!). Caro UFU Usuário Estamos atualizando nosso banco de dados dos EUA e centro conta de . Estamos a excluir todas as contas de webmail n~ao utilizados da UFU e criar mais espaço para novas contas. Para garantir que voc^e n~ao experimenta interrupç~ao do serviço durante este período, voc^e precisa clicar no link de validaç~ao abaixo e preencher as informaç~oes yourufu: Validaç~ao Link: Voc^e receberá uma confirmaç~ao de uma nova senha alfanumérica que só é válida durante este período e podem ser alteradas por esse processo. Pedimos desculpas por qualquer inconveniente que isso possa custar-lhe. Por favor, responda a este para que possamos dar-lhe melhores serviços online com o nosso webmail funcionalidade e melhorias novo e melhorado. ================================================= Classificação de textos & Naive Bayes 3 / 48

8 Definição de classificação de textos: treinamento Classificação de textos & Naive Bayes 4 / 48

9 Definição de classificação de textos: treinamento Considerando: Um espaço de documentos X Classificação de textos & Naive Bayes 4 / 48

10 Definição de classificação de textos: treinamento Considerando: Um espaço de documentos X Documentos são representados nesse espaço tipicamente algum tipo de espaço de alta-dimensionalidade. Classificação de textos & Naive Bayes 4 / 48

11 Definição de classificação de textos: treinamento Considerando: Um espaço de documentos X Documentos são representados nesse espaço tipicamente algum tipo de espaço de alta-dimensionalidade. Um conjunto fixo de classes C = {c 1,c 2,...,c J } Classificação de textos & Naive Bayes 4 / 48

12 Definição de classificação de textos: treinamento Considerando: Um espaço de documentos X Documentos são representados nesse espaço tipicamente algum tipo de espaço de alta-dimensionalidade. Um conjunto fixo de classes C = {c 1,c 2,...,c J } As classes/rótulos são definidas de acordo com a necessidade da aplicação: (e.g., spam vs. não-spam). Classificação de textos & Naive Bayes 4 / 48

13 Definição de classificação de textos: treinamento Considerando: Um espaço de documentos X Documentos são representados nesse espaço tipicamente algum tipo de espaço de alta-dimensionalidade. Um conjunto fixo de classes C = {c 1,c 2,...,c J } As classes/rótulos são definidas de acordo com a necessidade da aplicação: (e.g., spam vs. não-spam). Um conjunto de treinamento de D documentos rotulados Cada documento rotulado d,c X C Classificação de textos & Naive Bayes 4 / 48

14 Definição de classificação de textos: treinamento Considerando: Um espaço de documentos X Documentos são representados nesse espaço tipicamente algum tipo de espaço de alta-dimensionalidade. Um conjunto fixo de classes C = {c 1,c 2,...,c J } As classes/rótulos são definidas de acordo com a necessidade da aplicação: (e.g., spam vs. não-spam). Um conjunto de treinamento de D documentos rotulados Cada documento rotulado d,c X C Usando um algoritmo de aprendizado podemos aprender um classificador γ que mapeia documentos para classes: γ : X C Classificação de textos & Naive Bayes 4 / 48

15 Definição formal de classificação de textos: aplicação/testes Classificação de textos & Naive Bayes 5 / 48

16 Definição formal de classificação de textos: aplicação/testes Considerando: uma descrição d X de um documento Determinar: γ(d) C, isto é, a classe é a mais apropriada para d Classificação de textos & Naive Bayes 5 / 48

17 Classificação de tópicos regiões indústrias interesses γ(d ) =China classes: Inglaterra China aves café eleições esportes d conj. treino: tráfego Londres Olimpíadas Beijing alimento frango torragem grãoes recontagem votos campo baseball conj. teste: primeira cia aérea privada chinesa Parlamento Big Ben turismo Muralha patê patos arabica robusta cargo 2 o turno ataque futebol Windsor a Rainha Mao comunista aviária gripe Quênia colheita comerciais campanha time capitão Classificação de textos & Naive Bayes 6 / 48

18 Exercício Classificação de textos & Naive Bayes 7 / 48

19 Exercício Encontrar exemplos do uso de classificação de textos em recuperação de informação Classificação de textos & Naive Bayes 7 / 48

20 Exemplos de como motores de busca usam classificação Classificação de textos & Naive Bayes 8 / 48

21 Exemplos de como motores de busca usam classificação Identificação de idioma (classes: inglês vs. francês etc.) Classificação de textos & Naive Bayes 8 / 48

22 Exemplos de como motores de busca usam classificação Identificação de idioma (classes: inglês vs. francês etc.) Detecção automática de páginas de spam web Classificação de textos & Naive Bayes 8 / 48

23 Exemplos de como motores de busca usam classificação Identificação de idioma (classes: inglês vs. francês etc.) Detecção automática de páginas de spam web Detecção automática de conteúdo sexualmente expĺıcito Classificação de textos & Naive Bayes 8 / 48

24 Exemplos de como motores de busca usam classificação Identificação de idioma (classes: inglês vs. francês etc.) Detecção automática de páginas de spam web Detecção automática de conteúdo sexualmente expĺıcito Buscas contínuas (e.g., Alertas do Google) Classificação de textos & Naive Bayes 8 / 48

25 Exemplos de como motores de busca usam classificação Identificação de idioma (classes: inglês vs. francês etc.) Detecção automática de páginas de spam web Detecção automática de conteúdo sexualmente expĺıcito Buscas contínuas (e.g., Alertas do Google) Detecção de sentimento: avaliação de filme/produto é positiva ou negativa Classificação de textos & Naive Bayes 8 / 48

26 Exemplos de como motores de busca usam classificação Identificação de idioma (classes: inglês vs. francês etc.) Detecção automática de páginas de spam web Detecção automática de conteúdo sexualmente expĺıcito Buscas contínuas (e.g., Alertas do Google) Detecção de sentimento: avaliação de filme/produto é positiva ou negativa Função de ranking sem informação de retorno: documento é relevante ou não relevante Classificação de textos & Naive Bayes 8 / 48

27 Métodos de classificação: 1. Manual Classificação de textos & Naive Bayes 9 / 48

28 Métodos de classificação: 1. Manual Classificação manual (usado pelo Yahoo no começo da Web e PubMed) Classificação de textos & Naive Bayes 9 / 48

29 Métodos de classificação: 1. Manual Classificação manual (usado pelo Yahoo no começo da Web e PubMed) Classificação de textos & Naive Bayes 9 / 48

30 Métodos de classificação: 1. Manual Classificação manual (usado pelo Yahoo no começo da Web e PubMed) Acurácia alta se feito por especialistas Classificação de textos & Naive Bayes 9 / 48

31 Métodos de classificação: 1. Manual Classificação manual (usado pelo Yahoo no começo da Web e PubMed) Acurácia alta se feito por especialistas Consistente quando problema e time de especialistas é pequeno Classificação de textos & Naive Bayes 9 / 48

32 Métodos de classificação: 1. Manual Classificação manual (usado pelo Yahoo no começo da Web e PubMed) Acurácia alta se feito por especialistas Consistente quando problema e time de especialistas é pequeno Classificação manual para problemas grandes é difícil e proibitivo Classificação de textos & Naive Bayes 9 / 48

33 Métodos de classificação: 1. Manual Classificação manual (usado pelo Yahoo no começo da Web e PubMed) Acurácia alta se feito por especialistas Consistente quando problema e time de especialistas é pequeno Classificação manual para problemas grandes é difícil e proibitivo necessitamos de métodos automáticos para classificação Classificação de textos & Naive Bayes 9 / 48

34 Métodos de classificação: 2. Baseado em regras Classificação de textos & Naive Bayes 10 / 48

35 Métodos de classificação: 2. Baseado em regras E.g., Alertas do Google funciona com regras Classificação de textos & Naive Bayes 10 / 48

36 Métodos de classificação: 2. Baseado em regras E.g., Alertas do Google funciona com regras Comum: combinações booleanas Classificação de textos & Naive Bayes 10 / 48

37 Métodos de classificação: 2. Baseado em regras E.g., Alertas do Google funciona com regras Comum: combinações booleanas Acurácia é alta, se regra foi refinada com o tempo por especialista Classificação de textos & Naive Bayes 10 / 48

38 Métodos de classificação: 2. Baseado em regras E.g., Alertas do Google funciona com regras Comum: combinações booleanas Acurácia é alta, se regra foi refinada com o tempo por especialista Construir e manter um sistema de classificação com regras pode ser problemático e caro Classificação de textos & Naive Bayes 10 / 48

39 Uma regra de classificação complexa Classificação de textos & Naive Bayes 11 / 48

40 Uma regra de classificação complexa Classificação de textos & Naive Bayes 11 / 48

41 Métodos de classificação: 3. estatísticos Classificação de textos & Naive Bayes 12 / 48

42 Métodos de classificação: 3. estatísticos classificação de textos como um problema de aprendizado Classificação de textos & Naive Bayes 12 / 48

43 Métodos de classificação: 3. estatísticos classificação de textos como um problema de aprendizado (i) Aprendizado supervisionado de uma função de classificação γ e (ii) aplicação de γ para classificar novos documentos Classificação de textos & Naive Bayes 12 / 48

44 Métodos de classificação: 3. estatísticos classificação de textos como um problema de aprendizado (i) Aprendizado supervisionado de uma função de classificação γ e (ii) aplicação de γ para classificar novos documentos Veremos para isso: Naive Bayes Classificação de textos & Naive Bayes 12 / 48

45 Outline 1 Classificação de textos 2 Naive Bayes 3 Teoria de Naive Bayes 4 Avaliação de classificação de textos Classificação de textos & Naive Bayes 13 / 48

46 Classificador probabiĺıstico: Naive Bayes Computar a probabilidade de um documento d sendo uma classe c da seguinte forma: P(c d) P(c) P(t k c) 1 k n d Classificação de textos & Naive Bayes 14 / 48

47 Classificador probabiĺıstico: Naive Bayes Computar a probabilidade de um documento d sendo uma classe c da seguinte forma: P(c d) P(c) P(t k c) 1 k n d n d é o tamanho do documento. (número de tokens) Classificação de textos & Naive Bayes 14 / 48

48 Classificador probabiĺıstico: Naive Bayes Computar a probabilidade de um documento d sendo uma classe c da seguinte forma: P(c d) P(c) P(t k c) 1 k n d n d é o tamanho do documento. (número de tokens) P(t k c) é a probabilidade condicional do termo t k ocorrer em um documento da classe c Classificação de textos & Naive Bayes 14 / 48

49 Classificador probabiĺıstico: Naive Bayes Computar a probabilidade de um documento d sendo uma classe c da seguinte forma: P(c d) P(c) P(t k c) 1 k n d n d é o tamanho do documento. (número de tokens) P(t k c) é a probabilidade condicional do termo t k ocorrer em um documento da classe c P(t k c) pode ser vista como uma medida de quanta evidência t k contribui para que c seja da classe correta Classificação de textos & Naive Bayes 14 / 48

50 Classificador probabiĺıstico: Naive Bayes Computar a probabilidade de um documento d sendo uma classe c da seguinte forma: P(c d) P(c) P(t k c) 1 k n d n d é o tamanho do documento. (número de tokens) P(t k c) é a probabilidade condicional do termo t k ocorrer em um documento da classe c P(t k c) pode ser vista como uma medida de quanta evidência t k contribui para que c seja da classe correta P(c) é a probabilidade a priori de c. Classificação de textos & Naive Bayes 14 / 48

51 Classificador probabiĺıstico: Naive Bayes Computar a probabilidade de um documento d sendo uma classe c da seguinte forma: P(c d) P(c) P(t k c) 1 k n d n d é o tamanho do documento. (número de tokens) P(t k c) é a probabilidade condicional do termo t k ocorrer em um documento da classe c P(t k c) pode ser vista como uma medida de quanta evidência t k contribui para que c seja da classe correta P(c) é a probabilidade a priori de c. Se os termos de um documento não dão evidência clara para classe vs. outra, escolhemos a classe c com maior P(c). Classificação de textos & Naive Bayes 14 / 48

52 Classe com probabilidade a posteriori máxima Objetivo da classificação Naive Bayes é encontrar a melhor classe Classificação de textos & Naive Bayes 15 / 48

53 Classe com probabilidade a posteriori máxima Objetivo da classificação Naive Bayes é encontrar a melhor classe A melhor classe é a mais provável ou classe de máxima probabilidade a posteriori (MAP) c map : c map = argmax c C ˆP(c d) = argmax c C ˆP(c) 1 k n d ˆP(t k c) Classificação de textos & Naive Bayes 15 / 48

54 Fazendo o logaritmo Classificação de textos & Naive Bayes 16 / 48

55 Fazendo o logaritmo Multiplicar muitas probabilidades pequenas resulta em erro de ponto flutuante Classificação de textos & Naive Bayes 16 / 48

56 Fazendo o logaritmo Multiplicar muitas probabilidades pequenas resulta em erro de ponto flutuante Como log(xy) = log(x)+log(y), podemos somar o logaritmo das probabilidades em vez de multiplicar Classificação de textos & Naive Bayes 16 / 48

57 Fazendo o logaritmo Multiplicar muitas probabilidades pequenas resulta em erro de ponto flutuante Como log(xy) = log(x)+log(y), podemos somar o logaritmo das probabilidades em vez de multiplicar Como log é uma função monotônica, a classe com pontuação mais alta não muda Classificação de textos & Naive Bayes 16 / 48

58 Fazendo o logaritmo Multiplicar muitas probabilidades pequenas resulta em erro de ponto flutuante Como log(xy) = log(x)+log(y), podemos somar o logaritmo das probabilidades em vez de multiplicar Como log é uma função monotônica, a classe com pontuação mais alta não muda Na prática, calculamos: c map = argmax c C [log ˆP(c)+ 1 k n d log ˆP(t k c)] Classificação de textos & Naive Bayes 16 / 48

59 Classificador Naive Bayes Classificação de textos & Naive Bayes 17 / 48

60 Classificador Naive Bayes Regra de classificação: c map = argmax c C [log ˆP(c)+ 1 k n d log ˆP(t k c)] Classificação de textos & Naive Bayes 17 / 48

61 Classificador Naive Bayes Regra de classificação: c map = argmax c C Interpretação: [log ˆP(c)+ 1 k n d log ˆP(t k c)] Classificação de textos & Naive Bayes 17 / 48

62 Classificador Naive Bayes Regra de classificação: c map = argmax c C [log ˆP(c)+ 1 k n d log ˆP(t k c)] Interpretação: n d é o número de tokens no documento d Classificação de textos & Naive Bayes 17 / 48

63 Classificador Naive Bayes Regra de classificação: c map = argmax c C [log ˆP(c)+ 1 k n d log ˆP(t k c)] Interpretação: n d é o número de tokens no documento d Cada parâmetro condicional log ˆP(t k c) é um peso que indica o quão bom indicador o termo t k é para c Classificação de textos & Naive Bayes 17 / 48

64 Classificador Naive Bayes Regra de classificação: c map = argmax c C [log ˆP(c)+ 1 k n d log ˆP(t k c)] Interpretação: n d é o número de tokens no documento d Cada parâmetro condicional log ˆP(t k c) é um peso que indica o quão bom indicador o termo t k é para c A probabilidade a priori log ˆP(c) é um peso que indica a frequência relativa de c Classificação de textos & Naive Bayes 17 / 48

65 Classificador Naive Bayes Regra de classificação: c map = argmax c C [log ˆP(c)+ 1 k n d log ˆP(t k c)] Interpretação: n d é o número de tokens no documento d Cada parâmetro condicional log ˆP(t k c) é um peso que indica o quão bom indicador o termo t k é para c A probabilidade a priori log ˆP(c) é um peso que indica a frequência relativa de c A soma do log de probabilidades e os pesos dos termos é então uma medida de quanta evidência há para o documento ser da classe c Classificação de textos & Naive Bayes 17 / 48

66 Classificador Naive Bayes Regra de classificação: c map = argmax c C [log ˆP(c)+ 1 k n d log ˆP(t k c)] Interpretação: n d é o número de tokens no documento d Cada parâmetro condicional log ˆP(t k c) é um peso que indica o quão bom indicador o termo t k é para c A probabilidade a priori log ˆP(c) é um peso que indica a frequência relativa de c A soma do log de probabilidades e os pesos dos termos é então uma medida de quanta evidência há para o documento ser da classe c Selecionamos a classe com maior evidência c MAP Classificação de textos & Naive Bayes 17 / 48

67 Estimação de parâmetros 1: máxima verossimilhança Classificação de textos & Naive Bayes 18 / 48

68 Estimação de parâmetros 1: máxima verossimilhança Estimar parâmetros ˆP(c) e ˆP(t k c) a partir dos dados de treino: como? Classificação de textos & Naive Bayes 18 / 48

69 Estimação de parâmetros 1: máxima verossimilhança Estimar parâmetros ˆP(c) e ˆP(t k c) a partir dos dados de treino: como? Prior: ˆP(c) = N c N Classificação de textos & Naive Bayes 18 / 48

70 Estimação de parâmetros 1: máxima verossimilhança Estimar parâmetros ˆP(c) e ˆP(t k c) a partir dos dados de treino: como? Prior: ˆP(c) = N c N N c : número de docs na classe c; N: número total de docs Classificação de textos & Naive Bayes 18 / 48

71 Estimação de parâmetros 1: máxima verossimilhança Estimar parâmetros ˆP(c) e ˆP(t k c) a partir dos dados de treino: como? Prior: ˆP(c) = N c N N c : número de docs na classe c; N: número total de docs Probabilidades condicionais: ˆP(t c) = T c,t t V T c,t Classificação de textos & Naive Bayes 18 / 48

72 Estimação de parâmetros 1: máxima verossimilhança Estimar parâmetros ˆP(c) e ˆP(t k c) a partir dos dados de treino: como? Prior: ˆP(c) = N c N N c : número de docs na classe c; N: número total de docs Probabilidades condicionais: ˆP(t c) = T c,t t V T c,t T c,t é o número de tokens de t nos documentos de treino da classe c (inclui múltiplas ocorrências) Classificação de textos & Naive Bayes 18 / 48

73 Estimação de parâmetros 1: máxima verossimilhança Estimar parâmetros ˆP(c) e ˆP(t k c) a partir dos dados de treino: como? Prior: ˆP(c) = N c N N c : número de docs na classe c; N: número total de docs Probabilidades condicionais: ˆP(t c) = T c,t t V T c,t T c,t é o número de tokens de t nos documentos de treino da classe c (inclui múltiplas ocorrências) Usamos a premissa de independência de Naive Bayes aqui: ˆP(t k1 c) = ˆP(t k2 c), independência da posição Classificação de textos & Naive Bayes 18 / 48

74 O problema com estimativas de máxima verossimilhança: zeros Classificação de textos & Naive Bayes 19 / 48

75 O problema com estimativas de máxima verossimilhança: zeros C=China X 1 =Beijing X 2 =e X 3 =Taipei X 4 =aderem X 5 =OMC P(China d) P(China) P(Beijing China) P(e China) P(Taipei China) P(aderem China) P(OMC China) Se OMC nunca ocorrer na classe China no conjunto de treinamento: ˆP(OMC China) = T China,OMC 0 t V T = China,t t V T = 0 China,t Classificação de textos & Naive Bayes 19 / 48

76 O problema com estimativas de máxima verossimilhança: zeros C=China X 1 =Beijing X 2 =e X 3 =Taipei X 4 =aderem X 5 =OMC P(China d) P(China) P(Beijing China) P(e China) P(Taipei China) P(aderem China) P(OMC China) Se OMC nunca ocorrer na classe China no conjunto de treinamento: ˆP(OMC China) = T China,OMC 0 t V T = China,t t V T = 0 China,t Classificação de textos & Naive Bayes 19 / 48

77 Problema com estimativas de máx. verossimilhança: zeros Se não há ocorrências de OMC nos documentos na classe China, temos uma estimativa: ˆP(OMC China) = T China,OMC t V T China,t = 0 Classificação de textos & Naive Bayes 20 / 48

78 Problema com estimativas de máx. verossimilhança: zeros Se não há ocorrências de OMC nos documentos na classe China, temos uma estimativa: ˆP(OMC China) = T China,OMC t V T China,t = 0 Teremos P(China d) = 0 para qualquer documento que contém OMC! Classificação de textos & Naive Bayes 20 / 48

79 Evitar zeros: suavização somar-um Classificação de textos & Naive Bayes 21 / 48

80 Evitar zeros: suavização somar-um Antes: ˆP(t c) = T c,t t V T c,t Classificação de textos & Naive Bayes 21 / 48

81 Evitar zeros: suavização somar-um Antes: ˆP(t c) = T c,t t V T c,t Agora: somar um para cada contador para evitar zeros: ˆP(t c) = T c,t +1 t V (T c,t +1) = T c,t +1 ( t V T c,t )+B Classificação de textos & Naive Bayes 21 / 48

82 Evitar zeros: suavização somar-um Antes: ˆP(t c) = T c,t t V T c,t Agora: somar um para cada contador para evitar zeros: ˆP(t c) = T c,t +1 t V (T c,t +1) = T c,t +1 ( t V T c,t )+B B = V é o tamanho do vocabulário Classificação de textos & Naive Bayes 21 / 48

83 Resumo: Naive Bayes Classificação de textos & Naive Bayes 22 / 48

84 Resumo: Naive Bayes Estimar parâmetros do corpus de treino usando suavização soma-um Classificação de textos & Naive Bayes 22 / 48

85 Resumo: Naive Bayes Estimar parâmetros do corpus de treino usando suavização soma-um Para um novo documento, para cada classe, calcular a soma de (i) log das probabilidades a priori e (ii) logs das probabilidades condicionais dos termos Classificação de textos & Naive Bayes 22 / 48

86 Resumo: Naive Bayes Estimar parâmetros do corpus de treino usando suavização soma-um Para um novo documento, para cada classe, calcular a soma de (i) log das probabilidades a priori e (ii) logs das probabilidades condicionais dos termos Atribuir o documento para a classe com maior pontuação Classificação de textos & Naive Bayes 22 / 48

87 Naive Bayes: treino Classificação de textos & Naive Bayes 23 / 48

88 Naive Bayes: treino NB = Naive Bayes TreinoMultinomialNB(C, D) 1 V ExtrairVocabulario(D) 2 N ContaDocs(D) 3 for each c C 4 do N c ContaDocsNaClasse(D,c) 5 priori[c] N c /N 6 texto c ConcatenaTextoTodosDocsNaClasse(D,c) 7 for each t V 8 do T c,t ContaTokensDeTermo(texto c,t) 9 for each t V 10 do probcond[t][c] Tc,t+1 11 return V,priori,probcond t (T c,t +1) Classificação de textos & Naive Bayes 23 / 48

89 Naive Bayes: teste Classificação de textos & Naive Bayes 24 / 48

90 Naive Bayes: teste AplicarMultinomialNB(C, V, priori, probcond, d) 1 W ExtrairTokensDeDoc(V, d) 2 for each c C 3 do pontuacao[c] log priori[c] 4 for each t W 5 do pontuacao[c]+ = log probcond[t][c] 6 return argmax c C pontuacao[c] Classificação de textos & Naive Bayes 24 / 48

91 Exercício docid palavras no documento em c = China? conj. treino 1 Chinês Beijing Chinês sim 2 Chinês Chinês Shanghai sim 3 Chinês Macao sim 4 Tóquio Japão Chinês não conj. testes 5 Chinês Chinês Chinês Tóquio Japão? Estimar parâmetros do classificador de Naive Bayes Classificar documentos de teste Classificação de textos & Naive Bayes 25 / 48

92 Exemplo: estimação de parâmetros Classificação de textos & Naive Bayes 26 / 48

93 Exemplo: estimação de parâmetros Probabilidades a priori: ˆP(c) = 3/4 e ˆP(c) = 1/4 Probabilidades condicionais: ˆP(Chinês c) = (5+1)/(8+6) = 6/14 = 3/7 ˆP(Tóquio c) = ˆP(Japão c) = (0+1)/(8+6) = 1/14 ˆP(Chinês c) = (1+1)/(3+6) = 2/9 ˆP(Tóquio c) = ˆP(Japão c) = (1+1)/(3+6) = 2/9 Os denominadores são (8+6) e (3+6) porque os tamanhos de text c e text c são 8 e 3 e porque a constante B é 6 como o vocabulário consiste de seis termos Classificação de textos & Naive Bayes 26 / 48

94 Exemplo: classificação Classificação de textos & Naive Bayes 27 / 48

95 Exemplo: classificação ˆP(c d 5 ) 3/4 (3/7) 3 1/14 1/ ˆP(c d 5 ) 1/4 (2/9) 3 2/9 2/ Então o classificador atribui o documento de teste para classe c = China. A razão para essa decisão de classificação é que as três ocorrências do indicador positivo Chinês em d 5 supera as ocorrências de dois indicadores negativos Japão e Tóquio. Classificação de textos & Naive Bayes 27 / 48

96 Complexidade de tempo de Naive Bayes Classificação de textos & Naive Bayes 28 / 48

97 Complexidade de tempo de Naive Bayes modo complexidade de tempo treino Θ( D L ave + C V ) teste Θ(L a + C M a ) = Θ( C M a ) L ave : tamanho médio de um documento de treino, L a : tamanho de um documeto de teste, M a : número de termos distintos no doc de teste D: conj. treino, V: vocabulário, C: conj. de classes Classificação de textos & Naive Bayes 28 / 48

98 Complexidade de tempo de Naive Bayes modo complexidade de tempo treino Θ( D L ave + C V ) teste Θ(L a + C M a ) = Θ( C M a ) L ave : tamanho médio de um documento de treino, L a : tamanho de um documeto de teste, M a : número de termos distintos no doc de teste D: conj. treino, V: vocabulário, C: conj. de classes Θ( D L ave ) é o tempo que leva para calcular todas as contagens Classificação de textos & Naive Bayes 28 / 48

99 Complexidade de tempo de Naive Bayes modo complexidade de tempo treino Θ( D L ave + C V ) teste Θ(L a + C M a ) = Θ( C M a ) L ave : tamanho médio de um documento de treino, L a : tamanho de um documeto de teste, M a : número de termos distintos no doc de teste D: conj. treino, V: vocabulário, C: conj. de classes Θ( D L ave ) é o tempo que leva para calcular todas as contagens Θ( C V ) é o tempo que leva para obter parâmetros from the counts. Classificação de textos & Naive Bayes 28 / 48

100 Complexidade de tempo de Naive Bayes modo complexidade de tempo treino Θ( D L ave + C V ) teste Θ(L a + C M a ) = Θ( C M a ) L ave : tamanho médio de um documento de treino, L a : tamanho de um documeto de teste, M a : número de termos distintos no doc de teste D: conj. treino, V: vocabulário, C: conj. de classes Θ( D L ave ) é o tempo que leva para calcular todas as contagens Θ( C V ) é o tempo que leva para obter parâmetros from the counts. Geralmente : C V < D L ave Classificação de textos & Naive Bayes 28 / 48

101 Complexidade de tempo de Naive Bayes modo complexidade de tempo treino Θ( D L ave + C V ) teste Θ(L a + C M a ) = Θ( C M a ) L ave : tamanho médio de um documento de treino, L a : tamanho de um documeto de teste, M a : número de termos distintos no doc de teste D: conj. treino, V: vocabulário, C: conj. de classes Θ( D L ave ) é o tempo que leva para calcular todas as contagens Θ( C V ) é o tempo que leva para obter parâmetros from the counts. Geralmente : C V < D L ave Tempo de teste também é linear (no tamanho para o documento de teste) Classificação de textos & Naive Bayes 28 / 48

102 modo complexidade de tempo treino Θ( D L ave + C V ) teste Θ(L a + C M a ) = Θ( C M a ) L ave : tamanho médio de um documento de treino, L a : tamanho de um documeto de teste, M a : número de termos distintos no doc de teste D: conj. treino, V: vocabulário, C: conj. de classes Θ( D L ave ) é o tempo que leva para calcular todas as contagens Θ( C V ) é o tempo que leva para obter parâmetros from the counts. Geralmente : C V < D L ave Tempo de teste também é linear (no tamanho para o documento de teste) Então: Naive Bayes é linear no tamanho do conjunto de treino e no documento de teste Classificação de textos & Naive Bayes 28 / 48 Complexidade de tempo de Naive Bayes

103 Outline 1 Classificação de textos 2 Naive Bayes 3 Teoria de Naive Bayes 4 Avaliação de classificação de textos Classificação de textos & Naive Bayes 29 / 48

104 Naive Bayes: análise Classificação de textos & Naive Bayes 30 / 48

105 Naive Bayes: análise Queremos ver melhor as propriedades de Naive Bayes. Classificação de textos & Naive Bayes 30 / 48

106 Naive Bayes: análise Queremos ver melhor as propriedades de Naive Bayes. Derivaremos a regra de classificação... Classificação de textos & Naive Bayes 30 / 48

107 Naive Bayes: análise Queremos ver melhor as propriedades de Naive Bayes. Derivaremos a regra de classificação e faremos as premissas explicitamente Classificação de textos & Naive Bayes 30 / 48

108 Derivação da regra de Naive Bayes Classificação de textos & Naive Bayes 31 / 48

109 Derivação da regra de Naive Bayes Queremos encontrar a classe que é mais provável para um dado documento: c map = argmax c C P(c d) Aplicar regra de Bayes P(A B) = P(B A)P(A) P(B) : c map = argmax c C P(d c)p(c) P(d) Ignorar denominador uma vez que P(d) é igual para todas as classes: c map = argmax c C P(d c)p(c) Classificação de textos & Naive Bayes 31 / 48

110 Muitos parâmetros / esparsidade c map = argmax P(d c)p(c) c C = argmaxp( t 1,...,t k,...,t nd c)p(c) c C Classificação de textos & Naive Bayes 32 / 48

111 Muitos parâmetros / esparsidade c map = argmax P(d c)p(c) c C = argmaxp( t 1,...,t k,...,t nd c)p(c) c C Há muitos parâmetros P( t 1,...,t k,...,t nd c), um para cada combinação única de uma classe e sequência de palavras Classificação de textos & Naive Bayes 32 / 48

112 Muitos parâmetros / esparsidade c map = argmax P(d c)p(c) c C = argmaxp( t 1,...,t k,...,t nd c)p(c) c C Há muitos parâmetros P( t 1,...,t k,...,t nd c), um para cada combinação única de uma classe e sequência de palavras Precisaríamos um número muito grande de exemplos de treinamento para estimar esse número de parâmetros. Classificação de textos & Naive Bayes 32 / 48

113 Muitos parâmetros / esparsidade c map = argmax P(d c)p(c) c C = argmaxp( t 1,...,t k,...,t nd c)p(c) c C Há muitos parâmetros P( t 1,...,t k,...,t nd c), um para cada combinação única de uma classe e sequência de palavras Precisaríamos um número muito grande de exemplos de treinamento para estimar esse número de parâmetros. Esse é o problema da esparsidade dos dados. Classificação de textos & Naive Bayes 32 / 48

114 Premissa da independência condicional de Naive Bayes Para reduzir o número de parâmetros para um tamanho razoável, usamos a premissa da independência condicional de Naive Bayes: P(d c) = P( t 1,...,t nd c) = 1 k n d P(X k = t k c) Supomos que a probabilidade de observar a conjunção de atributos é igual ao produto de probabilidades individuais P(X k = t k c). obter de antes as estimativas para essas probabilidades condicionais : ˆP(t c) = T c,t+1 ( t V T c,t )+B Classificação de textos & Naive Bayes 33 / 48

115 Modelos generativos Classificação de textos & Naive Bayes 34 / 48

116 Modelos generativos C=China X 1 =Beijing X 2 =e X 3 =Taipei X 4 =aderem X 5 =OMC P(c d) P(c) 1 k n d P(t k c) Gerar uma classe com probabilidade P(c) Classificação de textos & Naive Bayes 34 / 48

117 Modelos generativos C=China X 1 =Beijing X 2 =e X 3 =Taipei X 4 =aderem X 5 =OMC P(c d) P(c) 1 k n d P(t k c) Gerar uma classe com probabilidade P(c) Gerar cada uma das palavras (nas suas respectivas posições ), condicional na classe, mas independente entre si, com probabilidade P(t k c) Classificação de textos & Naive Bayes 34 / 48

118 Modelos generativos C=China X 1 =Beijing X 2 =e X 3 =Taipei X 4 =aderem X 5 =OMC P(c d) P(c) 1 k n d P(t k c) Gerar uma classe com probabilidade P(c) Gerar cada uma das palavras (nas suas respectivas posições ), condicional na classe, mas independente entre si, com probabilidade P(t k c) Para classificar docs, reprojetamos esse processo e encontramos a classe que é mais provável de ter gerado o documento. Classificação de textos & Naive Bayes 34 / 48

119 Segunda premissa de independência Classificação de textos & Naive Bayes 35 / 48

120 Segunda premissa de independência ˆP(X k1 = t c) = ˆP(X k2 = t c) Classificação de textos & Naive Bayes 35 / 48

121 Segunda premissa de independência ˆP(X k1 = t c) = ˆP(X k2 = t c) Por exemplo, para um documento na classe Inglaterra, a probabilidade de ter rainha na primeira posição do documento é a mesma de ter na última posição Classificação de textos & Naive Bayes 35 / 48

122 Segunda premissa de independência ˆP(X k1 = t c) = ˆP(X k2 = t c) Por exemplo, para um documento na classe Inglaterra, a probabilidade de ter rainha na primeira posição do documento é a mesma de ter na última posição As duas premissas de independência nos leva ao modelo de coleção de palavras. Classificação de textos & Naive Bayes 35 / 48

123 Um modelo de Naive Bayes: modelo de Bernoulli C=China U Alaska =0 U Beijing =1 U India =0 U aderem =1 U Taipei =1 U OMC =1 Classificação de textos & Naive Bayes 36 / 48

124 Violação das premissas de independência de Naive Bayes Classificação de textos & Naive Bayes 37 / 48

125 Violação das premissas de independência de Naive Bayes Independência condicional: P( t 1,...,t nd c) = 1 k n d P(X k = t k c) Classificação de textos & Naive Bayes 37 / 48

126 Violação das premissas de independência de Naive Bayes Independência condicional: P( t 1,...,t nd c) = P(X k = t k c) 1 k n d Independência posicional: Classificação de textos & Naive Bayes 37 / 48

127 Violação das premissas de independência de Naive Bayes Independência condicional: P( t 1,...,t nd c) = Independência posicional: ˆP(X k1 = t c) = ˆP(X k2 = t c) 1 k n d P(X k = t k c) Classificação de textos & Naive Bayes 37 / 48

128 Violação das premissas de independência de Naive Bayes Independência condicional: P( t 1,...,t nd c) = Independência posicional: ˆP(X k1 = t c) = ˆP(X k2 = t c) 1 k n d P(X k = t k c) As premissas de independência não são realmente verificadas em documentos escritos em linguagem natural Classificação de textos & Naive Bayes 37 / 48

129 Violação das premissas de independência de Naive Bayes Independência condicional: P( t 1,...,t nd c) = Independência posicional: ˆP(X k1 = t c) = ˆP(X k2 = t c) 1 k n d P(X k = t k c) As premissas de independência não são realmente verificadas em documentos escritos em linguagem natural Como é possível Naive Bayes funcionar se essas premissas não são apropriadas? Classificação de textos & Naive Bayes 37 / 48

130 Porquê Naive Bayes funciona? Naive Bayes pode funcionar bem apesar das premissas de independência não serem respeitadas Classificação de textos & Naive Bayes 38 / 48

131 Porquê Naive Bayes funciona? Naive Bayes pode funcionar bem apesar das premissas de independência não serem respeitadas Exemplo: c 1 c 2 classe escolhida prob. verdadeira P(c d) c 1 ˆP(c) 1 k n d ˆP(tk c) estimativa NB ˆP(c d) c 1 Classificação de textos & Naive Bayes 38 / 48

132 Porquê Naive Bayes funciona? Naive Bayes pode funcionar bem apesar das premissas de independência não serem respeitadas Exemplo: c 1 c 2 classe escolhida prob. verdadeira P(c d) c 1 ˆP(c) 1 k n d ˆP(tk c) estimativa NB ˆP(c d) c 1 Contagem duplicada de evidência causa subestimação (0.01) e superestimação (0.99). Classificação de textos & Naive Bayes 38 / 48

133 Porquê Naive Bayes funciona? Naive Bayes pode funcionar bem apesar das premissas de independência não serem respeitadas Exemplo: c 1 c 2 classe escolhida prob. verdadeira P(c d) c 1 ˆP(c) 1 k n d ˆP(tk c) estimativa NB ˆP(c d) c 1 Contagem duplicada de evidência causa subestimação (0.01) e superestimação (0.99). Classificação deve predizar a classe e não necessariamente as probabilidades Classificação de textos & Naive Bayes 38 / 48

134 Porquê Naive Bayes funciona? Naive Bayes pode funcionar bem apesar das premissas de independência não serem respeitadas Exemplo: c 1 c 2 classe escolhida prob. verdadeira P(c d) c 1 ˆP(c) 1 k n d ˆP(tk c) estimativa NB ˆP(c d) c 1 Contagem duplicada de evidência causa subestimação (0.01) e superestimação (0.99). Classificação deve predizar a classe e não necessariamente as probabilidades Naive Bayes é horrível para estimação as probabilidades... Classificação de textos & Naive Bayes 38 / 48

135 Porquê Naive Bayes funciona? Naive Bayes pode funcionar bem apesar das premissas de independência não serem respeitadas Exemplo: c 1 c 2 classe escolhida prob. verdadeira P(c d) c 1 ˆP(c) 1 k n d ˆP(tk c) estimativa NB ˆP(c d) c 1 Contagem duplicada de evidência causa subestimação (0.01) e superestimação (0.99). Classificação deve predizar a classe e não necessariamente as probabilidades Naive Bayes é horrível para estimação as probabilidades......mas funciona bem para predição de classes Classificação de textos & Naive Bayes 38 / 48

136 Naive Bayes funciona bem Naive Bayes tem sido aplicado em competições (e.g., KDD-CUP 97) Classificação de textos & Naive Bayes 39 / 48

137 Naive Bayes funciona bem Naive Bayes tem sido aplicado em competições (e.g., KDD-CUP 97) Mais robusto para termos não relevantes que métodos mais complexos Classificação de textos & Naive Bayes 39 / 48

138 Naive Bayes funciona bem Naive Bayes tem sido aplicado em competições (e.g., KDD-CUP 97) Mais robusto para termos não relevantes que métodos mais complexos Mais robusto para mudança de conceitos (alteração de definição de classe com o tempo) que métodos mais complexos Classificação de textos & Naive Bayes 39 / 48

139 Naive Bayes funciona bem Naive Bayes tem sido aplicado em competições (e.g., KDD-CUP 97) Mais robusto para termos não relevantes que métodos mais complexos Mais robusto para mudança de conceitos (alteração de definição de classe com o tempo) que métodos mais complexos Melhor que métodos como árvores de decisão quando temos muitos atributos igualmente importantes Classificação de textos & Naive Bayes 39 / 48

140 Naive Bayes funciona bem Naive Bayes tem sido aplicado em competições (e.g., KDD-CUP 97) Mais robusto para termos não relevantes que métodos mais complexos Mais robusto para mudança de conceitos (alteração de definição de classe com o tempo) que métodos mais complexos Melhor que métodos como árvores de decisão quando temos muitos atributos igualmente importantes Um bom nível de desempenho para classificação de textos (mas não o melhor) Classificação de textos & Naive Bayes 39 / 48

141 Naive Bayes funciona bem Naive Bayes tem sido aplicado em competições (e.g., KDD-CUP 97) Mais robusto para termos não relevantes que métodos mais complexos Mais robusto para mudança de conceitos (alteração de definição de classe com o tempo) que métodos mais complexos Melhor que métodos como árvores de decisão quando temos muitos atributos igualmente importantes Um bom nível de desempenho para classificação de textos (mas não o melhor) Ótimo se premissas de independência forem verdadeiras (nunca verdade para textos, mas verdade para alguns domínios) Classificação de textos & Naive Bayes 39 / 48

142 Naive Bayes funciona bem Naive Bayes tem sido aplicado em competições (e.g., KDD-CUP 97) Mais robusto para termos não relevantes que métodos mais complexos Mais robusto para mudança de conceitos (alteração de definição de classe com o tempo) que métodos mais complexos Melhor que métodos como árvores de decisão quando temos muitos atributos igualmente importantes Um bom nível de desempenho para classificação de textos (mas não o melhor) Ótimo se premissas de independência forem verdadeiras (nunca verdade para textos, mas verdade para alguns domínios) Muito rápido Classificação de textos & Naive Bayes 39 / 48

143 Naive Bayes funciona bem Naive Bayes tem sido aplicado em competições (e.g., KDD-CUP 97) Mais robusto para termos não relevantes que métodos mais complexos Mais robusto para mudança de conceitos (alteração de definição de classe com o tempo) que métodos mais complexos Melhor que métodos como árvores de decisão quando temos muitos atributos igualmente importantes Um bom nível de desempenho para classificação de textos (mas não o melhor) Ótimo se premissas de independência forem verdadeiras (nunca verdade para textos, mas verdade para alguns domínios) Muito rápido Baixos requisitos de armazenamento Classificação de textos & Naive Bayes 39 / 48

144 Outline 1 Classificação de textos 2 Naive Bayes 3 Teoria de Naive Bayes 4 Avaliação de classificação de textos Classificação de textos & Naive Bayes 40 / 48

145 Avaliação no corpus Reuters regiões indústrias interesses γ(d ) =China classes: Inglaterra China aves café eleições esportes d conj. treino: tráfego Londres Olimpíadas Beijing alimento frango torragem grãos recontagem votos campo baseball conj. teste: primeira privada Chinês cia aérea Parlamento Big Ben turismo Muralha patê patos arábica robusta cargo 2 o turno ataque futebol Windsor a Rainha Mao comunismo aviária gripe Quênia colheita comerciais campanha time capitão Classificação de textos & Naive Bayes 41 / 48

146 Exemplo: Corpus Reuters símbolo estatística valor N documentos 800,000 L média. # tokens por documento 200 M palavras 400,000 Classificação de textos & Naive Bayes 42 / 48

147 Exemplo: Corpus Reuters símbolo estatística valor N documentos 800,000 L média. # tokens por documento 200 M palavras 400,000 tipo de classe número exemplos região 366 Inglaterra, China indústria 870 aves, café interesses 126 eleições, esportes Classificação de textos & Naive Bayes 42 / 48

148 Um documento do corpus Reuters Classificação de textos & Naive Bayes 43 / 48

149 Um documento do corpus Reuters Classificação de textos & Naive Bayes 43 / 48

150 Avaliando classificação Classificação de textos & Naive Bayes 44 / 48

151 Avaliando classificação Avaliação precisa ser feita em conjunto de testes que seja independente dos dados de treino, i.e., conjuntos de treino e teste são disjuntos Classificação de textos & Naive Bayes 44 / 48

152 Avaliando classificação Avaliação precisa ser feita em conjunto de testes que seja independente dos dados de treino, i.e., conjuntos de treino e teste são disjuntos Fácil obter bom desempenho em um conjunto de teste que estava disponível durante o treino. Classificação de textos & Naive Bayes 44 / 48

153 Avaliando classificação Avaliação precisa ser feita em conjunto de testes que seja independente dos dados de treino, i.e., conjuntos de treino e teste são disjuntos Fácil obter bom desempenho em um conjunto de teste que estava disponível durante o treino. Medidas: Precisão, recuperação, F 1, acurácia de classificação Classificação de textos & Naive Bayes 44 / 48

154 Precisão P and recuperação R na classe não na classe predito como estar na classe verd. positivos (VP) falso positives (FP) predito como não estar classe falso negativos (FN) verd. negativos (VN) TP, FP, FN, TN são contagens de documentos. A soma dos quatro números é igual ao número de documentos precisão:p = TP/(TP + FP) recuperação:r = TP/(TP + FN) Classificação de textos & Naive Bayes 45 / 48

155 Uma medida combinada : F F 1 equilibrar taxa de precisão e recuperação Classificação de textos & Naive Bayes 46 / 48

156 Uma medida combinada : F F 1 equilibrar taxa de precisão e recuperação F 1 = P R = 2PR P +R Classificação de textos & Naive Bayes 46 / 48

157 Uma medida combinada : F F 1 equilibrar taxa de precisão e recuperação F 1 = P R Média de P e R: 1 F = 1 2 ( 1 P + 1 R ) = 2PR P +R Classificação de textos & Naive Bayes 46 / 48

158 Média: Micro vs. Macro Classificação de textos & Naive Bayes 47 / 48

159 Média: Micro vs. Macro Agora temos uma medida de avaliação (F 1 ) para uma classe. Classificação de textos & Naive Bayes 47 / 48

160 Média: Micro vs. Macro Agora temos uma medida de avaliação (F 1 ) para uma classe. Mas também queremos um número único que mede o desempenho agregado sobre todas as classes na coleção Classificação de textos & Naive Bayes 47 / 48

161 Média: Micro vs. Macro Agora temos uma medida de avaliação (F 1 ) para uma classe. Mas também queremos um número único que mede o desempenho agregado sobre todas as classes na coleção Macro-média Classificação de textos & Naive Bayes 47 / 48

162 Média: Micro vs. Macro Agora temos uma medida de avaliação (F 1 ) para uma classe. Mas também queremos um número único que mede o desempenho agregado sobre todas as classes na coleção Macro-média Calcular F 1 para cada uma das classes em C Classificação de textos & Naive Bayes 47 / 48

163 Média: Micro vs. Macro Agora temos uma medida de avaliação (F 1 ) para uma classe. Mas também queremos um número único que mede o desempenho agregado sobre todas as classes na coleção Macro-média Calcular F 1 para cada uma das classes em C Médias desses F 1 para cada classe C Classificação de textos & Naive Bayes 47 / 48

164 Média: Micro vs. Macro Agora temos uma medida de avaliação (F 1 ) para uma classe. Mas também queremos um número único que mede o desempenho agregado sobre todas as classes na coleção Macro-média Calcular F 1 para cada uma das classes em C Médias desses F 1 para cada classe C Micro-média Classificação de textos & Naive Bayes 47 / 48

165 Média: Micro vs. Macro Agora temos uma medida de avaliação (F 1 ) para uma classe. Mas também queremos um número único que mede o desempenho agregado sobre todas as classes na coleção Macro-média Calcular F 1 para cada uma das classes em C Médias desses F 1 para cada classe C Micro-média Computar TP, FP, FN para cada classe de C Classificação de textos & Naive Bayes 47 / 48

166 Média: Micro vs. Macro Agora temos uma medida de avaliação (F 1 ) para uma classe. Mas também queremos um número único que mede o desempenho agregado sobre todas as classes na coleção Macro-média Calcular F 1 para cada uma das classes em C Médias desses F 1 para cada classe C Micro-média Computar TP, FP, FN para cada classe de C Somar esses C números (e.g., todos os TP são somados) Classificação de textos & Naive Bayes 47 / 48

167 Média: Micro vs. Macro Agora temos uma medida de avaliação (F 1 ) para uma classe. Mas também queremos um número único que mede o desempenho agregado sobre todas as classes na coleção Macro-média Calcular F 1 para cada uma das classes em C Médias desses F 1 para cada classe C Micro-média Computar TP, FP, FN para cada classe de C Somar esses C números (e.g., todos os TP são somados) Computar F 1 para os TP, FP, FN somados Classificação de textos & Naive Bayes 47 / 48

168 Naive Bayes vs. outros métodos (a) NB Rocchio knn SVM micro-média-l (90 classes) macro-média (90 classes) (b) NB Rocchio knn árvores SVM earn acq money-fx grain crude trade interest ship wheat corn micro-média(top 10) micro-média-d (118 classes) n/a n/a 87 Medida de avaliação: F 1 Classificação de textos & Naive Bayes 48 / 48

169 Naive Bayes vs. outros métodos (a) NB Rocchio knn SVM micro-média-l (90 classes) macro-média (90 classes) (b) NB Rocchio knn árvores SVM earn acq money-fx grain crude trade interest ship wheat corn micro-média(top 10) micro-média-d (118 classes) n/a n/a 87 Medida de avaliação: F 1 Naive Bayes funciona bem, mas alguns métodos são consistentemente melhores (e.g., SVM). Classificação de textos & Naive Bayes 48 / 48

Classificação de textos: definição & relevância para ORI

Classificação de textos: definição & relevância para ORI Conteúdo Classificação de textos: definição & relevância para ORI Classificação de textos & Naive Bayes 1 / 47 Conteúdo Classificação de textos: definição & relevância para ORI Classificação de textos

Leia mais

Classificação de textos: definição & relevância para ORI

Classificação de textos: definição & relevância para ORI Conteúdo Conteúdo Classificação de textos: definição & relevância para ORI Conteúdo Classificação de textos: definição & relevância para ORI Naive Bayes: classificador de textos Conteúdo Classificação

Leia mais

Classificação de textos Naive Bayes Teoria de Naive Bayes Avaliação de classificação de textos

Classificação de textos Naive Bayes Teoria de Naive Bayes Avaliação de classificação de textos Conteúdo Classificação de textos: definição & relevância para ORI Naive Bayes: classificador de textos Teoria: derivação da regra de classificação de Naive Bayes Avaliação de classificação de textos: como

Leia mais

Avaliação e Desempenho Aula 1 - Simulação

Avaliação e Desempenho Aula 1 - Simulação Avaliação e Desempenho Aula 1 - Simulação Introdução à simulação Geração de números aleatórios Lei dos grandes números Geração de variáveis aleatórias O Ciclo de Modelagem Sistema real Criação do Modelo

Leia mais

Matemática Aplicada às Ciências Sociais

Matemática Aplicada às Ciências Sociais ESCOLA SECUNDÁRIA DE AMORA PLANIFICAÇÃO ANUAL Matemática Aplicada às Ciências Sociais Ensino Regular Curso Geral de Ciências Sociais e Humanas 11º ANO Ano Letivo 2014 / 2015 PLANIFICAÇÃO A LONGO PRAZO

Leia mais

Aprendizado Bayesiano

Aprendizado Bayesiano Aprendizado Bayesiano Marcelo K. Albertini 26 de Junho de 2014 2/20 Conteúdo Teorema de Bayes Aprendizado MAP Classificador ótimo de Bayes 3/20 Dois papéis para métodos bayesianos Algoritmos de aprendizado

Leia mais

Aula 02: Probabilidade

Aula 02: Probabilidade ITA - Laboratório rio de Guerra Eletrônica EENEM 2008 Estatística stica e Probabilidade Aula 02: Probabilidade população probabilidade (dedução) inferência estatística stica (indução) amostra Definições

Leia mais

MCZA Processamento de Linguagem Natural Classificação de textos

MCZA Processamento de Linguagem Natural Classificação de textos MCZA017-13 Processamento de Linguagem Natural Classificação de textos Prof. Jesús P. Mena-Chalco jesus.mena@ufabc.edu.br 1Q-2018 1 Bibliografia Daniel Jurafsky & James H. Martin. Speech and language processing:

Leia mais

MOQ 13 PROBABILIDADE E ESTATÍSTICA. Professor: Rodrigo A. Scarpel

MOQ 13 PROBABILIDADE E ESTATÍSTICA. Professor: Rodrigo A. Scarpel MOQ 13 PROBABILIDADE E ESTATÍSTICA Professor: Rodrigo A. Scarpel rodrigo@ita.br www.mec.ita.br/~rodrigo Probabilidade e Estatística The Science of collecting and analyzing data for the purpose of drawing

Leia mais

Contabilometria. Análise Discriminante

Contabilometria. Análise Discriminante Contabilometria Análise Discriminante Fonte: Corrar, L. J.; Theóphilo, C. R. Pesquisa Operacional para Decisão em Contabilidade e Administração, Editora Atlas, São Paulo, 010 Cap. 3 Análise Discriminante

Leia mais

Aprendizado Bayesiano

Aprendizado Bayesiano Aprendizado Bayesiano Marcelo K. Albertini 3 de Julho de 2014 2/1 Conteúdo Aprendizado Naive Bayes Exemplo: classificação de texto Redes Bayesiana Algoritmo EM Regressão probabiĺıstica 3/1 Classificador

Leia mais

Medidas e Escalas: Escalas não Comparativas

Medidas e Escalas: Escalas não Comparativas Medidas e Escalas: Escalas não Comparativas 1-1 Sumário do Capítulo 1) Escalas não comparativas 2) Escalas de rácios contínuos 3) Escalas de Itens i. Escala de Likert ii. iii. Escala de Diferencial semântico

Leia mais

Acurácia de Estoque GESTÃO DE ESTOQUE, MOVIMENTAÇÃO & GESTÃO DE ESTOQUE, & ARMAZENAGEM ARMAZENAGEM. Acuracidade de Estoque 3. NPC. Prof.

Acurácia de Estoque GESTÃO DE ESTOQUE, MOVIMENTAÇÃO & GESTÃO DE ESTOQUE, & ARMAZENAGEM ARMAZENAGEM. Acuracidade de Estoque 3. NPC. Prof. MOVIMENTAÇÃO & 2009 3. NPC Acuracidade de Estoque 1 Importante!!! s A falta de confiabilidade nas informações afeta todos os setores da empresa, desde o nível gerencial até o operacional; Uma informação

Leia mais

Jogos Bayesianos Estratégias e Equilíbrio Aplicações. Jogos Bayesianos. Prof. Leandro Chaves Rêgo

Jogos Bayesianos Estratégias e Equilíbrio Aplicações. Jogos Bayesianos. Prof. Leandro Chaves Rêgo Jogos Bayesianos Prof. Leandro Chaves Rêgo Programa de Pós-Graduação em Estatística - UFPE Programa de Pós-Graduação em Engenharia de Produção - UFPE Recife, 14 de Outubro de 2014 Jogos Bayesianos Jogos

Leia mais

IND 1115 Inferência Estatística Aula 8

IND 1115 Inferência Estatística Aula 8 Conteúdo IND 5 Inferência Estatística Aula 8 Setembro 4 Mônica Barros O - aproximação da Binomial pela Este teorema é apenas um caso particular do teorema central do limite, pois uma variável aleatória

Leia mais

Relatório das Provas da 2ª. Fase - Vestibular 2016

Relatório das Provas da 2ª. Fase - Vestibular 2016 Relatório das Provas da 2ª. Fase - Vestibular 2016 Resumo Executivo O presente relatório apresenta os resultados da segunda fase do Vestibular UNICAMP 2016 constituída por três provas. Esta etapa do vestibular

Leia mais

Curso de Sistemas de Informação 8º período Disciplina: Tópicos Especiais Professor: José Maurício S. Pinheiro V. 2009-1

Curso de Sistemas de Informação 8º período Disciplina: Tópicos Especiais Professor: José Maurício S. Pinheiro V. 2009-1 Curso de Sistemas de Informação 8º período Disciplina: Tópicos Especiais Professor: José Maurício S. Pinheiro V. 2009-1 Aula 5 Sistemas Biométricos 1. Sistema Biométrico Típico Qualquer que seja a característica

Leia mais

Plano de Ensino PROBABILIDADE E ESTATÍSTICA APLICADA À ENGENHARIA - CCE0292

Plano de Ensino PROBABILIDADE E ESTATÍSTICA APLICADA À ENGENHARIA - CCE0292 Plano de Ensino PROBABILIDADE E ESTATÍSTICA APLICADA À ENGENHARIA - CCE0292 Título PROBABILIDADE E ESTATÍSTICA APLICADA À ENGENHARIA Código da disciplina SIA CCE0292 16 Número de semanas de aula 4 Número

Leia mais

Probabilidade III. Ulisses U. dos Anjos. Departamento de Estatística Universidade Federal da Paraíba. Período 2014.1

Probabilidade III. Ulisses U. dos Anjos. Departamento de Estatística Universidade Federal da Paraíba. Período 2014.1 Probabilidade III Ulisses U. dos Anjos Departamento de Estatística Universidade Federal da Paraíba Período 2014.1 Ulisses Umbelino (DE-UFPB) Probabilidade III Período 2014.1 1 / 42 Sumário 1 Apresentação

Leia mais

Aula de Hoje. Processamento Estatístico da Linguagem Natural. Decodificação. Decodificação. A treliça do algoritmo Viterbi

Aula de Hoje. Processamento Estatístico da Linguagem Natural. Decodificação. Decodificação. A treliça do algoritmo Viterbi Processamento Estatístico da Linguagem Natural Aula 14 Professora Bianca (Sala 302 Bloco E) bianca@ic.uff.br http://www.ic.uff.br/~bianca/peln/ Aula de Hoje Cap. 6 Jurafsky & Martin Hidden Markov and Maximum

Leia mais

Unidade 10 Análise combinatória. Introdução Princípio Fundamental da contagem Fatorial

Unidade 10 Análise combinatória. Introdução Princípio Fundamental da contagem Fatorial Unidade 10 Análise combinatória Introdução Princípio Fundamental da contagem Fatorial Introdução A escolha do presente que você deseja ganhar em seu aniversário, a decisão de uma grande empresa quando

Leia mais

MAE116 - Noções de Estatística

MAE116 - Noções de Estatística MAE116 - Noções de Estatística Grupo A - 1 semestre de 2015 Gabarito da Lista de exercícios 10 - Introdução à Estatística Descritiva - CASA Exercício 1. (2 pontos) Sabe-se que, historicamente, 18% dos

Leia mais

cuja distribuição é t de Student com n 1 graus de liberdade.

cuja distribuição é t de Student com n 1 graus de liberdade. Aula 13 Teste de hipótese sobre a média de uma população normal σ 2 desconhecida Objetivos: Nesta aula você completará seu estudo básico sobre testes de hipóteses, analisando a situação relativa a uma

Leia mais

números decimais Inicialmente, as frações são apresentadas como partes de um todo. Por exemplo, teremos 2 de um bolo se dividirmos esse bolo

números decimais Inicialmente, as frações são apresentadas como partes de um todo. Por exemplo, teremos 2 de um bolo se dividirmos esse bolo A UA UL LA Frações e números decimais Introdução Inicialmente, as frações são apresentadas como partes de um todo. Por exemplo, teremos de um bolo se dividirmos esse bolo em cinco partes iguais e tomarmos

Leia mais

PESQUISA DE OPINIÃO PÚBLICA SOBRE O GOVERNO FEDERAL

PESQUISA DE OPINIÃO PÚBLICA SOBRE O GOVERNO FEDERAL PESQUISA DE OPINIÃO PÚBLICA SOBRE O GOVERNO FEDERAL OUTUBRO DE 2013 JOB1642 ESPECIFICAÇÕES TÉCNICAS DA PESQUISA OBJETIVO LOCAL O principal objetivo desse projeto é monitorar a administração do Governo

Leia mais

UNIVERSIDADE TECNOLÓGICA FEDERAL DO PARANÁ. Câmpus Ponta Grossa. Coordenação do Curso Superior de Tecnologia em. Automação Industrial

UNIVERSIDADE TECNOLÓGICA FEDERAL DO PARANÁ. Câmpus Ponta Grossa. Coordenação do Curso Superior de Tecnologia em. Automação Industrial UNIVERSIDADE TECNOLÓGICA FEDERAL DO PARANÁ Câmpus Ponta Grossa Coordenação do Curso Superior de Tecnologia em Automação Industrial Jhonathan Junio de Souza Tipos de códigos Binários Trabalho apresentado

Leia mais

SISTEMAS DE INFORMAÇÕES GEOGRÁFICAS I (GEO 01007) AULA 8

SISTEMAS DE INFORMAÇÕES GEOGRÁFICAS I (GEO 01007) AULA 8 SISTEMAS DE INFORMAÇÕES GEOGRÁFICAS I (GEO 01007) AULA 8 ASSUNTO: ANÁLISE DE IMAGENS DE SATÉLITE Objetivos: I. Visualização e interpretação de imagens II. Geração de mapas temáticos com dados de interpretação

Leia mais

Aprendizado de Máquina (Machine Learning)

Aprendizado de Máquina (Machine Learning) Ciência da Computação Aprendizado de Máquina (Machine Learning) Aula 10 Classificação com Naïve Bayes Max Pereira Raciocínio Probabilístico A notação tradicional para criar e analisar sentenças lógicas

Leia mais

números decimais Inicialmente, as frações são apresentadas como partes de um todo. Por exemplo, teremos 2 de um bolo se dividirmos esse bolo

números decimais Inicialmente, as frações são apresentadas como partes de um todo. Por exemplo, teremos 2 de um bolo se dividirmos esse bolo A UA UL LA Frações e números decimais Introdução Inicialmente, as frações são apresentadas como partes de um todo. Por exemplo, teremos de um bolo se dividirmos esse bolo em cinco partes iguais e tomarmos

Leia mais

CADERNO DE EXERCÍCIOS

CADERNO DE EXERCÍCIOS CADERNO DE EXERCÍCIOS CURSO DE ADWORDS NÍVEL 1 AdWords módulo 1 Duração 8 horas (43) 3026-4420 (43) 9109-5262 robson@estudiomix.com.br www.estudiomix.com.br SUMÁRIO 1. Questões objetivas sobre a história

Leia mais

Classificação: 1R e Naïve Bayes. Eduardo Raul Hruschka

Classificação: 1R e Naïve Bayes. Eduardo Raul Hruschka Classificação: 1R e Naïve Bayes Eduardo Raul Hruschka Agenda: Conceitos de Classificação Técnicas de Classificação One Rule (1R) Naive Bayes (com seleção de atributos) Super-ajuste e validação cruzada

Leia mais

Matrizes e Sistemas Lineares. Professor: Juliano de Bem Francisco. Departamento de Matemática Universidade Federal de Santa Catarina.

Matrizes e Sistemas Lineares. Professor: Juliano de Bem Francisco. Departamento de Matemática Universidade Federal de Santa Catarina. e Aula Zero - Álgebra Linear Professor: Juliano de Bem Francisco Departamento de Matemática Universidade Federal de Santa Catarina agosto de 2011 Outline e e Part I - Definição: e Consideremos o conjunto

Leia mais

Sistemas de Informação para Bibliotecas

Sistemas de Informação para Bibliotecas Sistemas de Informação para Bibliotecas Notas de Apoio ao Tópico 1 Henrique S. Mamede 1 Antes de mais nada: O QUE É MESMO INFORMAÇÃO?? Dados Informação Conhecimento Sabedoria 2 Dados São tipicamente voltados

Leia mais

Razões, proporções e taxas. Medidas de frequência.

Razões, proporções e taxas. Medidas de frequência. Razões, proporções e taxas. Medidas de frequência. Para examinar a transmissão de uma doença em populações humanas, precisamos claramente de poder medir a frequência não só da ocorrência da doença como

Leia mais

Métodos para Classificação: - Naïve Bayes.

Métodos para Classificação: - Naïve Bayes. Métodos para Classificação: - 1R; - Naïve Bayes. Visão Geral: Simplicidade em primeiro lugar: 1R; Naïve Bayes. 2 Classificação: Tarefa: Dado um conjunto de exemplos préclassificados, construir um modelo

Leia mais

Estimação. Como definir um estimador. Como obter estimativas pontuais. Como construir intervalos de confiança

Estimação. Como definir um estimador. Como obter estimativas pontuais. Como construir intervalos de confiança Estimação Como definir um estimador. Como obter estimativas pontuais. Como construir intervalos de confiança Motivação A partir da média de uma a amostra em uma colheita recente, o conselho de qualidade

Leia mais

Notas de aula de Lógica para Ciência da Computação. Aula 11, 2012/2

Notas de aula de Lógica para Ciência da Computação. Aula 11, 2012/2 Notas de aula de Lógica para Ciência da Computação Aula 11, 2012/2 Renata de Freitas e Petrucio Viana Departamento de Análise, IME UFF 21 de fevereiro de 2013 Sumário 1 Ineficiência das tabelas de verdade

Leia mais

Bases Matemáticas. Daniel Miranda 1. 23 de maio de 2011. sala 819 - Bloco B página: daniel.miranda

Bases Matemáticas. Daniel Miranda 1. 23 de maio de 2011. sala 819 - Bloco B página:  daniel.miranda Daniel 1 1 email: daniel.miranda@ufabc.edu.br sala 819 - Bloco B página: http://hostel.ufabc.edu.br/ daniel.miranda 23 de maio de 2011 Elementos de Lógica e Linguagem Matemática Definição Uma proposição

Leia mais

Teoria de Jogos. Algoritmo Minimax e Alfa-Beta AED - 2002

Teoria de Jogos. Algoritmo Minimax e Alfa-Beta AED - 2002 Teoria de Jogos Algoritmo Minimax e Alfa-Beta AED - 2002 Conceptualização do Problema Jogar pode ser visto como uma generalização do problema de procura em espaço de estados, em que existem agentes hostis

Leia mais

ME613 - Análise de Regressão

ME613 - Análise de Regressão 3222016 ME613 - Análise de Regressão 3222016 ME613 - Análise de Regressão ME613 - Análise de Regressão Parte 4 Transformações Samara F. Kiihl - IMECC - UNICAMP file:usersimacdocumentsgithubme613-unicampme613-unicamp.github.ioaulasslidesparte04parte04.html

Leia mais

EXAME DE MACS 2º FASE 2014/2015 = 193

EXAME DE MACS 2º FASE 2014/2015 = 193 EXAME DE MACS 2º FASE 2014/2015 1. Divisor Padrão: 00+560+80+240 200 = 190 = 19 200 20 Filiais A B C D Quota Padrão 1,088 58,01 86,010 24,870 L 1 58 86 24 L(L + 1) 1,496 58,498 86,499 24,495 Quota Padrão

Leia mais

Aula 11 Teste de hipótese sobre a média de uma população normal - σ 2 conhecida

Aula 11 Teste de hipótese sobre a média de uma população normal - σ 2 conhecida Aula 11 Teste de hipótese sobre a média de uma população normal - σ 2 conhecida Objetivo: Nesta aula, iremos aplicar os conceitos básicos sobre a teoria de teste de hipótese a uma situação específica.

Leia mais

Estatística Multivariada. Visão Panorâmica. Aplicações: Associação. Classificação. Comparação. Associação. Correlação Bivariada.

Estatística Multivariada. Visão Panorâmica. Aplicações: Associação. Classificação. Comparação. Associação. Correlação Bivariada. Prof. Lorí Viali, Dr. viali@pucrs.br; viali@mat.ufrgs.br; http://www.pucrs.br/famat/viali; http://www.mat.ufrgs.br/~viali/ Embora projetos complexos e métodos sofisticados sejam necessários para responder

Leia mais

Análise de Regressão Múltipla com informação qualitativa: variáveis binárias (dummy)

Análise de Regressão Múltipla com informação qualitativa: variáveis binárias (dummy) Análise de Regressão Múltipla com informação qualitativa: variáveis binárias (dummy) 1 Como descrever informações qualitativas? Fatores qualitativos podem ser incorporados a modelos de regressão. Neste

Leia mais

Ciclo com Contador : instrução for. for de variável := expressão to. expressão do instrução

Ciclo com Contador : instrução for. for de variável := expressão to. expressão do instrução Métodos de Programação I 2. 27 Ciclo com Contador : instrução for identificador downto for de variável := expressão to expressão do instrução UMA INSTRUÇÃO (SIMPLES OU COMPOSTA) Neste caso o ciclo é repetido

Leia mais

Fabrício Olivetti de França. Universidade Federal do ABC

Fabrício Olivetti de França. Universidade Federal do ABC Classificação: Naive Bayes Fabrício Olivetti de França Universidade Federal do ABC Tópicos 1. Naive Bayes 1 Naive Bayes Aprendizado Probabiĺıstico Foi mencionado anteriormente que o uso da função logística

Leia mais

Estatística AMOSTRAGEM

Estatística AMOSTRAGEM Estatística AMOSTRAGEM Estatística: É a ciência que se preocupa com a coleta, a organização, descrição (apresentação), análise e interpretação de dados experimentais e tem como objetivo fundamental o estudo

Leia mais

Introdução. Qualidade de Produto. Introdução. Introdução ISO/IEC 9126. Normas

Introdução. Qualidade de Produto. Introdução. Introdução ISO/IEC 9126. Normas Qualidade de Produto Maria Cláudia F.P. Emer Introdução z Qualidade diretamente ligada ao produto final z Controle de qualidade Adequação do produto nas fases finais no processo de produção z Software

Leia mais

Matemática Discreta - 08

Matemática Discreta - 08 Universidade Federal do Vale do São Francisco urso de Engenharia da omputação Matemática Discreta - 08 Prof. Jorge avalcanti jorge.cavalcanti@univasf.edu.br www.univasf.edu.br/~jorge.cavalcanti www.twitter.com/jorgecav

Leia mais

Sinais, sistemas, e processamento de sinais; Classificação de sinais; O conceito de freqüência em sinais de tempo contínuo e discreto

Sinais, sistemas, e processamento de sinais; Classificação de sinais; O conceito de freqüência em sinais de tempo contínuo e discreto Sinais, sistemas, e processamento de sinais; Classificação de sinais; O conceito de freqüência em sinais de tempo contínuo e discreto Sinais, sistemas, e processamento de sinais U sinal é definido como

Leia mais

VERSÃO DE TRABALHO. Prova Escrita de Economia A. 11.º Ano de Escolaridade. Prova 712/1.ª Fase. Critérios de Classificação

VERSÃO DE TRABALHO. Prova Escrita de Economia A. 11.º Ano de Escolaridade. Prova 712/1.ª Fase. Critérios de Classificação EXAME FINAL NACIONAL DO ENSINO SECUNDÁRIO Prova Escrita de Economia A 11.º Ano de Escolaridade Decreto-Lei n.º 19/2012, de 5 de julho Prova 712/1.ª Fase Critérios de Classificação 11 Páginas 2016 Prova

Leia mais

PROJETO DE REDES www.projetoderedes.com.br. Prof. José Maurício S. Pinheiro UniFOA 2009-2

PROJETO DE REDES www.projetoderedes.com.br. Prof. José Maurício S. Pinheiro UniFOA 2009-2 PROJETO DE REDES www.projetoderedes.com.br Tecnologias WEB Web 3.0 Prof. José Maurício S. Pinheiro UniFOA 2009-2 Conceitos As pessoas geram o conhecimento; A informação é a matéria prima na geração de

Leia mais

Exame de Equivalência à Frequência do Ensino Secundário

Exame de Equivalência à Frequência do Ensino Secundário Exame de Equivalência à Frequência do Ensino Secundário INFORMAÇÃO EXAME DE APLICAÇÕES INFORMÁTICAS B 2016 12º ANO DE ESCOLARIDADE (DECRETO-LEI N.º 139/ 2012, DE 5 DE JULHO) Prova 163 Escrita e Prática

Leia mais

Informação/Exame de Equivalência à Frequência. Ano letivo de 2012/2013

Informação/Exame de Equivalência à Frequência. Ano letivo de 2012/2013 ESCOLA MARTIM DE FREITAS AGRUPAMENTO DE ESCOLAS DE MARTIM DE FREITA Informação/Exame de Equivalência à Frequência Ano letivo de 2012/2013 Disciplina: Ciências da Natureza 2º Ciclo do Ensino Básico 1.-

Leia mais

Qualidade de Produto. Maria Cláudia F. P. Emer

Qualidade de Produto. Maria Cláudia F. P. Emer Qualidade de Produto Maria Cláudia F. P. Emer Introdução Qualidade diretamente ligada ao produto final Controle de qualidade Adequação do produto nas fases finais no processo de produção Software Atividades

Leia mais

Deve ainda ser tido em consideração o Despacho Normativo n.º 24-A/2012, de 6 de dezembro, bem como o Despacho n.º 15971/2012, de 14 de dezembro..

Deve ainda ser tido em consideração o Despacho Normativo n.º 24-A/2012, de 6 de dezembro, bem como o Despacho n.º 15971/2012, de 14 de dezembro.. PROVA DE EQUIVALÊNCIA À FREQUÊNCIA Decreto-Lei n.º 139/2012, de 5 de julho Prova Escrita de Físico-Química 9º Ano de Escolaridade Prova 11 / 1ª Fase Duração da Prova: 90 minutos. Informações da prova INTRODUÇÃO

Leia mais

2) Escreva um algoritmo que leia um conjunto de 10 notas, armazene-as em uma variável composta chamada NOTA e calcule e imprima a sua média.

2) Escreva um algoritmo que leia um conjunto de 10 notas, armazene-as em uma variável composta chamada NOTA e calcule e imprima a sua média. 1) Inicializar um vetor de inteiros com números de 0 a 99 2) Escreva um algoritmo que leia um conjunto de 10 notas, armazene-as em uma variável composta chamada NOTA e calcule e imprima a sua média 3)

Leia mais

BIOESTATÍSTICA. Parte 1 - Estatística descritiva e análise exploratória dos dados

BIOESTATÍSTICA. Parte 1 - Estatística descritiva e análise exploratória dos dados BIOESTATÍSTICA Parte 1 - Estatística descritiva e análise exploratória dos dados Aulas Teóricas de 17/02/2011 a 03/03/2011 1.1. População, amostra e dados estatísticos. Dados qualitativos e quantitativos

Leia mais

Business intelligence para empresas de segurança. Como uma instituição pode gerar recursos e errar menos com ajuda da informação

Business intelligence para empresas de segurança. Como uma instituição pode gerar recursos e errar menos com ajuda da informação Business intelligence para empresas de segurança Como uma instituição pode gerar recursos e errar menos com ajuda da informação 1. Introdução Pense no volume de informações geradas pela sua empresa de

Leia mais

Ficha de Exercícios nº 2

Ficha de Exercícios nº 2 Nova School of Business and Economics Álgebra Linear Ficha de Exercícios nº 2 Matrizes, Determinantes e Sistemas de Equações Lineares 1 O produto de duas matrizes, A e B, é a matriz nula (mxn). O que pode

Leia mais

Lista de Exercícios Critérios de Divisibilidade

Lista de Exercícios Critérios de Divisibilidade Nota: Os exercícios desta aula são referentes ao seguinte vídeo Matemática Zero 2.0 - Aula 10 - Critérios de - (parte 1 de 2) Endereço: https://www.youtube.com/watch?v=1f1qlke27me Gabaritos nas últimas

Leia mais

Versão 2 COTAÇÕES. 13... 5 pontos. 6... 4 pontos 7... 7 pontos. 5... 6 pontos. 8... 9 pontos. 9... 8 pontos

Versão 2 COTAÇÕES. 13... 5 pontos. 6... 4 pontos 7... 7 pontos. 5... 6 pontos. 8... 9 pontos. 9... 8 pontos Teste Intermédio de Matemática Versão 2 Teste Intermédio Matemática Versão 2 Duração do Teste: 90 minutos 07.02.2011 9.º Ano de Escolaridade Decreto-Lei n.º 6/2001, de 18 de Janeiro 1. 2. COTAÇÕES 1.1....

Leia mais

Probabilidade e Estatística - EST0003 Intervalos Estatísticos para uma única Amostra

Probabilidade e Estatística - EST0003 Intervalos Estatísticos para uma única Amostra Probabilidade e Estatística - EST0003 Intervalos Estatísticos para uma única Amostra Fernando Deeke Sasse 14 de maio de 2010 Introdução Quão boa é uma dada estimação de um parâmetro? Suponha que estimamos

Leia mais

AMOSTRAGEM: DIMENSIONAMENTO DE AMOSTRAS. SELEÇÃO DOS ELEMENTOS DE UMA AMOSTRA. ESTIMATIVA DA CARACTERÍSTICA TOTAL DA POPULAÇÃO INVESTIGADA

AMOSTRAGEM: DIMENSIONAMENTO DE AMOSTRAS. SELEÇÃO DOS ELEMENTOS DE UMA AMOSTRA. ESTIMATIVA DA CARACTERÍSTICA TOTAL DA POPULAÇÃO INVESTIGADA AMOSTRAGEM: DIMENSIONAMENTO DE AMOSTRAS. SELEÇÃO DOS ELEMENTOS DE UMA AMOSTRA. ESTIMATIVA DA CARACTERÍSTICA TOTAL DA POPULAÇÃO INVESTIGADA META Dimensionar o tamanho ideal de amostra para cada população.

Leia mais

MATRIZ DA PROVA DE EXAME A NÍVEL DE ESCOLA AO ABRIGO DO DECRETO-LEI Nº 357/2007, DE 29 DE OUTUBRO

MATRIZ DA PROVA DE EXAME A NÍVEL DE ESCOLA AO ABRIGO DO DECRETO-LEI Nº 357/2007, DE 29 DE OUTUBRO MATRIZ DA PROVA DE EXAME A NÍVEL DE ESCOLA AO ABRIGO DO DECRETO-LEI Nº 357/2007, DE 29 DE OUTUBRO (Duração: 90 minutos + 30 minutos de tolerância) MATEMÁTICA A 11º+12º ANO (Cursos Científico-Humanísticos

Leia mais

Árvore de Decisão. 3. Árvore de Decisão

Árvore de Decisão. 3. Árvore de Decisão Árvore de Decisão 3. Árvore de Decisão A árvore de decisão consiste de uma hierarquia de nós internos e externos que são conectados por ramos. O nó interno, também conhecido como nó decisório ou nó intermediário,

Leia mais

Análise estatística. Aula de Bioestatística. 17/9/2008 (2.ª Parte) Paulo Nogueira

Análise estatística. Aula de Bioestatística. 17/9/2008 (2.ª Parte) Paulo Nogueira Análise estatística Aula de Bioestatística 17/9/2008 (2.ª Parte) Paulo Nogueira Testes de Hipóteses Hipótese Estatística de teste Distribuição da estatística de teste Decisão H 0 : Não existe efeito vs.

Leia mais

CC-226 Aula 05 - Inferência Bayesiana

CC-226 Aula 05 - Inferência Bayesiana CC-226 Aula 05 - Inferência Bayesiana Carlos Henrique Q. Forster - Instituto Tecnológico de Aeronáutica 2008 Probabilidade Condicional. Exemplo (Retirado do Livro do Parzen) 4 bolas brancas 2 bolas vermelhas

Leia mais

Modelos de Probabilidade e Inferência Estatística

Modelos de Probabilidade e Inferência Estatística Modelos de Probabilidade e Inferência Estatística Departamento de Estatística Universidade Federal da Paraíba Prof. Tarciana Liberal (UFPB) Aula Distribuições Qui-quadrado, t-student e F de Snedecor 04/14

Leia mais

O valor nominal do título é de R$ 500,00, a taxa é de 1% ao mês e o prazo é de 45 dias = 1,5 mês.

O valor nominal do título é de R$ 500,00, a taxa é de 1% ao mês e o prazo é de 45 dias = 1,5 mês. 13. (ISS-Cuiabá 2016/FGV) Suponha um título de R$ 500,00, cujo prazo de vencimento se encerra em 45 dias. Se a taxa de desconto por fora é de 1% ao mês, o valor do desconto simples será igual a a) R$ 7,00.

Leia mais

Projetos CUSTOS. Prof. Anderson Valadares

Projetos CUSTOS. Prof. Anderson Valadares Projetos CUSTOS Prof. Anderson Valadares Gerenciamento de custo O gerenciamento de custos visa essencialmente assegurar aos patrocinadores que o projeto será concluído dentro do orçamento aprovado. Gerenciamento

Leia mais

Árvores de Decisão Matemática Discreta

Árvores de Decisão Matemática Discreta Bruno Duarte Eduardo Germano Isolino Ferreira Vagner Gon Árvores de Decisão Matemática Discreta 28/04/2011 Serra IFES Definição de Árvores de Decisão: Arvore de Decisão é uma árvore em que seus nós internos

Leia mais

Aula 4. Conceitos básicos de escalonamento. Sistemas de Tempo-Real

Aula 4. Conceitos básicos de escalonamento. Sistemas de Tempo-Real Sistemas de Tempo-Real Aula 4 Conceitos básicos de escalonamento Escalonamento de tarefas, taxonomia básica Técnicas de escalonamento preliminares Escalonamento estático cíclico Adaptado dos slides desenvolvidos

Leia mais

Escola Básica 2,3 Pêro de Alenquer Ano letivo 2015/16 Disciplina: Educação Física, prova escrita e prática Ano de escolaridade: 9º ano

Escola Básica 2,3 Pêro de Alenquer Ano letivo 2015/16 Disciplina: Educação Física, prova escrita e prática Ano de escolaridade: 9º ano Informação DA PROVA DE EQUIVALÊNCIA À FREQUÊNCIA º Ciclo do Ensino Básico Escola Básica, Pêro de Alenquer Ano letivo 0/6 Código:6 Disciplina: Educação Física, prova escrita e prática Ano de escolaridade:

Leia mais

COMO VALIDAR O HACCP Um Exemplo na Indústria de Carnes e Derivados

COMO VALIDAR O HACCP Um Exemplo na Indústria de Carnes e Derivados COMO VALIDAR O HACCP Um Exemplo na Indústria de Carnes e Derivados Este material pertence a Sadia S.A Gerência de Planejamento e Auditoria de Higiene e Segurança de Alimentos VALIDAÇÃO - HACCP INTRODUÇÃO

Leia mais

DISTRIBUIÇÃO DE FREQUÊNCIA DE VARIÁVEIS QUALITATIVAS E QUANTITATIVAS DISCRETAS (TABELAS E GRÁFICOS)

DISTRIBUIÇÃO DE FREQUÊNCIA DE VARIÁVEIS QUALITATIVAS E QUANTITATIVAS DISCRETAS (TABELAS E GRÁFICOS) DISTRIBUIÇÃO DE FREQUÊNCIA DE VARIÁVEIS QUALITATIVAS E QUANTITATIVAS DISCRETAS (TABELAS E GRÁFICOS) O QUE É ESTATÍSTICA Estatística é a ciência de obter conclusões a partir de dados. Envolve métodos para

Leia mais

INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA. Prof. Anderson Rodrigo da Silva anderson.silva@ifgoiano.edu.br

INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA. Prof. Anderson Rodrigo da Silva anderson.silva@ifgoiano.edu.br INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA Prof. Anderson Rodrigo da Silva anderson.silva@ifgoiano.edu.br Tipos de Pesquisa Censo: é o levantamento de toda população. Aqui não se faz inferência e sim uma descrição

Leia mais

Objetivo. tica 3º ano EM. Oficina de Matemática

Objetivo. tica 3º ano EM. Oficina de Matemática Oficina de Matemática tica 3º ano EM Objetivo Análise, interpretação e utilização dos resultados do SAEPE para promoção da equidade e melhoria da qualidade da educação dos estudantes pernambucanos. Prof

Leia mais

O Segredo De Como colocar links externos no Youtube e Aumentar sua taxa de conversão em 1000%

O Segredo De Como colocar links externos no Youtube e Aumentar sua taxa de conversão em 1000% O Segredo De Como colocar links externos no Youtube e Aumentar sua taxa de conversão em 1000% Oferecido por Clube Ganhar Dinheiro Com Blog Termos e Condições Aviso Legal O escritor esforçou-se para ser

Leia mais

Matemática A COTAÇÕES GRUPO I GRUPO II. Teste Intermédio. Versão 2. Duração do Teste: 90 minutos 29.11.2013. 12.º Ano de Escolaridade. 5...

Matemática A COTAÇÕES GRUPO I GRUPO II. Teste Intermédio. Versão 2. Duração do Teste: 90 minutos 29.11.2013. 12.º Ano de Escolaridade. 5... Teste Intermédio Matemática A Versão 2 Duração do Teste: 90 minutos 29..203 2.º Ano de Escolaridade Decreto-Lei n.º 74/2004, de 26 de março????????????? COTAÇÕES GRUPO I.... 0 pontos 2.... 0 pontos 3....

Leia mais

Métodos Formais. Agenda. Relações Binárias Relações e Banco de Dados Operações nas Relações Resumo Relações Funções. Relações e Funções

Métodos Formais. Agenda. Relações Binárias Relações e Banco de Dados Operações nas Relações Resumo Relações Funções. Relações e Funções Métodos Formais Relações e Funções por Mauro Silva Agenda Relações Binárias Relações e Banco de Dados Operações nas Relações Resumo Relações Funções MF - Relações e Funções 2 1 Relações Binárias Definição

Leia mais

ESTATÍSTICA PARTE 1 OBJETIVO DA DISCIPLINA

ESTATÍSTICA PARTE 1 OBJETIVO DA DISCIPLINA ESTATÍSTICA PARTE 1 OBJETIVO DA DISCIPLINA Apresentar a Estatística no contexto do dia-a-dia e fazendo uso da planilha Excel. Espera-se que o estudante ao término do curso esteja apto a usar a planilha

Leia mais

Probabilidade. Distribuição Binomial

Probabilidade. Distribuição Binomial Probabilidade Distribuição Binomial Distribuição Binomial (Eperimentos de Bernoulli) Considere as seguintes eperimentos/situações práticas: Conformidade de itens saindo da linha de produção Tiros na mosca

Leia mais

ICEI Índice de Confiança do Empresário Industrial Julho/07 Interiorização da Sondagem

ICEI Índice de Confiança do Empresário Industrial Julho/07 Interiorização da Sondagem Resultado do ICEI - Índice de Confiança do Empresário Industrial - nas Regionais FIESP Projeto de de Opinião CNI (DEPAR/DEPECON) Introdução A Sondagem Industrial é uma pesquisa qualitativa realizada trimestralmente

Leia mais

ANÁLISE DE FALHAS DE COMPUTADORES

ANÁLISE DE FALHAS DE COMPUTADORES UNIVERSIDADE FEDERAL DO PARANÁ SETOR DE CIÊNCIAS EXATAS DANIELE APARECIDA DE OLIVEIRA VERANICE POLATO ANÁLISE DE FALHAS DE COMPUTADORES LINHA DE PESQUISA: Projeto de Pesquisa apresentado à disciplina de

Leia mais

Inglês. COTAÇÕES (Parte II) Atividade A... 50 pontos. Atividade B... 50 pontos. Teste Intermédio de Inglês. Parte II Produção e interação escritas

Inglês. COTAÇÕES (Parte II) Atividade A... 50 pontos. Atividade B... 50 pontos. Teste Intermédio de Inglês. Parte II Produção e interação escritas Teste Intermédio de Inglês Parte II Produção e interação escritas Teste Intermédio Inglês Duração do Teste: 40 minutos (Parte II) 22.02.2013 9.º Ano de Escolaridade COTAÇÕES (Parte II) Atividade A... 50

Leia mais

Consideremos os seguintes exemplos de hipóteses cuja veracidade interessa avaliar:

Consideremos os seguintes exemplos de hipóteses cuja veracidade interessa avaliar: Consideremos os seguintes exemplos de hipóteses cuja veracidade interessa avaliar: o tempo médio de efeito de dois analgésicos não é o mesmo; a popularidade de determinado partido político aumentou; uma

Leia mais

1 Introdução. 1.1 Importância da Utilização da Amostragem

1 Introdução. 1.1 Importância da Utilização da Amostragem 1 Introdução Um dos principais objetivos da maioria dos estudos, análises ou pesquisas estatísticas é fazer generalizações seguras com base em amostras, sobre as populações das quais as amostras foram

Leia mais

Outline. 2 Abordagem probabiĺıstica para ORI. 3 Teoria de probabilidades. 4 Princípio de ranking probabiĺıstico

Outline. 2 Abordagem probabiĺıstica para ORI. 3 Teoria de probabilidades. 4 Princípio de ranking probabiĺıstico Outline 1 Recapitulação 2 Abordagem probabiĺıstica para ORI 3 Teoria de probabilidades 4 Princípio de ranking probabiĺıstico 5 Apreciação&Extensões Modelo probabiĺıstico 1 / 47 Retorno de relevância: ideia

Leia mais

Circuitos Lógicos Aula 3

Circuitos Lógicos Aula 3 Circuitos Lógicos Aula 3 Aula passada Apresentação Logística Sistemas digitais Aula de hoje Sistemas analógicos e digitais Representação binária Sinais digitais Circuito Representação Numérica Como medir

Leia mais

Capítulo 4 Inferência Estatística

Capítulo 4 Inferência Estatística Capítulo 4 Inferência Estatística Slide 1 Resenha Intervalo de Confiança para uma proporção Intervalo de Confiança para o valor médio de uma variável aleatória Intervalo de Confiança para a variância de

Leia mais

A. Equações não lineares

A. Equações não lineares A. Equações não lineares 1. Localização de raízes. a) Verifique se as equações seguintes têm pelo menos uma solução nos intervalos dados: i) (x - 2) 2 ln(x) = 0, em [1, 2] e [e, 4]. ii) 2 x cos(x) (x 2)

Leia mais

Universidade Federal do Amazonas Instituto de Ciências Exatas Departamento de Estatística

Universidade Federal do Amazonas Instituto de Ciências Exatas Departamento de Estatística PLANO DE ENSINO 1. IDENTIFICAÇÃO Disciplina: PROBABILIDADE E ESTATÍSTICA Código: IEE001 Pré-Requisito: IEM011 - CÁLCULO I N O de Créditos: 4 Número de Aulas Teóricas: 60 Práticas: 0 Semestre: 1 O Ano:

Leia mais

Teste de Funções por Cobertura do Grafo de Fluxo de Controle

Teste de Funções por Cobertura do Grafo de Fluxo de Controle Teste de Funções por Cobertura do Grafo de Fluxo de Controle Programação II Universidade de Lisboa Faculdade de Ciências Departamento de Informática Licenciatura em Tecnologias da Informação Vasco Thudichum

Leia mais

Probabilidade é o quociente entre o número de casos favoráveis e o número de casos possíveis em um dado experimento.

Probabilidade é o quociente entre o número de casos favoráveis e o número de casos possíveis em um dado experimento. Probabilidade é o quociente entre o número de casos favoráveis e o número de casos possíveis em um dado experimento. número de casos favoráveis probabilidade número de casos possíveis Nessa definição convém

Leia mais

EDUCAÇÃO FÍSICA 2016

EDUCAÇÃO FÍSICA 2016 INFORMAÇÃO - PROVA DE EQUIVALÊNCIA À FREQUÊNCIA EDUCAÇÃO FÍSICA 2016 Prova 311 Ensino Secundário I - OBJETO DE AVALIAÇÃO A prova tem por referência o Programa do ensino secundário da disciplina de Educação

Leia mais

AGRUPAMENTO DE ESCOLAS DE BENAVENTE

AGRUPAMENTO DE ESCOLAS DE BENAVENTE AGRUPAMENTO DE ESCOLAS DE BENAVENTE Informação Prova de Equivalência à Frequência Ensino Secundário 2015/2016 Decreto-Lei n.º 139/2012, de 5 julho Decreto -Lei nº 17/2016, de 4 de abril Aprovado em Conselho

Leia mais