Aprendizado Bayesiano

Documentos relacionados
Aprendizado Bayesiano. Disciplina: Agentes Adaptativos e Cognitivos

Prof. Daniela Barreiro Claro

UMA ANÁLISE BAYESIANA DO PERFIL COR/RAÇA DOS INDIVÍDUOS QUE TEM CURSO SUPERIOR NO BRASIL

Aula de Exercícios - Teorema de Bayes

Adição de probabilidades. O número de elementos da união dos conjuntos A e B n(aub) = n(a B) Dividindo os dois membros por n(e):

AULA 07 Distribuições Discretas de Probabilidade

ProLin V1.0. Programa de problemas de programação linear mista

Probabilidade e Estatística

Modelo Normal. Aplicações: Parte 1. Prof. Caio Azevedo. Prof. Caio Azevedo

Pressuposições à ANOVA

UM JOGO BINOMIAL 1. INTRODUÇÃO

ENG1000 Introdução à Engenharia

Aula de Hoje. Processamento Estatístico da Linguagem Natural. Decodificação. Decodificação. A treliça do algoritmo Viterbi

Técnicas de Contagem I II III IV V VI

Lógica de Programação. Profas. Simone Campos Camargo e Janete Ferreira Biazotto

Introdução aos Processos Estocásticos - Independência

Falta Erro Falha. Motivação. Teste de Software. Falha, Falta e Erro. Falha, Falta e Erro. Falha, Falta e Erro. Falha, Falta e Erro 6/6/11

Testes Qui-Quadrado - Teste de Aderência

Andrés Eduardo Coca Salazar Tutor: Prof. Dr. Zhao Liang

Tabelas Hash. Aleardo Manacero Jr.

Probabilidade e Estatística 2008/2. Regras de adicão, probabilidade condicional, multiplicação e probabilidade total.

Ajuste de um modelo de TRI aos dados do vestibular do curso de Administração Noturno da Universidade Federal de Uberlândia

Classificação de textos Naive Bayes Teoria de Naive Bayes Avaliação de classificação de textos. Classificação de textos & Naive Bayes 1 / 48

Distribuição Normal de Probabilidade

Estimativas de Arrecadação de Impostos Próprios Estaduais e Municipais, Transferências Constitucionais e os 25% Constitucionais da Educação


Entropia, Entropia Relativa

Estimação. Como definir um estimador. Como obter estimativas pontuais. Como construir intervalos de confiança

MODELAGENS. Modelagem Estratégica

Impactos das mudanças climáticas em cidades brasileiras

Ondas EM no Espaço Livre (Vácuo)

Análise e Resolução da prova de Agente de Polícia Federal Disciplina: Raciocínio Lógico Professor: Custódio Nascimento

Teste de Hipótese e Intervalo de Confiança. Parte 2

Árvores Parte 1. Aleardo Manacero Jr. DCCE/UNESP Grupo de Sistemas Paralelos e Distribuídos

Jogos Bayesianos Estratégias e Equilíbrio Aplicações. Jogos Bayesianos. Prof. Leandro Chaves Rêgo

Prova de Fundamentos de Bancos de Dados 1 a Prova

Classificação de textos: definição & relevância para ORI

Curso de Formação de Oficiais Conhecimentos Específicos ENGENHARIA DE COMPUTAÇÃO CADERNO DE QUESTÕES

Plano de Projeto. Tema 3. Gerência de Projetos Profa. Susana M. Iglesias

Classificação de textos Naive Bayes Teoria de Naive Bayes Avaliação de classificação de textos

Análise Qualitativa no Gerenciamento de Riscos de Projetos

Exemplos. Jogo dos oito :-) Mundo dos blocos (ex: torre de Hanoi) Poblema das rainhas. Criptoaritmética. Missionários e Canibais.

Conceitos de Gestão de Estoques. Prof. Ruy Alexandre Generoso

Cap. II EVENTOS MUTUAMENTE EXCLUSIVOS E EVENTOS NÃO- EXCLUSIVOS

Planejamento - 2. Definição de atividades Sequenciamento das atividades. Mauricio Lyra, PMP

Inteligência Artificial

CRM e Prospecção de Dados

Exemplo de aprendizagem máquina

PROGRAMAÇÃO DE COMPUTADORES

Preço de uma lapiseira Quantidade Preço de uma agenda Quantidade R$ 10, R$ 24, R$ 15,00 80 R$ 13, R$ 20,00 60 R$ 30,00 160

Insight for a better planet SOLUÇÕES EM PLANEJAMENTO, AGENDAMENTO E OTIMIZAÇÃO FLORESTAL

Sistemas de Produção Reativos e Algoritmo de Rete

Tipos de investigação educacional diferenciados por:

J.I.T. - Just In Time

Criar e formatar relatórios

Programação Orientada a Objetos SANTOS, Rafael

QUESTIONAMENTO ACERCA DO EDITAL DO PREGÃO ELETRÔNICO AA Nº 03/ BNDES

PESQUISA OPERACIONAL -PROGRAMAÇÃO LINEAR. Prof. Angelo Augusto Frozza, M.Sc.

AULA 19 Análise de Variância

Mecken Golden Corporation 1439 S Ocean Blvd, FL Phone:

Problema da Árvore Geradora Mínima

Métodos Estatísticos Avançados em Epidemiologia

Probabilidade. Luiz Carlos Terra

Métodos Estatísticos Avançados em Epidemiologia

Modelo Entidade Relacionamento (MER) Professor : Esp. Hiarly Alves

Arquivos Indexados por Chaves Secundárias. Vanessa Braganholo

Aula 10: Escalonamento da CPU

EXAME DE MACS 2º FASE 2014/2015 = 193

Algoritmos e Estruturas de Dados I. Recursividade. Pedro O.S. Vaz de Melo

IFRS 13 Mensuração do valor justo

Probabilidade. Evento (E) é o acontecimento que deve ser analisado.

10 maneiras para melhorar o sinal de wifi em sua casa

2) Escreva um algoritmo que leia um conjunto de 10 notas, armazene-as em uma variável composta chamada NOTA e calcule e imprima a sua média.

Introdução à análise de dados discretos

Obtenção Experimental de Modelos Matemáticos Através da Reposta ao Degrau

WEBFLEET Índice remissivo. Notas de lançamento - Março de 2015

MINERAÇÃO DE DADOS. Thiago Marzagão MINERAÇÃO DE TEXTOS. Thiago Marzagão (UnB) MINERAÇÃO DE DADOS 1/ / 25

Avaliação de Empresas Profa. Patricia Maria Bortolon

Árvores. ! utilizada em muitas aplicações. ! modela uma hierarquia entre elementos. ! O conceito de árvores está diretamente ligado à recursão

Objetivo do Portal da Gestão Escolar

Pós-Graduação em Computação Distribuída e Ubíqua

Redes de Computadores

mercado de cartões de crédito, envolvendo um histórico desde o surgimento do produto, os agentes envolvidos e a forma de operação do produto, a

Graphing Basic no Excel 2007

1.0 Informações de hardware

Teoria dos Grafos. Valeriano A. de Oliveira Socorro Rangel Departamento de Matemática Aplicada.

Avaliação Teórica II Seleção Final 2015 Olimpíadas Internacionais de Física 16 de Abril 2015

Apontamento técnico No. 5, Fevereiro de 2014 Como pedir apoio através do Ajuda Online do CAICC

Unidade 11 - Probabilidade. Probabilidade Empírica Probabilidade Teórica

Deadlocks. Sistemas Operacionais - Professor Machado

Aula 8 Intervalos de confiança para proporções amostras grandes

Tema: Fachadas Ativas. Palestrante: Thomaz Assumpção

Ransomware backup e outras medidas preventivas GTS 27 Uberlândia, Maio de 2016

ANEXO III. Roteiro para Apresentação de Projetos do Tipo C R$ ,00 a R$ ,00

Para entender o conceito de objetos em programação devemos fazer uma analogia com o mundo real:

[RESOLUÇÃO] Economia I; 2012/2013 (2º semestre) Prova da Época Recurso 3 de Julho de 2013

1 Introdução. 1.1 Importância da Utilização da Amostragem

ATuLCo. Manual de Instruções. Gestor de Agência de Viagens. ATuLCo Gestor de Agencia de Viagens. Horário Abreu Nr António Felgueiras Nr.

Dynamic Voltage Scaling in Multitier Web Servers with End-to-End Delay Control

Como e onde buscar informação e evidências para tomada de decisões em saúde Biblioteca Virtual em Saúde - BVS

Transcrição:

Aprendizado Bayesiano Marcelo K. Albertini 3 de Julho de 2014

2/1 Conteúdo Aprendizado Naive Bayes Exemplo: classificação de texto Redes Bayesiana Algoritmo EM Regressão probabiĺıstica

3/1 Classificador Maximum a Posteriori Assumir que função alvo f : X C, onde cada instância x é descrita por atributos a 1, a 2... a n Classe mais provável, ou seja c MAP = f (x), é: c MAP = arg max c j C P(c j a 1, a 2,..., a n ) P(a 1, a 2,..., a n c j )P(c j ) c MAP = arg max c j C P(a 1, a 2,..., a n ) = arg max c j C P(a 1, a 2,..., a n c j )P(c j )

4/1 Premissa de Naive Bayes Premissa simplificadora: atributos são independentes. P(a 1, a 2,... a n c j ) = i P(a i c j ) o que resulta no classificador Naive Bayes c NB = arg max c j C P(c j) i P(a i c j )

5/1 Algoritmo Naive Bayes NaiveBayes(exemplos) Para cada valor-alvo c j ˆP(c j ) estimativa de P(c j ) Para cada valor de atributo a i de cada atributo a ˆP(a i c j ) estimativa de P(a i c j ) ClassificarNovaInstancia(x) c NB = arg max c j C ˆP(c j ) ai x ˆP(a i c j )

6/1 Naive Bayes: exemplo Considere exemplo JogarT^enis e uma nova instância: Aparência=Ensolarado, Temp.=frio, Umidade=alta, Vento = forte Queremos computar c NB = arg max c j C P(c j) i P(a i c j ) P(sim)P(ensol. sim)p(frio sim)p(alta sim)p(forte sim) = 0.005 P(não)P(ensol. não)p(frio não)p(alta não)p(forte não) = 0.021 c NB = n

7/1 Naive Bayes: detalhes Premissa de independência condicional é frequentemente violada P(a 1, a 2,..., a n c j ) = i P(a i c j ) porém funciona bem, mesmo com ˆP(c j x) incorretas; necessita somente que arg max c j C ˆP(c j ) i ˆP(a i c j ) = arg max c j C ˆP(c j )P(a 1,... a n c j )

8/1 Naive Bayes: detalhes E se nenhuma das instâncias de treino com valor-alvo c i tem valor de atributo a i? Então ˆP(a i c j ) = 0, e... ˆP(c j ) i ˆP(a i c j ) = 0

9/1 Solução típica Usar estimativa m onde ˆP(a i c j ) n c + mp n + m n é número de exemplos de treino em que v = c j n c é número de exemplos em que v = c j e a = a i p é estimativa a priori para ˆP(a i c j ) m é peso dado para a priori (número de exemplos fantasmas ) se m = 0, temos formulação original quanto maior m, maior é a confiança no conhecimento prévio

10/1 Aprendizado de classificação de textos Aprender quais artigos de jornal são do interesse de uma pessoa Aprender a classificar páginas de acordo com tópicos Naive bayes é um dos algoritmos mais usados. Quais atributos devemos usar para representar documentos de texto?

11/1 Aprendizado de classificação de textos Conceito-alvo Interessante?: Documento {+, } Representar cada documento por um vetor de palavras: um atributo por palavra no documento Aprendizado: usar exemplos de treino para estimar P(+) P( ) P(doc +) P(doc )

12/1 Classificador Naive Bayes em textos Premissa de independência condicional de Naive Bayes P(doc c j ) = tam(doc) i=1 P(a i = w k c j ) onde P(a i = w k c j ) é a probabilidade que a palavra na posição i é w k, assumindo que a classe é c j Premissa adicional A posição da palavra não muda a probabilidade: P(a i = w k c j ) = P(a m = w k c j ), i, m

1 T r e i n o N a i v e B a y e s ( Doc [ ] exemplos, C l a s s e s C) { 2 // P : p r o b a b i l i d a d e s de cada c l a s s e 3 d o u b l e [ ] P = new d o u b l e [ C. s i z e ( ) ] ; 4 // Pw: p r o b a b i l i d a d e s de cada p a l a v r a em cada c l a s s e 5 Map<S t r i n g, d o u b l e [] > Pw = new HashMap ( ) ; 6 7 S t r i n g vocab [ ] = exemplos. o b t e r P a l a v r a s D i s t i n t a s ( ) ; 8 9 f o r ( C l a s s e c j : C) { 10 Doc [ ] d o c s c j = exemplos. comclasse ( c j ) 11 P [ c j ] = d o c s c j. s i z e ( ) / exemplos. s i z e ( ) ; 12 i n t n = d o c s c j. numerodepalavras ( ) ; 13 14 f o r ( S t r i n g a i : vocab ) { 15 i n t n c = d o c s c j. numeroocorrenciasde ( a i ) ; 16 Pw. g e t ( a i ) [ c j ] = ( n c + 1) /( n + vocab. l e n g t h ) ; 17 } 18 } 19 r e t u r n P, Pw; 20 } 13/1

14/1 1 C l a s s e C l a s s i f i c a r N B ( Doc d, C l a s s e s C, 2 d o u b l e [ ] P, 3 Map<S t r i n g, d o u b l e [] > Pw) { 4 5 S t r i n g [ ] p a l a v r a s = d. o b t e r P a l a v r a s ( ) ; 6 C l a s s e c NB = argmax (C, P, Pw, p a l a v r a s ) ; 7 r e t u r n c NB ; 8 } Função: argmax(c, P, Pw, palavras) c NB = arg max c j C log P(c j) + a i palavras log P(a i c j )

Exemplo: 20 newsgroups Dados 1000 documentos de treino de cada classe (1 lista = 1 classe). Aprender a classificar novos documentos entre as listas: comp.graphics comp.os.ms-windows.misc comp.sys.ibm.pc.hardware alt.atheism talk.religion.misc talk.politics.misc sci.space sci.crypt sci.med rec.autos misc.forsale... http://qwone.com/~jason/20newsgroups/ 15/1

16/1 Redes Bayesianas Interessante porque: Premissa de Naive Bayes de independência condicional é muito restritiva Redes Bayesiana permite melhorar premissa, mantendo a tratabilidade Combina conhecimento prévio de (in)dependências entre variáveis com dados observados

17/1 Independência condicional Definição X é condicionalmente independente de Y, considerando Z se ( x i, y j, z k )P(X = x i Y = y j, Z = z k ) = P(X = x i Z = z k ) De maneira mais compacta P(X Y, Z) = P(X Z)

18/1 Exemplo Trov~ao é condicionalmente independente de chuva, considerando raio. P(trovão chuva, raio) = P(trovão raio) Naive Bayes usa independência condicional para justificar sua premissa: P(X, Y Z) = P(X Y, Z)P(Y Z) = P(X Z)P(Y Z)

19/1 Rede Bayesiana Tempestade Turistas A =Tempestade, B =Turistas, C =Fogueira Raio Fogueira A, B A, B A, B A, B C 0.4 0.1 0.8 0.2 C 0.6 0.9 0.2 0.8 Trovão Incêndio Rede representa um conjunto de afirmações sobre independência condicional. Cada vértice é condicionalmente independente de seus não-descendentes, considerando seus pais.

20/1 Rede Bayesiana Rede representa distribuição de probabilidade conjunta sobre todas as variáveis Exemplo P(tempestade, turistas... incêndio) Em geral P(y 1,..., y n ) = n P(y i Pais(Y i )) i=1 onde Pais(Y i ) denota predecessores imediatos de Y i no grafo Então distribuição conjunta é completamente definida pelo grafo, mais P(y i Pais(Y i ))

21/1 Inferência em Redes Bayesianas Como inferir as probabilidades de variáveis da rede, considerando os valores de outras? Rede Bayesiana contém toda a informação necessária para a inferência No caso geral, problema é NP-hard Na prática, pode ser bem sucedido Métodos de inferência exatos funcionam para algumas estruturas simplificadas Métodos de Monte Carlo simulam a rede aleatoriamente para calcular soluções aproximadas

22/1 Aprendizado de Redes Bayesianas Muitas variantes para esta tarefa de aprendizado Estrutura da rede pode ser conhecida ou não Exemplos de treino podem prover valores para todas as variáveis da rede, ou apenas algumas Estrutura conhecida e sem valores faltando treino similar ao classificador de Naive Bayes.

23/1 Algoritmo EM EM : Expectativa/Esperança e Maximização Supor estrutura conhecida, variáveis parcialmente observáveis. Exemplo Possível saber Inc^endio, Tempestade, Turistas, Trov~ao, mas não Raio, Fogueira... Inicializar parâmetros ignorando informação faltante. Repetir até convergência: Passo E: computar valores esperados de variáveis não observadas assumindo valores de parâmetros atuais Passo M: computar novos valores de parâmetros para maximizar probabilidade dos dados (observados & estimados)

24/1 Exemplo EM A B C Exemplos A B C 0 1 1 1 0 0 1 1 1 1? 0 Inicialização P(B A) = P(C B) = P(A) = P(B A) = P(C B) = Passo E P(? = 1) = P(B A, C) = P(A,B, C) P(A, C) =... = Passo M P(B A) = P(C B) = P(A) = P(B A) = P(C B) = Passo E P(? = 1) =

25/1 Estrutura desconhecida Busca Estado inicial: rede vazia ou rede de conhecimento prévio Operadores: adicionar aresta, remover aresta, inverter aresta Avaliação: probabilidade a posteriori