SCC Capítulo 12 Aprendizado Probabilístico

Documentos relacionados
Aprendizado Bayesiano Anteriormente...

Inteligência Artificial

Inteligência Artificial IA IV. RACIOCÍNIO BASEADO EM REGRAS

Reconhecimento de Padrões

1 Classificadores Bayseanos Simples

INF 1771 Inteligência Artificial

Aprendizado Bayesiano

Lista 2 Sistemas Inteligentes (INE5633) 2014s2

CLASSIFICADORES BAEYSIANOS

Introdução a Sistemas Inteligentes

Sumário. 2 Índice Remissivo 12

UNIVERSIDADE DO ESTADO DE MATO GROSSO - UNEMAT. Faculdade de Ciências Exatas e Tecnológicas FACET / Sinop Curso de Bacharelado em Engenharia Elétrica

Naïve Bayesian Learning. Marcílo Souto DIMAp/UFRN

lnteligência Artificial Raciocínio Probabilístico - Introdução a Redes Bayesianas

Combinação de Classificadores (fusão)

Seleção de Atributos 1

RECONHECIMENTO DE PADRÕES - RP

Utilização do Corte Percentual na categorização de documentos da Web com o algoritmo Naive Bayes

Classificação Linear. André Tavares da Silva.

Resolução de sistemas de equações lineares: Método dos Gradientes Conjugados

Estatística Aplicada. Árvore de Decisão. Prof. Carlos Alberto Stechhahn PARTE II. Administração. p(a/b) = n(a B)/ n(b)

Análise de Algoritmos

Inteligência Artificial. Raimundo Osvaldo Vieira [DComp IFMA Campus Monte Castelo]

Aprendizado Bayesiano

Fundamentos de Inteligência Artificial [5COP099]

PCC104 - Projeto e Análise de Algoritmos

Organizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU

Matemática - Ensino Fundamental. Exercícios - Lista 2-8o. Ano. Exercícios sobre equações de 1o. grau em questões de geometria 1.

Processamento de Malhas Poligonais

Resolução de sistemas de equações não-lineares: Método Iterativo Linear

Inteligência Artificial

Processamento digital de imagens

1 Definição Clássica de Probabilidade

UNIVERSIDADE DO ESTADO DE MATO GROSSO - UNEMAT. Faculdade de Ciências Exatas e Tecnológicas FACET / Sinop Curso de Bacharelado em Engenharia Elétrica

INE5403 FUNDAMENTOS DE MATEMÁTICA DISCRETA

Classificação: Árvores de Decisão e k-nn. Eduardo Raul Hruschka

Representação de Conhecimento Usando Teoria de Conjuntos Aproximados

Probabilidade - aula II

O quê?!? você irá exclamar, atônito. O que quer dizer isto: posso + posso = mesmo?? Que difícil!

14.5 A Regra da Cadeia. Copyright Cengage Learning. Todos os direitos reservados.

Protótipo de Software para Reconhecimento de Impressões Digitais

Inteligência Artificial Agrupamento de Dados. prof. Dr. Rogério R. de Vargas. Universidade Estadual de Santa Cruz - UESC. Ilhéus-Ba, Outubro de 2013

Redes Neurais e Sistemas Fuzzy

M08. Introdução a Técnicas de Data Mining DM

Classificação e Predição de Dados - Profits Consulting - Consultoria Empresarial - Serviços SAP- CRM Si

RANILDO LOPES. Estatística

INF 1771 Inteligência Artificial

Classificação. Prof. Fabrício Olivetti de França Universidade Federal do ABC

Análise de Imagens. Aula 20: Sistemas com Múltiplos Classificadores. Prof. Alexandre Xavier Falcão.

Aula 7 Medidas de Distância. Profa. Elaine Faria UFU

WEKA: Prática Carregando a base de dados no Weka

Introdução à Mineração de Dados com Aplicações em Ciências Espaciais

Permutacões com elementos repetidos

1. Avaliação de impacto de programas sociais: por que, para que e quando fazer? (Cap. 1 do livro) 2. Estatística e Planilhas Eletrônicas 3.

CLASSIFICADORES ELEMENTARES -II

FACULDADE CAMPO LIMPO PAULISTA (FACCAMP) COORDENADORIA DE EXTENSÃO E PESQUISA CURSO DE PÓS-GRADUAÇÃO LATO SENSU EM MINERAÇÃO E CIÊNCIA DOS DADOS

Aprendizagem de Máquina

Material Teórico - O Plano Cartesiano e Sistemas de Equações. Sistemas de Equações do Primeiro Grau com Duas Incógnitas

Introdução às Redes Neurais Artificiais

Estatística Básica. Probabilidade. Renato Dourado Maia. Instituto de Ciências Agrárias. Universidade Federal de Minas Gerais

Adilson Cunha Rusteiko

Cálculo Numérico / Métodos Numéricos. Solução de equações polinomiais Briot-Ruffini-Horner

Prof. Lorí Viali, Dr.

Algoritmos de Ordenação: Tempo Linear

Potências de dez, ordens de grandeza e algarismos significativos

Inteligência Artificial. Conceitos Gerais

Aula 07. Modelos Probabilísticos. Stela Adami Vayego - DEST/UFPR 1

2 Sentiment Analysis 2.1

Processamento de Imagem. Compressão de Imagens Professora Sheila Cáceres

Mecanismos de Interrupção e de Exceção, Barramento, Redes e Sistemas Distribuídos. Sistemas Operacionais, Sistemas

Grafos e Algoritmos Raimundo Macêdo. Teorema de Hall (Prova por Indução)

Probabilidade - aula II

ESTATÍSTICAS PARA INFERIR PADRÕES SELECÇÃO

Visão computacional. Juliana Patrícia Detroz Orientador: André Tavares Silva

XXXVII OLIMPÍADA PAULISTA DE MATEMÁTICA Prova da Primeira Fase 9 de agosto de 2014 Nível (6º e 7º anos do Ensino Fundamental)

Interpolação polinomial: Diferenças divididas de Newton

Um Minotauro Perdido & Percolação

Por exemplo, vamos obter os termos de uma progressão geométrica de razão 2, partindo do número 3.

Redes Bayesianas. Disciplina: Inteligência Artificial Prof.: Cedric Luiz de Carvalho

Metodologia Aplicada a Computação.

Interpolação polinomial: Polinômio de Lagrange

INE5403 FUNDAMENTOS DE MATEMÁTICA DISCRETA

Plano. Aspectos Relevantes de HMMs. Teoria de HMMs. Introdução aos Modelos Escondidos de Markov

Modelos de Probabilidade e Inferência Estatística

TAREFA 1 - VAMOS CONHECER A TURMA!...

Resolução de sistemas de equações lineares: Fatorações de matrizes

UNIVERSIDADE DO ESTADO DE MATO GROSSO - UNEMAT. Faculdade de Ciências Exatas e Tecnológicas FACET / Sinop Curso de Bacharelado em Engenharia Elétrica

Representações de Números Inteiros: Sinal e Magnitude e Representação em Excesso de k

UNIVERSIDADE FEDERAL RURAL DO SEMI-ÁRIDO CURSO: CIÊNCIA DA COMPUTAÇÃO. Prof.ª Danielle Casillo

Universidade Federal de Lavras

Prof: Ricardo Quintão Site:

INE5403 FUNDAMENTOS DE MATEMÁTICA DISCRETA

Otimização. Otimização em Redes. Paulo Henrique Ribeiro Gabriel Faculdade de Computação Universidade Federal de Uberlândia 2016/2

VARIÁVEIS ALEATÓRIAS E DISTRIBUIÇÕES DE PROBABILIDADE

PROJETO KALI MATEMÁTICA B AULA 3 FRAÇÕES

3. CAPÍTULO LÓGICAS DIGITAIS

Árvores Vermelho-Preto

Aprendizado por Árvores de Decisão

Hashing: conceitos. Hashing

Transcrição:

Aprendizado Probabilístico SCC-630 - Capítulo 12 Aprendizado Probabilístico João Luís Garcia Rosa 1 1 Departamento de Ciências de Computação Instituto de Ciências Matemáticas e de Computação Universidade de São Paulo - São Carlos joaoluis@icmc.usp.br 2011 João Luís G. Rosa c 2011 - SCC-630: XII. Aprendizado Probabilístico 1/7

Aprendizado Probabilístico Agradecimento Agradeço à Profa. Maria Carolina Monard, que gentilmente permitiu que eu usasse seus slides [2] para preparação deste capítulo. João Luís G. Rosa c 2011 - SCC-630: XII. Aprendizado Probabilístico 2/7

Sumário Aprendizado Probabilístico 1 Aprendizado Probabilístico João Luís G. Rosa c 2011 - SCC-630: XII. Aprendizado Probabilístico 3/7

Aprendizado Probabilístico Material do Eamonn Keogh Os próximos 25 slides contêm material do Prof. Eamonn Keogh [1], com adaptação da Profa. Maria Carolina Monard. João Luís G. Rosa c 2011 - SCC-630: XII. Aprendizado Probabilístico 4/7

Fair Use Agreement This agreement covers the use of all slides on this CD-Rom, please read carefully. You may freely use these slides for teaching, if You send me an email telling me the class number/ university in advance. My name and email address appears on the first slide (if you are using all or most of the slides), or on each slide (if you are just taking a few slides). You may freely use these slides for a conference presentation, if You send me an email telling me the conference name in advance. My name appears on each slide you use. You may not use these slides for tutorials, or in a published work (tech report/ conference paper/ thesis/ journal etc). If you wish to do this, email me first, it is highly likely I will grant you permission. (c) Eamonn Keogh, eamonn@cs.ucr.edu

Classificador Naïve Bayes Thomas Bayes 1702-1761 Vamos iniciar com uma intuição visual, antes de ver a matemática

Gafanhoto Esperança Comp.. da antena 10 9 8 7 6 5 4 3 2 1 1 2 3 4 5 6 7 8 9 10 Comp.. do Abdômen Lembra-se desse exemplo? Vamos pegar muitos outros dados

Com um monte de dados podemos construir um histograma. Vamos construir apenas um para Comp.. da antena,, por enquanto Comp.. da antena 10 9 8 7 6 5 4 3 2 1 1 2 3 4 5 6 7 8 9 10 Louva-Deus Gafanhoto

Podemos deixar os histogramas como estão ou podemos sumarizá-los com duas distribuições normais. Para facilitar a visualização vamos usar duas distribuições normais nos próximos slides

Queremos classificar um inseto que encontramos. Sua antena tem 3 unidades de comprimento. Como classificá-lo? Podemos apenas nos perguntar, dada a distribuição de comprimento de antenas que vimos, é mais provável que nosso inseto seja um Gafanhoto ou um Esperança? Há uma maneira formal de discutir a classificação mais provável p(c j j d) d) = probabilidade da da classe c j, j, dado que observamos d 3 Comp. da antena é 3

p(c j j d) d) = probabilidade da da classe c j, j, dado que observamos d P(Gafanhoto 3 ) = 10 / (10 + 2) = 0.833 P(Esperança 3 ) = 2 / (10 + 2) = 0.166 2 10 3 Comp. da antena é 3

p(c j j d) d) = probabilidade da da classe c j, j, dado que observamos d P(Gafanhoto 7 ) = 3 / (3 + 9) = 0.250 P(Esperança 7 ) = 9 / (3 + 9) = 0.750 3 9 7 Comp. da antena é 7

p(c j j d) d) = probabilidade da da classe c j, j, dado que observamos d P(Gafanhoto 5 ) = 6 / (6 + 6) = 0.500 P(Esperança 5 ) = 6 / (6 + 6) = 0.500 6 6 Comp. da antena é 5 5

Classificadores Bayesianos Essa foi uma intuição visual para um caso simples do Classificador Bayesiano, também chamado de: Naive Bayes Bayes Ingênuo Bayes Simples Vamos ver agora alguns formalismos matemáticos, e mais exemplos, mas vamos manter a idéia básica na cabeça. Descubra a probabilidade de um exemplo nunca visto antes exemplo nunca visto antes pertencer a cada classe, então simplesmente selecione a classe mais provável.

Classificadores Bayesianos Classificador Bayesiano usa o teorema de Bayes, que diz p(c j d ) = p(d c j ) p(c j ) p(d) p(c j d) = probabilidade do exemplo d ser da classe c j, É isto que estamos tentando calcular p(d c j ) = probabilidade de gerar exemplo d dada a classe c j, Nós podemos imaginar que ser da classe c j, leva a ter a característica d com alguma probabilidade p(c j ) = probabilidade de ocorrência da classe c j, Representa apenas quão freqüente a classe c j, é na nossa base p(d) = probabilidade de exemplo d ocorrer Isto pode ser ignorado, por ser igual para todas as classes

Assuma que temos duas classes c 1 = homem, e c 2 = mulher. Temos uma pessoa cujo sexo não conhecemos, digamos drew ou d. Classificar drew como homem ou mulher é equivalente a se perguntar se é mais provável que drew é homem ou mulher, ou seja, qual é maior p(homem drew) ou p(mulher drew) (nota: Drew pode ser o nome de um homem ou de uma mulher. ) Drew Barrymore Qual a probabilidade de ser chamado drew dado que você é um homem? p(homem drew) = p(drew homem ) p(homem) p(drew) Drew Carey Qual a probabilidade de ser um homem? Qual a probabilidade de ser chamado drew? (na verdade isso é irrelevante por ser a mesma para ambas as classes)

Este é o oficial Drew (que me prendeu em 1997). O oficial Drew é um homem ou mulher? Oficial Drew Por sorte, temos uma pequena base de dados com nomes e sexo. E podemos usá-la para aplicar a regra de Bayes p(c j d) = p(d c j ) p(c j ) p(d) Nome Drew Claudia Drew Drew Alberto Karin Nina Sergio Sexo homem mulher mulher mulher homem mulher mulher homem

Oficial Drew p(c j d) = p(d c j ) p(c j ) p(d) p(homem drew) = 1/3 * 3/8 = 0.125 3/8 3/8 p(mulher drew) = 2/5 * 5/8 = 0.250 3/8 3/8 Nome Drew Claudia Drew Drew Alberto Karin Nina Sergio Sexo homem mulher mulher mulher homem mulher mulher homem É mais provável que o oficial Drew seja mulher.

Oficial Drew é uma mulher! Oficial Drew p(homem drew) = 1/3 * 3/8 = 0.125 3/8 3/8 p(mulher drew) = 2/5 * 5/8 = 0.250 3/8 3/8

Até agora só consideramos a classificação Bayesiana quando temos um atributo (o Comp. da antena, ou o Nome ). Mas podemos ter muitas características. Como usamos todas as características? p(c j d) = p(d c j ) p(c j ) p(d) Nome Mais de 170CM Olhos Comp. do cabelo Sexo Drew não Azuis Curto homem Claudia sim Castanhos Longo mulher Drew não Azuis Longo mulher Drew não Azuis Longo mulher Alberto sim Castanhos Curto homem Karin não Azuis Longo mulher Nina sim Castanhos Curto mulher Sergio sim Azuis Longo homem

Para simplificar a tarefa, Classificadores Naïve Bayes assumem que os atributos tem distribuições independentes, e portanto, estimam que: p(d c j ) = p(d 1 c j ) * p(d 2 c j ) *.* p(d n c j ) A probabilidade da classe c j gerar exemplo d, igual a A probabilidade da classe c j gerar o valor observado para o atributo 1, multiplicado por... A probabilidade da classe c j gerar o valor observado para o atributo 1, multiplicado por...

Para simplificar a tarefa, Classificadores Naïve Bayes assumem que os atributos tem distribuições independentes, e portanto, estimam que: p(d c j ) = p(d 1 c j ) * p(d 2 c j ) *.* p(d n c j ) p(oficial drew c j ) = p(mais de_170 cm = sim c j ) * p(olhos =Azuis c j ) *. Oficial Drew tem olhos Azuis Mais de 170 cm de altura, e cabelo longo p(oficial drew mulher) = 2/5 * 3/5 *. p(oficial drew homem) = 2/3 * 2/3 *.

Os classificadores Naive Bayes são geralmente representados com este tipo de grafo c j Note a direção das flechas, que indicam que cada classe estão relacionadas a certas características, com uma certa probabilidade p(d 1 c j ) p(d 2 c j ) p(d n c j )

O Naïve Bayes é rápido e eficiente em termos de espaço c j Podemos descobrir todas as probabilidades varrendo apenas uma vez a base de dados e armazená-las em uma tabela (pequena) p(d 1 c j ) p(d 2 c j ) p(d n c j ) Sexo homem mulher Mais de 190 cm sim 0.15 não 0.85 sim 0.01 não 0.99 Sexo Cabelo Longo homem sim 0.05 não 0.95 mulher sim 0.70 não 0.30 Sexo homem mulher

O Naïve Bayes NÃO é sensível a atributos irrelevantes... Suponha que estamos tentando classificar o sexo das pessoas baseado em várias características, incluindo cor dos olhos (É claro que a cor dos olhos é completamente irrelevante para o sexo de uma pessoa) p(jessica c j ) = p(olhos = castanhos c j ) * p(usa_vestido = sim c j ) *. p(jessica mulher) = 9,000/10,000 * 9,975/10,000 *. p(jessica homem) = 9,001/10,000 * 2/10,000 *. Quase a mesma! Entretanto, ele assume que temos estimativas das probabilidades boas o suficiente, portanto, quanto mais dados melhor

Um ponto óbvio.. Usamos um problema simples de duas classes e dois valores possíveis para cada exemplo. Entretanto, podemos ter um número n arbitrário rio de classes ou de valores de atributos c j Animal Gato Cão Porco Peso > 10 kg sim 0.15 não 0.85 sim 0.91 não 0.09 sim 0.99 não 0.01 p(d 1 c j ) p(d 2 c j ) p(d n c j ) Animal Cor Gato Preto 0.33 Branco 0.23 Marrom 0.44 Cão Preto 0.97 Branco 0.03 Marrom 0.90 Porco Preto 0.04 Branco 0.01 Marrom 0.95 Animal Gato Cão Porco

Problema! O Naïve Bayes assume independência entre as características p(d c j ) Classificador Naïve Bayes p(d 1 c j ) p(d 2 c j ) p(d n c j ) Sexo homem mulher Mais de 170 cm sim 0.15 não 0.85 sim 0.01 não 0.99 Sexo Mais de 100 kg homem sim 0.11 não 0.80 mulher sim 0.05 não 0.95

Solução Considerar as correlações entre os atributos p(d c j ) Classificador Naïve Bayes p(d 1 c j ) p(d 2 c j ) p(d n c j ) Sexo homem mulher Mais de 170 cm sim 0.15 não 0.85 sim 0.01 não 0.99 Sexo Mais de 100 kg homem sim e Mais de 170 cm 0.11 não e Mais de 170 cm 0.59 sim e NÃO Mais de 170 cm 0.05 não e NÃO Mais de 170 cm 0.35 mulher sim e Mais de 170 cm 0.01

Solução Considerar as correlações entre os atributos p(d c j ) Classificador Naïve Bayes p(d 1 c j ) p(d 2 c j ) p(d n c j ) Mas como encontramos o conjunto de arcos conectores??

Aprendizado Probabilístico Vantagens e Desvantagens do Naïve Bayes Vantagens: Treinamento rápido (varredura única). Rápido para classificar. Não sensível a características irrelevantes. Lida com dados reais e discretos. Lida bem com dados contínuos. Desvantagem: Assume independência das características. João Luís G. Rosa c 2011 - SCC-630: XII. Aprendizado Probabilístico 5/7

Aprendizado Probabilístico Sumário da Classificação Vimos 4 técnicas de classificação principais: Classificador linear simples, vizinho mais próximo, árvore de decisão, Bayes. Há outras técnicas: Redes neurais, máquinas de suporte vetorial, algoritmos genéticos, sistemas classificadores fuzzy... Em geral, não há um classificador melhor para todos os problemas. Temos que considerar o que esperamos conseguir e os dados em si. João Luís G. Rosa c 2011 - SCC-630: XII. Aprendizado Probabilístico 6/7

Referências I Apêndice Bibliografia [1] Eamonn Keogh, Professor, Computer Science & Engineering Department, University of California - Riverside. http: //www.cs.ucr.edu/~eamonn/tutorials.html [2] Monard, M. C. Slides da disciplina SCC630 - Inteligência Artificial. ICMC - USP, 2010. João Luís G. Rosa c 2011 - SCC-630: XII. Aprendizado Probabilístico 7/7