Aprendizagem de Máquina

Plano de Aula Aprendizagem de Máquina Aprendizagem de Conceito Aula 2 Alessandro L. Koerich Mestrado em Informática Aplicada Introdução Tarefa de Aprendizagem de Conceito Aprendizagem de Conceito como uma Busca Ordenação de Hipóteses Algoritmo Find-S Espaço Versão Eliminação de Candidato Exemplos Ilustrativos Resumo Pontifícia Universidade Católica do Paraná (PUCPR) Mestrado em Informática Aplicada Aprendizagem de Máquina 2 Introdução Introdução O problema central da aprendizagem é induzir (construir) funções gerais a partir de exemplos de treinamento específicos. Exemplo: Aprendendo a jogar damas. Na aula de hoje abordaremos a aprendizagem de conceito O que é aprendizagem de conceito? Mestrado em Informática Aplicada Aprendizagem de Máquina 3 Mestrado em Informática Aplicada Aprendizagem de Máquina 4

Introdução Introdução Aprendizagem de Conceito: obtenção da definição de uma categoria geral a partir de exemplos de treinamento positivos e negativos da categoria. Pode ser formulada como um problema de busca em um espaço de hipóteses pré definido hipótese que melhor se ajusta aos exemplos de treinamento. Duas situações serão consideradas: Algoritmos de Aprendizagem Situações onde eles convergem para a hipótese correta Natureza da Aprendizagem Indutiva Generalização além dos dados de treinamento observados Mestrado em Informática Aplicada Aprendizagem de Máquina 5 Mestrado em Informática Aplicada Aprendizagem de Máquina 6 Introdução Introdução Aprendizagem envolve aquisição de conceitos gerais a partir de exemplos de treinamento específicos. Exemplo: pessoas aprendem conceitos gerais ou categorias, e.g. pássaro, carro, etc. Alternativamente, cada conceito pode ser visto como um função booleana. Pertence a tal categoria? Sim = 1 Não = 0 Mestrado em Informática Aplicada Aprendizagem de Máquina 7 Mestrado em Informática Aplicada Aprendizagem de Máquina 8

Introdução Introdução Mestrado em Informática Aplicada Aprendizagem de Máquina 9 Mestrado em Informática Aplicada Aprendizagem de Máquina 10 Introdução Introdução Iremos considerar o problema de inferir automaticamente a definição geral de alguns conceitos, a partir de exemplos rotulados como sendo membros ou não membros do conceito. Aprendizagem de Conceito: inferindo uma função de valor booleano a partir de exemplos de treinamento (entradas e saídas). Esta tarefa é dita aprendizagem de conceito ou aproximação de uma função de valor booleano a partir de exemplos. Mestrado em Informática Aplicada Aprendizagem de Máquina 11 Mestrado em Informática Aplicada Aprendizagem de Máquina 12

Tarefa de Aprendizagem Conceitual Tarefa de Aprendizagem Conceitual Vamos considerar a tarefa de aprender o conceito dias nos quais João pratica seu esporte favorito Atributos (ou Características ou Features) Atributo Alvo ou Conceito Alvo A tabela abaixo apresenta um conjunto de dias, cada um representado por um conjunto de atributos (ou características ou features) Valor dos Atributos Valor do Atributo Alvo ou Valor do Conceito Alvo Mestrado em Informática Aplicada Aprendizagem de Máquina 13 Mestrado em Informática Aplicada Aprendizagem de Máquina 14 Tarefa de Aprendizagem Conceitual Tarefa de Aprendizagem Conceitual No treinamento queremos encontrar a relação entre o valor dos atributos e o valor do atributo/conceito alvo Uma vez treinado, dado um dia qualquer que é representado pelos 6 atributos, desejamos saber o valor do conceito alvo.???????????? O atributo EnjoySport indica se João pratica ou não seu esporte favorito naquele dia. Qual é a tarefa de aprendizagem? Aprender a predizer o valor de EnjoySport para um dia qualquer baseando se apenas nos valores dos outros atributos (Sky, Temp, Humid, Wind, Water, Forecast). Mestrado em Informática Aplicada Aprendizagem de Máquina 15 Mestrado em Informática Aplicada Aprendizagem de Máquina 16

Tarefa de Aprendizagem Conceitual Tarefa de Aprendizagem Conceitual Que representação da hipótese devemos fornecer ao aprendiz neste caso? Consideramos uma representação simples onde cada hipótese consiste em uma conjunção de restrições sobre os atributos de entrada. Fazemos cada hipótese ser um vetor de restrições especificando os valores dos seis atributos: < Sky, AirTemp, Humidity,Wind, Water, Forecast > Para cada atributo, a hipótese: Indicará através de um? que qualquer valor é aceitável para esse atributo Especificará um valor único necessário para o atributo (e.g. Warm), ou Indicará através do símbolo que nenhum valor é aceitável. Mestrado em Informática Aplicada Aprendizagem de Máquina 17 Mestrado em Informática Aplicada Aprendizagem de Máquina 18 Tarefa de Aprendizagem Conceitual Tarefa de Aprendizagem Conceitual Se alguma instância x satisfizer todas as restrições da hipótese h, então, h classifica x como um exemplo positivo: h (x) = 1 (ou seja, Yes) Como ilustraríamos a hipótese de que João pratica seu esporte favorito somente em dias frios e com alta umidade (independente dos valores dos outros atributos)? Se uma instância x não satisfizer todas as restrições da hipótese h, então, h classifica x como um exemplo negativo: h (x) = o (ou seja, No) <?, Cold, High,?,?,?> Mestrado em Informática Aplicada Aprendizagem de Máquina 19 Mestrado em Informática Aplicada Aprendizagem de Máquina 20

Tarefa de Aprendizagem Conceitual Tarefa de Aprendizagem Conceitual A hipótese mais geral, de que todo dia é um exemplo positivo, é representado por: Em resumo, a tarefa de aprendizagem do conceito EnjoySport requer a: <?,?,?,?,?,?> A hipótese mais específica, de que nenhum dia é um exemplo positivo, é representado por: Aprendizagem do conjunto de dias para os quais EnjoySport = Yes, descrevendo este conjunto por uma conjunção de restrições sobre os atributos da instância (entrada). <,,,,, > Mestrado em Informática Aplicada Aprendizagem de Máquina 21 Mestrado em Informática Aplicada Aprendizagem de Máquina 22 Tarefa de Aprendizagem Conceitual Definição da Tarefa de Aprendizagem Em geral, qualquer tarefa de aprendizagem de conceito pode ser descrita por: Um conjunto de instâncias sobre as quais a função objetiva é definida; Um conceito alvo (função alvo); O conjunto de hipóteses candidatas; Sendo fornecidos: Instâncias (X) Conceito Alvo (c) Conjunto de Hipóteses (H) Exemplos de Treinamento (D) Determinar: A hipótese h em H tal que h(x)=c(x) para todo x em X. O conjunto de exemplos de treinamento. Mestrado em Informática Aplicada Aprendizagem de Máquina 23 Mestrado em Informática Aplicada Aprendizagem de Máquina 24

Definição da Tarefa de Aprendizagem Definição da Tarefa de Aprendizagem Instâncias (X): dias possíveis, cada um descrito pelos atributos: Sky (Sunny/ Cloudy / Rainy) AirTemp (Warm / Cold) Humidity (Normal / High) Wind (Strong / Weak) Water (Warm / Cold) Forecast (Same / Change) Conjunto de Hipóteses (H): conjunções de restrições sobre os atributos, por exemplo: <?,Cold,High,?,?,?> <Cloudy,Cold,High,?,?,?> <Rainy,Cold,High,?,?,?> <?,Warm,High,Weak,?,?>... <?,Cold,High,Weak,Cool, Same> <Rainy,Cold,High,Weak,Cool,Same> <Sunny,?,?,?,?,?> Mestrado em Informática Aplicada Aprendizagem de Máquina 25 Mestrado em Informática Aplicada Aprendizagem de Máquina 26 Definição da Tarefa de Aprendizagem Aprendizagem Conceitual: Notação Conceito Alvo (c): EnjoySport: X {0,1} onde 0 corresponde a No e 1 corresponde a Yes. Exemplos de Treinamento (D): exemplos positivos e negativos da função objetivo, e.g. < x 1,c(x 1 ) >,..., < x n, c(x n )> < ( Rainy, Cold, High,Weak,Cool, Same), No > < ( Sunny, Warm, Normal,Weak,Cool, Same), Yes >... <(Sunny, Warm, Normal,Weak,Warm,Same), Yes> Conjunto de itens sobre os quais o conceito é definido conjunto de instâncias X Ex: conjunto de todos os dias possíveis, cada um representado pelos atributos Sky, AirTemp,..., Forecast. O conceito ou função a ser aprendida é chamada de: conceito alvo c (em geral c ébooleano c : X {0,1}) Ex: valor do atributo EnjoySport. c(x)=1 se EnjoySport = Yes, c(x)=0 se EnjoySport = No. Mestrado em Informática Aplicada Aprendizagem de Máquina 27 Mestrado em Informática Aplicada Aprendizagem de Máquina 28

Aprendizagem Conceitual: Notação Aprendizagem Conceitual: Notação Conjunto de exemplos de treinamento D cada um consistindo de uma instância x de X com o valor do conceito alvo c(x), i.e., < x, c(x)> Conjunto de todas as hipóteses possíveis H que possam ser consideradas com respeito a identidade do conceito alvo. Geralmente, H é determinado a partir da escolha da representação das hipóteses feita pelo projetista humano. Em geral, cada hipótese h em H representa uma função de valor booleano definida sobre X, i.e. h : X {0,1}. O objetivo do aprendiz é encontrar uma hipótese h tal que h(x) = c(x) x em X. Mestrado em Informática Aplicada Aprendizagem de Máquina 29 Mestrado em Informática Aplicada Aprendizagem de Máquina 30 Tarefa de Aprendizagem Conceitual Tarefa de Aprendizagem Conceitual Apesar da tarefa de aprendizagem ser: determinar a hipótese h idêntica ao conceito alvo sobre o conjunto inteiro de instâncias X A única informação disponível a respeito de c é seu valor sobre os exemplos de treinamento. Assim, algoritmos de aprendizagem indutiva pode no máximo garantir que a hipótese resultante represente o conceito alvo sobre os dados de treinamento. A hipótese da aprendizagem indutiva: Qualquer hipótese que aproxima bem a função objetiva sobre um conjunto suficientemente grande de exemplos de treinamento aproximará também bem a função objetiva sobre outros exemplos não observados. Esta é a suposição fundamental da aprendizagem indutiva!! Mestrado em Informática Aplicada Aprendizagem de Máquina 31 Mestrado em Informática Aplicada Aprendizagem de Máquina 32

Aprendizagem como Tarefa de Busca Aprendizagem como Tarefa de Busca A aprendizagem de conceito pode ser vista como uma tarefa de busca em um grande espaço de hipóteses definido pela representação das hipóteses. O objetivo desta busca é: encontrar a hipótese que melhor se ajusta aos exemplos de treinamento. É importante notar que: Em selecionando uma representação das hipóteses: o projetista do algoritmo de aprendizagem define implicitamente o espaço de todas as hipóteses que o programa pode sempre representar e, portanto, pode aprender. Mestrado em Informática Aplicada Aprendizagem de Máquina 33 Mestrado em Informática Aplicada Aprendizagem de Máquina 34 Aprendizagem como Tarefa de Busca Aprendizagem como Tarefa de Busca Voltando ao problema anterior... Temos os atributos e seus possíveis valores: Sky (Sunny/Rainy/Cloudy) [3 valores possíveis] AirTemp (Warm/Cold) [2 valores possíveis] Humidity (Normal/High) [2 valores possíveis] Wind (Strong/Weak) [2 valores possíveis] Water (Warm/Cool) [2 valores possíveis] Forecast (Same/Change) [2 valores possíveis] Assim, o espaço de instâncias X contém: 3 2 2 2 2 2 = 96 instâncias distintas Existem 5 4 4 4 4 4 = 5.120 hipóteses sintaticamente distintas dentro de H Porém, toda hipótese contendo um ou mais símbolos representam hipóteses negativas 1+(4 3 3 3 3 3) = 973 hipóteses sintaticamente distintas Mestrado em Informática Aplicada Aprendizagem de Máquina 35 Mestrado em Informática Aplicada Aprendizagem de Máquina 36

Aprendizagem como Tarefa de Busca Aprendizagem como Tarefa de Busca O problema deste exemplo é relativamente simples pois tem um número finito de hipóteses. Porém, os problemas reais geralmente são muito mais complexos envolvendo, as vezes, um espaço de hipóteses infinito. Muitos algoritmos de aprendizagem de conceito organizam a busca no espaço de hipóteses baseando se em uma estrutura: A ordenação das hipóteses de hipóteses mais gerais à hipóteses mais específicas Exemplo: h 1 = <Sunny,?,?, Strong,?,?> h 2 = <Sunny,?,?,?,?,?> Qual destas instâncias positivas é a mais geral? Mestrado em Informática Aplicada Aprendizagem de Máquina 37 Mestrado em Informática Aplicada Aprendizagem de Máquina 38 Aprendizagem como Tarefa de Busca Aprendizagem como Tarefa de Busca Dadas as hipóteses h j e h k Instâncias, hipóteses e a relação: mais_geral_que h j é mais_geral_que_ou_igual_à h k (h j g h k ), se e somente se qualquer instância que satisfaça h k também satisfaça h j. ( x X )[( h ( x) = 1) ( h ( x) = 1)] k j Mestrado em Informática Aplicada Aprendizagem de Máquina 39 Mestrado em Informática Aplicada Aprendizagem de Máquina 40

Aprendizagem como Tarefa de Busca Algoritmo Find S Como as hipóteses h 1, h 2 e h 3 podem ser relacionadas através do símbolo g? h 1 = < Sunny,?,?, Strong,?,? > h 2 = < Sunny,?,?,?,?,? > h 3 = < Sunny,?,?,?, Cool,? > Como usar a ordenação parcial g para organizar a busca por uma hipótese consistente com os exemplos de treinamento observados? Começar com a hipótese mais específica possível em H, e então generalizá la, cada vez que ela falhar em cobrir um exemplo positivo. h 2 g h 3 g h 1 h 2 g h 1 g h 3 ou Considerando o algoritmo... Mestrado em Informática Aplicada Aprendizagem de Máquina 41 Mestrado em Informática Aplicada Aprendizagem de Máquina 42 Algoritmo Find S Aplicando o Algoritmo Find S 1. Inicialize h como sendo a hipótese mais específica em H. 2. Para cada instância de treinamento positiva x Para cada restrição de atributo a i em h Se a restrição a i é satisfeita por x Então não faça nada Senão troque a i em h pela próxima restrição mais geral que é satisfeita por x 3. Forneça a hipótese h. Aplicando o algoritmo ao exemplo anterior (EnjoySport)... Mestrado em Informática Aplicada Aprendizagem de Máquina 43 Mestrado em Informática Aplicada Aprendizagem de Máquina 44

Aplicando o Algoritmo Find S Aplicando o Algoritmo Find S Aplicando o algoritmo ao exemplo anterior (EnjoySport)... Passo 1: Inicializar h com a hipótese mais específica em H: h <,,,,, > olhando o primeiro exemplo da tabela hipótese muito específica. Passo 2: Trocar as restrições pela próxima restrição mais geral que se ajusta ao exemplo (ou seja, os valores dos atributos). h < Sunny, Warm, Normal, Strong, Warm, Same> h é ainda muito específica... Mestrado em Informática Aplicada Aprendizagem de Máquina 45 Mestrado em Informática Aplicada Aprendizagem de Máquina 46 Aplicando o Algoritmo Find S Aplicando o Algoritmo Find S Passo 2: Trocar as restrições pela próxima restrição mais geral que se ajuste ao exemplo (ou seja, os valores dos atributos). h < Sunny, Warm,?, Strong, Warm, Same> O segundo exemplo de treinamento faz o algoritmo generalizar ainda mais. Mestrado em Informática Aplicada Aprendizagem de Máquina 47 Mestrado em Informática Aplicada Aprendizagem de Máquina 48

Aplicando o Algoritmo Find S Aplicando o Algoritmo Find S Passo 2: Find S ignora o exemplo negativo... pois h já é consistente com o novo exemplo negativo. Mestrado em Informática Aplicada Aprendizagem de Máquina 49 Mestrado em Informática Aplicada Aprendizagem de Máquina 50 Aplicando o Algoritmo Find S Aplicando o Algoritmo Find S Passo 2: O quarto exemplo positivo leva a h < Sunny, Warm,?, Strong,?,? > Passo 3: h = < Sunny, Warm,?, Strong,?,? > Este algoritmo ilustra como a ordenação parcial mais_geral_que pode ser usada para organizar a busca por uma hipótese aceitável. Mestrado em Informática Aplicada Aprendizagem de Máquina 51 Mestrado em Informática Aplicada Aprendizagem de Máquina 52

Algoritmo Find S Algoritmo Find S A busca no espaço de hipóteses. A propriedade chave do algoritmo Find S é: Para espaços de hipóteses descritos pela conjunção de atributos é garantido que Find S produza a hipótese mais específica dentro de H que é consistente com os exemplos de treinamento positivos. Mestrado em Informática Aplicada Aprendizagem de Máquina 53 Mestrado em Informática Aplicada Aprendizagem de Máquina 54 Algoritmo Find S Algoritmo Eliminação de Candidatos Porém... Não podemos dizer se o aprendiz convergiu para o conceito correto. Porque preferir a hipótese h mais específica? Não podemos dizer quando os exemplos de treinamento são inconsistentes Depende de H. Podem haver diversas outras hipóteses específicas consistentes O algoritmo Find S tem várias limitações, então... um outro algoritmo... A idéia chave do algoritmo Eliminação de Candidatos é fornecer uma descrição do conjunto de todas as hipóteses consistentes com os exemplos de treinamento. Também utiliza a propriedade do ordenamento parcial mais_geral_que. Mestrado em Informática Aplicada Aprendizagem de Máquina 55 Mestrado em Informática Aplicada Aprendizagem de Máquina 56

Algoritmo Eliminação de Candidatos Algoritmo Eliminação de Candidatos O algoritmo Eliminação de Candidatos encontra todas as hipóteses descritíveis que são consistentes com os exemplos de treinamento observados. O algoritmo Eliminação de Candidatos representa o conjunto de todas as hipóteses consistentes com os exemplos de treinamento observados. Definição: Uma hipótese h é consistente com os exemplos de treinamento D se e somente se ela classifica corretamente estes exemplos. Consistent e( h, D) ( x, c( x) D) h( x) = c( x) Este subespaço de todas hipóteses é chamado, Espaço Versão (version space) com respeito ao espaço de hipóteses H e os exemplos de treinamento D, porque ele contém todas as versões plausíveis do conceito alvo. VS { h H Consistente( h, )} H, D D Mestrado em Informática Aplicada Aprendizagem de Máquina 57 Mestrado em Informática Aplicada Aprendizagem de Máquina 58 Algoritmo Lista e Elimina Algoritmo Lista e Elimina Para representar o Espaço Versão, listamos todos os seus membros algoritmo de aprendizagem Lista e Elimina. Pode ser aplicado sempre que o espaço de hipóteses for finito. É garantido que ele forneça todas as hipóteses consistentes com os dados de treinamento. 1. Espaço Versão uma lista contendo cada hipótese em H. 2. Para cada exemplo de treinamento < x, c(x) > remover do Espaço Versão qualquer hipótese h para qual h(x) c(x) 3. forneça a lista de hipóteses no Espaço Versão. Mestrado em Informática Aplicada Aprendizagem de Máquina 59 Mestrado em Informática Aplicada Aprendizagem de Máquina 60

Algoritmo Lista e Elimina Algoritmo Eliminação de Candidatos Aplicando ao exemplo EnjoySport... O algoritmo Eliminação de Candidatos representa o Espaço Versão armazenando somente seus membros mais gerais (G) e mais específicos (S) Dado somente G e S, é possível enumerar todos os membros do espaço versão. Um espaço versão com seus conjuntos fronteira geral e específico. Mestrado em Informática Aplicada Aprendizagem de Máquina 61 Mestrado em Informática Aplicada Aprendizagem de Máquina 62 Algoritmo Eliminação de Candidato Algoritmo Eliminação de Candidato Inicializar G com a hipótese mais geral em H. Inicializar S com a hipótese mais geral em H. Para cada exemplo de treinamento d, faça -Se d for um exemplo positivo -Remova de G qualquer hipótese inconsistente com d -Para cada hipótese s em S que não for consistente com d - Remova s de S -Adicione a S as generalizações mínimas h de s tais que -hseja consistente com d e algum membro de G é mais geral do que h - Remova de S qualquer hipótese que seja mais geral do que outra hipótese em S. Mestrado em Informática Aplicada Aprendizagem de Máquina 63 Mestrado em Informática Aplicada Aprendizagem de Máquina 64

Algoritmo Eliminação de Candidato Algoritmo Eliminação de Candidato -Se d for um exemplo negativo -Remova de S qualquer hipótese inconsistente com d -Para cada hipótese g em G que não for consistente com d - Remova g de G -Adicione a G as especializações mínimas h de g tais que -hseja consistente com d e algum membro de S é mais específico do que h - Remova de G qualquer hipótese que seja menos geral do que outra hipótese em G. Passo 1 Passo 2 Estas duas fronteiras delimitam o espaço de hipóteses inteiro... Mestrado em Informática Aplicada Aprendizagem de Máquina 65 Mestrado em Informática Aplicada Aprendizagem de Máquina 66 Aplicando Algo Elim. De Candidato Algoritmo Eliminação de Candidato Mestrado em Informática Aplicada Aprendizagem de Máquina 67 Mestrado em Informática Aplicada Aprendizagem de Máquina 68

Algoritmo Eliminação de Candidato Algoritmo Eliminação de Candidato Mestrado em Informática Aplicada Aprendizagem de Máquina 69 Mestrado em Informática Aplicada Aprendizagem de Máquina 70 Algoritmo Eliminação de Candidato Algoritmo Eliminação de Candidato Este Espaço Versão aprendido é independente da seqüência na qual os exemplos de treinamento são apresentados. Se mais dados de treinamento forem usados, as fronteiras S e G se moverão monotonicamente mais perto umas das outras, delimitando um Espaço Versão de Hipóteses Candidatas cada vez menor. Mestrado em Informática Aplicada Aprendizagem de Máquina 71 Mestrado em Informática Aplicada Aprendizagem de Máquina 72

Algoritmo Eliminação de Candidato Algoritmo Eliminação de Candidato O algoritmo Eliminação de Candidato convergirá para hipótese correta? Sim, se não houverem erros nas amostras de treinamento existir alguma hipótese em H que descreve corretamente o conceito alvo. E se houverem erros nos dados de treinamento? Se o segundo exemplo de treinamento for incorretamente apresentado como NO? E se houverem erros nos dados de treinamento? Se o segundo exemplo de treinamento for incorretamente apresentado como NO? Neste caso o algoritmo removerá o conceito alvo correto do Espaço Versão!!!! Se o número de exemplos de treinamento for suficiente, as fronteiras S e G convergirão para um Espaço Versão vazio. Mestrado em Informática Aplicada Aprendizagem de Máquina 73 Mestrado em Informática Aplicada Aprendizagem de Máquina 74 Algoritmo Eliminação de Candidato Espaço Versão Final Aprendido Como podem ser usados os conceitos parcialmente aprendidos? Exemplo: Mestrado em Informática Aplicada Aprendizagem de Máquina 75 Mestrado em Informática Aplicada Aprendizagem de Máquina 76

Algoritmo Eliminação de Candidato Algoritmo Eliminação de Candidato A instância A é classificada como positiva por todas as hipóteses no espaço versão final. A instância B é classificada como negativa por todas as hipóteses no espaço versão final. A instância C apresenta uma situação diferente. Metade das hipótese do espaço versão classificam como positiva e metade como negativa não pode classificar esta instância com confiança A instância D é classificada como positiva por 2 hipótese do espaço versão e como negativa por 4 hipóteses do espaço versão A maioria vence classificada como negativa Porém esta é uma decisão de menor confiança!!!! Mestrado em Informática Aplicada Aprendizagem de Máquina 77 Mestrado em Informática Aplicada Aprendizagem de Máquina 78 Problemas Find S e EdeC Bias Indutivo As aplicações práticas são limitadas pelo fato de que os dois algoritmos tem uma performance fraca na presença de dados de treinamento com ruído. Interesse: fornece uma base conceitual para diversos assuntos em aprendizagem de máquina. E se o conceito alvo não estiver no espaço de hipóteses? Podemos evitar este problema utilizando um espaço de hipóteses que inclua todas as hipóteses possíveis? Qual a influência do espaço de hipóteses na generalização do algoritmo? E no número de exemplos de treinamento que devem ser observados? Mestrado em Informática Aplicada Aprendizagem de Máquina 79 Mestrado em Informática Aplicada Aprendizagem de Máquina 80

Espaço de Hipóteses com Bias Espaço de Hipóteses com Bias Como assegurar que o espaço de hipóteses contenha o conceito alvo desconhecido? Solução: enriquecer o espaço de hipóteses para incluir todas as hipóteses possíveis. Exemplo: A hipótese consistente mais específica com os dois primeiros exemplos (e representável no espaço de hipóteses H dado) é: S 2 :<?, Warm, Normal, Strong, Cool, Change > Porém, esta hipótese é também excessivamente geral, pois ela cobre erroneamente também o terceiro exemplo de treinamento (negativo). Mestrado em Informática Aplicada Aprendizagem de Máquina 81 Mestrado em Informática Aplicada Aprendizagem de Máquina 82 Um Aprendiz sem Bias Aprendizagem sem Bias Idéia: escolher H que expresse cada conceito ensinável, i.e., H é o conjunto potência de X. Considere H = disjunções, conjunções, negações sobre H prévio. e.g. Sunny, Warm, Normal,?,?,??,?,?,?,?, Change Propriedade fundamental da inferência indutiva: Um aprendiz que não faz suposições a priori com respeito a identidade do conceito alvo, não tem uma base racional para classificar qualquer instância não vista Algoritmo Eliminação de Candidatos generaliza, pois, ele é influenciado (biased) pela suposição implícita que o conceito alvo pode ser representado por uma conjunção de valores dos atributos. Mestrado em Informática Aplicada Aprendizagem de Máquina 83 Mestrado em Informática Aplicada Aprendizagem de Máquina 84

Bias Indutivo Um Aprendiz sem Bias Considere Um algoritmo de aprendizagem de conceito L Instâncias X e um conceito alvo c Exemplos de treinamento D c ={< x, c(x) >} Faça L(x i, D c ) indicar a classificação designada para a instância x i por L após o treinamento sobre os dados D c. ( x X )( [ B Dc x ) L x, D )] i ( i c onde y z indica que z resulta dedutivamente de y, isto é, que y causa logicamente z. i Definição: O bias indutivo de L é qualquer conjunto mínimo de afirmações B tal que para qualquer conceito alvo c e exemplos de treinamento correspondentes D c Mestrado em Informática Aplicada Aprendizagem de Máquina 85 Mestrado em Informática Aplicada Aprendizagem de Máquina 86 Bias Indutivo Resumo Exemplos de algoritmos ( + - bias) Rotina (Rote Learner): aprendizagem corresponde somente em armazenar cada exemplo de treinamento observado na memória. Eliminação de Candidatos: novas instâncias são classificadas somente quando todos os membros do Espaço Versão atual concordam na classificação. Aprendizagem de conceito pode ser vista como um problema de busca em um espaço amplo pré definido de hipóteses em potencial; A ordenação parcial geral à específica das hipóteses fornece uma estrutura útil para organizar a busca no espaço de hipóteses. Find S: encontra a hipótese específica mais consistente com os exemplos de treinamento. Usa esta hipótese para classificar todas as instâncias subseqüentes. Mestrado em Informática Aplicada Aprendizagem de Máquina 87 Mestrado em Informática Aplicada Aprendizagem de Máquina 88

Resumo Resumo O algoritmo Find S utiliza este ordenamento geral a específico, realizando uma busca de específica à geral no espaço de hipóteses para encontrar a hipótese mais específica consistente com os exemplos de treinamento; O algoritmo Eliminação de Candidatos utiliza este ordenamento parcial geral a específico para calcular o Espaço Versão através da computação incremental dos conjuntos mais específicos (S) e mais gerais (G). Como os conjuntos S e G delimitam o conjunto inteiro de hipóteses consistente com os dados, eles fornecem uma descrição da incerteza em relação à identidade exata do conceito alvo. As aplicações práticas são limitadas pelo fato de que os dois algoritmos tem uma performance fraca na presença de dados de treinamento com ruído. Mestrado em Informática Aplicada Aprendizagem de Máquina 89 Mestrado em Informática Aplicada Aprendizagem de Máquina 90