Indução de Árvores de Decisão

Documentos relacionados
Bias de AM. Bias e Variância Estatísticos

LÓGICA FORMAL parte 2 QUANTIFICADORES, PREDICADOS E VALIDADE

COMPARAÇÃO DE CURVAS DE SOBREVIVÊNCIA

Diagramas líquido-vapor

Classificações ECTS. - Resultados da aplicação experimental às disciplinas do IST - Carla Patrocínio

A) O volume de cada bloco é igual à área da base multiplicada pela altura, isto é, 4 1

O uso de amostras. Desvantagens: Perda no nível de confiança; Diminuição da precisão dos resultados. POPULAÇÃO (N) AMOSTRA(n)

MATEMÁTICA APLICADA RESOLUÇÃO

TIPO DE PROVA: A. Questão 1. Questão 3. Questão 4. Questão 2. alternativa B. alternativa A. alternativa D. alternativa C

4 Extensão do modelo de Misme e Fimbel para a determinação da distribuição cumulativa da atenuação diferencial entre dois enlaces convergentes

2 Modelagem da previsão de atenuação por chuvas em enlaces GEO

Variáveis e Tipo de Dados

Comunicado Cetip n 091/ de setembro de 2013

CÁLCULO I. Aula n o 02: Funções. Denir função e conhecer os seus elementos; Listar as principais funções e seus grácos.

5 Flutuação intrínseca chuveiro a chuveiro

Exame: Matemática Nº Questões: 58 Duração: 120 minutos Alternativas por questão: 4 Ano: 2009

Esta aula nos dará conhecimento para análise e determinação do calor produzido ou absorvido em uma reação química.

TESTES DE SOFTWARE.

Normalização de banco de dados

Aprendizado de Máquina Conceitos e Definições

TIPO DE PROVA: A. Questão 1. Questão 2. Questão 4. Questão 3. alternativa A. alternativa B. alternativa C

SUPERFÍCIE E CURVA. F(x, y, z) = 0

Matemática E Extensivo V. 2

UTLIZAÇÃO DOS TESTES DE HIPÓTESES PARA A MÉDIA NA TOMADA DE DECISÃO RESUMO. Palavras-chave: Testes de Hipótese. Decisão. Estatística.

L = R AULA 8 - TRIGONOMETRIA TRIGONOMETRIA NA CIRCUNFERÊNCIA TRIÂNGULO RETÂNGULO. sen. cos a b. sen. cos a tg b tg. sen cos 90 sen cos 1 tg tg.

XXXIII OLIMPÍADA BRASILEIRA DE MATEMÁTICA PRIMEIRA FASE NÍVEL 3 (Ensino Médio) GABARITO

Questão 2. Questão 1. Questão 3. alternativa C. alternativa D

Organização de Computadores Digitais. Cap.10: Conjunto de Instruções: Modos de Endereçamento e Formatos

Conteúdo A parte principal de um relatório de auditoria, mas não a única, é a parte dos desvios encontrados. O que é que constitui um desvio?

Escola Secundária com 3º ciclo D. Dinis 12º Ano de Matemática A Tema II Introdução ao Cálculo Diferencial II. TPC nº 8 entregar em

Como Z constitui-se claramente a hipotenusa de um triângulo retângulo, tem-se

Caixas Ativas e Passivas. SKY 3000, SKY 2200, SKY 700, SKY 600 e NASH Áreas de Cobertura e Quantidade de Público

4 MÉTODO DE CONTROLE DE CUSTOS

CIRCUITO SÉRIE/PARALELO Prof. Antonio Sergio-D.E.E-CEAR-UFPB.

Avaliação Imobiliária e Manutenção das Construções

SIC Gerenciando Através s da Confiabilidade. Fabiana Pereira da Silva Vale

ALGORITMOS. Expressões e Instruções PrimiKvas. Alessandro J. de Souza DIATINF - IFRN. twi;er.

Estrutura de Repetição

AL 1.1 Movimento num plano inclinado: variação da energia cinética e distância percorrida. Nome dos membros do grupo: Data de realização do trabalho:

Vamos estudar as características e determinações do potencial da pilha e dos potenciais padrões do eletrodo e da pilha.

Sistemas de coordenadas tridimensionais. Translação e rotação de sistemas. Prof. Dr. Carlos Aurélio Nadal. Translação e rotação de sistemas

As várias interpretações dos Números Racionais

Estudo do efeito de sistemas de forças concorrentes.

BRDE AOCP Complete o elemento faltante, considerando a sequência a seguir: ? (A) 26 (B) 12 (C) 20 (D) 16 (E) 34.

Nome dos membros do grupo: Data de realização do trabalho:

34

matemática 2 Questão 7

METODOLOGIA DE ESTUDO E PESQUISA. Profª. Drª. Cenidalva Teixeira ETAPAS DA PESQUISA CIENTÍFICA

Descoberta de Conhecimento em Bases de Dados e Mineração de Dados

ENFERMAGEM SAÚDE DA MULHER. Planejamento Familiar Parte 1. Profª. Lívia Bahia

Halliday & Resnick Fundamentos de Física

FACULDADE AGES CURSO DE ENFERMAGEM REGULAMENTAÇÃO DAS PRÁTICAS EDUCATIVAS ADMINISTRAÇÃO APLICADA A ENFERMAGEM

Cartografia e Geoprocessamento Parte 3. Escala cartográfica, PEC e divisão das folhas ao milionésimo.

Cœlum Australe. Jornal Pessoal de Astronomia, Física e Matemática - Produzido por Irineu Gomes Varella

CAPÍTULO - 6 CICLOCONVERSORES

grau) é de nida por:

Transcrição:

Induçã de Árvres de Decisã Várias aplicações em Inteligência Artificial em tarefas de imprtância prática sã baseadas na cnstruçã de um mdel de cnheciment que é utilizad pr um especialista human O bjetiv desta aula é frnecer cnceits básics sbre induçã de árvres de decisã Históric 960 s 966: Hunt e clegas em psiclgia usaram métds de busca exaustiva em árvres de decisã para mdelar aprendizad de cnceits humans 970 s 977: Breiman, Friedman, e clegas em estatística desenvlveram Classificatin And Regressin rees (CAR 979: Primeir trabalh de Quinlan cm prt-id3 (Inductin f Decisin rees 980 s 984: primeira publicaçã em massa d sftware CAR (presente atualmente em váris prduts cmerciais 986: Artig de Quinlan sbre ID3 Variedade de melhrias: tratament de ruíd, atributs cntínus, atributs cm valres descnhecids, árvres blíquas (nã paralelas as eixs, etc 990 s 993: Algritm atualizad de Quinlan: C4.5 (release 8 Mair pder, heurísticas de cntrle de verfitting (C5.0, etc.; cmbinand Ds Jsé August Baranauskas Departament de Física e Matemática FFCLRP-USP august@usp.br http://dfm.ffclrp.usp.br/~august DID Os algritms de classificaçã cuj cnheciment adquirid é representad cm Árvre de Decisã (D pertencem a família DID (p Dwn Inductin f Decisin rees Árvre de Decisã: estrutura recursiva definida cm: um nó flha que indica uma classe, u um nó de decisã cntém um teste sbre valr de um atribut. Cada resultad d teste leva a uma subárvre. Cada sub-árvre tem a mesma estrutura da árvre D para Jgar ênis Atributs: : Sl, Nublad, Chuva : Alta, Nrmal Ventand: Frte, Frac emperatura: Quente, Média, Fria Classe (Cnceit Alv jgar tênis:, Nã 3 4 D para Jgar ênis D para Jgar ênis Sl Nublad Chuva Sl Nublad Chuva Ventand Cada nó intern (decisã testa um atribut Alta Nrmal Frte Frac Alta Nrmal Cada ram crrespnde a um valr d atribut testad Nã Nã Nã Cada nó flha atribui uma classe 5 6

D para Jgar ênis emperatura Ventand Jgarênis Sl Quente Alta Frac? D para Jgar ênis emperatura Ventand Jgarênis Sl Quente Alta Frac? Sl Nublad Chuva Sl Nublad Chuva Ventand Ventand Alta Nrmal Frte Frac Alta Nrmal Frte Frac Nã Nã Nã Nã 7 8 D para Jgar ênis emperatura Ventand Jgarênis Sl Quente Alta Frac? D para Jgar ênis emperatura Ventand Jgarênis Sl Quente Alta Frac? Sl Nublad Chuva Sl Nublad Chuva Ventand Ventand Alta Nrmal Frte Frac Alta Nrmal Frte Frac Nã Nã Nã Nã 9 0 D para Jgar ênis emperatura Ventand Jgarênis Sl Quente Alta Frac? D para Jgar ênis emperatura Ventand Jgarênis Sl Quente Alta Frac?Nã Sl Nublad Chuva Sl Nublad Chuva Ventand Ventand Alta Nrmal Frte Frac Alta Nrmal Frte Frac Nã Nã Nã Nã

Ds Representam Disjunções de Cnjunções Exempl: Árvre de Decisã Paciente se sente bem Sl Nublad Chuva nã Ventand Alta Nrmal Frte Frac saudável Paciente tem dr Nã (=Sl =Nrmal (=Nublad (=Chuva Ventand=Frac Nã (=Sl =Alta (=Chuva Ventand=Frte Nã Paciente se sente bem = : saudável Paciente se sente bem = nã : :...Paciente tem dr = nã : :...emperatura d paciente <= 37: saudável : emperatura d paciente > 37: dente Paciente tem dr = : dente saudável emperatura d paciente 37 > 37 nã dente dente 3 4 Representaçã da D cm um Cnjunt de Regras Representaçã da D cm um Cnjunt de Regras Uma árvre pde ser representada cm um cnjunt de regras Cada regra cmeça na raiz da árvre e caminha para baix, em direçã às flhas Cada nó de decisã acrescenta um teste às premissas (cndições da regra O nó flha representa a cnclusã da regra saudável Paciente se sente bem saudável emperatura d paciente 37 nã > 37 Paciente tem dr nã dente if Paciente se sente bem = then classe = saudável else if Paciente tem dr = nã if emperatura d paciente 37 then classe = saudável else {emperatura d Paciente > 37} classe = dente dente end if else {Paciente tem dr = } classe = dente end if end if 5 6 Representaçã da D cm um Cnjunt de Regras Disjuntas Representaçã da D cm um Cnjunt de Regras Disjuntas As regras representadas pr uma árvre de decisã sã disjuntas As, elas pdem ser escritas cm regras separadas, cmeçand pela raiz, e, cnsequentemente, else nã é necessári saudável Paciente se sente bem nã Paciente tem dr nã emperatura dente d paciente 37 > 37 saudável dente if Paciente se sente bem = then classe = saudável end if if Paciente se sente bem = nã and Paciente tem dr = nã and emperatura d paciente 37 then classe = saudável end if if Paciente se sente bem = nã and Paciente tem dr = nã and emperatura d paciente > 37 then classe = dente end if if Paciente se sente bem = nã and Paciente tem dr = then classe = dente end if 7 8

Algritm DID Se tds s exempls de treinament pertencem a uma única classe entã a árvre é uma flha rtulada cm a respectiva classe Cas cntrári: selecine um teste basead em um atribut divida cnjunt de treinament em subcnjunts, cada um crrespndend a um ds pssíveis (mutuamente exclusivs valres para teste aplique mesm prcess para cada subcnjunt Algritm DID Seja um cnjunt de exempls de treinament cm classes {C, C,..., C k }. Há três pssibilidades: cntém um u mais exempls, tds pertencend a uma mesma classe C j : a árvre de decisã para é uma flha identificand a classe C j nã cntém exempls: a árvre de decisã é nvamente uma flha, mas a classe assciada cm a flha deve ser determinada pr alguma infrmaçã além de. Pr exempl, a flha pde ser esclhida de acrd cm algum cnheciment d dmíni, tal cm a classe majritária. C4.5 utiliza a classe mais freqüente d nó pai deste nó (flha 3 cntém exempls que pertencem a uma mistura de classes: nesta situaçã a idéia é refinar em subcnjunts que sã (u aparentam ser cleções de exempls de uma única classe. Um teste é esclhid, basead em um únic atribut, cm resultads mutuamente exclusivs. Sejam s pssíveis resultads d teste dentads pr {O,O,...,O r }. é entã particinad em subcnjunts,,..., r, ns quais cada i cntém tds s exempls em que pssuem cm resultad daquele teste valr O i. A árvre de decisã para cnsiste em um nó (intern identificad pel teste esclhid e uma aresta para cada um ds resultads pssíveis. Para cada partiçã, pde-se exigir que cada i cntenha um númer mínim de exempls, evitand partições cm pucs exempls. O default de C4.5 é de exempls Os passs, e 3 sã aplicads recursivamente para cada subcnjunt de exempls de treinament de frma que, em cada nó, as arestas levam para as sub-árvres cnstruídas a partir d subcnjunt de exempls i Após a cnstruçã da árvre de decisã, a pda pde ser realizada para melhrar sua capacidade de generalizaçã 9 0 Classificand Nvs Exempls Uma D pde ser usada para classificar nvs exempls (nunca vists A partir da raiz basta descer através ds nós de decisã até encntrar um nó flha: a classe crrespndente a esse nó flha é a classe d nv exempl Um exempl (sem valres descnhecids é classificad apenas pr uma regra (subárvre Exempl (adaptad de Quinlan,, 93 Neste exempl, vams cnsiderar um cnjunt de exempls que cntém medições diárias sbre cndições meterlógicas Atributs aparência:, u temperatura: temperatura em graus Celsius umidade: umidade relativa d ar ventand: u nã Cada exempl fi rtulad cm bm se nas cndições meterlógicas daquele dia é acnselhável fazer uma viagem à fazenda e, cas cntrári 3 O Cnjunt de Dads Viagem Exempl emperatura Ventand Viajar E 5 7 bm E 8 9 E 3 70 nã bm E 4 3 95 nã E 5 30 85 nã E 6 3 90 bm E 7 9 78 nã bm E 8 9 65 E 9 6 75 nã bm E 0 0 87 bm E 95 nã bm E 9 70 E 3 3 80 E 4 5 8 nã bm E 5 80 nã bm Esclhend para Particinar Exempl emperatura Ventand Viajar E 5 7 bm E 8 9 E3 70 nã bm E4 3 95 nã E5 30 85 nã E6 3 90 bm E7 9 78 nã bm E8 9 65 E9 6 75 nã bm E0 0 87 bm E 95 nã bm E 9 70 E3 3 80 E4 5 8 nã bm E5 80 nã bm [9b,6r] 4 5

Esclhend para Particinar = Exempl emperatura Ventand Viajar 7 bm E 5 E 8 9 E3 70 nã bm E4 3 95 nã E5 30 85 nã E6 3 90 bm E7 9 78 nã bm E 8 9 65 E 9 6 75 nã bm E0 0 87 bm E 95 nã bm E 9 70 E 3 3 80 E 4 5 8 nã bm E5 80 nã bm Esclhend para Particinar = Exempl emperatura Ventand Viajar E 5 7 bm E 8 9 E3 70 nã bm E4 3 95 nã E5 30 85 nã E 6 3 90 bm E 7 9 78 nã bm E 8 9 65 E 9 6 75 nã bm E 0 0 87 bm E 95 nã bm E 9 70 E3 3 80 E4 5 8 nã bm E 5 80 nã bm [9b,6r] [9b,6r] [b,3r] [b,3r] [4b,r] 78 > 78 78 > 78 70 > 70 bm bm bm 6 7 Esclhend Ventand para Particinar = Exempl emperatura Ventand Viajar 7 bm E 5 E 8 9 E3 70 nã bm E4 3 95 nã E5 30 85 nã E 6 3 90 bm E 7 9 78 nã bm E 8 9 65 E 9 6 75 nã bm E 0 0 87 bm E 95 nã bm E 9 70 E3 3 80 E4 5 8 nã bm E 5 80 nã bm Árvre de Decisã Induzida (sem pda Exempl emperatura Ventand Viajar E 5 7 bm E 8 9 E3 70 nã bm E4 3 95 nã E5 30 85 nã E 6 3 90 bm E 7 9 78 nã bm E 8 9 65 E 9 6 75 nã bm E 0 0 87 bm E 95 nã bm E 9 70 E3 3 80 E4 5 8 nã bm E 5 80 nã bm [9b,6r] [b,3r] [4b,r] [3b,r] Ventand Ventand 78 > 78 70 > 70 nã 78 > 78 70 > 70 nã bm bm bm bm bm bm 8 9 Árvre de Decisã Induzida (sem pda Exempl emperatura Ventand Viajar 7 bm E 5 E 8 9 E3 70 nã bm E4 3 95 nã E5 30 85 nã E 6 3 90 bm E 7 9 78 nã bm E 8 9 65 E 9 6 75 nã bm E 0 0 87 bm E 95 nã bm E 9 70 E3 3 80 E4 5 8 nã bm E 5 80 nã bm Árvre de Decisã Induzida (pdada Exempl emperatura Ventand Viajar E 5 7 bm E 8 9 E3 70 nã bm E4 3 95 nã E5 30 85 nã E 6 3 90 bm E 7 9 78 nã bm E 8 9 65 E 9 6 75 nã bm E 0 0 87 bm E 95 nã bm E 9 70 E3 3 80 E4 5 8 nã bm E 5 80 nã bm [9b,6r] [b,3r] [4b,r] [3b,r] Ventand bm Ventand bm 78 > 78 70 > 70 bm bm nã bm 78 > 78 bm nã E,E 3 E,E 4,E 5 E 8 E 6,E 7,E 9,E 0 E,E 4,E 5 E,E 3 30 3

(Pós-Pda Uma árvre mair é induzida de frma a superajustar s exempls e entã ela é pdada até bter uma árvre menr (mais ples A pda evita verfitting Relaçã entre amanh da Árvre de Decisã e a axa de Err axa de Err Exempls de este Exempls de reinament N N N3 Númer de nós (testes 3 33 Esclha d Atribut A mairia ds algritms de cnstruçã de árvres de decisã sã sem retrcess (sem backtracking u seja, gulss (greedy Uma vez que um teste fi selecinad para particinar cnjunt atual de exempls, a esclha é fixada e esclhas alternativas nã sã explradas Esclha d Atribut A chave para sucess de um algritm de aprendizad pr árvres de decisã depende d critéri utilizad para esclher atribut que particina cnjunt de exempls em cada iteraçã Algumas pssibilidades para esclher esse atribut sã: aleatória: selecina qualquer atribut aleatriamente mens valres: selecina atribut cm a menr quantidade de valres pssíveis mais valres: selecina atribut cm a mair quantidade de valres pssíveis ganh máxim: selecina atribut que pssui mair ganh de infrmaçã esperad, ist é, selecina atribut que resultará n menr tamanh esperad das subárvres, assumind que a raiz é nó atual; razã de ganh índice Gini 34 35 Entrpia Seja S um subcnjunt de A infrmaçã esperada (u entrpia d subcnjunt S é (em bits dad pr inf( S = p( C j, S lg freq( C j, S númer p( C, S = = j k j= ( p( C, S S cm classe C S númer de exempls em S Quand aplicad a td cnjunt de treinament, inf( mede a quantidade média de infrmaçã necessária para identificar a classe de um exempl em Lembrar que lg b (a = ln(a / ln(b, u seja, lg (x = ln(x / ln( Observaçã: assumir 0*lg (0 = 0 j de exempls em j Exercíci Calcule inf( para Um cnjunt de 64 exempls, send 9 exempls da classe psitiva e 35 da classe negativa, u seja, [9,35-] Um cnjunt de 64 exempls, send 0 exempls da classe psitiva, 3 da classe negativa e da classe asterisc, u seja, [0,3-,*] Idem para =[0,3-,6*,6$] 36 37

Sluçã = [9,35-] inf( = inf([9,35-] = 9/64 lg 9/64 35/64 lg 35/64 = 0.99 = [0,3-,*] inf( = inf([0,3-,*] = 0/64 lg 0/64 3/64 lg 3/64 /64lg /64 =.48 = [0,3-,6*,6$] inf( = inf([0,3-,6*,6$] = 0/64 lg 0/64 3/64 lg 3/64 6/64 lg 6/64 6/64 lg 6/64 =.66 Entrpia Cnsidere agra que fi particinad de acrd cm r valres d atribut X, u seja X = O, X = O,..., X = O r, gerand s subcnjunts,,..., r, respectivamente i é frmad pels exempls de ns quais atribut X = O i, u seja, i = { z : X = O i } A infrmaçã esperada para este particinament é a sma pnderada sbre tds s subcnjunts i : inf( X, = r i= i inf( i lembrand que é a cardinalidade d cnjunt 38 39 Exercíci Sluçã [9,35-] X =? X =? [9,35-] [9,35-] X =? X =? [9,35-] rue False A B C rue False A B C [, 5-] [8, 30-] [8, 3-] [7, -] [4, -] [, 5-] [8, 30-] [8, 3-] [7, -] [4, -] Calcule inf(x, e inf(x,, = [9,35-] inf([,5-] = 0.7 inf([8,30-] = 0.74 inf(x,[9,35-] = -6/64*inf([,5-] -38/64*inf([8,30-] = 0.73 inf([8,3-] = 0.94 inf([7,-] = 0.54 inf([4,-] = 0.9 inf(x,[9,35-] = -50/64*inf([8,3-] - 8/64*inf([7,-] -6/64*inf([4,-] = 0.89 40 4 Ganh de Infrmaçã A quantidade gain(x, = inf( inf(x, mede ganh de infrmaçã pela partiçã de de acrd cm atribut X O critéri de ganh (ganh máxim selecina atribut X (u seja, X {X, X,..., X m } que maximiza ganh de infrmaçã max gain( X, = arg max gain( X, X { X, X, L, X m } Exercíci [9,35-] rue False [, 5-] [8, 30-] = [9,35-] inf([9,35-] = 0.99 inf(x,[9,35-] = 0.73 inf(x,[9,35-] = 0.89 X =? X =? A B [8, 3-] [7, -] [9,35-] C [4, -] Qual ganh de X? E de X? Cm qual atribut btém-se ganh máxim? 4 43

Sluçã [9,35-] rue False [, 5-] [8, 30-] = [9,35-] inf([9,35-] = 0.99 inf(x,[9,35-] = 0.73 inf(x,[9,35-] = 0.89 X =? X =? A B [8, 3-] [7, -] gain(x, = inf( inf(x, = 0.99 0.73 = 0.6 gain(x, = inf( inf(x, = 0.99 0.89 = 0.0 [9,35-] C [4, -] Exempl E quente alta fals nã E quente alta verdadeir nã E3 quente alta fals E4 agradável alta fals E5 fria nrmal fals E6 fria nrmal verdadeir nã E7 fria nrmal verdadeir E8 agradável alta fals nã E9 fria nrmal fals E0 agradável nrmal fals E agradável nrmal verdadeir E agradável alta verdadeir E3 quente nrmal fals E4 agradável alta verdadeir nã Ganh máxim é btid cm X 44 45 Exempl nã tal emperatura nã tal nã tal Ventand nã tal Jgar 3 5 quente 4 alta 3 4 7 fals 6 8 9 4 0 4 agradável 4 6 nrmal 6 7 verdadeir 3 3 6 nã 5 3 5 fria 3 4 tal 9 5 4 tal 9 5 4 tal 9 5 4 tal 9 5 4 tal 4 E quente alta fals nã E quente alta verdadeir nã E3 quente alta fals E4 agradável alta fals E5 fria nrmal fals E6 fria nrmal verdadeir nã E7 fria nrmal verdadeir E8 agradável alta fals nã E9 fria nrmal fals E0 agradável nrmal fals E agradável nrmal verdadeir E agradável alta verdadeir E3 quente nrmal fals E4 agradável alta verdadeir nã nã tal emperatura nã tal nã tal Ventand nã tal Jgar 3 5 quente 4 alta 3 4 7 fals 6 8 9 4 0 4 agradável 4 6 nrmal 6 7 verdadeir 3 3 6 nã 5 3 5 fria 3 4 tal 9 5 4 tal 9 5 4 tal 9 5 4 tal 9 5 4 tal 4 inf( = p( C j, lg j= ( p( C, = p(, lg ( p(, p(nã, lg ( p(nã, 9 9 5 5 = lg lg 4 4 4 4 = 0.9409 bits 3 i inf(, = inf( i i= = inf( 5 = inf( 4 j 4 inf( 4 inf( 5 inf( 4 inf( 46 47 nã tal emperatura nã tal nã tal Ventand nã tal Jgar 3 5 quente 4 alta 3 4 7 fals 6 8 9 4 0 4 agradável 4 6 nrmal 6 7 verdadeir 3 3 6 nã 5 3 5 fria 3 4 tal 9 5 4 tal 9 5 4 tal 9 5 4 tal 9 5 4 tal 4 inf( = p( C j, lg j= ( p( C, = p(, lg ( p(, p(nã, lg ( p(nã, 3 3 = lg lg = 0.97095 5 5 5 5 inf( = p( C j, lg j= = p(, j ( p( C, lg ( p(, p(nã, lg ( p(nã, 4 4 0 0 = lg lg = 0 4 4 4 4 inf( = p( C j, lg j= = p(, j ( p( C j, lg ( p(, p(nã, lg ( p(nã, 3 3 = lg lg = 0.97095 5 5 5 5 48 nã tal emperatura nã tal nã tal Ventand nã tal Jgar 3 5 quente 4 alta 3 4 7 fals 6 8 9 4 0 4 agradável 4 6 nrmal 6 7 verdadeir 3 3 6 nã 5 3 5 fria 3 4 tal 9 5 4 tal 9 5 4 tal 9 5 4 tal 9 5 4 tal 4 3 i inf(, = inf( i i= = inf( inf( 5 4 5 = inf( inf( inf( 4 4 4 5 3 3 = lg lg 4 5 5 5 5 4 4 4 0 0 lg lg 4 4 4 4 4 5 3 3 lg lg 4 5 5 5 5 = 0.69354 bits inf( 49

nã tal emperatura nã tal nã tal Ventand nã tal Jgar 3 5 quente 4 alta 3 4 7 fals 6 8 9 4 0 4 agradável 4 6 nrmal 6 7 verdadeir 3 3 6 nã 5 3 5 fria 3 4 tal 9 5 4 tal 9 5 4 tal 9 5 4 tal 9 5 4 tal 4 nã tal emperatura nã tal nã tal Ventand nã tal Jgar 3 5 quente 4 alta 3 4 7 fals 6 8 9 4 0 4 agradável 4 6 nrmal 6 7 verdadeir 3 3 6 nã 5 3 5 fria 3 4 tal 9 5 4 tal 9 5 4 tal 9 5 4 tal 9 5 4 tal 4 3 i inf(emperatura, = inf( i i= = quente inf( quente agradável inf( 4 = lg lg 4 4 4 4 4 6 4 4 lg lg 4 6 6 6 6 4 3 3 lg lg 4 4 4 4 4 = 0.906 bits agradável fria inf( fria i inf(, = inf( i i= alta nrmal = inf( alta inf( 7 3 3 4 4 = lg lg 4 7 7 7 7 nrmal 7 6 6 lg lg 4 7 7 7 7 = 0.78845 bits 50 5 nã tal emperatura nã tal nã tal Ventand nã tal Jgar 3 5 quente 4 alta 3 4 7 fals 6 8 9 4 0 4 agradável 4 6 nrmal 6 7 verdadeir 3 3 6 nã 5 3 5 fria 3 4 tal 9 5 4 tal 9 5 4 tal 9 5 4 tal 9 5 4 tal 4 i inf(ventand, = inf( i i= fals verdadeir = inf( fals inf( 8 6 6 = lg lg 4 8 8 8 8 6 3 3 3 3 lg lg 4 6 6 6 6 = 0.896 bits verdadeir Esclha d Atribut para Particinar td Cnjunt de Exempls inf( = 0.9409 bits inf(, = 0.69354 bits inf(emperatura, = 0.906 bits inf(, = 0.78845bits inf(ventand, = 0.896 bits gain(, = inf( inf(, = 0.9409 0.69354 = 0.4675bits gain(emperatura, = inf( inf(emperatura, = 0.9409 0.906 = 0.09 bits gain(, = inf( inf(, = 0.9409 0.78845 = 0.584bits gain(ventand, = inf( inf(ventand, = 0.9409 0.896 = 0.0483bits max gain( X, = arg max gain( X, = X { X, X, L, X m } 5 53 O Subcnjunt = pssui Apenas Exempls de uma Mesma Classe...... que Leva a um Nó Flha [s,3n] [3s,n] [s,3n] [4s,0n] [3s,n] E quente alta fals nã E quente alta verdadeir nã E8 agradável alta fals nã E9 fria nrmal fals E agradável nrmal verdadeir [4s,0n] E4 agradável alta fals E5 fria nrmal fals E6 fria nrmal verdadeir nã E0 agradável nrmal fals E4 agradável alta verdadeir nã E quente alta fals nã E quente alta verdadeir nã E8 agradável alta fals nã E9 fria nrmal fals E agradável nrmal verdadeir E4 agradável alta fals E5 fria nrmal fals E6 fria nrmal verdadeir nã E0 agradável nrmal fals E4 agradável alta verdadeir nã E3 quente alta fals E7 fria nrmal verdadeir E agradável alta verdadeir E3 quente nrmal fals 54 55

Esclha d Atribut para Particinar = Esclha d Atribut para Particinar = [s,3n] [4s,0n] [3s,n] [s,3n] [4s,0n] [3s,n] E quente alta fals nã E quente alta verdadeir nã E8 agradável alta fals nã E9 fria nrmal fals E agradável nrmal verdadeir E4 agradável alta fals E5 fria nrmal fals E6 fria nrmal verdadeir nã E0 agradável nrmal fals E4 agradável alta verdadeir nã E quente alta fals nã E quente alta verdadeir nã E8 agradável alta fals nã E9 fria nrmal fals E agradável nrmal verdadeir E4 agradável alta fals E5 fria nrmal fals E6 fria nrmal verdadeir nã E0 agradável nrmal fals E4 agradável alta verdadeir nã emperatura nã tal nã tal Ventand nã tal Jgar quente 0 alta 0 3 3 fals 3 agradável nrmal 0 verdadeir nã 3 fria 0 tal 3 5 tal 3 5 tal 3 5 tal 5 emperatura nã tal nã tal Ventand nã tal Jgar 3 quente 0 alta 0 3 3 fals agradável nrmal 0 verdadeir nã 3 fria 0 tal 3 5 tal 3 5 tal 3 5 tal 5 inf( = 0.97095bits inf(emperatura, = 0.4 bits inf(, = 0 bits inf(ventand, = 0.95098bits gain(emperatura, = inf( inf(emperatura, = 0.97095 0.4 = 0.57095 bits gain(, = inf( inf(, = 0.97095 0 = 0.97095 bits gain(ventand, = inf( inf(ventand, = 0.97095 0.95098 = 0.0997 bits 56 max gain( X, = arg max X { X, X, L, X m gain ( X, = } 57 Esclha d Atribut para Particinar = Esclha d Atribut para Particinar = [s,3n] [4s,0n] [3s,n] [s,3n] [4s,0n] [3s,n] [0s,3n] alta nã nrmal [s,0n] E4 agradável alta fals E5 fria nrmal fals E6 fria nrmal verdadeir nã E0 agradável nrmal fals E4 agradável alta verdadeir nã [0s,3n] alta nrmal nã [s,0n] E4 agradável alta fals E5 fria nrmal fals E6 fria nrmal verdadeir nã E0 agradável nrmal fals E4 agradável alta verdadeir nã E quente alta fals nã E quente alta verdadeir nã E8 agradável alta fals nã emperatura nã tal nã tal Ventand nã tal Jgar quente 0 0 0 alta fals 3 0 3 3 agradável 3 nrmal 3 verdadeir 0 nã fria tal 3 5 tal 3 5 tal 3 5 tal 5 E9 fria nrmal fals E agradável nrmal verdadeir 58 59 Esclha d Atribut para Particinar = Esclha d Atribut Ventand para Particinar = [s,3n] [3s,n] [4s,0n] E4 agradável alta fals E5 fria nrmal fals alta nrmal E6 fria nrmal verdadeir nã E0 agradável nrmal fals [0s,3n] nã [s,0n] E4 agradável alta verdadeir nã emperatura nã tal nã tal Ventand nã tal Jgar quente 0 0 0 alta fals 3 0 3 3 agradável 3 nrmal 3 verdadeir 0 nã fria tal 3 5 tal 3 5 tal 3 5 tal 5 inf( = 0.97095bits inf(emperatura, = 0.95098bits gain(emperatura, = inf( inf(emperatura, = 0.97095 0.95098 = 0.0997 bits inf(, = 0.95098bits gain(, = inf( inf(, = 0.97095 0.95098 = 0.0997 bits inf(ventand, = 0 bits gain(ventand, = inf( inf(ventand, = 0.97095 0 = 0.97095 bits max gain( X, = X arg max { X, X, L, X m gain ( X, = Ventand } 60 alta [s,3n] nrmal [4s,0n] [0s,3n] nã [s,0n] [3s,0n] nã [0s,n] [3s,n] fals Ventand verdadeir E4 agradável alta fals E5 fria nrmal fals E0 agradável nrmal fals E6 fria nrmal verdadeir nã E4 agradável alta verdadeir nã 6

Árvre de Decisã Induzida Exercíci Calcule ganh para atribut Dia, u seja, gain(dia,, sabend que inf(=0.94 gain(dia, = inf( inf(dia, alta nrmal nã Ventand fals verdadeir nã Dia emperatura Ventand Jgar d quente alta fals nã d quente alta verdadeir nã d3 quente alta fals d4 agradável alta fals d5 fria nrmal fals d6 fria nrmal verdadeir nã d7 fria nrmal verdadeir d8 agradável alta fals nã d9 fria nrmal fals d0 agradável nrmal fals d agradável nrmal verdadeir d agradável alta verdadeir d3 quente nrmal fals d4 agradável alta verdadeir nã 6 63 Razã de Ganh Razã de Ganh Vims que ganh máxim é interessante para particinar s exempls, frnecend bns resultads Entretant, ele tem uma tendência (bias em favr de testes cm muits valres Pr exempl, cnsidere um cnjunt de exempls de diagnóstic médic n qual um ds atributs cntém códig de identificaçã d paciente (ID Uma vez que cada códig ID é únic, particinand cnjunt de treinament ns valres deste atribut levará a um grande númer de subcnjunts, cada um cntend smente um cas Cm tds s subcnjunts (de element necessariamente cntêm exempls de uma mesma classe, inf(id,=0, as ganh de infrmaçã deste atribut será máxim =[a,b,c,...,,p] a b c inf(id, = 0 ID Nã Nã... p Nã 64 65 Razã de Ganh Para ucinar esta situaçã, em analgia à definiçã de inf(, vams definir a infrmaçã ptencial gerada pela partiçã de em r subcnjunts r i i split inf( X, = lg i= A razã de ganh é definida cm: gain( X, gain rati( X, = split inf( X, A razã de ganh expressa a prprçã de infrmaçã gerada pela partiçã que é útil, u seja, que aparenta ser útil para a classificaçã Razã de Ganh Usand exempl anterir para atribut que prduz três subcnjunts cm 5, 4 e 5 exempls, respectivamente 5 5 4 4 5 5 split inf(, = lg lg lg 4 4 4 4 4 4 =.5774bits Para este teste, cuj ganh é gain(,=0.4675 (mesm valr anterir, a razã de ganh é gain-rati(, = 0.4675 /.5774 = 0.5648 66 67

Atributs Numérics Exempl Se um atribut X assume valres reais (numérics, é gerad um teste binári cujs resultads sã X <= Z e X > Z O limite Z pde ser encntrad da seguinte frma Os exempls de sã inicialmente rdenads cnsiderand s valres d atribut X send cnsiderad Há apenas um cnjunt finit de valres, que pdems dentar (em rdem pr {v, v,..., v L } Qualquer limite caind entre v i e v i tem mesm efeit que particinar s exempls cujs valres d atribut X encntra-se em {v, v,..., v i } e em {v i, v i,..., v L } As, existem apenas L- divisões pssíveis para atribut X, cada uma devend ser examinada Iss pde ser btid (uma vez rdenads s valres em uma única passagem, atualizand as distribuições de classes para a esquerda e para a direita d limite Z durante prcess Alguns indutres pdem esclher valr de limite cm send pnt médi de cada interval Z=(v i v i / C4.5, entretant, esclhe mair valr de Z entre td cnjunt de treinament que nã excede pnt médi acima, assegurand que tds s valres que aparecem na árvre de fat crrem ns dads E 85 85 fals nã E 80 90 verdadeir nã E3 83 86 fals E4 70 96 fals E5 68 80 fals E6 65 70 verdadeir nã E7 64 65 verdadeir E8 7 95 fals nã E9 69 70 fals E0 75 80 fals E 75 70 verdadeir E 7 90 verdadeir E3 8 75 fals E4 7 9 verdadeir nã 68 69 Esclha d Atribut para Particinar td Cnjunt de Exempls nã tal Ventand nã tal Jgar 3 5 fals 6 8 9 4 0 4 verdadeir 3 3 6 nã 5 3 5 tal 9 5 4 tal 9 5 4 tal 4 Esclha d Atribut para Particinar td Cnjunt de Exempls emperatura 0.35 0.30 Z=(8385/=84 0.5 emperatura 64 65 68 69 70 7 7 75 80 8 83 85 Jgar nã nã nã nã nã 65 70 75 80 85 86 90 9 95 96 nã nã Jgar nã nã nã 0.0 0.5 0.0 0.05 0.00 0.340 64 65 68 69 70 7 7 75 80 8 83 85 Valr Limite (Z gain gain-rati 70 7 Esclha d Atribut para Particinar td Cnjunt de Exempls Z=(8085/=8.5 0.6 0.584 0.4 0. 0.0 0.08 0.06 0.04 0.0 Esclha d Atribut para Particinar td Cnjunt de Exempls inf( = 0.9409 bits inf(, = 0.69354 bits inf(emperatura inf( gain( Z= 84 Z= 8.5 gain(emperatura, = 0.93980 bits, = 0.9997 bits inf(ventand, = 0.896 bits gain(, = 0.4675 bits Z= 84 Z= 8.5, = 0.340 bits, = 0.584 bits gain(ventand, = 0.0483 bits 0.00 65 70 75 80 85 86 90 9 95 96 Valr Limite (Z gain gain-rati max gain( X, = arg max gain( X, = X { X, X, L, X m } 7 73

O Subcnjunt = pssui Apenas Exempls de uma Mesma Classe, Levand a um Nó Flha Esclha d Atribut para Particinar = [4s,0n] [4s,0n] E 85 85 fals nã E 80 90 verdadeir nã E8 7 95 fals nã E9 69 70 fals E 75 70 verdadeir E4 70 96 fals E5 68 80 fals E6 65 70 verdadeir nã E0 75 80 fals E4 7 9 verdadeir nã E 85 85 fals nã E 80 90 verdadeir nã E8 7 95 fals nã E9 69 70 fals E 75 70 verdadeir E4 70 96 fals E5 68 80 fals E6 65 70 verdadeir nã E0 75 80 fals E4 7 9 verdadeir nã Ventand nã tal Jgar fals 3 verdadeir nã 3 tal 3 5 tal 5 emperatura 69 7 75 80 85 Jgar nã nã nã 85 90 95 70 Jgar nã nã nã 74 75 Esclha d Atribut para Particinar = emperatura 64 65 68 69 70 7 7 75 80 8 83 85 emperatura (= 0.50 Z=(7580/=77.5 Esclha d Atribut para Particinar =.0 Z=(7085/=77.5 65 70 75 80 85 86 90 9 95 96 (= 0.45 0.40 0.4997.00 0.97095 0.35 0.80 0.30 0.5 0.60 0.0 0.5 0.40 0.0 0.0 0.05 0.00 0.00 69 7 75 80 85 70 85 90 95 Valr Limite (Z Valr Limite (Z gain gain-rati gain gain-rati 76 77 Esclha d Atribut para Particinar = Esclha d Atribut para Particinar = [4s,0n] [s,3n] [4s,0n] E 85 85 fals nã E 80 90 verdadeir nã E8 7 95 fals nã E9 69 70 fals E 75 70 verdadeir E4 70 96 fals E5 68 80 fals E6 65 70 verdadeir nã E0 75 80 fals E4 7 9 verdadeir nã <=75 >75 [s,0n] nã [0s,3n] E4 70 96 fals E5 68 80 fals E6 65 70 verdadeir nã E0 75 80 fals E4 7 9 verdadeir nã Ventand nã tal Jgar emperatura 69 7 75 80 85 fals 3 Jgar nã nã nã verdadeir nã 3 70 85 90 95 tal 3 5 tal 5 Jgar nã nã nã inf( = 0.97095bits inf(emperatura, = 0.55098bits inf( Z= 77.5 Z= 77.5, = 0 bits inf(ventand, = 0.95098bits gain(emperatura Z= 77.5, = 0.97095 0.55098 = 0.4997 gain( Z= 77.5, = 0.97095 0 = 0.97095 bits gain(ventand, = 0.97095 0.95098 = 0.0997 bits max gain( X, = arg max gain( X, = Z= 77.5 X { X, X, L, X m } 78 E9 69 70 fals E 75 70 verdadeir E 85 85 fals nã E 80 90 verdadeir nã E8 7 95 fals nã 79

Esclha d Atribut para Particinar = Esclha d Atribut para Particinar = Z=(6568/=66.5 emperatura 64 65 68 69 70 7 7 75 80 8 83 85 [s,0n] [s,3n] [4s,0n] E4 70 96 fals E5 68 80 fals 65 70 verdadeir nã E6 <=75 >75 E0 75 80 fals E4 7 9 verdadeir nã [0s,3n] nã emperatura 65 68 70 7 75 Ventand nã tal Jgar Jgar nã nã fals 3 0 3 3 verdadeir 0 nã 70 80 9 96 Jgar nã nã tal 3 5 tal 5 0.50 0.45 0.40 0.35 0.30 0.5 0.0 0.5 0.0 0.393 emperatura (= 0.05 0.00 65 68 70 7 75 Valr Limite (Z gain gain-rati 80 8 Esclha d Atribut para Particinar = Z=(7080/=75 65 70 75 80 85 86 90 9 95 96 Esclha d Atribut para Particinar = 0.50 0.45 0.40 0.35 0.30 0.5 0.0 0.5 0.0 0.05 0.00 (= 0.393 70 80 9 96 Valr Limite (Z gain gain-rati X m [s,3n] [4s,0n] E4 70 96 fals E5 68 80 fals 65 70 verdadeir nã E6 <=75 >75 E0 75 80 fals E4 7 9 verdadeir nã [s,0n] nã [0s,3n] emperatura 65 68 70 7 75 Ventand nã tal Jgar Jgar nã nã fals 3 0 3 3 verdadeir 0 nã 70 80 9 96 Jgar nã nã tal 3 5 tal 5 inf( = 0.97095bits inf(emperatura Z= 66.5, = 0.6490bits gain(emperatura, = 0.97095 0.6490 = 0.393 bits inf(z, = 0.6490bits gain(, = 0.97095 0.6490 = 0.393 bits = 75 inf(ventand, = 0 bits gain(ventand, = 0.97095 0 = 0.97095 bits max gain( X, = arg max gain ( X, = Ventand X { X, X, L, } 8 83 Esclha d Atribut Ventand para Particinar = Árvre de Decisã Induzida [s,3n] [4s,0n] [3s,n] Ventand <=75 >75 fals verdadeir [s,0n] nã [0s,3n] [3s,0n] nã [0s,n] Ventand E4 70 96 fals E5 68 80 fals E0 75 80 fals <=75 >75 nã fals verdadeir nã E6 65 70 verdadeir nã E4 7 9 verdadeir nã 84 85

Atributs cm Valres Descnhecids (Missing( Values O algritm básic para cnstruçã da D assume que valr de um teste para cada exempl de treinament pssa ser determinad Além diss, prcess de classificaçã de nvs exempls requer uma esclha em cada ram da árvre, esclha esta baseada em um atribut, cuj valr deve ser cnhecid Entretant, em dads d mund real é freqüente fat que um atribut apresente valres descnhecids O valr nã é relevante para aquele exempl particular O valr nã fi armazenad quand s exempls fram cletads O valr nã pôde ser decifrad (se escrit à mã pela pessa que digitu s dads Atributs cm Valres Descnhecids Pr exempl, Quinlan (993 reprta que em um cnjunt de 3000 dads médics sbre tireóide, muits exempls nã pssuem sex d paciente, mesm sabend que esta infrmaçã seja usualmente relevante para a interpretaçã; mais de 30% ds exempls apresentam valres descnhecids As, a falta de cmpleteza é típica em dads d mund real Diante diss, há algumas esclhas pssíveis Descartar uma parte (significante ds exempls de treinament e assumir alguns ds nvs exempls (teste cm send inclassificáveis Pré-prcessar s dads, substituind s valres descnhecids ( que geralmente altera prcess de aprendizad Alterar s algritms aprpriadamente para tratar atributs cntend valres descnhecids 86 87 Atributs cm Valres Descnhecids A alteraçã ds algritms para tratar atributs cntend valres descnhecids requer a seguinte análise: A esclha de um teste para particinar cnjunt de treinament: se dis testes utilizam atributs cm diferentes númers de valres descnhecids, qual mais desejável? Uma vez que um teste tenha sid esclhid, exempls de treinament cm valres descnhecids de um atribut nã pdem ser assciads a um particular ram (utcme d teste e, prtant, nã pde ser atribuíd a um subcnjunt particular i. Cm esses exempls devem ser tratads n particinament? Quand a árvre é utilizada para classificar um nv exempl, cm classificadr deve prceder se exempl tem um valr descnhecid para atribut testad n nó de decisã atual? Verems ns próxims slides a estratégia adtada pel indutr C4.5 Esclha de um este Cm mencinad, ganh de infrmaçã de um teste mede a infrmaçã necessária para identificar uma classe que pde ser esperada pr mei d particinament d cnjunt de exempls, calculad cm a subtraçã da infrmaçã esperada requerida para identificar a classe de um exempl após particinament da mesma infrmaçã antes d particinament É evidente que um teste nã frnece infrmaçã alguma sbre a pertinência a uma classe de um exempl cuj valr d atribut de teste é descnhecid 88 89 Esclha de um este Assumind que uma fraçã F de exempls tenha seu valr cnhecid para atribut X, a definiçã de ganh pde ser alterada para gain(x, = prbabilidade de X ser cnhecid * (inf( inf(x, prbabilidade de X ser descnhecid * 0 gain(x, = F * (inf( inf(x, De frma ilar, a definiçã de split-inf(x, pde ser alterada cnsiderand s exempls cm valres descnhecids cm um grup adicinal. Se teste tem r valres, seu split-inf é calculad cm se teste dividisse s exempls em r subcnjunts Exercíci E 85 85 fals nã E 80 90 verdadeir nã E3 83 86 fals E4 70 96 fals E5 68 80 fals E6 65 70 verdadeir nã E7 64 65 verdadeir E8 7 95 fals nã E9 69 70 fals E0 75 80 fals E 75 70 verdadeir E 7 90 verdadeir E3 8 75 fals E4 7 9 verdadeir nã 90 9

Exercíci Sluçã nã tal 3 5 3 0 3 3 5 tal 8 5 3 E 85 85 fals nã E 80 90 verdadeir nã E3 83 86 fals E4 70 96 fals E5 68 80 fals E6 65 70 verdadeir nã E7 64 65 verdadeir E8 7 95 fals nã E9 69 70 fals E0 75 80 fals E 75 70 verdadeir E? 7 90 verdadeir E3 8 75 fals E4 7 9 verdadeir nã Calcular inf(, inf(,, gain(,, split-inf(,, gain-rati(, 9 8 8 5 5 inf( = lg lg 3 3 3 3 = 0.96 bits 5 3 3 inf(, = lg( lg( 3 5 5 5 5 3 3 3 0 0 lg( lg( 3 3 3 3 3 5 3 3 lg( lg( 3 5 5 5 5 = 0.7469 3 gain(, = (0.96 0.7469 4 = 0.990 bits 93 Sluçã 5 5 split inf(, = lg( 4 4 (para 3 3 lg( 4 4 (para 5 4 lg( 4 4 (para lg( 4 4 (para? =.809 0.990 gain rati(, = = 0.00.809 nã tal 3 5 3 0 3 3 5 tal 8 5 3 Particinand Cnjunt de reinament Um teste pde ser selecinad dentre s pssíveis testes cm antes, utilizand as definições mdificadas de gain e split-inf Se atribut selecinad X pssui valres descnhecids, cnceit de particinament d cnjunt é generalizad da seguinte frma: Assumind que X assume r valres, u seja X = O, X = O,..., X=O r, cada teste particina cnjunt ns subcnjunts,,..., r, respectivamente Quand um exempl de cm valr cnhecid é atribuíd a subcnjunt i ist indica que a prbabilidade daquele exempl pertencer a subcnjunt i é e em tds s demais subcnjunts é 0 94 95 Particinand Cnjunt de reinament Quand um exempl pssui valr descnhecid, apenas um grau de pertinência prbabilístic pde ser feit As a cada exempl em cada subcnjunt i é assciad um pes representand a prbabilidade d exempl pertencer a cada subcnjunt Se exempl tem seu valr cnhecid para teste, pes é Se exempl tem seu valr descnhecid para teste, pes é a prbabilidade d teste X=O i naquele pnt; cada subcnjunt i é agra uma cleçã de exempls fracináris de frma que i deve ser interpretad cm a sma ds pess fracináris ds exempls n subcnjunt Particinand Cnjunt de reinament Os exempls em pdem ter pess nã unitáris, uma vez que pde ser um subcnjunt de uma partiçã anterir Em geral, um exempl de cm pes w cuj valr de teste é descnhecid é atribuíd a cada subcnjunt i cm pes w * prbabilidade de X=O i A prbabilidade é estimada cm a sma ds pess ds exempls em que têm seu valr (cnhecid igual a O i dividid pela sma ds pess ds exempls em que pssuem valres cnhecids para atribut X 96 97

Exempl Quand s 4 exempls sã particinads pel atribut, s 3 exempls para s quais valr é cnhecid nã apresentam prblemas O exempl remanescente é atribuíd para tdas as partições, crrespndend as valres, e, cm pess 5/3, 3/3 e 5/3, respectivamente Exempl Vams analisar a primeira partiçã, crrespndend a = Pes E 85 85 fals nã E 80 90 verdadeir nã E8 7 95 fals nã E9 69 70 fals E 75 70 verdadeir E? 7 90 verdadeir 5/3 Se este subcnjunt fr particinad nvamente pel mesm teste anterir, u seja, utilizand atribut, terems as seguintes distribuições de classes <= 75 [s, 0n] > 75 [5/3s, 3n] 98 99 Exempl Distribuições de classes <= 75 [s, 0n] > 75 [5/3s, 3n] A primeira partiçã cntém exempls de uma única classe ( A segunda ainda cntém exempls de ambas as classes mas algritm nã encntra nenhum teste que melhre sensivelmente esta situaçã De maneira ilar, subcnjunt crrespndend a = e cuj teste esteja basead n atribut Ventand (cm anterirmente nã pde ser particinad em subcnjunts de uma única classe Exempl A D assume a frma: aparencia = :...umidade <= 75: (.0 : umidade > 75: nã (3.4/0.4 aparencia = : (3. aparencia = :...ventand = verdadeir: nã (.4/0.4 : ventand = fals: (3.0 Os númer nas flhas da frma (N u (N/E significam N é a sma de exempls fracináris que atingiram a flha E é númer de exempls que pertencem a classes diferentes daquela predita pela flha (em árvres nã pdadas 00 0 Classificand um Nv Exempl Uma abrdagem ilar é utilizada quand a D é usada para classificar um nv exempl Se um nó de decisã é encntrad para qual valr d atribut é descnhecid (u seja, valr d teste nã pde ser determinad, algritm explrar tds s valres pssíveis de teste, cmbinand resultad das classificações aritmeticamente Uma vez que agra pdem haver múltipls caminhs da raiz da árvre u sub-árvre até as flhas, a classificaçã é uma distribuiçã de classes a invés de uma única classe Quand a distribuiçã ttal de classes para nv exempl é estabelecida, a classe cm a mair prbabilidade é rtulada cm send a classe predita Exempl emperatura Ventand 75? fals aparencia = :...umidade <= 75: (.0 : umidade > 75: nã (3.4/0.4 aparencia = : (3. aparencia = :...ventand = verdadeir: nã (.4/0.4 : ventand = fals: (3.0 O valr de assegura que exempl mva-se para a primeira sub-árvre mas nã é pssível determinar se <= 75 Entretant, pdems ntar que: Se <= 75 exempl pderia ser classificad cm Se > 75, exempl pderia ser classificad cm nã cm prbabilidade 3/3.4 (88% e cm prbabilidade 0.4/3.4 (% Quand a D fi cnstruída, as partições para estes testes tinham.0 e 3.4 exempls, respectivamente As cnclusões cndicinais sã cmbinadas cm s mesms pess relativs.0/5.4 e 3.4/5.4 de frma que a distribuiçã final de classes para exempl é :.0/5.4 * 00% 3.4/5.4 * % = 44% nã: 3.4/5.4 * 88% = 56% 0 03

Pda Há duas frmas de prduzir árvres mais ples pré-pda: decide-se nã mais particinar cnjunt de treinament, utilizand algum critéri pós-pda: induz-se a árvre cmpleta e entã remve-se alguns ds rams A pda invariavelmente causará a classificaçã incrreta de exempls de treinament Cnseqüentemente, as flhas nã necessariamente cnterã exempls de uma única classe Pré-Pda Pda Evita gastar temp cnstruind estruturas (sub-árvres que nã serã usada na árvre final plificada O métd usual cnsiste em analisar a melhr frma de particinar um subcnjunt, mensurand-a sb pnt de vista de significância estatística, ganh de infrmaçã, reduçã de err u utra métrica qualquer Se a medida encntrada encntrar-se abaix de um valr limite (threshld particinament é interrmpid e a árvre para aquele subcnjunt é apenas a flha mais aprpriada Entretant, a definiçã d valr limite nã é ples de ser definid Um valr muit grande pde terminar particinament antes que s benefícis de divisões subseqüentes trnem-se evidentes Um valr muit pequen resulta em puca plificaçã 04 05 Pós-Pda Pda O prcess de induçã (dividir-e-cnquistar da árvre cntinua de frma livre e entã a árvre super-ajustada (verfitted tree prduzida é entã pdada O cust cmputacinal adicinal investid na cnstruçã de partes da árvre que serã psterirmente descartadas pde ser substancial Entretant, esse cust é cmpensadr devid a uma mair explraçã das pssíveis partições Crescer e pdar árvres é mais lent, mas mais cnfiável Pós-Pda Pda Existem várias frma de avaliar a taxa de err de árvres pdadas, dentre elas avaliar desempenh em um subcnjunt separad d cnjunt de treinament ( que implica que uma parte ds exempls devem ser reservada para a pda e, prtant, a árvre tem que ser cnstruída a partir de um cnjunt de exempls menr avaliar desempenh n cnjunt de treinament, mas ajustand valr estimad d err, já que ele tem a tendência de ser menr n cnjunt de treinament 06 07 Pós-Pda Pda (C4.5 Análise de Cmplexidade Quand N exempls de treinament sã cberts pr uma flha, E ds quais incrretamente, a taxa de err de resubstituiçã para esta flha é E/N Entretant, iss pde ser vist cm a bservaçã de E events em N tentativas Se esse cnjunt de N exempls de treinament frem vists cm uma amstra ( que de fat nã é, pdems analisar que este resultad indica sbre a prbabilidade de um event (err na ppulaçã inteira de exempls cberts pr aquela flha A prbabilidade nã pde ser determinada exatamente, mas tem uma distribuiçã de prbabilidade (psterir que é usualmente resumida pr um par de limites de cnfiança Para um dad nível de cnfiança CF, limite superir desta prbabilidade pde ser encntrad a partir ds limites de cnfiança de uma distribuiçã binmial dentad pr U CF (E,N Uma flha cm N exempls de treinament cm uma taxa de err predita de U CF (E,N ttalizará N*U CF (E,N errs Vams assumir que a prfundidade da árvre para n exempls é O(lg n (assumind árvre balanceada Vams cnsiderar esfrç para um atribut para tds s nós da árvre; nem tds s exempls precisam ser cnsiderads em cada nó mas certamente cnjunt cmplet de n exempls deve ser cnsiderad em cada nível da árvre Cm há lg n níveis na árvre, esfrç para um únic atribut é O(n lg n Assumind que em cada nó tds s atributs sã cnsiderads, esfrç para cnstruir a árvre trna-se O(mn lg n Se s atributs sã numérics, eles devem ser rdenads, mas apenas uma rdenaçã inicial é necessária, que tma O(n lg n para cada um ds m atributs: as a cmplexidade acima permanece a mesma Se s atributs sã nminais, nem tds s atributs precisam ser cnsiderads em cada nó uma vez que atributs utilizads anterirmente nã pdem ser reutilizads; entretant, se s atributs sã numérics eles pdem ser reutilizads e, prtant, eles devem ser cnsiderads em cada nível da árvre 08 3

Análise de Cmplexidade Na pda (subtree replacement, inicialmente uma estimativa de err deve ser efetuada em cada nó Assumind que cntadres sejam aprpriadamente mantids, ist é realizad em temp linear a númer de nós na árvre Após iss, cada nó deve ser cnsiderad para substituiçã A árvre pssui n máxim n flhas, uma para cada exempl Se a árvre fr binária (cada atribut send numéric u nminal cm dis valres apenas iss resulta em n- nós (árvres cm multi-rams apenas diminuem númer de nós interns As, a cmplexidade para a pda é O(n Interpretaçã Gemétrica Cnsiderams exempls cm um vetr de m atributs Cada vetr crrespnde a um pnt em um espaç m-dimensinal A D crrespnde a uma divisã d espaç em regiões, cada regiã rtulada cm uma classe 4 5 Interpretaçã Gemétrica: Atribut- Valr Interpretaçã Gemétrica p/ D Um teste para um atribut é da frma X i p Valr nde X i é um atribut, p {=,,<,,>, } e valr é uma cnstante válida para atribut O espaç de descriçã é particinad em regiões retangulares, nmeadas hiperplans, que sã rtgnais as eixs As regiões prduzidas pr D sã tdas hiperplans Enquant a árvre está send frmada, mais regiões sã adicinadas a espaç X 8 5 0 X 6 7 Interpretaçã Gemétrica p/ D Interpretaçã Gemétrica p/ D X 8 X 0 >0 X 8 X 0 >0 X 8 >8 5 0 X 5 0 X 8 9

Interpretaçã Gemétrica p/ D Cmbinaçã Linear de Atributs X 8 5 0 X X 0 >0 X 8 >8 X 5 >5 Prduzem árvres de decisã blíquas A representaçã para s testes sã da frma a X a X L a m X m p Valr nde a i é uma cnstante, X i é um atribut real, p {<,,>, } e Valr uma cnstante O espaç de descriçã é particinad hiperplans que nã sã necessariamente rtgnais a eixs 0 Árvre de Decisã Oblíqua Resum X 8 5 0 X X-X 4 >4 Árvres de decisã, em geral, pssuem um temp de aprendizad relativamente rápid Árvres de decisã permitem a classificaçã de cnjunts cm milhões de exempls e centenas de atributs a uma velcidade razável É pssível cnverter para regras de classificaçã, pdend ser interpretadas pr seres humans Precisã cmparável a utrs métds X 3