1 O que é árvore de decisão



Documentos relacionados
Árvore de Decisão. 3. Árvore de Decisão

Tipos de problemas de programação inteira (PI) Programação Inteira. Abordagem para solução de problemas de PI. Programação inteira

IBM1018 Física Básica II FFCLRP USP Prof. Antônio Roque Aula 7

Árvores de Decisão Matemática Discreta

Medidas de Tendência Central. Introdução Média Aritmética Moda Mediana

a) 2 b) 3 c) 4 d) 5 e) 6

números decimais Inicialmente, as frações são apresentadas como partes de um todo. Por exemplo, teremos 2 de um bolo se dividirmos esse bolo

números decimais Inicialmente, as frações são apresentadas como partes de um todo. Por exemplo, teremos 2 de um bolo se dividirmos esse bolo

Capítulo 4 Inferência Estatística

OBSERVAÇÕES: EXERCÍCIOS

INF 1010 Estruturas de Dados Avançadas. Indexação em Espaços Multidimensionais DI, PUC-Rio Estruturas de Dados Avançadas 2012.

CURSO DE MATEMÁTICA BÁSICA PROGRAMA DE EDUCAÇÃO TUTORIAL CENTRO DE ENGENHARIA DA MOBILIDADE

Avaliação e Desempenho Aula 1 - Simulação

Jogos Bayesianos Estratégias e Equilíbrio Aplicações. Jogos Bayesianos. Prof. Leandro Chaves Rêgo

MATEMÁTICA ENSINO FUNDAMENTAL

MAE116 - Noções de Estatística

Lição 5 Medidas Descritivas Medidas de Dispersão

FRAÇÃO. Número de partes pintadas 3 e números de partes em foi dividida a figura 5

CAPÍTULO O Método Simplex Pesquisa Operacional

Aula 6 Propagação de erros

Teoria de Jogos. Algoritmo Minimax e Alfa-Beta AED

Estruturas de Repetição

Variáveis Frequências Gráficos Medidas de Posição Medidas de Dispersão Medidas Complementares Inferência

1 - RECORDANDO 2 - CENTRO NA ORIGEM 3 - EQUAÇÃO GERAL DA CIRCUNFERÊNCIA. Exercício Resolvido 2: Exercício Resolvido 1: Frente I

Somando os termos de uma progressão aritmética

3º Ano do Ensino Médio. Aula nº09 Prof. Paulo Henrique

Lista de Exercícios 5: Soluções Teoria dos Conjuntos

DIREÇÃO DO VENTO E SEU SIGMA- CALMARIAS

Bases Matemáticas. Daniel Miranda de maio de sala Bloco B página: daniel.miranda

Erros e Incertezas. Rafael Alves Batista Instituto de Física Gleb Wataghin Universidade Estadual de Campinas (Dated: 10 de Julho de 2011.

ANOVA. (Analysis of Variance) Prof. Dr. Guanis de Barros Vilela Junior

Semana 7 Resolução de Sistemas Lineares

QUESTÃO 3 ALTERNATIVA E 24 é o maior número que aparece na figura. Indicamos abaixo a sequência de operações e seu resultado

2) Escreva um algoritmo que leia um conjunto de 10 notas, armazene-as em uma variável composta chamada NOTA e calcule e imprima a sua média.

Teste de Funções por Cobertura do Grafo de Fluxo de Controle

Ciclo com Contador : instrução for. for de variável := expressão to. expressão do instrução

cuja distribuição é t de Student com n 1 graus de liberdade.

Introdução à Inteligência Artificial 2007/08

EXAME DE MACS 2º FASE 2014/2015 = 193

Árvores Parte 1. Aleardo Manacero Jr. DCCE/UNESP Grupo de Sistemas Paralelos e Distribuídos

3.3 Qual o menor caminho até a Escola? 28 CAPÍTULO 3. CICLOS E CAMINHOS

1. Escreva um programa em Pascal que leia três valores inteiros e mostre-os em ordem crescente. Utilize seleção encadeada.

Medidas de Tendência Central

Teste de Hipótese e Intervalo de Confiança. Parte 2

3 Informações para Coordenação da Execução de Testes

Relatório das Provas da 2ª. Fase - Vestibular 2016

Gabarito de Matemática do 6º ano do E.F.

Potenciação e radiciação

Desvio Padrão ou Erro Padrão

Lista de Exercícios - Adição

Algoritmo da raiz quadrada

BCC202 - Estrutura de Dados I

Análise e Resolução da prova do ICMS-PE Disciplinas: Matemática Financeira e Raciocínio Lógico Professor: Custódio Nascimento

Apontamentos de matemática 5.º ano - Múltiplos e divisores

Lista de Exercícios Critérios de Divisibilidade

é 4. Portanto, o desvio padrão é 2. Neste caso 100% dos valores da população estão a um desvio padrão da média.

Análise e Projeto de Algoritmos

Usando potências de 10

Aula 5: determinação e simplificação de expressões lógicas

CAP. II RESOLUÇÃO NUMÉRICA DE EQUAÇÕES NÃO LINEARES

Lista 4 Introdução à Programação Entregar até 07/05/2012

SOLUÇÕES N item a) O maior dos quatro retângulos tem lados de medida 30 4 = 26 cm e 20 7 = 13 cm. Logo, sua área é 26 x 13= 338 cm 2.

Menino ou menina? Exercício 1 Vamos lembrar então o que são genes e cromossomos. Volte à Aula 20 e dê as definições: a) Gene... b) Cromossomo...

Matemática Aplicada às Ciências Sociais

Estimação. Como definir um estimador. Como obter estimativas pontuais. Como construir intervalos de confiança

IND 1115 Inferência Estatística Aula 8

Calculando o comprimento de peças dobradas ou curvadas

Consideremos os seguintes exemplos de hipóteses cuja veracidade interessa avaliar:

25 a 30 de novembro de 2013

Os eixo x e y dividem a circunferência em quatro partes congruentes chamadas quadrantes, numeradas de 1 a 4 conforme figura abaixo:

MEDIDAS DE TENDÊNCIA CENTRAL II

Calculando distâncias sem medir

Introdução aos Processos Estocásticos - Independência

A raiz quadrada. Qual é o número positivo que elevado ao 16 = 4

O cilindro deitado. Eduardo Colli

Notas de aula de Lógica para Ciência da Computação. Aula 11, 2012/2

Aula 1 Conjuntos Numéricos

Actividade de enriquecimento. Algoritmo da raiz quadrada

UM JOGO DE DOMINÓ PARA A LÓGICA PROPOSICIONAL

Unidade 5. A letra como incógnita equações do segundo grau

INF 1771 Inteligência Artificial

2 Limites e Derivadas. Copyright Cengage Learning. Todos os direitos reservados.

TOPOGRAFIA II 2 NIVELAMENTO

O valor nominal do título é de R$ 500,00, a taxa é de 1% ao mês e o prazo é de 45 dias = 1,5 mês.

Medidas de Localização

ÁLGEBRA. Aula 1 _ Função Polinomial do 2º Grau Professor Luciano Nóbrega. Maria Auxiliadora

AULA 04 Estimativas e Tamanhos Amostrais

CIRCULAR TÉCNICA N o 171 NOVEMBRO 1989 TABELAS PARA CLASSIFICAÇÃO DO COEFICIENTE DE VARIAÇÃO

POTENCIAÇÃO, RADICIAÇÃO E LOGARITMAÇÂO NOS NÚMEROS REAIS. Potenciação 1

Nota Bruta Nota Padronizada 1 Nota Padronizada 2 Medida de Desempenho

Determinantes. Matemática Prof. Mauricio José

Análise de algoritmos. Parte II

Elementos de Cálculo I - Notas de aula 9 Prof Carlos Alberto Santana Soares. f(x) lim x a g(x) = lim x a f(x)

Forma Normal de Boyce-Codd

Unidade 10 Análise combinatória. Introdução Princípio Fundamental da contagem Fatorial

I COLIFORMES E ph MÉDIAS ARITMÉTICAS, MÉDIAS GEOMÉTRICAS E MEDIANAS

Transcrição:

Curso de Data Mining Sandra de Amo Aula 9 - Classificação utilizando Arvores de Decisão 1 O que é árvore de decisão Uma árvore de decisão é uma estrutura de árvore onde : cada nó interno é um atributo do banco de dados de amostras, diferente do atributo-classe, as folhas são valores do atributo-classe, cada ramo ligando um nó-filho a um nó-pai é etiquetado com um valor do atributo contido no nó-pai. Existem tantos ramos quantos valores possíveis para este atributo. um atributo que aparece num nó não pode aparecer em seus nós descendentes. Exemplo 1.1 Considere o nosso banco de dados de treinamento: Nome Idade Renda Profissão ClasseProdEletr Daniel =< 30 Média Estudante João 31..50 Média-Alta Professor Carlos 31..50 Média-Alta Engenheiro Maria 31..50 Baixa Vendedora Paulo =< 30 Baixa Porteiro Otávio > 60 Média-Alta Aposentado A figura abaixo ilustra uma possível árvore de decisão sobre este banco de dados: Idade? =< 30 31..50 51..60 > 60 B Renda? A M M-A 2 Idéia geral de como criar uma árvore de decisão A idéia geral é a que está por trás do algoritmo ID3, criado por Ross Quinlan, da Universidade de Sydney em 1986 e de seus sucessores (um deles, o algoritmo C4.5 também proposto por Quinlan em 1993). Trata-se do procedimento recursivo:* Gera-Arvore(A,Cand-List) 1

Input : Um banco de dados de amostras A onde os valores dos atributos foram categorizados, uma lista de atributos candidatos Cand-List. Output : Uma árvore de decisão Método (1) Crie um nó N; Associe a este nó o banco de dados A (2) Se todas as tuplas de A pertencem à mesma classe C então transforme o nó N numa folha etiquetada por C. Páre. (3) Caso contrário : Se Cand-List = então transforme N numa folha etiquetada com o valor do atributo-classe que mais ocorre em A. Páre. (4) Caso contrário : calcule Ganho(Cand-List). Esta função retorna o atributo com o maior ganho de informação. Será detalhada na próxima seção. Chamamos este atributo de Atributo- Teste. (5) Etiquete N com o nome de Atributo-Teste (6) Etapa da partição das amostras A : para cada valor s i do Atributo-Teste faça o seguinte : (7) Crie um nó-filho N i, ligado a N por um ramo com etiqueta igual ao valor s i e associe a este nó o conjunto A i das amostras tais que o valor de Atributo-Teste = s i. (8) Se A i = : transforme o nó N i numa folha etiquetada pelo valor do atributo-classe que mais ocorre em A. (9) Caso contrário : calcule Gera-Arvore(A i, Cand-List - {Atributo-Teste}) e grude no nó N i a árvore resultante deste cálculo. 3 Como decidir qual o melhor atributo para dividir o banco de amostras? Agora vamos detalhar a função Ganho(Cand-List) que decide qual atributo em Cand-List é o mais apropriado para ser utilizado no particionamento das amostras. Nesta seção vamos utilizar como exemplo o seguinte banco de dados amostral sobre condições meteorológicas. O objetivo é identificar quais as condições ideiais para se jogar um determinado jogo. 2

Sol Aparência Encoberto chuvoso Quente Temperatura Agradavel Frio Humidade Vento Alta Normal Falso Verdadeiro Fig. 1 As quatro possibilidades para o atributo do nó raiz Aparência Temperatura Humidade Vento Jogo Sol Quente Alta Falso Sol Quente Alta Verdade Encoberto Quente Alta Falso Chuvoso Agradável Alta Falso Chuvoso Frio Normal Falso Chuvoso Frio Normal Verdade Encoberto Frio Normal Verdade Sol Agradável Alta Falso Sol Frio Normal Falso Chuvoso Agradável Normal Falso Sol Agradável Normal Verdade Encoberto Agradável Alta Verdade Encoberto Quente Normal Falso Chuvoso Agradável Alta Verdade Vamos considerar as 4 possibilidades para a escolha do atributo que será utilizado para dividir o banco de dados no primeiro nível da árvore. Estas possibilidades estão ilustradas na Figura 1. 3

Qual a melhor escolha? Repare que se uma folha só tem ou só tem, ela não será mais dividida no futuro : o processo GeraArvore aplicado a esta folha pára logo no início. Gostaríamos que isto ocorresse o mais cedo possível, pois assim a árvore produzida será menor. Assim, um critério intuitivo para a escolha do atributo que dividirá um nó seria : Escolha aquele que produz os nós mais puros. Por exemplo, no nosso caso, a escolha boa seria o atributo Aparência. Grau de Pureza de um atributo num nó : Entropia. Vamos definir uma função Info que calcula o grau de pureza de um atributo num determinado nó. Este grau de pureza representa a a quantidade de informação esperada que seria necessária para especificar se uma nova instância seria classificada em ou, uma vez chegado a este nó. A idéia é a seguinte : se A 1, A 2,..., A n são as folhas (tabelas) saindo deste nó, n i = tamanho de A i e N = total dos tamanhos das tabelas, então : Info(Nó) = Σ n i=1 n i N Entropia(A i) Quanto maior a entropia, maior a informação. A entropia é uma medida estatística que mede o quão confuso é a distribuição das tuplas entre as classes. Por exemplo, se existem 2 classes, e exatamente metade das tuplas estão numa classe e a outra metade na outra classe, então a entropia seria maximal. Por outro lado, se todas as tuplas estão numa mesma classe, então a entropia é zero. Seja A i uma tabela com n i tuplas, das quais S i estão classificadas como e N i estão classificadas como. Então a entropia de A i é definida como : Entropia(A i ) = ( S 1 S n i log 1 2 n i + N i N n i log i 2 n i ) Observações : esta fórmula para entropia é bem conhecida. Atente para o sinal negativo, necessário pois a entropia deve ser positiva e os logaritmos são negativos (já que são calculados sobre números entre 0 e 1). Esta fórmula é generalizada (da maneira óbvia) para um número de classes qualquer. Exemplo 3.1 Consideremos as quatro possibilidades para o atributo do primeiro nó, conforme ilustrado na Figura 1. Se escolhemos o atributo Aparência : Info(Nó) = 5 14 entropia(folha 1) + 4 14 entropia(folha 2) + 5 14 entropia(folha3) entropia(folha 1) = 2 5 log 2 2 5 + 3 5 log 2 3 5 = 0.971 entropia(folha 2) = 4 4 log 2 5 5 + 0 4 log 2 0 4 = 0 entropia(folha 3) = 3 5 log 2 3 5 + 2 5 log 2 2 5 = 0.971 4

Logo, Info(Nó) = 5 0.971 + 4 0 + 5 0.971 = 0.693 14 14 14 Se escolhemos o atributo Temperatura : Info(Nó) = 4 6 entropia(folha 1) + entropia(folha 2) + 4 14 14 14 Se escolhemos o atributo Humidade : Info(Nó) = 7 7 entropia(folha 1) + entropia(folha 2) = 0.788 14 14 item Se escolhemos o atributo Humidade : Info(Nó) = 8 14 entropia(folha 1) + 6 14 entropia(folha 2) = 0.892 entropia(folha3) = 0.911 Ganho de Informação ao escolher um Atributo. O ganho de informação ao escolher um atributo A num nó é a diferença entre a informação associada ao nó antes(info-pré) da divisão e a informação associada ao nó após a divisão (Info-pós). Info-pós = a informação do nó (Info(Nó)) que calculamos no passo anterior, ao escolhermos A como atributo divisor. Info-pré = entropia do nó antes da divisão = N log N 2 N N onde N = total de tuplas classificadas como ; ; N = total de tuplas no nó. + N Nao log N 2 N Nao, N N Nao = total de tuplas classificadas como Exemplo 3.2 Consideremos a situação do exemplo 3.1. Temos que Info-pré = 9 = 0.940. Logo, os ganhos de informação de cada uma das quatro escolhas é : 5 14 log 2 5 14 ganho(aparência) = 0.940-0.693 = 0.247 ganho(temperatura) = 0.940-0.911 = 0.029 ganho(humidade) = 0.940-0.788 = 0.152 ganho(vento) = 0.940-0.892 = 0.020 log 14 2 9 + 14 Logo, o atributo ideal para dividir as amostras é o atributo Aparência, como era de se supor deste o início. Veja que é o único atributo onde uma das folhas é arrumadinha, todas as tuplas pertencendo a uma única classe. De posse de uma tabela de logaritmos em mãos, termine o cálculo da árvore de decisão correspondente ao banco de dados de dados meteorológicos. 4 Como transformar uma árvore de decisão em regras de classificação Uma árvore de decisão pode ser facilmente transformada num conjunto de regras de classificação. As regras são do tipo : 5

IF L 1 AND L 2... AND L n THEN Classe = Valor onde L i são expressões do tipo Atributo = Valor. Para cada caminho, da raiz até uma folha, tem-se uma regra de classificação. Cada par (atributo,valor) neste caminho dá origem a um L i. Por exemplo, a árvore de decisão do exemplo 1.1 corresponde ao seguinte conjunto de regras de classificação : IF Idade =< 30 AND Renda = Baixa THEN Classe = IF Idade =< 30 AND Renda = Média THEN Classe = IF Idade =< 30 AND Renda = Média-Alta THEN Classe = IF Idade =< 30 AND Renda = Alta THEN Classe = IF Idade 31..50 THEN Classe = IF Idade 51..60 THEN Classe = IF Idade > 60 THEN Classe = Como exercício, considere a árvore de decisão que você calculou como exercício na seção precedente (sobre o banco de dados meteorológicos). Dê as regras de classificação associadas à árvore. 5 Discussão final Como já dissemos anteriormente, o método de classificação baseado em árvore de decisão foi desenvolvido e refinado durante muitos anos por Ross Quinlan da Universidade de Sydney, Australia. Embora outros pesquisadores tenham investigado métodos similares, a pesquisa de Quinlan sempre esteve na dianteira do tema Arvore de Decisão. O esquema que discutimos nesta aula, usando o critério de ganho de informação é essencialmente o esquema utilizado no algoritmo ID3, criado por Quinlan. Alguns melhoramentos neste critério foram realizados ao longo dos anos e culminaram num sistema de Indução por Arvore de Decisão largamente utilizado em Classificação, chamado C4.5. Tais melhoramentos incluem métodos para se lidar com atributos numéricos com um largo espectro de valores, com atributos contendo valores desconhecidos e ruídos. Uma boa referência para este tópico (algoritmo C4.5) é o livro : Ian H. Witten, Eibe Frank : Data Mining : Practical Machine Learning Tools and Techniques with Java Implementations- Capítulo 6 : Implementations : Real Machine Learning Schemes 6