Árvore de Decisão. 3. Árvore de Decisão



Documentos relacionados
Teoria de Jogos. Algoritmo Minimax e Alfa-Beta AED

INF 1010 Estruturas de Dados Avançadas. Indexação em Espaços Multidimensionais DI, PUC-Rio Estruturas de Dados Avançadas 2012.

Árvores Parte 1. Aleardo Manacero Jr. DCCE/UNESP Grupo de Sistemas Paralelos e Distribuídos

Árvores de Decisão Matemática Discreta

Medidas de Tendência Central. Introdução Média Aritmética Moda Mediana

1 O que é árvore de decisão

CAP. II RESOLUÇÃO NUMÉRICA DE EQUAÇÕES NÃO LINEARES

Avaliação e Desempenho Aula 1 - Simulação

Análise de Regressão. Notas de Aula

Capítulo VI. Teoremas de Circuitos Elétricos

Métodos Formais. Agenda. Relações Binárias Relações e Banco de Dados Operações nas Relações Resumo Relações Funções. Relações e Funções

Resumo: Estudo do Comportamento das Funções. 1º - Explicitar o domínio da função estudada

Variáveis Frequências Gráficos Medidas de Posição Medidas de Dispersão Medidas Complementares Inferência

Medidas de Tendência Central

Conteúdo. 1 Introdução. Histograma do Quinto Sorteio da Nota Fiscal Paraná 065/16. Quinto Sorteio Eletrônico da Nota Fiscal Paraná

Conteúdo. 1 Introdução. Histograma do 1o Sorteio da Nota Fiscal Paraná 152/15. 1º Sorteio Eletrônico da Nota Fiscal Paraná

Estatística. Conjunto de métodos e processos quantitativos que serve para estudar e medir os fenômenos coletivos ou de massa.

Relatório das Provas da 2ª. Fase - Vestibular 2016

ESTATÍSTICA PARTE 1 OBJETIVO DA DISCIPLINA

BCC202 - Estrutura de Dados I

Metodologias de Programação

Árvores Splay. Mestrado em Ciência da Computaçã. ção Estruturas de Dados Prof. Dr. Paulo Roberto Gomes Luzzardi Aluna: Nelsi Warken

Métodos Quantitativos Aplicados

BIOESTATÍSTICA. Parte 1 - Estatística descritiva e análise exploratória dos dados

Medidas de dispersão e assimetria

Matemática. A probabilidade pedida é p =

Regressão linear múltipla. Prof. Tatiele Lacerda

Matemática Discreta. Leandro Colombi Resendo. Matemática Discreta Bacharel em Sistemas de Informações

b b 4ac =, onde 2 , é um número REAL que pode ser: positivo, nulo ou negativo.

Raiz quadrada. Índice. Propriedades

CIRCULAR TÉCNICA N o 171 NOVEMBRO 1989 TABELAS PARA CLASSIFICAÇÃO DO COEFICIENTE DE VARIAÇÃO

Erros e Incertezas. Rafael Alves Batista Instituto de Física Gleb Wataghin Universidade Estadual de Campinas (Dated: 10 de Julho de 2011.

A. Equações não lineares

Inspeção de Qualidade

Resolução Numérica de Equações Parte I

Aula 01 Introdução Custo de um algoritmo, Funções de complexidad e Recursão

2) Escreva um algoritmo que leia um conjunto de 10 notas, armazene-as em uma variável composta chamada NOTA e calcule e imprima a sua média.

Algoritmos e Estruturas de Dados I. Recursividade. Pedro O.S. Vaz de Melo

Tipos de problemas de programação inteira (PI) Programação Inteira. Abordagem para solução de problemas de PI. Programação inteira

Orientação a Objetos

O cilindro deitado. Eduardo Colli

Capítulo 4 Inferência Estatística

Inteligência Artificial Redes Neurais Artificiais

Capítulo IX. Carregamento de transformadores

Modelos de Probabilidade e Inferência Estatística

ME613 - Análise de Regressão

3º Ano do Ensino Médio. Aula nº09 Prof. Paulo Henrique

Escola Secundária c/3º CEB José Macedo Fragateiro. Curso Profissional de Nível Secundário. Componente Técnica. Disciplina de

ANÁLISE DE FALHAS DE COMPUTADORES

Lição 5 Medidas Descritivas Medidas de Dispersão

O que é Microsoft Excel? Microsoft Excel. Inicialização do Excel. Ambiente de trabalho

CAPÍTULO O Método Simplex Pesquisa Operacional

Medidas de Localização

Função do 2º Grau. 2 =, onde 2. b 4ac. , é um número REAL que pode ser: positivo, nulo ou negativo.

Inteligência Artificial IA I. MÉTODOS DE BUSCA

3 Modelos de Simulação

IND 1115 Inferência Estatística Aula 8

Pernambuco. Tabela 1: Indicadores selecionados: mediana, 1º e 3º quartis nos municípios do estado de Pernambuco (1991, 2000 e 2010)

Acre. Tabela 1: Indicadores selecionados: mediana, 1 o e 3 o quartis nos municípios do estado do Acre (1991, 2000 e 2010)

Linha Técnica Sessão IV Variáveis Instrumentais

IV Regressão e correlação IV.4. (cont.) Significância Estatística e Regressão Múltipla

A Derivada. 1.0 Conceitos. 2.0 Técnicas de Diferenciação. 2.1 Técnicas Básicas. Derivada de f em relação a x:

Engenharia Econômica

Regressão, Interpolação e Extrapolação Numéricas

Planejamento e Análise Estatística de Experimentos Fatoriais em blocos completos

CÁLCULO 1 Teoria 0: Revisão Gráfico de Funções elementares Núcleo de Engenharias e Ciência da Computação. Professora: Walnice Brandão Machado

Curso de Análise Estatística Comparação entre variáveis contínuas: correlação e regressão Linear

AMOSTRAGEM: DIMENSIONAMENTO DE AMOSTRAS. SELEÇÃO DOS ELEMENTOS DE UMA AMOSTRA. ESTIMATIVA DA CARACTERÍSTICA TOTAL DA POPULAÇÃO INVESTIGADA

4.2.2 Filtrando Macro filtro

PROGRAMAÇÃO LINEAR. Formulação de problemas de programação linear e resolução gráfica

I COLIFORMES E ph MÉDIAS ARITMÉTICAS, MÉDIAS GEOMÉTRICAS E MEDIANAS

Soluções de Questões de Vestibular UFF

Maranhão. Tabela 1: Indicadores selecionados: mediana, 1º e 3º quartis nos municípios do estado do Maranhão (1991, 2000 e 2010)

Introdução. Ou seja, de certo modo esperamos que haja uma certa

Parte 05 - Técnicas de programação (mapas de Veitch-Karnaugh)

UNIPAC Araguari FACAE - Faculdade de Ciências Administrativas e Exatas SISTEMAS DE INFORMAÇÃO

Análise de Regressão Linear Simples III

População e Amostra POPULAÇÃO AMOSTRA AMOSTRAGEM TIPOS DE AMOSTRAGEM I. Amostra probabilística: II. Amostra não-probabilística

Capítulo 5. Inferência no Modelo de Regressão Simples: Estimação de Intervalos, Teste de Hipóteses e Previsão

Exercícios de Fixação Aulas 05 e 06

Actividade de enriquecimento. Algoritmo da raiz quadrada

CURSO DE INSTRUMENTAÇÃO. Erros de Medição. Cedtec 2007/2. Sem equivalente na Apostila 1 Pressão e Nível

Matemática Básica Intervalos

FUNÇÃO QUADRÁTICA. Resumo

Aula 12: Correlação e Regressão

Arquitetura de Computadores I

Estimação. Como definir um estimador. Como obter estimativas pontuais. Como construir intervalos de confiança

Análise estatística. Aula de Bioestatística. 17/9/2008 (2.ª Parte) Paulo Nogueira

ANÁLISE EXPLORATÓRIA DE DADOS

a) 2 b) 3 c) 4 d) 5 e) 6

Técnicas estatísticas para análise de dados e de resultados de modelos de simulação

Os dados quantitativos também podem ser de natureza discreta ou contínua.

ALGA - Eng.Civil - ISE / Matrizes 1. Matrizes

21- EXERCÍCIOS FUNÇÕES DO SEGUNDO GRAU

1. Estatística Descritiva

Análise de Regressão Múltipla com informação qualitativa: variáveis binárias (dummy)

Gramáticas Livres de Contexto

Bases Matemáticas. Daniel Miranda de maio de sala Bloco B página: daniel.miranda

Métodos Quantitativos Aplicados a Custos Análise Estatística como um auxiliar valioso nas decisões

AULA 04 Estimativas e Tamanhos Amostrais

Transcrição:

Árvore de Decisão 3. Árvore de Decisão A árvore de decisão consiste de uma hierarquia de nós internos e externos que são conectados por ramos. O nó interno, também conhecido como nó decisório ou nó intermediário, é a unidade de tomada de decisão que avalia através de teste lógico qual será o próximo nó descendente ou filho. Em contraste, um nó externo (não tem nó descendente), também conhecido como folha ou nó terminal, está associado a um rótulo ou a um valor. Em geral, o procedimento de uma árvore de decisão é o seguinte: apresenta-se um conjunto de dados ao nó inicial (ou nó raiz que também é um nó interno) da árvore; dependendo do resultado do teste lógico usado pelo nó, a árvore ramifica-se para um dos nós filhos e este procedimento é repetido até que um nó terminal é alcançado. A repetição deste procedimento caracteriza a recursividade da árvore de decisão. No caso das árvores de decisão binária, cada nó intermediário divide-se exatamente em dois nós descendentes: o nó esquerdo e o nó direito. Quando os dados satisfazem o teste lógico do nó intermediário seguem para o nó esquerdo e quando não satisfazem seguem para o nó direito. Logo, uma decisão é sempre interpretada como verdadeira ou falsa. Deve ser mencionado que, restringimos a nossa descrição de divisão para árvores binárias, pois estas serão empregadas nesta tese. Contudo, na literatura há árvore de decisão com várias divisões e sua descrição pode ser encontrada em Zighed (2000). A Figura 1 é uma representação gráfica de uma árvore de decisão binária.

Árvore de Decisão 22 t 1 x 1 0.7 t 2 t 3 x 2 0.5 t 4 t 5 Figura 1 - Árvore de Decisão Binária Na figura anterior, os círculos representam os nós internos (intermediários ou decisórios); os quadrados representam os nós folhas ou terminais; as linhas representam os ramos que interligam dois nós; e x 1 e x 2 representam as variáveis decisórias. Chama-se de variável decisória a variável de entrada que levará a uma nova divisão da árvore de decisão, em relação a um possível valor. A interpretação da representação gráfica da árvore de decisão ilustrada anteriormente é descrita da seguinte forma: Quando a condição é satisfeita (por exemplo, x 1 0.7), os dados seguem para o nó esquerdo (SIM) e, caso contrário, os dados seguem para o nó direito (NÃO); Numeração dos nós: t 1 nó 1, t 2 nó 2, t 3 nó 3, t 4 nó 4 e t 5 nó 5 Níveis da árvore de decisão: Nível 0 : nó 1 Nível 1 : nós 2 e 3 Nível 2 : nós 4 e 5 O aprendizado de uma árvore de decisão é supervisionado, ou seja, o método aproxima funções-alvo de valor discreto, na qual a função aprendida é representada por uma árvore de decisão. As árvores treinadas podem ser representadas como um conjunto de regras Se-Então para melhoria da

Árvore de Decisão 23 compreensão e interpretação. As árvores de decisão são estudadas em vários campos de pesquisa como ciências sociais, estatística, engenharia e inteligência artificial. Atualmente, elas têm sido aplicadas, com sucesso, em um enorme campo de tarefas desde diagnóstico de casos médicos até avaliação de risco de crédito de requerentes de empréstimo. Árvores de decisão usadas para problemas de classificação são chamadas de Árvores de Classificação. Em algumas referências bibliográficas (Torgo, 1997), a árvore de classificação pode ser denominada, simplesmente, como árvore de decisão. Nas árvores de classificação, cada nó terminal ou folha contém um rótulo que indica a classe predita para um determinado conjunto de dados. Neste tipo de árvore pode existir dois ou mais nós terminais com a mesma classe. Para ilustrar uma árvore de classificação, encontra-se na Figura 2 a representação gráfica deste tipo de árvore para duas classes. t 1 x 1 0.7 t 2 t3 x 2 0.5 1 t 4 t 5 2 1 Figura 2 - Árvore de Classificação

Árvore de Decisão 24 Na árvore de classificação ilustrada na figura anterior as classes formadas são Classe 1, representada pelos nós 3 e 5, e a Classe 2, representada pelo nó 4. As regras obtidas após a árvore treinada são: Regra para Classe 1 Se (x 1 > 0.7) ou Se (x 1 0.7 e x 2 > 0.5) Regra para Classe 2 Se (x 1 0.7 e x 2 0.5) Árvores de decisão usadas para problemas de regressão são chamadas de Árvores de Regressão. Nas árvores de regressão, cada nó terminal ou folha contém uma constante (geralmente, uma média) ou uma equação para o valor previsto de um determinado conjunto de dados. Empregando a mesma representação gráfica da árvore de classificação (Figura 2), temos para cada nó terminal um modelo linear. onde: (k) β i (3) (3) β i xi + ε se x t3 (4) (4) Y = βi xi + ε se x t 4 (1) (5) (5) β + ε i xi se x t5 : i-ésimo parâmetro β do modelo linear do k-ésimo nó; (k) ε : ruído do modelo linear do k-ésimo nó; x : dados de entrada Y : dados de saída Existem dois aspectos que merecem destaques em uma árvore de decisão, o crescimento e a poda, que serão abordados na seção 3.1. Por fim, um dos mais conhecidos e mais completos algoritmos de árvore de decisão é o CART - Classification and Regression Tree - que foi proposto por Breiman (1984). Como este algoritmo será empregado em uma das etapas da modelagem proposta nesta tese, é conveniente realizar uma breve descrição do CART na seção 3.2.

Árvore de Decisão 25 3.1. Crescimento e Poda As árvores de decisão são construídas usando um algoritmo de partição recursiva. Este algoritmo constrói uma árvore por divisões recursivas binárias que começa no nó raiz e desce até os nós folhas. Têm-se dois fatores principais no algoritmo de partição: a forma para selecionar uma divisão para cada nó intermediário (Crescimento) e uma regra para determinar quando um nó é terminal (Poda). O problema chave, no algoritmo de partição recursiva, é a confiabilidade das estimativas do erro usado para selecionar as divisões. As escolhas da divisão em níveis maiores da árvore produzem, freqüentemente, estatísticas nãoconfiáveis apesar da estimativa do erro de resubstituição (estimativa obtida com os dados de treinamento usado durante o crescimento da árvore) manter-se decrescendo. Com isto, a precisão das estimativas do erro é fortemente dependente da qualidade da amostra. Como o algoritmo divide recursivamente o conjunto de dados de treinamento original, as divisões estão sendo avaliadas com amostras cada vez menores. Isto significa que as estimativas de erro têm menos confiabilidade à medida que crescemos a árvore. Com intuito de minimizar este problema e evitar o superajustamento dos dados de treinamento com árvores muito complexas, tem-se a estratégia conhecida como método de podagem. Há dois procedimentos alternativos para podagem da árvore de decisão: a pós-podagem e a pré-podagem. A pós-podagem é o processo pelo qual uma árvore é crescida ao tamanho máximo e então métodos de evolução confiáveis são usados para selecionar a árvore podada de tamanho certo desde o modelo inicial. Este algoritmo considera a podagem como um processo de dois-estágios. No primeiro estágio, um conjunto de árvores podadas de Tmax (árvore de tamanho máximo) é gerado de acordo com algum critério, enquanto no segundo estágio uma dessas árvores é selecionada como o modelo final. Os métodos de pós-podagem podem ser computacionalmente ineficientes, no sentido que não é usual achar domínios onde uma árvore extremamente grande (por exemplo, com milhares de nós) é pós-podada em poucas centenas de nós - isto parece um desperdício computacional. Uma alternativa de parada no

Árvore de Decisão 26 procedimento de crescimento da árvore é interromper o crescimento tão logo a divisão seja considerada não-confiável. Isto é conhecido como a pré-podagem da árvore. O método de pré-podagem usa um procedimento passo único. Este algoritmo corre através dos nós da árvore ou de baixo para cima ou de cima para baixo, decidindo para cada nó, se é para podar de acordo com algum critério de avaliação. Os métodos de pré-podagem também apresentam um ponto negativo no seu algoritmo. A pré-podagem corre o risco de selecionar uma árvore subótima ao interromper o crescimento da árvore (Breiman, 1984). Breiman (1984) descreveu duas alternativas para a seleção da árvore final baseada nas estimativas dos erros obtidos. Ou seleciona a árvore com menor erro estimado ou escolhe a menor árvore na seqüência, cujo erro estimado está dentro do intervalo: Err b + SE(Err b ), onde Err b é o menor erro estimado e SE(Err b ) é o erro padrão desta estimativa. Mas tarde, este método será conhecido como a regra 1-SE. Para maiores detalhes sobre essas alternativas consultar Breiman (1984) ou Zighed (2000). Destaca-se que para árvores de classificação a podagem é em função da complexidade do custo mínimo (erro de resubstituição) e para árvores de regressão, a podagem é em função da complexidade do erro mínimo. 3.2. CART A metodologia do modelo CART (Breiman, 1984) é tecnicamente conhecida como partição recursiva binária. O processo é binário porque os nós pais são sempre divididos exatamente em dois nós filhos e recursivamente porque o processo pode ser repetido tratando cada nó filho como um nó pai. As principais características do CART são: definir o conjunto de regras para dividir cada nó da árvore; decidir quando a árvore está completa; associar cada nó terminal a uma classe ou a um valor preditivo no caso da regressão. Para dividir um nó em dois nós filhos, o algoritmo sempre faz perguntas que tem apenas um sim ou um não como resposta. Por exemplo, as questões podem ser: a idade é <=55? ou o crédito é <=600?

Árvore de Decisão 27 O próximo passo é ordenar cada regra de divisão com base no critério de qualidade de divisão. O critério padrão usado para classificação é o Índice de Gini que tem por base o cálculo da entropia (Zighed, 2000 e Lamas, 2000) φ (p 1,..., p2 ) = - p j log p j (2) j onde p é a frequência encontrada de cada classe j, e o processo de divisão da árvore de regressão procura minimizar R(T). 1 R (T) = (y - y(t)) 2 (3) N t T x t sendo t o identificador de cada nó da árvore e R(T) o valor esperado da soma dos erros quadráticos da regressão utilizando uma constante como modelo preditivo (a média). Como pode-se notar na equação 3, o CART não apresenta na árvore de regressão, um modelo linear em seus nós terminais e sim uma média. Uma vez encontrada a melhor divisão, repete-se o processo de procura para cada nó filho, continuamente até que a divisão seja impossível ou interrompida. No procedimento do CART, ao invés de determinar quando um nó é terminal ou não, continua-se proporcionando o crescimento da árvore até que não seja mais possível fazê-lo, como por exemplo ao atingir um número mínimo de dados na amostra. Depois que todos os nós terminais foram encontrados, é definida a árvore como maximal, ou seja, a árvore de tamanho máximo. Após encontrar a árvore maximal, começa-se a podar alguns ramos da mesma árvore de modo a aumentar o poder de generalização. Algumas subárvores, obtidas através da poda de alguns ramos desta árvore, são examinadas testando taxas de erros e a melhor delas é escolhida.