Relatórios Técnicos Do Departamento de Física e Matemática Da FFCLRP-USP

Tamanho: px
Começar a partir da página:

Download "Relatórios Técnicos Do Departamento de Física e Matemática Da FFCLRP-USP"

Transcrição

1 Faculdade de Filosofia, Ciências e Letras de Ribeirão Preto Universidade de São Paulo Avaliação de Arredondamento de Valores de Atributos Contínuos na Indução de Árvores de Decisão Rogério Nunes Lemos José Augusto Baranauskas Relatórios Técnicos Do Departamento de Física e Matemática Da FFCLRP-USP Ribeirão Preto Fevereiro/2006

2 Avaliação de Arredondamento de Valores de Atributos Contínuos na Indução de Árvores de Decisão Rogério Nunes Lemos 1,2 José Augusto Baranauskas 1 augusto@fmrp.usp.br 1 Universidade de São Paulo Faculdade de Filosofia, Ciências e Letras de Ribeirão Preto Departamento de Física e Matemática Avenida do Café, Ribeirão Preto, SP - Brasil 2 Universidade de São Paulo Faculdade de Medicina de Ribeirão Preto Avenida do Café, Ribeirão Preto, SP - Brasil Resumo: A maior parte das operações para construir uma árvore de decisão cresce linearmente com o número de exemplos de treinamento. Entretanto, o processo de escolha de um atributo contínuo contendo d valores distintos requer a ordenação desses valores, crescendo como d log 2 d. Assim, o tempo requerido para construir uma árvore de decisão a partir de um conjunto de treinamento grande pode ser dominado pela ordenação dos atributos contínuos. Neste relatório técnico é avaliado o arredondamento de valores de atributos contínuos no processo de indução de árvores de decisão, considerando não só o tempo de indução e a taxa de erro como também o tamanho final do classificador induzido.

3 Este documento foi preparado com o formatador de textos L A TEX. O sistema de citações de referências bibliográficas utiliza o padrão Chicago do sistema BibT E X. Este projeto de iniciação científica conta com o apoio da Fundação de Amparo à Pesquisa do Estado de São Paulo FAPESP sob número 04/ c Copyright 2006 Rogério Nunes Lemos & José Augusto Baranauskas Todos os Direitos Reservados

4 Sumário 1 Introdução 1 2 Conjuntos de Exemplos 3 3 Experimento Resultados sonar Resultados ionosphere Resultados vowel Experimento Resultados sonar Resultados ionosphere Resultados vowel Algoritmo de Arredondamento 19 6 Experimento Resultados sonar Resultados ionosphere Resultados vowel Resultados wine Resultados aml-all Discussão Considerações Finais 44 Referências 44 Lista de Figuras 1 Parte da árvore de decisão induzida por j48/c4.5 para o conjunto de exemplos Cleveland heart disease Diferença absoluta do tempo de indução sonar Diferença absoluta da taxa de erro sonar Diferença absoluta do tamanho do classificador sonar Diferença absoluta do tempo de indução ionosphere Diferença absoluta da taxa de erro ionosphere Diferença absoluta do tamanho do classificador ionosphere Diferença absoluta do tempo de indução vowel Diferença absoluta da taxa de erro vowel Diferença absoluta do tamanho do classificador vowel Diferença absoluta da taxa de erro (arredondamento parcial versus conjunto original) sonar Diferença absoluta da taxa de erro (arredondamento parcial versus arredondamento completo) sonar Diferença absoluta da taxa de erro (arredondamento parcial versus conjunto original) ionosphere Diferença absoluta da taxa de erro (arredondamento parcial versus arredondamento completo) ionosphere i

5 15 Diferença absoluta da taxa de erro (arredondamento parcial versus conjunto original) vowel Diferença absoluta da taxa de erro (arredondamento parcial versus arredondamento completo) vowel Número de valores distintos para sonar e seus conjuntos derivados pelo arredondamento científico Número de valores distintos para sonar e seus conjuntos derivados pelo arredondamento proposto por Weiss Diferença absoluta do tempo de indução (arredondamento utilizando base 2 versus conjunto original) sonar Diferença absoluta do tempo de indução (arredondamento utilizando base 10 versus conjunto original) sonar Diferença absoluta da taxa de erro (arredondamento utilizando base 2 versus conjunto original) sonar Diferença absoluta da taxa de erro (arredondamento utilizando base 10 versus conjunto original) sonar Diferença absoluta do tamanho do classificador (arredondamento utilizando base 2 versus conjunto original) sonar Diferença absoluta do tamanho do classificador (arredondamento utilizando base 10 versus conjunto original) sonar Diferença absoluta do tempo de indução (arredondamento utilizando base 2 versus conjunto original) ionosphere Diferença absoluta do tempo de indução (arredondamento utilizando base 10 versus conjunto original) ionosphere Diferença absoluta da taxa de erro (arredondamento utilizando base 2 versus conjunto original) ionosphere Diferença absoluta da taxa de erro (arredondamento utilizando base 10 versus conjunto original) ionosphere Diferença absoluta do tamanho do classificador (arredondamento utilizando base 2 versus conjunto original) ionosphere Diferença absoluta do tamanho do classificador (arredondamento utilizando base 10 versus conjunto original) ionosphere Diferença absoluta do tempo de indução (arredondamento utilizando base 2 versus conjunto original) vowel Diferença absoluta do tempo de indução (arredondamento utilizando base 10 versus conjunto original) vowel Diferença absoluta da taxa de erro (arredondamento utilizando base 2 versus conjunto original) vowel Diferença absoluta da taxa de erro (arredondamento utilizando base 10 versus conjunto original) vowel Diferença absoluta do tamanho do classificador (arredondamento utilizando base 2 versus conjunto original) vowel Diferença absoluta do tamanho do classificador (arredondamento utilizando base 10 versus conjunto original) vowel Diferença absoluta do tempo de indução (arredondamento utilizando base 2 versus conjunto original) wine Diferença absoluta do tempo de indução (arredondamento utilizando base 10 versus conjunto original) wine Diferença absoluta da taxa de erro (arredondamento utilizando base 2 versus conjunto original) wine ii

6 40 Diferença absoluta da taxa de erro (arredondamento utilizando base 10 versus conjunto original) wine Diferença absoluta do tamanho do classificador (arredondamento utilizando base 2 versus conjunto original) wine Diferença absoluta do tamanho do classificador (arredondamento utilizando base 10 versus conjunto original) wine Diferença absoluta do tempo de indução (arredondamento utilizando base 2 versus conjunto original) aml-all Diferença absoluta do tempo de indução (arredondamento utilizando base 10 versus conjunto original) aml-all Lista de Tabelas 1 Características dos conjuntos de exemplos Número de valores distintos dos atributos sonar Atributos que aparecem na árvore induzida sonar Atributos selecionados pelo classificador sonar Tempo de indução, taxa de erro e tamanho do classificador sonar Número de valores distintos dos atributos ionosphere Atributos que aparecem na árvore induzida ionosphere Atributos selecionados pelo classificador ionosphere Tempo de indução, taxa de erro e tamanho do classificador ionosphere Número de valores distintos dos atributos vowel Atributos que aparecem na árvore induzida vowel Atributos selecionados pelo classificador vowel Tempo de indução, taxa de erro e tamanho do classificador vowel Taxa de erro do arredondamento completo e do arredondamento parcial sonar Taxa de erro do arredondamento completo e taxa de erro do arredondamento parcial ionosphere Taxa de erro do arredondamento completo e taxa de erro do arredondamento parcial vowel Exemplo utilizando a Equação Exemplo utilizando a Equação 2 na base Atributos que aparecem na árvore induzida sonar - arredondamento utilizando o Algoritmo 1 com base Atributos que aparecem na árvore induzida sonar - arredondamento utilizando o Algoritmo 1 com base Tempo de indução, taxa de erro e tamanho do classificador utilizando arredondamento com bases 2 e 10 sonar Atributos que aparecem na árvore induzida ionosphere - arredondamento utilizando o Algoritmo 1 com base Atributos que aparecem na árvore induzida ionosphere - arredondamento utilizando o Algoritmo 1 com base Tempo de indução, taxa de erro e tamanho do classificador utilizando arredondamento com bases 2 e 10 ionosphere Atributos que aparecem na árvore induzida vowel - arredondamento utilizando o Algoritmo 1 com base Atributos que aparecem na árvore induzida vowel - arredondamento utilizando o Algoritmo 1 com base Tempo de indução, taxa de erro e tamanho do classificador utilizando arredondamento com bases 2 e 10 vowel iii

7 28 Atributos que aparecem na árvore induzida wine - arredondamento utilizando o Algoritmo 1 com base Atributos que aparecem na árvore induzida wine - arredondamento utilizando o Algoritmo 1 com base Tempo de indução, taxa de erro e tamanho do classificador utilizando arredondamento com bases 2 e 10 wine Classificador para o conjunto aml-all e derivados Tempo de indução do classificador utilizando arredondamento com bases 2 e 10 aml-all Resumo dos resultados sonar Resumo dos resultados ionosphere Resumo dos resultados vowel Resumo dos resultados wine Resumo dos resultados dos conjuntos de exemplos Lista de Algoritmos 1 Algoritmo de arredondamento proposto por Weiss Algoritmo final de arredondamento iv

8 1 Introdução Nas últimas décadas, a computação científica e comercial vem gerando uma quantidade enorme de dados. Métodos tradicionais de manipulação de dados, tais como planilhas, consultas em bancos de dados, programas gráficos e processadores de texto são ferramentas úteis para o armazenamento, gerenciamento e a organização de dados e informações. Entretanto, quando se trata de descoberta do conhecimento existente, por exemplo, em um banco de dados, torna-se necessário recorrer a outras estratégias. A extração semi-automática de conhecimento a partir de grandes volumes (bancos) de dados KDD (Knowledge Data Discovery) é um ramo de pesquisa em Ciência da Computação. Pesquisas nessa área têm como principais objetivos a aplicação e o desenvolvimento de técnicas e ferramentas que automatizem o processo de manipulação de dados, visando a extração de novas informações úteis. Uma das abordagens utilizada consiste em utilizar algoritmos de Aprendizado de Máquina AM. O Aprendizado de Máquina supervisionado é definido por Weiss & Kulikowski (1991) como Um sistema de aprendizado é um programa de computador que toma decisões baseadas na experiência contida em exemplos solucionados com sucesso. No Aprendizado de Máquina supervisionado, cada exemplo z pode ser descrito por um vetor de valores de características x, ou atributos, juntamente com o rótulo da classe associada y ou seja, z = (x, y), ficando subentendido o fato que tanto x como z são vetores, ou seja, z = ( x, y). Para rótulos de classe y discretos, esse problema é conhecido como classificação e para valores contínuos como regressão. O objetivo de um algoritmo de AM, denominado indutor, é construir uma hipótese h( ) que possa determinar corretamente a classe de novos exemplos ainda não rotulados, ou seja, exemplos que não tenham o rótulo da classe. Formalmente, em classificação, um exemplo z é um par (x, y) = (x, f(x)) onde x é a entrada e f(x) é a saída e y = f(x). A tarefa de um indutor é, dado um conjunto de exemplos da função f( ), induzir uma função h( ) que aproxima f( ), normalmente desconhecida. Neste caso, h( ) é chamada uma hipótese sobre a função objetivo f( ), ou seja, h(x) f(x). Dentre os algoritmos de AM supervisionado utilizando classificação, tema desta pesquisa, existe uma família de algoritmos de AM indutivo conhecida como Top Down Induction of Decision Trees TDIDT. De modo simplificado a indução de uma árvore de decisão realizase da seguinte forma (Breiman, Friedman, Olshen & Stone 1984; Quinlan 1986): utilizando o conjunto de treinamento, um atributo é escolhido de forma a particionar os exemplos em subconjuntos, de acordo com valores deste atributo. Para cada subconjunto, outro atributo é escolhido para particionar novamente cada um deles. Este processo prossegue, enquanto um dos subconjuntos contenha uma mistura de exemplos pertencendo a classes diferentes. Uma vez obtido um subconjunto uniforme todos os exemplos naquele subconjunto pertencem à mesma classe um nó folha é criado e rotulado com o mesmo nome da respectiva classe. Quando um novo exemplo deve ser classificado, começando pela raiz da árvore induzida, o classificador testa e desvia para cada nó com o respectivo atributo até que atinja uma folha. A classe deste nó folha será então atribuída ao novo exemplo. Para exemplificar o processo de classificação em termos práticos, suponha que se queira aprender uma forma para predizer se um paciente tem problemas cardíacos. Para isso, é necessário verificar os históricos dos pacientes nos quais seriam encontrados registros contendo atributos, tais como idade, sexo, dor no peito, nível de colesterol, taxa máxima de batimentos cardíacos, a presença de angina induzida por exercícios, entre outros. Presume-se que cada registro histórico tenha sido diagnosticado (rotulado) por um especialista médico como um paciente saudável ou doente. O conjunto de exemplos composto por históricos de pacientes é então fornecido como entrada para um algoritmo de indução. A saída resultante, ou seja, a hipótese induzida, normalmente consiste em algumas regras que permitem classificar novos pacientes, 1

9 isto é, que permitem determinar se um novo paciente apresenta ou não problema cardíacos. Na Figura 1 é mostrada parte de uma árvore de decisão induzida a partir de dados reais provenientes do conjunto de exemplos cleve Cleveland heart disease (Newman, Hettich, Blake & Merz 1998). Essa árvore pode ser utilizada para classificar novos pacientes: começando pela raiz da árvore, repetidamente segue-se o ramo de acordo com o atributo testado até que um nó folha seja encontrado, o qual rotula o paciente como saudável (healthy) ou doente (sick). Figura 1: Parte da árvore de decisão induzida por j48/c4.5 para o conjunto de exemplos Cleveland heart disease Um ponto importante é que enquanto a maior parte das operações para construir uma árvore de decisão cresce linearmente com o número de exemplos de treinamento, o processo de escolha de um atributo contínuo contendo d valores distintos requer a ordenação desses valores, crescendo como d log 2 d (Quinlan 1993). Assim, o tempo requerido para construir uma árvore de decisão a partir de um conjunto de treinamento grande pode ser dominado pela ordenação de atributos contínuos, por exemplo, os algoritmos c4.5 (Quinlan 1993) e j48 (Witten & Frank 1999) fazem uso do algoritmo quicksort para ordenar valores contínuos (Cormen, Leiserson, Rivest & Stein 2002)[Cap. 7], (Wirth 1986)[Cap. 2]. Outro fator importante que também deve ser considerado é o grau de compreensibilidade proporcionado ao ser humano. De acordo com Michalski (1983a) e Kubat, Bratko & Michalski (1998), os sistemas de aprendizado são classificados em duas grandes categorias: 1. sistemas caixa-preta que desenvolvem sua própria representação do conceito, isto é, sua representação interna pode não ser facilmente interpretada por humanos e não fornecem nem esclarecimento, nem explicação do processo de reconhecimento; 2. sistemas orientados a conhecimento que objetivam a criação de estruturas simbólicas que sejam compreensíveis por humanos. Assim, no aprendizado de conceitos, o interesse principal consiste em obter descrições simbólicas que sejam fáceis de serem compreendidas e utilizadas por meio de modelos mentais. 2

10 Segundo o postulado da compreensibilidade de Michalski (1983b): Os resultados da indução por computador devem ser descrições simbólicas das entidades dadas, sendo semântica e estruturalmente similares àquelas que um especialista humano poderia produzir observando as mesmas entidades. Os componentes dessas descrições devem ser compreensíveis como simples pedaços de informação, diretamente interpretáveis em linguagem natural, bem como reportar conceitos quantitativos e qualitativos de maneira integrada. Como regra prática, Michalski assume que os componentes de descrição, tais como regras ou nós em uma árvore de decisão, devem ser expressões contendo menos de cinco condições em uma conjunção; poucas condições em uma disjunção; no máximo um nível de parênteses; no máximo uma implicação; não mais de dois quantificadores e nenhuma recursão. Embora esses valores possam ser flexíveis, descrições geradas por indução dentro dos limites propostos são similares à representação do conhecimento humano e, portanto, fáceis de serem compreendidas. Embora tais medidas sejam simples de serem avaliadas, é importante salientar que elas são meramente sintáticas e que, muitas vezes, medidas semânticas devam ser consideradas (Pazzani 2000). Em Aprendizado de Máquina existem muitos algoritmos de aprendizado que induzem classificadores. Este trabalho se concentra em indutores que contribuem para a compreensão dos dados em contraste com indutores que visam apenas uma grande precisão. Por exemplo, a indução de regras ou árvores de decisão pode auxiliar médicos a compreenderem melhor os dados, enquanto uma rede neural convencional, mesmo com precisão similar, pode ser extremamente difícil de ser compreendida por seres humanos 1. Por exemplo, no desenvolvimento de sistemas especialistas é importante que especialistas humanos possam, fácil e confiavelmente, verificar o conhecimento extraído e relacioná-lo ao seu próprio domínio de conhecimento. Além disso, algoritmos de aprendizado que induzem estruturas compreensíveis, contribuindo para a compreensão do domínio considerado, podem produzir conhecimento novo (Dietterich 1986). O objetivo deste trabalho consiste na avaliação do arredondamento de valores de atributos no processo de indução de árvores de decisão, ou seja, neste trabalho é tratado o aprendizado simbólico supervisionado para resolver problemas de classificação. O termo simbólico indica que os classificadores devem ser legíveis e interpretáveis por humanos. O termo supervisionado sugere que algum processo, às vezes denominado agente externo ou professor, previamente rotulou os dados. Finalmente, o termo classificação denota o fato que o rótulo da classe é discreto, ou seja, consiste de valores nominais sem uma ordem definida. Nesta pesquisa é utilizado o indutor de árvores de decisão j48 da biblioteca Weka (Witten & Frank 1999) Waikato Environment for Knowledge Analysis, uma reimplementação na linguagem Java do indutor c4.5 (Quinlan 1993). O restante deste trabalho está organizado da seguinte forma: Na Seção 2 são descritos os conjuntos de exemplos utilizados nos experimentos realizados: Experimento 1 (Seção 3) e Experimento 2 (Seção 4) e Experimento 3 (Seção 6). Os Experimentos 1 e 2 foram conduzidos utilizando arredondamento científica usando redução de casas decimais. Na Seção 5 é mostrada uma metodologia diferente da adotada nesses experimentos, proposta por Weiss & Indurkhya (1998). Por último, na Seção 6 são mostrados os experimentos aplicando a metodologia descrita na Seção 5, bem com uma discussão dos resultados. Por último, são relacionadas as Referências Bibliográficas. 2 Conjuntos de Exemplos Os experimentos, reportados nas seções subseqüentes, foram conduzidos a partir de conjuntos de exemplos provenientes de diversos domínios do mundo real. Os conjuntos de exemplos sonar, 1 Existem, entretanto, vários métodos desenvolvidos para a extração de regras a partir de redes neurais. 3

11 ionosphere, vowel e wine foram obtidos a partir do repositório UCI Irvine (Newman, Hettich, Blake & Merz 1998). O conjunto aml-all foi obtido de Golub (1999). A seguir é fornecida uma descrição, sobre os conjuntos de exemplos utilizados neste trabalho bem como um resumo de suas características. sonar Este conjunto de exemplos foi usado por Gorman & Sejnowski (1988) no estudo de classificação de sinais de sonar utilizando uma rede neural. O problema consiste em discriminar entre sinais de sonar que representam um cilindro de metal daqueles que representam uma rocha ligeiramente cilíndrica. O conjunto de exemplos contém 111 exemplos obtidos por varredura de sonar de um cilindro de metal em vários ângulos e sob várias condições; contém também 97 exemplos obtidos por varredura de rochas sob as mesmas condições. Cada exemplo é um conjunto de 60 números reais entre 0 e 1. Cada número representa a energia em uma banda de freqüência particular integrada sobre um certo período de tempo. A classe associada com cada exemplo contém a letra R se o objeto é uma rocha e M se ele é uma mina (cilindro de metal). ionosphere Estes dados de radar foram coletados por um sistema em Goose Bay, Labrador. Este sistema consiste de um conjunto de 16 antenas de alta freqüência com uma potência total transmitida da ordem de 6,4 Kilowatts. Os alvos eram os elétrons livres na ionosfera. O problema consiste em discriminar entre os retornos bons do radar que são aqueles que mostram evidências de algum tipo de estrutura na ionosfera dos retornos maus que são aqueles que não mostram a evidências de algum tipo de estrutura na ionosfera. O conjunto de exemplos contém 225 exemplos de retornos bons e 126 exemplos de retornos maus. Cada exemplo é um vetor de 34 números reais entre -1 e 1. Dois números representam um número de pulso, que correspondem a sinais eletromagnéticos complexos. vowel O problema consiste em reconhecer uma vogal pronunciada por um locutor arbitrário. Há dez atributos contínuos que são derivados de dados espectrais e três atributos nominais: a identidade do locutor, o sexo do locutor e um atributo adicional que indica se o locutor foi utilizado originalmente para treinar ou testar o classificador. Os exemplos são rotulados em onze classes (devido à normalização realizada). O conjunto de exemplos contém 990 exemplos e cada exemplo possui 13 atributos. Maiores detalhes podem ser obtidos em Turney (1993). wine Estes dados são resultados de uma análise química dos vinhos de uma mesma região da Itália mas derivados de três produtores diferentes. A análise determinou as quantidades de 13 constituintes encontrados em cada um dos três tipos de vinhos. O conjunto de exemplos contém 178 exemplos e cada exemplo possui 13 atributos. Maiores detalhes podem ser obtidos em Forina (1991). aml-all O problema consiste em distinguir entre a leucemia linfoblástica aguda (acute lymphoblastic leukemia - ALL) e leucemia mielóide aguda (acute myeloid leukemia - AML) utilizando dados de expressão gênica obtidos por monitoramento de microarrays de DNA. No trabalho desenvolvido por Golub (1999) o conjunto de treinamento possui 38 exemplos (27 do tipo ALL e 11 do tipo AML) e o conjunto de teste possui 34 exemplos (20 do tipo ALL e 14 do tipo AML). Todos exemplos são descritos por valores de expressão de 7129 genes. Adicionalmente, outro artigo que utiliza esse conjunto de exemplos é (Gamberger, Lavrac, Zelezny & Tolar 2004). Na Tabela 1 são resumidas algumas características dos conjuntos de exemplos utilizados. Para cada conjunto de exemplos são mostrados o número de exemplos (#Exemplos), número de atributos (#Atributos) contínuos ou nominais, número de classes (#Classes), o erro majoritário e se o conjunto de exemplos possui ao menos um valor desconhecido. 4

12 Conjunto #Exemplos #Atributos #Classes Erro Valor de Exemplos (cont.;nom.) Majoritário Desconhecido sonar (60;0) 2 46,63% não ionosphere (34;0) 2 35,90% não vowel (10;3) 11 90,91% não wine (13;0) 3 60,11% não aml-all (7129;0) 2 28,95% não 3 Experimento 1 Tabela 1: Características dos conjuntos de exemplos O primeiro experimento foi realizado inicialmente utilizando somente o conjunto de exemplos sonar. Este experimento teve como objetivo avaliar o comportamento do tempo de indução 2 utilizando ou não arredondamento. O conjunto de exemplos sonar foi submetido ao indutor j48, a indução foi realizada sem poda, obtendo-se uma árvore de decisão. Com base nisso, foram anotados os atributos que apareceram no classificador induzido e, utilizando arredondamento científico, usando redução de casas decimais, foram gerados três conjuntos derivados de sonar denotados como sonar-p (sonarp3, sonar-p2 e sonar-p1) a partir do conjunto original (nenhum arredondamento aplicado), com seus valores arredondados para 3, 2 e 1 casas decimais, respectivamente, somente para aqueles atributos que apareceram no classificador j48. Por exemplo, o valor 0,3109 foi arredondado para 0,311 em sonar-p3, 0,31 em sonar-p2 e 0,3 em sonar-p1. Analisando os três classificadores (obtidos a partir dos conjuntos derivados sonar-p) foi possível notar um conjunto diferente de atributos daquele obtido a partir da árvore induzida utilizando o conjunto original de exemplos sonar. Isso significa que, ao realizar o arredondamento, nos conjuntos derivados sonar-p alguns atributos foram substituídos por outros na árvore quando comparada à árvore induzida a partir de sonar. Diante dessa situação foram gerados três conjuntos derivados adicionais denotados como sonar-t (sonar-t3, sonar-t2 e sonar-t1) a partir do conjunto original, com seus valores arredondados para 3, 2 e 1 casas decimais, respectivamente, para todos os atributos. Ainda nesse experimento inicial dois outros conjuntos de exemplos foram utilizados: ionosphere e vowel. Como observado no caso de sonar, o arredondamento apenas de atributos que aparecem na árvore sem poda induzida a partir do conjunto original de exemplo pode resultar na escolha de outros atributos; assim sendo essa estratégia não foi utilizada para os estes conjuntos de exemplos. Para o conjunto ionosphere foram gerados quatro conjuntos derivados ionosphere-t (ionospheret4, ionosphere-t3, ionosphere-t2 e ionosphere-t1), que tiveram seus valores arredondados para 4, 3, 2 e 1 casas decimais, respectivamente, para todos os atributos. De forma análoga para o conjunto vowel foram gerados dois conjuntos derivados vowel-t (vowel-t2 e vowel-t1), que tiveram seus valores arredondados para 2 e 1 casas decimais, respectivamente, para todos os atributos contínuos. Nota-se que o número máximo de casas decimais no conjunto original é peculiar a cada conjunto original de exemplos, resultando em um número diferente de conjuntos derivados para sonar, ionosphere e vowel. Nesta fase inicial, para avaliar o desempenho foi utilizado 10-fold stratified cross-validation tanto no conjunto original de exemplos (sem arredondamento) como nos conjuntos derivados, obtendo-se média e desvio padrão para o tempo de indução (em segundos). Adicionalmente, a taxa de erro e o tamanho do classificador em número total de nós (tanto nós internos de teste quanto nós folhas) foram também analisados, mesmo considerando o fato que, apenas 2 Ressalta-se que todos os experimentos reportados nesse Relatório Técnico foram realizados no mesmo computador. 5

13 para a taxa de erro, a estimativa de desempenho obtida da forma proposta pode ter um bias otimista, já que os exemplos em todos os folds tiveram seus valores arredondados, incluindo o fold de teste. 3.1 Resultados sonar Na Tabela 2 é mostrado o número de valores distintos para cada atributo tanto no conjunto original sonar, como nos derivados sonar-p (sonar-p1, p2, p3), sonar-t (sonar-t3, t2, t1). Número do Nome do #Valores #Valores #Valores #Valores #Valores #Valores #Valores Atributo Atributo Distintos Distintos Distintos Distintos Distintos Distintos Distintos (vlr. relativo) (vlr. relativo) (vlr. relativo) (vlr. relativo) (vlr. relativo) (vlr. relativo) (vlr. relativo) sonar sonar-p3 sonar-p2 sonar-p1 sonar-t3 sonar-t2 sonar-t1 #1 a (0,85) 66 (0,32) 15 (0,07) 2 (0,01) 66 (0,32) 15 (0,07) 2 (0,01) #2 a (0,88) 82 (0,39) 16 (0,08) 3 (0,01) 82 (0,39) 16 (0,08) 3 (0,01) #3 a (0,91) 190 (0,91) 190 (0,91) 190 (0,91) 90 (0,43) 20 (0,10) 4 (0,02) #4 a (0,87) 93 (0,45) 19 (0,09) 5 (0,02) 93 (0,45) 19 (0,09) 5 (0,02) #5 a (0,93) 193 (0,93) 193 (0,93) 193 (0,93) 112 (0,54) 23 (0,11) 5 (0,02) #6 a (0,94) 196 (0,94) 196 (0,94) 196 (0,94) 132 (0,63) 27 (0,13) 5 (0,02) #7 a (0,94) 195 (0,94) 195 (0,94) 195 (0,94) 134 (0,64) 31 (0,15) 5 (0,02) #8 a (0,97) 142 (0,68) 36 (0,17) 6 (0,03) 142 (0,68) 36 (0,17) 6 (0,03) #9 a (0,99) 205 (0,99) 205 (0,99) 205 (0,99) 156 (0,75) 45 (0,22) 8 (0,04) #10 a (1,00) 207 (1,00) 207 (1,00) 207 (1,00) 165 (0,79) 53 (0,25) 8 (0,04) #11 a (0,98) 164 (0,79) 52 (0,25) 8 (0,04) 164 (0,79) 52 (0,25) 8 (0,04) #12 a (0,99) 206 (0,99) 206 (0,99) 206 (0,99) 165 (0,79) 54 (0,26) 8 (0,04) #13 a (0,95) 198 (0,95) 198 (0,95) 198 (0,95) 167 (0,80) 57 (0,27) 8 (0,04) #14 a (0,97) 202 (0,97) 202 (0,97) 202 (0,97) 171 (0,82) 57 (0,27) 10 (0,05) #15 a (0,98) 203 (0,98) 203 (0,98) 203 (0,98) 176 (0,85) 73 (0,35) 11 (0,05) #16 a (0,98) 203 (0,98) 203 (0,98) 203 (0,98) 182 (0,88) 76 (0,37) 11 (0,05) #17 a (0,97) 202 (0,97) 202 (0,97) 202 (0,97) 176 (0,85) 77 (0,37) 11 (0,05) #18 a (0,98) 178 (0,86) 79 (0,38) 11 (0,05) 178 (0,86) 79 (0,38) 11 (0,05) #19 a (0,99) 206 (0,99) 206 (0,99) 206 (0,99) 175 (0,84) 85 (0,41) 11 (0,05) #20 a (0,98) 203 (0,98) 203 (0,98) 203 (0,98) 182 (0,88) 79 (0,38) 10 (0,05) #21 a (0,96) 185 (0,89) 77 (0,37) 10 (0,05) 185 (0,89) 77 (0,37) 10 (0,05) #22 a (0,98) 203 (0,98) 203 (0,98) 203 (0,98) 184 (0,88) 83 (0,40) 11 (0,05) #23 a (0,96) 176 (0,85) 75 (0,36) 10 (0,05) 176 (0,85) 75 (0,36) 10 (0,05) #24 a (0,97) 201 (0,97) 201 (0,97) 201 (0,97) 174 (0,84) 78 (0,38) 11 (0,05) #25 a (0,95) 198 (0,95) 198 (0,95) 198 (0,95) 182 (0,88) 80 (0,38) 11 (0,05) #26 a (0,93) 194 (0,93) 194 (0,93) 194 (0,93) 175 (0,84) 74 (0,36) 10 (0,05) #27 a (0,91) 172 (0,83) 75 (0,36) 11 (0,05) 172 (0,83) 75 (0,36) 11 (0,05) #28 a (0,93) 171 (0,82) 74 (0,36) 11 (0,05) 171 (0,82) 74 (0,36) 11 (0,05) #29 a (0,95) 197 (0,95) 197 (0,95) 197 (0,95) 178 (0,86) 79 (0,38) 11 (0,05) #30 a (0,97) 202 (0,97) 202 (0,97) 202 (0,97) 182 (0,88) 76 (0,37) 10 (0,05) #31 a (1,00) 207 (1,00) 207 (1,00) 207 (1,00) 190 (0,91) 77 (0,37) 11 (0,05) #32 a (0,99) 205 (0,99) 205 (0,99) 205 (0,99) 182 (0,88) 75 (0,36) 10 (0,05) #33 a (0,99) 205 (0,99) 205 (0,99) 205 (0,99) 188 (0,90) 77 (0,37) 11 (0,05) #34 a (0,99) 206 (0,99) 206 (0,99) 206 (0,99) 183 (0,88) 75 (0,36) 11 (0,05) #35 a (0,99) 205 (0,99) 205 (0,99) 205 (0,99) 186 (0,89) 75 (0,36) 11 (0,05) #36 a (0,99) 205 (0,99) 205 (0,99) 205 (0,99) 186 (0,89) 83 (0,40) 11 (0,05) #37 a (0,99) 206 (0,99) 206 (0,99) 206 (0,99) 181 (0,87) 81 (0,39) 10 (0,05) #38 a (0,99) 206 (0,99) 206 (0,99) 206 (0,99) 173 (0,83) 74 (0,36) 11 (0,05) #39 a (0,98) 204 (0,98) 204 (0,98) 204 (0,98) 170 (0,82) 64 (0,31) 11 (0,05) #40 a (0,99) 206 (0,99) 206 (0,99) 206 (0,99) 184 (0,88) 64 (0,31) 10 (0,05) #41 a (0,98) 204 (0,98) 204 (0,98) 204 (0,98) 175 (0,84) 63 (0,30) 10 (0,05) #42 a (1,00) 208 (1,00) 208 (1,00) 208 (1,00) 174 (0,84) 60 (0,29) 9 (0,04) #43 a (0,99) 205 (0,99) 205 (0,99) 205 (0,99) 176 (0,85) 58 (0,28) 8 (0,04) #44 a (0,94) 196 (0,94) 196 (0,94) 196 (0,94) 156 (0,75) 52 (0,25) 8 (0,04) #45 a (0,99) 205 (0,99) 205 (0,99) 205 (0,99) 162 (0,78) 55 (0,26) 8 (0,04) #46 a (0,96) 199 (0,96) 199 (0,96) 199 (0,96) 152 (0,73) 52 (0,25) 8 (0,04) #47 a (0,97) 202 (0,97) 202 (0,97) 202 (0,97) 145 (0,70) 38 (0,18) 6 (0,03) #48 a (0,98) 204 (0,98) 204 (0,98) 204 (0,98) 133 (0,64) 29 (0,14) 4 (0,02) #49 a (0,93) 193 (0,93) 193 (0,93) 193 (0,93) 98 (0,47) 19 (0,09) 3 (0,01) #50 a (0,74) 154 (0,74) 154 (0,74) 154 (0,74) 50 (0,24) 8 (0,04) 2 (0,01) #51 a (0,77) 45 (0,22) 8 (0,04) 2 (0,01) 45 (0,22) 8 (0,04) 2 (0,01) #52 a (0,69) 144 (0,69) 144 (0,69) 144 (0,69) 39 (0,19) 7 (0,03) 2 (0,01) #53 a (0,64) 31 (0,15) 5 (0,02) 1 (0,00) 31 (0,15) 5 (0,02) 1 (0,00) #54 a (0,64) 31 (0,15) 5 (0,02) 1 (0,00) 31 (0,15) 5 (0,02) 1 (0,00) #55 a (0,62) 129 (0,62) 129 (0,62) 129 (0,62) 29 (0,14) 5 (0,02) 1 (0,00) #56 a (0,59) 122 (0,59) 122 (0,59) 122 (0,59) 26 (0,13) 5 (0,02) 1 (0,00) #57 a (0,58) 121 (0,58) 121 (0,58) 121 (0,58) 27 (0,13) 5 (0,02) 1 (0,00) #58 a (0,60) 124 (0,60) 124 (0,60) 124 (0,60) 29 (0,14) 5 (0,02) 1 (0,00) #59 a (0,57) 119 (0,57) 119 (0,57) 119 (0,57) 29 (0,14) 5 (0,02) 1 (0,00) #60 a (0,52) 109 (0,52) 109 (0,52) 109 (0,52) 24 (0,12) 4 (0,02) 1 (0,00) Média 187,60 137,35 49,64 7,35 Tabela 2: Número de valores distintos dos atributos sonar Como pode ser observado o arredondamento científico usando redução de casas decimais, diminui drasticamente o número de valores distintos. Em média, de 187,60 (sonar) para 137,35 (sonar-t3), para 49,64 (sonar-t2) e para 7,35 (sonar-t1). Isso corresponde a uma redução média de 26,79% de sonar para sonar-t3, de 73,54% de sonar para sonar-t2 e de 96,08% de sonar para sonar-t1. 6

14 Na Tabela 3 são mostrados os atributos que aparecem nas árvores induzidas, número de atributos (#A) e porcentagem do total de atributos (%A), usando todo o conjunto de exemplos, tanto para o conjunto original como para os derivados sonar. Analogamente, essa informação é mostrada de outra forma na Tabela 4. É possível notar que há diferenças entre os atributos que aparecem nas árvores, mesmo entre conjuntos com um mínimo de arredondamento de valores, por exemplo, entre sonar, sonar-p3 e sonar-t3. Conjunto Atributos #A %A sonar 1, 2, 4, 8, 11, 18, 21, 23, 27, 28, 51, 53, ,67% sonar-p3 1, 2, 4, 6, 8, 11, 18, 21, 27, 28, 43, 51, 53, ,33% sonar-p2 2, 4, 8, 9, 11, 27, 37, 39, 43, 45, 54, ,00% sonar-p1 3, 4, 8, 11, 12, 17, 23, 36, 45, 47, ,33% sonar-t3 1, 2, 4, 8, 11, 18, 21, 27, 28, 50, 51, 53, 54, ,33% sonar-t2 2, 5, 8, 11, 15, 20, 21, 23, 27, 39, 49, 52, 57, 58, ,00% sonar-t1 4, 8, 11, 12, 17, 19, 20, 23, 31, 32, 36, 37, 41, 44, 45, ,67% Tabela 3: Atributos que aparecem na árvore induzida sonar É possível observar que a quantidade de atributos aumentou para todos os conjuntos sonar-t; e também que os atributos são diferentes, por exemplo, o atributo #23 deixou de aparecer no classificador de sonar-t3, voltando a ser importante tanto para os classificadores de sonar-t2 e sonar-t1 Na Tabela 5 são mostrados os resultados (média ± desvio padrão) obtidos em relação aos conjuntos de exemplos sonar original e derivados usando 10-fold stratified cross-validation. Em média, o tempo de indução diminuiu de 0,22 (sonar) para 0,16 (sonar-p) e para 0,13 (sonar-t). Isso significa uma redução de 27,27% e 40,91% do tempo de indução, respectivamente. É possível notar, nos conjuntos sonar-p que o tempo de indução foi similar, já que o indutor ordenou mais valores, ou seja, tanto os atributos arredondados como aqueles que não foram arredondados. Isso não aconteceu com os conjuntos sonar-t, já que menos valores tiveram que ser ordenados. Na Figura 2 é mostrada a diferença absoluta em desvios padrões do tempo de indução no eixo vertical do gráfico entre o conjunto original e os conjuntos derivados, ou seja, entre sonar e sonar-t1, entre sonar e sonar-t2 e assim por diante. Quando a barra encontra-se acima de zero significa que o respectivo classificador do conjunto derivado supera o desempenho do classificador do conjunto original; se a barra encontra-se abaixo de zero então o classificador do conjunto original supera o respectivo classificador do conjunto derivado. Quando a altura da barra estiver acima (abaixo) de dois (menos dois) significa que o classificador do conjunto derivado (conjunto original) supera o classificador do conjunto original (conjunto derivado) significativamente, ou seja, nível de confiança de 95% (Rezende 2003; Moses 1986). Analogamente para taxa de erro e tamanho do classificador mostrados nas Figuras 3 e 4, respectivamente. 7

15 Número do sonar sonar-p3 sonar-p2 sonar-p1 sonar-t3 sonar-t2 sonar-t1 Atributo #1 #2 #3 #4 #5 #6 #7 #8 #9 #10 #11 #12 #13 #14 #15 #16 #17 #18 #19 #20 #21 #22 #23 #24 #25 #26 #27 #28 #29 #30 #31 #32 #33 #34 #35 #36 #37 #38 #39 #40 #41 #42 #43 #44 #45 #46 #47 #48 #49 #50 #51 #52 #53 #54 #55 #56 #57 #58 #59 #60 Total % 21,67% 23,33% 20,00% 18,33% 23,33% 25,00% 26,67% Tabela 4: Atributos selecionados pelo classificador sonar 8

16 Conjunto Tempo (s) Erro Tamanho sonar 0, 22 ± 0, 11 28, 83 ± 2, 24 29, 20 ± 3, 58 sonar-p3 0, 16 ± 0, 02 29, 95 ± 2, 26 29, 20 ± 3, 82 sonar-p2 0, 16 ± 0, 01 27, 88 ± 2, 43 29, 40 ± 3, 24 sonar-p1 0, 16 ± 0, 01 23, 02 ± 3, 62 30, 20 ± 2, 70 sonar-t3 0, 16 ± 0, 02 27, 40 ± 2, 48 29, 60 ± 4, 12 sonar-t2 0, 13 ± 0, 02 25, 98 ± 3, 13 32, 40 ± 2, 50 sonar-t1 0, 11 ± 0, 05 23, 98 ± 3, 65 35, 60 ± 3, 66 Tabela 5: Tempo de indução, taxa de erro e tamanho do classificador sonar Figura 2: Diferença absoluta do tempo de indução sonar Como esperado, o tempo de indução reduziu para todos os conjuntos utilizando arredondamento, embora não de forma significativa (com grau de confiança de 95%). Na Figura 3 é mostrada a diferença absoluta em desvios padrões da taxa de erro no eixo vertical do gráfico. Em média, a taxa de erro diminuiu de 28,83% (sonar) para 26,95% (sonarp) e para 25,79% (sonar-t). Isso significa uma redução de 6,52% e 10,54% da taxa de erro, respectivamente. Como pode ser observado, a taxa de erro reduziu para todos os conjuntos utilizando arredondamento, embora não de forma significativa. Figura 3: Diferença absoluta da taxa de erro sonar Na Figura 4 é mostrada a diferença absoluta em desvios padrões do tamanho da árvore no eixo vertical do gráfico. Em média, o tamanho da árvore aumentou de 29,20 (sonar) para 29,60 (sonar-p) e para 32,53 (sonar-t). Isso significa um aumento de 1,35% e 10,24% no tamanho da árvore, respectivamente. Como pode ser observado o tamanho da árvore aumentou para todos os conjuntos, exceto sonar-p3, embora não de forma significativa. 9

17 Figura 4: Diferença absoluta do tamanho do classificador sonar 3.2 Resultados ionosphere Na Tabela 6 é mostrado o número de valores distintos para cada atributo tanto no conjunto original ionosphere, como nos derivados ionosphere-t (ionosphere-t4, t3, t2, t1). Número do Nome do #Valores #Valores #Valores #Valores #Valores Atributo Atributo Distintos Distintos Distintos Distintos Distintos (vlr. relativo) (vlr. relativo) (vlr. relativo) (vlr. relativo) (vlr. relativo) ionosphere ionosphere-t4 ionosphere-t3 ionosphere-t2 ionosphere-t1 #1 a01 2 (0,00) 2 (0,00) 2 (0,00) 2 (0,00) 2 (0,00) #2 a02 1 (0,00) 1 (0,00) 1 (0,00) 1 (0,00) 1 (0,00) #3 a (0,62) 216 (0,61) 184 (0,52) 79 (0,22) 17 (0,04) #4 a (0,76) 265 (0,75) 228 (0,64) 92 (0,26) 18 (0,05) #5 a (0,58) 201 (0,57) 177 (0,50) 81 (0,23) 17 (0,04) #6 a (0,73) 257 (0,73) 226 (0,64) 104 (0,29) 20 (0,05) #7 a (0,65) 227 (0,64) 204 (0,58) 106 (0,30) 17 (0,04) #8 a (0,74) 257 (0,73) 226 (0,64) 116 (0,33) 20 (0,05) #9 a (0,69) 241 (0,68) 220 (0,62) 110 (0,31) 19 (0,05) #10 a (0,76) 261 (0,74) 222 (0,63) 111 (0,31) 18 (0,05) #11 a (0,70) 245 (0,69) 225 (0,64) 114 (0,32) 20 (0,05) #12 a (0,76) 266 (0,75) 235 (0,66) 118 (0,33) 20 (0,05) #13 a (0,67) 238 (0,67) 214 (0,60) 119 (0,33) 21 (0,05) #14 a (0,75) 261 (0,74) 235 (0,66) 114 (0,32) 21 (0,05) #15 a (0,66) 234 (0,66) 217 (0,61) 127 (0,36) 21 (0,05) #16 a (0,76) 266 (0,75) 235 (0,66) 112 (0,31) 20 (0,05) #17 a (0,72) 251 (0,71) 237 (0,67) 118 (0,33) 21 (0,05) #18 a (0,79) 279 (0,79) 258 (0,73) 135 (0,38) 20 (0,05) #19 a (0,72) 250 (0,71) 233 (0,66) 130 (0,37) 21 (0,05) #20 a (0,75) 260 (0,74) 228 (0,64) 127 (0,36) 21 (0,05) #21 a (0,70) 246 (0,70) 232 (0,66) 129 (0,36) 21 (0,05) #22 a (0,75) 261 (0,74) 236 (0,67) 124 (0,35) 21 (0,05) #23 a (0,70) 245 (0,69) 234 (0,66) 128 (0,36) 21 (0,05) #24 a (0,75) 261 (0,74) 235 (0,66) 131 (0,37) 21 (0,05) #25 a (0,72) 253 (0,72) 236 (0,67) 129 (0,36) 21 (0,05) #26 a (0,77) 271 (0,77) 246 (0,70) 126 (0,35) 21 (0,05) #27 a (0,72) 256 (0,72) 234 (0,66) 120 (0,34) 20 (0,05) #28 a (0,80) 276 (0,78) 244 (0,69) 123 (0,35) 21 (0,05) #29 a (0,69) 243 (0,69) 217 (0,61) 116 (0,33) 20 (0,05) #30 a (0,75) 263 (0,74) 240 (0,68) 117 (0,33) 21 (0,05) #31 a (0,69) 239 (0,68) 216 (0,61) 113 (0,32) 20 (0,05) #32 a (0,74) 262 (0,74) 239 (0,68) 127 (0,36) 21 (0,05) #33 a (0,69) 245 (0,69) 220 (0,62) 115 (0,32) 21 (0,05) #34 a (0,74) 260 (0,74) 229 (0,65) 120 (0,34) 21 (0,05) Média 239,65 237,03 213,68 109,82 19,00 Tabela 6: Número de valores distintos dos atributos ionosphere Como pode ser observado o arredondamento científico usando redução de casas decimais, diminui acentuadamente o número de valores distintos, principalmente para ionosphere-t1. Em média, de 239,65 (ionosphere) para 237,03 (ionosphere-t4), para 213,68 (ionosphere-t3), para 109,82 (ionosphere-t2) e para 19 (ionosphere-t1), (ou seja, 4, 3, 2 e 1 casas decimais), respectivamente. Isso corresponde a uma redução média de 1,09% de ionosphere para ionosphere-t4, de 10,84% de ionosphere para ionosphere-t3, de 54,17% de ionosphere para ionosphere-t2 e de 92,07% de ionosphere para ionosphere-t1. Na Tabela 7 são mostrados os atributos que aparecem nas árvores induzidas, número de atributos, representado por (#A) e porcentagem do total de atributos, representado por (%A), 10

18 usando todo o conjunto de exemplos, tanto para o conjunto original como para os derivados para ionosphere. Analogamente, essa informação é mostrada de outra forma na Tabela 8. Conjunto Atributos #A %A ionosphere 1, 3, 4, 5, 6, 7, 8, 10, 16, 17, 19, 21, 27, ,18% ionosphere-t4 1, 3, 4, 5, 6, 7, 8, 10, 16, 17, 19, 21, 27, ,18% ionosphere-t3 1, 3, 5, 6, 8, 9, 16, 18, 21, 27, 28, ,29% ionosphere-t2 1, 3, 5, 6, 8, 12, 14, 16, 20, 21, 23, 27, ,23% ionosphere-t1 1, 3, 5, 6, 8, 16, 23, 24, 27, ,41% Tabela 7: Atributos que aparecem na árvore induzida ionosphere Número do ionosphere ionosphere-t4 ionosphere-t3 ionosphere-t2 ionosphere-t1 Atributo #1 #2 #3 #4 #5 #6 #7 #8 #9 #10 #11 #12 #13 #14 #15 #16 #17 #18 #19 #20 #21 #22 #23 #24 #25 #26 #27 #28 #29 #30 #31 #32 #33 #34 Total % 41,18% 41,18% 35,29% 38,23% 29,41% Tabela 8: Atributos selecionados pelo classificador ionosphere Na Tabela 9 são mostrados os resultados obtidos em relação aos conjuntos de exemplos relacionados ao ionosphere usando o 10-fold stratified cross-validation. Em média, o tempo de indução diminuiu de 0,21 (ionosphere) para 0,17 (ionosphere-t). Isso significa uma redução de 19,05% do tempo de indução. Conjunto Tempo (s) Erro Tamanho ionosphere 0, 21 ± 0, 02 8, 54 ± 1, 03 27, 40 ± 3, 75 ionosphere-t4 0, 20 ± 0, 02 8, 54 ± 1, 03 27, 40 ± 3, 75 ionosphere-t3 0, 20 ± 0, 02 8, 25 ± 1, 07 27, 60 ± 2, 67 ionosphere-t2 0, 15 ± 0, 01 8, 83 ± 1, 37 28, 00 ± 3, 16 ionosphere-t1 0, 11 ± 0, 01 7, 11 ± 0, 86 25, 00 ± 4, 11 Tabela 9: Tempo de indução, taxa de erro e tamanho do classificador ionosphere 11

19 Na Figura 5 é mostrada a diferença absoluta em desvios padrões do tempo de indução entre o conjunto original e os conjuntos derivados, ou seja, entre ionosphere e ionosphere-t1, entre ionosphere e ionosphere-t2 e assim por diante. Analogamente para taxa de erro e tamanho da árvore mostrados nas Figuras 6 e 7, respectivamente. Figura 5: Diferença absoluta do tempo de indução ionosphere Como esperado, o tempo de indução reduziu para todos os conjuntos utilizando arredondamento, sendo significativa (com grau de confiança de 95%) para ionosphere-t1 e ionosphere-t2. Na Figura 6 é mostrada a diferença absoluta em desvios padrões da taxa de erro. Em média, a taxa de erro diminuiu de 8,54% (ionosphere) para 8,18% (ionosphere-t). Isso significa uma redução de 4,22% da taxa de erro. Como pode ser observado, a taxa de erro reduziu, embora não de forma significativa, para todos os conjuntos derivados, exceto ionosphere-t2 que aumentou (de forma não significativa) e ionosphere-t4 que se manteve constante. Figura 6: Diferença absoluta da taxa de erro ionosphere Na Figura 7 é mostrada a diferença absoluta em desvios padrões do tamanho da árvore. Em média, o tamanho da árvore diminuiu de 27,40 (ionosphere) para 27,00 (ionosphere-t). Isso significa uma redução de 1,46% do tamanho da árvore. Como pode ser observado o tamanho da árvore diminuiu para o conjunto ionosphere-t1, aumentou para ionosphere-t2 e ionosphere-t3 e se manteve constante em ionosphere-t4. 12

20 Figura 7: Diferença absoluta do tamanho do classificador ionosphere 3.3 Resultados vowel Na Tabela 10 é mostrado o número de valores distintos para cada atributo tanto no conjunto original vowel, como nos derivados vowel-t (vowel-t2, t1). Número do Nome do #Valores #Valores #Valores Atributo Atributo Distintos Distintos Distintos (vlr. relativo) (vlr. relativo) (vlr. relativo) vowel vowel-t2 vowel-t1 #1 a01 2 (0,00) 2 (0,00) 2 (0,00) #2 a02 15 (0,01) 15 (0,01) 15 (0,01) #3 a03 2 (0,00) 2 (0,00) 2 (0,00) #4 a (0,86) 335 (0,33) 44 (0,04) #5 a (0,88) 414 (0,41) 60 (0,06) #6 a (0,82) 286 (0,28) 39 (0,03) #7 a (0,84) 296 (0,29) 39 (0,03) #8 a (0,81) 272 (0,27) 36 (0,03) #9 a (0,80) 258 (0,26) 32 (0,03) #10 a (0,75) 214 (0,21) 30 (0,03) #11 a (0,80) 239 (0,24) 34 (0,03) #12 a (0,79) 246 (0,24) 30 (0,03) #13 a (0,78) 243 (0,24) 31 (0,03) Média 623,54 217,08 30,31 Tabela 10: Número de valores distintos dos atributos vowel Como pode ser observado o arredondamento científico usando redução de casas decimais, diminui muito o número de valores distintos. Em média, de 623,54 (vowel) para 217,08 (vowelt2) e para 30,31 (vowel-t1), (ou seja, 2 e 1 casas decimais), respectivamente. Isso corresponde a uma redução média de 65,19% de vowel para vowel-t2 e de 95,14% de vowel para vowel-t1. Na Tabela 11 são mostrados os atributos que aparecem nas árvores induzidas, número de atributos (#A) e porcentagem do total de atributos (%A), usando todo o conjunto de exemplos, tanto para o conjunto original como para os derivados para vowel. Analogamente, essa informação é mostrada de outra forma na Tabela 12. Como pode ser observado, não houve alteração nos atributos que aparecem nas árvores. Conjunto Atributos #A %A vowel 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, ,00% vowel-t2 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, ,00% vowel-t1 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, ,00% Tabela 11: Atributos que aparecem na árvore induzida vowel 13

21 Número do vowel vowel-t2 vowel-t1 Atributo #1 #2 #3 #4 #5 #6 #7 #8 #9 #10 #11 #12 #13 Total % 100,00% 100,00% 100,00% Tabela 12: Atributos selecionados pelo classificador vowel Na Tabela 13 são mostrados os resultados obtidos em relação aos conjuntos de exemplos relacionados ao vowel usando o 10-fold stratified cross-validation. Em média, o tempo de indução diminuiu de 0,50 (vowel) para 0,34 (vowel-t). Isso significa uma redução de 32,00% do tempo de indução. Conjunto Tempo (s) Erro Tamanho vowel 0, 50 ± 0, 07 18, 48 ± 1, , 40 ± 17, 54 vowel-t2 0, 46 ± 0, 31 20, 51 ± 1, , 90 ± 16, 39 vowel-t1 0, 22 ± 0, 01 18, 99 ± 1, , 40 ± 21, 81 Tabela 13: Tempo de indução, taxa de erro e tamanho do classificador vowel Na Figura 8 é mostrada a diferença absoluta em desvios padrões do tempo de indução entre o conjunto original e os conjuntos derivados, ou seja, entre vowel e vowel-t1, entre vowel e vowel-t2. Analogamente para taxa de erro e tamanho da árvore mostrados nas Figuras 9 e 10, respectivamente. Figura 8: Diferença absoluta do tempo de indução vowel Como esperado, o tempo de indução reduziu para os dois conjuntos derivados, sendo de forma significativa para vowel-t1. Na Figura 9 é mostrada a diferença absoluta em desvios padrões da taxa de erro. Em média, a taxa de erro aumentou de 18,48% (vowel) para 19,75% (vowel-t). Isso significa um aumento de 6,87% da taxa de erro. Como pode ser observado, a taxa de erro aumentou para os dois 14

22 conjuntos derivados, embora não de forma significativa. Figura 9: Diferença absoluta da taxa de erro vowel Na Figura 10 é mostrada a diferença absoluta em desvios padrões do tamanho da árvore no eixo vertical do gráfico. Em média, o tamanho da árvore aumentou de 213,40 (vowel) para 222,65 (vowel-t). Isso significa um aumento de 4,33% do tamanho da árvore. Como pode ser notado o tamanho da árvore aumentou para os dois os conjuntos, embora não de forma significativa. Figura 10: Diferença absoluta do tamanho do classificador vowel 4 Experimento 2 Como já mencionado, no Experimento 1 a taxa de erro obtida da forma proposta pode ter um bias otimista, já que os exemplos em todos os folds tiveram seus valores arredondados 3. Assim sendo, no Experimento 2 foi avaliada a taxa de erro utilizando 10-fold stratified crossvalidation tanto no conjunto original de exemplos (sem arredondamento) como nos conjuntos derivados, obtendo-se média e desvio padrão para o taxa de erro, com o objetivo de excluir o bias otimista. O experimento foi conduzido da seguinte forma: assuma 10 folds mutuamente exclusivos. Dos 10 folds, foram selecionados 9 folds e aplicado arredondamento dos valores somente nestes 9 folds; a partir do fold remanescente (sem arredondamento) foi avaliada a taxa de erro do 3 Esse bias otimista não se aplica nem ao tempo de indução e nem ao tamanho do classificador, portanto, os valores das métricas de tempo de indução e tamanho do classificador para este Experimento 2 são os mesmos daqueles reportados no Experimento 1. 15

23 classificador. Esse processo foi repetido um total de 10 vezes, cada vez utilizando um fold diferente de teste (sem arredondamento). Para tornar clara a distinção entre a metodologia utilizada neste Experimento 2 daquela utilizada no Experimento 1, será utilizado o termo arredondamento parcial para se referir ao arredondamento foi aplicado apenas ao conjunto de treinamento mas não ao conjunto de teste Experimento 2 e o termo arredondamento completo para se referir ao arredondamento aplicado tanto ao conjunto de treinamento como ao conjunto de teste Experimento Resultados sonar Na Tabela 14 são mostrados os resultados (média ± desvio padrão) obtidos em relação aos conjuntos de exemplos sonar original e derivados. A segunda coluna representa os resultados da taxa de erro já mostrados na Tabela 5, utilizando o arredondamento completo. A terceira coluna representa a taxa de erro utilizando o arredondamento parcial. Conjunto Erro (arredondando Erro (arredondando conj. treinamento e teste) apenas conj. treinamento) sonar 28, 83 ± 2, 24 28, 83 ± 2, 24 sonar-t3 27, 40 ± 2, 48 31, 76 ± 2, 09 sonar-t2 25, 98 ± 3, 13 28, 81 ± 2, 55 sonar-t1 23, 98 ± 3, 65 31, 21 ± 1, 98 Tabela 14: Taxa de erro do arredondamento completo e do arredondamento parcial sonar Na Figura 11 é mostrada a diferença absoluta em desvios padrões da taxa de erro no eixo vertical do gráfico para arredondamento parcial versus conjunto original. Em média, a taxa de erro aumentou de 28,83% (sonar), para 30,59% (sonar-t). Isso significa um aumento de 6,10% da taxa de erro. Como pode ser observado, a taxa de erro aumentou para todos os conjuntos utilizando arredondamento parcial, exceto para sonar-t2, embora não de forma significativa. Figura 11: Diferença absoluta da taxa de erro (arredondamento parcial versus conjunto original) sonar Na Figura 12 é mostrada a diferença absoluta em desvios padrões da taxa de erro no eixo vertical do gráfico para arredondamento parcial versus arredondamento completo. A taxa de erro aumentou de 23,98% para 31,21% em (sonar-t1), de 25,98% para 28,81% em (sonar-t2), e de 27,40% para 31,76% em (sonar-t3). Isso significa um aumento de 30,15% em (sonar-t1), 10,89% em (sonar-t2), 15,91% em (sonar-t3) da taxa de erro. Nota-se, portanto, a confirmação do bias otimista, que é significativo no caso de sonar-t1. 16

24 Figura 12: Diferença absoluta da taxa de erro (arredondamento parcial versus arredondamento completo) sonar 4.2 Resultados ionosphere Na Tabela 15 são mostrados os resultados (média ± desvio padrão) obtidos em relação aos conjuntos de exemplos ionosphere original e derivados. Conjunto Erro (arredondando Erro (arredondando conj. treinamento e teste) apenas conj. treinamento) ionosphere 8, 54 ± 1, 03 8, 54 ± 1, 03 ionosphere-t4 8, 54 ± 1, 03 6, 86 ± 2, 34 ionosphere-t3 8, 25 ± 1, 07 7, 96 ± 2, 24 ionosphere-t2 8, 83 ± 1, 37 2, 85 ± 1, 95 ionosphere-t1 7, 11 ± 0, 86 4, 82 ± 1, 99 Tabela 15: Taxa de erro do arredondamento completo e taxa de erro do arredondamento parcial ionosphere Na Figura 13 é mostrada a diferença absoluta em desvios padrões da taxa de erro no eixo vertical do gráfico para arredondamento parcial versus conjunto original. Em média, a taxa de erro diminuiu de 8,54% (ionosphere), para 5,62% (ionosphere-t). Isso significa uma redução de 34,19% da taxa de erro. Como pode ser observado, a taxa de erro diminuiu para todos os conjuntos utilizando arredondamento no conjunto de treinamento e deixando do conjunto de teste intacto, embora de forma significativa apenas para os conjuntos ionosphere-t1 e ionospheret2. Na Figura 14 é mostrada a diferença absoluta em desvios padrões da taxa de erro no eixo vertical do gráfico para arredondamento parcial versus arredondamento completo. A taxa de erro diminuiu de 7,11% para 4,82% em (ionosphere-t1), de 8,83% para 2,85% em (ionosphere-t2), de 8,25% para 7,96% em (ionosphere-t3), e de 8,54% para 6,86% em (ionosphere-t4). Isso significa uma redução de 32,21% em (ionosphere-t1), 67,72% em (ionosphere-t2), 3,51% em (ionospheret3), e de 19,67% em (ionosphere-t4). Para ionosphere-t2 há uma diferença significativa. 17

25 Figura 13: Diferença absoluta da taxa de erro (arredondamento parcial versus conjunto original) ionosphere Figura 14: Diferença absoluta da taxa de erro (arredondamento parcial versus arredondamento completo) ionosphere 4.3 Resultados vowel Na Tabela 16 são mostrados os resultados (média ± desvio padrão) obtidos em relação aos conjuntos de exemplos vowel original e derivados. Conjunto Erro (arredondando Erro (arredondando conj. treinamento e teste) apenas conj. treinamento) vowel 18, 48 ± 1, 49 18, 48 ± 1, 49 vowel-t2 20, 51 ± 1, 35 66, 26 ± 1, 69 vowel-t1 18, 99 ± 1, 06 64, 04 ± 1, 69 Tabela 16: Taxa de erro do arredondamento completo e taxa de erro do arredondamento parcial vowel Na Figura 15 é mostrada a diferença absoluta em desvios padrões da taxa de erro no eixo vertical do gráfico para arredondamento parcial versus conjunto original. Em média, a taxa de erro aumentou de 18,48% (vowel), para 65,15% (vowel-t). Isso significa um aumento de 252,54% da taxa de erro. Como pode ser observado, a taxa de erro aumentou para todos os conjuntos utilizando arredondamento no conjunto de treinamento e deixando do conjunto de teste intacto, de forma significativa. Na Figura 16 é mostrada a diferença absoluta em desvios padrões da taxa de erro no eixo vertical do gráfico para arredondamento parcial versus arredondamento completo. A taxa de 18

26 Figura 15: Diferença absoluta da taxa de erro (arredondamento parcial versus conjunto original) vowel erro aumentou de 18,99% para 64,04% em (vowel-t1), e de 20,51% para 66,26% em (vowel-t2). Isso significa um aumento de 237,23% em (vowel-t1) e de 223,06% em (vowel-t2) da taxa de erro, ambos significativos. Figura 16: Diferença absoluta da taxa de erro (arredondamento parcial versus arredondamento completo) vowel 5 Algoritmo de Arredondamento Além da noção básica de arredondamento científico, usando redução de casas decimais, neste trabalho também foi avaliada uma outra técnica de arredondamento proposta por Weiss & Indurkhya (1998), descrita em maiores detalhes a seguir. Inicialmente, considere uma variável ix inteira a ser arredondada e o fragmento de código expresso na Equação 1 onde k é o número de casas decimais mais à direita do número a ser arredondado. A função int(x) retorna a parte inteira de x por exemplo, int(3.0) = 3; int(3.5) = 3; int(3.8) = 3 e a função mod(x, y) corresponde ao resto da divisão inteira de x por y por exemplo, mod(10, 3) = 1; mod(10, 4) = 2; mod(12, 5) = 2. Assume-se que a divisão retorna sempre um valor real, mesmo que seus argumentos sejam inteiros por exemplo 2/4 = 0, 5; 1/4 = 0, 25. A variável iy é inteira. 19

27 iy int(ix/10 k ) if(mod(ix, 10 k ) 10 k /2) then iy iy + 1 endif (1) ix iy 10 k Na Tabela 17 é exemplificado o arredondamento dos números entre 140 e 150 e entre 540 e 550 para valores de k variando de 1 a 3 utilizando a Equação 1. As três últimas colunas indicam o valor final de ix. Valor Valor Arredondado ix Inicial ix k = 1 k = 2 k = Tabela 17: Exemplo utilizando a Equação 1 A Equação 1 pode ser generalizada para qualquer base b além da base decimal, representada por meio da Equação 2. iy int(ix/b k ) if(mod(ix, b k ) b k /2) then iy iy + 1 endif (2) ix iy b k Na Tabela 18 é exemplificado o arredondamento dos números entre 140 e 150 e entre 540 e 550 para valores de k variando de 1 a 3 utilizando a Equação 2, considerando a base binária. Em termos computacionais há interesse em utilizar base binária, ou seja, b = 2 por motivos de eficiência. Na base binária as divisões por 2 (ou potências de 2) podem ser efetuadas por meio de deslocamento (shift) de bits à direita e multiplicações por meio de deslocamento de bits à esquerda. Por exemplo, o exemplo seguinte mostra o processo de shift para direita e shift para a esquerda para o número = Utilizando shift a para direita no número

28 Valor Valor Arredondado ix Inicial ix k = 1 k = 2 k = Tabela 18: Exemplo utilizando a Equação 2 na base 2 obtém-se = , o que equivale à divisão de 140 por 2; shift para a esquerda no número obtém-se = , o que equivale à multiplicação de 140 por com shift para direita = com shift para esquerda = O tempo de arredondamento de um grande conjunto de dados é relativamente pequeno, segundo o Algoritmo 1 proposto por Weiss & Indurkhya (1998) que descreve o procedimento geral para arredondamento de valores de um atributo, no qual a Equação 2 corresponde às linhas Admitindo um número máximo de valores max para cada atributo, os valores do atributo são ordenados, para que o número de valores distintos possam ser contados. A ordem é guardada e não são necessárias ordenações adicionais. Começando com k = 1, o valor de k é incrementado até o número de valores ser reduzido a um valor menor ou igual ao máximo desejado, max. Para que o Algoritmo 1 possa ser aplicado a um conjunto de exemplos, o processo deve ser repetido para cada atributo, como pode ser visto no Algoritmo 2. Os Algoritmos 1 e 2 foram implementados na linguagem de programação Java (Deitel & Deitel 2005) para a realização de experimentos descritos na Seção 6. Note, entretanto, que as linhas 3 e 5 do Algoritmo 1 são desnecessárias, caso o mesmo seja executado pelo Algoritmo 2. Como estes algoritmos permitem que seja escolhida uma quantidade max de valores distintos para cada atributo, espera-se uma redução menos acentuada do que aquela simplesmente obtida utilizando arredondamento científico (usando redução de casas decimais), principalmente considerando o fato que ao invés de utilizar um valor absoluto para max, é possível utilizar um valor relativo, ou seja, em termos de porcentagem de valores diferentes. 21

29 Algoritmo 1 Algoritmo de arredondamento proposto por Weiss Require: {v i }, conjunto dos valores de um atributo max, o máximo de valores distintos desejados b, base a ser utilizada Ensure: {v i } contendo no máximo max valores distintos 1: s 1 2: Se o conjunto {v i } contém frações, multiplica-se todos os valores por uma constante para que se obtenha apenas valores inteiros 3: Ordene os valores {v i } 4: loop 5: num número de valores distintos de {v i } 6: if num max then 7: exit loop 8: end if 9: s s : for all valores ix {v i } do 11: Se ix negativo, multiplicar por 1 12: k s 13: iy int(ix/b k ) 14: if (mod(ix, b k ) b k /2) then 15: iy iy : end if 17: ix iy b k 18: Voltar o número ix para negativo se necessário 19: end for 20: end loop 21: Dividir todos os valores pela mesma constante utilizada no início para voltar as frações 22: return conjunto arredondado {v i } Algoritmo 2 Algoritmo final de arredondamento Require: dataset, conjunto de exemplos p, porcentagem máxima de valores distintos b, base a ser utilizada 1: for all atributo v i dataset do 2: Ordene os valores {v i } 3: num número de valores distintos de {v i } 4: max num p 5: Execute Algoritmo 1 com parâmetros {v i }, max, b 6: end for 7: return conjunto de exemplos arredondado 22

30 6 Experimento 3 Neste experimento foram avaliados tempo de indução, taxa de erro, e tamanho do classificador usando 10-fold stratified cross-validation tanto no conjunto original de exemplos (sem arredondamento) como nos conjuntos derivados, obtendo-se média e desvio padrão para o tempo de indução, taxa de erro, e tamanho do classificador para os conjuntos de exemplos sonar, ionosphere, vowel e wine. Para o conjunto aml-all, seguindo a metodologia utilizada originalmente nesse conjunto por Golub (1999) e, posteriormente, também utilizada por Gamberger, Lavrac, Zelezny & Tolar (2004), foi utilizado holdout 4. Esse experimento foi conduzido da seguinte forma: assuma 10 folds mutuamente exclusivos. Dos 10 folds, foram selecionados 9 folds e aplicado arredondamento dos valores somente nestes 9 folds; a partir do fold remanescente (sem arredondamento) foram avaliados tempo de indução, taxa de erro do classificador e tamanho do classificador. Esse processo foi repetido um total de 10 vezes, cada vez utilizando um fold diferente de teste (sem arredondamento) para os conjuntos de exemplos sonar, ionosphere, vowel e wine. Para os exemplos aml-all, no conjunto de treinamento contendo 38 exemplos foi aplicado arredondamento dos valores, deixando intacto o conjunto de teste que contém 34 exemplos. Nas seções seguintes é freqüentemente mencionado o Algoritmo 1 por se tratar do algoritmo originalmente proposto por Weiss & Indurkhya (1998), embora, em termos computacionais, o Algoritmo 2 tenha sido, de fato, utilizado. Como já mencionado na Seção 5, o Algoritmo 1 possui o parâmetro (p) que indica a porcentagem máxima permitida de valores distintos que são obtidos após aplicação do arredondamento no conjunto original, para cada atributo. Por exemplo, para um conjunto com 2 atributos, sendo o primeiro atributo contendo 100 valores distintos e o segundo atributo contendo 200 valores distintos, após a execução do Algoritmo 1 o conjunto derivado para p = 50% terá, no máximo, 50 valores distintos para o primeiro atributo e 100 valores distintos para o segundo atributo. Nesse experimento foram utilizados os valores de p iguais a 90%, 80%, 70%, 60% e 50%, obtendo um conjunto derivado para cada valor de p. Por exemplo, no caso do sonar esses conjuntos derivados são indicados como sonar-90%, sonar-80%, sonar-70%, sonar-60% e sonar- 50%, respectivamente. De forma análoga essa notação é utilizada para os demais conjuntos de exemplos. Por exemplo, na Figura 17 é mostrado no número de valores distintos para sonar, sonar-t3, sonar-t2 e sonar-t1 nos quais foi utilizado arredondamento científico, descrito na Seção 3. Como é possível notar, há uma redução acentuada de um conjunto de exemplos em relação a outro. Na Figura 18 é mostrado o número de valores distintos para sonar, sonar-90%, sonar-80%, sonar-70%, sonar-60%, sonar-50%, nos quais foi utilizado o arredondamento proposto por Weiss, descrito na Seção 5. Adicionalmente ao parâmetro p, os Algoritmo 1 e 2 também possuem o parâmetro b, que corresponde a base do sistema de numeração. Nos experimentos relatados nesta Seção, foram utilizados os valores de b iguais a 10 (base decimal) e 2 (base binária). 4 Para uma revisão sobre métodos de amostragem e de avaliação de algoritmos vide Rezende (2003)[Cap. 4]. 23

31 Figura 17: Número de valores distintos para sonar e seus conjuntos derivados pelo arredondamento científico Figura 18: Número de valores distintos para sonar e seus conjuntos derivados pelo arredondamento proposto por Weiss 24

32 6.1 Resultados sonar Nas Tabelas 19 e 20 são mostrados os atributos que aparecem nas árvores induzidas, utilizando todo o conjunto de exemplos número de atributos (#A) e porcentagem do total de atributos (%A), tanto para o conjunto original como para os derivados (utilizando o arredondamento proposto no Algoritmo 1) para sonar, utilizando bases 2 e 10, respectivamente. Conjunto Atributos #A %A sonar 1, 2, 4, 8, 11, 18, 21, 23, 27, 28, 51, 53, ,67% sonar-90% 1, 2, 4, 8, 11, 18, 21, 23, 27, 28, 51, 53, ,67% sonar-80% 1, 2, 4, 8, 11, 18, 21, 23, 27, 28, 51, 53, ,67% sonar-70% 1, 2, 4, 8, 9, 11, 27, 28, 36, 39, 43, 45, 51, 54, ,00% sonar-60% 1, 2, 4, 7, 8, 11, 21, 27, 28, 34, 39, 43, 45, 51, 52, ,70% sonar-50% 4, 11, 17, 20, 23, 25, 36, 42, 45, 46, 50, 51, ,67% Tabela 19: Atributos que aparecem na árvore induzida sonar - arredondamento utilizando o Algoritmo 1 com base 2 Conjunto Atributos #A %A sonar 1, 2, 4, 8, 11, 18, 21, 23, 27, 28, 51, 53, ,67% sonar-90% 1, 2, 4, 8, 11, 21, 27, 28, 31, 36, 43, 50, ,67% sonar-80% 1, 2, 4, 7, 8, 11, 15, 21, 27, 28, 31, 33, 39, 43, 51, ,70% sonar-70% 1, 2, 4, 8, 11, 21, 27, 28, 29, 37, 43, 45, ,67% sonar-60% 1, 2, 4, 8, 11, 21, 27, 28, 29, 37, 43, 45, ,67% sonar-50% 1, 2, 4, 8, 11, 21, 27, 28, 29, 37, 43, 45, ,67% Tabela 20: Atributos que aparecem na árvore induzida sonar - arredondamento utilizando o Algoritmo 1 com base 10 Como pode ser notado, os atributos selecionados para sonar-90% e sonar-80% foram idênticos aos selecionados para sonar para a base 2. Além disso, há uma diminuição gradativa na intersecção entre os conjuntos de atributos sonar-70% e sonar, sonar-60% e sonar. Na Tabela 21 são mostrados os resultados (média ± desvio padrão) obtidos em relação aos conjuntos de exemplos sonar original e derivados. A segunda e terceira colunas representam os resultados do tempo de indução, utilizando a base binária e a base decimal, respectivamente. A quarta e quinta colunas representam os resultados da taxa de erro, utilizando a base binária e a base decimal, respectivamente. A sexta e sétima colunas representam os resultados do tamanho do classificador, utilizando a base binária e a base decimal, respectivamente. Conjunto Tempo(s) Tempo(s) Erro Erro Tamanho Tamanho (base 2) (base 10) (base 2) (base 10) (base 2) (base 10) sonar 0, 22 ± 0, 11 0, 22 ± 0, 11 28, 83 ± 2, 24 28, 83 ± 2, 24 29, 20 ± 3, 58 29, 20 ± 3, 58 sonar-90% 0, 17 ± 0, 02 0, 16 ± 0, 02 27, 92 ± 3, 89 28, 81 ± 2, 55 26, 20 ± 2, 53 32, 20 ± 2, 53 sonar-80% 0, 17 ± 0, 02 0, 14 ± 0, 02 26, 98 ± 4, 11 28, 81 ± 2, 55 26, 20 ± 2, 53 32, 20 ± 2, 53 sonar-70% 0, 16 ± 0, 02 0, 13 ± 0, 01 26, 98 ± 4, 11 28, 81 ± 2, 55 26, 20 ± 2, 53 32, 20 ± 2, 53 sonar-60% 0, 15 ± 0, 02 0, 15 ± 0, 04 25, 48 ± 3, 62 28, 81 ± 2, 55 26, 60 ± 3, 37 32, 20 ± 2, 53 sonar-50% 0, 13 ± 0, 01 0, 13 ± 0, 02 25, 95 ± 3, 19 28, 81 ± 2, 55 26, 40 ± 3, 53 32, 20 ± 2, 53 Tabela 21: Tempo de indução, taxa de erro e tamanho do classificador utilizando arredondamento com bases 2 e 10 sonar 25

33 Na Figura 19 é mostrada a diferença absoluta em desvios padrões do tempo de indução entre o conjunto original e os conjuntos derivados, ou seja, entre sonar e sonar-90%, entre sonar e sonar-80% e assim por diante, utilizando base 2. Figura 19: Diferença absoluta do tempo de indução (arredondamento utilizando base 2 versus conjunto original) sonar Na Figura 20 é mostrada a diferença absoluta em desvios padrões do tempo de indução entre o conjunto original e os conjuntos derivados, ou seja, entre sonar e sonar-90%, entre sonar e sonar-80% e assim por diante, utilizando base 10. Figura 20: Diferença absoluta do tempo de indução (arredondamento utilizando base 10 versus conjunto original) sonar Como esperado, o tempo de indução reduziu para todos os conjuntos utilizando arredondamento, sendo de forma não significativa (com grau de confiança de 95%), tanto para base 2 como para a base 10. Analogamente às Figuras 19 e 20, são mostrados os resultados para taxa de erro nas Figuras 21 e 22, e para tamanho do classificador nas Figuras 23 e 24. Na Figura 21 é mostrada a diferença absoluta em desvios padrões da taxa de erro no eixo vertical do gráfico. Em média, a taxa de erro diminuiu de 28,83% (sonar), para 26,66% utilizando o arredondamento com a base 2. Isso significa uma redução de 7,53% da taxa de erro. 26

34 Figura 21: Diferença absoluta da taxa de erro (arredondamento utilizando base 2 versus conjunto original) sonar Na Figura 22 é mostrada a diferença absoluta em desvios padrões da taxa de erro no eixo vertical do gráfico. Em média, a taxa de erro diminuiu de 28,83% (sonar), para 28,81% dos conjuntos com base 10. Isso significa que a taxa de erro praticamente foi a mesma. Como pode ser observado, a taxa de erro reduziu para todos os conjuntos utilizando arredondamento com ambas as bases, embora não de forma significativa. Figura 22: Diferença absoluta da taxa de erro (arredondamento utilizando base 10 versus conjunto original) sonar A partir desse ponto, o termo sonar-base2 será utilizado para descrever todos os conjuntos derivados de sonar, ou seja, sonar-90%, sonar-80%, sonar-70%, sonar-60%, sonar-50%, que foram gerados utilizando a base 2. De forma similar, o termo sonar-base10 será utilizado para descrever todos os conjuntos derivados de sonar, ou seja, sonar-90%, sonar-80%, sonar-70%, sonar-60%, sonar-50%, que foram gerados utilizando a base 10. Analogamente para os demais conjuntos de exemplos. Nas Figuras 23 e 24 são mostradas as diferenças absolutas em desvios padrões do tamanho da árvore no eixo vertical do gráfico, utilizando arredondamento com base 2 (binária) e base 10 (decimal), respectivamente. Em média, o tamanho da árvore diminuiu de 29,20 (sonar) para 26,32 (sonar-base2) média aritmética dos conjuntos arredondados utilizando base 2 e aumentou para 32,20 (sonar-base10) média aritmética dos conjuntos arredondados utilizando base 10. Isso significa uma redução de 9,86% para (sonar-base2) e um aumento de 10,27% para (sonar-base10) do tamanho da árvore. Como pode ser observado o tamanho da árvore diminuiu para todos os conjuntos de (sonar-base2), e aumentou para todos os conjuntos de (sonar-base10), embora não de forma significativa para ambas as bases. 27

35 Figura 23: Diferença absoluta do tamanho do classificador (arredondamento utilizando base 2 versus conjunto original) sonar Figura 24: Diferença absoluta do tamanho do classificador (arredondamento utilizando base 10 versus conjunto original) sonar 6.2 Resultados ionosphere Nas Tabelas 22 e 23 são mostrados os atributos que aparecem nas árvores induzidas, número de atributos (#A) e porcentagem do total de atributos (%A), tanto para o conjunto original como para os derivados (utilizando o arredondamento proposto no Algoritmo 1) para ionosphere, utilizando bases 2 e 10, respectivamente. Conjunto Atributos #A %A ionosphere 1, 3, 4, 5, 6, 7, 8, 10, 16, 17, 19, 21, 27, ,18% ionosphere-90% 3, 4, 5, 6, 8, 15, 19, 25, 28, ,41% ionosphere-80% 3, 4, 5, 6, 8, 15, 16, 19, 25, 30, ,35% ionosphere-70% 3, 4, 5, 6, 7, 8, 14, 15, 19, ,41% ionosphere-60% 3, 4, 5, 6, 8, 9, 14, 16, 17, 32, ,35% ionosphere-50% 3, 4, 5, 6, 7, 8, 14, 15, 19, ,41% Tabela 22: Atributos que aparecem na árvore induzida ionosphere - arredondamento utilizando o Algoritmo 1 com base 2 Analogamente à Tabela 21, na Tabela 24 são mostrados os resultados (média ± desvio padrão) obtidos em relação aos conjuntos de exemplos ionosphere original e derivados. A segunda e terceira colunas representam os resultados do tempo de indução, utilizando a base binária e a base decimal, respectivamente. A quarta e quinta colunas representam os resultados da taxa de erro, utilizando a base binária e a base decimal, respectivamente. A sexta e sétima 28

36 Conjunto Atributos #A %A ionosphere 1, 3, 4, 5, 6, 7, 8, 10, 16, 17, 19, 21, 27, ,18% ionosphere-90% 3, 5, 6, 7, 14, 18, 27, 30, ,41% ionosphere-80% 3, 4, 5, 6, 8, 11, 15, 19, 24, ,35% ionosphere-70% 3, 4, 5, 6, 8, 11, 15, 19, 24, 31, ,41% ionosphere-60% 3, 4, 5, 6, 8, 11, 15, 19, 24, ,35% ionosphere-50% 3, 4, 5, 6, 8, 11, 15, 19, 24, ,41% Tabela 23: Atributos que aparecem na árvore induzida ionosphere - arredondamento utilizando o Algoritmo 1 com base 10 Conjunto Tempo(s) Tempo(s) Erro Erro Tamanho Tamanho (base 2) (base 10) (base 2) (base 10) (base 2) (base 10) ionosphere 0, 21 ± 0, 02 0, 21 ± 0, 02 8, 54 ± 1, 03 8, 54 ± 1, 03 27, 40 ± 3, 75 27, 40 ± 3, 75 ionosphere-90% 0, 20 ± 0, 02 0, 18 ± 0, 02 11, 40 ± 1, 20 10, 54 ± 1, 28 22, 00 ± 4, 45 23, 20 ± 4, 16 ionosphere-80% 0, 18 ± 0, 02 0, 17 ± 0, 05 11, 40 ± 1, 20 9, 13 ± 1, 19 22, 20 ± 4, 92 23, 40 ± 5, 23 ionosphere-70% 0, 17 ± 0, 01 0, 15 ± 0, 01 10, 84 ± 1, 20 9, 13 ± 1, 19 23, 20 ± 4, 94 23, 40 ± 5, 23 ionosphere-60% 0, 15 ± 0, 02 0, 15 ± 0, 01 11, 13 ± 1, 38 9, 13 ± 1, 19 24, 40 ± 3, 78 23, 40 ± 5, 23 ionosphere-50% 0, 14 ± 0, 01 0, 14 ± 0, 01 10, 69 ± 1, 17 8, 84 ± 1, 31 25, 60 ± 4, 99 22, 40 ± 5, 58 Tabela 24: Tempo de indução, taxa de erro e tamanho do classificador utilizando arredondamento com bases 2 e 10 ionosphere colunas representam os resultados do tamanho do classificador, utilizando a base binária e a base decimal, respectivamente. Na Figura 25 é mostrada a diferença absoluta em desvios padrões do tempo de indução entre o conjunto original e os conjuntos derivados, ou seja, entre ionosphere e ionosphere-90%, entre ionosphere e ionosphere-80% e assim por diante, utilizando base 2. Figura 25: Diferença absoluta do tempo de indução (arredondamento utilizando base 2 versus conjunto original) ionosphere Na Figura 26 é mostrada a diferença absoluta em desvios padrões do tempo de indução entre o conjunto original e os conjuntos derivados, ou seja, entre ionosphere e ionosphere-90%, entre ionosphere e ionosphere-80% e assim por diante, utilizando base

37 Figura 26: Diferença absoluta do tempo de indução (arredondamento utilizando base 10 versus conjunto original) ionosphere Como esperado, o tempo de indução reduziu para todos os conjuntos utilizando arredondamento, sendo de forma significativa (com grau de confiança de 95%), tanto para base 2 como para a base 10, exceto para os conjuntos ionosphere-90% e ionosphere-80% utilizando arredondamento em ambas as bases. Na Figura 27 é mostrada a diferença absoluta em desvios padrões da taxa de erro no eixo vertical do gráfico. Em média, a taxa de erro aumentou de 8,54% (ionosphere), para 11,29% dos conjuntos com base 2. Isso significa um aumento de 32,20% da taxa de erro. Figura 27: Diferença absoluta da taxa de erro (arredondamento utilizando base 2 versus conjunto original) ionosphere Na Figura 28 é mostrada a diferença absoluta em desvios padrões da taxa de erro no eixo vertical do gráfico. Em média, a taxa de erro aumentou de 8,54% (ionosphere), para 9,35% dos conjuntos com base 10. Isso significa um aumento de 9,48% da taxa de erro. Como pode ser observado, a taxa de erro aumentou para todos os conjuntos utilizando arredondamento com base 2, de forma significativa para todos os conjuntos derivados. E aumentou para todos os conjuntos utilizando arredondamento com base 10, embora de forma não significativa. Nas Figuras 29 e 30 são mostradas as diferenças absolutas em desvios padrões do tamanho da árvore no eixo vertical do gráfico, utilizando arredondamento com base 2 e base 10, respectivamente. Em média, o tamanho da árvore diminuiu de 27,40 (ionosphere) para 23,48 (ionosphere-base2) e para 23,16 (ionosphere-base10). Isso significa uma redução de 14,31% para (ionosphere-base2) e de 15,47% para (ionosphere-base10) do tamanho da árvore. Como pode ser observado o tamanho da árvore diminuiu para todos os conjuntos (ionosphere-base2) e (ionosphere-base10), embora não de forma significativa. 30

38 Figura 28: Diferença absoluta da taxa de erro (arredondamento utilizando base 10 versus conjunto original) ionosphere Figura 29: Diferença absoluta do tamanho do classificador (arredondamento utilizando base 2 versus conjunto original) ionosphere Figura 30: Diferença absoluta do tamanho do classificador (arredondamento utilizando base 10 versus conjunto original) ionosphere 6.3 Resultados vowel Nas Tabelas 25 e 26 são mostrados os atributos que aparecem nas árvores induzidas, número de atributos (#A) e porcentagem do total de atributos (%A), tanto para o conjunto original como para os derivados (utilizando o arredondamento proposto no Algoritmo 1) para vowel, 31

39 utilizando bases 2 e 10, respectivamente. Nota-se que todos os atributos foram selecionados em ambas as bases. Conjunto Atributos #A %A vowel 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, ,00% vowel-90% 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, ,00% vowel-80% 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, ,00% vowel-70% 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, ,00% vowel-60% 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, ,00% vowel-50% 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, ,00% Tabela 25: Atributos que aparecem na árvore induzida vowel - arredondamento utilizando o Algoritmo 1 com base 2 Conjunto Atributos #A %A vowel 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, ,00% vowel-90% 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, ,00% vowel-80% 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, ,00% vowel-70% 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, ,00% vowel-60% 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, ,00% vowel-50% 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, ,00% Tabela 26: Atributos que aparecem na árvore induzida vowel - arredondamento utilizando o Algoritmo 1 com base 10 Analogamente à Tabela 21, na Tabela 27 são mostrados os resultados (média ± desvio padrão) obtidos em relação aos conjuntos de exemplos vowel original e derivados. A segunda e terceira colunas representam os resultados do tempo de indução, utilizando a base binária e a base decimal, respectivamente. A quarta e quinta colunas representam os resultados da taxa de erro, utilizando a base binária e a base decimal, respectivamente. A sexta e sétima colunas representam os resultados do tamanho do classificador, utilizando a base binária e a base decimal, respectivamente. Conjunto Tempo(s) Tempo(s) Erro Erro Tamanho Tamanho (base 2) (base 10) (base 2) (base 10) (base 2) (base 10) vowel 0, 50 ± 0, 07 0, 50 ± 0, 07 18, 48 ± 1, 49 18, 48 ± 1, , 40 ± 17, , 40 ± 17, 54 vowel-90% 0, 49 ± 0, 05 0, 40 ± 0, 05 19, 39 ± 0, 87 18, 89 ± 0, , 00 ± 22, , 40 ± 21, 05 vowel-80% 0, 50 ± 0, 05 0, 42 ± 0, 06 19, 70 ± 0, 89 18, 89 ± 0, , 72 ± 22, , 40 ± 21, 05 vowel-70% 0, 45 ± 0, 05 0, 43 ± 0, 07 19, 29 ± 1, 06 18, 89 ± 0, , 20 ± 23, , 40 ± 21, 05 vowel-60% 0, 46 ± 0, 07 0, 40 ± 0, 06 19, 29 ± 0, 70 18, 89 ± 0, , 40 ± 23, , 40 ± 21, 05 vowel-50% 0, 41 ± 0, 05 0, 40 ± 0, 05 19, 60 ± 0, 71 19, 09 ± 0, , 80 ± 20, , 00 ± 20, 41 Tabela 27: Tempo de indução, taxa de erro e tamanho do classificador utilizando arredondamento com bases 2 e 10 vowel Na Figura 31 é mostrada a diferença absoluta em desvios padrões do tempo de indução entre o conjunto original e os conjuntos derivados, ou seja, entre vowel e vowel-90%, entre vowel e vowel-80% e assim por diante, utilizando base 2. Na Figura 32 é mostrada a diferença absoluta em desvios padrões do tempo de indução entre o conjunto original e os conjuntos derivados, ou seja, entre vowel e vowel-90%, entre vowel e vowel-80% e assim por diante, utilizando base 10. Como esperado, o tempo de indução reduziu para todos os conjuntos utilizando arredondamento, sendo de forma não significativa (com grau de confiança de 95%), tanto para base 2 32

40 Figura 31: Diferença absoluta do tempo de indução (arredondamento utilizando base 2 versus conjunto original) vowel Figura 32: Diferença absoluta do tempo de indução (arredondamento utilizando base 10 versus conjunto original) vowel como para a base 10. Na Figura 33 é mostrada a diferença absoluta em desvios padrões da taxa de erro no eixo vertical do gráfico. Em média, a taxa de erro aumentou de 18,48% (vowel), para 19,45% dos conjuntos com base 2. Isso significa um aumento de 5,25% da taxa de erro. Figura 33: Diferença absoluta da taxa de erro (arredondamento utilizando base 2 versus conjunto original) vowel Na Figura 34 é mostrada a diferença absoluta em desvios padrões da taxa de erro no eixo vertical do gráfico. Em média, a taxa de erro aumentou de 18,48% (vowel), para 18,93% dos conjuntos com base 10. Isso significa um aumento de 2,43% da taxa de erro. 33

41 Figura 34: Diferença absoluta da taxa de erro (arredondamento utilizando base 10 versus conjunto original) vowel Como pode ser observado, a taxa de erro aumentou para todos os conjuntos utilizando arredondamento com a base 2 e base 10, embora não de forma significativa. Nas Figuras 35 e 36 são mostradas as diferenças absolutas em desvios padrões do tamanho da árvore no eixo vertical do gráfico, utilizando arredondamento com base 2 e base 10, respectivamente. Em média, o tamanho da árvore aumentou de 213,40 (vowel) para 218,42 (vowel-base2) e para 223,52 (vowel-base10). Isso significa um aumento de 2,35% para (vowel-base2) e de 4,74% para (vowel-base10) do tamanho da árvore. Como pode ser observado o tamanho da árvore aumentou para todos os conjuntos de (vowel-base2), e de (vowel-base10), embora não de forma significativa. Figura 35: Diferença absoluta do tamanho do classificador (arredondamento utilizando base 2 versus conjunto original) vowel 34

42 Figura 36: Diferença absoluta do tamanho do classificador (arredondamento utilizando base 10 versus conjunto original) vowel 6.4 Resultados wine Nas Tabelas 28 e 29 são mostrados os atributos que aparecem nas árvores induzidas, número de atributos (#A) e porcentagem do total de atributos (%A), tanto para o conjunto original como para os derivados (utilizando o arredondamento proposto no Algoritmo 1) para wine, utilizando bases 2 e 10, respectivamente. Nota-se que os mesmos atributos foram selecionados pela árvore, exceto wine-50% base 10, que selecionou um atributo extra (#11). Conjunto Atributos #A %A wine 7, 10, ,08% wine-90% 7, 10, ,08% wine-80% 7, 10, ,08% wine-70% 7, 10, ,08% wine-60% 7, 10, ,08% wine-50% 7, 10, ,08% Tabela 28: Atributos que aparecem na árvore induzida wine - arredondamento utilizando o Algoritmo 1 com base 2 Conjunto Atributos #A %A wine 7, 10, ,08% wine-90% 7, 10, ,08% wine-80% 7, 10, ,08% wine-70% 7, 10, ,08% wine-60% 7, 10, ,08% wine-50% 7, 10, 11, ,77% Tabela 29: Atributos que aparecem na árvore induzida wine - arredondamento utilizando o Algoritmo 1 com base 10 Analogamente à Tabela 21, na Tabela 30 são mostrados os resultados (média ± desvio padrão) obtidos em relação aos conjuntos de exemplos wine original e derivados. A segunda e terceira colunas representam os resultados do tempo de indução, utilizando a base binária e a base decimal, respectivamente. A quarta e quinta colunas representam os resultados da taxa de erro, utilizando a base binária e a base decimal, respectivamente. A sexta e sétima colunas representam os resultados do tamanho do classificador, utilizando a base binária e a base decimal, respectivamente. 35

43 Conjunto Tempo(s) Tempo(s) Erro Erro Tamanho Tamanho (base 2) (base 10) (base 2) (base 10) (base 2) (base 10) wine 0, 03 ± 0, 02 0, 03 ± 0, 02 6, 18 ± 1, 75 6, 18 ± 1, 75 9, 80 ± 1, 40 9, 80 ± 1, 40 wine-90% 0, 02 ± 0, 00 0, 02 ± 0, 01 4, 51 ± 1, 64 5, 00 ± 1, 75 10, 40 ± 3, 13 11, 40 ± 3, 37 wine-80% 0, 02 ± 0, 00 0, 01 ± 0, 01 5, 03 ± 1, 75 5, 00 ± 1, 75 10, 60 ± 3, 10 11, 40 ± 3, 37 wine-70% 0, 02 ± 0, 00 0, 02 ± 0, 00 6, 14 ± 1, 75 6, 70 ± 1, 81 10, 80 ± 3, 05 10, 60 ± 2, 80 wine-60% 0, 02 ± 0, 00 0, 01 ± 0, 01 5, 58 ± 1, 43 9, 02 ± 1, 91 10, 20 ± 1, 40 11, 20 ± 1, 75 wine-50% 0, 02 ± 0, 00 0, 02 ± 0, 00 6, 18 ± 1, 77 10, 68 ± 2, 11 10, 00 ± 1, 41 11, 00 ± 1, 63 Tabela 30: Tempo de indução, taxa de erro e tamanho do classificador utilizando arredondamento com bases 2 e 10 wine Na Figura 37 é mostrada a diferença absoluta em desvios padrões do tempo de indução entre o conjunto original e os conjuntos derivados, ou seja, entre wine e wine-90%, entre wine e wine-80% e assim por diante, utilizando base 2. Figura 37: Diferença absoluta do tempo de indução (arredondamento utilizando base 2 versus conjunto original) wine Na Figura 38 é mostrada a diferença absoluta em desvios padrões do tempo de indução entre o conjunto original e os conjuntos derivados, ou seja, entre wine e wine-90%, entre wine e wine-80% e assim por diante, utilizando base 10. Figura 38: Diferença absoluta do tempo de indução (arredondamento utilizando base 10 versus conjunto original) wine Como esperado, o tempo de indução reduziu para todos os conjuntos utilizando arredondamento, sendo de forma não significativa (com grau de confiança de 95%), tanto para base 2 como para a base

44 Na Figura 39 é mostrada a diferença absoluta em desvios padrões da taxa de erro no eixo vertical do gráfico. Em média, a taxa de erro diminuiu de 6,18% (wine) para 5,49% utilizando o arredondamento com a base 2. Isso significa uma redução de 11,16% da taxa de erro. Figura 39: Diferença absoluta da taxa de erro (arredondamento utilizando base 2 versus conjunto original) wine Na Figura 40 é mostrada a diferença absoluta em desvios padrões da taxa de erro no eixo vertical do gráfico. Em média, a taxa de erro aumentou de 6,18% (wine), para 7,28% dos conjuntos com base 10. Isso significa um aumento de 17,80% da taxa de erro. Figura 40: Diferença absoluta da taxa de erro (arredondamento utilizando base 10 versus conjunto original) wine Como pode ser observado, a taxa de erro aumentou para os conjuntos (wine-70%), (wine- 60%) e (wine-50%) utilizando arredondamento com a base 10, sendo de forma significativa apenas para o conjunto (wine-50%). Para todos os outros conjuntos a taxa de erro reduziu, embora de forma não significativa. Nas Figuras 41 e 42 são mostradas as diferenças absolutas em desvios padrões do tamanho da árvore no eixo vertical do gráfico, utilizando arredondamento com base 2 e base 10, respectivamente. Em média, o tamanho da árvore aumentou de 9,80 (wine) para 10,40 (wine-base2) e para 11,12 (wine-base10). Isso significa um aumento de 6,12% para (wine-base2) e de 13,47% para (wine-base10) do tamanho da árvore. Como pode ser observado o tamanho da árvore aumentou para todos os conjuntos de ambas as bases, embora não de forma significativa. 37

45 Figura 41: Diferença absoluta do tamanho do classificador (arredondamento utilizando base 2 versus conjunto original) wine Figura 42: Diferença absoluta do tamanho do classificador (arredondamento utilizando base 10 versus conjunto original) wine 6.5 Resultados aml-all É conveniente lembrar que este conjunto de exemplos consiste de 38 exemplos de treinamento e 34 exemplos de teste. Para avaliar o tempo de indução esses dois conjuntos foram unificados e foi utilizado 10-fold stratified cross-validation sobre os 72 exemplos. Para permitir comparações de nossos resultados com aqueles publicados na literatura, o classificador foi induzido apenas sobre o conjunto de 38 exemplos de treinamento, enquanto a taxa de erro foi avaliada utilizando-se o conjunto independente de 34 exemplos de teste. Nas árvores induzidas a partir do conjunto de treinamento aml-all, aparece um único atributo, Zyxin, tanto na árvore induzida a partir do conjunto original como aquelas induzidas a partir dos conjuntos derivados, como pode ser observado na Tabela 31. O tamanho da classificador é sempre constante para o conjunto original aml-all e todos seus derivados, e é igual a três. A taxa de erro no conjunto de treinamento é sempre igual a zero para todos os conjuntos de exemplos, exceto para aml-all-60% e aml-all-50% utilizando base 10, cuja taxa de erro é de 1/38 = 2, 63%. A taxa de erro no conjunto independente de teste é sempre igual a 3/34 = 8, 82% para todos os conjuntos de exemplos. Na Tabela 32, são mostrados os resultados (média ± desvio padrão) obtidos em relação aos conjuntos de exemplos aml-all original e derivados. A segunda e terceira colunas representam os resultados do tempo de indução, utilizando a base binária e a base decimal, respectivamente. 38

46 Classificador Árvore aml-all Zyxin <= 938: ALL (27.0) Zyxin > 938: AML (11.0) aml-all-90%, base 2 Zyxin <= 960: ALL (27.0) aml-all-80%, base 2 Zyxin > 960: AML (11.0) aml-all-70%, base 2 Zyxin <= 1024: ALL (27.0) aml-all-60%, base 2 Zyxin > 1024: AML (11.0) aml-all-50%, base 2 aml-all-90%, base 10 Zyxin <= 900: ALL (27.0) aml-all-80%, base 10 Zyxin > 900: AML (11.0) aml-all-70%, base 10 aml-all-60%, base 10 Zyxin <= 1000: ALL (28.0/1.0) aml-all-50%, base 10 Zyxin > 1000: AML (10.0) Tabela 31: Classificador para o conjunto aml-all e derivados Conjunto Tempo(s) Tempo(s) (base 2) (base 10) aml-all 3, 00 ± 0, 55 3, 00 ± 0, 55 aml-all-90% 2, 69 ± 0, 40 2, 19 ± 0, 30 aml-all-80% 2, 40 ± 0, 31 2, 09 ± 0, 26 aml-all-70% 2, 33 ± 0, 45 1, 95 ± 0, 32 aml-all-60% 2, 15 ± 0, 38 1, 97 ± 0, 39 aml-all-50% 1, 94 ± 0, 38 1, 69 ± 0, 17 Tabela 32: Tempo de indução do classificador utilizando arredondamento com bases 2 e 10 aml-all Na Figura 43 é mostrada a diferença absoluta em desvios padrões do tempo de indução entre o conjunto original e os conjuntos derivados, ou seja, entre aml-all e aml-all-90%, entre aml-all e aml-all-80% e assim por diante, utilizando base 2. Nota-se que o tempo de indução reduziu para todos os conjuntos utilizando arredondamento, sendo de forma não significativa para todos os conjuntos, exceto aml-all-50% (com grau de confiança de 95%). Na Figura 44 é mostrada a diferença absoluta em desvios padrões do tempo de indução entre o conjunto original e os conjuntos derivados, ou seja, entre aml-all e aml-all-90%, entre aml-all e aml-all-80% e assim por diante, utilizando base 10. O tempo de indução reduziu para todos os conjuntos utilizando arredondamento, sendo de forma não significativa apenas para o conjunto aml-all-90%; todos os outros tiveram uma redução significativa. A seguir é efetuada uma comparação entre os resultados obtidos neste trabalho com aqueles obtidos por Golub (1999) e Gamberger, Lavrac, Zelezny & Tolar (2004), que abordam estratégias de voto ponderado e indução de regras, respectivamente. Nesta comparação, apenas os resultados obtidos a partir do conjunto independente de teste são considerados. O classificador obtido por Golub (1999) apresenta taxa de erro de 5/34 = 14, 70% no con- 39

47 Figura 43: Diferença absoluta do tempo de indução (arredondamento utilizando base 2 versus conjunto original) aml-all Figura 44: Diferença absoluta do tempo de indução (arredondamento utilizando base 10 versus conjunto original) aml-all junto de teste. O classificador obtido por Gamberger, Lavrac, Zelezny & Tolar (2004) que consiste de duas regras, ambas com duas condições cada, é similar em tamanho a uma árvore de decisão contendo 6 nós. Cada regra é considerada como um classificador separado pelos autores e, sendo assim, são reportadas duas taxas de erro no conjunto de teste de 7/34 = 20, 59% para a regra cuja conclusão é a classe AML e 2/34 = 5, 88% para a regra cuja conclusão é a classe ALL, ambas taxas calculadas sobre o conjunto de teste. Comparados com os resultados relatados por (Golub 1999) e (Gamberger, Lavrac, Zelezny & Tolar 2004), a taxa de erro obtida em nossos resultados é de 3/34 = 8, 82% um pouco menor do que aquelas obtidas por abordagem de voto ponderado. A árvore de decisão obtida também é ligeiramente menor do que as regras induzidas podendo ser mais facilmente interpretada. Outro ponto interessante é que a árvore de decisão identificou como importante para a separação das classes AML e ALL um atributo que também é reportado por Golub (1999) como sendo um gene informativo, dentre outros. É interessante notar que, embora abordagens mais sofisticadas tenham sido descritas na literatura para o conjunto de exemplos aml-all, a utilização de árvores de decisão parece ser promissora para a análise de dados de expressão gênica. Considerando a utilização de árvores de decisão com arredondamento também é possível notar que não houve alteração do atributo selecionado, assim com o valor escolhido para o teste do atributo teve uma pequena oscilação, mesmo para 50% de arredondamento de valores. É possível que esta técnica possa ser útil para melhor definir os valores de teste escolhidos pela árvore de decisão dos níveis de expressão gênica. 40

Uma Avaliação de Dados de Expressão Gênica em Leucemias Agudas Utilizando Árvores de Decisão

Uma Avaliação de Dados de Expressão Gênica em Leucemias Agudas Utilizando Árvores de Decisão Uma Avaliação de Dados de Expressão Gênica em Leucemias Agudas Utilizando Árvores de Decisão Rogério Nunes Lemos 1,2 & José Augusto Baranauskas 1 Universidade de São Paulo 1 Faculdade de Filosofia, Ciências

Leia mais

Aprendizado de Máquina

Aprendizado de Máquina Aprendizado de Máquina O que é Aprendizado? Memorizar alguma coisa Aprender fatos por meio de observação e exploração Melhorar habilidades motoras/cognitivas por meio de prática Organizar novo conhecimento

Leia mais

Aprendizado de Máquina

Aprendizado de Máquina Universidade Federal do Espírito Santo Centro de Ciências Agrárias CCA UFES Departamento de Computação Aprendizado de Máquina Inteligência Artificial Site: http://jeiks.net E-mail: jacsonrcsilva@gmail.com

Leia mais

SCC Capítulo 10 Métodos de Amostragem e Avaliação de Algoritmos

SCC Capítulo 10 Métodos de Amostragem e Avaliação de Algoritmos Métodos de Amostragem e Avaliação de Algoritmos SCC-630 - Capítulo 10 Métodos de Amostragem e Avaliação de Algoritmos João Luís Garcia Rosa 1 1 Departamento de Ciências de Computação Instituto de Ciências

Leia mais

Aprendizado de Máquina

Aprendizado de Máquina Universidade Federal do Espírito Santo Centro de Ciências Agrárias CCA UFES Departamento de Computação Aprendizado de Máquina Inteligência Artificial Site: http://jeiks.net E-mail: jacsonrcsilva@gmail.com

Leia mais

SCC Capítulo 9 Indução de Árvores de Decisão

SCC Capítulo 9 Indução de Árvores de Decisão Indução de Árvores de Decisão SCC-630 - Capítulo 9 Indução de Árvores de Decisão João Luís Garcia Rosa 1 1 Departamento de Ciências de Computação Instituto de Ciências Matemáticas e de Computação Universidade

Leia mais

Inteligência Artificial. Raimundo Osvaldo Vieira [DComp IFMA Campus Monte Castelo]

Inteligência Artificial. Raimundo Osvaldo Vieira [DComp IFMA Campus Monte Castelo] Inteligência Artificial Raimundo Osvaldo Vieira [DComp IFMA Campus Monte Castelo] Aprendizagem de Máquina Área da Inteligência Artificial cujo objetivo é o desenvolvimento de técnicas computacionais sobre

Leia mais

Métodos de Amostragem. Métodos de Amostragem e Avaliação de Algoritmos. Métodos de Amostragem. Métodos de Amostragem. Métodos de Amostragem

Métodos de Amostragem. Métodos de Amostragem e Avaliação de Algoritmos. Métodos de Amostragem. Métodos de Amostragem. Métodos de Amostragem e Avaliação de s José Augusto Baranauskas Departamento de Física e Matemática FFCLRP-USP AM é uma ferramenta poderosa, mas não existe um único algoritmo que apresente o melhor desempenho para todos os

Leia mais

Aprendizado de Máquina

Aprendizado de Máquina Universidade Federal do Espírito Santo Centro de Ciências Agrárias CCENS UFES Departamento de Computação Aprendizado de Máquina Inteligência Artificial Site: http://jeiks.net E-mail: jacsonrcsilva@gmail.com

Leia mais

Estudo de Caso. Índice. Descrição da Área. Daniel Gomes Dosualdo Solange Oliveira Rezende

Estudo de Caso. Índice. Descrição da Área. Daniel Gomes Dosualdo Solange Oliveira Rezende Estudo de Caso Daniel Gomes Dosualdo Solange Oliveira Rezende Índice Descrição da Área Identificação do Problema Descrição do Conjunto de Dados Pré-Processamento Extração de Padrões Pós-Processamento Disponibilização

Leia mais

Aprendizado de Máquina

Aprendizado de Máquina Aprendizado de Máquina Árvores de Decisão Luiz Eduardo S. Oliveira Universidade Federal do Paraná Departamento de Informática http://lesoliveira.net Luiz S. Oliveira (UFPR) Aprendizado de Máquina 1 / 28

Leia mais

SCC Capítulo 10 Métodos de Amostragem e Avaliação de Algoritmos

SCC Capítulo 10 Métodos de Amostragem e Avaliação de Algoritmos Métodos de Amostragem e Avaliação de Algoritmos SCC-630 - Capítulo 10 Métodos de Amostragem e Avaliação de Algoritmos João Luís Garcia Rosa 1 1 Departamento de Ciências de Computação Instituto de Ciências

Leia mais

Aprendizado de Máquina (Machine Learning)

Aprendizado de Máquina (Machine Learning) Ciência da Computação Aprendizado de Máquina (Machine Learning) Aula 09 Árvores de Decisão Max Pereira Classificação É a tarefa de organizar objetos em uma entre diversas categorias pré-definidas. Exemplos

Leia mais

Universidade Federal do Paraná (UFPR) Bacharelado em Informática Biomédica. Árvores de Decisão. David Menotti.

Universidade Federal do Paraná (UFPR) Bacharelado em Informática Biomédica. Árvores de Decisão. David Menotti. Universidade Federal do Paraná (UFPR) Bacharelado em Informática Biomédica Árvores de Decisão David Menotti www.inf.ufpr.br/menotti/ci171-182 Árvores de Decisão Agenda Introdução Representação Quando Usar

Leia mais

Lista de Exercícios - Capítulo 8 [1] SCC Inteligência Artificial 1o. Semestre de Prof. João Luís

Lista de Exercícios - Capítulo 8 [1] SCC Inteligência Artificial 1o. Semestre de Prof. João Luís ICMC-USP Lista de Exercícios - Capítulo 8 [1] SCC-630 - Inteligência Artificial 1o. Semestre de 2011 - Prof. João Luís 1. Seja breve na resposta às seguintes questões: (a) o que você entende por Aprendizado

Leia mais

Tópicos Especiais em Informática Fatec Indaiatuba 13/07/2017

Tópicos Especiais em Informática Fatec Indaiatuba 13/07/2017 Inteligência de Negócios Fatec Indaiatuba Prof. Piva Compreender as definições e conceitos básicos da Mineração de Dados (MD) Entender o processo KDD (Knowledge Discovery Data) e MD Descrever as etapas

Leia mais

Laboratório de Inteligência Computacional (LABIC)

Laboratório de Inteligência Computacional (LABIC) Laboratório de Inteligência Computacional (LABIC) http://labic.icmc.sc.usp.br/ 1/70 Avaliação da Precisão de Hipóteses Maria Carolina Monard & Gustavo Batista Universidade de São Paulo Campus de São Carlos

Leia mais

3 Extração de Regras Simbólicas a partir de Máquinas de Vetores Suporte 3.1 Introdução

3 Extração de Regras Simbólicas a partir de Máquinas de Vetores Suporte 3.1 Introdução 3 Extração de Regras Simbólicas a partir de Máquinas de Vetores Suporte 3.1 Introdução Como já mencionado na seção 1.1, as SVMs geram, da mesma forma que redes neurais (RN), um "modelo caixa preta" de

Leia mais

Seleção de Atributos 1

Seleção de Atributos 1 Seleção de Atributos 1 Tópicos Por que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Seleção de atributos antes do aprendizado Benefícios Abordagens automáticas

Leia mais

Aprendizado de Máquinas

Aprendizado de Máquinas Aprendizado de Máquinas Objetivo A área de aprendizado de máquina preocupa-se em construir programas que automaticamente melhorem seu desempenho com a experiência. Conceito AM estuda métodos computacionais

Leia mais

Indução de Regras e Árvores de Decisão

Indução de Regras e Árvores de Decisão Capítulo Indução de Regras e Árvores de Decisão 5 Maria Carolina Monard José Augusto Baranauskas Cavalheiros, o que pode ser mais fácil que colocar esse ovo em pé, algo que vocês disseram ser impossível?

Leia mais

Determinação de vícios refrativos oculares utilizando Support Vector Machines

Determinação de vícios refrativos oculares utilizando Support Vector Machines Determinação de vícios refrativos oculares utilizando Support Vector Machines Giampaolo Luiz Libralão, André Ponce de Leon F. de Carvalho, Antonio Valerio Netto, Maria Cristina Ferreira de Oliveira Instituto

Leia mais

Fundamentos de Inteligência Artificial [5COP099]

Fundamentos de Inteligência Artificial [5COP099] Fundamentos de Inteligência Artificial [5COP099] Dr. Sylvio Barbon Junior Departamento de Computação - UEL 1 o Semestre Assunto Aula 10 Modelos Preditivos - Árvore de Decisão 2 de 20 Aula 10 - Árvore de

Leia mais

Inteligência nos Negócios (Business Inteligente)

Inteligência nos Negócios (Business Inteligente) Inteligência nos Negócios (Business Inteligente) Sistemas de Informação Sistemas de Apoio a Decisão Aran Bey Tcholakian Morales, Dr. Eng. (Apostila 6) Fundamentação da disciplina Analise de dados Decisões

Leia mais

Um Estudo Sobre a Efetividade do Método de Imputação Baseado no Algoritmo k-vizinhos Mais Próximos

Um Estudo Sobre a Efetividade do Método de Imputação Baseado no Algoritmo k-vizinhos Mais Próximos Um Estudo Sobre a Efetividade do Método de Imputação Baseado no Algoritmo k-vizinhos Mais Próximos Gustavo Enrique de Almeida Prado Alves Batista Maria Carolina Monard Laboratório de Inteligência Computacional

Leia mais

Aprendizado indutivo. Marcelo K. Albertini. 17 de Abril de 2014

Aprendizado indutivo. Marcelo K. Albertini. 17 de Abril de 2014 Aprendizado indutivo Marcelo K. Albertini 17 de Abril de 2014 2/22 Aprendizado indutivo O que é? Porque é difícil? Como podemos resolver problemas de indução? 3/22 Aprendizado supervisionado Temos: exemplos

Leia mais

Por que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Abordagens automáticas

Por que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Abordagens automáticas Por que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Abordagens automáticas Wrapper Filtros Muitos algoritmos de AM são projetados de modo a selecionar os

Leia mais

Aprendizagem de Máquina. Prof. Júlio Cesar Nievola PPGIA - PUCPR

Aprendizagem de Máquina. Prof. Júlio Cesar Nievola PPGIA - PUCPR Aprendizagem de Máquina Prof. Júlio Cesar Nievola PPGIA - PUCPR Introdução Justificativa Recente progresso em algoritmos e teoria Disponibilidade crescente de dados online Poder computacional disponível

Leia mais

Agregação de Algoritmos de Aprendizado de Máquina (AM) Professor: Eduardo R. Hruschka Estagiário PAE: Luiz F. S. Coletta

Agregação de Algoritmos de Aprendizado de Máquina (AM) Professor: Eduardo R. Hruschka Estagiário PAE: Luiz F. S. Coletta Agregação de Algoritmos de Aprendizado de Máquina (AM) Professor: Eduardo R. Hruschka Estagiário PAE: Luiz F. S. Coletta (luizfsc@icmc.usp.br) Sumário 1. Motivação 2. Bagging 3. Random Forest 4. Boosting

Leia mais

Aprendizado de Máquina

Aprendizado de Máquina Aprendizado de Máquina Sistemas de Informação Inteligente Prof. Leandro C. Fernandes Adaptação dos materiais de: Thiago A. S. Pardo, Daniel Honorato e Bianca Zadrozny APRENDIZADO SIMBÓLICO: ÁRVORES DE

Leia mais

Seleção de Atributos FSS. Relevância de Atributos. Relevância de Atributos. Seleção de Atributos - FSS. FSS como Busca no Espaço de Estados

Seleção de Atributos FSS. Relevância de Atributos. Relevância de Atributos. Seleção de Atributos - FSS. FSS como Busca no Espaço de Estados Seleção FSS Alguns indutores geralmente degradam seu desempenho quando são fornecidos muitos atributos irrelevantes para o conceito a ser aprendido Feature Subset Selection (FSS) é o processo de selecionar

Leia mais

Aprendizagem de Máquina

Aprendizagem de Máquina Aprendizagem de Máquina Alessandro L. Koerich Programa de Pós-Graduação em Engenharia Elétrica Universidade Federal do Paraná (UFPR) ÁRVORES DE DECISÃO Plano de Aula Introdução Representação de Árvores

Leia mais

Algoritmos Indutores de Árvores de. Fabrício J. Barth

Algoritmos Indutores de Árvores de. Fabrício J. Barth Algoritmos Indutores de Árvores de Decisão Fabrício J. Barth Maio de 2018 Problema: Diagnóstico para uso de lentes de contato 2 Diagnóstico para o uso de lentes de contato O setor de oftalmologia de um

Leia mais

Classes, Herança e Interfaces

Classes, Herança e Interfaces Escola de Artes, Ciências e Humanidades EACH-USP ACH2002 Introdução à Ciência da Computação II Professor: Delano Medeiros Beder revisada pelo professor: Luciano Digiampietri EACH Segundo Semestre de 2011

Leia mais

Avaliando Hipóteses. George Darmiton da Cunha Cavalcanti Tsang Ing Ren CIn/UFPE

Avaliando Hipóteses. George Darmiton da Cunha Cavalcanti Tsang Ing Ren CIn/UFPE Avaliando Hipóteses George Darmiton da Cunha Cavalcanti Tsang Ing Ren CIn/UFPE Pontos importantes Erro da Amostra e Erro Real Como Calcular Intervalo de Confiança Erros de hipóteses Estimadores Comparando

Leia mais

Aprendizado de Máquina

Aprendizado de Máquina Aprendizado de Máquina Introdução Luiz Eduardo S. Oliveira Universidade Federal do Paraná Departamento de Informática http://lesoliveira.net Luiz S. Oliveira (UFPR) Aprendizado de Máquina 1 / 19 Introdução

Leia mais

Árvore de Decisão. George Darmiton da Cunha Cavalcanti Tsang Ing Ren CIn/UFPE

Árvore de Decisão. George Darmiton da Cunha Cavalcanti Tsang Ing Ren CIn/UFPE Árvore de Decisão George Darmiton da Cunha Cavalcanti Tsang Ing Ren CIn/UFPE Tópicos Introdução Representando Árvores de Decisão O algoritmo ID3 Definições Entropia Ganho de Informação Overfitting Objetivo

Leia mais

Análise de algoritmos

Análise de algoritmos Análise de algoritmos Ordenação em tempo linear Prof. Flávio Rogério Uber (UEM/DIN) Autor: Prof. Marco Aurélio Lopes Barbosa (UEM/DIN) Conteúdo Limites inferiores para ordenação por comparações Ordenação

Leia mais

19 Congresso de Iniciação Científica INCLUSÃO DE UM NOVO ALGORITMO DE CLASSIFICAÇÃO NA FERRAMENTA KIRA

19 Congresso de Iniciação Científica INCLUSÃO DE UM NOVO ALGORITMO DE CLASSIFICAÇÃO NA FERRAMENTA KIRA 19 Congresso de Iniciação Científica INCLUSÃO DE UM NOVO ALGORITMO DE CLASSIFICAÇÃO NA FERRAMENTA KIRA Autor(es) MIRELA TEIXEIRA CAZZOLATO Orientador(es) MARINA TERESA PIRES VIEIRA Apoio Financeiro PIBIC/CNPQ

Leia mais

Aprendizado de Máquina para a Automação da Aquisicão de Conhecimento

Aprendizado de Máquina para a Automação da Aquisicão de Conhecimento Aprendizado de Máquina para a Automação da Aquisicão de Conhecimento Maria Carolina Monard mcmonard@icmc.usp.br Laboratório de Inteligência Artificial (LABIC) Instituto de Ciências Matemática e Computação

Leia mais

Aprendizagem de Máquina - 2. Prof. Júlio Cesar Nievola PPGIa - PUCPR

Aprendizagem de Máquina - 2. Prof. Júlio Cesar Nievola PPGIa - PUCPR Aprendizagem de Máquina - 2 Prof. Júlio Cesar Nievola PPGIa - PUCPR Inteligência versus Aprendizado Aprendizado é a chave da superioridade da Inteligência Humana Para que uma máquina tenha Comportamento

Leia mais

1ª JORNADA CIENTÍFICA DA UNIOESTE 24 a 26/10/2001 CASCAVEL/PR

1ª JORNADA CIENTÍFICA DA UNIOESTE 24 a 26/10/2001 CASCAVEL/PR APLICAÇÃO DE TÉCNICAS DE APRENDIZADO DE MÁQUINA PARA EXTRAÇÃO DE CONHECIMENTO E CONSTRUÇÃO DE CLASSIFICADORES: ESTUDO DE CASO DE BASES DE DADOS MÉDICAS Ferro, M; Lee, H.D; Chung, W.F. Universidade Estadual

Leia mais

Aprendizagem de Máquina

Aprendizagem de Máquina Aprendizagem de Máquina Árvores de Decisão Poda e extensões Prof. Paulo Martins Engel UFRGS 2 Questões sobre Árvores de Decisão Questões práticas do aprendizado de AD incluem: Determinar até quando se

Leia mais

Introdução a Sistemas Inteligentes

Introdução a Sistemas Inteligentes Introdução a Sistemas Inteligentes Conceituação Prof. Ricardo J. G. B. Campello ICMC / USP Créditos Parte do material a seguir consiste de adaptações e extensões dos originais gentilmente cedidos pelo

Leia mais

Aprendizado de Máquina

Aprendizado de Máquina Aprendizado de Máquina A necessidade de inserir aprendizado nas máquinas surgiu após a construção dos Sistemas Especialistas (SEs). Os primeiros SEs não possuíam mecanismo de aprendizado e tornavam-se

Leia mais

Classificação Automática de Gêneros Musicais

Classificação Automática de Gêneros Musicais Introdução Método Experimentos Conclusões Utilizando Métodos de Bagging e Boosting Carlos N. Silla Jr. Celso Kaestner Alessandro Koerich Pontifícia Universidade Católica do Paraná Programa de Pós-Graduação

Leia mais

Aprendizagem de Máquina

Aprendizagem de Máquina Aprendizagem de Máquina Alessandro L. Koerich/Alceu S. Britto Programa de Pós-Graduação em Informática Pontifícia Universidade Católica do Paraná (PUCPR) ÁRVORES DE DECISÃO Plano de Aula Introdução Representação

Leia mais

Aprendizagem de Máquina

Aprendizagem de Máquina Aprendizagem de Máquina Alessandro L. Koerich Programa de Pós-Graduação em Informática Pontifícia Universidade Católica do Paraná (PUCPR) ÁRVORES DE DECISÃO Plano de Aula Introdução Representação de Árvores

Leia mais

Combinação de Classificadores (fusão)

Combinação de Classificadores (fusão) Combinação de Classificadores (fusão) André Tavares da Silva andre.silva@udesc.br Livro da Kuncheva Roteiro Sistemas com múltiplos classificadores Fusão por voto majoritário voto majoritário ponderado

Leia mais

Inteligência Artificial

Inteligência Artificial Aprendizagem por que? lnteligência Artificial Aprendizagem em IA Capacidade de aprender é parte fundamental do conceito de inteligência. Um agente aprendiz é mais flexível aprendizado permite lidar com

Leia mais

Mineração de Dados. Arthur Emanuel de O. Carosia Cristina Dutra de Aguiar Ciferri

Mineração de Dados. Arthur Emanuel de O. Carosia Cristina Dutra de Aguiar Ciferri Mineração de Dados Arthur Emanuel de O. Carosia Cristina Dutra de Aguiar Ciferri 1 Motivação Aumento da capacidade de processamento e de armazenamento de dados; Baixo custo; Grande quantidade de dados

Leia mais

Classificação: Árvores de Decisão e k-nn. Eduardo Raul Hruschka

Classificação: Árvores de Decisão e k-nn. Eduardo Raul Hruschka Classificação: Árvores de Decisão e k-nn Eduardo Raul Hruschka Árvores de Decisão Métodos para aproximar funções discretas, representadas por meio de uma árvore de decisão; Árvores de decisão podem ser

Leia mais

3 Identificação de Locutor Usando Técnicas de Múltiplos Classificadores em Sub-bandas Com Pesos Não-Uniformes

3 Identificação de Locutor Usando Técnicas de Múltiplos Classificadores em Sub-bandas Com Pesos Não-Uniformes 3 Identificação de Locutor Usando Técnicas de Múltiplos Classificadores em Sub-bandas Com Pesos Não-Uniformes Neste capítulo, é apresentada uma nova proposta de combinação de múltiplos classificadores

Leia mais

lnteligência Artificial Aprendizagem em IA

lnteligência Artificial Aprendizagem em IA lnteligência Artificial Aprendizagem em IA 1 Aprendizagem por que? Capacidade de aprender é parte fundamental do conceito de inteligência. Um agente aprendiz é mais flexível aprendizado permite lidar com

Leia mais

Conceitos sobre Aprendizado de Máquina

Conceitos sobre Aprendizado de Máquina Capítulo Conceitos sobre Aprendizado de Máquina 4 Maria Carolina Monard José Augusto Baranauskas É interessante notar que enquanto há relatos que alguns golfinhos aprenderam palavras até cinqüenta palavras

Leia mais

Mineração de Dados para Detecção de Padrões de Mudança de Cobertura da Terra. Padrões e processos em Dinâmica de uso e Cobertura da Terra

Mineração de Dados para Detecção de Padrões de Mudança de Cobertura da Terra. Padrões e processos em Dinâmica de uso e Cobertura da Terra Mineração de Dados para Detecção de Padrões de Mudança de Cobertura da Terra Padrões e processos em Dinâmica de uso e Cobertura da Terra Introdução 1 2 3 4 Capacidade de Armazenamento X Análise e Interpretação

Leia mais

Mineração de Dados em Biologia Molecular

Mineração de Dados em Biologia Molecular Mineração de Dados em Biologia Molecular Tópicos André C. P. L. F. de Carvalho Monitor: Valéria Carvalho Mineração de Dados Introdução Mineração de Dados Aprendizado de Máquina Métodos Preditivos Métodos

Leia mais

Metodologias para a Seleção de Atributos Relevantes

Metodologias para a Seleção de Atributos Relevantes Metodologias para a Seleção de Atributos Relevantes José Augusto Baranauskas e Maria Carolina Monard Departamento de Computação e Estatística Instituto de Ciências Matemáticas e de Computação - Universidade

Leia mais

Aprendizado em IA. Prof. Carlos H. C. Ribeiro ITA Divisão de Ciência da Computação

Aprendizado em IA. Prof. Carlos H. C. Ribeiro ITA Divisão de Ciência da Computação Aprendizado em IA Prof. Carlos H. C. Ribeiro ITA Divisão de Ciência da Computação Tópicos Agentes baseados em aprendizado Aprendizado indutivo Árvores de decisão Método ID3 Aprendizado em redes neurais

Leia mais

UNIVERSIDADE FEDERAL RURAL DO SEMI-ÁRIDO CURSO: CIÊNCIA DA COMPUTAÇÃO. Prof.ª Danielle Casillo

UNIVERSIDADE FEDERAL RURAL DO SEMI-ÁRIDO CURSO: CIÊNCIA DA COMPUTAÇÃO. Prof.ª Danielle Casillo UNIVERSIDADE FEDERAL RURAL DO SEMI-ÁRIDO CURSO: CIÊNCIA DA COMPUTAÇÃO TEORIA DA COMPUTAÇÃO Aula 03 Programas (Monolítico e Iterativo) Prof.ª Danielle Casillo Programas, Máquinas e Computações Diferentes

Leia mais

Roteiro. PCC142 / BCC444 - Mineração de Dados. Cenário

Roteiro. PCC142 / BCC444 - Mineração de Dados. Cenário Roteiro PCC142 / BCC444 - Mineração de Luiz Henrique de Campos Merschmann Departamento de Computação Universidade Federal de Ouro Preto luizhenrique@iceb.ufop.br www.decom.ufop.br/luiz Introdução Tarefas

Leia mais

Classificação e Predição de Dados - Profits Consulting - Consultoria Empresarial - Serviços SAP- CRM Si

Classificação e Predição de Dados - Profits Consulting - Consultoria Empresarial - Serviços SAP- CRM Si Classificação e Predição de Dados - Profits Consulting - Consultoria Empresarial - Serviços SAP- CRM Si Classificação de Dados Os modelos de classificação de dados são preditivos, pois desempenham inferências

Leia mais

UNIVERSIDADE DE SÃO PAULO

UNIVERSIDADE DE SÃO PAULO UNIVERSIDADE DE SÃO PAULO Instituto de Ciências Matemáticas e de Computação ISSN 0103-2569 Análise da Precisão de Métodos de Regressão Daniel Gomes Dosualdo Solange Oliveira Rezende N ō 197 RELATÓRIOS

Leia mais

Roteiro. PCC142 / BCC444 - Mineração de Dados Avaliação de Classicadores. Estimativa da Acurácia. Introdução. Estimativa da Acurácia

Roteiro. PCC142 / BCC444 - Mineração de Dados Avaliação de Classicadores. Estimativa da Acurácia. Introdução. Estimativa da Acurácia Roteiro PCC142 / BCC444 - Mineração de Dados Avaliação de Classicadores Introdução Luiz Henrique de Campos Merschmann Departamento de Computação Universidade Federal de Ouro Preto luizhenrique@iceb.ufop.br

Leia mais

Aprendizagem a partir de observações

Aprendizagem a partir de observações Aprendizagem a partir de observações Aprendizagem é essencial para ambientes desconhecidos, i.e., quando o projetista não prevê tudo Útil como um método de construção de sistemas i.e., expor o agente à

Leia mais

Modelagem da Rede Neural. Modelagem da Rede Neural. Back Propagation. Modelagem da Rede Neural. Modelagem da Rede Neural. Seleção de Variáveis:

Modelagem da Rede Neural. Modelagem da Rede Neural. Back Propagation. Modelagem da Rede Neural. Modelagem da Rede Neural. Seleção de Variáveis: Back Propagation Fatores importantes para a modelagem da Rede Neural: Seleção de variáveis; veis; Limpeza dos dados; Representação das variáveis veis de entrada e saída; Normalização; Buscando melhor Generalização

Leia mais

Profs.: Eduardo Vargas Ferreira Walmes Marques Zeviani

Profs.: Eduardo Vargas Ferreira Walmes Marques Zeviani Universidade Federal do Paraná Laboratório de Estatística e Geoinformação - LEG Introdução Profs.: Eduardo Vargas Ferreira Walmes Marques Zeviani O que é Machine Learning? Estatística Machine Learning

Leia mais

Créditos. SCC0173 Mineração de Dados Biológicos. Aula de Hoje. Introdução. Classificação III: Árvores de Decisão

Créditos. SCC0173 Mineração de Dados Biológicos. Aula de Hoje. Introdução. Classificação III: Árvores de Decisão SCC073 Mineração de Dados Biológicos Classificação III: Árvores de Decisão Créditos O material a seguir consiste de adaptações e extensões dos originais: gentilmente cedidos pelo Prof. André C. P. L. F.

Leia mais

Estruturas de Dados 2

Estruturas de Dados 2 Estruturas de Dados 2 Algoritmos de Ordenação em Tempo Linear IF64C Estruturas de Dados 2 Engenharia da Computação Prof. João Alberto Fabro - Slide 1/38 Algoritmos de Ordenação em Tempo Linear Limite Assintótico

Leia mais

Mineração de Textos. Mineração de Textos

Mineração de Textos. Mineração de Textos Mineração de Textos Os estudos em Aprendizado de Máquina normalmente trabalham com dados estruturados Entretanto, uma grande quantidade de informação é armazenada em textos, que são dados semi-estruturados

Leia mais

Inteligência Artificial. Conceitos Gerais

Inteligência Artificial. Conceitos Gerais Inteligência Artificial Conceitos Gerais Inteligência Artificial - IA IA é um campo de estudo multidisciplinar e interdisciplinar, que se apóia no conhecimento e evolução de outras áreas do conhecimento.

Leia mais

Classificação: Árvores de Decisão e k-nn. Eduardo Raul Hruschka

Classificação: Árvores de Decisão e k-nn. Eduardo Raul Hruschka Classificação: Árvores de Decisão e k-nn Eduardo Raul Hruschka Agenda: Conceitos de Classificação Técnicas de Classificação One Rule (1R) Naive Bayes (com seleção de atributos) Árvores de Decisão K-Vizinhos

Leia mais

Conceitos de Aprendizagem de Máquina e Experimentos. Visão Computacional

Conceitos de Aprendizagem de Máquina e Experimentos. Visão Computacional Conceitos de Aprendizagem de Máquina e Experimentos Visão Computacional O que você vê? 2 Pergunta: Essa imagem tem um prédio? Classificação 3 Pergunta: Essa imagem possui carro(s)? Detecção de Objetos

Leia mais

Cap. 4 - Estimação por Intervalo

Cap. 4 - Estimação por Intervalo Cap. 4 - Estimação por Intervalo Amostragem e inferência estatística População: consiste na totalidade das observações em que estamos interessados. Nº de observações na população é denominado tamanho=n.

Leia mais

INE5403 FUNDAMENTOS DE MATEMÁTICA DISCRETA

INE5403 FUNDAMENTOS DE MATEMÁTICA DISCRETA INE5403 FUNDAMENTOS DE MATEMÁTICA DISCRETA PARA A COMPUTAÇÃO PROF. DANIEL S. FREITAS UFSC - CTC - INE Prof. Daniel S. Freitas - UFSC/CTC/INE/2007 p.1/30 3 - INDUÇÃO E RECURSÃO 3.1) Indução Matemática 3.2)

Leia mais

Introdução ao Reconhecimento. Prof. Dr. Geraldo Braz Junior

Introdução ao Reconhecimento. Prof. Dr. Geraldo Braz Junior Introdução ao Reconhecimento Prof. Dr. Geraldo Braz Junior O que você vê? 2 Pergunta: Essa imagem tem um prédio? Classificação 3 Pergunta: Essa imagem possui carro(s)? Detecção de Objetos Vários 4 Pergunta:

Leia mais

Aprendizado de Máquina

Aprendizado de Máquina Aprendizado de Máquina Introdução ao WEKA Luiz Eduardo S. Oliveira Universidade Federal do Paraná Departamento de Informática http://web.inf.ufpr.br/luizoliveira Luiz S. Oliveira (UFPR) Aprendizado de

Leia mais

Análise Quantitativa de Tecidos em Úlceras de Perna

Análise Quantitativa de Tecidos em Úlceras de Perna 49 5 Análise Quantitativa de Tecidos em Úlceras de Perna A avaliação das áreas proporcionais de cada tecido interno das úlceras fornece informações importantes sobre seu estado patológico [BERRISS, 2000],

Leia mais

Fundamentos de Inteligência Artificial [5COP099]

Fundamentos de Inteligência Artificial [5COP099] Fundamentos de Inteligência Artificial [5COP099] Dr. Sylvio Barbon Junior Saulo Martiello Mastelini Departamento de Computação - UEL 1 o Semestre Assunto Aula 11 Modelos Preditivos - Árvore de Decisão

Leia mais

UNIVERSIDADE FEDERAL RURAL DO SEMI-ÁRIDO CURSO: CIÊNCIA DA COMPUTAÇÃO. Prof.ª Danielle Casillo

UNIVERSIDADE FEDERAL RURAL DO SEMI-ÁRIDO CURSO: CIÊNCIA DA COMPUTAÇÃO. Prof.ª Danielle Casillo UNIVERSIDADE FEDERAL RURAL DO SEMI-ÁRIDO CURSO: CIÊNCIA DA COMPUTAÇÃO Prof.ª Danielle Casillo Diferentes computadores podem ter diferentes arquiteturas e os diversos tipos de linguagem de programação.

Leia mais

2. Redes Neurais Artificiais

2. Redes Neurais Artificiais Computação Bioinspirada - 5955010-1 2. Redes Neurais Artificiais Prof. Renato Tinós Depto. de Computação e Matemática (FFCLRP/USP) 1 2.4. Outras Redes Neurais Artificiais 2.4.1. Redes RBF 2.4.2. Mapas

Leia mais

Arvores de decisão. O que é uma árvore de decisão? Victor Lobo

Arvores de decisão. O que é uma árvore de decisão? Victor Lobo Arvores de decisão Victor Lobo O que é uma árvore de decisão? Algorítmo para tomar decisões (ou classificar) Modo de representar conhecimento Tem penas? Arcos (resultados ou pertença) Nós (testes, ou conceitos)

Leia mais

FÍSICA EXPERIMENTAL III CONTRUÇÃO DE GRÁFICOS

FÍSICA EXPERIMENTAL III CONTRUÇÃO DE GRÁFICOS FÍSICA EXPERIMENTAL III José Fernando Fragalli Departamento de Física Udesc/Joinville CONTRUÇÃO DE GRÁFICOS A Ciência está escrita neste grande livro colocado sempre diante dos nossos olhos o Universo

Leia mais

Descoberta de Conhecimento em Bancos de Dados - KDD

Descoberta de Conhecimento em Bancos de Dados - KDD Descoberta de Conhecimento em Bancos de Dados - KDD Professor: Rosalvo Ferreira de Oliveira Neto Disciplina: Inteligência Artificial Tópicos 1. Definições 2. Fases do processo 3. Exemplo do DMC 4. Avaliação

Leia mais

aula ANÁLISE DO DESEMPENHO DO MODELO EM REGRESSÕES

aula ANÁLISE DO DESEMPENHO DO MODELO EM REGRESSÕES ANÁLISE DO DESEMPENHO DO MODELO EM REGRESSÕES 18 aula META Fazer com que o aluno seja capaz de realizar os procedimentos existentes para a avaliação da qualidade dos ajustes aos modelos. OBJETIVOS Ao final

Leia mais

Metodologia Aplicada a Computação.

Metodologia Aplicada a Computação. Metodologia Aplicada a Computação gaudenciothais@gmail.com Pré-processamento de dados Técnicas utilizadas para melhorar a qualidade dos dados; Eliminam ou minimizam os problemas como ruídos, valores incorretos,

Leia mais

Classificação supervisionada baseada em árvore geradora mínima

Classificação supervisionada baseada em árvore geradora mínima Classificação supervisionada baseada em árvore geradora mínima Letícia Cavalari Pinheiro 1,3 Renato Martins Assunção 2 1 Introdução Classificação supervisionada é um dos problemas mais estudados na área

Leia mais

Mineração de Dados em Biologia Molecular

Mineração de Dados em Biologia Molecular Mineração de Dados em Biologia Molecular André C.. L. F. de Carvalho Monitor: Valéria Carvalho lanejamento e Análise de Experimentos rincipais tópicos Estimativa do erro artição dos dados Reamostragem

Leia mais

Arvores de decisão. Outras árvores. Outra maneira de ver árvores. Extracção de regras (a partir de árvores) Vantagens das árvores (1)

Arvores de decisão. Outras árvores. Outra maneira de ver árvores. Extracção de regras (a partir de árvores) Vantagens das árvores (1) O que é a árvore de decisão? Arvores de decisão Algorítmo para tomar decisões (ou classificar) Modo de representar conhecimento Tem penas? Arcos (resultados ou pertença) Victor Lobo Nós (testes, ou conceitos)

Leia mais

5 Resultados Dados artificiais Convergência à mediana e à média com dados artificiais

5 Resultados Dados artificiais Convergência à mediana e à média com dados artificiais 5 Resultados Os resultados da aplicação do método proposto estão estruturados de forma a evidenciar: 1. A convergência numérica do algoritmo proposto nesta tese para a mediana e para a média de grupos

Leia mais

Implementação de um Modelo para Previsão de Evasão Escolar no IFSULDEMINAS

Implementação de um Modelo para Previsão de Evasão Escolar no IFSULDEMINAS 6ª Jornada Científica e Tecnológica e 3º Simpósio de Pós-Graduação do IFSULDEMINAS 04 e 05 de novembro de 2014, Pouso Alegre/MG Implementação de um Modelo para Previsão de Evasão Escolar no IFSULDEMINAS

Leia mais

Aprendizagem de máquina

Aprendizagem de máquina Aprendizagem de máquina Aprendizado de Conceitos Busca guiada por exemplos Aprendizado supervisionado: classificação Aprender uma classe a partir de exemplos é encontrar uma descrição que é compartilhada

Leia mais

2 Reconhecimento Facial

2 Reconhecimento Facial 2 Reconhecimento Facial Em termos gerais, o reconhecimento facial é o processo pelo qual se mede o grau de similaridade entre duas imagens faciais com o proposito de identificar a um indivíduo ou de verificar

Leia mais

Comparação de métodos de classificação da cobertura do solo urbano utilizando imagens IKONOS II com e sem o auxílio de dados LiDAR

Comparação de métodos de classificação da cobertura do solo urbano utilizando imagens IKONOS II com e sem o auxílio de dados LiDAR Comparação de métodos de classificação da cobertura do solo urbano utilizando imagens IKONOS II com e sem o auxílio de dados LiDAR Leonardo Rodrigues de Deus 1 Rafael Santos 1 Leila Maria G. Fonseca 1

Leia mais

SCC0173 Mineração de Dados Biológicos

SCC0173 Mineração de Dados Biológicos SCC0173 Mineração de Dados Biológicos Classificação I: Algoritmos 1Rule e KNN Prof. Ricardo J. G. B. Campello SCC / ICMC / USP 1 Créditos O material a seguir consiste de adaptações e extensões dos originais:

Leia mais