2 Seleção de características

Documentos relacionados
3 Sistemas Neuro-Fuzzy Hierárquicos

Mineração de Dados. Análise e Seleção de Variáveis

HP UFCG Analytics Abril-Maio Um curso sobre Reconhecimento de Padrões e Redes Neurais. Por Herman Martins Gomes.

Modelagem da Rede Neural. Modelagem da Rede Neural. Back Propagation. Modelagem da Rede Neural. Modelagem da Rede Neural. Seleção de Variáveis:

Programa do Curso. Transformação de Dados. Sistemas Inteligentes Aplicados. Carlos Hall. Discretização de Variáveis Contínuas

INTRODUÇÃO À CALIBRAÇÃO MULTIVARIADA

Por que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Abordagens automáticas

Coeficiente de determinação R 2 no modelo de regressão linear normal

Geração de cenários de energia renovável correlacionados com hidrologia: uma abordagem bayesiana multivariada.

3 Extração de Regras Simbólicas a partir de Máquinas de Vetores Suporte 3.1 Introdução

Considerações de Desempenho

Análise estatística multivariada

Back Propagation. Dicas para o BP

Modelagem para previsão/estimação: uma aplicação Neuro-Fuzzy

)XQGDPHQWRVGHSUREDELOLGDGHHHVWDWtVWLFD

3 INTERVALOS DE CONFIANÇA

Aprendizado de Máquina (Machine Learning)

Disciplina: Processamento Estatístico de Sinais (ENGA83) - Aula 03 / Detecção de Sinais

Pós-Graduação em Engenharia de Automação Industrial SISTEMAS INTELIGENTES PARA AUTOMAÇÃO

θ depende de um parâmetro desconhecido θ.

Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação

Análise de Componentes Principais Simbólicas

Aula 6 Mineração Streams Representação dos Dados. Profa. Elaine Faria UFU

4 Implementação Computacional

Seleção de Atributos 1

Modelos de Suavização Exponencial Aula - 07

Ralph S. Silva

Universidade Federal do Paraná (UFPR) Bacharelado em Informática Biomédica. Árvores de Decisão. David Menotti.

Maldição da dimensionalidade

4 Modelos de Regressão Dinâmica

Aprendizado de Máquina

Análise de Regressão Linear Simples e

23/05/12. Consulta distribuída. Consulta distribuída. Objetivos do processamento de consultas distribuídas

Algoritmos Evolutivos para Otimização

SUPPORT VECTOR MACHINE - SVM

Aprendizado por Reforço usando Aproximação

COKRIGAGEM. Aplicação da cokrigagem

3 Técnicas de Previsão de Séries Temporais 3.1. Introdução

DCBD. Avaliação de modelos. Métricas para avaliação de desempenho. Avaliação de modelos. Métricas para avaliação de desempenho...

Neste capítulo apresentam-se os modelos STVAR-Tree, o principal da dissertação, além dos modelos competidores PAR(p) e Neuro-Fuzzy.

Reconhecimento de Padrões

Redes Neurais. A Rede RBF. Redes RBF: Função de Base Radial. Prof. Paulo Martins Engel. Regressão não paramétrica. Redes RBF: Radial-Basis Functions

Aprendizado de Máquina (Machine Learning)

Implementação dos Algoritmos e Resultados

REGRESSÃO E CORRELAÇÃO

Algoritmos de Aprendizado. Formas de Aprendizado. Aprendizado Batch x Incremental. Aprendizado Batch x Incremental

Sistema de Inferência Fuzzy baseado em Redes Adaptativas (ANFIS) Sistema de Inferência Fuzzy

APLICAÇÃO DE ALGORITMOS BIO-INSPIRADOS EM CONTROLE ÓTIMO

PREVISÃO. Prever o que irá. acontecer. boas decisões com impacto no futuro. Informação disponível. -quantitativa: dados.

Rede RBF (Radial Basis Function)

5 Filtro de Kalman Aplicado ao Modelo de Schwartz e Smith (2000)

2 Medida de Incertezas: Fundamentos

HP UFCG Analytics Abril-Maio Um curso sobre Reconhecimento de Padrões e Redes Neurais. Por Herman Martins Gomes.

Aprendizado de Máquinas. Seleção de Características

Algoritmos de Aprendizado

UNIVERSIDADE DO ESTADO DE MATO GROSSO - UNEMAT. Faculdade de Ciências Exatas e Tecnológicas FACET / Sinop Curso de Bacharelado em Engenharia Elétrica

Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação

Análise Multivariada Aplicada à Contabilidade

5 Modelo Kernel PCA Genético para Ajuste de Histórico

Aprendizagem de Máquina

Fundamentos de Inteligência Artificial [5COP099]

4 APLICAÇÃO DO MODELO E RESULTADOS

RESUMO DO CAPÍTULO 3 DO LIVRO DE WOOLDRIDGE ANÁLISE DE REGRESSÃO MÚLTIPLA: ESTIMAÇÃO

CLASSIFICADORES ELEMENTARES

3 Filtro de Kalman Discreto

Aprendizagem de Máquina

Aprendizado de Máquina (Machine Learning)

Resumo. Filtragem Adaptativa. Filtros adaptativos. Tarefas desempenhadas pelos filtros

Geometria Computacional

étodos uméricos AJUSTE DE FUNÇÕES Prof. Erivelton Geraldo Nepomuceno PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA

8 Conclusões e Trabalhos Futuros

Tópicos sobre Redes Neurais

2 Modelos Não Lineares

PESQUISA EM MERCADO DE CAPITAIS. Prof. Patricia Maria Bortolon, D. Sc.

Cap. 8 - Intervalos Estatísticos para uma Única Amostra

2 Processo de Agrupamentos

Professora: Cira Souza Pitombo. Disciplina: Aplicações de técnicas de análise de dados

Contabilometria. Aula 9 Regressão Linear Inferências e Grau de Ajustamento

Plano. Aspectos Relevantes de HMMs. Teoria de HMMs. Introdução aos Modelos Escondidos de Markov

Classificação. Eduardo Raul Hruschka

UNIVERSIDADE DO ESTADO DE MATO GROSSO - UNEMAT. Faculdade de Ciências Exatas e Tecnológicas FACET / Sinop Curso de Bacharelado em Engenharia Elétrica

Combinação de Classificadores (fusão)

Cap. 4 - Estimação por Intervalo

Estatística Aplicada ao Serviço Social

Aprendizagem de Máquina

1 Espaços Vectoriais

Comunicaçõ. ções Digitais II. Texto original por Prof. Dr. Ivan Roberto Santana Casella

2 Uma Proposta para Seleção de Dados em Modelos LVQ

I Workshop em Inteligência Computacional e Aprendizado Estatístico Aplicados à Agropecuária

ANÁLISE DE COMPONENTES PRINCIPAIS/PCA ou ACP

Exemplo de Aplicação de Algoritmos Genéticos. Prof. Juan Moisés Mauricio Villanueva cear.ufpb.br/juan

CONHECIMENTOS ESPECÍFICOS

AULA 09 Regressão. Ernesto F. L. Amaral. 17 de setembro de 2012

Medidas de Semelhança

CONTEÚDO LÓGICA NEBULOSA INTRODUÇÃO INTRODUÇÃO. Lógica Procura modelar o raciocínio. Lógica. Marley Maria B.R. Vellasco

Multicolinariedade e Autocorrelação

Estatística: Aplicação ao Sensoriamento Remoto SER ANO Componentes Principais

Aprendizado de Máquina (Machine Learning)

Transcrição:

2 Seleção de características 2. Introdução Na maioria das aplicações reais de classificação, previsão, aproximação e otimização, as bases de dados contêm um grande número de caraterísticas, muitas delas introduzidas para obter uma melhor representação do problema, tais como, por exemplo, nome, identidade, endereço, etc. Entretanto, na maioria dos casos, grande parte destas caraterísticas são irrelevantes e/ou redundantes. Deste modo, um problema comum nestas aplicações reais é a seleção das características. A seleção de características se refere a um processo no qual um espaço de dados é transformado em um espaço de características, de menor dimensão, mas que ainda retenha a maior parte da informação intrínseca dos dados; em outras palavras, o conjunto de dados sofre uma redução de dimensionalidade. Os métodos de seleção de características tratam exatamente da escolha, dentre todos os atributos da base de dados, daqueles mais relevantes do ponto de vista da informação [MARD79], [DASH97]. 2.2 ipos de métodos de seleção de características Existem inúmeras técnicas [BACK0], [SAN97], [JANG96], [GOLD89], [KOZA92] para a tarefa de seleção de variáveis, sendo estas categorizadas como métodos dependentes do modelo ( Model Based ) e métodos independentes do modelo ( Model-Free ) [BACK0]. Dentre os métodos dependentes do modelo podem-se mencionar técnicas baseadas em redes neurais, em modelos neuro-

Capitulo II 27 fuzzy e em algoritmos genéticos. No caso dos métodos independentes do modelo há métodos estatísticos, Análise de Componentes Principais, Correlação e Entropia. Cada tipo de técnica tem suas próprias características, apresentando vantagens e desvantagens. 2.. Métodos Dependentes do Modelo (Model-based) A terminologia significa que métodos baseados no modelo implementam um modelo completo de predição/classificação/aproximação só com a finalidade de selecionar as variáveis de entradas para serem aplicadas posteriormente em outro modelo. Os métodos dependentes do modelo tipicamente envolvem: selecionar um modelo, escolher as entradas a usar, otimizar parâmetros e calcular alguma função de custo. As entradas são trocadas e o processo é repetido. Uma métrica é geralmente usada para escolher as entradas que geraram menor erro e que, consequentemente, serão usadas no problema. A Figura 2. resume este tipo de método.

Capitulo II 28 Figura 2. Seleção de características dependentes do modelo. Existem diversas técnicas categorizadas como Model Based, algumas clássicas e outros mais recentes. A seguir são descritas, de maneira concisa, algumas técnicas deste tipo. 2.2.. Método Baseado no Modelo ANFIS Este método escolhe as entradas baseado na possibilidade destas conduzirem a um ótimo desempenho do modelo ANFIS mostrado na Figura 2.2.a Esse método utiliza uma configuração do modelo ANFIS [JANG93], [JANG94] com duas entradas divididas em 4 conjuntos fuzzy cada (particionamento fuzzy grid fixo). Deste modo, conforme pode ser observado na Figura 2.2.a, o espaço de entrada é dividido em 6 partições.

Capitulo II 29 A i A j.... Figura 2.2.a Sistema ANFIS simplificado Figura 2.2.b Particionamento (2 entradas) para seleção de características respectivo. ANFIS. Utilizando como entradas atributos da base de dados escolhidos dois a dois, treina-se o sistema, durante um certo número de ciclos especificado, e, em seguida, calcula-se o erro de classificação para esses dois atributos. Em seguida, escolhe-se um novo par de atributos, treina-se o sistema pelo mesmo número de ciclos, até que todas as configurações de pares de entrada tenham sido testadas. Posteriormente, as duplas de entradas são listadas em ordem crescente do valor do erro, selecionando-se as entradas de menor erro. Este algoritmo de seleção de características foi utilizado nos modelos NFHQ Neuro-Fuzzy Hierárquico Quadtree - e no NFHB - Neuro-Fuzzy Hierárquico Binary Space Partitioning, desenvolvidos por [SOUZ99]. 2.2..2 Determinação Automática de Relevância (ARD) A Determinação Automática de Relevância (Automatic Relevance Determination/ARD) é um subproduto do processo de treinamento das redes neurais Bayesianas, inspiradas na estatística Bayesiana, a qual faz uso de

Capitulo II 30 densidades de probabilidade ao invés de freqüências. Um modelo em particular é considerado para as densidades de probabilidade dos dados e dos pesos sinápticos da rede, e utiliza-se a regra de Bayes para inferir o conjunto ótimo de pesos, através do método da aproximação Gaussiana [BISH95] (dados os valores disponíveis das variáveis). O método ARD é baseado nos hiperparâmetros α que definem os espalhamentos das densidades de probabilidade dos pesos da rede [BISH95], [MACK95]. Os pesos correspondentes a cada variável de entrada i têm um hiperparâmetro distinto α i. De acordo com [PINH96], os pesos associados com valores grandes de α i têm uma maior tendência de decair a zero, indicando assim pouca relevância desta variável de entrada para a inferência. Esta técnica aumenta a robustez da rede treinada, uma vez que variáveis de entrada mal comportadas terão naturalmente um impacto menor no modelo de inferência, sendo possível incluir inicialmente um grande número de variáveis com pouco risco de overfitting, pois os pesos associados com as variáveis menos relevantes irão tender a zero. Portanto o método ARD remove as variáveis com menores relevâncias. A relevância da variável de entrada i é definida por: r i (%) k = 00, Equação 2. α i j= α j isto é, a soma das relevâncias de todas as variáveis de entrada é igual a 00%. O procedimento para seleção de variáveis por ARD consiste em inicialmente treinar uma rede neural com todas as variáveis de entrada usando o método Bayesiano. Após o treinamento, as variáveis de entrada são ordenadas pelas relevâncias, e

Capitulo II 3 aquelas com relevâncias menores que % são excluídas. O processo é repetido até que nenhuma variável seja eliminada (isto é, todas as variáveis restantes tenham relevância maior que %), ou até que o conjunto de variáveis atinja um tamanho pré-determinado; isto faz com que o ARD seja um método computacionalmente custoso. 2.2..3 Seleção de Características por Algoritmos Genéticos Os algoritmos genéticos são uma classe de técnica de busca heurística aleatória que oferecem uma metodologia de busca da solução próxima da ótima para o problema de escolha das variáveis de entrada. Esta técnica é interessante quando a busca exaustiva torna-se impraticável. A técnica de seleção de características por algoritmos genéticos envolve a atribuição de um valor real de peso para cada característica, o qual corresponde à sua relevância ou importância na tarefa de inferência. Restringindo o peso a um valor binário, o problema se reduz à seleção de um subconjunto relevante de características. Seja µ(s) a medida de desempenho usada para avaliar um subconjunto de características S com respeito a um critério de importância. Logo, a seleção de características é essencialmente um problema de otimização que envolve a busca, no espaço de possíveis subconjuntos de características, de soluções que maximizem a precisão no teste do modelo de inferência, isto é, que identifiquem a solução ótima ou perto da ótima com respeito a µ. Um exemplo desta técnica de seleção de características é o modelo desenvolvido por [YANG98], onde cada indivíduo é representado por um vetor

Capitulo II 32 binário de dimensão m, sendo m o número total de características disponíveis (Figura 2.3). Figura 2.3 Cromossoma com m genes para a seleção de variáveis. No cromossoma da Figura 2.3 o valor significa que a correspondente característica deve ser escolhida e o valor 0 indica que ela deve ser descartada. A avaliação de cada indivíduo é determinada treinando-se uma rede neural com o subconjunto de características determinado pelo cromossoma. A seleção de variáveis através de algoritmos genéticos é efetiva na busca global rápida de grandes espaços de soluções em difíceis problemas de otimização. Além disso podem facilmente fazer uso de multicritérios de seleção de características; neste caso o multicritério a ser otimizado pode incluir aproximação na inferência, medição de custo e risco de cada característica selecionada. Entretanto, esta técnica é computacionalmente custosa, já que a seleção de características por AG envolve rodar o AG para várias gerações. Em cada geração a avaliação de um indivíduo (subconjunto de características) implica treinar o correspondente modelo de inferência e calcular o desempenho; esta avaliação é efetuada para cada um dos indivíduos da população. 2.2.2 Métodos Independentes do Modelo (Model-free) Os métodos independentes do modelo são baseados na execução de testes estatísticos entre os subconjuntos das variáveis de entrada e as saídas desejadas do modelo. A idéia consiste em desenvolver um algoritmo para a seleção de entradas

Capitulo II 33 que não seja baseada num modelo particular. A Figura 2.4 resume este tipo de método. Figura 2.4 Seleção de características independentes do modelo. Um bom exemplo é apresentado em [BONN94] onde as entradas mais relevantes são achadas pela estimação da informação mútua entre as variáveis de entrada e saída desejada. Este método necessita de uma estimação numérica das densidades conjunta e marginal; uma medida da informação mútua é obtida calculando-se a distância de Kullback-Leibler das densidades estimadas. Existem diversas técnicas categorizadas como Model Free, algumas clássicas e outras mais recentes. A seguir são apresentadas algumas. 2.2.2. Análise de Componentes Principais - PCA PCA é um dos métodos estatísticos de Análise Multivariada para redução de dados de Sistemas [MARD79], [KASP92]. PCA projeta dados de um espaço

Capitulo II 34 multidimensional em um espaço de menor dimensão, cuja base é ortonormal. As componentes principais atravessam o espaço dimensional de mais baixa variabilidade. Por conseguinte, um pequeno número de componentes principais das variáveis originais pode ser usado para explicar as maiores fontes de variabilidade nos dados. PCA é um algoritmo multivariável que consegue tratar a grande dimensionalidade e colinearidade presentes nos dados por meio da projeção da informação em um espaço de menor dimensão, definido por um número L de variáveis latentes ortogonais entre si (p, p 2,..., p L ). Os vetores p i também são chamados de vetores de loading. Um novo conjunto de vetores coluna de dimensão m (v, v 2,..., v L ), chamados vetores de score, correspondem às projeções das variáveis de entrada X n nos vetores de loading, e resumem a informação contida no conjunto original de dados, na maioria dos casos sem significado físico. As novas variáveis (scores) tem a única propriedade de não ter correlação. PCA é um método ideal para a análise de bases de dados multivariáveis grandes, com alta correlação ou co-linearidade e medida de ruído. Pode ser usado para a identificação de variáveis que sejam associadas a um aumento da variabilidade no conjunto de dados, para a identificação de um subconjunto de dados com uma diferente estrutura de correlação da maioria dos dados, e para a identificação do número de fenômenos independentes que conduz à variabilidade do conjunto de dados. PCA modela um conjunto de dados através de suas componentes ortogonais ou principais, que são combinações lineares das variáveis originais. Assim não se conservam as variáveis originais após a seleção, o que prejudica a interpretabilidade de regras explicativas que utilizem essas componentes. Deste modo, este método não é adequado para ser utilizado nos Modelos NFHB.

Capitulo II 35 2.2.2.2 Análise de Componentes Independentes O conceito de análise de componentes independentes (ICA) pode ser definido como a maximização do grau de independência estatística entre as variáveis resultantes desta análise, utilizando funções de contraste aproximadas pela extensão de Edgeworth da divergência de Kullback-Leibler. Em contraste com a análise de componentes principais (PCA), que assegura que as componentes resultantes estejam sem correlação, o ICA impõe um critério muito mais forte, onde a informação mútua entre as componentes resultantes deve ser zero. ICA pode ser visto como uma extensão da Análise de Componentes Principais. Enquanto PCA pode apenas impor independência até a segunda ordem, restringindo os vetores de direção a serem ortogonais, ICA impõe independência estatística sobre as componentes resultantes deste método e não tem restrição de ortogonalidade. Na prática, uma implementação algorítmica de ICA pode apenas buscar as componentes tão estatisticamente independentes quanto possível [HAYK0]. Portanto, ICA estima a informação mútua entre sinais e ajusta uma matriz estimada de separação W para obter as componentes resultantes que sejam maximamente independentes [BACK99-], [BACK99-2], [CICH99]. Por conseguinte, um pequeno número destas novas componentes independentes das variáveis originais pode ser usado para explicar o fenômeno. ICA permite derivar um algoritmo de seleção de variáveis independentes do modelo baseado em um teste de dependência estatística. A estratégia é aplicar

Capitulo II 36 ICA para estimar a independência das entradas e então derivar um teste estatístico para determinar o subconjunto desejado de variáveis de entrada [CICH99]. ICA modela um conjunto de dados através de suas componentes independentes, as quais são combinações das variáveis originais. Estas não são conservadas após a análise, o que, da mesma forma que no caso de PCA, prejudica a interpretação de regras nos Modelos NFHB. 2.2.2.3 Correlação Cruzada Esta técnica indica quais variáveis de entrada são as mais relacionadas a uma determinada variável de saída. A correlação cruzada pode ser usada para analisar séries temporais, investigando a relação dependente no tempo entre variáveis, ou na área de controle de processos para avaliar processos dinâmicos. O coeficiente de correlação cruzada r no tempo k* t entre duas séries temporais f e g é definido pela Equação 2.2. N ( f ( i * t) f ) * ( g(( i + k) * t) g N ( f ( i * t) f ) 2 * N ( g( i * t) g) 2 Equação 2.2 onde f e g são os valores médios das séries f e g, respectivamente. Ambas as séries temporais consistem de N amostras com um período t. Os valores médios das séries temporais f e g são definidos pelas Equações 2.3 e 2.4. f = * N i = N f ( i * t) i Equação 2.3 = g = * N N g( i * t) Equação 2.4

Capitulo II 37 O máximo valor de r é quando ambos sinais são idênticos, enquanto o valor mínimo ocorre quando os sinais mostram tendência a uma completa oposição. Quando os sinais não são correlacionados r = 0. Em outras palavras, o coeficiente de correlação cruzada é uma medida de similaridade entre os dois sinais. Na prática se diz que são sinais correlacionados quando o coeficiente de correlação cruzada máximo é maior do que 0,7. Isto significa que o coeficiente de correlação quadrado é 0,5, o que implica que 50% ou mais de ambos os sinais estão correlacionados (as variações dos sinais se agregam). A análise da correlação cruzada, apesar de ser uma técnica estatística de grande alcance, restringe-se à análise univariada e não é capaz de identificar interações lineares multivariáveis dentro das entradas. Maiores detalhes podem ser encontrados em [SAN97] e [AOYA97]. 2.2.2.4 Método da Entropia Esta técnica é baseada no conceito da medida de entropia representando a aleatoriedade dentro de uma base de dados [BLUR96]. O estabelecimento de uma ordem ou estruturação dentro da base de dados diminui a medida da aletoriedade ou entropia. Assim, por exemplo, no caso de uma base de dados totalmente estruturada e ordenada, onde todos os registros correspondem a uma mesma classe, este conjunto tem um valor de entropia mínimo (zero). No caso oposto, onde se tem uma base de dados com padrões uniformemente distribuídos em cada classe (p. ex: 50% classe, 50% classe 2), a entropia possui valor máximo (). No caso de um conjunto de registros onde vários elementos pertencem a uma mesma classe, o valor da entropia associado a este conjunto será um valor entre 0 e, de acordo com a aleatoriedade da base de dados. O Método de seleção de características da entropia permite selecionar a

Capitulo II 38 característica que melhor subdivide uma base de dados em dois subconjuntos de mínima entropia. O atributo escolhido para dividir a base de dados em dois subconjuntos é denominado descritor. O descritor que consegue subdividir melhor as classes contidas na base de dados é o mais interessante [LANA00]. A medida usada para escolher os atributos que proporcionam um maior ganho de informação é [LANA00] : Ganho( X, P) = E( P) E( X, P) Equação 2.5 Onde: E(P) = valor da entropia associada à base de dados com distribuição de classes P= (p, p 2,.., p n ), onde p k é Probabilidade da classe k. E(X,P) = valor da entropia associada ao atributo de entrada X. Esta medida de ganho representa a diferença entre a informação necessária para identificar um elemento do número total de registros da base de dados P e a informação necessária para identificar um elemento do número total de registros após a obtenção do atributo X. Maior informação sobre esta técnica pode ser encontrada em [LANA00]. 2.3 Resumo Neste capítulo foram abordados os métodos estatísticos e os métodos que utilizam o paradigma de inteligência computacional, tais como: algoritmos genéticos, redes neurais e modelos híbridos neuro-fuzzy. Foram descritas também as limitações dos sistemas existentes. O próximo capítulo introduz os modelos neuro-fuzzy hierárquicos NFHB original [SOUZ99], NFHB-Class [GONÇ0], NFHB Mamdani [BEZE02].