Máquina de Vetores-Suporte Intervalar

Transcrição

1 UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE CENTRO DE TECNOLOGIA PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA Máquina de Vetores-Suporte Intervalar Adriana Takahashi Orientador: Prof. Dr. Adrião Duarte Dória Neto Co-orientador: Prof. Dr. Benjamín René Callejas Bedregal Tese de Doutorado apresentada ao Programa de Pós-Graduação em Engenharia Elétrica da UFRN, área de concentração: Engenharia de Computação como parte dos requisitos para obtenção do título de Doutor em Ciências. Natal/RN, 2012

2

3 Máquinas de Vetores Suporte Intervalar Adriana Takahashi Tese de Doutorado Prof. Dr. Adrião Duarte Dória Neto (orientador) UFRN/DCA Prof. Dr. Benjamín René Callejas Bedregal (co-orientador)... UFRN/DIMAp Prof. Dr. Jorge Dantas de Melo UFRN/DCA Prof. Dr. Aarão Lyra UnP Prof. Dra. Renata Hax Sander Reiser UFPel Prof. Dr. Tiago Alessandro Espínola Ferreira UFRPE

4 A minha família, e a Deus.

5 Agradecimentos Aos meus orientadores, professores Adrião e Benjamin, sou grata pela orientação e paciência. Aos colegas do departamento. Aos demais colegas de pós-graduação, pelas críticas e sugestões. À minha família pelo apoio durante esta jornada.

6 Resumo As máquinas de vetores suporte (SVM - Support Vector Machines) têm atraído muita atenção na área de aprendizagem de máquinas, em especial em classificação e reconhecimento de padrões, porém, em alguns casos nem sempre é fácil classificar com precisão determinados padrões entre classes distintas. Este trabalho envolve a construção de um classificador de padrões intervalar, utilizando a SVM associada com a teoria intervalar, de modo a modelar com uma precisão controlada a separação entre classes distintas de um conjunto de padrões, com o objetivo de obter uma separação otimizada tratando de imprecisões contidas nas informações do conjunto de padrões, sejam nos dados iniciais ou erros computacionais. A SVM é uma máquina linear, e para que ela possa resolver problemas do mundo real, geralmente problemas não lineares, é necessário tratar o conjunto de padrões, mais conhecido como conjunto de entrada, de natureza não linear para um problema linear, as máquinas kernels são responsáveis por esse mapeamento. Para a extensão intervalar da SVM, tanto para problemas lineares quanto não lineares, este trabalho introduz a definição de kernel intervalar, bem como estabelece o teorema que valida uma função ser um kernel, o teorema de Mercer para funções intervalares. Palavras-chave: máquinas de vetores suporte, intervalar, kernel

7 Abstract The Support Vector Machines (SVM) has attracted increasing attention in machine learning area, particularly on classification and patterns recognition. However, in some cases it is not easy to determinate accurately the class which given pattern belongs. This thesis involves the construction of a intervalar pattern classifier using SVM in association with intervalar theory, in order to model the separation of a pattern set between distinct classes with precision, aiming to obtain an optimized separation capable to treat imprecisions contained in the initial data and generated during the computational processing. The SVM is a linear machine. In order to allow it to solve real-world problems (usually nonlinear problems), it is necessary to treat the pattern set, know as input set, transforming from nonlinear nature to linear problem. The kernel machines are responsible to do this mapping. To create the intervalar extension of SVM, both for linear and nonlinear problems, it was necessary define intervalar kernel and the Mercer s theorem (which caracterize a kernel function) to intervalar function. Keywords: support vector machine, interval, kernel

8 Sumário Sumário Lista de Figuras Lista de Tabelas i iii iv 1 Introdução Apresentação e motivação Objetivos Trabalhos relacionados Organização do Trabalho Máquinas de Vetores-Suporte Máquina de Vetores-Suporte Linearmente Separável Hiperplano Ótimo para Classes Linearmente Separáveis Máquina de Vetor de Suporte Não Lineares Hiperplano Ótimo para Classes Não Linearmente Separáveis Função Kernel Considerações Matemática Intervalar Representação de Intervalos Operações Aritméticas Intervalares Propriedades Algébricas Intervalares Ordem Intervalar Função Intervalar Metrica intervalar em IR n Integral Interval R-vetoide e espaço R-vetoide intervalar Produto interno intervalar i

9 3.6.2 Autovetoide intervalar Otimização usando Análise Intervalar Otimização Linear Funcional de Lagrange Condições de Kuhn-Tucker Otimização Linear usando Computação Intervalar Otimização com restrições Condições de John Kernel Intervalar Mapeamento Função Kernel Intervalar Construção de Kernel Intervalar Fazendo Kernels de kernels Alguns Kernels Intervalares Extensão Intervalar do Kernel Gaussiano Extensão intervalar do Kernel Polinomial Máquina de Vetores-Suporte Intervalar Máquina de Vetores-Suporte Intervalares Linearmente Separáveis Máquina de Vetor de Suporte Intervalares Não Separáveis Implementações Computacionais e Resultados Implementações Computacionais e Resultados Método Intervalar: Gradiente Algumas variações: Método Intervalar: Adatron Método Intervalar: Perceptron Dual Resultados de testes Resultados da SVMI Conjunto de treinamento intervalar Conclusões Possibilidades de trabalhos futuros Referências bibliográficas 59

10 Lista de Figuras 2.1 Hiperplano de separação (w, b) para um conjunto de treinamento bidimensional Hiperplano ótimo com máxima margem ρ o de separação dos padrões linearmente separáveis Interpretação gráfica da distância x até o hiperplano ótimo para o caso bidimensional Mapeamento de características (a) O ponto (x i,d i ) se encontra na região de separação, mas do lado correto. (b) O ponto (x i,d i ) se encontra na região de separação, mas do lado incorreto. (c) O ponto (x i,d i ) se encontra fora da região de separação, mas do lado incorreto Ilustração do hiperplano ótimo intervalar Interpretação da distância de X até p hiperplano ótimo Treimanento de uma SVMI Topologia da SVMI iii

11 Lista de Tabelas 2.1 Principais kernels utilizados nas SVMs Tabela de resultados da SVMI Tabela de resultados da SVMI Problema das espirais Problema das espirais intervalar Matriz intervalar do problema das espirais intervalar para o kernel linear Matriz intervalar do problema das espirais intervalar para o kernel linear Matriz kernel do problema das espirais para o kernel polinomial Matriz intervalar do problema das espirais intervalar para o kernel polinomial Matriz kernel do problema das espirais para o kernel gaussiano Matriz intervalar do problema das espirais intervalar para o kernel gaussiano 56 iv

12 Capítulo 1 Introdução 1.1 Apresentação e motivação As máquinas de vetores suporte (SVM - Support Vector Machines) têm atraído muita atenção nos últimos anos devido a sua eficiência, comparada com outros tipos de redes neurais, em aplicações que requerem aprendizado de máquina e por estar bem fundamentado na teoria de aprendizado estatístico [Stitson et al. 1996, Pontil & Verri 1997]. A SVM pode ser usada para resolver problemas de classificação e regressão linear. Burges [Burges 1998] apresenta um tutorial sobre a SVM que trata de problemas de classificação de padrões, e em [Stitson et al. 1996, Hearst 1998], mostram-se problemas de regressão, fazendo da SVM uma abordagem abrangente para diversas aplicações que envolvem problemas de modelagem de dados empíricos. Uma propriedade especial da SVM é a minimização do risco estrutural, proveniente da teoria do aprendizado estatístico, cujo princípio se baseia no fato de que o erro de uma máquina de aprendizagem sobre os dados de teste (erro de generalização) é limitado pelo erro de treinamento mais um termo que depende da dimensão de Vapnik-Chervonenkis (dimensão VC), que é uma medida da capacidade de expressão de uma família de funções. O objetivo da SVM é a construção de um hiperplano ótimo que minimiza o risco empírico e a dimensão VC conjuntamente, e que ao maximizar a margem de separação das classes implica na minimização da dimensão VC, satisfazendo a minimização do risco estrutural. Um modelo de uma SVM pode ser descrito em simples palavras. Considerando um problema linearmente separável cujo conjunto de treinamento pode ser classificado por duas classes, uma SVM mapeia o espaço de entrada e encontra o hiperplano ótimo que maximiza a margem de separação das classes, ou duas vezes a distância mínima de cada classe ao hiperplano ótimo, cujos pontos situados sobre os extremos da máxima margem do hiperplano ótimo são denominados de vetores-suporte. Em casos reais, nem sempre os problemas são linearmente separáveis e tanto o hiperplano quanto os vetores-suporte são

13 CAPÍTULO 1. INTRODUÇÃO 2 obtidos através de um problema de otimização com restrições. Uma generalização deste conceito é utilizado para o caso não linear. O problema de classificação de padrões, que originou a formulação da SVM, pode ser resolvido por muitos outros classificadores, porém, a grande vantagem da SVM sobre outros classificadores está no hiperplano ótimo que consegue obter uma máxima margem de separação entre classes. Entretanto, mesmo com todas as vantagens e eficiência da SVM como um classificador, existem alguns casos onde não é tão simples determinar otimamente a separação entre classes distintas através de um hiperplano, seja por utilizar um conjunto de treinamento com informações imprecisas ou inconsistentes, ou por problemas de erros de arredondamentos de valores durante a execução da máquina para encontrar o hiperplano, ou por problemas de truncamento ou aproximação de procedimentos. 1.2 Objetivos Ojetivando a diversidade e os pontos fortes da SVM, o desenvolvimento deste estudo está focado na construção de uma teoria intervalar aplicada à SVM, abordando os princípios teóricos da SVM e da teoria intervalar sob a nova modelagem da SVM intervalar, que será chamado resumidamente de SVMI. Essa nova modelagem tende a oferecer uma precisão, herdada de conceitos da matemática intervalar, para controlar erros computacionais, que poderá advir de ruídos durante a aquisição dos dados de treinamento, imprecisão e informações faltosas nos dados de entrada. A contribuição científica desde estudo está em oferecer uma formalização deste novo modelo para o mundo científico, tanto de Redes Neurais, quando de qualquer outra área, que pretende obter um controle de erros computacionais, ou analisar o desempenho de métodos que gerem resultados com uma dada precisão, utilizando como classificador uma SVMI. 1.3 Trabalhos relacionados As áreas mais comuns de aplicações da SVM estão em: reconhecimento de caracteres, reconhecimento de imagens, detecção de faces em imagens e categorização de textos [Boser et al. 1992, Burges 1998, Ganapathiraju 2002, Hearst 1998, Joachims 1998, Lima 2004, Pontil & Verri 1997, Stitson et al. 1996], e entre diversos problemas de regressão [Stitson et al. 1996, Hearst 1998]. A SVM também é encontrada na literatura em problemas de multi-classificação, clas-

14 CAPÍTULO 1. INTRODUÇÃO 3 sificação de duas ou mais classes [Hsu & Lin 2002], ou estudos unindo SVMs a outras teorias, como lógica Fuzzy, máquinas de vetores de suporte fuzzy (MVSF) ou do inglês Fuzzy Support Vector Machines (FSVM) [Lin & Wang 2002]. Pesquisas mostram a SVM utilizando análise intervalar. Zhao [Zhao et al. 2005] desenvolveu uma extensão intervalar da SVM para classificação de padrões que estivessem incompletos. Através de experimentos e análises de resultados, Zhao, concluiu que o método proposto classifica novos padrões mesmo com informações incompletas, e com a utilização do conhecimento à priori pode ser reduzido os atributos em relação ao custo durante o processo de classificação. Existe também um outro estudo na teoria de aproximação, onde, Lingras [Lingras & Butz 2004] propõe o uso de duas técnicas de classificação, a SVM e teoria Rough Set, onde, busca-se interpretar o resultado da classificação da SVM em termos intervalares ou rough sets e explora-se tais vantagens. Hong [Hong & Hwang 2005] propõe utilizar SVM para regressão intervalar, partindo de uma análise de regressão fuzzy. Em [Do & Poulet n.d.] propõe-se uma análise de dados intervalares para métodos baseados no kernel. Angulo e autores [Angulo et al. 2007] utilizam análise intervalar sobre a SVM para o caso linear. A SVM desenvolvida neste trabalho consiste em uma extensão (essencialmente intervalar), caracterizando-se entre outros aspectos, pelo uso de uma métrica caracterizando-se do usual para tratamento intervalar dos dados. 1.4 Organização do Trabalho Este trabalho está organizado em capítulos da seguinte forma: Capítulo 1: traz uma breve introdução da SVM, bem como a motivação de realizar este estudo, os objetivos juntamente com as contribuições que se pretende alcançar e alguns trabalhos relacionados na área e nesta proposta. Capítulo 2: mostra a fundamentação teórica da SVM para os casos de classes linearmente separáveis e não linearmente separáveis, com o objetivo de um embasamento teórico bem esclarecido para um melhor entendimento da proposta deste estudo. Capítulo 3: apresenta a fundamentação teórica da abordagem intervalar, objetivando apresentar os conceitos básicos da matemática intervalar que serão utilizados na construção de uma máquina SVM intervalar. Capítulo 4: fornece os fundamentos básicos de conceitos de otimização, produto interno kernel e da teoria do aprendizado estatístico. Conceitos utilizados na SVM para encontrar o hiperplano ótimo calculado a partir da resolução de problemas de

15 CAPÍTULO 1. INTRODUÇÃO 4 otimização com restrições. Será mostrado também os fundamentos da otimização com uso da análise intervalar, necessário para encontrar o hiperplano que satisfaça as condições de otimização intervalar e as propriedades da SVM. Capítulo 5: formalismo da extensão intervalar de kernels, bem como o teorema que valida funções a serem consideradas válidas para serem kernels. Capítulo 6: este capítulo descreve os aspectos teóricos baseados nos capítulos anteriores, e uma definição inicial para o caso linearmente separável, detalhando com um algoritmo e a aplicação de exemplos para apresentar alguns resultados já obtidos. Capítulo 7: implementações de métodos iterativos intervalares para o treinamento de uma SVMI. Capítulo 8: considerações gerais e possibilidades de trabalhos futuros.

16 Capítulo 2 Máquinas de Vetores-Suporte As máquinas de vetores suporte, referenciado em inglês como Support Vector Machines (SVM), constituem numa técnica fundamentada na Teoria de Aprendizado Estatístico visando a proposição de técnicas de aprendizado de máquina que buscam a maximização da capacidade de generalização e a minimização do risco estrutural [Haykin 2001]. A maximização da capacidade de generalização em técnicas de aprendizado de máquina é a capacidade da máquina na classificação eficiente perante o conjunto de treinamento, e a minimização do risco estrutural é a probabilidade de classificação errônea de padrões ainda não apresentados à máquina. Na literatura é encontrado o termo máquinas de vetor de suporte ligado a problemas de classificação e regressão [Hearst 1998, Lima 2004, Stitson et al. 1996], e o termo vetores-suporte ou ainda, vetores de suporte utilizado para encontrar um hiperplano ótimo de separação, responsável pela separação de classes, ou uma função de separação com margem máxima entre classes distintas. A teoria que define rigososamente os conceitos e demonstrações matemática da função do hiperplano ótimo é a teoria de aprendizado estatístico, tratado por Vapnik como dimensão Vapnik-Chervonenkis, ou simplemente dimensão VC [Haykin 2001, Lorena & Carvalho 2003, Semolini 2002]. Essa dimensão é de fundamental importância, pois, sua estimativa correta garante o aprendizado de maneira confiável, em outras palavras, a dimensão VC engloba o princípio de minimização de risco estrutural, que envolve a minimização de um limite superior sobre o erro de generalização, tornando a máquina com uma habilidade alta para generalizar padrões ainda não apresentados. Neste capítulo será descrito uma formulação básica da SVM, apresentando a SVM para classificação do caso linearmente separável e do caso não linearmente separável.

17 CAPÍTULO 2. MÁQUINAS DE VETORES-SUPORTE Máquina de Vetores-Suporte Linearmente Separável O problema de classificação binária, problema de classificação inicial tratado pela SVM, trata da classificação de duas classes, sem perda de generalidade, através de um hiperplano ótimo à partir de um conjunto de treinamento linearmente separável. Um conjunto de treinamento é dito linearmente separável se for possível separar os padrões de classes diferentes contidos no mesmo por pelo menos um hiperplano [Haykin 2001, Semolini 2002]. Considere o conjunto de treinamento{(x i,d i )} N i=1, onde x i é o padrão de entrada para o i-ésimo exemplo e d i é a resposta desejada, d i = {+1, 1}, que representa as classes linearmente separáveis. A equação que separa os padrões através de hiperplanos pode ser definida por: w T x+b=0 (2.1) onde, w T x é o produto escalar entre os vetores w e x, em que x é um vetor de entrada que representa os padrões de entrada do conjunto de treinamento, w é o vetor de pesos ajustáveis e b é um limiar também conhecido como bias. A Figura 2.1 mostra o hiperplano de separação (w, b) em um espaço bidimensional para um conjunto de treinamento linearmente separável. Figura 2.1: Hiperplano de separação (w, b) para um conjunto de treinamento bidimensional.

18 CAPÍTULO 2. MÁQUINAS DE VETORES-SUPORTE 7 A equação (2.1) pode ser reescrita por: { w T x i + b 0, se d i =+1 w T x i + b<0, se d i = 1 (2.2) A margem de separação, distância entre o hiperplano definido na equação (2.1) e o ponto mais próximo de ambas as classes, é representado por ρ. O objetivo de uma SVM é encontrar um hiperplano que separe o conjunto de treinamento sem erro e maximize a margem de separação, sobre essa condição, o hiperplano é referido como hiperplano ótimo. A Figura 2.2 ilustra o hiperplano ótimo para um espaço de entrada bidimensional. Figura 2.2: Hiperplano ótimo com máxima margem ρ o de separação dos padrões linearmente separáveis. Considerando que w o e b o representam os valores ótimos do vetor peso e do bias, respectivamente, a equação (2.1) do hiperplano pode ser reescrita para o hiperplano como: w T o x o + b o = 0 (2.3) A função discriminante g(x)=w T o x o+ b o (2.4)

19 CAPÍTULO 2. MÁQUINAS DE VETORES-SUPORTE 8 fornece uma medida algébrica de distância r entre x e o hiperplano(w o,b o ) que pode ser representado por: x=x p + x n (2.5) onde, x p é a projeção normal de x sobre o hiperplano ótimo e x n é o vetor normal com distância r, onde, x n = r w o w o (2.6) A Figura 2.3 ilustra a distância r entre x e o hiperplano(w o,b o ), onde, r é positivo se x estiver no lado positivo do hiperplano ótimo caso contrário será negativo. Figura 2.3: Interpretação gráfica da distância x até o hiperplano ótimo para o caso bidimensional. Considerando g(x p )=0 g(x)= w T o x o+ b o = r w o (2.7) onde, através da equação (2.7) é obtido a distância r r= g(x) w o (2.8)

20 CAPÍTULO 2. MÁQUINAS DE VETORES-SUPORTE 9 O conjunto de treinamento é linearmente separável se w o e b o satisfazer a restrição { w T o x i + b o +1, se d i =+1 w T o x i+ b o 1, se d i = 1 (2.9) onde, os parâmetros w o e b o são obtidos somente através do conjunto de treinamento. A equação (2.9) pode ser reescrita por: d i (w T o x i + b o ) 1 (2.10) O pontos(x,d), onde a equação (2.10) é satisfeita para o sinal de igualdade são denominados de vetores-suporte, e são esses pontos que influenciam diretamente na localização do hiperplano ótimo de máxima margem, pois, esses pontos estão mais próximos da superfície de decisão. Considerando um ponto x (s) vetor-suporte de classe positiva d (s) = +1, então por definição: por: g(x (s) )=w T o x(s) + b o 1 para d i =+1 (2.11) Da equação (2.8), a distância do vetor de suporte x (s) até o hiperplano ótimo é dado r= wt o x (s) +b o w o = { + 1 w o se d(s) =+1 1 w o se d(s) = 1 (2.12) onde, o sinal positivo indica que x (s) pertence ao lado positivo do hiperplano ótimo e o sinal negativo o contrário. Considerando ρ a margem de separação máxima entre duas classes de um conjunto de treinamento, então: ρ= 2r= 2 w o (2.13) Logo, a equação (2.13) mede a distância entre os hiperplanos da equação (2.10), da mesma forma que a distância entre os hiperplanos w T x+b = 0 e w T x+b = 1 ou w T 1 x+b= 1 é dado por w. Como é suposto que a margem de separação é sempre maior que esta última distância, a minimização de w leva a uma maximização da margem.

21 CAPÍTULO 2. MÁQUINAS DE VETORES-SUPORTE Hiperplano Ótimo para Classes Linearmente Separáveis O hiperplano ótimo definido para os parâmetros w e b que satisfaçam as desigualdades da equação (2.10), pode ser reescrito como: d i (w T x i + b) 1 (2.14) O objetivo da SVM é encontrar um procedimento computacional que, utilizando o conjunto de treinamento{(x i,d i )} N i=1 encontra o hiperplano ótimo sujeito às restrições da equação (2.14). Este problema pode ser resolvido através do problema de otimização com restrições, minimizando a função custo Φ em relação ao vetor de peso w e satisfazendo as restrições da equação (2.14) Φ(w)= 1 2 wt w (2.15) A partir da função custo Φ da equação (2.15) pode ser formulado o problema de otimização com restrições, denominado de problema primal: Minimizar: Sujeito as restrições: 1 2 w T w d i (w T x i + b) 1, para i=1,...,n (2.16) Este é um problema clássico em otimização de programação quadrática [Hearst 1998] sob o aspecto de aprendizado de máquina. O problema de otimização analisado sob o ponto de vista de otimização de função quadrática pode ser resolvido introduzindo uma função lagrangiana, definida em termos de w e b: J(w,b,α)= 1 2 w 2 N i=1 α i (d i (w T x+b) 1) (2.17) onde, os α i são denominados de multiplicadores de Lagrange não-negativos. O problema passa a ser então a minimização da equação (2.17) em relação a w e b e maximização de α i, com α i 0. Os pontos ótimos desta esquação são obtidos diferenciando a equação (2.17) em relação a w e b e igualando os resultados a zero, obtendo as condições de otimização: Condição 1: Condição 2: J(w,b,α) w = 0 J(w,b,α) b = 0 (2.18) A aplicação das condições de (2.18) à função lagrangiana da equação (2.17) levam ao

22 CAPÍTULO 2. MÁQUINAS DE VETORES-SUPORTE 11 resultado: w= N i=1 α id i x i N i=1 α id i = 0 Substituindo a equação (2.19) em (2.17), obtém-se o problema dual de otimização: (2.19) Maximizar: Sujeito as restrições: { N i=1 α i 2 1 N i=1 N j=1 α iα j d i d j x T i x j (1) α i 0,i=1,...,N (2) N i=1 α id i = 0 (2.20) Tendo encontrado os multiplicadores de Lagrange ótimos, representados por α oi, podese calcular o vetor de peso ótimo w o através da equação (2.19): w o = N i=1 α oi d i x i (2.21) O valor do bias ótimo b o é encontrado utilizando os pesos ótimos w o encontrados na equação (2.21) e descrito como: b o = 1 w T o x(s) para d (s) = 1 (2.22) O problema dual (2.20) é formulado totalmente em termos dos padrões de treinamento, além disso, a equação a ser maximizada da equação (2.20) depende somente dos padrões de entrada. O hiperplano ótimo depende somente dos vetores de suporte, considerados os padrões mais significativos do conjunto de treinamento. Os multiplicadores de Lagrange α o > 0 (diferentes de zero) são justamente os padrões de entrada com margem igual a 1, chamados de vetores de suporte. O hiperplano ótimo é expresso em termos do conjunto de vetores de suporte descrito pela função sinal como: N SV f(x)=sgn( i=1 d i α oi x T x+b o ) (2.23) Os padrões de entrada que não são vetores de suporte não influenciam na função de decisão da escolha do hiperplano ótimo pela da SVM. Um ponto importante para este problema de otimização é que fornece solução única encontrado eficientemente, diferente de outras técnicas.

23 CAPÍTULO 2. MÁQUINAS DE VETORES-SUPORTE Máquina de Vetor de Suporte Não Lineares O problema de classificação binária, onde, classes distintas são não linearmente separáveis no espaço original, mas, com um mapeamento não linear através de um produto interno kernel transforma o espaço original em um espaço de características de dimensão maior, e, o problema que era não linearmente separável no espaço original passa-se a ser linearmente separável no espaço de características é representado pela SVM não linearmente separável ou SVM para classes linearmente separáveis no espaço de características. O espaço de características, mencionado acima, corresponde a uma representação do conjunto de treinamento, um mapeamento do espaço de entrada original em um novo espaço utilizando funções reais ϕ i,...,ϕ M. A Figura 2.4 ilustra esse conceito. Figura 2.4: Mapeamento de características. Para a construção da SVM no caso não linear, a idéia depende de duas operações matemáticas. Primeiro: o mapeamento não linear do vetor de entrada para um espaço de características de alta dimensionalidade. O teorema que trata dessa operação é o teorema de Cover [Haykin 2001], onde, as funções ϕ i são não lineares e a dimensionalidade do espaço de características M é suficientemente alta. Segundo: a construção de um hiperplano ótimo para separação das características descobertas no primeiro, uma vez que o teorema de Cover não procura o hiperplamo ótimo de separação. A fundamentação desta última operação está na teoria da dimensão VC que busca o princípio da minimização do risco estrutural [Haykin 2001, Lorena & Carvalho 2003, Semolini 2002] Hiperplano Ótimo para Classes Não Linearmente Separáveis Considerando, em uma visão geral, o problema de classificação, onde, as classes são não linearmente separáveis, a construção do hiperplano de separação, dado os padrões de

24 CAPÍTULO 2. MÁQUINAS DE VETORES-SUPORTE 13 treinamento, possivelmente gerará erros de classificação. O objetivo da SVM neste caso é encontrar um hiperplano que minimiza a probabilidade de erro de classificação junto com o conjunto de treinamento. Existem alguns casos onde, não é necessário fazer um mapeamento de características no conjunto de treinamento. Esses casos são tratados pela SVM linear com margens de separação entre classes suaves ou flexíveis (soft), pois, poderão existir pontos(x i,d i ) que violarão a equação (2.14). Esta violação pode ocorrer em três diferentes situações descritas a seguir: O ponto (x i,d i ) se encontra dentro da região de separação e no lado correto da superfície de decisão, ilustrado na Figura 2.5 (a). Neste caso, houve uma escolha incorreta do hiperplano. O ponto (x i,d i ) se encontra dentro da região de separação e no lado incorreto da superfície de decisão, ilustrado na Figura 2.5 (b). Neste caso, houve uma escolha incorreta do hiperplano de margem maior. O ponto (x i,d i ) se encontra fora da região de separação e no lado incorreto da superfície de decisão, ilustrado na Figura 2.5 (c). Figura 2.5: (a) O ponto (x i,d i ) se encontra na região de separação, mas do lado correto. (b) O ponto(x i,d i ) se encontra na região de separação, mas do lado incorreto. (c) O ponto (x i,d i ) se encontra fora da região de separação, mas do lado incorreto. Para tratar desses problemas introduz-se uma variável não negativa {ξ i } 1 i N na definição do hiperplano de separação: d i (w T x i + b) 1 ξ i (2.24)

25 CAPÍTULO 2. MÁQUINAS DE VETORES-SUPORTE 14 As variáveis ξ i são denominadas de variáveis soltas, e medem os desvios dos pontos (x i,d i ) para a condição ideal de separação de classes. Quando ξ i satisfazer 0 ξ i 1 o ponto encontra-se dentro da região de separação mas do lado correto da superfície de decisão. Quando ξ i > 1 o ponto encontra-se do lado incorreto do hiperplano de separação. Os vetores-suporte são os pontos que o resultado da equação (2.24) é igual a 1 ξ i mesmo que ξ i > 0. Ao retirar um padrão do conjunto de treinamento em que ξ i > 0 a superfície de decisão tem possibilidade de mudança, porém, ao retirar um padrão em que ξ i = 0 e o resultado da equação (2.24) for maior que 1 a superfície de decisão permanecerá inalterada. O objetivo é encontrar um hiperplano de separação onde o erro de classificação incorreta seja mínimo perante o conjunto de treinamento, podendo ser feito minimizando a equação: Φ(ξ)= N i=1 I(ξ i 1) (2.25) em relação ao vetor peso w, sujeito à restrição da equação do hiperplano de separação da equação (2.24) e a restrição sobre w T w. A função I(ξ 1) é uma função indicadora, definida por: I(ξ 1)= { 0 se ξ 0 1 se ξ>0 (2.26) A minimização de Φ(ξ) é um problema de otimização não convexo de classe NPcompleto não determinístico em tempo polinomial. Para fazer este problema de otimização matematicamente tratável, aproxima-se a função Φ(ξ) por: Φ(ξ)= N i=1 ξ i (2.27) Para a simplificação de cálculos computacionais a função a ser minimizada em relação ao vetor peso w segue: Φ(w,ξ)= 1 2 wt w+c N i=1 ξ i (2.28) onde, o parâmetro C controla a relação entre a complexidade do algoritmo e o número de amostras do conjunto de treinamento classificados incorretamente, sendo denominado de parâmetro de penalização. A minimização do primeiro termo da equação (2.28) está relacionada à minimização da dimensão VC da SVM. O segundo termo pode ser visto como um limitante superior para o número de erros no padrão de treinamento apresentados à máquina. Logo, a

26 CAPÍTULO 2. MÁQUINAS DE VETORES-SUPORTE 15 equação (2.28) satisfaz os princípios de minimização do risco estrutural. O problema de otimização em sua representação primal para encontrar o hiperplano ótimo de separação para classes não linearmente separáveis pode ser escrito como: Minimizar: Sujeito as restrições: 1 { 2 w T w+c N i=1 ξ i (1) d i (w T x i + b) 1 ξ i, para i=1,...,n (2) ξ i 0, i=1,...,n (2.29) Utilizando o método dos multiplicadores de Lagrange, pode-se formular o problema de otimização primal em seu correspondente problema dual de maneira similar à descrita na seção 2.1. Maximizar: Sujeito as restrições: { N i=1 α i 1 2 N i=1 N j=1 α iα j d i d j x T i x j (1) N i=1 d iα i (2) 0 α i C para i=1,...,n (2.30) onde, C>0éespecificado pelo usuário. A principal diferença entre o caso de classes linearmente separáveis, seção 2.1, e o caso de classes não linearmente separáveis é qua a restrição α i 0 é substituída por uma mais forte 0 α i C. O vetor de pesos ótimos w o é calculado da mesma maneira do caso de classes linearmente separáveis, equação (2.21). O bias ótimo b também segue um procedimento similar ao descrito anteriormente, equação (2.22). Existem casos também onde, é necessário mapear o espaço de entrada não linear para um espaço de características. Para realizar esse mapeamento, as funções kernel ou produto do núcleo interno são utilizadas e que serão apresentados a seguir Função Kernel Existem muitos casos onde não é possível dividir satisfatoriamente os padrões do conjunto de treinamento através de um hiperplano, mesmo observando as variáveis soltas. Para a realização desta tarefa é feito um mapeamento no domínio do espaço de entrada do conjunto de treinamento para um novo espaço, o espaço de características, usando uma função kernel apropriada. Um kernel k é uma função que recebe dois pontos x i e x j do espaço de entrada e computa o produto escalar ϕ T (x i ) ϕ(x j ) no espaço de características. O termo ϕ T (x i ) ϕ(x j ) representa o produto interno dos vetores x i e x j, sendo o kernel

27 CAPÍTULO 2. MÁQUINAS DE VETORES-SUPORTE 16 representado por: k(x i x j )=ϕ T (x i ) ϕ(x j ) (2.31) Adaptando a equação (2.21) envolvendo um espaço de características, pode ser reescrito como: w= N α i d i ϕ T (x i ) ϕ(x j ) (2.32) i, j=1 onde, o vetor de características ϕ(x i ) corresponde ao padrão de entrada x i no i-ésimo exemplo. Dessa forma, pode ser usado o produto interno k(x i,x j ) para construir um hiperplano ótimo no espaço de características sem ter que considerar o próprio espaço de características de forma explícita, observe a equação (2.32) em (5.1): N α i d i k(x i,x j ) (2.33) i, j=1 A utilização de kernels está na simplicidade de cálculos e na capacidade de representar espaços muito abstratos. As funções ϕ devem pertencer a um domínio em que seja possível o cálculo de produtos internos. No geral, utiliza-se o teorema de Mercer para satisfazê-las. Segundo o teorema, os kernels devem ser matrizes positivamente definidas, isto é, k i j = k(x i,x j ), para todo i, j= 1,...,N, deve ter auto-vetores maiores que 0. Alguns kernels mais utilizados são: os polinomiais, os gaussianos ou RBF (Radial Basis Function) e o sigmoidais. Kernel Função k(x i,x j ) Comentários Polinomial (x T i x j + 1) p p é especificado a priori pelo usuário RBF e ( 1 2σ 2 x i x j 2 ) a largura de σ 2 é especificada a priori pelo usuário Sigmoidal tanh(β 0 x T i x j + β 1 ) teorema de Mercer satisfeito somente para β 0 e β 1 Tabela 2.1: Principais kernels utilizados nas SVMs A obtenção de um classificador por meio do uso de SVMs envolve a escolha de uma função kernel apropriada, além de parâmetros desta função e do algoritmo de determinação do hiperplano ótimo. A escolha do kernel e de seus parâmetros afetam o desempenho do classificador através da superfície de decisão.

28 CAPÍTULO 2. MÁQUINAS DE VETORES-SUPORTE Considerações Algumas considerações deste capítulo. Para a SVM linear existem algumas particularidades: O problema dual é formulado somente com os padrões de treinamento. O hiperplano ótimo é definido somente pelos vetores de suporte, que são os padrões mais significativos. Os vetores de suporte são os multiplicadores de Lagrange diferentes de zero para α>0. Os padrões de entrada que não são vetores de suporte não influenciam a definição do hiperplano ótimo. Essa máquina oferece solução única e ótima, ao contrário de outras máquinas. Algumas particularidades para o caso não linear: No caso de classes não linearmente separáveis a restrição α i 0 é substituída por uma mais forte 0 α i C. O vetor de pesos ótimos w o é calculado da mesma maneira do caso de classes linearmente separáveis, w o = N i=1 α oid i x i. Para o caso onde é necessário mapear o espaço de entrada para um espaço de característica é utilizado funções de núcleo interno, as funções kernel, que devem satisfazer um teorema, chamado de teorema de Mercer.

29 Capítulo 3 Matemática Intervalar A matemática intervalar, assim como a matemática clássica, é uma ciência que estuda medidas, relações de quantidade e grandezas e possui diversos ramos, por exemplo, a aritmética intervalar, que estuda as propriedades dos números intervalares (intervalos) e suas operações. O histórico do desenvolvimento da matemática intervalar não é muito recente, possuindo diversos estudos realizados a mais de cinco décadas atrás. Norbert Wiener, considerado o pai da cibernética, em 1914, introduziu a análise de medida de aproximações [Kreinovich et al. 1998]. Na década de 30, Young publicou um estudo [Young 1931] em que dava regras para cálculos com intervalos e outros conjuntos de números reais. Outras publicações foram feitas nas décadas posteriores, mas foi com Ramon E. Moore [Moore 1966], na década de 60, que a matemática intervalar ficou mais difundida na computação, devido principalmente à sua abordagem de computação intervalar, e das técnicas para problemas computacionais. Sistemas computacionais podem ser descritos como um conjunto finito de processos que envolvem operações matemáticas para uma determinada função. O uso da matemática intervalar em sistemas computacionais consiste em buscar soluções mais eficientes para problemas computacionais, como a criação de modelos computacionais que reflitam de forma fidedigna a realidade, e também a escolha de técnicas de programação adequadas para desenvolvimento de softwares científicos a fim de minimizar erros do resultado. A qualidade do resultado computacional está diretamente associada ao conhecimento e controle do erro, que pode ocorrer no processo computacional. Esses erros são frequentemente gerados pela, propagação dos mesmos nos dados e parâmetros iniciais, truncamento e/ou arredondamento da informação. A precisão do resultado consiste então na estimativa e análise do erro, que geralmente é uma tarefa extensa, dispendiosa e nem sempre viável. O uso da matemática intervalar na computação busca garantir que no processamento, o tratamento do erro se torne o menor possível e conhecido. O processo dos métodos que fazem uso da computação intervalar, consiste na manipulação de dados ini-

30 CAPÍTULO 3. MATEMÁTICA INTERVALAR 19 ciais na forma de intervalos, computando-os, onde, cada intervalo contém um indicativo máximo de erro, antes de ser introduzido na computação. A seguir, serão abordado alguns conceitos fundamentais da aritmética intervalar encontrados na literatura em [Acióly 1991, Santos 2001, Hayes 2003, Kreinovich et al. 1998, Kulisch 1982, Kulisch & Miranker 1981, Lyra 2003, Moore 1966, Young 1931]. 3.1 Representação de Intervalos A motivação de pesquisas computacionais no desenvolvimento do campo intervalar vem da impossibilidade de representar uma informação computacional igual à informação original. Por exemplo, informações do tipo imagem, como discutida anteriomente, são representadas por funções contínuas, e na discretização, existe uma perda de informações, e a utilização intervalar possibilitará uma maior manipulação dos erros na aquisição da imagem. A noção de intervalos foi traçada inicialmente por Arquimedes quando estimou dois valores para π, e que garantia que esse intervalo continha o valor de π. A representação de intervalos no conjunto dos números reais R é denotado pelo par ordenado de números reais X =[x 1 ;x 2 ] (ou X =[x,x]), tal que x 1 x 2, e x 1 e x 2 R, e se R representa o conjunto de todos os números reais, então, X ={x R x 1 x x 2 }. Considerem as descrições deste estudo as letras maiúsculas como pontos do conjunto de intervalos reais, por exemplo, seguindo a definição acima, a letra X representa o ponto do conjunto dos intervalos de reais e x 1 é denominado de ínfimo e x 2 denominado de supremo. O conjunto intervalar dos números reais será denotado comoir. A representação de um número real exato é dado como X = [x 1 ;x 2 ], em que, x 1 = x 2, ou seja, seja X = 4, logo, 4 = [4;4]. Este tipo de intervalo é chamado de intervalo degenerado. 3.2 Operações Aritméticas Intervalares Sejam X = [x 1 ;x 2 ] e Y = [y 1 ;y 2 ], onde, X e Y IR. As operações aritméticas, tais como, adição, subtração, multiplicação e divisão em IR são definidas sobre os extremos de seus intervalos. 1. Adição Intervalar: X+Y =[x 1 + y 1 ;x 2 + y 2 ]

31 CAPÍTULO 3. MATEMÁTICA INTERVALAR Pseudo Inverso Aditivo Intervalar: X =[ x 2 ; x 1 ] 3. Subtração Intervalar: X Y =[x 1 y 2 ;x 2 y 1 ] 4. Multiplicação Intervalar: X Y =[min{x 1 y 1 ;x 2 y 1 ;x 1 y 2 ;x 2 y 2 }; max{x 1 y 1 ;x 2 y 1 ;x 1 y 2 ;x 2 y 2 }] 5. Pseudo Inverso Multiplicativo Intervalar: 0 / X X 1 = 1/X =[1/x 2 ;1/x 1 ] 6. Divisão Intervalar: 0 / Y X/Y =[min{x 1 /y 2 ;x 2 /y 2 ;x 1 /y 1 ;x 2 /y 1 }; max{x 1 /y 2 ;x 2 /y 2 ;x 1 /y 1 ;x 2 /y 1 }] 7. Quadrado Intervalar: X 2 = [x 2 1 ;x2 2 ], se 0 x 1 [x 2 2 ;x2 1 ], se x 2 0 [0,max{x 2 1 ;x2 2 }], senão 3.3 Propriedades Algébricas Intervalares Sejam X, Y, Z IR. As propriedades algébricas para as operações anteriores são, fechamento, comutativa, associativa, elemento neutro, subdistributiva, e monotônica. 1. Fechamento: Se X, Y IR, então X+Y IR Se X, Y IR, então X Y IR 2. Comutativa: X+Y = Y + X X Y = Y X 3. Associativa: X+(Y + Z)=(X+Y)+Z X (Y Z)=(X Y) Z 4. Elemento Neutro: X+[0;0]=[0;0]+X = X X [1;1]=[1;1] X = X 5. Subdistributiva: X (Y + Z) (X Y)+(X Z)

32 CAPÍTULO 3. MATEMÁTICA INTERVALAR Inclusão Monotônica: Sejam X, Y, Z e W IR, tais que, X Z e Y W. X+Y Z+W X Z X Y Z W X Y Z W. 1/X 1/Z, se 0 Z X/Y Z/W, se 0 W 3.4 Ordem Intervalar Na literatura encontramos diversas formas de definição de ordens (parciais) para intervalos. As mais conhecidas são, ordem de Moore [Moore 1966], ordem de Kulisch & Miranker [Kulisch & Miranker 1981], ordem da Informação [Acióly 1991] e ordem da Teoria dos Conjuntos. Para X,Y IR, tem-se que: 1. Ordem de Moore: X < Y =[x 1 ;x 2 ]<[y 1 ;y 2 ] x 2 < y 1 2. Ordem de Kulisch-Miranker: X Y =[x 1 ;x 2 ] [y 1 ;y 2 ] x 1 y 1 e x 2 y 2 3. Ordem da Teoria dos Conjuntos: X < Y =[x 1 ;x 2 ] [y 1 ;y 2 ] [x 1 ;x 2 ] [y 1 ;y 2 ] y 1 x 1 e x 2 y 2. Logo[x 1 ;x 2 ] [y 1 ;y 2 ]. 4. Ordem da Informação: X Y = [x 1 ;x 2 ] [y 1 ;y 2 ] [y 1 ;y 2 ] [x 1 ;x 2 ] x 1 y 1 e y 2 x 2. Logo, [x 1 ;x 2 ] [y 1 ;y 2 ]. 3.5 Função Intervalar Sejam F :IR IR e f :R R. Dizemos que F representa f ou que f é representado por F, denotado por f F, se: X IR, x X temos que f(x) F(X) A extensão dessa definição de função para X IR m e Y IR n é feita de forma natural Metrica intervalar em IR n A definição de distância entre dois pontos é formalizado utilizando o conceito de espaço métrico e onde existe uma distância ou conjunto métrica é chamado um espaço

33 CAPÍTULO 3. MATEMÁTICA INTERVALAR 22 métrico. A distância mais utilizada é a distância Euclidiana. Para o caso intervalar, pode ser visto como subconjunto der 2 suas métricas naturais seguindo: Definição 1 (Metrica de Moore) [Moore 1979] Seja D M :IR n IR n R, definido, para cada X=(X 1,...,X n ),Y=(Y 1,...,Y n ) IR n como: D M (X,Y)= n max((x i Y i ) 2,(X i Y i ) 2 ). i=1 Para n = 1, D M (X,Y) = max( X Y, X Y ). Como cada métrica, esta definição determina a noção de continuidade para funções intervalares [Acióly & Bedregal 1997]. Essa métrica não é estritamente intervalar, ou seja, a distância entre dois intervalos não é um intervalo, mas um número real, o que não parecem ser natural quando visto intervalos como representação de um número desconhecido real. Por exemplo, se só sabermos que um objeto A está em uma cidade C e uma pessoa B está em uma cidade D, mas não saber a sua posição exata nas cidades, não é realista que nós podemos fornecer a real distância entre A e B, mas apenas um intervalo. Isto motivou [Trindade et al. 2008] introduzir a noção de métricas intervalares e, particularmente, métrica intervalar para IR, chamado de distância essencialmente intervalar, que não perde as características da métrica Euclidiana quando se trata de números reais ou intervalos degenerados. Este trabalho usará essa extensão intervalar de distância para IR n. A distância essencialmente intervalar é uma função D T B : IR n IR n IR definido por D T B (X,Y)=[min{d(x,y) x X and y Y},max{d(x,y) x X and y Y}] 1 Definição 2 (Norma vetorial intervalar) Seja a norma de um número real a distância entre o ponto e a origem, a norma para um intervalo 2, X IR é definido por [X,X], if X > 0 X = [ X, X ], if X < 0 [0,max{ X, X }], senão é A definição geral da norma intervalar baseada na distância essencialmente intervalar n 1 A distância d : R n R n R é a distância Euclidiana, i.e. d(x,y) = x i y i, x = (x 1,...,x n ),y=(y 1,...,y n ) R n. 2 Note que essa definição de norma intervalar é diferente da definição usual de norma intervalar, eg.: a norma intervalar de Moore [Moore 1979]. i=1

34 CAPÍTULO 3. MATEMÁTICA INTERVALAR 23 X = D T B (X 1,[0,0]) D TB (X n,[0,0]) 2 = X X n Integral Interval Definição 3 (Integral Interval) Seja F : R IR uma função intervalar contínua e X IR. Para integral intervalar F limitado em [X,X] é definido [Moore 1966, Moore 1979, Moore et al. 2009] X onde, F(t)=F(t) e F = F(t). X X X F(t)dt =[ F(t)dt, F(t)dt] X X 3.6 R-vetoide e espaço R-vetoide intervalar Uma vez que, operação aritmética intervalar não é um campo, então também não é um espaço vetorial. A fim de considerar as propriedades do espaço vectorial para intervalos, essa definição será relaxada. Definição 4 (R-Vetoide) [Kulisch 2008] SejaR =(R,+, ) um aneloide com 0 e 1 como elementos identidade aditivo e multiplicativo, respectivamente, V =(V, ) um grupoide e : R V V. Então(R,V, ) é um espaço R-vetoide se satisfaz as seguintes condições: 1. Comutatividade de soma vetorial: X Y=Y X; 2. Vetor identidade: X 0=X; 3. α 0=0 e 0 X=0; 4. 1 X=X; 5. (X Y)=( X) ( Y); 6. (α X)=( α) X=α ( X). onde α= 1 α e 1 é o único elemento em R tal que( 1) ( 1)=1. Elementos de V são chamados de vetoides e elementos de R são chamados de escalares. Neste trabalho, vetores são distinguidos dos escalares pelo negrito. Note que todo espaço vetorial em um espaço R é um R-vetoide. Definição 5 (Matriz Interval) [Moore et al. 2009] Uma matrix X de ordem m n é uma matriz intervalar se cada elemento da matriz for um intervalo. O intervalo na linha i e coluna j é denotado por X i, j. Um vetor intervalar é uma matriz intervalar de dimensão m 1. Será adotado a notaçãomir m,n para o conjnto de matrizes intervalares de ordem m por n.

35 CAPÍTULO 3. MATEMÁTICA INTERVALAR 24 As operações aritméticas entre matrizes intervalares e intervalos com matrizes intervalares são como o caso real, mas considerando a aritmética intervalar. Será considerado o mesmo símbolo para operadores similares em IR e MIR m,n, i.e. em vez de também será usado + e em vez de também será usado. Na adição, considere a seguinte extensão de subconjunto relacionado com intervalos: seja X,Y MIR m,n, X Y se X i, j Y i, j para algum i=1,...,m e j= 1,...,n. Definição 6 Um espaço R-vetoide (R,V, ) é um espaço intervalar R-vetoide quando R=IR e V =MIR m,n para alguns m,n N. Proposição [Kulisch 2008] Seja m,n 1,IR =(IR,+, ) o aneloide de intervalos e MIR = (MIR m,n,+) o grupoide de matrizes intervalares de ordem m por n. Então (IR,MIR, ), onde : IR MIR m,n MIR m,n é um espaço R-vetoide intervalar. Na adição esse espaço R-vetoide intervalar também satisfaz a seguinte propriedades: 1. Distributividade de adição por um escalar: (α+β) X α X β X; 2. Distributividade de soma vetorial: α (X Y) α X α Y; Produto interno intervalar Definição 7 (Produtoide interno) Seja (R, V, ) um R-vetoide. Um mapeamento, : V V R é um produtoide interno se para cada X,Y V, satisfazer as seguintes propriedades: 1. Comutatividade: X,Y = Y,X. 2. Homogeneidade: α X,Y =α (X,Y) 3. Positividade: X,X 0 and X,X =0 iff X=0. Um espaço R-vectoide juntamente com um produtoide interno é chamado um espaço interno produtoide. Proposição Seja (IR,MIR m,n, ) um espaço R-vetoide intervalar e uma aplicação intervalar (função intervalar), :MIR m,n MIR m,n R definido por X,Y = n i=1 m X i, j Y i, j (3.1) j=1 Então (IR,MIR m,n,,, ) é um espaço produtoide intervalar. Este espaço interno produtoide também satisfaz a propriedade de subdistributividade, i.e. para cada X, Y, Z MIR m,n, X+Y,Z X,Z + Y,Z.

36 CAPÍTULO 3. MATEMÁTICA INTERVALAR Autovetoide intervalar Definição 8 (Autovetoide intervalar) Seja uma matriz intervalar quadratica A de ordem M R, um autovetoide é definido por: Au i = λ i u i (3.2) para i=1,,m, onde, u i é chamado de autovetoide e λ i é chamado de autovalor intervalar.

37 Capítulo 4 Otimização usando Análise Intervalar Este capítulo apresenta conceitos sobre a teoria de otimização utilizado para encontrar o hiperplano ótimo de separação de classes através da SVM. As conceituações sobre o problema de otimização "clássico"foram extraídas de [Bazaraa et al. 1993, Haykin 2001, Lorena & Carvalho 2003, Luenberger 1984] e para o problema de otimização usando análise intervalar foram extraídas de [Bliek et al. 2001, Hanses & Walster 1992, Kearfott 1996]. Será apresentado nas seções seguintes otimização de função com restrições, no contexto "clássico"e intervalar, onde, restrição intervalar é uma tecnologia alternativa desenvolvida para conjuntos contínuos, geralmente não lineares, associados com restrições sobre números reais. O termo restrição intervalar (interval constraints) é frequentemente associado com a propagação e técnicas de buscas desenvolvidas em inteligência artificial e métodos para análise intervalar [Bliek et al. 2001]. 4.1 Otimização Linear Para o problema de otimização considere: Minimizar: Sujeito a: f(x), x Ω R n g i (x) 0, i = 1,..., k h j (x) 0, j = 1,..., m (4.1) onde, f : Ω R n R é a função objetivo, g i : Ω R n R e h j : Ω R n R são utilizados para definir as restrições funcionais. A solução do problema (4.1) é denotado por: F ={x Ω:g i (x) 0;h j (x)=0}

38 CAPÍTULO 4. OTIMIZAÇÃO USANDO ANÁLISE INTERVALAR 27 A solução do problema de otimização será o ponto x F tal que não exista outro ponto x F com f(x)< f (x), denominado de mínimo global. Um problema de otimização onde a função objetivo é quadrática e as restrições lineares, é denominado de problema de otimização quadrático, ou se a função objetivo for convexo e as restrições também, é denominado de problema de otimização convexo. O caso do problema de otimização do treinamento da SVM, a função objetivo é convexa e quadrática e as restrições lineares, sendo um problema de otimização convexo quadrático. Para encontrar a solução para este tipo de problema utiliza-se a função de Lagrange, para restrições de igualdade e a condição de Kuhn Tucker para restrições de desigualdades [Hanses & Walster 1992, Haykin 2001, Martinez & Santos 1995, Semolini 2002] Funcional de Lagrange Em problemas com restrições é necessário construir uma função que englobe a função objetivo juntamente com as restrições e que sua estacionalidade defina a solução. O funcional de Lagrange pode resolver este problema definindo como uma combinação linear a função objetivo e cada uma das restrições associando ao multiplicadores de Lagrange. L(x,α)= f(x)+ onde, α i são os multiplicadores de Lagrange. m α i h i (x) (4.2) j=1 Se L(x,α) for uma função convexa em x, a condição necessária para que o ponto x seja mínimo de f(w), sujeito a restrição h j é igualando o gradiente da L em relação a x e a α: L(x,α ) x = 0 L(x,α ) α = 0 (4.3) Uma forma mais geral do problema de otimização que satisfaz tanto restrições de igualdades quanto de desigualdades pode ser generalizada da definição para otimização com restrições de igualdades, dado por: L(x,α,β)= f(x)+ k i=1 onde, α i são os multiplicadores de Lagrange. α i g i (x)+ m β i h i (x) (4.4) j=1

Exibir mais