Aprendizagem por treinamento de redes de aproximação

Documentos relacionados
Aprendizagem por treinamento de redes de aproximação Marco Henrique Terra

Aprendizagem por Treinamento de Redes Neurais

Redes Neurais. A Rede RBF. Redes RBF: Função de Base Radial. Prof. Paulo Martins Engel. Regressão não paramétrica. Redes RBF: Radial-Basis Functions

Inteligência Artificial Redes Neurais

CÁLCULO NUMÉRICO. Profa. Dra. Yara de Souza Tadano

UNIVERSIDADE DO ESTADO DE MATO GROSSO - UNEMAT. Faculdade de Ciências Exatas e Tecnológicas FACET / Sinop Curso de Bacharelado em Engenharia Elétrica

Autor: Edroaldo Lummertz da Rocha Home page: edroaldo.wordpress.com

TÓPICOS EM INTELIGÊNCIA ARTIFICIAL Redes Neurais Artificiais

Redes Neurais: MLP. Universidade Federal do Rio Grande do Norte Departamento de Engenharia de Computação e Automação

Paradigmas de Aprendizagem

PROVAS Ciência da Computação. 2 a Prova: 13/02/2014 (Quinta) Reavaliação: 20/02/2014 (Quinta)

Rede Perceptron. Capítulo 3

Aproximação da Distribuição Binomial pela Distribuição Normal

Observamos no gráfico acima que não passa uma reta por todos os pontos. Com base nisso, podemos fazer as seguintes perguntas:

UNIVERSIDADE DO ESTADO DE MATO GROSSO - UNEMAT. Faculdade de Ciências Exatas e Tecnológicas FACET / Sinop Curso de Bacharelado em Engenharia Elétrica

Renato Martins Assunção

Sistema de Inferência Fuzzy baseado em Redes Adaptativas (ANFIS) Sistema de Inferência Fuzzy

Algoritmos de Aprendizado. Formas de Aprendizado. Aprendizado Batch x Incremental. Aprendizado Batch x Incremental

CÁLCULO NUMÉRICO. Profa. Dra. Yara de Souza Tadano

3 Redes Neurais Artificiais

Rede RBF (Radial Basis Function)

Interpolação polinomial: Diferenças divididas de Newton

AGA Análise de Dados em Astronomia I 7. Modelagem dos Dados com Máxima Verossimilhança: Modelos Lineares

Algoritmos de Aprendizado

Inferência para CS Modelos univariados contínuos

Aprendizagem por gerenciamento de modelos múltiplos

UNIVERSIDADE DO ESTADO DE MATO GROSSO - UNEMAT. Faculdade de Ciências Exatas e Tecnológicas FACET / Sinop Curso de Bacharelado em Engenharia Elétrica

PUC-GOIÁS - Departamento de Computação

APROXIMAÇÃO DE FUNÇÕES MÉTODO DOS MÍNIMOS QUADRADOS

Interpolação polinomial: Polinômio de Lagrange

Análise de Regressão Linear Simples e

FILTROS NO DOMÍNIO ESPACIAL. Nielsen Castelo Damasceno

UNIVERSIDADE DO ESTADO DE MATO GROSSO - UNEMAT. Faculdade de Ciências Exatas e Tecnológicas FACET / Sinop Curso de Bacharelado em Engenharia Elétrica

Aula 19 06/2014. Integração Numérica

Redes Neurais Artificial. Prática. Inteligência Artificial

Regra de Oja. Para taxa de aprendizagem pequena, Oja aproximou. pesos para criar uma forma útil da aprendizagem

Aula 3 11/12/2013. Integração Numérica

CCI-22 FORMALIZAÇÃO CCI-22 MODOS DE SE OBTER P N (X) Prof. Paulo André CCI - 22 MATEMÁTICA COMPUTACIONAL INTERPOLAÇÃO

Testes de Hipóteses para. uma Única Amostra. Objetivos de Aprendizagem. 9.1 Teste de Hipóteses. UFMG-ICEx-EST-027/031 07/06/ :07

CÁLCULO NUMÉRICO. Profa. Dra. Yara de Souza Tadano

Unidade 08 MATLAB Neural Network Toolkit

Modelagem Computacional. Parte 8 2

Inteligência Computacional

INTEGRAL DEFINIDA APLICAÇÕES. Aula 05 Matemática II Agronomia Prof. Danilene Donin Berticelli

Aula 4 Medidas de dispersão

Tópicos Especiais: Inteligência Artificial REDES NEURAIS

2. Redes Neurais Artificiais

Inteligência Artificial. IA Conexionista: Perceptron de Múltiplas Camadas Mapas Auto-Organizáveis. Renan Rosado de Almeida

REDES NEURAIS ARTIFICIAIS

G3 de Álgebra Linear I

Gabarito P2. Álgebra Linear I ) Decida se cada afirmação a seguir é verdadeira ou falsa.

Análise de regressão linear simples. Diagrama de dispersão

Derivadas Parciais Capítulo 14

aula ANÁLISE DO DESEMPENHO DO MODELO EM REGRESSÕES

Multiplicadores de Lagrange

3 REDES CLÁSSICAS PERCEPTRON E ADALINE

Prof. Luiz Felix. Unidade II MATEMÁTICA APLICADA

( ) Aula de Hoje. Introdução a Sistemas Inteligentes. Modelo RBF (revisão) Modelo RBF (revisão)

INE Fundamentos de Matemática Discreta para a Computação

Fundamentos de Inteligência Artificial [5COP099]

Introdução aos Métodos Numéricos

Aprendizagem de Máquina

Uma Introdução a SVM Support Vector Machines. Obs: Baseada nos slides de Martin Law

POTENCIAL ELÉTRICO. Prof. Bruno Farias

3 INTERVALOS DE CONFIANÇA

Aula 2 Uma breve revisão sobre modelos lineares

étodos uméricos SISTEMAS DE EQUAÇÕES LINEARES (Continuação) Prof. Erivelton Geraldo Nepomuceno PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA

Interpolação polinomial

Interpolação polinomial: Diferenças divididas de Newton

Introdução à Redes Neurais. Prof. Matheus Giovanni Pires EXA 868 Inteligência Artificial Não-Simbólica B Universidade Estadual de Feira de Santana

MATRIZES - PARTE Definição e Manipulação de Matrizes AULA 21

Capítulo 5 Derivadas Parciais e Direcionais

3 INTELIGÊNCIA COMPUTACIONAL (IC)

Unidade II MATEMÁTICA APLICADA. Prof. Luiz Felix

Lei de Gauss. O produto escalar entre dois vetores a e b, escrito como a. b, é definido como

Mapas Auto-Organizáveis de Kohonen SOM

Resolução de sistemas de equações não-lineares: Método Iterativo Linear

A equação horária do movimento de um corpo lançado para cima em um plano inclinado por um ângulo em relação à horizontal, a partir da origem, é

étodos uméricos AJUSTE DE FUNÇÕES Prof. Erivelton Geraldo Nepomuceno PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA

CORRELAÇÃO E REGRESSÃO. Modelos Probabilísticos para a Computação Professora: Andréa Rocha. UNIVERSIDADE FEDERAL DA PARAÍBA Dezembro, 2011

EXEMPLOS Resolva as equações em : 1) Temos uma equação completa onde a =3, b = -4 e c = 1. Se utilizarmos a fórmula famosa, teremos:

ficha 2 determinantes

Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação

Resolução de sistemas de equações não-lineares: Método Iterativo Linear

Introdução aos Métodos Numéricos

VARIÁVEIS ALEATÓRIAS E DISTRIBUIÇÕES DE PROBABILIDADE

Redes Neurais MLP: Exemplos e Características

Renato Martins Assunção

Mapas Auto-Organizáveis de Kohonen SOM

Sequências e Séries Infinitas. Copyright Cengage Learning. Todos os direitos reservados.

UNIVERSIDADE DO ESTADO DE MATO GROSSO - UNEMAT. Faculdade de Ciências Exatas e Tecnológicas FACET / Sinop Curso de Bacharelado em Engenharia Elétrica

UNIVERSIDADE DO ESTADO DO RIO GRANDE DO NORTE CURSO: CIÊNCIA DA COMPUTAÇÃO DISCIPLINA: ÁLGEBRA LINEAR PROF.: MARCELO SILVA.

Algoritmos de Aprendizado. Formas de Aprendizado. Aprendizado Batch x Incremental. Aprendizado Batch x Incremental

Introdução aos Métodos Numéricos. Instituto de Computação UFF

Modelos de Regressão Linear Simples parte I

Um polinômio p de grau, com coeficientes reais na variável é dado por:

Transcrição:

Aprendizagem por treinamento de redes de Marco H. Terra Departamento de Eng. Elétrica - EESC - USP SEL 0362 - Inteligência Artificial 1

Introdução Neste capítulo, serão apresentados conceitos sobre redes de e interpolação. Estas redes podem ser vistas como um caso especial de duas camadas da noção geral de redes neurais. Estas redes podem ser treinadas através de soluções de equações lineares ou através do gradiente ascendente. Também possuem capacidade de generalização tanto quanto as redes neurais com mais camadas. O objetivo é entender como as redes de interpolação e funcionam e como apresentar à rede as informações necessárias, através das amostras, para que sejam desempenhadas as respectivas funções. SEL 0362 - Inteligência Artificial 2

Uma rede interpola ou aproxima funções de acordo com a quantidade de neurônios que ela possui. Funções gaussianas centradas em amostras fornecem boas interpolações. Suponha que se tenha uma caixa preta com várias entradas, x1... x n e uma saída u. Suponha também que se quer predizer os valores futuros de u, dada uma sequência de amostras de combinações entrada-saída. Decide-se construir uma função dos valores de entrada, y(x1. x n ) com as seguintes propriedades: o valor de y é exatamente igual à saída da caixa preta se as entradas apresentadas é uma das amostras das combinações entrada-saída; e o valor y está próximo à saída da caixa preta para as outras entradas. SEL 0362 - Inteligência Artificial 3

Uma maneira de interpolar funções é fazendo uma soma ponderada de funções, f i : s y(x 1,..., x n )= i=1 w i f i (x 1,..., x n ) Existem evidências de que cada fi deve alcançar o valor máximo ou mínimo dele quando os valores de entrada, x 1...x n, estiverem próximos aos valores de entrada considerados para a i-ésima amostra entrada-saída. Os valores de f i devem mudar de acordo com as amostras da entrada. Suponha que se considere x1...x n, os valores da entrada atual, como as coordenadas de um vetor x. Também, suponha que os valores de entrada associados com a i-ésima amostra como as coordenadas de outro vetor, c i SEL 0362 - Inteligência Artificial 4

Assim, cada amostra de entrada c i é um ponto de referência, ou centro, estabelecido pela i-ésima amostra entrada-saída. Em virtude de que cada f i depende somente de um centro, o centro estabelecido pela i-ésima amostra, cada f i especializa a influência da i-ésima amostra nas predições futuras. A questão que se coloca é a seguinte: qual função se deve escolher para g i? f i (x i )=g i ( x c i ) A função Gaussiana é a mais utilizada por duas razões: possui propriedades matemáticas atrativas e é fácil de ser controlada através de um parâmetro σ 1 2σ g i ( x c i )=e x c i 2 SEL 0362 - Inteligência Artificial 5

Figura 1. Funções Gaussianas de várias larguras determinadas por três valores de σ. SEL 0362 - Inteligência Artificial 6

Com a função Gaussiana incorporada à função interpolação, tem-se s y(x)= i=1 w i e 1 2σ x c i 2 Esta função pode ser calculada por uma rede de duas camadas sendo que o nó na segunda camada calcula uma soma ponderada das saídas dos nós da primeira camada, e cada um dos nós da primeira camada calcula uma função Gaussiana centrada em uma amostra de entrada. Tais redes são denominadas redes de interpolação. Veja um exemplo na Figura 2. SEL 0362 - Inteligência Artificial 7

Figura 2: Uma rede de interpolação. Cada nó na primeira camada responde intensamente a uma amostra na entrada. O nó da segunda camada simplesmente soma as saídas ponderadas dos nós da primeira camada. SEL 0362 - Inteligência Artificial 8

Em resumo, uma rede de interpolação é uma representação que é uma rede neural na qual: Existem duas camadas de neurônios. Cada neurônio da primeira camada calcula a Gaussiana da distância entre o vetor de entrada corrente e uma amostra do vetor de entrada. Cada neurônio da segunda camada soma as entradas dele. Os pesos entre as duas camadas são ajustados de tal maneira que cada saída do neurônio da segunda camada seja exatamente a saída desejada para cada amostra da entrada. SEL 0362 - Inteligência Artificial 9

Com um número suficiente de nós, as redes podem interpolar perfeitamente. A seguir, é apresentado um exemplo de como funcionam redes de interpolação: vamos supor que uma pessoa deseja saber como ela aproveita as férias dela em função do tempo de duração. A Tabela 1 mostra as quatro últimas férias desta pessoa, as férias com menor tempo de duração foram boas, as próximas férias, com um tempo maior de duração, foram melhores (amostra 2), as férias da amostra 3 foram terríveis e a última foi melhor que a anterior, considerando uma escala de 1 a 10. SEL 0362 - Inteligência Artificial 10

Amostra Duração (Dias) Avaliação (1-10) 1 4 5 2 7 9 3 9 2 4 12 6 Tabela 1 SEL 0362 - Inteligência Artificial 11

Suponha que se queira projetar uma rede de interpolação para predizer as avaliações de outras férias com durações distintas. Em função de que o problema possui quatro amostras, mas somente uma variável de entrada, a duração das férias, a rede de interpolação possui quatro nós e uma entrada, como mostrada na Figura 3. Com uma largura pequena σ, cada amostra tem somente influência local, com uma largura grande σ, cada amostra tem uma influência global. Dados valores para σ, é fácil calcular valores para os pesos tal que a rede de interpolação forneça resultados corretos para todas as amostras. A razão é que o número de pesos é o mesmo que o número de amostras das combinações entrada-saída, e cada combinação entrada-saída fornece uma equação envolvendo os pesos desconhecidos: SEL 0362 - Inteligência Artificial 12

Figura 3: Uma rede de interpolação para predizer as avaliações das férias dadas as durações das férias. SEL 0362 - Inteligência Artificial 13

1 2σ y 1 =w 1 e (x 1 x 1 ) 2 1 2 σ +w 2 e (x 1 x 2 ) 2 1 2σ +w 3 e (x 1 x 3 ) 2 +w 4 e 1 2σ y 2 =w 1 e (x 2 x 1 ) 2 1 2σ +w 2 e (x 2 x 2 ) 2 1 2 σ +w 3 e (x 2 x 3 ) 2 +w 4 e 1 2σ (x 1 x 4 ) 2 1 2σ (x 2 x 4 ) 2 1 2σ y 3 =w 1 e (x 3 x 1 ) 2 1 2σ +w 2 e (x 3 x 2 ) 2 1 2 σ +w 3 e (x 3 x 3 ) 2 +w 4 e 1 2σ y 4 =w 1 e (x 4 x 1 ) 2 1 2 σ +w 2 e (x 4 x 2 ) 2 1 2 σ +w 3 e (x 4 x 3 ) 2 +w 4 e 1 2σ (x 3 x 4 ) 2 1 2σ (x 4 x 4 ) 2 SEL 0362 - Inteligência Artificial 14

O procedimento de treinamento pode ser resumido da seguinte maneira: Para criar uma rede de interpolação: Para cada amostra dada, crie um nó centrado na amostra de entrada. Então, crie uma equação da seguinte maneira: Calcule a distância entre a amostra da entrada e cada um dos centros dos nós. Calcule a função Gaussiana de cada distância. Multiplique cada função Gaussiana pelos correspondentes pesos dos nós. Equacione a saída da amostra com a soma das funções Gaussianas ponderadas das distâncias. Resolva as equações para encontrar os pesos. SEL 0362 - Inteligência Artificial 15

Para três valores de σ, a tabela abaixo fornece os respectivos valores (Tabela 2) σ w 1 w 2 w 3 w 41 1 4.90 8.84 0.73 5.99 2 0.87 13.93-9.20 8.37 16-76.50 236.49-237.77 87.55 SEL 0362 - Inteligência Artificial 16

Dado um σ e um conjunto correspondente de pesos, pode-se calcular os valores para a função de interpolação e a rede correspondente não somente para as amostras das entradas consideradas, mas para qualquer entrada. As funções ilustradas na Figura 4 foram geradas a partir dos valores da Tabela 2. Note que as funções de interpolação passam pelos dias de duração das férias 4, 7, 9 e 12. SEL 0362 - Inteligência Artificial 17

Figura 4. Funções de interpolação para uma avaliação das férias do tipo Gaussiana para três valores de σ. Valores grandes e pequenos de σ produzem funções de interpolação oscilações e variações pouco representativas. SEL 0362 - Inteligência Artificial 18

Se a rede possui menos nós que amostras, nenhuma escolha de pesos pode assegurar que a rede forneça a saída correta para todas as amostras das entradas. Pode-se construir redes com menos nós que amostras, estas redes são denominadas redes de, e olham para os pesos como aproximações razoáveis. O método do gradiente ascendente é apropriado para se ajustar os pesos para aproximações razoáveis das amostras das entradas. Este método busca os valores máximos como uma medida do desempenho de uma rede de. Pode-se medir o desempenho somando-se os erros quadrados para todas as amostras das entradas. Supõe-se que o valor atual de y para uma amostra particular é ds. SEL 0362 - Inteligência Artificial 19

sendo r na equação anterior uma taxa constante, deve ser ajustada para garantir uma convergência rápida para uma solução satisfatória e evitar sobressinal e instabilidade. Em resumo, para se criar uma rede de : Quando existem poucas amostras, crie uma rede de interpolação usando o procedimento da rede de interpolação. Escolha uma taxa constante, r. Até que o desempenho seja satisfatório; Para todas as amostras das entradas, Calcule as saídas resultantes. Calcule Δw i para cada peso. Some as mudanças dos pesos para todas as amostras das entradas e altere os pesos. SEL 0362 - Inteligência Artificial 20

O objetivo é maximizar a função objetivo P, esta função alcança valor nulo quando não existe erro: P= ( y s d s ) 2 s Para maximizar a função P, deriva-se a função com relação a cada peso, w i, assim as mudanças de peso podem estar em proporção às respectivas derivadas. Através da regra da cadeia e um pouco de álgebra chega-se à seguinte fórmula para calcular as mudanças dos pesos Δ w i =r s 1 2 σ (d s y s )e x s c i 2 SEL 0362 - Inteligência Artificial 21

Suponha, para o exemplo das férias, que não se pode ter mais que dois nós na rede, assim a predição é a alternativa possível através de uma rede de, ao invés de uma rede de interpolação. Suponha também, que são estabelecidos os valores iniciais para a rede com dois nós usando as amostras da Tabela 1 para as férias com duração 7 e 12 dias, omitindo as férias com duração de 4 e 9 dias. Utilizando o método do gradiente ascendente, ajusta-se os pesos, usando todas as quatro amostras. Os resultados, após os pesos terem sido ajustados 100 vezes com uma taxa constante r = 0.1, estão resumidos na Tabela 3 e na Figura 5. w1 e w 2 reduzem o erro para as férias de 9 dias, mas acrescentam erro nas férias de 7 e 12 dias veja Figura 5. SEL 0362 - Inteligência Artificial 22

Figura 5. Quando existem menos nós que amostras, a função de não pode fornecer as amostras das saídas para todas as amostras das entradas. O gradiente ascendente pode produzir um conjunto de pesos que fornece uma razoável. SEL 0362 - Inteligência Artificial 23

w 1 w 2 c 1 c 2 Valores iniciais 8.75 5.61 7.00 12.00 Valores finais 7.33 4.47 7.00 12.00 Tabela 3 SEL 0362 - Inteligência Artificial 24

Há uma alternativa de se ajustar os centros e os pesos simultaneamente. Para isto deve-se também encontrar as derivadas parciais de P com respeito às coordenadas do centro. A fórmula para a j-ésima componente do i-ésimo centro é definida como segue: Δ c ij =r s w i (d s y s )e 1 2σ x s c i 2 1 σ (x sj c ij ) Os resultados, após serem ajustados os pesos e os centros 100 vezes com r = 0.1, são mostrados na Tabela 4. SEL 0362 - Inteligência Artificial 25

w 1 w 2 c 1 c 2 Valores iniciais 8.75 5.61 7.00 12.00 Valores finais 9.13 8.06 6.00 13.73 Tabela 4 SEL 0362 - Inteligência Artificial 26

Figura 6. Quando existem menos nós que amostras, a função de não pode fornecer as saídas exatas para todas as amostras das entradas. Ajustando ambos, pesos e centros, a é melhor que a conseguida com os ajustes individuais. SEL 0362 - Inteligência Artificial 27

Suponha que a avaliação das férias dependa da temperatura média também. A temperatura será medida em Celsius e em Fahrenheit. A quantidade de amostras continua as mesmas apenas acrescidas da temperatura média, portanto a rede possui duas entradas (duração e temperatura) e uma saída (avaliação). A Figura 7 mostra a avaliação produzida por uma rede como uma função da duração das férias para uma temperatura média de 73 F. Veja nas Tabelas 5 e 6 as temperaturas consideradas. SEL 0362 - Inteligência Artificial 28

Amostra Duração Temperatura Avaliação 1 4 70 5 2 7 75 9 3 9 45 2 4 12 90 6 Tabela 5: Temperatura em graus Fahrenheit SEL 0362 - Inteligência Artificial 29

Amostra Duração Temperatura Avaliação 1 4 21 5 2 7 24 9 3 9 7 2 4 12 32 6 Tabela 5: Temperatura em graus Celsius SEL 0362 - Inteligência Artificial 30

Figura 7. Predição da avaliação das férias versus a duração das férias para uma temperatura média de 73 F. Uma variação maior caracteriza a curva quando a temperatura não é considerada. A função derivada da temperatura em graus Celsius mostra maior influência a partir das quatro amostras. SEL 0362 - Inteligência Artificial 31

Note que a função de em graus Celsius é maior que em Fahrenheit, portanto as unidades utilizadas alteram o treinamento também. A utilização de um fator de escala para o treinamento da rede é um procedimento útil para o treinamento. SEL 0362 - Inteligência Artificial 32