Universidade Federal do Paraná Departamento de Informática. Reconhecimento de Padrões. Classificadores Lineares. Luiz Eduardo S. Oliveira, Ph.D.

Documentos relacionados
Reconhecimento Estatístico de Padrões

Classificação de Padrões

Curso de extensão, MMQ IFUSP, fevereiro/2014. Alguns exercício básicos

Aprendizagem de Máquina

INF 1771 Inteligência Artificial

Adriana da Costa F. Chaves

Estatística II Antonio Roque Aula 18. Regressão Linear

Prof. Lorí Viali, Dr.

UM NOVO MÉTODO KERNEL PARA A ANÁLISE DISCRIMINANTE DE SEQUÊNCIAS BIOLÓGICAS

CORRELAÇÃO E REGRESSÃO

3 Subtração de Fundo Segmentação por Subtração de Fundo

2 Máquinas de Vetor Suporte 2.1. Introdução

CONCEITOS INICIAIS DE ESTATÍSTICA MÓDULO 2 DISTRIBUIÇÃO DE FREQÜÊNCIA - ELEMENTOS Prof. Rogério Rodrigues

Algarismos Significativos Propagação de Erros ou Desvios

Prof. Lorí Viali, Dr.

7 - Distribuição de Freqüências

Universidade Federal do Rio de Janeiro GRADUAÇÃO /2. Modelo MLP. MLP Multi Layers Perceptron

Figura 8.1: Distribuição uniforme de pontos em uma malha uni-dimensional. A notação empregada neste capítulo para avaliação da derivada de uma

Os modelos de regressão paramétricos vistos anteriormente exigem que se suponha uma distribuição estatística para o tempo de sobrevivência.

Faculdade de Engenharia Optimização. Prof. Doutor Engº Jorge Nhambiu

NOTA II TABELAS E GRÁFICOS

Introdução a Combinatória- Aplicações, parte II

Notas Processos estocásticos. Nestor Caticha 23 de abril de 2012

Experiência V (aulas 08 e 09) Curvas características

Introdução aos Problemas de Roteirização e Programação de Veículos

Análise de Regressão. Profa Alcione Miranda dos Santos Departamento de Saúde Pública UFMA

Palavras-Chave: Métodos Interativos da Potência e Inverso, Sistemas Lineares, Autovetores e Autovalores.

INTRODUÇÃO À PROBABILIDADE. A probabilidade é uma medida da incerteza dos fenômenos. Traduz-se por um número real compreendido de 0 ( zero) e 1 ( um).

D = POLINÔMIO INTERPOLADOR DE NEWTON 1) DIFERENÇAS DIVIDIDAS 1.1) DIFERENÇAS DIVIDIDAS ORDINÁRIAS (D) Sejam n+1 pontos de uma função y = f(x):

1. CORRELAÇÃO E REGRESSÃO LINEAR

CAPÍTULO 2 DESCRIÇÃO DE DADOS ESTATÍSTICA DESCRITIVA

AULA 4. Segundo Quartil ( Q observações são menores que ele e 50% são maiores.

3.6. Análise descritiva com dados agrupados Dados agrupados com variáveis discretas

CAPÍTULO VI Introdução ao Método de Elementos Finitos (MEF)

Ministério da Educação. Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira. Cálculo do Conceito Preliminar de Cursos de Graduação

Elementos de Estatística e Probabilidades II

Reconhecimento Automático de Modulação Digital de Sinais de Comunicações

Robótica. Prof. Reinaldo Bianchi Centro Universitário FEI 2016

Q 1-1,5(Q3-Q1) < X i < Q 3 + 1,5(Q 3 -Q 1 ) Q 3 +1,5(Q 3 -Q 1 ) < X i < Q 3 +3(Q 3 -Q 1 ) Q 1 3(Q 3 -Q 1 ) < X i < Q 1 1,5(Q 3 -Q 1 )

IMPLEMENTAÇÃO DO MÉTODO DE FATORAÇÃO DE INTEIROS CRIVO QUADRÁTICO

4 Reconhecimento de Padrões

Reconhecimento de Padrões

Análise de Regressão Linear Múltipla VII

Curvas Horizontais e Verticais

MÉTODOS MULTIVARIADOS. Rodrigo A. Scarpel

Ao se calcular a média, moda e mediana, temos: Quanto mais os dados variam, menos representativa é a média.

FUNDAMENTOS DE ROBÓTICA. Modelo Cinemático de Robôs Manipuladores

Ao se calcular a média, moda e mediana, temos: Quanto mais os dados variam, menos representativa é a média.

FICHA de AVALIAÇÃO de MATEMÁTICA A 10.º Ano Versão 1

Eletromagnetismo Aplicado

2 Lógica Fuzzy Introdução

4 Sistemas de partículas

Diferença entre a classificação do PIB per capita e a classificação do IDH

CAPÍTULO 3 CALIBRAÇÃO DE FASE INTERFEROMÉTRICA

Laboratório de Mecânica Aplicada I Estática: Roldanas e Equilíbrio de Momentos

UNIVERSIDADE PRESBITERIANA MACKENZIE CCSA - Centro de Ciências Sociais e Aplicadas Curso de Economia

5 Métodos de cálculo do limite de retenção em função da ruína e do capital inicial

Capítulo 1. Exercício 5. Capítulo 2 Exercício

2 - Análise de circuitos em corrente contínua

Aprendizagem de Máquina

Gabarito da Lista de Exercícios de Econometria I

Análise de Regressão

DEFINIÇÃO - MODELO LINEAR GENERALIZADO

Mecanismos de Escalonamento

Modelo linear normal com erros heterocedásticos. O método de mínimos quadrados ponderados

PUCPR- Pontifícia Universidade Católica Do Paraná PPGIA- Programa de Pós-Graduação Em Informática Aplicada PROF. DR. JACQUES FACON

Programação Dinâmica. Fernando Nogueira Programação Dinâmica 1

SÉRIE DE PROBLEMAS: CIRCUITOS DE ARITMÉTICA BINÁRIA. CIRCUITOS ITERATIVOS.

Gestão e Teoria da Decisão

Análise Descritiva com Dados Agrupados

2010 The McGraw-Hill Companies, Inc. All rights reserved. Prof.: Anastácio Pinto Gonçalves Filho

Análise de influência

Regressão e Correlação Linear

1 a Lei de Kirchhoff ou Lei dos Nós: Num nó, a soma das intensidades de correntes que chegam é igual à soma das intensidades de correntes que saem.

Departamento de Informática. Modelagem Analítica do Desempenho de Sistemas de Computação. Modelagem Analítica. Disciplina: Variável Aleatória

Universidade da Beira Interior Departamento de Matemática. Ficha de exercícios nº2: Distribuições Bidimensionais

Covariância e Correlação Linear

Análise Complexa Resolução de alguns exercícios do capítulo 1

Classificação e Pesquisa de Dados

O problema da superdispersão na análise de dados de contagens

Breve Introdução aos Modelos Pontuais de Distribuição em Visão por Computador

1. ANÁLISE EXPLORATÓRIA E ESTATÍSTICA DESCRITIVA

Classificação Linear. André Tavares da Silva.

TEORIA DE ERROS * ERRO é a diferença entre um valor obtido ao se medir uma grandeza e o valor real ou correto da mesma.

Critério de Equilíbrio

EXPANSÃO TÉRMICA DOS LÍQUIDOS

2 Principio do Trabalho Virtual (PTV)

ALGORITMOS PARA RECONHECIMENTO DE PADRÕES

ANÁLISE DE COMPONENTES PRINCIPAIS, ANÁLISE FATORIAL: Exemplos em STATA. Prof. Dr. Evandro Marcos Saidel Ribeiro RESUMO

ESTUDO DO MÉTODO DE FATORAÇÃO DE INTEIROS CRIVO QUADRÁTICO

PROJEÇÕES POPULACIONAIS PARA OS MUNICÍPIOS E DISTRITOS DO CEARÁ

Neste capítulo abordam-se os principais conceitos relacionados com os cálculos de estatísticas, histogramas e correlação entre imagens digitais.

Medida de Quatro Pontas Autor: Mauricio Massazumi Oka Versão 1.0 (janeiro 2000)

(B) Considere X = antes e Y = depois e realize um teste t para dados pareados e um teste da ANOVA de um DBC com 5 blocos. Compare os resultados.

2 Agregação Dinâmica de Modelos de Turbinas e Reguladores de Velocidade: Teoria

Cap. 6 - Energia Potencial e Conservação da Energia Mecânica

Introdução ao Método dos Elementos Finitos: Estruturas Articuladas

Estatística I Licenciatura MAEG 2006/07

Teoria da Regressão Espacial Aplicada a. Sérgio Alberto Pires da Silva

Transcrição:

Unversdade Federal do Paraná Departamento de Informátca Reconhecmento de Padrões Classfcadores Lneares Luz Eduardo S. Olvera, Ph.D. http://lesolvera.net Objetvos Introduzr os o conceto de classfcação lnear. LDA Funções Dscrmnantes Lneares Perceptron SVM 1

Introdução Para utlzar uma função dscrmnante lnear (Lnear Dscrmnant Functon) precsamos ter: Dados rotulados Conhecer o shape da frontera Estmar os parâmetros desta frontera a partr dos dados de trenamento. Nesse caso uma reta. Introdução: Idéa Básca Rum Boa Suponha duas classes Assuma que elas são lnearmente separáves por uma frontera l(θ) Otmzar o parâmetro θ para encontrar a melhor frontera. Como encontrar o parâmetro Mnmzar o erro no trenamento O deal é utlzar uma base de valdação. 2

Introdução Funções dscrmnantes podem ser mas geras do que lneares Vamos focar em problemas lneares Mas fácl de compreender Entender a base da classfcação lnear Dferentemente de métodos paramétrcos, não precsamos conhecer a dstrbução dos dados Podemos dzer que temos uma abordagem não paramétrca. Análse Dscrmnante Lnear LDA (Lnear Dscrmnant Analyss) LDA tenta encontrar uma transformação lnear através da maxmzação da dstânca entreclasses e mnmzação da dstânca ntra-classe. O método tenta encontrar a melhor dreção de manera que quando os dados são projetados em um plano, as classes possam ser separadas. Reta rum Reta boa 3

LDA LDA Dferença entre PCA e LDA quando aplcados sobre os mesmos dados 4

Para um problema lnearmente separável, o problema consste em rotaconar os dados de manera a maxmzar a dstânca entre as classes e mnmzar a dstânca ntra-classe. LDA LDA Tutoral 1) Para um dado conjunto de dados, calcule os vetores médos de cada classe µ 1,µ 2 (centródes) e o vetor médo geral,µ. Centrode Classe +1 Centrode Classe -1 Centrode geral 5

LDA Tutoral Normalzar os dados, através da subtração dos centródes. (prors) x 0 Desta manera, contém os dados da classe, normalzados. Ou seja x -µ LDA Tutoral Calcular as matrzes de covarânca para os dados normalzados (c ) c 1 c 2 Calcular a matrz de covarânca conjunta (C) 4/7 * 0.1876 + 3/7 * 0.3141 = 0.2363 4/7 * -0.4127+ 3/7 * -0.8328 = -0.5804 C 6

LDA Tutoral Calcular a nversa de C Cnv Fnalmente, a função dscrmnante será f = µ C x 1 T k 1 µ C 1 2 µ + ln ( p ) Devemos atrbur o objeto k ao grupo que maxmze f. T LDA Tutoral Para vsualzar a transformação, basta aplcar a função dscrmnante a todos os dados 7

LDA Tutoral Taxa de Reconhecmento = 99% Exercíco Gere duas dstrbuções Classfque os dados usado LDA Verfque o mpacto da sobreposção das dstrbuções. 8

Funções Dscrmnante Lneares Em geral, uma função dscrmnante lnear pode ser escrta na forma T g( x) = w x w0 w é conhecdo como o vetor dos pesos e w 0 representa o bas Funções Dscrmnante Lneares é um hperplano Um hperplano é Um ponto em 1D Uma reta em 2D Um plano em 3D 9

Funções Dscrmnante Lneares Para duas dmensões, w determna a orentação do hperplano enquanto w 0 representa o deslocamento com relação a orgem Perceptron Um classfcador lnear bastante smples, mas bastante mportante no desenvolvmento das redes neuras é o Perceptron. O perceptron é consderado como sendo a prmera e mas prmtva estrutura de rede neural. Concebdo por McCulloch and Pts na década de 50. Dferentemente do LDA, o perceptron não transforma os dados para fazer classfcação. Tenta encontrar a melhor frontera lnear que separa os dados. 10

Perceptron x 1 x 2 w 1 w 2 w n x n w 0 y ϕ(.) ( w x w ) ϕ + = 0 y A função de atvação normalmente utlzada no perceptron é a hardlm (threshold) 1 f ( x) = 0 x 0 x < 0 A função de atvação é responsável por determnar a forma e a ntensdade de alteração dos valores transmtdo de um neurôno a outro. Perceptron:Algortmo de Aprendzagem 1. Incar os pesos e bas com valores pequenos, geralmente no ntervalo [0.3-0.8] 2. Aplcar um padrão de entrada com seu respectvo valor desejado de saída (t ) e verfcar a saída y da rede. 3. Calcular o erro da saída e = t j a 4. Se e=0, volta ao passo 2 5. Se e<>0, old w = w + e x 1. Atualzar pesos 2. Atualzar o bas b = b old + e 6. Voltar ao passo 2 Crtéro de parada: Todos os padrões classfcados corretamente. 11

Perceptron: Exemplo Consdere o segunte conjunto de aprendzagem. X 2 2 0-2 -2 1-2 2 0-1 1 1 t Nesse tpo de algortmo é mportante que os dados sejam apresentados ao algortmo de trenamento de manera ntercalada (shuffle) Perceptron: Exemplo Nesse exemplo, vamos ncalzar os pesos e bas com 0, ou seja, w =(0,0) e b = 0 Apresentando o prmero padrão (x 1 ) a rede: 2 y = hard lm [0,0] 0 = lm(0) = 1 2 + hard Calcula-se o erro e = t y = 0 1 = 1 Como o erro é dferente de 0, atualzam se os pesos e o bas old W = W + e x = [ 0,0] + ( 1[2,2]) = [ 2, 2] old b = b + e = 0 + ( 1) = 1 12

Apresentando o segundo padrão (x 2 ) a rede: 2 y = hard lm [ 2, 2] ( 1) = lm(7) = 1 2 + hard Calcula-se o erro e = t y = 1 1 = 0 Como o erro é 0, os pesos e o bas não precsam ser atualzados. Apresentando o tercero padrão (x 3 ) a rede: 2 y = hard lm [ 2, 2] ( 1) lm( 1) 0 2 + = hard = Calcula-se o erro e = t y = 0 0 = 0 Como o erro é 0, os pesos e o bas não precsam ser atualzados. Apresentando o quarto padrão (x 4 ) a rede: 1 y = hard lm [ 2, 2] ( 1) lm( 1) 0 1 + = hard = Calcula-se o erro e = t y = 1 0 = 1 old W W + e x = [ 2, 2] + (1[ 1,1]) = [ 3, 1] = old b = b + e = 1 + 1 = 0 Perceptron:Exemplo O processo acaba quando todos os padrões forem classfcados corretamente. Para esse exemplo, os pesos fnas são w=[-1,-3] e b = 2. 13

Determnando a frontera No caso b-dmensonal, a frontera de decsão pode ser faclmente encontrada usando a segunte equação W1 x b y = W Consdere o segunte exemplo, w = [1.41, 1.41], b = 0.354 Escolha duas coordenadas x, para então encontrar os y s correspondentes 2 x=[-3,3] Efeto do bas dferente de zero. Para x = -3, y = 2.74 Para x = 3, y = -3.25 SVM Proposto em 79 por Vladmr Vapnk Um dos mas mportantes acontecmentos na área de reconhecmento de padrões nos últmos 15 anos. Tem sdo largamente utlzado com sucesso para resolver dferentes problemas. 14

SVM - Introdução Como vmos anterormente, o perceptron é capaz de construr uma frontera se os dados forem lnearmente separáves. A B Mas qual a frontera que deve ser escolhda?? SVM - Introdução Suponha que a frontera escolhda é a A. Como ela está bem próxma da classe azul, seu poder de generalzação é baxo Note que um novo elemento (dados não usados no tremamento), bem próxmo de um azul será classfcado erroneamente. 15

SVM - Introdução Escolhendo a frontera B, podemos notar que o pode de generalzação é bem melhor. Novos dados são corretamente classfcados, pos temos uma frontera mas dstante dos dados de trenamento. Maxmzação da Margem O conceto por traz do SVM é a maxmzação da margem, ou seja, maxmzar a dstânca da margem dos dados de trenamento Dstânca Pequena Dstânca Grande Hperplano ótmo: Dstânca da margem para o exemplo da classe postva é gual a dstânca da margem para o exemplo da classe negatva. 16

Vetores de Suporte São os exemplos da base de trenamento mas próxmos do hperplano. O hperplano é defndo uncamente pelos vetores de suporte, os quas são encontrados durante o trenamento. Mnmzação de uma função quadrátca Alto custo computaconal. SVM: Decsão f ( x) = α y K( x, x ) + b A função de decsão pode ser descrta pela formula acma, na qual, K é a função de kernel, α e b são os parâmetros encontrados durante o trenamento, x e y são os vetores de característcas e o label da classe respectvamente. 17

Soft Margn Mesmo para dados que não podem ser separados lnearmente, o SVM anda pode ser aproprado. Isso é possível através do uso das varáves de folga (parâmetro C). Para um bom desempenho, os dados devem ser quase lnearmente separáves Soft Margn Quanto maor o número de varáves de folga (C), mas outlers serão descartados. Se C for gual, temos um problema lnearmente separável. 18

Mapeamento não Lnear A grande maora dos problemas reas não são lnearmente separáves. A pergunta então é: Como resolver problemas que não são lnearmente separáves com um classfcador lnear? Projetar os dados em um espaço onde os dados são lnearmente separáves. Espaço de entrada x ϕ( x ) Espaço de característcas Mapeamento não Lnear Projetar os dados em outra dmensão usando uma função de kernel (kernel trck). Encontrar um hperplano que separe os dados nesse espaço. Em qual dmensão esses dados seram lnearmente separáves? ϕ( x ) = ( x, x 2 ) 1D 2D 19

Kernel Trck A função que projeta o espaço de entrada no espaço de característcas é conhecda com Kernel Baseado no teorema de Cover Dados no espaço de entrada são transformados (transf. não lnear) para o espaço de característcas, onde são lnearmente separáves. O vetor ϕ( x ) representa a magem nduzda no espaço de característcas pelo vetor de entrada Exemplo 20

Exemplo Kernel Trck Permte construr um hperplano no espaço de característca sem ter que consderar o própro espaço de característcas de forma explcta. Toda vez que um produto nterno entre vetores deve ser calculado, utlza-se o kernel. Uma função de kernel deve satsfazer o teorema de Mercer para ser válda. 21

Exemplos de Kernel Tomada de Decsão SVM são classfcadores bnáros, ou seja, separam duas classes. Entretanto, a grande maora dos problemas reas possuem mas que duas classes. Como utlzar os SVMs nesses casos? Parwse, um-contra-todos 22

Parwse Consste em trenar classfcadores parwse e arranjá-los em uma árvore A competção se dá nos níves nferores, e o ganhador chegará ao nó prncpal da árvore. Número de classfcadores para q classes = q(q-1)/2. Um-Contra-Todos Aqu, o número de classfcadores é gual a q. Trena-se um classfcador c para a prmera classe, usando-se como contra exemplos as outras classes, e assm por dante. Para se obter a decsão fnal pode-se utlzar uma estratéga de votos. 23

Exercíco Utlzar a ferramente LbSVM para realzar classfcação usando SVM. 24