Relatório técnico v1.0, Dezembro 2006



Documentos relacionados
EEG - Análise e implementação do artigo: Bayesian Classification of Single-Trial Event-Related Potentials in EEG

Classificação da imagem (ou reconhecimento de padrões): objectivos Métodos de reconhecimento de padrões

Reconhecimento de Padrões Utilizando Filtros Casados

Aplicação de Ensembles de Classificadores na Detecção de Patologias na Coluna Vertebral

Figura 5.1.Modelo não linear de um neurônio j da camada k+1. Fonte: HAYKIN, 2001

Análise de componentes independentes aplicada à avaliação de imagens radiográficas de sementes

4 Avaliação Experimental

Análise de Regressão Linear Simples e Múltipla

4. RESULTADOS E DISCUSSÃO

Cálculo em Computadores trajectórias 1. Trajectórias Planas. 1 Trajectórias. 4.3 exercícios Coordenadas polares 5

Transcrição Automática de Música

Faculdade Sagrada Família

O comportamento conjunto de duas variáveis quantitativas pode ser observado por meio de um gráfico, denominado diagrama de dispersão.

Modelos Pioneiros de Aprendizado

FEUP RELATÓRIO DE CONTAS BALANÇO

Introdução ao CoolEdit c : programa de edição de som digital

1. Os métodos Não-Paramétricos podem ser aplicados a uma ampla diversidade de situações, porque não exigem populações distribuídas normalmente.

Resolução de sistemas lineares

EVOLUÇÃO DO SEGURO DE SAÚDE EM PORTUGAL

Engenharia de Software

1 Introdução. 2 Exemplo de aplicação

Modelos, em escala reduzida, de pontes e barragens. Simuladores de voo (ou de condução), com os quais se treinam pilotos (ou condutores).

Norma Interpretativa 2 Uso de Técnicas de Valor Presente para mensurar o Valor de Uso

CAPÍTULO 2. Grafos e Redes

3 Procedimento experimental

Barómetro Regional da Qualidade Avaliação da Satisfação dos Utentes dos Serviços de Saúde

DOCUMENTOS DE GESTÃO FINANCEIRA Realizado por GESTLUZ - Consultores de Gestão

Características dos Dados

Laboratório 7 Circuito RC *

4. Tarefa 16 Introdução ao Ruído. Objetivo: Método: Capacitações: Módulo Necessário: Análise de PCM e de links

Cálculo Numérico Faculdade de Engenharia, Arquiteturas e Urbanismo FEAU

Reconhecimento de Padrões. Reconhecimento de Padrões

Níveis óptimos de compensação de reactiva numa subestação da rede de transporte Sensibilidade ao modelo de carga e representação da rede

Actividade 2 Intensidade da luz

Facturação Guia do Utilizador

a) Suponha que na amostra de 20 declarações foram encontrados 15 com dados incorrectos. Construa um

Capítulo 3 Modelos Estatísticos

NOTA DE APRESENTAÇÃO

Análise Técnico/Financeira para Correção de Fator de Potência em Planta Industrial com Fornos de Indução.

NCRF 19 Contratos de construção

Organização. Trabalho realizado por: André Palma nº Daniel Jesus nº Fábio Bota nº Stephane Fernandes nº 28591

VALOR DOS DIREITOS DE PROPRIEDADE INTELECTUAL NO SECTOR CULTURAL E CRIATIVO

Astra LX Frases Codificadas Guia para o processo de Configuração de Frases Codificadas no Programa AstraLX.

FERRAMENTAS DA QUALIDADE

OUTLIERS Conceitos básicos

Análise de regressão linear simples. Departamento de Matemática Escola Superior de Tecnologia de Viseu

Notas sobre a Fórmula de Taylor e o estudo de extremos

ORIENTAÇÕES BÁSICAS PARA COMPRA DE TÍTULOS NO TESOURO DIRETO

Controle II. Estudo e sintonia de controladores industriais

M V O I V M I E M N E T N O T O D E D E C A C R A G R A G A E E D E D E N A N V A I V O I S O

Método analítico para o traçado da polar de arrasto de aeronaves leves subsônicas aplicações para a competição Sae-Aerodesign

Sumário - Introdução

Escola Superior de Tecnologia de Setúbal. Modelação e Identificação de Sistemas. Controlo. Ângelo Carmo Luis Santos

Programação em papel quadriculado

Faculdade de Engenharia Optimização. Prof. Doutor Engº Jorge Nhambiu

Aula 4 Conceitos Básicos de Estatística. Aula 4 Conceitos básicos de estatística

Artigo Março 2005 AC05102LIS/ENG Engenharia Preventiva Inspecção Periódica de Edifícios Luís Viegas Mendonça João de Sousa Rodolfo 2005 SpyBuilding

LISTA DE INTERVALO DE CONFIANÇA E TESTE DE HIPÓTESES

NOTAS PRÉVIAS I - DE APRESENTAÇÃO

Numa turma de 26 alunos, o número de raparigas excede em 4 o número de rapazes. Quantos rapazes há nesta turma?

PID control. (proportional, integral, derivative)

UNIVERSIDADE FEDERAL DE CAMPINA GRANDE CENTRO DE ENGENHARIA ELÉTRICA E INFORMÁTICA

Manual do Gestor da Informação do Sistema

Prova Escrita de Matemática A

Rede de Elementos Caóticos Acoplados Globalmente

Transformador Trifásico [de isolamento]

C5. Formação e evolução estelar

ANEMÔMETRO A FIO QUENTE

Equações Diferenciais Ordinárias

Trabalho Computacional. A(h) = V h + 2 V π h, (1)

RECONHECIMENTO DE AVES DE NOMES ONOMATOPÉICOS

M V O I V M I E M N E T N O T O D E D E C A C R A G R A G A E E D E D E N A N V A I V O I S O

Aula 2 Sistemas de Numeração (Revisão)

TÉCNICAS DE AVALIAÇÃO ECONÔMICA. comunicação técnica do CETEM Avaliação Econômica de Projetos Prof. Raul Oliveira Neto

Utilização do SOLVER do EXCEL

Processamento digital de imagens. introdução

P. P. G. em Agricultura de Precisão DPADP0803: Geoestatística (Prof. Dr. Elódio Sebem)

Resoluções comentadas de Raciocínio Lógico e Estatística SEFAZ - Analista em Finanças Públicas Prova realizada em 04/12/2011 pelo CEPERJ

Exemplos de Exercícios da Cadeira Gestão de Projectos. Qualidade e Manutenção. Ano Lectivo 2006/2007

Exp 8. Acústica da Fala

Seminário sobre energia eléctrica INOTEC

Aspectos Sócio-Profissionais da Informática

MEDIÇÃO EM QUÍMICA ERROS E ALGARISMOS SIGNIFICATIVOS

Problemas sobre Sistemas Não Lineares

fx-82ms fx-83ms fx-85ms fx-270ms fx-300ms fx-350ms

Astra LX Registro de Pacientes e Médicos Guia para o acesso aos registros de Pacientes e Médicos e eliminação de dados duplicados no AstraLX

Métodos Numéricos. A. Ismael F. Vaz. Departamento de Produção e Sistemas Escola de Engenharia Universidade do Minho aivaz@dps.uminho.

Avaliação de riscos de empréstimo: Um caso de estudo de Data Mining.

Testes (Não) Paramétricos

O ENSINO DE CÁLCULO NUMÉRICO: UMA EXPERIÊNCIA COM ALUNOS DO CURSO DE CIÊNCIA DA COMPUTAÇÃO

INSTITUTO TECNOLÓGICO

Técnicas de Computação Paralela Capítulo III Design de Algoritmos Paralelos

estudo paramétrico para otimização do projeto térmico de pequenos edifícios parte ii

4.1. UML Diagramas de casos de uso

Tensão à entrada do osciloscópio. nº divisões no ecrã 30 V... 3 V... 1,5 div 10 V... 1 V... 0,5 div 0 V... 0 V... 0 div 30 V... 1 V...

Verificação e Validação em CFD

POC 13 - NORMAS DE CONSOLIDAÇÃO DE CONTAS

Mercado de Trabalho. O idoso brasileiro no. NOTA TÉCNICA Ana Amélia Camarano* 1- Introdução

Modelização Matemática do Tremor Humano na Doença de Parkinson

Transcrição:

Relatório técnico v., Dezembro 26 Modelação auto-regressiva e classificação de sinais EEG Instituto de Sistemase Robótica DEEC Universdade de Coimbra Gabriel Pires Instituto de Sistemas e Robotica - DEEC - Coimbra Neste trabalho concebeu-se um Brain Computer Interface (BCI) de dois estados utilizando a classificação de características de modelos de Auto-Regressão (AR). Os dados experimentais consistem em sequências de sinal Electroencefálico (EEG) proveniente de duas tarefas mentais gravadas de um único indivíduo. O estudo está centrado na detecção de desvios negativos do potencial designados por Bereitschaftspotential (BP), os quais precedem o início do movimento motor voluntário. Os coeficientes do modelo AR são calculados utilizando um algoritmo de erro mínimo quadrático (LSE). Dois classificadores lineares, nomeadamente um discriminador Linear (LDF) baseado em erro mínimo quadrático e um discriminador de Fisher (FLD) foram utilizados para classificar as características da AR, utilizando apenas uma amostra para classificação ( single-trial ). Realizou-se uma pré-filtragem das sequências EEG no sentido de diminuir o erro de encaixe da AR. Comparou-se o desempenho dos classificadores em função da frequência de corte do filtro, tendo-se obtido taxas de sucesso de 92%.

Modelação auto-regressiva e classificação de sinais EEG Conteúdo Introdução. Dados EEG..............................2 Visão Geral do Sistema Implementado.............. 2 2 Evidência do sinal BP 2 3 AR - Least-Square fitting 3 4 Caracterização na Frequência 6 5 Classificação 8 5. Descrição do Método LDF (erro mínimo quadrático)....... 9 5.2 Aplicação do Classificador LDF.................. 5.3 Descrição do método Fisher.................... 5.4 Aplicação do Classificador de Fisher................ 3 6 Resultados e Conclusões 3 Instituto de Sistemas e Robótica Departamento de Engenharia Electrotécnica e de Computadores Universidade de Coimbra Coimbra Portugal tel: + fax: + http://www.isr.uc.pt/ Corresponding author: Gabriel Pires tel: 24932856 gpires@isr.uc.pt/gppires@ipt.pt http://www.isr.uc.pt/ gpires Supervisors: Prof. Urbano Nunes urbano@isr.uc.pt Prof. Miguel Castelo Branco mbranco@ibili.uc.pt

Section Introdução Introdução O sinal Bereitschaftspotential (BP) corresponde a um desvio lento e negativo do potencial cortical. Este sinal precede o início do movimento voluntário motor e ocorre mesmo que o movimento não seja efectivamente realizado. Os dados utilizados reflectem a imagem mental motora ( motor imagery ) de duas tarefas mentais: pressão de uma tecla com um dedo da mão esquerda e com um dedo da mão direita. A detecção destas duas tarefas permite implementar um BCI de dois estados de potencial utilização por pessoas com paralisia. O sinal BP tem sido utilizado por vários investigadores como objecto de estudo para BCI. Na maior parte dos trabalhos, faz-se a classificação dos sinais em apenas duas classes, ou seja, considerando apenas duas fontes motoras. Os autores seguintes utilizam o mesmo conjunto de dados aqui proposto, utilizando diversas técnicas de extracção de características e classificação: [] utiliza um classificador de Bayes com base em modelos estatísticos obtidos a priori, [2] compara o desempenho dos classificadores de Fisher, SVM e K-NN; em [3] são utilizadas características do sinal BP e do sinal de sincronização/dessincronização (ERD/ERS) extraídas com técnicas de PCA (Principal Component Analysis) e classificadas por um classificador de Fisher; [4] utiliza uma DBN ( Dynamic Bayesian Network ) com aprendizagem directa nos dados observados, sem necessidade de pontos de sincronismo com os eventos. As duas secções seguintes descrevem respectivamente os dados de treino e o sistema implementado no presente trabalho.. Dados EEG Os dados de treino são fornecidos pelo NIPS2 (Neural Information Processing Systems). Consistem em 56 ensaios de pressão de uma tecla num computador com os dedos ou do lado esquerdo ou do lado direito numa ordem e tempos definidos pela pessoa ( self-paced key typing ) e a um intervalo médio de 2. seg. Para cada ensaio, as medidas de cada eléctrodo são fornecidas no intervalo entre 62 ms e 2 ms antes da tecla ser efectivamente premida. A frequência de amostragem é de Hz pelo que cada ensaio consiste em N = 5. A tarefa consiste em detectar se a tecla foi premida pela mão esquerda ou direita, a partir da sequência de EEG. Existe um total de 46 ensaios etiquetados: 29 eventos com a mão esquerda e 94 com a mão direita e 3 eventos rejeitados devido a artefactos. A actividade cerebral foi medida em 27 eléctrodos com referência de nasion a uma frequência de Hz usando um filtro passa-banda entre.5 a 2 Hz. É utilizada a informação proveniente dos eléctrodos localizados na posição C2, C4 (hemisfério direito) e C3 (hemisfério direito) do sistema internacional -2. Para informação mais detalhada consultar [] e [5].

2 Gabriel Pires Figura : Componentes do sistema implementado..2 Visão Geral do Sistema Implementado A Fig. ilustra as várias componentes do sistema de classificação que serão descritas ao longo do relatório. Utilizando a média dos dados de treino aplicou-se um modelo de autoregressão (AR) para fazer o fitting dos eventos de origem motora esquerda e direita. A média e o erro residual da AR são caracterizados no domínio da frequência de forma a projectar um filtro que elimine toda a actividade de background que se sobrepõe aos modelos de AR. O filtro é aplicado às sequências EEG dos eventos isolados ( single-trial ) para depois se fazer o seu fitting através de modelação AR. Desta forma, obtém-se um novo conjunto de dados, em que cada sequência é caracterizada pelos coeficientes do polinómio da AR. Este novo conjunto de dados é finalmente utilizado para treinar os classificadores. A regra de decisão utiliza os resultados do classificador para classificar cada nova sequência. 2 Evidência do sinal BP O sinal BP é um sinal que precede o início de um movimento motor voluntário, mas que devido à sua elevada variância apenas se torna aparente após obter a média dos potenciais eléctricos de um elevado número de observações. A Fig. 2 mostra o desvio de potencial para alguns ensaios isolados, da qual se constata que o desvio de potencial é pouco notório, o que torna a sua detecção uma tarefa extremamente difícil. Fazendo a média dos potenciais de todos os

Section 3 AR - Least-Square fitting 3 Movimentos do lado esquerdo 8 C3 C4 9 8 C3 C4 8 C3 C4 Amplitude potencial [µv] 6 4 2 Amplitude potencial [µv] 7 6 5 4 3 Amplitude potencial [µv] 6 4 2 2 2 2 2 4 6 8 2 4 6 2 4 6 8 2 4 6 4 2 4 6 8 2 4 6 Movimentos do lado direito 9 8 C3 C4 2 C3 C4 4 2 C3 C4 7 Amplitude potencial [µv] 6 5 4 3 2 Amplitude potencial [µv] 8 6 4 2 Amplitude potencial [µv] 8 6 4 2 2 4 6 8 2 4 6 2 2 4 6 8 2 4 6 2 4 6 8 2 4 6 Figura 2: Potencial de ensaios isolados relativos aos movimentos do dedo da mão esquerda e direita. ensaios, o desvio de potencial torna-se aparente e verifica-se claramente que um movimento do dedo da mão direita induz um desvio negativo do potencial DC no cortex motor esquerdo (C3) e um movimento do dedo da mão esquerda induz um desvio negativo do potencial DC no cortex motor do hemisfério direito (C4) (ver Fig. 3). Seguindo a abordagem dos autores em [], utilizouse também o canal C2 o qual combinado com C4 permite acentuar a evidência do desvio negativo. O sinal final utilizado resulta da fórmula seguinte (ver trabalho [5] para mais detalhes): ȳ = C4 + C2 C3 2 () A Fig. 3b) representa o sinal ȳ correspondente à média de todos os eventos, a partir da qual se obtém um desvio negativo quando o movimento motor é do lado esquerdo e um desvio positivo quando o o movimento é do lado direito. 3 AR - Least-Square fitting Utilizando o sinal ȳ como modelo do sinal BP, vai-se aproximar as curvas da Fig. 3 a funções polinomiais através de auto-regressão [6]. A regressão é o Foi ainda retirada a cada um dos eventos a componente média

4 Gabriel Pires Media potenciais mao esquerda 8 Media potenciais mao direita 8 7 7 6 6 potencial [µv] 5 4 3 C3 C4 potencial [µv] 5 4 3 C3 C4 2 2 5 5 2 5 5 2 a) 3 Movimentos mao esquerda 6 Movimentos mao esquerda 2 5 4 (C2+C4)/2 C3 [µv] 2 (C2+C4)/2 C3 [µv] 3 2 3 4 2 5 5 5 2 3 5 5 2 b) Figura 3: a) Potenciais obtidos em C3 e C4 (média de todos os ensaios); b) Sinal y (média de todos os ensaios).

Section 3 AR - Least-Square fitting 5 acto de obter uma função a partir de dados de observação. Das curvas da Fig. 3 pode-se inferir que um polinómio de ordem 2 é suficiente para as descrever 2, ou seja, a curva de regressão pode ser expressa por: f(x, t) = x + x t + x 2 t 2 (2) em que x representa os parâmetros que podem ser utilizados para controlar o comportamento da função e t representa a variável independente. O modelo é então definido como: y = f(x, t) + v (3) em que v representa o erro residual, ou seja, a parte que não consegue ser predita por f(x, t) e que pode ter várias origens, nomeadamente, ruído do sensor, ruído do processo, ou escolha inadequada da curva de regressão. O objectivo da regressão é encontrar uma estimativa ˆx baseado em N observações (y n, t n ) de forma a minimizar o resíduo v n. Considerando que a curva de regressão é linear em x então o modelo pode ser escrito na forma matricial por: y = Hx + v (4) onde: y - representa o vector de medida (observações) n x - representa o vector desconhecido p (coeficientes do polinómio) H - representa a matriz que relaciona as medidas com o vector desconhecido v - representa o vector de erros Para encontrar a melhor estimativa de x pode-se seguir uma abordagem de Least-Square-Estimation (LSE), ou seja, minimizar a soma dos quadrados do erro v. A obtenção do vector x (coeficientes do polinómio) seguindo esta abordagem é descrita a seguir [7]. Seja a soma do erro quadrático: J = 2 vt v = 2 (y Hx)T (y Hx) (5) Para minimizar a expressão do erro, deriva-se em ordem a x igualando a zero: dj = (y dx Hx)T ( H) = H T y = H T Hx (6) Sendo então a melhor estimativa dada por: ˆx = [H T H] H T y (7) O erro da estimativa obtém-se a partir da diferença entre a estimativa e x: ˆx x = [H T H] H T (Hx + v) x = [H T H] H T v (8) 2 Ordem superior a 2 iria provocar um overfitting dos dados

6 Gabriel Pires A covariância do erro de estimação, P, é obtido da seguinte forma: P = ε{(ˆx x).(ˆx x) T } = ε{(ˆx x).(ˆx x) T vv T H[H T H] } = [H T H] H T ε{vv T }H[H T H] (9) Se os elementos no vector de ruído v não estiverem correlacionados entre si, então ε{vv T } é uma matriz diagonal, aqui designada por R (matriz de covariância do ruído). Se os elementos de v tiverem todos a mesma incerteza, então todos os elementos da diagonal de R são idênticos, podendo-se escrever a expressão na forma: ε{vv T } = R = Iσ 2 () em que σ é o valor médio quadrático de cada elemento do vector v. A equação (9) pode ser re-escrita na forma: P = [H T H] σ 2 () Pegando na série temporal do sinal y vai-se aplicar a fórmula de estimação para obter os coeficientes do polinómio de 2 a ordem: y i = a + a t i + a 2 t 2 i + v i (2) em que o índice i(i =,, n) corresponde ao índice da amostra da série temporal. A partir da equação (4) o processo é descrito na forma matricial: y t t 2 v y 2. = t 2 t 2 a 2 a v 2 + (3)... a. y n t n t 2 2 n v n Aplicando a equação de estimação (8) obtêm-se respectivamente os coeficientes do polinómio para os eventos motores do lado esquerdo e direito: +.5875 ˆx left = +.43.7255 ˆx right =.35 (4).3 +.4 A Fig. 4a)b) apresenta as curvas dos polinómios para o sinal ȳ esquerdo e direito e respectivos erros v. Os polinómios obtidos serão entendidos como os modelos de referência para classificar as duas fontes motoras. 4 Caracterização na Frequência O erro v, considerado o ruído das observações, será agora caracterizado no domínio da frequência de forma a ser eliminado por filtragem. Esse ruído

Section 4 Caracterização na Frequência 7 Potencial [µv] 4 2 2 4 Fit de uma parábola nos dados método LS 6 2 4 6 8 2 4 6 Amostras Potencial [µv] 6 4 2 2 Fit de uma parábola nos dados método LS 4 2 4 6 8 2 4 6 Amostras 2 Ruido (v) [µv].5.5 Ruido (v) [µv] 2 4 6 8 2 4 6 Amostras 2 2 2 4 6 8 2 4 6 Amostras a) b) Fit de uma parábola nos dados método LS 2 Fit de uma parábola nos dados método LS Potencial [µv] Potencial [µv] 2 2 4 6 8 2 4 6 Amostras 2 2 2 4 6 8 2 4 6 Amostras 2 Ruido (v) [µv] Ruido (v) [µv] 2 2 4 6 8 2 4 6 Amostras 2 2 4 6 8 2 4 6 Amostras c) d) Figura 4: a) LS fit da média dos ensaios para os eventos do lado esquerdo; b) LS fit da média dos ensaios para os eventos do lado direito; c) LS fit de ensaio isolado de evento do lado esquerdo; c) LS fit de ensaio isolado de evento do lado direito. corresponde a toda a actividade de background que se sobrepõe ao sinal BP. Na Fig. 5a) pode-se observar o espectro de frequência do sinal ȳ e o respectivo erro de observação relativamente aos polinómios obtidos. O desvio de potencial é um sinal de frequência abaixo dos 2.5 Hz. Acima dessa frequência considerou-se que o espectro era respeitante à actividade de background. Escolhendo um evento ao acaso, caracterizou-se também o seu espectro bem como o espectro do erro associado ao LS fit do ensaio isolado (Fig. 5b)). No ensaio isolado verifica-se claramente a presença de uma elevada componente espectral na banda do ritmo α. Para além disso, observa-se que o espectro da sequência temporal é semelhante ao espectro do ruído de observação, o que denota a elevada variação do sinal de um único ensaio, ou seja, um erro de observação elevado relativamente ao LS fit. De forma a remover a actividade de background aplicou-se um filtro passa-baixo de ordem N = 8 com frequência de corte de aproximadamente fc = 5Hz, de forma a evidenciar os desvio de

8 Gabriel Pires Potência y 2 5 5 FFT media do sinal y Movimentos esquerda antes do filtro depois do filtro Potência y 8 6 4 2 FFT sinal y Movimento esquerda antes do filtro depois do filtro Potência v 2 3 4 5 Frequência [Hz] FFT do erro v.5.5 antes do filtro depois do filtro Potência v 2 3 4 5 Frequência [Hz] FFT do erro v 8 6 4 2 antes do filtro depois do filtro 2 3 4 5 Frequência [Hz] 2 3 4 5 Frequência [Hz] a) b) Figura 5: a) FFT da média dos ensaios ȳ e do sinal v; b)fft de um único ensaio y j e do sinal v j. potencial do sinal BP e consequentemente diminuir o erro de observação relativamente ao LS fit. O processo de classificação poderá vir a beneficiar da redução do erro de LS fit. Utilizou-se o filtro de yulewalk o qual implementa um filtro recursivo digital IIR através de LS fit. O sinal y relativo a cada ensaio passou pelo filtro Passa-Baixo antes de lhe ser aplicado o modelo de regressão polinomial. Foi obtido um novo conjunto de treino etiquetado em que cada sequência y foi substituída pelos coeficientes da sua regressão polinomial. Este conjunto de treino irá posteriormente ser utilizado para treinar o classificador. 5 Classificação Apresentam-se 2 métodos de classificação baseados em funções discriminantes lineares (LDF - Linear Discriminant Function ) [8] [9]. A função discriminadora aprece na forma: g i (x) = w T i x + w i i =, 2,, c (5) em c corresponde ao número de classes. As regiões de decisão correspondem a hiperplanos. Conceptualmente, um vector de características x de dimensão d é reduzido a uma única dimensão que é depois utilizado para classificação. Seguem-se 2 abordagens: a primeira consiste em obter o hiperplano de separação directamente no espaço R d em que que d corresponde à dimensão do vector de características x (esta abordagem será aqui designada genericamente como LDF pelo método de erro mínimo quadrático - LSE); a segunda abordagem envolve uma projecção do espaço de dimensão d para uma linha apropriada, reduzindo assim o vector de características a uma única medida (nesta

Section 5 Classificação 9 abordagem utilizar-se-á o método de Fisher designado por Fisher Linear Discriminant - FLD). Duda [8] demonstra que para o caso do classificador de duas classes, classificador FLD é equivalente ao classificador LDF obtido com a técnica do erro mínimo quadrático. 5. Descrição do Método LDF (erro mínimo quadrático) O método LDF utiliza como função de critério a minimização da soma do erro mínimo quadrático que envolve todas as de treino. O problema consiste em encontrar a solução de um conjunto de equações lineares. O tratamento de equações lineares simultâneas é simplificado pela introdução de notação matricial 3. Seja Y uma matriz n ˆd ( ˆd = d+ representa matriz Y aumentada, em que o estado aumentado corresponde a um vector target t n,k ) em que a linha i representa o vector yi T e b é um vector coluna b = [b,, b n ]. O problema consiste em encontrar um vector de pesos a que satisfaça Y a = b: Y Y Y d Y 2 Y 2 Y 2d... Y n Y n Y nd a a. a d = Se Y for não singular, a solução é rapidamente obtida através de: b b 2. b n (6) a = Y b (7) No entanto, a matriz Y é rectangular com mais linhas que colunas. Existindo mais equações que parâmetros desconhecidos, a é sobre-determinado, não existindo por isso uma solução exacta. Pode-se no entanto encontrar um vector a que minimize uma função do erro entre Yb e b. Seja o erro definido pelo vector: e = Ya b (8) então uma abordagem consiste em minimizar o quadrado da distância do vector de erro. Este procedimento corresponde a minimizar uma função de critério igual ao somatório do erro quadrático: n J s (a) = Y a b 2 = (a T y i b i ) 2 (9) em que. 2 é a norma Euclidiana. O problema de minimização da soma do erro quadrado é clássico e semelhante ao apresentado atrás na secção 3. Uma solução corresponde igualar a derivada da função J s (a) a zero: n J s = 2(a T y i b i )y i = 2Y T (Y a b) = (2) i= 3 A dedução descrita nesta subsecção reproduz o exposto em [8] i=

Gabriel Pires Obtendo-se assim: Y T Y a = Y T b (2) Desta forma, o resultado obtido é extremamente vantajoso pois obteve-se uma matriz Y T Y quadrada e geralmente não singular, podendo-se obter a sua inversa. Caso seja não singular, a solução a obtida é: a = (Y T Y ) Y T b = Y b (22) onde Y é chamada a pseudo-inversa de Y. Se Y for uma matriz quadrada não singular, a inversa regular coincide com a pseudo-inversa. A pseudo-inversa Y é definida mais genericamente por: Y lim ɛ (Y T Y + ɛi) Y T (23) Demonstra-se que este limite existe sempre e que a = Y b é uma solução de mínimo erro quadrado de a = Y b. 5.2 Aplicação do Classificador LDF Pretende-se aplicar o classificador LDF para distinguir o sinal BP em duas classes: sinal induzido pelo movimento do lado esquerdo e direito, respectivamente, classe w e w 2. As do conjunto de treino encontram-se numeradas de n =,, N s, em que N s é o número total de, existindo N e etiquetadas com w e N d etiquetadas com w 2. A classe verdadeira de cada amostra denota-se por θ n. Aplicando directamente o resultado obtido na secção anterior, nomeadamente pela equação (23), o vector P LS que minimiza a soma do erro mínimo quadrático é dado por: P LS = (Y T Y ) Y T T (24) em que Y é matriz de estado aumentado correspondente ao conjunto de treino obtido na secção 4 (coeficientes do polinómio de 2 a ordem com pre-filtragem). O vector T corresponde ao vector de target que representa a reposta desejada do discriminador. Este é aplicado na sua forma mais simples, ou seja: t n,k = { se θ n = w k se não (25)

Section 5 Classificação Colocando todos os dados na forma matricial o problema é colocado na seguinte forma: a a Y 2 a 2 a 2 Y 22.... p a Ne a Ne Y 2Ne p a a Y 2 p 2 = (26) a 2 a 2 Y 22 p 3.... a Nd a Nd Y 2Nd O resultado obtido é de P =. 7.3 2749.2 A função discriminante linear pode ser descrita como: 5.3 Descrição do método Fisher (27) g(y) = p + p T y (28) O método de Fisher é baseado na projecção dados de dimensão d numa única linha. Esta abordagem é especialmente interessante quando a dimensão do vector de características é grande. Apresenta-se de seguida algumas partes do método de Fisher (para uma dedução completa do método veja [9] e []). Seja o conjunto de treino para o caso de duas classes: H = {x, x 2,, x n } = {H, H 2 } (29) dividido em n vectores pertencentes à classe H e n 2 vectores pertencentes à classe H 2, sendo n + n 2 = n. As projecções de cada vector de características é realizado através de: y i = w T + x i i =, 2,, n (3) Cada y i é a projecção de x i numa linha na direcção de w. Esta linha passa sempre pela origem em R d. O problema consiste em descobrir qual a melhor direcção de w, de forma a que valores y i de classes diferentes caiam em clusters diferentes. Seja a média das /características dada por: m i = n i x H i x i (3)

2 Gabriel Pires A projecção da média para cada classe é um escalar dado por: m i = x i = w T m i (32) n i w T x H i A diferença entre a projecção das médias é obtido a partir de: m m 2 = w T (m m 2 ) (33) A diferença entre a projecção das médias não é suficiente para obter um bom classificador, tendo de se calcular também as respectivas variâncias. Uma melhor medida de separação de classes, é fornecida pela função de critério seguinte (para o caso de 2 classes): J(w) = ( m m 2 ) 2 σ 2 + σ 2 2 (34) em que σ 2 i representa a variância. Fisher propõe como alternativa às variâncias, o uso de matrizes/vectores scatter: s 2 i = y Y i (y m i ) 2 (35) em que y i é o vector de projecção de x i. A função de critério resultante é dada por: J(w) = ( m m 2 ) 2 (36) s 2 + s 2 2 O problema põe-se agora em determinar a direcção de w tal que a função critério atinja um máximo, o qual é obtido derivando a função critério: A solução é dada por: J w = (37) ŵ = 2 k(σ + Σ 2 ) (m m 2 ) (38) em que valor k é um factor de escala e Σ i a covariância. Este resultado é semelhante ao obtido com o classificador Bayesiano para o caso Gaussiano. A equação (38) aparece, no entanto, mais frequentemente na forma: ŵ = S w (m m 2 ) (39) em que S W é designada por matriz de scatter 4 igual a S W = S + S 2 em que S i é dado por: S i = x H i (x m i )(x m i ) T (4) 4 Que como já se viu atrás esta matriz tem uma relação directa com a covariância, mais exactamente corresponde à covariância vezes n i (ou seja, não é feita a média das covariâncias de cada vector de observação)

Section 6 Resultados e Conclusões 3 5.4 Aplicação do Classificador de Fisher O classificador é obtido aplicando directamente a equação (39). O valor óptimo de w é dado por:. Ŵ =.999 (4) 3.778 6 Resultados e Conclusões Os testes foram realizados da seguinte forma. Do conjunto de dados EEG, retiraram-se observações dos eventos motores do lado esquerdo e observações dos eventos do lado direito, os quais, devidamente etiquetados, foram utilizados para treinar o classificador. Os restantes dados, 9 e 94 respectivamente das observações dos eventos do lado esquerdo e direito foram utilizados para teste. A tabela compara o resultado dos classificadores aplicados aos polinómios extraídos de cada sequência sem pre-filtragem. O discriminador de Fisher foi utilizado seguindo 2 abordagens: a primeira é a apresentada na secção 5.4 a qual consiste em aplicar o classificador aos coeficientes do modelo AR (esta abordagem será designada FLD-); a segunda abordagem utiliza directamente as de cada sequência temporal (sem modelação AR). Esta abordagem só é possível porque o discriminador de Fisher reduz cada vector de dimensão d a um escalar (esta abordagem será designada FLD-2). Comparando os resultados dos classificadores LDF e FLD- com o classificador Bayesiano obtido em [5] verifica-se que o resultado do FLD- foi superior. O FLD-2 teve no entanto um resultado bastante inferior e o LDF um resultado ligeiramente inferior. De seguida testaram-se os classificadores LDF e FLD- com pré-filtragem (Fig. 2). Comparou-se o desempenho em função da frequência de corte. A filtragem melhorou claramente a taxa de sucesso do classificador LDF. A frequência de corte que apresenta melhores resultados ronda os 5 Hz. Este valor era previsível, uma vez que com esta frequência de corte, o erro de fitting é eliminado mantendo a componente de baixa frequência correspondente ao desvio de potencial intacta. A melhoria é ligeira para o discriminador de Fisher. Classificador LDF FLD - FLD - 2 Bayes Sem Pre-filtragem 82.77 % 89.22 % 66.75 % 84.45 % Tabela : Taxa de sucesso dos classificadores sem filtragem No discriminador de Fisher FLD-2, o objectivo não consiste em eliminar o erro de fitting, pois não existe uma modelação AR. Ao aplicar um filtro com

4 Gabriel Pires Classificador Freq. Corte LDF FLD- 2. Hz 88.6 % 88.6 % 2.5 Hz 89.67 % 89.67 % 3 Hz 9.39 % 89.33 % 5 Hz 89.76 % 9.8 % Hz 89.44 % 88.9 % 5 Hz 89.44 % 89.44 % Tabela 2: Taxa de sucesso dos classificadores LDF e FLD- com pre-filtragem em função da frequência de corte frequência de corte da ordem dos 5Hz está-se a eliminar componentes importantes na banda de ritmo α, as quais fornecem características importantes na classificação. O melhor resultado aparece para uma frequência de corte de cerca de 5 Hz, o que indicia a pouca relevância de ritmos acima da banda α (ver tabela 4). A taxa de sucesso é semelhante aos casos anteriores. Classificador Freq. Corte FLD-2 s/ filt 66.75 % 2.5 Hz 42.9 % 5 Hz 89.59 % 25 Hz 88.39 % Tabela 3: Taxa de sucesso do classificador FLD-2 com pre-filtragem em função da frequência de corte A Fig. 6 apresenta os valores de saída g(x) R dos discriminadores LDF e FLD-2, em vez de apresentar apenas a classificação correcta/incorrecta (/). Estes dados fornecem informação relevante, indicando se a classificação ocorre em situações fronteira ou não, ou seja, dão uma ideia da sua robustez. Pela figura podem-se tirar alguma conclusões. Quando a sequência é mal classificada, o valor de saída do discriminador encontra-se junto à fronteira. Esta situação verifica-se mais frequentemente na classificação incorrecta dos eventos do lado direito do que do lado esquerdo. Por outro lado, verifica-se que os valores de discriminação das observações dos eventos esquerdos são muito mais variáveis, apesar das médias dos valores de classificação serem semelhantes (linhas horizontais). Quando os valores de classificação se aproximam da fronteira de separação, faz sentido tentar diminuir a incerteza do classificador. Uma abordagem para aumentar a taxa de eficácia do classificador pode passar por utilizar adicionalmente informação da potência do sinal ERD/ERS. Esta característica pode ser adicionada para treinar o classificador (esta abordagem

Section 6 Resultados e Conclusões 5 2 LDF.5 FLD.5.4.3 Saida do discriminador.5.5 Saida do discriminador.2...2.5.3 2 2 4 6 8 2 Observações de teste.4 2 4 6 8 2 Observações de teste a) b) Figura 6: a) Saída do discriminador. a) Discriminador LDF; b)discriminador FLD. poderá ser alvo de estudo num trabalho futuro). Sabe-se que o sinal BP é composto essencialmente por duas subcomponentes. A componente mais básica ocorre entre os a 5 ms antes do início do movimento motor e é designada por early BP. A segunda componente ocorre cerca de 5 ms antes do início do movimento e caracterizase por um desvio negativo mais acentuado designado por late BP. Este efeito é visível por observação da Fig. 2. Tirando partido deste fenómeno, vai-se utilizar apenas os dados relativos ao late BP para melhorar a classificação. Variou-se o parâmetro que corresponde ao número da amostra inicial, < D < 5 de forma a obter-se a melhor classificação, tendo-se chegado a um valor de D igual a 4 sem pre-filtragem (tal como tinha já sido obtido em [5]) e D = 2 com filtragem 5. A tabela seguinte resume alguns dos resultados. Melhorou-se a taxa de sucesso de classificação em cerca de 2%, obtendo-se uma Classificador Freq. Corte D FLD- LDF FLD-2 s/ filt 4 9.28% 9.8% 9.83% 5 Hz 2 92.3% 92.3% 65.72% Tabela 4: Taxa de sucesso do classificador FLD-2 com pre-filtragem em função da frequência de corte taxa de sucesso de cerca de 92% para todos os classificadores. 5 Este é o valor de D máximo, pois para o processo de filtragem tem de haver um número mínimo de

6 REFERÊNCIAS Referências [] J. Kohlmorgen and B. Blankertz. Bayesian classification of single-trial event-related potentials in eeg. Int. J. Bif. Chaos, 4(2):79 726, 24. [2] B. Blankertz, G. Curio, and K. Muller. Classifying single-trial eeg: Towards brain computer interfacing. Advances in Neural Information Processing Systems 4 NIPS. MIT Press, pages 57 64, 22. [3] Yijun Wang, Z. Zhang, Y. Li, X. Gao, and S. Gao. Bci competition 23 - data set iv: an algorithm based on cssd and fda for classifying singletrial eeg. IEEE Transactions on Biomedical Engineering, 5(6):8 86, June 24. [4] Pradeep Shenoy and Rajesh P. N. Rao. Dynamic bayesian networks for brain-computer interfaces. In Lawrence K. Saul, Yair Weiss, and Léon Bottou, editors, Advances in Neural Information Processing Systems 7, pages 265 272. MIT Press, Cambridge, MA, 25. [5] G. Pires. Eeg - análise e implementação do artigo: Bayesian classification of single-trial event-related potentials in eeg. Internal report, Institute for Systems and Robotics - Coimbra, University of Coimbra, August 26. [6] F. Heijden, R. Duin, D. Ridder, and D. Tax. Classification, Parameter Estimation and State Estimation. John Wiley & Sons, 24. [7] G. Franklin,, D. Powell, and M. Workman. Digital Control of Dynamic Systems. Addison Wesley, 998. [8] R. Duda, P. Hart, and D. Stork. Pattern Classification. Wiley London UK, 2. [9] R. Schalkoff. Pattern Recognition, Statistical, Structural and Neural Approaches. John Wiley & Sons, 992. [] R. Fisher. The use of multiple measurements in taxonomic problems. Annals of Eugenics, 7:79 88, 936.

Relatório Este relatório foi produzido em L A TEX usando o estilo ISIS. Instituto de Sistemas e Robótica DEEC Universdade de Coimbra