Parte 5. TÉCNICAS DE DISCRIMINAÇÃO E DE CLASSIFICAÇÃO DE DADOS

Save this PDF as:
 WORD  PNG  TXT  JPG

Tamanho: px
Começar a partir da página:

Download "Parte 5. TÉCNICAS DE DISCRIMINAÇÃO E DE CLASSIFICAÇÃO DE DADOS"

Transcrição

1 arte 5. ÉCNICAS DE DISCRIMINAÇÃO E DE CLASSIFICAÇÃO DE DADOS Introdução écnicas estatísticas de análise baseadas em discriminantes são utilizadas normalmente para a separação de dados em diferentes rupos, a partir de um determinado rupo de dados experimentais. Baseiam-se na criação de um discriminante, ou seja, um critério quantitativo para separar observações em diferentes rupos, com máxima distância entre si. São utilizadas normalmente com a finalidade de explorar conjuntos de dados. écnicas de classificação de dados consistem na aplicação de técnicas estatísticas para estabelecer reras, ou critérios para alocar uma dada observação em diferentes rupos, os quais são definidos previamente. O texto a seuir apresenta primeiramente um exemplo ilustrativo da aplicação de um discriminante para um conjunto de dados. Em seuida, são apresentadas e ilustradas as técnicas de classificação.

2 Discriminação Um exemplo de criação de discriminante para separar dados é apresentado a seuir, para um caso em que há duas populações de dados (dois rupos), apresentados na abela e na Fiura. abela. Conjunto de dados bivariados, pertencentes a dois rupos Grupo Grupo N. X X N. X X X Grupo Grupo -.3 X Fiura. Representação ráfica dos dados da abela.

3 3 odem ser aplicadas técnicas estatísticas convencionais para verificar se os dados podem ser considerados pertencentes a dois rupos. or exemplo, pode-se utilizar teste de hipótese para a diferença entre as médias dos rupos: H : μ μ X X tν. s + ( μ μ ) X X + tν. s + n n n n em que a variância combinada dos dois rupos é calculada por: s ( n ) s + ( n ) ( n ) + ( n ) Na abela a seuir, são apresentados os valores de médias e desvios padrão da amostra de dados considerada. s Grupo Grupo N. X X N. X X X - X X-X média s Exemplo para X: t (.95, ν ).74 e:.46 μ μ.3 ortanto, com 95% de certeza pode-se afirmar que as médias entre os dois rupos são diferentes, e a hipótese nula é rejeitada. ode-se, também, construir um discriminante para os dois rupos, baseado em alum critério estatístico. Uma das técnicas, por exemplo, consiste na criação de novas variáveis discriminantes para os dados. ara os dados do exemplo, pode-se criar um discriminante que seja uma combinação linear das variáveis oriinais e utilizar um valor de corte para separar os dados:

4 4 d + w x w x. Neste caso, cada valor de d é o ponto em uma reta calculada com os pesos w p, expressos como: w cosθ ; w sen θ e θ é o ânulo de inclinação da reta em relação ao eixo da variável x, como mostrado na Fiura..3. X. θ Grupo Grupo -.3 X. Fiura. Representação ráfica de um discriminante linear para as variáveis x e x. ode-se, assim, utilizar um valor limite, ou de corte, em d, para separar os dois rupos de dados. O valor do ânulo θ é calculado de modo a se maximizar a distância entre os dois rupos de dados e minimizar a distância entre os dados de um mesmo rupo. ara isso, utilizam-se as matrizes B e W, definidas a seuir para uma população de dados com n observações das p variáveis, x p, e: G rupos na população (,...,G); n o número de observações no rupo ; x ( px) o vetor das médias das p variáveis, para toda a população; x ( px) o vetor das médias das p variáveis no rupo,

5 5 A matriz B ( pxp) é a soma ponderada dos quadrados das distâncias quadráticas entre rupos, é obtida pela Eq. : G B n ( x )( ) x x x () Essa matriz é obtida fazendo-se o produto das diferenças entre vetores para cada rupo e, então, fazendo-se a soma ponderada para todos os rupos (soma de G matrizes pxp). A matriz W ( pxp) é a soma das distâncias quadráticas entre cada observação e a média de todas observações em cada rupo, somada para todos os rupos, indicada pela Eq. : W G n i ( x x )( ) x x i, i, () A matriz ( pxp) é a soma das distâncias quadráticas entre cada observação e a média de todas as observações: ode-se demonstrar que: ( )( ) x x x x n i i (3) i W + B (4) or exemplo, pode-se adotar o quociente entre ambas as matrizes, ou seja, o valor do produto W - B, como critério de seleção dos coeficientes do discriminante. ara os dados da abela, sejam, respectivamente, SSb, SSw e SSt as somas das distâncias quadráticas entre rupos, em cada rupo e a soma total, sendo: SSt SSb + SSw. Sejam: λ SSb ; λ SSw Então, pode-se variar o ânulo θ de modo a selecionar o ânulo que maximize λ, ou λ, como ilustrado na Fiura 3. No caso, o máximo ocorre para θ o. SSb SSt

6 SSb/SSw SSb/SSt SSb/SSw SSb/SSt ânulo Fiura 3. Variação dos quocientes entre distâncias quadráticas λ e λ em função do ânulo de inclinação da reta discriminante. A Fiura 4 mostra os valores do discriminante d que maximizam a relação entre distâncias quadráticas entre rupos e internas aos rupos. Observa-se que há sobreposição entre as distribuições dos dados dos dois rupos, o que impossibilita separar os dados entre os rupos usando um discriminante linear. Este fato ilustra o fato de que a capacidade de discriminar os dados depende não apenas da distância entre os valores médios dos rupos, mas também da distribuição dos dados, como ilustrado na Fiura 5. Y, Grupo Y, Grupo Fiura 4. Valores do discriminante d para os dados dos dois rupos.

7 7 y y y y Fiura 5. Superior: médias distantes, distribuições sobrepostas de dados; inferior: médias dos dois rupos próximas, com menor dispersão dos dados. Discriminante linear de Fisher Dado um conjunto de vetores centrados na média X, define-se o discriminante linear Y como: Y X γ (4) em que γ é um vetor de pesos determinado seundo o critério de máximo quociente entre a distância quadrática do discriminante entre rupos : dentro dos rupos. O quadrado do discriminante é: ( X γ) ( X γ) γ XX γ Y (5) Somando-se para todas as n observações: n n Y γ XX γ γ Bγ + γ i i Wγ (6) Deve-se obter o discriminante maximizando-se o escalar: γ γ Bγ Wγ λ (7)

8 8 ara isso, calcula-se a derivada em relação ao vetor γ: λ γ Bγ ( γ Wγ) ( γ Bγ) ( γ Wγ) Wγ (p x ) (8) Usando-se a Eq. (7): Bγ ( γ Wγ) ( γ Wγ) Wγ λ (9) Ou: Bγ λ Wγ () ré-multiplicando-se por W - : ( B I) γ W λ () As soluções não triviais são os autovalores e autovetores da matriz W - B. Assim, obtêm-se p discriminantes. O número de discriminantes a ser adotado é: ( G p) Exemplo: 3 populações bivariadas, 3 rupos, com mesma variância: d min ; () G: 5 3 G: 6 4 G3: 4 Centróides de cada rupo: x x 3 x 3 4 Centróide de tudo: Cálculo das matrizes: x G 6 ( x x)( x x) W ( xj x )( x j x ) B j 4

9 9 Inversa de W: 4,7,4 W W 4 W B 6,4,7 Autovalores e autovetores da matriz: λ,87; λ,9,386,938 γ γ,495, Os autovetores são comumente normalizados fazendo: γ Sγ Em que S é a variância ponderada na forma: S ( n ) S + ( n ) S + ( n3 ) ( n ) + ( n ) + ( n ) Critério de alocação de novas observações: 3 S 3 ) Calcula-se o valor de cada discriminante Y para a nova observação; ) Calcula-se o discriminante para a centróide de cada rupo: 3) Aloca-se com base na mínima distância quadrática entre o valor dos discriminantes em relação à centróide de cada rupo: min D d Y d Y d,, para,..., G

10 Classificação odem-se utilizar as funções discriminantes, como os discriminantes lineares de Fisher, para classificar uma nova observação em um dos rupos previamente conhecidos. O critério mais usado para classificação nesses casos é a soma dos desvios quadráticos entre discriminantes, ou seja: aloca-se uma observação qualquer no rupo para o qual a soma dos desvios quadráticos dos discriminantes é a menor entre os rupos. O procedimento é: ) calcular os valores dos D discriminantes para a nova observação, X obs : yd, obs γ d Xobs, d,...d; ) calcular os valores dos discriminantes para os centróides dos G rupos: y d d γ X,, d, D,, G; 3) buscar a menor distância quadrática: min D d y d, obs y d, Alocar X obs no rupo com mínima distância quadrática., para, G Critérios estatísticos de classificação entre duas populações: Considerando-se duas populações (ou rupos) de observações x i, i,...n, com probabilidades de ocorrência a priori dadas por p e p, de modo que: p + p e que as funções densidade de probabilidade, f (x) e f (x), têm a forma ilustrada na Fiura 6, pode-se dizer que a probabilidade de uma observação qualquer, x, pertencente a um rupo m, ser alocada em um dado rupo, ( m), é expressa por: ( m) ( x R Gm) f m ( x)dx ara o caso aqui considerado, a probabilidade de alocar x erradamente é: R, e: ( ) ( x R G) f( x)dx R ( ) ( x RG) f ( x)dx R

11 e a probabilidade de alocar x corretamente é: e: ( ) ( x RG) f( x)dx R ( ) ( x R G) f ( x)dx R. ( ) f ( x)dx R ( ) f ( x)dx R f ( x) ( x) f R R Classificar no Grupo Classificar no Grupo x Fiura 6. Ilustração da distribuição de observações de dois rupos. Essas probabilidades podem ser expressas, então, por: para os acertos: ( x RG) ( ). ( ) p ( x R G) ( ). ( ) p e para os erros: ( x R G) ( ). ( ) p e: ( x RG) ( ). ( ) p odem-se atribuir atribuir custos, ou punições, pelos erros de classificação, na forma de uma matriz de custo : Classificação Grupo G G G C( ) G C( )

12 Define-se a função custo esperado de falhas, ECM (para expected cost of missclassification ), como: ( ). ( ). p C( ). ( ). p ECM C +. Os aloritmos de classificação baseiam-se na minimização dessa função, a qual pode ser escrita como: ECM C ( ). p f( x) dx + C( ). p f ( x)dx R R + como f ( x) dx f ( x) dx f ( x) dx R R R+ R então ECM C( ). p f( x) dx + C( ). p f ( x)dx ou ECM R R R [ C( ). p f ( x) C( ). p f( x) ] dx + C( ). p Como o último termo à direita é constante e positivo, a função ECM só diminui na reião R se o interando for neativo. Assim, pode-se estabelecer o seuinte critério de classificação: Alocar x em R se: f f ( x ) ( x ) C C ( ) p ( ). ) p ara a reião R, fazendo-se a mesma substituição: Alocar x em R se: f f ( x ) ( x ) C < C ( ) p ( ). ) p.

13 3 Classificações baseadas em populações com distribuição normal multivariada: ara G rupos de observações multivariadas (com dimensão p) a função densidade de distribuição normal de probabilidade das observações em um rupo qualquer é expressa como: f ( x) ( π ) exp p ( x μ ) ( x μ ),,... G Supondo que: a) as variâncias dos rupos não sejam iuais; b) os custos de alocação correta, C( ), sejam iuais a zero; c) os custos de alocação errada, C( m), sejam iuais a, pode-se definir um critério de alocação similar ao anterior, baseado no produto: p f ( x) ara isso, normalmente se utiliza a função densidade de distribuição normal de probabilidade na forma linearizada, ficando o produto na forma: p [ p f ( x) ] ln( p ) ln( ) ln ( x μ ) ( x μ ) ln π,,... G Aloca-se uma observação qualquer,x, no rupo para o qual essa expressão for máxima. Como o seundo termo do lado direito da equação é o mesmo para todos os rupos, a comparação entre os rupos baseia-se nos demais termos. Assim, define-se o discriminante quadrático, expresso como: discr. Q ln p ( ) ln ( x μ ) ( x μ ) or esse critério, aloca-se x no rupo se discr.q q for máximo para esse rupo, em comparação com os demais rupos. O discriminante é denominado quadrático devido à distância estatística quadrática, presente na equação.