APLICAÇÕES DE ALGUMAS TÉCNICAS MULTIVARIADAS (Componentes Principais, Variáveis Canônicas e Correlações Canônicas)



Documentos relacionados
Faculdade Sagrada Família

25 a 30 de novembro de 2013

Análise de componentes principais (PCA)

Técnicas Multivariadas em Saúde. Comparações de Médias Multivariadas. Métodos Multivariados em Saúde Roteiro. Testes de Significância

Aula 4 Conceitos Básicos de Estatística. Aula 4 Conceitos básicos de estatística

Análise de Regressão Linear Simples e Múltipla

Exercícios Teóricos Resolvidos

AULAS 14, 15 E 16 Análise de Regressão Múltipla: Problemas Adicionais

3 Previsão da demanda

Estatística II Antonio Roque Aula 9. Testes de Hipóteses

P. P. G. em Agricultura de Precisão DPADP0803: Geoestatística (Prof. Dr. Elódio Sebem)

Relatório Trabalho Prático 2 : Colônia de Formigas para Otimização e Agrupamento

Modelos Pioneiros de Aprendizado

x d z θ i Figura 2.1: Geometria das placas paralelas (Vista Superior).

AMOSTRAGEM ESTATÍSTICA EM AUDITORIA PARTE ll

Métodos de mapeamento para fenômenos qualitativos e quantitativos

1. Os métodos Não-Paramétricos podem ser aplicados a uma ampla diversidade de situações, porque não exigem populações distribuídas normalmente.

Distribuição de probabilidades

Prova de Admissão para o Mestrado em Matemática IME-USP

FACULDADE DE CIÊNCIA E TECNOLOGIA. Cursos de Engenharia. Prof. Álvaro Fernandes Serafim

Documentação da Pesquisa de Satisfação Sistemas de TI 2010

O comportamento conjunto de duas variáveis quantitativas pode ser observado por meio de um gráfico, denominado diagrama de dispersão.

Análise de componentes independentes aplicada à avaliação de imagens radiográficas de sementes

Análise operacional do terminal público do porto do Rio Grande usando teoria de filas

LIDANDO COM SAZONALIDADES NO PROCESSO LOGÍSTICO

XVIII CONGRESSO DE PÓS-GRADUAÇÃO DA UFLA 19 a 23 de outubro de 2009

Factor Analysis (FACAN) Abrir o arquivo ven_car.sav. Clique Extraction. Utilizar as 10 variáveis a partir de Vehicle Type.

Medição tridimensional

Planejamento e Gestão Estratégica

FMEA (Failure Model and Effect Analysis)

Anexo 2 Análise de clusters método K-means

3. Fase de Planejamento dos Ciclos de Construção do Software

MÓDULO 1. I - Estatística Básica

Capítulo 5: Aplicações da Derivada

AULA 6 Esquemas Elétricos Básicos das Subestações Elétricas

ITA º DIA MATEMÁTICA BERNOULLI COLÉGIO E PRÉ-VESTIBULAR

TÉCNICAS DE ANÁLISE DE ORÇAMENTO DE CAPITAL

4 Análise dos Resultados

UNIVERSIDADE FEDERAL DE SANTA MARIA COLÉGIO TÉCNICO INDUSTRIAL DE SANTA MARIA Curso de Eletrotécnica

4. RESULTADOS E DISCUSSÃO

Quais são os critérios adotados pelo programa para o cálculo dos blocos de fundação?

LISTA DE VERIFICAÇAO DO SISTEMA DE GESTAO DA QUALIDADE

SISTEMA DE PROGRAMAÇÃO E PLANEJAMENTO DE INSPEÇÃO DE

ESPAÇOS MUNIDOS DE PRODUTO INTERNO

CAPÍTULO Resultado da análise dos componentes principais

3 Metodologia 3.1. Tipo de pesquisa

Eventos independentes

Universidade de São Paulo. Escola Politécnica

função de produção côncava. 1 É importante lembrar que este resultado é condicional ao fato das empresas apresentarem uma

Como estimar peso vivo de novilhas quando a balança não está disponível? Métodos indiretos: fita torácica e hipômetro

Análise de Componente Principais (PCA) Wagner Oliveira de Araujo

CAPÍTULO 6 TRANSFORMAÇÃO LINEAR

Lista 1 para a P2. Operações com subespaços

ANÁLISE DOS RESULTADOS DOS PROGRAMAS DE APOIO ÀS PMEs NO BRASIL Resumo Executivo PARA BAIXAR A AVALIAÇÃO COMPLETA:

Potenciação no Conjunto dos Números Inteiros - Z

Capítulo 3 Modelos Estatísticos

Estudaremos métodos numéricos para resolução de sistemas lineares com n equações e n incógnitas. Estes podem ser:

Resolução de sistemas lineares

Diretrizes para determinação de intervalos de comprovação para equipamentos de medição.

6. Pronunciamento Técnico CPC 23 Políticas Contábeis, Mudança de Estimativa e Retificação de Erro

Palavras-Chave: Sistema de Posicionamento Global. Sistemas de Localização Espacial. Equação de Superfícies Esféricas.

FERRAMENTAS DA QUALIDADE

MÉDIA ARITMÉTICA MÉDIA PONDERADA MODA MEDIANA

Capítulo 7 Medidas de dispersão

Exercícios Adicionais

5 Considerações Finais e Recomendações

Análise de regressão linear simples. Departamento de Matemática Escola Superior de Tecnologia de Viseu

POSICIONAMENTO LOGÍSTICO E A DEFINIÇÃO DA POLÍTICA DE ATENDIMENTO AOS CLIENTES

Características do Sistema

A finalidade dos testes de hipóteses paramétrico é avaliar afirmações sobre os valores dos parâmetros populacionais.

por séries de potências

Métodos de Síntese e Evidência: Revisão Sistemática e Metanálise

5 Exemplo de aplicação

CAP5: Amostragem e Distribuição Amostral

1 Introdução simulação numérica termoacumulação

Cálculo Numérico Faculdade de Engenharia, Arquiteturas e Urbanismo FEAU

Eng Civil Washington Peres Núñez Dr. em Engenharia Civil pela Universidade Federal do Rio Grande do Sul

DEPRECIAÇÃO E OBSOLÊNCIA

Análise de Arredondamento em Ponto Flutuante

Imagem e Gráficos. vetorial ou raster?

Dois eventos são disjuntos ou mutuamente exclusivos quando não tem elementos em comum. Isto é, A B = Φ

MÓDULO 4 DISTRIBUIÇÃO DE FREQÜÊNCIAS

Exemplos de Testes de Hipóteses para Médias Populacionais

UM POUCO SOBRE GESTÃO DE RISCO

Testes (Não) Paramétricos

ELABORAÇÃO DE PROJETOS

4. A FUNÇÃO AFIM. Uma função f: R R chama-se afim quando existem números reais a e b tais que f(x) = ax + b para todo x R. Casos particulares

INVESTIMENTO A LONGO PRAZO 1. Princípios de Fluxo de Caixa para Orçamento de Capital

Controlabilidade e Observabilidade

Universidade Federal de Ouro Preto - UFOP Instituto de Ciências Exatas e Biológicas ICEB

Preparação do Trabalho de Pesquisa

Survey de Satisfação de Clientes 2009

Metadados. 1. Introdução. 2. O que são Metadados? 3. O Valor dos Metadados

Produtividade no Brasil: desempenho e determinantes 1

Processamento digital de imagens. introdução

Teste de Software: Um Breve Estudo do Importante Processo no Desenvolvimento de Softwares

Metodologia para seleção de amostras de contratos de obras públicas (jurisdicionados) utilizando a programação linear aplicativo Solver

3 Procedimento experimental

POC 13 - NORMAS DE CONSOLIDAÇÃO DE CONTAS

Transcrição:

APLICAÇÕES DE ALGUMAS TÉCNICAS MULTIVARIADAS (Componentes Principais, Variáveis Canônicas e Correlações Canônicas) ÍNDICE Página 1. INTRODUCÃO... 1 2. COMPONENTES PRINCIPAIS... 1 2.1. Introdução... 1 2.2. Obtenção dos Componentes Principais... 2 2.3. Importância Relativa de um Componente Principal... 4 2.4. Correlação Entre o Componente Y k e a Variável X i... 5 APLICAÇÃO 1... 6 2.5. Componentes Principais Obtidos de Variáveis Padronizadas... 9 APLICAÇÃO 2... 11 2.6. Sumarização da Variação Amostral por Componetes Principais... 14 2.7. Descarte de Variáveis... 14 2.8. Análises de Componentes Principais e Análise de Agrupamento... 15 APLICAÇÃO 3... 16 3. VARIÁVEIS CANÔNICAS... 21 3.1. Introdução... 21 3.2. Obtenção das Variáveis Canônicas... 22 3.3. Importância Relativa de uma Variável Canônica... 25 3.4. Descarte de Variáveis... 25 3.5. Análise de Variáveis Canônica e Análise de Agrupamento... 26 APLICAÇÃO 4... 27 4. CORRELAÇÕES CANÔNICAS... 31 4.1. Introdução... 31 4.2. Obtenção das Correlações Canônicas e dos Pares Canônicos... 32 APLICAÇÃO 5... 35 4.3. Algumas Aplicações na Área Florestal... 36 5. ANÁLISE DE VARIÂNCIA MULTIVARIADA... 38 5.2. Considerações sobre a MANOVA... 39 5.2.1. Desenvolvimento Matemático... 40 APLICAÇÃO 1... 47 5.3. Procedimentos para Comparações Múltiplas... 51 6. REFERÊNCIAS BIBLIOGRÁFICAS... 55

1. INTRODUCÃO A análise estatística multivariada ou simplesmente análise multivariada é o ramo da estatística direcionado ao estudo das amostras e distribuição multidimensionais, ou seja, são métodos estatísticos apropriados para estudos em que várias variáveis são consideradas simultaneamente. No entanto, apesar de as técnicas multivariadas terem eficiência comprovada e proporcionarem enriquecimento das informações extraídas de dados experimentais, é necessária para seu uso a disponibilidade de recursos computacionais, motivo pelo qual a referida técnica ficou limitada no seu uso e do repasse entre os pesquisadores das diversas áreas da ciência, no Brasil. Entretanto, com a incrementação dos recursos da informática nos últimos anos, a técnica atraiu a atenção dos pesquisadores das diversas áreas, tornando o seu emprego potencialmente grande e, conseqüentemente, o seu conhecimento indispensável. A análise multivariada compreende várias técnicas que, segundo KENDALL (1980), citado por CRUZ (1987), distinguem-se em: a) Técnicas de Avaliação da Interdependência: estuda as relações de um conjunto de variáveis entre si. - Cluster Analysis ou Análise de Agrupamento - Componentes Principais - Correlações Canônicas - Análise Fatorial - Escala b) Técnicas de Avaliação da Dependência: estuda a dependência de uma ou mais variáveis em relação às outras. - Regressão - Relação Funcional - Múltipla Contigência - Análise Discriminante Devido à complexidade e extensão do assunto, o presente trabalho teve como objetivo fazer uma abordagem sobre a utilização de algumas técnicas multivariadas na área florestal, tomando-se como base os seguintes estudos: Componentes Principais, Variáveis Canônicas e Correlações Canônicas. 2. COMPONENTES PRINCIPAIS 2.1. Introdução A análise de componentes principais é uma técnica multivariada, que segundo KENDAL (1950), é uma técnica de avaliação da interdependência, ou seja, estuda as relações de um conjunto de variáveis entre si. A técnica de componentes principais foi originalmente descrita por Karl Pearson, em 1901, em um artigo onde deu ênfase à sua utilização no ajustamento de um subespaço a uma nuvem de pontos. Posteriormente, a técnica foi consolidada por Hotelling em 1933 e 1936, para o propósito particular de analisar estruturas de correlações (MORRISON, 1976, MARDIA et al., 1979; MANLY, 1986; CRUZ, 1990). Entretanto, o uso da análise só foi 1

difundida após desenvolvimento de computadores eletrônicos e atualmente, devido a grande disponibilidade de recursos de computadores sofisticados e de software aplicados, a técnica tornou-se amplamente disponível e utilizada nas várias áreas da ciência. A técnica de componentes principais procura explicar a estrutura de variânciascovariâncias através de poucas combinações lineares das variáveis originais, com os objetivos de reduzir os dados, colocá-los numa forma mais adequada para análise, evidenciar as tendências e facilitar sua interpretação. Segundo LIBERATO (1995), a utilização da análise de componentes principais tem por finalidade proporcionar simplificação estrutural dos dados, de modo que a diversidade, influenciada a princípio por um conjunto p-dimensional (p = números de caracter considerados no estudo), possa ser avaliada por um complexo bi ou tridimensional de fácil interpretação geométrica. Ou ainda, a análise por componentes principais, segundo CRUZ (1994), consiste em transformar um conjunto original de variáveis em outro conjunto, de dimensões equivalentes, mas com propriedades importantes de grande interesse em certos estudos. Os princípios básicos desta técnica são descritos por vários autores, tais como MORRISON, 1976; MARDIA et al. (1979); KENDAL (1980); MANLY (1986);JOHNSON e WICHERN (1988); CRUZ e REGAZZI (1994); entre outros. Segundo estes autores, cada componente principal é uma combinação linear das variáveis originais, que são independentes entre si e estimadas com o propósito de reter, em ordem de estimação, o máximo da informação, em termos de variação total, contida nos dados originais. Assim, entre todos os componentes principais, o primeiro tem a maior variância, o segundo tem a segunda maior e assim sucessivamente. A grande importância do conhecimento da técnica dos componentes principais, segundo SOUZA (1988), reside no fato de ela constituir um procedimento básico do qual derivam vários outros métodos de análise de dados multivariados, como por exemplo, análise de agrupamento cluster analysis. Assim, segundo CRUZ (1990) o uso da técnica de componentes principais pode atender os seguintes propósitos: i) examinar as correlações entre caracteres estudados; ii) resumir um grande conjunto de caracteres em outro menor e de sentido biológico; iii)avaliar a importância de cada caracter e promover a eliminação daqueles que contribuem pouco, em termos de variação, no grupo de indivíduos avaliados; iv) construir índices que possibilitem o agrupamento de indivíduos; e v) permitir o agrupamento de indivíduos com o mais alto grau de similaridade, mediante exames visuais em dispersões gráficas no espaço bi ou tridimensional. 2.2. Obtenção dos Componentes Principais Algebricamente, componentes principais são combinações lineares particulares das p variáveis aleatórias X 1, X 2,..., X p. Geometricamente, estas combinações lineares representam a seleção de um novo sistema de coordenadas obtidas pela rotação do sistema original como X 1, X 2,..., X p como eixos. Os novos eixos representam as direções com variablidade máxima e fornece uma descrição mais simples e mais parcimoniosa da estrutura de covariâncias. Os componentes principais dependem somente da matriz de covariâncias (S) ou da matriz de correlação (R) de X 1, X 2,..., X p. Assim, a técnica de componentes principais caracteriza-se por trabalhar com a média amostral ou ser usada nas situações em que não há repetições de dados. O seu desenvolvimento não necessita de normalidade. No entanto, a análise de componentes derivada de populações normais multivariadas têm suas interpretações usuais em 2

termos de elipsóides de densidade constante (JOHNSON e WICHERN, 1988). Entretanto, embora a análise, formalmente não requeira a distribuição normal multivariada, ela é mais apropriada para variáveis quantitativas contínuas. Quando os dados são constituidos de contagem, razões, proporções ou percentagens, a transformação é recomendada para tornar sua distribuição mais apropriada, previamente à análise de componentes principais. Como exemplo, STAUFFER et al. (1985) recomenda a transformação de arco seno da raiz quadrada para dados provenientes de percentagem e os dados de contagem a transformação de raiz quadrada (PIMENTEL GOMES, 1984). Seja o vetor aleatório X = [X 1, X 2,..., X p ] que tem a matriz de covariâncias (S) com auto- valores ( λ 1 λ 2... λ p 0) e considerando as seguintes combinações lineares: Y 1 = 1 1 X = 1 11 X 1 + 1 21 X 2 +... + 1 P1 X P Sendo: Y 2 = 1 2 X = 1 12 X 1 + 1 22 X 2 +... + 1 P2 X P... Y P = 1 P X = 1 1P X 1 + 1 2p X 2 +... + 1 PP X P Var (Y i ) = 1 i S 1 i Cov (Y i,y k ) = 1 i S 1 k i = 1, 2,..., p i, k = 1, 2,..., p Os componentes principais são combinações lineares não correlacionadas, cujas variâncias são tão grandes quanto possível. assim: a) O primeiro componente principal (Y 1 ) é a combinação linear com variância máxima, isto é, é a combinação linear 1 1 X que maximiza Var (1 1 X) sujeito a 1 1 1 1 = 1; b) O segundo componente principal (Y 2 ) é a combinação linear 1 2 X que maximiza Var (1 2 X), sujeito a 1 2 1 2 e com Cov (1 1 X, 1 2 X) = 0; c) O i-ésimo componente principal (Y i ) é a combinação linear 1 i X que maximiza Var (1 i X), sujeito a 1 i 1 i = 1 e, em todos os casos, a Cov (1 i X, 1 k X) = 0. Desta forma, verifica-se que entre todos os componentes principais, Y 1 apresenta a maior variância, Y 2 a segunda maior e, assim sucessivamente, e independente entre si. Assim, segundo CRUZ e REGAZZI (1994), o problema estatístico consiste fundamentalmente em estimar os coeficientes de ponderação dos caracteres em cada componente e a variância a eles associada. Sendo Y 1 o primeiro componente principal, sua variância é dada por: Var (Y 1 ) = 1 1 S 1 1 O que se deseja é obter estimativas para o vetor 1 1 de tal forma que a variância de Y 1 seja a maior de todas. Para atingir este objetivo impõe-se a restrição 1 1 1= 1, a qual é introduzida na expressão Var (Y 1 ) = 1 1 S 1 1 pelo multiplicador λ 1 de Lagrante. Assim: W 1 = 1 1 S 1 1 + λ 1 (1-1 1 1 1 ) 3

A solução que maximiza Var (Y 1 ) é obtida pela derivação de W 1 em relação a 1 1, que é dada por: S - λ 1 I a = 0 A solução deste sistema deve ser tal que 1 φ, assim é necessário que o determinante de (S - λ 1 I) seja mulo, para que o sistema se torne indeterminado e a solução possa ser escolhida entre aquelas que satisfaçam a condição 1 1 1 1 = 1. Sendo λ 1 o valor que satisfaz S - λ 1 I = 0, então, por definição, λ 1 é a raiz característica (ou autovalor) de S e 1 1, o vetor característico (autovetor) associado. Sendo o vetor 1 1 o escolhido para maximizar Var (Y 1 ), tem-se que λ 1 é o maior valor entre o conjunto de autovalores de S. A variância do segundo componente principal é dada por: Var (Y 2 ) = 1 2 S 1 2. Para obtenção das estimativas do vetor 1 2, deve-se considerar as restrições 1 2 1 2 = 1 e 1 2 1 1 = 1 1 1 2 = 0, as quais são incorporadas na função de maximização por meio dos multiplicadores λ 2 e θ de Lagrande. Assim, é estabelecido que: W 2 = 1 2 S 1 2 + λ 2 ( 1-1 2 1 2 ) + θ 1 2 1 1 A solução que maximizar Var (Y 2 ), obtida pela derivação de W 2 em relação ao 1 2, é dada por: (S - λ 2 I) 1 2 = φ em que λ 2 é a segunda maior raiz característica de S e 1 2 o seu autovetor associado. As restrições consideradas neste segundo componente principal atendem aos seguintes propósitos: a) a primeira restrição é necessária para garantir a unicidade de 1 2 ; b) a segunda restrição garante que 1 1 e 1 2 sejam ortogonais. Os demais componentes principais são estimados de maneira análoga ao descrito para os dois primeiros. 2.3. Importância Relativa de um Componente Principal Baseando no fato de que: Var (Y i ) = λ i ; Var (Y 1 ) Var (Y 2 )... V (Y p ) 0 Cov (Y i, Y k ) = 0, para i k p Var (Y i ) = tr S i=1 4

ou seja, p Var (Y i ) = λ 1 + λ 2 +... + λ p = tr S = Var (X i ) = σ 2 11 + σ 2 22 +... σ 2 pp i = 1 i = 1 p Assim, a importância relativa de um componente principal (IR k ) é avaliada pela percentagem da variância que ela explica, ou seja, a proporção da variação total explicada pela k-ésima componente principal é dada por: λ k IR k = k = 1, 2,..., p λ 1 + λ 2 +... + λ p Ou ainda, a proporção da variação total explicada pelos primeiros k componentes principais (PV k s ) é dada por: λ 1 + λ 2 +... + λ k PV k s = k = 1, 2,..., p λ 1 + λ 2 +... + λ p Desta forma, verifica-se que a proporção da variação total explicada pelos primeiros componentes principais é uma medida da quantidade de informação retida pela redução de p para k dimensão. Em certos estudos é desejável que a variância acumulada nos dois primeiros componentes principais exceda 70-80%. Nesta condição, a distorção das coordenadas no gráfico de dispersão, cujos eixos são os componentes principais, será considerada aceitável e as inferências no estudo satisfatório (CRUZ e REGAZZI, 1994). 2.4. Correlação Entre o Componente Y k e a Variável X i Se Y 1 = 1 1 X; Y 2 = 1 2 X;..., Y p = 1 p X são os componentes principais obtidos da matriz de covariância (S), então o coeficiente de correlação entre o componente Y 1 e a variável X k é dado por: Cov (Y i, X k ) λ i 1 ki 1 ki [ λ i ] ½ Y i, X k = = = [Var (Y i )] ½ [Var (X k )] ½ [λ i ] ½ [σ kk ] ½ [σ kk ] ½ em que: i, k = 1, 2,..., p Cov (Y i, X k ) = λ i 1 ki Var (Y i ) = λi Var (X k ) = σ kk 5

APLICAÇÃO 1 Supondo os seguintes dados, organizados na forma de uma matriz X, representando uma amostra de uma vegetação constituída de duas espécies e cinco parcelas, 2 5 2 1 0 _ 2,0 X = X = 0 1 4 3 1 1,8 Em que os vetores linhas representam as espécies e os vetores colunas representam as parcelas: A matriz de covariância amostral para as duas espécies da matriz X é: S 11 S 12 3,5-0,5 S = = S 21 S 22-0,5 2,7 * A covariância amostral foi obtida pela fórmula: n S hi = [ (X hj - X h ) (X ij - X i ) ] / (n - 1), j = 1,... n, i = 1 em que X h é a média da espécie h e X i é a média da espécie i. Assim, obteve-se os seguintes pares de autovalores-autovetores: ou ainda: λ 1 = 3,74; 1 1 = [-0.901 0,433] λ 2 = 2,46; 1 2 = [ 0,433 0,901] Observa-se que a soma dos autovalores é igual a soma das variâncias das espécies: S 11 + S 22 = λ 1 + λ 2 = 3,5 + 2,7 = 3,74 + 2,46 = 6,2 Var (Y 1 ) = Var (0,901 X 1 + 0,433 X 2 ) Var (Y 1 ) = (-0,901) 2 Var (X 1 ) + (0,433) 2 Var (X 2 ) + 2(-0,901) (0,433) Cov (X 1, X 2 ) Var (Y 1 ) = (0,812) (3,5) + (0,187) (2,7) + (0,39) (-0,5) Var (Y 1 ) = 3,74 = λ 1 6

Var (Y 2 ) = Var (0,433 X 1 + 0,901 X 2 ) Var (Y 2 ) = (0,433) 2 Var (X 1 ) + (0,901) 2 Var(X 2 ) + 2(0,433) (0,901) Cov (X 1, X 2 ) Var (Y 2 ) = (0,187) (3,5) + (0,812) (2,7) + (-0,39) (-0,5) Var (Y 2 ) = 2,46 = λ 2 A importância relativa de cada um dos componentes principais é dada por: λ k IR k = k = 1,2 λ 1 + λ 2 p σ 11 + σ 22 = V (X 1 ) = λ 1 + λ 2 = V (Y i ) = 6,2 i =1 Assim, λ 1 3,74 IR 1 = = = 0,6033 60,33% λ 1 + λ 2 6,20 λ 2 2,46 IR 2 = = = 0,3967 39,67% λ 1 + λ 2 6,20 Verifica-se, neste caso, que 60,37% da variação total está concentrada em Y 1, ou seja, Y 1 explica 60,33% da variação total. O segundo componente principal (Y 2 ) explica 39,67% da variação total. O coeficiente da correlação entre Y 1 e as variáveis X 1 e X 2 são: 1 11 [λ 1 ] ½ -0,901 [3,74] ½ ρ Y1,X1 = = = -0,93 [σ 11 ] ½ [3,50] ½ 1 21 [λ 1 ] ½ 0,433 [3,74] ½ ρ Y1,X2 = = = 0,51 [σ 22 ] ½ [2,70] ½ Estes resultados mostram que existem uma grande correlação entre Y 1 e X 1, mostrando que X 1 é de grande importância para o primeiro componente principal. 7

O coeficiente de correlação entre Y 2 e as variáveis X 1 e X 2 são: 1 12 [λ 2 ] ½ 0,433 [2,46] ½ ρ Y2,X1 = = = 0,36 [σ 11 ] ½ [3,50] ½ 1 22 [λ 2 ] ½ 0,901 [2,46] ½ ρ Y2,X2 = = = 0,86 [σ 22 ] ½ [2,70] ½ Neste caso, é verificado que a variável X 2 é a de maior importância para o segundo componente principal (Y 2 ). Em resumo, tem-se: Componente Variância CPA (Autovetores) Principal Autovalor (%) X 1 X 2 Y 1 3,74 60,33-0,901 0,433 Y 2 2,46 39,67 0,433 0,901 CPA = Coeficiente de ponderação associado. Os escores dos componentes são obtidos por: Y 11 = -0,901 (2) + 0,433 (0) = -1,802 Y 12 = -0,901 (5) + 0,433 (1) = -4,072 Y 13 = -0,901 (2) + 0,433 (4) = -0,070... Y 25 = 0,433 (0) + 0,901 (1) = 0,901 Assim, obtém-se: Parcelas Componentes Y 1 Y 2 1-1,802 0,866 2-4,072 3,066 3-0,070 4,470 4 0,398 3,136 5 0,433 0,901 Variância 3,740 2,460 8

Os escores dos componentes são coordenadas retangulares da ordenação e podem ser plotados e produzir o seguinte diagrama (Figura 1), que mostra a distribuição agrupada dos componentes. Figura 1 - Dispersão das Cinco Parcelas em Relação aos Dois Componentes Principais (Y 1 e Y 2 ). 2.5. Componentes Principais Obtidos de Variáveis Padronizadas Segundo CRUZ (1987), o método de obtenção dos componentes principais a partir de uma matriz de covariâncias (S), como descrito anteriormente, tem sido aconselhável apenas nos casos em que os caracteres apresentam uma mesma unidade e dimensão não muito discrepante. No entanto, em situações em que este fato não se verifica, ou seja, os caracteres em estudo são bastante diferentes em suas unidades e em sua magnitude, tem sido recomendada a padronização dos mesmos, da seguinte forma: X 1 - µ Z i = σ i Neste caso, a matriz de covariâncias das variáveis Z i, i = 1, 2,..., p, torna-se: 9

1 r 12... r 1p r 12 1... r 2p R =......... r p1 r p2... 1 em que: Cov (X i, X j ) r ij = Cov (Z i, Z j ) = [Var (X i ) Var (X j )] ½ De acordo com CRUZ (1987), as estimativas dos componentes principais, quando se usa a matriz S pode ser muito diferente daquelas encontradas quando se utiliza da matriz R. Assim, é recomendado o uso de matriz S, somente naqueles casos em que as unidades originais não são fixadas arbitrariamente, mas sim sugeridas por razões objetivas. Seja o vetor aleatório X = [ X 1, X 2,..., X p ]. Considerando a padronização destas variáveis, tem-se: X 1 - µ 1 X 2 - µ 2 X p - µ p Z 1 = ; Z 2 = ;... ; Z p = [σ 11 ] ½ [σ 22 ] ½ [σ pp ] ½ em que A notação matricial é: Z = (V ½ ) -1 (X - µ) σ 11 σ 22. V =.. σ pp É claro que: E (Z) = φ e Var (Z) = (V ½ ) -1 Var (X - µ) (V ½ ) -1 Var (Z) = (V ½ ) -1 S (V ½ ) -1 = R (matriz de correlação) tem-se que: V ½. R. V ½ = S. 10

em que: σ 11 σ 21... σ p1 σ 12 σ 22... σ p2 S =...... σ 1p σ 22... σ pp Os componentes principais de Z podem ser obtidos dos autovalores-autovetores da matriz de correlação R de X. Assim, se continuarmos denotando Y i para referir o i-ésimo componente principal e (λ i, 1 i ) para os pares de autovalores-autovetores. O i-ésimo componente principal das variáveis padronizadas Z = [ Z 1, Z 2,..., Zp], com Var (Z) = R, é dado por: Yi = 1 i Z = 1 i (V ½ ) -1 (X - µ), i = 1,2,..., p p com : Var (Y i ) = Var (Z i ) = p i = 1 i = 1 p ρ Yi, Z k = 1 ki [λi] ½, i, k = 1, 2,..., p Neste caso (λ 1, 1 1 ), (λ 2, 1 2 ),..., (λ p, 1 p ) são pares de autovalores-autovetores de R. Desta forma, baseando no fato de que Var (Z i ) = p, a proporção da variação total devido ao k-ésimo componente principal é dada por: λ k IR k =, p k = 1, 2,..., p em que os λ k s são os autovalores da matriz R. APLICAÇÃO 2 Seja a matriz de covariâncias S: S = 1 4 4 100 11

e a matriz de correlação R: R = 1,0 0,4 0,4 1,0 Os pares de autovalores-autovetores de S são: λ 1 = 100,16 1 1 = [0,040 0,999] λ 2 = 0,84 1 2 = [0,999-0,040] Similarmente, os autovalores-autovetores de R são: λ 1 = 1 + ρ = 1,4; 1 1 = [0,707 0,707] λ 2 = 1 - ρ = 0,6; 1 2 = [0,707-0,707] Os respectivos componentes principais são: a) A partir de S; Y 1 = 0,040 X 1 + 0,999 X 2 Y 2 = 0,999 X 1-0,040 X 2 b) A partir de R: Y 1 = 0,707 Z 1 + 0,707 Z 2 X 1 - µ 1 X 2 - µ 2 Y 1 = 0,707 + 0,707 1 10 Y 1 = 0,707 (X 1 - µ 1 ) + 0,0707 (X 2 - µ 2 ) Y 2 = 0,707 Z 1-0,707 Z 2 X 1 - µ 1 X 2 - µ 2 Y 2 = 0,707-0,707 1 10 Y 2 = 0,707 (X 1 - µ 1 ) - 0,0707 (X 2 - µ 2 ) 12

A proporção da variação total explicada por cada um dos componentes principais são: a) A partir de S: λ 1 100,16 IR 1 = = = 0,992 λ 1 + λ 2 101,00 λ 2 0,84 IR 2 = = = 0,008 λ 1 + λ 2 101,00 O primeiro componente principal (Y 1 ) explica 99,2% da variação total. b) A partir de R: λ 1 1,40 IR 1 = = = 0,70 p 2,00 λ 2 0,60 IR 2 = = = 030 p 2,00 O primeiro componente principal (Y 1 ), neste caso, explica 70% da variação total. Os coeficientes de correlação entre Y i e as variáveis X 1 e X 2, são: a) A partir de S: 1 11 [λ 1 ] ½ 0,040 [100,16] ½ ρ Y1,X1 = = = 0,400 [σ 11 ] ½ [1,0] ½ 1 21 [λ 1 ] ½ 0,999 [100,16] ½ ρ Y1,X2 = = = 0,998 [σ 22 ] ½ [100] ½ 1 12 [λ 2 ] ½ 0,999 [0,840] ½ ρ Y2,X1 = = = 0,916 [σ 11 ] ½ [1,0] ½ 1 22 [λ 2 ] ½ -0,040 [0,840] ½ ρ Y2,X2 = = = -0,004 [σ 22 ] ½ [100] ½ 13

b) A partir de R: ρ Y1,Z1 = 1 11 [λ 1 ] ½ = 0,707 [1,4] ½ = 0,837 ρ Y1,Z2 = 1 21 [λ 1 ] ½ = 0,707 [1,4] ½ = 0,837 ρ Y2,Z1 = 1 12 [λ 2 ] ½ = 0,707 [0,6] ½ = 0,548 ρ Y2,Z2 = 1 22 [λ 2 ] ½ = -0,707 [0,6] ½ = -0,548 Da aplicação 2, pode-se concluir que a variável X 2 praticamente domina o primeiro componente principal, quando este é determinado a partir de S, em que o primeiro componente principal (Y 1 ) explica 99,2% da variação total. Quando as variáveis X 1 e X 2 são padronizadas, no entanto, as duas variáveis contribuem igualmente, e o primeiro componente principal explica 70% da variação total. O presente exemplo demonstra que os componentes principais derivados a partir de S são diferentes daqueles derivados a partir de R. Um grupo de componentes principais não é uma simples função do outro. Isto sugere que a padronização não é inconseqüente. Assim, variáveis podem ser padronizadas se elas possuem medidas ou escalas muito diferentes ou as unidades de medida são incomesuráveis. 2.6. Sumarização da Variação Amostral por Componetes Principais Embora p-componentes principais sejam necessários para reproduzir a variabilidade total do sistema, a viabilidade de utilização da técnica de componentes principais reside na possibilidade de resumir o conjunto de variáveis originais em poucos componentes. Nestas condições, esta técnica proporcionará uma simplificação considerável nos cálculos estatísticos e na interpretação dos resultados com relação aos demais métodos altenativos, principalmente quando o número de indivíduos avaliados for relativamente grande. Assim, se os primeiros componentes principais acumularem uma porcentagem relativament alta da variação total, em geral referida como acima de 80%, eles explicarão satisfatoriamente a variabilidade manifestada entre os indivíduos avaliados e, portanto, o fenômeno poderá ser interpretado com considerável satisfação. Segundo CRUZ e REGAZZI (1994), em estudos da divergência genética, em geral, têm optado pela representação gráfica quando os dois primeiros componentes principais envolvem pelo menos 70 a 80% da variação total. Nos casos em que este limite não é alcançado nos dois primeiros componentes, a análise é complementada pela dispersão gráfica em relação ao terceiro e quarto componente. 2.7. Descarte de Variáveis Em certos estudos, quando o número de variáveis é muito grande, procura-se descartar aquelas de poucas relevância na discriminação do material avaliado, reduzindo, assim, mãode-obra, tempo e custo despendido na análise e interpretação dos dados experimentais. Em estudos de divergência genética, caracteres dispensáveis são aqueles relativamente invariantes entre as espécies/clones estudados,e, ou, redundantes, por estarem correlacionados com outros caracteres (CRUZ & REGAZZI, 1994). Segundo ADANS e WIERSMA (1978), citado por CRUZ e REGAZZI (1994), os caracteres a serem preservados na análise de 14

divergência genética deverão ser apenas aqueles que representam a estrutura fundamental do sistema biológico que está sendo estudado, devendo ainda serem suficientemente diversos para representarem, no mínimo, as dimensões mais importantes do sistema. Uma das técnicas de descartes de variáveis é aquela citada por MARDIA et al. (1979) e CRUZ e REGAZZI (1994), em que baseia-se no princípio de que a importância relativa dos componentes principais decresce do primeiro para o último; assim, têm-se que os últimos componentes são responsáveis pela explicação de uma fração mínima da variância total disponível. Desta forma, segundo estes autores, a variável que apresentam maior coeficiente de ponderação (elemento do autovetor) no componente de menor autovalor, é considerada de menor importância para explicar a variabilidade do material estudado, sendo, portanto, possível de descarte. Este princípio de descarte de variáveis é consistente com a notação que considera que um componente com um pequeno autovalor é de pouca importância e, consequentemente, a variável que domina este deve ser de pequena importância ou redundante. Segundo recomendações de JOLLIFFE (1972, 1973), MARDIA et al. (1979) e CRUZ e REGAZZI (1994) tem sido comum descartar a variável de maior coeficiente de ponderação (em valor absoluto) a partir do último componente até aquele cujo autovetor não excede a 0,70 (válido para dados padronizados). Quando em um componente de menor variância, o maior coeficiente de ponderação está associado a uma variável já previamente descartada, tem-se optado por não fazer nenhum outro descarte com base nos coeficientes daquele componente, mas prosseguir a identificação da importância relativa das variáveis no outro componente de variância imediatamente superior. Uma variação deste método de descarte de variáveis, segundo MARDIA et al. (1979), consiste a cada estágio de descarte da variável associada com o componente de menor autovalor, refazer a análise de componentes principais com as variáveis remanescentes. Este processo é conduzido até que todos os componentes principais tenham autovalores altos. 2.8. Análises de Componentes Principais e Análise de Agrupamento O uso dos componentes principais na redução do número dedimensões de uma matriz permite a apresentação gráfica. Assim, quando os primeiros componentes explicam a maior parte da variação do sitema em estudo, estes podem ser representados graficamente e apresentar uma importante aplicação em conexão com a análise de agrupamento (MARDIA et al., 1979; MARRIOT, 1974). Segundo CRUZ e REGAZZI (1994), um dos objetivos do uso dos componentes principais em estudo sobre a divergência genética é avaliar a dissimilaridade dos genótipos, clones, etc., em gráficos de dispersão, em que tem os primeiros componentes como eixo de referência. Este procedimento é satisfatório quando os odis primeiros componentes utilizados como eixo do sistema cartsiano envolvem uma fração considerável da variação total, normalmente citada como acima de 70 a 80%. Nos casos em que o limite não é atingido com os dois primeiros componentes, a análise é complementada com a dispersão gráfica em relação ao terceiro e quarto componente. MARRIOT (1974) comenta que uma das dificuldades na análise de agrupamento, utilizando métodos numéricos, é com relação a decisão da divisão de um conjunto de observações em grupos. Em alguns casos, métodos visuais são mais eficientes do que os baseados em valores numéricos. Assim, gráficos de dispersão provenientes dos componentes principais podem auxiliar a análise de agrupamento em vários sentidos. Em primeiro lugar, como forma particular de análise de agrupamento, ou seja, naquelas situações em que os grupos são claramente definidos e bem separados, um método analítico elaborado, neste caso, 15

é usualmente desnecessário. Pode mostrar que uma técnica particular de agrupamento não apresenta resultados satisfatórios, sugerindo assim, alternativas. Finalmente, se testes de significância não são possíveis, a representação gráfica por componentes principais confirma os agrupamentos sugeridos pelos métodos numéricos. Segundo CRUZ e REGAZZI (1994), como nesta técnica é feita uma simplificação do espaço n-dimensional para o bi ou tri-dimensional, há certas distorções nas distâncias. Entretanto, há entre as estimativas das distâncias euclideanas baseadas nos escores dos primeiros componentes principais e as distâncias Euclideanas baseadas nos dados originais, uma relação matemática dada por: em que: dcp 2 ii α =, para i < i. n d 2 ii dcp 2 ii = quadrado da distância Euclidiana estimada a partir dos escores de n 1 componentes principais; d 2 ii = quadrado da distância Euclidiana média estimada a partir das n variáveis originais. Assim, segundo estes autores, o parâmetro (1 - α) mede o grau de distorção proporcionado pela técnica dos componentes principais, ao se passar do espaço n-dimensional para o n 1 -dimensional (n 1 < n). Nos casos em que a dispersão gráfica não provê informações adequadas sobre o grau de similaridade dos indivíduos estudados, CRUZ (1990) comenta que certos autores têm utilizado os escores dos primeiros componentes principais para o cálculo da distância Euclideana, valendo-se, para esse fim, da propriedade de independência entre tais componentes. Tal procedimento é, muitas das vezes, utilizado para complementar as informações da dispersão gráfica, em virtude de permitir o estabelecimento de grupos de maneira menojs subjetiva do que aquela que se verifica em exames visuais. Maiores detalhes sobre a utilização combinada das duas técnicas (componentes principais e conglomeração) em estudos sobre divergência genética são encontrados em ADANS e WIERSMA (1978). APLICAÇÃO 3 Caso base em dados de um teste de progênies de Eucalyptus sp., em que foram avaliadas 10 características (X 1, X 2, X 3, X 4, X 5, X 6, X 7, X 8, X 9 e X 10 ) em 10 progênies, num delineamento em blocos ao acaso com quatro repetições e seis plantas por parcela, realizou-se a análise por componentes principais. A seguir são apresentados as matrizes de médias, variância, covariância e de correlações. 16

Quadro 1 Médias dos Dados Originais das 10 Progênies em Relação a 10 características (X 1, X 2, X 3, X 4, X 5, X 6, X 7, X 8, X 9 e X 10 ) Prog. Características X 1 X 2 X 3 X 4 X 5 X 6 X 7 X 8 X 9 X 10 1 10.7542 0.6708 16.4708 12.8417 0.0750 0.0575 0.0175 0.4786 0.3659 0.1559 2 10.3417 0.6000 17.0833 13.0708 0.0731 0.0556 0.0175 0.4791 0.3647 0.1513 3 11.2625 0.6750 17.0250 13.2875 0.0832 0.0649 0.0184 0.5509 0.4274 0.1842 4 10.3583 0.6083 16.7542 13.1375 0.0768 0.0587 0.0181 0.5230 0.3975 0.1475 5 9.8083 0.5542 15.9250 11.6000 0.0616 0.0480 0.0136 0.4943 0.3846 0.1244 6 10.2292 0.6833 16.6208 13.0708 0.0691 0.0525 0.0167 0.4953 0.3750 0.1402 7 9.6042 0.6500 15.7333 11.5958 0.0621 0.0479 0.0142 0.5147 0.3939 0.1201 8 9.5208 0.5833 15.8167 11.6208 0.0579 0.0439 0.0140 0.4950 0.3758 0.1169 9 11.6333 0.7458 16.6833 12.9125 0.0954 0.0736 0.0218 0.4924 0.3769 0.1979 10 10.4292 0.6792 15.7208 11.7958 0.0687 0.0527 0.0161 0.4803 0.3674 0.1422 Quadro 2 Médias Padronizadas das 10 Progênies em Relação a 10 Características (X 1, X 2, X 3, X 4, X 5, X 6, X 7, X 8, X 9 e X 10 ) Prog. Características X 1 X 2 X 3 X 4 X 5 X 6 X 7 X 8 X 9 X 10 1 15,78 11,66 30,73 17,47 06,69 06,54 07,04 20,82 19,03 05,90 2 15,17 10,43 31,87 17,78 06,52 06,32 07,04 20,84 18,97 05,73 3 16,52 11,73 31,76 18,08 07,42 07,38 07,41 23,97 22,23 06,98 4 15,19 10,57 31,26 17,88 06,85 06,68 07,28 22,75 20,68 05,59 5 14,39 9,63 29,71 15,78 5,50 5,36 5,55 21,47 19,23 4,71 6 15,01 11,87 31,01 17,78 06,17 05,97 06,72 21,55 19,51 05,31 7 14,09 11,29 29,35 15,78 05,54 05,45 05,71 22,39 20,49 04,55 8 13,97 10,14 29,51 15,81 05,17 04,99 05,63 21,54 19,55 04,43 9 17,07 12,96 31,12 17,57 08,51 08,37 08,77 21,42 19,60 07,49 10 15,30 11,80 29,33 16,05 06,13 05,99 06,48 20,89 19,11 05,38 X i * Padronização : Z i =. ρ i Quadro 3 Matriz de Variâncias e Covariâncias Entre as Variáveis originais 0,4646 0,0291 0,2361 0,3507 0,0074 0,0058 0,0016 0,0026 0,0025 0,0178 0,0033 0,0730 0,0171 0,0005 0,0004 0,0001 0,00004 0,000009 0,0011 0,2872 0,3772 0,0142 0,0032 0,0009 0,0034 0,0025 0,0099 0,5401 0,0061 0,0046 0,0014 0,0044 0,0030 0,0141 0,0001 0,0001 0,00003 0,00005 0,00005 0,0003 0,00008 0,00002 0,00005 0,00004 0,00006 0,000006 0,000006 0,000004 0,000006 0.00053 0,0004 0,0001 0,0004 0,0001 0,0007 17

Quadro 4 Matriz de Correlação entre Variáveis Originais 1,0 0,7419 0,6462 0,7000 0,9626 0,9663 0,9263 0,1668 0,1932 0,9885 1,0 0,2391 0,4050 0,7043 0,6992 0,7097 0,0295 0,0081 0,7032 1,0 0,9577 0,6977 0,6835 0,7294 0,2726 0,2418 0,7035 1,0 0,7365 0,7176 0,7860 0,2619 0,2112 0,7263 1,0 0,9983 0,9785 0,2060 0,2087 0,9768 1,0 0,9647 0,2352 0,2457 0,9803 1,0 0,1012 0,0768 0,9395 1,0 0,9857 0,2279 1,0 0,2485 1,0 Baseado na teoria descrita anteriormente sobre componentes principais, os autovalores e autovetores associados são apresentados a seguir (Quadro 5). Estes foram obtidos a partir da matriz de correlação entre as características originais (R) (ou matriz de covariâncias entre as características padronizadas). A obtenção destes autovalores e autovetores associados por um processo manual é impraticável. Desta forma, utilizou-se o Software GENES. Quadro 5 Componentes Principais Obtidos da Análise de 10 Características (X 1, X 2, X 3, X 4, X 5, X 6, X 7, X 8, X 9 e X 10 ) Componente Principal Variância Autovalor Acumul. (%) Coeficiente de Ponderação Associado (Autovetores) X 1 X 2 X 3 X 4 X 5 X 6 X 7 X 8 X 9 X 10 Y 1 6,6879 66,88 0,3713 0,2715 0,3041 0,3218 0,3788 0,3778 0,3728 0,1117 0,1090 0,3778 Y 2 1,9454 86,33-0,0862-0,2067 0,0954 0,0537-0,0639-0,0406-0,1411 0,6752 0,6744-0,0398 Y 3 0,9508 95,79-0,1511-0,5276 0,6051 0,4980-0,0863-0,1151 0,0137-0,1405-0,1838-0,1012 Y 4 0,2950 98,84-0,1973 0,7308 0,1132 0,4413-0,2375-0,2799-0,0621 0,1362-0,0554-0,2432 Y 5 0,0849 99,64-0,5509-0,0580-0,1532-0,0238 0,3027 0,2162 0,5664 0,2195-0,1465-0,3746 Y 6 0,0255 99,87-0,4299 0,2392 0,6111-0,5532 0,0263 0,0539-0,0943-0,0505 0,0272 0,2501 Y 7 0,0099 99,99 0,1078-0,0855-0,0135-0,1496-0,2984-0,5076 0,4868 0,3609-0,2933 0,3981 Y 8 0,0003 99,99 0,4077 0,0557 0,2788-0,2880-01295 -0,1633 0,4069-0,2360 0,3195-0,5507 Y 9 0,00009 99,99-0,3560-0,0092-0,2113 0,1968-0,1537-0,1377 0,3015-0,5032 0,5305 0,3488 Y 10 0,00002 100,00-0,0029-0,0047 0,0002 0,0008-0,7529 0,6411 0,1175 0,0589-00686 0,0057 No Quadro 3, pode-se constatar numericamente que: λ i = Var (Y i ) = Traço R = 10 i a 2 1 = 1 e a j b j = φ j 18

Os resultados apresentados no Quadro 5 evidenciam que o primeiro componente principal (Y 1 ) explica 66,88% da variação total disponível. Os dois primeiros componentes principais (Y 1 e Y 2 ) explicam 86,33% e os três primeiros (Y 1, Y 2 e Y 3 ) explicam 95,84% da variância total disponível. Portanto, para o presente exemplo, a técnica de componentes principais sumariza muito bem a variação total disponível dos dados amostrais pelo três primeiros componentes principais. Assim, a utilização destes componentes no estudo de divergência genética por meio da dispersão dos escores em gráficos cujos eixos são os referidos componentes (Y 1 e Y 2 ), apresentará resultados satisfatórios. Em estudos que utilizam a técnica dos componentes principais como meio de descartes de variáveis com a finalidade de redução de mão-de-obra, tempo e custo despendido na análise e interpretação dos dados experimentais, a importância relativa das características pode ser avaliada pela magnitude do coeficiente de ponderação destas. Assim, com base em MARDIA et al. (1978) e CRUZ e REGAZZI (1994), para o presente exemplo, identifica-se, em ordem crescente, os caracteres X 5, X 10, X 6, X 3, X 7 e X 2, com maiores pesos em Y 10 (-0,7529), Y 9 (0,5305), Y 8 (-0,5507), Y 7 (-0,5076), Y 6 (0,6111), Y 5 (0,5664) e Y 4 (0,7308), respectivamente, como os de menores importância no estudo realizado, são possíveis de descarte. No exemplo em consideração, o descarte de X 2, X 3, X 5, X 6, X 7 e X 10 é minimizado pela presença de X 1 e X 4, cujas correlações entre estas são altas (ver matriz de correlações entre variáveis originais). O descarte da variável X 9 é minimizado pela presença de X 8, cuja correlação com X 9 é de 0,9857. Os escores relativos a cada progênie, em cada componente, é estimado com base nas informações do Quadro 2 (médias padronizadas das 10 progênies em relação as 10 características X 1, X 2, X 3, X 4, X 5, X 6, X 7, X 8, X 9 e X 10 ) e do Quadro 5 (componentes principais obtidos da análise de 10 características X 1, X 2, X 3, X 4, X 5, X 6, X 7, X 8, X 9 e X 10 ). Assim, tem-se: Y 11 = 0,3713 (15,78) + 0,2715 (11,66) + 0,3041 (30,73) + 0,3218 (17,47) + 0,3788 (6,69) + 0,3778 ( 6,54) + + 0,3728 (7,04) + 0,1117 (20,82) + 0,1090 (19,03) + + 0,3778 (5,90) Y 11 = 38,2770 Os demais escores encontram-se no Quadro 6. A dispersão destes escores em eixos cartesianos é apresentada na Figura 2. Com base na Figura 2, observa-se que, em relação aos caracteres considerados, as progênies 1, 2, 6 e 10 e as progênies 5, 7 e 8 são as mais similares, havendo, entretanto, considerável divergência entre as progênies 3, 4 e 9. As distâncias gráficas podem se estimadas pelas distâncias Euclideanas: dcp ii = [(Y i1 - Y i 1 ) 2 + (Y i2 - Y i 2 ) 2 ] ½ 19

Quadro 6 Escores Relativos a 10 Progênies, Obtidos em Relação aos Dois Primeiros Componentes Principais Genótipos Y 1 Y 2 1 38,2570 25,0736 2 37,9302 25,5050 3 40,8988 29,2319 4 38,5141 27,7958 5 34,6232 26,9303 6 37,5891 26,9303 7 35,0461 27,4731 8 34,1564 26,5848 9 41,9986 25,0295 10 36,4273 25,1353 Figura 2 Dispersão de 10 Progênies em Relação aos Dois Primeiros Componentes Principais (Y 1 e Y 2 ). 20

Por esta expressão são obtidas as medidas de dissimilaridade, que são apresentadas no Quadro 7. Como ilustração é obtida a estimativa de dcp 1,2 : dcp 1,2 = [ (38,2570-37,9302) 2 + (25,0736-25,5050) 2 ] ½ dcp 1,2 = 0,5412 Quadro 7 Dissimilaridade entre Genótipos, com Base na Distância Euclideana, Obtida de Escores dos Dois Primeiros Componentes Principais - 0,5412 4,9265 2,7343 4,0807 1,2030 4,0083 4,3702 3,7419 1,8307-4,7647 2,3640 3,6011 0,6635 3,4915 3,9252 4,0961 1,5477-2,7837 6,6843 4,5745 6,1111 7,2434 4,3439 6,0644-3,9860 1,9544 3,4828 4,5228 4,4491 3,3813-3,0870 0,6882 0,5808 7,6164 2,5450-2,9022 3,4705 4,5315 1,4937-1,2574 7,3692 2,7152-7,9949 2,6941-5,5723-3. VARIÁVEIS CANÔNICAS 3.1. Introdução A análise de variáveis canônicas é uma técnica multivariada cujo procedimento foi relatada por Fischer (1936). Posteiormente, desenvolvida por vários outros autores nas diversas áreas da ciência, tais como M.S. Batlet, P. C. Mahalanobis e C. R. Rao, citadas por CAMPBELL e ATCHLEY (1981), para examinar alguns problemas significantes relativos à sistemática biológica. Mais recentemente, CRUZ e REGAZZI (1994), descreveram a referida técnica na utilização em estudos de divergência genética, com propósito de identificação de grupos similares no espaço bi ou tridimensional. Segundo CRUZ e REGAZZI (1994), a análise multivariada com base em variáveis canônicas, trata-se de um processo alternativo para a avaliação do grau de similaridade entre acessos que leva em consideração tanto a matriz de covariância residual quanto a covariância entre médias fenotípicas dos caracteres avaliados. As variáveis canônicas são combinações lineares das variáveis originais, sendo determinadas de tal modo que a variação entre grupos é maximizada em relação à variação dentro de grupos. A semelhança da análise de componentes principais, espera-se que a configuração do grupo possa ser adequadamente representada em um sub-espaço bi ou tridimensional pelos primeiros dois ou três vetores canônicos (Campbell e Atechley, 1981, citados por LIBERATO, 1995). 21

Assim, a viabilidade do uso das variáveis canônicas em estudo nas diversas áreas da ciência, em gráficos de dispersão, também está restrita à concentração da variabilidade disponível entre as primeiras variáveis. A semelhança da análise de componentes principais, a técnica de análise canônica pode atender a vários propósitos, tais como: a) Examinar as correlações entre caracteres estudados; b) Resumir um conjunto de caracteres em outro de menor dimensão e de sentido interpretável; c) Avaliar a importância de cada caracter e promover a eliminação daqueles que comtribuem pouco, em termos de variação, no grupo de amostras em estudo; d) Construir índices que possibilitem o agrupamento de amostras ou populações; e) entre outros. CAMUSSI et al. (1985) relata que as transformações para variáveis canônicas permitem a visualização ótima de diferenças entre populações, pela redução de dimensões que preserve a maioria das informações biológicas. É um método de ordenação cujo objetivo é avaliar o grau de similaridade entre materiais experimentais, considerando tanto a matriz de variâncias e covariâncias residuais quanto a matriz de variâncias e covariâncias entre médias fenotípicas dos caracteres avaliados, ou seja, a análise só é empregada nas situações em que existem dados provenientes de delineamentos experimentais. Esta técnica, diferentemente da análise de componentes principais, considera as possíveis diferenças na dispersão sobre as médias. Desta forma, esta técnica apresenta vantagem de manter o princípio da Análise de Agrupamento, utilizando a distância de Mahalanobis, qual seja a de considerar as correlações residuais existentes entre a média dos tratamentos. Também, esta técnica, possui estreita relação com a análise de função discriminante linear e com a distância de Mahalanobis. Em resumo, a utilização de análise canônica tem por finalidade básica, a de proporcionar uma simplificação estrutural de dados, de modo que a diversidade influenciada a princípio por um conjunto p-dimensional ( p = n o de caracteres considerados no estudo), possa ser avaliada por um complexo bi ou tridimensional de fácil interpretação geométrica. Os princípios básicos dessa técnica são descritos por vários autores, tais como MARDIA et al. (1979); CHATFIELD e COLLINS (1986); JOHNSON e WICHERN (1988); CRUZ e REGAZZI (1994), entre outros. Segundo esses autores, devido normalmente as variáveis em estudo possuirem diferentes escalas, na utilização desse procedimento é comum a transformação das variáveis originais em variáveis padronizadas e não-correlacionadas, de modo que a matriz de dispersão residual se iguala a identidade. A transformação comumente utilizada tem sido o processo de condensação pivotal descrito por RAO (1952) e exemplificado por SINGH e CHAUDHARG (1979), bem como por CRUZ e REGAZZI (1994). Após a transformação, o processo de estimação das variáveis canônicas equivale ao descrito para as componentes principais. Semelhante à técnica de componentes principais, a análise canônica está se difundindo nas diversas áreas da ciência devido a disponibilidade de recursos computacionais e de software aplicados atualmente existentes. Entretanto, uma das grandes dificuldades ainda encontrada é a exigência de alguma experiência sobre análise multivariada. 3.2. Obtenção das Variáveis Canônicas A técnica de variáveis canônicas, à semelhança dos componentes principais, consiste em transformar o conjunto de n variáveis originais em um novo conjunto, as variáveis canônicas. 22

Seja X ij a média da j-ésima característica (j = 1,2,...,p) avaliada na i-ésima população ou amostra (i = 1,2,...,n), tal que as seguintes propriedades são verificadas: a) Se Y j é uma variável canônica, então, Y j é uma combinação linear de X s. Y j = a 1 X 1 + a 2 X 2 +... + a p X p b) Se Y j é uma outra variável canônica, então: Y j = b 1 X 1 + b 2 X 2 +... + b p X p p p p p e ainda: ΣΣ a j a j σ jj = ΣΣ b j b j σ jj = 1 j=1 j =1 j=1 j =1 ΣΣ a j b j σ jj = 0 j=1 j =1 p p em que σ jj é a covariância residual entre as características j e j. c) Dentre todas as variáveis canônicas, Y 1 apresenta a maior variância, Y 2 a segunda maior e assim sucessivamente, ou seja: σ 2 (Y 1 ) > σ 2 (Y 2 ) >... > σ 2 (Y p ) A propriedade (b) garante a ponderação da influência das variâncias e covariâncias residuais sobre as estimativas dos coeficientes de cada característica, bem como a independência entre estas variáveis. Desta forma, fundamentalmente a técnica de variáveis canônicas à semelhança da técnica de componentes principais, consiste em transformar um conjunto de p variáveis X 1, X 2,..., X p, pertencentes a n amostras ou populações em um novo conjunto de variáveis Y 1, Y 2,..., Y p, as quais sejam função linear das X s e independentes entre si. Vale salientar que o número de variáveis canônicas obtidas (Y 1, Y 2,..., Y p ) é igual ao número de variáveis originais. Assim, segundo RAO (1952) e CRUZ e REGAZZI (1994), o problema estatístico consiste fundamentalmente em estimar os coeficientes de ponderação das características em cada variável canônica e as suas respectivas variâncias. Assim, segundo estes autores, estas estimativas podem ser obtidas pela solução do sistema: (T - λ j E) α j = φ em que a j-ésima variância é dada pelo autovalor de ordem correspondente, obtido pela solução de: det [T - λ j E] = 0 em que: α j = autovetor associado a cada estimativa dos autovalores de E -1 T, cujos elementos são os coeficientes de ponderação dos caracteres para estabelecimento das variáveis canônicas; 23

λj = autovalores da matriz E -1 T; T = matriz de covariâncias entre as médias das amostras ou populações avaliadas; e E = matriz de covariâncias residuais. As matrizes T e E são simétricas. Entretanto, o produto de ambas (E -1 T) não é uma matriz simétrica. Assim, dada a complexidade de cálculo das raízes características de uma matriz assimétrica, tem sido recomendado a utilização de dados transformados através da condensação pivotal, conforme descrito por RAO (1952) e mais recentemente por CRUZ e REGAZZI (1994). Esta técnica consiste em justapor, à direita da matriz de dispersão que se está operando, a matriz-identidade. Posteriormente, transforma-se por operações nas linhas, os elementos de cada coluna, de tal forma que ela tenha 1 na linha diagonal e zeros abaixo da diagonal, ou seja, é obtida uma matriz triangular superior em um processo sistemática. Este processo tem a vantagem de proporcionar novas variáveis que apresentam covariâncias residuais nula e variâncias residuais igual a unidade. Assim, as variâncias originais X j são transformadas pelo processo de condensação pivotal, em variáveis padronizadas Z j, com matriz de variâncias e covariâncias em amostras ou populações igual a T* e a matriz de variâncias e covariâncias residuais igual à matriz identidade I. Desta forma, a determinação dos autovalores de T* é dada pela equação: det (T* - λi) = 0 Obtendo-se, assim, as variâncias das j-ésimas variáveis canônicas. Os autovetores da matriz T* correspondem aos da matriz E -1 T, são obtidos pela solução da seguinte equação: (T* - λ j I) α j = 0 onde: λj = a raiz característica que corresponde à variância da j-ésima variável canônica; αj = vetor de coeficientes da j-ésima variável canônica, estabelecido com as variáveis transformadas por condensação pivotal. Desta forma, observa-se que o processo de estimação torna-se idêntico ao descrito para os componentes principais. Uma vez estimados os coeficientes α j, os coeficientes a j, associados às variáveis originais, podem ser calculados por meio de: [ a 1 a 2... a n ] = [ α 1 α 2... α n ] V onde: V = matriz n x n de transformação, obtida pelo processo de condensação pivotal. Além disso, segundo CRUZ e REGAZZI (1994), dada as inferências serem feitas em relação às variáveis originais padronizadas, é necessário ainda eliminar os efeitos de escala de mensuração. Assim, os coeficientes a j s são multiplicados pelo desvio padrão do erro experimental, de modo que: j x j = a j σ j [X j /σ j -] Logo: j = a j σ j (σ j = desvio padrão residual) 24

3.3. Importância Relativa de uma Variável Canônica A importância relativa de cada variável canônica (IR k ), à semelhança de componentes principais, é também dada pela razão entre a variância por ela explicada e o total da variância disponível, ou seja, a proporção da variação total explicada pela k-ésima variável canônica é dada pela expressão: λ k IR k = λ 1 + λ 2 +... + λ p k = 1, 2,..., p ou ainda, a proporção da variação total explicada pelas primeiras k variáveis canônicas (PV k s ) é dada por: λ 1 + λ 2 +... + λ k PV k s = λ 1 + λ 2 +... + λ p k = 1, 2,..., p Assim, verifica-se que a proporção da variação total explicada pelas primeiras variáveis canônicas é uma medida da quantidade de informação retida pela redução de p para k dimensão. Na maioria dos estudos, é desejável que a variância acumulada nas duas primeiras variáveis canônicas exceda 70-80%. Nesta condição, nos casos de estudo por meio das distâncias geométricas entre amostras ou populações em gráficos de dispersão, cujas coordenadas são escores relativos às primeiras variáveis canônicas, as interferências são tidas satisfatórias. Assim, embora p-variáveis canônicas sejam necessárias para reproduzir a variabilidade total do sistema, a viabilidade de utilização da referida técnica reside na possibilidade de resumir o conjunto de variáveis originais em poucas variáveis canônicas. Nestas condições, esta técnica proporcionará uma simplificação considerável nos cálculos estatísticos e na interpretação dos resultados com relação aos demais métodos alternativos, principalmente quando o número de variáveis avaliadas foram relativamente grande. 3.4. Descarte de Variáveis Nos casos em que o número de variáveis é muito grande, procura-se descartar aquelas de pouca relevância na discriminação do material avaliado, reduzindo, assim, mão-de-obra, tempo e custo despendido na análise e interpretação dos dados experimentais. A semelhança do procedimento descrito em componentes principais sobre descarte de variáveis, a identificação de características de menor importância em certos estudos tem sido aquelas cujos coeficientes de ponderação, obtidos com a padronização das variáveis, são de maior magnitude, em valor absoluto, nas últimas variáveis canônicas. Assim, segundo recomendações de diversos autores (JOLLIFE, 1972/1973; MARDIA et al., 1979; CRUZ e REGAZZI, 1994), tem sido comum descartar a variável de maior coeficiente de ponderação (em valor absoluto) a partir da última variável canônica. Quando em uma variável canônica de menor variância o maior coeficiente de ponderação está associado a uma característica já previamente descartada, tem-se optado por não fazer nenhum outro descarte com base nos coeficientes daquela variável canônica, mas prosseguir a identificação da importância relativa das características na outra variável de variância imediatamente superior. 25

Uma das questões básicas nas diversas áreas da ciência diz respeito ao número e tipo de características a serem avaliadas. Não existem bases teóricas para determinar o número de características a serem medidas. Assim, tem sido relatado, no melhoramento vegetal, que os caracteres importantes para adaptação e seleção natural são mais apropriados e devem ser escolhidos para os estudos de divergências e agrupamento (ARUNACHALAM, 1981 e CRUZ e REGAZZI, 1994). ADAMS e WIERSMA (1978) acrescenta ainda que as características a serem preservadas nesta análise deverão ser aquelas que representam a estrutura fundamental do sistema biológico que está sendo estudado, devendo ainda serem suficientemente diversos para representar, no mínimo, as dimensões mais importantes do sistema. Assim, quando o número de características utilizadas num estudo torna-se elevado, é possível que muitas delas pouco contribuam para a discriminação das amostras ou populações avaliadas, por serem relativamente invariantes entre estas ou por serem redundantes em virtude de serem altamente correlacionadas com outras características. Esta situação apresenta como conseqüência aumento no trabalho de caracterização, sem melhoria na precisão, além de tornar mais complexa a análise e interpretação dos dados. Portanto, a eliminação das características redundantes e de difícil mensuração torna-se desejável, afim de facilitar o estudo, reduzindo tempo e custo da experiência (Pereira, 1989, citado por Liberato, 1995). Desta forma, a redução do número de características, com eliminação daqueles que menos contribuem para o estudo, deve facilitar as interpretações sem causar perda considerável de informações. CRUZ e REGAZZI (1994) comentam que os caracteres dispensáveis em estudo de divergência genética são aqueles relativamente invariantes entre os indivíduos estudados, são fortemente afetados pelo ambiente, apresentam instabilidade com a mudanças ambiental ou são redundantes por estarem correlacionados com outros caracteres. Portanto, as variáveis selecionadas e descartadas devem apresentar correlações significativas entre si, ou seja, as variáveis descartadas devem ser redundantes (ser responsáveis pelo mesmo tipo de informações já contidas nas variáveis selecionadas).por outro lado, as variáveis selecionadas devem ter baixas correlações entre si. De forma tal que cada variável preservada na análise será responsável por um tipo de informação biológica exclusiva e a ação conjunta das mesmas será complementar para a descrição geral dos indivíduos ou populações estudadas. Em resumo ao se realizar o descarte de variáveis através da variável canônicas, conforme procedimento descrito, os comentários feitos anteriormente deverão ser considerados, de forma tal que as características descartadas não proporcione perdas significativas nas interpretações e conclusões no estudo em questão. 3.5. Análise de Variáveis Canônica e Análise de Agrupamento Quando as primeiras variáveis canônicas explicam a maior parte da variação do sistema em estudo, estas podem ser representadas graficamente e apresentar uma importante aplicação em conexão com a análise de agrupamento. Este procedimento é satisfatório quando as duas primeiras varáveis canônicas utilizadas como eixo do sistema cartesiano envolvem uma fração considerável da variação total, normalmente citada como acima de 70 a 80%. Nos casos em que este limite não é atingido, a análise é completada com a dispersão gráfica em relação a terceira e quarta variável canônicas. Com base nos escores das primeiras variáveis canônicas, estima-se a Distância Euclidiana Média que expressa uma medida alternativa entre aquela população ou amostras. Assim, nos casos em que a dispersão gráfica não provê informações adequadas no estudo, CRUZ (1990) comenta que certos autores têm utilizado os escores dos primeiras variáveis canônicas para o cálculo da Distância Euclidiana Média, valendo-se, para esse fim, da propriedade de independência entre tais variáveis canônicas. Tal procedimento é utilizado como complementar as informações da dispersão gráfica. 26