Programa de Pós-Graduação em Estatística e Experimentação Agronômica ESALQ/USP 25 a 30 de novembro de 2013
Parte 6 - Conteúdo 1 2 3
Dados multivariados Estrutura: n observações tomadas de p variáveis resposta. É imprescindível a presença de correlação entre as respostas. Divide-se em: análise ou de simplicação (, AF...) e técnicas de inferência (teste T 2,,...).
Grande apelo prático. Divide-se basicamente em: métodos e métodos matemáticos de redução dimensional. Muitas vezes dispensam procedimentos inferenciais!
Três métodos bastante úteis são: Draftsman Faces de Cherno 1 Gráco de estrelas 2 1 Pacote R: TeachingDemos 2 Pacote R: graphics
Exemplo 1 Considere de 20 acessos de alho cujas seguintes variáveis foram mensuradas: diâmetro, comprimento, peso médio do bulbo e área foliar. Visualmente, é possível caracterizar os acessos?
Técnicas de redução dimensional Solução para o problema de representar muitas (digamos >10) variáveis. Construção de variáveis índices, da forma: Z = a 1 X 1 + a 2 X 2 +... + a p X p São exemplos: componentes principais, fatores, análise discriminante, escalonamento multidimensional, etc. Em geral, objetiva-se representar os n objetos com os valores de 2 ou 3 variáveis índices com a menor perda possível da informação das p variáveis.
Provavelmente o mais simples e mais utilizado dos métodos multivariados. O objetivo é, a partir de p variáveis resposta, construir p variáveis índices (chamados componentes principais) que sejam não correlacionadas e que descrevam a variação dos. A falta de correlação signica que os estão medindo diferentes dimensões dos. A ordem de importância dos componentes principais (Z) é tal que: Var(Z 1 ) Var(Z 2 )... Var(Z p ) sendo Var(Z j ) = λ j, o autovalor do j-ésimo componente principal.
Procedimento da Seja X (n p) a matriz de. O primeiro componente principal é a seguinte combinação linear: Z 1 = a 11 X 1 + a 12 X 2 +... + a 1p X p sujeito à norma: a 2 11 + a 2 12 +... + a 2 1p = 1 Analogamente, o segundo componente principal é: Z 2 = a 21 X 1 + a 22 X 2 +... + a 2p X p também sujeito a mesma norma, e assim por diante.
Procedimento da O problema consiste em determinar os coecientes a que constituem os autovetores dos CP's. Os cálculos são baseados na matriz R de correlações entre as p variáveis (ou na matriz S de covariâncias), a partir da equação característica: Os escores dos CP's são obtidos por: (R λ j I )a j = 0 Z j = X a j A proporção da variância total de X que é explicada pelo j-ésimo CP é denida por: Var(Z j ) Var.total(X ) = λ j p j λ j
Interpretando uma A interpretação dos CP's deve ser feita em termos das magnitudes dos coecientes a, isto é, do seu autovetor. É esperado que, quando a análise tenha sido bem suscedida, os 2 ou 3 primeiros CP's expliquem conjuntamente 80 ou 90% da variação dos (não é uma regra!). Quando se realiza a análise a partir da matriz de correlações, outro critério é escolher áqueles componentes cujo autovalor é maior que 1. Os escores dos CP's retidos podem ser plotados em 2 ou 3D para o estudo das relações entre os n indivíduos.
Exercício Utilize os de alho (Exemplo 1) para realizar a a partir da matriz de correlações.
: principal component regression Consiste em ajustar modelos de regressão linear em função dos escores dos componentes principais Indicado quando há problemas de multicolinearidade Indicado quando o número de variáveis é grande ou mesmo superior ao n
- exemplo Supõe-se que a produtividade de alho possa ser explicada por variáveis morfológicas. Utilize os do exemplo 1 ( de alho) para ajustar um modelo para predizer a produtividade de alho.
: de variância ANOVA aplicada simultaneamente à todas as variáveis resposta. No caso univariado decompoe-se somas de quadrados, no caso multivariado o procedimento é análogo, com a diferença que a variabilidade é computada e decomposta em matrizes de somas de quadrados e produtos cruzados (MSQPC). Por exemplo, para 3 variáveis resposta tem-se a seguinte matriz de MSQPC: SQtotal(y 1 ) SPtotal(y 1, y 2 ) SPtotal(y 1, y 3 ) MSQPC Total = SPtotal(y 2, y 1 ) SQtotal(y 2 ) SPtotal(y 2, y 3 ) SPtotal(y 3, y 1 ) SPtotal(y 3, y 2 ) SQtotal(y 3 )
: de variância Modelo estatístico de um experimento em DIC: Y ij = µ + t i + ɛ ij Exigências semelhantes ao caso univariado são feitas.
Tabela da FV GL MSQPC Tratamento t 1 B Resíduo n t W Total n 1 T
Hipótese em teste H 0 : µ 1 = µ 2 =... = µ t No caso univariado a F é usada para testar H 0. No multivariado, quatro s são comumente usadas.
Lambda de Wilks Maior raiz de Roy Traço de Pillai Traço de Lawley-Hotelling Estatísticas teste Para todas elas, aproximações pela distribuição F são feitas para testar H 0 apresentada. Embora o lambda de Wilks seja bastante popular, nenhuma delas pode ser considerada como a melhor.
Maior raiz de Roy Aproximação pela F em que ν 1 = max(p, t 1), ν 2 = n t ν 1 1, λ 1 é o maior autovalor da matriz W 1 B. F = ν 2 ν 1 λ 1 d F (ν 1, ν 2 )
Exemplo 2 Descrição do experimento: Tratamento: 6 cultivares de alho 4 repetições Delineamento: inteiramente ao acaso Respostas: diâmetro, comprimento, peso médio do bulbo e área foliar. Há diferenças signicativas entre os vetores de tratamentos.
Dada uma para p variáveis resposta (Y 1, Y 2,..., Y p ), uma função discriminante ou variável, uma combinação linear das variáveis resposta da forma Z = a 1 Y 1 + a 2 Y 2 +... + a p Y p
Testes post-hoc via função discriminante Quando a variável retém grande parte da proporção, digamos 70 ou 80%, uma variância univariada pode ser realizada utilizando os valores dessa variável e o quadrado médio do resíduo para realizar testes.