29 e 30 de julho de 2013

Programa de Pós-Graduação em Estatística e Experimentação Agronômica ESALQ/USP 29 e 30 de julho de 2013

Dia 2 - Conteúdo 1 2 3

Dados multivariados Estrutura: n observações tomadas de p variáveis resposta. É imprescindível a presença de correlação entre as respostas. Divide-se em: análise ou de simplicação (ACP, AF...) e técnicas de inferência (teste T 2, MANOVA,...). Obs.: regressão múltipla não signica regressão!

Grande apelo prático. Divide-se basicamente em: métodos grácos e métodos matemáticos de redução dimensional. Muitas vezes dispensam procedimentos inferenciais!

Métodos grácos Três métodos grácos bastante úteis são: Draftsman Faces de Cherno 1 Gráco de estrelas 2 1 Pacote R: TeachingDemos 2 Pacote R: graphics

Exemplo 1 Considere de 20 acessos de alho cujas seguintes variáveis foram mensuradas: diâmetro, comprimento, peso médio do bulbo e área foliar. Visualmente, é possível caracterizar os acessos?

Técnicas de redução dimensional Solução para o problema de representar muitas (digamos >10) variáveis. Construção de variáveis índices, da forma: Z = a 1 X 1 + a 2 X 2 +... + a p X p São exemplos: componentes principais, fatores, análise discriminante, escalonamento multidimensional, etc. Em geral, objetiva-se representar os n objetos com os valores de 2 ou 3 variáveis índices com a menor perda possível da informação das p variáveis.

ACP Provavelmente o mais simples e mais utilizado dos métodos multivariados. O objetivo é, a partir de p variáveis resposta, construir p variáveis índices (chamados componentes principais) que sejam não correlacionadas e que descrevam a variação dos. A falta de correlação signica que os estão medindo diferentes dimensões dos. A ordem de importância dos componentes principais (Z) é tal que: Var(Z 1 ) Var(Z 2 )... Var(Z p ) sendo Var(Z j ) = λ j, o autovalor do j-ésimo componente principal.

Procedimento da ACP Seja X (n p) a matriz de. O primeiro componente principal é a seguinte combinação linear: sujeito à norma: Z 1 = a 11 X 1 + a 12 X 2 +... + a 1p X p a 2 11 + a 2 12 +... + a 2 1p = 1 Analogamente, o segundo componente principal é: Z 2 = a 21 X 1 + a 22 X 2 +... + a 2p X p também sujeito a mesma norma, e assim por diante.

Procedimento da ACP O problema consiste em determinar os coecientes a que constituem os autovetores dos CP's. Os cálculos são baseados na matriz R de correlações entre as p variáveis (ou na matriz S de covariâncias), a partir da equação característica: Os escores dos CP's são obtidos por: (R λ j I )a j = 0 Z j = X a j A proporção da variância total de X que é explicada pelo j-ésimo CP é denida por: Var(Z j ) Var.total(X ) = λ j p λ j j

Interpretando uma ACP A interpretação dos CP's deve ser feita em termos das magnitudes dos coecientes a, isto é, do seu autovetor. É esperado que, quando a análise tenha sido bem suscedida, os 2 ou 3 primeiros CP's expliquem conjuntamente 80 ou 90% da variação dos (não é uma regra!). Quando se realiza a análise a partir da matriz de correlações, outro critério é escolher áqueles componentes cujo autovalor é maior que 1. Os escores dos CP's retidos podem ser plotados em grácos 2 ou 3D para o estudo das relações entre os n indivíduos.

Exemplo 2 Utilize os de alho (Exemplo 1) para realizar a ACP a partir da matriz de correlações.

MANOVA: de variância ANOVA aplicada simultaneamente à todas as variáveis resposta. No caso univariado decompoe-se somas de quadrados, no caso multivariado o procedimento é análogo, com a diferença que a variabilidade é computada e decomposta em matrizes de somas de quadrados e produtos cruzados (MSQPC). Por exemplo, para 3 variáveis resposta tem-se a seguinte matriz de MSQPC: SQtotal(y 1 ) asptotal(y 1, 1 y, 2 y) 3 ) SPtotal(y 2, y 1 ) asqtotal(y SPtotal(y 2 ) 2, y 3 ) SPtotal(y 3, y 1 ) asptotal(y SQtotal(y 3, 3 y) 2 )

MANOVA: de variância Modelo estatístico de um experimento em DIC: Y ij = µ + t i + ɛ ij Exigências semelhantes ao caso univariado são feitas.

Tabela da MANOVA FV GL MSQPC Tratamento t 1 B Resíduo n t W Total n 1 T

Hipótese em teste H 0 : µ 1 = µ 2 =... = µ t No caso univariado a F é usada para testar H 0. No multivariado, quatro s são comumente usadas.

Estatísticas teste Lambda de Wilks Maior raiz de Roy Traço de Pillai Traço de Lawley-Hotelling Para todas elas, aproximações pela distribuição F são feitas para testar H 0 apresentada. Embora o lambda de Wilks seja bastante popular, nenhuma delas pode ser considerada como a melhor.

Maior raiz de Roy Aproximação pela F em que ν 1 = max(p, t 1), ν 2 = n t ν 1 1, λ 1 é o maior autovalor da matriz W 1 B. F = ν 2 d λ 1 F (ν 1, ν 2 ) ν 1

Exemplo 3 Descrição do experimento: Tratamento: 6 cultivares de alho 4 repetições Delineamento: inteiramente ao acaso Respostas: diâmetro, comprimento, peso médio do bulbo e área foliar. Há diferenças signicativas entre os vetores de tratamentos.

Função discriminante Dada uma MANOVA para p variáveis resposta (Y 1, Y 2,..., Y p ), uma função discriminante canônica ou variável canônica, uma combinação linear das variáveis resposta da forma Z = a 1 Y 1 + a 2 Y 2 +... + a p Y p

Testes post-hoc via função discriminante Quando a variável canônica retém grande parte da proporção, digamos 70 ou 80%, uma variância univariada pode ser realizada utilizando os valores dessa variável e o quadrado médio do resíduo para realizar testes.