Fernanda Navarro Song

Transcrição

1 UNIVERSIDADE ESTADUAL PAULISTA JÚLIO DE MESQUITA FILHO INSTITUTO DE BIOCIÊNCIAS - RIO CLARO CIÊNCIAS BIOLÓGICAS Fernanda Navarro Song Técnicas de análise multivariada com aplicações a dados de natureza biológica Rio Claro 2013

2 Fernanda Navarro Song Técnicas de análise multivariada com aplicações a dados de natureza biológica Orientador: José Silvio Govone Trabalho de Conclusão de Curso apresentado ao Instituto de Biociências da Universidade Estadual Paulista Júlio de Mesquita Filho - Câmpus de Rio Claro, para obtenção do grau de Bacharela em Ciências Biológicas. Rio Claro 2013

3 S698t Song, Fernanda Navarro Técnicas de análise multivariada com aplicações a dados de natureza biológica / Fernanda Navarro Song. - Rio Claro, f. : il., figs., gráfs., tabs. Trabalho de conclusão de curso (bacharelado - Ciências Biológicas) - Universidade Estadual Paulista, Instituto de Biociências de Rio Claro Orientador: José Silvio Govone 1. Análise multivariada. 2. Componentes principais. 3. Manova. 4. Correlações canônicas. 5. Análise de correspondência. 6. Análise fatorial. I. Título. Ficha Catalográfica elaborada pela STATI - Biblioteca da UNESP Campus de Rio Claro/SP

4 Dedicatória A minha família, que nos momentos de minha ausência dedicados ao estudo superior, sempre fizeram entender que o futuro é feito a partir da constante dedicação no presente.

5 - 4 - Agradecimentos Agradeço primeiramente a Deus pela minha vida, saúde e por ter colocado pessoas maravilhosas nela. Um agradecimento especial à minha mãe, por todo apoio e amor que me deu desde sempre e continua dando. Também ao meu pai, que nessas minhas indecisões da vida sempre me incentivou continuar. Agradeço ao Evandro por me ajudar sempre que possível e pelas caronas sempre muito úteis. Ao Joaquim, que além de meu namorado é meu amigo, me ajudando mais do que o imaginável, sempre me cobrando e incentivando a fazer o que precisava. Obrigada pela paciência e amor. Ao meu orientador, Silvio Govone, que acreditou em mim mais do que eu mesma. Agradeço pelo conhecimento transmitido, pela demasiada paciência e pela compreensão. Às minhas queridas companheiras e amigas da República Moitinha! Andréia, Beatriz e Flávia, sou grata por dividir desse teto e paredes verdes com vocês! Gosto muito de vocês, do jeito de cada uma e das nossas ideias para o fundo que ainda não conseguimos concretizar. Às minhas ex-companheiras de casa, Lívia e Gabriela, agradeço pelo tempo que passamos juntas e pela amizade que continuou independente de qualquer coisa! Agradeço também à Júlia, que apesar de não morar na mesma casa que eu, compartilhou de muitas histórias e conquistas! Podem ter certeza que vocês nunca serão esquecidas por mim! CBI10! Nunca vou esquecer desses quatro anos com todos vocês! Muito obrigada pelos churrascos, festinhas juninas, gordices em geral sempre! A sala mito vai perpetuar na Unesp e, é claro, no meu coração! Não poderia esquecer da CF13, que nesse último ano fez minhas segundas e quintas-feiras muito mais cansativas e felizes! Estou tão acostumada com essa rotina que será muito estranho quando terminar, mas saibam que todos marcaram a minha vida e que nunca esquecerei desse ano por causa de cada um

6 - 5 - de vocês! Aprendi, degustei, ri, gargalhei, vendi, tive ataque de nervos, dancei, aproveitei e até conheci o amor! Muito obrigada por tudo mesmo! Mesmo longe, a amizade de verdade continua. Cristina, Mariana, Débora, Nívea e Otávio, não passamos mais o dia-a-dia juntas, mas o apoio de longe e nossos escassos encontros me fortaleceram e ainda fortalecem todos os dias! Amo muito vocês! Ao PRO-CDA, principalmente à Angelica, que além de me ajudar em outro projeto, me forneceu dados para que eu compreendesse mais a técnica a ser utilizada.

7 - 6 - RESUMO A análise estatística multivariada, extensão da análise univariada, consiste num conjunto de técnicas estatísticas, aplicadas quando há diversas variáveis relacionadas simultaneamente, sendo todas elas, em princípio, consideradas importantes no fenômeno em estudo. É de grande aplicação a conjuntos de dados das mais diversas áreas do conhecimento, principalmente da área biológica. Seu desenvolvimento teve um grande impulso na primeira metade do século passado. Entretanto, devido a complexidade dos cálculos matemáticos, principalmente envolvendo operações com matrizes de altas ordens, as aplicações somente se popularizaram nos dias atuais, com o desenvolvimento dos computadores e aplicativos computacionais. Técnicas estudadas: distâncias multivariadas, componentes principais, análise fatorial, correlações canônicas, análise de correspondência, teste t² de Hotelling, análise de variância multivariada (Manova), teste de normalidade multivariada, igualdade de matrizes de variâncias e covariâncias para populações multinormais. Palavras-Chave: análise multivariada, componentes principais, manova, correlações canônicas, análise de correspondência, análise fatorial.

8 - 7 - SUMÁRIO 1 INTRODUÇÃO EXEMPLOS DE DADOS MULTIVAIADOS REPRESENTAÇÃO DE DADOS MULTIVARIADOS DISTÂNCIAS MULTIVARIADAS TESTES DE IGUALDADE DE MATRIZES E DE VARIÂNCIAS E COVARIÂNCIAS PARA POPULAÇÕES MULTINORMAIS TESTES DE SIGNIFICÂNCIA COM DADOS MULTIVARIADOS Lambda de Wilks Maior raiz de Roy Traço de Pillai Traço de Lawley-Hotelling UM MÉTODO PARA SE VERIFICAR A NORMALIDADE MULTIVARIADA ANÁLISE DE CORRELAÇÕES CANÔNICAS ANÁLISE DE CORRESPONDÊNCIA COMPONENTES PRINCIPAIS ANÁLISE FATORIAL CONCLUSÃO REFERÊNCIAS BIBLIOGRÁFICAS... 65

9 INTRODUÇÃO Os métodos estatísticos utilizados em análises de problemas práticos são, na maioria, univariados, tratando somente da análise de uma única variável aleatória. A maior facilidade no emprego destes métodos permite com que sejam mais conhecidos e mais utilizados por profissionais das diversas áreas, que necessitam de análises estatísticas em seus dados. A análise estatística multivariada, extensão da análise univariada, consiste num conjunto de técnicas estatísticas, aplicadas quando há diversas variáveis relacionadas simultaneamente, sendo todas elas, em princípio, consideradas importantes no fenômeno em estudo. Seu desenvolvimento teve um grande impulso na primeira metade do século passado. Entretanto, devido a complexidade dos cálculos matemáticos, principalmente envolvendo operações com matrizes de altas ordens, as aplicações somente se popularizaram nos dias atuais, com o desenvolvimento dos computadores e aplicativos computacionais. Tais métodos são utilizados na análise de dados em que há observações de várias variáveis correlacionadas entre si. Estes tipos de dados são muito comuns na área de ciências biológicas, abrangendo biologia, ecologia, ciências da saúde e ciências agronômicas. Basicamente a análise multivariada procura responder as seguintes questões (Manly, 2005): a) como as p variáveis se relacionam dentro de cada grupo? b) os grupos diferem significativamente quanto aos valores médios das variáveis? c) os grupos mostram quantidades similares de variação para as variáveis? d) caso os grupos sejam diferentes em termos de distribuições das variáveis, é possível construir alguma função destas variáveis que separe os dois grupos? Para procurar respostas às questões acima, várias técnicas foram desenvolvidas, sendo úteis a cada um dos objetivos propostos (Manly, 2005). No decorrer do trabalho serão explicadas estas técnicas.

10 - 9-2 EXEMPLOS DE DADOS MULTIVARIADOS Algumas aplicações de métodos multivariados foram estudadas, sendo elas, em sua maioria, relacionadas com a área de Ciências Biológicas. Em todos os casos fica claro que todas as variáveis são não-independentes umas das outras. Uma das aplicações (Manly, 2008) é referente a uma tempestade que ocorreu em 1º de Fevereiro de 1898, em Rhode Island (EUA), onde diversos pardais ficaram moribundos e metade desses morreu. Com esse fato, coletaram-se dados (tabela 1) para tentar encontrar suporte para a teoria de seleção natural de Charles Darwin. Tabela 1 Medidas do corpo de pardocas (Manly, 2008) Pássaro X1 (mm) X2 (mm) X3 (mm) X4 (mm) X5 (mm) ,6 18,5 20, ,4 17,9 19, ,0 18,4 20, ,9 17,7 20, ,5 18,6 20, ,0 19,0 20, ,9 18,4 20, ,8 18,6 21, ,7 19,1 21, ,0 18,8 22, ,3 18,6 22, ,1 18,6 20,5

11 Tabela 1 Medidas do corpo de pardocas (continuação) (Manly, 2008) Pássaro X1 (mm) X2 (mm) X3 (mm) X4 (mm) X5 (mm) ,3 19,3 21, ,0 19,1 20, ,5 18,1 19, ,9 18,0 20, ,4 18,5 21, ,5 18,2 20, ,3 18,5 20, ,5 18,6 21, ,5 18,0 21, ,4 18,0 20, ,5 18,2 20, ,6 18,8 21, ,3 17,2 19, ,7 18,8 22, ,0 18,5 20, ,2 19,5 21, ,1 19,8 22, ,1 17,3 19, ,3 18,0 23, ,6 18,8 21, ,8 18,5 21, ,9 18,1 19, ,9 18,5 21, ,9 19,1 22, ,4 17,3 18, ,8 18,2 20,5

12 Tabela 1 Medidas do corpo de pardocas (continuação) (Manly, 2008) Pássaro X1 (mm) X2 (mm) X3 (mm) X4 (mm) X5 (mm) ,2 17,9 19, ,4 19,5 22, ,0 18,1 20, ,7 18,2 20, ,5 18,4 20, ,1 19,1 20, ,7 17,7 19, ,9 19,1 20, ,6 18,6 20, ,5 18,5 21, ,3 18,8 20,9 Nota: X1 = comprimento total; X2 = extensão alar; X3 = comprimento do bico e cabeça; X4 = comprimento do úmero; X5 = comprimento da quilha do esterno. Pássaros de 1 a 21 sobreviveram, pássaros de 22 a 49 morreram. Fonte: Adaptado de Bumpus, H.C. (1898), Biological Lectures, 11th Lecture, Marine Biology Laboratory, Woods Hole, MA, PP (Manly, 2008) Como conclusão da aplicação de técnicas multivariadas, tem se que: Os pássaros que morreram, morreram não por acidente, mas porque eles eram fisicamente desqualificados ; Os pássaros que sobreviveram, sobreviveram porque eles possuíam certas características físicas ; O processo de eliminação seletiva é mais severo com indivíduos extremamente variáveis, não importando em qual direção a variação possa ocorrer. Um segundo exemplo é o dos cães pré-históricos da Tailândia (Manly, 2008), os quais não possuem uma datação certa de origem, podendo descender tanto dos chacais dourados (Canis aureus) quanto dos lobos (este último não é nativo da

13 Tailândia, podendo ser o Canis lupus chanco, da China, ou o Canis lupus pallides, do subcontinente indiano). Para tentar esclarecer os ancestrais dos cães pré-históricos, foram feitas medidas da mandíbula dos espécimes disponíveis para comparar com outras espécies (tabela 2). Tabela 2 Médias de medidas de mandíbulas para sete grupos caninos (Manly, 2008) Grupo X1 (mm) X2 (mm) X3 (mm) X4 (mm) X5 (mm) X6 (mm) Cão moderno 9,7 21,0 19,4 7,7 32,0 36,5 Chacal dourado 8,1 16,7 18,3 7,0 30,3 32,9 Lobo chinês 13,5 27,3 26,8 10,6 41,9 48,1 Lobo indiano 11,5 24,3 24,5 9,3 40,0 44,6 Cuon 10,7 23,5 21,4 8,5 28,8 37,6 Dingo 9,6 22,6 21,1 8,3 34,4 43,1 Cão pré-histórico 10,3 22,1 19,1 8,1 32,2 35,0 Nota: X1 = largura da mandíbula; X2 = altura da mandíbula abaixo do primeiro molar; X3 = comprimento do primeiro molar; X4 = largura do primeiro molar; X5 = comprimento do primeiro ao terceiro molar, inclusive; X6 = comprimento do primeiro ao quarto molar, inclusive. Fonte: Adaptado de Higham, C.F.W. ET al. (1980), J. Archaeological Sci., 7, (Manly, 2008) Nesse primeiro momento foram apresentados brevemente alguns métodos multivariados que serão vistos mais detalhadamente nos próximos capítulos: análise de componentes principais; análise de fatores; análise de função discriminante; análise de agrupamento; correlação canônica; escalonamento multidimensional; análise de coordenadas principais; análise de correspondência. É ressaltada a importância do conhecimento em álgebra matricial para o estudo de métodos multivariados. Portanto, alguns conceitos básicos dessa área, como operações com matrizes e inversão matricial também foram estudados, assim como alguns conceitos como traço de uma matriz, determinante, autovalor e autovetor.

14 REPRESENTAÇÃO DE DADOS MULTIVARIADOS A representação gráfica dos dados multivariados pode ser problemática visto que consegue ser apresentada em até três dimensões. Para solucionar esse problema, várias soluções foram propostas e discutidas. Podem-se utilizar variáveis índices para reduzir o problema de representar muitas variáveis para duas ou três dimensões, mas, nesse caso, alguma diferença-chave pode ser perdida nessa redução. Outra saída é a representação de draftsman, em que são feitos vários gráficos bidimensionais comparando os valores de cada uma das variáveis com todas as outras. Na imagem 1 temos o exemplo das pardocas (bolinhas pretas são os sobreviventes e bolinhas brancas representam os não sobreviventes). No entanto, essa técnica tem a desvantagem de não mostrar aspectos dos dados que somente seriam aparentes quando três ou mais variáveis são consideradas em conjunto. Imagem 1 Representação de draftsman do número de pássaros e cinco variáveis medidas (em milímetros) em 49 pardocas. As variáveis são o comprimento total, a extensão alar, o comprimento do bico e cabeça e o comprimento da quilha do esterno (sobrevivente, não sobrevivente). Somente os valores extremos são mostrados em cada escala. (Manly, 2008)

15 Na representação de pontos de dados individuais, as variáveis são medidas por um símbolo, os quais variam de acordo com elas. No exemplo citado dos cães pré-históricos da Tailândia, podemos obter as seguintes representações gráficas (imagem 2), onde visivelmente notamos a maior semelhança com o cão moderno e maior diferença com o lobo chinês. A desvantagem dessa técnica está na impressão que se capta do gráfico, que pode depender da ordem na qual os objetos são apresentados e da ordem na qual as variáveis são atribuídas aos diferentes aspectos do símbolo, além da dificuldade em se encontrar programas computacionais para produzir os gráficos. Também podemos fazer essa representação gráfica através de linhas e colunas (perfis de variáveis). Imagem 2 Representação gráfica de medidas da mandíbula em diferentes grupos caninos usando (a) faces de Chernoff e (b) estrelas. Nota: X1 = largura da mandíbula; X2 = altura da mandíbula abaixo do primeiro molar; X3 = comprimento do primeiro molar; X4 = largura do primeiro molar; X5 = comprimento do primeiro ao terceiro molar, inclusive; X6 = comprimento do primeiro ao quarto molar, inclusive. (Manly, 2008)

16 DISTÂNCIAS MULTIVARIADAS É utilizado o conceito de distância, em que quanto mais similaridade entre as amostras, mais próximas elas estão entre si. Para observações individuais, consideremos dois objetos (i e j) e duas variáveis (X1 e X2), apenas. Fazendo a representação gráfica (imagem 3), conseguimos obter a distância Euclidiana entre os dois objetos (dij) através da equação de Pitágoras: d =x x +x x / Imagem 3 A distância Euclidiana entre objetos i e j com p=2 variáveis. (Manly, 2008) Com p=3 variáveis (X1, X2 e X3), os valores podem ser tomados como as coordenadas no espaço para marcar as posições dos indivíduos i e j (imagem 4). O teorema de Pitágoras então fornece a distância entre os dois pontos como sendo d =x x +x x +x x /

17 Imagem 4 A distância Euclidiana entre objetos i e j com p=3 variáveis. (Manly, 2008) Com mais do que três variáveis, não é possível usar valores das variáveis como as coordenadas para marcar pontos fisicamente. Entretanto, os casos de duas e três variáveis sugerem que a distância Euclidiana generalizada d =x x pode servir como uma medida satisfatória para muitos propósitos com p variáveis. Com esta equação, se uma das variáveis for muito maior, em magnitude de seus valores, que a outra, a menor terá influência desprezível nos cálculos, o que não é desejável. Para que isso não ocorra, pode-se realizar um escalonamento preliminar dividindo cada variável pelo seu desvio padrão para os n indivíduos a serem comparados.

18 TESTE DE IGUALDADE DE MATRIZES DE VARIÂNCIAS E COVARIÂNCIAS PARA POPULAÇÕES MULTINORMAIS É um teste semelhante ao teste de Bartlett para o caso univariado. A suposição básica para a aplicação deste teste é a multinormalidade. Sejam m populações cada com p variáveis, com matrizes de variâncias e covariâncias desconhecidas, sendo a matriz da i-ésima população, i=1,2,...,m. Hipóteses: H0: 1 = 2=... = Ha:, para alguns i, j; i j; i, j = 1, 2,..., m. Sejam a estimativa da matriz de variâncias e covariâncias de, baseada numa amostra de tamanho da i-ésima população, i = 1, 2,..., m, e C = ( ) ( ) a média das matrizes de variância e covariância. A estatística é M = (n 1) ln c - (n 1) ln C em que. representa o determinante da matriz. Aplica-se o fator de correção: Cor = 1 - ² ()() com ()() A estatística MC tende, quando n cresce, para a distribuição quiquadrado graus de liberdade.

19 Aceita-se H0, ao nível de probabilidade, se MCor < Χ² tabelado. Caso contrário, rejeita-se H0. Ex.: (Morrison, 1967). Grupos de 32 jovens do sexo masculino e 32 do sexo feminino foram analisados quanto ao tempo de reação a um estímulo visual. Dados amostrais: p = 2 variáveis (0,5s e 15s) n = n = 32 m = 2 grupos (masc. e fem.) 4,32 1,88 C = 1,88 9,18, C 2,52 1,90 1,89 =, C=3,42 1,90 10,06 1,89 9,62 Variância dos 32 valores do masculino ao estímulo 0,5s Hipóteses: H0: masc = fem Ha: masc fem M = ( ) ln(29,328) 31(ln 36,123 + ln 21,741) = 2,82 Cor =1 2x2 +3x2 1 6(2 +1)(2 1) =0, MCor = 2,72 Χ² = ² () ; 5% = P²,% = 7,81 > MCor Aceitamos a hipótese de igualdade entre as matrizes de variância e covariância das populações masculina e feminina. 6 - TESTES DE SIGNIFICÂNCIA COM DADOS MULTIVARIADOS As referências básicas de estudo, neste capítulo, foram Manly (2008) e Mingoti (2005).

20 Primeiramente estudou-se uma revisão sobre testes de significância no caso univariado, em condições de normalidade e não normalidade. Depois dessa breve introdução, inseriu-se o caso multivariado para esses testes de significância. É possível empregar os testes para cada uma das variáveis, podendo-se analisar se há e quais delas têm valores médios diferentes. No entanto, pode ser interessante saber se todas as variáveis consideradas juntas sugerem alguma diferença também e, para isso, é necessária a aplicação de um teste multivariado. A MANOVA (Análise de Variância Multivariada, do inglês Multivariate Analysis of Variance) consiste em uma generalização de análise de variância univariada (ANOVA), para o caso de comparação de m grupos, em que há p variáveis medidas na mesma unidade experimental, ou p medidas no tempo, referentes à mesma unidade experimental. Vantagens do emprego da MANOVA: controla a probabilidade α de erro tipo I, pois um único teste é realizado ao invés de m testes simultâneos; considera a correlação entre as variáveis, o que não acontece com a ANOVA, em que cada variável é analisada separadamente. Quanto mais fortemente forem correlacionadas entre si as variáveis, mais indicada será a MANOVA. No caso de baixas correlações, a ANOVA tende a ser mais recomendada. Sejam m grupos com médias µ1, µ2,..., µm desconhecidas. Hipóteses: H0: µ1 = µ2 =... = µm Ha: µi µj, para alguns i, j = 1, 2,..., m, i j, µ1i µ2i onde µi =... µpi

21 Quando m = 2, uma possibilidade a ser utilizada, além da MANOVA, é o teste T 2 de Hotelling, uma variação (o quadrado) do teste t de Student da análise univariada, o qual pode ser definido como: Sendo: n1 = número total de valores do grupo 1 n2 = número total de valores do grupo 2 x1 = vetor de médias amostrais do grupo 1 x2 = vetor de médias amostrais do grupo 2 T =n n (x x ) C (x x )/(n n ) (x1-x2) = vetor transposto da subtração dos vetores de médias C -1 = inversa da matriz de covariâncias amostrais combinadas Ao encontrar o valor T 2, ele poderá ser significantemente grande, evidenciando que os dois vetores de médias populacionais são diferentes, ou significantemente pequeno ou nulo, apresentando semelhanças entre os vetores. Para testar a hipótese nula de que a média das duas amostras é igual, é necessário transformar o número na estatística: F = (n1+n2-p-1)t 2 /{(n1+n2-2)p}, em que p = número de variáveis, e compará-lo com o valor tabelado (tabela F). tabelado. Rejeitamos a hipótese de igualdade de médias entre os grupos, se F > F Uma aplicação feita com a estatística T² de Hotelling foi comparando grupos de idosos preservados e idosos com Doença de Alzheimer (DA) do grupo PRO-CDA (Programa de Cinesioterapia Funcional e Cognitiva em Idosos com Doença de Alzheimer), na UNESP Rio Claro. Foram avaliados 30 idosos (12 com DA e 18 preservados), registrando-se as medidas antropométricas: peso (kg), altura (cm), IMC (índice de massa corporal),

22 circunferência da cintura (cm), circunferência do quadril (cm) e RCQ (razão circunferência quadril). Tabela 3 Dados antropométricos de idosos com Doença de Alzheimer Idosos Peso (kg) Altura (cm) IMC CC (cm) CQ (cm) RCQ 1 55,6 1,55 23, , ,52 26, , ,2 1,62 27, , ,65 31, , ,57 27, , ,1 1,59 28,12 90,5 117,5 0, ,5 1,46 31, , ,5 1,58 24, , ,1 1,69 28, , ,6 1,5 23, , ,9 1,46 28, , ,2 1,61 24, ,80 Tabela 4 Dados antropométricos de idosos saudáveis Idosos Peso (kg) Altura (cm) IMC CC (cm) CQ (cm) RCQ 1 64,2 1,57 26, , ,58 20, , ,8 1,46 21, , ,5 1,45 26, , ,3 1,68 24, , ,5 1,73 27, , ,8 1,65 22, , ,9 1,66 30, , ,6 38, , ,1 1,52 17, , ,7 1,62 26, , ,4 1,55 28, , ,3 1,47 26, , ,55 31, , ,7 1,56 33, ,91

23 Tabela 4 Dados antropométricos de idosos saudáveis (continuação) Idosos Peso (kg) Altura (cm) IMC CC (cm) CQ (cm) RCQ 16 62,5 1,44 30, , ,3 1,57 28, , ,1 1,45 25, ,88 Pelo fato de o IMC e a RCQ serem variáveis obtidas a partir das outras quatro variáveis, optou-se por utilizar apenas as quatro fundamentais: peso, altura, circunferência da cintura e circunferência do quadril. de idosos: Calculamos as médias destas quatro variáveis para cada um dos grupos Tabela 5 Médias das variáveis dos dois grupos Peso Altura CC CQ Média idosos com DA 66,8083 1, , ,7917 Média idosos saudáveis 66,0611 1, , ,3889 Logo, (x1-x2) = 66,81 66,06 1,57 1,56 91,46 95,11 103,79 104,39 e (x1-x2) = (66,81 66,06 1,57 1,56 91,45 95,11 103,79 104,39) Para calcular a matriz C, é necessário calcular antes a variância (A) de cada variável em cada um dos grupos e a covariância (B) entre eles: (A) s = X X Y Y /n 1 onde: (B) COVAR = X X Y Y /n 1 s² = variância

24 n = número de variáveis X = valor da variável do grupo de idosos com DA X = média das variáveis do grupo de idosos com DA Y = valor da variável do grupo de idosos saudáveis Y = média das variáveis do grupo de idosos saudáveis Os resultados estão na tabela 6: Tabela 6 Variância das variáveis dos dois grupos Peso Altura CC CQ Variância idosos com DA 96,5172 0, , ,5208 Variância idosos saudáveis 217,8378 0, , ,0163 Com estes valores podemos montar a matriz C1 do grupo de idosos com Doença de Alzheimer da seguinte forma: = 96,51 0, ,61 40,52 96,51 â â = 0, ,61 40,52 96,51 0,47 â = 0,47 0,0052 â 81,61 40,52

25 de idosos saudáveis ,51 0,47 70,3 34,86 0,47 0,0052 0,24 0,11 C = 70,3 0,24 81,61 29,3 34,86 0,11 29,3 40,52 Segue-se o mesmo procedimento para montar a matriz C2 para o grupo Tendo as duas matrizes (C1 e C2) é possível obter a matriz geral (média) C de variâncias e covariâncias das variáveis: C= [(n 1)C + (n 1)C ] (n +n 2) Calcula-se a inversa da matriz C, C -1, e calcula-se os valores na fórmula inicial do T². Realizando os cálculos obtém-se o valor de 4,64. Com este valor encontrado, calcula-se a estatística F a partir da fórmula apresentada anteriormente, obtendo-se o valor 1,03. O valor Ftabelado vem da tabela F-Snedecor. No exemplo apresentado procura-se a coluna 4 (número de variáveis) e linha 25 ( ), onde encontrase o valor Ftab = 2,76. F < Ftabelado, portanto aceitamos a igualdade das médias dos dois grupos, ou seja, não há relação aparente entre as medidas antropométricas e a Doença de Alzheimer. Um ponto interessante é a observação de que podem ocorrer diferentes resultados em uma análise quando se considera individualmente as variáveis e quando elas são vistas em conjunto. Nesse caso, podem ocorrer testes univariados não significantes e testes multivariados significantes e vice - versa.

26 Nesse aspecto, a utilização de um teste multivariado se destaca aos vários univariados no controle da probabilidade α do erro tipo I, em que a probabilidade de rejeitar incorretamente a hipótese nula é menor. Há como controlar a probabilidade total de um erro tipo I quando vários testes univariados são aplicados. Porém, há quem prefira utilizar o teste multivariado, que também tem a vantagem de levar em conta apropriadamente a correlação entre as variáveis. Para uma única variável, o método para comparação da variabilidade entre duas amostras é o teste F (situação de normalidade) ou o teste de Levene (situação de não normalidade). Já no caso multivariado, em uma situação de normalidade, é utilizado o teste M de Box e, em uma situação de não normalidade, pode-se utilizar o teste de Van Valen. Em algumas situações pode ocorrer um resultado não significante para o teste de Levene e um resultado significante para o teste de Van Valen, por exemplo. Isso é devido ao fato de o teste de Levene não ser direcional e também não levar em consideração a expectativa de um grupo ser menos variável que outro, o que não acontece com o teste de Van Valen, que é específico para quando há essa diferença de variação entre as amostras, enfatizando esse fato. Quanto à MANOVA, temos quatro estatísticas alternativas usadas para testar a hipótese de que todas as amostras vêm de populações com o mesmo vetor médio Lambda de Wilks: Ʌ = W / T, em que: W = determinante da matriz das somas de quadrados e produtos cruzados dentro da amostra; cruzados. T = determinante da matriz das somas totais de quadrados e produtos Se Ʌ for pequeno, a variação dentro das amostras é baixa em comparação com a variação total. Isso quer dizer que as amostras não vêm de populações com o mesmo vetor de médias.

27 Maior raiz de Roy: λ1 (alguns aplicativos computacionais usam a expressão: λ1/(1- λ1)). A base para este teste é que se a combinação linear das variáveis de X1 à Xp que maximiza a razão entre a soma dos quadrados entre amostras e a soma dos quadrados dentro das amostras é encontrada, então essa razão máxima é igual a ao autovalor λ1. Portanto, o autovalor máximo λ1 pode ser uma boa estatística para testar se a variação entre amostras é significantemente grande, e que há, portanto, evidência de que as amostras sendo consideradas não vêm de populações com o mesmo vetor médio. O valor λ1 é comparado com um valor tabelado da tabela F. Rejeitamos a igualdade para valores grandes de λ Traço de Pillai: V= λ /(1 + λ ), onde os λi são autovalores obtidos, i=1,2,...,p. Temos novamente que valores grandes de V fornecem evidências de que as amostras consideradas vêm de populações com vetores médias diferentes Traço de Lawley-Hotelling: U= λ Essa estatística é apenas a soma dos autovalores da matriz W -1 B, onde grandes valores fornecem evidência contra a hipótese nula de igualdade. Observação: W = matriz das somas de quadrados e produtos cruzados dentro da amostra; B = T-W;

28 T = matriz das somas totais de quadrados e produtos cruzados. A tabela 7 fornece as estatísticas de comparação com os valores tabelados da tabela F-Snedecor, dos quatro testes analisados. Tabela 7 Estatísticas de testes usadas para comparar vetores médias amostrais com testes F aproximados para evidência de que valores populacionais não são constantes (Manly, 2008) Teste Estatística F gl1 gl2 Comentário Lambda de Wilks Ʌ 1 Ʌ Ʌ gl p(m 1) wt gl gl 2 +1 w=n 1 p+m 2 gl 4 t= {p + (m 1) 5} Se gl =2, faça t =1 Maior raiz de Roy λ 1 gl gl λ d n m d 1 O nível de significância obtido é um limite inferior d=max(p, m 1). Traço de Pillai V=λ /(1 + λ ) (n m p+s)v {d(s V)} sd s(n m p+s) s = min(p, m 1) = número de autovalores positivos d=max(p, m 1). Traço de Lawley- Hotelling U=λ gl U (s gl ) s(2a + s+1) 2(sB + 1) s é como no traço de Pillai ( m p 1 1) A = 2 B= (n m p 1) 2 Nota: Assume-se que há p variáveis em m amostras, com a j-ésima de tamanho nj, e um tamanho total da amostra de n = n. Estes são aproximações para p e m gerais. Aproximações melhores ou exatas são fornecidas para alguns casos especiais, e outras aproximações são também disponibilizadas. Em todos os casos, a estatística do teste é transformada para o valor F estabelecido, e este é testado para ver se ele é significantemente grande em comparação com a distribuição F com gl1 e gl2 graus de liberdade.

29 Os quatro testes mostram níveis de significância similares, geralmente, o que nos dá possibilidade de utilizar qualquer um deles quando se têm a suposição de que a distribuição das p variáveis é normal multivariada com a mesma matriz covariância dentro das amostras para todas as m populações das quais as amostras foram extraídas, além da independência entre os grupos. Tais testes são considerados robustos (isto é, podem ser aplicados mesmo se as suposições não se verificarem na totalidade dos grupos ou variáveis) se os tamanhos amostrais forem aproximadamente iguais para as m amostras. No entanto, se houver alguma questão sobre essa suposição, estudos sugerem que a estatística de Pillai possa ser mais eficiente. Altas correlações entre as variáveis sugerem maior confiança no teste de Pillai; baixas correlações sugerem escolher o teste de Roy. Apesar disso, os quatro testes costumam fornecer conclusões similares e nenhum deles pode ser considerado o melhor, em geral. Cada teste capta diferentes características das diferenças entre as médias. Caso falhe a normalidade multivariada, podem-se usar alguns testes não paramétricos (extensões do Kruskal-Wallis e do Friedman). Caso falhe a homogeneidade das matrizes de covariância, deve-se escolher o teste de Pillai. Na MANOVA, quando rejeita-se H0, há alguns procedimentos para se testar a diferença entre grupos. Pode-se executar a ANOVA univariada em cada uma das variáveis para testar a diferença entre médias em cada variável separadamente (seguida, se necessário, de testes de comparação múltiplos, como o de Tukey). Outra possibilidade é aplicar a teste T 2 de Hotelling dois a dois grupos. Para comparação da variação para várias amostras, sendo verificada a normalidade multivariada, utiliza-se o teste M de Box. A estatística M é dada pela equação onde: M = C ( )/ / C ()/

30 m = número de amostras; ni = tamanho da i-ésima amostra; n = n = número total de observações; Ci = covariância amostral para a i-ésima amostra; C = matriz de covariâncias combinada C = determinante da matriz Ci, C=(n 1)C /(n m) Valores altos de M fornecem evidência de que as amostras não provêm de populações com a mesma matriz de covariâncias. Para saber se um valor M observado é significativamente grande, é necessário um teste F, calculando F = 2b log (M) e encontrando a probabilidade de um valor desse tamanho ou maior para uma distribuição F com v1 e v2 graus de liberdade, em que v =p(p+1)(m 1)/2 v =(v +2)/(c c ) e em que e b=(1 c v /v )/v c = (2p +3p 1) 1 n 1 1/(n m) /{6(p + 1)(m 1)} c = (p 1)(p+2) 1 (n 1) 1 (n m) /{6(m 1)}

31 Essa aproximação da equação F somente é válida para c2 > c1². Se c2 < c1², então uma aproximação alternativa é usada, sendo o valor F calculado como sendo F={2b v log (M)}/{v +2b log (M)} em que b =(1 c 2/v )/v Esta estatística é testada contra a distribuição F com v1 e v2 gl. Uma razão F significante é evidência de que as amostras vêm de populações com desvios médios diferentes, isto é, populações com matrizes covariâncias diferentes. O teste de Box é sensível a não normalidade em algumas das variáveis. Caso esta situação ocorra, um teste alternativo, robusto a não normalidade, pode ser aplicado. O chamado teste de Levene, que consiste em calcular, para cada valor de cada variável, dentro de cada amostra, a diferença, em módulo, entre este valor e a mediana dos dados da correspondente variável naquela amostra. Após obtidas todas as diferenças, aplica-se qualquer um dos quatro testes: lambda de Wilks, maior raiz de Roy, traço de Pillai e traço de Lawley-Hotelling, como visto anteriormente, aos dados transformados, e um resultado significante indica que a matriz de covariâncias não é constante para as m populações amostradas. Os testes apresentados até o momento são encontrados com facilidade em aplicativos computacionais estatísticos. Como os testes são baseados em aproximações, os resultados de um programa podem se diferenciar de outro. Esse capítulo se restringiu a situações em que havia duas ou mais amostras multivariadas sendo comparadas para ver se elas pareciam vir de populações com vetores de médias diferentes ou de populações com matrizes de covariâncias diferentes.

32 UM MÉTODO PARA SE VERIFICAR A NORMALIDADE MULTIVARIADA Umas das suposições para a aplicação da MANOVA é a normalidade multivariada em todos os grupos. Uma ideia inicial para verificar a normalidade multivariada é testar a normalidade univariada em cada grupo, para cada uma das p variáveis. Um teste muito usado é o de Shapiro-Wilk. Entretanto o fato de todas as distribuições serem normais não necessariamente implica que o vetor aleatório tenha distribuição multivariada. Pode-se falar, apenas, que a chance deste fato acontecer é muito alta. Um teste muito simples para se verificar a normalidade multivariada quando o tamanho amostral n for relativamente grande é o teste quiquadrado, cujo procedimento segue. Sejam p variáveis de um grupo, em que se deseja testar a normalidade multivariada. Calcula-se a estatística d² = x x C x x, j = 1, 2,..., n, a qual tem aproximadamente uma distribuição quiquadrado com p graus de liberdade, onde: x : vetor que representa os valores observados das p variáveis no i-ésimo elemento amostral. x: é o vetor de médias amostrais. C : inversa da matriz de variâncias e covariâncias. O procedimento é, então, o seguinte: - Calcular as distâncias d² para todos os elementos da amostra e ordenar os mesmos em ordem crescente, de forma que d² () d² ()... d² (), em que d () (acertar) representa a i-ésima estatística de ordem.

33 Construir o gráfico dos pares d² () ; P² (j 1 2 )/n em que P² (j 1 2 )/n representa a ordenada do percentil de ordem 100 (j 1 2 )/n da distribuição quiquadrado com p graus de liberdade. Quando o gráfico for próximo de uma reta, há indicativo de normalidade. Caso se afaste da reta, indica não normalidade. Exemplo: Notas obtidas (de 0 a 25 pts) em 3 provas de 19 estudantes de uma disciplina. O vetor de médias e as matrizes de covariância e correlação são dadas, respectivamente, por: 19,721 8,47 8,01 7,22 1 0,757 0,857 x =20,263, C=8,01 13,23 8,87, R= 0, ,843 20,063 7,22 8,87 8,37 0,857 0,843 1 Nota-se altas correlações positivas entre as variáveis. Os valores originais, bem como os valores necessários para a construção do gráfico Q. Q. Plot são dados na tabela 8. Tabela 8 Teste normalidade multivariado Aluno X1 X2 X3 dj^2 1 17,2 16,7 15,8 2, , ,2 2, ,6 24,2 3, ,5 18 1, ,8 20,8 3, ,6 13,4 16,2 3, ,4 22,8 5, ,5 24,3 23,5 1, ,2 20,3 19,6 0, ,7 17,5 15,7 3, ,6 20,2 23,6 5, ,6 21,9 1, ,8 16,3 17,7 2, ,5 17,8 17,7 2, ,3 24,8 22,9 2, ,2 21,5 18,9 4, ,1 23,5 1,458594

34 Tabela 8 Teste normalidade multivariado (continuação) Aluno X1 X2 X3 dj^ ,7 18,9 20,6 4, ,6 23,3 20,7 1, Média 19, , ,06842 Desvio padrão 2, , , O gráfico Q. Q. Plot é apresentado na imagem 5 (Mingoti, 2005). Imagem 5 Gráfico Q. Q. Plot (Mingoti, 2005). A disposição dos pontos, em forma aproximada de uma reta, indica a não rejeição da suposição de normalidade multivariada. Há testes apropriados para verificar a normalidade multivariada, como os chamados testes de Jobson (1992). 8 ANALÍSE DE CORRELAÇÕES CANÔNICAS Descrita por Hoteling (1936), consiste em investigar relacionamentos entre dois conjuntos de variáveis.

35 O primeiro exemplo de Hoteling consistiu em uma amostra de 140 crianças, em que aplicou-se testes para velocidade de leitura (X1), potência de leitura (X2), velocidade aritmética (Y1) e potência aritmética (Y2). O interesse era verificar se habilidade de leitura (X1, X2) está relacionada com habilidade aritmética (Y1, Y2). Encontrou-se duas variáveis u e v, com maior correlação possível, das seguintes combinações lineares: u=a x +a x v=b x +b x Os valores encontrados para os coeficientes foram: a = 2,78; b = 2,44; a =2,27; b =1, que produziram uma correlação r = 0,62. u: mede a diferença entre potência e velocidade de leitura, v: idem, para aritmética. Percebe-se que crianças com grandes diferenças entre X1 e X2 tendem a ter grandes diferenças entre Y1 e Y2 (razoável correlação positiva). Correlação canônica consiste numa generalização da correlação múltipla, pois nesta última, apenas uma variável Y está associada a várias variáveis X, enquanto que, na correlação canônica, várias variáveis Y (duas ou mais) estão associadas a várias variáveis X (duas ou mais). Sejam p variáveis X1, X2,..., Xp e q variáveis Y1, Y2,..., Yq. Pode-se formar r relações lineares, em que r min (p, q): u =a x +a x + +a x u =a x +a x + +a x...

36 u =a x +a x + +a x v =b Y +b Y + +b Y... v =b Y +b Y + +b Y Estas correlações são escolhidas de forma que a correlação entre u1 e v1 seja máxima; a correlação entre u2 e v2 seja máxima, sujeito a estas variáveis não serem correlacionadas com u1 e v1; a correlação entre u3 e v3 seja máxima, sujeito a estas variáveis não serem correlacionadas com u1, v1, u2, v2; etc. Cada par (ui, vi) representa uma dimensão independente no relacionamento entre os dois conjuntos de variáveis. O primeiro par (u1, v1) tem a mais alta correlação possível, sendo o mais importante. O segundo par (u2, v2) tem a segunda correlação mais alta, e assim por diante. Assemelha-se a componentes principais, exceto que aqui, a correlação é maximizada, enquanto que, em componentes principais, a variância é maximizada. Procedimento de análise: Seja a matriz de correlação (p+q)x(p + q): Em que A é a matriz de variâncias e covariâncias das variáveis X; B é a matriz de variâncias e covariâncias das variáveis Y; C é a matriz de covariâncias entre as variáveis X e Y.

37 Calculamos (B -1 C A -1 C)qxq e os autovalores λ, considerando B -1 C A -1 C λi b = 0, em que I é a matriz identidade, de ordem pxq, e. refere-se ao determinante da matriz. Os autovalores são os quadrados das correlações entre as variáveis canônicas, e os correspondentes autovetores b1, b2,..., br fornecem os coeficientes das variáveis Y para as variáveis canônicas. Os coeficientes da i-ésima variável canônica (ui) para as variáveis X são dados pelo elemento a =A Cb Então, u =a X, v =b Y, onde a =a,a, a, b =b,b, b, X =x,x, x, Y =y,y, y. A suposição para a execução de tais cálculos é que X e Y estejam na forma padronizada (média zero e desvio padrão 1). As variáveis u e v têm variâncias que dependem da escala adotada para o autovetor bi. Entretanto, podemos obter uma variância canônica escalonada ui, com variância unitária (idem para vi). Basta calcular o desvio padrão de ui para os dados e dividir os valores de aij pelo desvio padrão. Barthett (1947) apresentou um teste aproximado para a significância das correlações entre u e v, como um todo. A suposição é que a distribuição das variáveis seja normal multivariada. Χ =n 1 2 (p+q+3)ln 1 λ n: tamanho amostral Χ²: tem distribuição quiquadrado com (pq) graus de liberdade.

38 Regra de decisão: Χ² > Χ²tab : pelo menos uma das r correlações canônicas é significante. Caso contrário, nenhuma das correlações é significante. O teste acima pode ser modificado para melhor aproximação quando o tamanho amostral for pequeno. Também, a contribuição de cada correlação canônica pode ser testada individualmente, porém o teste não é confiável (Bryan, M., 2005). 9 - ANÁLISE DE CORRESPONDÊNCIA Método complementar ao teste quiquadrado de independência, utilizado para verificar a relação entre linhas e colunas numa tabela de contingência, relacionando duas variáveis categóricas. Seja a tabela 9 em que ni,j representa a frequência absoluta da categoria i da variável X e categoria j da variável Y. Tabela 9 X b Totais 1 n11 n12... n1b n1. 2 n21 n22... n2b n A na1 na2... nab na. Totais n.1 n.2... n.b n

39 Exemplo: Resultado de uma análise de 257 famílias quanto ao número de filhos e a renda familiar. nº de filhos Renda ($) >2 Totais < > Totais Matriz de Correspondência: pi,j = ni,j/n P= Matriz perfil das linhas: Dl = ni./n 0,058 0,105 0,195 0,167 0,097 0,144 0,047 0,031 0,031 0,051 0,035 0,039 Matriz perfil das colunas: Dc = n.i/n D = 0, , ,156, D = 0, , , ,237 l =..., c =... Seja a matriz P =P lc

40 Esta matriz é do tipo p =..., ou seja, os termos representam uma comparação da proporção observada no inferior de cada casela da tabela, com aquela esperada supondo independência entre as variáveis X e Y. O posto (rank) da matriz P é dado por k = min(p 1,q 1). Tal matriz pode ser decomposta em seus autovalores e autovetores, chegando-se ao resultado: P =A B, em que A = D é uma matriz de dimensão pxk, B =D v é de dimensão qxk, u e v são ortogonais e é uma matriz de dimensão kxk contendo os autovalores da matriz P, ordenados em ordem decrescente. u contém os autovetores da matriz PP, e v, os autovetores de P P. Pela decomposição da matriz, as linhas de P podem ser escritas como combinações lineares das linhas de B e as colunas de P podem ser escritas como combinações lineares das colunas da matriz A. As coordenadas principais das linhas da matriz P são definidas como: Y =D A As coordenadas principais das colunas da matriz P são Z =D B Como consequência desta decomposição, P pode ser expressa como função dos autovalores e das coordenadas principais, isto é, P =P lc =λ a b, sendo a -> i-ésima coluna da matriz A, b -> i=ésima coluna da matriz B,

41 k = posto (P) = min(p-1,q-1) As duas primeiras coordenadas principais das linhas e das colunas, são as que mais representam a associação entre X e Y estando relacionadas aos maiores autovalores da matriz P. A variação total existente é chamada inércia total, e é dada por λ, sendo λ os autovalores não nulos da matriz, i=1,2,...k. A proporção explicada pela i-ésima coordenada principal é λ λ Mostra-se que λ =, sendo Eij = npij representando o número esperado de observações na casela(i,j), = supondo independência entre as variáveis: E =.. Voltando ao exemplo, através da decomposição espectral das matrizes, obtém as coordenadas principais de linhas e colunas (tabela 10), com o gráfico da sequência:

42 Tabela 10 Coordenadas principais Perfil das linhas Y1 Y2 (l1) <2000-0,351 0,014 (l2) ,543 0,021 (l3) > ,013-0,089 Perfil das colunas Z1 Z2 (c1) 0 0,463 0,006 (c2) 1 0,375-0,007 (c3) 2-0,366 0,051 (c4) >2-0,412 0,055

43 Analisando o gráfico, nota-se, pelas proximidades linhas-colunas, que: - famílias de renda menor de reais tendem a ter 2 ou mais filhos; - famílias de renda entre e reais tendem a ter 0 ou 1 filho; - famílias de mais de reais de renda não se associam quanto ao número de filhos. Um outro exemplo, Ramos et al. (2008), consiste em estudar possível associação entre dias da semana e horários de ocorrência de crimes em Belém, PA, ano de 2007, conforme noticiado pelos jornais. O resultado da análise é dado no gráfico seguinte. Mapa perceptual da análise de correspondência das variáveis turno versus dia da semana para os crimes publicados em jornais do município de Belém, no ano de 2007, ocorridos no Estado do Pará (Ramos et al. 2008).

44 Observa-se que as terças, quartas e quintas feiras, os crimes tendem a ocorrer no período de tarde; aos domingos e sextas feiras, à noite; aos sábados, à noite e na madrugada; às segundas feiras, as maiores ocorrências acontecem na madrugada e no período da manhã. 10 COMPONENTES PRINCIPAIS Técnica descrita por Pearson (1901), melhorada por Hotelling (1933) e utilizada amplamente após o advento dos computadores. Dadas p variáveis, X1, X2,..., Xp, o objetivo da análise é encontrar combinações e produzir índices Z1, Z2,..., Zp que sejam não correlacionados, que permitam descrever a variação dos dados, em que as variâncias possuem a seguinte relação: Var (Z1) Var (Z2)... Var (Zp) Os índices Z são as componentes principais. Tais componentes medem diferentes dimensões dos dados e as variâncias dos Zi tornam-se desprezíveis para valores altos de i, i = 1, 2,..., p. Assim, poucas variáveis Z (as de variâncias não desprezíveis) descrevem a maior parte da variação do conjunto e uma economia na dimensão das variáveis é obtida. Quanto mais correlacionadas forem as variáveis (positiva ou negativamente), melhores serão os resultados. Dadas as p variáveis X1, X2,..., Xp, seja a seguinte matriz de variâncias e covariâncias: Var (X ) Cov (X,X ) Cov (X,X ) Var (X ) Cov (X,X ) S= Var (X ) onde Var = Variância e Cov = Covariância.

45 As variâncias das componentes principais são os autovalores da matriz S. Existem p autovalores, alguns dos quais podem ser zero. Autovalores negativos não são possíveis para uma matriz de covariâncias. Sejam λ1 λ2... λp 0 os autovalores ordenados, sendo λ1 = Var (Zi) correspondente ao i-ésimo componente principal: Z =a X +a X + +a X Em que a, a,..., a são os elementos do correspondente autovetor, escalonado, de modo que a =1. Propriedade: λ = Var(X ) = traço da matriz Variáveis de diferentes magnitudes podem ter diferentes influências nas componentes principais. Para evitar este fato padroniza-se as variáveis X1, X2,..., Xp de forma a terem média zero e variância 1. Obtém-se a nova matriz, chamada matriz de correlação, sendo e a correlação entre X1 e Xj: 1 e e e= 1 e e =1 O traço da matriz é igual ao valor p. Portanto, o procedimento consiste em: - Codificar X1, X2,..., Xp para ter média zero e variância unitária. Às vezes este procedimento não é feito quando se deseja que a importância das variáveis seja refletida em suas variâncias. - Calcular a matriz e (ou S, dependendo do procedimento anterior). - Encontrar os autovetores λ1, λ2,..., λp e os correspondentes autovetores a1, a2,..., ap. Os coeficientes do i-ésimo componente principal são os elementos ai, enquanto que λi é a sua variância. - Considerar somente as componentes de alta explicação.

46 Exemplo (Mingoti, 2005): Oito marcas de coxinhas são avaliadas por alguns examinadores, em relação às variáveis sabor (X1), aroma (X2), massa (X3) e recheio (X4). As médias das notas dos examinadores, para cada marca e variável, são dadas na tabela seguinte. Marca Sabor Aroma Massa Recheio M1 2,75 4,03 2,80 2,62 M2 3,90 4,12 3,40 3,52 M ,97 3,62 3,05 M4 4,58 4,86 4,34 4,82 M5 3,97 4,34 4,28 4,98 M6 3,01 3,98 2,90 2,82 M7 4,19 4,65 4,52 4,77 M8 3,82 4,12 3,62 3,71 Média 3,67 4,26 3,68 3,79 Desvio Padrão 0,638 0,332 0,651 0,954 λ = 1,7368 λ = 0,0649 λ = 0,0279 λ = 0,0225 Matriz de variâncias e covariâncias: 0,407 0,159 0,313 0,482 0,110 0,157 0,237 S= 0,424 0,516 0,911 Os autovalores da matriz S são:

47 - 46-1,852. O traço da matriz S, dado também pela soma dos autovalores é igual a λ /traço = 0,9378 λ /traço = 0,0350 λ /traço = 0,0150 λ /traço = 0,0120 Juntas, explicam 97,3% da variância total do vetor original X (alta explicação). marcas. Assim, duas componentes são suficientes para explicar as variações nas Os autovetores gerados pelos primeiros dois autovetores são: 0,456 0,816 0,223 0,215 a =, a 0,477 = 0,456 0,717 0,282 A primeira componente representa um índice global da qualidade da coxinha (todos os coeficientes são positivos). Assim, Y = 0,456 sabor + 0,223 aroma + 0,477 massa + 0,717 recheio (maior importância é o recheio). coxinha. Quanto maior for o valor numérico de Y, maior será a qualidade da Os escores obtidos para as diferentes marcas são os seguintes: M1: 5,367 M2: 6,843 M3: 6,222 M4: 8,698

48 M5: 8,390 M6: 5,665 M7: 8,524 M8: 7,047 Nota-se que a marca melhor classificada é a M4 e a pior, M1. A segunda componente (de baixa explicação), contrasta sabor e aroma com massa e recheio: Y = 0,816 sabor 0,215 aroma + 0,456 massa + 0,282 recheio Obtém-se: M1: -1,095 M2: -1,525 M3: -0,889 M4: -1,444 M5: -0,817 M6: -1,194 M7: -1,012 M8: -1,306 Marcas M2 e M4 se sobressaem no aroma e sabor, enquanto que as marcas M5 e M3 se sobressaem na massa e recheio.

49 ANÁLISE FATORIAL Consiste em descrever um conjunto de p variáveis X1, X2,..., Xp em um número menor de índices ou fatores, bem como obter uma melhor compreensão do relacionamento entre estas variáveis. A ideia é semelhante à de componentes principais, com a diferença de que a análise de componentes principais não é baseada em um modelo particular, o que ocorre com análise fatorial. Spearman (1904), em estudo de correlações entre escores de testes de estudantes, observou que havia relações entre as correlações observadas. Por exemplo, seja a tabela de correlações entre escores de testes de meninos de uma escola (tabela 11): Tabela 11 - Correlações entre escores de testes de meninos de uma escola (Spearman, 1904) Clássicos Francês Inglês Matemática Música Discriminação de tom Clássicos 1 0,83 0,78 0,70 0,63 0,66 Francês 0,83 1 0,67 0,67 0,57 0,65 Inglês 0,78 0,67 1 0,64 0,51 0,54 Matemática 0,70 0,67 0,64 1 0,51 0,45 Música 0,63 0,57 0,51 0,51 1 0,40 Discriminação de tom 0,66 0,65 0,54 0,45 0,40 1 Spearman notou que quaisquer duas linhas eram quase proporcionais se as diagonais fossem ignoradas. Para as linhas Clássicos e Inglês: 0,83 0,67 0,70 0,64 0,63 0,51 0,66 0,54

Exibir mais