Fernanda Navarro Song

Tamanho: px
Começar a partir da página:

Download "Fernanda Navarro Song"

Transcrição

1 UNIVERSIDADE ESTADUAL PAULISTA JÚLIO DE MESQUITA FILHO INSTITUTO DE BIOCIÊNCIAS - RIO CLARO CIÊNCIAS BIOLÓGICAS Fernanda Navarro Song Técnicas de análise multivariada com aplicações a dados de natureza biológica Rio Claro 2013

2 Fernanda Navarro Song Técnicas de análise multivariada com aplicações a dados de natureza biológica Orientador: José Silvio Govone Trabalho de Conclusão de Curso apresentado ao Instituto de Biociências da Universidade Estadual Paulista Júlio de Mesquita Filho - Câmpus de Rio Claro, para obtenção do grau de Bacharela em Ciências Biológicas. Rio Claro 2013

3 S698t Song, Fernanda Navarro Técnicas de análise multivariada com aplicações a dados de natureza biológica / Fernanda Navarro Song. - Rio Claro, f. : il., figs., gráfs., tabs. Trabalho de conclusão de curso (bacharelado - Ciências Biológicas) - Universidade Estadual Paulista, Instituto de Biociências de Rio Claro Orientador: José Silvio Govone 1. Análise multivariada. 2. Componentes principais. 3. Manova. 4. Correlações canônicas. 5. Análise de correspondência. 6. Análise fatorial. I. Título. Ficha Catalográfica elaborada pela STATI - Biblioteca da UNESP Campus de Rio Claro/SP

4 Dedicatória A minha família, que nos momentos de minha ausência dedicados ao estudo superior, sempre fizeram entender que o futuro é feito a partir da constante dedicação no presente.

5 - 4 - Agradecimentos Agradeço primeiramente a Deus pela minha vida, saúde e por ter colocado pessoas maravilhosas nela. Um agradecimento especial à minha mãe, por todo apoio e amor que me deu desde sempre e continua dando. Também ao meu pai, que nessas minhas indecisões da vida sempre me incentivou continuar. Agradeço ao Evandro por me ajudar sempre que possível e pelas caronas sempre muito úteis. Ao Joaquim, que além de meu namorado é meu amigo, me ajudando mais do que o imaginável, sempre me cobrando e incentivando a fazer o que precisava. Obrigada pela paciência e amor. Ao meu orientador, Silvio Govone, que acreditou em mim mais do que eu mesma. Agradeço pelo conhecimento transmitido, pela demasiada paciência e pela compreensão. Às minhas queridas companheiras e amigas da República Moitinha! Andréia, Beatriz e Flávia, sou grata por dividir desse teto e paredes verdes com vocês! Gosto muito de vocês, do jeito de cada uma e das nossas ideias para o fundo que ainda não conseguimos concretizar. Às minhas ex-companheiras de casa, Lívia e Gabriela, agradeço pelo tempo que passamos juntas e pela amizade que continuou independente de qualquer coisa! Agradeço também à Júlia, que apesar de não morar na mesma casa que eu, compartilhou de muitas histórias e conquistas! Podem ter certeza que vocês nunca serão esquecidas por mim! CBI10! Nunca vou esquecer desses quatro anos com todos vocês! Muito obrigada pelos churrascos, festinhas juninas, gordices em geral sempre! A sala mito vai perpetuar na Unesp e, é claro, no meu coração! Não poderia esquecer da CF13, que nesse último ano fez minhas segundas e quintas-feiras muito mais cansativas e felizes! Estou tão acostumada com essa rotina que será muito estranho quando terminar, mas saibam que todos marcaram a minha vida e que nunca esquecerei desse ano por causa de cada um

6 - 5 - de vocês! Aprendi, degustei, ri, gargalhei, vendi, tive ataque de nervos, dancei, aproveitei e até conheci o amor! Muito obrigada por tudo mesmo! Mesmo longe, a amizade de verdade continua. Cristina, Mariana, Débora, Nívea e Otávio, não passamos mais o dia-a-dia juntas, mas o apoio de longe e nossos escassos encontros me fortaleceram e ainda fortalecem todos os dias! Amo muito vocês! Ao PRO-CDA, principalmente à Angelica, que além de me ajudar em outro projeto, me forneceu dados para que eu compreendesse mais a técnica a ser utilizada.

7 - 6 - RESUMO A análise estatística multivariada, extensão da análise univariada, consiste num conjunto de técnicas estatísticas, aplicadas quando há diversas variáveis relacionadas simultaneamente, sendo todas elas, em princípio, consideradas importantes no fenômeno em estudo. É de grande aplicação a conjuntos de dados das mais diversas áreas do conhecimento, principalmente da área biológica. Seu desenvolvimento teve um grande impulso na primeira metade do século passado. Entretanto, devido a complexidade dos cálculos matemáticos, principalmente envolvendo operações com matrizes de altas ordens, as aplicações somente se popularizaram nos dias atuais, com o desenvolvimento dos computadores e aplicativos computacionais. Técnicas estudadas: distâncias multivariadas, componentes principais, análise fatorial, correlações canônicas, análise de correspondência, teste t² de Hotelling, análise de variância multivariada (Manova), teste de normalidade multivariada, igualdade de matrizes de variâncias e covariâncias para populações multinormais. Palavras-Chave: análise multivariada, componentes principais, manova, correlações canônicas, análise de correspondência, análise fatorial.

8 - 7 - SUMÁRIO 1 INTRODUÇÃO EXEMPLOS DE DADOS MULTIVAIADOS REPRESENTAÇÃO DE DADOS MULTIVARIADOS DISTÂNCIAS MULTIVARIADAS TESTES DE IGUALDADE DE MATRIZES E DE VARIÂNCIAS E COVARIÂNCIAS PARA POPULAÇÕES MULTINORMAIS TESTES DE SIGNIFICÂNCIA COM DADOS MULTIVARIADOS Lambda de Wilks Maior raiz de Roy Traço de Pillai Traço de Lawley-Hotelling UM MÉTODO PARA SE VERIFICAR A NORMALIDADE MULTIVARIADA ANÁLISE DE CORRELAÇÕES CANÔNICAS ANÁLISE DE CORRESPONDÊNCIA COMPONENTES PRINCIPAIS ANÁLISE FATORIAL CONCLUSÃO REFERÊNCIAS BIBLIOGRÁFICAS... 65

9 INTRODUÇÃO Os métodos estatísticos utilizados em análises de problemas práticos são, na maioria, univariados, tratando somente da análise de uma única variável aleatória. A maior facilidade no emprego destes métodos permite com que sejam mais conhecidos e mais utilizados por profissionais das diversas áreas, que necessitam de análises estatísticas em seus dados. A análise estatística multivariada, extensão da análise univariada, consiste num conjunto de técnicas estatísticas, aplicadas quando há diversas variáveis relacionadas simultaneamente, sendo todas elas, em princípio, consideradas importantes no fenômeno em estudo. Seu desenvolvimento teve um grande impulso na primeira metade do século passado. Entretanto, devido a complexidade dos cálculos matemáticos, principalmente envolvendo operações com matrizes de altas ordens, as aplicações somente se popularizaram nos dias atuais, com o desenvolvimento dos computadores e aplicativos computacionais. Tais métodos são utilizados na análise de dados em que há observações de várias variáveis correlacionadas entre si. Estes tipos de dados são muito comuns na área de ciências biológicas, abrangendo biologia, ecologia, ciências da saúde e ciências agronômicas. Basicamente a análise multivariada procura responder as seguintes questões (Manly, 2005): a) como as p variáveis se relacionam dentro de cada grupo? b) os grupos diferem significativamente quanto aos valores médios das variáveis? c) os grupos mostram quantidades similares de variação para as variáveis? d) caso os grupos sejam diferentes em termos de distribuições das variáveis, é possível construir alguma função destas variáveis que separe os dois grupos? Para procurar respostas às questões acima, várias técnicas foram desenvolvidas, sendo úteis a cada um dos objetivos propostos (Manly, 2005). No decorrer do trabalho serão explicadas estas técnicas.

10 - 9-2 EXEMPLOS DE DADOS MULTIVARIADOS Algumas aplicações de métodos multivariados foram estudadas, sendo elas, em sua maioria, relacionadas com a área de Ciências Biológicas. Em todos os casos fica claro que todas as variáveis são não-independentes umas das outras. Uma das aplicações (Manly, 2008) é referente a uma tempestade que ocorreu em 1º de Fevereiro de 1898, em Rhode Island (EUA), onde diversos pardais ficaram moribundos e metade desses morreu. Com esse fato, coletaram-se dados (tabela 1) para tentar encontrar suporte para a teoria de seleção natural de Charles Darwin. Tabela 1 Medidas do corpo de pardocas (Manly, 2008) Pássaro X1 (mm) X2 (mm) X3 (mm) X4 (mm) X5 (mm) ,6 18,5 20, ,4 17,9 19, ,0 18,4 20, ,9 17,7 20, ,5 18,6 20, ,0 19,0 20, ,9 18,4 20, ,8 18,6 21, ,7 19,1 21, ,0 18,8 22, ,3 18,6 22, ,1 18,6 20,5

11 Tabela 1 Medidas do corpo de pardocas (continuação) (Manly, 2008) Pássaro X1 (mm) X2 (mm) X3 (mm) X4 (mm) X5 (mm) ,3 19,3 21, ,0 19,1 20, ,5 18,1 19, ,9 18,0 20, ,4 18,5 21, ,5 18,2 20, ,3 18,5 20, ,5 18,6 21, ,5 18,0 21, ,4 18,0 20, ,5 18,2 20, ,6 18,8 21, ,3 17,2 19, ,7 18,8 22, ,0 18,5 20, ,2 19,5 21, ,1 19,8 22, ,1 17,3 19, ,3 18,0 23, ,6 18,8 21, ,8 18,5 21, ,9 18,1 19, ,9 18,5 21, ,9 19,1 22, ,4 17,3 18, ,8 18,2 20,5

12 Tabela 1 Medidas do corpo de pardocas (continuação) (Manly, 2008) Pássaro X1 (mm) X2 (mm) X3 (mm) X4 (mm) X5 (mm) ,2 17,9 19, ,4 19,5 22, ,0 18,1 20, ,7 18,2 20, ,5 18,4 20, ,1 19,1 20, ,7 17,7 19, ,9 19,1 20, ,6 18,6 20, ,5 18,5 21, ,3 18,8 20,9 Nota: X1 = comprimento total; X2 = extensão alar; X3 = comprimento do bico e cabeça; X4 = comprimento do úmero; X5 = comprimento da quilha do esterno. Pássaros de 1 a 21 sobreviveram, pássaros de 22 a 49 morreram. Fonte: Adaptado de Bumpus, H.C. (1898), Biological Lectures, 11th Lecture, Marine Biology Laboratory, Woods Hole, MA, PP (Manly, 2008) Como conclusão da aplicação de técnicas multivariadas, tem se que: Os pássaros que morreram, morreram não por acidente, mas porque eles eram fisicamente desqualificados ; Os pássaros que sobreviveram, sobreviveram porque eles possuíam certas características físicas ; O processo de eliminação seletiva é mais severo com indivíduos extremamente variáveis, não importando em qual direção a variação possa ocorrer. Um segundo exemplo é o dos cães pré-históricos da Tailândia (Manly, 2008), os quais não possuem uma datação certa de origem, podendo descender tanto dos chacais dourados (Canis aureus) quanto dos lobos (este último não é nativo da

13 Tailândia, podendo ser o Canis lupus chanco, da China, ou o Canis lupus pallides, do subcontinente indiano). Para tentar esclarecer os ancestrais dos cães pré-históricos, foram feitas medidas da mandíbula dos espécimes disponíveis para comparar com outras espécies (tabela 2). Tabela 2 Médias de medidas de mandíbulas para sete grupos caninos (Manly, 2008) Grupo X1 (mm) X2 (mm) X3 (mm) X4 (mm) X5 (mm) X6 (mm) Cão moderno 9,7 21,0 19,4 7,7 32,0 36,5 Chacal dourado 8,1 16,7 18,3 7,0 30,3 32,9 Lobo chinês 13,5 27,3 26,8 10,6 41,9 48,1 Lobo indiano 11,5 24,3 24,5 9,3 40,0 44,6 Cuon 10,7 23,5 21,4 8,5 28,8 37,6 Dingo 9,6 22,6 21,1 8,3 34,4 43,1 Cão pré-histórico 10,3 22,1 19,1 8,1 32,2 35,0 Nota: X1 = largura da mandíbula; X2 = altura da mandíbula abaixo do primeiro molar; X3 = comprimento do primeiro molar; X4 = largura do primeiro molar; X5 = comprimento do primeiro ao terceiro molar, inclusive; X6 = comprimento do primeiro ao quarto molar, inclusive. Fonte: Adaptado de Higham, C.F.W. ET al. (1980), J. Archaeological Sci., 7, (Manly, 2008) Nesse primeiro momento foram apresentados brevemente alguns métodos multivariados que serão vistos mais detalhadamente nos próximos capítulos: análise de componentes principais; análise de fatores; análise de função discriminante; análise de agrupamento; correlação canônica; escalonamento multidimensional; análise de coordenadas principais; análise de correspondência. É ressaltada a importância do conhecimento em álgebra matricial para o estudo de métodos multivariados. Portanto, alguns conceitos básicos dessa área, como operações com matrizes e inversão matricial também foram estudados, assim como alguns conceitos como traço de uma matriz, determinante, autovalor e autovetor.

14 REPRESENTAÇÃO DE DADOS MULTIVARIADOS A representação gráfica dos dados multivariados pode ser problemática visto que consegue ser apresentada em até três dimensões. Para solucionar esse problema, várias soluções foram propostas e discutidas. Podem-se utilizar variáveis índices para reduzir o problema de representar muitas variáveis para duas ou três dimensões, mas, nesse caso, alguma diferença-chave pode ser perdida nessa redução. Outra saída é a representação de draftsman, em que são feitos vários gráficos bidimensionais comparando os valores de cada uma das variáveis com todas as outras. Na imagem 1 temos o exemplo das pardocas (bolinhas pretas são os sobreviventes e bolinhas brancas representam os não sobreviventes). No entanto, essa técnica tem a desvantagem de não mostrar aspectos dos dados que somente seriam aparentes quando três ou mais variáveis são consideradas em conjunto. Imagem 1 Representação de draftsman do número de pássaros e cinco variáveis medidas (em milímetros) em 49 pardocas. As variáveis são o comprimento total, a extensão alar, o comprimento do bico e cabeça e o comprimento da quilha do esterno (sobrevivente, não sobrevivente). Somente os valores extremos são mostrados em cada escala. (Manly, 2008)

15 Na representação de pontos de dados individuais, as variáveis são medidas por um símbolo, os quais variam de acordo com elas. No exemplo citado dos cães pré-históricos da Tailândia, podemos obter as seguintes representações gráficas (imagem 2), onde visivelmente notamos a maior semelhança com o cão moderno e maior diferença com o lobo chinês. A desvantagem dessa técnica está na impressão que se capta do gráfico, que pode depender da ordem na qual os objetos são apresentados e da ordem na qual as variáveis são atribuídas aos diferentes aspectos do símbolo, além da dificuldade em se encontrar programas computacionais para produzir os gráficos. Também podemos fazer essa representação gráfica através de linhas e colunas (perfis de variáveis). Imagem 2 Representação gráfica de medidas da mandíbula em diferentes grupos caninos usando (a) faces de Chernoff e (b) estrelas. Nota: X1 = largura da mandíbula; X2 = altura da mandíbula abaixo do primeiro molar; X3 = comprimento do primeiro molar; X4 = largura do primeiro molar; X5 = comprimento do primeiro ao terceiro molar, inclusive; X6 = comprimento do primeiro ao quarto molar, inclusive. (Manly, 2008)

16 DISTÂNCIAS MULTIVARIADAS É utilizado o conceito de distância, em que quanto mais similaridade entre as amostras, mais próximas elas estão entre si. Para observações individuais, consideremos dois objetos (i e j) e duas variáveis (X1 e X2), apenas. Fazendo a representação gráfica (imagem 3), conseguimos obter a distância Euclidiana entre os dois objetos (dij) através da equação de Pitágoras: d =x x +x x / Imagem 3 A distância Euclidiana entre objetos i e j com p=2 variáveis. (Manly, 2008) Com p=3 variáveis (X1, X2 e X3), os valores podem ser tomados como as coordenadas no espaço para marcar as posições dos indivíduos i e j (imagem 4). O teorema de Pitágoras então fornece a distância entre os dois pontos como sendo d =x x +x x +x x /

17 Imagem 4 A distância Euclidiana entre objetos i e j com p=3 variáveis. (Manly, 2008) Com mais do que três variáveis, não é possível usar valores das variáveis como as coordenadas para marcar pontos fisicamente. Entretanto, os casos de duas e três variáveis sugerem que a distância Euclidiana generalizada d =x x pode servir como uma medida satisfatória para muitos propósitos com p variáveis. Com esta equação, se uma das variáveis for muito maior, em magnitude de seus valores, que a outra, a menor terá influência desprezível nos cálculos, o que não é desejável. Para que isso não ocorra, pode-se realizar um escalonamento preliminar dividindo cada variável pelo seu desvio padrão para os n indivíduos a serem comparados.

18 TESTE DE IGUALDADE DE MATRIZES DE VARIÂNCIAS E COVARIÂNCIAS PARA POPULAÇÕES MULTINORMAIS É um teste semelhante ao teste de Bartlett para o caso univariado. A suposição básica para a aplicação deste teste é a multinormalidade. Sejam m populações cada com p variáveis, com matrizes de variâncias e covariâncias desconhecidas, sendo a matriz da i-ésima população, i=1,2,...,m. Hipóteses: H0: 1 = 2=... = Ha:, para alguns i, j; i j; i, j = 1, 2,..., m. Sejam a estimativa da matriz de variâncias e covariâncias de, baseada numa amostra de tamanho da i-ésima população, i = 1, 2,..., m, e C = ( ) ( ) a média das matrizes de variância e covariância. A estatística é M = (n 1) ln c - (n 1) ln C em que. representa o determinante da matriz. Aplica-se o fator de correção: Cor = 1 - ² ()() com ()() A estatística MC tende, quando n cresce, para a distribuição quiquadrado graus de liberdade.

19 Aceita-se H0, ao nível de probabilidade, se MCor < Χ² tabelado. Caso contrário, rejeita-se H0. Ex.: (Morrison, 1967). Grupos de 32 jovens do sexo masculino e 32 do sexo feminino foram analisados quanto ao tempo de reação a um estímulo visual. Dados amostrais: p = 2 variáveis (0,5s e 15s) n = n = 32 m = 2 grupos (masc. e fem.) 4,32 1,88 C = 1,88 9,18, C 2,52 1,90 1,89 =, C=3,42 1,90 10,06 1,89 9,62 Variância dos 32 valores do masculino ao estímulo 0,5s Hipóteses: H0: masc = fem Ha: masc fem M = ( ) ln(29,328) 31(ln 36,123 + ln 21,741) = 2,82 Cor =1 2x2 +3x2 1 6(2 +1)(2 1) =0, MCor = 2,72 Χ² = ² () ; 5% = P²,% = 7,81 > MCor Aceitamos a hipótese de igualdade entre as matrizes de variância e covariância das populações masculina e feminina. 6 - TESTES DE SIGNIFICÂNCIA COM DADOS MULTIVARIADOS As referências básicas de estudo, neste capítulo, foram Manly (2008) e Mingoti (2005).

20 Primeiramente estudou-se uma revisão sobre testes de significância no caso univariado, em condições de normalidade e não normalidade. Depois dessa breve introdução, inseriu-se o caso multivariado para esses testes de significância. É possível empregar os testes para cada uma das variáveis, podendo-se analisar se há e quais delas têm valores médios diferentes. No entanto, pode ser interessante saber se todas as variáveis consideradas juntas sugerem alguma diferença também e, para isso, é necessária a aplicação de um teste multivariado. A MANOVA (Análise de Variância Multivariada, do inglês Multivariate Analysis of Variance) consiste em uma generalização de análise de variância univariada (ANOVA), para o caso de comparação de m grupos, em que há p variáveis medidas na mesma unidade experimental, ou p medidas no tempo, referentes à mesma unidade experimental. Vantagens do emprego da MANOVA: controla a probabilidade α de erro tipo I, pois um único teste é realizado ao invés de m testes simultâneos; considera a correlação entre as variáveis, o que não acontece com a ANOVA, em que cada variável é analisada separadamente. Quanto mais fortemente forem correlacionadas entre si as variáveis, mais indicada será a MANOVA. No caso de baixas correlações, a ANOVA tende a ser mais recomendada. Sejam m grupos com médias µ1, µ2,..., µm desconhecidas. Hipóteses: H0: µ1 = µ2 =... = µm Ha: µi µj, para alguns i, j = 1, 2,..., m, i j, µ1i µ2i onde µi =... µpi

21 Quando m = 2, uma possibilidade a ser utilizada, além da MANOVA, é o teste T 2 de Hotelling, uma variação (o quadrado) do teste t de Student da análise univariada, o qual pode ser definido como: Sendo: n1 = número total de valores do grupo 1 n2 = número total de valores do grupo 2 x1 = vetor de médias amostrais do grupo 1 x2 = vetor de médias amostrais do grupo 2 T =n n (x x ) C (x x )/(n n ) (x1-x2) = vetor transposto da subtração dos vetores de médias C -1 = inversa da matriz de covariâncias amostrais combinadas Ao encontrar o valor T 2, ele poderá ser significantemente grande, evidenciando que os dois vetores de médias populacionais são diferentes, ou significantemente pequeno ou nulo, apresentando semelhanças entre os vetores. Para testar a hipótese nula de que a média das duas amostras é igual, é necessário transformar o número na estatística: F = (n1+n2-p-1)t 2 /{(n1+n2-2)p}, em que p = número de variáveis, e compará-lo com o valor tabelado (tabela F). tabelado. Rejeitamos a hipótese de igualdade de médias entre os grupos, se F > F Uma aplicação feita com a estatística T² de Hotelling foi comparando grupos de idosos preservados e idosos com Doença de Alzheimer (DA) do grupo PRO-CDA (Programa de Cinesioterapia Funcional e Cognitiva em Idosos com Doença de Alzheimer), na UNESP Rio Claro. Foram avaliados 30 idosos (12 com DA e 18 preservados), registrando-se as medidas antropométricas: peso (kg), altura (cm), IMC (índice de massa corporal),

22 circunferência da cintura (cm), circunferência do quadril (cm) e RCQ (razão circunferência quadril). Tabela 3 Dados antropométricos de idosos com Doença de Alzheimer Idosos Peso (kg) Altura (cm) IMC CC (cm) CQ (cm) RCQ 1 55,6 1,55 23, , ,52 26, , ,2 1,62 27, , ,65 31, , ,57 27, , ,1 1,59 28,12 90,5 117,5 0, ,5 1,46 31, , ,5 1,58 24, , ,1 1,69 28, , ,6 1,5 23, , ,9 1,46 28, , ,2 1,61 24, ,80 Tabela 4 Dados antropométricos de idosos saudáveis Idosos Peso (kg) Altura (cm) IMC CC (cm) CQ (cm) RCQ 1 64,2 1,57 26, , ,58 20, , ,8 1,46 21, , ,5 1,45 26, , ,3 1,68 24, , ,5 1,73 27, , ,8 1,65 22, , ,9 1,66 30, , ,6 38, , ,1 1,52 17, , ,7 1,62 26, , ,4 1,55 28, , ,3 1,47 26, , ,55 31, , ,7 1,56 33, ,91

23 Tabela 4 Dados antropométricos de idosos saudáveis (continuação) Idosos Peso (kg) Altura (cm) IMC CC (cm) CQ (cm) RCQ 16 62,5 1,44 30, , ,3 1,57 28, , ,1 1,45 25, ,88 Pelo fato de o IMC e a RCQ serem variáveis obtidas a partir das outras quatro variáveis, optou-se por utilizar apenas as quatro fundamentais: peso, altura, circunferência da cintura e circunferência do quadril. de idosos: Calculamos as médias destas quatro variáveis para cada um dos grupos Tabela 5 Médias das variáveis dos dois grupos Peso Altura CC CQ Média idosos com DA 66,8083 1, , ,7917 Média idosos saudáveis 66,0611 1, , ,3889 Logo, (x1-x2) = 66,81 66,06 1,57 1,56 91,46 95,11 103,79 104,39 e (x1-x2) = (66,81 66,06 1,57 1,56 91,45 95,11 103,79 104,39) Para calcular a matriz C, é necessário calcular antes a variância (A) de cada variável em cada um dos grupos e a covariância (B) entre eles: (A) s = X X Y Y /n 1 onde: (B) COVAR = X X Y Y /n 1 s² = variância

24 n = número de variáveis X = valor da variável do grupo de idosos com DA X = média das variáveis do grupo de idosos com DA Y = valor da variável do grupo de idosos saudáveis Y = média das variáveis do grupo de idosos saudáveis Os resultados estão na tabela 6: Tabela 6 Variância das variáveis dos dois grupos Peso Altura CC CQ Variância idosos com DA 96,5172 0, , ,5208 Variância idosos saudáveis 217,8378 0, , ,0163 Com estes valores podemos montar a matriz C1 do grupo de idosos com Doença de Alzheimer da seguinte forma: = 96,51 0, ,61 40,52 96,51 â â = 0, ,61 40,52 96,51 0,47 â = 0,47 0,0052 â 81,61 40,52

25 de idosos saudáveis ,51 0,47 70,3 34,86 0,47 0,0052 0,24 0,11 C = 70,3 0,24 81,61 29,3 34,86 0,11 29,3 40,52 Segue-se o mesmo procedimento para montar a matriz C2 para o grupo Tendo as duas matrizes (C1 e C2) é possível obter a matriz geral (média) C de variâncias e covariâncias das variáveis: C= [(n 1)C + (n 1)C ] (n +n 2) Calcula-se a inversa da matriz C, C -1, e calcula-se os valores na fórmula inicial do T². Realizando os cálculos obtém-se o valor de 4,64. Com este valor encontrado, calcula-se a estatística F a partir da fórmula apresentada anteriormente, obtendo-se o valor 1,03. O valor Ftabelado vem da tabela F-Snedecor. No exemplo apresentado procura-se a coluna 4 (número de variáveis) e linha 25 ( ), onde encontrase o valor Ftab = 2,76. F < Ftabelado, portanto aceitamos a igualdade das médias dos dois grupos, ou seja, não há relação aparente entre as medidas antropométricas e a Doença de Alzheimer. Um ponto interessante é a observação de que podem ocorrer diferentes resultados em uma análise quando se considera individualmente as variáveis e quando elas são vistas em conjunto. Nesse caso, podem ocorrer testes univariados não significantes e testes multivariados significantes e vice - versa.

26 Nesse aspecto, a utilização de um teste multivariado se destaca aos vários univariados no controle da probabilidade α do erro tipo I, em que a probabilidade de rejeitar incorretamente a hipótese nula é menor. Há como controlar a probabilidade total de um erro tipo I quando vários testes univariados são aplicados. Porém, há quem prefira utilizar o teste multivariado, que também tem a vantagem de levar em conta apropriadamente a correlação entre as variáveis. Para uma única variável, o método para comparação da variabilidade entre duas amostras é o teste F (situação de normalidade) ou o teste de Levene (situação de não normalidade). Já no caso multivariado, em uma situação de normalidade, é utilizado o teste M de Box e, em uma situação de não normalidade, pode-se utilizar o teste de Van Valen. Em algumas situações pode ocorrer um resultado não significante para o teste de Levene e um resultado significante para o teste de Van Valen, por exemplo. Isso é devido ao fato de o teste de Levene não ser direcional e também não levar em consideração a expectativa de um grupo ser menos variável que outro, o que não acontece com o teste de Van Valen, que é específico para quando há essa diferença de variação entre as amostras, enfatizando esse fato. Quanto à MANOVA, temos quatro estatísticas alternativas usadas para testar a hipótese de que todas as amostras vêm de populações com o mesmo vetor médio Lambda de Wilks: Ʌ = W / T, em que: W = determinante da matriz das somas de quadrados e produtos cruzados dentro da amostra; cruzados. T = determinante da matriz das somas totais de quadrados e produtos Se Ʌ for pequeno, a variação dentro das amostras é baixa em comparação com a variação total. Isso quer dizer que as amostras não vêm de populações com o mesmo vetor de médias.

27 Maior raiz de Roy: λ1 (alguns aplicativos computacionais usam a expressão: λ1/(1- λ1)). A base para este teste é que se a combinação linear das variáveis de X1 à Xp que maximiza a razão entre a soma dos quadrados entre amostras e a soma dos quadrados dentro das amostras é encontrada, então essa razão máxima é igual a ao autovalor λ1. Portanto, o autovalor máximo λ1 pode ser uma boa estatística para testar se a variação entre amostras é significantemente grande, e que há, portanto, evidência de que as amostras sendo consideradas não vêm de populações com o mesmo vetor médio. O valor λ1 é comparado com um valor tabelado da tabela F. Rejeitamos a igualdade para valores grandes de λ Traço de Pillai: V= λ /(1 + λ ), onde os λi são autovalores obtidos, i=1,2,...,p. Temos novamente que valores grandes de V fornecem evidências de que as amostras consideradas vêm de populações com vetores médias diferentes Traço de Lawley-Hotelling: U= λ Essa estatística é apenas a soma dos autovalores da matriz W -1 B, onde grandes valores fornecem evidência contra a hipótese nula de igualdade. Observação: W = matriz das somas de quadrados e produtos cruzados dentro da amostra; B = T-W;

28 T = matriz das somas totais de quadrados e produtos cruzados. A tabela 7 fornece as estatísticas de comparação com os valores tabelados da tabela F-Snedecor, dos quatro testes analisados. Tabela 7 Estatísticas de testes usadas para comparar vetores médias amostrais com testes F aproximados para evidência de que valores populacionais não são constantes (Manly, 2008) Teste Estatística F gl1 gl2 Comentário Lambda de Wilks Ʌ 1 Ʌ Ʌ gl p(m 1) wt gl gl 2 +1 w=n 1 p+m 2 gl 4 t= {p + (m 1) 5} Se gl =2, faça t =1 Maior raiz de Roy λ 1 gl gl λ d n m d 1 O nível de significância obtido é um limite inferior d=max(p, m 1). Traço de Pillai V=λ /(1 + λ ) (n m p+s)v {d(s V)} sd s(n m p+s) s = min(p, m 1) = número de autovalores positivos d=max(p, m 1). Traço de Lawley- Hotelling U=λ gl U (s gl ) s(2a + s+1) 2(sB + 1) s é como no traço de Pillai ( m p 1 1) A = 2 B= (n m p 1) 2 Nota: Assume-se que há p variáveis em m amostras, com a j-ésima de tamanho nj, e um tamanho total da amostra de n = n. Estes são aproximações para p e m gerais. Aproximações melhores ou exatas são fornecidas para alguns casos especiais, e outras aproximações são também disponibilizadas. Em todos os casos, a estatística do teste é transformada para o valor F estabelecido, e este é testado para ver se ele é significantemente grande em comparação com a distribuição F com gl1 e gl2 graus de liberdade.

29 Os quatro testes mostram níveis de significância similares, geralmente, o que nos dá possibilidade de utilizar qualquer um deles quando se têm a suposição de que a distribuição das p variáveis é normal multivariada com a mesma matriz covariância dentro das amostras para todas as m populações das quais as amostras foram extraídas, além da independência entre os grupos. Tais testes são considerados robustos (isto é, podem ser aplicados mesmo se as suposições não se verificarem na totalidade dos grupos ou variáveis) se os tamanhos amostrais forem aproximadamente iguais para as m amostras. No entanto, se houver alguma questão sobre essa suposição, estudos sugerem que a estatística de Pillai possa ser mais eficiente. Altas correlações entre as variáveis sugerem maior confiança no teste de Pillai; baixas correlações sugerem escolher o teste de Roy. Apesar disso, os quatro testes costumam fornecer conclusões similares e nenhum deles pode ser considerado o melhor, em geral. Cada teste capta diferentes características das diferenças entre as médias. Caso falhe a normalidade multivariada, podem-se usar alguns testes não paramétricos (extensões do Kruskal-Wallis e do Friedman). Caso falhe a homogeneidade das matrizes de covariância, deve-se escolher o teste de Pillai. Na MANOVA, quando rejeita-se H0, há alguns procedimentos para se testar a diferença entre grupos. Pode-se executar a ANOVA univariada em cada uma das variáveis para testar a diferença entre médias em cada variável separadamente (seguida, se necessário, de testes de comparação múltiplos, como o de Tukey). Outra possibilidade é aplicar a teste T 2 de Hotelling dois a dois grupos. Para comparação da variação para várias amostras, sendo verificada a normalidade multivariada, utiliza-se o teste M de Box. A estatística M é dada pela equação onde: M = C ( )/ / C ()/

30 m = número de amostras; ni = tamanho da i-ésima amostra; n = n = número total de observações; Ci = covariância amostral para a i-ésima amostra; C = matriz de covariâncias combinada C = determinante da matriz Ci, C=(n 1)C /(n m) Valores altos de M fornecem evidência de que as amostras não provêm de populações com a mesma matriz de covariâncias. Para saber se um valor M observado é significativamente grande, é necessário um teste F, calculando F = 2b log (M) e encontrando a probabilidade de um valor desse tamanho ou maior para uma distribuição F com v1 e v2 graus de liberdade, em que v =p(p+1)(m 1)/2 v =(v +2)/(c c ) e em que e b=(1 c v /v )/v c = (2p +3p 1) 1 n 1 1/(n m) /{6(p + 1)(m 1)} c = (p 1)(p+2) 1 (n 1) 1 (n m) /{6(m 1)}

31 Essa aproximação da equação F somente é válida para c2 > c1². Se c2 < c1², então uma aproximação alternativa é usada, sendo o valor F calculado como sendo F={2b v log (M)}/{v +2b log (M)} em que b =(1 c 2/v )/v Esta estatística é testada contra a distribuição F com v1 e v2 gl. Uma razão F significante é evidência de que as amostras vêm de populações com desvios médios diferentes, isto é, populações com matrizes covariâncias diferentes. O teste de Box é sensível a não normalidade em algumas das variáveis. Caso esta situação ocorra, um teste alternativo, robusto a não normalidade, pode ser aplicado. O chamado teste de Levene, que consiste em calcular, para cada valor de cada variável, dentro de cada amostra, a diferença, em módulo, entre este valor e a mediana dos dados da correspondente variável naquela amostra. Após obtidas todas as diferenças, aplica-se qualquer um dos quatro testes: lambda de Wilks, maior raiz de Roy, traço de Pillai e traço de Lawley-Hotelling, como visto anteriormente, aos dados transformados, e um resultado significante indica que a matriz de covariâncias não é constante para as m populações amostradas. Os testes apresentados até o momento são encontrados com facilidade em aplicativos computacionais estatísticos. Como os testes são baseados em aproximações, os resultados de um programa podem se diferenciar de outro. Esse capítulo se restringiu a situações em que havia duas ou mais amostras multivariadas sendo comparadas para ver se elas pareciam vir de populações com vetores de médias diferentes ou de populações com matrizes de covariâncias diferentes.

32 UM MÉTODO PARA SE VERIFICAR A NORMALIDADE MULTIVARIADA Umas das suposições para a aplicação da MANOVA é a normalidade multivariada em todos os grupos. Uma ideia inicial para verificar a normalidade multivariada é testar a normalidade univariada em cada grupo, para cada uma das p variáveis. Um teste muito usado é o de Shapiro-Wilk. Entretanto o fato de todas as distribuições serem normais não necessariamente implica que o vetor aleatório tenha distribuição multivariada. Pode-se falar, apenas, que a chance deste fato acontecer é muito alta. Um teste muito simples para se verificar a normalidade multivariada quando o tamanho amostral n for relativamente grande é o teste quiquadrado, cujo procedimento segue. Sejam p variáveis de um grupo, em que se deseja testar a normalidade multivariada. Calcula-se a estatística d² = x x C x x, j = 1, 2,..., n, a qual tem aproximadamente uma distribuição quiquadrado com p graus de liberdade, onde: x : vetor que representa os valores observados das p variáveis no i-ésimo elemento amostral. x: é o vetor de médias amostrais. C : inversa da matriz de variâncias e covariâncias. O procedimento é, então, o seguinte: - Calcular as distâncias d² para todos os elementos da amostra e ordenar os mesmos em ordem crescente, de forma que d² () d² ()... d² (), em que d () (acertar) representa a i-ésima estatística de ordem.

33 Construir o gráfico dos pares d² () ; P² (j 1 2 )/n em que P² (j 1 2 )/n representa a ordenada do percentil de ordem 100 (j 1 2 )/n da distribuição quiquadrado com p graus de liberdade. Quando o gráfico for próximo de uma reta, há indicativo de normalidade. Caso se afaste da reta, indica não normalidade. Exemplo: Notas obtidas (de 0 a 25 pts) em 3 provas de 19 estudantes de uma disciplina. O vetor de médias e as matrizes de covariância e correlação são dadas, respectivamente, por: 19,721 8,47 8,01 7,22 1 0,757 0,857 x =20,263, C=8,01 13,23 8,87, R= 0, ,843 20,063 7,22 8,87 8,37 0,857 0,843 1 Nota-se altas correlações positivas entre as variáveis. Os valores originais, bem como os valores necessários para a construção do gráfico Q. Q. Plot são dados na tabela 8. Tabela 8 Teste normalidade multivariado Aluno X1 X2 X3 dj^2 1 17,2 16,7 15,8 2, , ,2 2, ,6 24,2 3, ,5 18 1, ,8 20,8 3, ,6 13,4 16,2 3, ,4 22,8 5, ,5 24,3 23,5 1, ,2 20,3 19,6 0, ,7 17,5 15,7 3, ,6 20,2 23,6 5, ,6 21,9 1, ,8 16,3 17,7 2, ,5 17,8 17,7 2, ,3 24,8 22,9 2, ,2 21,5 18,9 4, ,1 23,5 1,458594

34 Tabela 8 Teste normalidade multivariado (continuação) Aluno X1 X2 X3 dj^ ,7 18,9 20,6 4, ,6 23,3 20,7 1, Média 19, , ,06842 Desvio padrão 2, , , O gráfico Q. Q. Plot é apresentado na imagem 5 (Mingoti, 2005). Imagem 5 Gráfico Q. Q. Plot (Mingoti, 2005). A disposição dos pontos, em forma aproximada de uma reta, indica a não rejeição da suposição de normalidade multivariada. Há testes apropriados para verificar a normalidade multivariada, como os chamados testes de Jobson (1992). 8 ANALÍSE DE CORRELAÇÕES CANÔNICAS Descrita por Hoteling (1936), consiste em investigar relacionamentos entre dois conjuntos de variáveis.

35 O primeiro exemplo de Hoteling consistiu em uma amostra de 140 crianças, em que aplicou-se testes para velocidade de leitura (X1), potência de leitura (X2), velocidade aritmética (Y1) e potência aritmética (Y2). O interesse era verificar se habilidade de leitura (X1, X2) está relacionada com habilidade aritmética (Y1, Y2). Encontrou-se duas variáveis u e v, com maior correlação possível, das seguintes combinações lineares: u=a x +a x v=b x +b x Os valores encontrados para os coeficientes foram: a = 2,78; b = 2,44; a =2,27; b =1, que produziram uma correlação r = 0,62. u: mede a diferença entre potência e velocidade de leitura, v: idem, para aritmética. Percebe-se que crianças com grandes diferenças entre X1 e X2 tendem a ter grandes diferenças entre Y1 e Y2 (razoável correlação positiva). Correlação canônica consiste numa generalização da correlação múltipla, pois nesta última, apenas uma variável Y está associada a várias variáveis X, enquanto que, na correlação canônica, várias variáveis Y (duas ou mais) estão associadas a várias variáveis X (duas ou mais). Sejam p variáveis X1, X2,..., Xp e q variáveis Y1, Y2,..., Yq. Pode-se formar r relações lineares, em que r min (p, q): u =a x +a x + +a x u =a x +a x + +a x...

36 u =a x +a x + +a x v =b Y +b Y + +b Y... v =b Y +b Y + +b Y Estas correlações são escolhidas de forma que a correlação entre u1 e v1 seja máxima; a correlação entre u2 e v2 seja máxima, sujeito a estas variáveis não serem correlacionadas com u1 e v1; a correlação entre u3 e v3 seja máxima, sujeito a estas variáveis não serem correlacionadas com u1, v1, u2, v2; etc. Cada par (ui, vi) representa uma dimensão independente no relacionamento entre os dois conjuntos de variáveis. O primeiro par (u1, v1) tem a mais alta correlação possível, sendo o mais importante. O segundo par (u2, v2) tem a segunda correlação mais alta, e assim por diante. Assemelha-se a componentes principais, exceto que aqui, a correlação é maximizada, enquanto que, em componentes principais, a variância é maximizada. Procedimento de análise: Seja a matriz de correlação (p+q)x(p + q): Em que A é a matriz de variâncias e covariâncias das variáveis X; B é a matriz de variâncias e covariâncias das variáveis Y; C é a matriz de covariâncias entre as variáveis X e Y.

37 Calculamos (B -1 C A -1 C)qxq e os autovalores λ, considerando B -1 C A -1 C λi b = 0, em que I é a matriz identidade, de ordem pxq, e. refere-se ao determinante da matriz. Os autovalores são os quadrados das correlações entre as variáveis canônicas, e os correspondentes autovetores b1, b2,..., br fornecem os coeficientes das variáveis Y para as variáveis canônicas. Os coeficientes da i-ésima variável canônica (ui) para as variáveis X são dados pelo elemento a =A Cb Então, u =a X, v =b Y, onde a =a,a, a, b =b,b, b, X =x,x, x, Y =y,y, y. A suposição para a execução de tais cálculos é que X e Y estejam na forma padronizada (média zero e desvio padrão 1). As variáveis u e v têm variâncias que dependem da escala adotada para o autovetor bi. Entretanto, podemos obter uma variância canônica escalonada ui, com variância unitária (idem para vi). Basta calcular o desvio padrão de ui para os dados e dividir os valores de aij pelo desvio padrão. Barthett (1947) apresentou um teste aproximado para a significância das correlações entre u e v, como um todo. A suposição é que a distribuição das variáveis seja normal multivariada. Χ =n 1 2 (p+q+3)ln 1 λ n: tamanho amostral Χ²: tem distribuição quiquadrado com (pq) graus de liberdade.

38 Regra de decisão: Χ² > Χ²tab : pelo menos uma das r correlações canônicas é significante. Caso contrário, nenhuma das correlações é significante. O teste acima pode ser modificado para melhor aproximação quando o tamanho amostral for pequeno. Também, a contribuição de cada correlação canônica pode ser testada individualmente, porém o teste não é confiável (Bryan, M., 2005). 9 - ANÁLISE DE CORRESPONDÊNCIA Método complementar ao teste quiquadrado de independência, utilizado para verificar a relação entre linhas e colunas numa tabela de contingência, relacionando duas variáveis categóricas. Seja a tabela 9 em que ni,j representa a frequência absoluta da categoria i da variável X e categoria j da variável Y. Tabela 9 X b Totais 1 n11 n12... n1b n1. 2 n21 n22... n2b n A na1 na2... nab na. Totais n.1 n.2... n.b n

39 Exemplo: Resultado de uma análise de 257 famílias quanto ao número de filhos e a renda familiar. nº de filhos Renda ($) >2 Totais < > Totais Matriz de Correspondência: pi,j = ni,j/n P= Matriz perfil das linhas: Dl = ni./n 0,058 0,105 0,195 0,167 0,097 0,144 0,047 0,031 0,031 0,051 0,035 0,039 Matriz perfil das colunas: Dc = n.i/n D = 0, , ,156, D = 0, , , ,237 l =..., c =... Seja a matriz P =P lc

40 Esta matriz é do tipo p =..., ou seja, os termos representam uma comparação da proporção observada no inferior de cada casela da tabela, com aquela esperada supondo independência entre as variáveis X e Y. O posto (rank) da matriz P é dado por k = min(p 1,q 1). Tal matriz pode ser decomposta em seus autovalores e autovetores, chegando-se ao resultado: P =A B, em que A = D é uma matriz de dimensão pxk, B =D v é de dimensão qxk, u e v são ortogonais e é uma matriz de dimensão kxk contendo os autovalores da matriz P, ordenados em ordem decrescente. u contém os autovetores da matriz PP, e v, os autovetores de P P. Pela decomposição da matriz, as linhas de P podem ser escritas como combinações lineares das linhas de B e as colunas de P podem ser escritas como combinações lineares das colunas da matriz A. As coordenadas principais das linhas da matriz P são definidas como: Y =D A As coordenadas principais das colunas da matriz P são Z =D B Como consequência desta decomposição, P pode ser expressa como função dos autovalores e das coordenadas principais, isto é, P =P lc =λ a b, sendo a -> i-ésima coluna da matriz A, b -> i=ésima coluna da matriz B,

41 k = posto (P) = min(p-1,q-1) As duas primeiras coordenadas principais das linhas e das colunas, são as que mais representam a associação entre X e Y estando relacionadas aos maiores autovalores da matriz P. A variação total existente é chamada inércia total, e é dada por λ, sendo λ os autovalores não nulos da matriz, i=1,2,...k. A proporção explicada pela i-ésima coordenada principal é λ λ Mostra-se que λ =, sendo Eij = npij representando o número esperado de observações na casela(i,j), = supondo independência entre as variáveis: E =.. Voltando ao exemplo, através da decomposição espectral das matrizes, obtém as coordenadas principais de linhas e colunas (tabela 10), com o gráfico da sequência:

42 Tabela 10 Coordenadas principais Perfil das linhas Y1 Y2 (l1) <2000-0,351 0,014 (l2) ,543 0,021 (l3) > ,013-0,089 Perfil das colunas Z1 Z2 (c1) 0 0,463 0,006 (c2) 1 0,375-0,007 (c3) 2-0,366 0,051 (c4) >2-0,412 0,055

43 Analisando o gráfico, nota-se, pelas proximidades linhas-colunas, que: - famílias de renda menor de reais tendem a ter 2 ou mais filhos; - famílias de renda entre e reais tendem a ter 0 ou 1 filho; - famílias de mais de reais de renda não se associam quanto ao número de filhos. Um outro exemplo, Ramos et al. (2008), consiste em estudar possível associação entre dias da semana e horários de ocorrência de crimes em Belém, PA, ano de 2007, conforme noticiado pelos jornais. O resultado da análise é dado no gráfico seguinte. Mapa perceptual da análise de correspondência das variáveis turno versus dia da semana para os crimes publicados em jornais do município de Belém, no ano de 2007, ocorridos no Estado do Pará (Ramos et al. 2008).

44 Observa-se que as terças, quartas e quintas feiras, os crimes tendem a ocorrer no período de tarde; aos domingos e sextas feiras, à noite; aos sábados, à noite e na madrugada; às segundas feiras, as maiores ocorrências acontecem na madrugada e no período da manhã. 10 COMPONENTES PRINCIPAIS Técnica descrita por Pearson (1901), melhorada por Hotelling (1933) e utilizada amplamente após o advento dos computadores. Dadas p variáveis, X1, X2,..., Xp, o objetivo da análise é encontrar combinações e produzir índices Z1, Z2,..., Zp que sejam não correlacionados, que permitam descrever a variação dos dados, em que as variâncias possuem a seguinte relação: Var (Z1) Var (Z2)... Var (Zp) Os índices Z são as componentes principais. Tais componentes medem diferentes dimensões dos dados e as variâncias dos Zi tornam-se desprezíveis para valores altos de i, i = 1, 2,..., p. Assim, poucas variáveis Z (as de variâncias não desprezíveis) descrevem a maior parte da variação do conjunto e uma economia na dimensão das variáveis é obtida. Quanto mais correlacionadas forem as variáveis (positiva ou negativamente), melhores serão os resultados. Dadas as p variáveis X1, X2,..., Xp, seja a seguinte matriz de variâncias e covariâncias: Var (X ) Cov (X,X ) Cov (X,X ) Var (X ) Cov (X,X ) S= Var (X ) onde Var = Variância e Cov = Covariância.

45 As variâncias das componentes principais são os autovalores da matriz S. Existem p autovalores, alguns dos quais podem ser zero. Autovalores negativos não são possíveis para uma matriz de covariâncias. Sejam λ1 λ2... λp 0 os autovalores ordenados, sendo λ1 = Var (Zi) correspondente ao i-ésimo componente principal: Z =a X +a X + +a X Em que a, a,..., a são os elementos do correspondente autovetor, escalonado, de modo que a =1. Propriedade: λ = Var(X ) = traço da matriz Variáveis de diferentes magnitudes podem ter diferentes influências nas componentes principais. Para evitar este fato padroniza-se as variáveis X1, X2,..., Xp de forma a terem média zero e variância 1. Obtém-se a nova matriz, chamada matriz de correlação, sendo e a correlação entre X1 e Xj: 1 e e e= 1 e e =1 O traço da matriz é igual ao valor p. Portanto, o procedimento consiste em: - Codificar X1, X2,..., Xp para ter média zero e variância unitária. Às vezes este procedimento não é feito quando se deseja que a importância das variáveis seja refletida em suas variâncias. - Calcular a matriz e (ou S, dependendo do procedimento anterior). - Encontrar os autovetores λ1, λ2,..., λp e os correspondentes autovetores a1, a2,..., ap. Os coeficientes do i-ésimo componente principal são os elementos ai, enquanto que λi é a sua variância. - Considerar somente as componentes de alta explicação.

46 Exemplo (Mingoti, 2005): Oito marcas de coxinhas são avaliadas por alguns examinadores, em relação às variáveis sabor (X1), aroma (X2), massa (X3) e recheio (X4). As médias das notas dos examinadores, para cada marca e variável, são dadas na tabela seguinte. Marca Sabor Aroma Massa Recheio M1 2,75 4,03 2,80 2,62 M2 3,90 4,12 3,40 3,52 M ,97 3,62 3,05 M4 4,58 4,86 4,34 4,82 M5 3,97 4,34 4,28 4,98 M6 3,01 3,98 2,90 2,82 M7 4,19 4,65 4,52 4,77 M8 3,82 4,12 3,62 3,71 Média 3,67 4,26 3,68 3,79 Desvio Padrão 0,638 0,332 0,651 0,954 λ = 1,7368 λ = 0,0649 λ = 0,0279 λ = 0,0225 Matriz de variâncias e covariâncias: 0,407 0,159 0,313 0,482 0,110 0,157 0,237 S= 0,424 0,516 0,911 Os autovalores da matriz S são:

47 - 46-1,852. O traço da matriz S, dado também pela soma dos autovalores é igual a λ /traço = 0,9378 λ /traço = 0,0350 λ /traço = 0,0150 λ /traço = 0,0120 Juntas, explicam 97,3% da variância total do vetor original X (alta explicação). marcas. Assim, duas componentes são suficientes para explicar as variações nas Os autovetores gerados pelos primeiros dois autovetores são: 0,456 0,816 0,223 0,215 a =, a 0,477 = 0,456 0,717 0,282 A primeira componente representa um índice global da qualidade da coxinha (todos os coeficientes são positivos). Assim, Y = 0,456 sabor + 0,223 aroma + 0,477 massa + 0,717 recheio (maior importância é o recheio). coxinha. Quanto maior for o valor numérico de Y, maior será a qualidade da Os escores obtidos para as diferentes marcas são os seguintes: M1: 5,367 M2: 6,843 M3: 6,222 M4: 8,698

48 M5: 8,390 M6: 5,665 M7: 8,524 M8: 7,047 Nota-se que a marca melhor classificada é a M4 e a pior, M1. A segunda componente (de baixa explicação), contrasta sabor e aroma com massa e recheio: Y = 0,816 sabor 0,215 aroma + 0,456 massa + 0,282 recheio Obtém-se: M1: -1,095 M2: -1,525 M3: -0,889 M4: -1,444 M5: -0,817 M6: -1,194 M7: -1,012 M8: -1,306 Marcas M2 e M4 se sobressaem no aroma e sabor, enquanto que as marcas M5 e M3 se sobressaem na massa e recheio.

49 ANÁLISE FATORIAL Consiste em descrever um conjunto de p variáveis X1, X2,..., Xp em um número menor de índices ou fatores, bem como obter uma melhor compreensão do relacionamento entre estas variáveis. A ideia é semelhante à de componentes principais, com a diferença de que a análise de componentes principais não é baseada em um modelo particular, o que ocorre com análise fatorial. Spearman (1904), em estudo de correlações entre escores de testes de estudantes, observou que havia relações entre as correlações observadas. Por exemplo, seja a tabela de correlações entre escores de testes de meninos de uma escola (tabela 11): Tabela 11 - Correlações entre escores de testes de meninos de uma escola (Spearman, 1904) Clássicos Francês Inglês Matemática Música Discriminação de tom Clássicos 1 0,83 0,78 0,70 0,63 0,66 Francês 0,83 1 0,67 0,67 0,57 0,65 Inglês 0,78 0,67 1 0,64 0,51 0,54 Matemática 0,70 0,67 0,64 1 0,51 0,45 Música 0,63 0,57 0,51 0,51 1 0,40 Discriminação de tom 0,66 0,65 0,54 0,45 0,40 1 Spearman notou que quaisquer duas linhas eram quase proporcionais se as diagonais fossem ignoradas. Para as linhas Clássicos e Inglês: 0,83 0,67 0,70 0,64 0,63 0,51 0,66 0,54

29 e 30 de julho de 2013

29 e 30 de julho de 2013 Programa de Pós-Graduação em Estatística e Experimentação Agronômica ESALQ/USP 29 e 30 de julho de 2013 Dia 2 - Conteúdo 1 2 3 Dados multivariados Estrutura: n observações tomadas de p variáveis resposta.

Leia mais

Técnicas Multivariadas em Saúde. Vetores Aleatórios. Métodos Multivariados em Saúde Roteiro. Definições Principais. Vetores aleatórios:

Técnicas Multivariadas em Saúde. Vetores Aleatórios. Métodos Multivariados em Saúde Roteiro. Definições Principais. Vetores aleatórios: Roteiro Técnicas Multivariadas em Saúde Lupércio França Bessegato Dep. Estatística/UFJF 1. Introdução 2. Distribuições de Probabilidade Multivariadas 3. Representação de Dados Multivariados 4. Testes de

Leia mais

Testes de significância com dados multivariados

Testes de significância com dados multivariados Testes de significância com dados multivariados Hiron Pereira Farias e Talita T. Fernandes Wednesday, January 20, 2016 Hiron Pereira Farias e Talita T. Fernandes Testes de significância com dados multivariadoswednesday,

Leia mais

Técnicas Multivariadas em Saúde

Técnicas Multivariadas em Saúde Roteiro Técnicas Multivariadas em Saúde Lupércio França Bessegato Dep. Estatística/UFJF 1. Introdução 2. Distribuições de Probabilidade Multivariadas 3. Representação de Dados Multivariados 4. Testes de

Leia mais

Variância pop. * conhecida Teste t Paramétrico Quantitativa Distribuição normal Wilcoxon (teste dos sinais, Wilcoxon p/ 1 amostra)

Variância pop. * conhecida Teste t Paramétrico Quantitativa Distribuição normal Wilcoxon (teste dos sinais, Wilcoxon p/ 1 amostra) Testes de Tendência Central (média, mediana, proporção) Classificação Variável 1 Variável 2 Núm ero Gru pos Dependência Teste Z Paramétrico Quantitativa - 1 - Premissas Variância pop. * conhecida Teste

Leia mais

Delineamento e Análise Experimental Aula 3

Delineamento e Análise Experimental Aula 3 Aula 3 Castro Soares de Oliveira Teste de hipótese Teste de hipótese é uma metodologia estatística que permite tomar decisões sobre uma ou mais populações baseando-se no conhecimento de informações da

Leia mais

Análise Fatorial e Componentes Principais Aplicadas na Engenharia de Avaliações

Análise Fatorial e Componentes Principais Aplicadas na Engenharia de Avaliações Análise Fatorial e Componentes Principais Aplicadas na Engenharia de Avaliações Diogo de Carvalho Bezerra Universidade Federal de Pernambuco Núcleo de Gestão e-mail:dicbezerra@hotmail.com SOBREA Sociedade

Leia mais

Análise Multivariada Aplicada à Contabilidade

Análise Multivariada Aplicada à Contabilidade Mestrado e Doutorado em Controladoria e Contabilidade Análise Multivariada Aplicada à Contabilidade Prof. Dr. Marcelo Botelho da Costa Moraes www.marcelobotelho.com mbotelho@usp.br Turma: 2º / 2016 1 Agenda

Leia mais

Estimação e Testes de Hipóteses

Estimação e Testes de Hipóteses Estimação e Testes de Hipóteses 1 Estatísticas sticas e parâmetros Valores calculados por expressões matemáticas que resumem dados relativos a uma característica mensurável: Parâmetros: medidas numéricas

Leia mais

7 Teste de Hipóteses

7 Teste de Hipóteses 7 Teste de Hipóteses 7-1 Aspectos Gerais 7-2 Fundamentos do Teste de Hipóteses 7-3 Teste de uma Afirmação sobre a Média: Grandes Amostras 7-4 Teste de uma Afirmação sobre a Média : Pequenas Amostras 7-5

Leia mais

Conceitos Básicos Teste t Teste F. Teste de Hipóteses. Joel M. Corrêa da Rosa

Conceitos Básicos Teste t Teste F. Teste de Hipóteses. Joel M. Corrêa da Rosa 2011 O 1. Formular duas hipóteses sobre um valor que é desconhecido na população. 2. Fixar um nível de significância 3. Escolher a Estatística do Teste 4. Calcular o p-valor 5. Tomar a decisão mediante

Leia mais

UNIVERSIDADE FEDERAL FLUMINENSE. Programa de Mestrado e Doutorado em Engenharia de Produção. Disciplina: Estatística Multivariada

UNIVERSIDADE FEDERAL FLUMINENSE. Programa de Mestrado e Doutorado em Engenharia de Produção. Disciplina: Estatística Multivariada UNIVERSIDADE FEDERAL FLUMINENSE Programa de Mestrado e Doutorado em Engenharia de Produção Disciplina: Estatística Multivariada Aula: Análise Discriminante Professor: Valdecy Pereira, D. Sc. email: valdecy.pereira@gmail.com

Leia mais

ANÁLISE DISCRIMINANTE. Análise discriminante. Função discriminante. Análise de agrupamentos e Análise das componentes principais

ANÁLISE DISCRIMINANTE. Análise discriminante. Função discriminante. Análise de agrupamentos e Análise das componentes principais Análise de agrupamentos e Análise das componentes principais Ambas as análises são técnicas de redução de dados. ANÁLISE DISCRIMINANTE Objetivo da análise de agrupamentos é formar grupos, reduzindo o número

Leia mais

Ralph S. Silva

Ralph S. Silva ANÁLISE ESTATÍSTICA MULTIVARIADA Ralph S. Silva http://www.im.ufrj.br/ralph/multivariada.html Departamento de Métodos Estatísticos Instituto de Matemática Universidade Federal do Rio de Janeiro Agradecimentos

Leia mais

Estimação parâmetros e teste de hipóteses. Prof. Dr. Alberto Franke (48)

Estimação parâmetros e teste de hipóteses. Prof. Dr. Alberto Franke (48) Estimação parâmetros e teste de hipóteses Prof. Dr. Alberto Franke (48) 91471041 Intervalo de confiança para média É um intervalo em que haja probabilidade do verdadeiro valor desconhecido do parâmetro

Leia mais

Métodos Estatísticos Avançados em Epidemiologia

Métodos Estatísticos Avançados em Epidemiologia 1 / 44 Métodos Estatísticos Avançados em Epidemiologia Análise de Variância - ANOVA Referência: Cap. 12 - Pagano e Gauvreau (2004) - p.254 Enrico A. Colosimo/UFMG Depto. Estatística - ICEx - UFMG 2 / 44

Leia mais

Intervalos de Confiança

Intervalos de Confiança Intervalos de Confiança INTERVALOS DE CONFIANÇA.1 Conceitos básicos.1.1 Parâmetro e estatística Parâmetro é a descrição numérica de uma característica da população. Estatística é a descrição numérica de

Leia mais

Técnicas Multivariadas em Saúde

Técnicas Multivariadas em Saúde Roteiro Técnicas Multivariadas em Saúde Lupércio França Bessegato Dep. Estatística/UFJF 1. Introdução 2. Distribuições de Probabilidade Multivariadas 3. Representação de Dados Multivariados 4. Testes de

Leia mais

Mestrado Profissional em Administração. Disciplina: Análise Multivariada Professor: Hedibert Freitas Lopes 1º trimestre de 2015

Mestrado Profissional em Administração. Disciplina: Análise Multivariada Professor: Hedibert Freitas Lopes 1º trimestre de 2015 Mestrado Profissional em Administração Disciplina: Análise Multivariada Professor: Hedibert Freitas Lopes 1º trimestre de 015 Decomposição Espectral Autovalores e autovetores MANLY, Cap. Objetivo e Definição

Leia mais

DE ESPECIALIZAÇÃO EM ESTATÍSTICA APLICADA)

DE ESPECIALIZAÇÃO EM ESTATÍSTICA APLICADA) 1. Sabe-se que o nível de significância é a probabilidade de cometermos um determinado tipo de erro quando da realização de um teste de hipóteses. Então: a) A escolha ideal seria um nível de significância

Leia mais

Medidas de Dispersão ou variabilidade

Medidas de Dispersão ou variabilidade Medidas de Dispersão ou variabilidade A média - ainda que considerada como um número que tem a faculdade de representar uma série de valores - não pode, por si mesma, destacar o grau de homogeneidade ou

Leia mais

EXPERIMENTAÇÃO ZOOTÉCNICA. Profa. Dra. Amanda Liz Pacífico Manfrim Perticarrari

EXPERIMENTAÇÃO ZOOTÉCNICA. Profa. Dra. Amanda Liz Pacífico Manfrim Perticarrari EXPERIMENTAÇÃO ZOOTÉCNICA Profa. Dra. Amanda Liz Pacífico Manfrim Perticarrari amanda@fcav.unesp.br TESTES PARA COMPARAÇÃO DE MÉDIAS O teste F permite tirar conclusões muito gerais relacionadas com os

Leia mais

CONHECIMENTOS ESPECÍFICOS

CONHECIMENTOS ESPECÍFICOS CONHECIMENTOS ESPECÍFICOS As variáveis aleatórias X e Y seguem uma distribuição de Bernoulli com probabilidade de sucesso igual a 0,4. Considerando S = X + Y e que os eventos aleatórios A = [X = 1] e B

Leia mais

Stela Adami Vayego Estatística II CE003/DEST/UFPR

Stela Adami Vayego Estatística II CE003/DEST/UFPR Resumo 1 Teste de hipóteses não paramétricos Os métodos não-paramétricos fazem poucas suposições sobre a natureza das distribuições dos dados. Não exige que as distribuições nas populações sejam normais,

Leia mais

étodos uméricos SISTEMAS DE EQUAÇÕES LINEARES (Continuação) Prof. Erivelton Geraldo Nepomuceno PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA

étodos uméricos SISTEMAS DE EQUAÇÕES LINEARES (Continuação) Prof. Erivelton Geraldo Nepomuceno PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA étodos uméricos SISTEMAS DE EQUAÇÕES LINEARES (Continuação) Prof. Erivelton Geraldo Nepomuceno PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA UNIVERSIDADE DE JOÃO DEL-REI PRÓ-REITORIA DE PESQUISA CENTRO

Leia mais

Ralph S. Silva

Ralph S. Silva ANÁLISE ESTATÍSTICA MULTIVARIADA Ralph S Silva http://wwwimufrjbr/ralph/multivariadahtml Departamento de Métodos Estatísticos Instituto de Matemática Universidade Federal do Rio de Janeiro Sumário Revisão:

Leia mais

Medidas de Semelhança

Medidas de Semelhança Medidas de Semelhança Índices de Semelhança Grandezas numéricas que quantificam o grau de associação entre um par de objetos ou de descritores. Como escolher um Índice? O objetivo da análise é associar

Leia mais

Análise da Variância. Prof. Dr. Alberto Franke (48)

Análise da Variância. Prof. Dr. Alberto Franke (48) Análise da Variância Prof. Dr. Alberto Franke (48) 91471041 Análise da variância Até aqui, a metodologia do teste de hipóteses foi utilizada para tirar conclusões sobre possíveis diferenças entre os parâmetros

Leia mais

Conceitos centrais em análise de dados

Conceitos centrais em análise de dados Conceitos centrais em análise de dados Conceitos básicos em Estatística Estatística Ciência que tem por objetivo orientar a coleta, o resumo, a apresentação, a análise e a interpretação dos dados. Divide-se

Leia mais

Mestrado Profissional em Administração. Disciplina: Análise Multivariada Professor: Hedibert Freitas Lopes 1º trimestre de 2015

Mestrado Profissional em Administração. Disciplina: Análise Multivariada Professor: Hedibert Freitas Lopes 1º trimestre de 2015 Mestrado Profissional em Administração Disciplina: Análise Multivariada Professor: Hedibert Freitas Lopes º trimestre de 05 Inferência Multivariada MANOVA MANLY, Cap. 4 HAIR et al., Cap. 6 Exemplo Uma

Leia mais

ANÁLISE DISCRIMINANTE. Análise discriminante. Função discriminante. Análise de agrupamentos e Análise das componentes principais

ANÁLISE DISCRIMINANTE. Análise discriminante. Função discriminante. Análise de agrupamentos e Análise das componentes principais Análise de agrupamentos e Análise das componentes principais Ambas as análises são técnicas de redução de dados. ANÁLISE DISCRIMINANTE Objetivo da análise de agrupamentos é formar grupos, reduzindo o número

Leia mais

Stela Adami Vayego DEST/UFPR

Stela Adami Vayego DEST/UFPR Resumo 1 Testes de hipóteses não paramétricos Os métodos não-paramétricos fazem poucas suposições sobre a natureza das distribuições dos dados. Não exige que as distribuições nas populações sejam normais,

Leia mais

Nessa situação, a média dessa distribuição Normal (X ) é igual à média populacional, ou seja:

Nessa situação, a média dessa distribuição Normal (X ) é igual à média populacional, ou seja: Pessoal, trago a vocês a resolução da prova de Estatística do concurso para Auditor Fiscal aplicada pela FCC. Foram 10 questões de estatística! Não identifiquei possibilidade para recursos. Considero a

Leia mais

Testes de Hipóteses para. uma Única Amostra. Objetivos de Aprendizagem. 9.1 Teste de Hipóteses. UFMG-ICEx-EST-027/031 07/06/ :07

Testes de Hipóteses para. uma Única Amostra. Objetivos de Aprendizagem. 9.1 Teste de Hipóteses. UFMG-ICEx-EST-027/031 07/06/ :07 -027/031 07/06/2018 10:07 9 ESQUEMA DO CAPÍTULO 9.1 TESTE DE HIPÓTESES 9.2 TESTES PARA A MÉDIA DE UMA DISTRIBUIÇÃO NORMAL, VARIÂNCIA CONHECIDA 9.3 TESTES PARA A MÉDIA DE UMA DISTRIBUIÇÃO NORMAL, VARIÂNCIA

Leia mais

Planejamento e Otimização de Experimentos

Planejamento e Otimização de Experimentos Planejamento e Otimização de Experimentos Um Pouco de Estatística Descritiva Prof. Dr. Anselmo E de Oliveira anselmo.quimica.ufg.br elcana@quimica.ufg.br Populações, Amostras e Distribuições População

Leia mais

Análise Multivariada Aplicada à Contabilidade

Análise Multivariada Aplicada à Contabilidade Mestrado e Doutorado em Controladoria e Contabilidade Análise Multivariada Aplicada à Contabilidade Prof. Dr. Marcelo Botelho da Costa Moraes www.marcelobotelho.com mbotelho@usp.br Turma: 2º / 2016 1 Agenda

Leia mais

Análise de Dados Longitudinais Aula

Análise de Dados Longitudinais Aula 1/35 Análise de Dados Longitudinais Aula 08.08.2018 José Luiz Padilha da Silva - UFPR www.docs.ufpr.br/ jlpadilha 2/35 Sumário 1 Revisão para dados transversais 2 Como analisar dados longitudinais 3 Perspectiva

Leia mais

Testes de Aderência, Homogeneidade e Independência

Testes de Aderência, Homogeneidade e Independência Testes de Aderência, Homogeneidade e Independência Prof. Marcos Vinicius Pó Métodos Quantitativos para Ciências Sociais O que é um teste de hipótese? Queremos saber se a evidência que temos em mãos significa

Leia mais

aula ANÁLISE DO DESEMPENHO DO MODELO EM REGRESSÕES

aula ANÁLISE DO DESEMPENHO DO MODELO EM REGRESSÕES ANÁLISE DO DESEMPENHO DO MODELO EM REGRESSÕES 18 aula META Fazer com que o aluno seja capaz de realizar os procedimentos existentes para a avaliação da qualidade dos ajustes aos modelos. OBJETIVOS Ao final

Leia mais

CONHECIMENTOS ESPECÍFICOS

CONHECIMENTOS ESPECÍFICOS fonte de graus de soma de quadrado variação liberdade quadrados médio teste F regressão 1 1,4 1,4 46,2 resíduo 28 0,8 0,03 total 2,2 A tabela de análise de variância (ANOVA) ilustrada acima resulta de

Leia mais

AULA 05 Teste de Hipótese

AULA 05 Teste de Hipótese 1 AULA 05 Teste de Hipótese Ernesto F. L. Amaral 03 de setembro de 2012 Faculdade de Filosofia e Ciências Humanas (FAFICH) Universidade Federal de Minas Gerais (UFMG) Fonte: Triola, Mario F. 2008. Introdução

Leia mais

ÍNDICE. Variáveis, Populações e Amostras. Estatística Descritiva PREFÁCIO 15 NOTA À 3ª EDIÇÃO 17 COMO USAR ESTE LIVRO? 21 CAPÍTULO 1 CAPÍTULO 2

ÍNDICE. Variáveis, Populações e Amostras. Estatística Descritiva PREFÁCIO 15 NOTA À 3ª EDIÇÃO 17 COMO USAR ESTE LIVRO? 21 CAPÍTULO 1 CAPÍTULO 2 COMO USAR ESTE LIVRO ÍNDICE PREFÁCIO 15 NOTA À 3ª EDIÇÃO 17 COMO USAR ESTE LIVRO? 21 CAPÍTULO 1 Variáveis, Populações e Amostras 1.1. VARIÁVEIS ESTATÍSTICAS E ESCALAS DE MEDIDA 27 1.2. POPULAÇÃO VS. AMOSTRA

Leia mais

Testes de Aderência, Homogeneidade e Independência

Testes de Aderência, Homogeneidade e Independência Testes de Aderência, Homogeneidade e Independência Prof. Marcos Vinicius Pó Métodos Quantitativos para Ciências Sociais O que é um teste de hipótese? Queremos saber se a evidência que temos em mãos significa

Leia mais

ANÁLISE DE COMPONENTES PRINCIPAIS/PCA ou ACP

ANÁLISE DE COMPONENTES PRINCIPAIS/PCA ou ACP Procedimento para a determinação de novas variáveis (componentes) que expliquem a maior variabilidade possível existente em uma matriz de dados multidimensionais. ANÁLISE DE COMPONENTES PRINCIPAIS/PCA

Leia mais

Testes de Hipóteses sobre a média: Várias Amostras

Testes de Hipóteses sobre a média: Várias Amostras Testes de Hipóteses sobre a média: Várias Amostras Na aula de hoje veremos como comparar mais de duas populações, baseados em dados fornecidos por amostras dessas populações. A Análise de Variância (ANOVA)

Leia mais

Análise Multivariada Aplicada à Contabilidade

Análise Multivariada Aplicada à Contabilidade Mestrado e Doutorado em Controladoria e Contabilidade Análise Multivariada Aplicada à Contabilidade Prof. Dr. Marcelo Botelho da Costa Moraes www.marcelobotelho.com mbotelho@usp.br Turma: 2º / 2016 1 Agenda

Leia mais

MAE Planejamento e Pesquisa II

MAE Planejamento e Pesquisa II MAE0327 - Planejamento e Pesquisa II EXPERIMENTOS/ESTUDOS NÃO-BALANCEADOS COM FATORES FIXOS - PARTE 1 7 de agosto de 2016 Denise A Botter MAE0327 7 de agosto de 2016 1 / 1 PLANEJAMENTO E PESQUISA I Estudos

Leia mais

Testes de Aderência, Homogeneidade e Independência

Testes de Aderência, Homogeneidade e Independência Testes de Aderência, Homogeneidade e Independência Prof. Marcos Vinicius Pó Métodos Quantitativos para Ciências Sociais O que é um teste de hipótese? Queremos saber se a evidência que temos em mãos significa

Leia mais

5 Análise dos resultados

5 Análise dos resultados 5 Análise dos resultados Os dados foram analisados utilizando o software SPSS (Statistical Package for Social Sciences) base 18.0. Para Cooper e Schindler (2003) a análise de dados envolve a redução de

Leia mais

Universidade Federal do Pará Instituto de Ciências Exatas e Naturais Faculdade de Estatística Bacharelado em Estatística

Universidade Federal do Pará Instituto de Ciências Exatas e Naturais Faculdade de Estatística Bacharelado em Estatística Universidade Federal do Pará Instituto de Ciências Exatas e Naturais Faculdade de Estatística Bacharelado em Estatística Disciplina: Estatística Aplicada Professores: Héliton Tavares e Regina Tavares Aluna:

Leia mais

Planejamento e Otimização de Experimentos

Planejamento e Otimização de Experimentos Planejamento e Otimização de Experimentos Um Pouco de Estatística Prof. Dr. Anselmo E de Oliveira anselmo.quimica.ufg.br anselmo.disciplinas@gmail.com Populações, Amostras e Distribuições População Amostra

Leia mais

ANÁLISE DE VARIÂNCIA. y j = µ + τ i + e i j = µ i + e i j

ANÁLISE DE VARIÂNCIA. y j = µ + τ i + e i j = µ i + e i j SUMÁRIO 1 Análise de Variância 1 1.1 O Teste F...................................... 1.2 Verificando as pressuposições do modelo..................... 5 1.2.1 Verificação de Normalidade.........................

Leia mais

Análise da Regressão. Prof. Dr. Alberto Franke (48)

Análise da Regressão. Prof. Dr. Alberto Franke (48) Análise da Regressão Prof. Dr. Alberto Franke (48) 91471041 O que é Análise da Regressão? Análise da regressão é uma metodologia estatística que utiliza a relação entre duas ou mais variáveis quantitativas

Leia mais

ESTATÍSTICA NÃO-PARAMÉTRICA Aula 5

ESTATÍSTICA NÃO-PARAMÉTRICA Aula 5 ESTATÍSTICA NÃO-PARAMÉTRICA Aula Prof. Dr. Edmilson Rodrigues Pinto Faculdade de Matemática - UFU edmilson@famat.ufu.br Caso de amostras relacionadas O obetivo principal desses testes é comprovar a hipótese

Leia mais

Análise de Regressão EST036

Análise de Regressão EST036 Análise de Regressão EST036 Michel Helcias Montoril Instituto de Ciências Exatas Universidade Federal de Juiz de Fora Regressão sem intercepto; Formas alternativas do modelo de regressão Regressão sem

Leia mais

MAE Introdução à Probabilidade e Estatística II Resolução Lista 5

MAE Introdução à Probabilidade e Estatística II Resolução Lista 5 MAE 229 - Introdução à Probabilidade e Estatística II Resolução Lista 5 Professor: Pedro Morettin e Profa. Chang Chian Exercício 1 (a) De uma forma geral, o desvio padrão é usado para medir a dispersão

Leia mais

Delineamento e Análise Experimental Aula 4

Delineamento e Análise Experimental Aula 4 Aula 4 Castro Soares de Oliveira ANOVA Significativa Quando a aplicação da análise de variância conduz à rejeição da hipótese nula, temos evidência de que existem diferenças entre as médias populacionais.

Leia mais

Associação entre variáveis categóricas e IC95%

Associação entre variáveis categóricas e IC95% Associação entre variáveis categóricas e IC95% Andréa Homsi Dâmaso Programa de pós-graduação em Epidemiologia UFPEL Biotecnologia: Bioestatística e Delineamento Experimental Aula de hoje Teste do qui-quadrado

Leia mais

Mario de Andrade Lira Junior

Mario de Andrade Lira Junior Mario de Andrade Lira Junior www.lira.pro.br 1 Apenas uma breve apresentação Para não dizerem que nunca viram Um conjunto de técnicas de análise que usa diversas variáveis dependentes simultaneamente Mais

Leia mais

5. Carta de controle e homogeneidade de variância

5. Carta de controle e homogeneidade de variância 5. Carta de controle e homogeneidade de variância O desenvolvimento deste estudo faz menção a dois conceitos estatísticos: as cartas de controle, de amplo uso em controle estatístico de processo, e a homogeneidade

Leia mais

MÓDULO V: Análise Bidimensional: Correlação, Regressão e Teste Qui-quadrado de Independência

MÓDULO V: Análise Bidimensional: Correlação, Regressão e Teste Qui-quadrado de Independência MÓDULO V: Análise Bidimensional: Correlação, Regressão e Teste Qui-quadrado de Independência Introdução 1 Muito frequentemente fazemos perguntas do tipo se alguma coisa tem relação com outra. Estatisticamente

Leia mais

TESTES NÃO PARAMÉTRICOS (para mediana/média)

TESTES NÃO PARAMÉTRICOS (para mediana/média) MAE212: Introdução à Probabilidade e à Estatística II - Profas. Beti e Chang (2012) 1 TESTES NÃO PARAMÉTRICOS (para mediana/média) Os métodos de estimação e testes de hipóteses estudados até agora nessa

Leia mais

Especialização em Engenharia de Processos e de Sistemas de Produção

Especialização em Engenharia de Processos e de Sistemas de Produção Especialização em Engenharia de Processos e de Sistemas de Produção Projetos de Experimento e Confiabilidade de Sistemas da Produção Prof. Claudio Luis C. Frankenberg 3ª parte Conforme foi apresentado

Leia mais

Testes para dados categóricos

Testes para dados categóricos Testes para dados categóricos Teste de homogeneidade Objetivo: testar se existe diferença entre frequências observadas (O ij ) e frequências esperadas (E ij ). Dados amostrais: amostras aleatórias independentes

Leia mais

Estatística: Aplicação ao Sensoriamento Remoto SER ANO Componentes Principais

Estatística: Aplicação ao Sensoriamento Remoto SER ANO Componentes Principais Estatística: Aplicação ao Sensoriamento Remoto SER 4 - ANO 9 Componentes Principais Camilo Daleles Rennó camilorenno@inpebr http://wwwdpiinpebr/~camilo/estatistica/ Associação entre Variáveis r = < r

Leia mais

Planejamento de Experimentos Suposições do Modelo e Comparações Múltiplas

Planejamento de Experimentos Suposições do Modelo e Comparações Múltiplas 1 / 30 Planejamento de Experimentos Suposições do Modelo e Comparações Múltiplas Enrico A. Colosimo/UFMG Depto. Estatística - ICEx - UFMG 2 / 30 Exemplo típico: Resistência de uma nova fibra sintética

Leia mais

AULA 04 Teste de hipótese

AULA 04 Teste de hipótese 1 AULA 04 Teste de hipótese Ernesto F. L. Amaral 03 de outubro de 2013 Centro de Pesquisas Quantitativas em Ciências Sociais (CPEQS) Faculdade de Filosofia e Ciências Humanas (FAFICH) Universidade Federal

Leia mais

1 Que é Estatística?, 1. 2 Séries Estatísticas, 9. 3 Medidas Descritivas, 27

1 Que é Estatística?, 1. 2 Séries Estatísticas, 9. 3 Medidas Descritivas, 27 Prefácio, xiii 1 Que é Estatística?, 1 1.1 Introdução, 1 1.2 Desenvolvimento da estatística, 1 1.2.1 Estatística descritiva, 2 1.2.2 Estatística inferencial, 2 1.3 Sobre os softwares estatísticos, 2 1.4

Leia mais

Testes de Hipóteses. Ricardo Ehlers Departamento de Matemática Aplicada e Estatística Universidade de São Paulo

Testes de Hipóteses. Ricardo Ehlers Departamento de Matemática Aplicada e Estatística Universidade de São Paulo Testes de Hipóteses Ricardo Ehlers ehlers@icmc.usp.br Departamento de Matemática Aplicada e Estatística Universidade de São Paulo Introdução e notação Em geral, intervalos de confiança são a forma mais

Leia mais

SCC0173 Mineração de Dados Biológicos

SCC0173 Mineração de Dados Biológicos SCC073 Mineração de Dados Biológicos Análise Exploratória de Dados Parte A: Revisão de Estatística Descritiva Elementar Prof. Ricardo J. G. B. Campello SCC / ICMC / USP Tópicos Análise Exploratória de

Leia mais

Testes não paramétricos. Prof. Marcos Vinicius Pó Métodos Quantitativos para Ciências Sociais

Testes não paramétricos. Prof. Marcos Vinicius Pó Métodos Quantitativos para Ciências Sociais Testes não paramétricos Prof. Marcos Vinicius Pó Métodos Quantitativos para Ciências Sociais Teste de hipótese Queremos saber se a evidência que temos em mãos significa que encontramos algo diferente daquela

Leia mais

TESTE DE COMPARAÇÃO MÚLTIPLA

TESTE DE COMPARAÇÃO MÚLTIPLA SUMÁRIO 1 TESTE DE COMPARAÇÃO MÚLTIPLA Quando a aplicação da análise de variância conduz à rejeição da hipótese nula, temos evidência de que existem diferenças entre as médias populacionais. Mas, entre

Leia mais

Capítulo 6 Estatística não-paramétrica

Capítulo 6 Estatística não-paramétrica Capítulo 6 Estatística não-paramétrica Slide 1 Teste de ajustamento do Qui-quadrado Testes de independência e de homogeneidade do Qui-quadrado Testes dos sinais e de Wilcoxon Teste de Mann-Whitney Teste

Leia mais

Projeto de Experimentos

Projeto de Experimentos Projeto de Experimentos O uso de Projeto de Experimentos conduz a uma seqüência estruturada de ensaios, que assegura o máximo de informação com um gasto mínimo de tempo/dinheiro. Entrada Processo Saída

Leia mais

ANÁLISE DE COMPONENTES PRINCIPAIS/PCA ou ACP

ANÁLISE DE COMPONENTES PRINCIPAIS/PCA ou ACP Procedimento para a determinação de novas variáveis (componentes) que expliquem a maior variabilidade possível existente em uma matriz de dados multidimensionais. ANÁLISE DE COMPONENTES PRINCIPAIS/PCA

Leia mais

Testes de Aderência, Homogeneidade e Independência. Prof. Marcos Vinicius Pó Métodos Quantitativos para Ciências Sociais

Testes de Aderência, Homogeneidade e Independência. Prof. Marcos Vinicius Pó Métodos Quantitativos para Ciências Sociais Testes de Aderência, Homogeneidade e Independência Prof. Marcos Vinicius Pó Métodos Quantitativos para Ciências Sociais Teste de hipótese Queremos saber se a evidência que temos em mãos significa que encontramos

Leia mais

CONHECIMENTOS ESPECÍFICOS

CONHECIMENTOS ESPECÍFICOS CONHECIMENTOS ESPECÍFICOS A distribuição dos tempos de permanência dos estudantes nos cursos de graduação de certa universidade é uma distribuição normal com média igual a 6 anos e desvio padrão igual

Leia mais

Inferência para várias populações normais análise de variância (ANOVA)

Inferência para várias populações normais análise de variância (ANOVA) Inferência para várias populações normais análise de variância (ANOVA) Capítulo 15, Estatística Básica (Bussab&Morettin, 8a Edição) 9a AULA 11/05/2015 MAE229 - Ano letivo 2015 Lígia Henriques-Rodrigues

Leia mais

ESTATÍSTICA EXPERIMENTAL. ANOVA. Aula 05

ESTATÍSTICA EXPERIMENTAL. ANOVA. Aula 05 ESTATÍSTICA EXPERIMENTAL ANOVA. Aula 05 Introdução A ANOVA ou Análise de Variância é um procedimento usado para comparar a distribuição de três ou mais grupos em amostras independentes. A análise de variância

Leia mais

Exemplo 1: Variáveis padronizadas Z t = ( Z 1 (1), Z 2 (1), Z 1 (2), Z 2 Z 1 (1) Z (1) = Z (2) = Z 2. Matriz de correlações:

Exemplo 1: Variáveis padronizadas Z t = ( Z 1 (1), Z 2 (1), Z 1 (2), Z 2 Z 1 (1) Z (1) = Z (2) = Z 2. Matriz de correlações: Exemplo : Variáveis padronizadas t = (,,, ) = = Matriz de correlações: Ρ Ρ Ρ Ρ Ρ.0 0.4 0.5 0.6 0.4.0 0.3 0.4 0.5 0.3.0 0. 0.6 0.4 0..0 De onde se obtém: /.068 0.9.047 0.083 Ρ Ρ 0.9.068 0.083.047 Ρ / /

Leia mais

2 Processo de Agrupamentos

2 Processo de Agrupamentos 20 2 Processo de Agrupamentos A análise de agrupamentos pode ser definida como o processo de determinação de k grupos em um conjunto de dados. Para entender o que isso significa, observe-se a Figura. Y

Leia mais

Regression and Clinical prediction models

Regression and Clinical prediction models Regression and Clinical prediction models Session 4 Introducing statistical modeling Part 1 (Analysis of variance) Pedro E A A do Brasil pedro.brasil@ini.fiocruz.br 2018 Objetivos Introduzir a ideia de

Leia mais

Aula 2 Uma breve revisão sobre modelos lineares

Aula 2 Uma breve revisão sobre modelos lineares Aula Uma breve revisão sobre modelos lineares Processo de ajuste de um modelo de regressão O ajuste de modelos de regressão tem como principais objetivos descrever relações entre variáveis, estimar e testar

Leia mais

CE001 - BIOESTATÍSTICA TESTE DO QUI-QUADRADO

CE001 - BIOESTATÍSTICA TESTE DO QUI-QUADRADO CE001 - BIOESTATÍSTICA TESTE DO QUI-QUADRADO Ana Paula Araujo Correa Eder Queiroz Newton Trevisan DEFINIÇÃO É um teste de hipóteses que se destina a encontrar um valor da dispersão para duas variáveis

Leia mais

Teste Qui-quadrado. Dr. Stenio Fernando Pimentel Duarte

Teste Qui-quadrado. Dr. Stenio Fernando Pimentel Duarte Dr. Stenio Fernando Pimentel Duarte Exemplo Distribuição de 300 pessoas, classificadas segundo o sexo e o tabagismo Tabagismo Fumante (%) Não Fumante (%) Masculino 92 (46,0) 108 (54,0) Sexo Feminino 38

Leia mais

Mais Informações sobre Itens do Relatório

Mais Informações sobre Itens do Relatório Mais Informações sobre Itens do Relatório Amostra Tabela contendo os valores amostrados a serem utilizados pelo método comparativo (estatística descritiva ou inferencial) Modelos Pesquisados Tabela contendo

Leia mais

Princípios de Bioestatística

Princípios de Bioestatística Princípios de Bioestatística Análise de Variância Enrico A. Colosimo Departamento de Estatística Universidade Federal de Minas Gerais http://www.est.ufmg.br/~enricoc 2011 1 / 25 Introdução Existem muitas

Leia mais

Ralph S. Silva

Ralph S. Silva ANÁLISE ESTATÍSTICA MULTIVARIADA Ralph S. Silva http://www.im.ufrj.br/ralph/multivariada.html Departamento de Métodos Estatísticos Instituto de Matemática Universidade Federal do Rio de Janeiro Sumário

Leia mais

Capítulo 11 Análise da Variância. Statistics for Managers Using Microsoft Excel, 5e 2008 Prentice-Hall, Inc. Chap 11-1

Capítulo 11 Análise da Variância. Statistics for Managers Using Microsoft Excel, 5e 2008 Prentice-Hall, Inc. Chap 11-1 Capítulo 11 Análise da Variância Statistics for Managers Using Microsoft Excel, 5e 2008 Prentice-Hall, Inc. Chap 11-1 Objetivos do Aprendizado Neste capítulo você aprenderá: Os conceitos básicos da modelagem

Leia mais

TESTES NÃO-PARAMÉTRICOS

TESTES NÃO-PARAMÉTRICOS Les-0773: ESTATÍSTICA APLICADA III TESTES NÃO-PARAMÉTRICOS AULA 3 26/05/17 Prof a Lilian M. Lima Cunha Maio de 2017 Revisão... Teste dos Sinais A Comparar valores de medianas de uma amostra com um valor

Leia mais

Modelo de Regressão Múltipla

Modelo de Regressão Múltipla Modelo de Regressão Múltipla Modelo de Regressão Linear Simples Última aula: Y = α + βx + i i ε i Y é a variável resposta; X é a variável independente; ε representa o erro. 2 Modelo Clássico de Regressão

Leia mais

Testes de hipóteses. Wagner H. Bonat Fernando P. Mayer Elias T. Krainski

Testes de hipóteses. Wagner H. Bonat Fernando P. Mayer Elias T. Krainski Testes de hipóteses Wagner H. Bonat Fernando P. Mayer Elias T. Krainski Universidade Federal do Paraná Departamento de Estatística Laboratório de Estatística e Geoinformação 07/06/2018 WB, FM, EK ( LEG/DEST/UFPR

Leia mais

AULA 07 Inferência a Partir de Duas Amostras

AULA 07 Inferência a Partir de Duas Amostras 1 AULA 07 Inferência a Partir de Duas Amostras Ernesto F. L. Amaral 10 de setembro de 2012 Faculdade de Filosofia e Ciências Humanas (FAFICH) Universidade Federal de Minas Gerais (UFMG) Fonte: Triola,

Leia mais

Modelos de Regressão Linear Simples - parte III

Modelos de Regressão Linear Simples - parte III 1 Modelos de Regressão Linear Simples - parte III Erica Castilho Rodrigues 20 de Setembro de 2016 2 3 4 A variável X é um bom preditor da resposta Y? Quanto da variação da variável resposta é explicada

Leia mais

Estatística Aplicada à Administração II. Tópico. Análise de Componentes Principais

Estatística Aplicada à Administração II. Tópico. Análise de Componentes Principais Estatística Aplicada à Administração II Tópico Análise de Componentes Principais Bibliografia: R.A. Johnson, Applied Multivariate Statistical Analysis, Prentice Hall, 99 Análise de Componentes Principais

Leia mais

VERIFICAÇÃO DA ADEQUAÇÃO DO MODELO DE ANÁLISE DE VARIÂNCIA ANÁLISE DE RESÍDUOS

VERIFICAÇÃO DA ADEQUAÇÃO DO MODELO DE ANÁLISE DE VARIÂNCIA ANÁLISE DE RESÍDUOS VERIFICAÇÃO DA ADEQUAÇÃO DO MODELO DE ANÁLISE DE VARIÂNCIA ANÁLISE DE RESÍDUOS Conforme foi apresentado anteriormente, o modelo de análise de variância assume que as observações são independentes e normalmente

Leia mais

Professora: Cira Souza Pitombo. Disciplina: Aplicações de técnicas de análise de dados

Professora: Cira Souza Pitombo. Disciplina: Aplicações de técnicas de análise de dados UNIVERSIDADE FEDERAL DA BAHIA ESCOLA POLITÉCNICA MESTRADO EM ENGENHARIA AMBIENTAL E URBANA Apresentação do Curso Introdução Professora: Cira Souza Pitombo Disciplina: Aplicações de técnicas de análise

Leia mais

EXPERIMENTAÇÃO ZOOTÉCNICA. Profa. Dra. Amanda Liz Pacífico Manfrim Perticarrari

EXPERIMENTAÇÃO ZOOTÉCNICA. Profa. Dra. Amanda Liz Pacífico Manfrim Perticarrari EXPERIMENTAÇÃO ZOOTÉCNICA Profa. Dra. Amanda Liz Pacífico Manfrim Perticarrari amanda@fcav.unesp.br Caracterização o O delineamento inteiramente casualizado (DIC) é o mais simples de todos os delineamentos

Leia mais

Função prcomp. 1. Introdução

Função prcomp. 1. Introdução Função prcomp 1. Introdução Apresentamos alguns exemplos de utilização da função prcomp do pacote stats em R. Esta função permite realizar uma análise de componentes principais a partir de uma matriz de

Leia mais