Fernanda Navarro Song
|
|
- Artur Belo
- 4 Há anos
- Visualizações:
Transcrição
1 UNIVERSIDADE ESTADUAL PAULISTA JÚLIO DE MESQUITA FILHO INSTITUTO DE BIOCIÊNCIAS - RIO CLARO CIÊNCIAS BIOLÓGICAS Fernanda Navarro Song Técnicas de análise multivariada com aplicações a dados de natureza biológica Rio Claro 2013
2 Fernanda Navarro Song Técnicas de análise multivariada com aplicações a dados de natureza biológica Orientador: José Silvio Govone Trabalho de Conclusão de Curso apresentado ao Instituto de Biociências da Universidade Estadual Paulista Júlio de Mesquita Filho - Câmpus de Rio Claro, para obtenção do grau de Bacharela em Ciências Biológicas. Rio Claro 2013
3 S698t Song, Fernanda Navarro Técnicas de análise multivariada com aplicações a dados de natureza biológica / Fernanda Navarro Song. - Rio Claro, f. : il., figs., gráfs., tabs. Trabalho de conclusão de curso (bacharelado - Ciências Biológicas) - Universidade Estadual Paulista, Instituto de Biociências de Rio Claro Orientador: José Silvio Govone 1. Análise multivariada. 2. Componentes principais. 3. Manova. 4. Correlações canônicas. 5. Análise de correspondência. 6. Análise fatorial. I. Título. Ficha Catalográfica elaborada pela STATI - Biblioteca da UNESP Campus de Rio Claro/SP
4 Dedicatória A minha família, que nos momentos de minha ausência dedicados ao estudo superior, sempre fizeram entender que o futuro é feito a partir da constante dedicação no presente.
5 - 4 - Agradecimentos Agradeço primeiramente a Deus pela minha vida, saúde e por ter colocado pessoas maravilhosas nela. Um agradecimento especial à minha mãe, por todo apoio e amor que me deu desde sempre e continua dando. Também ao meu pai, que nessas minhas indecisões da vida sempre me incentivou continuar. Agradeço ao Evandro por me ajudar sempre que possível e pelas caronas sempre muito úteis. Ao Joaquim, que além de meu namorado é meu amigo, me ajudando mais do que o imaginável, sempre me cobrando e incentivando a fazer o que precisava. Obrigada pela paciência e amor. Ao meu orientador, Silvio Govone, que acreditou em mim mais do que eu mesma. Agradeço pelo conhecimento transmitido, pela demasiada paciência e pela compreensão. Às minhas queridas companheiras e amigas da República Moitinha! Andréia, Beatriz e Flávia, sou grata por dividir desse teto e paredes verdes com vocês! Gosto muito de vocês, do jeito de cada uma e das nossas ideias para o fundo que ainda não conseguimos concretizar. Às minhas ex-companheiras de casa, Lívia e Gabriela, agradeço pelo tempo que passamos juntas e pela amizade que continuou independente de qualquer coisa! Agradeço também à Júlia, que apesar de não morar na mesma casa que eu, compartilhou de muitas histórias e conquistas! Podem ter certeza que vocês nunca serão esquecidas por mim! CBI10! Nunca vou esquecer desses quatro anos com todos vocês! Muito obrigada pelos churrascos, festinhas juninas, gordices em geral sempre! A sala mito vai perpetuar na Unesp e, é claro, no meu coração! Não poderia esquecer da CF13, que nesse último ano fez minhas segundas e quintas-feiras muito mais cansativas e felizes! Estou tão acostumada com essa rotina que será muito estranho quando terminar, mas saibam que todos marcaram a minha vida e que nunca esquecerei desse ano por causa de cada um
6 - 5 - de vocês! Aprendi, degustei, ri, gargalhei, vendi, tive ataque de nervos, dancei, aproveitei e até conheci o amor! Muito obrigada por tudo mesmo! Mesmo longe, a amizade de verdade continua. Cristina, Mariana, Débora, Nívea e Otávio, não passamos mais o dia-a-dia juntas, mas o apoio de longe e nossos escassos encontros me fortaleceram e ainda fortalecem todos os dias! Amo muito vocês! Ao PRO-CDA, principalmente à Angelica, que além de me ajudar em outro projeto, me forneceu dados para que eu compreendesse mais a técnica a ser utilizada.
7 - 6 - RESUMO A análise estatística multivariada, extensão da análise univariada, consiste num conjunto de técnicas estatísticas, aplicadas quando há diversas variáveis relacionadas simultaneamente, sendo todas elas, em princípio, consideradas importantes no fenômeno em estudo. É de grande aplicação a conjuntos de dados das mais diversas áreas do conhecimento, principalmente da área biológica. Seu desenvolvimento teve um grande impulso na primeira metade do século passado. Entretanto, devido a complexidade dos cálculos matemáticos, principalmente envolvendo operações com matrizes de altas ordens, as aplicações somente se popularizaram nos dias atuais, com o desenvolvimento dos computadores e aplicativos computacionais. Técnicas estudadas: distâncias multivariadas, componentes principais, análise fatorial, correlações canônicas, análise de correspondência, teste t² de Hotelling, análise de variância multivariada (Manova), teste de normalidade multivariada, igualdade de matrizes de variâncias e covariâncias para populações multinormais. Palavras-Chave: análise multivariada, componentes principais, manova, correlações canônicas, análise de correspondência, análise fatorial.
8 - 7 - SUMÁRIO 1 INTRODUÇÃO EXEMPLOS DE DADOS MULTIVAIADOS REPRESENTAÇÃO DE DADOS MULTIVARIADOS DISTÂNCIAS MULTIVARIADAS TESTES DE IGUALDADE DE MATRIZES E DE VARIÂNCIAS E COVARIÂNCIAS PARA POPULAÇÕES MULTINORMAIS TESTES DE SIGNIFICÂNCIA COM DADOS MULTIVARIADOS Lambda de Wilks Maior raiz de Roy Traço de Pillai Traço de Lawley-Hotelling UM MÉTODO PARA SE VERIFICAR A NORMALIDADE MULTIVARIADA ANÁLISE DE CORRELAÇÕES CANÔNICAS ANÁLISE DE CORRESPONDÊNCIA COMPONENTES PRINCIPAIS ANÁLISE FATORIAL CONCLUSÃO REFERÊNCIAS BIBLIOGRÁFICAS... 65
9 INTRODUÇÃO Os métodos estatísticos utilizados em análises de problemas práticos são, na maioria, univariados, tratando somente da análise de uma única variável aleatória. A maior facilidade no emprego destes métodos permite com que sejam mais conhecidos e mais utilizados por profissionais das diversas áreas, que necessitam de análises estatísticas em seus dados. A análise estatística multivariada, extensão da análise univariada, consiste num conjunto de técnicas estatísticas, aplicadas quando há diversas variáveis relacionadas simultaneamente, sendo todas elas, em princípio, consideradas importantes no fenômeno em estudo. Seu desenvolvimento teve um grande impulso na primeira metade do século passado. Entretanto, devido a complexidade dos cálculos matemáticos, principalmente envolvendo operações com matrizes de altas ordens, as aplicações somente se popularizaram nos dias atuais, com o desenvolvimento dos computadores e aplicativos computacionais. Tais métodos são utilizados na análise de dados em que há observações de várias variáveis correlacionadas entre si. Estes tipos de dados são muito comuns na área de ciências biológicas, abrangendo biologia, ecologia, ciências da saúde e ciências agronômicas. Basicamente a análise multivariada procura responder as seguintes questões (Manly, 2005): a) como as p variáveis se relacionam dentro de cada grupo? b) os grupos diferem significativamente quanto aos valores médios das variáveis? c) os grupos mostram quantidades similares de variação para as variáveis? d) caso os grupos sejam diferentes em termos de distribuições das variáveis, é possível construir alguma função destas variáveis que separe os dois grupos? Para procurar respostas às questões acima, várias técnicas foram desenvolvidas, sendo úteis a cada um dos objetivos propostos (Manly, 2005). No decorrer do trabalho serão explicadas estas técnicas.
10 - 9-2 EXEMPLOS DE DADOS MULTIVARIADOS Algumas aplicações de métodos multivariados foram estudadas, sendo elas, em sua maioria, relacionadas com a área de Ciências Biológicas. Em todos os casos fica claro que todas as variáveis são não-independentes umas das outras. Uma das aplicações (Manly, 2008) é referente a uma tempestade que ocorreu em 1º de Fevereiro de 1898, em Rhode Island (EUA), onde diversos pardais ficaram moribundos e metade desses morreu. Com esse fato, coletaram-se dados (tabela 1) para tentar encontrar suporte para a teoria de seleção natural de Charles Darwin. Tabela 1 Medidas do corpo de pardocas (Manly, 2008) Pássaro X1 (mm) X2 (mm) X3 (mm) X4 (mm) X5 (mm) ,6 18,5 20, ,4 17,9 19, ,0 18,4 20, ,9 17,7 20, ,5 18,6 20, ,0 19,0 20, ,9 18,4 20, ,8 18,6 21, ,7 19,1 21, ,0 18,8 22, ,3 18,6 22, ,1 18,6 20,5
11 Tabela 1 Medidas do corpo de pardocas (continuação) (Manly, 2008) Pássaro X1 (mm) X2 (mm) X3 (mm) X4 (mm) X5 (mm) ,3 19,3 21, ,0 19,1 20, ,5 18,1 19, ,9 18,0 20, ,4 18,5 21, ,5 18,2 20, ,3 18,5 20, ,5 18,6 21, ,5 18,0 21, ,4 18,0 20, ,5 18,2 20, ,6 18,8 21, ,3 17,2 19, ,7 18,8 22, ,0 18,5 20, ,2 19,5 21, ,1 19,8 22, ,1 17,3 19, ,3 18,0 23, ,6 18,8 21, ,8 18,5 21, ,9 18,1 19, ,9 18,5 21, ,9 19,1 22, ,4 17,3 18, ,8 18,2 20,5
12 Tabela 1 Medidas do corpo de pardocas (continuação) (Manly, 2008) Pássaro X1 (mm) X2 (mm) X3 (mm) X4 (mm) X5 (mm) ,2 17,9 19, ,4 19,5 22, ,0 18,1 20, ,7 18,2 20, ,5 18,4 20, ,1 19,1 20, ,7 17,7 19, ,9 19,1 20, ,6 18,6 20, ,5 18,5 21, ,3 18,8 20,9 Nota: X1 = comprimento total; X2 = extensão alar; X3 = comprimento do bico e cabeça; X4 = comprimento do úmero; X5 = comprimento da quilha do esterno. Pássaros de 1 a 21 sobreviveram, pássaros de 22 a 49 morreram. Fonte: Adaptado de Bumpus, H.C. (1898), Biological Lectures, 11th Lecture, Marine Biology Laboratory, Woods Hole, MA, PP (Manly, 2008) Como conclusão da aplicação de técnicas multivariadas, tem se que: Os pássaros que morreram, morreram não por acidente, mas porque eles eram fisicamente desqualificados ; Os pássaros que sobreviveram, sobreviveram porque eles possuíam certas características físicas ; O processo de eliminação seletiva é mais severo com indivíduos extremamente variáveis, não importando em qual direção a variação possa ocorrer. Um segundo exemplo é o dos cães pré-históricos da Tailândia (Manly, 2008), os quais não possuem uma datação certa de origem, podendo descender tanto dos chacais dourados (Canis aureus) quanto dos lobos (este último não é nativo da
13 Tailândia, podendo ser o Canis lupus chanco, da China, ou o Canis lupus pallides, do subcontinente indiano). Para tentar esclarecer os ancestrais dos cães pré-históricos, foram feitas medidas da mandíbula dos espécimes disponíveis para comparar com outras espécies (tabela 2). Tabela 2 Médias de medidas de mandíbulas para sete grupos caninos (Manly, 2008) Grupo X1 (mm) X2 (mm) X3 (mm) X4 (mm) X5 (mm) X6 (mm) Cão moderno 9,7 21,0 19,4 7,7 32,0 36,5 Chacal dourado 8,1 16,7 18,3 7,0 30,3 32,9 Lobo chinês 13,5 27,3 26,8 10,6 41,9 48,1 Lobo indiano 11,5 24,3 24,5 9,3 40,0 44,6 Cuon 10,7 23,5 21,4 8,5 28,8 37,6 Dingo 9,6 22,6 21,1 8,3 34,4 43,1 Cão pré-histórico 10,3 22,1 19,1 8,1 32,2 35,0 Nota: X1 = largura da mandíbula; X2 = altura da mandíbula abaixo do primeiro molar; X3 = comprimento do primeiro molar; X4 = largura do primeiro molar; X5 = comprimento do primeiro ao terceiro molar, inclusive; X6 = comprimento do primeiro ao quarto molar, inclusive. Fonte: Adaptado de Higham, C.F.W. ET al. (1980), J. Archaeological Sci., 7, (Manly, 2008) Nesse primeiro momento foram apresentados brevemente alguns métodos multivariados que serão vistos mais detalhadamente nos próximos capítulos: análise de componentes principais; análise de fatores; análise de função discriminante; análise de agrupamento; correlação canônica; escalonamento multidimensional; análise de coordenadas principais; análise de correspondência. É ressaltada a importância do conhecimento em álgebra matricial para o estudo de métodos multivariados. Portanto, alguns conceitos básicos dessa área, como operações com matrizes e inversão matricial também foram estudados, assim como alguns conceitos como traço de uma matriz, determinante, autovalor e autovetor.
14 REPRESENTAÇÃO DE DADOS MULTIVARIADOS A representação gráfica dos dados multivariados pode ser problemática visto que consegue ser apresentada em até três dimensões. Para solucionar esse problema, várias soluções foram propostas e discutidas. Podem-se utilizar variáveis índices para reduzir o problema de representar muitas variáveis para duas ou três dimensões, mas, nesse caso, alguma diferença-chave pode ser perdida nessa redução. Outra saída é a representação de draftsman, em que são feitos vários gráficos bidimensionais comparando os valores de cada uma das variáveis com todas as outras. Na imagem 1 temos o exemplo das pardocas (bolinhas pretas são os sobreviventes e bolinhas brancas representam os não sobreviventes). No entanto, essa técnica tem a desvantagem de não mostrar aspectos dos dados que somente seriam aparentes quando três ou mais variáveis são consideradas em conjunto. Imagem 1 Representação de draftsman do número de pássaros e cinco variáveis medidas (em milímetros) em 49 pardocas. As variáveis são o comprimento total, a extensão alar, o comprimento do bico e cabeça e o comprimento da quilha do esterno (sobrevivente, não sobrevivente). Somente os valores extremos são mostrados em cada escala. (Manly, 2008)
15 Na representação de pontos de dados individuais, as variáveis são medidas por um símbolo, os quais variam de acordo com elas. No exemplo citado dos cães pré-históricos da Tailândia, podemos obter as seguintes representações gráficas (imagem 2), onde visivelmente notamos a maior semelhança com o cão moderno e maior diferença com o lobo chinês. A desvantagem dessa técnica está na impressão que se capta do gráfico, que pode depender da ordem na qual os objetos são apresentados e da ordem na qual as variáveis são atribuídas aos diferentes aspectos do símbolo, além da dificuldade em se encontrar programas computacionais para produzir os gráficos. Também podemos fazer essa representação gráfica através de linhas e colunas (perfis de variáveis). Imagem 2 Representação gráfica de medidas da mandíbula em diferentes grupos caninos usando (a) faces de Chernoff e (b) estrelas. Nota: X1 = largura da mandíbula; X2 = altura da mandíbula abaixo do primeiro molar; X3 = comprimento do primeiro molar; X4 = largura do primeiro molar; X5 = comprimento do primeiro ao terceiro molar, inclusive; X6 = comprimento do primeiro ao quarto molar, inclusive. (Manly, 2008)
16 DISTÂNCIAS MULTIVARIADAS É utilizado o conceito de distância, em que quanto mais similaridade entre as amostras, mais próximas elas estão entre si. Para observações individuais, consideremos dois objetos (i e j) e duas variáveis (X1 e X2), apenas. Fazendo a representação gráfica (imagem 3), conseguimos obter a distância Euclidiana entre os dois objetos (dij) através da equação de Pitágoras: d =x x +x x / Imagem 3 A distância Euclidiana entre objetos i e j com p=2 variáveis. (Manly, 2008) Com p=3 variáveis (X1, X2 e X3), os valores podem ser tomados como as coordenadas no espaço para marcar as posições dos indivíduos i e j (imagem 4). O teorema de Pitágoras então fornece a distância entre os dois pontos como sendo d =x x +x x +x x /
17 Imagem 4 A distância Euclidiana entre objetos i e j com p=3 variáveis. (Manly, 2008) Com mais do que três variáveis, não é possível usar valores das variáveis como as coordenadas para marcar pontos fisicamente. Entretanto, os casos de duas e três variáveis sugerem que a distância Euclidiana generalizada d =x x pode servir como uma medida satisfatória para muitos propósitos com p variáveis. Com esta equação, se uma das variáveis for muito maior, em magnitude de seus valores, que a outra, a menor terá influência desprezível nos cálculos, o que não é desejável. Para que isso não ocorra, pode-se realizar um escalonamento preliminar dividindo cada variável pelo seu desvio padrão para os n indivíduos a serem comparados.
18 TESTE DE IGUALDADE DE MATRIZES DE VARIÂNCIAS E COVARIÂNCIAS PARA POPULAÇÕES MULTINORMAIS É um teste semelhante ao teste de Bartlett para o caso univariado. A suposição básica para a aplicação deste teste é a multinormalidade. Sejam m populações cada com p variáveis, com matrizes de variâncias e covariâncias desconhecidas, sendo a matriz da i-ésima população, i=1,2,...,m. Hipóteses: H0: 1 = 2=... = Ha:, para alguns i, j; i j; i, j = 1, 2,..., m. Sejam a estimativa da matriz de variâncias e covariâncias de, baseada numa amostra de tamanho da i-ésima população, i = 1, 2,..., m, e C = ( ) ( ) a média das matrizes de variância e covariância. A estatística é M = (n 1) ln c - (n 1) ln C em que. representa o determinante da matriz. Aplica-se o fator de correção: Cor = 1 - ² ()() com ()() A estatística MC tende, quando n cresce, para a distribuição quiquadrado graus de liberdade.
19 Aceita-se H0, ao nível de probabilidade, se MCor < Χ² tabelado. Caso contrário, rejeita-se H0. Ex.: (Morrison, 1967). Grupos de 32 jovens do sexo masculino e 32 do sexo feminino foram analisados quanto ao tempo de reação a um estímulo visual. Dados amostrais: p = 2 variáveis (0,5s e 15s) n = n = 32 m = 2 grupos (masc. e fem.) 4,32 1,88 C = 1,88 9,18, C 2,52 1,90 1,89 =, C=3,42 1,90 10,06 1,89 9,62 Variância dos 32 valores do masculino ao estímulo 0,5s Hipóteses: H0: masc = fem Ha: masc fem M = ( ) ln(29,328) 31(ln 36,123 + ln 21,741) = 2,82 Cor =1 2x2 +3x2 1 6(2 +1)(2 1) =0, MCor = 2,72 Χ² = ² () ; 5% = P²,% = 7,81 > MCor Aceitamos a hipótese de igualdade entre as matrizes de variância e covariância das populações masculina e feminina. 6 - TESTES DE SIGNIFICÂNCIA COM DADOS MULTIVARIADOS As referências básicas de estudo, neste capítulo, foram Manly (2008) e Mingoti (2005).
20 Primeiramente estudou-se uma revisão sobre testes de significância no caso univariado, em condições de normalidade e não normalidade. Depois dessa breve introdução, inseriu-se o caso multivariado para esses testes de significância. É possível empregar os testes para cada uma das variáveis, podendo-se analisar se há e quais delas têm valores médios diferentes. No entanto, pode ser interessante saber se todas as variáveis consideradas juntas sugerem alguma diferença também e, para isso, é necessária a aplicação de um teste multivariado. A MANOVA (Análise de Variância Multivariada, do inglês Multivariate Analysis of Variance) consiste em uma generalização de análise de variância univariada (ANOVA), para o caso de comparação de m grupos, em que há p variáveis medidas na mesma unidade experimental, ou p medidas no tempo, referentes à mesma unidade experimental. Vantagens do emprego da MANOVA: controla a probabilidade α de erro tipo I, pois um único teste é realizado ao invés de m testes simultâneos; considera a correlação entre as variáveis, o que não acontece com a ANOVA, em que cada variável é analisada separadamente. Quanto mais fortemente forem correlacionadas entre si as variáveis, mais indicada será a MANOVA. No caso de baixas correlações, a ANOVA tende a ser mais recomendada. Sejam m grupos com médias µ1, µ2,..., µm desconhecidas. Hipóteses: H0: µ1 = µ2 =... = µm Ha: µi µj, para alguns i, j = 1, 2,..., m, i j, µ1i µ2i onde µi =... µpi
21 Quando m = 2, uma possibilidade a ser utilizada, além da MANOVA, é o teste T 2 de Hotelling, uma variação (o quadrado) do teste t de Student da análise univariada, o qual pode ser definido como: Sendo: n1 = número total de valores do grupo 1 n2 = número total de valores do grupo 2 x1 = vetor de médias amostrais do grupo 1 x2 = vetor de médias amostrais do grupo 2 T =n n (x x ) C (x x )/(n n ) (x1-x2) = vetor transposto da subtração dos vetores de médias C -1 = inversa da matriz de covariâncias amostrais combinadas Ao encontrar o valor T 2, ele poderá ser significantemente grande, evidenciando que os dois vetores de médias populacionais são diferentes, ou significantemente pequeno ou nulo, apresentando semelhanças entre os vetores. Para testar a hipótese nula de que a média das duas amostras é igual, é necessário transformar o número na estatística: F = (n1+n2-p-1)t 2 /{(n1+n2-2)p}, em que p = número de variáveis, e compará-lo com o valor tabelado (tabela F). tabelado. Rejeitamos a hipótese de igualdade de médias entre os grupos, se F > F Uma aplicação feita com a estatística T² de Hotelling foi comparando grupos de idosos preservados e idosos com Doença de Alzheimer (DA) do grupo PRO-CDA (Programa de Cinesioterapia Funcional e Cognitiva em Idosos com Doença de Alzheimer), na UNESP Rio Claro. Foram avaliados 30 idosos (12 com DA e 18 preservados), registrando-se as medidas antropométricas: peso (kg), altura (cm), IMC (índice de massa corporal),
22 circunferência da cintura (cm), circunferência do quadril (cm) e RCQ (razão circunferência quadril). Tabela 3 Dados antropométricos de idosos com Doença de Alzheimer Idosos Peso (kg) Altura (cm) IMC CC (cm) CQ (cm) RCQ 1 55,6 1,55 23, , ,52 26, , ,2 1,62 27, , ,65 31, , ,57 27, , ,1 1,59 28,12 90,5 117,5 0, ,5 1,46 31, , ,5 1,58 24, , ,1 1,69 28, , ,6 1,5 23, , ,9 1,46 28, , ,2 1,61 24, ,80 Tabela 4 Dados antropométricos de idosos saudáveis Idosos Peso (kg) Altura (cm) IMC CC (cm) CQ (cm) RCQ 1 64,2 1,57 26, , ,58 20, , ,8 1,46 21, , ,5 1,45 26, , ,3 1,68 24, , ,5 1,73 27, , ,8 1,65 22, , ,9 1,66 30, , ,6 38, , ,1 1,52 17, , ,7 1,62 26, , ,4 1,55 28, , ,3 1,47 26, , ,55 31, , ,7 1,56 33, ,91
23 Tabela 4 Dados antropométricos de idosos saudáveis (continuação) Idosos Peso (kg) Altura (cm) IMC CC (cm) CQ (cm) RCQ 16 62,5 1,44 30, , ,3 1,57 28, , ,1 1,45 25, ,88 Pelo fato de o IMC e a RCQ serem variáveis obtidas a partir das outras quatro variáveis, optou-se por utilizar apenas as quatro fundamentais: peso, altura, circunferência da cintura e circunferência do quadril. de idosos: Calculamos as médias destas quatro variáveis para cada um dos grupos Tabela 5 Médias das variáveis dos dois grupos Peso Altura CC CQ Média idosos com DA 66,8083 1, , ,7917 Média idosos saudáveis 66,0611 1, , ,3889 Logo, (x1-x2) = 66,81 66,06 1,57 1,56 91,46 95,11 103,79 104,39 e (x1-x2) = (66,81 66,06 1,57 1,56 91,45 95,11 103,79 104,39) Para calcular a matriz C, é necessário calcular antes a variância (A) de cada variável em cada um dos grupos e a covariância (B) entre eles: (A) s = X X Y Y /n 1 onde: (B) COVAR = X X Y Y /n 1 s² = variância
24 n = número de variáveis X = valor da variável do grupo de idosos com DA X = média das variáveis do grupo de idosos com DA Y = valor da variável do grupo de idosos saudáveis Y = média das variáveis do grupo de idosos saudáveis Os resultados estão na tabela 6: Tabela 6 Variância das variáveis dos dois grupos Peso Altura CC CQ Variância idosos com DA 96,5172 0, , ,5208 Variância idosos saudáveis 217,8378 0, , ,0163 Com estes valores podemos montar a matriz C1 do grupo de idosos com Doença de Alzheimer da seguinte forma: = 96,51 0, ,61 40,52 96,51 â â = 0, ,61 40,52 96,51 0,47 â = 0,47 0,0052 â 81,61 40,52
25 de idosos saudáveis ,51 0,47 70,3 34,86 0,47 0,0052 0,24 0,11 C = 70,3 0,24 81,61 29,3 34,86 0,11 29,3 40,52 Segue-se o mesmo procedimento para montar a matriz C2 para o grupo Tendo as duas matrizes (C1 e C2) é possível obter a matriz geral (média) C de variâncias e covariâncias das variáveis: C= [(n 1)C + (n 1)C ] (n +n 2) Calcula-se a inversa da matriz C, C -1, e calcula-se os valores na fórmula inicial do T². Realizando os cálculos obtém-se o valor de 4,64. Com este valor encontrado, calcula-se a estatística F a partir da fórmula apresentada anteriormente, obtendo-se o valor 1,03. O valor Ftabelado vem da tabela F-Snedecor. No exemplo apresentado procura-se a coluna 4 (número de variáveis) e linha 25 ( ), onde encontrase o valor Ftab = 2,76. F < Ftabelado, portanto aceitamos a igualdade das médias dos dois grupos, ou seja, não há relação aparente entre as medidas antropométricas e a Doença de Alzheimer. Um ponto interessante é a observação de que podem ocorrer diferentes resultados em uma análise quando se considera individualmente as variáveis e quando elas são vistas em conjunto. Nesse caso, podem ocorrer testes univariados não significantes e testes multivariados significantes e vice - versa.
26 Nesse aspecto, a utilização de um teste multivariado se destaca aos vários univariados no controle da probabilidade α do erro tipo I, em que a probabilidade de rejeitar incorretamente a hipótese nula é menor. Há como controlar a probabilidade total de um erro tipo I quando vários testes univariados são aplicados. Porém, há quem prefira utilizar o teste multivariado, que também tem a vantagem de levar em conta apropriadamente a correlação entre as variáveis. Para uma única variável, o método para comparação da variabilidade entre duas amostras é o teste F (situação de normalidade) ou o teste de Levene (situação de não normalidade). Já no caso multivariado, em uma situação de normalidade, é utilizado o teste M de Box e, em uma situação de não normalidade, pode-se utilizar o teste de Van Valen. Em algumas situações pode ocorrer um resultado não significante para o teste de Levene e um resultado significante para o teste de Van Valen, por exemplo. Isso é devido ao fato de o teste de Levene não ser direcional e também não levar em consideração a expectativa de um grupo ser menos variável que outro, o que não acontece com o teste de Van Valen, que é específico para quando há essa diferença de variação entre as amostras, enfatizando esse fato. Quanto à MANOVA, temos quatro estatísticas alternativas usadas para testar a hipótese de que todas as amostras vêm de populações com o mesmo vetor médio Lambda de Wilks: Ʌ = W / T, em que: W = determinante da matriz das somas de quadrados e produtos cruzados dentro da amostra; cruzados. T = determinante da matriz das somas totais de quadrados e produtos Se Ʌ for pequeno, a variação dentro das amostras é baixa em comparação com a variação total. Isso quer dizer que as amostras não vêm de populações com o mesmo vetor de médias.
27 Maior raiz de Roy: λ1 (alguns aplicativos computacionais usam a expressão: λ1/(1- λ1)). A base para este teste é que se a combinação linear das variáveis de X1 à Xp que maximiza a razão entre a soma dos quadrados entre amostras e a soma dos quadrados dentro das amostras é encontrada, então essa razão máxima é igual a ao autovalor λ1. Portanto, o autovalor máximo λ1 pode ser uma boa estatística para testar se a variação entre amostras é significantemente grande, e que há, portanto, evidência de que as amostras sendo consideradas não vêm de populações com o mesmo vetor médio. O valor λ1 é comparado com um valor tabelado da tabela F. Rejeitamos a igualdade para valores grandes de λ Traço de Pillai: V= λ /(1 + λ ), onde os λi são autovalores obtidos, i=1,2,...,p. Temos novamente que valores grandes de V fornecem evidências de que as amostras consideradas vêm de populações com vetores médias diferentes Traço de Lawley-Hotelling: U= λ Essa estatística é apenas a soma dos autovalores da matriz W -1 B, onde grandes valores fornecem evidência contra a hipótese nula de igualdade. Observação: W = matriz das somas de quadrados e produtos cruzados dentro da amostra; B = T-W;
28 T = matriz das somas totais de quadrados e produtos cruzados. A tabela 7 fornece as estatísticas de comparação com os valores tabelados da tabela F-Snedecor, dos quatro testes analisados. Tabela 7 Estatísticas de testes usadas para comparar vetores médias amostrais com testes F aproximados para evidência de que valores populacionais não são constantes (Manly, 2008) Teste Estatística F gl1 gl2 Comentário Lambda de Wilks Ʌ 1 Ʌ Ʌ gl p(m 1) wt gl gl 2 +1 w=n 1 p+m 2 gl 4 t= {p + (m 1) 5} Se gl =2, faça t =1 Maior raiz de Roy λ 1 gl gl λ d n m d 1 O nível de significância obtido é um limite inferior d=max(p, m 1). Traço de Pillai V=λ /(1 + λ ) (n m p+s)v {d(s V)} sd s(n m p+s) s = min(p, m 1) = número de autovalores positivos d=max(p, m 1). Traço de Lawley- Hotelling U=λ gl U (s gl ) s(2a + s+1) 2(sB + 1) s é como no traço de Pillai ( m p 1 1) A = 2 B= (n m p 1) 2 Nota: Assume-se que há p variáveis em m amostras, com a j-ésima de tamanho nj, e um tamanho total da amostra de n = n. Estes são aproximações para p e m gerais. Aproximações melhores ou exatas são fornecidas para alguns casos especiais, e outras aproximações são também disponibilizadas. Em todos os casos, a estatística do teste é transformada para o valor F estabelecido, e este é testado para ver se ele é significantemente grande em comparação com a distribuição F com gl1 e gl2 graus de liberdade.
29 Os quatro testes mostram níveis de significância similares, geralmente, o que nos dá possibilidade de utilizar qualquer um deles quando se têm a suposição de que a distribuição das p variáveis é normal multivariada com a mesma matriz covariância dentro das amostras para todas as m populações das quais as amostras foram extraídas, além da independência entre os grupos. Tais testes são considerados robustos (isto é, podem ser aplicados mesmo se as suposições não se verificarem na totalidade dos grupos ou variáveis) se os tamanhos amostrais forem aproximadamente iguais para as m amostras. No entanto, se houver alguma questão sobre essa suposição, estudos sugerem que a estatística de Pillai possa ser mais eficiente. Altas correlações entre as variáveis sugerem maior confiança no teste de Pillai; baixas correlações sugerem escolher o teste de Roy. Apesar disso, os quatro testes costumam fornecer conclusões similares e nenhum deles pode ser considerado o melhor, em geral. Cada teste capta diferentes características das diferenças entre as médias. Caso falhe a normalidade multivariada, podem-se usar alguns testes não paramétricos (extensões do Kruskal-Wallis e do Friedman). Caso falhe a homogeneidade das matrizes de covariância, deve-se escolher o teste de Pillai. Na MANOVA, quando rejeita-se H0, há alguns procedimentos para se testar a diferença entre grupos. Pode-se executar a ANOVA univariada em cada uma das variáveis para testar a diferença entre médias em cada variável separadamente (seguida, se necessário, de testes de comparação múltiplos, como o de Tukey). Outra possibilidade é aplicar a teste T 2 de Hotelling dois a dois grupos. Para comparação da variação para várias amostras, sendo verificada a normalidade multivariada, utiliza-se o teste M de Box. A estatística M é dada pela equação onde: M = C ( )/ / C ()/
30 m = número de amostras; ni = tamanho da i-ésima amostra; n = n = número total de observações; Ci = covariância amostral para a i-ésima amostra; C = matriz de covariâncias combinada C = determinante da matriz Ci, C=(n 1)C /(n m) Valores altos de M fornecem evidência de que as amostras não provêm de populações com a mesma matriz de covariâncias. Para saber se um valor M observado é significativamente grande, é necessário um teste F, calculando F = 2b log (M) e encontrando a probabilidade de um valor desse tamanho ou maior para uma distribuição F com v1 e v2 graus de liberdade, em que v =p(p+1)(m 1)/2 v =(v +2)/(c c ) e em que e b=(1 c v /v )/v c = (2p +3p 1) 1 n 1 1/(n m) /{6(p + 1)(m 1)} c = (p 1)(p+2) 1 (n 1) 1 (n m) /{6(m 1)}
31 Essa aproximação da equação F somente é válida para c2 > c1². Se c2 < c1², então uma aproximação alternativa é usada, sendo o valor F calculado como sendo F={2b v log (M)}/{v +2b log (M)} em que b =(1 c 2/v )/v Esta estatística é testada contra a distribuição F com v1 e v2 gl. Uma razão F significante é evidência de que as amostras vêm de populações com desvios médios diferentes, isto é, populações com matrizes covariâncias diferentes. O teste de Box é sensível a não normalidade em algumas das variáveis. Caso esta situação ocorra, um teste alternativo, robusto a não normalidade, pode ser aplicado. O chamado teste de Levene, que consiste em calcular, para cada valor de cada variável, dentro de cada amostra, a diferença, em módulo, entre este valor e a mediana dos dados da correspondente variável naquela amostra. Após obtidas todas as diferenças, aplica-se qualquer um dos quatro testes: lambda de Wilks, maior raiz de Roy, traço de Pillai e traço de Lawley-Hotelling, como visto anteriormente, aos dados transformados, e um resultado significante indica que a matriz de covariâncias não é constante para as m populações amostradas. Os testes apresentados até o momento são encontrados com facilidade em aplicativos computacionais estatísticos. Como os testes são baseados em aproximações, os resultados de um programa podem se diferenciar de outro. Esse capítulo se restringiu a situações em que havia duas ou mais amostras multivariadas sendo comparadas para ver se elas pareciam vir de populações com vetores de médias diferentes ou de populações com matrizes de covariâncias diferentes.
32 UM MÉTODO PARA SE VERIFICAR A NORMALIDADE MULTIVARIADA Umas das suposições para a aplicação da MANOVA é a normalidade multivariada em todos os grupos. Uma ideia inicial para verificar a normalidade multivariada é testar a normalidade univariada em cada grupo, para cada uma das p variáveis. Um teste muito usado é o de Shapiro-Wilk. Entretanto o fato de todas as distribuições serem normais não necessariamente implica que o vetor aleatório tenha distribuição multivariada. Pode-se falar, apenas, que a chance deste fato acontecer é muito alta. Um teste muito simples para se verificar a normalidade multivariada quando o tamanho amostral n for relativamente grande é o teste quiquadrado, cujo procedimento segue. Sejam p variáveis de um grupo, em que se deseja testar a normalidade multivariada. Calcula-se a estatística d² = x x C x x, j = 1, 2,..., n, a qual tem aproximadamente uma distribuição quiquadrado com p graus de liberdade, onde: x : vetor que representa os valores observados das p variáveis no i-ésimo elemento amostral. x: é o vetor de médias amostrais. C : inversa da matriz de variâncias e covariâncias. O procedimento é, então, o seguinte: - Calcular as distâncias d² para todos os elementos da amostra e ordenar os mesmos em ordem crescente, de forma que d² () d² ()... d² (), em que d () (acertar) representa a i-ésima estatística de ordem.
33 Construir o gráfico dos pares d² () ; P² (j 1 2 )/n em que P² (j 1 2 )/n representa a ordenada do percentil de ordem 100 (j 1 2 )/n da distribuição quiquadrado com p graus de liberdade. Quando o gráfico for próximo de uma reta, há indicativo de normalidade. Caso se afaste da reta, indica não normalidade. Exemplo: Notas obtidas (de 0 a 25 pts) em 3 provas de 19 estudantes de uma disciplina. O vetor de médias e as matrizes de covariância e correlação são dadas, respectivamente, por: 19,721 8,47 8,01 7,22 1 0,757 0,857 x =20,263, C=8,01 13,23 8,87, R= 0, ,843 20,063 7,22 8,87 8,37 0,857 0,843 1 Nota-se altas correlações positivas entre as variáveis. Os valores originais, bem como os valores necessários para a construção do gráfico Q. Q. Plot são dados na tabela 8. Tabela 8 Teste normalidade multivariado Aluno X1 X2 X3 dj^2 1 17,2 16,7 15,8 2, , ,2 2, ,6 24,2 3, ,5 18 1, ,8 20,8 3, ,6 13,4 16,2 3, ,4 22,8 5, ,5 24,3 23,5 1, ,2 20,3 19,6 0, ,7 17,5 15,7 3, ,6 20,2 23,6 5, ,6 21,9 1, ,8 16,3 17,7 2, ,5 17,8 17,7 2, ,3 24,8 22,9 2, ,2 21,5 18,9 4, ,1 23,5 1,458594
34 Tabela 8 Teste normalidade multivariado (continuação) Aluno X1 X2 X3 dj^ ,7 18,9 20,6 4, ,6 23,3 20,7 1, Média 19, , ,06842 Desvio padrão 2, , , O gráfico Q. Q. Plot é apresentado na imagem 5 (Mingoti, 2005). Imagem 5 Gráfico Q. Q. Plot (Mingoti, 2005). A disposição dos pontos, em forma aproximada de uma reta, indica a não rejeição da suposição de normalidade multivariada. Há testes apropriados para verificar a normalidade multivariada, como os chamados testes de Jobson (1992). 8 ANALÍSE DE CORRELAÇÕES CANÔNICAS Descrita por Hoteling (1936), consiste em investigar relacionamentos entre dois conjuntos de variáveis.
35 O primeiro exemplo de Hoteling consistiu em uma amostra de 140 crianças, em que aplicou-se testes para velocidade de leitura (X1), potência de leitura (X2), velocidade aritmética (Y1) e potência aritmética (Y2). O interesse era verificar se habilidade de leitura (X1, X2) está relacionada com habilidade aritmética (Y1, Y2). Encontrou-se duas variáveis u e v, com maior correlação possível, das seguintes combinações lineares: u=a x +a x v=b x +b x Os valores encontrados para os coeficientes foram: a = 2,78; b = 2,44; a =2,27; b =1, que produziram uma correlação r = 0,62. u: mede a diferença entre potência e velocidade de leitura, v: idem, para aritmética. Percebe-se que crianças com grandes diferenças entre X1 e X2 tendem a ter grandes diferenças entre Y1 e Y2 (razoável correlação positiva). Correlação canônica consiste numa generalização da correlação múltipla, pois nesta última, apenas uma variável Y está associada a várias variáveis X, enquanto que, na correlação canônica, várias variáveis Y (duas ou mais) estão associadas a várias variáveis X (duas ou mais). Sejam p variáveis X1, X2,..., Xp e q variáveis Y1, Y2,..., Yq. Pode-se formar r relações lineares, em que r min (p, q): u =a x +a x + +a x u =a x +a x + +a x...
36 u =a x +a x + +a x v =b Y +b Y + +b Y... v =b Y +b Y + +b Y Estas correlações são escolhidas de forma que a correlação entre u1 e v1 seja máxima; a correlação entre u2 e v2 seja máxima, sujeito a estas variáveis não serem correlacionadas com u1 e v1; a correlação entre u3 e v3 seja máxima, sujeito a estas variáveis não serem correlacionadas com u1, v1, u2, v2; etc. Cada par (ui, vi) representa uma dimensão independente no relacionamento entre os dois conjuntos de variáveis. O primeiro par (u1, v1) tem a mais alta correlação possível, sendo o mais importante. O segundo par (u2, v2) tem a segunda correlação mais alta, e assim por diante. Assemelha-se a componentes principais, exceto que aqui, a correlação é maximizada, enquanto que, em componentes principais, a variância é maximizada. Procedimento de análise: Seja a matriz de correlação (p+q)x(p + q): Em que A é a matriz de variâncias e covariâncias das variáveis X; B é a matriz de variâncias e covariâncias das variáveis Y; C é a matriz de covariâncias entre as variáveis X e Y.
37 Calculamos (B -1 C A -1 C)qxq e os autovalores λ, considerando B -1 C A -1 C λi b = 0, em que I é a matriz identidade, de ordem pxq, e. refere-se ao determinante da matriz. Os autovalores são os quadrados das correlações entre as variáveis canônicas, e os correspondentes autovetores b1, b2,..., br fornecem os coeficientes das variáveis Y para as variáveis canônicas. Os coeficientes da i-ésima variável canônica (ui) para as variáveis X são dados pelo elemento a =A Cb Então, u =a X, v =b Y, onde a =a,a, a, b =b,b, b, X =x,x, x, Y =y,y, y. A suposição para a execução de tais cálculos é que X e Y estejam na forma padronizada (média zero e desvio padrão 1). As variáveis u e v têm variâncias que dependem da escala adotada para o autovetor bi. Entretanto, podemos obter uma variância canônica escalonada ui, com variância unitária (idem para vi). Basta calcular o desvio padrão de ui para os dados e dividir os valores de aij pelo desvio padrão. Barthett (1947) apresentou um teste aproximado para a significância das correlações entre u e v, como um todo. A suposição é que a distribuição das variáveis seja normal multivariada. Χ =n 1 2 (p+q+3)ln 1 λ n: tamanho amostral Χ²: tem distribuição quiquadrado com (pq) graus de liberdade.
38 Regra de decisão: Χ² > Χ²tab : pelo menos uma das r correlações canônicas é significante. Caso contrário, nenhuma das correlações é significante. O teste acima pode ser modificado para melhor aproximação quando o tamanho amostral for pequeno. Também, a contribuição de cada correlação canônica pode ser testada individualmente, porém o teste não é confiável (Bryan, M., 2005). 9 - ANÁLISE DE CORRESPONDÊNCIA Método complementar ao teste quiquadrado de independência, utilizado para verificar a relação entre linhas e colunas numa tabela de contingência, relacionando duas variáveis categóricas. Seja a tabela 9 em que ni,j representa a frequência absoluta da categoria i da variável X e categoria j da variável Y. Tabela 9 X b Totais 1 n11 n12... n1b n1. 2 n21 n22... n2b n A na1 na2... nab na. Totais n.1 n.2... n.b n
39 Exemplo: Resultado de uma análise de 257 famílias quanto ao número de filhos e a renda familiar. nº de filhos Renda ($) >2 Totais < > Totais Matriz de Correspondência: pi,j = ni,j/n P= Matriz perfil das linhas: Dl = ni./n 0,058 0,105 0,195 0,167 0,097 0,144 0,047 0,031 0,031 0,051 0,035 0,039 Matriz perfil das colunas: Dc = n.i/n D = 0, , ,156, D = 0, , , ,237 l =..., c =... Seja a matriz P =P lc
40 Esta matriz é do tipo p =..., ou seja, os termos representam uma comparação da proporção observada no inferior de cada casela da tabela, com aquela esperada supondo independência entre as variáveis X e Y. O posto (rank) da matriz P é dado por k = min(p 1,q 1). Tal matriz pode ser decomposta em seus autovalores e autovetores, chegando-se ao resultado: P =A B, em que A = D é uma matriz de dimensão pxk, B =D v é de dimensão qxk, u e v são ortogonais e é uma matriz de dimensão kxk contendo os autovalores da matriz P, ordenados em ordem decrescente. u contém os autovetores da matriz PP, e v, os autovetores de P P. Pela decomposição da matriz, as linhas de P podem ser escritas como combinações lineares das linhas de B e as colunas de P podem ser escritas como combinações lineares das colunas da matriz A. As coordenadas principais das linhas da matriz P são definidas como: Y =D A As coordenadas principais das colunas da matriz P são Z =D B Como consequência desta decomposição, P pode ser expressa como função dos autovalores e das coordenadas principais, isto é, P =P lc =λ a b, sendo a -> i-ésima coluna da matriz A, b -> i=ésima coluna da matriz B,
41 k = posto (P) = min(p-1,q-1) As duas primeiras coordenadas principais das linhas e das colunas, são as que mais representam a associação entre X e Y estando relacionadas aos maiores autovalores da matriz P. A variação total existente é chamada inércia total, e é dada por λ, sendo λ os autovalores não nulos da matriz, i=1,2,...k. A proporção explicada pela i-ésima coordenada principal é λ λ Mostra-se que λ =, sendo Eij = npij representando o número esperado de observações na casela(i,j), = supondo independência entre as variáveis: E =.. Voltando ao exemplo, através da decomposição espectral das matrizes, obtém as coordenadas principais de linhas e colunas (tabela 10), com o gráfico da sequência:
42 Tabela 10 Coordenadas principais Perfil das linhas Y1 Y2 (l1) <2000-0,351 0,014 (l2) ,543 0,021 (l3) > ,013-0,089 Perfil das colunas Z1 Z2 (c1) 0 0,463 0,006 (c2) 1 0,375-0,007 (c3) 2-0,366 0,051 (c4) >2-0,412 0,055
43 Analisando o gráfico, nota-se, pelas proximidades linhas-colunas, que: - famílias de renda menor de reais tendem a ter 2 ou mais filhos; - famílias de renda entre e reais tendem a ter 0 ou 1 filho; - famílias de mais de reais de renda não se associam quanto ao número de filhos. Um outro exemplo, Ramos et al. (2008), consiste em estudar possível associação entre dias da semana e horários de ocorrência de crimes em Belém, PA, ano de 2007, conforme noticiado pelos jornais. O resultado da análise é dado no gráfico seguinte. Mapa perceptual da análise de correspondência das variáveis turno versus dia da semana para os crimes publicados em jornais do município de Belém, no ano de 2007, ocorridos no Estado do Pará (Ramos et al. 2008).
44 Observa-se que as terças, quartas e quintas feiras, os crimes tendem a ocorrer no período de tarde; aos domingos e sextas feiras, à noite; aos sábados, à noite e na madrugada; às segundas feiras, as maiores ocorrências acontecem na madrugada e no período da manhã. 10 COMPONENTES PRINCIPAIS Técnica descrita por Pearson (1901), melhorada por Hotelling (1933) e utilizada amplamente após o advento dos computadores. Dadas p variáveis, X1, X2,..., Xp, o objetivo da análise é encontrar combinações e produzir índices Z1, Z2,..., Zp que sejam não correlacionados, que permitam descrever a variação dos dados, em que as variâncias possuem a seguinte relação: Var (Z1) Var (Z2)... Var (Zp) Os índices Z são as componentes principais. Tais componentes medem diferentes dimensões dos dados e as variâncias dos Zi tornam-se desprezíveis para valores altos de i, i = 1, 2,..., p. Assim, poucas variáveis Z (as de variâncias não desprezíveis) descrevem a maior parte da variação do conjunto e uma economia na dimensão das variáveis é obtida. Quanto mais correlacionadas forem as variáveis (positiva ou negativamente), melhores serão os resultados. Dadas as p variáveis X1, X2,..., Xp, seja a seguinte matriz de variâncias e covariâncias: Var (X ) Cov (X,X ) Cov (X,X ) Var (X ) Cov (X,X ) S= Var (X ) onde Var = Variância e Cov = Covariância.
45 As variâncias das componentes principais são os autovalores da matriz S. Existem p autovalores, alguns dos quais podem ser zero. Autovalores negativos não são possíveis para uma matriz de covariâncias. Sejam λ1 λ2... λp 0 os autovalores ordenados, sendo λ1 = Var (Zi) correspondente ao i-ésimo componente principal: Z =a X +a X + +a X Em que a, a,..., a são os elementos do correspondente autovetor, escalonado, de modo que a =1. Propriedade: λ = Var(X ) = traço da matriz Variáveis de diferentes magnitudes podem ter diferentes influências nas componentes principais. Para evitar este fato padroniza-se as variáveis X1, X2,..., Xp de forma a terem média zero e variância 1. Obtém-se a nova matriz, chamada matriz de correlação, sendo e a correlação entre X1 e Xj: 1 e e e= 1 e e =1 O traço da matriz é igual ao valor p. Portanto, o procedimento consiste em: - Codificar X1, X2,..., Xp para ter média zero e variância unitária. Às vezes este procedimento não é feito quando se deseja que a importância das variáveis seja refletida em suas variâncias. - Calcular a matriz e (ou S, dependendo do procedimento anterior). - Encontrar os autovetores λ1, λ2,..., λp e os correspondentes autovetores a1, a2,..., ap. Os coeficientes do i-ésimo componente principal são os elementos ai, enquanto que λi é a sua variância. - Considerar somente as componentes de alta explicação.
46 Exemplo (Mingoti, 2005): Oito marcas de coxinhas são avaliadas por alguns examinadores, em relação às variáveis sabor (X1), aroma (X2), massa (X3) e recheio (X4). As médias das notas dos examinadores, para cada marca e variável, são dadas na tabela seguinte. Marca Sabor Aroma Massa Recheio M1 2,75 4,03 2,80 2,62 M2 3,90 4,12 3,40 3,52 M ,97 3,62 3,05 M4 4,58 4,86 4,34 4,82 M5 3,97 4,34 4,28 4,98 M6 3,01 3,98 2,90 2,82 M7 4,19 4,65 4,52 4,77 M8 3,82 4,12 3,62 3,71 Média 3,67 4,26 3,68 3,79 Desvio Padrão 0,638 0,332 0,651 0,954 λ = 1,7368 λ = 0,0649 λ = 0,0279 λ = 0,0225 Matriz de variâncias e covariâncias: 0,407 0,159 0,313 0,482 0,110 0,157 0,237 S= 0,424 0,516 0,911 Os autovalores da matriz S são:
47 - 46-1,852. O traço da matriz S, dado também pela soma dos autovalores é igual a λ /traço = 0,9378 λ /traço = 0,0350 λ /traço = 0,0150 λ /traço = 0,0120 Juntas, explicam 97,3% da variância total do vetor original X (alta explicação). marcas. Assim, duas componentes são suficientes para explicar as variações nas Os autovetores gerados pelos primeiros dois autovetores são: 0,456 0,816 0,223 0,215 a =, a 0,477 = 0,456 0,717 0,282 A primeira componente representa um índice global da qualidade da coxinha (todos os coeficientes são positivos). Assim, Y = 0,456 sabor + 0,223 aroma + 0,477 massa + 0,717 recheio (maior importância é o recheio). coxinha. Quanto maior for o valor numérico de Y, maior será a qualidade da Os escores obtidos para as diferentes marcas são os seguintes: M1: 5,367 M2: 6,843 M3: 6,222 M4: 8,698
48 M5: 8,390 M6: 5,665 M7: 8,524 M8: 7,047 Nota-se que a marca melhor classificada é a M4 e a pior, M1. A segunda componente (de baixa explicação), contrasta sabor e aroma com massa e recheio: Y = 0,816 sabor 0,215 aroma + 0,456 massa + 0,282 recheio Obtém-se: M1: -1,095 M2: -1,525 M3: -0,889 M4: -1,444 M5: -0,817 M6: -1,194 M7: -1,012 M8: -1,306 Marcas M2 e M4 se sobressaem no aroma e sabor, enquanto que as marcas M5 e M3 se sobressaem na massa e recheio.
49 ANÁLISE FATORIAL Consiste em descrever um conjunto de p variáveis X1, X2,..., Xp em um número menor de índices ou fatores, bem como obter uma melhor compreensão do relacionamento entre estas variáveis. A ideia é semelhante à de componentes principais, com a diferença de que a análise de componentes principais não é baseada em um modelo particular, o que ocorre com análise fatorial. Spearman (1904), em estudo de correlações entre escores de testes de estudantes, observou que havia relações entre as correlações observadas. Por exemplo, seja a tabela de correlações entre escores de testes de meninos de uma escola (tabela 11): Tabela 11 - Correlações entre escores de testes de meninos de uma escola (Spearman, 1904) Clássicos Francês Inglês Matemática Música Discriminação de tom Clássicos 1 0,83 0,78 0,70 0,63 0,66 Francês 0,83 1 0,67 0,67 0,57 0,65 Inglês 0,78 0,67 1 0,64 0,51 0,54 Matemática 0,70 0,67 0,64 1 0,51 0,45 Música 0,63 0,57 0,51 0,51 1 0,40 Discriminação de tom 0,66 0,65 0,54 0,45 0,40 1 Spearman notou que quaisquer duas linhas eram quase proporcionais se as diagonais fossem ignoradas. Para as linhas Clássicos e Inglês: 0,83 0,67 0,70 0,64 0,63 0,51 0,66 0,54
29 e 30 de julho de 2013
Programa de Pós-Graduação em Estatística e Experimentação Agronômica ESALQ/USP 29 e 30 de julho de 2013 Dia 2 - Conteúdo 1 2 3 Dados multivariados Estrutura: n observações tomadas de p variáveis resposta.
Leia maisTécnicas Multivariadas em Saúde. Vetores Aleatórios. Métodos Multivariados em Saúde Roteiro. Definições Principais. Vetores aleatórios:
Roteiro Técnicas Multivariadas em Saúde Lupércio França Bessegato Dep. Estatística/UFJF 1. Introdução 2. Distribuições de Probabilidade Multivariadas 3. Representação de Dados Multivariados 4. Testes de
Leia maisTestes de significância com dados multivariados
Testes de significância com dados multivariados Hiron Pereira Farias e Talita T. Fernandes Wednesday, January 20, 2016 Hiron Pereira Farias e Talita T. Fernandes Testes de significância com dados multivariadoswednesday,
Leia maisTécnicas Multivariadas em Saúde
Roteiro Técnicas Multivariadas em Saúde Lupércio França Bessegato Dep. Estatística/UFJF 1. Introdução 2. Distribuições de Probabilidade Multivariadas 3. Representação de Dados Multivariados 4. Testes de
Leia maisVariância pop. * conhecida Teste t Paramétrico Quantitativa Distribuição normal Wilcoxon (teste dos sinais, Wilcoxon p/ 1 amostra)
Testes de Tendência Central (média, mediana, proporção) Classificação Variável 1 Variável 2 Núm ero Gru pos Dependência Teste Z Paramétrico Quantitativa - 1 - Premissas Variância pop. * conhecida Teste
Leia maisDelineamento e Análise Experimental Aula 3
Aula 3 Castro Soares de Oliveira Teste de hipótese Teste de hipótese é uma metodologia estatística que permite tomar decisões sobre uma ou mais populações baseando-se no conhecimento de informações da
Leia maisAnálise Fatorial e Componentes Principais Aplicadas na Engenharia de Avaliações
Análise Fatorial e Componentes Principais Aplicadas na Engenharia de Avaliações Diogo de Carvalho Bezerra Universidade Federal de Pernambuco Núcleo de Gestão e-mail:dicbezerra@hotmail.com SOBREA Sociedade
Leia maisAnálise Multivariada Aplicada à Contabilidade
Mestrado e Doutorado em Controladoria e Contabilidade Análise Multivariada Aplicada à Contabilidade Prof. Dr. Marcelo Botelho da Costa Moraes www.marcelobotelho.com mbotelho@usp.br Turma: 2º / 2016 1 Agenda
Leia maisEstimação e Testes de Hipóteses
Estimação e Testes de Hipóteses 1 Estatísticas sticas e parâmetros Valores calculados por expressões matemáticas que resumem dados relativos a uma característica mensurável: Parâmetros: medidas numéricas
Leia mais7 Teste de Hipóteses
7 Teste de Hipóteses 7-1 Aspectos Gerais 7-2 Fundamentos do Teste de Hipóteses 7-3 Teste de uma Afirmação sobre a Média: Grandes Amostras 7-4 Teste de uma Afirmação sobre a Média : Pequenas Amostras 7-5
Leia maisConceitos Básicos Teste t Teste F. Teste de Hipóteses. Joel M. Corrêa da Rosa
2011 O 1. Formular duas hipóteses sobre um valor que é desconhecido na população. 2. Fixar um nível de significância 3. Escolher a Estatística do Teste 4. Calcular o p-valor 5. Tomar a decisão mediante
Leia maisUNIVERSIDADE FEDERAL FLUMINENSE. Programa de Mestrado e Doutorado em Engenharia de Produção. Disciplina: Estatística Multivariada
UNIVERSIDADE FEDERAL FLUMINENSE Programa de Mestrado e Doutorado em Engenharia de Produção Disciplina: Estatística Multivariada Aula: Análise Discriminante Professor: Valdecy Pereira, D. Sc. email: valdecy.pereira@gmail.com
Leia maisANÁLISE DISCRIMINANTE. Análise discriminante. Função discriminante. Análise de agrupamentos e Análise das componentes principais
Análise de agrupamentos e Análise das componentes principais Ambas as análises são técnicas de redução de dados. ANÁLISE DISCRIMINANTE Objetivo da análise de agrupamentos é formar grupos, reduzindo o número
Leia maisRalph S. Silva
ANÁLISE ESTATÍSTICA MULTIVARIADA Ralph S. Silva http://www.im.ufrj.br/ralph/multivariada.html Departamento de Métodos Estatísticos Instituto de Matemática Universidade Federal do Rio de Janeiro Agradecimentos
Leia maisEstimação parâmetros e teste de hipóteses. Prof. Dr. Alberto Franke (48)
Estimação parâmetros e teste de hipóteses Prof. Dr. Alberto Franke (48) 91471041 Intervalo de confiança para média É um intervalo em que haja probabilidade do verdadeiro valor desconhecido do parâmetro
Leia maisMétodos Estatísticos Avançados em Epidemiologia
1 / 44 Métodos Estatísticos Avançados em Epidemiologia Análise de Variância - ANOVA Referência: Cap. 12 - Pagano e Gauvreau (2004) - p.254 Enrico A. Colosimo/UFMG Depto. Estatística - ICEx - UFMG 2 / 44
Leia maisIntervalos de Confiança
Intervalos de Confiança INTERVALOS DE CONFIANÇA.1 Conceitos básicos.1.1 Parâmetro e estatística Parâmetro é a descrição numérica de uma característica da população. Estatística é a descrição numérica de
Leia maisTécnicas Multivariadas em Saúde
Roteiro Técnicas Multivariadas em Saúde Lupércio França Bessegato Dep. Estatística/UFJF 1. Introdução 2. Distribuições de Probabilidade Multivariadas 3. Representação de Dados Multivariados 4. Testes de
Leia maisMestrado Profissional em Administração. Disciplina: Análise Multivariada Professor: Hedibert Freitas Lopes 1º trimestre de 2015
Mestrado Profissional em Administração Disciplina: Análise Multivariada Professor: Hedibert Freitas Lopes 1º trimestre de 015 Decomposição Espectral Autovalores e autovetores MANLY, Cap. Objetivo e Definição
Leia maisDE ESPECIALIZAÇÃO EM ESTATÍSTICA APLICADA)
1. Sabe-se que o nível de significância é a probabilidade de cometermos um determinado tipo de erro quando da realização de um teste de hipóteses. Então: a) A escolha ideal seria um nível de significância
Leia maisMedidas de Dispersão ou variabilidade
Medidas de Dispersão ou variabilidade A média - ainda que considerada como um número que tem a faculdade de representar uma série de valores - não pode, por si mesma, destacar o grau de homogeneidade ou
Leia maisEXPERIMENTAÇÃO ZOOTÉCNICA. Profa. Dra. Amanda Liz Pacífico Manfrim Perticarrari
EXPERIMENTAÇÃO ZOOTÉCNICA Profa. Dra. Amanda Liz Pacífico Manfrim Perticarrari amanda@fcav.unesp.br TESTES PARA COMPARAÇÃO DE MÉDIAS O teste F permite tirar conclusões muito gerais relacionadas com os
Leia maisCONHECIMENTOS ESPECÍFICOS
CONHECIMENTOS ESPECÍFICOS As variáveis aleatórias X e Y seguem uma distribuição de Bernoulli com probabilidade de sucesso igual a 0,4. Considerando S = X + Y e que os eventos aleatórios A = [X = 1] e B
Leia maisStela Adami Vayego Estatística II CE003/DEST/UFPR
Resumo 1 Teste de hipóteses não paramétricos Os métodos não-paramétricos fazem poucas suposições sobre a natureza das distribuições dos dados. Não exige que as distribuições nas populações sejam normais,
Leia maisétodos uméricos SISTEMAS DE EQUAÇÕES LINEARES (Continuação) Prof. Erivelton Geraldo Nepomuceno PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA
étodos uméricos SISTEMAS DE EQUAÇÕES LINEARES (Continuação) Prof. Erivelton Geraldo Nepomuceno PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA UNIVERSIDADE DE JOÃO DEL-REI PRÓ-REITORIA DE PESQUISA CENTRO
Leia maisRalph S. Silva
ANÁLISE ESTATÍSTICA MULTIVARIADA Ralph S Silva http://wwwimufrjbr/ralph/multivariadahtml Departamento de Métodos Estatísticos Instituto de Matemática Universidade Federal do Rio de Janeiro Sumário Revisão:
Leia maisMedidas de Semelhança
Medidas de Semelhança Índices de Semelhança Grandezas numéricas que quantificam o grau de associação entre um par de objetos ou de descritores. Como escolher um Índice? O objetivo da análise é associar
Leia maisAnálise da Variância. Prof. Dr. Alberto Franke (48)
Análise da Variância Prof. Dr. Alberto Franke (48) 91471041 Análise da variância Até aqui, a metodologia do teste de hipóteses foi utilizada para tirar conclusões sobre possíveis diferenças entre os parâmetros
Leia maisConceitos centrais em análise de dados
Conceitos centrais em análise de dados Conceitos básicos em Estatística Estatística Ciência que tem por objetivo orientar a coleta, o resumo, a apresentação, a análise e a interpretação dos dados. Divide-se
Leia maisMestrado Profissional em Administração. Disciplina: Análise Multivariada Professor: Hedibert Freitas Lopes 1º trimestre de 2015
Mestrado Profissional em Administração Disciplina: Análise Multivariada Professor: Hedibert Freitas Lopes º trimestre de 05 Inferência Multivariada MANOVA MANLY, Cap. 4 HAIR et al., Cap. 6 Exemplo Uma
Leia maisANÁLISE DISCRIMINANTE. Análise discriminante. Função discriminante. Análise de agrupamentos e Análise das componentes principais
Análise de agrupamentos e Análise das componentes principais Ambas as análises são técnicas de redução de dados. ANÁLISE DISCRIMINANTE Objetivo da análise de agrupamentos é formar grupos, reduzindo o número
Leia maisStela Adami Vayego DEST/UFPR
Resumo 1 Testes de hipóteses não paramétricos Os métodos não-paramétricos fazem poucas suposições sobre a natureza das distribuições dos dados. Não exige que as distribuições nas populações sejam normais,
Leia maisNessa situação, a média dessa distribuição Normal (X ) é igual à média populacional, ou seja:
Pessoal, trago a vocês a resolução da prova de Estatística do concurso para Auditor Fiscal aplicada pela FCC. Foram 10 questões de estatística! Não identifiquei possibilidade para recursos. Considero a
Leia maisTestes de Hipóteses para. uma Única Amostra. Objetivos de Aprendizagem. 9.1 Teste de Hipóteses. UFMG-ICEx-EST-027/031 07/06/ :07
-027/031 07/06/2018 10:07 9 ESQUEMA DO CAPÍTULO 9.1 TESTE DE HIPÓTESES 9.2 TESTES PARA A MÉDIA DE UMA DISTRIBUIÇÃO NORMAL, VARIÂNCIA CONHECIDA 9.3 TESTES PARA A MÉDIA DE UMA DISTRIBUIÇÃO NORMAL, VARIÂNCIA
Leia maisPlanejamento e Otimização de Experimentos
Planejamento e Otimização de Experimentos Um Pouco de Estatística Descritiva Prof. Dr. Anselmo E de Oliveira anselmo.quimica.ufg.br elcana@quimica.ufg.br Populações, Amostras e Distribuições População
Leia maisAnálise Multivariada Aplicada à Contabilidade
Mestrado e Doutorado em Controladoria e Contabilidade Análise Multivariada Aplicada à Contabilidade Prof. Dr. Marcelo Botelho da Costa Moraes www.marcelobotelho.com mbotelho@usp.br Turma: 2º / 2016 1 Agenda
Leia maisAnálise de Dados Longitudinais Aula
1/35 Análise de Dados Longitudinais Aula 08.08.2018 José Luiz Padilha da Silva - UFPR www.docs.ufpr.br/ jlpadilha 2/35 Sumário 1 Revisão para dados transversais 2 Como analisar dados longitudinais 3 Perspectiva
Leia maisTestes de Aderência, Homogeneidade e Independência
Testes de Aderência, Homogeneidade e Independência Prof. Marcos Vinicius Pó Métodos Quantitativos para Ciências Sociais O que é um teste de hipótese? Queremos saber se a evidência que temos em mãos significa
Leia maisaula ANÁLISE DO DESEMPENHO DO MODELO EM REGRESSÕES
ANÁLISE DO DESEMPENHO DO MODELO EM REGRESSÕES 18 aula META Fazer com que o aluno seja capaz de realizar os procedimentos existentes para a avaliação da qualidade dos ajustes aos modelos. OBJETIVOS Ao final
Leia maisCONHECIMENTOS ESPECÍFICOS
fonte de graus de soma de quadrado variação liberdade quadrados médio teste F regressão 1 1,4 1,4 46,2 resíduo 28 0,8 0,03 total 2,2 A tabela de análise de variância (ANOVA) ilustrada acima resulta de
Leia maisAULA 05 Teste de Hipótese
1 AULA 05 Teste de Hipótese Ernesto F. L. Amaral 03 de setembro de 2012 Faculdade de Filosofia e Ciências Humanas (FAFICH) Universidade Federal de Minas Gerais (UFMG) Fonte: Triola, Mario F. 2008. Introdução
Leia maisÍNDICE. Variáveis, Populações e Amostras. Estatística Descritiva PREFÁCIO 15 NOTA À 3ª EDIÇÃO 17 COMO USAR ESTE LIVRO? 21 CAPÍTULO 1 CAPÍTULO 2
COMO USAR ESTE LIVRO ÍNDICE PREFÁCIO 15 NOTA À 3ª EDIÇÃO 17 COMO USAR ESTE LIVRO? 21 CAPÍTULO 1 Variáveis, Populações e Amostras 1.1. VARIÁVEIS ESTATÍSTICAS E ESCALAS DE MEDIDA 27 1.2. POPULAÇÃO VS. AMOSTRA
Leia maisTestes de Aderência, Homogeneidade e Independência
Testes de Aderência, Homogeneidade e Independência Prof. Marcos Vinicius Pó Métodos Quantitativos para Ciências Sociais O que é um teste de hipótese? Queremos saber se a evidência que temos em mãos significa
Leia maisANÁLISE DE COMPONENTES PRINCIPAIS/PCA ou ACP
Procedimento para a determinação de novas variáveis (componentes) que expliquem a maior variabilidade possível existente em uma matriz de dados multidimensionais. ANÁLISE DE COMPONENTES PRINCIPAIS/PCA
Leia maisTestes de Hipóteses sobre a média: Várias Amostras
Testes de Hipóteses sobre a média: Várias Amostras Na aula de hoje veremos como comparar mais de duas populações, baseados em dados fornecidos por amostras dessas populações. A Análise de Variância (ANOVA)
Leia maisAnálise Multivariada Aplicada à Contabilidade
Mestrado e Doutorado em Controladoria e Contabilidade Análise Multivariada Aplicada à Contabilidade Prof. Dr. Marcelo Botelho da Costa Moraes www.marcelobotelho.com mbotelho@usp.br Turma: 2º / 2016 1 Agenda
Leia maisMAE Planejamento e Pesquisa II
MAE0327 - Planejamento e Pesquisa II EXPERIMENTOS/ESTUDOS NÃO-BALANCEADOS COM FATORES FIXOS - PARTE 1 7 de agosto de 2016 Denise A Botter MAE0327 7 de agosto de 2016 1 / 1 PLANEJAMENTO E PESQUISA I Estudos
Leia maisTestes de Aderência, Homogeneidade e Independência
Testes de Aderência, Homogeneidade e Independência Prof. Marcos Vinicius Pó Métodos Quantitativos para Ciências Sociais O que é um teste de hipótese? Queremos saber se a evidência que temos em mãos significa
Leia mais5 Análise dos resultados
5 Análise dos resultados Os dados foram analisados utilizando o software SPSS (Statistical Package for Social Sciences) base 18.0. Para Cooper e Schindler (2003) a análise de dados envolve a redução de
Leia maisUniversidade Federal do Pará Instituto de Ciências Exatas e Naturais Faculdade de Estatística Bacharelado em Estatística
Universidade Federal do Pará Instituto de Ciências Exatas e Naturais Faculdade de Estatística Bacharelado em Estatística Disciplina: Estatística Aplicada Professores: Héliton Tavares e Regina Tavares Aluna:
Leia maisPlanejamento e Otimização de Experimentos
Planejamento e Otimização de Experimentos Um Pouco de Estatística Prof. Dr. Anselmo E de Oliveira anselmo.quimica.ufg.br anselmo.disciplinas@gmail.com Populações, Amostras e Distribuições População Amostra
Leia maisANÁLISE DE VARIÂNCIA. y j = µ + τ i + e i j = µ i + e i j
SUMÁRIO 1 Análise de Variância 1 1.1 O Teste F...................................... 1.2 Verificando as pressuposições do modelo..................... 5 1.2.1 Verificação de Normalidade.........................
Leia maisAnálise da Regressão. Prof. Dr. Alberto Franke (48)
Análise da Regressão Prof. Dr. Alberto Franke (48) 91471041 O que é Análise da Regressão? Análise da regressão é uma metodologia estatística que utiliza a relação entre duas ou mais variáveis quantitativas
Leia maisESTATÍSTICA NÃO-PARAMÉTRICA Aula 5
ESTATÍSTICA NÃO-PARAMÉTRICA Aula Prof. Dr. Edmilson Rodrigues Pinto Faculdade de Matemática - UFU edmilson@famat.ufu.br Caso de amostras relacionadas O obetivo principal desses testes é comprovar a hipótese
Leia maisAnálise de Regressão EST036
Análise de Regressão EST036 Michel Helcias Montoril Instituto de Ciências Exatas Universidade Federal de Juiz de Fora Regressão sem intercepto; Formas alternativas do modelo de regressão Regressão sem
Leia maisMAE Introdução à Probabilidade e Estatística II Resolução Lista 5
MAE 229 - Introdução à Probabilidade e Estatística II Resolução Lista 5 Professor: Pedro Morettin e Profa. Chang Chian Exercício 1 (a) De uma forma geral, o desvio padrão é usado para medir a dispersão
Leia maisDelineamento e Análise Experimental Aula 4
Aula 4 Castro Soares de Oliveira ANOVA Significativa Quando a aplicação da análise de variância conduz à rejeição da hipótese nula, temos evidência de que existem diferenças entre as médias populacionais.
Leia maisAssociação entre variáveis categóricas e IC95%
Associação entre variáveis categóricas e IC95% Andréa Homsi Dâmaso Programa de pós-graduação em Epidemiologia UFPEL Biotecnologia: Bioestatística e Delineamento Experimental Aula de hoje Teste do qui-quadrado
Leia maisMario de Andrade Lira Junior
Mario de Andrade Lira Junior www.lira.pro.br 1 Apenas uma breve apresentação Para não dizerem que nunca viram Um conjunto de técnicas de análise que usa diversas variáveis dependentes simultaneamente Mais
Leia mais5. Carta de controle e homogeneidade de variância
5. Carta de controle e homogeneidade de variância O desenvolvimento deste estudo faz menção a dois conceitos estatísticos: as cartas de controle, de amplo uso em controle estatístico de processo, e a homogeneidade
Leia maisMÓDULO V: Análise Bidimensional: Correlação, Regressão e Teste Qui-quadrado de Independência
MÓDULO V: Análise Bidimensional: Correlação, Regressão e Teste Qui-quadrado de Independência Introdução 1 Muito frequentemente fazemos perguntas do tipo se alguma coisa tem relação com outra. Estatisticamente
Leia maisTESTES NÃO PARAMÉTRICOS (para mediana/média)
MAE212: Introdução à Probabilidade e à Estatística II - Profas. Beti e Chang (2012) 1 TESTES NÃO PARAMÉTRICOS (para mediana/média) Os métodos de estimação e testes de hipóteses estudados até agora nessa
Leia maisEspecialização em Engenharia de Processos e de Sistemas de Produção
Especialização em Engenharia de Processos e de Sistemas de Produção Projetos de Experimento e Confiabilidade de Sistemas da Produção Prof. Claudio Luis C. Frankenberg 3ª parte Conforme foi apresentado
Leia maisTestes para dados categóricos
Testes para dados categóricos Teste de homogeneidade Objetivo: testar se existe diferença entre frequências observadas (O ij ) e frequências esperadas (E ij ). Dados amostrais: amostras aleatórias independentes
Leia maisEstatística: Aplicação ao Sensoriamento Remoto SER ANO Componentes Principais
Estatística: Aplicação ao Sensoriamento Remoto SER 4 - ANO 9 Componentes Principais Camilo Daleles Rennó camilorenno@inpebr http://wwwdpiinpebr/~camilo/estatistica/ Associação entre Variáveis r = < r
Leia maisPlanejamento de Experimentos Suposições do Modelo e Comparações Múltiplas
1 / 30 Planejamento de Experimentos Suposições do Modelo e Comparações Múltiplas Enrico A. Colosimo/UFMG Depto. Estatística - ICEx - UFMG 2 / 30 Exemplo típico: Resistência de uma nova fibra sintética
Leia maisAULA 04 Teste de hipótese
1 AULA 04 Teste de hipótese Ernesto F. L. Amaral 03 de outubro de 2013 Centro de Pesquisas Quantitativas em Ciências Sociais (CPEQS) Faculdade de Filosofia e Ciências Humanas (FAFICH) Universidade Federal
Leia mais1 Que é Estatística?, 1. 2 Séries Estatísticas, 9. 3 Medidas Descritivas, 27
Prefácio, xiii 1 Que é Estatística?, 1 1.1 Introdução, 1 1.2 Desenvolvimento da estatística, 1 1.2.1 Estatística descritiva, 2 1.2.2 Estatística inferencial, 2 1.3 Sobre os softwares estatísticos, 2 1.4
Leia maisTestes de Hipóteses. Ricardo Ehlers Departamento de Matemática Aplicada e Estatística Universidade de São Paulo
Testes de Hipóteses Ricardo Ehlers ehlers@icmc.usp.br Departamento de Matemática Aplicada e Estatística Universidade de São Paulo Introdução e notação Em geral, intervalos de confiança são a forma mais
Leia maisSCC0173 Mineração de Dados Biológicos
SCC073 Mineração de Dados Biológicos Análise Exploratória de Dados Parte A: Revisão de Estatística Descritiva Elementar Prof. Ricardo J. G. B. Campello SCC / ICMC / USP Tópicos Análise Exploratória de
Leia maisTestes não paramétricos. Prof. Marcos Vinicius Pó Métodos Quantitativos para Ciências Sociais
Testes não paramétricos Prof. Marcos Vinicius Pó Métodos Quantitativos para Ciências Sociais Teste de hipótese Queremos saber se a evidência que temos em mãos significa que encontramos algo diferente daquela
Leia maisTESTE DE COMPARAÇÃO MÚLTIPLA
SUMÁRIO 1 TESTE DE COMPARAÇÃO MÚLTIPLA Quando a aplicação da análise de variância conduz à rejeição da hipótese nula, temos evidência de que existem diferenças entre as médias populacionais. Mas, entre
Leia maisCapítulo 6 Estatística não-paramétrica
Capítulo 6 Estatística não-paramétrica Slide 1 Teste de ajustamento do Qui-quadrado Testes de independência e de homogeneidade do Qui-quadrado Testes dos sinais e de Wilcoxon Teste de Mann-Whitney Teste
Leia maisProjeto de Experimentos
Projeto de Experimentos O uso de Projeto de Experimentos conduz a uma seqüência estruturada de ensaios, que assegura o máximo de informação com um gasto mínimo de tempo/dinheiro. Entrada Processo Saída
Leia maisANÁLISE DE COMPONENTES PRINCIPAIS/PCA ou ACP
Procedimento para a determinação de novas variáveis (componentes) que expliquem a maior variabilidade possível existente em uma matriz de dados multidimensionais. ANÁLISE DE COMPONENTES PRINCIPAIS/PCA
Leia maisTestes de Aderência, Homogeneidade e Independência. Prof. Marcos Vinicius Pó Métodos Quantitativos para Ciências Sociais
Testes de Aderência, Homogeneidade e Independência Prof. Marcos Vinicius Pó Métodos Quantitativos para Ciências Sociais Teste de hipótese Queremos saber se a evidência que temos em mãos significa que encontramos
Leia maisCONHECIMENTOS ESPECÍFICOS
CONHECIMENTOS ESPECÍFICOS A distribuição dos tempos de permanência dos estudantes nos cursos de graduação de certa universidade é uma distribuição normal com média igual a 6 anos e desvio padrão igual
Leia maisInferência para várias populações normais análise de variância (ANOVA)
Inferência para várias populações normais análise de variância (ANOVA) Capítulo 15, Estatística Básica (Bussab&Morettin, 8a Edição) 9a AULA 11/05/2015 MAE229 - Ano letivo 2015 Lígia Henriques-Rodrigues
Leia maisESTATÍSTICA EXPERIMENTAL. ANOVA. Aula 05
ESTATÍSTICA EXPERIMENTAL ANOVA. Aula 05 Introdução A ANOVA ou Análise de Variância é um procedimento usado para comparar a distribuição de três ou mais grupos em amostras independentes. A análise de variância
Leia maisExemplo 1: Variáveis padronizadas Z t = ( Z 1 (1), Z 2 (1), Z 1 (2), Z 2 Z 1 (1) Z (1) = Z (2) = Z 2. Matriz de correlações:
Exemplo : Variáveis padronizadas t = (,,, ) = = Matriz de correlações: Ρ Ρ Ρ Ρ Ρ.0 0.4 0.5 0.6 0.4.0 0.3 0.4 0.5 0.3.0 0. 0.6 0.4 0..0 De onde se obtém: /.068 0.9.047 0.083 Ρ Ρ 0.9.068 0.083.047 Ρ / /
Leia mais2 Processo de Agrupamentos
20 2 Processo de Agrupamentos A análise de agrupamentos pode ser definida como o processo de determinação de k grupos em um conjunto de dados. Para entender o que isso significa, observe-se a Figura. Y
Leia maisRegression and Clinical prediction models
Regression and Clinical prediction models Session 4 Introducing statistical modeling Part 1 (Analysis of variance) Pedro E A A do Brasil pedro.brasil@ini.fiocruz.br 2018 Objetivos Introduzir a ideia de
Leia maisAula 2 Uma breve revisão sobre modelos lineares
Aula Uma breve revisão sobre modelos lineares Processo de ajuste de um modelo de regressão O ajuste de modelos de regressão tem como principais objetivos descrever relações entre variáveis, estimar e testar
Leia maisCE001 - BIOESTATÍSTICA TESTE DO QUI-QUADRADO
CE001 - BIOESTATÍSTICA TESTE DO QUI-QUADRADO Ana Paula Araujo Correa Eder Queiroz Newton Trevisan DEFINIÇÃO É um teste de hipóteses que se destina a encontrar um valor da dispersão para duas variáveis
Leia maisTeste Qui-quadrado. Dr. Stenio Fernando Pimentel Duarte
Dr. Stenio Fernando Pimentel Duarte Exemplo Distribuição de 300 pessoas, classificadas segundo o sexo e o tabagismo Tabagismo Fumante (%) Não Fumante (%) Masculino 92 (46,0) 108 (54,0) Sexo Feminino 38
Leia maisMais Informações sobre Itens do Relatório
Mais Informações sobre Itens do Relatório Amostra Tabela contendo os valores amostrados a serem utilizados pelo método comparativo (estatística descritiva ou inferencial) Modelos Pesquisados Tabela contendo
Leia maisPrincípios de Bioestatística
Princípios de Bioestatística Análise de Variância Enrico A. Colosimo Departamento de Estatística Universidade Federal de Minas Gerais http://www.est.ufmg.br/~enricoc 2011 1 / 25 Introdução Existem muitas
Leia maisRalph S. Silva
ANÁLISE ESTATÍSTICA MULTIVARIADA Ralph S. Silva http://www.im.ufrj.br/ralph/multivariada.html Departamento de Métodos Estatísticos Instituto de Matemática Universidade Federal do Rio de Janeiro Sumário
Leia maisCapítulo 11 Análise da Variância. Statistics for Managers Using Microsoft Excel, 5e 2008 Prentice-Hall, Inc. Chap 11-1
Capítulo 11 Análise da Variância Statistics for Managers Using Microsoft Excel, 5e 2008 Prentice-Hall, Inc. Chap 11-1 Objetivos do Aprendizado Neste capítulo você aprenderá: Os conceitos básicos da modelagem
Leia maisTESTES NÃO-PARAMÉTRICOS
Les-0773: ESTATÍSTICA APLICADA III TESTES NÃO-PARAMÉTRICOS AULA 3 26/05/17 Prof a Lilian M. Lima Cunha Maio de 2017 Revisão... Teste dos Sinais A Comparar valores de medianas de uma amostra com um valor
Leia maisModelo de Regressão Múltipla
Modelo de Regressão Múltipla Modelo de Regressão Linear Simples Última aula: Y = α + βx + i i ε i Y é a variável resposta; X é a variável independente; ε representa o erro. 2 Modelo Clássico de Regressão
Leia maisTestes de hipóteses. Wagner H. Bonat Fernando P. Mayer Elias T. Krainski
Testes de hipóteses Wagner H. Bonat Fernando P. Mayer Elias T. Krainski Universidade Federal do Paraná Departamento de Estatística Laboratório de Estatística e Geoinformação 07/06/2018 WB, FM, EK ( LEG/DEST/UFPR
Leia maisAULA 07 Inferência a Partir de Duas Amostras
1 AULA 07 Inferência a Partir de Duas Amostras Ernesto F. L. Amaral 10 de setembro de 2012 Faculdade de Filosofia e Ciências Humanas (FAFICH) Universidade Federal de Minas Gerais (UFMG) Fonte: Triola,
Leia maisModelos de Regressão Linear Simples - parte III
1 Modelos de Regressão Linear Simples - parte III Erica Castilho Rodrigues 20 de Setembro de 2016 2 3 4 A variável X é um bom preditor da resposta Y? Quanto da variação da variável resposta é explicada
Leia maisEstatística Aplicada à Administração II. Tópico. Análise de Componentes Principais
Estatística Aplicada à Administração II Tópico Análise de Componentes Principais Bibliografia: R.A. Johnson, Applied Multivariate Statistical Analysis, Prentice Hall, 99 Análise de Componentes Principais
Leia maisVERIFICAÇÃO DA ADEQUAÇÃO DO MODELO DE ANÁLISE DE VARIÂNCIA ANÁLISE DE RESÍDUOS
VERIFICAÇÃO DA ADEQUAÇÃO DO MODELO DE ANÁLISE DE VARIÂNCIA ANÁLISE DE RESÍDUOS Conforme foi apresentado anteriormente, o modelo de análise de variância assume que as observações são independentes e normalmente
Leia maisProfessora: Cira Souza Pitombo. Disciplina: Aplicações de técnicas de análise de dados
UNIVERSIDADE FEDERAL DA BAHIA ESCOLA POLITÉCNICA MESTRADO EM ENGENHARIA AMBIENTAL E URBANA Apresentação do Curso Introdução Professora: Cira Souza Pitombo Disciplina: Aplicações de técnicas de análise
Leia maisEXPERIMENTAÇÃO ZOOTÉCNICA. Profa. Dra. Amanda Liz Pacífico Manfrim Perticarrari
EXPERIMENTAÇÃO ZOOTÉCNICA Profa. Dra. Amanda Liz Pacífico Manfrim Perticarrari amanda@fcav.unesp.br Caracterização o O delineamento inteiramente casualizado (DIC) é o mais simples de todos os delineamentos
Leia maisFunção prcomp. 1. Introdução
Função prcomp 1. Introdução Apresentamos alguns exemplos de utilização da função prcomp do pacote stats em R. Esta função permite realizar uma análise de componentes principais a partir de uma matriz de
Leia mais