Análise da Variância (ANOVA) ANOVA Análise da Variância (ANOVA) é um método para testar a igualdade de três ou mais médias populacionais, baseado na análise das variâncias amostrais Os dados amostrais são separados em grupos segundo uma característica (fator) Fator (ou tratamento): é uma característica que permite distinguir diferentes populações umas das outras Cada fator contém dois ou mais grupos (classificações)
Eemplos: () amostras do consumo de combustível para 3 tipos de carros, de fábricas (marcas) diferentes Neste caso temos amostras de 3 populações de carros Temos um único fator: A marca Este fator se separa em 3 tratamentos, cada uma das marcas () Amostras do consumo de combustível para 3 tamanhos de motor (,5 L,, L e,5 L) e tipo de transmissão (manual ou automática) Temos dois fatores: - O fator tamanho do motor, que contém três categorias:,5 L,, L e,5 L - O fator tipo de transmissão, que contém duas categorias: manual e automática 3 ANOVA de um critério (um fator) SUPOSIÇÕES: Populações normalmente distribuida Populações tem mesma variância (ou mesmo desvio padrão) Amostras são aleatórias e mutuamente independentes As diferentes amostras são obtidas de populações classificadas em apenas uma categoria 4
O estatístico George E P Bo mostrou que os resultados são confiáveis desde que o tamanho das amostras são iguais (ou quase iguais), a diferença entre as variâncias podem ser de tal ordem que a maior seja nove vez a menor Se a distribuições são fortemente não normais devemos utilizar outros métodos, por eemplo, o teste de Krusal-Wallis 5 Hipóteses do ANOVA de um critério HIPÓTESE NULA: a média de todas as populações são iguais,ou seja, o tratamento (fator) não tem efeito (nenhuma variação em média entre os grupos) HIPÓTES ALTERNATIVA: nem todas a médias populacionais são iguais, ou seja: Pelo menos uma média é diferente, isto é, eiste efeito do tratamento Não quer dizer que todas as médias são diferentes (alguns pares podem ser iguais) H0 : μ μ μ3 μ H : Nem todas as médias populacionais são iguais 6
ANOVA de um fator H0 : μ μ μ3 μ H : Nem todos os μ são iguais Todas a médias são iguais: Ho é verdadeira (Sem efeito do tratamento) μ μ μ3 7 ANOVA de um fator H0 : μ μ μ3 μ H : Nem todos os μ são iguais Ao menos uma média é diferente: Ho NÃO é verdadeira (Eiste efeito do tratamento) or μ μ μ3 μ μ μ3 8
Eemplo: Para amostras (tratamentos) amostra amostra amostra 3 observação observação observação 3 observação n 3 n n 3 n 3 3 33 3 3 amostra 3 n média amostral variância amostral n n n n n n s para amostras de tamanhos iguais : s s 3 3 s média sobre todos o valores amostrais (grande média) 9 Note que o livro teto define as amostras (tratamentos) em linhas e as observações em colunas Correspondência de notação entre livro teto e slides observações média das observações livro teto slides grande média y y y ij ij 0
A ideia básica de ANOVA: partição da variabilidade Variabilidade total Variabilidade dos grupos (entre grupos) Variabilidade devido a outros fatores (dentro dos grupos) Decomposição das observações em contribuições de diferentes fontes: Observação = grande média + desvio devido ao tratamento + resíduo ij ( j ) ( ij j )
Eemplo Foram selecionados vários automóveis de 3 modelos diferentes e neles colocados a mesma quantidade de gasolina A tabela ao lado mostra a quilometragem obtida pelos automóveis Eiste diferença entre de distância média percorrida pelos diferentes tipos de automóveis? Fator (tratamento): tipo de atutomóvel Níveis: modelo, modelo, modelo 3 mod mod mod 3 54 34 00 63 8 4 35 97 37 06 5 3 Temos: modelo : modelo : modelo 3 : 3 49 9 065 grande média : n n n 3 n n n 3 3 549, 39 406,5 9,833 5 3 4 Por eemplo : o elemento da amostra pode ser decomposto assim : 3 ( ) 4 983 (49-983) (4 49) 9839367 8 ( 3 3 4 ) 4
Para o nosso eemplo: Observações = grande média + efeitos do tratamento + resíduos 54 63 4 37 5 34 8 35 00 983 983 97 983 06 983 983 983 983 983 983 9367 983 9367 983 9367 983 9367 9367-083 - 083-083 - 358 48-358 38-358 8-358 8 5 6 00 97 06 5 Medida de variação: variância amostral S i Variação total = variação entre as amostras + variação dentro das amostras Em símbolos: SQ(total) = SQ(entre amostras)+sq(dentro das amostras) SQ(total) ou soma total de quadrados: é uma medida da variação total(em torno de ) em todos os dados amostrais combinados SQ(entre) : é uma medida da variação entre as médias amostrais combinados i n Também conhecida como SQ(tratamento) SQ(dentro) ou SQ(erro) : soma de quadrados que representa comum a todas a populações em consideração (que depende de uma soma de quadrados) a variabilid ade 6
Variação total SQ(total) = SQ(dentro) + SQ(entre) SQ(total) j j n i (X ij X) Onde: = número de amostras (tratamentos) n j = número de observações na amostra j X ij = i-ésima observação da amostra j X = média de todos os valores (grande média) 7 Variação entre amostras SQ(total) = SQ(entre) + S(dentro) SQ(entre) n (X j j j X) Onde: = número de amostras n j = número de elementos da amostra j X j = média da amostra j X = grande média 8
Variação entre amostras SQ(entre) n (X j j j X) Variação devido a diferença entre amostras QM(entre) SQ(entre) Quadrado médio entre = SQ(entre)/graus de liberdade i j 9 Variação dentro das amostras SQ(total) = SQ(entre) + SQ(dentro) SQ(dentro) j n j i (X ij X j ) Onde: = número de amostras n j = número de elementos da amostra j X j = média da amostra j X ij = i-ésima observação na amostra j 0
Variação dentro das amostras SQ(dentro) j n j i (X ij X j) Soma-se a variação dentro de cada amostra e então somase todas as amostras SQ(dentro) QM(dentro) n n n n n3 n μ j Quadrado médio dentro = SQ(dentro)/graus de liberdade SQ(dentro) (n )s Variação dentro das amostras j n j i (n )s n (Xij X j) (n ) 3 3 (n )s i i i i (n ) (n )s (n ) n i (n ) (n ) n i (n ) Ou seja: QM(dentro) i n i n s i
As variações entre, dentro e total S entre S dentro S total SQ(entre) SQ(dentro) n SQ(total) n número de amostras n n n n3 n (número total de elementos) 3 Tabela ANOVA - fator Fonte da Variação Entre Dentro SQ SQE SQD gl - n - Total SQT = n - SQE+SQD Variância S entre= S dentro= SQE - SQD n - = número de amostras (grupos) n = soma do número de elementos de todas as amostras gl = graus de liberdade Razão F F = S entre S dentro 4
ANOVA -fator H 0 : μ = μ = = μ H : pelo menos uma das médias é diferente Estatística de teste: F S S entre dentro Variância entre amostras Variância dentro das amostras graus de liberdade: Numerador: gl = Denominador: gl = n = número de amostras n = n + n + n 3 + + n 5 ANOVA de um fator Cálculos com tamanhos amostrais diferentes n n n n n n n i i i é a média de todos os valores amostrais combinados F Grau de Liberdade teste Numerador: gl = - ni s i Denominador: gl = n - i n n n i i SQ(tratamento) Soma de quadrados Componentes-chave: SQ(erro) Representa a variação Variância() = SQ()/número: é uma Média Quadrática 6
7 8
Valores críticos são obtidos da tabela da distribuição F Como o numerador é maior que o denominador o teste será unilateral a direita Rejeite H 0 se F > F C = 05 0 Não rejeite H 0 FC Rejeite H 0 9 Eemplo Foram selecionados vários automóveis de 3 modelos diferentes e neles colocados a mesma quantidade de gasolina A tabela ao lado mostra a quilometragem obtida pelos automóveis Eiste diferença entre de distância média percorrida pelos diferentes tipos de automóveis? Faça o teste com nível de significância de 005? Fator (tratamento): tipo de atutomóvel Níveis: modelo, modelo, modelo 3 mod mod mod 3 54 34 00 63 8 4 35 97 37 7 06 5 6 04 30
Eamplo de anova de fator: Distancia tipo tipo tipo 3 54 34 00 63 8 4 35 97 37 7 06 5 6 04 49 60 3 70 058 70 60 50 40 30 0 0 00 90 X X X 3 X 3 Modelo do automóvel 3 mod mod mod 3 54 34 00 63 8 4 35 97 37 7 06 5 6 04 X = 49 X = 60 X 3 = 058 X = 70 n = 5 n = 5 n 3 = 5 n = 5 = 3 SQE = 5 (49 7) + 5 (6 7) + 5 (058 7) = 4764 SQD = (54 49) + (63 49) + + (04 058) = 96 S entre = 4764 / (3-) = 358 S dentro = 96 / (5-3) = 933 358 F 575 933 3
ANOVA -fator H 0 : μ = μ = μ 3 H : nem todos μ j são iguais = 005 gl = gl = 0 Valor crítico: F c = 389 Não rejeita H 0 = 05 Rejeita H 0 F c = 389 F = 575 Estatística de teste: S S entre F dentro Decisão: 358 933 575 Rejeitar H 0 com = 005 Conclusão: Há evidência que pelo uma das médias μ j é diferente das outras 33 ANOVA - fatores Dois fatores de interesse: A e B com vários níveis (categorias) A B A A A 3 A r B B B 3 B Eemplo: Amostras do consumo de combustível para 3 tamanhos de motor (,5 L,, L e,5 L) e tipo de transmissão (manual ou automática) Temos dois fatores: (A) O fator tamanho do motor, que contém três categorias:,5 L (A),, L (A) e,5 L (A3) (B) O fator tipo de transmissão, que contém duas categorias: manual (B) e automática (B) 34
Fator A Fator B A A A 3 X X X3 B X X 3 X 4 X X 3 X 3 X 33 X 34 X 35 X X X 3 B X X 3 X X 3 4 X 5 X 3 X 33 X 34 35 Correspondência de notação entre slides e livro teto: - O fator A (A, A,, A) corresponde aos blocos (Bloco, Bloco,,Bloco ) no livro teto - O fator B (B, B,,B) corresponde aos tratamentos (tratamento,, tratamento )no livro teto 36
ANOVA fatores: A e B r = número de categorias do fator A c = número de categorias do fator B n = número de repetições em cada célula n = número total de observações (n = rn ) Xij = valor da -ésima observação na categoria i do fator A e na categoria j do fator B 37 Fontes de variação SQT = SQA + SQB + SQAB + SQE SQA Variação no fator A Grau de liberdade: r SQT Variação total n - SQB Variação no fator B SQAB Variação devido a interação entre A e B SQE Variação aleatória (Erro) c (r )(c ) rc(n ) 38
Soma de Quadrados para cada variação: Variação total: Variação do fator A : SQT SQA r i cn c j r i n (X (Xij X) i X) Variação do fator B : SQB rn c j (X j X) 39 Variação devido a interação: SQAB n r i c j (X ij Xi Xj X) Variação devido ao erro aleatório SQE r i c j n (Xij Xij ) 40
X X X i j ij ONDE: c n j r cn n i n rn X n X X ij X ij ij r i c n j rcn Média do i Média do X ij Média da célula Grande média - ésimo nível do fator j - ésimo nível do fator B ij r = número de níveis do fator A c = número de níveis do fator B n = número de repetições em cada célula A (i,,,r) (j,,,c) 4 Quadrados médios (Variâncias) QMA SQA r (Quadrado Médio do fator A) QMB SQB c (Quadrado Médio do fator A) SQAB QMAB (r )(c ) (Quadrado Médio da interação entre A e B) SQE QME rc(n' ) (Quadrado Médio do erro) 4
ANOVA de fatores: Estatística de teste H 0 : μ = μ = μ 3 = H : Nem todos os μ i são iguais Teste-F para o efeito do fator A QMA F QME Rejeite H 0 se F > F c H 0 : μ = μ = μ 3 = H : Nem todos os μ j são iguais Teste-F para o efeito do fator B QMB F QME Rejeite H 0 se F > F c H 0 : a interação de A e B é zero H : a interação de A e B não é zero Teste-F para o efeito da interação QMAB F QME Rejeite H 0 se F > F c 43 Tabela ANOVA fatores Fonte de Variação Soma de Quadra dos graus de liberdade Quadrados Médios (variâncias) Fator A SQA r QMA = SQA/(r ) Fator B SQB c QMB = SQB /(c ) F QMA QME QMB QME AB (Interação) SQAB (r )(c ) QMAB= SQAB/(r )(c ) QMAB QME Erro SQE rc(n ) QME = SQE/rc(n ) Total SQT n 44
ANOVA fatores: procedimento Início Test for an interaction between the two factors Use: QMAB F = QME Eiste efeito devido a interação dos dosis fatortes? SIM (Rejeite H 0 : Efeito da interação é nulo) PARE Não considere os efeitos de qualquer um dos fatores sem considerar o efeito do outro NÃO (não rejeite H 0 : efeito da interação é nulo) Teste para o efeito do fator linha (A) F = QMA QME Teste para o efeito do fator coluna (B) F = QMB QME 45 ANOVA de dois fatores Cálculos individuais em categorias de acordo com dois fatores Em outras palavras: os valores amostrais são categorizados de duas maneiras E Na corrida de NY: Fatores: idade e seo Seo Masculino Feminino Tempo (s) para corredores da Maratona NY Idade -9 30-39 40 ou mais 365 4677 458 8784 6090 7034 456 4086 4935 0905 6460 4996 077 0808 46 640 5357 760 46 677 5399 540 5036 8647 536 697 5077 047 7636 5898 46
ANOVA de dois fatores Cálculos individuais em categorias de acordo com dois fatores Em outras palavras, os valores amostrais são categorizados de duas maneiras E Na corrida de NY: Fatores: idade e seo Subcategorias (células), neste caso seis células Seo Masculino Feminino Tempo (s) para corredores da Maratona NY Idade -9 30-39 40 ou mais 3 4 5 6 47 Anova: fator duplo com repetição ANOVA de dois fatores RESUMO -9 30-39 40 ou mais Total Masculino Contagem 5 5 5 5 Soma 69637 8 83639 35397 Média 397,4 644, 677,8 5693, Variância 9087754,3 696640, 05758, 96567,8 Feminino Contagem 5 5 5 5 Soma 7339 8097 08 56770 Média 4678,4 69,4 0456, 78 Variância 7603,3 530,3 4787,7 439308,6 Seo Masculino Feminino Tempo (s) para corredores da Maratona NY Idade -9 30-39 40 ou mais 365 4677 458 8784 6090 7034 456 4086 4935 0905 6460 4996 077 0808 46 640 5357 760 46 677 5399 540 5036 8647 536 697 5077 047 7636 5898 Total Contagem 0 0 0 Soma 4309 638 8590 Média 430,9 63,8 859 Variância 54370,3 360847,5 90805, MQ(seo) MQ(idade) MQ(interação) MQ(erro) ANOVA Fonte da variação SQ gl MQ F valor-p F crítico Amostra 56837,6 56837,6,69 0, 4,6 Colunas 908746,9 46043573,4 5,0 0,0 3,40 Interações 040438,9 0509,4,7 0,33 3,40 Dentro 6683384,0 4 908474,3 Total 345037807,4 9 Ecel: Ferramenta > Análise de dados > 48 ANOVA Fator Duplo com repetição
ANOVA de dois fatores Procedimento para o cálculo (continuação) Passo Efeitos de Linha/Coluna Linha: Teste H 0, Não há qualquer efeito do fator linha (As médias das linhas são iguais) F = MQ(seo) / MQ(erro) ANOVA Fonte da variação SQ gl MQ F valor-p F crítico Seo Amostra 56837,6 56837,6,69 0, 4,6 Idade Colunas 908746,9 46043573,4 5,0 0,0 3,40 Interação Interações 040438,9 0509,4,7 0,33 3,40 Erro Dentro 6683384,0 4 908474,3 Total 345037807,4 9 49 Conclusão do eemplo: ANOVA de dois fatores Com base nos dados amostrais, concluímos que os tempos parecem ter médias desiguais para diferentes categorias de idade, mas os tempos parecem ter médias iguais para ambos os seos 50