Análise de Variância ANOVA ENG09004 014/ Prof. Alexandre Pedott pedott@producao.ufrgs.br
ANOVA Os testes de hipótese apresentados até aqui limitaram-se à comparação de duas médias ou duas variâncias. Contudo, há situações onde se deseja comparar várias médias, cada uma oriunda de um grupo diferente. Esses grupos, também chamados tratamentos, poderiam ser: a performance em Km/l de carros consumindo 4 marcas de combustíveis, a eficiência de 3 métodos de treinamento, comparação da produtividade entre 5 máquinas ou 3 postos de trabalho ou 3 layouts.
One Way ANOVA One Way ANOVA - Analisa experimentos que envolvem: 1 Variável de resposta 1 Fator controlável a vários níveis (vários grupos) Os ensaios (repetições) realizados em cada nível do fator controlável configuram um grupo O objetivo é identificar se os valores da variável de resposta medidos nos diversos níveis do fator controlável diferem entre si.
Exemplo: Um profissional deseja estudar se a temperatura ambiente influencia na produtividade dos funcionários. Para isso realizou três medidas de produtividade (peças/hora) em três temperaturas diferentes. Fator controlável: temperatura Níveis do fator controlável: 15, 5, 35 Variável de resposta: produtividade Repetições: 3 valores para cada nível Temperatura (ºC) 15 5 35 1 0 17 13 19 16 Fator controlável Níveis do fator control. Variável de resposta 11 18 18
Existem dois tipos de experimentos Fatores Controláveis a níveis fixos: quando o efeito de cada nível é fixo, como no caso em que os tratamentos são 4 pressões de operações, ou 4 layouts ou 5 temperaturas; Por ex., 6 linhas produtivas. Fatores Controláveis a níveis aleatórios: quando o efeito de cada nível é aleatório, como no caso em que os tratamentos são k lotes de produção, ou k operadores escolhidos aleatoriamente; Por ex., 3 lotes escolhidos ao acaso.
Modelo Estatístico Os resultados poderiam ser representados por um modelo aditivo: Y ij onde: Y ij é a observação j medida no tratamento i; média geral de todas as observações; i. efeito do tratamento i; ij i. ij ; i erro aleatório; 1,..., k j = 1,..., n j
Arranjo Experimental Fator A A 1 A... A k y 11 y 1... y k1 y 1 y... y k : : : : : : y ij : : : : : y 1,n1 y,n... y k,nk Totais T i. T 1. T.... T k. T.. = No.Obs. n i n 1 n... n k N = Médias Yi. Y 1. Y.... Y k. Y..
Exemplo Temperatura 15 5 35 1 0 17 Níveis do fator controlável Y ij 0 = 16 + 3 + 1 13 19 16 11 18 18 T i. 36 57 51 T.. 144 n 3 3 3 N 9 i Y 1 19 17 Y 16 i. Modelo Estatístico i ij..
Formulação matemática da ANOVA Y ij = 0 ( - ) 0-16 4 Y ij Y.. Y. 19 ( ) Y Y ij - i. ( - ) 0-19 1 Y i. Y.. 19-16 3 Y 3. 17 Y 1. 1 ( ) ( ) ( ) Y -Y Y -Y Y -Y ij.. i... ij i. 4 = 3 + 1 Y.. 16 15 o C 5 o C 35 o C Yij i ij 0 = 16 + 3 + 1
Teste de Hipótese H 0 : não há diferenças significativas entre os grupos;... 1 k H 1 : há diferenças significativas entre os grupos. 1... k
Decomposição da variabilidade A Análise de Variância se baseia na decomposição da variabilidade total. Mais especificamente, os desvios das observações individuais em relação a média global podem ser escritos como: ( Y -Y ) ( Y ) ( ) i. -Y Y -Y. ij.... ij i ( Y ) i. -Y.. é o desvio da média do tratamento i em relação à média global. ( Y ) ij -Y i. é o desvio da observação individual em relação a média do tratamento i correspondente.
Elevando ao quadrado ambos os termos e efetuando o somatório, resulta: ( ) ( ) - - ( - ) Yij Y.. ni Yi. Y.. Yij Yi. ij i Desde que é fácil demonstrar que ( Y - Y )( Y Y ).. - i. 0 i. ij Identificamos as seguintes somas quadradas: SQT = SQG + SQR SQT soma dos quadrados totais, decomposta em: SQG soma dos quadrados dos grupos (tratamentos), associada exclusivamente a um efeito dos grupos; SQR soma dos quadrados dos resíduos, devida exclusivamente ao erro aleatório, medida dentro dos grupos.
Teste F Observamos que a soma quadrada dos resíduos dividida pelos seus graus de liberdade fornecerá uma estimativa da variância dentro dos grupos: MQR SQR N - k ( Y -Y ) Da mesma forma, se não houver efeito dos grupos, a divisão da SGQ pelos respectivos graus de liberdade também fornecerá uma estimativa da variância dentro dos grupos: i, j ij N - k i. MQG ( Y ) i. -Y.. ( ) n / SQG n k -1 k -1 n
Teste F Notem que, se não há efeito dos grupos, a quantidade entre colchetes é a variância das médias, a qual sabe-se que é igual a /n. As grandezas apresentadas acima são chamadas de médias quadradas, Observa-se que as Médias Quadradas são simplesmente uma outra notação para Variância. MQG = SQG/(k-1) é a Média Quadradas dos Grupos; MQR = SQR/(N-k) é a Média Quadradas dos Resíduos;
Teste F Obseva-se que para as somas quadradas vale a aditividade: SQT = SQG + SQR N-1 = (k-1) + (N-k) Mas o mesmo não vale para as médias quadradas MQT MQG + MQR
Teste de hipótese Se não há diferença significativa entre os grupos: E(MQG) = E (MQR) Para testar a hipótese referente ao efeito dos grupos usamos a distribuição F que é o modelo adequado para a distribuição do quociente de duas variâncias. F calc MQG MQR Estima a variância entre os grupos Estima a variância dentro do grupo
Teste de Hipótese Verifica-se que, se não há efeito dos grupos, esse quociente é próximo de 1 Se há efeito dos grupos esse quociente será significativamente maior do que 1 O limite de decisão é estabelecido usando os valores tabelados da distribuição F : F,k -1,N - k = nível de significância graus de liberdade do numerador: k-1 graus de liberdade do denominador: N-k
Distribuição F
Distribuição F Rejeita H 0 ( 1 = =... = k ) se F calculado > F tabelado = F,k -1,N -k Logo, há diferença significativa entre os grupos Caso contrário, não há diferenças significativas entre os grupos
Formulário para cálculo TC (T..) N ( ) SQT Y -TC SQG SQR ij ( ) T n - i. i TC ( ) ( ) Y - T n (Termo de Correção) SQT - ij i. i SQG onde: T.. é a soma de todas as observações T i. é a soma das observações no grupo i
Tabela ANOVA Os cálculos associados à Análise de Variância são apresentados em uma tabela, chamada de Tabela de Análise de Variância ou Tabela ANOVA (Analysis of Variance): Fonte de Variação Soma dos Quadrados GDL Média Quadrática F CAL F TAB Entre Grupos SQG k-1 MQG = SQG/(k 1) MQG / MQR F,k -1,N -k Dentro do Grupo SQR N k MQR = SQR/(N - k ) Total SQT N 1
Exemplo a níveis fixos Os dados a seguir representam o alongamento de um composto de borracha, em função da quantidade de agente de processo adicionado durante a mistura. Agente 0 5 10 15 0 43 47 55 50 5 47 53 50 54 49 46 5 54 54 54 45 50 55 55 55 45 49 5 56 55 46 51 53 5 56 47 55 55 57 56 44 48 56 57 53 4 49 59 55 57 48 50 56 60 60 49 47 57 56 57 44 49 54 58 55 Totais 546 600 656 664 659 T..= 315 N o Obs. 1 1 1 1 1 N = 60 Médias 45,5 50,0 54,7 55,3 54,9 Y.. 5, 08
Tabela ANOVA TC = T.. / N = (315) / 60 = 16.760,4 SQT = S (Y ij ) - TC = 163.971,00-16.760,4 = 110,58 SQG = S (T i. / n i ) - TC = [(546) / 1] +... + [(659) / 1] - 16.760,4 = 875,33 SQR = SQT - SQG = 110,58-875,33 = 335,5 Fonte SQ GDL MQ Teste F Entre Grupos 875,33 4 18,83 35,9 (Agente de processo) Dentro Grupos (Residual) 335,5 55 6,09 Total 110,58 59
Teste de Significânica Como F calculado > F tabelado = F 0,05,4,55 35,9 >,55 Conclui-se que existe diferença significativa de alongamento entre os grupos, ou seja, a quantidade de agente na mistura influencia significativamente o alongamento Qual a melhor quantidade considerando qualidade e economia?
Comparação múltipla de médias (1) Calcular o desvio padrão das médias s MQR / x n c onde n c = (n 1 + n +... + n k ) / k () Calcular o limite de decisão L d = 3 x S X (3) Escrever as médias em ordem crescente ou decrescente e compará-las duas a duas. A diferença será significativa se for maior que o L d. (4) Usar barras contínuas sobre as médias que não diferem entre si.
Comparação múltipla de médias Calcular o desvio padrão das médias sx MQR / n c =,47 / 3,46 = 0,71 onde n c = (n 1 + n +... + n k ) / k Calcular o limite de decisão L 3 = 3 x 0,71 =,13 d s x Escrever as médias em ordem crescente ou decrescente e compará-las duas a duas. Y 1. Y. Y 3. Y 5. Y 4. 45,5 50,0 54,7 54,9 55,3
Comparação múltipla de médias A diferença entre as médias será significativa se for maior que o L d. Y () - Y (1) = 50,0-45,5 = 4,5 > L d =,13 Y (3) - Y () = 54,7-50,0 = 4,7 > L d =,13 Y (5) - Y (3) = 54,9-54,7 = 0, < L d =,13 Y (4) - Y (5) = 55,3-54,9 = 0,4 < L d =,13 Dif. Signif. Dif.Signif. Dif. Não Signif. Dif. Não Signif. Usar barras contínuas sobre as médias que não diferem entre si Y (1) Y () Y (3) Y (5) Y (4)
Otimização A análise técnica deve acompanhar e completar a análise estatística. Para isso é recomendável representar graficamente os dados. Para os dados do experimento anterior, poderia se usar, por exemplo, um boxplot. Na otimização devemos considerar o binômio qualidade e custo. Os resultados estatísticos, em conjunto com a análise gráfica dão suporte à tomada de decisão a respeito do processo. Via de regra, o experimento revela opções para a redução de custos e melhoria da qualidade, simultaneamente.
A l o n g a m e n t o Otimização 65 Boxplot 55 45 35 G1 G G3 G4 G5 Agente de processo Como não existe diferença significativa entre as quantidades de agente 10, 15 e 0, a quantidade ótima de agente é 10 (dez) pois otimiza simultaneamente qualidade e custos
Exemplo a níveis aleatórios Uma fábrica de embalagens de papel recebe a matéria prima (papel) em rolos. É desejável que as características dos rolos sejam homogêneas, de modo a fornecerem papel com a mesma resistência à tração. O engenheiro suspeita que além da variabilidade inerente (dentro dos rolos) também possa haver uma variação significativa entre os rolos. Medições de resistência feitas em embalagens produzidas com material proveniente de cinco rolos aleatoriamente indicaram:
Exemplo a níveis aleatórios Hipóteses H o : não há diferenças significativas entre os rolos = 0 H 1 : há diferenças significativas entre os rolos > 0 Rolo Rolo Resistência 1 7 73 70 74 74 75 78 77 80 76 63 70 69 65 66 66 6 65 67 63 3 78 74 8 76 76 73 75 4 75 74 73 78 75 71 67 73 5 85 8 80 86 83 9 89 86 Cálculos iniciais: T i. n Y i i. 1 749 10 74,90 656 10 65,60 3 534 7 76,9 4 586 8 73,5 5 683 8 85,38 T.. = 308 N = 43 Y.. 74, 60
Tabela ANOVA TC = (T.. ) / N = (308) /43 = 39331,7 ij SQT = S( Y ) - TC = 41476,0-39331,7 = 144,8 SQG = S( T i. /n i ) - TC = [(749) /10] +... + [(683) /8] - 39331,7 = 1774,18 SQR = SQT - SQG = 144,8-1774,18 = 370,10 Fonte SQ GLD MQ Teste F Rolos 1774,18 4 443,54 45,54 Resíduos 370,10 38 9,74 Total 144,8 4 F calculado = 45,54 > F 0,05,4,38 =,618 Há diferenças significativas entre os rolos
Estimativa dos componentes de variação Pode ser demonstrado que o valor esperado das médias quadradas vale: E (MQG) = + n c E (MQR) = A partir dessas equações, podemos obter as estimativas para os componentes de variação e : = MQR c MQG - MQG - MQR n n c
Estimativa dos componentes de variação Conhecidos os componentes de variação, podemos calcular a contribuição percentual de cada termo na composição da variabilidade total: Var ( ) Y ij TOTAL Percentual correspondente aos tratamentos: Percentual correspondente ao erro aleatório: 100 x 100 x TOTAL TOTAL
Estimativa dos componentes de variação = MQR = 9,74 MQG - MQR n TOTAL c 443,54-8,6 50,44 9, 74 9, 74 50,44 60,18 Os resultados indicam que 50,44 / 60,18 = 83,81 % da variabilidade total se deve a diferenças entre rolos. As causas dessas diferenças deveriam ser investigadas e, na medida do possível, eliminadas.
Otimização Via de regra, a variabilidade devida aos tratamentos se deve a causas especiais que podem e devem ser eliminadas. 100 Re 90 80 70 60 0 1 3 4 5 6 Rolo
Otimização Por exemplo, diferenças entre máquinas podem ser devidas a falta de manutenção apropriada ou diferenças de setup. Similarmente, diferenças entre lotes de produção podem ser devidas a qualidade da matéria prima usada na produção de cada lote. Nesse caso, deveriam ser investigados os fornecedores, ou as condições de estocagem, etc. A variabilidade devida ao erro aleatório deve-se a causas comuns, inerentes ao sistema em estudo. Para eliminar as causas comuns é preciso modificar o sistema como um todo, o que pode não se justificar economicamente
Exercícios 8.1) Quatro concentrações de catalisadores que podem afetar o tempo de processo de uma mistura química estão sendo investigados. Os seguintes tempos de misturas foram obtidos:
Pede-se: Fazer a análise de Variância e concluir a respeito do efeito dos catalisadores. Fazer uma comparação múltipla de médias se for o caso. Fazer um gráfico de barras da concentração x tempos, e concluir a respeito do que deve ser feito para (i) assegurar qualidade e (ii) assegurar economia.
Cálculos iniciais: TC = T.. / N = S (Y ij ) = SQT = (Y ij ) - TC = SQG = (T i. / n i ) - TC = SQR = SQT - SQG =
Tabela Anova: Fonte de Variação SQ GDL MQ Teste F Entre Grupos SQG k-1 MQG MQG/MQR Dentro Grupos SQR N-k MQR Total SQT N-1 F calculado = F tabelado = Efeito dos catalisadores é significativo?
Exercícios 8.) Um jogo de oito pneus das marcas M1, M e M3 foram testados quanto a durabilidade. Os resultados obtidos (em milhares de Km) foram os que seguem: Marca M1 M M3 Totais Média 45 40 4 44 40 35 48 44 44 47 41 39 44 46 41 40 31 36 43 41 43 45 33 38 a)qual a variável de resposta e qual o fator controlável? b)quantos níveis possui o fator controlável? c)faça a análise de variância e conclua a respeito do fator em estudo. d)caso necessário, faça uma comparação múltipla de médias. e)plote um gráfico relacionando o fator controlável com a resposta medida. f)indique o que deve ser feito para assegurar qualidade. g)indique o que deve ser feito para obter economia.
Exercícios 8.3) Um grupo de engenheiros está estudando o efeito do ângulo de uma ferramenta de corte sobre o acabamento superficial resultante após a operação. As medições de rugosidade (menor é melhor) efetuadas revelaram: Marca 0º 5º 10º 15º Totais Média 10 1 1 8 7 9 4 6 4 5 7 6 11 1 14 10 7 7 5 5 7 6 8 10 1 1 9 6 8 8 3 6 4 6 10 6 a)qual a variável de resposta e qual o fator controlável? b)quantos níveis possui o fator controlável? c)faça a análise de variância e conclua a respeito do fator em estudo. d)plote um de ângulo da ferramenta X rugosidade. e)indique o que deve ser feito para assegurar qualidade. f)indique o que deve ser feito para obter economia.
Exercícios 8.4) Uma indústria têxtil tem um grande número de teares mecânicos. Supõem-se que a velocidade desses teares seja a mesma. Para verificar essa hipótese, foram escolhidos aleatoriamente cinco teares e a produção medida em um período de uma hora foi anotada: Tear Produção (Kg) 1 3,8 4,0 3,8 3,6 3,9 3,9 3,7 3,6 3,8 4,0 3 4,0 3,9 4,1 4, 4,1 4 4,0 4,0 3,9 3,8 3,9 5 4,0 4,1 4,0 4,1 4, a) Indique se esse é um experimento a níveis fixos ou aleatórios. b) Faça a análise de variância e conclua a respeito do efeito dos teares. c) Estime os componentes de variação.
Exercícios 8.5) Resultados de corpos de prova de concreto com adição de Microssílica indicaram os seguintes resultados de resistência à compressão: Adição Resistência (MPa) 0% 8,1 6,5 4,3 5% 35,3 34,3 37,5 10% 39,8 44,1 4,3 15% 39,1 40,8 43,0 a) Indique se esse é um experimento a níveis fixos ou aleatórios. b) Faça a análise da variância e conclua a respeito do efeito da adição de microssílica. c) Se for o caso, faça uma comparação múltipla de médias. d) Plote um gráfico de linha para a mediana.
Exercícios 8.6) Um engenheiro deseja que os azulejos produzidos em uma indústria cerâmica apresentem a menor absorção de água possível. Os resultados de um experimento feito com três tipos diferentes de argila indicaram o seguinte: Tipo de Argila Absorção (gramas) A1 141 11 18 1 10 A 13 115 98 11 108 139 16 A3 135 1 158 143 155 a) Indique se esse é um experimento a níveis fixos ou aleatórios. b) Faça a análise da variância e conclua a respeito do efeito do tipo de argila. c) Se for o caso, faça uma comparação múltipla de médias. d) Plote um gráfico de barras para as médias.
Exercícios 8.7) Uma metalúrgica tem um grande número de fornos usados para fundição de metais. A temperatura desses fornos deveria ser a mesma. Para testar essa hipótese foram feitas medições em 4 fornos escolhidos aleatoriamente. Analise os resultados e conclua a respeito de possíveis diferenças entre os fornos. Forno Temperatura 1 84 81 89 808 815 817 830 819 809 85 3 8 810 831 84 818 4 86 88 810 80 815
Exercícios 8.8) Um engenheiro industrial desenvolveu um modelo estocástico de simulação que prevê a produtividade mensal em função do intervalo de tempo entre manutenções preventivas. Se esse intervalo for muito curto, as máquinas estarão constantemente em manutenção e a produtividade será baixa. Se o intervalo for muito longo, haverá quebras, exigindo manutenção corretiva, mais demorada, novamente prejudicando a produtividade. Os resultados da simulação aparecem a seguir. Intervalo Produtividade 4 136 137 135 140 136 6 145 146 147 147 148 8 146 144 148 145 145 10 134 131 136 134 133 1 117 119 117 115 116 Faça a análise da variância, plote um gráfico de barras para a produtividade média e conclua a respeito do intervalo ótimo para as intervenções da manutenção produtiva.
Exercícios 8.9) Em uma indústria química um catalisador é utilizado para acelerar um processo de deposição metálica. Foi feito um experimento variando-se a concentração desse catalisador e anotando-se o tempo necessário para completar o processo. Analise os dados usando a Tabela Anova. Depois faça uma comparação múltipla de médias, plote um gráfico de linhas e conclua a respeito da concentração ideal. Concentração Tempos 10 11, 10,4 10,1 10,6 15 10,6 11,1 10,8 11,7 0 1,5 1,0 13, 1,6 5 18,8 19,0 18,4 19,6
Exercícios 8.10) Um profissional da área de ergonomia realizou um estudo para verificar qual posto de trabalho gerava um melhor bem estar para o funcionário. Para isso foram projetados três postos de trabalho e durante um mês os funcionários testaram os novos postos. Ao final de um mês os funcionários responderam um questionários gerando uma nota para o bem estar do funcionário. Analise os dados e conclua a respeito do melhor posto de trabalho. Postos Func. 1 3 1 7 5 8 8 6 9 3 7 7 8 4 8 6 9 5 9 5 8 6 7 6 8 7 8 7 9 8 6 5 10 9 7 6 8 10 6 6 9
Exercícios 8.11) Para analisar a variabilidade na qualidade de um tipo de tijolo de cimento fornecido por uma fábrica, selecionou-se aleatoriamente 5 sacos de cimento durante um certo período de produção e para cada saco foram tomadas três amostra aleatórias. Estime o percentual da variabilidade dentro dos sacos e entre os sacos de cimento. Saco cimento 1 3 4 5 74 68 75 7 79 Resistências 76 71 77 74 81 75 7 77 73 79
Exercícios 8.1) Três layout estão sendo testados em relação a produtividade. Para isso 1 operadores foram avaliados em relação a produtividade medida em peças/hora. Os valores de produtividade estão apresentados na tabela abaixo. Analise os dados e conclua a respeito do melhor layout. Postos Func. 1 3 1 10 15 130 1 16 19 3 14 17 131 4 118 15 18 5 116 18 18 6 10 16 17 7 119 19 16 8 117 18 15 9 11 19 18 10 1 130 19 11 117 17 17 1 10 18 18
RESPOSTAS (catalisador): TC = T.. / N = 59995,05 S (Y ij ) = 60085,8 SQT = (Y ij ) - TC = 90,75 SQG = (T i. / n i ) - TC = 66,69 SQR = SQT - SQG = 4,06 F calculado = 14,8 > F tabelado = 3,4 O efeito dos catalisadores é significativo S x = 0,55 n c = 5 L d = 1,65 Y(1) - Y() = 6,18 > Ld Dif. Signif. Y(1) - Y(3) = 3,08 > Ld Dif. Signif. Y(1) - Y(4) = 4,15 > Ld Dif. Signif. Y() - Y(3) =,9 > Ld Dif. Signif. Y() - Y(4) = 3,97 > Ld Dif. Signif. Y(3) - Y(4) = 1,07 < Ld Dif. Ñ Signif. O catalisador ótimo é o 3 (3 e 4 não dif. sig.), pois otimiza o processo com relação a qualidade e custos.