INTRODUÇÃO. Exemplos. Comparar três lojas quanto ao volume médio de vendas. ... ANÁLISE DE VARIÂNCIA. Departamento de Matemática ESTV.

INTRODUÇÃO Exemplos Para curar uma certa doença existem quatro tratamentos possíveis: A, B, C e D. Pretende-se saber se existem diferenças significativas nos tratamentos no que diz respeito ao tempo necessário para eliminar a doença. Comparar três loas quanto ao volume médio de vendas....

Existem k populações de interesse, nas quais se estuda uma característica comum. Seam X, X,..., X k as variáveis aleatórias que representam tal característica nas populações,,...,k, respectivamente. Hipóteses a testar: H 0 : µ = µ =... = µ k H : µ i µ para algum i e algum tais que i. As k populações podem ser vistas como k níveis de um mesmo factor. A questão é saber se o factor exerce alguma influência na variação da característica em estudo.

Exemplo Para curar uma certa doença existem quatro tratamentos possíveis: A, B, C e D. Pretende-se saber se existem diferenças significativas nos tratamentos no que diz respeito ao tempo necessário para eliminar a doença. Temos apenas um factor, Tratamento, que se apresenta em quatro níveis, A, B, C e D. Através da aplicação da análise de variância com um factor ou "one-way ANOVA", podemos indagar se os tratamentos produzem os mesmos resultados no que diz respeito à característica em estudo. 3

Exemplo Suponhamos agora que existe a suspeita de que uma estação quente é um factor determinante para uma cura rápida. Então, o estudo deve ser conduzido tendo em conta este segundo factor, Estação do Ano. Aqui, a técnica estatística apropriada será a análise de variância com dois factores, também designada por "two-way ANOVA". Neste caso, pode-se testar se existe diferença entre os tratamentos e também se existe diferença entre as estações do ano, no que respeita ao tempo de tratamento até à eliminação da doença. 4

COM UM FACTOR Exemplo O Sr. Fernando Estradas é dono de várias loas que vendem todo o tipo de material para desportos radicais. Ele pretende comparar três loas quanto ao volume de vendas. Para isso, para cada loa, ele selecciona aleatoriamente cinco semanas, onde observa o volume de vendas. Obtém assim uma amostra das vendas semanais para cada loa (as três amostras são independentes). Os dados estão registados na tabela seguinte. Loa Loa Loa 3 47 55 54 53 54 50 49 58 5 50 6 5 46 5 49 X i (médias amostrais) x = 49 x = 56 3 x = 5 x = 5 5

Exemplo Representemos por X i o volume de vendas numa semana na loa i (i =,,3) e por médio de X i. µ i o valor Este exemplo tem apenas um factor de interesse, o factor Loa, e este apresenta três níveis ou grupos: Loa, Loa e Loa 3. Cada nível do factor define uma população de média µ i. Pretende-se saber se as médias dos três níveis, ou populações, são iguais, isto é, pretende-se saber se é de reeitar ou não a hipótese H 0 : µ = µ = µ 3 (igualdade de vendas médias das três loas). 6

Exemplo Questão: Serão as médias amostrais x =49, x =56 e x 3=5 diferentes porque há diferenças entre as médias populacionais µ, µ e µ 3? Ou serão essas diferenças razoavelmente atribuídas a flutuações amostrais? Podemos então formular as seguintes hipóteses: H 0 : µ = µ = µ 3 (não há diferença entre o volume médio de vendas das 3 loas) H : µ para algum i e algum tais que i (há pelo menos duas loas com µ i diferentes volumes médios de vendas) Não seria possível resolver a questão conduzindo três testes de hipóteses, cada um comparando duas médias populacionais, utilizando as técnicas vistas no capítulo anterior? 7

Suponhamos que, de facto, as vendas médias das três loas são iguais, isto é µ = µ = µ 3. Admitindo a independência entre os três testes e fixando para cada teste um nível de significância de 0.05, o nível de significância para o conunto dos três testes, isto é, a probabilidade de decidirmos erradamente que as três médias não são iguais quando de facto o são, seria aproximadamente 0.46. Pensemos nos 3 testes de hipóteses como 3 provas de Bernoulli. Sucesso tomar a decisão errada de reeitar H 0 W nº de decisões erradas (sucessos) nos três testes de hipóteses W ~ B(3, 0.05) A probabilidade de concluirmos erradamente que as 3 médias não são iguais, é igual a 3 3 P ( W ) = P( W = 0) = 0.05 0 0.95 = 0.46. 0 8

PRESSUPOSTOS A aplicação da análise de variância pressupõe a verificação das seguintes condições:. As amostras devem ser aleatórias e independentes.. As amostras devem ser extraídas de populações normais. = k σ 3. As populações devem ter variâncias iguais ( σ σ = L = σ = ) Hipótese de Homocedasticidade. 9

Temos então duas situações possíveis: H 0 é verdadeira as diferenças observadas entre as médias amostrais são devidas a flutuações amostrais. µ = µ = µ 3 =µ todas as amostras provêm de populações com médias iguais. Como se supôs que todas as populações são normais e têm variâncias iguais, isto é o mesmo que extrair todas as amostras de uma única população (de uma única loa). µ Distribuições populacionais quando H 0 é verdadeira (µ =µ =µ 3 =µ). 0

H 0 é falsa as diferenças observadas entre as médias amostrais são demasiado grandes para serem devidas unicamente a flutuações amostrais. As médias das populações não são iguais, ou sea pelo menos duas loas têm volumes de vendas médios diferentes. As amostras recolhidas provêm de populações diferentes. µ 3 µ µ Distribuições populacionais quando H 0 é falsa (as médias não são todas iguais).

Implicações da não verificação dos pressupostos Parece ser consensual que: Violação do pressuposto de normalidade das distribuições populacionais A ANOVA é robusta a desvios da normalidade desde que as amostras não seam pequenas e as distribuições populacionais não seam muito enviesadas nem muito achatadas Violação do pressuposto de igualdade de variâncias populacionais A ANOVA é robusta a desvios da homocedasticidade se: i. as amostras tiverem dimensões semelhantes (o quociente entre a maior e a menor dimensão amostral é,5); ii. as amostras não forem muito pequenas (n i 5) iii. a razão entre a menor e a maior variância não for muito grande (</4). Um teste diz-se robusto quando a probabilidade de erro tipo I se mantém inalterada (e próxima do nível de significância fixado à priori) e/ou a sua potência é mantida em níveis adequados, mesmo que os pressupostos de aplicação não seam válidos. Por outras palavras, o teste produz resultados de confiança mesmo quando aplicado em condições diferentes daquelas para que foi deduzido.

ESTATÍSTICA DE TESTE F A estatística de teste mede a razão entre a variação entre grupos e a variação dentro dos grupos: F = Variação entre grupos Variação dentro dos grupos A hipótese H 0 é pois reeitada para valores grandes da estatística F. 3

Dados e Notação Os dados, usualmente, vêm representados da seguinte maneira: Amostra ( ) 3... k x x x 3... x k Observações ( i ) x x x 3... x k x 3 x 3 x 33... x 3k Médias amostrais M M M O M x x x... 3 x k x Notação: k nº de amostras n nº de observações na amostra k N = = n (total de observações) x média observada na amostra x = n + k n i x i = i= = = n + L+ nk n + n k n x + L+ n média ponderada das médias amostrais k 4

Somas de quadrados k n SS T = ( x i x ) = i = é a soma de quadrados total e mede a variação total nos dados; k SS A = n ( x x ) = é a soma de quadrados entre os níveis, ou grupos, do factor e mede a variação entre grupos (populações); é por vezes designada por variação explicada, pois ela é explicada pelo facto de as amostras poderem provir de populações diferentes; k n SS E = ( ) = i = x i x é a soma de quadrados dentro dos níveis, ou grupos, do factor e mede a variação dentro dos grupos (populações); é por vezes designada por variação não explicada ou residual, pois é atribuída a flutuações dentro do mesma população, portanto não pode ser explicada pelas possíveis diferenças entre os grupos (populações). 5

Somas médias de quadrados MS A = k n = ( x x ) k = SS A. k Soma média de quadrados entre grupos k n ( x x ) MS = i = i E = n + n + L + n k k = SS E N k. Soma média de quadrados dentro dos grupos ou residual 6

Sob o pressuposto de H 0 ser verdadeira, tem-se MS MS A k F = ~ F. E N k H 0 deve ser reeitada se o valor observado de F se situar à direita do ponto crítico. Isto é, reeita-se H 0 se, F obs p c onde, o ponto crítico p c é dado por P k ( F k p ) = α ( n ) c = nível de significância. O ponto crítico p c é o quantil de probabilidade -α da distribuição k k( n ) F e é usualmente denotado por F ) ou por F α, k, k( n ). ( α 7

TABELA DE (ANOVA) Os cálculos para a análise de variância podem ser sumariados numa tabela chamada Tabela ANOVA: Fonte de Variação Soma de Quadrados Graus de Liberdade Entre grupos Dentro dos grupos ou residual Total k SS A = n ( x x ) = n k SS E = ( x x ) = i = n i k SS T = ( x x ) = i = i k Variância (Soma Média de Quadrados) SS A MS = k k- N N MS A F E SSE = N k Razão F = MS MS A E Pode-se provar que SS T = SS A +SS E, o que permite verificar os cálculos da Tabela ANOVA. 8

Exemplo Vamos ver o que podemos concluir ao nível de significância de 0.05. k Cálculo do SS E = ( x x ) 5 n = i = i ( x i x ) = ( 47 49) + ( 53 49) + ( 49 49) + ( 50 49) + ( 46 49) = 30 i= 5 ( x i x ) = ( 55 56) + ( 54 56) + ( 58 56) + ( 6 56) + ( 5 56) = 50 i= 5 ( x i 3 x3 ) = ( 54 5) + ( 50 5) + ( 5 5) + ( 5 5) + ( 49 5) = 4 i=. SS E =30+50+4=94 9

k Cálculo do SS A = n ( x x ) = SS A = 5( 49 5) + 5( 56 5) + 5( 5 5) = 30 Apresentamos a seguir a Tabela ANOVA relativa ao Exemplo. Fonte de Variação Soma de Quadrados Graus de Liberdade Variância (Soma Média de Quadrados) Razão F Entre grupos SS A =30 MS A =30/=65 65/7.83 =8.3 Dentro dos grupos ou residual SS E =94 MS E =94/=7.83 Total SS T =4 4 0

Se a hipótese H 0 é verdadeira, MS A F= ~ MS E F. F 3.89 (quantil de probabilidade -α da distribuição α,, = F ) R.C.=[3.89,+ [ 65 O valor observado da estatística F é: Fobs = = 8. 3 R.C. 7.83 Então a hipótese H 0 é reeitada ao nível de significância de 0.05, isto é, existem diferenças significativas entre as médias amostrais das vendas. Há portanto evidência de que existem pelo menos duas loas com volumes médios de vendas diferentes. Por outras palavras, o factor Loa exerce uma influência significativa sobre o volume de vendas.

Exemplo Suponha que é director de marketing de uma empresa que pretende relançar um produto no mercado. Você estudou três campanhas de marketing diferentes, cada uma deles combina de modo diferente factores como o preço do produto, a apresentação do produto, promoções associadas, etc. Qualquer uma destas campanhas é levada a cabo no ponto de venda, não havendo qualquer publicidade nos meios de comunicação. Para saber se há diferença entre as três campanhas relativamente à sua eficácia, cada uma delas é feita num conunto de loas seleccionadas aleatoriamente, durante um período de duração limitada. Note que as loas são seleccionadas de modo a que as três amostras seam aleatórias e independentes entre si. As vendas (em unidades monetárias u. m.) registadas durante este período constam da tabela seguinte.

Campanha Campanha Campanha 3 8 6 5 6 7 0 8 7 9 0 7 5 8 6 7 5 Soma 3 67 38 Sea X i a v.a. que representa o volume de vendas de uma loa sueita à campanha i (i=,,3). Admitamos que X, X e X 3 têm distribuição normal com iguais variâncias. 3

As hipóteses em teste são: H 0 : µ = µ = µ 3 (não há diferença entre as campanhas de marketing relativamente ao volume médio de vendas a que conduzem) H : µ para algum i e algum tais que i µ i (pelo menos duas campanhas de marketing conduziram a volumes médios de vendas diferentes) Fixemos o nível de significância em 0.0. Sob o pressuposto de H 0 ser verdadeira, MS A F = ~ F 5. MS F 6.36 (quantil de probabilidade -α=0.99 da distribuição α,, 5 = R.C.=[6.36,+ [ E F 5) 4

Para as amostras recolhidas, tem-se: x = 6. 4, x = 9. 574, x 3 = 6. 3333 e x = 7. 6; 44.03 SS A = 44.03 e MS A = =. 05; 30.476 SS E = 30.476 e MS E = =. 065. 5.05 O valor observado da estatística F é: Fobs = = 0. 974 R.C..065 Ao nível de significância de 0.0, reeita-se a hipótese H 0 de igualdade de médias, pois o valor observado da estatística de teste pertence à região crítica. Há, portanto, evidência estatística de que as três campanhas não são iguais relativamente ao volume médio de vendas a que conduzem. Isto é, o tipo de campanha influencia significativamente o volume de vendas. 5

A Tabela ANOVA para este exemplo é a seguinte. Fonte de Variação Soma de Quadrados Graus de Liberdade Variância (Soma Média de Quadrados) Razão F Entre grupos SS A =44.03 MS A =. 05 0.974 Dentro dos grupos ou residual SS E =30.47 5 MS E =. 065 Total SS T =74.77 7 6

TESTES DE COMPARAÇÃO MÚLTIPLA Quando a aplicação da análise de variância conduz à reeição da hipótese nula, temos evidência de que existem diferenças entre as médias populacionais. Mas, entre que médias se registam essas diferenças? Os testes de comparação múltipla permitem responder à questão anterior, isto é, permitem investigar onde se encontram as diferenças possíveis entre k médias populacionais. Existem muitos testes deste tipo, no entanto, aqui vamos abordar apenas dois: teste HSD (honestly significant difference) de Tuckey teste de Scheffé Estes testes permitem examinar simultaneamente pares de médias amostrais para identificar quais os pares onde se registam diferenças significativas. 7

Pressupostos destes testes:. As amostras devem ser aleatórias e independentes;. As amostras devem ser extraídas de populações normais; = k σ 3. As populações devem ter variâncias iguais ( σ L = σ = ) homocedasticidade. TESTE HSD DE TUCKEY Quando as amostras têm tamanhos iguais este teste é mais adequado do que o teste de Scheffé. O teste HSD de Tuckey foi originalmente desenvolvido para amostras de igual tamanho, no entanto, muitos estatísticos sustentam que este é um método robusto a desvios moderados deste pressuposto. Também se considera um dos testes mais robustos a desvios da normalidade e homocedasticidade. 8

Neste teste, duas médias amostrais são comparadas usando MS E S + T ( α ). ni n onde, S T ) é o quantil de probabilidade (-α) da distribuição da Studentized Range com ( α S N : ( k, N k) graus de liberdade T (k, - k) ( W ) P S T ( α ) α T (k, -k) =, W ~ S N. A hipótese H 0 : µ i = µ é reeitada, isto é, as médias amostrais significativamente diferentes, se x i e x são consideradas x i x S T MS E + ( α ).. ni n 9

Também se pode calcular um intervalo de confiança: MS E [ IC] = ( ) ± + (-α) xi x ST ( α ). ni n Exemplo x x = 49 56 7, = x x = 49 5 3 = x x = 56 5 5 3 = Usando um nível de significância igual a 0.05, vem: S =3.77 T ( α ) 30

S T MS E + ). 7.83 ( α = 3.77 =4.78 ni n 5 Como x x 7 > 4.78, reeita-se a hipótese H 0 :µ = µ. = Também, x x 5 > 4.78, logo reeita-se a hipótese H 0 :µ = µ 3. 3 = Finalmente, como x x < 4.78, não se reeita a hipótese H 0 :µ = µ 3. 3 = Assim, há evidência de que a loa tem um volume médio de vendas diferente das loas e 3. Isto é, a média observada para a loa difere significativamente das médias observadas para as loas e 3, enquanto que, a diferença registada entre o volume de vendas da loa e da loa 3 não é significativa. 3

TESTE SCHEFFÉ Neste teste a hipótese nula H 0 : µ i = µ é reeitada se x i x (k -)F( -α). MS E ni + n onde, F ) é o quantil de probabilidade (-α) da distribuição ( α k N k F : ( F F ) = α P k N k ( α ). Intervalo de confiança: [ IC ] ( ) (-α) = xi x ± (k -)F(- α). MSE + ni n 3

Exemplo x x = 6.4 9.574 3. 74 = x x = 6.4 6.3333 0. 0667 3 = x x = 9.574 6.3333 3. 38 3 = Consideremos um nível de significância igual a 0.0. x = 3.74> ( k ) F( α ). x MS E ni + n = 6. 36..065 + =.97, reeita-se a hipótese H 0 : µ = µ ; 5 7 33

x x 3 = 0.0667< 6. 36..065 + =3.0667 não se reeita H 0 : µ = µ 3 ; 5 6 x x 3 = 3.38 > 6. 36..065 + =.877, reeita-se H 0 : µ = µ 3. 6 7 Assim, ao nível de significância de 0.0, há evidência de que à campanha de marketing está associado um volume médio de vendas diferente dos volumes médios associados às campanhas e 3. Isto é, a média observada para a campanha difere significativamente das médias observadas para as campanhas e 3, enquanto que, a diferença registada entre as campanhas e 3 não é significativa. 34

TESTES PARA A COMPARAÇÃO ENTRE K VARIÂNCIAS k i σ Hipóteses a testar: H 0 : σ = σ = L = σ H : σ para algum i e algum tais que com i Teste de Bartlett Este teste tem como pressuposto que as populações tenham distribuição normal. Além disso, só é aplicável quando as diferentes amostras envolvidas tenham dimensões n não inferiores a quatro ( n 4, para todo o ). 35

k ~ 0 = sobh B = p χ k C Estatística de teste: ( N k)ln( S ) ( n )ln ( S ) onde, N= S S C p k n = = n = N k n i= k = ( X ( n i X ) S k = + 3( k ) = n N k ) Trata-se de um teste unilateral à direita: reeita-se H 0 se B obs χ α, k, onde quantil de probabilidade (-α) da distribuição χ. k α, k χ é o 36

Exemplo Vamos testar a hipótese H 0, de igualdade de variâncias das três variáveis consideradas, ao nível de significância de 0.0. Sob o pressuposto de H 0 ser verdadeira, B = ( N k)ln p C = k ( S ) ( n )ln( S ) χ 0.99, = 9. (quantil de probabilidade 0.99 da distribuição χ ) ~ χ. R.C.= [9., + [. Para as amostras recolhidas tem-se, B obs = [ 5ln(.065) 4ln(.3) 6ln(.95) 5ln(.4667) ] =0.97 R. C..0967 Ao nível de significância de 0.0, não se pode reeitar a hipótese de que as três variáveis populacionais tenham iguais variâncias. 37