Itrodução Exemplos Para curar uma certa doeça existem quatro tratametos possíveis: A, B, C e D. Pretede-se saber se existem difereças sigificativas os tratametos o que diz respeito ao tempo ecessário para elimiar a doeça. Comparar três lojas quato ao volume médio de vedas.... 1 Existem populações de iteresse, as quais se estuda uma característica comum. Sejam 1,,..., as variáveis aleatórias que represetam tal característica as populações 1,,...,, respectivamete. Hipóteses a testar: H 0 : 1 = =... = H 1 : i j para algum i e algum j tais que i j. As populações podem ser vistas como íveis de um mesmo factor. A questão é saber se o factor exerce alguma ifluêcia a variação da característica em estudo.
Exemplo Para curar uma certa doeça existem quatro tratametos possíveis: A, B, C e D. Pretede-se saber se existem difereças sigificativas os tratametos o que diz respeito ao tempo ecessário para elimiar a doeça. Temos apeas um factor, Tratameto, que se apreseta em quatro íveis, A, B, C e D. Através da aplicação da aálise de variâcia com um factor ou "oe-way ANOVA", podemos idagar se os tratametos produzem os mesmos resultados o que diz respeito à característica em estudo. 3 Exemplo Supohamos agora que existe a suspeita de que uma estação quete é um factor determiate para uma cura rápida. Etão, o estudo deve ser coduzido tedo em cota este segudo factor, Estação do Ao. Aqui, a técica estatística apropriada será a aálise de variâcia com dois factores, também desigada por "two-way ANOVA". Neste caso, pode-se testar se existe difereça etre os tratametos e também se existe difereça etre as estações do ao, o que respeita ao tempo de tratameto até à elimiação da doeça. 4
Aálise de Variâcia com Um Factor Exemplo 1 O Sr. Ferado Estradas é doo de várias lojas que vedem todo o tipo de material para desportos radicais. Para uma determiada loja foram recolhidas três amostras aleatórias e idepedetes das vedas semaais (em u.m.); cada uma destas amostras costituída por cico observações (vedas em 5 semaas, =5). Dados recolhidos: Amostra 1 Amostra Amostra 3 49 5 55 55 51 51 51 55 5 5 58 5 48 49 50 51 53 5 3 valores observados da v. a. 5 Exemplo 1 Naturalmete, obtivemos as três amostras volumes de vedas médios diferetes, o que se deve, como sabemos, às flutuações amostrais. A variação de, de amostra para amostra, pode ser medida pela sua variâcia:. Em geral, descohece-se o valor de descohece-se o valor de Mas, podemos obter uma estimativa deste parâmetro. 6
Exemplo 1 Calculamos a média dos valores observados de a média das médias amostrais: Usámos o estimador: 51 53 5 x 5 (estimativa) 3 1 i i1 (ode é o úmero de amostras) Fialmete, estimamos a variâcia de por: 1 51 5 53 5 5 5 1 1 0 1 1 s (estimativa) 3 1 1 1 Usámos o estimador: S i 1 i 7 Exemplo Supohamos agora, que o Sr Ferado Estradas pretede comparar três lojas quato ao volume de vedas. Para isso, para cada loja, ele seleccioa aleatoriamete cico semaas, ode observa o volume de vedas. Obtém assim uma amostra das vedas semaais para cada loja (as três amostras são idepedetes). Os dados estão registados a tabela seguite. Loja 1 Loja Loja 3 47 55 54 53 54 50 49 58 51 50 61 51 46 5 49 i (médias amostrais) x 1 = 49 x = 56 3 i 9 16 1 x = 51 x = 5 x i x = 6 8
Exemplo Represetemos por i o volume de vedas uma semaa a loja i (i = 1,,3) e por i o valor médio de i. Este exemplo tem apeas um factor de iteresse, o factor Loja, e este apreseta três íveis ou grupos: Loja 1, Loja e Loja 3. Cada ível do factor defie uma população de média i. Pretede-se saber se as médias dos três íveis, ou populações, são iguais, isto é, pretede-se saber se é de rejeitar ou ão a hipótese H 0 : 1= = 3 (igualdade de vedas médias das três lojas). 9 Exemplo Questão: Serão as médias amostrais x 1 =49, x =56 e x 3 =51 diferetes porque há difereças etre as médias populacioais 1, e 3? Ou serão essas difereças razoavelmete atribuídas a flutuações amostrais? Podemos etão formular as seguites hipóteses: H 0 : 1= = 3 (ão há difereça etre o volume médio de vedas das 3 lojas) H 1 : i j para algum i e algum j tais que i j (há pelo meos duas lojas com diferetes volumes médios de vedas) Não seria possível resolver a questão coduzido três testes de hipóteses, cada um comparado duas médias populacioais, utilizado as técicas vistas o capítulo aterior? 10
Supohamos que, de facto, as vedas médias das três lojas são iguais, isto é 1= = 3. Admitido a idepedêcia etre os três testes e fixado para cada teste um ível de sigificâcia de 0.05, o ível de sigificâcia para o cojuto dos três testes, isto é, a probabilidade de decidirmos erradamete que as três médias ão são iguais quado de facto o são, seria aproximadamete 0.146. Pesemos os 3 testes de hipóteses como 3 provas de Beroulli. sucesso tomar a decisão errada de rejeitar H 0 W º de decisões erradas (sucessos) os três testes de hipóteses W ~ B(3, 0.05) A probabilidade de cocluirmos erradamete que as 3 médias ão são iguais, é igual a 3 0 3 P W 1 1 PW 0 1 0.05 0.95 = 0.146. 0 11 A aplicação da aálise de variâcia pressupõe a verificação das seguites codições: 1. As amostras devem ser aleatórias e idepedetes.. As amostras devem ser extraídas de populações ormais. 3. As populações devem ter variâcias iguais ( 1 ). 1
Temos etão duas situações possíveis: H 0 é verdadeira as difereças observadas etre as médias amostrais são devidas a flutuações amostrais. 1= = 3 = todas as amostras provêm de populações com médias iguais. Como se supôs que todas as populações são ormais e têm variâcias iguais, isto é o mesmo que extrair todas as amostras de uma úica população (de uma úica loja como o Exemplo 1). Distribuições populacioais quado H 0 é verdadeira ( 1 = = 3 =). 13 H 0 é falsa as difereças observadas etre as médias amostrais são demasiado grades para serem devidas uicamete a flutuações amostrais. As médias das populações ão são iguais, ou seja pelo meos duas lojas têm volumes de vedas médios diferetes. As amostras recolhidas provêm de populações diferetes. 3 1 Distribuições populacioais quado H 0 é falsa (as médias ão são todas iguais). 14
Note que é suposto que 1. A aálise de variâcia vai estimar por dois processos diferetes e comparar os valores obtidos. 1º PROCESSO Estimativa detro da variâcia: s p Como todas as amostras são extraídas de populações com a mesma variâcia, etão, para estimar este parâmetro, poderíamos utilizar qualquer uma das amostras. Assim, poderíamos obter estimativas de, uma por cada amostra. 15 Exemplo Temos as seguites estimativas de : s 1 1 s 5 1 1 s 5 1 5 1 47 49 53 49 49 49 50 49 46 49 7. 5 55 56 54 56 58 56 61 56 5 56 1. 5 54 51 50 51 51 51 51 51 49 51 3. 5. 1 3 Tomado a média destas estimativas obtemos outra estimativa para, s1 s s3 s p 7.83. 3 16
O que fizemos foi combiar as três estimativas ateriores, de modo a produzir uma outra estimativa que use a iformação cotida as três amostras recolhidas. A fórmula geral para o cálculo da estimativa detro da variâcia é: s1 s s s p ode, si variâcia amostral da amostra i. Note que esta estimativa ão é afectada pela veracidade ou falsidade de H 0, o que já ão acotece com a que iremos obter pelo processo seguite. 17 º PROCESSO Estimativa etre da variâcia: s b Já vimos ateriormete, que se H 0 é verdadeira podemos ecarar as três amostras como sedo proveietes da mesma população () (da mesma loja, como o Exemplo 1). Admitido que H 0 é verdadeira ( 1 = = 3 =) Distribuição da média amostral: ~ N(, / ) Distribuição populacioal: ~ N(, ) 18
Os valores médios observados as três amostras, x 1, x e x 3, podem ser ecarados como três valores observados de uma v. a. ~ N(, / ).., sugerido que se estime através de b. s s, com s 1 1 i 1 x x i estimativa de. 19 Se H0 for falsa Pelo meos duas distribuições populacioais são diferetes. Isto é, as variáveis aleatórias i têm distribuições ormais, com iguais variâcias, mas, pelo meos duas, têm médias diferetes. Etão também 1, e 3, vão ter distribuições diferetes: 1 1 3 3 ~ N(, / ), ~ N(, / ) e ~ N(, / ), ode 1 ou 1 3 ou 3. Distribuições da média amostral Distribuições populacioais 3 1 0
Assim, x 1, x e x 3 são valores observados de variáveis aleatórias com distribuições diferetes, o que se vai reflectir, evetualmete, uma maior dispersão desses valores, coduzido a um maior valor de s e cosequetemete a um maior valor de b. s s. Exemplo : s 3 1 logo a estimativa etre da variâcia é: 6 49 5 56 5 51 5 13 1 b. s s 513 65. 1 Estatística de teste F A estimativa detro da variâcia, s p, ão é afectada pela veracidade ou falsidade de H 0. Ao cotrário, a estimativa etre da variâcia, a s p quado H 0 é verdadeira e maior do que esta se H 0 é falsa. s b, já o é, sedo aproximadamete igual A estatística de teste é,. S Sb F. S S p p
Se H 0 é verdadeira, pode ser estimada pelos dois processos e como as duas estimativas serão aproximadamete iguais, a razão F será próxima de 1. Se H 0 for falsa, as difereças as médias populacioais 1, e 3 vão provocar maior variabilidade as médias amostrais. Isto é, s será grade e cosequetemete s b será também grade comparativamete com s p. A razão F tomará um valor maior que 1. Sob o pressuposto de H 0 ser verdadeira, tem-se F p b p. S S ~ S S 1 ( 1) F. 3 H 0 deve ser rejeitada se o valor observado de F se situar à direita do poto crítico. Isto é, rejeita-se H 0 se, F obs p c ode, o poto crítico p c é dado por P F p 1 1) ( = ível de sigificâcia. c O poto crítico p c é o quatil de probabilidade 1- da distribuição 1 ( 1) F e é usualmete deotado por F ( 1 ) ou por F1, 1, ( 1). 4
Exemplo Vamos ver o que podemos cocluir ao ível de sigificâcia de 0.05. Se a hipótese H 0 é verdadeira, b p S F ~ S F 1. F 3.89 (quatil de probabilidade 1- da distribuição 1,, 1 F 1) R.C.=[3.89,+[ 65 O valor observado da estatística F é: Fobs 8. 3R.C. 7.83 Etão a hipótese H 0 é rejeitada ao ível de sigificâcia de 0.05, isto é, existem difereças sigificativas etre as médias amostrais das vedas. Há portato evidêcia de que existem pelo meos duas lojas com volumes médios de vedas diferetes. Por outras palavras, o factor Loja exerce uma ifluêcia sigificativa sobre o volume de vedas. 5 Tabela de aálise de variâcia (ANOVA) Os dados, usualmete, vêm represetados da seguite maeira: Amostra ( j ) 1 3... x 11 x 1 x 13... x 1 Observações ( i ) x 1 x x 3... x x 31 x 3 x 33... x 3 x 1 x x 3... x Médias amostrais x1 x x 3... x x 6
Os cálculos para a aálise de variâcia podem ser sumariados uma tabela chamada Tabela ANOVA: Fote de Variação Soma de Quadrados Etre grupos Detro dos grupos ou residual Total SS A = x j x j1 SS E = j1i 1 x ij x j SS T = x ij x j1i 1 Graus de Liberdade Variâcia (Soma Média de Quadrados) Razão F -1 SS A S MS Sb MS b A F= 1 S MS (-1) -1 S p MS E SSE ( 1) p A E 7 Note que: s p s j1i 1 x x x x x x i1 1 i i i1 i1 i1 s 1 1 1 1 s x ij x ( 1) j SS E = MS E ( 1) e, s b. s = j1 x j x 1 SS A = MS A 1 8
SS T = x ij x j1i 1 é a soma de quadrados total e mede a variação total os dados; SS A = j1 x j x SS E = j1i 1 x ij x j é a soma de quadrados etre os íveis, ou grupos, do factor e mede a variação etre grupos (populações); é por vezes desigada por variação explicada, pois ela é explicada pelo facto de as amostras poderem provir de populações diferetes; é a soma de quadrados detro dos íveis, ou grupos, do factor e mede a variação detro dos grupos (populações); é por vezes desigada por variação ão explicada ou residual, pois é atribuída a flutuações detro do mesma população, portato ão pode ser explicada pelas possíveis difereças etre os grupos (populações). 9 Pode-se provar que: SS T = SS A +SS E o que permite verificar os cálculos da Tabela ANOVA. Apresetamos a seguir a Tabela ANOVA relativa ao Exemplo. Fote de Variação Soma de Quadrados Graus de Liberdade Variâcia (Soma Média de Quadrados) Razão F Etre grupos SS A =130 MS A = s 65 8.3 Detro dos grupos SS E =94 1 MS E = s p 7. 83 ou residual Total SS T =4 14 b 30
Amostras de Tamahos Diferetes Se as amostras têm tamahos diferetes, as fórmulas apresetadas ateriormete devem ser coveietemete modificadas. j º de observações a amostra j º de amostras N j 1 j (total de observações) x j média observada a amostra j x 1 i x ij j1i 1 j1 1 j x j média poderada das médias amostrais 31 Soma média de quadrados etre grupos j x j x j1 MS A = 1 SS A. 1 Soma média de quadrados detro dos grupos ou residual j x x j MS i ij j 1 1 E 1 SS E N. A Tabela ANOVA para amostras de tamahos diferetes. Fote de Variação Soma de Quadrados Graus de Liberdade Etre grupos Detro dos grupos SS A = x x j1 j ou residual SS E = xij x j Total j j1i 1 j SS T = x x j1i 1 j ij N N 1 Variâcia (Soma Razão F Média de Quadrados) SS A MS Sb MS A F= S MS -1 1 MS E SSE N p A E 3
Exemplo 3 Supoha que é director de maretig de uma empresa que pretede relaçar um produto o mercado. Você estudou três campahas de maretig diferetes, cada uma deles combia de modo diferete factores como o preço do produto, a apresetação do produto, promoções associadas, etc. Qualquer uma destas campahas é levada a cabo o poto de veda, ão havedo qualquer publicidade os meios de comuicação. Para saber se há difereça etre as três campahas relativamete à sua eficácia, cada uma delas é feita um cojuto de lojas seleccioadas aleatoriamete, durate um período de duração limitada. Note que as lojas são seleccioadas de modo a que as três amostras sejam aleatórias e idepedetes etre si. As vedas (em uidades moetárias u. m.) registadas durate este período costam da tabela seguite. 33 Campaha 1 Campaha Campaha 3 8 6 5 6 7 10 8 1 7 9 10 7 5 8 6 7 5 11 Soma 3 67 38 Seja i a v.a. que represeta o volume de vedas de uma loja sujeita à campaha i (i=1, ou 3). Admitamos que 1, e 3 têm distribuição ormal com iguais variâcias. As hipóteses em teste são: 34
H 0 : 1= = 3 (ão há difereça etre as campahas de maretig relativamete ao volume médio de vedas a que coduzem) H 1 : i j para algum i e algum j tais que ij (pelo meos duas campahas de maretig coduziram a volumes médios de vedas diferetes) Fixemos o ível de sigificâcia em 0.01. Sob o pressuposto de H 0 ser verdadeira, MSA F ~ F 15. MS F 6.36 (quatil de probabilidade 1-=0.99 da distribuição 1,, 15 R.C.=[6.36,+[ Para as amostras recolhidas, tem-se: E F 15) 35 x 1 6. 4, x 9. 5714, x 3 6. 3333 e x 7. 611; SS A = 44.03 e 44.03 MS A =. 015; SS E = 30.476 e 30.476 MS E =. 0165. 15.015 O valor observado da estatística F é: Fobs 10. 9174R.C..0165 Ao ível de sigificâcia de 0.01, rejeita-se a hipótese H 0 de igualdade de médias, pois o valor observado da estatística de teste pertece à região crítica. Há, portato, evidêcia estatística de que as três campahas ão são iguais relativamete ao volume médio de vedas a que coduzem. Isto é, o tipo de campaha ifluecia sigificativamete o volume de vedas. 36
A Tabela ANOVA para este exemplo é a seguite. Fote de Variação Soma de Quadrados Graus de Liberdade Variâcia (Soma Razão F Média de Quadrados). 10.9174. Etre grupos SS A =44.03 MS A = 015 Detro dos SS E =30.47 15 MS E = 0165 grupos ou residual Total SS T =74.77 19 37