Aula 10. ANOVA Aálise de Variâcia em SPSS Métodos stadísticos 008 Uiversidade de Averio Profª ladys Castillo Jordá Aálise de Variâcia Objectivo: comparar medidas de localização para mais do que dois grupos de observações Para aalisar as difereças a localização, recorre-se a uma aálise das variâcias dos vários grupos, daí o ome ANOVA. ANOVA Paramétrica vs. Não Paramétrica: Oe-Way ANOVA: (Aálise de Variâcia com um factor) se os grupos são bem modelados por distribuições Normais de igual variâcia, comparamos as médias etre os grupos Teste de Kruskal-Wallis: usar quado os pressupostos do teste paramétrico ão se verificarem, este caso comparamos as mediaas etre os grupos 1
Aálise de Variâcia com um Factor Uma experiêcia foi realizada para ivestigar a diabetes gestacioal. Iteressa avaliar se existem difereças sigificativas o comportameto da hemoglobia (HbA) em gestates ormais (N), com tolerâcia dimiuída (TD) e diabéticas (D). Foram escolhidas 10 gestates de cada tipo e mediu-se suas HbA. Um Factor: Tipo de gestates 3 grupos 3 íveis: N, TD e D Variável resposta (variável depedete) - Hemoglobia glicosilada (HbA) Para cada grupo temos: Uma amostra aleatória com 10 observacões três amostras idepedetes Supoha: 1 : gestates N, média de µ 1 : gestates TD, média de µ 3 : gestates D, média de µ 3 Queremos testar: xemplo H 0 : µ 1 µ µ 3 vs. H 1 : pelo meos uma das médias é diferete das demais 3 Aálise de Variâcia 1 Factor As observações se dividem em vários grupos classificados através de um só factor. Para cada grupo obtemos uma amostra aleatória de observações de uma variável A experiêcia tem tatos íveis ou efeitos quatos grupos ou tratametos distitos 1ª Fase Plaeameto: seleccioar os idivíduos (ou uidades que se vão dividir pelos grupos) efeitos fixos: os grupos são prédetermiados à partida efeitos aleatórios: os grupos são escolhidos aleatoriamete plaeameto equilibrado: quado o úmero de observações de cada grupo é igual 4
Objectivo: Comparar a média de g grupos represetados por idivíduos (observações) de cada um Testar: H 0 : µ 1 µ... µ g µ vs. H 1 : µ i µ pelo meos para um i µ i - média de cada grupo; µ - média de todos os grupos Plaeameto equilibrado Modelo: ij µ i + ε ij µ + τ i + ε ij ε ij N(0,σ ) Pressupostos xigidos: i 1...g, j1 erro aleatório de cada observação 1. Temos g grupos de observações idepedetes (g amostras aleatórias) sedo os grupos idepedetes etre si. Cada grupo de observações deve provir de uma distribuição Normal 3. xiste homogeeidade de variâcias a variâcia das g populações deve ser a mesma 5 Cada observação ij pode ser represetada por modelos estatísticos Modelo statístico 1: Modelo statístico 0: (sob H 0 - médias iguais) ode: ij µ i + ε ij µ média de todos os grupos µ i média de cada grupo ij µ + τ i + ε ij i 1...g, j1 τ i - difereça etre a média total e a média de cada grupo, ε ij erro aleatório de cada observação, sedo estes erros idepedetes etre si assumido que o erro tem distribuição Normal com média zero obtém-se distribuição Normal para as variáveis ij ε ij N(0,σ ) ij N(µ i,σ ) 6 3
Ideia básica: 1. stimar a variâcia para dois modelos diferetes: Modelo 1 - ão depede da veracidade de H 0 ij µ i + ε ij modela variabilidade detro dos grupos Modelo 0 - depede da veracidade de H 0 cosidera que todos os grupos têm a mesma média ij µ + τ i + ε ij modela variabilidade etre os grupos. Comparar as duas estimativas da variâcia: se os grupos tiverem todos a mesma média (H 0 verdadeiro) as duas estimativas deverão próximas, seão deverão diferir sigificativamete. 7 º. Partição da Soma dos Quadrados Se temos g grupos cada um com observações, etão: g j ij i 1 média amostral i 1 j 1 ij... do grupo i g média total das observações A variabilidade total das observações é dada pela soma dos quadrados total SS T g ( i 1 j 1 ij..) soma dos quadrados total soma das distâcias de cada observação à media total SS T g g ( + i i i j ij 1...) ( 1 1 i. ) SS soma dos quadrados etre grupos soma dos quadrados das distâcias das médias de cada grupo à media total SS soma dos quadrados detro de cada grupo soma dos quadrados das distâcias de cada observação à média do seu grupo 8 4
Partição da Soma dos Quadrados g grupos cada um com observações A variabilidade total das observações é decomposta em dois termos: o primeiro termo reflecte a variabilidade devida às difereças etre grupos e o segudo reflecte a variabilidade dos erros detro de cada grupo Variabilidade Total Variabilidade etre grupos + Variabilidade detro dos grupos SS T SS SS graus de liberdade g-1 g -1 g (-1) médias dos quadrados SS g 1 SS g( 1) 9 stimadores da Variâcia médias dos quadrados esperaça tre grupos SS g 1 [ ] σ, sob H 0 g + τ i 1 i σ, sob H1 g 1 [ ] σ sob H 0 e H g grupos, cada um com observações sob H 0 quer quer são estimadores cetrados da variâcia σ se H 0 for verdadeira e devem ser próximos (estimam a mesma quatidade) a sua razão / deve ser próxima da uidade caso cotrário (H 1 verdadeira) Detro dos grupos SS g( 1) será iflacioado pelo valor adicioado à variâcia a sua razão será um valor sigificativamete superior à uidade 1 10 5
Sob H 0 a razão F tem distribuição de Fisher com g-1 e g(-1) graus de liberdade: F Fg 1, g ( 1) Podemos efectuar um teste com base esta estatística baseado o p-value: Rejeitar H 0 se p-value α A hipótese ula de igualdade de médias será rejeitada apeas para valores elevados da estatística do teste F p-value P( F > F obs H 0 ) 1- P( F < F obs ) 1 F g-1, g(-1) (F obs ) Para determiar F g-1, g(-1) (F obs ) recorrer ao meu do SPSS: Trasform / Compute e escolher a fução de distribuição de Fisher: CDF.F(F obs, g-1, g(-1)) 11 Para averiguar o tempo de apredizagem de 3 listas de palavras: lista A com palavras curtas; lista B com palavras de tamaho médio; lista C com palavras compridas, foi realizada uma experiêcia com aluos de uma dada escola. A tabela mostra, os tempos observados, em segudos, que demoraram cada grupo de 8 aluos (escolhidos aleatoriamete etre os aluos da escola) a apreder a sua lista de palavras dada. Com base os resultados da experiêcia, poderá afirmar que existem difereças sigificativas o desempeho? Lista A 30 40 35 45 38 4 36 5 Lista B 54 58 45 60 5 56 65 5 xemplo Lista C 68 80 85 90 88 Teste ANOVA H 0 : µ A µ B µ C vs. H 1 : pelo meos uma das médias é diferete das demais Factor: Lista de Palavra temos 3 grupos 3 íveis: ListaA, ListaB e ListaC Variável resposta (variável depedete) - tempo (seg) que um aluo aprede a lista de palavras dada Para cada grupo temos:uma amostra aleatória com 8 observacões (os tempos observados que demoraram os 8 aluos seleccioados aletoriamete a apreder a sua lista de palavras) 1 6
xemplo Ates de coduzir a ANOVA paramétrica covém comparar graficamete a distribuição dos dados, através da costrução de caixas de bigodes) Aqui observamos que a mediaa do tempo de apredizagem aumeta com o aumeto do tamaho das palavras e a variabilidade dos dados também aumeta. Aalyze Descriptive Statistics xplore ATNÇÃO: quado temos poucos dados, como este caso é coveiete usar um teste ão paramétrico. Vamos a usar uma ANOVA paramétrica apeas para poder exemplificar como são feitos todos os cálculos da estatística do teste 13 1º. Calcular media amostral e total: média amostral do grupo i j 1 ij i. média total das observações.... g i 1 j 1 ij g média total: g g i 1 j 1 ij i 1 j 1 ij g 3 8 57.04 Lista A 30 40 35 45 38 4 36 5 36.3 Lista B 54 58 45 60 5 56 65 5 55.5 xemplo 3 grupos cada um com 8 observações g 3, 8 Lista C 68 80 85 90 88 79.50 1.. 3. 14 7
1º. Soma dos quadrados etre grupos SS g (..) 7477.583 1. i i º. Soma dos quadrados detro dos grupos SS g i 1 j 1 ( i. ) 953.3 3º. Média dos quadrados etre grupos SS 7477.583 3738.79 g 1 4º. Média dos quadrados detro dos grupos ij SS 953.3 45.399 g( 1) 3 7 Lista A 30 40 35 45 38 4 36 5 36.3 xemplo 3 grupos cada um com 8 observações g 3, 8 Lista B 54 58 45 60 5 56 65 5 55.5 Lista C 68 80 85 90 88 79.50 5º. Razão F F 3736.79 8.354 45.339 a variabilidade etre os grupos é 8,354 vezes maior que a variabilidade detro dos grupos. 1.. 3. média total:.. 57. 04 15 5º. Razão F F 3736.79 8.354 45.339 6º. Calcular o p-value p-value P(F > Fobs H 0 ) p-value O 1 P(F < Fobs H 0 ) 1 - F g-1, g(-1)( (8.354) 1 F, 1 (8.354) 1 CDF.F(8.354,, 1) rejeitar H 0 para q.q. ível de sigificâcia quipa A 30 40 35 45 38 4 36 5 36.3 xemplo 3 grupos cada um com 8 observações g 3, 8 quipa B 54 58 45 60 5 56 65 5 55.5 quipa C 68 80 85 90 88 79.50 1.. 3. média total:.. 57. 04 16 8
Tipicamete uma ANOVA de efeitos fixos é resumida esta tabela Para g grupos, cada um com observações SS SS g i 1 g ( i...) ( i 1 j 1 ij ) i. SS g 1 SS g( 1) 17 Resultados usado o SPSS Aalyze Compare Meas Oe-Way Aova Teste: H 0 : µ A µ B µ C vs. xemplo H 1 : pelo meos uma das médias é diferete das demais ANOVA TimeLearWords Betwee roups Withi roups Total Sum of Squares df Mea Square F Sig. 7477,583 3738,79 8,354,000 953,3 1 45,399 8430,958 3 Uma vez que o p-value é aproximadamete zero rejeitamos a hipótese ula de igualdade de médias para qualquer ível de sigificâcia. Assim, a ANOVA permite cocluir: para q.q. ível de sigificâcia, as médias dos vários grupos ão são todas iguais, o que quer dizer que existem difereças sigificativas o desempeho da apredizagem das três listas de palavras. 18 9
xercício 4, pag 60 Um treiador pretede saber qual o úmero óptimo de dias semaais de treio para os seus atletas. Para tal mediu a performace de três grupos de atletas separados cosoate o úmero de dias de treio: um, dois e três dias. Teste através de uma ANOVA paramétrica e aos íveis de sigificâcia usuais, se existem difereças etre as performaces dos 3 grupos. (os dados ecotram-se o ficheiro Atletas.sav) Ates de coduzir a ANOVA paramétrica covém comparar graficamete a distribuição dos dados, através da costrução de caixas de bigodes Aalyze Descriptive Statistics xplore A mediaa da performace aumeta com o aumeto do º de dias de treio e a variabilidade dos dados dimiui 19 Ates de coduzir a ANOVA paramétrica devemos também verificar se as observações de cada grupo se podem modelar com a distribuição Normal xercício 4, pag 60 Quado temos um reduzido umero de potos o gráfico tora-se difícil cocluir quato a ormalidade. Não obstate iremos admitir a distribuição Normal como subjacete as populações. 0 10
Aalyze Compare Meas Oe-Way Aova xercício 4, pag 60 1 xercício 4, pag 60 Aalyze Compare Meas Oe-Way Aova 11
xercício 4, pag 60 Aalyze Compare Meas Oe-Way Aova Optios: Descriptive Performace 1 3 Total Descriptives 95% Cofidece Iterval for Mea N Mea Std. Deviatio Std. rror Lower Boud Upper Boud Miimum Maximum 0 63,5798 13,50858 3,0061 57,576 69,900 3,68 86,66 0 73,5677 10,60901,3 68,605 78,538 47,56 89,65 0 79,79 4,404,98556 77,165 81,340 71,77 89,69 60 7,14 1,0031 1,54960 69,0415,430 3,68 89,69 sta opção permite-os obter tabelas de médias, desvio padrão, erro padrão, amplitudes e itervalos de cofiaça para cada uma das médias dos grupos seleccioados. Os itervalos de cofiaça são calculados separadamete para cada grupo utilizado o procedimeto já descrito a aula de IC e testes de hipóteses para uma amostra 3 xercício 4, pag 60 Aalyze Compare Meas Oe-Way Aova Se os grupos são escolhidos aleatoriamete etre um cojuto vasto de possibilidades, ou seja com efeitos aleatórios, deve seleccioar-se esta opção Fixed ad radom effects. No osso exemplo os grupos são com efeitos fixos 4 1
xercício 4, pag 60 Um dos pressupostos de ANOVA é que ão existem difereças sigificativas etre as variâcias dos vários grupos (para verifica-lo o SPSS dispoibiliza o teste de Levee) Vamos seleccioar esta opção devido a ter observado uma dimiuição da variabilidade com o aumeto do º de dias de treio. 5 xercício 4, pag 60 Teste: H 0 : µ 1 µ µ 3 vs. H 1 : pelo meos uma das médias é diferete das demais Performace Test of Homogeeity of Variaces Levee Statistic df1 df Sig. 4,637 57,014 ANOVA Para o teste de Levee: p-value0.014 ão rejeitar a hipótese ula apeas para valores de α < 0.014 aalisar dois casos: 1º caso: (α < 0.014)(cosiderar iguais variâcias) para ANOVA (igualdade das médias?) p-value 0 < α, α rejeitar a hipótese ula existem difereças sigificativas etre as médias da performace dos 3 grupos de atletas º caso: (α > 0.014)(cosiderar variâcias diferetes) como o úmero de observações em cada grupo é igual (0) ANOVA é robusta à violação do pressuposto de igualdade de variâcias assumir resultado igual ao 1º caso Performace Betwee roups Withi roups Total Sum of Squares df Mea Square F Sig. 55,691 16,846 1,048,000 5974,74 57 104,80 8500,415 59 6 13
xercício 4, pag 60 Se é violado o pressuposto da homogeeidade de variâcias e o úmero de observações em cada grupo ão é igual optar por um dos testes robustos de Brow-Forsyth ou de Welch que ão pressupõe igualdade de variâcias 7 xercício 4, pag 60 Teste: H 0 : µ 1 µ µ 3 vs. H 1 : pelo meos uma das médias é diferete das demais Todos os p-value 0 > α, α rejeitar a hipótese ula existem difereças sigificativas etre as médias da performace dos 3 grupos de atletas ANOVA Performace Betwee roups Withi roups Total Sum of Squares df Mea Square F Sig. 55,691 16,846 1,048,000 5974,74 57 104,80 8500,415 59 Performace Welch Brow-Forsythe Robust Tests of quality of Meas a. Asymptotically F distributed. Statistic a df1 df Sig. 13,78 30,96,000 1,048 40,540,000 8 14
Quado rejeitamos a hipótese ula podemos optar por: Localizar as difereças através de técicas de comparações múltiplas: métodos de Tukey, Scheffé, Boferroi Comparar os grupos de dois a dois por meio de itervalos de cofiaça para a difereça. Se o itervalo ão cotém o zero, podemos obter coclusões sobre a razão da rejeição. 9 ANOVA Não Paramétrica Simples Teste de Kruskal-Wallis Temos g grupos, cada grupo i tem i observações Objectivo: comparar as mediaas dos g grupos Testar: H 0 : µ 1 µ... µ g µ vs. H 1 : µ i µ pelo meos para um i µ i - mediaa de cada grupo; µ - mediaa de todos os grupos Modelo: ij µ i + ε ij i 1...g, j1 ε ij represetam v.a. s cotíuas com a mesma distribuição 1. Temos g grupos de observações idepedetes (g amostras aleatórias) sedo os grupos idepedetes etre si. As observações são medidas uma escala pelo meos ordial 3. Cada grupo de observações deve provir de uma população cotíua 4. As populações diferem apeas a localização (portato têm a mesma forma) 30 15
ANOVA Não Paramétrica Simples Teste de Kruskal-Wallis xemplo m SPSS: Aalyze /NoParametric Test / k Idepedet Test 31 ANOVA Não Paramétrica Simples Teste de Kruskal-Wallis TimeLearWords Kruskal-Wallis Test Raks WordList 1 3 Total N Mea Rak 8 4,56 8 1,44 8 0,50 4 xemplo (teste ão paramétrico) Teste: H 0 : µ A µ B µ C vs. H 1 : pelo meos uma das mediaas é diferete das demais Chi-Square df Asymp. Sig. Test Statistics a,b,c TimeLear Words 0,374,000 a. Kruskal Wallis Test b. roupig Variable: WordList c. Some or all exact sigificaces caot be computed because the time limit has bee exceeded. Na tabela de Raks é dada a dimesão de cada grupo e o respectivo rak médio. Na tabela dos resultados dos teste é dado o valor da estatística do teste T, os graus de liberdade associados e o p-value Como p-value 0 < α, α rejeitar a hipótese ula para q.q. ível de sigificâcia existem difereças sigificativas etre o desempeho da apredizagem das 3 listas 3 16
Referêcias Livro: rade Maratoa de statística o SPSS Adreia Hall, Cláudia Neves e Atóio Pereira Capítulo 6. Aálise de Variâcia Acetatos: ANOVA, Adreia Hall URL: http://www.mat.ua.pt/pessoais/ahall/me/files/anova.pdf 33 17