TESTE DE MANN-WHITNEY A importâcia deste teste é ser a alterativa ão paramétrica ao teste t para a difereça de médias. Sejam (X 1,X,...,X ) e (Y 1,Y,...,Y m ) duas amostras idepedetes, de tamahos e m respectivamete, com m. Supohamos que X = E(X) e Y = E(Y) Pretede-se testar H 0 : X = Y H 1 : X Y ou X > Y ou X < Y 1 Procedimetos: 1. Tome-se a amostra cojuta, isto é, sem fazer difereciação etre os dois grupos, e ordeem-se os valores de 1 até +m, mas sem perder o grupo de origem de cada observação.. Caso ão haja empates a observação de valor mais baixo recebe o posto 1, a seguda mais baixa recebe o posto e assim sucessivamete. 3. Caso haja empates às observações com o mesmo valor (empatadas) atribui-se o posto médio dos postos que lhe correspoderiam casos tais empates ão existissem.
Estatística de teste Supodo (X 1, X,..., X i,..., X ) a amostra de meor tamaho. Seja R(X i ) o posto da observação X i. A estatística de teste é dada por: T R(X i ) i1 3 Testes bilaterais (H 1 : X Y ) A região crítica será determiada com base a observação, a tabela de Ma- Whitey, de dois potos críticos: T / directo da tabela T 1-/ = m - T / Regra de Decisão Rejeitar H 0 se T obs < T / ou T obs > T 1-/ Não rejeitar H 0 se T / T obs T 1-/ 4
Testes uilaterais (H 1 : X < Y ou X > Y ) A região crítica será determiada com base a observação, a tabela de Ma- Whitey, de um poto crítico: T directo da tabela Regra de decisão, para um teste uilateral à esquerda ( X < Y ) Rejeitar H 0 se T obs < T Regra de decisão, teste uilateral à direita ( X > Y ) Rejeitar H 0 se T obs > T 1-5 Quado os valores de m e são elevados, a variável aleatória T tem uma distribuição aproximadamete Normal com média T e desvio padrão T. (m 1) T e T m(m 1) 1 Isto é, a correspodete variável com valor médio ulo e variâcia uitária, é Z T T T T ~ N(0,1) 6
TESTE DE KRUSKALL-WALLIS O teste de Kruskall-Wallis é uma geeralização para k > amostras, do teste de Ma- Whitey. A estatística de teste baseia-se os postos das observações e como tal, a variável em estudo (os diferetes grupos) é uma variável ordial. 7 Supoha-se etão a existêcia de k populações X 1, X,..., X k das quais foram retiradas k amostras aleatórias X 11, X 1,..., X 1 da população X 1 1 X 1, X,..., X 1 da população X...... X k1, X k,..., X 1 da população X k k e que existe idepedêcia, ão só etre os elemetos de cada amostra mas também etre os elemetos de amostras distitas. H 0 : 1 = =... = k H 1 : i, j: i j, sedo i = E(X i ), i = 1,,...,k 8
A estatística de teste baseia-se os postos das observações: 1. Ordeem-se as k amostras cojutamete. A observação de mais baixo valor tomará o posto 1, a seguda o posto e assim sucessivamete.. Caso existam empates, será atribuído o mesmo posto às observações empatadas. Este é a média aritmética dos postos que lhe correspoderiam se tais empates ão existissem. 9 Seja R(X ij ) o posto atribuído a X ij e R i R(X ) i ij j1 a soma dos potos das observações da i-ésima amostra (i=1,,...,k). Seja o úmero total de observações. N k i i1 No caso de ão haver empates a estatística de teste de Kruskall-Wallis é: T 1 N(N 1) k i1 R i i 3(N 1) 10
No caso de haver empates a estatística de teste é dada por: ode S 1 T S 1 N 1 R N(N 1) k i i1 i 4 k i i1 j1 R N(N 1) X ij 4 No caso de apeas três grupos, em que o tamaho dos grupos ão exceda 5 e ão existam empates, os valores críticos da estatística do teste ecotram-se tabelados. Nas outras situações, utiliza-se como distribuição aproximada o de liberdade, ode k é o úmero de amostras. com (k-1) graus 11 TESTES DE AJUSTAMENTO (TESTES DA BONDADE DO AJUSTAMENTO) Os testes de ajustameto servem para testar a hipótese de que uma determiada amostra aleatória teha sido extraída de uma população com distribuição especificada. Seja X 1, X,..., X uma amostra aleatória de uma população X com fução (desidade) de probabilidade f descohecida e f 0 a fução (desidade) de probabilidade proposta. Hipóteses a testar: H 0 : f(x) = f 0 (x) H 1 : f(x) f 0 (x) 1
Exemplo 1: A procura diária de um certo produto foi, em 40 dias escolhidos ao acaso, a seguite: Número de Número de uidades dias 0 6 1 14 10 3 7 4 5 1 Tabela I: Procura diária de um produto registada em 40 dias. Será que tais observações foram extraídas de uma população com distribuição de Poisso, isto é, será de admitir que tal procura segue uma distribuição de Poisso? 13 Exemplo : Pretede-se costruir um modelo de simulação das operações de um determiado termial de um porto situado a Europa. Uma das variáveis a cosiderar o modelo é a difereça etre a data de chegada dos avios proveietes dos EU e a respectiva data plaeada. Dado que tal difereça é iflueciada por muitos factores, pode tomar-se como uma variável aleatória. Há razões para supor que tem distribuição Normal de média 0.1 e desvio padrão 7.. 14
Uma amostra de 30 avios revelou os resultados que se apresetam a tabela seguite. -6.6-5.4-1.8-0.3 15-7.6-0.6.6-7.4 1.4-6 -5.8 15. -.4-8.9-5.6-3.7. 8. -9 13. 7.6 -.8-1.8 1.8 4.4. 4 Tabela II: Difereça etre a data de chegada e a data plaeada para 30 avios. Será mesmo de admitir que tais dados foram extraídos de uma população N(0.1, 7. )? 15 Tato o primeiro como o segudo exemplo, estamos perate um problema de ajustameto de dados a uma determiada distribuição. Existem vários testes de ajustameto que os permitem fazer uma aálise de problemas deste tipo, etre os quais: o teste de ajustameto do Qui-quadrado sugerido por Karl Pearso o teste de Kolmogorov ou Kolmogorov-Smirov o teste de ormalidade de Lilliefors 16
TESTE DO QUI-QUADRADO Cosidere-se uma amostra aleatória de elemetos, extraída de uma população com distribuição descohecida, sobre os quais se observa uma característica (qualitativa ou quatitativa). Os valores possíveis da característica em estudo são, um primeiro passo, repartidas por m classes mutuamete exclusivas, A 1, A,..., A m (serão itervalos da recta real se a característica é quatitativa e cotíua). 17 Deote-se por: - O i o º de observações ou frequêcia absoluta observada da classe A i ; - p i a probabilidade descohecida de obter uma observação a classe A i ; - p 0i a probabilidade de obter uma observação a classe A i assumido que a observação foi extraída de uma população com a distribuição especificada em H 0, i.e., p 0i = P(A i / H 0 ). Hipóteses a testar: H 0 : p i = p 0i, i=1,...,m H 1 : p i p 0i para algum i 18
Assim, a frequêcia esperada da classe A i, quado H 0 é verdadeira, é dada por e i = p 0i A estatística de teste, do teste de ajustameto do Qui-quadrado, é dada por Q m i1 que, sedo verdadeira a hipótese ula, tem distribuição assimptótica do Qui-quadrado com m-k-1 graus de liberdade ( m-k-1), ode k é o úmero de parâmetros descohecidos da distribuição proposta em H 0, estimados a partir da amostra. O i e e i i 19 Se a hipótese ula for verdadeira, a difereça etre cada valor observado e o respectivo valor esperado, O i e i, ão deve ser muito grade, e cosequetemete a estatística de teste terá um valor observado, Q obs, também ão muito grade. De modo ituitivo, quato maior for o valor observado de Q, meos plausível é a hipótese ula, isto é, mais os ecamihamos de cocluir que as frequêcias observadas ão foram proveietes da população em que se baseou a hipótese ula, levado à rejeição desta. Trata-se portato de um teste uilateral à direita. 0
Na aplicação deste teste deve-se ter particular ateção às frequêcias esperadas, e i s, pois se estas forem muito pequeas a aproximação ao Qui-quadrado ão é a mais apropriada. São referidas a literatura várias regras práticas de aplicação do teste, das quais avaçamos a seguite. Se tivermos: ou, - mais de 0% das classes com e i iferior a 5 - mais de uma classe com e i iferior a 1 devemos proceder à agregação de algumas classes cotíguas, e iiciar ovamete o teste, agora com meos classes. 1 Exemplo 1: Número de Número de uidades dias 0 6 1 14 10 3 7 4 5 1 Tabela I: Procura diária de um produto registada em 40 dias.
Represetado por X a procura diária do produto e por f a fução de probabilidade de X, as hipóteses a testar são H 0 : X ~ P(µ) (f(x) = f 0 (x) = H 1 : X ~ P(µ) e x x!, x = 0,1,,... e >0) É ecessário estimar o parâmetro, média da Poisso: x= (06 + 114 + 10 + 37 + 4 +51) / 40 = 1.7 3 Classes Frequêcias p 0i = P(A i / H 0 ) Frequêcias esperadas observadas e i = 40 p 0i O i A 1 ={0} 6 0.187 7.308 A ={1} 14 0.3106 1.44 A 3 ={} 10 0.639 10.556 A 4 ={3} 7 0.1496 5.984 A 5 ={4} 0.0636.544 A 6 ={5} 1 3 0.016 0.093 0.864 3.78 A 7 ={6,7,...} 0 0.008 0.3 4
Probabilidades associadas a cada uma das classes supodo H 0 verdadeira: p 01 = P(A 1 / H 0 ) = P(X{0} / H 0 ) = P(X=0) = f 0 (0) = p 0 = P(A / H 0 ) = P(X{1} / H 0 ) = P(X=1) = f 0 (1) = p 03 = e 1.7 1.7! = 0.639; e e 1.7 1.7 1.7 0! 1.7 1! 0 1 = 0.187; = 0.3106; A estatística teste Q, sob a hipótese H 0, tem aproximadamete distribuição Qui-quadrado com m-k-1 = 5-1-1 = 3 graus de liberdade. 5 Ao ível de sigificâcia de 0.05, o quatil de probabilidade 1-0.05 da distribuição 7.81, e logo a região crítica é [7.81, +[. 3 é Valor observado da estatística de teste: Q obs = (6 7.308) 7.308 + (14 1.44) 1.44 + (10 10.556) 10.556 + (7 5.984) 5.984 + (3 3.78) 3.78 = = 0.778 Etão, a hipótese H 0 ão é rejeitada ao ível de sigificâcia de 0.05, isto é, ão podemos rejeitar a hipótese de aquelas observações provirem de uma população com distribuição Poisso. 6
Exemplo : Deotado por X a difereça etre a data de chegada dos avios e a data plaeada, as hipóteses a testar são H 0 : X ~ N(0.1, 7. ) H 1 : X ~ N(0.1, 7. ) Neste caso a distribuição proposta em H 0 é cotíua e, deste modo, as classes A i, i=1,...m, são itervalos da forma A 1 =]-, a 1 [, A =[ a 1, a [ A 3 =[ a, a 3 [... A m =[ a m-1, +[. 7 Para a determiação das classes é sugerida a regra de Ma e Wald: Número de classes = m, com m tal que /m > 5. Os limites dos itervalos são tais que as probabilidades decorretes da hipótese ula sejam iguais a 1/m para todas as classes. Assim, as frequêcias esperadas são todas iguais a /m > 5. Para o exemplo escolheu-se m = 4 classes (e i = 301/4 = 7.5 > 5), dode p 0i = P(A i / H 0 ) = P(XA i / X~N(0.1, 7. )) = 1/4, para i = 1,,3,4 8
Cálculo dos limites dos itervalos de classe: a 3 : p 03 = P(XA 3 / X~N(0.1, 7. )) = 0.5 P(X<a 3 / X~N(0.1, 7. )) = 0.75 a P(Z< 3 0.1 ) = 0.75 a 3 = 4.94; 7. Da simetria da distribuição ormal: a 1 a =0.1 a 3 a = 0.1 e a 1 = 0.1-(4.94-0.1) = -4.74 9-6.6-5.4-1.8-0.3 15-7.6-0.6.6-7.4 1.4-6 -5.8 15. -.4-8.9-5.6-3.7. 8. -9 13. 7.6 -.8-1.8 1.8 4.4. 4 Tabela II: Difereça etre a data de chegada e a data plaeada para 30 avios. Classes Frequêcias p 0i Frequêcias observadas esperadas A 1 =]-, -4.74[ 8 0.5 7.5 A =[-4.74,0.1[ 8 0.5 7.5 A 3 =[0.1, 4.94[ 7 0.5 7.5 A 4 =[4.94, + [ 7 0.5 7.5 30
O valor observado da estatística de teste é Q obs = (8 7.5) 7.5 + (8 7.5) 7.5 + (7 7.5) 7.5 + (7 7.5) 7.5 = 0.1 A estatística teste, sob o pressuposto de H 0 ser verdadeira, tem aproximadamete distribuição Qui-quadrado com m-1 = 4-1 = 3 graus de liberdade. Para =0.05: R.C. = [7.81, +[ Como Q obs R.C., somos levados a ão rejeitar a hipótese de que a difereça etre os tempos de chegada e os tempos plaeados tem distribuição N(0.1, 7. ). 31 TESTE DE KOLMOGOROV-SMIRNOV O teste de Kolmogorov-Smirov (K-S) ao cotrário do teste do Qui-quadrado, ão se aplica a dados qualitativos em a variáveis discretas, pois a tabela dispoível para este teste só é exacta caso a distribuição em teste seja cotíua. No etato, tem a vatagem de ão estar depedete de classificações dos dados, que além de serem sempre algo arbitrárias evolvem perdas de iformação. De facto, o ajustameto de uma distribuição cotíua a uma amostra usado o teste do Qui-quadrado, temos de proceder à agregação dos dados em classes, sedo por isso mais adequado utilizar o teste K-S. 3
Por outro lado, o teste K-S só pode ser aplicado quado a distribuição idicada a hipótese ula está completamete especificada (o que ão sucede com o teste do Quiquadrado). No caso de se preteder, por exemplo, efectuar um ajustameto de uma distribuição ormal, sem especificar e, deve-se recorrer a outro teste, este caso o teste desevolvido por Lilliefors (teste de ormalidade de Lilliefors). Além disso, o teste do Qui-Quadrado está orietado essecialmete para grades amostras, equato que o teste K-S é aplicável a pequeas amostras. 33 FUNÇÃO DE DISTRIBUIÇÃO EMPÍRICA E FUNÇÃO DE DISTRIBUIÇÃO DA AMOSTRA Seja (X 1, X,...,X ) uma amostra aleatória de uma certa população X e (x 1, x,...,x ) uma sua realização. A fução de distribuição empírica é defiida por 1 Fˆ (x) {x i : x i x}, -< x <+, ode {x i : x i x} é o úmero de valores x i que são iferiores ou iguais a x. 34
A fução de distribuição da amostra é defiida, para as variáveis aleatórias (X 1, X,...,X ), por 1 F (x) {X i : X i x}, - < x < +. Note-se que Fˆ (x) é uma fução de distribuição do tipo discreto associado a uma particular amostra, equato que F (x) é, para cada - < x < + fixo, uma variável aleatória, fução de (X 1, X,...,X ), ou seja, é uma estatística. 35 Exemplo Cosideremos a amostra costituída pelas observações: 5, 7, 8, 8, 10 e 11 A fução de distribuição empírica Fˆ 6, associada a esta amostra, é dada por Fˆ 6(x) = 0 1/ 6 / 6 4 / 6 5 / 6 1 se se se se se se x 5 5 x 7 7 x 8 8 x 10 10 x 11 x 11 36
A represetação gráfica de Fˆ 6, em forma de escada, é apresetada a seguir: Fˆ6 x Gráfico I: Represetação gráfica da f.d. empírica. 37 Seja F a fução de distribuição da população e F 0 a fução de distribuição proposta, cotíua e completamete especificada. Hipóteses a testar H 0 : F(x) = F 0 (x), - < x < + H 1 : F(x) F 0 (x) No teste de Kolmogorov-Smirov cosidera-se a estatística D sup F (x) F0 (x) x como uma medida da discrepâcia etre a fução de distribuição da amostra F e a fução de distribuição proposta F 0. 38
Ao substituir em D a fução de distribuição da amostra F pela fução de distribuição empírica Fˆ, obtém-se o valor observado da estatística teste: d sup Fˆ (x) F0 (x) x Uma vez que F 0 é uma fução (cotíua) crescete e Fˆ é uma fução em escada, o supremo d ocorre um poto ode se verifica um salto de Fˆ (uma observação x i ) ou imediatamete ates desse poto. Isto é, d max i1,..., F (x ) Fˆ 0 i (x i ), F (x ) Fˆ 0 i (x i ) 39 sup Fˆ (x) F 0(x) x F 0 (x) Fˆ (x) Gráfico II: Ajustameto de uma f.d hipotética F 0 à f.d. empírica Fˆ 40
Assim, se H 0 for verdadeira, a distâcia vertical máxima etre as images das duas distribuições ão deve de ser muito grade, e logo espera-se que D tome um valor pequeo. Etão, rejeita-se H 0, para um ível de sigificâcia, se o valor observado d da estatística teste D for superior ou igual ao poto crítico D, ode D, é tal que, P(D D, / H 0 é verdadeira) = Os valores críticos D, podem ser cosultados uma tabela. 41 Exemplo 3 Um certo Politécico do país efectuou um cotrato com uma determiada empresa que ficou resposável pelo abastecimeto da care que compuha as refeições a catia dessa Escola. O cotrato refere uma média de 90 gramas de care por refeição, por estudate. No etato, algus aluos queixaram-se acerca da comida, em particular acerca da quatidade de care servida por refeição. Os aluos falaram com o coziheiro chefe, que lhes disse que a quatidade de care servida por refeição a cada estudate tiha aproximadamete distribuição ormal de média 90 gr com um desvio padrão de 56 gr. Após esta coversa com o coziheiro, algus aluos cocordaram em recolher as suas refeições ao logo de vários dias, resultado assim uma amostra de 10 refeições, que foram levadas para um laboratório afim de serem pesados os pedaços de care elas cotidos. 4
Os dados obtidos são os seguites: 198 54 6 7 75 78 85 87 87 9 Ao ível de sigificâcia de 5%, há evidêcia para rejeitar a hipótese de que o coziheiro seguia as regras que afirmou em relação à quatidade de care servida? Deote-se por X a quatidade, em gramas, de care servida por refeição a cada estudate. As hipóteses a testar são, este caso, H 0 : X N(90, 56 ) H 1 : X ~ N(90, 56 ) A estatística de teste é D 10 = sup F 10 (x)-f 0 (x) x O poto crítico da estatística de teste D 10 é, para = 0.05, D 10,0.05 = 0.409 43 Cálculo do valor observado da estatística D 10 x i Fˆ (x ) 10 i 10(xi ) Fˆ x 90 z i = i F 0 (x i ) =P(Z z i ) 56 (Z~N(0,1)) F 0 (x i )- Fˆ 10 (x i ) F 0 (x i )- Fˆ 10(xi ) 198 0,1 0-1,64 0,0505 0,0495 0,0505 54 0, 0,1-0,64 0,611 0,0611 0,1611 6 0,3 0, -0,5 0,3085 0,0085 0,1085 7 0,4 0,3-0,3 0,3745 0,055 0,0745 75 0,5 0,4-0,7 0,3936 0,1064 0,0064 78 0,6 0,5-0,1 0,4168 0,183 0,083 85 0,7 0,6-0,09 0,4641 0,359 0,1359 87 0,9 0,7-0,05 0,4801 0,4199 0,199 9 1 0,9 0,04 0,516 0,484 0,384 44
198 90 F 0 (198) = P(X198) = P(Z ) = P(Z-1.64) = 1-0.9495 = 0.0505 56 54 90 F 0 (54) = P(X54) = P(Z ) = P(Z-0.64) = 1-0.7389 = 0.611 56 Como d 10 = 0.484 > 0.409, ao ível de sigificâcia de 5%, rejeitamos a hipótese de a quatidade de care servida por refeição a cada estudate seguir distribuição N(90,56 ). 45 TABELAS DE CONTINGÊNCIA TESTE DO QUI-QUADRADO DE INDEPENDÊNCIA Supoha que uma amostra aleatória de tamaho de uma dada população são observados dois atributos ou características A e B (qualitativas ou quatitativas), uma com r e outra com s modalidades ou categorias, respectivamete A 1, A,..., A r e B 1, B,..., B s. Cada idivíduo da amostra é classificado uma e uma só categoria (ou classe) de A e uma e uma só categoria (ou classe) de B. 46
A classificação dos elemetos da amostra dá origem a uma tabela de dupla etrada, desigada por tabela de cotigêcia rs, com o seguite aspecto: B 1 B... B s A 1 O 11 O 1... O 1s A O 1 O... O s A r O r1 O r... O rs 47 Nesta tabela cada O ij (i=1,...,r e j=1,...,s) é uma variável aleatória que represeta a amostra o úmero de elemetos classificados simultaeamete as categorias A i de A e B j de B. Além disso, temos as variáveis aleatórias: O (i=1,...,r) que represeta o úmero de elemetos a amostra com s i O ij j1 modalidade A i ; O (j=1,...,s) que represeta o úmero de elemetos a amostra com r j O ij i1 modalidade B j. 48
Tem-se, r s i1 j1 O ij r i1 O i s j1 O j ode é a dimesão da amostra que se supõe fixa. O objectivo a que os propomos é o de tetar iferir sobre a existêcia ou ão de qualquer relação ou associação etre os atributos (variáveis) A e B, mais cocretamete, iferir se A e B são ou ão idepedetes. Hipóteses a testar: H 0 : A e B são idepedetes H 1 : A e B ão são idepedetes 49 Deote-se por: p ij = P(A i B j ) (i=1,..,r e j=1,...,s) a probabilidade (descohecida) de um idivíduo da população ser classificado simultaeamete as categorias A i de A e B j de B; p P(A ) (i=1,...,r) a probabilidade (descohecida) de um idivíduo da i i população ser classificado a categoria A i de A; p j P(B j) (j=1,...,s) a probabilidade (descohecida) de um idivíduo da população ser classificado a categoria B j de B. 50
Tem-se, 1 r i1 s j1 p ij r i1 p i s j1 p j Ora, se os atributos são idepedetes, verifica-se a cohecida relação, P(A i B ) P(A )P(B ) j i j isto é, p ij = pi p j Assim, as hipóteses ateriores podem ser formuladas do seguite modo: H 0 : p ij = H 1 : p ij pi p i p (para todo i e j) j p (para algum ij) j 51 Os verdadeiros valores das probabilidades amostrais, por oi pˆ i e p i e p j são estimadas, a partir dos dados pˆ j o j ode o i e o j são os valores observados das variáveis aleatórias respectivamete, para uma amostra cocreta. O i e O j, e ij = p ij úmero esperado de idivíduos a classe A i de A e B j de B. 5
Quado H 0 é verdadeira, i.e, p ij = e ij = p ij = p pi i p j p, temos j estimado por ê ij pˆ i pˆ j A estatística do teste de idepedêcia é r i1 s j1 (O ij ê ) ê ij ij que, sob o pressuposto de H 0 ser verdadeira, tem distribuição assitótica do Quiquadrado com (r-1)(s-1) graus de liberdade. 53 Vimos que quado H 0 é verdadeira e ij pode ser estimado por ê ij pˆ i pˆ j, e logo a difereça etre o ij (frequêcia observada) e ê ij (estimativa da frequêcia esperada supodo a idepedêcia) ão deve ser grade. Assim, a estatística teste, tal como está defiida, mede o afastameto dos dados em relação à hipótese de idepedêcia. Trata-se etão de um teste uilateral à direita. 54
Exemplo 4 Um supermercado quer testar ao ível de sigificâcia de 5% a hipótese de que o modo de pagameto dos clietes esse estabelecimeto é idepedete do período do dia em que fazem as compras. Existem três modos de efectuar os pagametos: por cheque, diheiro e cartão de crédito. A seguite tabela de cotigêcia 33 apreseta os resultados obtidos uma amostra de 4000 clietes: PERÍODO DO DIA MODO DE PAGAMENTO Mahã Tarde Noite Cheque 750 1500 750 Diheiro 15 300 75 Cartão de Crédito 15 00 175 55 Deotado por A o atributo Modo de pagameto e por B o atributo Período do dia em que faz as compras, as hipóteses as testar são H 0 : A e B são idepedetes H 1 : A e B ão são idepedetes Uma vez que A e B assumem cada uma 3 modalidades, sob H 0, a estatística teste tem distribuição assitótica do Qui-quadrado com (r-1)(s-1) = (3-1)(3-1) = 4 graus de liberdade. Ao ível de sigificâcia de 0.05, a região crítica é etão [9.49, +[ 56
Como vimos, para obtermos o valor observado da estatística teste, temos de calcular as frequêcias esperadas: ê o ij pˆ ipˆ j = i o j = o i. o. j Assim, por exemplo, ê 11 = (30001000)/4000 = 750 ê 1 = (3000000)/4000 = 1500 ê 13 = (30001000)/4000 = 750 57 Frequêcias esperadas PERÍODO DO DIA MODO DE PAGAMENTO Mahã Tarde Noite Totais Cheque 750 1500 750 3000 Diheiro 15 50 15 500 Cartão de Crédito 15 50 15 500 Totais 1000 000 1000 4000 Valor observado da estatística teste: obs = (750 750) 750 + (1500 1500) 1500 +... + (00 50) 50 + (175 15) 15 = 60 Uma vez que 60 excede o valor crítico 9.49, ao ível de sigificâcia de 0.05, rejeitamos a hipótese de que o modo de pagameto é idepedete do período do dia em que as compras são feitas. 58
MEDIDAS DE ASSOCIAÇÃO No teste do Qui-Quadrado apresetado, se for rejeitada a hipótese de idepedêcia etre os atributos, pode iteressar medir a itesidade da associação etre os mesmos, através de uma medida adequada. Uma vez que a estatística do teste mede o afastameto em relação à hipótese de idepedêcia, o seu valor observado também poderá servir para avaliar a força da relação etre os atributos. No etato, houve ecessidade de itroduzir algumas modificações, devido a diversas razões, por exemplo o facto do ão tomar valores apeas o itervalo [0,1], o que é salutar uma medida de associação. 59 COEFICIENTE DE CONTINGÊNCIA DE PEARSON: C Este coeficiete varia etre 0 e ( q 1) q ode q = mi{r,s} e portato uca assume o valor 1. Valores pequeos de C idicam fraca associação etre os atributos, equato que valores grades de C idicam forte associação. O facto deste coeficiete ão assumir o valor 1 o caso de associação completa é uma sua limitação. Para obviar este problema, Tshuprow propôs o seguite coeficiete. 60
COEFICIENTE DE TSHUPROW: T (r 1) (s 1) Este coeficiete varia etre 0 e 1, tomado o valor 0 o caso de existir idepedêcia e o valor 1 quado r = s e houver associação completa. Por último, referimos o coeficiete proposto por Cramer que atige o valor 1 quado há associação completa. COEFICIENTE V DE CRAMER: V, com q = mi{r,s} 0 V 1 (q 1) 61 Exemplo 4 Neste exemplo, rejeitamos a hipótese de idepedêcia etre o modo de pagameto e o período do dia em que as compras eram efectuadas. Para ter uma ideia da itesidade de associação etre estes dois atributos, calcula-se, por exemplo, o coeficiete V de Cramer. Assim, tem-se V= 60 4000 = 0.087 Verificamos, segudo o coeficiete V que, apesar de haver associação etre os atributos, esta pode cosiderar-se fraca. 6
TESTE DE HOMOGENEIDADE Supoha que são recolhidas amostras aleatórias de s populações (subpopulações ou estratos) B 1, B,..., B s, as quais se observa um atributo A com r categorias A 1, A,..., A r. Neste cotexto, surge também uma tabela de cotigêcia rs da forma apresetada a tabela I, mas com leitura diferete. Assim, cada O ij (i=1,...,r e j=1,...,s) é uma variável aleatória que represeta o úmero de elemetos classificados a categorias A i de A, a amostra da população B j. 63 O (i=1,...,r) é uma variável aleatória que represeta o úmero de elemetos s i O ij j1 a categoria A i de A em todas as amostras. O (j=1,...,s) é uma costate prefixada (e ão uma variável aleatória como r j O ij i1 acotece o teste de idepedêcia), pois é o tamaho da amostra recolhida a população B j. Neste caso, cada B j rotula uma subpopulação cujos elemetos se distribuem pelas r modalidades do atributo A, e o que se pretede saber é se existe homogeeidade, isto é, se ão há difereça etre as populações o modo como os seus elemetos se distribuem pelas modalidades do atributo A. 64
Exemplo 5 Supohamos que dispomos dos resultados de vaciação cotra a cólera um cojuto de 79 idivíduos escolhidos aleatoriamete etre os vaciados, e um cojuto de 539 idivíduos escolhidos aleatoriamete etre os ão vaciados: Vaciados Não Vaciados Atacados 3 66 Não Atacados 76 473 Totais 79 539 65 Isto correspode a ter duas amostras, uma em cada colua da tabela, obtidas de modo idepedete e de dimesões, respectivamete o 1=79 e o =539. Hipóteses a testar: H 0 : os atacados e ão atacados distribuem-se de forma idêtica (homogéea) os vaciados e ão vaciados H 1 : os atacados e ão atacados distribuem-se de modo diferete os vaciados e ão vaciados As proporções de atacados e ão atacados são dadas, respectivamete, por o 1. 69 o = = 0.084 e. 749 = = 0.916 818 818 66
Assim, sob o pressuposto de H 0 ser verdadeira, em cada um dos grupos dos vaciados e ão vaciados, deviam ser atacados (ão atacados) uma proporção de idivíduos igual a 0.084 (0.916), isto é: os vaciados espera-se que sejam: o1. atacados ê 11 o.1 =790.084=3.44 idivíduos o. e ão atacados ê 1 o.1 =790.916=55.56 os ão vaciados espera-se que sejam o1. atacados ê 1 o. =5390.084=45.76 idivíduos o. e ão atacados ê o. =5390.916=493.74 67 O quadro seguite apreseta as frequêcias esperadas sob o pressuposto de homogeeidade: Vaciados Não Vaciados Atacados 3.44 45.76 Não Atacados 55.56 493.74 Totais 79 539 À semelhaça do teste de idepedêcia, a estatística do teste é r s i1 j1 (O ij ê ê ij ij ) que, sob o pressuposto de H 0 ser verdadeira, tem distribuição assitótica do Qui- Quadrado com (r-1)(s-1) graus de liberdade. 68
As frequêcias observadas O ij e as estimativas das frequêcias esperadas ê ij calculadas sob o pressuposto de H 0 ser verdadeira, devem diferir pouco se H 0 for de facto verdadeira. Assim, valores muito grades da estatística teste traduzem um grade afastameto dos dados em relação à hipótese ula, coduzido à rejeição desta. Mais uma vez, a estatística teste mede o afastameto dos dados em relação à hipótese de homogeeidade. 69 Cálculo do valor observado da estatística teste: 3 3.44 66 45.76 76 55.56 473 493.74 obs =9.8 3.44 45.76 55.56 493.74 O quatil de probabilidade 0.995 da distribuição 1 é 7.88 Como o valor observado da estatística teste é 9.8 > 7.88 etão, para um ível de sigificâcia 0.005, rejeita-se a hipótese de homogeeidade etre as duas amostras, isto é, a população dos vaciados difere da dos ão vaciados o que se refere ao facto de terem ou ão sido atacados. 70