Testes de Ajustameto (testes da bodade do ajustameto) Os testes de ajustameto servem para testar a hipótese de que uma determiada amostra aleatória teha sido extraída de uma população com distribuição especificada. Seja X 1, X,..., X uma amostra aleatória de uma população X com fução (desidade) de probabilidade f descohecida e f 0 a fução (desidade) de probabilidade proposta. Hipóteses a testar: H 0 : f(x)=f 0 (x) H 1 : f(x)f 0 (x) 1 Exemplo 1: A procura diária de um certo produto foi, em 40 dias escolhidos ao acaso, a seguite: Número de uidades Número de dias 0 6 1 14 10 3 7 4 5 1 Tabela I: Procura diária de um produto registada em 40 dias. Será que tais observações foram extraídas de uma população com distribuição de Poisso, isto é, será de admitir que tal procura segue uma distribuição de Poisso?
Exemplo : Pretede-se costruir um modelo de simulação das operações de um determiado termial de um porto situado a Europa. Uma das variáveis a cosiderar o modelo é a difereça etre a data de chegada dos avios proveietes dos EU e a respectiva data plaeada. Dado que tal difereça é iflueciada por muitos factores, pode tomar-se como uma variável aleatória. Há razões para supor que tem distribuição Normal de média 0.1 e desvio padrão 7.. Uma amostra de 30 avios revelou os resultados que se apresetam a tabela seguite. 3-6.6-5.4-1.8-0.3 15-7.6-0.6.6-7.4 1.4-6 -5.8 15. -.4-8.9-5.6-3.7. 8. -9 13. 7.6 -.8-1.8 1.8 4.4. 4 Tabela II: Difereça etre a data de chegada e a data plaeada para 30 avios. Será mesmo de admitir que tais dados foram extraídos de uma população N(0.1, 7. )? 4
Tato o primeiro como o segudo exemplo, estamos perate um problema de ajustameto de dados a uma determiada distribuição. Existem vários testes de ajustameto que os permitem fazer uma aálise de problemas deste tipo, etre os quais: o teste de ajustameto do Qui-quadrado sugerido por Karl Pearso, o teste de Kolmogorov ou Kolmogorov-Smirov e o teste de ormalidade de Lilliefors, que apresetamos a seguir. 5 Teste do Qui-quadrado Cosidere-se uma amostra aleatória de elemetos, extraída de uma população com distribuição descohecida, sobre os quais se observa uma característica (qualitativa ou quatitativa). Os valores possíveis da característica em estudo são, um primeiro passo, repartidas por m classes mutuamete exclusivas, A 1, A,..., A m (serão itervalos da recta real se a característica é quatitativa e cotíua). 6
Deote-se por: - O i o º de observações ou frequêcia absoluta observada da classe A i ; - p i a probabilidade descohecida de obter uma observação a classe A i ; - p 0i a probabilidade de obter uma observação a classe A i assumido que a observação foi extraída de uma população com a distribuição especificada em H 0, i.e. p 0i =P(A i \H 0 ). Hipóteses a testar: H 0 : p i =p 0i, i=1,...,m H 1 : p i p 0i para algum i 7 Assim, a frequêcia esperada da classe A i, quado H 0 é verdadeira, é dada por e i = p 0i. A estatística de teste, do teste de ajustameto do Qui-quadrado, é dada por Q m i1 O i e e i i que, sedo verdadeira a hipótese ula, tem distribuição assimptótica do Quiquadrado com m-k-1 graus de liberdade ( m-k-1), ode k é o úmero de parâmetros descohecidos da distribuição proposta em H 0, estimados a partir da amostra. 8
Se a hipótese ula for verdadeira, a difereça etre cada valor observado e o respectivo valor esperado, O i e i, ão deve ser muito grade, e cosequetemete a estatística de teste terá um valor observado, Q obs, também ão muito grade. De modo ituitivo, quato maior for o valor observado de Q, meos plausível é a hipótese ula, isto é, mais os ecamihamos de cocluir que as frequêcias observadas ão foram proveietes da população em que se baseou a hipótese ula, levado à rejeição desta. Trata-se portato de um teste uilateral à direita. 9 Na aplicação deste teste deve-se ter particular ateção às frequêcias esperadas, e i s, pois se estas forem muito pequeas a aproximação ao Quiquadrado ão é a mais apropriada. São referidas a literatura várias regras práticas de aplicação do teste, das quais avaçamos a seguite. Se tivermos: ou, - mais de 0% das classes com e i iferior a 5 - mais de uma classe com e i iferior a 1 devemos proceder à agregação de algumas classes cotíguas, e iiciar ovamete o teste, agora com meos classes. 10
Exemplo 1: Número de uidades Número de dias 0 6 1 14 10 3 7 4 5 1 Tabela I: Procura diária de um produto registada em 40 dias. Represetado por X a procura diária do produto e por f a fução de probabilidade de X, as hipóteses a testar são H 0 : X ~ P(µ) (f(x) = f 0 (x) = e -, x = 0,1,,... e >0) x! H 1 : X ~ P(µ) x 11 É ecessário estimar o parâmetro, média da Poisso: x = (06 + 114 + 10 + 37 + 4 +51) / 40 = 1.7 Classes Frequêcia s observadas O i p 0i = P(A i \H 0 ) Frequêcias esperadas e i =40p 0i A 1 ={0} 6 0.187 7.308 A ={1} 14 0.3106 1.44 A 3 ={} 10 0.639 10.556 A 4 ={3} 7 0.1496 5.984 A 5 ={4} 0.0636.544 A 6 ={5} 1 3 0.016 0.093 0.864 3.78 A 7 ={6,7,...} 0 0.008 0.3 1
Probabilidades associadas a cada uma das classes supodo H 0 verdadeira: 1.7 0 p 01 = P(A 1 \H 0 ) = P(X{0}\H 0 )=P(X=0) = f 0 (0) = e -1.7 = 0.187; 0! 1.7 1 p 0 = P(A \H 0 ) = P(X{1}\H 0 ) =P(X=1)= f 0 (1) = e -1.7 = 0.3106; 1! 1.7 p 03 = e -1.7 =0.639;! A estatística teste Q, sob a hipótese H 0, tem aproximadamete distribuição Qui-quadrado com m-k-1 = 5-1-1=3 graus de liberdade. 13 Ao ível de sigificâcia de 0.05, o quatil de probabilidade 1-0.05 da distribuição 3 é 7.81, e logo a região crítica é [7.81, +[. Valor observado da estatística de teste: Q obs = (6 7.308) 7.308 + (14 1.44) 1.44 + (10 10.556) 10.556 + (7 5.984) 5.984 + + (3 3.78) 3.78 =0.778 Etão, a hipótese H 0 ão é rejeitada ao ível de sigificâcia de 0.05, isto é, ão podemos rejeitar a hipótese de aquelas observações provirem de uma população com distribuição Poisso. 14
Exemplo : Deotado por X a difereça etre a data de chegada dos avios e a data plaeada, as hipóteses a testar são H 0 : X ~ N(0.1, 7. ) H 1 : X ~ N(0.1, 7. ) Neste caso a distribuição proposta em H 0 é cotíua e, deste modo, as classes A i, i=1,...m, são itervalos da forma A 1 =]-, a 1 [, A =[ a 1, a [ A 3 =[ a, a 3 [... A m =[ a m-1, +[. 15 Para a determiação das classes é sugerida a regra de Ma e Wald: Número de classes = m, com m tal que /m>5. Os limites dos itervalos são tais que as probabilidades decorretes da hipótese ula sejam iguais a 1/m para todas as classes. Assim, as frequêcias esperadas são todas iguais a /m>5. Para o exemplo escolheu-se m=4 classes (e i =301/4=7.5>5), dode p 0i = P(A i \H 0 ) = P(XA i \ X~N(0.1, 7. )) = 1/4, para i=1,,3,4. 16
Cálculo dos limites dos itervalos de classe: a 3 : p 03 = P(XA 3 \X~N(0.1, 7. )) = 0.5 P(X<a 3 \ X~N(0.1, 7. )) =0.75 P(Z< a 3 0.1 7. )=0.75 a 3 =4.94; a 1 a =0.1 a 3 Da simetria da distribuição ormal: a =0.1 e a 1 =0.1-(4.94-0.1)= -4.74 17-6.6-5.4-1.8-0.3 15-7.6-0.6.6-7.4 1.4-6 -5.8 15. -.4-8.9-5.6-3.7. 8. -9 13. 7.6 -.8-1.8 1.8 4.4. 4 Tabela II: Difereça etre a data de chegada e a data plaeada para 30 avios. Classes Frequêcias observadas p 0i Frequêcias esperadas A 1 =]-, -4.74[ 8 0.5 7.5 A =[-4.74,0.1[ 8 0.5 7.5 A 3 =[0.1, 4.94[ 7 0.5 7.5 A 4 =[4.94, + [ 7 0.5 7.5 18
O valor observado da estatística de teste é Q obs = (8 7.5) 7.5 + (8 7.5) 7.5 + (7 7.5) 7.5 + (7 7.5) 7.5 = 0.1 19 A estatística teste, sob o pressuposto de H 0 ser verdadeira, tem aproximadamete distribuição Qui-quadrado com m-1=4-1=3 graus de liberdade. Para =0.05: R.C.=[7.81, +[. Como Q obs R.C., somos levados a ão rejeitar a hipótese de que a difereça etre os tempos de chegada e os tempos plaeados tem distribuição N(0.1, 7. ). 0
Teste de Kolmogorov-Smirov O teste de Kolmogorov-Smirov (K-S) ao cotrário do teste do Qui-quadrado, ão se aplica a dados qualitativos em a variáveis discretas, pois a tabela dispoível para este teste só é exacta caso a distribuição em teste seja cotíua. No etato, tem a vatagem de ão estar depedete de classificações dos dados, que além de serem sempre algo arbitrárias evolvem perdas de iformação. De facto, o ajustameto de uma distribuição cotíua a uma amostra usado o teste do Qui-quadrado, temos de proceder à agregação dos dados em classes, sedo por isso mais adequado utilizar o teste K-S. 1 Por outro lado, o teste K-S só pode ser aplicado quado a distribuição idicada a hipótese ula está completamete especificada (o que ão sucede com o teste do Qui-quadrado). No caso de pretedermos, por exemplo, efectuar um ajustameto de uma distribuição ormal, sem especificar e, podemos recorrer a outro teste, este caso o teste desevolvido por Lilliefors (teste de ormalidade de Lilliefors) que será abordado mais tarde. Além disso, o teste do Qui-Quadrado está orietado essecialmete para grades amostras, equato que o teste K-S é aplicável a pequeas amostras.
Fução de distribuição empírica e fução de distribuição da amostra Seja (X 1, X,...,X ) uma amostra aleatória de uma certa população X e (x 1, x,...,x ) uma sua realização. A fução de distribuição empírica é defiida por Fˆ 1 ( x) {x i : x i x}, -< x <+, ode {x i : x i x} é o úmero de valores x i que são iferiores ou iguais a x. 3 A fução de distribuição da amostra é defiida, para as variáveis aleatórias (X 1, X,...,X ), por 1 F ( x) {X i : X i x}, -< x <+. ˆ Note-se que F ( x) é uma fução de distribuição do tipo discreto associado a uma particular amostra, equato que F (x) é, para cada -< x <+ fixo, uma variável aleatória, fução de (X 1, X,...,X ), ou seja, é uma estatística. 4
Exemplo: Cosideremos a amostra costituída pelas observações: 5, 7, 8, 8, 10 e 11. A fução de distribuição empírica ˆF 6, associada a esta amostra, é dada por Fˆ 6(x) = 0 1/ 6 / 6 4 / 6 5 / 6 1 se se se se se se x 5 5 x 7 7 x 8 8 x 10 10 x 11 x 11. 5 A represetação gráfica de ˆF 6, em forma de escada, é apresetada a seguir: ˆF 6 Gráfico I: Represetação gráfica da f.d. empírica. 6
Seja F a fução de distribuição da população e F 0 a fução de distribuição proposta, cotíua e completamete especificada. Hipóteses a testar: H 0 : F(x)=F 0 (x), -<x<+ H 1 : F(x)F 0 (x) No teste de Kolmogorov-Smirov cosidera-se a estatística D sup F ( x) F0 ( x) x como uma medida da discrepâcia etre a fução de distribuição da amostra F e a fução de distribuição proposta F 0. 7 Ao substituir em D a fução de distribuição da amostra F pela fução de distribuição empírica Fˆ, obtém-se o valor observado da estatística teste: d sup Fˆ ( x) F0 ( x) x. Uma vez que F 0 é uma fução (cotíua) crescete e Fˆ é uma fução em escada, o supremo d ocorre um poto ode se verifica um salto de observação x i ) ou imediatamete ates desse poto. Isto é, Fˆ (uma d i1,..., max F ˆ 0 ( xi ) F ( xi ), F0 ( xi ) Fˆ ( x i ). 8
sup ˆ ( x) F0 ( x) F x F 0 (x) ˆ ( x) F Gráfico II: Ajustameto de uma f.d hipotética F 0 à f.d. empírica Fˆ. 9 Assim, se H 0 for verdadeira, a distâcia vertical máxima etre as images das duas distribuições ão deve de ser muito grade, e logo espera-se que D tome um valor pequeo. Etão, rejeita-se H 0, para um ível de sigificâcia, se o valor observado d da estatística teste D for superior ou igual ao poto crítico D, ode D, é tal que, P(D D, \ H 0 é verdadeira)= Os valores críticos D, podem ser cosultados uma tabela. 30
Exemplo 3: Um certo Politécico do país efectuou um cotrato com uma determiada empresa que ficou resposável pelo abastecimeto da care que compuha as refeições a catia dessa Escola. O cotrato refere uma média de 90 gramas de care por refeição, por estudate. No etato, algus aluos queixaram-se acerca da comida, em particular acerca da quatidade de care servida por refeição. Os aluos falaram com o coziheiro chefe, que lhes disse que a quatidade de care servida por refeição a cada estudate tiha aproximadamete distribuição ormal de média 90 gr com um desvio padrão de 56 gr. 31 Após esta coversa com o coziheiro, algus aluos cocordaram em recolher as suas refeições ao logo de vários dias, resultado assim uma amostra de 10 refeições, que foram levadas para um laboratório afim de serem pesados os pedaços de care elas cotidos. Os dados obtidos são os seguites: 198 54 6 7 75 78 85 87 87 9 Ao ível de sigificâcia de 5%, há evidêcia para rejeitar a hipótese de que o coziheiro seguia as regras que afirmou em relação à quatidade de care servida? 3
Deote-se por X a quatidade, em gramas, de care servida por refeição a cada estudate. As hipóteses a testar são, este caso, H 0 : XN(90, 56 ) H 1 : X ~ N(90, 56 ). A estatística de teste é D 10 = sup F 10 (x)-f 0 (x). x O poto crítico da estatística de teste D 10 é, para =0.05, D 10,0.05 = 0.409. 33 Cálculo do valor observado da estatística D 10. x i ( x ) F ( ) ˆ10 i F z i = ˆ10 x i x i 90 56 F 0 (x i ) =P(Z z i ) (Z~N(0,1)) F 0 (x i )- F ˆ10 ( x i ) F 0 (x i )- F ( ) 198 0,1 0-1,64 0,0505 0,0495 0,0505 54 0, 0,1-0,64 0,611 0,0611 0,1611 6 0,3 0, -0,5 0,3085 0,0085 0,1085 7 0,4 0,3-0,3 0,3745 0,055 0,0745 75 0,5 0,4-0,7 0,3936 0,1064 0,0064 78 0,6 0,5-0,1 0,4168 0,183 0,083 85 0,7 0,6-0,09 0,4641 0,359 0,1359 87 0,9 0,7-0,05 0,4801 0,4199 0,199 9 1 0,9 0,04 0,516 0,484 0,384 ˆ10 x i 34
F 0 (198) = P(X198) = P(Z F 0 (54) = P(X54) = P(Z 198 90 ) = P(Z-1.64) = 1-0.9495 = 0.0505 56 54 90 ) = P(Z-0.64) = 1-0.7389 = 0.611 56 Como d 10 =0.484>0.409, ao ível de sigificâcia de 5%, rejeitamos a hipótese de a quatidade de care servida por refeição a cada estudate seguir distribuição N(90, 56 ). 35 Teste de Normalidade Lilliefors Sejam X 1, X,...,X uma amostra aleatória de uma população X com distribuição F descohecida. Pretede-se testar se X tem distribuição N(, ) sem especificar e, isto é, para algum e algum. Hipóteses a testar H 0 : X ~ N(, ) H 1 : X ~ N(, ) 36
Este teste processa-se como o teste de Kolmogorov-Smirov, mas os dados origiais são estadardizados, usado estimativas de e : Z i X S X i (i=1,..). Hipóteses a testar: H 0 : Z ~ N(0, 1) H 1 : Z ~ N(0, 1) 37 Sedo F 0 a fução de distribuição N(0,1), a estatística do teste de Lilliefors é D * sup F ( z) F0 ( z) z ode F é a fução de distribuição da amostra depois de estadardizada, i.e., defiida para as variáveis aleatórias Z 1, Z,...,Z. Mais uma vez, o valor observado da estatística teste D *, * d, é obtido substituido a estatística a fução distribuição da amostra estadardizada pela fução distribuição empírica. 38
A hipótese H 0 é rejeitada, para um ível de sigificâcia, se o valor observado d * for superior ou igual ao poto crítico P( D * D *, D *, \ H 0 é verdadeira)=., com D, tal que, Os potos críticos são cosultados a tabela elaborada por Lilliefors. 39 Exemplo 4: Um distribuidor pretede estimar o tempo médio de etrega dos seus produtos a um cliete bastate importate. Foi recolhida uma amostra aleatória de cico tempos: 9, 33, 35, 36 e 36. O sehor quer estimar o tempo médio pretedido através de um itervalo de cofiaça, mas ão sabe ada acerca da distribuição do tempo de etrega X, e além disso, a dimesão da amostra é muito pequea (=5). Poderá fazê-lo? Sabemos que caso X teha distribuição ormal o itervalo pode ser calculado usado a estatística T= X t-1. S 40
Assim, iteressa testar, em primeiro lugar, as hipóteses H 0 : X ~ N(, ) H 1 : X ~ N(, ) Uma vez que ada sabemos acerca de e, podemos utilizar o teste de Lilliefors, recorredo às estimativas x =33.8 s=.95. D O valor crítico da estatística teste, ao ível de sigificâcia de 0.05 é * 5,0.05 =0.337, e assim a distribuição ormal é rejeitada se * d5 0.337. 41 Cálculo do valor observado da estatística x i z i = x i 33.8.95 F ( z ) ( ) ˆ5 i ˆ5 z i * D 5, F F 0 (z i ) =P(Z z i ) (Z~N(0,1)) * d 5 : F 0 (z i )- F ( z ) ˆ5 i F 0 (z i )- F ( ) 9-1,63 0, 0 0,0516 0,1484 0,0516 33-0,7 0,4 0, 0,3936 0,0064 0,1936 35 0,41 0,6 0,4 0,6591 0,0591 0,591 36 0,75 1 0,6 0,7734 0,66 0,1734 ˆ5 z i * Como d 5 =0.591<0.337, etão, ao ível se sigificâcia de 5%, ão rejeitamos a hipótese de a população em estudo ter distribuição ormal. 4
Tabelas de Cotigêcia Teste do Qui-quadrado de Idepedêcia Supoha que uma amostra aleatória de tamaho de uma dada população são observados dois atributos ou características A e B (qualitativas ou quatitativas), uma com r e outra com s modalidades ou categorias, respectivamete A 1, A,..., A r e B 1, B,..., B s. 43 Cada idivíduo da amostra é classificado uma e uma só categoria (ou classe) de A e uma e uma só categoria (ou classe) de B. A classificação dos elemetos da amostra dá origem a uma tabela de dupla etrada, desigada por tabela de cotigêcia rs, com o seguite aspecto: B 1 B... B s A 1 O 11 O 1... O 1s A O 1 O... O s A r O r1 O r... O rs 44
Nesta tabela cada O ij (i=1,...,r e j=1,...,s) é uma variável aleatória que represeta a amostra o úmero de elemetos classificados simultaeamete as categorias A i de A e B j de B. Além disso, temos as variáveis aleatórias: O i O ij s j1 com modalidade A i ; O j O ij r i1 com modalidade B j. (i=1,...,r) que represeta o úmero de elemetos a amostra (j=1,...,s) que represeta o úmero de elemetos a amostra 45 Tem-se, r s O i1 j1 ij r O i1 i s O j1 j, ode é a dimesão da amostra que se supõe fixa. O objectivo a que os propomos é o de tetar iferir sobre a existêcia ou ão de qualquer relação ou associação etre os atributos (variáveis) A e B, mais cocretamete, iferir se A e B são ou ão idepedetes. Hipóteses a testar: H 0 : A e B são idepedetes H 1 : A e B ão são idepedetes 46
Deote-se por: p ij =P(A i B j ) (i=1,..,r e j=1,...,s) a probabilidade (descohecida) de um idivíduo da população ser classificado simultaeamete as categorias A i de A e B j de B; pi P( Ai ) (i=1,...,r) a probabilidade (descohecida) de um idivíduo da população ser classificado a categoria A i de A; p j P( B j ) (j=1,...,s) a probabilidade (descohecida) de um idivíduo da população ser classificado a categoria B j de B. 47 Tem-se, r s 1 p p p. i1 j1 ij r i1 i s j1 j Ora, se os atributos são idepedetes, verifica-se a cohecida relação, P( Ai B j ) P( Ai ) P( B j ), isto é, p ij = p i p j. Assim, as hipóteses ateriores podem ser formuladas do seguite modo: H 0 : p ij = H 1 : p ij p i pi p j (para todo i e j) p j (para algum ij). 48
Os verdadeiros valores das probabilidades dos dados amostrais, por p o i ˆ i e p i e p j o ˆ, p j são estimadas, a partir j ode o i e o j são os valores observados das variáveis aleatórias respectivamete, para uma amostra cocreta. O i e O j, e ij = p ij úmero esperado de idivíduos a classe A i de A e B j de B. 49 Quado H 0 é verdadeira, i.e, p ij = p i p j, temos e ij = p ij = p i p j estimado por eˆ ij pˆ i pˆ j A estatística do teste de idepedêcia é s ( O eˆ r ij ij, i1 j1 eˆ ij que, sob o pressuposto de H 0 ser verdadeira, tem distribuição assitótica do Qui-quadrado com (r-1)(s-1) graus de liberdade. ) 50
Vimos que quado H 0 é verdadeira e ij pode ser estimado por eˆ ij pˆ i pˆ j, e logo a difereça etre o ij (frequêcia observada) e ê ij (estimativa da frequêcia esperada supodo a idepedêcia) ão deve ser grade. Assim, a estatística teste, tal como está defiida, mede o afastameto dos dados em relação à hipótese de idepedêcia. Trata-se etão de um teste uilateral à direita. 51 Exemplo 1: Um supermercado quer testar ao ível de sigificâcia de 5% a hipótese de que o modo de pagameto dos clietes esse estabelecimeto é idepedete do período do dia em que fazem as compras. Existem três modos de efectuar os pagametos: por cheque, diheiro e cartão de crédito. A seguite tabela de cotigêcia 33 apreseta os resultados obtidos uma amostra de 4000 clietes: PERÍODO DO DIA MODO DE Mahã Tarde Noite PAGAMENTO Cheque 750 1500 750 Diheiro 15 300 75 Cartão de Crédito 15 00 175 5
Deotado por A o atributo Modo de pagameto e por B o atributo Período do dia em que faz as compras, as hipóteses as testar são H 0 : A e B são idepedetes H 1 : A e B ão são idepedetes Uma vez que A e B assumem cada uma 3 modalidades, sob H 0, a estatística teste tem distribuição assitótica do Qui-quadrado com (r-1)(s-1)=(3-1)(3-1)= 4 graus de liberdade. Ao ível de sigificâcia de 0.05, a região crítica é etão [9.49, +[. 53 Como vimos, para obtermos o valor observado da estatística teste, temos de calcular as frequêcias esperadas: Assim, por exemplo, o eˆ ij pˆ i pˆ i o j j = o. o = i. j ê 11 =(30001000)/4000=750, ê 1=(3000000)/4000=1500 ê 13 =(30001000)/4000=750.. 54
Frequêcias esperadas PERÍODO DO DIA MODO DE Mahã Tarde Noite Totais PAGAMENTO Cheque 750 1500 750 3000 Diheiro 15 50 15 500 Cartão de 15 50 15 500 Crédito Totais 1000 000 1000 4000 55 Valor observado da estatística teste: obs = + (750 750) 750 (175 15) 15 + (1500 1500) 1500 =60. +...+ (00 50) 50 + Uma vez que 60 excede o valor crítico 9.49, ao ível de sigificâcia de 0.05, rejeitamos a hipótese de que o modo de pagameto é idepedete do período do dia em que as compras são feitas. 56
Medidas de Associação No teste do Qui-Quadrado apresetado, se for rejeitada a hipótese de idepedêcia etre os atributos, pode iteressar medir a itesidade da associação etre os mesmos, através de uma medida adequada. Uma vez que a estatística do teste mede o afastameto em relação à hipótese de idepedêcia, o seu valor observado também poderá servir para avaliar a força da relação etre os atributos. No etato, houve ecessidade de itroduzir algumas modificações, devido a diversas razões, por exemplo o facto do ão tomar valores apeas o itervalo [0,1], o que é salutar uma medida de associação. 57 Coeficiete de Cotigêcia de Pearso: C Este coeficiete varia etre 0 e ( q 1) q ode q=mi{r,s} e portato uca assume o valor 1. Valores pequeos de C idicam fraca associação etre os atributos, equato que valores grades de C idicam forte associação. O facto deste coeficiete ão assumir o valor 1 o caso de associação completa é uma sua limitação. Para obviar este problema, Tshuprow propôs o seguite coeficiete. 58
Coeficiete de Tshuprow: T ( r1) ( s1) Este coeficiete varia etre 0 e 1, tomado o valor 0 o caso de existir idepedêcia e o valor 1 quado r=s e houver associação completa. Por último, referimos o coeficiete proposto por Cramer que atige o valor 1 quado há associação completa. 59 Coeficiete V de Cramer: V ( q 1), com q=mi{r,s} 0V1. Para o exemplo aterior, rejeitamos a hipótese de idepedêcia etre o modo de pagameto e o período do dia em que as compras eram efectuadas. Para ter uma ideia da itesidade de associação etre estes dois atributos, calcula-se, por exemplo, o coeficiete V de Cramer. Assim, tem-se V= 60 4000 =0.087. Verificamos, segudo o coeficiete V que, apesar de haver associação etre os atributos, esta pode cosiderar-se fraca. 60
Teste de Homogeeidade Supoha que são recolhidas amostras aleatórias de s populações (subpopulações ou estratos) B 1, B,..., B s, as quais se observa um atributo A com r categorias A 1, A,..., A r. Neste cotexto, surge também uma tabela de cotigêcia rs da forma apresetada a tabela I, mas com leitura diferete. Assim, cada O ij (i=1,...,r e j=1,...,s) é uma variável aleatória que represeta o úmero de elemetos classificados a categorias A i de A, a amostra da população B j. 61 O i O ij s j1 (i=1,...,r) é uma variável aleatória que represeta o úmero de elemetos a categoria A i de A em todas as amostras. O j O ij r i1 (j=1,...,s) é uma costate prefixada (e ão uma variável aleatória como acotece o teste de idepedêcia), pois é o tamaho da amostra recolhida a população B j. Neste caso, cada B j rotula uma subpopulação cujos elemetos se distribuem pelas r modalidades do atributo A, e o que se pretede saber é se existe homogeeidade, isto é, se ão há difereça etre as populações o modo como os seus elemetos se distribuem pelas modalidades do atributo A. 6
Supohamos, por exemplo, que dispomos dos resultados de vaciação cotra a cólera um cojuto de 79 idivíduos escolhidos aleatoriamete etre os vaciados, e um cojuto de 539 idivíduos escolhidos aleatoriamete etre os ão vaciados: Vaciados Não Vaciados Atacados 3 66 Não 76 473 Atacados Totais 79 539 63 Isto correspode a ter duas amostras, uma em cada colua da tabela, obtidas de modo idepedete e de dimesões, respectivamete o 1=79 e o =539. Hipóteses a testar: H 0 : os atacados e ão atacados distribuem-se de forma idêtica (homogéea) os vaciados e ão vaciados H 1 : os atacados e ão atacados distribuem-se de modo diferete os vaciados e ão vaciados As proporções de atacados e ão atacados são dadas, respectivamete, por o. o 1. 69 = =0.084 e = 818 818 749 =0.916. 64
Assim, sob o pressuposto de H 0 ser verdadeira, em cada um dos grupos dos vaciados e ão vaciados, deviam ser atacados (ão atacados) uma proporção de idivíduos igual a 0.084 (0.916), isto é: os vaciados espera-se que sejam: atacados eˆ e ão atacados o 1. 11 o.1 =790.084=3.44 idivíduos eˆ 1 o.1 o. =790.916=55.56; 65 os ão vaciados espera-se que sejam atacados eˆ 1 e ão atacados o o 1.. =5390.084=45.76 idivíduos eˆ o. o. =5390.916=493.74. O quadro seguite apreseta as frequêcias esperadas sob o pressuposto de homogeeidade: Vaciados Não Vaciados Atacados 3.44 45.76 Não 55.56 493.74 Atacados Totais 79 539 66
À semelhaça do teste de idepedêcia, a estatística do teste é s ( O eˆ r ij ij, i1 j1 eˆ ij que, sob o pressuposto de H 0 ser verdadeira, tem distribuição assitótica do Qui-Quadrado com (r-1)(s-1) graus de liberdade. ) As frequêcias observadas O ij e as estimativas das frequêcias esperadas ê ij calculadas sob o pressuposto de H 0 ser verdadeira, devem diferir pouco se H 0 for de facto verdadeira. Assim, valores muito grades da estatística teste traduzem um grade afastameto dos dados em relação à hipótese ula, coduzido à rejeição desta. Mais uma vez, a estatística teste mede o afastameto dos dados em relação à hipótese de homogeeidade. 67 Calculo do valor observado da estatística teste: 3 3.44 66 45.76 76 55.56 473 493.74 3.44 45.76 55.56 493.74 =9.8 O quatil de probabilidade 0.995 da distribuição 1 é 7.88. Como o valor observado da estatística teste é 9.8 > 7.88 etão, para um ível de sigificâcia 0.005, rejeita-se a hipótese de homogeeidade etre as duas amostras, isto é, a população dos vaciados difere da dos ão vaciados o que se refere ao facto de terem ou ão sido atacados. 68
AJUSTAMENTO ENTRE DUAS AMOSTRAS INDEPENDENTES Objectivo: Dadas duas amostras aleatórias e idepedetes proveietes de duas populações X e Y, pretede-se testar a hipótese H 0 de que as duas distribuições populacioais são idêticas, isto é, as duas amostras podem ser cosideradas como proveietes de populações com a mesma distribuição. 69 Hipóteses a testar: H 0 : As duas amostras são retiradas de populações com a mesma distribuição H 1 : As duas amostras são retiradas de populações com distribuições diferetes Deotado por F e G as fuções de distribuição de X e Y, respectivamete, as hipóteses podem ser formuladas da seguite maeira: H 0 : F(x)=G(x), para todo o x H 1 : F(x)G(x), para algum x 70
Teste do Qui-quadrado Os valores possíveis da característica em estudo são repartidos por m classes mutuamete exclusivas A 1, A,...,A m. A hipótese H 0 que se pretede testar é a de que as duas populações em estudo têm a mesma distribuição, isto é, ão há difereça etre as duas populações o modo como os seus elemetos se distribuem pelas diversas classes. Por outras palavras, as duas populações são homogéeas. Trata-se etão do teste do Qui-quadrado de homogeeidade para duas populações (s=). 71 Teste de Kolmogorov-Smirov Admite-se que X e Y são variáveis aleatórias cotíuas. Seja 1 o tamaho da amostra de X e o tamaho da amostra de Y Estatística de teste: F x e ( x) ode ( ) 1 amostras. D' sup F ( x) G ( x) 1 x G são as fuções de distribuição de cada uma das 7
Substituido as fuções de distribuição das amostras pelas fuções de distribuição empíricas obtém-se o valor observado da estatística de teste: D' sup Fˆ ( ) ˆ x G ( x) 1 x. Para um ível de sigificâcia, a hipótese H 0 é rejeitada se o valor observado da estatística de teste for superior ao poto crítico tal que: P. D' D' \ H é verdadeira) ( 0 Os valores críticos podem ser cosultados uma tabela. D ', ode D ' é 73 TESTE DE KRUSKAL-WALLIS O teste de Krukal-Wallis costitui uma alterativa à aálise de variâcia com um factor quado os pressupostos desta ão podem ser verificados. Objectivo: Dadas k populações as quais se estuda uma característica comum e de ode foram extraídas k amostras aleatórias e idepedetes, pretede-se testar a hipótese H 0 de que as distribuições populacioais são idêticas, isto é, as k amostras podem ser cosideradas como proveietes de populações com a mesma distribuição. 74
Hipóteses a testar: H 0 : As k amostras são retiradas de populações com a mesma distribuição H 1 : As k amostras ão são retiradas de populações com a mesma distribuição, isto é, há pelo meos duas populações com distribuições diferetes O teste de Kruskal-Wallis é particularmete sesível a difereças as medidas de localização. Por esta razão as hipóteses são geralmete formuladas em termos das médias ou das mediaas populacioais, vido: 75 H 0 : 1 = == k (as médias populacioais são iguais para as k populações) H 1 : i = j para algum e algum j com ij (há pelo meos duas populações com médias diferetes) ode i represeta a média da i-ésima população, ou H 0 : M 1 =M ==M k (as k mediaas populacioais são iguais) H 1 : M i =M j para algum e algum j com ij (há pelo meos duas populações com mediaas diferetes) ode, M i represeta a mediaa da i-ésima população. 76
Sejam, i - o tamaho da amostra retirada da população i (i=1,...k); N = k i i1 - º total de observações; X ij - represeta a j-ésima observação da amostra da população i. Procedimeto: - ordeam-se todas as observações por ordem crescete dos seus valores; - atribui-se um º de ordem, ou posto, R ij, a cada observação X ij (a observação mais pequea fica com o º de ordem, ou posto, 1 e a observação maior com o posto N); - para cada população i determia-se o valor R i da soma dos postos das observações correspodetes a esse grupo populacioal: i R i R ij j1 77 Quado há empates os valores observados, o úmero de ordem, ou posto, que deve ser atribuído a cada valor empatado deve ser a média dos úmeros de ordem que seriam atribuídos a estes valores se ão estivessem empatados. Por exemplo, supohamos que ordeado os valores observados obtíhamos 100, 10, 10, 10, 10.5, 103, 103, 104. Neste caso, os úmeros de ordem seriam respectivamete, 1, 3, 3, 3, 5, 6.5, 6.5, 8. 78
Quado ão há empates os valores observados das amostras, ou o º de empates é muito pequeo, a estatística de teste é: 1 N( N 1) k i1 R i H= 3( N 1) i A hipótese ula deve ser rejeitada se o valor observado da estatística H for muito grade. Se há apeas três populações em estudo e o tamaho de cada amostra é iferior ou igual a 5 (k=3 e i 5, i=1,...,k), os quatis da distribuição exacta da estatística H, sob H 0, podem ser cosultados uma tabela. 79 Neste caso, para um ível de sigificâcia, procura-se a referida tabela o quatil de probabilidade (1-), q 1-, e rejeita-se a hipótese H 0 se H obs q 1-. Se o tamaho de todas as amostras for superior ou igual a 5 ( i 5, i=1,...,k) etão, sob a hipótese de H 0 ser verdadeira, H tem aproximadamete distribuição k1 (Qui-quadrado com k-1 graus de liberdade). Neste caso, para um ível de sigificâcia, a hipótese ula é rejeitada se o valor observado de H for superior ou igual ao quatil de probabilidade (1-) da distribuição k1. 80
Quado há muitos empates os valores observados das amostras a estatística de teste a usar deve ser: ode, S H'= 1 S k R i 1 i N( N i 4 1 k i R N 1i 1 j 1 1) N N ij 4 ( 1) 81 Mais uma vez, se i 5, i=1,...,k, etão, sob a hipótese de H 0 ser verdadeira, H' tem aproximadamete distribuição 1. Logo, para um ível de sigificâcia k, a hipótese H 0 é rejeitada se o valor observado de H' for superior ou igual ao quatil de probabilidade (1-) da distribuição k1. 8