Capítulo 6 Estatística não-paramétrica

Capítulo 6 Estatística não-paramétrica Slide 1 Teste de ajustamento do Qui-quadrado Testes de independência e de homogeneidade do Qui-quadrado

Algumas considerações Slide 2 As secções deste capítulo referem-se à análise de dados categorizados (qualitativos ou atributos) os quais podem ser classificados em diferentes categorias (frequentemente designadas por células). Vamos usar a distribuição χ 2 (Qui-quadrado). No teste de ajustamento temos uma tabela com apenas uma linha ou uma coluna. Nos testes de independência e de homogeneidade as tabelas têm, pelo menos, 2 linhas e 2 colunas.

Algumas considerações Slide 3 Definições Testes Paramétricos Os testes paramétricos obrigam a que as populações envolvidas obedeçam a certas premissas. Testes Não-Paramétricos Nos testes não-paramétricos as populações não têm que obedecer a quaisquer premissas. Assim sendo, este testes são também designados por testes distribution-free.

Vantagens dos Métodos Não-paramétricos Slide 4 1. Os métodos não-paramétricos podem ser aplicados numa grande variedade de situações pois não exigem premissas rígidas, tal como acontece com os métodos paramétricos. Em particular, os métodos não-paramétricos não exigem que as populações tenham distribuição Normal. 2. Ao contrário do que acontece com os métodos paramétricos, os métodos não-paramétricos podem ser aplicados a dados qualitativos. 3. Habitualmente, os métodos não-paramétricos envolvem cálculos mais simples do que os correspondentes métodos paramétricos, donde são mais fáceis de perceber e aplicar.

Desvantagens dos Métodos Não-paramétricos Slide 5 1. Os métodos não-paramétricos tendem a desperdiçar informação uma vez que, frequentemente, os dados quantitativos são transformados em dados qualitativos. 2. Os testes não-paramétricos não são tão eficientes como os métodos paramétricos logo, em geral, com um teste não-paramétrico é necessário uma maior evidência (como, por exemplo, uma amostra maior ou maiores diferenças) para poder rejeitar a hipótese nula.

Definição Slide 6 Experiência Multinomial Esta é uma experiência que obedece às seguintes condições: 1. O número de provas é fixo. 2. As provas são independentes. 3. Todos os resultados de uma prova devem poder ser classificados numa só das diferentes categorias. 4. As probabilidades para cada uma das categorias permanecem constantes em cada prova.

Definição Slide 7 Teste de ajustamento Um teste de ajustamento é usado para testar a hipótese de uma certa distribuição de frequências observadas seguir uma certa distribuição teórica.

Teste de ajustamento Slide 8 Notação 0 representa a frequência (ou valor) observada (o) E representa a frequência esperada (de acordo com a distribuição teórica) k representa o número de categorias n representa a dimensão da amostra (ou seja, neste contexto, o número de provas)

Frequências Esperadas Slide 9 Se todas as frequências esperadas forem iguais: E = n k cada valor esperado é a soma de todas as frequências observadas dividida pelo número de categorias.

Frequências Esperadas Slide 10 Se as frequências esperadas forem diferentes: E = n p cada valor esperado determina-se multiplicando a soma de todas as frequências observadas pela probabilidade de cada categoria.

Teste de ajustamento Slide 11 Estatística de teste X 2 = Σ (O E)2 E Valores críticos 1. Determinam-se usando a tabela da distribuição Qui-quadrado com k 1 graus de liberdade, onde k = número de categorias. 2. A hipótese alternativa é sempre unilateral direita.

Se os valores observados estiverem próximos dos valores esperados, então o valor da estatística de teste será pequeno (que é o mesmo do que dizer que o P-value será grande) e vice-versa. Um valor muito elevado da estatística de teste levará à rejeição da hipótese nula (a qual diz que não há diferença entre os valores observados e os valores esperados)

Tabelas de contingência: Independência e Homogeneidade

Definição Slide 14 Uma tabela de contingência é uma tabela de frequências que representa um conjunto de dados que foram classificados simultaneamente segundo duas (bidimensional) ou mais variáveis (multidimensional). As tabelas de contingência têm, pelo menos, 2 linhas e 2 colunas.

Definição Slide 16 Teste de Independência Este método testa a hipótese nula de a variável linha e a variável coluna numa tabela de contingência não estarem relacionadas. (A hipótese nula afirma que as duas variáveis são independentes.)

Pressupostos 1. As observações são seleccionadas aleatoriamente. Slide 17 2. A hipótese nula H 0 afirma que as variáveis linha e coluna são independentes; a hipótese alternativa H 1 afirma que as variáveis linha e coluna são dependentes. 3. O valor esperado, E, de cada célula da tabela de contingência tem que ser, pelo menos, 5. (Que não é o mesmo do que dizer que cada valor observado, O, de cada célula da tabela de contingência tenha que ser, pelo menos, 5.)

Teste de Independência Estatística de teste Slide 18 Valores críticos: X 2 = Σ X 2 = Σ (O E)2 E Correcção de Yates: aplica-se quando a tabela de contingência é 2x2. Neste caso, a estatística de teste é ( O E -0.5)2 E 1. Determinam-se através da tabela da distribuição Quiquadrado com (r 1)(c 1)=graus de liberdade onde r é o número de linhas e c o número de colunas da tabela de contingência.

2. A hipótese alternativa é sempre unilateral direita. E = (total de linha) (total de coluna) (total) E = n i. n.j n

Teste de Independência Slide 20 H 0 : A variável linha é independente da variável coluna. H 1 : A variável linha é dependente (está relacionada com a) da variável coluna. A dependência entre as duas variáveis significa apenas que as duas variáveis estão relacionadas, não especifica o tipo de relação (por exº, do tipo causa/efeito).

Frequências Observadas e Esperadas Slide 21 Survived Died Men Women Boys Girls Total 332 318 29 27 706 1360 104 35 18 1517 Total 1692 422 64 45 2223 Vamos usar a tabela de contingência referente aos passageiros do Titanic para calcular as frequências esperadas. Para a primeira célula, a que se encontra na posição 11, ou seja, 1ª linha e 1ª coluna, temos: E 11 = n 1. n.1 n = (706)(1692) 2223 = 537.360

Frequências Observadas e Esperadas Slide 22 Survived Men Women Boys Girls Total 332 318 29 27 706 537.360 Died 1360 104 35 18 1517 Total 1692 422 64 45 2223 Cálculo da frequência esperada da célula na posição 21, sob a hipótese de independência entre as variáveis. E 21 = (1517)(1692) 2223 = 1154.640

Frequências Observadas e Esperadas Slide 23 Survived Men Women Boys Girls Total 332 318 29 27 706 537.360 134.022 20.326 14.291 Died Total 1360 1154.64 1692 104 287.978 422 35 43.674 64 18 30.709 45 1517 2223 Para interpretar o resultado obtido para a célula, por exemplo, na posição 21, dizemos que embora tivessem sido observadas 1360 mortes nos homens, se houvesse independência entre a sobrevivência e o facto de um indivíduo ser homem, mulher, rapaz ou rapariga, esperaríamos apenas 1154.64 mortes nos homens.

Exemplo: Teste a hipótese de a sobrevivência dos passageiros do Titanic ser independente do facto do passageiro ser homem, mulher, rapaz ou rapariga, usando um nível de significância de 0.05. H 0 : A sobrevivência dos passageiros é independente do facto de ser homem, mulher, rapaz ou rapariga. H 1 : A sobrevivência dos passageiros é dependente do facto de ser homem, mulher, rapaz ou rapariga.

Cálculos: X 2 = (332 537.36) 2 + (318 132.022) 2 + (29 20.326) 2 + (27 14.291) 2 537.36 134.022 20.326 14.291 + (1360 1154.64) 2 + (104 287.978) 2 + (35 43.674) 2 + (18 30.709) 2 1154.64 287.978 43.674 30.709 X 2 =78.481 + 252.555 + 3.702+11.302+36.525+117.536+1.723+5.260 = 507.084

O número de graus de liberdade é (r 1)(c 1) = (2 1)(4 1) = 3 pois a tabela tem 2 linhas e 4 colunas. Então, o valor crítico é χ 2 (0.05;3) = 7.815

Estatística de teste: X 2 = 507.084 Slide 27 com α = 0.05 e (r 1) (c 1) = (2 1) (4 1) = 3 graus de liberdade Valor crítico: χ 2 = 7.815

Relações entre as componentes num Teste de Independência Slide 28 Com pare os valores observados, O, com os respectivos valores esperados, E. O `s e E `s próxim os. X 2 pequeno, P-value grande. O `s e E `s afastados. X 2 grande, P-value pequeno. X 2 aqui X 2 aqui N ão rejeitar H 0. R ejeitar H 0.

Definição Slide 29 Teste de Homogeneidade Num teste de homogeneidade, verificamos se diferentes populações têm as mesmas características.

Como distinguir um teste de homogeneidade dum teste de independência: Slide 30 A dimensão das amostras provenientes da diferentes populações foi fixada à partida (teste de homogeneidade), ou foi recolhida apenas uma amostra que depois foi classificada aleatoriamente nas diferentes linhas e colunas (teste de independência)?

Exemplo: Através da tabela que se segue, teste o efeito do sexo do entrevistador nas respostas de uma amostra de indivíduos do sexo masculino a uma certa sondagem, com um nível de significância de 0.05.

H 0 : A proporção de respostas concordantes/discordantes é a mesma quer o entrevistador seja do sexo masculino ou feminino. H 1 : As proporções são diferentes Chi-Square Tests Value df Asymp. Sig. (2-sided) Pearson Chi-Square 6,529(b) 1,011 Continuity Correction(a) 6,184 1,013 Likelihood Ratio 6,662 1,010 Exact Sig. (2-sided) Exact Sig. (1-sided) Fisher's Exact Test,011,006 Linear-by-Linear Association 6,524 1,011 N of Valid Cases 1200 a Computed only for a 2x2 table b 0 cells (,0%) have expected count less than 5. The minimum expected count is 110,67.

O SPSS fornece-nos o valor da estatística de teste X 2 = 6.184 e o P-value 0.013 (pois a tabela é 2x2). Usando a abordagem através do P-value, rejeitamos a hipótese nula de igualdade (homogeneidade) das proporções (porque o P-value é menor do que 0.05). Assim, concluímos que existe evidência suficiente para rejeitar a hipótese de igualdade de proporções.