Testes χ 2 (cont.) Testes χ 2 para k categorias (cont.)



Documentos relacionados
INTRODUÇÃO. Exemplos. Comparar três lojas quanto ao volume médio de vendas. ...

Jackknife, Bootstrap e outros métodos de reamostragem

ActivALEA. ative e atualize a sua literacia

Análise de Projectos ESAPL / IPVC. Critérios de Valorização e Selecção de Investimentos. Métodos Estáticos

Testes de Hipóteses para a Diferença Entre Duas Médias Populacionais

Prof. Eugênio Carlos Stieler

CAP. I ERROS EM CÁLCULO NUMÉRICO

5. A nota final será a soma dos pontos (negativos e positivos) de todas as questões

Lista 9 - Introdução à Probabilidade e Estatística

defi departamento de física

CAPÍTULO 5 CIRCUITOS SEQUENCIAIS III: CONTADORES SÍNCRONOS

APONTAMENTOS DE ÁLGEBRA LINEAR E GEOMETRIA ANALÍTICA

1.1 Comecemos por determinar a distribuição de representantes por aplicação do método de Hondt:

PROBABILIDADES E ESTATÍSTICA

MINISTÉRIO DAS CIDADES, ORDENAMENTO DO TERRITÓRIO E AMBIENTE Instituto do Ambiente PROCEDIMENTOS ESPECÍFICOS DE MEDIÇÃO DE RUÍDO AMBIENTE

Introdução ao Estudo de Sistemas Lineares

Curso MIX. Matemática Financeira. Juros compostos com testes resolvidos. 1.1 Conceito. 1.2 Período de Capitalização

Faculdade de Engenharia Investigação Operacional. Prof. Doutor Engº Jorge Nhambiu

Estatística stica para Metrologia

somente um valor da variável y para cada valor de variável x.

Capitulo 6 Resolução de Exercícios

1.4- Técnicas de Amostragem

Séries de Potências AULA LIVRO

CAPÍTULO 5 - INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA

O erro da pesquisa é de 3% - o que significa isto? A Matemática das pesquisas eleitorais

Carteiras de Mínimo VAR ( Value at Risk ) no Brasil

Probabilidades. José Viegas

As dificuldades na representação gráfica

Definição 1.1: Uma equação diferencial ordinária é uma. y ) = 0, envolvendo uma função incógnita y = y( x) e algumas das suas derivadas em ordem a x.

5- CÁLCULO APROXIMADO DE INTEGRAIS 5.1- INTEGRAÇÃO NUMÉRICA

JUROS COMPOSTOS. Questão 01 A aplicação de R$ 5.000, 00 à taxa de juros compostos de 20% a.m irá gerar após 4 meses, um montante de: letra b

O QUE SÃO E QUAIS SÃO AS PRINCIPAIS MEDIDAS DE TENDÊNCIA CENTRAL EM ESTATÍSTICA PARTE li

UFRGS MATEMÁTICA

Matemática Ficha de Trabalho

Os juros compostos são conhecidos, popularmente, como juros sobre juros.

VII Equações Diferenciais Ordinárias de Primeira Ordem

ERROS ERRO DE ARREDONDAMENTO

Problema de Fluxo de Custo Mínimo

Esta Norma estabelece o procedimento para calibração de medidas materializadas de volume, de construção metálica, pelo método gravimétrico.

Otimização e complexidade de algoritmos: problematizando o cálculo do mínimo múltiplo comum

Conceito 31/10/2015. Módulo VI Séries ou Fluxos de Caixas Uniformes. SÉRIES OU FLUXOS DE CAIXAS UNIFORMES Fluxo de Caixa

CAPÍTULO 8 - Noções de técnicas de amostragem

PRESTAÇÃO = JUROS + AMORTIZAÇÃO

Faculdade Campo Limpo Paulista Mestrado em Ciência da Computação Complexidade de Algoritmos Avaliação 2

Teste de Hipóteses VÍCTOR HUGO LACHOS DÁVILAD

a taxa de juros i está expressa na forma unitária; o período de tempo n e a taxa de juros i devem estar na mesma unidade de tempo.

Anexo VI Técnicas Básicas de Simulação do livro Apoio à Decisão em Manutenção na Gestão de Activos Físicos

Capitulo 9 Resolução de Exercícios

UNIVERSIDADE DA MADEIRA

MATEMÁTICA FINANCEIRA

AMOSTRAGEM. metodologia de estudar as populações por meio de amostras. Amostragem ou Censo?

Juros Simples e Compostos

Portanto, os juros podem induzir o adiamento do consumo, permitindo a formação de uma poupança.

ANDRÉ REIS MATEMÁTICA. 1ª Edição NOV 2013

A seguir, uma demonstração do livro. Para adquirir a versão completa em papel, acesse:

M = C (1 + i) n. Comparando o cálculo composto (exponencial) com o cálculo simples (linear), vemos no cálculo simples:

Lista de Exercícios #4. in Noções de Probabilidade e Estatística (Marcos N. Magalhães et al, 4ª. edição), Capítulo 4, seção 4.4, páginas

2.1 Dê exemplo de uma seqüência fa n g ; não constante, para ilustrar cada situação abaixo: (a) limitada e estritamente crescente;

Equações Diferenciais (ED) Resumo

INTRODUÇÃO A TEORIA DE CONJUNTOS

Fundamentos de Bancos de Dados 3 a Prova

SUMÁRIO 1. AMOSTRAGEM Conceitos básicos 4

Lista 2 - Introdução à Probabilidade e Estatística

Métodos Estatísticos de Previsão MÉTODOS ESTATÍSTICOS DE PREVISÃO. Regressão Linear. Bernardo Almada-Lobo

INTERPOLAÇÃO. Interpolação

Equação Diferencial. Uma equação diferencial é uma expressão que relaciona uma função desconhecida (incógnita) y com suas derivadas.

A soma dos perímetros dos triângulos dessa sequência infinita é a) 9 b) 12 c) 15 d) 18 e) 21

PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA DE TRANSPORTES E GESTÃO TERRITORIAL PPGTG DEPARTAMENTO DE ENGENHARIA CIVIL ECV

PROF. DR. JACQUES FACON

4 Avaliação Econômica

Guia do Professor. Matemática e Saúde. Experimentos

Aplicação de geomarketing em uma cidade de médio porte

Projetos Agropecuários - Módulo 4 ANÁLISE FINANCEIRA DE INVESTIMENTO

O oscilador harmônico

PUCRS FAMAT DEPTº DE ESTATÍSTICA Estimação e Teste de Hipótese- Prof. Sérgio Kato

O TESTE DOS POSTOS ORDENADOS DE GALTON: UMA ABORDAGEM GEOMÉTRICA

O poço de potencial infinito

Computação Científica - Departamento de Informática Folha Prática 1

DESIGUALDADES, LEIS LIMITE E TEOREMA DO LIMITE CENTRAL. todas as repetições). Então, para todo o número positivo ξ, teremos:

Instituto de Engenharia de Produção & Gestão

CURTOSE. Teremos, portanto, no tocante às situações de Curtose de um conjunto, as seguintes possibilidades:

Tecido A B

Matemática Financeira Aplicada

Analise de Investimentos e Custos Prof. Adilson C. Bassan adilsonbassan@adilsonbassan.com

Epidemiologia. Profa. Heloisa Nascimento

1. Os métodos Não-Paramétricos podem ser aplicados a uma ampla diversidade de situações, porque não exigem populações distribuídas normalmente.

Universidade Federal do Maranhão Centro de Ciências Exatas e Tecnologia Coordenação do Programa de Pós-Graduação em Física

Endereço. Dados. Mem Read Mem select

FACULDADE DE ADMINISTRAÇÃO E NEGÓCIOS DE SERGIPE

UNIVERSIDADE ESTADUAL DE CAMPINAS FACULDADE DE ENGENHARIA MECÂNICA IM 317 METODOLOGIA PARA PLANEJAMENTO EXPERIMENTAL E ANÁLISE DE RESULTADOS

Módulo 4 Matemática Financeira

Até que tamanho podemos brincar de esconde-esconde?

APLICAÇÃO DO MÉTODO DE INTEGRAÇÃO TRAPEZOIDAL EM SISTEMAS ELÉTRICOS

Capítulo 10 - Somatórios

PROBABILIDADES E ESTATÍSTICA

binomial seria quase simétrica. Nestas condições será também melhor a aproximação pela distribuição normal.

CURSO ONLINE DE EXERCÍCIOS MATEMÁTICA FINANCEIRA & ESTATÍSTICA AULA 09

PARECER SOBRE A PROVA DE MATEMATICA FINANCEIRA CAGE SEFAZ RS

Transcrição:

Testes χ 2 de ajustameto, homogeeidade e idepedêcia Testes χ 2 (cot.) Os testes χ 2 cosiderados este último poto do programa surgem associados a dados de cotagem. Mais cocretamete, dados que cotam o úmero de observações que recaem em várias categorias (defiidas a partir de um ou mais factores). Pode pesar-se que se tem uma (ou mais) variável resposta categórica (factor), e que os dados são a frequêcia com que se observa cada um dos íveis desse factor. O objectivo dos testes que agora se estudam é comparar essas cotages observadas com as cotages que seriam esperadas ao abrigo de alguma hipótese. A maior ou meor proximidade global etre cotages observadas e esperadas serve para testar a hipótese subjacete aos valores esperados. Apesar de terem um fudo comum, os testes agora estudados aplicam-se em cotextos diferetes. J. Cadima (ISA) Estatística e Delieameto 2010-11 384 / 429 J. Cadima (ISA) Estatística e Delieameto 2010-11 385 / 429 Testes χ 2 para k categorias Testes χ 2 para k categorias (cot.) Cosiderem-se observações idepedetes que podem recair uma de k categorias. Seja O i o úmero de observações a categoria i. : Cosidere-se uma avaliação da qualidade duma liha de produção de embalages de 6 latas de cerveja. Para cada embalagem, cosidere-se o úmero de latas que ão passam o cotrolo de qualidade. Temos k = 7 categorias, associadas ao úmero de latas impróprias. Em = 200 embalages, cota-se o úmero O i de embalages com i (i {0,1,2,3,4,5,6}) latas que ão passam o cotrolo. Foram obtidos os seguites valores: No. latas impróprias 0 1 2 3 4 5 6 No. embalages 141 48 9 2 0 0 0 Cosidere-se uma hipótese que associa a cada uma das k categorias uma probabilidade p i. Ao abrigo dessa hipótese, o úmero esperado de observações a categoria i seria E i = p i. : No cotexto do exemplo aterior, cosidere-se a hipótese de que o úmero de latas impróprias em cada embalagem segue uma distribuição Biomial, de parâmetros B(6, 0.04) J. Cadima (ISA) Estatística e Delieameto 2010-11 386 / 429 J. Cadima (ISA) Estatística e Delieameto 2010-11 387 / 429 Testes χ 2 para k categorias (cot.) Ao abrigo desta hipótese, e tedo em cota que a probabilidade de haver i latas impróprias uma embalagem de 6 latas será dada por: ( ) 6 p i = 0.04 i 0.96 6 i, i tem-se E i = 200 p i e: i 0 1 2 3 4 5 6 p i 0.7828 0.1957 0.0204 0.0011 0.0000 0.0000 0.0000 E i 156.552 39.138 4.077 0.226 0.007 0.000 0.000 comparado-se com os valores observados: O i 141 48 9 2 0 0 0 A distribuição observada é compatível com a distribuição esperada? A estatística de Pearso No cotexto agora descrito, Pearso mostrou que a estatística X 2 = k (O i E i ) 2 E i=1 i segue assitoticamete uma distribuição χ 2 k 1. NOTA: a subtracção de um grau de liberdade vem de existir uma restrição ao úmero de observações em cada categoria, uma vez que a sua soma tem de ser. Logo, há apeas k 1 valores observados livres. Defiido a hipótese ula como a hipótese que gerou os valores esperados E i tem-se uma Região Crítica uilateral direita, ou seja: Rejeita-se H 0 (hipótese subjacete aos E i ) se X 2 calc > χ2 γ;k 1. J. Cadima (ISA) Estatística e Delieameto 2010-11 388 / 429 J. Cadima (ISA) Estatística e Delieameto 2010-11 389 / 429

A estatística de Pearso (cot.) Assitoticamete sigifica para grades amostras, mas há critérios diferetes para quado se cosidera a aproximação adequada. Um critério, sugerido por Cochra, é: ehum E i iferior a 1; ão mais do que 20% dos E i s iferiores a 5. Caso estas codições ão se verifiquem, podem-se agrupar classes de forma a satisfazer o critério. Seguido o critério de Cochra, o exemplo aterior será ecessário agrupar as classes correspodetes a 2 ou mais latas impróprias, obtedo-se a ova tabela: i 0 1 2 p i 0.7828 0.1957 0.0216 E i 156.552 39.138 4.311 O i 141 48 11 A estatística de Pearso calculada tem valor: X 2 = 13.9327 Numa distribuição χ3 1 2 o limiar da região crítica ao ível γ = 0.05 é 5.991, pelo que se rejeita a hipótese de a distribuição subjacete ser a referida. J. Cadima (ISA) Estatística e Delieameto 2010-11 390 / 429 J. Cadima (ISA) Estatística e Delieameto 2010-11 391 / 429 Pearso com a estimação de parâmetros Caso o cálculo dos valores esperados ao abrigo da hipótese de referêcia exija a estimação de um ou mais parâmetros (ou seja, a hipótese ula está icompletamete especificada), é ecessário retirar um grau de liberdade à distribuição χ 2 por cada parâmetro estimado. : No caso que tem vido a ser cosiderado, admita-se que o úmero de latas impróprias por embalagem segue uma distribuição Biomial B(6, q), mas com parâmetro q descohecido. Só é possível calcular os valores esperados E i admitido um valor para a probabilidade de êxito uma lata (q). Uma forma de o fazer será recordar que X B(m,q) E[X] = mq, e usar a média amostral para estimar q. Com base os dados, o úmero médio de latas impróprias por embalagem, as 200 embalages, é 0.36. Como m = 6, tem-se ˆq = 0.36/6 = 0.06. J. Cadima (ISA) Estatística e Delieameto 2010-11 392 / 429 Agora, a probabilidade estimada de haver i latas impróprias uma embalagem de 6 latas será dada por: ( ) 6 ˆp i = 0.06 i 0.94 6 i, i e tem-se Êi = 200 ˆp i. Recostruido a tabela para uma Biomial B(6, 0.06), tem-se: i 0 1 2 3 4 5 6 p i 0.6899 0.2642 0.0422 0.0036 0.0002 0.0000 0.0000 Ê i 137.974 52.841 8.432 0.718 0.034 0.001 0.000 comparado-se com os (mesmos) valores observados: O i 141 48 9 2 0 0 0 J. Cadima (ISA) Estatística e Delieameto 2010-11 393 / 429 Pearso com estimação de parâmetros (cot.) Sedo ecessário estimar r parâmetros, a estatística X 2 = k (O i Êi) 2 i=1 Ê i segue assitoticamete uma distribuição χ 2 k 1 r. Defiido a hipótese ula como hipótese que (após a estimação de parâmetros) gerou os valores esperados estimados Êi Defie-se uma Região Crítica uilateral direita, ou seja: Rejeita-se H 0 (hipótese subjacete aos Êi) se X 2 calc > χ2 γ;k 1 r (cot.) De ovo, utilizado o critério de Cochra para garatir a qualidade da aproximação assitótica à distribuição χ 2, tem-se: i 0 1 2 p i 0.6899 0.2642 0.0459 Ê i 137.974 52.841 9.185 O i 141 48 11 A estatística de Pearso calculada tem valor: X 2 = 0.8686 Numa distribuição χ3 1 1 2 o limiar duma região crítica ao ível γ = 0.05 é 3.841, pelo que ão se rejeita a hipótese de a distribuição subjacete ser Biomial (em particular, B(6, 0.06)). J. Cadima (ISA) Estatística e Delieameto 2010-11 394 / 429 J. Cadima (ISA) Estatística e Delieameto 2010-11 395 / 429

O teste χ 2 como teste de ajustameto Os exemplos que acabámos de cosiderar mostram como o teste χ 2, baseado a estatística de Pearso, pode ser usado como um teste de ajustameto duma amostra a uma dada distribuição de probabilidades. No exemplo cosiderado, tratava-se duma distribuição discreta (a Biomial). Para outras distribuições discretas (Poisso, Geométrica, Biomial Negativa) pode proceder-se de forma aáloga. No caso de distribuições cotíuas, o teste pode aida ser utilizado, mas tora-se ecessário defiir classes de valores para a distribuição, cotado-se o úmero de observações da variável que recaem em cada classe. Teste χ 2 de homogeeidade Admita-se agora uma geeralização da questão discutida ates: classificam-se observações em várias categorias, mas repete-se o procedimeto para amostras extraídas de várias populações. Admita-se que: há a populações, que costituem os íveis de um factor A; as observações de cada população são classificadas em uma de b categorias, que defiem os íveis dum factor B. No caso de se preteder testar a Normalidade, é preferível utilizar outro teste, já estudado a disciplia de Estatística do primeiro ciclo: o teste de Shapiro-Wilks. J. Cadima (ISA) Estatística e Delieameto 2010-11 396 / 429 J. Cadima (ISA) Estatística e Delieameto 2010-11 397 / 429 Nos solos duma dada região foi assialada a preseça de larvas de 4 espécies de isectos que afectam as pricipais culturas da região. Pretede-se ivestigar se as frequêcias relativas das espécies são ou ão iguais cosoate o tipo de solos. Classificaram-se os solos em três tipos: areosos, limosos e argilosos (Factor A, com a=3 íveis). Em cada tipo de solos foram recolhidas 100 larvas, e classificadas de acordo com a respectiva espécie (Factor B, com b=4 íveis). (cot.) Feita a classificação das larvas, obtiveram-se os seguites resultados: Espécie de larva 1 2 3 4 Total Tipos Areosos 27 24 23 26 100 de Limosos 20 32 18 30 100 solos Argilosos 13 37 16 34 100 Total 60 93 57 90 300 A liha fial, com as frequêcias absolutas.j de cada tipo de larva, represeta uma base para estimar o que serão as probabilidades de cada tipo de larva, caso haja uma úica distribuição pelas espécies, comum aos três tipos de solo. A probabilidade estimada da espécie j será ˆp.j =.j, ou seja: ˆp.1 = 60 300 = 0.20 ˆp.2= 93 300 = 0.31 ˆp.3= 57 300 = 0.19 ˆp.4= 90 300 = 0.30 J. Cadima (ISA) Estatística e Delieameto 2010-11 398 / 429 J. Cadima (ISA) Estatística e Delieameto 2010-11 399 / 429 (cot.) Uma vez que em cada tipo de solo há i. = 100 observações, o úmero esperado de observações a célula (i,j) é dado por Ê ij = i. ˆp.j = i..j A tabela com os valores esperados estimados etre pareteses: Espécie de larva 1 2 3 4 Total Tipos Areosos 27 (20) 24 (31) 23 (19) 26 (30) 100 de Limosos 20 (20) 32 (31) 18 (19) 30 (30) 100 solos Argilosos 13 (20) 37 (31) 16 (19) 34 (30) 100 Total 60 93 57 90 300 Etre as observações de célula O ij e os correspodetes valores esperados estimados (Êij), existe cocordâcia suficiete para admitir que as distribuições de frequêcias de espécies são aálogas os três tipos de solos? J. Cadima (ISA) Estatística e Delieameto 2010-11 400 / 429 Tabelas de cotigêcia Geeralizado, sejam dadas observações que são classificadas de acordo com dois diferetes factores. Chama-se tabela de cotigêcia a uma tabela com o úmero O ij de observações em cada célula (i,j) (ível i do factor A e j do factor B): Níveis do Níveis do Factor B Margial Factor A 1 2 3 b de A 1 O 11 O 12 O 13 O 1,b 1 2 O 21 O 22 O 23 O 2,b 2 3 O 31 O 32 O 33 O 3,b 3... a O a1 O a2 O a3 O a,b a Margial de B 1 2 3 b J. Cadima (ISA) Estatística e Delieameto 2010-11 401 / 429

Testes de homogeeidade No cotexto de testes de homogeeidade, associados ao exemplo das larvas, o úmero de observações em cada ível de um factor foi previamete fixado (o osso caso, os totais de liha, i. ). Admitido que se trata dos totais de liha (íveis do factor A), tal facto impõe a restrições. A ecessidade de estimar as probabilidades dos íveis do outro factor (o osso caso, as probabilidades de espécie, ou seja as probabilidades margiais de colua) impões mais b 1 restrições. (NOTA: Não são b restrições pois a soma dos ˆp i tem de ser 1, logo estimar b 1 probabilidades determia a última estimativa.) Assim, ao todo foram impostas a + b 1 restrições. A estatística de Pearso em testes de homogeeidade No cotexto agora descrito, a estatística de Pearso tem a forma X 2 = a b i=1 j=1 (O ij Êij) 2 e segue assitoticamete uma distribuição χ(a 1)(b 1) 2, uma vez que ab (a + b 1) = (a 1)(b 1) Defiido a hipótese ula como homogeeidade a distribuição das amostras de cada população (a hipótese que gerou os valores esperados Êi) tem-se uma Região Crítica uilateral direita, ou seja: Rejeita-se H 0 se X 2 calc > χ2 γ;(a 1)(b 1). Ê ij J. Cadima (ISA) Estatística e Delieameto 2010-11 402 / 429 J. Cadima (ISA) Estatística e Delieameto 2010-11 403 / 429 A estatística de Pearso calculada o exemplo das larvas tem valor X 2 calc = 10.10928. Este valor calculado deve ser comparado com o valor que, uma distribuição χ6 2 (pois (a 1)(b 1) = 2 3 = 6), deixa à direita uma região de probabilidade γ = 0.05: χ 2 0.05(6) = 12.591. Como X 2 calc < χ2 0.05(6) ão se rejeita H 0: admite-se a homogeeidade das distribuições de espécies de larva, os três tipos de solos. Tal como os casos ateriores, pode ser ecessário agrupar classes do factor B, caso o úmero esperado de observações algumas classes seja demasiado baixo. Neste exemplo, esse agrupameto ão foi ecessário. Testes χ 2 com totais de marges livres Nos testes de homogeeidade acabados de aalisar, uma das marges da tabela de cotigêcias tem os úmeros totais de observações fixos. Mas outros cotextos podem existir, etre os quais o de tabelas de cotigêcia ode apeas se fixa o úmero total de observações, sedo essas observações livres de recair em qualquer das ab células defiidas pelos íveis de dois factores, A e B. Como em casos ateriores, pode-se testar uma hipótese a que correspodam valores esperados de células, E ij, comparado esses valores esperados com os valores efectivamete observados em cada célula, O ij, utilizado um teste baseado a estatística χ 2 de Pearso. J. Cadima (ISA) Estatística e Delieameto 2010-11 404 / 429 J. Cadima (ISA) Estatística e Delieameto 2010-11 405 / 429 Testes χ 2 de idepedêcia A mais frequete das hipóteses, o cotexto das marges de lihas e coluas duma tabela de cotigêcias serem livres, é o teste à idepedêcia etre os dois factores que defiem as marges da tabela. Recorde-se que falamos em idepedêcia quado as probabilidades cojutas são dadas pelo produto das probabilidades margiais: ode p ij = p i. p.j, i,j p ij idica a probabilidade duma observação recair a célula (i,j); p i. idica a probabilidade margial duma observação recair o ível i do factor A (seja qual fôr o ível do outro factor); p.j idica a probabilidade margial duma observação recair o ível j do factor B (seja qual fôr o ível do outro factor); J. Cadima (ISA) Estatística e Delieameto 2010-11 406 / 429 Testes χ 2 de idepedêcia (cot.) Caso se verifique a idepedêcia, o úmero esperado de observações a célula (i,j) é dado por: E ij = p ij = p i. p.j i,j. É possível estimar as probabilidades margiais a partir das frequêcias relativas margiais (como foi feito os testes de homogeeidade, para o factor B): ˆp i. = i. ˆp.j =.j, i = 1,2,...,a, j = 1,2,...,b, ode é o úmero total de observações (fixo), i. é o úmero (livre) de observações o ível i do factor A e.j é o úmero (livre) de observações o ível j do factor B. J. Cadima (ISA) Estatística e Delieameto 2010-11 407 / 429

Testes χ 2 de idepedêcia (cot.) Assim, caso se verifique a idepedêcia, o úmero esperado estimado de observações a célula (i,j) é: Ê ij = ˆp ij = ˆp i. ˆp.j = i. Foram estimadas:.j = i..j a 1 probabilidades margiais do factor A (a última tem de dar a soma 1); e b 1 probabilidades margiais do factor B. Jutamete com, i,j. 1 restrição imposta pelo úmero total fixo de observações (), tem-se um total de (a 1) + (b 1) + 1 = a + b 1 restrições. Testes χ 2 de idepedêcia (cot.) Estes valores esperados estimados serão comparados com os valores observados, O ij, em cada uma das ab células, com base a estatística de Pearso. NOTA: Repare-se que, embora com motivações diferetes, as expressões de cálculo dos Êij são iguais, os testes de homogeeidade e os testes de idepedêcia; e o úmero de restrições impostas é igual os dois tipos de teste. Logo, a estatística X 2 de Pearso terá uma expressão idêtica, e uma distribuição assitótica idêtica, quer os testes de homogeeidade, quer os testes de idepedêcia. Mas importa ão perder de vista que se trata de cotextos diferetes, com hipóteses de referêcia diferetes e coclusões diferetes. J. Cadima (ISA) Estatística e Delieameto 2010-11 408 / 429 J. Cadima (ISA) Estatística e Delieameto 2010-11 409 / 429 Testes χ 2 de idepedêcia (cot.) No cotexto de testes de idepedêcia, a estatística de Pearso tem a forma ( ) X 2 a b (O ij = Êij) 2 a b O ij i. 2.j = Ê ij i=1 j=1 i=1 j=1 e segue assitoticamete uma distribuição χ 2 (a 1)(b 1). Defiido a hipótese ula como idepedêcia etre os dois factores tem-se uma Região Crítica uilateral direita, ou seja: Rejeita-se H 0 se X 2 calc > χ2 γ;(a 1)(b 1). i..j Um estudo de = 6800 alemães do sexo masculio aalisou a côr do cabelo e a côr dos olhos de cada idivíduo. Os resultados foram: Cabelo Olhos Louro Castaho Preto Ruivo Total Azuis 1768 807 189 47 2811 Ciz./Verde 946 1387 746 53 3132 Castahos 115 438 288 16 857 Total 2829 2632 1223 116 6800 Pretede-se testar se existe idepedêcia etre as características côr do cabelo e côr dos olhos. J. Cadima (ISA) Estatística e Delieameto 2010-11 410 / 429 J. Cadima (ISA) Estatística e Delieameto 2010-11 411 / 429 Um exemplo (cot.) As frequêcias margiais de liha dão estimativas das probabilidades margiais de cada côr de olhos (ˆp i. = i. ): ˆp 1 = 2811 6800 = 0.4134 ˆp 2 = 3132 6800 = 0.4606 ˆp 3 = 857 6800 = 0.1260 De forma aáloga se obtêm estimativas das probabilidades margiais de côres de cabelo (ˆp.j =.j ): ˆp 1 = 2829 6800 = 0.416 ˆp 2 = 2632 6800 = 0.387 ˆp 3 = 1223 6800 = 0.180 ˆp 4 = 116 6800 = 0.017 Os valores esperados estimados em cada célula, caso haja idepedêcia, são dados por: Ê ij = ˆp ij = ˆp i. ˆp.j = 6800 ˆp i. ˆp.j. Por exemplo, Ê11 = 2811 2829 6800 = 1169.4587. J. Cadima (ISA) Estatística e Delieameto 2010-11 412 / 429 Um exemplo (cot.) A tabela com os valores esperados (estimados) etre pareteses é: Cabelo Olhos Louro Castaho Preto Ruivo Total Azuis 1768 (1169.46) 807 (1088.02) 189 (505.57) 47 (47.95) 2811 Ci./Verde 946 (1303.00) 1387 (1212.27) 746 (563.30) 53 (53.43) 3132 Castahos 115 (356.54) 438 (331.71) 288 (154.13) 16 (14.62) 857 Total 2829 2632 1223 116 6800 A estatística de Pearso será etão: X 2 3 4 (O ij = Êij) 2 = i=1 j=1 Ê ij (1768 1169.46)2 (16 14.62)2 +... + = 1073.508. 1169.46 14.62 O p-value deste valor uma distribuição χ6 2 é quase ulo (< 2.2 10 16 ), pelo que, como seria de esperar, se rejeita de forma clara a hipótese de idepedêcia. J. Cadima (ISA) Estatística e Delieameto 2010-11 413 / 429

Aalisado as parcelas da estatística Aida o exemplo de teste de idepedêcia Em qualquer dos cotextos cosiderados, a região de rejeição é uilateral direita, isto é, são os valores grades da estatística que rejeitam a hipótese ula, um teste baseado a estatística de Pearso. Como a estatística X 2 de Pearso é uma soma de parcelas ão-egativas, ao logo de todas as categorias defiidas pelo factor (o caso dos testes de ajustametro iciais) ou pelo cruzameto dos íveis de cada factor (o caso de testes de homogeeidade e/ou idepedêcia), é possível idetificar a(s) categoria(s) que cotribuem com as parcelas de maior valor e que são, por isso mesmo, maiormete resposáveis pela rejeição de H 0. As parcelas idividuais da estatística de Pearso, o caso do teste de idepedêcia acima referido, são: Cabelo Olhos Louro Castaho Preto Ruivo Azuis 306.340 72.585 198.222 0.019 Ci./Verde 97.814 25.185 59.257 0.003 Castahos 163.630 34.059 116.263 0.130 Uma vez que χ0.05(6) 2 = 12.592, quase todas as combiações (excepto as referetes aos ruivos) são, só por si, resposáveis pela rejeição de H 0, com destaque para as associações de olhos azuis com cabelo louro e de olhos azuis com cabelo preto. J. Cadima (ISA) Estatística e Delieameto 2010-11 414 / 429 J. Cadima (ISA) Estatística e Delieameto 2010-11 415 / 429 Aida o exemplo da idepedêcia (cot.) No etato, o setido destas duas associações é diferete: para olhos azuis/cabelo louro, tem-se 1768 = O 11 > Ê11 = 1169.46. Trata-se duma associação positiva. para olhos azuis/cabelo preto, tem-se 189 = O 13 < Ê13 = 505.57. Trata-se duma associação egativa. J. Cadima (ISA) Estatística e Delieameto 2010-11 416 / 429