Métodos Numéricos e Estatísticos Parte II-Métodos Estatísticos

Documentos relacionados
Aula 6. Testes de Hipóteses Paramétricos (I) Métodos Estadísticos 2008 Universidade de Averio Profª Gladys Castillo Jordán. Teste de Hipóteses

Hipótese Estatística:

Capítulo 8 - Testes de hipóteses. 8.1 Introdução

a) Suponha que na amostra de 20 declarações foram encontrados 15 com dados incorrectos. Construa um

Tecido A B

Resoluções comentadas de Raciocínio Lógico e Estatística - SEPLAG EPPGG

(b) Qual a probabilidade de ter sido transmitido um zero, sabendo que foi recebido um (1.0) zero?

7Testes de hipótese. Prof. Dr. Paulo Picchetti M.Sc. Erick Y. Mizuno. H 0 : 2,5 peças / hora

ActivALEA. active e actualize a sua literacia

Cláudio Tadeu Cristino 1. Julho, 2014

Epidemiologia. Profa. Heloisa Nascimento

O comportamento conjunto de duas variáveis quantitativas pode ser observado por meio de um gráfico, denominado diagrama de dispersão.

Capítulo 7 Medidas de dispersão

Capítulo 3 Modelos Estatísticos

Probabilidade. Distribuição Normal

Testes (Não) Paramétricos

A finalidade dos testes de hipóteses paramétrico é avaliar afirmações sobre os valores dos parâmetros populacionais.

Estatística Aplicada

Teste de Hipótese para uma Amostra Única

Testes de Ajustamento (testes da bondade do ajustamento)

INE 5111 Gabarito da Lista de Exercícios de Probabilidade INE 5111 LISTA DE EXERCÍCIOS DE PROBABILIDADE

Aula 10 Testes de hipóteses

Estatística II Antonio Roque Aula 9. Testes de Hipóteses

LISTA DE INTERVALO DE CONFIANÇA E TESTE DE HIPÓTESES

UNIVERSIDADE DE SÃO PAULO. Faculdade de Arquitetura e Urbanismo

OUTLIERS Conceitos básicos

Apresentação de Dados em Tabelas e Gráficos

Teorema do Limite Central e Intervalo de Confiança

PERGUNTAS MAIS FREQÜENTES SOBRE VALOR PRESENTE LÍQUIDO (VPL)

Distribuições de Probabilidade Distribuição Normal

COMENTÁRIO AFRM/RS 2012 ESTATÍSTICA Prof. Sérgio Altenfelder

Estatística Aplicada ao Serviço Social Módulo 1:

Exemplos de Testes de Hipóteses para Médias Populacionais

Bioestatística Aula 3

Introdução à Análise Química QUI 094 ERRO E TRATAMENTO DE DADOS ANALÍTICOS

SÉRIE: Estatística Básica Texto 4: TESTES DE HIPÓTESES SUMÁRIO

Resoluções comentadas das questões de Estatística da prova para. ANALISTA DE GERENCIAMENTO DE PROJETOS E METAS da PREFEITURA/RJ

Distribuição Uniforme Discreta. Modelos de distribuições discretas. Distribuição de Bernoulli. Distribuição Uniforme Discreta

Aula 11 Esperança e variância de variáveis aleatórias discretas

3. Características amostrais. Medidas de localização e dispersão

1. Os métodos Não-Paramétricos podem ser aplicados a uma ampla diversidade de situações, porque não exigem populações distribuídas normalmente.

Numa turma de 26 alunos, o número de raparigas excede em 4 o número de rapazes. Quantos rapazes há nesta turma?

Exercícios Teóricos Resolvidos

Prova Escrita de Matemática Aplicada às Ciências Sociais

Análise Exploratória de Dados

O modelo ANOVA a dois factores, hierarquizados

Modelos, em escala reduzida, de pontes e barragens. Simuladores de voo (ou de condução), com os quais se treinam pilotos (ou condutores).

UNIVERSIDADE FEDERAL DE SÃO JOÃO DEL-REI NÚCLEO DE EDUCAÇÃO À DISTÂNCIA CURSO DE GRADUAÇÃO EM ADMINISTRAÇÃO PÚBLICA GABARITO

Universidade Federal de Pernambuco Mestrado em Estatística

Cefaleia crónica diária

Múltiplos Estágios processo com três estágios Inquérito de Satisfação Fase II

ESCOLA SUPERIOR DE TECNOLOGIA

Análise de Variância com dois ou mais factores - planeamento factorial

Análise de Regressão Linear Simples e Múltipla

AV2 - MA (a) De quantos modos diferentes posso empilhá-los de modo que todos os CDs de rock fiquem juntos?

MÉDIA ARITMÉTICA MÉDIA PONDERADA MODA MEDIANA

Distribuição de Freqüências

PROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIAS DA REABILITAÇÃO PROCESSO SELETIVO 2013 Nome: PARTE 1 BIOESTATÍSTICA, BIOÉTICA E METODOLOGIA

Distribuição de probabilidades

UNIVERSIDADE DOS AÇORES Cursos de Sociologia e de Serviço Social Estatística I 1º Semestre 2006/2007

CAPÍTULO 9 Exercícios Resolvidos

Aula de Exercícios - Testes de Hipóteses

INVESTIGAÇÃO OPERACIONAL MÉTODOS DE PLANEAMENTO. Capítulo II Método PERT

A calculadora se vamos utilizar na proposta de resolução deste exame nacional é a fx-cg20

Trabalhando com Pequenas Amostras: Distribuição t de Student

1) A distribuição dos alunos nas 3 turmas de um curso é mostrada na tabela abaixo.

Teste de Hipóteses e Intervalos de Confiança

Atividade 4 - Acerte no alvo

MÓDULO 4 DISTRIBUIÇÃO DE FREQÜÊNCIAS

UML (Unified Modelling Language) Diagrama de Classes

QUALITATIVA VARIÁVEL QUANTITATIVA

Estabilidade. Carlos Alexandre Mello. Carlos Alexandre Mello 1

Distribuições: Binomial, Poisson e Normal. Distribuição Binomial

Regressão logística na identificação de factores de risco em acidentes automóveis e fraude de seguros.

TEORIA DOS CONJUNTOS Símbolos

Estatística Aplicada para Engenharia Inferência para Duas Populações

Aula 4 Conceitos Básicos de Estatística. Aula 4 Conceitos básicos de estatística

Universidade Federal Fluminense

Distribuição de freqüência

PE-MEEC 1S 09/ Capítulo 4 - Variáveis aleatórias e. 4.1 Variáveis. densidade de probabilidade 4.2 Valor esperado,

Trabalhos Práticos. Programação II Curso: Engª Electrotécnica - Electrónica e Computadores

UNIVERSIDADE FEDERAL DE UBERLÂNDIA FACULDADE DE MATEMÁTICA 4 a LISTA DE EXERCÍCIOS GBQ12 Professor: Ednaldo Carvalho Guimarães AMOSTRAGEM

Introdução a Química Analítica. Professora Mirian Maya Sakuno

CURSO ON-LINE PROFESSOR: VÍTOR MENEZES. Comentários sobre as provas de estatística e financeira ICMS RJ

ÁRVORES BINÁRIAS DE PESQUISA

O QUE É E COMO FUNCIONA O CREDIT SCORING PARTE I

Módulo 4. Construindo uma solução OLAP

Investigação Operacional- 2009/10 - Programas Lineares 3 PROGRAMAS LINEARES

Exercícios de Gestão de Inventários

Utilização do SOLVER do EXCEL

TAXA INTERNA DE RETORNO (TIR) PERGUNTAS MAIS FREQÜENTES

Aula 4 Estatística Conceitos básicos

Exercícios Resolvidos sobre probabilidade total e Teorema de Bayes

CAPÍTULO 1 MEDIÇÃO E O ERRO DE MEDIÇÃO

Matemática Financeira Módulo 2

Faculdade Sagrada Família

DISTRIBUIÇÕES DE PROBABILIDADE

APROG - Civil. Excel. Técnicas de pesquisa de informação em tabelas. Instituto Superior de Engenharia do Porto

Histogramas. 12 de Fevereiro de 2015

Transcrição:

Métodos Numéricos e Estatísticos Parte II-Métodos Estatísticos Lic. Eng. Biomédica e Bioengenharia-2009/2010

Até ao momento, adiantamos um valor razoável, ou um intervalo de valores razoáveis para um parâmetro desconhecido de interesse, tirando partido da informação contida numa amostra recolhida. É altura de tirarmos partido dessa mesma informação para nos pronunciarmos sobre afirmações relativas a esse parâmetro desconhecido ou a outros aspectos da nossa variável de interesse. Exemplo Estamos interessados em comparar a proporção de fumadores entre homens e mulheres. Uma hipótese de investigação seria, e.g., a proporção de fumadores é diferente nos homens e nas mulheres.

Hipótese estatística A qualquer afirmação/conjectura sobre um parâmetro desconhecido; distribuição da v.a de interesse, etc, dá-se o nome de hipótese estatística. Hipótese paramétrica Trata-se de uma afirmação/conjectura sobre um parâmetro desconhecido, assumindo que se conhece a distribuição da v.a. de interesse (a menos de um, ou mais, parâmetros desconhecidos.

Hipótese nula e alternativa De um modo geral confrontamos duas hipóteses paramétricas: a hipótese mais relevante, normalmente designada por hipótese nula e representada por H 0 ; a hipótese dita alternativa, representada por H 1. A estas duas hipóteses paramétricas estão associados dois subespaços disjuntos do espaço paramétrico. Hipótese simples e composta Uma hipótese diz-se simples, caso especifique um único valor para o parâmetro desconhecido; composta, caso contrário.

Hipótese alternativa unilateral e bilateral Uma hipótese alternativa diz-se unilateral inferior, se possuir um sinal de menor; unilateral superior, se possuir um sinal de maior; bilateral, se possuir um sinal de diferente. Exemplo Um preparado farmacêutico com o objectivo de reduzir dores de cabeça, foi administrado a 20 mulheres durante seis semanas, tendo sido registada variação de peso. Sendo H 0 : µ = 0kg (a média de variação de peso na população é zero), podemos considerar as hipóteses alternativas: H 11 : µ > 0, unilateral superior H 12 : µ < 0, unilateral inferior H 13 : µ 0, bilateral

Hipótese alternativa unilateral e bilateral Um teste de hipóteses não passa de um procedimento estatístico que conduz a uma decisão acerca das hipóteses nula e alternativa, tirando partido da informação contida na amostra recolhida. Assim sendo, de um modo geral, tomamos uma de duas decisões: rejeitar H 0 ; não rejeitar H 0. As decisões tomadas podem ou não ser correctas. Decisão H 0 verdadeira H 0 falsa Rejeitar H 0 Erro de 1 a espécie Decisão correcta Não rejeitar H 0 Decisão correcta Erro de 2 a espécie

É habitual delinear o teste de hipóteses de modo a minimizar as probabilidades de ocorrência de erros de 1 a e 2 a espécie. Estas probabilidades costumam ser designadas por α e β, respectivamente, e definem-se por α = P(Erro de 1 a espécie)=p(rejeitar H 0 H 0 é verdadeira) β = P(Erro de 2 a espécie)=p(não rejeitar H 0 H 0 é falsa) Analogia com o teste de diagnóstico: O erro de 1 a espécie é semelhante a um teste falso-positivo (que incorrectamente indica presença da doença quando ela não está presente). Assim sendo, 1 α é análogo à especificidade de teste auxiliar de diagnóstico (proporção de testes negativos em indivíduos não doentes). O erro de 2 a espécie é semelhante a um teste falso-negativo (que incorrectamente indica que não existe doença quando ela está presente). Assim, 1 β é análogo à sensibilidade do teste auxiliar de diagnóstico (proporção de testes positivos em indivíduos doentes).

Nível de significância Normalmente, estabelece-se um limite superior para a probabilidade de ocorrer um erro de 1 a espécie. A esse limite dá-se o nome de nível de significância (n.s.) do teste e representase por α 0 (α 0 (0, 1)). Assim sendo, o teste é delineado de modo a que P(Rejeitar H 0 H 0 é verdadeira) α 0. Os valores mais comuns para o n.s. são 10%, 5% e 1%. Qualquer decisão deverá basear-se na informação recolhida, muito em particular, no valor esperado daquilo a que chamaremos estatística de teste.

Estatística de teste Uma estatística de teste, que daqui em diante será representada por T, e que será utilizada no confronto de um par de hipóteses que digam respeito a um parâmetro desconhecido θ, deverá reflectir a discrepância entre o estimador de θ e o valor conjecturado para θ em H 0 (θ 0 ); poder obter-se à custa da v.a. fulcral Z que usaríamos para construir um intervalo de confiança para θ (substituindo θ por θ 0 em Z); ter distribuição (exacta ou aproximada) conhecida, sob a validade de H 0.

Região de rejeição de H 0 Representa-se por W e é escolhida de modo a que P(Rejeitar H 0 H 0 é verdadeira)= α 0 ( α 0 ); seja um intervalo real (ou uma reunião de intervalos reais) de probabilidade relacionada com α 0 e respeitantes à distribuição da estatística de teste sob H 0 ; o seu aspecto dependa da hipótese alternativa. Decisão Para decidir rejeitar ou não H 0, é necessário calcular t = valor observado da estatística de teste. Deve depois tomar-se uma de duas decisões Rejeitar H 0 ao n.s. α 0 se t W ; Não rejeitar H 0 ao n.s. α 0 se t / W.

Note que 1 Afirmar que H 0 não foi rejeitada ao n.s. α 0, não significa que H 0 seja verdadeira; 2 Afirmar que H 0 foi rejeitada ao n.s. α 0, não significa que H 0 seja falsa, mas que H 0 não é consistente com os dados ao n.s. α 0 ; 3 Podemos rejeitar H 0 ao n.s. α 0 e não rejeitar esta mesma hipótese a outro n.s.

Um teste de hipóteses bilateral com um n.s. α 0 pode ser efectuado a partir de um intervalo de confiança a (1 α 0 ) 100%; A partir de um intervalo de confiança a (1 α 0 ) 100%, rejeitamos todas as hipóteses H 0 associadas a valores das estatísticas de teste observadas, que estejam fora do intervalo.

para a média, variância conhecida Exemplo Voltemos ao exemplo anterior, em que um fármaco para reduzir as dores de cabeça é administrado a um gupo de 20 mulheres durante seis semanas. Verificou-se que a alteração média do peso corporal foi de 1.1Kg. Assumindo que a amostra foi retirada de uma população em que a variação de peso segue uma distribuição normal de desvio padrão σ = 2.8Kg, pretendemos saber se o fármaco tem um efeito significativo na variação de peso dessa população. V.a. de interesse: X = variação de peso na população. X normal (µ, 2.8 2 ), µ desconhecido. Hipóteses H 0 : µ = µ 0 = 0 H 1 : µ 0 Nível de significância: α 0 = 5% (por exemplo) Estatística de teste: T = X µ 0 σ n normal(0, 1)

Exemplo (cont.) Região de rejeição de H 0 : Por estarmos a lidar com um teste bilateral, a região de rejeição de H 0 será uma reunião de intervalos do tipo W = (, c) (c, + ) onde c =P(Rejeitar H 0 H 0 é verdadeira)=α 0, i.e., Decisão: Uma vez que ( c = Φ 1 1 α ) ( 0 = Φ 1 1 0.05 ) = 1.96 2 2 t = X µ 0 σ = 1.1 0 = 1.76 2.8 n 20 e 1.76 / W, devemos aceitar H 0, i.e., não existe evidência de que o fármaco tenha um efeito significativo na variação do peso.

Ao confrontar duas populações independentes, é usual testar a igualdade dos seus valores esperados, sejam eles µ 1 e µ 2. Repare-se que a hipótese de igualdade de valores esperados é equivalente a H 0 : µ 1 = µ 2 H 0 : µ 1 µ 2 = µ 0 = 0. No que respeita a testes de hipóteses sobre a igualdade de duas médias, distinguiremos o caso em que as duas populações independentes têm distribuição normal (caso 1), do caso em que têm distribuição arbitrária (e não normal), e as dimensões das amostras são suficientemente grandes (caso 2).

para a igualdade de duas médias, variâncias conhecidas Exemplo Caso 1. Pretende-se comparar a resistência de dois aparelhos fabricados com materiais diferentes (do tipo I e do tipo II). Para tal recolheram-se duas amostras (uma contendo aparelhos do tipo I e outra contendo aparelhos do tipo II) e registaram-se as respectivas durações (em anos): Tipo I: x 1 = (26, 24, 22, 30) Tipo II: x 2 = (25, 31, 33, 29) Admitindo que a duração (em anos) dos aparelhos de tipo I e II são v.a. independentes, com distribuição normal de desvios-padrão σ 1 = 7 e σ 2 = 3, respectivamente, testemos a hipótese de serem iguais os seus tempos médios de duração, contra a hipótese de ser menor a duração dos aparelhos de tipo I. X V.a. de interesse: 1 =duração do aparelho do tipo I X 2 =duração do aparelho do tipo II X 1 normal(µ 1, 7 2 ), X 2 normal(µ 2, 3 2 ) (µ 1 µ 2 ) desconhecido Hipóteses: H 0 : µ 1 µ 2 = µ 0 = 0 H 1 : µ 1 µ 2 < µ 0 = 0

Exemplo (cont.) Nível de significância: α 0 = 5% Estatística de teste: T = (X 1 X 2 ) µ 0 normal(0, 1) σ 1 2 n1 + σ2 2 n2 Região de rejeição: Tratando-se de um teste unilateral inferior, concluimos que quanto menor for a estimativa de MV de µ 1 µ 2 (que é dada por x 1 x 2 ), mais razões temos para rejeitar H 0, e portanto, a região de rejeição (para valores da estatística de teste) é um intervalo à esquerda: W = (, c) onde c = Φ 1 (α 0 ) = Φ 1 (1 α 0 ) = Φ 1 (1 0.05) = 1.65. Decisão: O valor observado da estatística de teste é t = (25.5 29.5) 0 7 2 4 + 32 4 = 1.05 e como t / W, não devemos rejeitar H 0 ao n.s. de 5%.

para a igualdade de duas médias, variâncias conhecidas Caso 2. Para efectuar um teste de hipóteses sobre a igualdade de valores esperados de populações independentes com distribuição arbitrária, variância conhecida, e dimensão amostral suficientemente grande, procede-se como no exemplo anterior, i.e., considera-se a Estatística de teste: cuja distribuição é, aproximadamente, T = (X 1 X 2 ) µ 0 V 2 (X 1 ) + V 2 (X 2 ) n1 n2 normal(0, 1),

para a média, variância desconhecida É obviamente mais realista efectuar um teste de hipóteses sobre o valor médio assumindo que a variância é igualmente desconhecida. Tal como anteriormente, há que distinguir os caso da amostra ser proveniente de uma população normal do caso em que provém de uma população com distribuição arbitrária e com dimensão amostral suficientemente grande.

para a média, variância desconhecida Exemplo Tendo com objectivo comparar a ingestão energética média diária numa população (que se supõe seguir uma distribuição normal), com o valor recomendado (7725Kj), recolheu-se uma amostra de 11 mulheres saudáveis tendo-se registado uma média e desvio padrão amostrais de 6753.6KJ e 11421Kj, respectivamente. Pretende-se saber se, na população, as mulheres fazem ou não uma ingestão energética diária de acordo com a recomendada. V.a. de interesse: X =ingestão energética diária X normal(µ, σ 2 ), µ e σ desconhecidos Hipóteses H 0 : µ = 7725 H 0 : µ 7725 Nível de significância: α 0 = 5% Estatística de teste: T = X µ 0 s n t (n 1)

Exemplo (cont.) Região de rejeição de H 0 : Por estarmos a lidar com um teste bilateral, será uma reunião de intervalos do tipo W = (, c) (c, + ) onde c =P(Rejeitar H 0 H 0 é verdadeira)=α 0, i.e., ( c = F 1 X Decisão: Uma vez que 1 α 0 2 ) ( = Φ 1 1 0.05 ) = 2.2281 2 (no scilab, cdft( T, 10, 1 0.05 2, 0.05 2 )) t = X µ 0 s = n 6753.6 7725 = 2.821 11421 11 e 2.821 W, devemos rejeitar H 0,ao n.s. de 5%, i.e., a ingestão diária é significativamente diferente da recomendada.

Método alternativo de decisão em testes de hipóteses: cálculo do p-value A decisão pela rejeição ou não da hipótese H 0 depende crucialmente do n.s. α 0 que se tenha considerado. Assim, em vez de fixarmos o n.s. do teste, identificarmos a região de rejeição e verificarmos se a estatística de teste pertence ou não a tal região, podemos simplesmente, determinado t, averiguar para que n.s. de decide pela rejeição de H 0 e para que n.s. de decide pela não rejeição de H 0. p-value Dado o valor observado da estatística de teste, o p-value é o maior nível de significância que leva à não rejeição de H 0. Assim sendo, devemos agir do seguinte modo: não rejeitar H 0 a qualquer n.s. α 0 p-value; rejeitar H 0 a qualquer n.s. α 0 > p-value.

O cálculo do p-value depende obviamente do aspecto da região de rejeição de H 0 (para valores da estatística de teste): W Teste p-value (, c) unilateral inferior P(T < t H 0 ) (c, + ) unilateral superior P(T > t H 0 ) (, c) (c, + ) bilateral T com dist. simétrica em relação à origem P(T < t ou T > t H 0 ) Exemplo No exemplo anterior, como o teste é bilateral e a distribuição de T é de t-student (e portanto simétrica em relação à origem) e t = 2.821: p-value= P(T < 2.821 ou T > 2.821 µ 0 ) = P(T < 2.821 µ 0 ) + P(T > 2.821 µ 0 ) = 0.018. (No scilab: cdft( PQ,-2.821,10)+1-cdft( PQ,2.821,10)) Como α 0 = 0.05 > 0.018, decidimos rejeitar H 0.

sobre a igualdade de médias, variâncias desconhecidas Vamos mais uma vez distinguir o csao em que as amostras provêm de populações normais (caso 1) do caso em que provêm de populações com distribuição arbitrária e em que as dimensões amostrais são suficientemente grandes (caso 2). No âmbito desta disciplina, caso pretendamos confrontar os valores esperados de duas populações normais independentes com variâncias desconhecidas, e estejamos a lidar com amostras de dimensões que não são suficientemente grandes (para justificar o recurso a um resultado assimptótico), teremos que assumir que as variâncias são iguais. Exemplo Caso 1. Foram efectuados estudos em Los Angeles e New York com o objectivo de determinar a concentração de monóxido de carbono (CO) perto das vias rápidas. Para tal, foram recolhidas amostras de ar, para as quais se determinaram as respectivas concentações de CO. Os resultados (em ppm) forma, no período de uma semana: Los Angeles: x 1 = (112.2, 118.4, 114.1) New York: x 2 = (101.1, 102.2, 100.4, 98.6, 88.2) Testemos a hipótese de que a média de concentração de CO em Los Angeles é superior ou igual à de New York.

Exemplo (cont.) X V.a. de interesse: 1 =concentração de CO em Los Angeles X 2 =concentração de CO em New York X 1 normal(µ 1, σ1 2), X 2 normal(µ 2, σ2 2) (µ 1 µ 2 ) e σ 1 = σ 2 = σ desconhecidos Hipóteses: H 0 : µ 1 µ 2 µ 0 = 0 vs. H 1 : µ 1 µ 2 < µ 0 = 0 Estatística de teste: T = (X 1 X 2 ) µ 0 (n 1 1)S 1 2+(n 2 1)S2 2 n 1 +n 2 2 ( 1 n1 + 1 n 2 ) t n 1 +n 2 2 (114.9 98.1) 0 Decisão: t = = 3.237 (3 1) 10.09+(5 1) 32.34 3+5 2 ( 1 3 + 1 ) 5 Como o p-value é, neste caso, dado por p-value= P(T < T µ 1 µ 2 = µ 0 ) = F (3+5 2 (3.237) = 99.11 (no scilab cdft( PQ,3.237,3+5-2)) que é um valor muito alto e portanto não devemos rejeitar H 0 a qualquer nível de significância α 0 99.11%.

Exemplo Caso 2. Para comparar a resistência de dois tipos de utensílios hospitalares, foram instalados no mesmo hospital 81 do 1 o tipo e 121 do 2 o tipo, tendo-se medido o seu desgaste numa escala conveniente. Para os utensílios do 1 o tipo, obteve-se x 1 = 290 e s 1 = 12; para os do 2 o tipo, os resultados foram x 2 = 321 e s 2 = 14. O fabricante dos utensílios do 1 o tipo afirma que o desgaste dos seus aparelhos é inferior ao dos aparelhos do 2 o tipo. Testemos a consistência desta afirmação de acordo com os dados obtidos. X V.a. de interesse: 1 =desgate dos utensílios do 1 o tipo X 2 =desgate dos utensílios do 2 o tipo X i com distribuições arbitrárias (possivelmente normais), i = 1, 2 E(X i ) = µ i, V (X i ) = σ i (µ 1 µ 2 ) desconhecidos σ 1 e σ 2 desconhecidos não necessáriamente iguais n 1 = 81 > 30, n 2 = 121 > 30 suficientemente grandes Hipóteses: H 0 : µ 1 µ 2 = µ 0 = 0 vs. H 1 : µ 1 µ 2 < µ 0 = 0 Nível de significância: α 0 = 1% (por exemplo) Estatística de teste: T = (X 1 X 2 ) µ 0 S 1 2 + S2 2 n 1 n2 normal(0, 1) (aproximadamente)

Exemplo (cont.) Região de rejeição de H 0 : Uma vez que se trata de um teste unilateral inferior, a região de rejeição de H 0 é da forma W = (, c), onde c = Φ 1 (α 0 ) = 2.326. Decisão: O valor observado da estatística de teste é t = (290 321) 0 12 2 81 + 142 121 = 16.2 Como t W, devemos rejeitar H 0 ao n.s. de 1%, i.e., concluir que a este n.s. a afirmação do fabricante é consistente com os dados.

para a variância de uma população normal Exemplo Sabendo que o peso (em gramas) de uma certa espécie de mamífero possui distribuição normal, averiguemos a hipótese de a variância ser igual a 50gr 2, ou se é superior a este valor, à luz da amostra ao n.s. de 5%. (1018, 982, 1015, 1007, 978) V.a. de interesse: X =peso (em gramas) de uma certa espécie de mamíferos. X normal(µ, σ 2 ) µ e σ desconhecidos Hipóteses: H 0 : σ 2 = σ 2 0 = 50 vs. H 1 : σ 2 > σ 2 0 Nível de significância: α 0 = 5% Estatística de teste: T = (n 1)S2 σ 2 0 χ 2 (n 1) (seria χ2 caso µ fosse conhecido) (n)

Exemplo (cont.) Região de rejeição de H 0 : Tratando-se de um teste unilateral superior, a região de rejeição de H 0 será um intervalo do tipo W = (c, + ), onde c : P(Rejeitar H 0 H 0 verdadeira)=α 0, ou seja c = F 1 χ 2 (1 α 0 ) = F 1 χ (n 1) 2 (1 0.05) = 9.488 (cdfchi( X, 4, 0.95, 0.05)) (5 1) Decisão: O valor observado da estatística é t = (5 1) 351.5 50 χ 2 (n 1) = 28.12 e como t W, devemos rejeitar H 0 ao n.s. de 5%.

para uma proporção Exemplo Suponhanhos que se recolheu uma a.a. de dimensão 500, dos nascimentos ocorridos numa certa população, verificou-se que 275 eram rapazes. Será que nessa população a proporção de nascimentos de rapazes é significativamente diferente da proporção de raparigas? { 1, o recém-nascido é rapaz V.a. de interesse X = 0, o recém-nascido é rapariga X Bernoulli(p), p desconhecido n = 500 > 30 suficientemente grande Hipóteses: H 0 = p 0 = 0.50 vs. H 1 p 0 = 0.50 Estatística de teste: T = X p 0 p0 (1 p 0 ) n p-value: O valor observado da estatística de teste é t = p-value é normal(0, 1) (distribuição aproximada) 0.55 0.50 0.5(1 0.5) 500 = 2.24. O P(T < 2.24 ou T > 2.24 H 0 ) = 2 [1 Φ(2.24)] = 0.025 = 2.5% Decisão: Não se deve rejeitar H 0 a qualquer n.s. α 0 0.025 e deve rejeitar-se a qualquer n.s superior a 2.5%

Teste de ajustamento do qui-quadrado Este teste permite verificar a adequação de uma distribuição com todos os parâmetros conhecidos (hipótese simples) uma distribuição com pelo menos um parâmetro desconhecido (hipótese composta) Para ser usado é necessário que haja um grande n o de observações (uma vez que se baseia num resultado assimptótico) os dados estejam agrupados em classes e disponhamos de uma tabela de frequências

Ajustamento a uma distribuição discreta, hipótese simples Exemplo Um dado é lançado 1000 vezes, tendo conduzido à seguinte tabela de frequências Resultado Freq. Obs. 1 174 2 174 3 154 4 179 5 154 6 165 A questão que se coloca é, naturalmente, será este dado perfeito/equilibrado? Vamos responder a esta questão considerando para o efeito um n.s. de, por exemplo, 5%. V.a. de interesse: X =resultado do lançamento do dado Hipóteses: H 0 : X uniforme({1, 2, 3, 4, 5, 6}) vs. H 1 : X uniforme({1, 2, 3, 4, 5, 6}) ou ainda, ao considerarmos p i = P(X = X i ), i = 1,..., 6, H 0 : p i = pi 0 = 1 6, i = 1,..., 6 vs. H 1 : i : p i pi 0

Exemplo (cont.) Nível de significância: α 0 = 5% Estatística de teste: T = k (O i E i ) 2 i=1 χ E 2 i (k β 1) (aproximadamente) onde k = n o de classes em que estão organizados os dados O i = frequência absoluta observada na classe i E i = n pi 0 frequência absoluta esperada, sob H 0, da classe i β =n o de parâmetros a estimar (neste caso note que β = 0 uma vez que temos uma hipótese simples) Região de rejeição de H 0 : Quanto maior for a discrepância entre a frequência absoluta observada na classe i e a frequência esperada sob H 0, menos consistente é a hipótese H 0. Logo a rejeição de rejeição de H 0 é um intervalo à direita W = (c, + ), onde c = F 1 χ 2 (1 α 0 ) (k β 1) Neste caso c = F 1 χ 2 (1 0.05) = 11.07 (6 0 1)

Exemplo (cont.) Decisão: o valor observado da estatística de teste é t = 6 (o i E i ) 2 = (174 1000 1 6 )2 E i=1 i 1000 1 + 6 (174 1000 1 6 )2 1000 1 6 + (154 1000 1 6 )2 1000 1 6 + (179 1000 1 6 )2 1000 1 6 = 3.499 / W + (154 1000 1 6 )2 1000 1 6 + (165 1000 1 6 )2 1000 1 6 Logo não devemos rejeitar a hipótese de estarmos a lidar com um dado perfeito ao n.s. de 5%.

Ajustamento a uma distribuição discreta, hipótese composta Exemplo Pretende-se saber a distribuição de probabilidade do n o de falhas de um dado aparelho uasado em unidades de rastreio. Com esse objectivo, foram recolhidos dados relativos a 500 intervenções de rastreio de doenças cardio-vasculares (missões), tendo-se obtido os seguintes resultados N o de avarias 0 1 2 3 4 N o de missões (com tal n o de falhas) 185 180 95 30 10 Testemos, ao n.s. de 5%, a hipótese de os dados seguirem uma distribuição de Poisson. V.a. de interesse: X =n o de falhas do aparelho Hipóteses: H 0 : X Poisson(λ) vs. H 1 : X Poisson(λ) Nível de significância: α 0 = 0.05 Estatística de teste: T = k (O i E i ) 2 i=1 χ E 2 i (k β 1) (aproximadamente)

Exemplo (cont.) Estimação de λ: É necessária pois as estatísticas de teste não podem conter nenhum valor desconhecido. A estimativa de MV de λ é dada por λ = 0 185 + 1 180 + 2 95 + 3 30 + 4 10 500 Região de rejeição de H 0 : W = (c, + ), onde c = F 1 χ 2 (1 α 0 ) (k β 1) = 1 Neste caso c = F 1 χ 2 (1 0.05) = 7.815 (5 1 1) Decisão: Como λ é desconhecido, o mesmo acontece a pi 0 e com a frequência absoluta esperada, sob H 0, da classe i: n pi 0. Temos assim Classe i Freq. absol. da classe i, o i {0} 185 {1} 180 {2} 95 {3} 30 {4, 5,...} 10

Exemplo (cont.) Ora n p 0 i = n { e λ λ i 1 (i 1)!, i = 1, 2, 3, 4 1 (p 0 1 + p0 2 + p0 3 + p0 4 ), i = 5 Mas uma vez que λ = 1, as estimativas das frequências absolutas esperadas sob H 0 são dadas por { e 1 n p i 0, i = 1, 2, 3, 4 = n (i 1)! 1 (p1 0 + p0 2 + p0 3 + p0 4 ), i = 5 Assim sendo, o valor observado da estatística de teste é t = 0.2321 / W concluindo-se que ao n.s. de 5%, é razoável afirmar que os dados provêm de uma distribuição de Poisson.

Agrupamento de classes Embora hajam autores que defendam que se registarmos, para algum i, E i < 5, devemos agrupar esta classe à classe adjacente com menor frequência absoluta esperada sob H 0, outros autores afirmam que não há a necessidade de qualquer agrupamento de classes se em pelo menos 80% das classes se verificar E i 5 e nas restantes classes E i 1. Será este o critério que vamos utilizar no âmbito desta disciplina.

Para v.a. contínuas, o procedimento de teste deve ser análogo, ou seja, as observações devem estar organizadas em classes, i.e., em intervalos disjuntos que cubram todo o contardomínio da v.a. de interesse.

Teste de independência do qui-quadrado em tabelas de contingência Exemplo Num estudo cĺınico seleccionaram-se aleatóriamente n = 1000 indivíduos para determinar se a presença de daltonismo estava ou não relacionada com o género, tendo-se obtido os seguintes resultados: Masculino Feminino Daltónicos 39 6 Não daltónicos 461 494 V.a. de{ interesse: { 1, indivíduo daltónico 1, indivíduo do género masculino X = Y = 2, c.c 2, c.c p ij = P(X = i, Y = j) desconhecido; p i = P(X = i) desconhecido; p j = P(Y = j) desconhecido; para i = 1,..., r e j = 1,..., s (r = s = 2 neste caso.)

Exemplo (cont.) Hipóteses: H 0 : p ij = p i p j vs. H 1 : (i, j) : p ij p i p j Nível de significância: α 0 = 10% Estatística de teste: T = r i=1 s j=1 ( O ij O ) 2 i O j n O i O j n χ 2 (r 1)(s 1) onde, para i = 1,..., r e j = 1,..., s: O ij =frequência absoluta observada na célula (i, j) da tabela de contingência O i = s j=1 O ij =frequência absoluta observada na linha i da tabela O j = r i=1 O ij =frequência absoluta observada na coluna j da tabela Região de rejeição do H 0 : Quanto maior for a discrepância entre as frequências das células da tabela e a estimativa da frequência absoluta esperada dessa mesma célula, sob a hipótese de independência (dada por o i o j ), mais n inconsisrente será H 0 com os dados. Assim, a região de rejeição é um intervalo à direita: W = (c, + ), onde c = F 1 χ 2 (1 α 0 ) (r 1)(s 1) Neste caso c = F 1 χ 2 (1 0.1) = 2.706. (2 1)(2 1)

Exemplo (cont.) Decisão: O valor observado da estatística de teste é igual a ( ) 39 45 500 2 ( ) 1000 6 45 500 2 1000 t = + 45 500 45 500 1000 1000 ( ) 461 955 500 2 ( ) 1000 499 955 500 2 1000 + + 955 500 955 500 1000 1000 = 25.34 W Concluimos assim, que a presença de daltonismo parece depender do respectivo género a qualquer n.s. superior ou igual a 10%.