Cálculo das Probabilidades e Estatística I

Documentos relacionados
Introdução a Estatística

Professora Ana Hermínia Andrade. Período

Professora Ana Hermínia Andrade. Período

Professora Ana Hermínia Andrade. Universidade Federal do Amazonas Faculdade de Estudos Sociais Departamento de Economia e Análise. Período 2017.

Testes de Hipóteses. Ricardo Ehlers Departamento de Matemática Aplicada e Estatística Universidade de São Paulo

6. NOÇÕES DE INFERÊNCIA ESTATÍSTICA

INFERÊNCIA ESTATÍSTICA. ESTIMAÇÃO PARA A PROPORÇÃO POPULACIONAL p

TOMADA DE DECISÃO PARA UMA AMOSTRA. Estatística Aplicada à Engenharia 1

Teste de hipóteses para proporção populacional p

Cap. 4 - Estimação por Intervalo

Introdução ao Planejamento e Análise Estatística de Experimentos 1º Semestre de 2013 Capítulo 3 Introdução à Probabilidade e à Inferência Estatística

1 Teoria da Decisão Estatística

Universidade Federal de Lavras

Introdução à Probabilidade e à Estatística II

6. NOÇÕES DE INFERÊNCIA ESTATÍSTICA

Testes de hipóteses. Wagner H. Bonat Fernando P. Mayer Elias T. Krainski

6. NOÇÕES DE INFERÊNCIA ESTATÍSTICA

Inferência Estatistica

TESTE DE HIPÓTESE. Introdução

Inferência Estatística. Teoria da Estimação

Distribuições Amostrais e Estimação Pontual de Parâmetros

Inferência. 1 Estimativa pontual de uma média 2 Estimativa intervalar de uma média. Renata Souza

Inferência. 1 Estimativa pontual de uma média 2 Estimativa intervalar de uma média. Renata Souza

AULA 03 Estimativas e tamanhos amostrais

Testes de Hipóteses. Ricardo Ehlers Departamento de Matemática Aplicada e Estatística Universidade de São Paulo

A Inferência Estatística é um conjunto de técnicas que objetiva estudar a população através de evidências fornecidas por uma amostra.

1 Probabilidade - Modelos Probabilísticos

Testes de Hipótese para uma única Amostra - parte II

Testes de Hipóteses I

Testes de Hipótese para uma única Amostra - parte II

Teorema central do limite e es/mação da proporção populacional p

Probabilidade e Estatística. Estimação de Parâmetros Intervalo de Confiança

Inferência Estatística:

AULA 7 - Inferência em MQO: ICs e Testes de

Introdução à Inferência Estatística

Inferência estatística

TESTES DE HIPÓTESES. Lucas Santana da Cunha Universidade Estadual de Londrina

Intervalos de Confiança - Amostras Pequenas

Definição. Os valores assumidos pelos estimadores denomina-se estimativas pontuais ou simplesmente estimativas.

NOÇÕES DE TESTE DE HIPÓTESES (I) Teste de hipóteses para a proporção populacional

Testes de Hipóteses: Média e proporção

Universidade Federal Fluminense INSTITUTO DE MATEMÁTICA E ESTATÍSTICA DEPARTAMENTO DE ESTATÍSTICA

Testes de Hipótese para uma única Amostra - parte I

INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA. Prof. Anderson Rodrigo da Silva

Amostragem e distribuições por amostragem

1.1. Definições importantes

Introdução à probabilidade e estatística II

Testes de Hipóteses. Professor: Josimar Vasconcelos Contato: ou

NOÇÕES DE TESTE DE HIPÓTESES (I) Teste de hipóteses para a proporção populacional

Introdução à Bioestatística Turma Nutrição

Intervalos Estatísticos para uma única Amostra - parte I

Inferência para duas populações

TESTE DE HIPÓTESES ELISETE AUBIN E MONICA SANDOVAL - IME

Estimação e Testes de Hipóteses

Introdução à probabilidade e estatística II

ESTIMAÇÃO DE PARÂMETROS

AULA 05 Teste de Hipótese

Estimação: (A) Propriedades e Distribuições Amostrais

Teorema do Limite Central, distribuição amostral, estimação por ponto e intervalo de confiança

Probabilidade e Estatística

Testes de Hipóteses Paramétricos

Distribuições por Amostragem

AULA 04 Teste de hipótese

Probabilidade e Estatística

Nessa situação, a média dessa distribuição Normal (X ) é igual à média populacional, ou seja:

Distribuição Amostral e Estimação Pontual de Parâmetros

Aula 5. Teste de Hipóteses II. Capítulo 12, Bussab&Morettin Estatística Básica 7ª Edição

Testes de Hipóteses Paramétricos

Bioestatística e Computação I

DISTRIBUIÇÃO AMOSTRAL E ESTIMAÇÃO PONTUAL INTRODUÇÃO ROTEIRO POPULAÇÃO E AMOSTRA. Estatística Aplicada à Engenharia

Distribuições Amostrais e Estimação Pontual de Parâmetros

AULA 07 Inferência a Partir de Duas Amostras

Princípios de Bioestatística Teste de Hipóteses

Lista de Exercícios #8 Assunto: Teste de Hipóteses

Métodos. Inferência. Estatística. Descritiva. Teste de. Estimação

Cap. 8 - Intervalos Estatísticos para uma Única Amostra

Estimador: combinação dos elementos da amostra, construída com a finalidade de representar, ou estimar, um parâmetro de interesse na população.

Fernando de Pol Mayer

Introdução à Inferência Estatística

Introdução à Inferência Estatística

Bioestatística e Computação I

Testes de Hipóteses para. uma Única Amostra. Objetivos de Aprendizagem. 9.1 Teste de Hipóteses. UFMG-ICEx-EST-027/031 07/06/ :07

Teoria da Estimação. Fabricio Goecking Avelar. junho Universidade Federal de Alfenas - Instituto de Ciências Exatas

A moeda é honesta ou é desequilibrada? Qual é a probabilidade de "cara"no lançamento de uma moeda?

Exemplo 7.0 Numa linha de produção, os pesos de pacotes de pó de café embalados por uma máquina têm distribuição Normal, com média

MAE Introdução à Probabilidade e à Estatística II. Lista de Exercícios 5-1 sem de Profa. Lígia Henriques-Rodrigues

MAE Introdução à Probabilidade e Estatística II Resolução Lista 5

Enrico A. Colosimo Depto. Estatística UFMG

Bioestatística CE001 Prof. Fernando de Pol Mayer Departamento de Estatística DEST Exercícios: inferência Nome: GABARITO

Estatística II. Intervalo de Confiança Lista de Exercícios

Intervalos de Confiança

PHD 5742 Estatística Aplicada ao Gerenciamento dos Recursos Hídricos. 6 a aula Testes de Hipóteses

Aula 9 Intervalo de confiança para a média da N(μ; σ 2 ), σ 2 desconhecida

Tomada de Decisão para uma Única Amostra

Distribuições Amostrais e Estimação Pontual de Parâmetros

Capítulo 4 Inferência Estatística

x P(X = x) 0,1 0,7 0,2

Aula 8 - Testes de hipóteses

Transcrição:

Cálculo das Probabilidades e Estatística I Prof a. Juliana Freitas Pires Departamento de Estatística Universidade Federal da Paraíba - UFPB juliana@de.ufpb.br

Introdução O curso foi dividido em três etapas: 1 vimos como resumir descritivamente variáveis de um conjunto de dados. 2 conhecemos modelos probabilísticos, caracterizados por parâmetros, capazes de representar adequadamente o comportamento de algumas variáveis. 3 esta etapa, apresentaremos métodos para fazer afirmações sobre as características de uma população (parâmetros), com base em informações dadas por amostras.

Revisando alguns conceitos... População: conjunto de todos os elementos ou indivíduos sob investigação. Amostra: qualquer subconjunto (não vazio) da população. Variável Aleatória: característica da população sujeita a variação. Parâmetro: Característica numérica observada na população. Estimador: Característica numérica estabelecida por valores da amostra (uma função da amostra). Estimativa: um particular valor assumido por um estimador.

Introdução à Inferência Estatística O uso de informações de uma amostra para concluir sobre o todo faz parte do dia a dia da maioria das pessoas. Por exemplo: Uma cozinheira ao verificar o sal de um prato que está preparando; Um comprador, após experimentar uma pequena fatia de queijo, decide se vai ou não comprar o queijo; A forma como as mães verificam a temperatura do mingau de seus bebês.

Inferência Inferência Estatística: conjunto de métodos de análise estatística que permitem tirar conclusões sobre uma característica da população com base em somente uma parte dela (uma amostra). Em outras palavras, a inferência estatística trata de métodos que permitem a obtenção de conclusões sobre um ou mais parâmetros de uma ou mais populações através de quantidades (estimadores) calculadas a partir da(s) amostra(s);

Inferência Fazer inferência (ou inferir) = tirar conclusões sobre as características de uma população (parâmetros), com base em informações dadas a partir da amostra (estimadores); Os métodos de inferência podem ser agrupados em duas categorias: 1 Estimação: pontual ou intervalar 2 Testes de Hipóteses

Com o que lida a Inferência? Suponha que desejamos saber qual a altura média dos brasileiros adultos. Como podemos obter essa informação? Medindo a altura de todos os brasileiros adultos. Nesse caso, não será necessário usar inferência estatística. Selecionar adequadamente uma amostra aleatória (X 1, X 2,..., X n ) da população de brasileiros adultos e, através dessa amostra, inferir sobre a altura média (parâmetro).

Podemos inferir sobre a altura média dos brasileiros adultos de duas formas: 1 Estimação: Estimativa Pontual: calculando a média das alturas dos brasileiros adultos selecionados na amostra; Estimativa Intervalar: através dos valores da amostra construir um intervalo de tal forma que a probabilidade de o verdadeiro valor da altura média dos brasileiros pertencer a este intervalo seja alta. 2 Testes de Hipóteses: Em uma outra situação, poderíamos estar interessados em testar se a afirmação os brasileiros têm, em média, 169 cm é verdadeira. Com base na amostra, podemos realizar um Teste de Hipóteses. Contudo, estes resultados dependerão da qualidade da amostra, que tem que ser representativa da população.

A forma como selecionamos uma amostra interfere nos resultados? Ex 1: Análise da quantidade de glóbulos brancos no sangue de certo indivíduo. Uma gota do dedo seguramente será representativa para a análise. Caso Ideal! Ex 2: Opinião sobre um projeto governamental. Se escolhermos uma cidade favorecida, o resultado certamente conterá erro (viés) OBS: Observe que a forma como se obtém a amostra é determinante para a validade da pesquisa.

Como selecionar uma amostra? A maneira de selecionar a amostra é tão importante que existem diversos procedimentos de obtê-la. A teoria da amostragem é o ramo da estatística que fornece procedimentos adequados para a seleção de amostras. Aqui, trataremos do caso mais simples de amostragem probabilística, e que serve como base para procedimentos mais elaborados: a amostragem aleatória simples, com reposição, a ser designada por AAS.

Amostragem Aleatória Simples (AAS) Supomos que podemos listar todos os N elementos de uma população homogênea e finita. Usando um procedimento aleatório, sorteia-se um elemento da população. Repete-se o procedimento até que sejam sorteadas as n unidades da amostra. Temos AAS com reposição e sem reposição, contudo, com reposição implica independência entre as unidades selecionadas facilitando o estudo das propriedades dos estimadores. Neste curso, será considerada a amostragem aleatória simples, com reposição, a ser designada por AAS.

Estimação Em qualquer área do conhecimento nos deparamos com o problema de estimar alguma quantidade de interesse. Exemplo: estimar a proporção de indivíduos que votarão em determinado candidato. A estimação pode ser feita de duas formas: 1 Estimação Pontual: um único valor e utilizado para inferir sobre um parâmetro de interesse. 2 Estimação Intervalar: uma faixa de valores ou intervalo é utilizado para inferir sobre um parâmetro de interesse, com algum grau de confiança.

Estimação Pontual Na estimação pontual desejamos encontrar um único valor numérico que esteja bastante próximo do verdadeiro valor do parâmetro. Parâmetro Média (µ) Variância (σ 2 ) Desvio Padrão (σ) Proporção (p) Estimador n i=1 X = X i n n S 2 i=1 = (X i X) 2 n 1 S = S 2 ˆp = X onde X é o número de indivíduos n que possuem a mesma característica de interesse

Os preços de um determinado produto em 10 diferentes mercados em um determinado mês foram: 0.75 1.1 0.6 2 1.3 0.69 2.1 1.3 0.83 1 Exemplo A estimativa pontual da média do preço do produto é dada por 0.75 + 1.1 + + 0.83 + 1 X = = 1.167 10 A estimativa pontual da proporção de preços menores que 1 real é dada por ˆp = 4 10 = 0.4

Propriedades desejáveis de um estimador Considere θ um estimador pontual (função de uma amostra) para um parâmetro θ desconhecido. P1 Não-Viesado: diz-se que θ é não-viesado (nãotendencioso) se seu valor esperado é igual a θ. P2 Consistência: diz-se que θ é consistente se além de não-viesado, sua variância tende a zero quando o tamanho de n é suficientemente grande. P3 Eficiência: Se θ 1 e θ 2 são dois estimadores não-viesados de um mesmo parâmetro θ, e ainda V ar(ˆθ 1 ) < V ar(ˆθ 2 ), então, dizemos que ˆθ 1 é mais eficiente do que ˆθ 2.

Suponha que alguém deseje comprar um rifle e, escolha quatro (A, B, C e D) para testá-los. foram dados 15 tiros com cada um deles. A representação gráfica é dada abaixo.

Estimação Pontual Estimação Intervalar Estimadores pontuais, especificam um único valor para o parâmetro. Mas, sabemos que diferentes amostras levam a diferentes estimativas, pois o estimador é uma função de uma amostra aleatória. E, estimar um parâmetro através de um único valor não permite julgar a magnitude do erro que podemos estar cometendo. Daí, surge a ideia de contruir um intervalo de valores que tenha uma alta probabilidade de conter o verdadeiro valor do parâmetro (denominado intervalo de confiança).

Como construir um intervalo de confiança? Um intervalo de confiança (ou estimativa intervalar) é construído de forma que a estimativa pontual esteja acompanhada de uma medida de erro. [ Intervalo Estimativa de Confiança = Pontual ± Erro de Estimação ] Mas como obter o erro de estimação????

Distribuição Amostral dos Estimadores Como dissemos, um estimador é uma função de uma amostra. Uma amostra consiste de observações de uma variável aleatória. Assim, estimadores também são variáveis aleatórias. Por esta razão, cada estimador possui uma distribuição de probabilidades e é importante conhecêla, pois a partir dela conhecemos o comportamento do estimador e podemos determinar a precisão das suas estimativas. A distribuição de probabilidades desses estimadores é comumente denominada de distribuição amostral do estimador.

Distribuição Amostral dos Estimadores A Distribuição Amostral retrata a distribuição de probabilidades de um estimador ˆθ, caso retirássemos todas as possíveis amostras de tamanho n de uma população. A figura abaixo ilustra a ideia de distribuição amostral.

Distribuição Amostral de X Considere, como exemplo, uma população de 5 elementos {2, 3, 6, 8, 11}. Nesta população temos que µ = E(X) = 6 e σ 2 = Var(X) = 10, 8. Se agora retirarmos todas as possíveis amostras de tamanho n = 2, com reposição, teremos: (2, 2); (2, 3); (2, 6); (2, 8); (2, 11); (3, 2)... (11, 11) Calculando a média para cada amostra, temos: (X 1, X 2 ) (2, 2) (2, 3) (2, 6) (2, 8) (2, 11) (3, 2) (11, 11) X 2 2, 5 4 5 6, 5 2,5 11

Distribuição Amostral de X Note que temos todos os possíveis resultados de X. Desta forma, podemos obter a distribuição de probabilidade da variável aleatória X. X 2 2, 5 3 4 4, 5 5 11 P(X = x i ) 1/25 2/25 1/25 2/25 2/25 2/25 1/25 Baseando-se nestes dados, temos que: E(X) = x i p(x i ) = 2 1 25 +... + 11 1 25 = 6 i E(X 2 ) = x 2 i p(x i ) = 2 2 1 1 +...+112 25 25 = 41, 4 i Var(X) = E(X 2 ) [E(X)] 2 = 41, 4 6 2 = 5, 4

Distribuição Amostral de X Com respeito a distribuição de X, podemos observar que 1) A sua média é igual à media da população, E(X) = 6 = µ. 2) A sua variância é igual à variância da população dividida pelo tamanho da amostra Var(X) = 5, 4 = 10, 8 = σ2 2 n. Coincidência?

Distribuição Amostral de X Não, estes dois fatos não são isolados. Na realidade temos o seguinte resultado: Teorema: Seja X uma v.a. com média µ e variância σ 2, e seja (X 1,..., X n ) uma AAS de X. Então, µ X = E(X) = µ e σ X = Var(X) = σ2 n. Prova: E(X) = E Var(X) = Var ( n ) i=1 X i = 1 n n n i=1 E(X i) = nµ n = µ. ( n i=1 X i n ) = 1n 2 ni=1 Var(X i) = nσ2 n 2 Temos, então, informação sobre a média e a variância de X. Mas, o que dizer sobre sua distribuição de probabilidades? = σ2 n.

Distribuição Amostral de X A forma da distribuição amostral de X dependerá da distribuição da v.a. X. Duas situações são consideradas: 1 Se X N(µ, σ 2 ), então, X N(µ, σ2 n ). 2 Se a v.a. X tem distribuição qualquer, a distribuição da média amostral X aproxima-se da distribuição normal quando o tamanho da amostra cresce. Esse resultado é garantido por um teorema chamado Teorema Central do Limite. (Tipicamente, se n > 30 então X N(µ, σ2 n ).)

Distribuição Amostral de X

Exemplo Numa empresa A, os tempos de execução de uma certa tarefa pelos funcionários são distribuídos conforme uma distribuição normal com média µ = 22 minutos e variância σ 2 = 9 minutos 2. Considere uma amostra de 25 funcionários selecionados para executar a tarefa. Qual a probabilidade de o tempo de execução médio amostral ser menor que 20 minutos?

Exemplo Resposta: Temos n = 25 < 30, mas como a população tem distribuição normal, então, X N ( 22 min; 9 25 min2). Daí: ( ) X 22 20 22 P (X < 20) = P < 9/25 9/25 = P (Z < 3, 33) = 0, 0004

Exemplo Considere que a distribuição das idades no momento do aparecimento de problemas de audição relacionados ao ruído no ambiente de trabalho em funcionários de um determinado setor industrial tenha média µ = 53, 9 anos e desvio padrão σ = 18, 1 anos. Numa amostra de 36 indivíduos qual a probabilidade de a média amostral das idades no momento do aparecimento dos problemas ser inferior a 45 anos?

Exemplo Resposta: Temos n = 36 > 30 podemos utilizar a aproximação ( normal. Nesse caso, temos que X N 53, 9 anos; 18,12 36 anos ). 2 Daí: P (X < 45) = P ( X 53, 9 18, 1/6 = P (Z < 2, 95) = 0, 0016 ) 45 53, 9 < 18, 1/6

Distribuição Amostral de ˆp Vamos considerar uma população em que a proporção de indivíduos com uma certa característica é p. Logo, podemos definir uma v.a. X como: X = { 1, se o indivíduo possui a característica 0, se o indivíduo não possui a característica, logo, µ = E(X) = p e σ 2 = Var(X) = p(1 p). Retirada uma AAS de tamanho n dessa população, seja Y n = n i=1 X i, o número de indivíduos com a característica de interesse na amostra. Já vimos que Y n binomial(n, p).

Distribuição Amostral de ˆp Observando que a proporção amostral é dada por: ˆp = Y n n n = i=1 X i = X. n E, lembrando que X tem distribuição normal, para n suficientemente grande (n > 30), com a mesma média que X e com variância igual à variância de X dividido por n. Neste caso, temos que se n é grande, então, a distribuição amostral de ˆp é: ( ) p(1 p) ˆp N p; n

Exemplo Um banco propõe a seus clientes inadimplentes um desconto para que quitem suas dívidas. O gerente espera, com base em estratégias similares realizadas anteriormente, que 50% desses clientes procurem o banco para tentar uma negociação. Num grupo de 200 clientes inadimplentes, qual a probabilidade de a proporção amostral de clientes que tentam a negociação estar entre 0, 48 e 0, 53?

Exemplo Resposta: Temos ( que n = 200 e p = 0, 5, o que implica que ˆp N 0, 5; 0,5(1 0,5) 200 anos ). 2 Daí: P (0, 48 < ˆp < 0, 53) = ( 0, 48 0, 5 = P < 0, 25/200 = P ( 0, 57 < Z < 0, 85) ˆp 0, 5 0, 25/200 < = P (Z < 0, 85) P (Z < 0, 57) = 0, 8023 0, 2843 = 0, 518 ) 0, 53 0, 5 0, 25/200

Estimação Intervalar Vimos que como os estimadores pontuais especificam um único valor para o estimador, não podemos julgar qual a possível magnitude do erro que estamos comentendo. Daí, surge a idéia de construir os intervalos de confiança, de forma que a estimativa pontual esteja acompanhada de uma medida de erro. Intervalo de Confiança = [ Estimativa Pontual ± Erro de Estimação Mas como obter o erro de estimação??? Através da distribuição amostral do estimador pontual. ]

Estimação Intervalar Um intervalo de confiança (ou estimativa intervalar) representa uma amplitude de valores que tem alta probabilidade (grau de confiança) conter o verdadeiro valor do parâmetro. O grau de confiança (ou nível de confiança) é uma medida que representa a probabilidade do intervalo conter o parâmetro populacional. Tal probabilidade é chamada de 1 α. Logo, α será a probabilidade de erro ao se afirmar que o intervalo contém o verdadeiro valor do parâmetro.

Intervalo de confiança para a média populacional Duas situações são consideradas quando desejamos estabelecer um intervalo de confiança para a média de uma população: 1 A variância σ 2 é conhecida; 2 A variância σ 2 é desconhecida;

Intervalo de confiança para a média populacional Adicionalmente, deve-se verificar se uma das duas suposições seguintes é satisfeita: 1 A amostra é proviniente de uma população normal. Pois, sabemos que se X N(µ, σ 2 ) então X N(µ, σ 2 /n). 2 A amostra tem tamanho maior do que 30, n > 30, o que nos permite aproximar a distribuição da média amostral X pela distribuição normal, como na suposição anterior.

Intervalo de confiança para a média populacional De modo geral, estamos interessados em encontrar um intervalo na forma: IC = [X ε 0 ; X + ε 0 ] = [X ± ε 0 ] onde ε 0 representa a margem de erro ou erro de precisão em relação à média µ. Portanto, o objetivo é encontrar ε 0 tal que que é equivalente a P( X µ < ε 0 ) = 1 α, P( ε 0 < X µ < ε 0 ) = 1 α. A última expressão pode ser reescrita da forma P(µ ε 0 < X < µ + ε 0 ) = 1 α.

Caso 1: A variância σ 2 é conhecida Sabemos que X é o estimador de µ. Supondo que pelo menos uma das suposições está satisfeita, temos que X N(µ, σ 2 /n) e, então, X µ σ/ = Z N(0, 1). n P( µ ε 0 µ σ/ n P(µ ε 0 < X < µ + ε 0 ) = 1 α < X µ σ/ n < µ + ε 0 µ σ/ n ) = 1 α. Daí, P( ε 0 σ/ n < Z < +ε 0 σ/ n ) = 1 α. P( z α/2 < Z < +z α/2 ) = 1 α. z α/2 = ε 0 σ/ n e z α/2 = ε 0 σ/ n

Caso 1: A variância σ 2 é conhecida Logo, ε 0 = z α/2 σ n

Caso 1: A variância σ 2 é conhecida Dessa forma, se X for a média de uma amostra aleatoria de tamanho n, proveniente de uma população com variância conhecida, um intervalo de 100(1 α)% de confiança para a média populacional é dado por: IC µ 100(1 α)% = ( X z α/2 σ n, X + z α/2 σ n ) em que z α/2 é o quantil da normal padrão de nível α/2.

Exemplo Em uma industria de cerveja, a quantidade de cerveja inserida em latas se comporta como uma distribuição normal com média 350 ml e desvio padrão 3 ml. Após alguns problemas na linha de produção, suspeita-se que houve alteração na média. Uma amostra de 20 latas acusou uma média de 346 ml. Obtenha um intervalo de 95% para a quantidade média de cerveja inserida em latas, supondo que não tenha ocorrido alteração na variabilidade.

Resposta: A variância σ 2 é conhecida, então o intervalo é dado por IC µ 100(1 α)% = ( X z α/2 σ n, X + z α/2 σ n ) Exemplo Como 1 α = 0, 95, temos que α = 0, 05. Então, α/2 = 0, 025. Ou seja, devemos olhar na tabela da normal padrão qual o número z 0,025.

Exemplo Olhando na tabela, temos que z α/2 = 1, 96. Assim, o intervalo é obtido através de: IC µ 95% = ( 346 1, 96 3 20, 346 + 1, 96 3 20 ) = (344.69, 347.31) Isto é, o intervalo de valores [344, 69; 347, 31] contém a quantidade média de cerveja inserida nas latas está com 95% de confiança. Logo, conclui-se que realmente houve alteração, após os problemas encontrados na linha de produção, na quantidade média de cerveja inserida em latas.

Calculando o tamanho da amostra Note que, a partir da expressão obtida para a margem de erro ε 0, podemos estimar o tamanho da amostra, se α e ε 0 estiverem especificados: ε 0 = z α/2 σ n n = z α/2 σ ε 0 n = ( z α/2 σ ε 0 ) 2 Se a população for finita, com N elementos, devese utilizar o fator de correção para populações finitas. Nesse caso, o tamanho da amostra será determinado por: n = n 1 + n N

Exemplo Uma construtora deseja estimar a resistência média das barras de aço utilizadas na construção de casas. Qual o tamanho amostral necessário para garantir que haja um risco de 0, 001 de ultrapassar um erro de 5kg ou mais na estimação? O desvio padrão da resistência para este tipo de barra é de 25kg.

Exemplo Resposta: Do enunciado tem-se α = 0, 001, ε 0 = 5 e σ = 25. Da tabela da distribuição normal padrão obtemos z α/2 = z 0,0005 = 3, 29. Assim, ( ) 2 ( σ n = z α/2 = 3, 29 25 ) 2 = 270, 602 ε 0 5 = 271

Intervalo de confiança para a média populacional Caso 2: A variância σ 2 é desconhecida O processo para se obter o intervalo de confiança é semelhante ao anterior. Contudo, como σ 2 é desconhecida, é preciso substitui-la pela variância amostral (S 2 ): S 2 = n i=1 (X i X) 2 n 1 Nessa situação, a quantidade T = X µ S/ n t (n 1) tem distribuição t-student com n 1 graus de liberdade, e não mais distribuição normal padrão.

Distribuição t-student A distribuição t-student apresenta propriedades semelhantes as da distribuição normal padrão (como, por exemplo, simetria em torno de 0), no entanto, é mais dispersa. Em outras palavras, a distribuição t-student concentra mais probabilidades nas caldas do que a distribuição normal padrão. A medida que n cresce, a distribuição t-student se aproxima mais da distribuição normal padrão, pois S se aproxima mais de σ.

Distribuição t-student Existe uma distribuição t-student para cada valor dos graus de liberdade (n 1).

Intervalo de confiança para a média populacional Caso 2: A variância σ 2 é desconhecida Dessa forma, se X for a média de uma amostra aleatória de tamanho n, proveniente de uma população com variância desconhecida, um intervalo de 100(1 α)% de confiança para a média populacional é dado por: IC µ 100(1 α)% = ( X t (n 1,α/2) S n, X + t (n 1,α/2) S n ), onde t (n 1,α/2) é o quantil da t-student de nível α/2. Obs: Se σ 2 for desconhecida, mas o tamanho da amostra for grande (n > 30), pode-se utilizar z α/2 no lugar de t (n 1;α/2)

Exemplo Deseja-se avaliar a dureza média do aço produzido sob um novo processo de têmpera. Uma amostra de 10 corpos de prova de aço produziu os seguintes resultados, em HRc: 36, 4 35, 7 37, 2 36, 5 34, 9 35, 2 36, 3 35, 8 36, 6 36, 9. Construir um intervalo de 95% de confiança para a dureza média do aço.

Exemplo Resposta: Temos a média amostral dada por: X = E a variância amostral: n i=1 X i n = 36.15 S 2 = n i=1 (X i X) 2 n 1 = 4, 865 9 = 0.5406 E, portanto, S = 0.7352. Além disso, n = 10 e 1 α = 0, 95, daí t (n 1,α/2) = t (9,0.025) = 2.26

Exemplo Assim, IC µ 95% = ( X t (n 1,α/2) S n, X + t (n 1,α/2) S n ) = ( 36.15 2.26 0.7352, 36.15 + 2.26 0.7352 ) 10 10 = (35.625, 36.675). Ou seja, com 95% de confiança o intervalo [35, 625; 36, 675] contém a dureza média do aço.

Intervalo de confiança para a proporção populacional Vimos que, para n suficientemente grande (n > 30), ( ) p(1 p) ˆp N p,. n O intervalo que estamos procurando é da forma IC = [ˆp ± ε 0 ] Assim, por um caminho semelhante ao adotado no caso da média, a margem de erro é dada por ε 0 = z α/2 p(1 p) n

Intervalo de confiança para a proporção populacional Dessa forma, se ˆp for a proporção de indivíduos com uma característica de interesse em uma amostra aleatória, de tamanho n, proveniente de uma população onde a proporção verdadeira de indivíduos com a característica é p, um intervalo de 100(1 α)% de confiança para essa proporção populacional p é dado por IC p 100(1 α)% = ( p(1 p) p(1 p) ˆp z α/2, ˆp + z α/2 n n em que z α/2 é o quantil da normal padrão com α/2 de nível de confiança. )

Na prática, o valor de p é desconhecido (é justamente p que queremos estimar!). Nessa situação, duas abordagens são razoáveis: 1 Abordagem otimista: substituir o valor de p por sua estimativa ˆp. Nesse caso, IC p 100(1 α)% = ( ˆp(1 ˆp) ˆp(1 ˆp) ˆp z α/2, ˆp + z α/2 n n 2 Abordagem conservadora: substituir p(1 p) por seu valor máximo, 1/4, quando p = 1/2. Nesse caso, ( ) IC p 100(1 α)% = 1 1 ˆp z α/2, ˆp + z α/2 4n 4n )

Exemplo Um estudo foi feito para determinar a proporção de famílias que tem telefone em uma certa comunidade. Uma amostra de 200 famílias é selecionada ao acaso, e 160 afirmam ter telefone. Qual o intervalo para p com 95% de confiança?

Resposta:Temos que ˆp = 160/200 = 0, 8. Como 1 α = 0, 95 então z α/2 = z 0,025 = 1, 96. Assim, adotando abordagem otimista, temos Exemplo ( ) IC µ ˆp(1 ˆp) ˆp(1 ˆp) 95% = ˆp z α/2, ˆp + z n α/2 n ( ) 0, 8(1 0, 8) 0, 8(1 0, 8) = 0, 8 1, 96, 0, 8 + 1, 96 200 200 = (0.7446, 0.8554). Ou seja, com 95% de confiança o intervalo [74, 46%; 85, 54%] contém a porcentagem de famílias que tem telefone nessa comunidade.

Exemplo Se calcularmos o intervalo adotando abordagem conservadora, temos ( ) IC µ 95% = 1 1 ˆp z α/2, ˆp + z α/2 4n 4n ( ) 1 1 = 0, 8 1, 96, 0, 8 + 1, 96 4 200 4 200 = (0.7307, 0.8692). Observe que, o intervalo com a abordagem conservadora fornece um intervalo maior.

Calculando o tamanho da amostra Mais uma vez, podemos estimar o tamanho da amostra a partir da margem de erro ε 0, basta especificar α e ε 0 : ε 0 = z α/2 p(1 p) n n = z α/2 p(1 p) n = (z α/2 ) 2 ε 0 p(1 p) (ε 0 ) 2 Como p é desconhecido, para a substituição de p(1 p) ou utiliza-se 1/4 ou adota-se um valor de ˆp obtida de um estudo piloto ou de um estudo similar. Se a população for finita, deve-se utilizar, de forma similar o fator de correção para populações finitas: n = n 1 + n N

Considerações: interpretação do intervalo de confiança Um erro comum é dizer que a probabilidade do parâmetro (µ ou p) estar no intervalo de 100(1 α)%. O parâmetro (µ ou p) não é uma variável aleatória, portanto não existe probabilidade sobre ele. O parâmetro é uma constante desconhecida, sobre a qual desejamos inferir, através das quantidades amostrais (Xou ˆp). Então, qual a interpretação do intervalo de confiança?????

Considerações: interpretação do intervalo de confiança A interpretação correta é do intervalo de confiança conter o verdadeiro valor do parâmetro (µ ou p) com 100(1 α)% de confiança.

Fatores determinantes do erro de estimação O erro de estimação dependende do(a): Tamanho da amostra (n): Quanto menor o tamanho da amostra, maior será o erro de estimação. Variabilidade da característica na população: Quanto maior for a variabilidade da característica cuja média está sendo estimada, maior será o erro de estimação. Nível de confiança (1 α): Se quisermos uma confiança maior no intervalo teremos um erro de estimação maior.

Teste de Hipóteses O Teste de Hipóteses consiste em uma regra de decisão elaborada para rejeitar (ou não) uma afirmação (hipótese) feita a respeito de um parâmetro populacional desconhecido, com base em informações colhidas de uma amostra aleatória. Exemplo: Verificar se o salário médio de certa categoria profissional no Brasil é igual a R$1.500, 00. Testar se 40% dos eleitores votarão em certo candidato nas próximas eleições. Testar se um medicamento é mais eficaz que outro.

Conceitos fundamentais Hipótese Nula (H 0 ): É a hipótese a ser testada. Hipótese Alternativa (H 1 ): É a hipótese a ser confrontada com H 0. O teste será feito de tal forma que deverá sempre concluir na rejeição (ou não) de H 0. Como estamos tomando uma decisão com base em informações de uma amostra, estaremos sujeitos a cometer dois tipos de erros.

Conceitos fundamentais Erro do tipo I: Rejeitarmos H 0 quando H 0 é verdadeira. α = P(erro do tipo I) = P(rejeitar H 0 H 0 é verdadeira) Erro do tipo II: Não rejeitarmos H 0 quando H 0 é falsa. β = P(erro do tipo II) = P(não rejeitar H 0 H 0 é falsa) Obs: α é denominado de nível de significância do teste.

Conceitos fundamentais Nossas decisões em um teste de hipóteses podem ser resumidas na seguinte tabela:

Conceitos fundamentais Estatística do teste: É a estatística utilizada para julgar H 0. Região crítica do teste (RC): É formada pelo conjunto de valores que levam a rejeição de H 0. Ela depende do tipo de hipótese alternativa, do nivel de significância (α) adotado, e da distribuição de probabilidade da estatística do teste.

Etapas para a elaboração de um Teste de Hipóteses 1 Definir as hipóteses nula (H 0 ) e alternativa (H 1 ); 2 Fixar o nível de significância (α); 3 Determinar a estatística do teste; 4 Determinar a região crítica do teste; 5 Calcular o valor da estatística do teste (com base numa amostra da população de interesse); 6 Se o valor calculado no passo 5 pertencer a RC, rejeitar H 0, caso contrário, não rejeitar H 0 ; 7 Conclusão do teste.

Teste de Hipóteses para a média populacional Caso 1: σ 2 conhecida. 1. Definição das hipóteses: H 0 : µ = µ 0 H 0 : µ = µ 0 H 0 : µ = µ 0 H 1 : µ µ 0 ou H 1 : µ < µ 0 ou H 1 : µ > µ 0 2. Fixar o nível de significância α; 3. Definir a estatística de teste: Z = X µ σ/ N (0, 1) n

Teste de Hipóteses para a média populacional 4. Definir a região crítica do teste (RC):

Teste de Hipóteses para a média populacional 5. Com base nos valores observados da amostra, calcular o valor da Estatística de teste Z : Z c = X µ 0 σ/ n 6. Se Z c RC rejeitar H 0 (aceitar H 1 ). Se Z c / RC não rejeitar H 0 (não aceitar H 1 ). 7. Concluir sobre a decisão tomada no passo 6.

Exemplo Os sistemas de escapamento de uma aeronave funcionam devido a propelente sólido. A taxa de queima desse propelente é uma característica importante do produto. As especificações requerem que a taxa média de queima tem de ser 50 centímetros por segundo. Sabemos que a taxa de queima é normalmente distribuída com desvio padrão de σ = 2 centímetros por segundo. O experimentalista seleciona uma amostra aleatória de tamanho 25 e obtém uma taxa média amostral igual a 51, 3 centímetros por segundo. Que conclusões poderiam ser tiradas ao nível de significância, de 0, 05?

Resolução: Teste para média com σ 2 conhecida 1. As hipóteses que queremos testar são: H 0 : µ = 50 contra H 1 : µ 50 2. Fixamos α = 0, 05; 3. A estatística de teste é: Z = X µ σ/ N (0, 1) n 4. A região crítica é do tipo: onde z = z α/2 = z 0,025 = 1, 96 (tabela da distribuição normal padrão).

Resolução: continuação 5. A partir dos dados amostrais temos que: Z c = X µ 0 σ/ n = 51, 3 50 2/ 25 6. Temos que Z c RC pois 3, 25 > 1, 96, portanto, rejeitamos a hipótese nula. 7. Baseados nos dados amostrais, podemos concluir, ao nível de 5% de significância, que a taxa média de queima difere de 50 centímetros por segundo.

Teste de Hipóteses para a média populacional Caso 2: σ 2 desconhecida. 1. Definição das hipóteses: H 0 : µ = µ 0 H 0 : µ = µ 0 H 0 : µ = µ 0 H 1 : µ µ 0 ou H 1 : µ < µ 0 ou H 1 : µ > µ 0 2. Fixar o nível de significância α; 3. Definir a estatística de teste: T = X µ S/ n t (n 1)

Teste de Hipóteses para a média populacional 4. Definir a região crítica do teste (RC):

Teste de Hipóteses para a média populacional 5. Com base nos valores observados da amostra, calcular o valor da Estatística de teste Z : T c = X µ 0 S/ n 6. Se T c RC rejeitar H 0 (aceitar H 1 ). Se T c / RC não rejeitar H 0 (não aceitar H 1 ). 7. Concluir sobre a decisão tomada no passo 6. Obs: se σ 2 for desconhecida, mas o tamanho da amostra for grande (n > 30), pode-se definir a região crítica através da distribuição Normal padrão.

Exemplo Suponha que, no exemplo anterior, o valor do desvio padrão fosse desconhecido e o experimentalista o tivesse estimado, a partir da amostra como S = 2, 5 centímetros por segundo. Ao nível de 5% de significância, que conclusão obteríamos acerca da queima média do propelente?

Resolução: Teste para média com σ 2 1. As hipóteses que queremos testar são: H 0 : µ = 50 contra H 1 : µ 50 desconhecida 2. Fixamos α = 0, 05; 3. A estatística de teste é: T = X µ S/ n t (n 1) 4. A região crítica é do tipo: onde t = t n 1;α/2 = t 24;0,025 = 2, 064 (tabela da distribuição t-student).

Resolução: continuação 5. A partir dos dados amostrais temos que: T c = X µ 0 S/ n = 51, 3 50 2, 3/ 25 6. Temos que T c RC pois 2, 83 > 2, 064, portanto, rejeitamos a hipótese nula. 7. Baseados nos dados amostrais, podemos concluir, ao nível de 5% de significância, que a taxa média de queima difere de 50 centímetros por segundo.

Teste de Hipóteses para a proporção populacional 1. Definição das hipóteses: H 0 : p = p 0 H 0 : p = p 0 H 0 : p = p 0 H 1 : p p 0 ou H 1 : p < p 0 ou H 1 : p > p 0 2. Fixar o nível de significância α; 3. Definir a estatística de teste: Z = ˆp p 0 p 0 (1 p 0 ) n N (0, 1)

Teste de Hipóteses para a proporção populacional 4. Definir a região crítica do teste (RC):

Teste de Hipóteses para a proporção populacional 5. Com base nos valores observados da amostra, calcular o valor da Estatística de teste Z: Z c = ˆp p 0 p 0 (1 p 0 ) n 6. Se Z c RC rejeitar H 0 (aceitar H 1 ). Se Z c / RC não rejeitar H 0 (não aceitar H 1 ). 7. Concluir sobre a decisão tomada no passo 6.

Exemplo Dentre 1655 pacientes tratados com um medicamento A, 2, 1% tiveram reações adversas. A empresa que fabrica o medicamento afirma que apenas 1, 2% dos usuários têm algum tipo de reação adversa. Teste, ao nível de significância de 1%, a afirmativa da empresa pode ser considerada verdadeira.

onde z = z α = z 0,01 = 2, 33 (tabela da distribuição normal padrão). Resolução: Teste para porporção 1. As hipóteses que queremos testar são: H 0 : p = 0, 012 contra H 1 : p > 0, 012 2. Fixamos α = 0, 01; 3. A estatística de teste é: Z = ˆp p 0 p 0 (1 p 0 ) N (0, 1) 4. A região crítica é do tipo: n

Resolução: continuação 5. A partir dos dados amostrais temos que: Z c = ˆp p 0 p 0 (1 p 0 ) n = 0, 021 0, 012 0,012(1 0,012) 1655 = 3, 36 6. Temos que Z c RC, pois 3, 36 > 2, 33 portanto, rejeitamos a hipótese nula. 7. Ao nível de significância de 1%, a amostra fornece evidências estatísticas suficientes de que o percentual de usuários do medicamento que têm alguma reação adversa é superior a 1, 2%

Valor p Valor p: é a probabilidade de se obter um valor da estatística de teste que seja, no mínimo, tão extremo quanto aquele que representa os dados amostrais, supondo que a hipótese nula seja verdadeira. A hipótese nula deve ser rejeitada se o valor p for muito pequeno. Na prática, adota-se que se o valor p for menor ou igual ao nível de significância do teste, então devemos rejeitar a hipótese nula.