Estatística (MAD231) Turma: IGA. Período: 2015/2

Documentos relacionados
Inferência Estatística: como fazer afirmações sobre uma população conhecendo uma amostra

1 Probabilidade - Modelos Probabilísticos

Professora Ana Hermínia Andrade. Universidade Federal do Amazonas Faculdade de Estudos Sociais Departamento de Economia e Análise. Período 2017.

Cap. 4 - Estimação por Intervalo

Introdução ao Planejamento e Análise Estatística de Experimentos 1º Semestre de 2013 Capítulo 3 Introdução à Probabilidade e à Inferência Estatística

Introdução à Inferência Estatística

Inferência Estatistica

Estatística (MAD231) Turma: IGA. Período: 2018/2

Estatística Aplicada II. } Estimação e Intervalos de Confiança

DISTRIBUIÇÃO AMOSTRAL E ESTIMAÇÃO PONTUAL INTRODUÇÃO ROTEIRO POPULAÇÃO E AMOSTRA. Estatística Aplicada à Engenharia

Les Estatística Aplicada II AMOSTRA E POPULAÇÃO

Estatística Aplicada II. } Revisão: Probabilidade } Propriedades da Média Amostral

AULA 02 Distribuição de Probabilidade Normal

Exemplo 7.0 Numa linha de produção, os pesos de pacotes de pó de café embalados por uma máquina têm distribuição Normal, com média

Introdução à Probabilidade e à Estatística II

Inferência. 1 Estimativa pontual de uma média 2 Estimativa intervalar de uma média. Renata Souza

INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA. Prof. Anderson Rodrigo da Silva

Estatística (MAD231) Turma: IGA. Período: 2016/2

Introdução a Estatística

Métodos Quantitativos

Definição. Os valores assumidos pelos estimadores denomina-se estimativas pontuais ou simplesmente estimativas.

Cap. 8 - Intervalos Estatísticos para uma Única Amostra

Intervalos Estatísticos para uma única Amostra - parte I

Distribuições Amostrais e Estimação Pontual de Parâmetros

AMOSTRAGEM. É a parte da Teoria Estatística que define os procedimentos para os planejamentos amostrais e as técnicas de estimação utilizadas.

Testes de Hipóteses. Ricardo Ehlers Departamento de Matemática Aplicada e Estatística Universidade de São Paulo

MOQ-13 PROBABILIDADE E ESTATÍSTICA. Professor: Rodrigo A. Scarpel

Inferência. 1 Estimativa pontual de uma média 2 Estimativa intervalar de uma média. Renata Souza

AULA 02 Distribuição de probabilidade normal

Distribuições por Amostragem

Cálculo das Probabilidades e Estatística I

Distribuição Amostral e Estimação Pontual de Parâmetros

Introdução à Inferência Estatística

Probabilidade e Estatística. Estimação de Parâmetros Intervalo de Confiança

AULA 4: DISTRIBUIÇÕES DE PROBABILIDADES AMOSTRAIS. Gleici Castro Perdoná

Introdução à Bioestatística Turma Nutrição

Probabilidade e Estatística

Distribuições Amostrais

Teorema central do limite e es/mação da proporção populacional p

Universidade Federal de Lavras

Distribuições Amostrais e Estimação Pontual de Parâmetros

Introdução à Inferência Estatística

Probabilidade e Estatística

DE ESPECIALIZAÇÃO EM ESTATÍSTICA APLICADA)

Capítulo 4 Inferência Estatística

Estimação: (A) Propriedades e Distribuições Amostrais

Aula 7 Intervalos de confiança

Intervalos de Confiança - Amostras Pequenas

Estatística II. Intervalo de Confiança Lista de Exercícios

Intervalos de Confiança

TESTES NÃO PARAMÉTRICOS (para mediana/média)

P. P. G. em Agricultura de Precisão DPADP0803: Geoestatística (Prof. Dr. Elódio Sebem)

Estimador: combinação dos elementos da amostra, construída com a finalidade de representar, ou estimar, um parâmetro de interesse na população.

Em várias ocasiões há de se proceder à coleta de dados diretamente na origem, isto é, dos sujeitos com quem pretendemos realizar determinado estudo.

CAPÍTULO 3 POPULAÇÃO E AMOSTRA

1 Inferência Estatística - Teoria da Estimação

Unidade VII Amostragem

Em várias ocasiões há de se proceder à coleta de dados diretamente na origem, isto é, dos sujeitos com quem pretendemos realizar determinado estudo.

Tomada de Decisão para uma Única Amostra

Inferência Estatística: DEEST/UFOP Prof.: Spencer Barbosa da Silva

Amostragem e distribuições por amostragem

Aula 10 Estimação e Intervalo de Confiança

Fernando de Pol Mayer

Estatística e Modelos Probabilísticos - COE241

Inferência Estatística:

Técnicas de Amostragem

AULA 03 Estimativas e tamanhos amostrais

Professora Ana Hermínia Andrade. Período

CE008 Introdução à Bioestatística INFERÊNCIA ESTATÍSTICA

Testes de hipóteses. Wagner H. Bonat Fernando P. Mayer Elias T. Krainski

Inferência para duas populações

CONHECIMENTOS ESPECÍFICOS

Introdução à probabilidade e à estatística II. Prof. Alexandre G Patriota Sala: 298A Site:

Nessa situação, a média dessa distribuição Normal (X ) é igual à média populacional, ou seja:

TÉCNICAS DE AMOSTRAGEM

Estatística I Aula 3. Prof.: Patricia Maria Bortolon, D. Sc.

Amostra Aleatória Simples

Teste de hipóteses para proporção populacional p

Planejamento e Otimização de Experimentos

Fernando de Pol Mayer

Estimação parâmetros e teste de hipóteses. Prof. Dr. Alberto Franke (48)

Intervalos de Confiança

CONHECIMENTOS ESPECÍFICOS

6- Probabilidade e amostras: A distribuição das médias amostrais

Inferência Estatística - Teoria da Estimação

Planejamento e Otimização de Experimentos

Bioestatística e Computação I

Estatística aplicada a ensaios clínicos

Testes de Hipóteses. Ricardo Ehlers Departamento de Matemática Aplicada e Estatística Universidade de São Paulo

BIOESTATÍSTICA AULA 4. Anderson Castro Soares de Oliveira Jose Nilton da Cruz. Departamento de Estatística/ICET/UFMT

INTRODUÇÃO

Inferência Estatística

Princípios de Bioestatística Inferência e Intervalo de Confiança

TÉCNICAS DE AMOSTRAGEM

Estatística II Aula 2. Prof.: Patricia Maria Bortolon, D. Sc.

Inferência estatística

TÉCNICAS DE AMOSTRAGEM

Aula de hoje. administração. São Paulo: Ática, 2007, Cap. 3. ! Tópicos. ! Referências. ! Distribuição de probabilidades! Variáveis aleatórias

Transcrição:

Estatística (MAD231) Turma: IGA Período: 2015/2 Aula #01 de Inferência Estatística: 03/02/2016 1

Inferência Estatística: como fazer afirmações sobre uma população conhecendo uma amostra da população? Referência: Bussab e Morettin - Estatística Básica - Editora Saraiva - Capítulo 10. Introdução O uso de informações de uma amostra para concluir sobre o todo faz parte da atividade diária da maioria das pessoas. Observe como uma dona de casa verifica se o feijão está bom de sal. Ou ainda, observe quando um cliente de supermercado, após provar uma uva rosada na seção de horti-fruti, decide se vai comprar ou não dessas uvas. Essas decisões são baseadas em procedimentos amostrais. 2

Conceitos Importantes População: é o conjunto de todos os elementos sob investigação com pelo menos uma característica em comum. Amostra: é qualquer subconjunto não-vazio da população. Característica numérica da po- Parâmetro: pulação. Estatística: Característica numérica da amostra. 3

Observe que aqui o uso da palavra estatística tem outro significado. Com o conceito que acabamos de apresentar podemos dizer que usamos estatísticas para estimar parâmetros. Um estimador de um parâmetro é uma estatística. Uma questão importante na Inferência Estatística é: Como avaliar um estimador? 4

Problemas de Inferência Verificação do tempo de vida médio da lâmpada fluorescente especificado pelo fabricante. Essa verificação pode fazer parte de 1. um procedimento de controle de qualidade da empresa - se o tempo médio de vida da amostra retirada de um lote de tais lâmpadas não atender à especificação estabelecida, então todo o lote deve ser rejeitado; 2. um procedimento de um órgão de defesa do consumidor - se o tempo médio de vida de uma amostra de tais lâmpadas obtidas de diversos pontos de venda atender à especificação do fabricante, então a reclamação dos consumidores não deverá ser aceita. 5

Avaliação de um novo produto. Antes do lançamento, o novo produto será distribuído a um grupo de consumidores potenciais que responderão um questionário. Se os resultados dos questionários mostrarem que o novo produto foi bem aceito, então o grupo de marketing terá suporte para defender o lançamento do novo produto. Previsão do tempo médio de espera dos clientes no caixa de um banco. Se o tempo médio de espera de uma amostra de clientes for maior que o tempo médio afirmado pelo gerente da agência, então será bastante provável que as reclamações dos clientes tenham fundamento. 6

Há razões para supor que o tempo de reação Y a certo estímulo visual depende da idade do indivíduo. Suponha que essa dependência seja linear. Para verificar se essa suposição é verdadeira, obtiveram-se 20 dados da seguinte forma: 20 pessoas foram selecionadas, sendo 10 homens e 10 mulheres. Dentro de cada grupo, de homens e mulheres, foram selecionadas duas pessoas das seguintes faixas de idade: 20, 25, 30, 35 e 40 anos. Cada pessoa foi submetida ao teste e seu tempo de reação y foi registrado. A população poderia ser considerada como formada por todas aquelas pessoas que viessem a ser submetidas ao teste, segundo o sexo e a idade. A amostra é formada pelas 20 medidas de tempos de reação. 7

Previsão da população brasileira por gênero e idade a fim de formular poĺıticas públicas para os próximos 40 anos. Existem diversos modelos de previsão de tamanho de população. Diversos fatores interferem na dinâmica da população. Na quinta-feira, dia 29 de agosto de 2013, o IBGE divulgou que no Brasil já são 201 milhões de habitantes e também apresentou uma previsão sobre a população por gênero e idade até 2060. A população total projetada para o Brasil em 2013 foi de 201,0 milhões de habitantes, atingindo 212,1 milhões em 2020, até alcançar o máximo de 228,4 milhões em 2042, quando começará a decrescer, atingindo o valor de 218,2 em 2060, nível equivalente ao projetado para 2025 (218,3 milhões). 8

2 Como selecionar uma amostra? As observações contidas numa amostra são tanto mais informativas sobre a população, quanto mais conhecimento tivermos dessa mesma população. Por exemplo a análise quantitativa de glóbulos brancos obtida de algumas gotas de sangue da ponta do dedo de um paciente dá a ideia geral da quantidade de glóbulos brancos no corpo todo, pois sabe-se que a distribuição dos glóbulos brancos é homogênea, e de qualquer lugar que se tivesse retirado a amostra ela seria representativa. Nem sempre a escolha de uma amostra adequada é imediata. 9

Procedimentos de levantamento de dados (Bussab & Morettin) 1. Levantamentos Amostrais - a amostra é obtida de uma população bem definida, por meio de processos bem protocolados e controlados pelo pesquisador. Tais levantamentos costumam ser subdivididos em dois subgrupos: probabiĺısticose nãoprobabiĺısticos. O primeiro reúne todas as técnicas que usam mecanismos aleatórios de seleção dos elementos de uma amostra, atribuindo a cada um deles, uma probabilidade, conhecida a priori, de pertencer à amostra. 10

No segundo grupo estão os demais procedimentos, tais como amostras intencionais, nas quais os elementos são selecionados com o auxílio de especialistas, e amostras de voluntários, como ocorre em alguns testes sobre novos medicamentos e vacinas. A grande vantagem dos procedimentos probabiĺısticos é poder medir a precisão da amostra obtida. 2. Planejamento de Experimentos. Têm como principal objetivo analisar o efeito de uma variável sobre outra(s). Requer interferências do pesquisador sobre o ambiente em estudo (população), bem como o controle de fatores externos, com o intuito de medir o efeito desejado. Exemplo: A altura de um produto na gôndola de um supermercado afeta as vendas do produto? Se sim, como? 11

3. Levantamentos Observacionais. Os dados são coletados sem que o pesquisador tenha controle sobre as informações obtidas, exceto eventualmente sobre possíveis erros grosseiros. As séries de dados temporais são e- xemplos típicos desses levantamentos. Exemplo: suponha o problema de prever as vendas futuras numa empresa em função das vendas passadas. O pesquisador não pode selecionar dados, esses são as vendas efetivamente ocorridas. Observe que aqui também se encaixa o problema de projeções de tamanhos populacionais. 12

Amostra Aleatória Simples(AAS) Uma amostra aleatória simples ocorre quando atribuímos probabilidades de seleção na amostra iguais para todos os elementos da população. Com relação à precisão neste tipo de amostragem existe diferença se a seleção é feita com reposição ou sem reposição. No entanto, quando o tamanho da amostra for muito inferior ao tamanho da população (menor que 5% da população) a seleção sem reposição comporta-se, de modo aproximado, como uma seleção com reposição, e nesse caso costuma-se tratar o problema como se fosse com reposição. 13

Distribuição Amostral No início da aula falamos em usar estatísticas para estimar um parâmetro. Na prática só podemos obter uma amostra da população e, com base nela, tirar conclusões sobre a população. Como poderemos fazer afirmações sobre a qualidade das nossas conclusões? Como poderemos falar sobre o erro decorrente da variabilidade amostral? A resposta a essas perguntas envolve o conceito de distribuição amostral. 14

Suponha o problema de estimar um parâmetro θ de certa população e que para isso dispomos de uma amostra de tamanho n dessa população: x 1, x 2,..., x n. Suponha também que usaremos uma estatística T função da amostra para estimar θ. T = t(x 1, x 2,..., x n ) T pode ser a soma ( n i=1 x i ), a média ( x), a mediana, a amplitude, o desvio padrão amostral, e sua escolha dependerá do parâmetro que queremos estimar. Para poder avaliar a qualidade de T como estimador de θ é fundamental conhecer o modelo probabiĺısitco que explica a variabilidadde de seus valores, ou seja, a distribuição amostral de T. 15

A figura a seguir ilustra como poderíamos ficticiamente obter essa distribuição. 16

Mas como poderemos pelo menos fazer um histograma de valores da estatística se só dispomos de uma amostra? O Teorema Central do Limite da Teoria das Probabilidades é uma peça chave para resolver esse problema. Vamos simplificar o problema de estimação de um parâmetro genérico θ para um problema específico de estimação da média populacional, µ. Para isso dispomos de uma amostra aleatória de tamanho n da população cujos valores observados são x 1, x 2,..., x n. No que segue usaremos: população e µ para a média da σ 2 para a variância da população (σ - desvio padrão da população). Um estimador natural de µ a ser usado é a média amostral x. 17

O Teorema Central do Limite (TCL) afirma: Se X 1, X 2,..., X n é uma amostra aleatória simples de uma população qualquer cuja média é µ e variância é σ 2, a distribuição amostral n de X = 1 X i, a média amostral, se aproxima de uma distribuição normal com média µ ni=1 e variância σ2 quando n cresce. n Ou seja, para n suficientemente grande, X a N ou equivalentemente, X µ σ/ n ( µ, σ2 n ) a N (0, 1) Para entender melhor esse resultado vamos a- presentar alguns exemplos. 18

Situação 1: Suponha uma população Uniforme em [0,5]: sua densidade é constante no intervalo dado. O valor esperado de uma população uniforme em [0,5] é 2,5 e a variância é 25/12 2, 08. Agora vamos sortear 100 amostras aleatórias de tamanho 2 e calcular as respectivas médias amostrais. A figura a seguir mostra um histograma dos 100 valores obtidos. 19

Os histogramas a seguir mostram os comportamentos da média amostral para 100 amostras de tamanho 5, 10, 15 e 25 de uma população uniforme em [0,5]. 20

21

Como é possível perceber, a medida que aumentamos o tamanho da amostra, a variabilidade dos valores da média amostral se torna cada vez mais simétrica em torno de 2,5 (a média da população) e que a variabilidade em torno da média diminui. Para amostras de populações uniformes, consideram-se tamanhos amostrais moderados para usar o TCL. Para n = 15 a aproximação já é boa. No entanto, se a distribuição populacional for muito afastada de uma normal, por exemplo com forte assimetria positiva, será necessário um tamanho amostral bem superior a 15 para que a aproximação seja considerada boa. Vamos ver um exemplo desse tipo. 22

Suponha uma população com o seguinte comportamento. Aqui foi escolhida uma população cuja média é 0,04, mas que apresenta assimetria positiva. 23

Histogramas dos valores de x para 200 amostras de tamanhos 5, 20, 30 e 40. 24

Mas como saber quando o tamanho amostral é adequado ou não para usar o TCL? Você não precisará se preocupar com isso. Em geral, o uso do TCL é considerado adequado para amostras de tamanho maior ou igual a 30, independentemente da forma original da população. O desvio padrão da distribuição amostral da média, igual a σ n, é chamado de erro padrão de X. Ele fornece uma medida do grau com que as médias amostrais se desviam do valor esperado de sua distribuição (que coincide com a média populacional µ). Logo, podemos usar essa informação para descobrir o quão precisa é a nossa estimativa da média da população. 25

Vejamos um exemplo teórico. Suponha que uma população, caracterizada por uma variável aleatória X, tenha distribuição normal com média 10 e variância 100. X N( 10, 100 }{{} =µ }{{}) =σ 2 Suponha também que iremos trabalhar com amostras aleatórias de tamanho n = 16. Como fica a distribuição amostral de X, a média amostral? 26

Aqui cabe comentar que no caso de populações normais, não é necessário usar o TCL, pois a distribuição amostral de X é, de fato, uma normal. Assim, temos X N ( µ, σ2 n ) = N(10, 6.25). Veja o gráfico dessa distribuição (em vermelho destaca-se a distribuição da população). 27

Como é possível ver a distribuição amostral da média é muito mais concentrada em torno de seu valor esperado do que a distribuição da população. Calcule, por exemplo, agora P ( 5 < X < 15) e compare com P ( 5 < X < 15) Usando o R: P ( 5 < X < 15) = pnorm(15, 0.8664 média {}}{ 10, desvio-padrão {}}{ 10 ) pnorm( 5, 10, 10) P ( 5 < X < 15) = pnorm(15, 10, 2.5) pnorm( 5, 10, 2.5) 1 A notação 1 foi usada para indicar que a probabilidade é quase igual a 1, mas é menor que 1. 28

Vimos que entre ±1, 96 desvios da média o gráfico da distribuição normal compreende 95% dos valores. Qual deveria ser o tamanho da amostra se desejássemos que em 95% das vezes a média amostral caísse entre 10 ± 2, isto é, entre 8 e 12? 0, 95 = P (8 < X < 12) = P ( 8 10 10/ n < Z < 12 10 10/ n ) = = P ( 0, 2 n < Z < 0, 2 n ) = 2φ(0, 2 n) 1 Logo, φ(0, 2 n) = 0, 975 e, usando a tabela da normal padrão 0, 2 n = 1, 96. n = 1, 96 0, 2 n = (9, 8) 2 96. Obs.: Com n = 16, temos P (8 < X < 12) 0, 58. 29

Principais resultados da aula de hoje: Sejam X uma população com média µ e variância σ 2 ; X 1, X 2,..., X n uma amostra aleatória de tamanho n da população; X = 1 n n i=1 X i a média amostral. Então, o valor esperado, ou simplesmente a média, da distribuição de X é dado por E[ X] = µ e, a variância, por Var( X) = σ2 n. O erro-padrão (desvio padrão) de X: σ X = σ n 30

Se a população for normal, X N(µ, σ2 n ) qualquer que seja n; ou equivalentemente, X µ σ/ n N(0, 1). Se a população não for normal, segue, do TCL, que para n 30, X a N(µ, σ2 n ) ou equivalentemente, X µ σ/ n a N(0, 1). 31

Nos problemas reais o valor de σ também não é conhecido. Portanto, será necessário, usando a amostra disponível, estimar seu valor. Observe que como o erro padrão de X ( σ X = é inversamente proporcional ao tamanho da amostra, isso significa que quanto maior for o tamanho amostral, menor será a variabilidade das médias amostrais e, portanto, mais precisa será a nossa estimativa da média populacional. O mesmo deve ser esperado para estimativas do desvio padrão populacional σ: quanto maior for a amostra, mais precisas serão as nossas estimativas. σ ) n Se X 1, X 2,..., X n é a amostra observada, estimamos a variância da população σ 2 pela variância amostral S 2 = 1 por S = S 2. n n 1 i=1 (X i X) 2 e, σ 32

Assim, para amostras grandes n 30, se σ 2 é desconhecido, usamos uma estimativa dada por s e aplicamos o TCL X µ S/ n a N (0, 1). com S estimador de σ. 33

Uma situação que ocorre comumente é o caso de amostras de tamanhos moderados da distribuição normal (n < 20), mas o desvio-padrão não é conhecido. Nesse caso, usa-se no lugar do desvio-padrão populacional (σ) a sua estimativa amostral (S), mas a distribuição da estatística resultante não é mais normal. Nesse caso usa-se distribuição t-de-student com n 1 graus de liberdade para calcular os quantis apropriados. Resumindo: Para amostras moderadas da distribuição normal com desvio-padrão desconhecido, usamos como distribuição amostral da estatística X µ S/ n a distribuição t com n 1 graus de liberdade (parâmetro que caracteriza a distribuição). A distribuição t, como a normal padrão, também tem densidade simétrica em torno de zero, porém apresenta caudas mais pesadas do que a normal padrão. O único parâmetro que a define (ν) caracteriza a sua forma e é chamado número de graus de liberdade. 34

Quanto maior for o valor do parâmetro ν, a distribuição t (ν) se aproximará da distribuição normal padrão. Os dois gráficos a seguir ilustram as propriedades citadas da distribuição t. 35

36

Como obter probabilidades associadas a distribuição t (ν)? Da mesma forma que a normal padrão, também estão disponíveis na maioria dos livros de estatística tabelas da distribuição t. No R há as funções: pt(x, df), que retorna P (X x), para X variável com distribuição t com df graus de liberdade, qt(p, df), que retorna o quantil de 100p% da distribuição t com df graus de liberdade, e rt(n, df) que gera n valores de uma t com df graus de liberdade. Vejamos uma tabela dessa distribuição. 37

38

Exemplo: Suponha que se deseja estimar o tempo médio para realizar uma tarefa. Para isso sorteou-se uma amostra aleatória de 16 operários cujos tempos de realização da tarefa, em minutos, foram registrados. 82 102 91 90 87 107 83 78 88 101 99 76 67 87 99 88 Suponha que desejamos determinar um intervalo simétrico em torno da verdadeira média tal que a probabilidade da estatística T cair entre esses dois valores seja de 95%. Já resolvemos um problema similar a esse, mas no contexto da distribuição normal com variância conhecida e vimos que, depois de padronizar, P ( 1, 96 < Z < 1, 96) = 0, 95. Observe que agora, apesar de considerarmos a normalidade dos dados, a variância da população não é conhecida. Logo, usaremos a distribuição t com n 1 = 16 1 = 15 graus de liberdade. 39

Aqui, a chave para solucionar esse problema é usar o resultado T = X µ S/ 15 t (15) 0, 95 = P ( δ < T < δ) = P (T < (δ) P (T < δ) = 2 P (T (δ) 1 Logo, P (T < δ) = 1,95 2 = 0, 975 tal que via R solicitamos qt(0.975, 15), que retorna o quantil 2.13145. Assim, calculando o desvio-padrão amoestral obtemos x=c(82,102,91,90,87,107,83,78,88,101,99,76,67,87,99,88) sd(x) [1] 10.68 mean(x)=89.0625 40

Logo, o intervalo é dado por 89.06 ± 2.13 10.68 16 : 89.06 ± 5.69 41