CEFET/RJ Bacharelado em Ciência da Computação Inferência Estatística - Trabalho 01

Documentos relacionados
Prof. Eduardo Bezerra. 6 de abril de 2018

Prof. Eduardo Bezerra. 15 de setembro de 2017

CEFET/RJ Bacharelado em Ciência da Computação Inferência Estatística - Trabalho 03

CEFET/RJ. Aprendizado de Máquina - Trabalho 01

CEFET/RJ Bacharelado em Ciência da Computação Inferência Estatística - Trabalho 03

Introdução ao Planejamento e Análise Estatística de Experimentos 1º Semestre de 2013 Capítulo 3 Introdução à Probabilidade e à Inferência Estatística

CEFET/RJ. Aprendizado de Máquina - Trabalho 03

Capítulo 4 Inferência Estatística

Teorema do Limite Central

Estatística Aplicada

SUMÁRIO. 1.1 Introdução, Conceitos Fundamentais, 2

Probabilidade e Estatística. Estimação de Parâmetros Intervalo de Confiança

Distribuições Amostrais e Estimação Pontual de Parâmetros

Les Estatística Aplicada II AMOSTRA E POPULAÇÃO

Lista 5. Prof. Erica Castilho Rodrigues Disciplina: Introdução à Estatística e Probabilidae. 06 de Maio. Data de entrega: a denir

Distribuições Amostrais - Tamanho da Amostra

Inferência. 1 Estimativa pontual de uma média 2 Estimativa intervalar de uma média. Renata Souza

Segunda Lista de Exercícios Cálculo de Probabilidades II Prof. Michel H. Montoril

Inferência. 1 Estimativa pontual de uma média 2 Estimativa intervalar de uma média. Renata Souza

SUMÁRIO. Prefácio, Espaço amostrai, Definição de probabilidade, Probabilidades finitas dos espaços amostrais fin itos, 20

Estatística II Aula 2. Prof.: Patricia Maria Bortolon, D. Sc.

Introdução à Bioestatística Turma Nutrição

Distribuições Amostrais e Estimação Pontual de Parâmetros

Introdução à Probabilidade e à Estatística II

Cap. 4 - Estimação por Intervalo

Inferência Estatística

Inferência Estatistica

Cap. 8 - Intervalos Estatísticos para uma Única Amostra

MOQ-13 PROBABILIDADE E ESTATÍSTICA. Professor: Rodrigo A. Scarpel

DISTRIBUIÇÃO AMOSTRAL E ESTIMAÇÃO PONTUAL INTRODUÇÃO ROTEIRO POPULAÇÃO E AMOSTRA. Estatística Aplicada à Engenharia

Distribuição Amostral e Estimação Pontual de Parâmetros

Estimação de valores. Luiz Carlos Terra

Testes de Hipóteses. Ricardo Ehlers Departamento de Matemática Aplicada e Estatística Universidade de São Paulo

7 Teste de Hipóteses

A Inferência Estatística é um conjunto de técnicas que objetiva estudar a população através de evidências fornecidas por uma amostra.

Aula 9: Introdução à Inferência Estatística

Revisão de distribuições de probabilidades contínuas (Capítulo 6 Levine)

6EMA Lucas Santana da Cunha 17 e 19 de abril de Universidade Estadual de Londrina

1 Que é Estatística?, 1. 2 Séries Estatísticas, 9. 3 Medidas Descritivas, 27

Distribuições Amostrais

AULA 02 Distribuição de Probabilidade Normal

CONHECIMENTOS ESPECÍFICOS

Distribuição t de Student

Estatística aplicada a ensaios clínicos

Distribuições Amostrais e Estimação Pontual de Parâmetros

Departamento de Matemática - IST(TP)

Planejamento e Otimização de Experimentos

6- Probabilidade e amostras: A distribuição das médias amostrais

Métodos Quantitativos

Distribuições Amostrais e Estimação Pontual de Parâmetros

Exercícios de programação

AULA 10 Estimativas e Tamanhos Amostrais

Inferência Estatística: DEEST/UFOP Prof.: Spencer Barbosa da Silva

Universidade Federal de Lavras

Inferência Estatística: Conceitos Básicos II

Inferência Estatística:

Intervalos de Confiança - Amostras Pequenas

Distribuição Normal. Estatística Aplicada I DISTRIBUIÇÃO NORMAL. Algumas característica importantes. 2πσ

Medidas de Posição ou Tendência Central

AULA 02 Distribuição de probabilidade normal

Inferência Estatística:

IND 1115 Inferência Estatística Aula 7

Prof. Adriano Mendonça Souza, Dr. Departamento de Estatística PPGEMQ / PPGEP - UFSM

Teoria das Filas aplicadas a Sistemas Computacionais. Aula 08

Capítulo 5 Distribuições de probabilidade normal Pearson Prentice Hall. Todos os direitos reservados.

AULA 4: DISTRIBUIÇÕES DE PROBABILIDADES AMOSTRAIS. Gleici Castro Perdoná

à Análise de Padrões

Métodos Quantitativos II

Distribuição Amostral e Estimação Pontual de Parâmetros

Universidade Federal Fluminense INSTITUTO DE MATEMÁTICA E ESTATÍSTICA DEPARTAMENTO DE ESTATÍSTICA

ESTATÍSTICA ECONÔMICA A 6EMA

3. Estimação pontual USP-ICMC-SME. USP-ICMC-SME () 3. Estimação pontual / 25

Teste de hipóteses. Estatística Aplicada Larson Farber

Intervalos de Confiança

Intervalos de Confiança Prof. Walter Sousa

Estatística 1. Resumo Teórico

5 TORIA ELEMENTAR DA AMOSTRAGEM

Professora Ana Hermínia Andrade. Universidade Federal do Amazonas Faculdade de Estudos Sociais Departamento de Economia e Análise. Período 2017.

Probabilidade e Estatística

ESTIMAÇÃO DE PARÂMETROS

Caros Alunos, segue a resolução das questões de Estatística aplicadas na prova para o cargo de Auditor Fiscal da Receita Municipal de Teresina.

Fernando de Pol Mayer

MEDIDAS DE DISPERSÃO. Professor Jair Wyzykowski. Universidade Estadual de Santa Catarina

Análise da Regressão múltipla: MQO Assintótico y = β 0 + β 1 x 1 + β x +... β k x k + u 3. Propriedades assintóticas Antes, propriedades sobre amostra

Estatística Indutiva

Capítulo 5 Distribuições de Probabilidades. Seção 5-1 Visão Geral. Visão Geral. distribuições de probabilidades discretas

Distribuição Normal. Prof. Eduardo Bezerra. (CEFET/RJ) - BCC - Inferência Estatística. 25 de agosto de 2017

Estatística e Probabilidade Aula 06 Distribuições de Probabilidades. Prof. Gabriel Bádue

AGA Análise de Dados em Astronomia I. 1. Introdução

ANÁLISE DE RESULTADOS

Amostragem e distribuições por amostragem

Estatística e Modelos Probabilísticos - COE241

Estatística Aplicada II. } Estimação e Intervalos de Confiança

Estatística Descritiva (I)

Sumário dos exemplos:

CC-226 Introdução à Análise de Padrões

Transcrição:

CEFET/RJ Bacharelado em Ciência da Computação Inferência Estatística - Trabalho 01 Prof. Eduardo Bezerra (ebezerra@cefet-rj.br) setembro/2017

Conteúdo 1 Estimativas de probabilidades 3 2 Distribuição Normal 4 3 Distribuições Amostrais 5 4 O que deve ser entregue 6 2

1 Estimativas de probabilidades Considere o conjunto de dados AdultDataset 1. Este arquivo contém informações pessoais como idade, renda, nível de escolaridade e outros de mais de 25000 pessoas. A variável remuneração, que está na última coluna do conjunto de dados, é classificada como > 50000 ou 50000. A variável Education-num representa o número de anos estudados por uma pessoa. Utilize o R para realizar as seguintes tarefas: (i) Nessa primeira atividade, você deve importar o AdultDataset para o R. Utilize os comandos fornecidos abaixo para fazer isso. url <- " http :// archive. ics. uci. edu /ml/machine - learning - databases / adult / adult. data " adult <- read. csv ( url, strip. white = TRUE, header = FALSE ) A seguir, altere os nomes das colunas do data frame, para facilitar a manipulação posterior dos dados. Faça isso com o comando abaixo. # adicionando nomes às colunas do dataset colnames ( adult ) <- c(" age "," workclass "," final weight "," education "," education - num "," martial - status "," occupation "," relationship "," race "," sex "," capital - gain "," capital - loss "," hours -per - week "," native - country "," income ") (ii) Produza um gráfico box plot da variável Age; faça uma análise do resultado obtido determinando o primeiro quartil, a mediana ou segundo quartil, o terceiro quartil e a média. Existem valores extremos (outliers)? Se sim, o que eles significam neste conjunto de dados? (iii) A freqüência relativa de ocorrência de um evento, observada em várias repetições da experimento aleatório correspondente, é uma medida da probabilidade desse evento. Essa é a concepção central da probabilidade na interpretação frequentista. Sendo assim, se n t for o número total de realizações de um experimento e n x é o número de testes em que o evento x ocorreu, a probabilidade Pr(x) de que o evento ocorra pode ser aproximada pela freqüência relativa da seguinte maneira: Adult Pr(x) = n x n t Claramente, à medida que o número de realizações aumenta, pode-se esperar que a frequência relativa se torne uma melhor aproximação da verdadeira frequência. Uma alegação da abordagem frequentista é que, no longo prazo, à medida que o número de realizações se aproxima do infinito, a freqüência relativa convergirá exatamente para a probabilidade real: 1 Este conjunto de dados está disponível em http://archive.ics.uci.edu/ml/datasets/ 3

n x Pr(x) = lim. n t n t Voltando ao conjunto de dados AdultDataset, cada linha desse conjunto pode ser interpretada como resultante da realização de um experimento aleatório. Em cada realização desse experimento aleatório, é escolhido um valor para cada coluna (campo) dessa linha. Nessa interpretação, portanto, podemos calcular aproximações (estimativas) para alguns valores de probabilidades. Por exemplo, se considerarmos o evento E = pessoa é mulher e tem idade maior do que 80 anos, se n M é a quantidade de linhas do conjunto de dados que correspondem a mulheres maiores do que 80 anos, e se n t é o total de linhas de conjunto de dados AdultDataset, então: Pr(E) n M n t. Com a ajuda do R, você pode facilmente contar a ocorrência de eventos. Considere o exemplo a seguir. adult _ mulheres _ maiores _80 <- adult [( adult [" sex "] == " Female ") & ( adult [" age "] > 80), ] Com base no que foi descrito acima, e considerando as definições de probabilidades condicional e conjunta, determine estimativas para as probabilidades a seguir. Probabilidade de uma pessoa ter mais de 80 anos (ou seja, Age > 80) dado que tem Salary > 50000. Probabilidade de uma pessoa ter mais de 80 anos e salário maior que 50000. Ou seja, calcule Pr(Age > 80, Salary > 50000). Pr(W orkclass = State-gov, Occupation = Adm-clerical, Sex = Male). Pr(W orkclass = Self-emp-inc, Occupation = Exec-managerial, Sex = Male) 2 Distribuição Normal Nesta parte do trabalho, por meio de simulações realizadas com o R, você irá verificar a validade de algumas proporções relativas à distribuição normal. Para isso, utilize amostras da distribuição normal padrão para gerar estimativas para cada uma das probabilidades a seguir. Faça isso com duas quantidades diferentes de amostras, 10 e 10000. Compare seus resultados com os fornecidos abaixo. Pr(µ σ x µ + σ) 0.683 Pr(µ 1.282σ x µ + 1.282σ) 0.8 Pr(µ 1.645σ x µ + 1.645σ) 0.9 4

Pr(µ 1.96σ x µ + 1.96σ) 0.95 Pr(µ 2σ x µ + 2σ) 0.954 Pr(µ 2.57σ x µ + 2.57σ) 0.99 Pr(µ 3σ x µ + 3σ) 0.997 3 Distribuições Amostrais Considere uma população de sacos de batatas de 5Kg cada, para os quais a variável de interesse é o número de batatas em cada saco. Para configurar essa situação como um problema de Probabilidade em vez de um problema de Estatística, fornecemos a distribuição de probabilidades para essa variável: trata-se de uma distribuição uniforme discreta nos inteiros de 10 até 20. Nesta parte do trabalho, considere que o plano amostral utilizado é uma amostragem aleatória simples feita com substituição (simple random sample with replacement). (i) Esboce um gráfico (histograma) para indicar a forma desta distribuição do número de batatas. (ii) Encontre a média, variância e desvio padrão desta distribuição. (Observe que esta é uma população discreta.) (iii) Considere tomar amostras de tamanho 2 dessa população e calcular a média de cada amostra. Feito isso, para cada amostra, você vai ter calculado uma estatística pontual (point statistic). Se você fizer isso para todas as possíveis amostras aleatórias de tamanho 2, a distribuição destes é denominada distribuição amostral da média (sampling distribution of the sample mean) para n = 2. Para este caso particular, encontre essa distribuição gerando os valores e suas respectivas probabilidades. Em seguida, esboçe um gráfico para indicar a forma da distribuição da média da amostra para n = 2. (iv) Encontre a média, variância e desvio padrão desta distribuição amostral da média para n = 2. (Mais uma vez, note que esta é uma população discreta. Computar esses parâmetros da mesma maneira que no item (ii). No entanto, você não receberá os mesmos valores que no item (ii), porque esta é uma distribuição diferente.) (v) O Teorema do Limite Central apresenta uma teoria sobre o que o desvio padrão e a média da distribuição amostral da média da amostra deveriam ser. Use essa teoria e os resultados do item (ii) acima para encontrar o desvio padrão e a média da distribuição amostral da média para n = 2. Estes valores deveriam ser os mesmo encontrados no item (iv). (vi) Suponha, por um momento, que você não conhecia o modelo de probabilidade para a população e que deseja estimar a média da população de 5

uma amostra de tamanho 2 tomada aleatoriamente. Qual estatística você calcularia dessa amostra para estimar a média da população? Você acha que essa estatística seria um bom estimador da população? O que poderia ser um melhor estimador? Por quê? (vii) Em Estatística, a amplitude (range) de uma população é a diferença entre o maior e o menor valores encontrados nessa população. Note portanto que a amplitude é um parâmetro populacional, assim como também o são a média e a mediana pouplacionais. Considerando novamente a população original, qual é a sua amplitude? (viii) Refaça todo o item (iii) para a distribuição amostral da amplitude amostral, para n = 2. (ix) No seu gráfico da distribuição amostral da amplitude amostral para n = 2, indique o valor do parâmetro da população (i.e., a amplitude populacional). Você acha que a amplitude amostral é um bom estimador da amplitude da população? Em caso contrário, como você poderia construir uma estatística que seria um melhor estimador do alcance da população? 4 O que deve ser entregue Você deve preparar um único relatório para a apresentar sua análise e conclusões sobre as diversas partes desse trabalho. Alternativamente à entrega do relatório em PDF, você pode entregar um notebook Jupyter 2. Independente de escolher entregar um relatório em PDF ou na forma de um notebook Jupyter, entregue também todos os arquivos em R que você criou para cada parte deste trabalho. Todos os arquivos em R deve estar na mesma pasta. Crie um arquivo compactado que contém o relatório (ou notebook Jupyter) e os arquivos (scripts) em R. Esse arquivo compactado deve se chamar SEU NOME COMPLETO T1.zip. Esse arquivo compactado deve ser entregue pelo Moodle, até a data acordada. 2 http://jupyter.org/ 6