Introdução à análise de dados discretos



Documentos relacionados
Vetores Aleatórios, correlação e conjuntas

O que é a estatística?

Momentos de uma variável aleatória

Variáveis Aleatórias Contínuas

Regra do Evento Raro p/ Inferência Estatística:

MÓDULO 6 INTRODUÇÃO À PROBABILIDADE

Aula de Exercícios - Variáveis Aleatórias Discretas - Modelos Probabiĺısticos

Hipótese Estatística:

Valor Prático da Distribuição Amostral de

Métodos de Monte Carlo

PLANEJAMENTO EXPERIMENTAL

DISTRIBUIÇÕES DE PROBABILIDADES de variável discreta BERNOULLI E BINOMIAL

Cláudio Tadeu Cristino 1. Julho, 2014

Universidade Federal do ABC. Sinais Aleatórios. Prof. Marcio Eisencraft

UNIVERSIDADE FEDERAL DO PIAUÍ (UFPI) ENG. DE PRODUÇÃO PROBABILIDADE E ESTATÍSTICA 2

Probabilidade. Distribuições Uniforme, Geométrica, Hipergeométrica e Multinomial

Probabilidade. Multiplicação e Teorema de Bayes

DESENVOLVIMENTO DE UM SOFTWARE NA LINGUAGEM R PARA CÁLCULO DE TAMANHOS DE AMOSTRAS NA ÁREA DE SAÚDE

Após essa disciplina você vai ficar convencido que a estatística tem enorme aplicação em diversas áreas.

Reflexões sobre Probabilidade, Estatística e Modelamento Matemático

AULA 6 LÓGICA DOS CONJUNTOS

Introdução. Métodos de inferência são usados para tirar conclusões sobre a população usando informações obtidas a partir de uma amostra.

IV Prova de Epidemiologia e Bioestatística. Aluno:

UNIVERSIDADE DE SÃO PAULO. Faculdade de Arquitetura e Urbanismo

Logo, para estar entre os 1% mais caros, o preço do carro deve ser IGUAL OU SUPERIOR A:

Introdução à Inferência Estatística

Estatística e Probabilidade. Aula 4 Cap 03. Probabilidade

Noções de Pesquisa e Amostragem. André C. R. Martins

Bom serviço dentro da garantia Serviço deficiente dentro da garantia Vendedores de determinada marca de pneus 64 16

LISTA DE EXERCÍCIOS VARIÁVEIS ALEATÓRIAS

Distribuição de probabilidades

PLANIFICAÇÃO OPERACIONAL DA PESQUISA

Bases Matemáticas. Aula 2 Métodos de Demonstração. Rodrigo Hausen. v /15

'DGRVGH(QWUDGD SDUD D6LPXODomR

Cálculo das Probabilidades I

1. Avaliação de impacto de programas sociais: por que, para que e quando fazer? (Cap. 1 do livro) 2. Estatística e Planilhas Eletrônicas 3.

Exercício de Revisao 1

MOQ-23 ESTATÍSTICA. Professor: Rodrigo A. Scarpel

Estatística Aplicada ao Serviço Social

Juros Simples, Compostos, e Contínuos

Lista IV - Curva Normal. Professor Salvatore Estatística I

Estatística II Antonio Roque Aula 9. Testes de Hipóteses

Teste de hipóteses com duas amostras. Estatística Aplicada Larson Farber

Unidade de Ensino Descentralizada de Colatina Coordenadoria de Informática Disciplina: Probabilidade e Estatística Prof. Leandro Melo de Sá

Estatística: Conceitos e Organização de Dados. Introdução Conceitos Método Estatístico Dados Estatísticos Tabulação de Dados Gráficos

Estatística Aplicada às Ciências Sociais e Ambientais. Organização da Disciplina. Conteúdo da Aula. Contextualização. Farmácia Industrial UFPR

COMENTÁRIO AFRM/RS 2012 ESTATÍSTICA Prof. Sérgio Altenfelder

Simulação Estocástica

CURSO ON-LINE PROFESSOR: VÍTOR MENEZES. Comentários sobre as provas de estatística e financeira ICMS RJ

Tipos de variáveis aleatórias

Trabalhando com Pequenas Amostras: Distribuição t de Student

MODELOS PROBABILÍSTICOS MAIS COMUNS VARIÁVEIS ALEATÓRIAS DISCRETAS

Aula 04 Método de Monte Carlo aplicado a análise de incertezas. Aula 04 Prof. Valner Brusamarello

ESCOLA SECUNDÁRIA MANUEL DA FONSECA, SANTIAGO DO CACÉM GRUPO DISCIPLINAR: 500 Matemática Aplicada às Ciências Sociais

Universidade Federal do Paraná Departamento de Informática. Reconhecimento de Padrões. Revisão de Probabilidade e Estatística

Empresa de Pesquisa Energética (EPE) Analista de Projetos da Geração de Energia

DISTRIBUIÇÕES DE PROBABILIDADE

Distribuição Uniforme Discreta. Modelos de distribuições discretas. Distribuição de Bernoulli. Distribuição Uniforme Discreta

AULA 9 - Variável aleatória bidimensional discreta

Método Monte-Carlo. Alexandre Rosas. 23 de Março de Departamento de Física Universidade Federal da Paraíba

Plano Curricular de Matemática 9º ano /2015-3º Ciclo

Distribuições: Binomial, Poisson e Normal. Distribuição Binomial

Jackknife, Bootstrap e outros métodos de reamostragem

Variáveis aleatórias contínuas e distribuiçao Normal. Henrique Dantas Neder

Exemplos de Testes de Hipóteses para Médias Populacionais

O QUE É E COMO FUNCIONA O CREDIT SCORING PARTE I

Dr. Ronaldo Pilati - Psicologia Social - Universidade de Brasília 1

2 Modelo Clássico de Cramér-Lundberg

EXERCÍCIOS BINOMIAL. X P(X=x)

Simulação Transiente

CAPÍTULO 9 Exercícios Resolvidos

Introdução à Simulação

Aula 11 Esperança e variância de variáveis aleatórias discretas

7Testes de hipótese. Prof. Dr. Paulo Picchetti M.Sc. Erick Y. Mizuno. H 0 : 2,5 peças / hora

NOÇÕES DE PROBABILIDADE

MAT 461 Tópicos de Matemática II Aula 3: Resumo de Probabilidade

Teorema do Limite Central e Intervalo de Confiança

Espaço Amostral ( ): conjunto de todos os

Pesquisa Aplicada à Estatística

PÓS GRADUAÇÃO EM CIÊNCIAS DE FLORESTAS TROPICAIS-PG-CFT INSTITUTO NACIONAL DE PESQUISAS DA AMAZÔNIA-INPA. 09/abril de 2014

MAE116 Noções de Estatística

COMO CALCULAR A PERFORMANCE DOS FUNDOS DE INVESTIMENTOS - PARTE I

AULAS 13, 14 E 15 Correlação e Regressão

)HUUDPHQWDV &RPSXWDFLRQDLV SDUD 6LPXODomR

Lista 09: Estimação de Parâmetros

Avaliando o que foi Aprendido

1 Probabilidade Condicional - continuação

Disciplina Estatística Prof. Msc Quintiliano Siqueira Schroden Nomelini LISTA DE DSITRIBUIÇÕES DE PROBABILIDADE DISTRIBUIÇÕES DISCRETAS

CONCEITOS. Evento: qualquer subconjunto do espaço amostral. Uma primeira idéia do cálculo de probabilidade. Eventos Teoria de conjuntos

1. Cinco cartas são extraídas de um baralho comum (52 cartas, 13 de cada naipe) sem reposição. Defina a v.a. X = número de cartas vermelhas sorteadas.

Avaliação de Desempenho de Sistemas

Exercícios resolvidos sobre Função de probabilidade e densidade de probabilidade

Tecido A B

Dois eventos são disjuntos ou mutuamente exclusivos quando não tem elementos em comum. Isto é, A B = Φ

ANALISE COMBINATORIA Um pouco de probabilidade

Teorema Central do Limite e Intervalo de Confiança

DISTRIBUIÇÃO NORMAL 1

Tipos de Modelos. Exemplos. Modelo determinístico. Exemplos. Modelo probabilístico. Causas Efeito. Determinístico. Sistema Real.

PERGUNTAS MAIS FREQÜENTES SOBRE VALOR PRESENTE LÍQUIDO (VPL)

Transcrição:

Exemplo 1: comparação de métodos de detecção de cárie Suponha que um pesquisador lhe apresente a seguinte tabela de contingência, resumindo os dados coletados por ele, oriundos de um determinado experimento: Risco de cárie segundo o método convencional Baixo Médio Alto Total Risco de cárie segundo Baixo 11 5 0 16 o método simplificado Médio 14 34 7 55 Alto 2 13 11 26 Total - 27 52 18 97

Aspectos relevantes Pergunta: sendo o método simplificado mais barato, vale à pena usá-lo no lugar do método covencional? O que significa valer à pena? Como os dados foram coletados? População ou amostra? Inferência paramétrica: qual modelo estatístico (de regressão) deve ser utilizado? Verificar a qualidade do ajuste do modelo. Como responder à pergunta de interesse? Como apresentar a resposta obtida à pergunta de interesse?

Um pouco de discussão Suponha que: selecionou-se, ao acaso, através de um processo de amostragem aleatória simples sem reposição, 97 indivídios (de um possível grupo de interesse?). Em cada um deles, as duas técnicas foram aplicadas. Podemos considerar que a tabela obtida é uma dentre várias possíveis obtidas, ao se replicar o experimento. Ou seja, ela é uma amostra de uma população de interesse. Possível modelo probabiĺıstico apropriado: multinominal com 8 classes (não exaustivas).

Distribuição multinomial Seja N = (N 11, N 12, N 13, N 21, N 22, N 23, N 31, N 32, N 33 ) Multinomial(n, θ), 3 i=1 3 j=1 n ij = n, em nosso caso n = 97 e θ = (θ 11, θ 12, θ 13, θ 21, θ 22, θ 23, θ 31, θ 32, θ 33 ), 3 i=1 3 j=1 θ ij = 1. Para n= 97, observamos n = (n 11, n 12, n 13, n 21, n 22, n 23, n 31, n 32, n 33. Assim, temos P(N = n θ, n) = L(θ) n! 3 3 3 3 i=1 j=1 n θ n ij ij ij! i=1 j=1 3 3 3 1 {0,1,..,n} (n ij ) 1 {n} i=1 j=1 3 3 i=1 j=1 θ n ij ij ; em que 3 i=1 j=1 3 θ ij = 1 3 i=1 j=1 n ij

Um pouco de discussão: distribuição multinomial Risco de cárie segundo o método convencional Baixo Médio Alto Total Risco de cárie segundo Baixo n 11 n 12 n 13 n 1. o método simplificado Médio n 21 n 22 n 23 n 2. Alto n 31 n 32 n 33 n 3. Total - n.1 n.2 n.3 n.. = n n i. = 3 j=1 n ij, i = 1, 2, 3, n.j = 3 i=1 n ij, j = 1, 2, 3 e n.. = 3 i=1 3 j=1 n ij = n. Em nosso caso, n = 97.

Um pouco de discussão: distribuição multinomial Risco de cárie segundo o método convencional Baixo Médio Alto Total Risco de cárie segundo Baixo θ 11 θ 12 θ 13 θ 1. o método simplificado Médio θ 21 θ 22 θ 23 θ 2. Alto θ 31 θ 32 θ 33 θ 3. Total - θ.1 θ.2 θ.3 θ.. = 1 θ i. = 3 j=1 θ ij, i = 1, 2, 3, θ.j = 3 i=1 θ ij, j = 1, 2, 3 e θ.. = 3 i=1 3 j=1 θ ij = 1.

Situação ideal do ponto de vista do pesquisador Risco de cárie segundo o método convencional Baixo Médio Alto Total Risco de cárie segundo Baixo θ 11 0 0 θ 1. o método simplificado Médio 0 θ 22 0 θ 2. Alto 0 0 θ 33 θ 3. Total - θ.1 θ.2 θ.3 θ.. = 1 Ou seja θ i. = θ.j = θ ij, i = j (concordância absoluta).

Possível configuração de interesse do ponto de vista do pesquisador Risco de cárie segundo o método convencional Baixo Médio Alto Total Risco de cárie segundo Baixo θ 11 θ 12 θ 13 θ 1. o método simplificado Médio θ 21 θ 22 θ 23 θ 2. Alto θ 31 θ 32 θ 33 θ 3. Total - θ.1 θ.2 θ.3 θ.. = 1 θ i. = θ.j, i = j (concordância marginal). Como testar tal conjunto de hipóteses?

Exemplo 2: comparação do número de acidentes Descrição: número de acidentes (com algum tipo de trauma para as pessoas envolvidas) em 92 dias (correspondentes) em dois anos distintos (1961 e 1962), medidos em algumas regiões da Suécia. Considerou-se apenas 43 dias, correspondendo a dias de 1961 em que não havia limite de velocidade e de 1962 em que havia limites de velocidade (90 ou 100 km/h). Questão de interesse: a imposição dos limites de velocidade levou à redução do número de acidentes?

Aspectos relevantes O que significa levou à redução? Como os dados foram coletados? População ou amostra? Inferência paramétrica: qual modelo estatístico (de regressão) deve ser utilizado? Verificar a qualidade do ajuste do modelo. Como responder à pergunta de interesse? Como apresentar a resposta obtida à pergunta de interesse?

Discussão Seja Y ij o número de acidentes ocorridos no dia j = 1,2,...,43 do ano i=1,2 e y ij os respectivos valores observados.

Discussão Seja Y ij o número de acidentes ocorridos no dia j = 1,2,...,43 do ano i=1,2 e y ij os respectivos valores observados. Seja o modelo: Y ij = µ + α i + ξ ij ξ ij i.i.d. N(0, σ 2 ), α 1 = 0

Discussão Seja Y ij o número de acidentes ocorridos no dia j = 1,2,...,43 do ano i=1,2 e y ij os respectivos valores observados. Seja o modelo: Y ij = µ + α i + ξ ij ξ ij i.i.d. N(0, σ 2 ), α 1 = 0 O modelo acima é apropriado?

Discussão Seja Y ij o número de acidentes ocorridos no dia j = 1,2,...,43 do ano i=1,2 e y ij os respectivos valores observados. Seja o modelo: Y ij = µ + α i + ξ ij ξ ij i.i.d. N(0, σ 2 ), α 1 = 0 O modelo acima é apropriado? Se não, quais problemas ele apresenta?

Discussão Seja Y ij o número de acidentes ocorridos no dia j = 1,2,...,43 do ano i=1,2 e y ij os respectivos valores observados. Seja o modelo: Y ij = µ + α i + ξ ij ξ ij i.i.d. N(0, σ 2 ), α 1 = 0 O modelo acima é apropriado? Se não, quais problemas ele apresenta? Qual seria uma alternativa?

Conhecimento Necessário: Probabilidade I e II, Inferência (e noções de inferência), Análise de regressão. Auxiliar: Técnicas de Amostragem e Planejamento e Pesquisa.

Definições e Notações Consideramos um modelo estatístico formado por (Ω, A, P), (espaço amostral, sigma álgebra de eventos de Ω, família de medidas de probabilidade). P = {P θ : θ Θ}, Θ R p (em geral infinito não-enumerável). Basicamente: P θ = F X (; θ) (postulado). Realizar inferência (frequentista) : estimação pontual, intervalar e testar hipóteses estatísticas, em um dado espaço estatístico.

Continuação Exemplo: Seja X 1,..., X n uma amostra aleatória de X Bernoulli(θ), θ (0, 1). Obter uma estimativa pontual e uma intervalar para θ e realizar testes de hipótese acerca dele. Suporte da fdp: Ω = {x : f X (x; θ) 0}, f X (.; θ) é a fdp associada à fda F X (; θ). Eventualmente os subíndices podem ser suprimidos. Pode-se usar p X (; θ) no lugar de f X (; θ). Em geral f X (; θ) será uma função de probabilidade (associada à uma variável aleatória discreta ou um vetor aleatório discreto). Nesee caso, f X (; θ) = P(X = x; θ).

Continuação Variável aleatória (va) discreta: é uma va cujo suporte corresponde à um conjunto finito ou infinito enumerável. Amostra aleatória (aa): X 1,..., X n são estatísticamente independentes e identicamente distribuídas segundo X F X (; θ). Em alguns casos podemos não ter mesma distribuição e/ou independência.

Continuação Seja X uma vad (variável aleatória discreta). Então E(φ(X )) = x φ(x)fx(x; θ). A função geradora de momentos (fgm) é dada por: Ψ X (t) = E(e tx ) = x etx f x(x; θ). Temos que: E(X r ) = r t r Ψ X (t) t=0, r > 0.

Revisão de Cálculo de probabilidades Variável aleatória: X i. Valor observado: x i. Sejam X, Y e Z va s definidas em um mesmo espaço de probabilidade. p(x, y), se p(y) > 0, p(x y) = p(y) 0, se p(y) y p(x, y), p(x) = Ω y p(x, y)dy, se y for discreto, se y for contínuo.

Revisão de Cálculo de probabilidades E X (X ) = E Y (E X Y (X Y )) e V X (X ) = E Y [V X Y (X Y )] + V Y [E X Y [X Y ]]. p(x, y) = p(x y)p(y) = p(y x)p(x) X e Y são independentes se e somente se p(x, y) = p(x)p(y) ( p(x y) = p(x) e p(y x) = p(y)). X e Y são condicionalmente independentes dado Z se e somente se p(x, y z) = p(x z)p(y z) ( p(x y, z) = p(x z) e p(y x, z) = p(y z)).