Teoria de Resposta ao Item: uma abordagem generalizada das Curvas Características dos Itens

Tamanho: px
Começar a partir da página:

Download "Teoria de Resposta ao Item: uma abordagem generalizada das Curvas Características dos Itens"

Transcrição

1 Teoria de Resposta ao Item: uma abordagem generalizada das Curvas Características dos Itens por Vera Lúcia Filgueira dos Santos DME - IM - UFRJ 2009

2 Teoria de Resposta ao Item: uma abordagem generalizada das Curvas Características dos Itens Vera Lúcia Filgueira dos Santos Dissertação submetida ao Corpo Docente do Instituto de Matemática - Departamento de Métodos Estatísticos da Universidade Federal do Rio de Janeiro - UFRJ, como parte dos requisitos necessários à obtenção do grau de Mestre em Estatística. Aprovada por: Prof. Dani Gamerman PhD - IM - UFRJ - Orientador. Prof. Tufi Machado Soares PhD - CAEd - UFJF - Co-orientador. Prof. Fernando Antônio da Silva Moura PhD - IM - UFRJ. Prof. Joaquim José Soares Neto PhD - CESPE - UnB. Caio Lucidius Naberezny Azevedo Dr. Sc. - IME - USP (Suplente). Rio de Janeiro, RJ - Brasil 2009 ii

3 FICHA CATALOGRÁFICA Santos, Vera Lúcia Filgueira dos. Teoria de Resposta ao Item: uma abordagem generalizada das Curvas Características dos Itens / Vera Lúcia Filgueira dos Santos. Rio de Janeiro: UFRJ/ IM - DME, xv, 87p.: il..; 31cm Orientadores: Dani Gamerman e Tufi Machado Soares Dissertação (mestrado) - Universidade Federal do Rio de Janeiro, IM, DME, Programa de Pós-Graduação em Estatística, Referências bibliográficas: f Teoria de Resposta ao Item. 2. Estimação Bayesiana via MCMC. 3. Assimetria. - Mestrado. I. Gamerman, Dani. II. Universidade Federal do Rio de Janeiro. III. Título. iii

4 À minha querida e amada família, pelo apoio incondicional, mesmo estando a mais de 1.000km de distância. Ao André, por ser tão compreensivo e amoroso. Ao inesquecível Ivan... (in memorian) iv

5 (...) Nunca deixe que lhe digam que não vale a pena acreditar no sonho que se tem, ou que os seus planos nunca vão dar certo, ou que você nunca vai ser alguém. (...) Renato Russo Pedi, e dar-se-vos-á; buscai, e encontrareis; batei, e abrir-se-vos-á. Porque, aquele que pede, recebe; e, o que busca, encontra; e, ao que bate, abrir-se-lhe-á. E qual de entre vós é o homem que, pedindo-lhe pão o seu filho, lhe dará uma pedra? E, pedindo-lhe peixe, lhe dará uma serpente? Se vós, pois, sendo maus, sabeis dar boas coisas aos vossos filhos, quanto mais vosso Pai, que está nos céus, dará bens aos que lhe pedirem? Mateus 7, 7:11. v

6 Agradecimentos Sou grata... A Deus, pela saúde, força, coragem e persistência a mim dadas, e pelo consolo nos momentos de saudade. À minha querida família, pelo amor, pelo exemplo e pelos princípios que são parte da minha essência. Ao meu André, por fazer os meus dias tão mais alegres e me mostrar que nem só de trabalho vive o ser humano. Às minhas irmãs de coração e companheiras de república, por todos os momentos de descontração e pela amizade verdadeira. Aos meus amigos do DME, por serem a minha família carioca e pelas tantas conversas no horário do almoço (seja para falar de casamento ou de inferência Bayesiana). Ao meu orientador Dani e ao meu co-orientador Tufi, por todos os ensinamentos passados e pela oportunidade de trabalhar no tema dessa dissertação. Aos professores Fernando e Neto, e ao Caio, por aceitarem fazer parte da minha banca. Novamente ao professor Neto, que desde o começo abriu muitas portas para o meu crescimento profissional. À este programa de pós-graduação, pelo voto de confiança. Aos meus professores da UnB, que foram os primeiros a me incentivar. Ao CAEd - UFJF por ter cedido, gentilmente, os dados aqui tratados. Ao CNPq, por ter financiado este estudo. E a todos os que contribuíram direta ou indiretamente para a execução deste trabalho. vi

7 Resumo A Teoria de Resposta ao Item (TRI) para respostas dicotômicas considera, em geral, um conjunto de J itens aplicados a I indivíduos. Os modelos simétricos mais utilizados para descrever a probabilidade de resposta correta a tais itens, também conhecidos como Curvas Características dos Itens (CCI), são as distribuições Normal e Logística. Esses modelos levam em conta os parâmetros dos itens (a discriminação, a dificuldade e a probabilidade de acerto ao acaso) e a habilidade ou traço latente dos indivíduos para caracterizar tais probabilidades. Generalizações desses modelos têm sido encontradas na literatura, como por exemplo em Bazán (2005) e em Samejima (2000). Ambas generalizações consideram que a probabilidade de acerto ao acaso é nula (modelo de dois parâmetros) e incorporam um parâmetro de assimetria aos itens. O objetivo aqui é apresentar o que foi proposto em ambos trabalhos, mas permitindo que o parâmetro de acerto casual seja diferente de zero. Além disso, estudaremos formas de detecção de assimetria através da especificação de distribuições a priori apropriadas para este fim. Estudos serão feitos considerando a generalização feita à partir do que é apresentado por Samejima (2000) utilizando metodologia Bayesiana e implementando via métodos MCMC. Todos os estudos serão primeiramente à luz de dados simulados e em seguida considerando dados reais. Palavras Chaves: Teoria de Resposta ao Item, Estimação Bayesiana via MCMC, Assimetria. vii

8 Abstract The Item Response Theory (IRT) for dichotomous response considers, in general, a set of J items applied at I individuals. The symmetrical models often used to describe the probability of correct response to these items, also called Item Curve Characteristic (ICC), are the Normal and Logistic distributions. These models take into consideration the items parameters (the discrimination, the difficulty and the guessing parameter) and the ability of individuals to characterize these probabilities. Generalizations of these models are found on literature, for example at Bazán (2005) and Samejima (2000). Both generalizations consider that the guessing parameter is null (two parameter model) and introduce a asymmetry parameter into items. The objective here is to present what was proposed in both works, but allowing the guessing parameter to be different of zero. Also, we will study ways of asymmetry detecting through appropriate priors specification. Studies will be made considering the generalization from the Samejima (2000), using Bayesian methodology and implementing via MCMC methods. All studies first will be with simulated data, and later, with real data. Key words: Item Response Theory, Bayesian estimation via MCMC, Asymmetry. viii

9 Sumário 1 Introdução Teoria de Resposta ao Item Descrição dos dados reais Análise dos dados reais via TRI convencional Sumário da dissertação Apêndice Distribuições assimétricas na TRI Família TRI logística assimétrica Família TRI normal assimétrica Modelo proposto Inferência Bayesiana Método MCMC para fazer inferência na TRI Avaliação de convergência e análise de ajuste Apêndice Expressões quando a CCI é dada por (1.1) - modelos simétricos de três parâmetros Expressões quando a CCI é dada por (2.6) - modelos assimétricos de três parâmetros propostos Estudos simulados com modelos assimétricos Escolha das distribuições a priori Resultados do estudo simulado com o modelo de três parâmetros assimétrico 33 ix

10 3.3 Resultados do estudo simulado com o modelo de dois parâmetros assimétrico Apêndice Análise dos dados reais com modelos assimétricos Resultados do estudo com o modelo assimétrico de três parâmetros Resultados do estudo com o modelo assimétrico de dois parâmetros Comparação entre os modelos ajustados aos dados do projeto Geres Apêndice Distribuições assimétricas na TRI com detecção de assimetria Modelo proposto Inferência Bayesiana Método MCMC para fazer inferência na TRI Apêndice Estudos simulados com modelos assimétricos incluindo detecção de assimetria Comparação entre os métodos de amostragem Resultados do estudo simulado com o algoritmo escolhido e o modelo assimétrico de três parâmetros Resultados do estudo simulado com o algoritmo escolhido e o modelo assimétrico de dois parâmetros Apêndice Análise dos dados reais com modelos assimétricos incluindo detecção de assimetria Resultados do estudo com o modelo assimétrico de três parâmetros Resultados do estudo com o modelo assimétrico de dois parâmetros Comparação entre os modelos ajustados aos dados do projeto Geres Conclusões e trabalhos futuros 82 Referências Bibliográficas 85 x

11 Lista de Tabelas 1.1 Estimativas pontual (média a posteriori) e intervalar (intervalo de credibilidade de 95%) para duas proficiências de indivíduos do projeto Geres Valores iniciais para cada uma das duas cadeias utilizadas para a estimação dos parâmetros Resultados das medidas utilizadas para a escolha das distribuições a priori - Cenário 1 versus Cenário Estimativas pontual (média a posteriori) e intervalar (intervalo de credibilidade de 95%) para duas proficiências de indivíduos do projeto Geres considerando o modelo assimétrico de três parâmetros Estimativas pontual (média a posteriori) e intervalar (intervalo de credibilidade de 95%) para duas proficiências de indivíduos do projeto Geres considerando o modelo assimétrico de dois parâmetros Média a posteriori dos parâmetros π para alguns itens com diferentes tamanhos de amostra para os dois algoritmos Estimativas pontual (média a posteriori) e intervalar (intervalo de credibilidade de 95%) para duas proficiências de indivíduos do projeto Geres considerando o modelo assimétrico de três parâmetros via algoritmo Estimativas pontual (média a posteriori) e intervalar (intervalo de credibilidade de 95%) para duas proficiências de indivíduos do projeto Geres considerando o modelo assimétrico de dois parâmetros via algoritmo xi

12 Lista de Figuras 1.1 CCI com parâmetros a j = 1.3, b j = 1.2 e c j = Proporção de acerto dos itens do projeto Geres Estimativas pontuais (médias a posteriori) dos parâmetros dos itens do projeto Geres e respectivos intervalos de credibilidade de 95% Histograma das proficiências estimadas para os indivíduos participantes do projeto Geres sobre a densidade da distribuição normal padronizada CCI s com parâmetros a = 1, b = 0 e diferentes valores para d Valores reais versus estimados dos parâmetros dos itens considerando os cenários 1 e 2. O ponto representa o cenário 1 e o x, o cenário Trajetória da log-posteriori das 2 cadeias geradas Valores reais e estimativas dos parâmetros dos itens com seus respectivos intervalos de credibilidade de 95%. O ponto representa o valor estimado e a linha horizontal dentro do intervalo, o valor real Histograma das proficiências estimadas dos indivíduos do conjunto de dados simulados sobre a densidade da distribuição normal padronizada, e valores reais versus estimados das proficiências desses mesmos indivíduos Trajetória da log-posteriori das 2 cadeias geradas considerando o modelo assimétrico de dois parâmetros Valores reais e estimativas dos parâmetros dos itens com seus respectivos intervalos de credibilidade de 95% considerando o modelo assimétrico de dois parâmetros. O ponto representa o valor estimado e a linha horizontal dentro do intervalo, o valor real xii

13 3.7 Histograma das proficiências estimadas dos indivíduos do conjunto de dados simulados sobre a densidade da distribuição normal padronizada, e valores reais versus estimados das proficiências desses mesmos indivíduos, considerando o modelo assimétrico de dois parâmetros Trajetória da log-posteriori das 2 cadeias geradas considerando o modelo assimétrico de três parâmetros para os dados do projeto Geres Estimativas pontuais (médias a posteriori) dos parâmetros dos itens do projeto Geres e respectivos intervalos de credibilidade de 95% considerando o modelo assimétrico de três parâmetros Histograma das proficiências estimadas para os indivíduos participantes do projeto Geres sobre a densidade da distribuição normal padronizada considerando o modelo assimétrico de três parâmetros Trajetória da log-posteriori das 2 cadeias geradas considerando o modelo assimétrico de dois parâmetros para os dados do projeto Geres Estimativas pontuais (médias a posteriori) dos parâmetros dos itens do projeto Geres e respectivos intervalos de credibilidade de 95% considerando o modelo assimétrico de dois parâmetros Histograma das proficiências estimadas para os indivíduos participantes do projeto Geres sobre a densidade da distribuição normal padronizada considerando o modelo assimétrico de dois parâmetros Densidades das distribuições Beta(0.01, 0.01) e Beta(2, 2) Valores reais e estimativas dos parâmetros dos itens com seus respectivos intervalos de credibilidade de 95% considerando os algoritmos 1 e 2. O ponto representa o valor estimado e a linha horizontal dentro do intervalo, o valor real Estimativas pontuais (médias a posteriori) dos π para os dois algoritmos. O ponto representa os itens assimétricos, e o x, os itens simétricos Trajetória da log-posteriori das 2 cadeias geradas considerando o modelo assimétrico de três parâmetros via algoritmo xiii

14 6.5 Valores reais e estimativas dos parâmetros dos itens com seus respectivos intervalos de credibilidade de 95% obtidos via algoritmo 2. O ponto representa o valor estimado e a linha horizontal dentro do intervalo, o valor real Estimativas pontuais (médias a posteriori) dos π para o algoritmo escolhido. O ponto representa os itens assimétricos, e o x, os itens simétricos Histograma das proficiências estimadas sobre a curva da densidade da distribuição normal padronizada e proficiências geradas e estimadas, considerando o modelo asimétrico de três parâmetros e o algoritmo Trajetória da log-posteriori das 2 cadeias geradas considerando o modelo assimétrico de dois parâmetros via algoritmo Valores reais e estimativas dos parâmetros dos itens com seus respectivos intervalos de credibilidade de 95% e média a posteriori dos parâmetros π via algoritmo 2. No gráfico de a, b e d, o ponto representa o valor estimado e a linha horizontal dentro do intervalo, o valor real. No gráfico dos π s, o ponto representa os itens assimétricos, e o x, os itens simétricos Histograma das proficiências estimadas sobre a curva da densidade da distribuição normal padronizada e proficiências geradas e estimadas, considerando o modelo assimétrico de três parâmetros e o algoritmo Trajetória da log-posteriori das 2 cadeias geradas considerando o modelo assimétrico de três parâmetros para os dados do projeto Geres, via algoritmo Estimativas pontuais (médias a posteriori) dos parâmetros dos itens do projeto Geres e respectivos intervalos de credibilidade de 95% considerando o modelo assimétrico de três parâmetros via algoritmo Estimativas pontuais (médias a posteriori) dos π Histograma das proficiências estimadas para os indivíduos participantes do projeto Geres sobre a densidade da distribuição normal padronizada considerando o modelo assimétrico de três parâmetros via algoritmo xiv

15 7.5 Trajetória da log-posteriori das 2 cadeias geradas considerando o modelo assimétrico de dois parâmetros para os dados do projeto Geres, via algoritmo Estimativas pontuais (médias a posteriori) dos parâmetros dos itens do projeto Geres e respectivos intervalos de credibilidade de 95% considerando o modelo assimétrico de dois parâmetros via algoritmo 2, e média a posteriori dos parâmetros π Histograma das proficiências estimadas para os indivíduos participantes do projeto Geres sobre a densidade da distribuição normal padronizada considerando o modelo assimétrico de dois parâmetros via algoritmo xv

16 Capítulo 1 Introdução A psicometria é um conjunto de técnicas cujo objetivo é mensurar as habilidades cognitivas dos indivíduos expressas por meio do comportamento humano, sendo uma das principais técnicas a Teoria de Resposta ao Item (TRI) que, embora utilizada em diversas áreas, destaca-se especialmente em processos de avaliação educacional em larga escala. A TRI é usada para analisar dados provenientes de respostas a itens presentes em instrumentos avaliativos de desempenho, questionários, entre outros, e sugere formas de representar a probabilidade de um indivíduo dar uma determinada resposta a um item levando em conta os seus traços latentes, proficiências ou habilidades e algumas características do item. Tradicionalmente, essa relação é modelada através de funções de ligação simétricas, tais como as ligações probito e logito. Tal relação é conhecida como Curva Característica do Item (CCI). Mas à medida que a aplicação da TRI cresce, surgem algumas questões que devem ser levadas em conta para o aprimoramento da técnica. Uma dessas questões é se as funções de ligação simétricas utilizadas para a CCI são adequadas. Como indicado por Samejima (1997), CCI s assimétricas podem ser mais apropriadas para modelar comportamento humano. Sendo assim, o objetivo desse trabalho é apresentar o que foi proposto por Samejima (2000) e por Bazán (2005) e algumas generalizações, de modo a permitir formas mais gerais para a CCI. A seguir, uma breve revisão acerca da Teoria de Resposta ao Item é apresentada. Na seção 1.2, o conjunto de dados reais que será utilizado ao longo desta dissertação é 1

17 descrito. Na seção seguinte, esse conjunto de dados será analisado via TRI convencional. E finalmente, na seção 1.4, um sumário do trabalho é apresentado. 1.1 Teoria de Resposta ao Item Segundo Baker (1992), os trabalhos de Lawlel (1943) e Lord (1952) são o marco inicial dos estudos relacionados à Teoria de Resposta ao Item. Essa propõe modelos paramétricos para representar a probabilidade p ij (η) de um indivíduo i responder corretamente a um item j como função de parâmetros η, que contemplam parâmetros do item (a saber: discriminação, dificuldade e acerto casual) e habilidade ou proficiência do indivíduo i, u i, i = 1,..., I e j = 1,..., J. Esses modelos, por sua vez, dependem da natureza dos itens, isto é, se eles são dicotômicos (corrigidos como certo ou errado) ou não dicotômicos (itens de resposta livre ou itens de múltipla escolha avaliados de forma graduada), da quantidade de traços latentes ou habilidades que estão sendo medidas (apenas uma ou mais de uma) e do número de populações envolvidas (apenas uma ou mais de uma). Aqui, serão considerados apenas aqueles que tratam os itens de forma dicotômica, que avaliam apenas um traço latente (os chamados modelos unidimensionais) e em uma única população. Além disso, supõe-se que as respostas oriundas de indivíduos diferentes são independentes e que os itens são respondidos de forma independente por cada indivíduo, fixada sua habilidade (suposição conhecida como Independência Local). Dentro dessa classe, um modelo bastante utilizado é conhecido como modelo de três parâmetros pois envolve a discriminação, a dificuldade e o acerto casual do item, além da proficiência do indivíduo. A expressão geral para a probabilidade de resposta correta é dada por p ij (η) = P (Y ij = 1 η) = c j + (1 c j )F ( ij ), (1.1) onde Y ij é o indicador de acerto do item j pelo indivíduo i, η = {β, u}, β = {a, b, c} correspondendo aos parâmetros de discriminação, de dificuldade e de acerto ao acaso, respectivamente, com a = (a 1,..., a J ), b = (b 1,..., b J ) e c = (c 1,..., c J ), F é uma 2

18 função de distribuição acumulada qualquer, e ij = a j (u i b j ) é uma função linear de u i, com u i sendo o valor correspondente à variável latente U i, que descreve a habilidade do indivíduo i, para i = 1,..., I e j = 1,..., J. Em Baker (1992) encontram-se os casos mais comuns para a distribuição F (.), que são F (.) = Φ(.) ou F (.) = Ψ(.), onde Φ(.) é a função de distribuição acumulada (fda) de uma distribuição normal padrão, e Ψ é a fda de uma distribuição logística padrão, que é 1 definida como Ψ(t) =, t R. O primeiro caso é conhecido como modelo normal 1+exp{ t} de três parâmetros, e quando F (.) = Ψ(.), tem-se o modelo logístico de três parâmetros. Em geral, D, que representa um fator de escala, é igual a 1. Uma relação importante entre as fda logística e normal é dada por Ψ(D ij ) Φ( ij ) < 0.01, < u i <, onde D deve ser igual a para que a relação acima permita aproximar o modelo normal pelo logístico (Baker, 1992). No contexto de modelos lineares generalizados, a representação dada em (1.1) utiliza uma função de ligação F 1, sendo Φ 1 conhecida como função de ligação probito e Ψ 1 como a função de ligação logito. Outros modelos podem ser obtidos a partir dos que foram apresentados. Por exemplo, se se assume que o parâmetro relacionado ao acerto casual é nulo em todos os itens, obtém-se o modelo conhecido como modelo de dois parâmetros; já quando o valor do parâmetro de discriminação a j é o mesmo para todos os itens, além dos parâmetros c j nulos j, o modelo de um parâmetro é obtido. No que diz respeito à interpretação de cada um dos parâmetros dos itens, essa pode ser feita com o auxílio da figura 1.1. Ela ilustra o fato que os modelos descritos até aqui levam em conta que indivíduos com maior habilidade possuem maior probabilidade de acertar o item e que esta relação é não linear, tendo a forma de S. O parâmetro b é medido na mesma unidade da habilidade u e quanto maior o valor de b, mais difícil será o item. Ele pode ser visto como a habilidade necessária para que a probabilidade de acerto do item j seja (1 + c j )/2. O parâmetro c, por sua vez, não depende da escala já que representa a proba- 3

19 Figura 1.1: CCI com parâmetros a j = 1.3, b j = 1.2 e c j = 0.2 bilidade de um aluno com baixa habilidade responder corretamente o item, ou seja, lim p ij(η) = c j. Assim, o parâmetro c pode ser visto como a assíntota inferior da CCI. u i Se um item de múltipla escolha é construído de tal forma que as alternativas incorretas (distratores) funcionem muito bem, ou seja, se os distratores cumprem o seu papel de trazer informação ao avaliador a respeito da manifestação do raciocínio do aluno quando busca a solução para a tarefa imposta pelo item, mas sem chamar mais atenção do que a resposta correta, provavelmente o parâmetro c estará em torno do inverso do número de alternativas. Todavia, na prática, observam-se valores desde próximos de zero até próximos a 0.5, raramente ultrapassando esse valor. Já o parâmetro a é proporcional à derivada da tangente da curva no ponto de inflexão. Dessa forma, itens com a negativo não são esperados sob esses modelos, uma vez que indicariam que a probabilidade de responder corretamente o item diminui com o aumento da habilidade. Baixos valores de a indicam que a questão tem pouco poder de discriminação (alunos com habilidades bastante diferentes têm aproximadamente a mesma probabilidade de responder corretamente o item). Segundo Baker (2001), considerando a representação com o modelo logito, itens cujos parâmetros de discriminação estão entre 0.01 e 0.34 são classificados como itens de discriminação muito baixa ; entre 0.35 e 0.64, de baixa discriminação; entre 0.65 e 1.34, de discriminação moderada; entre 1.35 e 1.69, de discriminação alta, e maior que 1.70, de discriminação muito alta. Para se obter uma classificação semelhante considerando o modelo probito, basta dividir esses 4

20 valores pelo fator de escala D = Um ponto importante a ser mencionado é que o modelo (1.1) é não identificável, pois qualquer transformação do tipo u = (ku + γ), b = (kb + γ) e a = a, para k > 0 k e γ R, não altera a probabilidade representada pelo modelo. E uma das maneiras mais comuns para tornar o modelo identificável é fixar uma distribuição a priori própria para as proficiências. Em geral adota-se a distribuição normal padronizada, o que é feito nesta dissertação, definindo dessa forma a escala com média 0 e desvio-padrão 1 para as habilidades. 1.2 Descrição dos dados reais O conjunto de dados reais que será utilizado ao longo desta dissertação é do Projeto Geres, que é um projeto de pesquisa que focaliza a aprendizagem nas primeiras fases do Ensino Fundamental, levando em conta os fatores escolares e sócio-familiares que incidem sobre o desempenho escolar, além de outras dimensões, como a auto-estima e a motivação, que podem afetar o desenvolvimento dos alunos. Durante um período de quatro anos, de 2005 a 2008, aproximadamente alunos de cinco cidades brasileiras, de uma amostra de 309 escolas estaduais, municipais e privadas, foram testados todo ano em Língua Portuguesa e Matemática, enquanto os professores, diretores de escola, pais e os próprios alunos foram entrevistados para determinar os impactos na aprendizagem dos fatores escolares e familiares. Os fatores incorporados a esta pesquisa foram escolhidos mediante uma revisão extensa da literatura nacional e internacional, com um interesse especial para aquelas características indicadas como de relevância no contexto brasileiro, sobretudo os recursos da escola, a organização e gestão da escola, o clima acadêmico, a formação e salário do professor e a pedagogia de sala de aula. A escolha destes fatores também se deve ao interesse dos pesquisadores em oferecer subsídios práticos para a formulação de políticas voltadas para a melhoria da qualidade e da equidade da educação no Brasil 1. 1 Texto adaptado do site acessado em 09 de dezembro de

21 Os dados utilizados consistem em um teste de Língua Portuguesa com 24 itens e que foram respondidos por 6749 alunos do 3 o ano do Ensino Fundamental das cidades Rio de Janeiro, Salvador, Belo Horizonte, Campinas e Campo Grande em 2006, e que foram cedidos pelo CAEd (Centro de Políticas Públicas e Avaliação da Educação), da Universidade Federal de Juiz de Fora. Entre esse conjunto de alunos, foram considerados apenas aqueles que não apresentavam dados faltantes, ou seja, que responderam a todos os itens, o que reduziu a amostra para Os itens eram de múltipla escolha com quatro alternativas, entre as quais uma delas estava correta. 1.3 Análise dos dados reais via TRI convencional A figura 1.2 apresenta as proporções de acerto de cada um dos itens do teste. Observase que o item menos acertado foi o item 7, cujo percentual de acerto foi de aproximadamente 30.71%; por outro lado, as questões mais acertadas foram a 1 e a 3, com percentuais de acerto de 97.78% e 97.83% respectivamente. Vinte itens foram acertados por mais de 50% dos participantes. Proporção de acerto Item Figura 1.2: Proporção de acerto dos itens do projeto Geres Quanto aos alunos, 96 deles acertaram todas as questões da prova, enquanto apenas 1 aluno acertou uma única questão. O escore bruto médio foi e desvio-padrão A mediana e a moda foram iguais a 17. 6

22 A metodologia apresentada nas seções 2.4 e 2.5 foi utilizada para se fazer inferência sobre o modelo de três parâmetros (1.1) tal que F (.) = Ψ(.), ou seja, considerando-se a função de ligação logito. Os hiperparâmetros de cada uma das prioris são µ aj = 0, σa 2 j = 0.5, µ bj = 0, σb 2 j = 1, α cj = 5, β cj = 17, j = 1,..., 24, e distribuição normal padronizada para as proficiências. Além disso, considerou-se o fator de escala D igual a 1, ou seja, os parâmetros estão sendo obtidos na escala do modelo logito. Parâmetro a Parâmetro b Item Item Parâmetro c Item Figura 1.3: Estimativas pontuais (médias a posteriori) dos parâmetros dos itens do projeto Geres e respectivos intervalos de credibilidade de 95% As estimativas dos parâmetros dos itens e seus respectivos intervalos de credibilidade de 95% estão apresentados na figura 1.3. Considerando a classificação apresentada na seção anterior a respeito dos parâmetros de discriminação, percebe-se que um item é classificado como de baixa discriminação, onze apresentaram discriminação moderada, oito discriminação alta, e quatro discriminação muito alta. Os itens que apresentaram maior variância a posteriori nesse parâmetro foram o 21, o 23 e o 24. Quanto aos parâmetros de dificuldade, os dois itens mais fáceis do teste foram o 1 e o 3, que obtiveram os menores 7

23 valores no parâmetro b. Esse fato concorda com o que foi comentado anteriormente, visto que o percentual de acerto dessas questões foi bastante elevado. Por outro lado, os itens 7, 23 e 24 foram os itens mais difíceis do teste. A questão cujo parâmetro b apresentou maior intervalo de credibilidade foi a de número 6. Em relação ao parâmetro de acerto ao acaso, a figura indica que o item 6 apresentou a maior estimativa pontual para esse parâmetro, enquanto os de número 7, 10 e 17 são os que obtiveram as menores. Entre esses quatro itens, apenas o intervalo do item 6 contempla o valor 0.25, que é o valor no qual se espera que esse parâmetro esteja quando um item tem 4 alternativas e assumindo que os seus distratores funcionam bem. Com relação às proficiências dos alunos, foram obtidas estimativas pontuais e intervalares para apenas dois deles, apresentadas na tabela 1.1. Posteriormente, será explicado o motivo pelo qual não é possível obter ambas estimativas para todos os indivíduos. Observa-se que os dois alunos apresentaram proficiências estimadas abaixo da média 0, embora seus respectivos intervalos contemplem esse valor. Tabela 1.1: Estimativas pontual (média a posteriori) e intervalar (intervalo de credibilidade de 95%) para duas proficiências de indivíduos do projeto Geres Aluno Média a posteriori Intervalo de Credibilidade de 95% ( 1.377, 0.293) ( 1.061, 0.757) A figura 1.4 apresenta o histograma das proficiências estimadas sobre a densidade da distribuição normal padronizada. Aparentemente, a distribuição utilizada para as proficiências é adequada, já que o histograma se aproxima bastante da curva dessa densidade. Foram obtidas ainda as proporções de acerto dos itens do teste, levando em conta o escore dos alunos. Tais proporções estão dispostas nos gráficos que se encontram no apêndice do capítulo. Observando tais gráficos, nota-se que, empiricamente, as curvas de alguns itens se distanciam do formato de S que se espera de uma CCI, como por exemplo, dos itens 6 e 7. Nestes casos, a maneira como a probabilidade de resposta 8

24 Densidade Proficiência Figura 1.4: Histograma das proficiências estimadas para os indivíduos participantes do projeto Geres sobre a densidade da distribuição normal padronizada correta se aproxima de zero é diferente de como se aproxima de um, sendo que, para o item 6, as proporções de acerto daqueles indivíduos com escores baixos já são bastante elevadas, enquanto que para o item 7, as proporções de acerto só tendem a aumentar a partir do escore 14. Estes comportamentos poderiam levar à alguns questionamentos: uma CCI simétrica é, de fato, conveniente? Será que uma CCI assimétrica não poderia ajustar melhor os dados? Sob essa perspectiva, os resultados obtidos podem não ser úteis para fazer inferência, uma vez que, devido a possível assimetria, as estimativas das proficiências e dos parâmetros dos itens não seriam confiáveis. Sendo assim, o objetivo principal desta dissertação é propor modelos que permitam um parâmetro de assimetria para cada item e, consequentemente, formas mais gerais para as CCI s, e que sejam capazes de estimar conjuntamente todos os parâmetros do modelo. 9

25 1.4 Sumário da dissertação Neste capítulo, foi feita uma revisão acerca dos modelos mais usuais da TRI e apresentado o objetivo principal desta dissertação. No capítulo 2, as propostas feitas por Samejima (2000) e Bazán (2005) que resultam em CCI s mais gerais são brevemente descritas; além disso, o modelo proposto é apresentado, bem como a metodologia utilizada para se fazer inferência Bayesiana. Algumas medidas que serão utilizadas para avaliação do ajuste dos modelos também são apresentadas nesse capítulo. No capítulo 3, são feitos estudos simulados com modelos assimétricos, incluindo o caso geral proposto e o caso em que o parâmetro c é igual a zero, bem como algumas análises com diferentes conjuntos de prioris e avaliação de convergência. No capítulo 4, o conjunto de dados do projeto Geres é analisado utilizando os modelos assimétricos estudados no capítulo 3. Já no capítulo 5, um modelo da TRI que incorpora a detecção de assimetria é proposto, onde o processo para se fazer inferência Bayesiana também é descrito. Estudos simulados utilizando esse modelo estão no capítulo 6. No capítulo 7, os dados do projeto Geres são novamente analisados, mas agora via modelos abordados no capítulo 5. Por fim, no capítulo 8, estão as conclusões e propostas para trabalhos futuros. 1.5 Apêndice Proporção de acerto dos itens do projeto Geres referidas na seção

26 11

27 Capítulo 2 Distribuições assimétricas na TRI Os modelos da TRI apresentados no capítulo 1 consideram funções de ligação simétricas (logito e probito) que, consequentemente, provêm CCI s simétricas para descrever as probabilidades de resposta aos itens. Mas como enfatizam Chen et al. (1999), essas funções de ligação simétricas nem sempre fornecem bons ajustes, especialmente quando a probabilidade de uma dada resposta se aproxima de 0 de forma diferente de como se aproxima de 1. A adoção de uma função de ligação simétrica levaria a viés nas estimativas médias das respostas. Sendo assim, as propostas feitas por Samejima (2000) e Bazán (2005) estão apresentadas a seguir. Tais propostas resultam em CCI s assimétricas e são conhecidas como família logística de expoente positivo (FLEP) e família TRI normal assimétrica (TRI-NA), respectivamente. Na seção 2.3 o modelo proposto será descrito, e posteriormente, a metodologia para se fazer inferência por meio de uma abordagem Bayesiana. Na seção 2.5 apresentam-se os métodos MCMC, e as expressões matemáticas utilizadas para a implementação desses métodos encontram-se no apêndice do capítulo. Neste capítulo, o parâmetro de assimetria de todos os itens, e em todos os modelos, é estimado e, por meio da avaliação da sua estimativa intervalar, se conclui quais deles possuem comportamento assimétrico. 12

28 2.1 Família TRI logística assimétrica A família de modelos proposta por Samejima (2000), chamada família logística de expoente positivo (FLEP), provêm CCI s assimétricas e inclui o modelo logístico simétrico de dois parâmetros (aquele que leva em conta a discriminação e a dificuldade do item, além da proficiência do indivíduo) como um caso particular. Uma das razões apresentadas para o uso dessa família é que ela pode ser mais apropriada para modelar comportamento humano. No caso de se ter o modelo logístico de dois parâmetros, a CCI é dada por p ij (η) = Ψ(D ij ), (2.1) para i = 1,..., I e j = 1,..., J, η = {a, b, u} e todos os demais termos conforme definidos no capítulo 1. Segundo o que já foi dito, D é um fator de escala que será quando se desejar aproximar o modelo normal pelo logístico; caso contrário, D = 1. A família proposta por Samejima (2000) descreve a probabilidade de um indivíduo i responder corretamente a um item j como p ij (η) = [Ψ(D ij )] d j, (2.2) para i = 1,..., I, j = 1,..., J, com η = {a, b, d, u} e d j > 0 sendo o parâmetro de assimetria associado ao j-ésimo item. Quando d j = 1, (2.2) equivale ao modelo logístico de dois parâmetros. O parâmetro d j se relaciona à complexidade do item j. Um item é dito complexo se requer muitos passos para ser resolvido. Espera-se que a probabilidade de resolver um item complexo diminua quando o número de passos ou etapas aumenta, dada a habilidade do indivíduo. Samejima (2000) argumenta que, levando em conta a complexidade dos itens, pode ser mais apropriado assumir que a probabilidade de resposta tem um comportamento assimétrico. A figura 2.1 mostra algumas CCI s considerando a equação (2.2) com os parâmetros de dificuldade e discriminação fixos, e diferentes valores para o parâmetro d. Esse parâmetro permite dar mais crédito a itens mais difíceis e que foram resolvidos corretamente (d > 1), 13

29 bem como penalizar itens fáceis e que não foram resolvidos corretamente (0 < d < 1). O modelo simétrico pode ser considerado como a transição entre esses dois princípios. P ij (η) d = 0.3 d = 0.5 d = 0.8 d = 1 d = 1.5 d = 2 d = u i Figura 2.1: CCI s com parâmetros a = 1, b = 0 e diferentes valores para d 2.2 Família TRI normal assimétrica Diferente de Samejima (2000), a proposta feita em Bazán (2005) não é derivada da teoria psicológica. A nova família de modelos introduzida, chamada família TRI normal assimétrica (TRI-NA), é uma extensão do modelo probito de dois parâmetros e considera: a) uma função de ligação normal assimétrica na modelagem da probabilidade de resposta correta p ij (η), e/ou b) a distribuição das proficiências dos indivíduos sendo normal assimétrica. Para descrever essa família faz-se necessário mencionar a definição de uma distribuição normal assimétrica. Diz-se que uma variável aleatória X tem distribuição normal as- 14

30 simétrica com parâmetro de locação µ, parâmetro de escala σ 2 e parâmetro de assimetria d se sua densidade puder ser escrita como f X (x) = φ SN (x; µ, σ 2, d) = 2 σ φ ( x µ σ ) ( Φ d x µ ), (2.3) σ com a notação X SN(µ, σ 2, d), onde φ(.) e Φ(.) são, respectivamente, a densidade e a função de distribuição acumulada de uma distribuição normal padrão (SN significa skew normal). Já a função de distribuição acumulada dessa variável X é dada por Φ SN (x; µ, σ 2, d) = 2Φ 2 x ; µ, σ2 δ, (2.4) 0 0 δ 1 onde Φ 2 (µ, Σ, d) denota a função de distribuição acumulada de uma distribuição normal bivariada com vetor média µ, matriz de variância Σ e coeficiente de correlação δ, onde δ = d. No caso de se supor X com distribuição normal padrão assimétrica (µ = 0 (1+d 2 ) 1/2 e σ 2 = 1), a notação será da forma X SN(d). Então, se uma função de ligação normal padrão assimétrica for considerada na modelagem da probabilidade de resposta correta aos itens, a CCI resultante será p ij (η) = Φ SN ( ij ; d j ) (2.5) onde η = {a, b, d, u}, ij = a j (u i b j ) e d j o parâmetro de assimetria associado ao item j, para i = 1,..., I e j = 1,..., J. Quando d j = 0, a equação (2.5) se resume ao modelo probito de dois parâmetros. d j pode ser visto como um parâmetro de penalização: quando d j > 0, a probabilidade de resposta correta é penalizada para baixos valores da habilidade; já quando d j < 0, a probabilidade de resposta correta ao item j é penalizada para altos valores da habilidade. Por outro lado, pode-se assumir que a proficiência dos indivíduos tem uma distribuição normal assimétrica, isto é, u i SN(µ u, σ 2 u, d), i. Uma justificativa apresentada por Bazán (2005) para considerar essa distribuição assimétrica para as proficiências é que uma distribuição normal simétrica é muito restritiva para modelar conduta humana. Dessa forma, a combinação destes dois pontos resulta no caso mais geral proposto por Bazán (2005): um modelo obtido a partir de uma função de ligação normal assimétrica em que uma distribuição normal assimétrica é assumida para a proficiência dos indivíduos. 15

31 2.3 Modelo proposto Levando em conta os modelos assimétricos apresentados, uma generalização possível seria incorporar o parâmetro de acerto casual a tais modelos; e essa é uma das propostas deste trabalho. De forma geral, seja F ( ij ; d j ) a função de ligação assimétrica que descreve determinada CCI, tal que F ( ij ; d j ) = [Ψ(D ij )] d j no caso de se considerar a abordagem feita por Samejima (2000), e F ( ij ; d j ) = Φ SN ( ij ; d j ) quando se considera a função de ligação normal assimétrica. Dessa forma, incorporando o parâmetro de acerto ao acaso, o modelo proposto será da forma p ij (η) = c j + (1 c j )F ( ij ; d j ), (2.6) para η = {a, b, c, d, u} e todos os parâmetros conforme já descritos, ou seja, Y ij é o indicador de acerto do item j pelo indivíduo i, ij = a j (u i b j ), β j = (a j, b j, c j ) correspondendo aos parâmetros de discriminação, dificuldade e acerto ao acaso respectivamente, d j o parâmetro de assimetria do item j e u i sendo o valor correspondente à variável latente U i, que descreve a habilidade do indivíduo i, para i = 1,..., I e j = 1,..., J. Sob essa proposta, uma abordagem Bayesiana será feita considerando a função de ligação logística, ou seja, fazendo F ( ij ; d j ) = [Ψ(D ij )] d j e D = 1. Um estudo simulado será realizado no capítulo 3 com o objetivo de estudar as propriedades desse modelo; uma aplicação ao conjunto de dados do projeto Geres descrito será feita no capítulo 4. O enfoque Bayesiano é adotado para que seja possível incorporar informações a priori aos parâmetros do modelo. Além disso, ele resolve um problema presente na estimação dos parâmetros quando isso é feito por máxima verossimilhança, conforme citado em Andrade et al. (2000). Tal problema ocorre quando algum item é respondido correta ou incorretamente por todos os indivíduos, ou quando um indivíduo responde correta ou incorretamente a todas as questões. Em Bolfarine e Bazán (2008), uma abordagem Bayesiana com o modelo assimétrico de dois parâmetros considerando a função de ligação logística foi feita. 16

32 2.4 Inferência Bayesiana Nesta seção o processo para se fazer inferência sobre o modelo (2.6) é apresentado. Os parâmetros do modelo são η = {β, d, u}, onde β = {a, b, c} se refere aos parâmetros de discriminação, dificuldade e acerto ao acaso dos itens, respectivamente, o vetor d diz respeito aos parâmetros de assimetria associados aos itens e o vetor u se refere às proficiências dos indivíduos. No caso de se desejar fazer inferência sobre o modelo de três parâmetros simétrico (1.1), basta considerar os parâmetros de assimetria fixos e conhecidos (d j = 1 no caso em que F (.) = Ψ(.) e d j = 0 quando F (.) = Φ(.), j = 1,..., J), e no caso de se querer estudar o modelo logístico assimétrico de dois parâmetros, dado pela expressão (2.2), basta fazer c j = 0, j = 1,..., J. Para a realização de inferência Bayesiana, é necessário mencionar alguns elementos fundamentais, a saber: a função de verossimilhança, que é a função que descreve probabilisticamente os dados observados; a distribuição a priori para os parâmetros do modelo, que expressa a informação inicial que se tem a respeito desses parâmetros antes de se observar os dados; e a distribuição a posteriori, que sumariza a informação sobre os parâmetros, levando em conta os dados observados. Esses elementos estão detalhados a seguir. Verossimilhança l(η; Y ) I J [p ij (η)] y ij [1 p ij (η)] 1 y ij i=1 j=1 I i=1 j=1 J {c j + (1 c j )F ( ij ; d j )} y ij {1 [c j + (1 c j )F ( ij ; d j )]} 1 y ij (2.7) Distribuições a priori Assume-se que os parâmetros são independentes a priori, o que significa que a priori conjunta é dada por p(η) = p(β)p(d)p(u) = p(a)p(b)p(c)p(d)p(u). (2.8) 17

33 Para cada componente de η, assume-se as seguintes distribuições: a j LN(µ aj, σa 2 j ), b j N(µ bj, σb 2 j ), c j Beta(α cj, β cj ), onde LN(.,.) representa uma distribuição log normal e N(.,.) a distribuição normal, j = 1,..., J; d j LN(µ dj, σd 2 j ) caso a função de ligação seja a logística; ou d j ter qualquer distribuição definida em R no caso de se considerar a função de ligação normal assimétrica, j = 1,..., J. Por exemplo, Bazán (2005) utiliza uma distribuição t-student com parâmetro de locação µ = 0, parâmetro de escala σ 2 = 0.5 e graus de liberdade ν = 2. u i N(0, 1) i = 1,..., I, de modo a resolver o problema de não-identificabilidade do modelo. Distribuição a posteriori conjunta A distribuição a posteriori conjunta, que será utilizada para obter as estimativas de todos os parâmetros do modelo, é apresentada a seguir e foi obtida pela aplicação do Teorema de Bayes: [ I ] [ J ] [ J ] p(η Y ) l(η; Y ) p(u i ) p(a j )p(b j )p(c j ) p(d j ). (2.9) i=1 j=1 j=1 Em geral é difícil obter a constante de normalização de (2.9), o que significa não ser possível encontrar uma forma analítica fechada para a distribuição a posteriori. Sendo assim, alguns métodos baseados em simulação poderiam ser utilizados para aproximar essa distribuição. Aqui será considerado o MCMC (Markov Chain Monte Carlo), que é descrito na seção seguinte. No caso de se considerar a função perda quadrática, as estimativas de cada um dos parâmetros serão as respectivas médias a posteriori. E essa função perda será adotada nessa dissertação. 18

34 2.5 Método MCMC para fazer inferência na TRI As inferências acerca dos parâmetros dos modelos da TRI serão feitas a partir de amostras geradas da distribuição a posteriori conjunta de tais parâmetros. A idéia básica do MCMC (Markov Chain Monte Carlo) é gerar amostras dessa distribuição a partir de distribuições que constituam uma cadeia de Markov. Tais distribuições são as distribuições de transição da cadeia que devem ser adequadamente escolhidas de forma que a cadeia convirja para uma distribuição estacionária que seja a própria distribuição de interesse (Gonçalves, 2006). Após atingir a convergência, isto é, descartar os valores estabelecidos pelo burn-in, pode-se considerar que os valores simulados formam uma amostra da distribuição a posteriori conjunta, e poderão ser utilizados para se fazer inferência. Existem alguns métodos para se construir tais cadeias, entre eles o Gibbs Sampling (Geman e Geman, 1984), e que são casos especiais de uma estrutura geral desenvolvida por Metropolis et al. (1953) e Hastings (1970), que é conhecido como algoritmo Metropolis-Hastings (MH). No caso do Gibbs Sampling, originado do processamento de imagens, o método consiste em tomar as distribuições condicionais completas dos parâmetros como as distribuições de transição da cadeia de Markov. Assumindo que a distribuição de interesse é dada por π(θ) (que no caso é a própria distribuição a posteriori), onde θ = (θ 1,..., θ L ) e cada componente desse vetor podendo ser um escalar, um vetor ou uma matriz, a distribuição condicional completa do parâmetro θ l é dada por π l (θ l ) = π(θ l θ l ), l = 1,..., L, onde θ l é o vetor θ sem a l-ésima componente. Assim, a implementação desse algoritmo pode ser feita da seguinte maneira: 1. Inicialize o contador de iterações k = 1 e o conjunto arbitrário de valores iniciais θ (0) = (θ (0) 1,..., θ (0) L ). 2. Obtenha um novo valor θ (k) = (θ (k) 1,..., θ (k) ) através de gerações sucessivas de L 19

35 valores: θ (k) 1 π(θ 1 θ (k 1) 2,..., θ (k 1) L ) θ (k) 2 π(θ 2 θ (k) 1, θ (k 1) 3,..., θ (k 1) L ). θ (k) L π(θ L θ (k) 1,..., θ (k) L 1 ) 3. Incremente o contador de k para k + 1 e retorne ao passo 2 até que a convergência seja alcançada (considerando o burn-in). No caso de as distribuições condicionais completas não serem conhecidas, o algoritmo de Metropolis-Hastings pode ser utilizado. Assim como no Gibbs Sampling, suponha que se deseja amostrar de uma distribuição de interesse π através de cadeias de Markov, que no caso é a distribuição a posteriori, e seja q(θ, φ) uma distribuição de transição arbitrária da qual se saiba gerar, baseado numa probabilidade α(θ, φ) tal que p(θ, φ) = q(θ, φ)α(θ, φ) se θ φ. Então q(θ, φ) define uma densidade p(θ,.) para todo valor possível do parâmetro diferente de θ. Consequentemente, existe uma probabilidade positiva de a cadeia permanecer em θ, dada por p(θ, θ) = 1 q(θ, φ)α(θ, φ)dφ. Dessa forma, baseado em Hastings (1970), a expressão mais comumente citada para a probabilidade de aceitação, ou seja, a probabilidade da cadeia se mover de θ para φ, é θ (0). { } π(φ)q(φ, θ) α(θ, φ) = min 1,. (2.10) π(θ)q(θ, φ) Em termos práticos, o algoritmo consiste nos seguintes passos: 1. Inicialize o contador de iterações k = 1 e o conjunto arbitrário de valores iniciais 2. Gera um novo valor φ da densidade q(θ (k 1),.). 20

36 3. Calcule a probabilidade de aceitação do movimento α(θ (k 1), φ) dada por (2.10) e gere z U(0, 1). 4. Se z α, aceite o novo valor e faça θ (k) = φ. Caso contrário, se z > α, θ (k) = θ (k 1) e a cadeia não se move. 5. Incremente o contador de k para k + 1 e retorne ao passo 2 até que a convergência seja alcançada (considerando o burn-in). No caso dos modelos da TRI, apenas algumas distribuições condicionais completas são conhecidas. Sendo assim, um método proposto por Muller (1991) será utilizado e é conhecido como Gibbs Sampling com passos de Metropolis, onde se adota o algoritmo Gibbs Sampling, mas as componentes que não podem ser diretamente amostradas de sua condicional completa são amostradas da sua proposta q e aceitas com probabilidade dada pela expressão (2.10). Sendo assim, a implementação desses métodos para os modelos até aqui descritos pode ser feita como se segue. Para a estimação dos parâmetros do modelo, foi feita a seguinte divisão: ({u 1 },..., {u I }, {a 1, b 1, c 1 },..., {a J, b J, c J }, {d 1 },..., {d J }), ou seja, os valores dos parâmetros a, b e c são aceitos (ou rejeitados) conjuntamente, enquanto as proficiências e os parâmetros de assimetria dos itens são aceitos (ou rejeitados) separadamente. Assim, os passos para a implementação do algoritmo são: 1. Inicialize o contador de iterações k = Gere, i = 1,..., I, um novo valor u (k) i com probabilidade α i (u (k) ). 3. Gere, j = 1,..., J, um novo valor β (k) j com probabilidade α j (β (k) ), β j = (a j, b j, c j ). 4. Gere, j = 1,..., J, um novo valor d (k) j com probabilidade α j (d (k) ). da densidade q i (u (k 1), u (k) ) que é aceito da densidade q j (β (k 1), β (k) ) que é aceito da densidade q j (d (k 1), d (k) ) que é aceito 5. Incremente o contador de k para k + 1 e retorne ao passo 2 até que a convergência seja alcançada (considerando o burn-in). 21

Técnicas computacionais em probabilidade e estatística II

Técnicas computacionais em probabilidade e estatística II Técnicas computacionais em probabilidade e estatística II Universidade de São Paulo Instituto de Matemática e Estatística http:www.ime.usp.br/ mbranco AULA 1: Problemas Computacionais em Inferência Estatística.

Leia mais

Introdução à Teoria de Resposta ao Item

Introdução à Teoria de Resposta ao Item Caio L. N. Azevedo, IMECC/Unicamp Dani Gamerman, DME/UFRJ I CONBRATRI, Florianópolis 9 de dezembro de 2009 Parte II Parte 2: Implementação computacional. Análise de dados 1. Modelo de 3 parâmetros via

Leia mais

Técnicas computacionais em probabilidade e estatística II

Técnicas computacionais em probabilidade e estatística II Técnicas computacionais em probabilidade e estatística II Universidade de São Paulo Instituto de Matemática e Estatística http:www.ime.usp.br/ mbranco Métodos de Monte Carlo baseados em Cadeias de Markov:

Leia mais

Teorias de Avaliação - CE095

Teorias de Avaliação - CE095 Adilson dos Anjos 1 1 Departamento de Estatística Universidade Federal do Paraná aanjos@ufpr.br Curitiba, PR 2 de setembro de 2014 Modelo de três parâmetros Modelo de três parâmetros Suposições sobre o

Leia mais

CONHECIMENTOS ESPECÍFICOS

CONHECIMENTOS ESPECÍFICOS CONHECIMENTOS ESPECÍFICOS 2003 2004 2005 2006 2007 2008 2009 2010 X 39,0 39,5 39,5 39,0 39,5 41,5 42,0 42,0 Y 46,5 65,5 86,0 100,0 121,0 150,5 174,0 203,0 A tabela acima mostra as quantidades, em milhões

Leia mais

Influencia de Distribuições a priori na Analise Bayesiana em dados de contagem

Influencia de Distribuições a priori na Analise Bayesiana em dados de contagem Influencia de Distribuições a priori na Analise Bayesiana em dados de contagem Olinda Fátima dos Santos 1 Carla Regina Guimarães Brighenti 1 1-Introdução A utilização de informação a priori em inferência

Leia mais

Definição. Os valores assumidos pelos estimadores denomina-se estimativas pontuais ou simplesmente estimativas.

Definição. Os valores assumidos pelos estimadores denomina-se estimativas pontuais ou simplesmente estimativas. 1. Inferência Estatística Inferência Estatística é o uso da informção (ou experiência ou história) para a redução da incerteza sobre o objeto em estudo. A informação pode ou não ser proveniente de um experimento

Leia mais

Metodologia de inversão

Metodologia de inversão 6 Metodologia de inversão Nesta tese, a transformação de velocidades em pressão de poros é encarada como um problema de inversão. Pela natureza do problema, essa transformação apresenta caráter não único

Leia mais

Testes de Hipóteses. Ricardo Ehlers Departamento de Matemática Aplicada e Estatística Universidade de São Paulo

Testes de Hipóteses. Ricardo Ehlers Departamento de Matemática Aplicada e Estatística Universidade de São Paulo Testes de Hipóteses Ricardo Ehlers ehlers@icmc.usp.br Departamento de Matemática Aplicada e Estatística Universidade de São Paulo Introdução e notação Em geral, intervalos de confiança são a forma mais

Leia mais

Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação

Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação Francisco A. Rodrigues Departamento de Matemática Aplicada e Estatística - SME Objetivo Dada M classes ω 1, ω 2,..., ω M e um

Leia mais

AGA Análise de Dados em Astronomia I 8. Inferência Bayesiana e MCMC

AGA Análise de Dados em Astronomia I 8. Inferência Bayesiana e MCMC 1 / 1 AGA 0505- Análise de Dados em Astronomia I 8. Inferência Bayesiana e MCMC Laerte Sodré Jr. 1o. semestre, 2018 2 / 1 Inferência Bayesiana inferência bayesiana consideremos um conjunto de dados D que

Leia mais

CONHECIMENTOS ESPECÍFICOS

CONHECIMENTOS ESPECÍFICOS CONHECIMENTOS ESPECÍFICOS Julgue os itens que se seguem, acerca da estatística descritiva. 51 Na distribuição da quantidade de horas trabalhadas por empregados de certa empresa, é sempre possível determinar

Leia mais

Cap. 4 - Estimação por Intervalo

Cap. 4 - Estimação por Intervalo Cap. 4 - Estimação por Intervalo Amostragem e inferência estatística População: consiste na totalidade das observações em que estamos interessados. Nº de observações na população é denominado tamanho=n.

Leia mais

IND 1115 Inferência Estatística Aula 6

IND 1115 Inferência Estatística Aula 6 Conteúdo IND 5 Inferência Estatística Aula 6 Setembro de 004 A distribuição Lognormal A distribuição Beta e sua relação com a Uniforme(0,) Mônica Barros mbarros.com mbarros.com A distribuição Lognormal

Leia mais

Análise Bayesiana de Dados - Aula 1 -

Análise Bayesiana de Dados - Aula 1 - Análise Bayesiana de Dados - Aula 1 - Márcia D Elia Branco Universidade de São Paulo Instituto de Matemática e Estatística www.ime.usp.br/ mbranco - sala 295-A - Paradigmas Bayesiano Introdução Fazer inferência

Leia mais

Incorporando Informações de Covariáveis para Explicar a Habilidade dos Indivíduos no Modelo de Teoria de Resposta ao Item

Incorporando Informações de Covariáveis para Explicar a Habilidade dos Indivíduos no Modelo de Teoria de Resposta ao Item Incorporando Informações de Covariáveis para Explicar a Habilidade dos Indivíduos no Modelo de Teoria de Resposta ao Item Sheila Klem Rodrigues das Neves Universidade Federal do Rio de Janeiro Instituto

Leia mais

Testes de Hipóteses. Ricardo Ehlers Departamento de Matemática Aplicada e Estatística Universidade de São Paulo

Testes de Hipóteses. Ricardo Ehlers Departamento de Matemática Aplicada e Estatística Universidade de São Paulo Testes de Hipóteses Ricardo Ehlers ehlers@icmc.usp.br Departamento de Matemática Aplicada e Estatística Universidade de São Paulo Introdução e notação Em geral, intervalos de confiança são a forma mais

Leia mais

Inferência Bayesiana

Inferência Bayesiana Inferência Bayesiana Joaquim Neto joaquim.neto@ufjf.edu.br www.ufjf.br/joaquim_neto Departamento de Estatística - ICE Universidade Federal de Juiz de Fora (UFJF) Versão 3.0 Joaquim Neto (UFJF) ICE - UFJF

Leia mais

Inferência Bayesiana - Aula 1 -

Inferência Bayesiana - Aula 1 - Inferência Bayesiana - Aula 1 - Márcia D Elia Branco Universidade de São Paulo Instituto de Matemática e Estatística www.ime.usp.br/ mbranco - sala 295-A - Paradigmas Bayesiano Introdução Fazer inferência

Leia mais

Inferência Estatistica

Inferência Estatistica Inferência Estatistica Ricardo Ehlers ehlers@icmc.usp.br Departamento de Matemática Aplicada e Estatística Universidade de São Paulo Modelos e Inferência Um modelo é uma simplificação da realidade (e alguns

Leia mais

CC-226 Aula 07 - Estimação de Parâmetros

CC-226 Aula 07 - Estimação de Parâmetros CC-226 Aula 07 - Estimação de Parâmetros Carlos Henrique Q. Forster - Instituto Tecnológico de Aeronáutica 2008 Estimação de Parâmetros Para construir o classificador bayesiano, assumimos as distribuições

Leia mais

Bárbara da Costa Campos Dias MODELO BAYESIANO DA TEORIA DE RESPOSTA AO ITEM: UMA ABORDAGEM GENERALIZADA PARA O TRAÇO LATENTE VIA MISTURAS

Bárbara da Costa Campos Dias MODELO BAYESIANO DA TEORIA DE RESPOSTA AO ITEM: UMA ABORDAGEM GENERALIZADA PARA O TRAÇO LATENTE VIA MISTURAS Bárbara da Costa Campos Dias MODELO BAYESIANO DA TEORIA DE RESPOSTA AO ITEM: UMA ABORDAGEM GENERALIZADA PARA O TRAÇO LATENTE VIA MISTURAS Belo Horizonte 2015 2 UNIVERSIDADE FEDERAL DE MINAS GERAIS DEPARTAMENTO

Leia mais

Aula 3. Introduçao à TRI

Aula 3. Introduçao à TRI Aula 3. Introduçao à TRI mcuri@icmc.usp.br www.icmc.usp.br/ mcuri julho de 2015 Conteúdo da Apresentação 1 Introdução Avaliações Educacionais Teoria Clássica x TRI 2 Modelos da TRI Itens Dicotômicos Itens

Leia mais

Novembro/2018. Ajuste Automático ao Histórico em Simulação de Reservatórios

Novembro/2018. Ajuste Automático ao Histórico em Simulação de Reservatórios Ajuste Automático ao Histórico Simulação de Reservatórios Flavio Dickstein Paulo Goldfeld Renan V. Pinto IM/UFRJ IM/UFRJ LabMAPetro/UFRJ Novembro/2018 Simulação sob incerteza (i) O reservatório é inacessível

Leia mais

9 Uma Análise Comparativa: TCT, TRI e TRIN

9 Uma Análise Comparativa: TCT, TRI e TRIN 9 Uma Análise Comparativa: TCT, TRI e TRIN Este capítulo apresenta a descrição e a análise dos resultados obtidos pela aplicação dos modelos da Teoria Clássica dos Testes, do modelo unidimensional logístico

Leia mais

A Importância da Estatística na Pesquisa Científica e na Tomada de Decisão

A Importância da Estatística na Pesquisa Científica e na Tomada de Decisão A Importância da Estatística na Pesquisa Científica e na Tomada de Decisão Ricardo Alves de Olinda Universidade Estadual da Paraíba - UEPB Centro de Ciências e Tecnologia - CCT Departamento de Estatística

Leia mais

RESOLUÇÃO Nº 01/2016

RESOLUÇÃO Nº 01/2016 Legislações Complementares: Resolução Nº 02/2016 Colegiado DEst Resolução Nº 03/2016 Colegiado DEst Resolução Nº 01/2017 Colegiado DEst RESOLUÇÃO Nº 01/2016 O Departamento de Estatística, tendo em vista

Leia mais

Ajuste de um modelo de TRI aos dados do vestibular 2011.2 do curso de Administração Noturno da Universidade Federal de Uberlândia

Ajuste de um modelo de TRI aos dados do vestibular 2011.2 do curso de Administração Noturno da Universidade Federal de Uberlândia Ajuste de um modelo de TRI aos dados do vestibular 20.2 do curso de Administração Noturno da Universidade Federal de Uberlândia José Waldemar da Silva 2 Mirian Fernandes Carvalho Araújo 2 Lucio Borges

Leia mais

ESTATÍSTICA COMPUTACIONAL

ESTATÍSTICA COMPUTACIONAL ESTATÍSTICA COMPUTACIONAL Ralph dos Santos Silva Departamento de Métodos Estatísticos Instituto de Matemática Universidade Federal do Rio de Janeiro Sumário Inferência com dimensão variável Modelos com

Leia mais

CONHECIMENTOS ESPECÍFICOS

CONHECIMENTOS ESPECÍFICOS CONHECIMENTOS ESPECÍFICOS As variáveis aleatórias X e Y seguem uma distribuição de Bernoulli com probabilidade de sucesso igual a 0,4. Considerando S = X + Y e que os eventos aleatórios A = [X = 1] e B

Leia mais

MÉTODO MEAN SHIFT PARA DETECÇÃO DE OUTLIERS EM MODELOS NORMAIS ASSIMÉTRICOS

MÉTODO MEAN SHIFT PARA DETECÇÃO DE OUTLIERS EM MODELOS NORMAIS ASSIMÉTRICOS UNIVERSIDADE FEDERAL DE JUIZ DE FORA INSTITUTO DE CIÊNCIAS EXATAS DEPARTAMENTO DE ESTATÍSTICA MÉTODO MEAN SHIFT PARA DETECÇÃO DE OUTLIERS EM MODELOS NORMAIS ASSIMÉTRICOS Thalita do Bem Mattos Clécio da

Leia mais

Análise Bayesiana de Dados - Aplicações 1 -

Análise Bayesiana de Dados - Aplicações 1 - Análise Bayesiana de Dados - Aplicações 1 - Márcia D Elia Branco Universidade de São Paulo Instituto de Matemática e Estatística www.ime.usp.br/ mbranco - sala 295-A - Aplicações da IB : Pressão sistólica

Leia mais

Inferência. 1 Estimativa pontual de uma média 2 Estimativa intervalar de uma média. Renata Souza

Inferência. 1 Estimativa pontual de uma média 2 Estimativa intervalar de uma média. Renata Souza Inferência 1 Estimativa pontual de uma média 2 Estimativa intervalar de uma média Renata Souza Aspectos Gerais A estatística descritiva tem por objetivo resumir ou descrever características importantes

Leia mais

Aula 17. Aula de hoje. Aula passada. Problemas Monte Carlo na moda Caminho trilhado Desafios à frente Avaliação

Aula 17. Aula de hoje. Aula passada. Problemas Monte Carlo na moda Caminho trilhado Desafios à frente Avaliação Aula 17 Aula passada Otimização Caixeiro viajante Hill Climbing Distribuição de Boltzman Simulated Annealing De volta ao caixeiro Aula de hoje Problemas Monte Carlo na moda Caminho trilhado Desafios à

Leia mais

Comparações entre a Teoria de Resposta ao Item e a Teoria Clássica de Medidas para Banco de Itens Simulados

Comparações entre a Teoria de Resposta ao Item e a Teoria Clássica de Medidas para Banco de Itens Simulados Comparações entre a Teoria de Resposta ao Item e a Teoria Clássica de Medidas para Banco de Itens Simulados Anna Cristina Rezende Braga 1 Augusto Sousa da Silva Filho 2 Livingstone Augusto Eller 3 Lorrayne

Leia mais

Ricardo Ehlers Departamento de Matemática Aplicada e Estatística Universidade de São Paulo

Ricardo Ehlers Departamento de Matemática Aplicada e Estatística Universidade de São Paulo Geração de Números Aleatórios Ricardo Ehlers ehlers@icmc.usp.br Departamento de Matemática Aplicada e Estatística Universidade de São Paulo 1 / 61 Simulando de Distribuições Discretas Assume-se que um

Leia mais

CONHECIMENTOS ESPECÍFICOS

CONHECIMENTOS ESPECÍFICOS CONHECIMENTOS ESPECÍFICOS Em uma grande escola, 10% dos alunos são comprovadamente fracos. Um teste educacional conseguiu identificar corretamente 80% entre aqueles que são fracos e 85% entre aqueles que

Leia mais

Inferência Bayesiana Exata para Processos de Cox Level-Set

Inferência Bayesiana Exata para Processos de Cox Level-Set Inferência Bayesiana Exata para Processos de Cox Level-Set Bárbara da Costa Campos Dias 1 Flávio Bambirra Gonçalves 2 Resumo Este trabalho propõe uma metodologia de inferência exata para processos de Cox

Leia mais

TEORIA DA RESPOSTA AO ITEM (TRI): ESTIMAÇÃO BAYESIANA DA HABILIDADE DE INDIVÍDUOS

TEORIA DA RESPOSTA AO ITEM (TRI): ESTIMAÇÃO BAYESIANA DA HABILIDADE DE INDIVÍDUOS TEORIA DA RESPOSTA AO ITEM (TRI): ESTIMAÇÃO BAYESIANA DA HABILIDADE DE INDIVÍDUOS DÉBORA SPENASSATO 1, PAUL GERHARD KINAS 2 Resumo Este artigo tem por objetivo apresentar uma simulação da estimativa dos

Leia mais

Modelo de regressão estável aplicado a econometria

Modelo de regressão estável aplicado a econometria Modelo de regressão estável aplicado a econometria financeira Fernando Lucambio Departamento de Estatística Universidade Federal do Paraná Curitiba/PR, 81531 990, Brasil email: lucambio@ufpr.br 1 Objetivos

Leia mais

Tutorial para o desenvolvimento das Oficinas

Tutorial para o desenvolvimento das Oficinas Tutorial para o desenvolvimento das Oficinas 1 Métodos Quantitativos Profa. Msc. Regina Albanese Pose 2 Objetivos Objetivo Geral Este tutorial tem como objetivo parametrizar o desenvolvimento da oficina

Leia mais

Caros Alunos, segue a resolução das questões de Estatística aplicadas na prova para o cargo de Auditor Fiscal da Receita Municipal de Teresina.

Caros Alunos, segue a resolução das questões de Estatística aplicadas na prova para o cargo de Auditor Fiscal da Receita Municipal de Teresina. Caros Alunos, segue a resolução das questões de Estatística aplicadas na prova para o cargo de Auditor Fiscal da Receita Municipal de Teresina. De forma geral, a prova manteve o padrão das questões da

Leia mais

Universidade Federal do Paraná (UFPR) Bacharelado em Informática Biomédica. Regressão. David Menotti.

Universidade Federal do Paraná (UFPR) Bacharelado em Informática Biomédica. Regressão. David Menotti. Universidade Federal do Paraná (UFPR) Bacharelado em Informática Biomédica Regressão David Menotti www.inf.ufpr.br/menotti/ci171-182 Hoje Regressão Linear ( e Múltipla ) Não-Linear ( Exponencial / Logística

Leia mais

Testes de Hipóteses para. uma Única Amostra. Objetivos de Aprendizagem. 9.1 Teste de Hipóteses. UFMG-ICEx-EST-027/031 07/06/ :07

Testes de Hipóteses para. uma Única Amostra. Objetivos de Aprendizagem. 9.1 Teste de Hipóteses. UFMG-ICEx-EST-027/031 07/06/ :07 -027/031 07/06/2018 10:07 9 ESQUEMA DO CAPÍTULO 9.1 TESTE DE HIPÓTESES 9.2 TESTES PARA A MÉDIA DE UMA DISTRIBUIÇÃO NORMAL, VARIÂNCIA CONHECIDA 9.3 TESTES PARA A MÉDIA DE UMA DISTRIBUIÇÃO NORMAL, VARIÂNCIA

Leia mais

SUMÁRIO. 1.1 Introdução, Conceitos Fundamentais, 2

SUMÁRIO. 1.1 Introdução, Conceitos Fundamentais, 2 SUMÁRIO 1 CONCEITOS BÁSICOS, 1 1.1 Introdução, 1 1.2 Conceitos Fundamentais, 2 1.2.1 Objetivo, 2 1.2.2 População e amostra, 2 1.3 Processos estatísticos de abordagem, 2 1.4 Dados estatísticos, 3 1.5 Estatística

Leia mais

ESTATÍSTICA BAYESIANA

ESTATÍSTICA BAYESIANA UNIVERSIDADE FEDERAL DE MINAS GERAIS INSTITUTO DE CIÊNCIAS EXATAS PET MATEMÁTICA Orientadora: Rosângela Helena Loschi ESTATÍSTICA BAYESIANA Marina Muniz de Queiroz INTRODUÇÃO A estatística clássica associa

Leia mais

Análise Multivariada Aplicada à Contabilidade

Análise Multivariada Aplicada à Contabilidade Mestrado e Doutorado em Controladoria e Contabilidade Análise Multivariada Aplicada à Contabilidade Prof. Dr. Marcelo Botelho da Costa Moraes www.marcelobotelho.com mbotelho@usp.br Turma: 2º / 2016 1 Agenda

Leia mais

UMA ABORDAGEM BAYESIANA PARA ANÁLISE DE DADOS INTERVALARES

UMA ABORDAGEM BAYESIANA PARA ANÁLISE DE DADOS INTERVALARES UMA ABORDAGEM BAYESIANA PARA ANÁLISE DE DADOS INTERVALARES Ana Cláudia Oliveira de MELO Ronei Marcos de MORAES Marinho Gomes de ANDRADE FILHO RESUMO: Neste trabalho é abordado o problema de avaliação da

Leia mais

Inferência Estatística: DEEST/UFOP Prof.: Spencer Barbosa da Silva

Inferência Estatística: DEEST/UFOP Prof.: Spencer Barbosa da Silva Inferência Estatística: Prof.: Spencer Barbosa da Silva Amostragem Estatística Descritiva Cálculo de Probabilidade Inferência Estatística Estimação Teste de Hipótese Pontual Por Intervalo Conceitos básicos

Leia mais

AULA 09 Regressão. Ernesto F. L. Amaral. 17 de setembro de 2012

AULA 09 Regressão. Ernesto F. L. Amaral. 17 de setembro de 2012 1 AULA 09 Regressão Ernesto F. L. Amaral 17 de setembro de 2012 Faculdade de Filosofia e Ciências Humanas (FAFICH) Universidade Federal de Minas Gerais (UFMG) Fonte: Triola, Mario F. 2008. Introdução à

Leia mais

Distribuição Amostral e Estimação Pontual de Parâmetros

Distribuição Amostral e Estimação Pontual de Parâmetros Roteiro Distribuição Amostral e Estimação Pontual de Parâmetros 1. Introdução 2. Teorema Central do Limite 3. Conceitos de Estimação Pontual 4. Métodos de Estimação Pontual 5. Referências População e Amostra

Leia mais

COMPORTAMENTO ASSITÓTICO DE ESTIMADORES DE MÁXIMA VEROSSIMILHANÇA

COMPORTAMENTO ASSITÓTICO DE ESTIMADORES DE MÁXIMA VEROSSIMILHANÇA COMPORTAMENTO ASSITÓTICO DE ESTIMADORES DE MÁXIMA VEROSSIMILHANÇA Felipe Matheus Gonçalves Costa (1); Divanilda Maia Esteves (2) 1 Universidade Estadual da Paraíba; felipematheusem@hotmail.com.br 2 Universidade

Leia mais

Comparação entre intervalos de confiança calculados com métodos bootstrap e intervalos assintóticos

Comparação entre intervalos de confiança calculados com métodos bootstrap e intervalos assintóticos Comparação entre intervalos de confiança calculados com métodos strap e intervalos assintóticos Selene Loibel Depto. de Estatística, Matemática Aplicada e Computação, IGCE, UNESP, Rio Claro, SP E-mail:sloibel@rc.unesp.br,

Leia mais

Capítulo 3: Elementos de Estatística e Probabilidades aplicados à Hidrologia

Capítulo 3: Elementos de Estatística e Probabilidades aplicados à Hidrologia Departamento de Engenharia Civil Prof. Dr. Doalcey Antunes Ramos Capítulo 3: Elementos de Estatística e Probabilidades aplicados à Hidrologia 3.1 - Objetivos Séries de variáveis hidrológicas como precipitações,

Leia mais

TESTES NÃO PARAMÉTRICOS (para mediana/média)

TESTES NÃO PARAMÉTRICOS (para mediana/média) MAE212: Introdução à Probabilidade e à Estatística II - Profas. Beti e Chang (2012) 1 TESTES NÃO PARAMÉTRICOS (para mediana/média) Os métodos de estimação e testes de hipóteses estudados até agora nessa

Leia mais

Análise de Dados Longitudinais Aula

Análise de Dados Longitudinais Aula 1/35 Análise de Dados Longitudinais Aula 08.08.2018 José Luiz Padilha da Silva - UFPR www.docs.ufpr.br/ jlpadilha 2/35 Sumário 1 Revisão para dados transversais 2 Como analisar dados longitudinais 3 Perspectiva

Leia mais

Capítulo 2. Distribuições de Probabilidade Estimativas de parâmetros e tempos-atéfalha. Flávio Fogliatto

Capítulo 2. Distribuições de Probabilidade Estimativas de parâmetros e tempos-atéfalha. Flávio Fogliatto Capítulo 2 Distribuições de Probabilidade Estimativas de parâmetros e tempos-atéfalha Flávio Fogliatto 1 Ajustes de distribuições Em estudos de confiabilidade, dados são amostrados a partir de uma população

Leia mais

Introdução à Probabilidade e à Estatística II

Introdução à Probabilidade e à Estatística II Introdução à Probabilidade e à Estatística II Introdução à Inferência Estatística Capítulo 10, Estatística Básica (Bussab&Morettin, 7a Edição) Lígia Henriques-Rodrigues MAE0229 1º semestre 2018 1 / 36

Leia mais

Sexta Lista: Geração de Números Pseudo-Aleatórios e Método de Monte Carlo

Sexta Lista: Geração de Números Pseudo-Aleatórios e Método de Monte Carlo Sexta Lista: Geração de Números Pseudo-Aleatórios e Método de Monte Carlo Antônio Carlos Roque da Silva Filho e Cristiano R. F. Granzotti 26 de junho de 2017 Os exercícios desta lista devem ser resolvidos

Leia mais

ESTATÍSTICA COMPUTACIONAL

ESTATÍSTICA COMPUTACIONAL ESTATÍSTICA COMPUTACIONAL Ralph dos Santos Silva Departamento de Métodos Estatísticos Instituto de Matemática Universidade Federal do Rio de Janeiro Sumário Escolha de modelos Até aqui assumimos que z

Leia mais

Aula 2 Uma breve revisão sobre modelos lineares

Aula 2 Uma breve revisão sobre modelos lineares Aula Uma breve revisão sobre modelos lineares Processo de ajuste de um modelo de regressão O ajuste de modelos de regressão tem como principais objetivos descrever relações entre variáveis, estimar e testar

Leia mais

Cap. 8 - Intervalos Estatísticos para uma Única Amostra

Cap. 8 - Intervalos Estatísticos para uma Única Amostra Intervalos Estatísticos para ESQUEMA DO CAPÍTULO 8.1 INTRODUÇÃO 8.2 INTERVALO DE CONFIANÇA PARA A MÉDIA DE UMA DISTRIBUIÇÃO NORMAL, VARIÂNCIA CONHECIDA 8.3 INTERVALO DE CONFIANÇA PARA A MÉDIA DE UMA DISTRIBUIÇÃO

Leia mais

Testes paramétricos: médias variâncias, testes t e F

Testes paramétricos: médias variâncias, testes t e F Testes paramétricos: médias variâncias, testes t e F Uma questão que aparece frequentemente quando se tem dois conjuntos de dados, ou conjunto e um modelo é se eles diferem em relação à locação e/ou espalhamento.

Leia mais

Redes Neurais. A Rede RBF. Redes RBF: Função de Base Radial. Prof. Paulo Martins Engel. Regressão não paramétrica. Redes RBF: Radial-Basis Functions

Redes Neurais. A Rede RBF. Redes RBF: Função de Base Radial. Prof. Paulo Martins Engel. Regressão não paramétrica. Redes RBF: Radial-Basis Functions Redes RBF: Função de Base Radial Redes Neurais A Rede RBF O LP é baseado em unidades que calculam uma função não-linear do produto escalar do vetor de entrada e um vetor de peso. A rede RBF pertence a

Leia mais

Inferência para duas populações

Inferência para duas populações Inferência para duas populações Capítulo 13, Estatística Básica (Bussab&Morettin, 8a Edição) 7a AULA 27/04/2015 MAE229 - Ano letivo 2015 Lígia Henriques-Rodrigues 7a aula (27/04/2015) MAE229 1 / 27 1.

Leia mais

14. Distribuição de Probabilidade para Variáveis Aleatórias Contínuas

14. Distribuição de Probabilidade para Variáveis Aleatórias Contínuas 4. Distribuição de Probabilidade para Variáveis Aleatórias Contínuas Os valores assumidos por uma variável aleatória contínua podem ser associados com medidas em uma escala contínua como, por exemplo,

Leia mais

Ajuste do modelo de regressão linear: Inferência Bayesiana, aspectos computacionais e seleção de variáveis.

Ajuste do modelo de regressão linear: Inferência Bayesiana, aspectos computacionais e seleção de variáveis. Ajuste do modelo de regressão linear: Inferência Bayesiana, aspectos computacionais e seleção de variáveis. João Daniel Nunes Duarte a, Vinícius Diniz Mayrink b a Estudante de Graduação, e-mail: joaodaniel@ufmg.br

Leia mais

Markov Switching Models. Profa. Airlane Alencar. Depto de Estatística - IME-USP. lane. Ref: Kim e Nelson (1999) e Hamilton (1990)

Markov Switching Models. Profa. Airlane Alencar. Depto de Estatística - IME-USP.   lane. Ref: Kim e Nelson (1999) e Hamilton (1990) Markov Switching Models Profa. Airlane Alencar Depto de Estatística - IME-USP www.ime.usp.br/ lane Ref: Kim e Nelson (1999) e Hamilton (1990) 1 Objetivo Mudança nos parâmetros de um modelo de regressão

Leia mais

Distribuições Amostrais - Tamanho da Amostra

Distribuições Amostrais - Tamanho da Amostra Distribuições Amostrais - Tamanho da Amostra Prof. Eduardo Bezerra Inferência Estatística 21 de Setembro de 2018 Eduardo Bezerra (CEFET/RJ) Tamanho da Amostra 1 / 10 Motivação Suponha que queremos estimar

Leia mais

AGA Análise de Dados em Astronomia I 7. Modelagem dos Dados com Máxima Verossimilhança: Modelos Lineares

AGA Análise de Dados em Astronomia I 7. Modelagem dos Dados com Máxima Verossimilhança: Modelos Lineares 1 / 0 AGA 0505- Análise de Dados em Astronomia I 7. Modelagem dos Dados com Máxima Verossimilhança: Modelos Lineares Laerte Sodré Jr. 1o. semestre, 018 modelos modelagem dos dados dado um conjunto de dados,

Leia mais

Aula 14. Aula de hoje. Aula passada

Aula 14. Aula de hoje. Aula passada Aula 14 Aula passada Autovalores, autovetores, decomposição Convergência para estacionaridade Tempo de mistura Spectral gap Tempo de mistura de passeios aleatórios Aula de hoje Caminho amostral Teorema

Leia mais

FAMÍLIA EXPONENCIAL DE DISTRIBUIÇÕES

FAMÍLIA EXPONENCIAL DE DISTRIBUIÇÕES FAMÍLIA EXPONENCIAL DE DISTRIBUIÇÕES 1 Os modelos lineares generalizados, propostos originalmente em Nelder e Wedderburn (1972), configuram etensões dos modelos lineares clássicos e permitem analisar a

Leia mais

Modelos Lineares Generalizados - Estimação em Modelos Lineares Generalizados

Modelos Lineares Generalizados - Estimação em Modelos Lineares Generalizados Modelos Lineares Generalizados - Estimação em Modelos Lineares Generalizados Erica Castilho Rodrigues 23 de Maio de 207 Introdução 2 3 Vimos como encontrar o EMV usando algoritmos numéricos. Duas possibilidades:

Leia mais

Inferências bayesianas com probabilidade

Inferências bayesianas com probabilidade Inferências bayesianas com probabilidade Qual é a relação entre inferência bayesiana e as distribuições probabiĺısticas recém descritas? Essa conexão é feita ao se estimar parâmetros da distribuição probabiĺıstica

Leia mais

Modelos Lineares Generalizados - Componentes do Modelo

Modelos Lineares Generalizados - Componentes do Modelo Modelos Lineares Generalizados - Componentes do Modelo Erica Castilho Rodrigues 01 de Abril de 2014 3 Vejamos agora quais as componentes de um Modelo Linear Generalizado. Temos um conjunto de variáveis

Leia mais

DISTRIBUIÇÃO AMOSTRAL E ESTIMAÇÃO PONTUAL INTRODUÇÃO ROTEIRO POPULAÇÃO E AMOSTRA. Estatística Aplicada à Engenharia

DISTRIBUIÇÃO AMOSTRAL E ESTIMAÇÃO PONTUAL INTRODUÇÃO ROTEIRO POPULAÇÃO E AMOSTRA. Estatística Aplicada à Engenharia ROTEIRO 1. Introdução; DISTRIBUIÇÃO AMOSTRAL E ESTIMAÇÃO PONTUAL. Teorema Central do Limite; 3. Conceitos de estimação pontual; 4. Métodos de estimação pontual; 5. Referências. 1 POPULAÇÃO E AMOSTRA População:

Leia mais

Métodos Computacionais para inferência estatística

Métodos Computacionais para inferência estatística Métodos Computacionais para inferência estatística Wagner Hugo Bonat LEG: Laboratório de Estatística e Geoinformação Universidade Federal do Paraná 30 de julho de 2012 Bonat et. al (LEG/UFPR) MCIE 30 de

Leia mais

Introdução a Inferência Bayesiana

Introdução a Inferência Bayesiana Introdução a Inferência Bayesiana Helio S. Migon IM and COPPE - UFRJ migon@im.ufrj.br 2006 Conteúdo 1. Conceitos Básicos da Inferência 2. Distribuição a Priori 3. Sumariazação 4. Inferência Preditiva 1

Leia mais

Econometria em Finanças e Atuária

Econometria em Finanças e Atuária Ralph S. Silva http://www.im.ufrj.br/ralph/especializacao.html Departamento de Métodos Estatísticos Instituto de Matemática Universidade Federal do Rio de Janeiro Maio-Junho/2013 Modelos condicionalmente

Leia mais

4 Modelos Lineares Generalizados

4 Modelos Lineares Generalizados 4 Modelos Lineares Generalizados Neste capítulo, serão apresentados arcabouços teóricos dos modelos lineares generalizados (MLGs) e como casos particulares desses modelos são aplicáveis ao problema da

Leia mais

p(x) Note que 1/p(x), que não depende de θ, funciona como uma constante normalizadora

p(x) Note que 1/p(x), que não depende de θ, funciona como uma constante normalizadora Capítulo 1 Introdução A informação que se tem sobre uma quantidade de interesse θ é fundamental na Estatística. O verdadeiro valor de θ é desconhecido e a idéia é tentar reduzir este desconhecimento. Além

Leia mais

3 Dados e metodologia

3 Dados e metodologia 3 Dados e metodologia 3.1 Apresentação de Dados Para a realização dessa pesquisa foram utilizados os dados da série histórica dos preços da soja (em grão) do Estado do Paraná, obtidos da base de dados

Leia mais

CONHECIMENTOS ESPECÍFICOS

CONHECIMENTOS ESPECÍFICOS fonte de graus de soma de quadrado variação liberdade quadrados médio teste F regressão 1 1,4 1,4 46,2 resíduo 28 0,8 0,03 total 2,2 A tabela de análise de variância (ANOVA) ilustrada acima resulta de

Leia mais

Probabilidade e Estatística. Estimação de Parâmetros Intervalo de Confiança

Probabilidade e Estatística. Estimação de Parâmetros Intervalo de Confiança Probabilidade e Estatística Prof. Dr. Narciso Gonçalves da Silva http://páginapessoal.utfpr.edu.br/ngsilva Estimação de Parâmetros Intervalo de Confiança Introdução A inferência estatística é o processo

Leia mais

Métodos Quantitativos para Avaliação de Políticas Públicas

Métodos Quantitativos para Avaliação de Políticas Públicas ACH3657 Métodos Quantitativos para Avaliação de Políticas Públicas Aula 11 Análise de Resíduos Alexandre Ribeiro Leichsenring alexandre.leichsenring@usp.br Alexandre Leichsenring ACH3657 Aula 11 1 / 26

Leia mais

MODELOS DE REGRESSÃO PARA DADOS CONTÍNUOS ASSIMÉTRICOS

MODELOS DE REGRESSÃO PARA DADOS CONTÍNUOS ASSIMÉTRICOS MODELOS DE REGRESSÃO PARA DADOS CONTÍNUOS ASSIMÉTRICOS 1 Diversas distribuições podem ser consideradas para a modelagem de dados positivos com distribuição contínua e assimétrica, como, por exemplo, as

Leia mais

AULA 07 Inferência a Partir de Duas Amostras

AULA 07 Inferência a Partir de Duas Amostras 1 AULA 07 Inferência a Partir de Duas Amostras Ernesto F. L. Amaral 10 de setembro de 2012 Faculdade de Filosofia e Ciências Humanas (FAFICH) Universidade Federal de Minas Gerais (UFMG) Fonte: Triola,

Leia mais

Ralph S. Silva

Ralph S. Silva ANÁLISE ESTATÍSTICA MULTIVARIADA Ralph S Silva http://wwwimufrjbr/ralph/multivariadahtml Departamento de Métodos Estatísticos Instituto de Matemática Universidade Federal do Rio de Janeiro Sumário Revisão:

Leia mais

Especialização em Engenharia de Processos e de Sistemas de Produção

Especialização em Engenharia de Processos e de Sistemas de Produção Especialização em Engenharia de Processos e de Sistemas de Produção Projetos de Experimento e Confiabilidade de Sistemas da Produção Prof. Claudio Luis C. Frankenberg 3ª parte Conforme foi apresentado

Leia mais

Classificadores. André Tavares da Silva.

Classificadores. André Tavares da Silva. Classificadores André Tavares da Silva andre.silva@udesc.br Reconhecimento de padrões (etapas) Obtenção dos dados (imagens, vídeos, sinais) Pré-processamento Segmentação Extração de características Obs.:

Leia mais

Mais sobre Modelos Continuos

Mais sobre Modelos Continuos Mais sobre Modelos Continuos Ricardo Ehlers ehlers@icmc.usp.br Departamento de Matemática Aplicada e Estatística Universidade de São Paulo 1 / 41 Transformação Linear da Uniforme Seja X uma variável aleatória

Leia mais

1 Que é Estatística?, 1. 2 Séries Estatísticas, 9. 3 Medidas Descritivas, 27

1 Que é Estatística?, 1. 2 Séries Estatísticas, 9. 3 Medidas Descritivas, 27 Prefácio, xiii 1 Que é Estatística?, 1 1.1 Introdução, 1 1.2 Desenvolvimento da estatística, 1 1.2.1 Estatística descritiva, 2 1.2.2 Estatística inferencial, 2 1.3 Sobre os softwares estatísticos, 2 1.4

Leia mais

Exemplos Equações de Estimação Generalizadas

Exemplos Equações de Estimação Generalizadas Exemplos Equações de Estimação Generalizadas Bruno R. dos Santos e Gilberto A. Paula Departamento de Estatística Universidade de São Paulo, Brasil giapaula@ime.usp.br Modelos Lineares Generalizados dos

Leia mais

Coeficiente de Assimetria

Coeficiente de Assimetria Coeficiente de Assimetria Rinaldo Artes Insper Nesta etapa do curso estudaremos medidas associadas à forma de uma distribuição de dados, em particular, os coeficientes de assimetria e curtose. Tais medidas

Leia mais

Modelos de regressão para dados correlacionados. Cibele Russo

Modelos de regressão para dados correlacionados. Cibele Russo Modelos de regressão para dados correlacionados Cibele Russo cibele@icmc.usp.br ICMC USP Mini-curso oferecido no Workshop on Probabilistic and Statistical Methods 28 a 30 de janeiro de 2013 Cibele Russo

Leia mais

Modelagem e Avaliação de Desempenho. Pós Graduação em Engenharia Elétrica - PPGEE Prof. Carlos Marcelo Pedroso 2016

Modelagem e Avaliação de Desempenho. Pós Graduação em Engenharia Elétrica - PPGEE Prof. Carlos Marcelo Pedroso 2016 Modelagem e Avaliação de Desempenho Pós Graduação em Engenharia Elétrica - PPGEE Prof. Carlos Marcelo Pedroso 2016 Simulação de Sistemas Simulação é a técnica de solução de um problema pela análise de

Leia mais

Econometria IV Modelos Lineares de Séries Temporais. Fernando Chague

Econometria IV Modelos Lineares de Séries Temporais. Fernando Chague Econometria IV Modelos Lineares de Séries Temporais Fernando Chague 2016 Estacionariedade Estacionariedade Inferência estatística em séries temporais requer alguma forma de estacionariedade dos dados Intuição:

Leia mais