ANÁLISE DE ITENS E DA CONFIABILIDADE DE UM TESTE DE AVALIAÇÃO DE CONHECIMENTOS - UM ESTUDO DE CASO



Documentos relacionados
DESENVOLVIMENTO DE UM SOFTWARE NA LINGUAGEM R PARA CÁLCULO DE TAMANHOS DE AMOSTRAS NA ÁREA DE SAÚDE

Pesquisa com Professores de Escolas e com Alunos da Graduação em Matemática

Capítulo 3. Avaliação de Desempenho. 3.1 Definição de Desempenho

Pisa 2012: O que os dados dizem sobre o Brasil

Correlação e Regressão Linear

Cláudio Tadeu Cristino 1. Julho, 2014

4 Avaliação Econômica

ROTEIRO PARA ELABORAÇÃO DE PROJETOS

6 Construção de Cenários

Referências internas são os artefatos usados para ajudar na elaboração do PT tais como:

Orientações Preliminares. Professor Fábio Vinícius

Aula 4 Conceitos Básicos de Estatística. Aula 4 Conceitos básicos de estatística

Aula 04 Método de Monte Carlo aplicado a análise de incertezas. Aula 04 Prof. Valner Brusamarello

Mídias sociais como apoio aos negócios B2C

MÓDULO 6 INTRODUÇÃO À PROBABILIDADE

AS DIFICULDADES DOS ALUNOS DO 8º ANO DO ENSINO FUNDAMENTAL NA COMPREENSÃO DE EQUAÇÕES E INEQUAÇÕES

GARANTIA DA QUALIDADE DE SOFTWARE

APLICAÇÕES DA DERIVADA

Exercícios Resolvidos sobre probabilidade total e Teorema de Bayes

PESQUISA OPERACIONAL: UMA ABORDAGEM À PROGRAMAÇÃO LINEAR. Rodolfo Cavalcante Pinheiro 1,3 Cleber Giugioli Carrasco 2,3 *

ANEXO 2 - INDICADORES EDUCACIONAIS 1

PRÓ-MATATEMÁTICA NA FORMAÇÃO DE PROFESSORES

Análise Exploratória de Dados

O que é a estatística?

INE 5111 Gabarito da Lista de Exercícios de Probabilidade INE 5111 LISTA DE EXERCÍCIOS DE PROBABILIDADE

Ivan Guilhon Mitoso Rocha. As grandezas fundamentais que serão adotadas por nós daqui em frente:

UNIVERSIDADE DE SÃO PAULO. Faculdade de Arquitetura e Urbanismo

x0 = 1 x n = 3x n 1 x k x k 1 Quantas são as sequências com n letras, cada uma igual a a, b ou c, de modo que não há duas letras a seguidas?

Estudo e aplicação dos critérios de elaboração e aplicação das avaliações internas previstos no Plano de Ensino-Aprendizagem

Tecnologia em Gestão Pública Desenvolvimento de Projetos - Aula 9 Prof. Rafael Roesler

Profissionais de Alta Performance

CURSO ON-LINE PROFESSOR GUILHERME NEVES 1

Tópico 11. Aula Teórica/Prática: O Método dos Mínimos Quadrados e Linearização de Funções

FLUXOGRAMA DA PESQUISA

PROGRAMA DE CAPACITAÇÃO E APERFEIÇOAMENTO PARA TUTORES - PCAT

MAT 461 Tópicos de Matemática II Aula 3: Resumo de Probabilidade

TRABALHOS TÉCNICOS Coordenação de Documentação e Informação INOVAÇÃO E GERENCIAMENTO DE PROCESSOS: UMA ANÁLISE BASEADA NA GESTÃO DO CONHECIMENTO

3 Qualidade de Software

Prof. Dr. Guanis de Barros Vilela Junior

COMENTÁRIO AFRM/RS 2012 ESTATÍSTICA Prof. Sérgio Altenfelder

Exercícios Teóricos Resolvidos

Pedagogia Estácio FAMAP

GUIA DE INTERPRETAÇÃO DO CELLA DA FLÓRIDA

Elaboração e Gestão de Projetos Educacionais

Só Matemática O seu portal matemático FUNÇÕES

CURSO ON-LINE PROFESSOR: VÍTOR MENEZES

A ATIVIDADE DE RESUMO PARA AVALIAR A COMPREENSÃO DE TEXTOS EM PROVAS DE PROFICIÊNCIA DE LÍNGUA ESTRANGEIRA

PLANOS DE CONTINGÊNCIAS

PESQUISA SOBRE PRECONCEITO E DISCRIMINAÇÃO NO AMBIENTE ESCOLAR SUMÁRIO EXECUTIVO

Após essa disciplina você vai ficar convencido que a estatística tem enorme aplicação em diversas áreas.

Introdução Visão Geral Processos de gerenciamento de qualidade. Entradas Ferramentas e Técnicas Saídas

Faculdade Sagrada Família

SECRETARIA DE ESTADO DA EDUCAÇÃO SUPERINTENDÊNCIA DE EDUCAÇÃO DIRETORIA DE TECNOLOGIA EDUCACIONAL PORTAL DIA A DIA EDUCAÇÃO Natel Marcos Ferreira

PLANEJAMENTO DA MANUFATURA

Estrutura do Trabalho: Fazer um resumo descrevendo o que será visto em cada capítulo do trabalho.

Esta aula foi compilada por alunos. Caso encontre erros, favor procurar no ou.

CONSIDERAÇÕES SOBRE USO DO SOFTWARE EDUCACIONAL FALANDO SOBRE... HISTÓRIA DO BRASIL EM AULA MINISTRADA EM LABORATÓRIO DE INFORMÁTICA

As fases na resolução de um problema real podem, de modo geral, ser colocadas na seguinte ordem:

O uso de Objetos de Aprendizagem como recurso de apoio às dificuldades na alfabetização

MODELO CMM MATURIDADE DE SOFTWARE

CAPÍTULO 6 - ESTRUTURA DE SELEÇÃO

Por que o quadrado de terminados em 5 e ta o fa cil? Ex.: 15²=225, 75²=5625,...

Bacharelado em Ciência e Tecnologia Bacharelado em Ciências e Humanidades. Representação Gráfica de Funções

Métodos Matemáticos para Gestão da Informação

Gabarito da Prova de Oficinas dos Velhos Ano 2008

Luciano Silva Rosa Contabilidade 03

)HUUDPHQWDV &RPSXWDFLRQDLV SDUD 6LPXODomR

1. Avaliação de impacto de programas sociais: por que, para que e quando fazer? (Cap. 1 do livro) 2. Estatística e Planilhas Eletrônicas 3.

Lista de verificação (Check list) para planejamento e execução de Projetos

UTILIZANDO PROGRAMAS EDUCACIONAIS

MAE Teoria da Resposta ao Item

Análise e Desenvolvimento de Sistemas ADS Programação Orientada a Obejeto POO 3º Semestre AULA 03 - INTRODUÇÃO À PROGRAMAÇÃO ORIENTADA A OBJETO (POO)

Roda de Samba. Série Matemática na Escola

Capítulo 7 Medidas de dispersão

Decidir como medir cada característica. Definir as características de qualidade. Estabelecer padrões de qualidade

Unidade VI. Validação e Verificação de Software Teste de Software. Conteúdo. Técnicas de Teste. Estratégias de Teste

CEAHS CEAHS. Grupo Disciplinas presenciais Créditos Mercado da Saúde Ética e aspectos jurídicos 1

CONCURSO PÚBLICO ANALISTA DE SISTEMA ÊNFASE GOVERNANÇA DE TI ANALISTA DE GESTÃO RESPOSTAS ESPERADAS PRELIMINARES

Cálculo Numérico Aula 1: Computação numérica. Tipos de Erros. Aritmética de ponto flutuante

Matemática Financeira Módulo 2

PONTIFÍCIA UNIVERSIDADE CATÓLICA DE GOIÁS Curso Superior de Tecnologia em Análise e Desenvolvimento de Sistemas

A Tecnologia e Seus Benefícios Para a Educação Infantil

Este material traz a teoria necessária à resolução das questões propostas.

Resoluções comentadas das questões de Estatística da prova para. ANALISTA DE GERENCIAMENTO DE PROJETOS E METAS da PREFEITURA/RJ

ÍNDICE DE DESENVOLVIMENTO DA EDUCAÇÃO BÁSICA (IDEB): METAS INTERMEDIÁRIAS PARA A SUA TRAJETÓRIA NO BRASIL, ESTADOS, MUNICÍPIOS E ESCOLAS

Material Teórico - Módulo de Divisibilidade. MDC e MMC - Parte 1. Sexto Ano. Prof. Angelo Papa Neto

Atividade 4 - Acerte no alvo

Organizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU

AMBIENTE PARA AUXILIAR O DESENVOLVIMENTO DE PROGRAMAS MONOLÍTICOS

Contagem I. Figura 1: Abrindo uma Porta.

CURSO: LICENCIATURA DA MATEMÁTICA DISCIPLINA: PRÁTICA DE ENSINO 4

PÓS GRADUAÇÃO EM CIÊNCIAS DE FLORESTAS TROPICAIS-PG-CFT INSTITUTO NACIONAL DE PESQUISAS DA AMAZÔNIA-INPA. 09/abril de 2014

AVALIAÇÃO DE INTERFACES UTILIZANDO O MÉTODO DE AVALIAÇÃO HEURÍSTICA E SUA IMPORTÂNCIA PARA AUDITORIA DE SISTEMAS DE INFORMAÇÕES

Técnicas e Instrumentos Utilizados na Pesquisa Científica Cavalcanti

Palavras-chave: Educação Matemática; Avaliação; Formação de professores; Pró- Matemática.

Oficina de Apropriação de Resultados. Paebes 2013

11 de maio de Análise do uso dos Resultados _ Proposta Técnica

2 A Derivada. 2.1 Velocidade Média e Velocidade Instantânea

Transcrição:

Antonio Alves de Oliveira Filho Mariana Alves da Fonseca ANÁLISE DE ITENS E DA CONFIABILIDADE DE UM TESTE DE AVALIAÇÃO DE CONHECIMENTOS - UM ESTUDO DE CASO Projeto apresentado na disciplina de Laboratório de Estatística II do Curso de Estatística do Departamento de Estatística do Setor de Ciências Exatas da Universidade Federal do Paraná. Orientador: Prof. Dr. Anselmo Chaves Neto Curitiba, Junho de 2006

SUMÁRIO 1 INTRODUÇÃO... 4 1.1 O Problema... 4 1.2 Objetivo... 5 1.3 Justificativa... 5 1.4 Estrutura do Trabalho... 5 2 REVISÃO DE LITERATURA... 6 2.1 Teoria Clássica... 6 2.1.1 Confiabilidade de um teste... 8 2.1.2 Coeficiente de Correlação Linear de Pearson... 10 2.1.3 Coeficiente de Correlação Bisserial de Ponto... 11 2.1.4 Coeficiente de Correlação Bisserial... 11 2.2 Teoria de Resposta ao Item... 13 2.2.1 Modelos e Métodos de Estimação da TRI... 14 2.2.2 Modelo logístico unidimensional de um parâmetro... 15 2.2.3 Modelo logístico unidimensional de dois parâmetros... 16 2.2.4 Modelo logístico unidimensional de três parâmetros... 16 2.2.5 Métodos de Estimação na Teoria da Resposta ao Item... 17 2.2.5.1 Estimação dos parâmetros dos itens para habilidades conhecidas... 18 2.2.5.2 Estimação dos parâmetros dos itens para habilidades desconhecidas... 20 2.2.5.3 Estimação das habilidades... 21 3 MATERIAIS E MÉTODOS... 24 3.1 Programas computacionais... 25 4 RESULTADOS E DISCUSSÃO... 28 4.1 Antes da instrução da disciplina.... 28 4.1.1 O item mais difícil... 28 4.1.2 O item mais fácil... 29 4.1.3 O item mais discriminante.... 30 4.1.4 O item menos discriminante... 31 4.1.5 Estimativas dos parâmetros... 32 4.2 Após a Instrução da Disciplina... 35 4.2.1 O item mais difícil... 35 4.2.2 O item mais fácil... 37 4.2.3 O item mais discriminante.... 38 4.2.4 O item menos discriminante... 39 4.2.5 Estimativas dos parâmetros... 40 2

4.3 Comparativo Antes x Depois... 43 4.3.1 Habilidades... 43 4.3.2 Grau de dificuldade... 45 5 CONCLUSÃO... 48 6 CRONOGRAMA... 49 REFERÊNCIAS BIBLIOGRÁFICAS... 50 ANEXOS... 52 Anexo I Instrumento de Avaliação... 53 Anexo II Curvas Características de todos os Itens... 60 Anexo III - Quadro de Probabilidades... 61 Anexo IV - Tabela das Habilidades... 62 3

1 INTRODUÇÃO 1.1 O Problema Na educação o papel da avaliação é de fundamental importância, pois depende dela a progressão serial dos educandos e toda a sua vivência acadêmica. O instrumento de avaliação (teste, prova, etc) deve ser bem construído e os itens que o compõem devem ter as propriedades que o classifique como confiável. Hoje em dia, no Brasil, a educação tem alguns problemas que são originários, principalmente, da desigualdade na distribuição de renda. Vários estudos apontam a evasão e a repetência como os principais problemas no Sistema Educacional Brasileiro. A evasão em alguns cursos do ensino superior é preocupante. Na área de Ciências Exatas a evasão atinge níveis superiores a 50%. No que diz respeito à educação propriamente dita, em sala de aula, para otimizar o aprendizado do aluno é imprescindível que o educador realize periodicamente avaliação de desempenho dos educandos, assim como avaliação de seu próprio desempenho. A adoção desse tipo de procedimento com determinada periodicidade viabiliza o constante aprimoramento no processo de orientação por parte do educador e aprendizagem por parte do aluno. Atrelado à proposta de constante avaliação do planejamento adotado pelo educador - entenda-se por educador, além do professor de determinada disciplina/curso também a instituição de ensino onde o aluno está acompanhando este curso - se faz necessário o uso de ferramentas que permitam a avaliação fiel do que está sendo desenvolvido atualmente. Assim, é indispensável à criação e manutenção de um sistema de mensuração de aprendizagem capaz de fornecer informações consistentes, periódicas e comparáveis. Logo, as metodologias científicas que fundamentam tal sistema devem apresentar consistência e confiabilidade nos resultados apresentados. 4

1.2 Objetivo O objetivo desse trabalho é abordar as teorias da avaliação educacional, tanto a Teoria Clássica, quanto a Teoria da Resposta ao Item (TRI) nos seus vários aspectos. E, aplicá-las na análise de dados reais do ensino superior. O instrumento de avaliação usado para obtenção dos dados foi aplicado aos estudantes da disciplina CE204-Cálculo de Probabilidades I do Curso de Estatística da Universidade Federal do Paraná, antes da instrução dessa disciplina e depois da instrução da disciplina, quatro meses depois. A confiabilidade do instrumento também foi avaliada. O foco principal do trabalho está na avaliação das habilidades dos alunos em cada item. 1.3 Justificativa Este trabalho se justifica por várias razões. Em primeiro lugar deve-se considerar que o estudo das teorias de avaliação (clássica e da resposta ao item - TRI), pelo conteúdo estatístico que as compõem necessitam ser do conhecimento dos estatísticos; por outro lado não existe um conhecimento completo sem uma aplicação real que motive os resultados teóricos e finalmente, a análise do instrumento de avaliação em uma disciplina fundamental do Bacharelado em Estatística fornece informações relevantes, tanto para os professores, quanto para a Coordenação do Curso. A avaliação tem que se adequar a uma situação de real preocupação com o aluno e oferecer elementos para que alunos e professores possam esclarecer os seus reais propósitos, o que pretendem efetivamente conseguir e principalmente que a avaliação se torne uma motivação para a aprendizagem e o direcionamento correto dos educandos e também dos professores, por isso acreditamos que este trabalho possa contribuir de maneira positiva na reflexão da realidade acadêmica. 1.4 Estrutura do Trabalho Neste trabalho consta, além dessa introdução, uma revisão da literatura sobre o tema no segundo capítulo, material e métodos no 3 capítulo, resultados e discussão no 4 capítulo, conclusão no 5, cronograma, referências bibliográficas e anexos. 5

2 REVISÃO DE LITERATURA A revisão de literatura aborda livros e artigos que constam da bibliografia, a seguir, e que tratam dos seguintes assuntos: Teoria Clássica da Avaliação - Medidas da confiabilidade de um teste - Coeficientes de correlação serial, bisserial e de Pearson. Teoria da Resposta ao Item. 2.1 Teoria Clássica É bem conhecido que avaliação educacional, assim como suas medidas, começaram a tomar corpo com os trabalhos de Ralph W. Tyler, principalmente aquele publicado no início da década de 40. A partir do trabalho de Tyler, surgiram vários modelos de avaliação tais como o de Hammond, o de Metfessel e Michael em 1967, e também os programas de avaliação da década de 1970, como o National Assesment of Educational Progress entre outros. Heraldo M. Vianna descreve muito bem as idéias que dominam estes trabalhos no seu livro de 1988. O trabalho de Cronbach de 1963, propõe várias direções para trabalhos futuros em avaliação educacional. Cronbach nesse trabalho estuda o relacionamento entre a avaliação e a tomada de decisão. E, ainda, verifica que uma boa decisão só ocorre quando o problema que provoca a decisão está bem avaliado; descreve as várias faces da avaliação educacional e aborda, também, a questão da performance do educando como indicador da qualidade do curso. Segundo Ralph W. Tyler o objetivo principal da avaliação é verificar de tempos em tempos o desempenho da escola na educação dos alunos. Conseqüentemente este processo favorece uma reflexão, por parte dos educadores, e correção do rumo dos objetivos educacionais. Como os objetivos educacionais da escola pretendem alcançar a formação plena do aluno, é de fundamental importância se ter informações que possam conduzir a uma orientação eficiente durante o processo educacional. E, essas informações só podem ser fornecidas por avaliações eficientes. Ainda, segundo Tyler em Viana, o processo de avaliação sistemática favorece a identificação e correção de vários problemas educacionais que podem estar presentes na comunidade escolar. 6

Segundo Cronbach, em Viana, a avaliação é uma atividade que tem várias formas e conseqüentemente provoca vários tipos de decisões. Ainda, Cronbach em Viana afirma que avaliação conduz a: Verificar se a prática didática pedagógica, bem como o material de instrução, são eficazes; Identificar as dificuldades dos educandos e conseqüentemente a um planejamento educacional adequado; Verificar a eficiência do processo educacional como um todo, ou seja, métodos e professores. Ainda, segundo Cronbach em Viana, a avaliação visa a melhoria do ensino e deve ter como objetivo principal verificar os resultados do ensino no comportamento do educando. De modo que a avaliação, quando bem analisada, aponta as componentes do ensino que necessitam de um re-trabalho. E, a comparação de cursos deve ser feita com muito cuidado, pois existem diferenças não só entre os educandos dentro dos grupos em comparação, como também, e principalmente, entre os grupos. Hoje em dia pode-se traçar um paralelo entre o processo de ensino e avaliação com o chamado ciclo de Shewhart também conhecido como ciclo PDCA, das palavras em inglês que significam planejar, fazer, avaliar e realimentar. O ciclo PDCA é muito utilizado na economia visando o aperfeiçoamento dos processos de produção. Seguindo este ciclo, o que se deve fazer é planejar uma ação, aplicá-la, verificar os resultados e realimentar o planejamento e continuar sucessivamente e continuamente, de modo a que se alcance um aperfeiçoamento continuo do processo de ensino na sua forma plena. A figura 01 representa bem este ciclo: Figura 01 Ciclo PDCA 7

Finalmente, de acordo com Viana, pode-se concluir que Ralph W. Tyler trata da avaliação educacional tendo em vista os objetivos que devem ser fixados levando-se em conta o estudante, a sociedade e o conteúdo. Já Cronbach considera que a avaliação educacional exige evidências dos resultados, deve determinar as mudanças que ocorreram no educando por força do ensino, e, ainda, que a análise dos itens de forma isolada é mais útil que simplesmente um escore total. O processo educativo é dinâmico e composto por etapas. Então, a avaliação educacional tem que corresponder a cada fase e conseqüentemente tem as seguintes modalidades: Diagnóstica, que é feita quando da entrada do educando no sistema e conseqüentemente suas limitações devem ser identificadas para subsidiar o planejamento do ensino; Formativa, que é feita durante todo o processo de ensino e aprendizagem de modo a que os educadores possam controlar todo o processo e fazer as correções que se façam necessárias; Somativa, que é feita quando da saída do ciclo didático, de cada unidade ou de determinada disciplina, de modo que se possa controlar a qualidade dos resultados finais. Resumindo, a avaliação conceitualmente trata-se de uma descrição quantitativa de processos ou educandos quanto a características próprias em conjunto com juízo de valor e com objetivos bem definidos. Quanto ao desenvolvimento, trata-se de um processo sistemático e contínuo, que envolve fins, meios, processos e os resultados, começando com o planejamento e terminando com o julgamento da eficiência do processo quanto aos resultados obtidos. Do ponto de vista de modalidades, pode-se dizer que ela é diagnóstica, formativa e somativa. 2.1.1 Confiabilidade de um teste A confiabilidade ou fidedignidade de um teste trata da estabilidade dos resultados e é desejável que eles sejam o mais consistente possível. Então, a confiabilidade (fidedignidade) de um teste pode ser estimada pelo coeficiente de correlação entre dois conjuntos de escores obtidos, independentemente, para um mesmo grupo. O conceito de confiabilidade está associado com a idéia estatística de consistência. Mas, confiabilidade não significa um desempenho ideal sem falhas. Na 8

verdade existe uma gradação na confiabilidade, não sendo necessariamente tudo ou nada. Um teste é confiável dependendo de três fatores: do teste por si mesmo, das condições de aplicação e do grupo de examinandos. Assim, a interação entre esses três fatores determina a confiabilidade do teste. A confiabilidade é usada para descrever e avaliar os escores que examinandos obtêm em testes educacionais e é dada pela seguinte expressão: 2 s vi fi = 2 s ŷi s s 2 2 ŷi ε = 2 s ŷi (2.1) Este coeficiente corresponde à correlação entre os escores dos testes. A estimativa indireta dessa quantidade é dada pelo coeficiente de correlação amostral entre os resultados obtidos nas duas aplicações. Mas, deve-se alertar que a estatística chamada coeficiente de correlação, embora varie de 1 a +1, deve indicar uma relação direta, ou seja, sua variação fica definida entre os valores de 0 a 1. Considerando os resultados de duas aplicações, o estimador é: fi = ρˆ (X 1,X 2 ) = n i= 1 (x 1i x1)(x n n 2 (x1i x1) i= 1 i= 1 2i (x x 2 ) 2i x 2 ) 2 (2.2) Um teste é composto por uma amostra de conteúdos abordados nos itens. No caso de um tamanho da amostra for muito pequeno, a chance de um examinando não ter estudado alguns daqueles poucos conteúdos será maior e isto influenciará o seu escore. Neste contexto, podemos utilizar a fórmula de Spearman-Brown, para medir a confiabilidade de um teste, porém neste estudo caso não deve ser aplicada,por se tratar de uma amostra de tamanho razoável. Uma outra maneira de se medir a confiabilidade de um teste é aplicar a fórmula de Kuder-Richardson, indicado para este estudo, por se tratar de dados discretos e todos os itens serem dicotômicos. A expressão desse estimador da confiabilidade é: n θi (1 θi ) n i= 1 ρ KR = (1 ), onde: (2.3) 2 n 1 s θ i é a proporção dos examinandos que responderam corretamente ao item i; n é o número de itens do teste; s 2 é a variância dos escores do teste; N é o número de examinandos que fizeram o teste. 9

A estimativa da variância do teste s 2 examinandos, conforme (2.4) : é feita com base nos N escores dos s 2 = N i= 1 (ESC ESC) i N 1 A confiabilidade dos testes aplicados aos alunos da disciplina CE204 - Cálculo de Probabilidades I do Curso de Estatística da Universidade Federal do Paraná, antes da instrução dessa disciplina e depois da instrução da disciplina, foi calculado por: 2 (2.4) 51 9,55 ρ KR(antes) = (1 ) 2 51 1 8,16 51 9,83 = 0,87 ρ KR(depois) = (1 ) 2 51 1 7,41 = 0,84 Note que os dois testes possuem um bom grau de confiabilidade, considerando que o nível ideal deve ser acima de 0,90. A redução da confiabilidade após a instrução da disciplina pode ser atribuída a uma variação aleatória. 2.1.2 Coeficiente de Correlação Linear de Pearson Coeficientes de correlação são medidas utilizadas com o objetivo de verificar relação entre duas variáveis, indicando seu grau de associação. O coeficiente mais conhecido e utilizado é o coeficiente de correlação de Pearson. Criado pelo inglês Karl Pearson, este coeficiente indica a correlação linear entre duas variáveis e seu estimador é definido pela razão entre a covariância das duas variáveis e o produto de seus desvios padrões, também equivalente à esperança das duas variáveis aleatórias padronizadas: ρˆ (X,Y) = n i= 1 (x x)(y n n 2 (x i x) i= 1 i= 1 i i y) (y y) i 2 = S s x xy s y (2.5) O valor desse coeficiente varia no intervalo de 1 a +1. Valores positivos indicam uma associação direta entre duas variáveis, ou seja, o crescimento de uma das variáveis está relacionado ao crescimento da outra. Valores negativos acusam uma associação inversa entre as duas variáveis, indicando que o aumento na escala de uma das variáveis está associado ao decréscimo dos valores da outra. Alguns autores apontam a existência de alta correlação quando o valor absoluto do coeficiente linear de Pearson é superior a 0,90, porém sabe-se da 10

existência de correlação entre duas variáveis mesmo com valores inferiores ao mencionado anteriormente. Ainda, se o coeficiente de correlação entre duas variáveis é nulo elas são não correlacionadas. É importante ressaltar que o coeficiente de Pearson não deve ser utilizado de forma indiscriminada, pois apresenta limitações quanto à sua aplicação. Deve ser usado apenas quando as duas variáveis são contínuas, o relacionamento entre elas é linear e o número de pares de observações não for muito baixo. Apesar de o software Bilog apresentar em suas saídas o coeficiente de Pearson, no caso deste estudo este coeficiente não deve ser considerado, pois a natureza das variáveis estudadas não é contínua. 2.1.3 Coeficiente de Correlação Bisserial de Ponto Muito utilizado na área da educação, o coeficiente de correlação bisserial de ponto é indicado quando uma das variáveis é contínua e a outra é dicotômica. Sua interpretação é similar a do coeficiente de Pearson e é dado pela seguinte expressão: ˆρ pb = Xp Xt s t. θˆ 1 θˆ, (2.6) onde: Xp é a média dos escores dos examinandos que responderam ao item corretamente, X t é a média global dos escores, s t é o desvio padrão do teste θˆ é a proporção de examinandos que responderam ao item corretamente. 2.1.4 Coeficiente de Correlação Bisserial Similar ao coeficiente de correlação bisserial de ponto, este coeficiente deve ser utilizado quando uma das variáveis é discreta e a outra é dicotômica. É aplicado quando o escore está numa graduação e tem-se certo ou errado para cada item. É dado pela seguinte expressão: ˆρ b = Xp X t s t. ŷ θ, (2.7) 11

onde: Xp é a média dos escores dos examinandos que responderam ao item corretamente, X t é a média global dos escores, s t é o desvio padrão do teste θˆ é a proporção de examinandos que responderam ao item corretamente. y é a ordenada na curva Normal Padrão correspondente à área de θˆ O coeficiente de correlação bisserial corresponde ao índice de discriminação do item. O software Bilog apresenta os valores estimados para este coeficiente em suas saídas. 12

2.2 Teoria de Resposta ao Item As principais ferramentas estatísticas utilizadas na avaliação educacional são a Teoria Clássica da Avaliação, também conhecida como Teria Clássica de Medidas e a Teoria da Resposta ao Item - TRI. A Teoria Clássica da Avaliação foi desenvolvida anteriormente a TRI e contempla medidas educacionais importantes, porém apresenta algumas limitações quando comparada a outras teorias aplicadas com a mesma finalidade a análise de avaliação educacional. Por se tratar de uma metodologia computacionalmente complexa, devido às dificuldades de algumas análises, que exigem grande poder de processamento e avançados softwares, a utilização da TRI é recente. No Brasil os primeiros estudos envolvendo esta metodologia se deram apenas no início da década de 90. Em conseqüência da evolução da tecnologia da informática, o desenvolvimento e a viabilidade de aplicação da Teoria da Resposta ao Item apresentaram um notável progresso na última década. A TRI possui grandes vantagens sobre a Teoria Clássica da Avaliação. O que diferencia, de forma fundamental, as duas metodologias é que: a Teoria Clássica de Medidas se baseia em resultados obtidos em provas através de escores brutos ou padronizados. Esse tipo de medida apresenta uma limitação de aplicabilidade, pela dependência ao conjunto de itens que compõem o instrumento de medida. Por outro lado, os modelos matemáticos da TRI garantem a independência do item com a habilidade do examinando; a TRI propõe modelos probabilísticos para variáveis que não são medidas diretamente, tendo como característica principal o item, podendo-se entender por item, neste caso, cada questão da prova aplicada aos estudantes da disciplina CE204 - Cálculo de Probabilidades I, que constituem a representação da habilidade que se pretende medir. Na TRI é possível estimar a habilidade do indivíduo conhecendo-se os parâmetros dos itens; estimar os parâmetros dos itens conhecendo as habilidades dos indivíduos ou obter a estimação de ambas as medidas simultaneamente. A Teoria Clássica, por tratar apenas o escore total de uma avaliação e não tratar os itens de um instrumento de medida individualmente não possibilita a estimação dos parâmetros relativos a cada item; os modelos utilizados na estimação dos parâmetros da TRI transmitem informação sobre a probabilidade do examinando, com uma habilidade específica, 13

acertar certo item de um teste; informação cuja obtenção não é possível se utilizada a Teoria Clássica. Ainda, a TRI permite uma melhor análise de cada item que constitui o instrumento de avaliação, considerando algumas características, como as que medem a capacidade de discriminar os indivíduos e as dificuldades dos itens; permite conhecer, diretamente, quais itens estão produzindo a informação gerada e também permite a comparabilidade dos resultados produzidos para grupos de indivíduos diferentes, mesmo quando instrumentos parcialmente diferentes são aplicados. A Teoria da Resposta ao Item pode ser utilizada com o propósito de avaliar o que os alunos sabem e são capazes de fazer, em diversos momentos de seu percurso escolar, permitindo comparar populações, comparar indivíduos dentro de cada população e avaliar os itens que compõem o teste e não, somente, o teste como um todo, como mencionado anteriormente. A utilização desta nova metodologia nas avaliações educacionais vem possibilitando avanços em termos do acompanhamento do desenvolvimento escolar antes não possível, conforme afirma Valle (2001), já que hoje se pode avaliar o rendimento escolar de uma população pertencente a uma determinada série e ainda comparar os resultados de provas diferentes aplicadas em populações distintas (de uma série para outra), desde que haja itens comuns entre as provas. Na análise dos itens usando a TRI é possível detectar em que etapa de construção dos conhecimentos os alunos se encontram, ou seja, quais os conteúdos dominados, podendo avaliar o nível de desempenho como um todo, assim como de cada item aplicado, identificando quais os temas de maior grau de dificuldade apresentado pelos alunos. Desta forma, pode-se alcançar um diagnóstico mais preciso, característica que diferencia a TRI da Teoria Clássica da Avaliação. 2.2.1 Modelos e Métodos de Estimação da TRI Os modelos matemáticos utilizados pela Teoria da Resposta ao Item envolvem a determinação dos níveis de discriminação e dificuldade e a probabilidade de acerto ao acaso para cada item do instrumento de medida de construto. Esses modelos se diferenciam em termos do número de parâmetros, podendo apresentar um, dois ou três parâmetros. São utilizados modelos logísticos cuja aproximação para distribuição normal é obtida substituindo, na função logística, o valor do parâmetro D de 1 para 1,7. Este fator de escala D faz com que para uma dada 14

habilidade (θ ) a probabilidade P(U =1 θ) seja aproximadamente a mesma nos dois tipos de modelo e, conseqüentemente, permite que os valores das habilidades dos indivíduos sejam estimados com valores muito próximos em ambos os casos. O modelo logístico utilizado neste estudo pressupõe a unidimensionalidade da prova aplicada, ou seja, deve haver apenas uma habilidade responsável pela realização de todos os itens desta prova, indicando o grau de desempenho do aluno. Para este estudo a habilidade responsável pela realização de todos os itens da prova pode ser descrita como o conhecimento básico em cálculo de probabilidades, envolvendo conceitos de contagem, números binomiais, análise combinatória e probabilidade. Como os itens que compõem a prova são dicotômicos, ou seja, de respostas certas ou erradas considera-se o modelo de forma dicotômica. Os três modelos usualmente utilizados são descritos a seguir. 2.2.2 Modelo logístico unidimensional de um parâmetro Foi criado em 1960 pelo matemático dinamarquês George Rasch e considera apenas o índice de dificuldade (b i ) do item. Também conhecido como The Rasch é dado pela seguinte expressão: ( θ b ) j i e P(U ij = 1 θ j ) = ( j bi ) 1+ e θ i = 1,...,n, j = 1,...,N e θ j R, b i R (2.8) onde: P(U ij = 1 θ j ) é a probabilidade de um examinando escolhido ao acaso e com habilidade θ j responder corretamente ao item i; b i é o parâmetro que indica o índice de dificuldade do item i; n é o número de itens do teste; N é o número de examinandos que realizaram o teste; O parâmetro de dificuldade do item pode ser alterado à medida em que os estudantes passam a realizar o teste e a responder corretamente ou incorretamente ao item. Os valores para b i variam neste modelo de -2 a +2, sendo que valores próximos a -2 são considerados itens fáceis e os valores próximos a +2 são considerados itens difíceis. 15

2.2.3 Modelo logístico unidimensional de dois parâmetros Este modelo foi inicialmente proposto por Lord com base na distribuição normal padronizada e em seguida Birnbaum alterou o suporte deste modelo para a função logística. Considera apenas os índices de dificuldade e discriminação do item e é representado pela seguinte expressão: Dai ( θ bi ) e P(U i =1 θ) = i = 1,2,...,n ; θ R ; b Dai ( θ bi ) i R e a i R e D R,...(2.9) 1+ e onde: P(Ui=1 θ) é a probabilidade de que um examinando escolhido ao acaso e com habilidade θ responda corretamente ao item i; b i é o parâmetro que indica o grau de dificuldade do item i; a i é o parâmetro que indica o grau de discriminação do item i; n é o número de itens do teste; D é um fator de escala que aproxima a função logística da Gaussiana 2.2.4 Modelo logístico unidimensional de três parâmetros Este modelo resultou da incorporação do parâmetro que representa a probabilidade de acerto ao acaso ao modelo de dois parâmetros. Sua forma é dada por: Dai ( θ bi ) e P(U i =1 θ) = c i +(1- c i ) i = 1,2,...,n; θ R; b Dai ( θ bi ) i R; a i R;c i R + e D R (2.10) 1+ e onde, P(Ui=1 θ) é a probabilidade de que um examinando escolhido ao acaso e com habilidade θ responda corretamente ao item i; b i é o parâmetro que indica o grau de dificuldade do item i; a i é o parâmetro que indica o grau de discriminação do item i; c i é o parâmetro que corresponde a probabilidade de acerto ao acaso do item i; n é o número de itens do teste; D é um fator de escala que aproxima a função logística da Gaussiana 16

A equação acima representa a probabilidade dos alunos responderem corretamente aos itens em função dos três parâmetros (a, b e c), cuja relação é demonstrada através da chamada Curva Característica do Item. O parâmetro c i é conhecido também como parâmetro da pseudochance e, segundo, Lord todo examinando sabe responder corretamente ao item i com probabilidade dada pela expressão acima e se não sabe, tenta acertar ao acaso com probabilidade c i. 2.2.5 Métodos de Estimação na Teoria da Resposta ao Item Neste tópico serão verificados métodos de estimação dos parâmetros e habilidades do modelo logístico unidimensional de três parâmetros. Serão abordados os métodos que utilizam a máxima verossimilhança, mas é importante ressaltar que tais parâmetros também podem ser estimados com a aplicação da Inferência Bayesiana. O modelo unidimensional de três parâmetros apresenta a seguinte forma: (2.11) onde: θ é a habilidade dp indivíduo j; b i é o parâmetro que indica o grau de dificuldade do item i; a i é o parâmetro que indica o grau de discriminação do item i; c i é o parâmetro que corresponde a probabilidade de acerto ao acaso do item i; D é um fator de escala que aproxima a função logística da Gaussiana Serão consideradas as seguintes notações: Y.j = (Y 1j,..., Y ij ) é o vetor de respostas do j-ésimo indivíduo aos I itens ; Y.. = (Y. 1,..., Y.n ) é o conjunto integral de respostas; ζ i = (a i, b i, c i ) é o vetor dos parâmetros do item i; ζ = (ζ 1,..., ζ I ) é o vetor dos parâmetros de todos os itens θ = (θ 1,..., θ n )é o vetor de habilidade de todos os indivíduos. 17

2.2.5.1 Estimação dos parâmetros dos itens para habilidades conhecidas Pela independência entre as respostas dos diferentes indivíduos e a independência local, podemos escrever a verossimilhança como: (2.12) onde na última igualdade temos que a distribuição de Y ij, só depende de ζ através de ζi. Usando a notação P ij = P(Y ij = 1 θ j, ζ i ) e Q ij = 1-P ij, temos que: P(Y ij = 1 θ j, ζ i ) = P(Y ij = 1 θ j, ζ i ) yij P(Y ij = 0 θ j, ζ i ) 1-yij = yij 1-yij P ij Q ij Portanto, a verossimilhança pode ser descrita como: (2.13) Aplicando o logaritmo natural: (2.14) O vetor escore (equações de estimação) é dado por: (2.15), e 18

Como o sistema de equações descrito acima não possui solução explícita devemos utilizar um método interativo para resolvê-lo. Os métodos mais utilizados são o Método de Newton-Raphson e Escore de Fisher. Para a utilização de ambos os métodos é necessário o cálculo da Matriz Hessiana (Informação de Fisher), que é dada por: (2.16) e (2.17) em que (2.18) e Dessa forma, considerando como uma estimativa de ζ i na iteração t, os prodecimentos de Newton-Raphson / Escore de Fisher podem ser definidos como: Newton Raphson (2.19) 19

Escore de Fisher (2.20) 2.2.5.2 Estimação dos parâmetros dos itens para habilidades desconhecidas O processo de estimação dos parâmetros dos itens quando as habilidades são desconhecidas é o método de Máxima Verossimilhança Marginal (MVM). Esse método possui as vantagens de ser factível computacionalmente e possui propriedades muito importantes. A idéia é considerar a existência de uma distribuição de probabilidade associada às habilidades, e considerar que os n indivíduos representam uma amostra dessa distribuição. A densidade g(θ/η) considerada é duplamente diferenciável e as componentes de η são todas conhecidas. O caso mais comum a ser considerado é aquele em que θ apresenta distribuição normal, embora essa não seja a única opção para θ. Logo, a probabilidade marginal de um examinando j apresentar um determinado padrão de respostas y. j é dada por: (2.21) A verossimilhança é dada por: (2.22) E a função logverossimilhança é dada por: (2.23) Para resolver o problema de indeterminação, mantém-se a componente η fixa, e então são obtidas as seguintes equações de estimações para os parâmetros. 20

(2.24) onde: ; ; ; ; e. Como as integrais das equações em (2.24) não possuem solução explícita, é necessário o emprego de métodos numéricos de aproximação de integrais para a obtenção das estimativas dos parâmetros a, b e c. 2.2.5.3 Estimação das habilidades Neste tópico será apresentada a estimação das habilidades por máxima verossimilhança considerando como conhecidos os parâmetros dos itens. O procedimento é realizado da seguinte maneira: utilizamos as estimativas dos parâmetros dos itens na verossimilhança original, obtendo assim uma verossimilhança perfilada, que possui propriedades semelhantes à verossimilhança contínua. 21

A log-verossimilhança pode ser escrita como: (2.25) Expressões relativas aos processos de estimação: vetor escore (2.26) matriz hessiana (2.27) informação de Fisher (2.28) com (2.29) e (2.30) Assim, se considerarmos como uma estimativa de θ j, os métodos de Newton-Raphson e Escore de Fisher podem ser definidos como: Newton Raphson (2.31) 22

Escore de Fisher (2.32) t = 0,1,2, Os estimadores de máxima verossimilhança das habilidades convergem em distribuição para a normal com média igual ao verdadeiro valor das habilidades e variância igual à inversa da Matriz Hessiana (Informação de Fisher). A estimação é feita para cada indivíduo em separado e podem ser usados como parâmetros dos itens as estimativas baseadas em qualquer método. 23

3 MATERIAIS E MÉTODOS A avaliação da habilidade do aluno em cálculo de probabilidades, que se caracteriza por ser uma variável não diretamente medida nem observada, caracteriza um construto teórico. Esta escala de valores é produzida a partir da prova constituída de itens - questões do teste que se associam diretamente ao construto de interesse. Assim, as variáveis produzidas a partir das questões apresentadas no instrumento são variáveis indicadoras do construto que se deseja medir. Neste caso, o construto que se deseja medir é a habilidade dos alunos que realizaram as avaliações da disciplina CE204-Cálculo de Probabilidades I do Curso de Estatística da Universidade Federal do Paraná no início e no final do período letivo do primeiro semestre de 2004. Com intuito de monitorar o aprendizado dos alunos desta disciplina, foi aplicada uma avaliação (anexo 01) em dois momentos. Em um primeiro momento, antes da instrução dessa disciplina, participaram da prova 54 alunos. No segundo momento, no final do período letivo, a prova foi realizada por 53 alunos. O instrumento de avaliação media conhecimentos em contagem, números binomiais, análise combinatória e probabilidade, ao nível do ensino médio. Os estudantes tinham a opção de não se identificar, motivo pelo qual apenas 39 alunos foram comparáveis em relação às duas provas. A correlação usada na análise foi a bisserial, pois os dados são constituídos de pares de variáveis, uma discreta (pontuação total no teste) e uma dicotômica (pontuação de acerto ou erro no item). A confiabilidade foi estimada aplicando-se o método de Kuder-Richardson, devido à gradação do escore ser dicotômica. Tanto o índice de dificuldade, quanto o de discriminação da referida avaliação foram estimados com base no modelo logístico de três parâmetros. 24

3.1 Programas computacionais Desde as primeiras aplicações da Teoria da Resposta ao Item (TRI), especialistas vêm desenvolvendo programas computacionais específicos para análise via TRI, devido a grande quantidade de dados que exigem compilação e também pela complexidade das operações. No Brasil, os programas mais utilizados para análise de itens dicotômicos aplicados para modelos unidimensionais com três parâmetros, ou seja, conjunto de itens medindo um único traço latente, são: BILOG, BICAL, MULTILOG, OPLM, WINSTEPS, BIGSTEPS, CONQUEST entre outros. Existem diversos tipos de situações possíveis para a aplicação destes programas de análise via TRI. Como exemplo, são demonstrados os princípios de aplicação de um deles, o BILOG, desenvolvido pela Scientific Software, Inc.. Este programa possui como entrada um arquivo em linguagem própria, extensão.blg,. conforme figura 02. Figura 02 Tela de entrada do software BILOG Onde: NParm=3 Número de parâmetros do modelo logístico; SAVe Local onde serão salvos os arquivos gerados; NITems=51 Número de itens do teste; SAMple= 54 Tamanho da amostra, isto é o número de alunos avaliados; NALt=5 Número de opções de respostas de cada item.. 25

O Bilog desenvolve-se através de três fases: Fase de entrada e leitura de dados informações de identificação de cada aluno com suas respectivas respostas ao teste. Fase de calibração dos itens estimação dos parâmetros dos itens novos para o presente caso. o método de estimação utilizado pelo programa é o de máxima verossimilhança marginal admitindo-se a independência entre as respostas dos examinandos. Fase de estimação das habilidades dos respondentes para cada aluno a partir dos resultados obtidos na fase anterior, fornecendo ainda a estimativa da média e desvio-padrão da distribuição de habilidades para cada população de alunos. O programa fornece como resultados de saída os seguintes arquivos: Os gráficos com as Curvas Características dos Itens em (antric.plt, deptric.plt) Figura 03 Curva característica do Teste Uma tabela com as estatísticas clássicas da avaliação de itens em (antric.ph1, deptric. ph1) 26

Uma tabela com o número absoluto de acertos e de erros do examinando, percentual, estimativa da habilidade e o seu desvio padrão correspondente (antric.ph3, deptric.ph3 e antric.scor, deptric.scor); Uma tabela com as estimativas dos parâmetros dos modelos probabilísticos da Teoria da Resposta do Item (antric.par, deptric.par); Relatórios com todas as fases do processamento: fase 1, fase 2 e fase 3. Já existem disponíveis implementações feitas para rodar no software R a análise de itens e equalização de testes utilizando-se a Teoria Clássica e a Teoria da Resposta ao Item. Os métodos da máxima verossimilhança marginal e equalização a posteriori média-desvio e média-média são utilizados para a estimação dos parâmetros dos itens da TRI no R. Foi utilizado o programa STATGRAPHICS 5.1 para obter um teste t-pareado de comparação das médias dos alunos, bem como, outras estatísticas descritivas incluídas neste trabalho. 27

4 RESULTADOS E DISCUSSÃO 4.1 Antes da instrução da disciplina. Neste tópico será analisado o comportamento dos parâmetros dos itens considerando as avaliações realizadas pelos alunos da disciplina de CE204 Cálculo de Probabilidades I, antes da instrução da referida disciplina. A intenção é avaliar os conhecimentos que os alunos trouxeram dos ensinamentos obtidos no ensino médio, possibilitando um melhor direcionamento dos conteúdos a serem abordados ao longo do semestre na instrução da disciplina. A seguir são apresentadas as curvas características dos itens limites para o teste. 4.1.1 O item mais difícil o seguinte: O item 45 da avaliação apresentou o maior grau de dificuldade (b 45 = 4,73) e foi Sejam A e B eventos tais que P(A) = 0,2, P(B) = p e P(A B) = 0,6. O valor de p, quando A e B são eventos independentes é: Figura 04 Curva característica do item 45 Função Característica do Item 45 PROB (acertar o item) a = 0.76; b = 4.73; c = 0.07; 1.0 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 c 0.1 b 0 0-5 -4-3 -2-1 0 1 2 3 4 5 Habilidade Metric Type Logistic 28

O item 45 da avaliação apresentou o maior grau de dificuldade e nota-se pela figura XX que este item é pouco discriminante (a 45 = 0,76), isto é, independente da habilidade do avaliado, a probabilidade de acertar este item não sofre um aumento proporcional significativo. Para indivíduos com habilidade entre -5 e aproximadamente 2 a probabilidade de acertar este item parece não se alterar, ao contrário da proficiência, que pode apresentar uma grande variação. 4.1.2 O item mais fácil foi o seguinte: O item 15 da avaliação apresentou o menor grau de dificuldade (b 15 = -0,95) e Para fazer um passeio de final de semana de Curitiba à Paranaguá posso usar os seguintes meios de transporte: carro, trem (litorina) e táxi aéreo. Qual o número de modos de escolher os transportes, sabendo-se que não desejo usar na volta o mesmo meio de transporte. Figura 05 Curva característica do item 15 Função Característica do Item 15 PROB (acertar o item) a = 0.79; b = -0.95; c = 0.22; 1.0 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 c 0.2 0.1 b 0 0-5 -4-3 -2-1 0 1 2 3 4 5 Habilidade Metric Type Logistic O item 15 mostrou-se o mais fácil, isto significa que uma habilidade baixa consegue uma probabilidade relativamente alta de acertar o item, logo ele é o mais 29

fácil. Quanto à discriminação observa-se que como a curva é suave, um deslocamento significativo no eixo da habilidade não causa uma alteração significativa na probabilidade de acerto do item, logo ele é pouco discriminante. 4.1.3 O item mais discriminante. foi o seguinte: O item 40 da avaliação apresentou o maior grau de discriminação (a 40 = 1,94) e Dois jogadores de xadrez jogaram 120 partidas, das quais F ganhou 60, K 40 e 20 terminaram empatadas. Agora, eles combinaram uma seqüência de 3 partidas no próximo mês. Então, a probabilidade de K ganhar as três partidas é: Figura 06 Curva característica do item 40 Função Característica do Item 40 PROB (acertar o item) 1.0 0.9 0.8 0.7 0.6 0.5 a = 1.94; b = 0.51; c = 0.13; 1 0.4 0.3 0.2 c 0.1 b 0 0-5 -4-3 -2-1 0 1 2 3 4 5 Habilidade Metric Type Logistic Observa-se que a curva característica do item é muito íngreme, assim um pequeno deslocamento no eixo da habilidade causa uma alteração significativa na probabilidade de acertar o item. Portanto, ele é fortemente discriminante, sendo também considerado um item moderadamente difícil pela escala adotada, com b 40 = 0,51, sendo que este é um item ideal para que se possa medir o aprendizado dos alunos. 30

4.1.4 O item menos discriminante. O item 11 da avaliação apresentou o menor grau de discriminação (a 11 = 0,63) e foi o seguinte: O número de diagonais de um cubo é Figura 07 Curva característica do item 11 Função Característica do Item 11 PROB (acertar o item) 1.0 0.9 0.8 0.7 0.6 0.5 a = 0.63; b = 1.95; c = 0.24; 1 0.4 c 0.3 0.2 0.1 b 0 0-5 -4-3 -2-1 0 1 2 3 4 5 Habilidade Metric Type Logistic Pode-se ver na figura (XX) que a curva S é pouco suave e se mantém na parte superior do gráfico, ou seja, na área de probabilidade mediana de acertar o item e, ainda, ela cresce de forma progressiva. Portanto, este é um item difícil. Quanto ao índice de discriminação a curva é muito suave indicando que algum deslocamento positivo no eixo das habilidades praticamente não conduz a uma mudança significativa na probabilidade de acertar o item. 31

4.1.5 Estimativas dos parâmetros Na tabela 02 têm-se os valores estimados dos parâmetros de discriminação (a), dificuldade (b) e probabilidade de acerto ao acaso (c) de todos os itens componentes do teste. Foi construída uma escala ordinal para classificar os itens de acordo com o grau de dificuldade, conforme tabela 01: Tabela 01 Escala de dificuldade do item Valor do parâmetro de dificuldade (b) menor -1,5 de - 1,49 a -0,5 de -0,49 a 0,49 de 0,5 até 1,5 acima de 1,5 Fonte: os autores. Grau de dificuldade Muito Fácil Fácil Moderado Difícil Muito Difícil Tabela 02 Estimativas dos Parâmetros Modelo TRI ITEM a b c Grau de dificuldade 1 0,809-0,719 0,208 Fácil 2 0,938 0,817 0,157 Difícil 3 0,777 1,454 0,157 Muito Difícil 4 1,241 1,907 0,107 Muito Difícil 5 1,099-0,669 0,181 Fácil 6 1,447 0,981 0,135 Difícil 7 1,277-0,543 0,184 Fácil 8 1,060 1,026 0,128 Difícil 9 0,969-0,885 0,192 Fácil 10 0,702 3,699 0,117 Muito Difícil 11 0,635 1,952 0,239 Muito Difícil 12 1,036 1,589 0,123 Muito Difícil 13 0,835 1,502 0,218 Muito Difícil 14 0,716-0,217 0,223 Moderada 15 0,795-0,949 0,217 Fácil 16 1,259 2,525 0,086 Muito Difícil 17 1,047 3,156 0,085 Muito Difícil 18 0,876 2,109 0,132 Muito Difícil 19 1,229 1,868 0,118 Muito Difícil 20 1,196 1,729 0,164 Muito Difícil 21 1,227 0,749 0,137 Difícil 22 1,220 1,303 0,189 Difícil 23 0,708 0,235 0,204 Moderada 24 1,005 2,670 0,119 Muito Difícil 25 0,937-0,685 0,208 Fácil 26 1,138 0,268 0,161 Moderada 27 0,918 3,260 0,122 Muito Difícil 28 1,291 0,469 0,149 Moderada 29 1,023 3,273 0,087 Muito Difícil 30 1,219 1,818 0,098 Muito Difícil 31 0,931 1,651 0,133 Muito Difícil 32 1,533-0,083 0,182 Moderada 33 1,250 1,707 0,136 Muito Difícil 34 1,057 1,647 0,146 Muito Difícil 35 1,381 1,397 0,179 Difícil 36 1,407 1,946 0,134 Muito Difícil 32

Tabela 02 Estimativas dos Parâmetros Modelo TRI (continuação) ITEM a b c Grau de dificuldade 37 1,087 0,286 0,217 Moderada 38 1,174 1,043 0,157 Difícil 39 1,754 0,763 0,167 Difícil 40 1,943 0,509 0,130 Difícil 41 1,345 0,994 0,115 Difícil 42 1,208 2,408 0,120 Muito Difícil 43 0,708 3,529 0,111 Muito Difícil 44 1,395 1,197 0,174 Difícil 45 0,758 4,732 0,066 Muito Difícil 46 0,917 2,033 0,176 Muito Difícil 47 0,933 2,647 0,183 Muito Difícil 48 1,310 2,086 0,109 Muito Difícil 49 1,531 0,888 0,127 Difícil 50 1,446 0,862 0,134 Difícil 51 1,112 1,776 0,146 Muito Difícil Fonte: os autores. Na tabela seguinte constam os parâmetros de todos os itens para análise através da Teoria clássica da avaliação. De acordo com essa metodologia o coeficiente de correlação bisserial é utilizado para estimar o índice de discriminação de um item. Tabela 03 Estimativas dos Parâmetros pela Teoria Clássica % de Correlação Item N de acertos Logito acertos Pearson Bisserial 1 36.0 0.667 0.69 0.242 0.314 2 21.0 0.389-0.45 0.370 0.471 3 18.0 0.333-0.69 0.227 0.294 4 9.0 0.167-1.61 0.398 0.594 5 35.0 0.648 0.61 0.354 0.456 6 16.0 0.296-0.86 0.478 0.632 7 34.0 0.630 0.53 0.396 0.506 8 17.0 0.315-0.78 0.424 0.555 9 37.0 0.685 0.78 0.317 0.414 10 7.0 0.130-1.90 0.074 0.118 11 22.0 0.407-0.37-0.041-0.052 12 13.0 0.241-1.15 0.391 0.537 13 21.0 0.389-0.45 0.199 0.254 14 33.0 0.611 0.45 0.203 0.258 15 38.0 0.704 0.86 0.213 0.281 16 5.0 0.093-2.28 0.403 0.705 17 4.0 0.074-2.53 0.296 0.553 18 12.0 0.222-1.25 0.237 0.330 19 10.0 0.185-1.48 0.443 0.644 20 14.0 0.259-1.05 0.322 0.436 21 19.0 0.352-0.61 0.496 0.639 22 18.0 0.333-0.69 0.272 0.353 23 29.0 0.537 0.15 0.152 0.191 24 8.0 0.148-1.75 0.239 0.367 25 36.0 0.667 0.69 0.312 0.405 33

26 25.0 0.463-0.15 0.433 0.543 Tabela 03 Estimativas dos Parâmetros pela Teoria Clássica (continuação) % de Correlação Item N de acertos Logito acertos Pearson Bisserial 27 7.0 0.130-1.90 0.129 0.205 28 22.0 0.407-0.37 0.462 0.585 29 4.0 0.074-2.53 0.252 0.470 30 9.0 0.167-1.61 0.405 0.603 31 14.0 0.259-1.05 0.355 0.480 32 29.0 0.537 0.15 0.468 0.587 33 12.0 0.222-1.25 0.373 0.521 34 14.0 0.259-1.05 0.376 0.509 35 16.0 0.296-0.86 0.321 0.423 36 10.0 0.185-1.48 0.290 0.422 37 28.0 0.519 0.07 0.314 0.394 38 18.0 0.333-0.69 0.348 0.451 39 19.0 0.352-0.61 0.435 0.560 40 19.0 0.352-0.61 0.583 0.751 41 15.0 0.278-0.96 0.525 0.701 42 8.0 0.148-1.75 0.272 0.418 43 7.0 0.130-1.90 0.101 0.161 44 17.0 0.315-0.78 0.347 0.454 45 1.0 0.019-3.97-0.126-0.367 46 15.0 0.278-0.96 0.231 0.309 47 13.0 0.241-1.15 0.099 0.136 48 8.0 0.148-1.75 0.345 0.530 49 16.0 0.296-0.86 0.505 0.667 50 17.0 0.315-0.78 0.482 0.630 51 13.0 0.241-1.15 0.296 0.407 Fonte:os autores. 34

4.2 Após a Instrução da Disciplina Neste tópico foi realizada a análise do comportamento dos itens e seus parâmetros, considerando as avaliações realizadas pelos alunos após a instrução da disciplina de Cálculo de Probabilidades I. A intenção agora é avaliar os conhecimentos que os alunos apresentaram após os ensinamentos obtidos no período letivo, possibilitando posteriormente a análise da evolução desses estudantes e a eficiência da metodologia de estudo aplicada pelo professor na instrução dos conteúdos abordados. 4.2.1 O item mais difícil o seguinte: O item 20 da avaliação apresentou o maior grau de dificuldade (b 20 = 3,26) e foi O valor da expressão n n k = 0 k ak x n-k quando a = x = 1 é : Figura 08 Curva característica do item 20 Função Característica do Item 20 PROB (acertar o item) 1.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 c 0.2 a = 0.78; b = 3.26; c = 0.14; 0.1 b 0-5 -4-3 -2-1 0 1 2 3 4 0 5 Habilidade Metric Type Logistic 2 1

Este item, com enunciado descrito anteriormente e curva característica representada pela figura 08, além de ser tido como o item mais difícil após a instrução da disciplina é também um item classificado como pouco discriminante (a 20 = 0,78), característica comum a itens considerados difíceis. Nota-se que a probabilidade de acerto ao item é praticamente a mesma para indivíduos com habilidade inferior a zero. Apenas para variações na habilidade acima deste valor é que se pode notar uma alteração na probabilidade de acerto do item. Logo, pode ser um item considerado muito difícil e apenas examinandos com habilidades altas possuem probabilidades razoáveis de acertá-lo. Por exemplo, a probabilidade de um indivíduo com habilidade igual a 2 responder corretamente a este item é de 28%, indicando que mesmo com uma habilidade alta a probabilidade de acerto ao item não é muito alta, característica da falta de discriminação deste item. Neste caso a habilidade mais alta alcançada pelos indivíduos que realizaram a prova após a instrução desta disciplina foi o valor 2 e do grupo de 53 alunos que realizaram esta prova apenas 10 alunos responderam corretamente a este item. 36

4.2.2 O item mais fácil foi o seguinte: O item 49 da avaliação apresentou o menor grau de dificuldade (b 49 = -2,72) e Se P(A) = p é a probabilidade de ocorrência do evento A, então a probabilidade do evento A não ocorrer é: Figura 09 Curva característica do item 49 Função Característica do Item 49 PROB (acertar o item) a = 1.21; b = -2.72; c = 0.20; 1.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 c 0.2 0.1 b 0 0-5 -4-3 -2-1 0 1 2 3 4 5 Habilidade Metric Type Logistic 2 1 Pode-se ver na figura 09 que a curva característica do item possui a forma de S e é mais acentuada na parte esquerda superior do gráfico, ou seja, na área onde as probabilidades de acerto são mais altas, característica de um item considerado muito fácil. Nota-se que mesmo para habilidades não muito altas, por exemplo habilidade = 2, a probabilidade de acerto ao item é de aproximadamente 85%. Dos 53 alunos que realizaram a prova após a instrução desta disciplina 51 responderam corretamente a este item. 37

4.2.3 O item mais discriminante. O item 29 da avaliação apresentou o maior índice de discriminação (a 29 = 2,23) e foi o seguinte: Em uma sacola existem 10 cartões com as letras A, M, O e R, sendo 4 letras A, 2 letras M, 2 letras O e 2 letras R. Uma pessoa retira ao acaso quatro cartões da seguinte forma: retira o cartão, olha a letra e repõe o cartão. Faz isto quatro vezes. Então, a chance dela conseguir formar a palavra AMOR é: Figura 10 Curva característica do item 29 Função Característica do Item 29 PROB (acertar o item) a = 2.23; b = 1.36; c = 0.08; 1.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 c 0.1 b 0 0-5 -4-3 -2-1 0 1 2 3 4 5 Habilidade Metric Type Logistic 2 1 Observa-se na curva característica deste item que o primeiro trecho que vai até a habilidade zero, se mantém praticamente paralelo ao eixo das habilidades e em seguida sobe consideravelmente. Isto indica um poder de discriminação muito grande, pois para indivíduos com pouca habilidade (neste caso abaixo de zero) a probabilidade de acerto do item é muito pequeno, próximo de 8%, que é a probabilidade de acerto ao acaso deste item, e esta probabilidade não se altera até atingir a habilidade zero. Após este ponto, nota-se que alterações na habilidade causam alterações significativas na probabilidade de acerto do item. Não é necessário que o indivíduo possua habilidade extremamente alta para acertar a este item, porém se possuir uma habilidade baixa a probabilidade de acerto é baixa. 38

4.2.4 O item menos discriminante. foi o seguinte: O item 2 da avaliação apresentou o menor índice de discriminação (a 2 = 0,55) e O valor da combinação C 4 2 é: Figura 11 Curva característica do item 2 Função Característica do Item 2 PROB (acertar o item) a = 0.55; b = 0.27; c = 0.23; 1.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 c 0.2 0.1 b 0 0-5 -4-3 -2-1 0 1 2 3 4 5 Habilidade Metric Type Logistic 2 1 Ao contrário do item visto anteriormente a curva deste item é muito suave indicando que deslocamentos no eixo da habilidade causam pequenas alterações na probabilidade de acertar o item. Isto indica que o item não é discriminante, de acordo com a estimativa do parâmetro de discriminação, (a 2 = 0,55) o menor observado. 39