III CONBRATRI ANAIS. Congresso Brasileiro de Teoria de Resposta ao Item. Direitos Reservados 2013 Emerson Coe

Tamanho: px
Começar a partir da página:

Download "III CONBRATRI ANAIS. Congresso Brasileiro de Teoria de Resposta ao Item. Direitos Reservados 2013 Emerson Coe"

Transcrição

1 III CONBRATRI Congresso Brasileiro de Teoria de Resposta ao Item ANAIS Direitos Reservados 2013 Emerson Coe

2 Alan

3 Comissão Organizadora Ruben klein, Presidente da Abave Dalton Francisco de Andrade, UFSC / VUNESP, Brasil Heliton Ribeito Tavares, UFPA / VUNESP, Brasil Leandro Lins Marino, ABAVE CESGRANRIO, Brasil Comitê Científico Adriano Borgatto, Universidade Federal de Santa Catarina-UFSC Caio Lucidius Naberezny Azevedo, Unicamp Jorge Luis Bazan Guzman, USP Maria Regina M. Tavares, UFPA Ronald Targino Nojosa, UFC Tufi Machado Soares, UFJF

4 Sumário Artigos Modelo Multidimensional de Teoría de Respuesta al Item Jerárquico 1 30 Diana Stella Antonio Rojas Vestibular FUVEST 2012: uma abordagem sob o enfoque da TRI Edilan de Sant Ana Quaresma, Pedro Alberto Barbetta, Adriano Ferreti Borgatto, Ezequiel Abraham López Bautista, Carlos Tadeu dos Santos Dias Estabilidade da Estimação dos Parâmetros dos Itens em Diferentes Tamanhos Amostrais Felipe Valentini, Nelson Hauck Filho Análise dos Itens de um Teste de Reconhecimento de Emoções por Meio do Modelo Logístico de Dois Parâmetros da TRI Fernando de Jesus Moreira Junior, Silvio José Lemos Vasconcellos, Felipe Argolo Seleção de um Algoritmo Para um Teste Adaptativo Informatizado para Fins de Classificação por Meio de Simulações Fernando de Jesus Moreira Junior, Dalton Francisco de Andrade, Antonio Cezar Bornia Uma Comparação Entre Diferentes Métodos de Estimação do Traço Latente por Meio de Simulações para um Questionário de Satisfação Fernando de Jesus Moreira Junior, Angelica Peripolli, Lais Helen Loose, Rafael Piaia, Vinicius Teodoro Scher, Caroline Pafiadache, Bruna Gregory Palm Avaliação do Nível de Satisfação dos Usuários de um Restaurante Universitário por Meio do Modelo Logístico de dois Parâmetros Fernando de Jesus Moreira Junior, Angelica Peripolli, Lais Helen Loose, Rafael Piaia, Vinicius Teodoro Scher, Caroline Pafiadache, Bruna Gregory Palm Reflexões Acerca do Ajuste do Modelo de Resposta Gradual a um Banco de Dados Multidimensional Fernando de Jesus Moreira Junior, José Renê de Oliveira, Angela Pellegrin Ansuj, Andreas Dittmar Weise Utilização da Teoria da Resposta ao Item na Avaliação de um Questionário para medir Sentimentos sobre a Disciplina de Estatística Fernando de Jesus Moreira Junior, Rosebel Trindade Cunha Prates, Angela Isabel dos Santos Dullius Efeito da Conglomeração e a Qualidade de uma Escala de Mokken: quais as relações? Márcia Santos Andrade, Cristiano Fernandes, Pedro Luís do Nascimento Silva Análise da Prova de Conhecimentos Gerais do Vestibular da UNESP 2012 por Modelos UNI e Multidimensionais da Teoria da Resposta ao Item Pedro Alberto Barbetta, Ligia Maria Vettorato Trevisan, Dalton Francisco de Andrade, Heliton Ribeiro Tavares, Tania Cristina Arantes Macedo de Azevedo

5 Teoria da Resposta ao Item: levantamento exploratório da produção científica Rafael Bernardo de Castro, Thiago Henrique Silva dos Santos, Andréa Cristina Trierweiller, Lucila M. S. Campos, Antonio Cezar Bornia Interpretação de Escala Multidimensional da Teoria da Resposta ao Item: uma aplicação na avaliação de qualidade de websites comerciais Rafael Tezza, Antonio Cezar Bornia, Dalton Francisco de Andrade, Pedro Alberto Barbetta Processo de Composição da Prova SARESP do 5º EF de Matemática Rodrigo de Souza Bortolucci Pôsteres Aplicação da Teoria de Resposta ao Item no Estudo de Habilidades de Alunos de Educação à Distância Alessandra Caetano de Souza, Augusto Sousa da Silva Filho, Anna Gabriela Miranda de Oliveira Aplicação do Modelo Log log de Resposta ao Item Ediane Nascimento Ferreira, Maria Regina Madruga Tavares, Heliton Ribeiro Tavares A Utilização da Teoria da Resposta ao Item para a produção de indicadores de Infraestrutura Escolar Gabriely Teixeira, Neimar da Silva Fernandes, Andressa Soares, Tufi Machado Soares Avaliando a Dimensionalidade de Itens de um Simulado do ENEM Hugo Kenji Pereira Harada, Clecio Donizete Lima, Fabrício Martins da Costa, Heliton Ribeiro Tavares Análise da Eficiência de Estimação de Parâmetros da TRI pelo Software ICL Juscelia Dias Mendonça, Tábata Saturnina Trindade de Morais, Danielle Gonçalves de Oliveira Prado Análise dos Tempos de Respostas em Teste de Leitura em Voz Alta Marcos Antonio da Cunha Santos, Ângela Maria Vieira Pinheiro, Fábio Nogueira Demarqui Propostas de Avaliação em Diferentes Níveis de Proficiência: um estudo comparativo Rodrigo de Souza Bortolucci Modelo de Resposta ao Item com Controle da Heterogeneidade Atribuída a Fatores Conhecidos Rômulo Andrade da Silva, Afrânio Márcio Corrêa Vieira Novo modelo Testlet Assimétrico Sandra Flores, Jorge Bazan, Caio L. N. Azevedo

6 Summary Articles Multidimensional Hierarchical Item Response Theory Model 1 30 Diana Stella Antonio Rojas Entrance examination FUVEST: an approach from the standpoint of TRI Edilan de Sant Ana Quaresma, Pedro Alberto Barbetta, Adriano Ferreti Borgatto, Ezequiel Abraham López Bautista, Carlos Tadeu dos Santos Dias Estimation ot Item Parameters in Different Sample Sizes Felipe Valentini, Nelson Hauck Filho Items Analysis of Emotional Recognition Index Through the Two Parameter Logistic Model IRT Fernando de Jesus Moreira Junior, Silvio José Lemos Vasconcellos, Felipe Argolo Selecting a Computerized Adaptive Testing Algorithm for Classification purpose by Simulations Fernando de Jesus Moreira Junior, Dalton Francisco de Andrade, Antonio Cezar Bornia A Comparison of Different Estimation Methods of Latent Trait through simulations for Satisfaction Questionnaire Fernando de Jesus Moreira Junior, Angelica Peripolli, Lais Helen Loose, Rafael Piaia, Vinicius Teodoro Scher, Caroline Pafiadache, Bruna Gregory Palm Evaluation of User Satisfaction Level of a University Restaurant through the Two Parameters Logistic Model Fernando de Jesus Moreira Junior, Angelica Peripolli, Lais Helen Loose, Rafael Piaia, Vinicius Teodoro Scher, Caroline Pafiadache, Bruna Gregory Palm Reflections About the Adjustment of the Graded Response Model to a Multidimensional Database Fernando de Jesus Moreira Junior, José Renê de Oliveira, Angela Pellegrin Ansuj, Andreas Dittmar Weise Use of Item Response Theory in the Evaluation of a Questionnaire to measure feelings about the Discipline of Statistics Fernando de Jesus Moreira Junior, Rosebel Trindade Cunha Prates, Angela Isabel dos Santos Dullius The Effect of Cluster Sampling Design on Estimation of Loevinger H Coefficient for Mokken Scale Analysis Márcia Santos Andrade, Cristiano Fernandes, Pedro Luís do Nascimento Silva Analysis of the general knowledge test of the admission examination UNESP 2012 for the uni and multi dimensional item response theory Pedro Alberto Barbetta, Ligia Maria Vettorato Trevisan, Dalton Francisco de Andrade, Heliton Ribeiro Tavares, Tania Cristina Arantes Macedo de Azevedo

7 Item Response Theory: exploratory survey of scientific production Rafael Bernardo de Castro, Thiago Henrique Silva dos Santos, Andréa Cristina Trierweiller, Lucila M. S. Campos, Antonio Cezar Bornia Interpretation of Multidimensional Scale of Item Response Theory: an application in quality assessment of commercial websites Rafael Tezza, Antonio Cezar Bornia, Dalton Francisco de Andrade, Pedro Alberto Barbetta The Process of Composition of Mathematics test SARESP to the 5th Year of Elementary School Rodrigo de Souza Bortolucci Posters Application of the Theory of Response to Item no Study Skills for Distance Education Students Alessandra Caetano de Souza, Augusto Sousa da Silva Filho, Anna Gabriela Miranda de Oliveira Application of the Model Log log Item Response Ediane Nascimento Ferreira, Maria Regina Madruga Tavares, Heliton Ribeiro Tavares The use of Item Response Theory to Produce Indicators of School Infrastructure Gabriely Teixeira, Neimar da Silva Fernandes, Andressa Soares, Tufi Machado Soares Dimensionality Assessment of the ENEM Mock Test Hugo Kenji Pereira Harada, Clecio Donizete Lima, Fabrício Martins da Costa, Heliton Ribeiro Tavares Analysis of Efficiency Estimation of the Parameters of Tri Software ICL Juscelia Dias Mendonça, Tábata Saturnina Trindade de Morais, Danielle Gonçalves de Oliveira Prado Analysis of Response Times in Reading Aloud Tests Marcos Antonio da Cunha Santos, Ângela Maria Vieira Pinheiro, Fábio Nogueira Demarqui Proposals of Tests in Differents Levels of Proficiency: a comparative study Rodrigo de Souza Bortolucci Item Response Model with Controlled Heterogeneity Attributed to Known Factors Rômulo Andrade da Silva, Afrânio Márcio Corrêa Vieira A New Testlet model Sandra Flores, Jorge Bazan, Caio L. N. Azevedo

8 a

9 Modelo Multidimensional de Teoría de Respuesta al Item Jerárquico Multidimensional Hierarchical Item Response Theory Model Diana Stella Antonio Rojas Magister en estadística, Universidad Nacional de Colombia Especialista en formulación y evaluación de proyectos, Universidad Católica de Colombia dsantonior@unal.edu.co Resumen Se propone un modelo para analizar datos resultantes de la aplicación de una prueba multidimensional a varias poblaciones, en las que se presentan diferencias en los parámetros de los items entre ellas. Se presentan resultados de la aplicación del modelo propuesto a datos simulados y a una muestra de datos reales provenientes del Primer Estudio Internacional Comparativo sobre Lenguaje, Matemática y Factores Asociados en Tercero y Cuarto Grado (PERCE), que fue aplicada por el Laboratorio Latinoamericano de Evaluación de la Calidad de la Educación. Los datos fueron suministrados por el Instituto Colombiano para la Evaluación de la Educación (ICFES). Se usa una muestra de datos de tres países: Bolivia, Colombia y Cuba. É proposto um modelo para analisar os dados resultantes da aplicação de um teste multidimensional a várias populações, onde hà diferenças nos parâmetros dos itens entre as populações. São apresentados os resultados da aplicação do modelo proposto, em dados simulados e um extracto dos dados reais do Primeiro Estudo Internacional Comparativo sobre Linguagem, Matemática e fatores associados em terceiro e quarto grau (PERCE), que foi aplicado pelo Laboratório Latino Americano para Avaliação da Qualidade da Educação. Os dados foram fornecidos pelo Instituto Colombiano de Avaliação da Educação (ICFES). É usada uma amostra de dados de três países: Bolívia, Colômbia e Cuba. Palavras chave: Teoria da Resposta ao Ítem. Modelos hierárquicos. Funcionamiento diferencial do item. Dimensões dos traços latentes. Abstract Proposes a model for analyzing the data resulting from application of a multidimensional test several stocks, which are differences in the parameters of the items between them.we present results of applying the proposed model to simulated data and a sample of real data from the First International Comparative Study of Language, Mathematics and Associated Factors in Third and Fourth Grade (PERCE), which was applied by the Laboratory for Assessment of the Quality of Education. The data were supplied by the Colombian Institute for the Evaluation of Education (ICFES). We use a data sample of three countries: Bolivia, Colombia and Cuba. Keywords: Item Response Theory. Hierarchical models. Differential item functioning. Dimensions of the latent traits.

10 Diana Stella Antonio Rojas Introducción El modelo desarrollado fue propuesto para el caso en el que existen clusters de respondientes. Se asume que los trazos latentes de los respondientes provienen de una única distribución y las diferencias entre los clusters de respondientes son modeladas relajando la hipótesis de invarianza de la medición. Se usa un modelo jerárquico para modelar las diferencias en los parámetros de los items entre los clusters de personas, en lugar de asumir la invarianza de los parámetros de los items a lo largo de cada uno de los clusters de respondientes. Un enfoque similar fue aplicado por Fox (2010), en el desarrollo del modelo unidimensional de teoría de respuesta al item (TRI) con efectos aleatorios, para el análisis de pruebas unidimensionales aplicadas a personas que pertenecen a diferentes poblaciones. En este trabajo, se extiende el modelo de (Fox 2010) para el caso multidimensional, usando el enfoque jerárquico en lugar del enfoque con efectos aleatorios. Es decir, se incluye la estrategia jerárquica en el modelo multidimensional de TRI (TRIM) (Reckase 2009, pp. 86), teniendo en cuenta que un item puede ser sensible a diferencias en las personas en multiples dimensiones. Cuando las dimensiones son objetivo de la evaluación, los resultados sirven como indicadores válidos de las dimensiones de interés. Cuando subgrupos de la población tienen diferencias en dimensiones que no son objetivo de la evaluación, pueden incluir sesgo en el item. Los análisis con modelos TRIM pueden ayudar a aclarar tanto las diferencias entre las poblaciones, como las razones del funcionamiento diferencial del item FDI (Reckase 2009, pp ). Las diferencias en los parámetros de los items son modeladas jerárquicamente, por lo anterior, el modelo no identifica el FDI. El modelo desarrollado en este trabajo puede aplicarse a pruebas en las cuales existen varias poblaciones o clusters de respondientes, en cuyo caso, es usual que los clusters tengan diferencias entre ellos, por razones culturales, de idioma, sistemas educativos, entre otras. Un ejemplo de ello es la prueba PERCE, que se aplicó en 1997 a estudiantes de 13 países latinoamericanos, con el objetivo de percibir los logros educativos de los países a través de enfoques comparados, que permitieran generar indicadores comunes (Casassus & Cusato 1998b, pp. 7). 2 Anais Nº 1, ano 2013, p. 1 30

11 Modelo Multidimensional de Teoría de Respuesta al Item Jerárquico En el enfoque con efectos aleatorios, se calcula un parámetro global para todos los items, independiente de la población, y un parámetro local en cada población. La diferencia entre el parámetro general y el local, es considerada un efecto aleatorio. El valor del parámetro local corresponde al parámetro global más su efecto aleatorio en esa población. En las pruebas internacionales, el parámetro global es llamado internacional, y el de cada país es llamado nacional. En el modelo propuesto en este trabajo, se estiman parámetros de los items específicos en cada cluster. Al mismo tiempo, se conserva una escala de medición común, porque se estima un parámetro global, que corresponde a la media de toda la población, que sirve como parámetro de comparación de las diferencias en el funcionamiento del item entre cada cluster y la media global. Con el cálculo de parámetros de los items en cada población, no es necesario que los items sean invariantes, ni es necesario clasificarlos como invariantes o no invariantes (Fox 2010, pp. 193). 1. Metodología En este trabajo se generaliza el modelo unidimensional de TRI con efectos aleatorios (Fox 2010), en el sentido de incluir dos conjuntos de parámetros de los items en el modelo TRIM (Reckase 2009, pp. 86). Para estimar los parámetros del modelo propuesto, se desarrolló un algoritmo en base a la metodología descrita en Bolt (2003), se usaron técnicas Bayesianas, como lo han hecho autores como Fox (2010) y Montenegro (2011), entre otros. El modelo propuesto y el procedimiento de estimación se encuentran en la sección 3. Se simularon datos a través de un procedimiento desarrollado en R, a los que se aplicó el modelo TRIM (Reckase 2009) y el modelo propuesto para recuperar los parámetros simulados. Se compararon los re sultados y se evaluó la calidad de la recuperación de los parámetros usando el algoritmo con el que se implementó el modelo. Los resultados se encuentran en la sección 3. Se aplicó el modelo propuesto a un conjunto de datos reales, tomados del Primer Estudio Internacional Comparativo sobre Lenguaje, Matemática y Factores Asociados en Tercero y Cuarto Grado (Casassus & Cusato 1998a), suministrados por el ICFES. Se usó un Anais Nº 1, ano 2013, p

12 Diana Stella Antonio Rojas diseño de muestreo aleatorio simple, para tomar la muestra de tres países: Bolivia, Colombia y Cuba, correspondiente al seis por ciento del total de datos en cada país. Para determinar el número de dimensiones de los trazos latentes se desarrolló un análisis paralelo (Horn 1965), (Reckase 2009, pp. 215) a la muestra de datos reales. Para estimar los parámetros del modelo propuesto se implementó un algoritmo en Winbugs. Winbugs fue desarrollado conjuntamente por la MRC Biostatistics Unit, Cambridge y el Imperial College School of Medicine at St Mary's, Londres, se encuentra disponible para descargar en la página bsu.cam.ac.uk/bugs/winbugs/contents.shtml. Se estimaron los parámetros de los items usando el modelo TRIM clásico (Reckase 2009, pp. 86), con el objetivo de comparar el ajuste de los dos modelos. Se compararon los resultados de la aplicación de los modelos con el Deviance Information Criterion (DIC) (Carlin 2009, pp. 71). Se evaluó el desempeño del modelo propuesto con los métodos Conditional Predictive Ordinate CPO y CPO inverso (Ntzoufras 2009, pp. 344). 2. Resultados y comentários Modelo multidimensional jerárquico TRIMJ En esta sección se introduce el modelo propuesto en este documento, que se denominará "Modelo Multidimensional Jerárquico de dos Parámetros TRIMJ", que es una generalización del modelo de (Fox 2010) en el caso multidimensional. Se estiman dos conjuntos de parámetros de los items: globales y locales; y los parámetros de las personas están compuestos por un vector de trazos latentes para cada individuo. El conjunto de parámetros globales se denota ξ k = (a k d k ), donde a k es el vector de parámetros globales de discriminación del item k, y d k es el parámetro de intercepto global del item k. a k corresponde a un vector de L parámetros, donde L denota el número de dimensiones del espacio de los trazos latentes, hay un parámetro de discriminación en cada dimensión. El conjunto de parámetros locales se denota ξ kg = (a kg d kg ), donde a kg es el vector de L parámetros de discriminación del item k en la población g, y d kg es el parámetro de intercepto del item k en la población g. Los parámetros a kg conforman un vector de K parámetros en cada dimensión l, y estos vectores conforman una matriz de L vectores 4 Anais Nº 1, ano 2013, p. 1 30

13 Modelo Multidimensional de Teoría de Respuesta al Item Jerárquico en cada población g. El modelo incluye K*G*L parámetros de discriminación en total. Los parámetros d kg conforman un vector de K parámetros en cada subpoblación, donde K es el número total de items. El modelo incluye en total una matriz de K*G parámetros de intercepto, donde G es el número total de subpoblaciones. El vector de trazos latentes se denota ig, donde i corresponde al individuo y g a la población a la cual pertenece. El vector ig está compuesto por L parámetros para cada individuo i. Se denota n G al número de personas que conforman la subpoblación g, y el número de personas de la población total se denota N. Es decir, N=(n1 + n2 + n n G ). En total, se estiman N*L parámetros ig. A partir de la anterior descripción de los parámetros, el modelo TRIMJ se define: P (Y igk = 1 ig, kg ) = e a kg ig d kg 1 + e a kg ig +d kg (1) donde Y igk denota la variable aleatoria que representa la respuesta del individuo i de la subpoblación g al item k, para i=1,...,ng, g= 1,...,G y k =1,...,K. Se usa enlace logístico en el modelo TRIMJ porque facilita el proceso de estimación, y las diferencias en los resultados con el enlace normal son mínimas, como se detalla en la sección 2. El exponente expandido de e se escribe como: L a kg ig + d kg = a kg1 ig1 + a kg2 ig2 + a kg3 ig a kg L ig L + d k = a kgl igl + d k l =1 el exponente es el predictor lineal latente del modelo TRIMJ. Para completar el modelo, se propone que: (d kg d k ) N (d k, 2 k ) d (a kg a k ) N M (a k, 2 kg )I A kg (a k ), a para k =1,2,...,K, y g=1,2,...,g. N denota la distribución normal, NM denota la distribución normal multivariada, I denota la función indicadora y A kg = a kg ϵ RL, a kg > 0, donde a kg > 0 se interpreta a kg 1 > 0 y a > 0, hasta a > 0, kg2 kgl Anais Nº 1, ano 2013, p

14 Diana Stella Antonio Rojas para admitir solo valores positivos en el parámetro a kg. En adelante, la pareja de varianzas 2 dk, 2 ak, se denotará 2 ξk. Finalmente, para los trazos latentes, se propone que el trazo latente ig es la realización de una variable aleatoria Ig con distribución normal multivariada, de acuerdo con Bolt (2003): Ig N M (0, L), donde IL es la matriz identidad de orden L. Nótese que si no fuera I, siempre es posible hacer una reparametrización para tener una distribución de los trazos latentes con la matriz = I, lo que implica que la correlación entre las direcciones es muy cercana a cero. Función de verosimilitud Bajo la hipótesis de independencia entre las personas evaluadas e independencia entre las respuestas de la misma persona (independencia condicional), la función de verosimilitud del modelo TRIMJ está dada por: G n g K f (y, ) = P i ygikgk (1 P igk ) 1 y igk, g=1 i=1 k=1 con Pigk = P (Yigk = yigk kg, ig). y representa las respuestas de todos los individuos, representa todos los parámetros de los items y representa los trazos latentes de todos los individuos. Nótese que: Estimación de los parámetros del modelo TRIMJ Los parámetros del modelo propuesto se estimaron con una estrategia Bayesiana. Para estimar los parámetros de discriminación del modelo, es común usar a priori una 6 Anais Nº 1, ano 2013, p. 1 30

15 Modelo Multidimensional de Teoría de Respuesta al Item Jerárquico distribución lognormal (Fox 2010, pp. 35) o una distribución normal truncada (Glas 2001, pp. 545). Para el modelo TRIMJ, se propone una distribución normal multivariada truncada: ak N M (0, IL)IAk(ak) donde I denota la función indicadora y Ak = ak ǫ RL, ak > 0, para admitir solo valores positivos en el parámetro ak. Para los parámetros de intercepto, se propone a priori una distribución normal: dk N (0, 1000). Siguiendo la estrategia usada en Fox (2010, pp. 35) y McKay (2010, pp. 13), se propone para la varianza de los parámetros locales 2 una distribución gamma inversa: 2 gammainv(0.1, 1000). El modelo TRIMJ no es identificable. Para hacerlo identificable, se definieron tres vectores de discriminación como (1,0,0), (0,1,0) y (0,0,1), respectivamente y un vector de parámetros dk se fijó en cero, como es usual en estos casos. El algoritmo desarrollado para estimar los parámetros del modelo TRIMJ a partir de las estrategias descritas, es el siguiente: 1. Definir los valores iniciales para los parámetros de los items: a=1, d=0. 2. Muestrear los parámetros locales akg y dkg para todo kg. 3. Muestrear los parámetros globales ak y dk para todo k. 4. Muestrear los trazos latentes ig para todo ig. 5. Muestrear la varianza de los parámetros locales 2 a k para todo k. 6. Muestrear la varianza de los parámetros locales 2 d k para todo k. 7. Calcular los estadísticos de ajuste del modelo. El algoritmo fue implementado en Winbugs para estimar los parámetros de los items y los trazos latentes. La implementación se desarrolló en base al procedimiento descrito por Bolt (2003). Winbugs fue desarrollado conjuntamente por la MRC Biostatistics Unit, Cambridge y el Anais Nº 1, ano 2013, p

16 Diana Stella Antonio Rojas Imperial College School of Medicine at St Mary's, Londres, se encuentra disponible para descargar en la página bsu.cam.ac.uk/bugs/winbugs/contents.shtml. Simulación Con el objetivo de evaluar la calidad de la recuperación de los parámetros con el algoritmo desarrollado, este se usó para recuperar los parámetros de los items y de los trazos latentes haciendo uso del modelo TRIMJ con varios conjuntos de datos simulados; que varían en número de items, dimensiones y subpoblaciones. Se usó el modelo TRIM clásico con algunos conjuntos de datos, para observar el comportamiento de este modelo con datos con subpoblaciones y para comparar la calidad de la recuperación de parámetros de los dos modelos. Al generar los datos simulados y luego recuperados, se siguió estrictamente el modelo teórico y las restricciones propuestas en la sección 3 para hacer identificable el modelo. Se calculó la correlación, el error absoluto y el error cuadrático medio (ECM) entre los parámetros simulados y recuperados. En esta sección, el criterio de interpretación de los resultados de la comparación entre lo estimado y lo simulado, fue lo que se considera adecuado en la literatura disponible sobre el tema, como Patz et al. (2002) y Bolt (2003). Para generar los datos, se siguió la estrategia propuesta por Kromrey et al. (1999), Montenegro (2011), y se tomó como base el procedimiento desarrollado en R (Team 2008) por Montenegro (2011). R se encuentra disponible para descargar en project.org/. En el procedimiento de simulación de los conjuntos de datos se asignaron valores diferentes a los parámetros de los items de cada subpoblación. Los parámetros de intercepto se simularon de tal manera que tuvieran distribución normal, con media cero y varianza uno. Los parámetros de discriminación fueron si mulados de tal manera que tuvieran distribución lognormal, media cero y varianza 1/4. Los trazos latentes, fueron simulados de tal manera que tuvieran distribución normal, media cero y matriz de varianza la identidad. En el proceso de recuperación de los parámetros se usó un código de Winbugs. Se generaron para todos los casos muestras de las distribuciones posteriores más 8 Anais Nº 1, ano 2013, p. 1 30

17 Modelo Multidimensional de Teoría de Respuesta al Item Jerárquico 1000 iniciales como calentamiento de la cadena. En todos los casos se observó que eran suficientes para la convergencia de las cadenas. El tiempo de estimación osciló entre 1.5 y 12 horas, en un computador con procesador Pentium (R) T GHz, con velocidad de memoria 2 GB. En la tabla 1 se encuentra la descripción de las simulaciones con sus características. Se puede observar que se usaron conjuntos de datos con diferentes características, y se recuperaron los parámetros de los items con el modelo TRIMJ excepto en la simulación 1, y en algunos casos con el modelo TRIM clásico. En los casos donde se describen varias simulaciones con las mismas características, estas se diferencian en que se generó un conjunto de datos diferente para cada simulación, aunque con las mismas características. En la tabla 1 se detalla que en algunos conjuntos de datos los parámetros de discriminación se generaron con distribución normal truncada. Simulación Número de subpoblaciones Tabla 1: Descripción de las simulaciones Número de itens Número de Personas Número de dimensiones TRIM clásico Modelos Usados TRIMJ sin recuperación y con recuperación de los parámetros globales de los items TRIMJ sin recuperación de los parámetros globales de los items TRIMJ sin recuperación y con recuperación de los parámetros globales de los ítems TRIMJ sin recuperación de los parámetros globales de los items TRIMJ sin recuperación de los parámetros globales de los ítems TRIMJ recuperación de los parámetros globales de los ítems TRIMJ sin recuperación y con recuperación de los parámetros globales de los ítems TRIMJ sin recuperación y con recuperación de los parámetros globales de los ítems TRIMJ, distribución normal truncada para los parámetros de discriminación TRIMJ, distribución normal truncada para los parámetros de discrimina ción, tamaños de las poblaciones: 5000 y 50 respectivamente TRIMJ, y TRIM clásico. Distribución normal truncada para los parámetros de discriminación Anais Nº 1, ano 2013, p

18 Diana Stella Antonio Rojas Los resultados de la simulación 1 de la tabla 1 mostraron que cuando se usó el modelo TRIM clásico (Reckase 2009, pp. 86), para observar la calidad de la recuperación de los parámetros cuando no se tienen en cuenta las subpoblaciones, esta fue de menor calidad, respecto al modelo propuesto. La correlación entre los parámetros de los items simulados y recuperados fue superior a 0,9 en la mayoría de los casos, lo que se puede considerar adecuado de acuerdo con la literatura consultada. Sin embargo, el ECM fue superior a 0.7 en general, resultado que no se considera satisfactorio de acuerdo con la literatura, ver por ejemplo Patz et al. (2002) y Bolt (2003). En cuanto a los trazos latentes, en la dimensión 1 la correlación entre los trazos simulados y recuperados fue superior aa 0.7, pero el ECM fue superior al obtenido con el modelo propuesto, y en la dimensión 2 la correlación fue inferior a la obtenida con el modelo propuesto. Los resultados de la simulación 22, descrita en la tabla 1, se pueden observar en las tablas 2 y 3. En esta simulación, se usaron los modelos TRIM clásico y TRIMJ con el mismo conjunto de datos, para comparar la calidad de la recuperación de los parámetros con los dos modelos. Obsérvese en la tabla 2 que los pa rámetros de los items recuperados con el modelo TRIM clásico tuvieron valores de correlación por encima de 0.9, con valores de ECM menores a 0.1, lo que indica, de acuerdo con la literatura consultada, que los parámetros recuperados son similares a los parámetros globales simulados, como se espera. Los paráme tros locales recuperados con el modelo TRIMJ tuvieron una recuperación adecuada, porque los valores de correlación y los valores de error absoluto y ECM, de acuerdo con lo consultado en la literatura sobre el tema. Entre los parámetros reales y recuperados, las correlaciones oscilaron entre 0.7 y 0.8 con los dos modelos, pero nótese que los valores de los errores absolutos y el ECM, fueron mucho más grandes con el modelo TRIM clásico que con el modelo TRIMJ, lo que indica que la recuperación de parámetros del modelo TRIMJ fue de mejor calidad respecto al modelo TRIM clásico, como se espera. 10 Anais Nº 1, ano 2013, p. 1 30

19 Modelo Multidimensional de Teoría de Respuesta al Item Jerárquico Tabla 2: Resultados simulación 22, con el modelo TRIM clásico Media Global Correlación Error absoluto Varianza Error cuadrático a 1 0,976 0,069 0,147 0,089 a ,075 0,126 0,100 d 0,985 0,053 0,198 0,073 Subpoblación 1 1 0,77 0,507 0,632 0, ,79 0,485 0,57 0,611 Subpoblación 2 1 0,78 1,006 0,571 1, ,82 1,042 0,626 1,299 Tabla 3: Resultados simulación 22, con el modelo TRIMJ Media Global Correlación Error absoluto Varianza Error cuadrático a 1 0,984 0,075 0,143 0,089 a 2 0,96 0,102 0,16 0,123 d 0,99 0,061 0,23 0,073 Subpoblación 1 a 1 0,977 0,083 0,179 0,101 a 2 0,967 0,083 0,152 0,112 d 0,991 0,084 0,576 0, ,776 0,506 0,65 0, ,792 0,484 0,606 0,609 Subpoblación 2 a 1 0,95 0,099 0,152 0,13 a 2 0,925 0,134 0,208 0,175 d 0,976 0,099 0,306 0, ,783 0,49 0,582 0, ,823 0,444 0,623 0,567 Anais Nº 1, ano 2013, p

20 Diana Stella Antonio Rojas Trazo latente real Parámetro a real Parámetro a real Parámetro d real Parámetro a real Parámetro a real Parámetro d real Parámetro a real Parámetro a real Figura 1: Resultados de algunas simulaciones. Primera fila, simulación 11. Segunda fila, simulación 16. Tercera fila, simulación 15. Los resultados de las simulaciones 2 a 21, descritas en la tabla 1, mostraron que la recuperación de los parámetros con el modelo TRIMJ fue de buena calidad en todos los casos, tomando como criterio de comparación los valores de correlación, ECM y error absoluto que son considerados adecuados por la literatura consultada. En general, las correlaciones entre los parámetros de los items de los datos simulados y los parámetros recuperados fueron superiores a 0.9. Los errores absolutos oscilaron entre 0.07 y 0.15, y el ECM fue menor a La correlación entre los trazos latentes simulados y recuperados osciló entre 0.7 y 0.8, el error absoluto entre 0.4 y 0.5, y el ECM estuvo alrededor de 0.6. Aunque el error absoluto y el ECM son notablemente más altos que con los parámetros de los items, este resultado no es motivo de preocupación porque se simularon más personas que items en todos los casos. En la figura 1 se observan los resultados de algunas simulaciones. Nótese en la gráfica que la 12 Anais Nº 1, ano 2013, p. 1 30

21 Modelo Multidimensional de Teoría de Respuesta al Item Jerárquico recuperación de los parámetros de intercepto tiene mayor correlación con los valores simulados respecto a los parámetros de discriminación, y la recuperación de los trazos latentes es la de menor correlación con los trazos simulados. En general, los trazos latentes se recuperan con más error respecto a los parámetros de los items, lo que se puede considerar normal porque la cantidad de items fue siempre menor a la cantidad de personas en las simulaciones. Se observa también que la recuperación de los parámetros de intercepto, tuvo menos error que la de los parámetros de discriminación, resultado que ya ha sido observado por autores como Fox (2010) y Montenegro (2011, pp. 51). Aplicación a una muestra de datos de la prueba PERCE Para este trabajo se tomó una muestra de datos del Primer Estudio Internacional Comparativo sobre Len guaje, Matemática y Factores Asociados en Tercero y Cuarto Grado (PERCE) (Casassus & Cusato 1998b). Los datos fueron suministrados por el ICFES. La prueba PERCE fue aplicada por el Laboratorio Latinoa mericano de Evaluación de la Calidad de la Educación (LLECE), con el objetivo de comprender el estado de la educación en los países a través de enfoques comparados, generar indicadores comunes y diseñar recomendaciones políticas (Casassus & Cusato 1998b, pp. 7). Uno de los aspectos de mayor interés por parte del LLECE, fue considerar los contenidos de los currículos de los países participantes, por lo que el contenido de la prueba fue aprobado por consenso entre los coordinadores de educación de los países participantes. La prueba fue aplicada a niños de tercer y cuarto grado entre los meses de junio y noviembre de 1997 en trece países de América Latina. La prueba tiene dos componentes: matemática que consta de 32 items, y lenguaje que consta de 19 items. Se diseñaron dos cuestionarios: A y B, que están compuestos por diferentes items, pero el número de items es el mismo. A cada estudiante le correspondió responder uno de los dos cuestionarios al azar, posiblemente con el fin de evitar fraude en las respuestas. Para este trabajo se tomó una muestra aleatoria de respuestas del cuestionario B, de tres de los países evaluados. Se eligió Colombia para observar su desempeño, Cuba por ser un país con desempeño atípico en la prueba, y Bolivia porque tuvo un Anais Nº 1, ano 2013, p

22 Diana Stella Antonio Rojas desempeño diferente en la prueba (Casassus & Cusato 1998b, pp. 31). El tamaño de la muestra corresponde al seis por ciento de los estudiantes de cada país, se obtuvieron para Bolivia 252 estudiantes, Colombia 194 estudiantes y Cuba 156 estudiantes. En los datos de la prueba PERCE recibidos del ICFES, las no respuestas fueron calificadas como cero. Las respuestas de las dos subpruebas se encuentran separadas, sin identificación de los estudiantes. Para la aplicación de un modelo MIRT, se requiere el uso de las respuestas de cada estudiante en las dos subpruebas, para obtenerlas, se realizó por parte del ICFES y de la autora la identificación de los estudiantes en cada subprueba, comparando la información de los cuestionarios adicionales que fueron aplicados. Análisis para detectar la dimensionalidad del espacio de los trazos latentes Para detectar la dimensión de los trazos latentes se usó el análisis paralelo propuesto por Horn (1965). De acuerdo con Reckase (2009, pp. 216), este procedimiento se ha sugerido por Ledesma (2007) y otros y tiene una larga historia en la literatura sobre análisis factorial, y es tan bueno como los métodos más elaborados. El análisis paralelo consta de dos pasos: un análisis dimensional que proporciona los primeros n valores propios de la matriz de correlaciones entre items, y la generación de un conjunto de datos que no tienen relación entre los items, pero tiene la misma proporción de respuestas correctas de los datos reales para cada item. Se analizan los datos generados con el mismo procedimiento de los datos reales, para obtener valores propios. Posteriormente, se dibujan los valores propios de los datos generados y los valores propios de los datos reales que son más grandes que los de los generados. Este es el número de dimensiones sugerido para el análisis (Reckase 2009, pp 216). El análisis paralelo se encuentra implementado en R, en paquetes como pcapa desarrollado por el ICFES y paran de Dinno (2012). El análisis paralelo aplicado a la matriz de la muestra de datos de las dos subpruebas con el paquete paran de R (Dinno 2012), mostró que puede ser adecuado el uso de 3 dimensiones para los trazos latentes de la muestra. En la figura 2 izquierda se observa que hay 3 valores propios de los datos más grandes que los valores propios de los datos generados, por lo que el análisis sugiere el uso de 3 dimensiones de los trazos 14 Anais Nº 1, ano 2013, p. 1 30

23 Modelo Multidimensional de Teoría de Respuesta al Item Jerárquico latentes. Este resultado se contrastó con un análisis en componentes principales, que sugirió igualmente la retención de 3 dimensiones, como se observa en el histograma de valores propios de la figura 2 derecha. Figura 2: Análisis de dimensiones de los trazos latentes de la muestra de datos de la prueba PERCE Izquierda: análisis paralelo. Derecha: histograma de valores propios del análisis en componentes principales. Para estimar los parámetros haciendo uso del modelo TRIMJ, se usó un código de Winbugs. Se desarro llaron 1000 iteraciones para calentamiento, iteraciones para el muestreo y 2000 adicionales para calcular los estadísticos de bondad de ajuste. Se fijaron los vectores de parámetros de discriminación de los items 1, 15 y 51 para definir las direcciones, con los siguientes valores: (0,0,1), (1,0,0) y (0,1,0), respectivamente. Se fijo el parámetro de intercepto del item 1 en 0. Se asumió que la matriz de covarianza de los trazos latentes es igual a la identidad. En la figura 3 se observan algunas cadenas. Figura 3: Muestra de las cadenas de Markov de la aplicación del modelo TRIMJ Izquierda: parámetro d internacional, centro: parámetro a2 Colombia, derecha: parámetro 3 de uno de los estudiantes de Cuba. Anais Nº 1, ano 2013, p

24 Diana Stella Antonio Rojas Estimación de los parámetros de los items Se estimaron dos conjuntos de parámetros de los items con el modelo TRIMJ: los parámetros globales, que en adelante se nombran parámetros internacionales, y los parámetros locales, que corresponden a un conjunto de parámetros en cada país, que en adelante se nombran parámetros nacionales. Los resultados de la estimación de los parámetros de los items fueron coherentes con lo que se esperaba observar. En la subprueba de matemática, se presentaron diferencias entre países especialmente en los parámetros de discriminación nacionales. En la subprueba de lenguaje, se presentaron diferencias entre países especialmente en los parámetros de intercepto, y las diferencias entre los parámetros internaciona les y nacionales fueron también más grandes en los items de esta subprueba. En los resultados de la subprueba de matemática, los valores de los parámetros de intercepto oscilaron entre y 3.2. Los parámetros de intercepto nacionales tuvieron valores diferentes en Cuba, en los items 2, 10, 12, 15, y 16. En Colombia, los items 6, 7 y 17 tuvieron diferencias en los valores de los parámetros, y en Bolivia el item 18 tuvo un valor diferente. En cuanto a la subprueba de lenguaje, los valores de los parámetros de intercepto oscilaron entre 1.4 y 3.3. Se observa que los parámetros de 12 de los 19 items de lenguaje tomaron valores más pequeños en Cuba. Las diferencias entre los parámetros de intercepto nacionales e internacionales, son más grandes en los parámetros de intercepto, en las dos subpruebas. De acuerdo con Fox (2010, pp. 218), esta variación se presenta porque las dificultades de los items incluyen la variación en las medias de los trazos latentes entre países, que no es explícitamente modelada. Para una mejor interpretación de los parámetros de discriminación e intercepto estimados con el modelo TRIMJ, se calcularon los parámetros MDISC y MDIFF, con el objetivo de hacer una interpretación análoga al caso unidimensional. El parámetro de discriminación multidimensional MDISC, es la pendiente de la superficie de respuesta del item en el punto de máxima pendiente y en dirección del origen del espacio. Éste parámetro es análogo al parámetro de discriminación en el modelo TRI unidimensional. El parámetro de dificultad multidimensional MDIFF, se interpreta 16 Anais Nº 1, ano 2013, p. 1 30

25 Modelo Multidimensional de Teoría de Respuesta al Item Jerárquico como el parámetro b del modelo TRI unidimensional, es decir, un item es más difícil entre mayor sea su valor de MDIFF, y más fácil entre menor sea su valor de MDIFF. Esta interpretación solo aplica en la dirección especificada por el vector (Reckase 2009, pp ). Los resultados de los parámetros MDISC y MDIFF mostraron diferencias entre países, y con el parámetro internacional. A continuación se describen los resultados de los items por subpruebas. En la subprueba de matemática, se presentaron mayores diferencias en el parámetro MDISC respecto al MDIFF. El parámetro MDISC de Cuba tuvo valores marcadamente diferentes con el parámetro MDISC internacional. En los items 2, 3, 5, 7 y 8 el valor del parámetro MDISC de Cuba fue más grande respecto al parámetro MDISC internacional, y en los items 4, 10 y 28 el valor fue menor. En Colombia, el item 16 tuvo un parámetro MDISC con menor valor respecto al internacional e igualmente en Bolivia en el item 18. Con relación a los valores del parámetro MDIFF, en 17 de los 32 items de matemática se presentaron diferencias notorias entre los parámetros MDIFF internacionales y los nacionales. Se destacan nuevamente las diferencias de los valores del parámetro en Cuba, donde 14 de los 32 items tuvieron un valor de MDIFF menor al parámetro MDIFF internacional, y los items 14, 16, 19, 21, 28, 29 y 31 tuvieron un valor de MDIFF mayor al del parámetro internacional. En Colombia, el item 16 tuvo un valor de MDIFF mayor al internacional. En Bolivia, los items 21 y 28 tuvieron un MDIFF mayor al internacional. En la subprueba de lenguaje, se presentaron mayores diferencias en el parámetro MDIFF respecto al MDISC. El parámetro MDISC tomó valores similares en los tres países, solo se destacó la diferencia del valor del parámetro MDISC del item 36 de Bolivia, que fue mayor que el parámetro internacional. En cuanto al parámetro MDIFF, este tuvo valores más pequeños respecto al parámetro internacional en Cuba, en 11 de los 19 items de la subprueba. En Colombia, los items 44 y 48 tuvieron valores de MDIFF menores al internacional y lo mismo ocurrió en Bolivia, en el item 43. En la tabla 4 se observan los valores de los parámetros MDISC de los items que tuvieron diferencias más marcadas entre los valores de los parámetros nacionales e internacionales, y en la tabla 5 se observan los parámetros MDIFF de los items que Anais Nº 1, ano 2013, p

26 Diana Stella Antonio Rojas tuvieron diferencias más marcadas en los valores de los parámetros nacionales e internacionales. Tabla 4: Discriminación multidimensional (MDISC) internacional y por país con TRIMJ MDISC Matemática Bolivia Colombia Cuba Internacional Item Item Item Item Item Item Item Item Item Item MDISC Lenguaje Item Tabla 5: Dificultad multidimensional por país (MDIFF) con TRIMJ MDISC Matemática Bolivia Colombia Cuba Internacional Item Item Item Item Item Item Item Item MDISC Lenguaje Item Item Item Estimación de los trazos latentes básicos En el modelo TRIMJ las diferencias son modeladas con la estrategia usada en los modelos jerárquicos. Siguiendo a Fox (2010), se asumió que los trazos latentes provienen de una única distribución. Para estimar los trazos latentes, se fijó la matriz de covarianza como la identidad, por lo cual estos parámetros no tienen interpretación directa (Montenegro 2011). 18 Anais Nº 1, ano 2013, p. 1 30

27 Modelo Multidimensional de Teoría de Respuesta al Item Jerárquico Los trazos latentes básicos estimados con el modelo TRIMJ, mostraron diferencias en las densidades por país. En la figura 4, se observa que la densidad del parámetro en Cuba no parece coincidir con los supuestos, porque parece ser asimétrica. La densidad de los parámetros de Bolivia y Colombia es bastante similar. Densidade 1 por país Densidade 2 por país Densidade 3 por país Figura 5: Densidad de los trazos latentes estimados globales Estimación de los trazos latentes principales Aunque en el modelo TRIMJ los componentes del vector de trazos latentes no tienen una interpretación directa, es posible intentar hacerla. Por ejemplo, se puede calcular el ángulo entre la dirección de cada item y cada uno de los ejes de coordenadas, y con base en esta información, tratar de construir una interpretación. Por otro lado, como el interés de la prueba es la estimación de los trazos latentes atribuibles a matemática y lenguaje, Montenegro (2011) propuso calcular la dirección principal de cada subprueba. Otros autores han trabajado en el mismo problema, ver por ejemplo, Wang (1986), Stout (1990) y Yen (1985). En este trabajo, se usó la transformación de Wang (1986) para calcular el trazo latente unidimensional. Sea A la matriz cuyas columnas son los vectores de parámetros de discriminación de cada subprueba, y sea el trazo latente estimado por el modelo TRIMJ, se realizó para cada subprueba la siguiente transformación: G=w donde w es el primer vector propio de la matriz A A, que se conoce como la dirección principal de la subprueba (Stout 1990) y (Montenegro 2011). G es el trazo latente unidimensional en el modelo aproximado, asociado a la dirección principal de la Anais Nº 1, ano 2013, p

28 Diana Stella Antonio Rojas prueba (Montenegro & Cepeda 2010), por lo que en este caso G corresponde al trazo latente asociado a la subprueba (matemática ó lenguaje). Sea A 1 la matriz cuyas columnas son los vectores de parámetros de discriminación de la subprueba de matemática, para calcular el trazo latente asociado a la componente de matemática G1, se calculó el primer vector propio de la matriz A1 A 1, que corresponde a la dirección principal de la subprueba de matemática, que se denotará w1. Sea A2 la matriz cuyas columnas son los vectores de parámetros de discriminación de la subprueba de lenguaje, para calcular el trazo latente asociado a la componente de lenguaje G2, se calculó el primer vector propio de la matriz A2 A 2, el vector la dirección principal de la subprueba de lenguaje, que se denotará w2. Se calculó un trazo latente unidimensional G para cada país, con los parámetros de discriminación nacionales,y un trazo latente G internacional, con los parámetros de discriminación internacionales. En las tablas 6 y 7 se encuentran los vectores w calculados para matemática y lenguaje, respectivamente. Tabla 6: Vectores de dirección principal w de Matemática w1 Dimensión 1 Dimensión 2 Dimensión 3 Internacional Bolivia Colombia Cuba Tabla 7: Vectores de dirección principal w de Matemática w2 Dimensión 1 Dimensión 2 Dimensión 3 Internacional Bolivia Colombia Cuba Las densidades de los trazos latentes G tienen diferencias entre Cuba y los demás países en las dos subpruebas, como se puede observar en la figura 6. En Bolivia y Colombia, las gráficas de densidad son si milares en las dos subpruebas. En Cuba, la media de la distribución es mayor a cero en las dos subpruebas, además, las distribuciones parecen ser asimétricas. 20 Anais Nº 1, ano 2013, p. 1 30

29 Modelo Multidimensional de Teoría de Respuesta al Item Jerárquico Figura 6: Densidad del trazo latente unidimensional G 1 y G 2 por país Figura 7: Densidad del trazo latente unidimensional G1 y G2 Internacional por país Figura 8: Densidad del trazo latente G1 y G2 Internacional Anais Nº 1, ano 2013, p

30 Diana Stella Antonio Rojas En la figura 8 se observa la densidad del trazo latente unidimensional G internacional de matemática y lenguaje, respectivamente. Esta densidad tiene distribución simétrica, contrario a lo ocurrido en Cuba con la densidad de los trazos latentes G estimados por país. En la figura 9 se encuentra la densidad conjunta de los trazos latentes G internacionales estimada por métodos Kernel. Para estimar la gráfica de la izquierda, se usó la función kcde del paquete ks (Duong 2013) de R y para estimar la gráfica en tres dimensiones de la derecha, se usaron las funciones kde2d del paquete MASS (Ripley 2013) de R y persp de R. Figura 9: Densidad del trazo latente G1 y G2 Internacional En la tabla 8 se pueden leer las correlaciones del puntaje clásico (media de las respuestas correctas por individuo), con el trazo latente unidimensional G de cada subprueba, el internacional y los parámetros, por subprueba. La correlación entre el puntaje clásico y el trazo latente G por país en las dos subpruebas, estuvo en un rango de 0.88 a La correlación más baja por país estuvo en Cuba en la subprueba de lenguaje. En cuanto a la correlación del puntaje clásico con los trazos latentes, el puntaje clásico de la subprueba de matemática tuvo mayor correlación con los parámetros 1 y 3, y de la subprueba de lenguaje con los parámetros 2. Se calculó la correlación del puntaje clásico entre los datos de matemática y lenguaje, el resultado fue 0.716, y la correlación entre los trazos latentes G1 y G2 fue de 0.874, por lo que pueden existir dimensiones de los trazos latentes de los individuos presentes en las dos subpruebas. Lo anterior ilustra el hecho de que las 22 Anais Nº 1, ano 2013, p. 1 30

31 Modelo Multidimensional de Teoría de Respuesta al Item Jerárquico componentes del vector de trazos latentes no puede interpretarse directamente, como los constructos teóricos. Tabla 8: Correlaciones entre el puntaje clásico y los trazos estimados con el modelo TRIMJ Puntaje clásico/trazos estimados G Bolivia G Colombia G Cuba G Internacional Matemática Lenguaje En la figura 10 se puede observar la comparación entre el puntaje clásico de las pruebas de matemática y lenguaje y los trazos latentes G calculados con los parámetros internacionales de discriminación. La gráfica de lenguaje tiene mayor dispersion que la gráfica de matemática, porque estudiantes con el mismo puntaje clásico, tuvieron valores diferentes del trazo latente unidimensional G 2. Figura 10: Puntaje clásico vs. trazos estimados con los parámetros internacionales modelo TRIMJ Izquierda: matemática, derecha: lenguaje. Y: puntaje clásico, X: trazos latentes unidimensionales G. A continuación, se describen los resultados de cada una de las subpruebas. Los resultado de matemática se pueden observar en figura 11, donde se compara el puntaje clásico con el trazo latente G 1 calculado para cada país. La gráfica de Bolivia (izquierda) tiene poca dispersión, lo que muestra que los estudiantes con igual puntaje clásico tuvieron valores similares del trazo latente G 1. En la gráfica de Colombia (centro), se observa que pocos estudiantes obtuvieron puntajes clásicos altos en la prueba, la mayoría obtuvieron puntajes clásicos bajos y medios, y los estudiantes con igual puntaje clásico tuvieron valores similares de G 1. En la gráfica de Cuba (derecha), Anais Nº 1, ano 2013, p

32 Diana Stella Antonio Rojas se observa que los estudiantes tuvieron puntajes clásicos más altos que los estudiantes de los otros países, la mayoría de los estudiantes se ubican en los promedios de la mitad hacia arriba del puntaje clásico. Hay mayor dispersión en la gráfica de Cuba, donde estudiantes con el mismo puntaje clásico tuvieron diferente valor de G 1, incluso cuando este es igual a 1, lo que muestra el impacto de la correlación entre las estimaciones de los trazos latentes principales. Figura 11: Puntaje clásico vs. trazos estimados con los parámetros nacionales de los items de matemática por país. Izquierda: Bolivia, centro: Colombia, derecha: Cuba. Y: puntaje clásico, X: trazos latentes unidimensionales G 1 Los resultado de lenguaje se pueden observar en figura 12, donde se compara el puntaje clásico con el trazo G 2 calculado para cada país. Las gráficas de Bolivia (izquierda) y Colombia (centro) no muestran diferencias significativas. En la gráfica de Cuba (derecha) se observa nuevamente que los puntajes clásicos de los estudiantes fueron más altos que en los otros países. Figura 12: Puntaje clásico vs. trazos estimados con los parámetros nacionales de los items de lenguaje por país Izquierda: Bolivia, centro: Colombia, derecha: Cuba. Y: puntaje clásico, X: trazos estimados 24 Anais Nº 1, ano 2013, p. 1 30

33 Modelo Multidimensional de Teoría de Respuesta al Item Jerárquico Evaluación del ajuste del modelo TRIMJ Para la evaluación de la calidad del modelo TRIMJ, se tuvieron en cuenta varios criterios: el Deviance Information Criterion DIC comparado con el modelo TRIM clásico, el Conditional Predictive Ordinate CPO y el CPO inverso. Como criterio de bondad de ajuste, se usó la evaluación de las predicciones. Para detectar los outliers y valores extremos, se usó el criterio de CPO y CPO inverso. De acuerdo con Ntzoufras (2009, pp. 344), el CPO se define: donde y i es la i ésima observación de y y ß es y después de omitir y i Asumiendo normalidad aproximada, los valores de CPO inverso mayores de 40 se pueden considerar como posibles outliers y mayores de 70 como valores extremos (Ntzoufras 2009, pp. 376). Los valores de CPO inverso del modelo resultaron en un 0.09 por ciento de outliers y un 0.04 por ciento de valores extremos. Dado que el porcentaje de outliers es inferior al 5 por ciento, este resultado no es motivo de preocupación (Fox 2010, pp. 111). En el análisis de CPO inverso en cada país, los resultados fueron los siguientes: en Bolivia, 0.03 por ciento de outliers y 0.01 por ciento de valores extremos; en Colombia, 0.03 por ciento de outliers y cero valores extremos; y en Cuba, 0.2 por ciento de outliers y 0.12 por ciento de valores extremos. En Cuba, el porcentaje de outliers y valores extremos es aceptable de acuerdo con Fox (2010), sin embargo, es marcadamente superior a los otros países. Para seleccionar el mejor modelo, se usó el DIC, que de acuerdo con Carlin (2009, pp. 71) se define: DIC = D + pd = 2 D D( ) donde D = E y [D] y pd = E y [D] D(E y [ ]) = D D ( ). Valores más pequeños de DIC indican un mejor ajuste del modelo (Carlin 2009, pp. 71). El valor total del DIC para el Anais Nº 1, ano 2013, p

34 Diana Stella Antonio Rojas modelo TRIMJ fue de , inferior al DIC estimado para el modelo TRIM (Reckase 2009), , lo que indica un mejor ajuste del modelo TRIMJ. Estos resultados pueden leerse en la tabla 9. Tabla 9: Comparación DIC modelos TRIMJ y TRIM Parámetro TRIM TRIMJ a a a Response Total Como criterio de bondad de ajuste del modelo, se usó la evaluación de la predicción (Fox 2010). El método consiste en generar predicciones con el modelo, y comparar los datos replicados con los datos observados. Las predicciones también son llamadas medidas de discrepancia o estadísticas de la prueba. Estas se eligen para detectar diferencias sistemáticas entre un modelo M de TRI con parámetros (, ) y los datos (Fox 2010). La hipótesis nula, asume que los datos de respuesta se distribuyen condicionalmente como p(y ) y los parámetros desconocidos tienen distribución a priori p(, ), sin tener una hipótesis alterna específica. El interés se enfoca en el estadístico T(y), para investigar la compatibilidad del modelo M con los datos observados yobs. Un p valor se puede estimar así: p0(yobs) = P (T (Y ) T (yobs) M ). Para calcular los residuales, las predicciones y los p valores, se usó el modelo TRIMJ con enlace logístico y se añadió en el exponente el valor de 1.702, para obtener estimaciones equivalentes al modelo con enlace normal (Reckase 2009, pp. 95), porque se usó el código de Winbugs de Fox (2010, p. 111), que está diseña do para ser usado con modelos con enlace normal. Se calculó un p valor para estimar la compatibilidad del modelo con los datos observados, resultando un total de 0.08 por ciento de los p valores menores a 0.05, y con el criterio de 0.1, se encontraron 0.38 por 26 Anais Nº 1, ano 2013, p. 1 30

35 Modelo Multidimensional de Teoría de Respuesta al Item Jerárquico ciento de p valores menores. Por lo anterior, se considera que el modelo se ajusta adecuadamente a los datos. Conclusiones Se propuso un modelo multidimensional jerárquico de teoría de respuesta al item TRIMJ, para modelar datos provenientes de pruebas aplicadas a poblaciones con clusters. En el modelo propuesto se estima un conjunto de parámetros de los items para cada cluster de población, y un conjunto de parámetros globales de los items, para hacer comparaciones de resultados entre clusters. El modelo TRIMJ se aplicó a datos simulados y reales. El modelo propuesto se usó con varios conjuntos de datos simulados, con diferente número de items, personas y dimensiones. El algoritmo funcionó satisfactoriamente en las simulaciones, de acuerdo con la literatura consultada (Patz et al. 2002) y (Bolt 2003). Se usó el modelo TRIM clásico para ajustar datos con clusters, lo que resultó en una recuperación deficiente de los parámetros del modelo, de acuerdo con lo sugerido por la literatura acerca del tema. Este resultado muestra la necesidad de modelar los datos teniendo en cuenta que hay diferencias entre clusters. Se aplicó el modelo TRIMJ a una muestra de datos reales de la prueba PERCE (Casassus & Cusato 1998b) de tres países: Bolivia, Colombia y Cuba. El ajuste del modelo TRIMJ fue adecuado de acuerdo con los resultados de los criterios de evaluación aplicados, y se verificó el cumplimiento de los supuestos. Se usó además el modelo TRIM clásico, para comparar los resultados de los dos modelos con los datos reales. Al comparar el DIC de los dos modelos resultó seleccionado el modelo TRIMJ como mejor modelo. Por los tiempos de estimación con Winbugs, se recomienda para grandes aplicaciones considerar el uso de otras herramientas más veloces. En la aplicación a datos reales, los parámetros de los items mostraron diferencias entre países. Este resultado es coherente con lo encontrado por autores que han analizado pruebas similares, como Fox (2010, pp. 216) en la prueba PISA (Program for International Student Assessment). Las diferencias más marcadas en los parámetros de los items en las dos subpruebas se presentaron en Cuba. En la subprueba de mate Anais Nº 1, ano 2013, p

36 Diana Stella Antonio Rojas mática, varios items tomaron valores más grandes de MDISC en Cuba respecto al parámetro internacional. En la subprueba de lenguaje, varios items tuvieron valores de MDIFF más bajos en Cuba respecto al pa rámetro internacional. Por lo anterior, aunque cuando se aplicó la prueba los autores asumieron invarianza de los items (Casassus & Cusato 1998b), estas diferencias en los parámetros entre países mostraron que los items tienen diferentes características en cada país observado. En el análisis de la muestra de datos de la prueba PERCE se cumplieron los supuestos del modelo propuesto, a saber: multidimensionalidad de los trazos latentes y diferencias de los parámetros de los items de los países con los parámetros internacionales. Por lo anterior, los resultados de los análisis de la prueba PERCE pueden ser mejorados con la aplicación del modelo TRIMJ. Los resultados de Cuba fueron diferentes a los demás países en la mayoría de los análisis desarrollados. Los parámetros de los items de Cuba tuvieron diferencias más grandes con el parámetro internacional, en comparación con los otros dos países. La correlación entre los trazos latentes estimados y el puntaje clásico de los estudiantes de Cuba, fue un poco menor respecto a los otros países. Las distribuciones de los trazos latentes de Cuba fueron asimétricas, evidencia de que hay clusters entre países. Por lo anterior, puede que sea posible mejorar las estimaciones con el uso de distribuciones asimétricas para modelar los datos de toda la población. Los individuos de la muestra de datos reales que respondieron igual a los items de una subprueba, tuvieron diferentes trazos latentes. Lo anterior puede deberse a que en la muestra de datos reales seleccionada, los trazos latentes estimados tuvieron una alta correlación entre las dos subpruebas. Los estudiantes que tuvieron mayor cantidad de respuestas correctas en una subprueba, tuvieron un trazo latente más pequeño respecto a otros estudiantes que tuvieron un puntaje clásico mayor en la otra subprueba. Es posible que este resultado se deba también a la correlación entre las dos subpruebas. 28 Anais Nº 1, ano 2013, p. 1 30

37 Modelo Multidimensional de Teoría de Respuesta al Item Jerárquico Agradecimentos Esta investigación fue financiada por el Instituto Colombiano para la Evaluación de la Educación ICFES, en el marco de la convocatoria de investigación para estudiantes 2011, y parcialmente por el grupo de investigación SICS Research Group, del departamento de estadística de la Universidad Nacional de Colombia y Colciencias, en el marco del proyecto Multidimensional Item Response Theory Models for Practical Application in Large Tests Designed to Measure Multiple Constructs. Referencias Bolt, D. (2003), 'Estimation of compensatory and noncompensatory multidimensional item response models using markov chain monte carlo', Applied Psychological Measurement 26(6), Carlin, B. (2009), Bayesian methods for data analysis, 3 edn, CRC Press: Taylor y Francis Group. Casassus, J., F. J. P. J. & Cusato, S. (1998a), Primer Estudio Internacional Comparativo sobre Lenguaje, matemática y Factores Asociados en Tercero y Cuarto Grado, Laboratorio Latinoamericano de Evalua ción de la Calidad de la Educación. Casassus, J., F. J. P. J. & Cusato, S. (1998b), Primer estudio internacional comparativo sobre lenguaje, matemática y factores asociados en tercero y cuarto grado primer informe de laboratorio, informe 1, Laboratorio Latinoamericano de Evaluación de la Calidad de la Educación, Oficina Regional de Edu cación Para América Latina y EL Caribe. Dinno, A. (2012), 'Package paran', CRAN R. Duong, T. (2013), 'Package ks', Cran R. Fox, J. (2010), Bayesian ítem response modeling, Springer Science+Business Media, LLC, 233 Spring Street, New York, NY 10013, USA. Glas, B. (2001), 'Mcmc estimation and some model fit analysis of multidimensional irt models', Psichome trika 66(4), Horn, J. (1965), 'A rationale and test for the number of factors in factor analysis', Psychometrika 30(2), Kromrey, D., Parshall, C. & Chason, W. (1999), 'Generating item responses based on multidimensional item response theory', SUGI 24 (241), Posters. Anais Nº 1, ano 2013, p

38 Diana Stella Antonio Rojas Ledesma, RD, V. M. P. (2007), 'Determining the number of factors to retain in efa: an easy to use computer program for carryng out parallel analysis', Practical Assessment, Research and Evaluation 12, McKay, S. (2010), 'Bugs code for item response theory', Journal of Statistical Software 36. Montenegro, A. (2011), Multidimensional Item Response Theory Models where the Ability has a Latent Linear Structure, PhD thesis, Universidad Nacional de Colombia. Montenegro, A. & Cepeda, E. (2010), 'Synthesizing the ability in multidimensional item response theory models', Revista Colombiana de Estadística 33(1), Ntzoufras, I. (2009), Bayesian Modellins Using WINBUGS, John Wiley and Sons.Inc. Patz, R., Yao, L. & Hanson, B. (2002), 'More efficient markov chain monte carlo estimation in irt using marginal posteriors', Unknown. Reckase, M. (2009), Multidimensional item response theory, Springer Science+Business Media, LLC, 233 Spring Street, New York, NY 10013, USA. Ripley, B. (2013), 'Package mass', Cran R. Stout, W. (1990), 'A new item response theory modeling approach with applications to unidimensionality assessment and ability estimation', Psychometrika 55, Team, R. D. C. (2008), R: A Language and Environment for Statistical Computing, Vol. Vienna of ISBN , R Foundation for Statistical Computing. Wang, M. (1986), 'Fitting a unidimensional model to multidimensional item response data', University of Iowa. Yen, W. (1985), 'Increasing item complexity: A possible cause of scale shrinkage for unidimensional item response theory', Psychometrika pp Recebido em: 03/11/2013 Avaliado em: 25/11/ Anais Nº 1, ano 2013, p. 1 30

39 Vestibular FUVEST 2012: uma abordagem sob o enfoque da TRI Entrance examination FUVEST: an approach from the standpoint of TRI Edilan de Sant Ana Quaresma Mestre em Estatística, UFPE Professor Adjunto III, ICED/UFOPA equaresm@ufpa.br Pedro Alberto Barbetta Doutor em Engenharia de Produção, UFSC Professor Associado III, UFSC barbetta@inf.ufsc.br Adriano Ferreti Borgatto Doutor em Agronomia (Estatística e Experimentação Agronômica), ESALQ/USP Professor Titular, UFSC borgatto@inf.ufsc.br Ezequiel Abraham López Bautista Mestre em Agronomia (Estatística e Experimentação Agronômica), ESALQ/USP Professor da Facultad de Agronomía, Universidad de San Carlos de Guatemala ealbautis@gmail.com Carlos Tadeu dos Santos Dias Doutor em Agronomia (Estatística e Experimentação Agronômica), ESALQ/USP Professor Titular do LCE, ESALQ/USP ctsdias@usp.br Resumo A Teoria da Resposta ao Item TRI tem se mostrado uma ferramenta necessária em processos avaliativos de larga escala, valorizando as informações contidas em cada item, de acordo com o padrão de resposta dado pelos candidatos. Uma aplicação cada vez mais significativa desta teoria vem sendo utilizada em exames seletivos de candidatos a ingressar em cursos de graduação nas universidades brasileiras. Atualmente o vestibular coordenado pela FUVEST não utiliza a TRI no processo seletivo. O trabalho aqui apresentado objetiva utilizar esta teoria com dados do vestibular da FUVEST/2012 para os cursos da ESALQ. A análise inicial dos itens foi feita com base na Teoria Clássica dos Testes usando o pacote LTM do R e, posteriormente, o modelo unidimensional de três parâmetros foi calibrado usando os softwares BILOG. Dos 89 itens apresentados, 70 foram utilizados no processo de calibração e uma escala de proficiência foi construída. Palavras chave: Escala de proficiências. Vestibular. TRI. Abstract The Item Response Theory IRT has proven a necessary tool in the evaluation process of largescale, valuing the information contained in each item in accordance with the standard answer given by the candidate. An increasingly important application of this theory has been used in selective examinations of candidates to join undergraduate courses in Brazilian universities.

40 Edilan de Sant Ana Quaresma, Pedro Alberto Barbetta, Adriano Ferreti Borgatto, Ezequiel Abraham López Bautista e Carlos Tadeu dos Santos Dias Currently coordinated by FUVEST buccal does not use the IRT in the selection process. The work presented here aims to use this theory using data from the entrance examination by FUVEST/2012 for six undergraduate courses in ESALQ. The initial analysis of the items was based on classical test theory using the LTM from R package and subsequently the onedimensional model parameters were calibrated using the software BILOG. Of the 89 items listed, 70 were used in the calibration process and a proficiency scale was constructed. Keywords: Proficiency scales. Entrance examination. IRT. Introdução Os processos seletivos vestibulares passaram a ser a forma padrão de ingresso nas universidades brasileiras, a partir dos anos 70 do século XX. Historicamente estes processos de avaliação utilizaram a Teoria Clássica dos Testes no processo de classificação dos candidatos, sem considerar as informações contidas em cada um dos itens que compõe o exame seletivo, fazendo com que o conhecimento dos candidatos fosse medido unicamente de acordo com o número de questões respondidas corretamente no exame vestibular. Thrustone (1928) questionava os testes como instrumento para medir o conhecimento dos alunos, ao considerar que conhecimento é uma variável latente, não sendo possível sua medida de maneira direta. Nesse contexto emergiu a necessidade de uma teoria que viabilizasse a mensuração de variáveis latentes, aqui entendidas como habilidades ou proficiências de sujeitos, considerando cada um dos itens de uma prova individualmente e na o somente o número de questões respondidas corretamente pelos candidatos. Uma ferramenta muito útil na resolução desse problema começou a ser formulada nos anos 50 do século XX, e atualmente é denominada Teoria da Resposta ao Item TRI. Vem sendo utilizada com sucesso no exame nacional de ensino médio ENEM, cujos resultados têm sido adotados por universidades como critério de ingresso nos seus quadros discentes. O trabalho aqui apresentado objetiva utilizar a TRI no padrão de resposta dos candidatos aos itens do exame vestibular coordenado pela FUVEST, nos seis cursos de graduação da Escola Superior de Agricultura Luiz de Queiroz, da Universidade de São Paulo, no ano de 2012, considerando somente a primeira fase do processo seletivo. 32 Anais Nº 1, ano 2013, p

41 Vestibular FUVEST 2012: uma abordagem sob o enfoque da TRI 1. Metodologia Os dados utilizados na pesquisa aqui proposta são provenientes do exame vestibular coordenado pela FUVEST e realizado no ano 2012, para os 2326 candidatos a ingressar em um dos seis cursos de graduação da ESALQ/USP. Uma análise exploratória foi feita, utilizando o pacote LTM do R. Como cada uma das 89 questões válidas foi constituída por itens dicotômicos, em que as respostas dos candidatos aos itens foram do tipo certo ou errado, o modelo da TRI proposto para ser utilizado foi o de três parâmetros, definido como: P (Uij = 1 θj ) = ci + (1 ci) 1 + e Dai (θj bi ), (1) com i=1,2,...,i, e j=1,2,...,n, com parâmetros descritos em Andrade, Tavares e Valle (2000). O modelo descrito pela eq. (1) foi ajustado ao padrão de respostas dos candidatos, por meio do software BILOG de tal forma que as estimativas dos parâmetros do modelo foram utilizadas como critério de seleção dos itens considerados importantes no processo de estimação das proficiências dos candidatos. Um critério usual para eliminar itens, avaliando unicamente o parâmetro a sugere considerar: (i)itens cujo valor estimado para o parâmetro a sejam menores que 0, 7; (ii) Itens cujo valor estimado para o parâmetro a apresentem um erro padrão muito grande, em relação aos demais erros padrões com o paraˆ metro a na mesma magnitude. Uma grande vantagem da TRI no processo de avaliação dos itens é a possibilidade de construção de uma escala de habilidades que possa ser pedagogicamente interpretável e, dessa forma, contribua para a classificação de sujeitos. Este processo de construção de uma escala de proficiências é definido por níveis âncora, caracterizados por conjuntos de itens chamados itens âncora (ANDRADE, TAVARES e VALLE, 2000). Níveis âncora são pontos selecionados pelo analista na escala de proficiências para serem interpretados pedagogicamente, ao passo que itens âncora são itens selecionados segundo os critérios apresentados por Beaton e Allen (1992) Anais Nº 1, ano 2013, p

42 Edilan de Sant Ana Quaresma, Pedro Alberto Barbetta, Adriano Ferreti Borgatto, Ezequiel Abraham López Bautista e Carlos Tadeu dos Santos Dias 2. Resultados e comentários Nesta seção apresentamos uma leitura dos resultados, na abordagem clássica, e posteriormente na abordagem da TRI unidimensional. Foram utilizados os softwares BILOG MG e pacote LTM do R, para dados dicotômicos em uma única população. A primeira ideia na análise dos dados sob a perspectiva da abordagem clássica, foi avaliar a qualidade do instrumento utilizado, no que diz respeito a` precisão do mesmo. O procedimento clássico com esta finalidade é a análise do coeficiente alfa de Cronbach, que mostrou valores do coeficiente variando de 0,8094 a 0,8176, conforme se exclui determinados itens, e o coeficiente 0, 8152 quando se considera todos os itens, indicando uma boa consistência interna do instrumento utilizado. Primi (2012) defende a ideia de que, quando analisamos somente o índice de dificuldade ID de uma questão da prova, um bom item é aquele que apresenta alta variância, aqui entendida como distribuição de sujeitos em toda a escala da proporção de acertos. Os itens 84, 60, 31, 83, 1, 65, 86 e 40 apresentam variâncias abaixo de 0,15. Outro procedimento importante na análise exploratória de dados, dentro do enfoque da teoria clássica dos testes, diz respeito ao estudo da capacidade de discriminação do item em relação ao resultado do teste. Para este procedimento utiliza se a correlação bisserial para verificar se uma determinada variável apresenta correlação significativa com o escore bruto produzido pelo conjunto dos itens. Ao analisar a correlação bisserial é possível observar os itens 11, 32, 52, 64, 85 e 87 com correlações negativas. Estes resultados permitem concluir que tais itens não apresentam boa discriminação para o índice que se pretende produzir, devendo ser excluídos de qualquer análise posterior. Durante a execução da análise pelo software BILOG MG não são calibrados aqueles itens com correlação bisserial menor que 0,15, o que ocorreu com os itens 64 e 80. Após a exclusão dos itens que pouco contribuíam com a medida de proficiência, objeto desse estudo, e dos itens com problemas nas es ma vas dos paraˆ metros, os itens resultantes apresentaram valores calibrados para os parâmetros apresentados na Tabela Anais Nº 1, ano 2013, p

43 Vestibular FUVEST 2012: uma abordagem sob o enfoque da TRI Table 1: Estimativa dos parâmetros dos 70 itens válidos. Vestibular ESALQ/USP: 2012 ITEM a EP(a) b EP(b) c EP(c ) ITEM a EP(a) b EP(b) c EP(c ) I03 1,280 0,227 1,220 0,112 0,293 0,032 I45 1,381 0,171 0,505 0,107 0,233 0,038 I04 0,925 0,128 0,172 0,279 0,328 0,072 I46 1,097 0,342 3,131 0,489 0,221 0,018 I05 1,463 0,248 1,303 0,092 0,250 0,026 I47 1,230 0,152 0,192 0,198 0,335 0,062 I06 0,868 0,173 1,534 0,173 0,233 0,042 I48 1,493 0,181 0,072 0,140 0,290 0,051 I08 0,905 0,151 0,396 0,252 0,323 0,063 I49 0,967 0,300 3,033 0,475 0,255 0,023 I09 1,192 0,199 1,641 0,118 0,185 0,026 I50 0,890 0,144 1,516 0,144 0,158 0,035 I10 1,375 0,195 0,477 0,127 0,307 0,042 I53 1,542 0,156 0,118 0,094 0,177 0,038 I12 1,215 0,208 1,437 0,117 0,255 0,029 I54 1,153 0,133 0,236 0,190 0,268 0,062 I13 1,333 0,170 0,512 0,117 0,254 0,040 I55 1,414 0,145 0,887 0,198 0,323 0,076 I15 0,754 0,148 1,272 0,225 0,259 0,053 I57 1,371 0,152 0,323 0,157 0,259 0,058 I16 1,227 0,208 1,722 0,122 0,157 0,024 I58 0,664 0,171 2,290 0,314 0,273 0,046 I17 1,121 0,215 1,051 0,145 0,323 0,041 I59 2,012 0,730 2,917 0,364 0,243 0,011 I18 1,183 0,168 1,322 0,098 0,155 0,028 I60 1,728 0,405 2,701 0,265 0,073 0,009 I19 2,094 0,313 1,524 0,073 0,147 0,014 I61 1,394 0,340 2,373 0,237 0,205 0,017 I21 1,392 0,222 1,003 0,096 0,258 0,032 I63 1,208 0,261 2,458 0,239 0,131 0,018 I22 0,755 0,112 0,706 0,213 0,205 0,054 I65 0,867 0,309 4,109 0,924 0,201 0,018 I23 1,425 0,195 0,075 0,157 0,361 0,050 I67 0,772 0,253 3,772 0,726 0,232 0,024 I24 1,018 0,195 1,090 0,169 0,332 0,044 I68 1,083 0,340 2,740 0,406 0,282 0,023 I25 1,649 0,274 1,617 0,107 0,300 0,020 I69 1,272 0,440 3,347 0,579 0,207 0,014 I26 1,205 0,229 1,586 0,127 0,251 0,029 I70 1,497 0,204 0,695 0,095 0,263 0,033 I27 1,273 0,182 0,951 0,099 0,217 0,033 I72 0,851 0,147 0,467 0,265 0,316 0,064 I28 1,674 0,411 2,022 0,171 0,299 0,018 I73 1,292 0,146 0,041 0,151 0,261 0,053 I29 1,465 0,305 2,048 0,161 0,205 0,018 I74 1,630 0,176 0,099 0,116 0,253 0,046 I30 1,407 0,442 2,970 0,420 0,217 0,014 I75 1,449 0,209 1,363 0,085 0,181 0,023 I31 2,035 0,462 2,436 0,199 0,087 0,009 I76 1,333 0,166 0,297 0,130 0,265 0,045 I33 1,011 0,176 1,157 0,147 0,254 0,041 I78 1,309 0,141 0,518 0,179 0,272 0,065 I35 0,963 0,126 0,409 0,180 0,230 0,052 I80 1,441 0,178 1,039 0,079 0,179 0,026 I36 1,037 0,249 2,218 0,230 0,225 0,027 I81 1,077 0,230 2,111 0,192 0,200 0,026 I38 1,055 0,174 1,092 0,134 0,236 0,040 I82 1,616 0,345 2,008 0,153 0,243 0,017 I39 1,369 0,229 0,668 0,138 0,400 0,039 I83 1,358 0,510 3,222 0,589 0,283 0,015 I40 0,749 0,284 5,324 1,535 0,161 0,014 I84 1,662 0,355 2,517 0,215 0,115 0,011 I41 0,844 0,124 0,667 0,199 0,223 0,053 I86 1,339 0,240 1,143 0,107 0,302 0,032 I42 1,100 0,173 0,474 0,175 0,294 0,052 I88 1,600 0,346 1,972 0,153 0,198 0,018 I43 1,435 0,182 0,531 0,101 0,236 0,037 I89 1,322 0,538 3,93 0,880 0,215 0,011 I44 1,218 0,435 3,446 0,646 0,216 0,014 I90 0,866 0,145 1,079 0,189 0,257 0,048 Uma avaliação geral dos itens utilizados no processo seletivo vestibular da ESALQ/USP no ano de 2012 pode ser vista na Tabela 2 que apresenta estatísticas como a média e o desvio padrão da prova, para os itens considerados no processo de calibração. Considerando que a escala do parâmetro dificuldade dos itens varia inicialmente no intervalo [ 0, 887; 5, 324], correspondendo aos itens 55 e 40, 35 Anais Nº 1, ano 2013, p

44 Edilan de Sant Ana Quaresma, Pedro Alberto Barbetta, Adriano Ferreti Borgatto, Ezequiel Abraham López Bautista e Carlos Tadeu dos Santos Dias respectivamente, pode se inferir que a dificuldade média da referida prova (1,460) é considerada mediana, obviamente, de acordo com o padrão de respostas dos avaliandos, com leve assimetria positiva (0,61) indicando maior concentração dos itens no início da escala de dificuldades. Também merece destaque a média do parâmetro de acerto casual, igual a 0,241, correspondendo a um valor esperado, uma vez que o caderno de questões foi composto por itens de múltipla escolha, com 5 alternativas de resposta, de tal forma que a chance de um sujeito acertar determinado item, sem nada saber sobre ele, seria equivalente a 0,20. Table 2: Esta s cas dos paraˆ metros dos 70 itens no modelo logís co de 3 parâmetros na primeira fase do vestibular ESALQ/USP: 2012 Parâmetro Média Erro Padrão Min Max Assimetria a 1,260 0,0370 0,664 2,094 0,36 b 1,460 0,1500 0,887 5,324 0,61 c 0,241 0,0075 0,073 0,400 0,26 Outra medida útil no processo de avaliação do teste utilizado é a função de informação do teste I (θ), que permite analisar o quanto aquele teste contém de informação para a medida da proficiência. Quanto maior a informação, mais preciso é o teste para avaliar as proficiências daqueles sujeitos. Trata se de uma curva de informação do teste e não depende dos respondentes. Para o exame seletivo vestibular aqui descrito, a curva de informação do teste é mostrada pelo traço contínuo na Figura 1, juntamente com a curva de erro padrão, mostrada em traços pontilhados. Figure 1: Curva de informação do teste 36 Anais Nº 1, ano 2013, p

45 Vestibular FUVEST 2012: uma abordagem sob o enfoque da TRI Na Figura 1 os itens avaliados são mais informativos, mais precisos, para os candidatos com escores entre 0 e 3, não se mostrando tão informativa para candidatos com escores menores que 0. Esta concentração é justificável, uma vez que é natural a preocupação em se ter melhor informação nos níveis superiores da escala, considerando a maior preocupação em classificar corretamente os candidatos a cursos mais concorridos, já que nos menos concorridos quase todos os candidatos são classificados. A forma assimétrica negativa da curva mostra que a prova foi bem ajustada para candidatos com maiores proficiências. Entretanto, na região esquerda da figura, a curva do erro padrão da estimativa é superior à curva de informação do teste, indicando no teste a ausência de itens que avaliem sujeitos com baixas proficiências. Os valores estimados para os parâmetros dos itens viabilizaram obter as probabilidades de resposta correta, para diferentes níveis do traço latente, que puderam ser utilizadas para encontrar diferentes níveis de proficiência e, consequentemente, os itens âncora e quase âncora. Essa escala de proficiência sintetiza o domínio dos conteúdos e habilidades alcançados pelos candidatos, o que permite inferir o nível de domínio das competências avaliadas. Os níveis de traço latente, mostrados na Figura 2, permitem situar as capacidades dos sujeitos que responderam às questões, a princípio, em sete níveis de proficiência que necessitam de avaliação pedagógica para serem interpretados. Figure 2: Níveis de proficiências e percentuais de participação dos avaliandos na escala. Embora a Figura 2 indique a existência de sete níveis âncora, à rigor não há como descrevê los em sua totalidade, pela inexistência de itens âncora ou quase âncora posicionados em alguns deles, fazendo com que na prática, sejam considerados somente quatro níveis (I, II, III e IV), correspondendo aos valores 0, 1, 2 e 3 respectivamente, na escala de proficiências. Anais Nº 1, ano 2013, p

46 Edilan de Sant Ana Quaresma, Pedro Alberto Barbetta, Adriano Ferreti Borgatto, Ezequiel Abraham López Bautista e Carlos Tadeu dos Santos Dias A escala descreve aquilo que os candidatos sabem e são capazes de realizar em relação às habilidades e competências avaliadas, conforme as Matrizes de Referência para Avaliação (SÃO PAULO, 2009). A interpretação da escala é cumulativa, ou seja, os alunos que esta o situados em um determinado nível dominam na o só as habilidades associadas a esse nível, mas também as proficiências descritas nos níveis anteriores a lógica e a de que quanto mais o estudante caminha ao longo da escala, mais habilidades e terá desenvolvido. A interpretação dos pontos da escala é pedagógica. (Relatório SARESP, 2012, p.5 6) Para a descrição do nível I, por exemplo, que reúne as proficiências mais simples esperadas de um candidato a ingressar na ESALQ, devem ser utilizados os itens quase âncora 47, 48, 54, 57, 74 e 78, que apresentam competências cognitivas 1 semelhantes, cujos parâmetros são mostrados na Tabela 3, mas que necessitam de interpretação pedagógica para sua melhor compreensão. Tabela 3: Itens âncora (A) e quase âncora (QA) por conteúdo e parâmetros Nível (Escala) Item Tipo Conteúdo a b c % acerto 47 QA Língua Portuguesa 1,220 0,213 0,328 69,8 48 QA Língua Portuguesa 1,483 0,086 0,086 66,0 I (0) 54 QA Inglês 1,156 0,239 0,266 67,3 57 QA Inglês 1,392 0,311 0,263 69,0 74 QA História 1,599 0,108 0,249 64,9 78 QA História 1,301 0,515 0,274 72,7 13 QA Biologia 1,332 0,528 0,258 53,4 17 QA Biologia 1,142 1,078 0,329 51,1 24 QA Química 1,012 1,117 0,335 52,1 41 QA Língua Portuguesa 0,841 0,693 0,227 51,7 II (1) 43 QA Língua Portuguesa 1,432 0,547 0,240 51,5 45 QA Geografia 1,354 0,492 0,227 52,1 70 QA História 1,517 0,702 0,266 50,1 19 A Biologia 2,092 1,525 0,146 24,5 9 QA Geografia 1,155 1,636 0,180 32,4 12 QA Biologia 1,198 1,461 0,256 40,3 18 QA Biologia 1,197 1,341 0,160 34,2 25 QA Química 1,658 1,623 0,301 39,0 III (2) 26 QA Química 1,215 1,581 0,251 38,3 28 QA Química 1,755 2,013 0,302 35,3 50 QA Língua Portuguesa 0,886 1,540 0,161 35,6 75 QA História 1,418 1,358 0,177 33,3 30 A Química 1,426 2,960 0,218 24,1 IV (3) 60 A Matemática 1,708 2,704 0,072 9,7 84 A Física 1,638 2,520 0,114 14,8 61 QA Matemática 1,393 2,401 0,207 25,8 63 QA Matemática 1,243 2,428 0,132 19,8 68 QA Matemática 1,045 2,775 0,280 33,3 1 Entende-se por competências cognitivas as modalidades estruturais da inteligência, ou melhor, o conjunto de ações e operações mentais que o sujeito utiliza para estabelecer relações com e entre os objetos, situações, fenoˆ menos e pessoas que deseja conhecer. (FINI, 2010, p.10) 38 Anais Nº 1, ano 2013, p

47 Vestibular FUVEST 2012: uma abordagem sob o enfoque da TRI Na Tabela 3 observa se que os grupos de itens em cada nível de proficiência apresentam características próximas principalmente no percentual de acerto e parâmetro de dificuldade. Nota se, por exemplo, para os quatro níveis de proficiência, que os percentuais médios de acerto para os itens especificados (66, 28%, 51, 71%, 34, 77% e 21, 25%) são decrescentes, enquanto que os valores médios dos percentuais do parâmetro de dificuldade dos itens aumentam, enfatizando tratar se de uma escala de proficiências crescente. Uma proposta de interpretação generalista dos níveis de proficiência é apresentada na Tabela 4, que classifica os diferentes níveis de proficiência por descrição das competências e habilidades dos candidatos avaliados. Uma proposta de interpretação pedagógica mais específica, utiliza a prova do exame seletivo vestibular da ESALQ/USP: 2012 como um instrumento destinado a aferir habilidades apresentadas nos Parâmetros Curriculares Nacionais para o Ensino Médio (2000), descritas como: (i) Linguagens, códigos e suas Tecnologias; (ii) Ciências da Natureza, Matemática e suas Tecnologias e (iii) Ciências Humanas e suas Tecnologias. Nessa perspectiva, a proposta de interpretação pedagógica é apresentada nos tópicos a seguir. Tabela 4: Classificação e descrição de competências e habilidades dos níveis de proficiência do Exame Vestibular ESALQ/USP: 2012 Competência/Habilidade Abaixo do básico (Nível I) Básico (Nível II) Adequado (Nível III) Avançado (Nível IV) Descrição Neste nível os candidatos demonstram domínio insuficiente de conteúdos, competências e habilidades desejáveis para o Ensino Médio Os candidatos, neste nível, demonstram domínio mínimo dos conteúdos, competências e habilidades, mas não possuem as estruturas necessárias para interagir com a proposta curricular no Ensino Superior Os candidatos, neste nível, demonstram domínio pleno de conteúdos, competências e habilidades desejáveis para o Ensino Médio Os alunos, neste nível, demonstram conheci mento e domínio dos conteúdos, competências e habilidades acima do requerido no Ensino Médio Anais Nº 1, ano 2013, p

48 Edilan de Sant Ana Quaresma, Pedro Alberto Barbetta, Adriano Ferreti Borgatto, Ezequiel Abraham López Bautista e Carlos Tadeu dos Santos Dias Nível I: Este nível reúne as proficiências mais simples esperadas de um candidato a estudos de nível universitário, descritas como Analisar, interpretar e aplicar os recursos expressivos das linguagens, relacionando textos com seus contextos, mediante a natureza, função, organização e estrutura das manifestações de acordo com as condições de produção e recepção. ; Nível II: Além da proficiência do Nível I, neste nível o candidato deve saber Apropriar se dos conhecimentos da Química e da Biologia, e aplicar esses conhecimentos para explicar o funcionamento do mundo natural, planejar, executar e avaliar ações de intervenção na realidade natural., além disso, deve também Compreender o desenvolvimento da sociedade como processo de ocupação de espaços físicos e as relações da vida humana com a paisagem, em seus desdobramentos político sociais, culturais, econômicos e humanos. ; Nível III: Além das proficiências dos Níveis I e II, neste nível o candidato deve Compreender a produção e o papel histórico das instituições sociais, políticas e econômicas, associando as às práticas dos diferentes grupos e atores sociais, aos princípios que regulam a convivência em sociedade, aos direitos e deveres da cidadania, à justiça e à distribuição dos benefícios econômicos. ; Nível IV: Além das proficiências dos Níveis I, II e III, neste nível o candidato deve Entender e aplicar métodos e procedimentos próprios das Ciências Naturais.. Pode se observar que as interpretações pedagógicas dos níveis de proficiência são traduzidas como um processo em que o conhecimento é acumulativo, o que é justificável, uma vez que o modelo logístico parte do princípio de que, quanto maior a proficiência do respondente, maior sua probabilidade de acerto. O traço latente do indivíduo representa a proficiência mínima que um respondente deve possuir para que sua probabilidade de acerto seja alta. Na Tabela 5 são mostrados o número de itens respondidos corretamente por cada um dos sujeitos avaliados, o percentual de itens respondidos corretamente, as habilidades (proficiências, traços latentes) individuais juntamente com seus erros padrão. São mostrados, a título de exposição, apenas resultados referentes aos 10 primeiros avaliados. 40 Anais Nº 1, ano 2013, p

49 Vestibular FUVEST 2012: uma abordagem sob o enfoque da TRI Tabela 5: Estimativas das habilidades individuais dos 10 primeiros candidatos vestibular ESALQ/USP:2012 Indivíduo N o acertos % acerto Proficiência E.P ,00 1, , ,86 0, , ,14 0, , ,00 1, , ,29 0, , ,14 0, , ,86 0, , ,57 0, , ,71 0, , ,14 0, , A título de exemplificação na construção da Curva Característica do Item, o item 55, relacionado à uma das questões de inglês, mostrou se como o item menos difícil (b= 0,885) dentre os 70 itens aqui considerados, embora apresente uma discriminação (a=1,415) maior que o item 39 e, igualmente, uma alta probabilidade de resposta correta fornecida por sujeitos com baixas proficiências (Figura 3). Figure 3: Curva Característica do Item 55 (a=1,415, b= 0,885 e c=0,324) A análise dos itens sob o enfoque unidimensional da TRI, feita nessa seção, mostrou evidências consideradas importantes como, por exemplo, itens correlacionados negativamente com o escore obtido pelos candidatos, caracterizados provavelmente como itens mal formulados ou itens que meçam um traço latente não considerado no referido processo de avaliação e ainda, itens prejudicados no processo de calibração pela ausência de candidatos melhor preparados para respondê los. Entretanto já foi discutido aqui o fato das proficiências exigidas para responder Anais Nº 1, ano 2013, p

50 Edilan de Sant Ana Quaresma, Pedro Alberto Barbetta, Adriano Ferreti Borgatto, Ezequiel Abraham López Bautista e Carlos Tadeu dos Santos Dias corretamente determinados itens, não estarem restritas a uma única dimensão, de tal forma a se esperar que subjacente ao padrão de respostas dos avaliandos, haja uma estrutura multidimensional. Conclusões O uso da TRI mostra se como uma alternativa interessante na análise de itens em processos seletivos, por considerar características importantes dos itens que não costumam ser contempladas em situações que se utilizam a Teoria Clássica dos Testes como critério de avaliação e classificação de candidatos. Mostra se vantajosa como técnica que diagnostica itens importantes na mensuração do traço latente, identificando também aqueles que não são. No caso do exame vestibular da FUVEST 2012 para candidatos aos cursos da ESALQ, identificou 70 dos 90 itens do teste, como importantes para construção de uma escala de proficiências, que poderia ser utilizada no processo de seleção daqueles candidatos. Agradecimentos: Agradecemos a FUVEST por fornecer os dados. Referências Andrade, D.F., Tavares, H.R., Valle, R.C. (2000). Teoria da Resposta ao Item: Conceitos e Aplicações. SINAPE, 154p. BEATON, A.E.; ALLEN, N.L. Interpreting scales through scale anchoring. Journal of Statistics Education, New York, 17, p , FINI, M.I. Sistema de avaliação do rendimento escolar do estado de São Paulo, São Paulo, p. Thurstone, L.L. (1928). Attitudes can be measured. American Journal of Sociology, n. 33, p Primi, R. (2012). Psicometria: fundamentos matemáticos da teoria clássica dos testes. Revista Avaliação Psicológica, n. 11, v. 2, p SÃO PAULO (Estado), Fundação VUNESP. Relatório vestibular São Paulo: Secretaria da Educação: SEE, p. Recebido em: 03/11/2013 Avaliado em: 25/11/ Anais Nº 1, ano 2013, p

51 Estabilidade da Estimação dos Parâmetros dos Itens em Diferentes Tamanhos Amostrais Estimation ot Item Parameters in Different Sample Sizes Felipe Valentini Doutor em Psicologia, UnB Pós doutorando da Universidade Salgado de Oliveira, Universo/RJ Nelson Hauck Filho Doutor em Psicologia, UFRGS Professor do programa de pós graduação em Psicologia, USF/Itatiba Resumo A maioria dos modelos de TRI possui a invariância dos parâmetros como um de seus aspectos fundamentais. Todavia, a qualidade das estimativas paramétricas pode variar de acordo com o tamanho amostral empregado para a calibração dos itens. Em particular, o modelo logístico de três parâmetros (3 PL) pode requerer uma quantidade maior de casos do que modelos alternativos mais simples para itens dicotômicos (e.g., modelo Rasch). O objetivo do presente trabalho foi aprofundar a investigação da estabilidade das estimativas paramétricas do modelo 3 PL (parâmetros a, b e c) empregando dados reais de diferentes tamanhos amostrais. Os dados para o presente estudo foram provenientes de uma avaliação docente brasileira feita com professores do ensino básico. Os resultados sugeriram que um tamanho amostral mínimo de 500 casos é suficiente para proporcionar estimativas paramétricas estáveis de a, b e c. Os achados do presente estudo oferecem diretrizes práticas e úteis a profissionais e pesquisadores envolvidos com a calibração de itens via TRI. Palavras chave: Tamanho da amostra. Estabilidade das estimativas em TRI. Modelo logístico de três parâmetros (3 PL). Abstract This research aims to investigate the stability of estimates of the 3 PL model (parameters a, b and c) using real data with different sample sizes. We employed a database (12000 subjects) from a Brazilian large scale educational assessment, comprising14 multiple choice items about general educational practices. The results suggest that sample sizes of at least 500 subjects might be enough to estimate a, b and c IRT parameters. Keywords: Sample size. Stability of the IRT estimates. Three parameter logistic model (3 PL). Introdução A Teoria de Resposta ao Item (TRI) representa uma das principais estratégias de análise de dados quando o interesse é modelar variáveis latentes contínuas a partir de indicadores categóricos. Modelos de TRI são similares à análise fatorial confirmatória

52 Felipe Valentini e Nelson Hauck Filho categórica, com a diferença de que, tipicamente, usam funções de ligação logística para relacionar os parâmetros do modelo às respostas aos itens (Takane & de Leeuw, 1987). Com a exceção dos modelos mixture (ver Muthén, 2008), a maioria dos modelos de TRI possui a invariância dos parâmetros como um de seus postulados fundamentais (Hambleton, 1994). O objetivo de uma análise de TRI, portanto, é obter estimativas paramétricas para a (discriminação), b (dificuldade) e c (pseudo chute) que se aproximem do valor populacional verdadeiro desses parâmetros. Se, por um lado, a invariância é uma propriedade sintática dos modelos de TRI, as estimativas desses parâmetros podem variar em qualidade, de acordo com o tamanho amostral empregado (Hambleton, 1994). Nunes e Primi (2005) investigaram a temática com dados de uma prova de avaliação de desempenho em matemática aplicada a estudantes brasileiros do Ensino Fundamental. Os resultados sugeriram que são necessários, pelo menos, 500 casos para que seja alcançada a estabilidade na estimação dos parâmetros a e b. Entretanto, se o modelo de escolha for o modelo logístico de três parâmetros (3 PL), é possível que seja necessário um tamanho amostral superior a 500 casos, em função da necessidade de informação extra para estimar também o parâmetro c de cada item. O objetivo do presente trabalho foi aprofundar a investigação da estabilidade das estimativas paramétricas do modelo 3 PL (parâmetros a, b e c) empregando dados reais de diferentes tamanhos amostrais. 1. Metodologia Os dados empregados foram provenientes de uma avaliação docente brasileira que agrega as respostas de professores do ensino básico. Na presente pesquisa, utilizaram se apenas os 14 itens de conhecimentos gerais sobre a educação. A amostra total foi dividida em cinco subamostras compostas, aleatoriamente, de 50, 100, 200, 500, e participantes. Para cada subamostra, foram geradas cinco reamostragens por meio do método bootstrap. Os parâmetros dos itens de discriminação (a), dificuldade (b) e pseudo chute (c) foram estimados por meio do modelo logístico de três parâmetros (3PL), método marginal maximum likelihood (MML). Para tanto, utilizou se o software Bilog MG Anais Nº 1, ano 2013, p

53 Estabilidade da estimação dos parâmetros dos itens em diferentes tamanhos amostrais Os parâmetros estimados em cada reamostragem foram comparados com os parâmetros estimados a partir da população total de professores. Ademais, investigou se a estabilidade dos parâmetros por meio da comparação dos desviospadrão das estimações em cada reamostragem, separando as por grupo de tamanho de amostra. Tais resultados foram analisados por meio de gráficos de distribuição. 2. Resultados e comentários Inicialmente, foram comparadas as estimativas paramétricas obtidas a partir dos bancos construídos via reamostragem (tamanhos de 50, 100, 200, 500, e casos) com o banco total de casos. Para tanto, calculou se, primeiramente, a média dos parâmetros estimados em cada reamostragem. No seguinte passo, calculouse a diferença entre essa média e os parâmetros estimados na população total. Os resultados das comparações dos parâmetros a, b e c são apresentados na Figura 1. 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 a b c 0, Tamanho da Amostra Figura 1. Diferenças entre as médias dos parâmetros estimados em cada reamostragem e os parâmetros estimados na população Os resultados apresentados na Figura 1 indicam que a estimação do parâmetro pseudo chute é acurada mesmo em amostras relativamente pequenas. Ou seja, a média das estimações em cada reamostragem é semelhante à estimação dos parâmetros para a população total. A discriminação, em amostras acima de 200 participantes, também é estimada de maneira semelhante à população. Em contraste, Anais Nº 1, ano 2013, p

54 Felipe Valentini e Nelson Hauck Filho a estimação do parâmetro de dificuldade parece sofrer a maior influência do tamanho da amostra. Para amostras de 200 participantes (ou menos), a diferença média das estimações obtidas pela amostra é de aproximadamente 0,6 (escala theta), se comparada às estimações da população de participantes. Obviamente, essa diferença pode resultar em vieses significativos na estimação do parâmetro de proficiência theta dos participantes. Na sequência, buscou se avaliar a estabilidade dos parâmetros nas diferentes reamostragens com tamanho amostral variável. Para cada grupo de amostra foi calculado o desvio padrão das estimações. Os resultados são apresentados na Figura 2. Verifica se, na Figura 2, que os parâmetros a, b e c apresentam pouca diferença nos desvios padrão (das estimações em cada reamostragem) entre as amostras de 500, e participantes. No que se refere especificamente ao parâmetro de dificuldade, os desvios padrão para esses três grupos de tamanhos de amostra é de aproximadamente 0,20. Ressalta se que o erro padrão de estimação do parâmetro b da população de é igual a 0,28 (não apresentado no gráfico). Portanto, a estimação do parâmetro b em amostras de, pelo menos, 500 participantes é tão estável quanto a estimação desse parâmetro na população de Por outro lado, amostras de 200 participantes, ou menores, apresentaram relevante instabilidade na estimação dos parâmetros dos itens. 1,4 1,2 1 0,8 0,6 0,4 0,2 a b c Tamanho da Amostra Figura 2. Desvios padrão dos parâmetros estimados em cada reamostragem separadas por grupo de tamanho de amostra 46 Anais Nº 1, ano 2013, p

55 Estabilidade da estimação dos parâmetros dos itens em diferentes tamanhos amostrais Conclusões Os resultados do presente estudo sugerem que um tamanho amostral de pelo menos 500 casos é suficiente para proporcionar estimativas paramétricas estáveis de a, b e c. Resultados semelhantes foram encontrados no estudo de Nunes e Primi (2005), em que os autores também relataram um n de 500 como sendo um tamanho amostral mínimo aceitável para a estabilidade dos parâmetros estimados. Portanto, o 3 PL pode, potencialmente, ser considerado como um modelo candidato para a análise de dados via TRI mesmo em situações de tamanho amostral moderado, sem a disponibilidade de uma grande quantidade de casos. Os resultados do presente estudo oferecem diretrizes práticas úteis a profissionais e pesquisadores envolvidos com a calibração de itens via TRI. Referências Hambleton, R. (1994). Item Response Theory: A broad psychometric framework for measurement advances. Psicothema, 6, Muthén, B. O. (2007). Latent variable hybrids: Overview of old and new methods. In G. R. Hancock, and K. M. Samuelsen (Eds.), Advances in Latent Variable Mixture Models (pp. 1 24). Charlotte, NC: Information Age Publishing. Nunes, C. H. S. da S., and Primi, R. (2005). Impacto do tamanho da amostra na calibração de itens e estimativa de escores por teoria de resposta ao item. Avaliação Psicológica, 4, Takane, Y., and Leeuw, J. (1987). On the relationship between item response theory and factor analysis of discretized variables. Psychometrika, 52, doi: /bf Recebido em: 03/11/2013 Avaliado em: 25/11/2014 Anais Nº 1, ano 2013, p

56 Felipe Valentini e Nelson Hauck Filho 48 Anais Nº 1, ano 2013, p

57 Análise dos Itens de um Teste de Reconhecimento de Emoções por Meio do Modelo Logístico de Dois Parâmetros da TRI Items Analysis of Emotional Recognition Index Through the Two Parameter Logistic Model IRT Fernando de Jesus Moreira Junior Doutor em Engenharia de Produção, UFSC Professor do Departamento de Estatística, UFSM Silvio José Lemos Vasconcellos Doutor em Psicologia, UFRGS Professor do Departamento de Psicologia, UFSM Felipe Argolo Doutor em Estatística, University of Southampton Acadêmico de Medicina, UFBA Resumo O ERI (Emotional Recognition Index) é um teste de reconhecimento de emoções composto por duas subescalas, uma para reconhecimento de emoções faciais (FACIAL I) e outra para reconhecimento por intermédio de expressões verbais (VOCAL I). O instrumento avalia a habilidade dos indivíduos para inferir corretamente emoção expressa pela face ou estímulos verbais, com base no conceito de competência emocional. O objetivo do trabalho foi fazer uma análise inicial dos itens do ERI por meio do Modelo Logístico de Dois Parâmetros (ML2) da Teoria da Resposta ao Item (TRI). A amostra do estudo foi composta por 195 estudantes universitários de diferentes cursos da UFSM, que observaram 30 expressões faciais projetadas em um telão, e 30 vocalizações, apresentadas por um sistema de áudio, e, em seguida, assinalaram em um questionário a emoção percebida. Os dados foram analisados por meio do pacote irtoys do Software R. As subescalas foram tratadas como sendo dois testes diferentes (dois construtos separados). Observou se que a maioria dos itens se ajustou de forma apropriada, no entanto, alguns itens do ERI apresentaram um comportamento inadequado. Foram encontradas explicações para o comportamento inadequado de alguns itens. Palavras chave: Emotional Recognition Índex. Reconhecimento de emoções. Emoções faciais. Emoções verbais. Modelo logístico de dois parâmetros. Abstract The ERI (Emotional Recognition Index) is a test of emotion recognition consists of two subscales, one for recognition of facial emotions (FACE I) and another for recognition through verbal expressions (VOCAL I). The instrument assesses individuals' ability to correctly infer emotion expressed by the face or verbal stimuli, based on the concept of emotional competence. The objective was to make an initial determination of the ERI items through the Two Parameter Logistic Model (2PL) from the Item Response Theory (IRT). The study sample

58 Fernando de Jesus Moreira Junior, Silvio José Lemos Vasconcellos e Felipe Argolo consisted of 195 university students from different courses UFSM, 30 who observed facial expressions projected on a big screen, and 30 vocalizations presented by an audio system, and then pointed out a questionnaire on perceived emotion. Data were analyzed using the irtoys package of software R. The subscales were treated as two different tests (two separate constructs). It was observed that most of the items is set appropriately, however, show some items ERI inappropriate behavior. Explanations for the inappropriate behavior of some items were found. Keywords: Emotional Recognition Index. Recognition of emotions. Facial expressions. Verbal emotions. Two parameter logistic model. Introdução O ERI (Emotional Recognition Index) é um teste de reconhecimento de emoções composto por duas subescalas, uma para reconhecimento de emoções faciais (FACIAL I) e outra para reconhecimento por intermédio de expressões verbais (VOCAL I). O instrumento avalia a habilidade dos indivíduos para inferir corretamente emoção expressa pela face ou estímulos verbais, com base no conceito de competência emocional (Scherer, 2007). A habilidade para inferir corretamente a emoção de outros é uma competência socioemocional central e fornece informações importantes sobre a reação dos outros a eventos recentes (incluindo nosso próprio comportamento) e sobre as suas prováveis ações futuras. Além disso, a habilidade para identificar corretamente a reação emocional dos outros é uma habilidade essencial para diversas profissões (terapeutas, professores, policiais, advogados, vendedores, políticos, etc.). Diferentes achados indicam diferenças nessas habilidades (Bänziger et al., 2009; Hall; Bernieri, 2001). O objetivo desse trabalho foi fazer uma análise inicial do ERI por meio do Modelo Logístico de Dois Parâmetros (ML2) da Teoria da Resposta ao Item (TRI). A TRI é uma metodologia que sugere formas de representar a relação entre a probabilidade de um indivíduo dar uma certa resposta a um item, os traços latentes do indivíduo e as características dos itens, por meio de modelos matemáticos (Andrade; Tavares; Valle, 2000). 1. Metodologia A amostra do estudo foi composta por 195 estudantes universitários de diferentes cursos da UFSM, que observaram 30 expressões faciais projetadas em um telão, e Anais Nº 1, ano 2013, p

59 Análise dos Itens de um Teste de Reconhecimento de Emoções por Meio do Modelo Logístico de Dois Parâmetros da TRI vocalizações, apresentadas por um sistema de áudio, e, em seguida, assinalaram em um questionário a emoção percebida. Os dados foram analisados por meio do pacote irtoys do Software R. As subescalas foram tratadas como sendo dois testes diferentes (dois construtos separados). As respostas foram dicotomizadas (certo/errado) para fins de utilização do Modelo Logístico. Inicialmente, tentou se ajustar o Modelo Logístico Unidimensional de Três Parâmetros (ML3), porém com o uso do pacote irtoys não foi possível gerar as estimativas. Dessa forma, tentou se ajustar o Modelo Logístico Unidimensional de Dois Parâmetros (ML2), no qual o pacote irtoys conseguiu gerar as estimativas que foram utilizadas na análise desse trabalho. 2. Resultados e comentários Os parâmetros dos itens foram estimados por meio do ML2 em uma escala com média 0 (zero) e desvio padrão 1 (um). Para os dois testes (FACIAL I e VOCAL I), a maioria dos itens se ajustou de forma apropriada, no entanto, alguns itens do ERI apresentaram um comportamento inadequado, como pode se observar nas Curvas Características dos Itens (CCIs) das Figuras 1a e 2a. Item response function Item information function Probability of a correct response Item information Ability (a) CCIs (b) FIIs Ability Figura 1 CCIs e FIIs do Teste FACIAL I Anais Nº 1, ano 2013, p

60 Fernando de Jesus Moreira Junior, Silvio José Lemos Vasconcellos e Felipe Argolo Item response function Item information function Probability of a correct response Item information Ability (a) CCIs (b) FIIs Ability Figura 2 CCIs e FIIs do Teste VOCAL I Nas Figuras 1b e 2b, pode se observar que são poucos os itens que contribuem significativamente em termos de fornecimento de informação para os testes FACIAL I e VOCAL I. Além disso, em ambos os testes, há um predomínio de itens adequados posicionados no lado esquerdo da escala, ou seja, abaixo da média, o que significa que os itens adequados desses testes são fáceis de acertar. Os gráficos da Figura 3 apresentam a informação total dos testes (FITs) FACIAL I (a) e VOCAL I (b), respectivamente, e corroboram com essa conclusão. Observa se também que o teste FACIAL I é mais informativo que o teste VOCAL I. Test information function Test information function Information Information Ability Ability (a) FIT (b) FIT Figura 3 FITs FACIAL I e VOCAL I, respectivamente 52 Anais Nº 1, ano 2013, p

61 Análise dos Itens de um Teste de Reconhecimento de Emoções por Meio do Modelo Logístico de Dois Parâmetros da TRI Durante a concepção teórica do instrumento, na tentativa de criar alguns itens com maior grau de dificuldade, os desenvolvedores do ERI misturaram unidades de ação facial (no teste FACIAL I) e diferentes expressões vocais (no teste VOCAL I) num mesmo item. Isso gerou itens com emoções hibridas, ou seja, emoções misturadas num mesmo item, o que pode ter afetado a percepção mesmo daqueles com alta capacidade de identificar as emoções. Por exemplo, o item 5, representado na Figura 5, que mistura expressões de raiva (músculo da sobrancelha) e tristeza (boca), embora a expressão raiva devesse ser a predominante, foi acertado por 33,8% dos respondentes. No entanto, a probabilidade de acertar esse item, independe da capacidade de reconhecimento facial do respondente, como mostra a CCI da Figura 4. Item response function Probability of a correct response Ability Figura 4 Emoção facial e CCI correspondente do item 5 Por outro lado, alguns itens foram considerados inadequados na análise por serem fáceis demais e por não discriminarem. Por exemplo, o item 6, representado na Figura 5, cuja expressão de repugnância/nojo foi facilmente acertado por 99,5% dos respondentes, independe da capacidade de reconhecimento facial do respondente. Anais Nº 1, ano 2013, p

62 Fernando de Jesus Moreira Junior, Silvio José Lemos Vasconcellos e Felipe Argolo Item response function Probability of a correct response Ability Figura 5 Emoção facial e CCI correspondente do Item 6 A Figura 6 apresenta um item adequado, embora seja fácil (84,1% de acerto e parâmetro b igual a 1,28), possui poder de discriminar os respondentes com maior e menor percepção de reconhecimento facial. Item response function Probability of a correct response Ability Figura 6 Emoção facial e CCI correspondente do Item 17 Conclusões A análise preliminar realizada por meio do ML2 da TRI mostrou que a maioria dos itens se ajustou de forma apropriada, no entanto, alguns itens do ERI apresentaram 54 Anais Nº 1, ano 2013, p

63 Análise dos Itens de um Teste de Reconhecimento de Emoções por Meio do Modelo Logístico de Dois Parâmetros da TRI um comportamento inadequado. Foram encontradas explicações para o comportamento inadequado de alguns itens: Quanto ao teste FACIAL I, conclui se que alguns dos itens inadequados misturam unidades de ação facial e, portanto, geram a aparência de serem emoções hibridas, confundindo o respondente. Quanto ao teste VOCAL I, conclui se que os itens inadequados misturam diferentes padrões de voz e, portanto, geram uma sonoridade de emoções hibridas, também confundindo o respondente. Os resultados da análise desses itens servirão como diretrizes para a elaboração de itens adequados na construção de uma versão brasileira para o teste de reconhecimento de emoções. Referências Andrade, D. F.; Tavares, H. R.; Valle, R. C (2000). Teoria da resposta ao item: conceitos e aplicações. São Paulo: ABE Associação Brasileira de Estatística. Bänziger, T.; Grandjean, D.; Scherer, K. R. (2009). Emotion recognition from expressions in face, voice, and body: The multimodal emotion recognition test (MERT). Emotion, 9, Hall, J. A. The PONS test and the psychometric approach to measuring interpersonal sensitivity. In J. A. Hall & F. J. Bernieri (Eds.), Interpersonal sensitivity: Theory and measurement. Mahwah, NJ: Erlbaum, p , Scherer, K. R. (2007) Component models of emotion can inform the quest for emotional competence. In G. Matthews, M. Zeidner, & R. D. Roberts (Eds.), The science of emotional intelligence: Knowns and unknowns. New York, NY: Oxford University Press, p Recebido em: 03/11/2013 Avaliado em: 25/11/2014 Anais Nº 1, ano 2013, p

64 Fernando de Jesus Moreira Junior, Silvio José Lemos Vasconcellos e Felipe Argolo 56 Anais Nº 1, ano 2013, p

65 Seleção de um Algoritmo para um Teste Adaptativo Informatizado para fins de Classificação por meio de Simulações Selecting a Computerized Adaptive Testing Algorithm for Classification purpose by Simulations Fernando de Jesus Moreira Junior Doutor em Engenharia de Produção, UFSC Professor do Departamento de Estatística, UFSM fmjunior777@yahoo.com.br Dalton Francisco de Andrade Doutorado em Biostatistics, UNC SYSTEM Professor Voluntário do Departamento de Engenharia de Produção e Sistemas, UFSC dandrade@inf.ufsc.br Antonio Cezar Bornia Doutorado em Engenharia de Produção, UFSC Professor do Departamento de Engenharia de Produção e Sistemas, UFSC cezar@deps.ufsc.br Resumo O objetivo desse trabalho é selecionar um Algoritmo para um Teste Adaptativo Informatizado (TAI) proposto para a avaliação teórica do DETRAN SC para fins de classificação por meio de simulações. Vários testes com diferentes opções de critérios de seleção dos itens, definições da habilidade inicial e métodos de estimação da habilidade foram avaliados. O algoritmo selecionado utiliza o zero na escala (0;1) para a definição da habilidade inicial, o método da Máxima Informação para a seleção dos itens e o Método da Máxima Verossimilhança Ponderada para a estimação da habilidade. Palavras chave: Teste adaptativo informatizado. Teste para classificação. Simulações. Algoritmos. Abstract The aim of this paper is to select an Algorithm for Computerized Adaptive Test (CAT) proposed for the theoretical evaluation of the DETRAN SC for classification purposes by simulations. Several tests with different options for the items selection criteria, initial ability definitions and ability estimation methods were evaluated. The selected algorithm uses the zero on the scale (0, 1) for the initial ability definition, the Maximum Information method for items selection and the Weighted Maximum Likelihood Method to estimate the ability. Keywords: Computerized Adaptive Testing. Classification Test. Simulations. Algorithms.

66 Fernando de Jesus Moreira Junior, Dalton Francisco de Andrade e Antonio Cezar Bornia Introdução A avaliação teórica do DETRAN SC (Departamento Estadual de Trânsito de Santa Catarina) é realizada por meio da aplicação de um teste convencional do tipo papel e lápis (Kingsbury, 2002), que pode ser aplicado também na versão informatizada, constituído por 40 questões de múltipla escolha com quatro alternativas, sendo que apenas uma delas é correta. Para que o candidato seja aprovado no exame, ele deve responder corretamente pelo menos 70% das questões, ou seja, ele deve acertar a resposta de, no mínimo, 28 questões quaisquer da prova. A prova é elaborada com a seleção de 40 questões de um banco de itens existentes. Embora o indivíduo receba uma nota final baseada no escore, o objetivo é classificar o indivíduo em aprovado/reprovado, em relação à um determinado ponto de corte, o que caracteriza um teste do tipo classificação. O objetivo desse trabalho é selecionar um Algoritmo para um Teste Adaptativo Informatizado (TAI) proposto para a avaliação teórica do DETRAN SC para fins de classificação por meio de simulações. O objetivo de um TAI é apresentar itens ao indivíduo que sejam adequados ao seu nível de habilidade, o que fornece diversos benefícios na sua implementação (Van der Linden; Glas, 2000; 2010; Wainer, 2000). 1. Metodologia Os dados utilizados nesse estudo foram disponibilizados pelos DETRAN SC e pelo CIASC (Centro de Informática e Automação do Estado de Santa Catarina). A amostra se constituiu de provas com 40 itens, respondidas por candidatos (alguns fizeram a prova mais de uma vez), e aplicadas no ano de 2008, totalizando 462 itens distintos. O modelo escolhido para essa análise foi o ML3, que permite estimar o parâmetro de acerto casual. Para a utilização desse modelo, as respostas dos itens (categorias A, B, C e D) foram dicotomizadas em duas categorias: (1) correta e (0) incorreta. Itens administrados que não foram respondidos ou que tiveram mais de uma alternativa assinalada foram considerados como resposta incorreta. 58 Anais Nº 1, ano 2013, p

67 Seleção de um Algoritmo para um Teste Adaptativo Informatizado para fins de Classificação por meio de Simulações Para verificar o pressuposto da unidimensionalidade, foi realizada uma análise fatorial baseada nas correlações tetracóricas. O resultado obtido mostrou que um único fator foi responsável por explicar 82,82% da variabilidade geral dos dados, sendo um forte indicativo para aceitar a suposição de unidimensionalidade nos dados. Todo o banco de itens foi calibrado simultaneamente numa única etapa, como se fosse uma única grande prova, utilizando se os itens em comum. Nesse estudo, os itens foram calibrados na escala (0, 1), ou seja, com média igual a zero e desvio padrão igual a um. Após o processo de calibração, removendo se os itens inadequados e os que possuam discriminação menor que 1, o banco final ficou constituído de 286 itens, onde 94,4% desses possuíam grau de dificuldade abaixo do valor médio da escala. Conforme Segall (1997), o ponto de corte deve preservar as taxas atuais de fluxo do teste convencional, ou seja, deve se manter a proporção de aprovados e reprovados. Dessa forma, procedeu se da seguinte maneira: (1) verificou se que a proporção de examinandos reprovados em 2008, segundo os dados obtidos, foi de 0,253548; (2) supondo que a habilidade provém de uma distribuição Normal Padrão, verificou se que o valor do eixo x que separa os 25,3548% dos casos mais baixos era 0,663; e (3) adotou se o valor 0,663 como ponto de corte na escala de proficiência, supondo que 25,3548% dos indivíduos na população devem ter habilidade inferior a esse valor. Foram simulados respondentes com base na distribuição Normal Padrão. Foi considerada uma taxa máxima de exposição dos itens de 0,20 e o critério de parada utilizado foi um intervalo de 95,4% de confiança (default do CATSim) fora do ponto de corte e no máximo 40 itens administrados. Os algoritmos foram comparados em termos de: Nível de habilidade inicial: o Mediano igual a zero, o Valor aleatório ente 1 e 1. Método de seleção dos itens: o Método da Máxima Informação Pura (MI) o Máxima Informação Modificado I (MIMI): Seleciona aleatoriamente 5 itens com máxima informação dentre os primeiros 5 itens do teste. o Máxima Informação Modificado II (MIMII): Seleciona aleatoriamente 10 itens com máxima informação dentre os primeiros 10 itens do teste o Método da Máxima Informação no Ponto de Corte (MIPC): Essa opção pode ser útil nos testes com o objetivo de classificação, onde o item selecionado maximiza a informação no ponto de corte (SPRAY; RECKASE, 1994; 1996) Anais Nº 1, ano 2013, p

68 Fernando de Jesus Moreira Junior, Dalton Francisco de Andrade e Antonio Cezar Bornia Método de Estimação da habilidade o Máxima Verossimilhança (MV) c/ passo = 1: é o tamanho do passo, na escala de dificuldade, para a seleção do próximo item. o Máxima Verossimilhança (MV) c/ estimação inicial EAP com priori com média 0 e desvio padrão 1. o Máxima Verossimilhança (MV) c/ estimação inicial MAP com priori com média 0 e desvio padrão 1. o Bayesianos da Esperança a Posteriori (EAP) com priori com média 0 e desvio padrão 1. o Bayesiano da Moda a Posteriori (MAP) com priori com média 0 e desvio padrão 1. o Máxima Verossimilhança Ponderada (MVP). Os critérios utilizados para a análise da precisão e da validade dos testes foram: o erro padrão médio (EPM), a raiz quadrada do erro quadrado médio (RQEQM), o desvio empírico médio (DEM), a eficiência (EF) e a correlação linear (CL), conforme Muñiz e Hambleton (1999). Também serão utilizados os seguintes critérios: Ap/Ap: Percentual de aprovados que o teste classificou como aprovados. Re/Re: Percentual de reprovados que o teste classificou como reprovados. Ap/Re: Percentual de aprovados que o teste classificou como reprovados. Re/AP: Percentual de reprovados que o teste classificou como aprovados Nesse estudo, foram utilizados os softwares TESTFACT (Bock et al., 2003) para a análise da dimensionalidade, BILOG MG (Toit, 2003) para a calibração dos itens (fase 2 do Software), e CATSim (Weiss; Guyer, 2010) para as simulações das respostas e aplicação dos algoritmos dos TAIs. 2. Resultados e comentários Como o número de combinações a serem testadas era muito grande, primeiramente, comparou se os dois critérios para a seleção dos itens iniciais, mantendo fixo o Método de seleção dos itens da Máxima Informação pura (MI) e o Método de Estimação da habilidade da Máxima Verossimilhança (MV) c/ passo igual a 1. Foram denominados: 60 Anais Nº 1, ano 2013, p

69 Seleção de um Algoritmo para um Teste Adaptativo Informatizado para fins de Classificação por meio de Simulações Teste 1: Utiliza critério mediano igual a zero Teste 2: Utiliza um valor aleatório ente 1 e 1. As Tabelas 1 e 2 fornecem os resultados dos critérios de avaliação. Tabela 1: Desempenho dos Testes TESTE EPM RQEQM DEM EF CL Teste 1 0,6080 0,7447 0, ,1056 0,8207 Teste 2 0,6113 0,7712 0, ,9101 0,8171 Tabela 2: Percentual de acerto e erro na classificação TESTE Acerto Ap/Ap Re/Re Erro Ap/Re Re/Ap Teste 1 92,45 94,63 85,81 7,55 5,37 14,19 Teste 2 91,89 94,26 84,67 8,11 5,74 15,33 Observa se que o Teste 1 possui um desempenho superior em relação ao critérios EPM, RQEQM, CL e a todos os critérios da Tabela 2. Dessa forma, Optou se por fixar a utilização do critério mediano igual a zero como método de seleção inicial dos itens nas demais simulações. Seguindo se a análise, comparou se os quatro Método de seleção dos itens, mantendo fixo o Método de Estimação da habilidade da Máxima Verossimilhança (MV) c/ passo igual a 1. Foram denominados: Teste 1 (já simulado anteriormente): Utiliza o Método da Máxima Informação Pura (MI) Teste 3: utiliza o Método da Máxima Informação Modificado I (MIMI). Teste 4: utiliza o Método da Máxima Informação Modificado II (MIMII). Teste 5: utiliza o Método da Máxima Informação no Ponto de Corte (MIPC). As Tabelas 3 e 4 fornecem os resultados dos critérios de avaliação. Tabela 3: Desempenho dos Testes TESTE EPM RQEQM DEM EF CL Teste 1 0,6080 0,7447 0, ,1056 0,8207 Teste 3 0,6094 0,7669 0, ,8947 0,8112 Teste 4 0,6123 0,7781 0, ,0827 0,8176 Teste 5 0,6007 0,6819 0, ,7146 0,8486 Anais Nº 1, ano 2013, p

70 Fernando de Jesus Moreira Junior, Dalton Francisco de Andrade e Antonio Cezar Bornia Tabela 4: Percentual de acerto e erro na classificação TESTE Acerto Ap/Ap Re/Re Erro Ap/Re Re/Ap Teste 1 92,45 94,63 85,81 7,55 5,37 14,19 Teste 3 92,09 94,57 84,55 7,91 5,43 15,45 Teste 4 92,26 94,62 85,08 7,74 5,38 14,92 Teste 5 92,42 94,27 86,78 7,58 5,73 13,22 Observa se que o Teste 5 teve o pior desempenho entre todos o teste, já que a quantidade média de itens aplicado (EF) foi quase 50% superior do que nos demais. Naturalmente, essa quantidade maior de itens aplicados forneceu resultados ligeiramente melhores que os demais testes quanto ao EPM, a RQEQM, o DEM e a CL e a alguns percentuais. Isso significa que o critério utilizado para a seleção dos itens que maximiza a informação no ponto de corte não teve um bom desempenho e, portanto, não será considerado nas demais simulações. Os demais testes tiveram desempenho muito parecido, ou seja, a utilização dos métodos de seleção dos itens MIMI e MIMII não produziram resultados consideravelmente melhores do que o teste que utiliza a MI. Dessa forma, optou se por optou se por não considerar os métodos MI modificados nas próximas simulações. Seguindo se a análise, comparou se os seis Método de estimação da habilidade. Foram denominados: Teste 6: utiliza a Máxima Verossimilhança (MV) c/ passo = 1. Teste 7: utiliza a Máxima Verossimilhança (MV) c/ estimação inicial EAP. Teste 8: utiliza a Máxima Verossimilhança (MV) c/ estimação inicial MAP. Teste 9: utiliza a Esperança a Posteriori (EAP). Teste 10: utiliza a Moda a Posteriori (MAP). Teste 11: utiliza a Máxima Verossimilhança Ponderada (MVP). As Tabelas 5 e 6 fornecem os resultados dos critérios de avaliação. Tabela 5: Desempenho dos Testes TESTE EPM RQEQM DEM EF CL Teste 6 0,6079 0,7209 0, ,0787 0,8273 Teste 7 0,5318 0,5490 0, ,4205 0,8344 Teste 8 0,5195 0,5424 0, ,4090 0,8318 Teste 9 0,4783 0,4794 0, ,6717 0,8505 Teste 10 0,4651 0,4795 0, ,5231 0,8497 Teste 11 0,5563 0,6498 0, ,9361 0, Anais Nº 1, ano 2013, p

71 Seleção de um Algoritmo para um Teste Adaptativo Informatizado para fins de Classificação por meio de Simulações Tabela 6: Percentual de acerto e erro na classificação TESTE Acerto Ap/Ap1 Re/Re2 Erro Ap/Re3 Re/Ap4 Teste 6 91,74 94,38 83,70 8,26 5,62 16,30 Teste 7 91,81 94,15 84,67 8,19 5,85 15,33 Teste 8 92,05 94,53 84,51 7,95 5,47 15,49 Teste 9 92,49 96,23 81,12 7,51 3,77 18,88 Teste 10 92,81 96,21 82,45 7,19 3,79 17,55 Teste 11 91,93 93,76 86,37 8,07 6,24 13,63 As principais características em um teste de classificação são a eficiência (terminar o teste com menor quantidade de itens aplicados) e a proporção de acertos (ter uma alta proporção de acertos na classificação). Dentro do contexto do DETRAN SC, a situação que parece mais grave seria aprovar um candidato que deveria ter sido reprovado, ou seja, habilitar um motorista que ainda não está preparado para dirigir. Dessa forma, em relação aos demais métodos, os procedimentos bayesianos parecem ser menos adequados por aprovar uma quantidade maior de candidatos que deveriam ter sido reprovados. Dentre os testes restantes, aquele que utiliza o procedimento MVP, parece o mais adequado, considerando esse critério. Dessa forma, o algoritmo selecionado foi o do Teste 11, cuja configuração é: Modelo de Resposta ao item: ML3 Nível de habilidade Inicial: Mediano igual a zero na escala (0;1) Método de Seleção dos itens: Máxima Informação Método de Estimação da habilidade: MVP Restrições: Taxa de exposição de 0,20 Conclusões Critério de parada: Intervalo de 95,4% de Confiança fora do ponto de corte com no máximo 40 itens administrados. Diferentes configurações de algoritmos de de testes adaptativos foram avaliados. Os resultados permitiram selecionar um algoritmo que obteve o melhor desempenho entre os testes avaliados, em geral. Esse algoritmo utiliza o zero na escala (0;1) para a definição da habilidade inicial, o método da Máxima Informação para a seleção dos itens e o Método da Máxima Verossimilhança Ponderada para a estimação da habilidade. Anais Nº 1, ano 2013, p

72 Fernando de Jesus Moreira Junior, Dalton Francisco de Andrade e Antonio Cezar Bornia Agradecimentos Ao DETRAN SC (Departamento Estadual de Trânsito de Santa Catarina), pela autorização na utilização do banco de dados de Ao CIASC-SC (Centro de Informática e Automação do Estado de Santa Catarina), pela compilação do banco de dados com as informações necessárias para esse estudo. Referências Bock, R.; Gibbons, R.; Schilling, S.; Muraki, E. W.; Wood, R., (2003) TESTFACT 4 (Computer software). Lincolnwood, IL: Scientific Software International. Kingsbury, G. G. (2002) An Empirical Comparison of Achievement Level Estimates from Adaptive Tests and Paper and Pencil Tests. American Educational Research Association annual meeting. New Orleans, LA, USA. Muñiz, J.; Hambleton, R. (1999) Evaluación psicométrica de los tests informatizados. In: Olea, J.; Ponsoda, V.; Prieto, G. (Eds.). Tests informatizados: Fundamentos y aplicaciones. Madrid: Pirámide, p Segall, D. O. (1997) Equating the CAT ASVAB. In: Sands, W. A; Waters, B. K.; MCBRIDE, J. R. (Eds.). Computerized adaptive testing: From inquiry to operation (pp ). Washington, DC, USA: American Psychological Association. Toit, M. (2003) IRT from SSI: BILOG MG, MULTILOG, PARSCALE, TESTFACT. Scientific Software International. Van Der Linden, W. J.; Glas, C. A. W. (2000) Computerized Adaptive Testing: Theory and Practice. Dordrecht, Netherlands: Kluwer Academic, Van Der Linden, W. J.; Glas, C. A. W. (2010) Elements of Adaptive Testing. Statistical for Social and Behavioral Sciences. New York: Springer Science+Business Media, LLC. Wainer, H. (2000) Computerized Adaptive Testing: A Primer. New Jersey: Lawrence Erlbaum Associates. Weiss, D. J.; Guyer, R. (2010) Manual for CATSim: Comprehensive simulation of computerized adaptive testing. St. Paul MN: Assessment Systems Corporation. Recebido em: 03/11/2013 Avaliado em: 25/11/ Anais Nº 1, ano 2013, p

73 Uma Comparação entre Diferentes Métodos de Estimação do Traço Latente por meio de Simulações para um Questionário de Satisfação A Comparison of Different Estimation Methods of Latent Trait through simulations for Satisfaction Questionnaire Fernando de Jesus Moreira Junior Doutor em Engenharia de Produção, UFSC Professor do Departamento de Estatística, UFSM fmjunior777@yahoo.com.br Angelica Peripolli Acadêmica do Curso de Estatística, UFSM angelicaperipolli@gmail.com Lais Helen Loose Acadêmica do Curso de Estatística, UFSM laisloose@gmail.com Rafael Piaia Acadêmico do Curso de Estatística, UFSM rpiaia@gmail.com Vinicius Teodoro Scher Acadêmico do Curso de Estatística, UFSM profvinimat@hotmail.com Caroline Pafiadache Acadêmica do Curso de Estatística, UFSM carolpafiadache@yahoo.com.br Bruna Gregory Palm Acadêmica do Curso de Estatística, UFSM brunagpalm@gmail.com Resumo O objetivo desse trabalho foi comparar quatro diferentes métodos de estimação do traço latente por meio de simulações, mas utilizando dados reais, de um questionário de avaliação do nível de satisfação, na calibração dos itens por meio do Modelo Logístico de Um Parâmetro (ML1) e do Modelo Logístico de Dois Parâmetros (ML2). Foram avaliados os métodos de estimação do traço latente da Máxima Verossimilhança (MV), da Esperança a Posteriori (EAP), da Moda a Posteriori (MAP) e da Máxima Verossimilhança Ponderada (MVP). Para a avaliação dos diferentes modelos e métodos de estimação, foram utilizados os critérios do o erro padrão médio (EPM), da raiz quadrada do erro quadrado médio (RQEQM), do desvio empírico médio (DEM) e da correlação linear (r). Pode se concluir que o método MAP no ML2 apresentou os melhores resultados, em geral. Palavras chave: Simulação. Modelo logístico de um parâmetro. Modelo logístico de dois parâmetros. Métodos de estimação do traço latente. Nível de satisfação.

74 Fernando de Jesus Moreira Junior, Angelica Peripolli, Lais Helen Loose, Rafael Piaia, Vinicius Teodoro Scher, Caroline Pafiadache e Bruna Gregory Palm Abstract The aim of this study was to compare four different methods for estimating the latent trait by simulations, but using real data from questionnaire to assess the satisfaction level in the calibration of items through the One Parameter Logistic Model (1PL ) and Two Parameters Logistic Model (2PL ). It was evaluated the Methods for estimating the latent trait Maximum Likelihood ( ML), Expectation a Posteriori ( EAP ), Maximum a Posteriori ( MAP ) and Weighted Maximum Likelihood ( WML ). For the evaluation of different models and estimation methods, it was used the criteria of the average standard error (ASE), the square root of the mean squared error ( SRMSE ), the average empirical deviation ( AED ) and the linear correlation ( r ). It was concluded that MAP method in 2PL Model showed the best results in general. Keywords: Simulation. One parameter logistic model. Two parameter logistic model. Estimation methods of latent trait. Satisfaction level. Introdução Há varias métodos que podem ser utilizados para a estimação do traço latente na TRI. O objetivo desse trabalho é comparar quatro diferentes métodos de estimação do traço latente por meio de simulações, mas utilizando dados reais, de um questionário de avaliação do nível de satisfação, para a calibração dos itens por meio do Modelo Logístico de Um Parâmetro (ML1) e do Modelo Logístico de Dois Parâmetros (ML2). Os critérios utilizados para a comparação foram: o erro padrão médio (EPM), a raiz quadrada do erro quadrado médio (RQEQM), o desvio empírico médio (DEM) e a correlação linear (r). 1. Metodologia A amostra do estudo foi composta por usuários do Restaurante Universitário (RU) da Universidade Federal de Santa Maria RS (UFSM), entre estudantes de Graduação, Pós Graduação, Servidores e Docentes. O questionário foi composto por 11 questões de perfil e 41 itens que foram avaliados em relação à satisfação e à importância. Essa pesquisa foi aprovada pelo Comitê de Ética em Pesquisa (CEP) da UFSM e registrada como Projeto de Pesquisa. Nesse estudo, foi analisado apenas o nível de satisfação dos usuários do RU, onde os itens eram avaliados em uma escala likert de cinco pontos. Os dados foram analisados por meio dos Modelos Logísticos de Um ML1 (Wright, 1968) e Dois 66 Anais Nº 1, ano 2013, p

75 Uma Comparação entre Diferentes Métodos de Estimação do Traço Latente por meio de Simulações para um Questionário de Satisfação Parâmetros ML2 (Birnbaum, 1968) da TRI disponível no pacote irtoys (Rizopoulos, 2013) do Software R (R Development Core Team, 2012). Para tanto, os dados foram dicotomizados em: (1) satisfeitos (categorias satisfeito e muito satisfeito) e (0) não satisfeitos (categorias indiferente, insatisfeito e muito insatisfeito). Após a remoção das respostas inválidas para a análise (por exemplo, as não respostas), a amostra ficou constituída de respondentes. Os parâmetros dos itens foram estimados para os dois modelos e considerados fixos para a estimativa do traço latente. Foram simulados valores de traço latente a partir de uma Distribuição Normal Padrão e respostas para os 41 itens, para cada um dos modelos analisados. A partir das respostas simuladas aos 41 itens, estimou se o traço latente por meio de quatro diferentes métodos de estimação: Máxima Verossimilhança (MV), Bayesiano da Esperança a Posteriori (EAP), Bayesiano da Moda a Posteriori (MAP) e Máxima Verossimilhança Ponderada (MVP). As estimativas foram comparadas com os valores simulados dos traços latentes por meio dos seguintes critérios propostos por Muñiz e Hambleton (1999): o erro padrão médio (EPM), a raiz quadrada do erro quadrado médio (RQEQM), o desvio empírico médio (DEM) e a correlação linear (r). 2. Resultados e comentários A Figura 1 apresenta o diagrama de dispersão entre a estimativa do traço latente para o ML1, considerando os quatro diferentes métodos de estimação, e seu respectivo erro padrão. Anais Nº 1, ano 2013, p

76 Fernando de Jesus Moreira Junior, Angelica Peripolli, Lais Helen Loose, Rafael Piaia, Vinicius Teodoro Scher, Caroline Pafiadache e Bruna Gregory Palm Figura 1 Diagrama de dispersão entre o Traço Latente estimado e o Erro Padrão segundo o Método de Estimação para o ML1 A Tabela 1 apresenta os valores calculados para os critérios analisados na comparação entre o traço latente estimado e o traço latente simulado segundo o método de estimação. Os métodos bayesianos tiveram melhor desempenho nos critérios EPM e RQEQM do que os métodos que utilizam a máxima verossimilhança. Quanto aos critérios DEM e correlação linear, o desempenho dos métodos foi muito semelhante. 68 Anais Nº 1, ano 2013, p

77 Uma Comparação entre Diferentes Métodos de Estimação do Traço Latente por meio de Simulações para um Questionário de Satisfação Tabela 1 Valores dos critérios segundo o método de estimação utilizado para o ML1 Método de Estimação Critério MV EAP MAP WLE EPM 0,3395 0,3121 0,3087 0,3382 RQEQM 1,5802 1,2887 1,2534 1,5066 DEM 0,0000 0,0000 0,0000 0,0000 r 0,9457 0,9486 0,9486 0,9464 A Figura 2 apresenta o diagrama de dispersão entre a estimativa do traço latente para o ML2, considerando os quatro diferentes métodos de estimação, e seu respectivo erro padrão. EAP MV sem sem est est MAP WLE sem sem est est Figura 2 Diagrama de dispersão entre o Traço Latente estimado e o Erro Padrão segundo o Método de Estimação para o ML2 Anais Nº 1, ano 2013, p

78 Fernando de Jesus Moreira Junior, Angelica Peripolli, Lais Helen Loose, Rafael Piaia, Vinicius Teodoro Scher, Caroline Pafiadache e Bruna Gregory Palm A Tabela 2 apresenta os valores calculados para os critérios analisados na comparação entre o traço latente estimado e o traço latente simulado segundo o método de estimação. Da mesma forma que ocorreu com o ML1, os métodos bayesianos tiveram melhor desempenho nos critérios EPM e RQEQM do que os métodos que utilizam máxima verossimilhança. Quanto ao critério do DEM, o método EAP apresentou um viés considerável. Em relação à correlação linear, o desempenho dos métodos bayesianos foi ligeiramente superior aos métodos que utilizam máxima verossimilhança. Tabela 2 Valores dos critérios segundo o método de estimação utilizado para o ML2 Método de Estimação Critério MV EAP MAP WLE EPM 0,3310 0,3004 0,2969 0,3291 RQEQM 1,6306 1,1252 1,2722 1,5388 DEM 0,0000 0,3127 0,0000 0,0000 r 0,9487 0,9527 0,9528 0,9489 Ao comparar as Tabelas 1 e 2, observa se que o critério do EPM foi ligeiramente melhor no ML2 para todos os métodos de estimação. Já o critério da RQEQM foi melhor no método EAP com o ML2, e nos demais métodos com o ML1. O método do DEM teve desempenho muito semelhante nos dois modelos com exceção do viés apresentado pelo método EAP com o ML2. Já o critério da Correlação Linear foi ligeiramente superior no ML2 para todos os métodos de estimação. Em suma, pode se concluir que o método MAP no ML2 apresentou os melhores resultados, em geral. Conclusões Foram comparados quatro diferentes métodos de estimação do traço latente por meio de simulações, considerando dados reais de uma pesquisa de avaliação do nível de satisfação na calibração dos itens por meio do ML1 e do ML2. Os resultados mostraram pequenas diferenças de desempenho entre os deferentes modelos e métodos, com exceção do método EAP com o que apresentou um viés considerável no critério do DEM. Desconsiderando essa situação, em geral o ML2 apresenta resultados ligeiramente superiores em relação ao ML1. Também foi possível identificar que o método MAP no ML2 apresentou os melhores resultados, em geral, segundo os critérios avaliados. 70 Anais Nº 1, ano 2013, p

79 Uma Comparação entre Diferentes Métodos de Estimação do Traço Latente por meio de Simulações para um Questionário de Satisfação Agradecimentos À administração do Restaurante Universitário (RU) da UFSM. Referências Andrade, D. F.; Tavares, H. R.; Valle, R. C (2000). Teoria da resposta ao item: conceitos e aplicações. São Paulo: ABE Associação Brasileira de Estatística. Birnbaum, A. (1968) Some Latent Trait Models and Their Use in Infering an Examinee s Ability. In: LORD, F. M.; NOVICK, M. R. Statistical Theories of Mental Test Scores. Reading, MA: Addison Wesley. Muñiz, J.; Hambleton, R. (1999) Evaluación psicométrica de los tests informatizados. In: Olea, J.; Ponsoda, V.; Prieto, G. (Eds.). Tests informatizados: Fundamentos y aplicaciones. Madrid: Pirámide, p R Development Core Team (2012). R: A Language and Environment for Statistical Computing. R Foundation for Statistical Computing, Vienna, Austria. ISBN Rizopoulos, D. (2013) Package ltm: Latent Trait Models under IRT. CRAN.R project, Disponível em < project.org/web/packages/ltm/ltm.pdf>. Acesso em 16/04/2013. Wright (1968) Sample free test calibration and person measurement. Proceedings of the 1967 Invitational Conference on Testing Problems. Princeton, N. J.: ETS Educational Testing Service. Recebido em: 03/11/2013 Avaliado em: 25/11/2014 Anais Nº 1, ano 2013, p

80 Fernando de Jesus Moreira Junior, Angelica Peripolli, Lais Helen Loose, Rafael Piaia, Vinicius Teodoro Scher, Caroline Pafiadache e Bruna Gregory Palm 72 Anais Nº 1, ano 2013, p

81 Avaliação do Nível de Satisfação dos Usuários de um Restaurante Universitário por meio do Modelo Logístico de Dois Parâmetros Evaluation of User Satisfaction Level of a University Restaurant through the Two Parameters Logistic Model Fernando de Jesus Moreira Junior Doutor em Engenharia de Produção, UFSC Professor do Departamento de Estatística, UFSM fmjunior777@yahoo.com.br Angelica Peripolli Acadêmica do Curso de Estatística, UFSM angelicaperipolli@gmail.com Lais Helen Loose Acadêmica do Curso de Estatística, UFSM laisloose@gmail.com Rafael Piaia Acadêmico do Curso de Estatística, UFSM rpiaia@gmail.com Vinicius Teodoro Scher Acadêmico do Curso de Estatística, UFSM profvinimat@hotmail.com Caroline Pafiadache Acadêmica do Curso de Estatística, UFSM carolpafiadache@yahoo.com.br Bruna Gregory Palm Acadêmica do Curso de Estatística, UFSM brunagpalm@gmail.com Resumo Essa pesquisa tem por objetivo avaliar a satisfação dos usuários do Restaurante Universitário (RU) da Universidade Federal de Santa Maria RS (UFSM) por meio da Teoria da Resposta ao Item. A amostra válida para o estudo foi composta por usuários do RU da UFSM, entre estudantes de Graduação, Pós Graduação, Servidores e Docentes. Todos os itens, ajustados por meio do Modelo Logístico de Dois Parâmetros (ML2) da TRI, apresentaram desempenho adequado. Os dados foram analisados no Software R, onde foi utilizado o pacote irtoys. Também foi possível identificar perfis de usuários que estão em diferentes níveis de satisfação em relação ao RU da UFSM. Palavras chave: Nível de satisfação. Restaurante Universitário. Modelo logístico de dois parâmetros. Avaliação de itens. Pesquisa de mercado. Abstract

82 Fernando de Jesus Moreira Junior, Angelica Peripolli, Lais Helen Loose, Rafael Piaia, Vinicius Teodoro Scher, Caroline Pafiadache e Bruna Gregory Palm This research aims to evaluate user satisfaction of the University Restaurant (UR) of the Federal University of Santa Maria RS (UFSM) through Item Response Theory. Valid sample for the study consisted of 1,855 users from the UR of UFSM between Undergraduate students, Graduate students, Servers and Lecturers. Adjusted by the Two Parameters Logistic Model of (2PL) IRT, all items showed adequate performance. The data were analyzed in R software, where irtoys package was used. It was also possible to identify profiles users who are at different satisfaction levels with the UR of UFSM. Keywords: Satisfaction level. University restaurant. Two parameters logistic model. Assessment of items. Market research. Introdução O serviço de alimentação num Campus Universitário difere dos outros tipos de restaurantes, pois nos restaurantes tradicionais para os clientes o "comer" é a finalidade primordial, enquanto que num campus universitário, os estudantes estão lá por causa das aulas e comer é uma necessidade básica para manter os estudos." Os alunos das universidades têm por necessidade básica a alimentação e, por conseguinte a satisfação, que abrange fatores que vão de ambiente até preço (Gasparin et al., 2012). Os Restaurantes Universitários convivem diariamente com o desafio de manter, a um baixo custo um atendimento de qualidade. Este deve empenhar se para prover uma alimentação saudável, atendendo às necessidades nutricionais dos usuários. Oferecendo um cardápio qualitativa e quantitativamente variado e equilibrado a fim de manter a saúde de sua clientela. Sendo ainda imprescindível qualidades sensoriais e higiênico sanitária, bem como o bom atendimento (Maia, 2008; Oliveira e Alves, 2008; Brandão e Giovanoni, 2011). Considerando que o RU presta serviços de ordem socio acadêmica, é vital que seu desempenho contribua para a boa performance no aprendizado e para a satisfação dos usuários (Maia, 2008). Esse trabalho tem por objetivo avaliar a satisfação dos usuários do Restaurante Universitário (RU) da Universidade Federal de Santa Maria RS (UFSM) por meio da Teoria da Resposta ao Item e identificar se há relação entre a satisfação dos usuários e as variáveis de perfis dos mesmos. 74 Anais Nº 1, ano 2013, p

83 Avaliação do Nível de Satisfação dos Usuários de um Restaurante Universitário por meio do Modelo Logístico de Dois Parâmetros 1. Metodologia A amostra do estudo foi composta por usuários do RU da UFSM, entre estudantes de Graduação, Pós Graduação, Servidores e Docentes. O questionário foi composto por 11 questões de perfil e 41 itens que foram avaliados em relação à satisfação e à importância. Essa pesquisa foi aprovada pelo Comitê de Ética em Pesquisa (CEP) da UFSM e registrada como Projeto de Pesquisa. Nesse estudo, foi analisado apenas o nível de satisfação dos usuários do RU, onde os itens eram avaliados em uma escala likert de cinco pontos. Os dados foram analisados por meio do Modelo Logístico de Dois Parâmetros (ML2) da TRI (Birnbaum, 1968) disponível no pacote irtoys do Software R (R Development Core Team, 2012). Para tanto, os dados foram dicotomizados em: (1) satisfeitos (categorias satisfeito e muito satisfeito) e (0) não satisfeitos (categorias indiferente, insatisfeito e muito insatisfeito). Após a remoção das respostas inválidas para a análise (por exemplo, as não respostas), a amostra ficou constituída de respondentes. 2. Resultados e comentários Os parâmetros dos itens foram estimados por meio do ML2 em uma escala com média 0 (zero) e desvio padrão 1 (um). Todos os itens mostraram um comportamento adequado, como pode se observar nas Curvas Características dos Itens (CCI s) da Figura 1a. A Figura 1b apresenta a Função de Informação de cada Item (FII s), enquanto que a Figura 2a apresenta a Função de Informação do Teste (FIT). Observa se que o teste concentra bastante informação em torno de 0,3, aproximadamente, não dispersando muito essa informação, já que os valores mínimos e máximos dos parâmetros de posição dos itens foram 2,22 (preço cobrado) e 1,47 (guisado de soja), respectivamente e uma média de 0,26. Quando aos parâmetros de discriminação dos itens, ficaram estimados entre 0,56 e 2,26, com um valor médio de 1,23. O traço latente foi estimado por meio do método bayesiano da Moda a Posteriori. O gráfico da Figura 2b mostra a dispersão entre a estimativa do traço latente e o seu respectivo erro padrão. Anais Nº 1, ano 2013, p

84 Fernando de Jesus Moreira Junior, Angelica Peripolli, Lais Helen Loose, Rafael Piaia, Vinicius Teodoro Scher, Caroline Pafiadache e Bruna Gregory Palm Item response function Item information function Probability of a correct response Item information Ability (a) CCI s Ability (b) FII s Figura 1 CCI s e FII s do Questionário de Satisfação Test information function MAP Information sem Ability (a) FIT est (b) MAP X EP Figura 2 FIT e diagrama de dispersão MAP X EP O traço latente estimado foi analisado em função das variáveis de perfil do questionário. Foram encontrados alguns resultados interessantes. Observa se no gráfico da Figura 3a que, entre aqueles que freqüentam o RU, os docentes (4) e os servidores (3) estão, em geral, mais satisfeitos do que os estudantes de graduação (1) e de pós graduação. Esse resultado corrobora com a faixa etária (apresentada em ordem crescente no eixo X da Figura 3b), onde os mais jovens parecem estar menos satisfeitos, em geral. Observa se, no gráfico da Figura 4a que, o nível de satisfação 76 Anais Nº 1, ano 2013, p

85 Avaliação do Nível de Satisfação dos Usuários de um Restaurante Universitário por meio do Modelo Logístico de Dois Parâmetros médio é maior no RU situado no Centro (1) e no RU II do Campus (3) do que no RU I do Campus (2). O resultado apresentado no gráfico da Figura 4b mostra que os usuários que almoçam no RU por acreditarem que a qualidade da alimentação é boa (2) e que a alimentação é saudável (4) estão obviamente mais satisfeitos do que aqueles que almoçam devido ao (1) baixo preço, à localização (3) e à outros motivos (5) (a) Tipo de Usuário (b) Faixa Etária Figura 3 Gráfico Box Plot entre o traço latente estimado e (a) o tipo de usuário e (b) faixa etária do usuário (a) Restaurante Universitário (b) Principal Motivo Figura 4 Gráfico Box Plot entre o traço latente estimado e (a) o Restaurante Universitário e (b) Principal Motivo pelo qual almoça Anais Nº 1, ano 2013, p

86 Fernando de Jesus Moreira Junior, Angelica Peripolli, Lais Helen Loose, Rafael Piaia, Vinicius Teodoro Scher, Caroline Pafiadache e Bruna Gregory Palm Conclusões Os resultados mostraram que todos os itens se ajustaram adequadamente ao Modelo Logístico de Dois Parâmetros, mostrando que esse modelo avalia bem o questionário, em relação aos itens de satisfação do usuário do RU. Também verificouse que o questionário possui boa informação em torno da média, próximo ao valor zero da escala. Verificou se ainda que os usuários mais jovens, os alunos de graduação, os usuários do RU I do Campus e os que almoçam devido ao baixo preço e à localização do RU estão menos satisfeitos que os demais. Agradecimentos À administração do Restaurante Universitário (RU) da UFSM. Referências Andrade, D. F.; Tavares, H. R.; Valle, R. C (2000). Teoria da resposta ao item: conceitos e aplicações. São Paulo: ABE Associação Brasileira de Estatística. Birnbaum, A. (1968) Some Latent Trait Models and Their Use in Infering an Examinee s Ability. In: LORD, F. M.; NOVICK, M. R. Statistical Theories of Mental Test Scores. Reading, MA: Addison Wesley. Brandão A. R., Giovanoni A. (2011). Comparação dos cardápios oferecidos em uma unidade de alimentação e nutrição do município de Teutônia com o programa de alimentação do trabalhador. Revista Destaques Acadêmicos, Ano 3(3). Gasparin E, Wachholz L, Mendonça SNTG, Lorenzi BC, Bortolotti SLV, Silva JF, Lima DP, Brandão WAPN (2012). Perfil nutricional e percepção de conforto dos comensais do restaurante universitário da UTFPR Campus Medianeira. In XVII Seminário de Iniciação Científica e Tecnológica da UTFPR. Maia T. M. L. (2008). Planejamento e gestão estratégica para o restaurante universitário da UFC em um cenário de expansão do número de alunos. Dissertação de Mestrado, Universidade Federal do Ceará. Oliveira C. S., Alves F. S. (2008). Educação nutricional em unidade de alimentação e nutrição, direcionada para consumo de pratos protéicos: um estudo de caso. Alimentação Nutricional, 19(4), R Development Core Team (2012). R: A Language and Environment for Statistical Computing. R Foundation for Statistical Computing, Vienna, Austria. ISBN Recebido em: 03/11/2013 Avaliado em: 25/11/ Anais Nº 1, ano 2013, p

87 Reflexões Acerca do Ajuste do Modelo de Resposta Gradual a um Banco de Dados Multidimensional Reflections About the Adjustment of the Graded Response Model to a Multidimensional Database Fernando de Jesus Moreira Junior Doutor em Engenharia de Produção, UFSC Professor do Departamento de Estatística, UFSM fmjunior777@yahoo.com.br José Renê de Oliveira Mestrando em Engenharia de Produção, UFSM renoli@terra.com.br Angela Pellegrin Ansuj Doutora em Engenharia de Produção, UFSM Professora do Departamento de Estatística, UFSM angelaansuj@yahoo.com Andreas Dittmar Weise Doutorado em Engenharia Civil, UFSC Professor do Departamento de Engenharia de Produção, UFSM andreasd.weise@gmail.com Resumo Esse trabalho apresenta uma reflexão acerca do ajuste do Modelo de Resposta Gradual (MRG) a um banco de dados multidimensional. Os resultados mostraram que, embora o construto seja multidimensional, ele pode ser representado por um único traço latente dominante. No entanto, o MRG não conseguiu ajustar todos os itens. Por outro lado, dividindo se o conjunto de itens em dois subconjuntos e ajustando se separadamente pelo MRG, observou se a existência de dois traços latentes independentes, ou seja, que ajustaram os itens que não eram adequados para o outro grupo. Palavras chave: Modelo de resposta gradual. Multidimensionalidade. Unidimensionalidade. Análise Fatorial. Satisfação. Abstract This paper presents a reflection about the adjustment of the Graded Response Model (GRM) to a multidimensional database. The results showed that although the construct is multidimensional, it can be represented by a single dominant latent trait. However, the GRM failed to set all the items. Moreover, dividing the set into two subsets of items and separately adjusting the MRG, it was observed the existence of two independent latent features, namely that set items that were not suitable for the other group. Keywords: Graded response model. Multidimensionality. Unidimensionality. Factor analysis, satisfaction.

88 Fernando de Jesus Moreira Junior, José Renê de Oliveira, Angela Pellegrin Ansuj e Andreas Dittmar Weise Introdução Os modelos unidimensionais da Teoria da Resposta ao Item (TRI) assumem o pressuposto de unidimensionalidade, ou seja, que apenas um traço latente está sendo examinado ou que existe ao menos um único fator dominante (Andrade et al., 2000). O objetivo desse estudo é verificar a dimensionalidade de um questionário de satisfação de clientes de um restaurante e ajustar os dados ao Modelo de Resposta Gradual da TRI. 1. Metodologia Os dados utilizados nesse estudo são referentes à satisfação de 805 clientes de um restaurante em relação a 28 itens relacionados com os ambientes interno e externo, a alimentação e o atendimento. A avaliação foi medida em uma escala likert de cinco pontos: Muito insatisfeito, Insatisfeito, Razoável, Satisfeito e Muito Satisfeito. Utilizou se o software SPSS para verificar a dimensionalidade do questionário por meio de uma Análise Fatorial Exploratória (AFE). Na sequência, foram feitos ajustes do um modelo unidimensional, o Modelo de Resposta Gradual (MRG) de Samejima (1969) por meio do pacote ltm (Rizopoulos, 2006) do Software R, o qual pressupõe a existência de um único traço latente ou a existência de um traço latente dominante. 2. Resultados e comentários Primeiramente foi feita uma Análise Fatorial Exploratória (AFE) a fim de verificar a dimensionalidade do instrumento de pesquisa. A dimensionalidade de questionários que utilizam escala likert usualmente é verificada por meio de uma AFE, por exemplo, Yoshida (2007) e Bazán et al. (2011). Para tentar identificar o número de dimensões existentes, vários critérios são utilizados. Yoshida (2007) sugere: a análise dos componentes principais da análise fatorial (fatores com autovalor maior que 1), os quais podem ser visualizados no gráfico Scree Plot apresentado na Figura 1; a importância do fator (porcentagem mínima de 3% de variância explicada pelo componente); e cargas fatoriais dos itens superiores a 0,30, segundo Pasquali (1999). Com base nisso, observado a Figura 1, pode se dizer que o construto parece ter 80 Anais Nº 1, ano 2013, p

89 Reflexões Acerca do Ajuste do Modelo de Resposta Gradual a um Banco de Dados Multidimensional natureza multidimensional, contendo de quatro (71,9% da variância explicada) a seis quatro (81,2% da variância explicada) dimensões latentes (autovalores maiores que 1), que seria níveis de satisfação relacionados à fatores latentes, por exemplo, satisfação quanto ao ambiente externo, satisfação quanto ao atendimento, etc. Figura 1 Scree Plot Por outro lado, mesmo com evidências de multidimensionalidade, outros estudos têm utilizado modelos unidimensionais, por exemplo, Bortolotti et al. (2012), baseados no critério de Reckase (1979), o qual sugere que os resultados podem indicar um fator dominante quando o primeiro fator explica pelo menos a 20% da variância total. No nosso estudo, o primeiro fator, pelo método das Componentes Principais, explica 28,6% da variância total. Dessa forma, também pode se concluir que o construto é unidimensional, ou seja, que avalia um único traço latente dominante, por exemplo, o nível de satisfação geral. Considerando que o construto pode ser representado por um único fator (ou traço latente) dominante, foi ajustado o Modelo de Resposta Gradual da TRI. A Tabela 1 apresenta os parâmetros estimados pelo MRG e o Anexo A apresenta as Curvas Características das Categorias dos Itens (CCCI s). A Figura 2 apresenta as Funções de Informação dos Itens (FIT) e a Função de Informação do Teste (FIT) considerando todos os itens. Anais Nº 1, ano 2013, p

90 Fernando de Jesus Moreira Junior, José Renê de Oliveira, Angela Pellegrin Ansuj e Andreas Dittmar Weise Tabela 1 Parâmetros Estimados pelo MRG com todos os 28 itens Item Extrmt1 Extrmt2 Extrmt3 Extrmt4 Dscrmn s1 19,91 17,87 13,45 0,60 0,256 s2 5,19 4,69 2,52 1,34 1,026 s3 5,19 3,58 0,17 1,13 0,871 s4 4,16 1,80 0,09 0,71 1,129 s5 4,20 2,53 0,04 0,79 1,125 s6 1,93 0,09 0,35 1,19 0,934 s7 1,87 0,54 1,06 2,11 1,842 s8 2,88 2,19 0,47 1,85 1,463 s9 8,54 6,54 4,35 1,59 0,553 s10 37,39 31,93 25,32 10,16 0,139 s11 5,19 4,06 1,62 0,93 0,893 s12 29,45 19,91 6,98 4,79 0,166 s13 9,42 5,88 0,86 3,24 0,269 s14 10,66 8,32 5,09 1,46 0,480 s15 205,65 170,63 96,91 33,95 0,024 s16 13,26 10,06 3,71 1,71 0,373 s17 104,99 90,44 46,19 11,92 0,050 s18 3,95 3,57 1,81 1,34 1,419 s19 4,63 3,37 2,05 1,16 1,198 s20 2,80 2,46 1,96 0,64 1,985 s21 2,66 0,59 0,23 1,54 2,059 s22 5,20 3,82 2,97 0,20 0,872 s23 1,71 1,55 0,20 0,72 3,692 s24 1,95 1,89 0,02 0,69 3,129 s25 1,61 1,46 0,18 0,86 4,183 s26 1,49 1,27 0,30 0,83 4,235 s27 1,70 1,44 0,20 0,90 4,087 s28 1,48 1,09 0,45 0,96 3,874 Item Information Curves Test Information Function Information Information Ability Ability (a) FII b (FIT) Figura 2 FII e FIT para todos os 28 itens Observa se que há vários itens que não possuem um bom ajuste (discriminação próxima de zero e valores de posição das categorias muito afastados de zero). Dessa forma, foram removidos da análise os itens s1, s9, s10, s12, s13, s14, s15, s16 e s17, 82 Anais Nº 1, ano 2013, p

91 Reflexões Acerca do Ajuste do Modelo de Resposta Gradual a um Banco de Dados Multidimensional que por sinal, apresentam baixa informação para o teste, conforme Figura 2a. A Tabela 2 apresenta os parâmetros estimados pelo MRG, com os 19 itens restantes, a qual mostra que o ajuste dos itens é adequado. O Anexo B apresenta as CCCI s. A Figura 3 apresenta as FII s (Figura 3a) e a FIT (Figura 3b) relacionadas. Tabela 2 Parâmetros Estimados pelo MRG com os 19 itens restantes Item Extrmt1 Extrmt2 Extrmt3 Extrmt4 Dscrmn s2 5,43 4,32 2,33 0,91 0,995 s3 4,46 3,79 0,36 0,56 0,986 s4 3,42 1,71 0,20 0,64 1,180 s5 8,61 5,04 0,15 0,39 0,969 s6 1,91 0,30 0,04 0,89 1,024 s7 1,65 0,68 0,85 1,92 2,106 s8 2,31 1,83 0,47 1,30 1,883 s11 5,72 3,54 1,95 1,08 0,813 s18 6,82 5,05 3,15 1,98 0,840 s19 5,08 3,85 2,47 0,95 1,012 s20 3,14 2,71 2,29 0,30 1,803 s21 2,01 0,95 0,58 1,19 2,057 s22 3,89 3,18 2,71 0,03 1,221 s23 2,08 1,88 0,29 0,81 2,959 s24 2,62 2,60 0,17 0,66 2,778 s25 1,33 1,25 0,28 0,60 4,222 s26 1,57 1,38 0,55 1,17 3,416 s27 1,30 1,22 0,40 0,60 4,349 s28 1,33 1,15 0,17 0,68 3,759 Item Information Curves Test Information Function Information Information Ability (a) FII s b (FIT) Figura 3 FII e FIT para os 19 itens restantes Também foi feito um ajuste com o MRG utilizando os 9 itens excluídos dessa análise. O resultado mostrou que todos os itens ajustaram se adequadamente, como pode se observar nos parâmetros estimados na Tabela 3 e nas CCCI s do Anexo C. A Figura 4 apresenta as FII s (Figura 4a) e a FIT (Figura 4b) relacionadas. Ability Anais Nº 1, ano 2013, p

92 Fernando de Jesus Moreira Junior, José Renê de Oliveira, Angela Pellegrin Ansuj e Andreas Dittmar Weise Tabela 3 Parâmetros Estimados pelo MRG com os 9 itens excluídos Item Extrmt1 Extrmt2 Extrmt3 Extrmt4 Dscrmn s1 5,19 4,74 3,57 0,49 1,079 s9 3,98 2,96 1,95 0,66 1,374 s10 3,13 2,93 2,32 1,07 2,155 s12 3,83 2,52 1,01 0,55 1,882 s13 2,55 1,70 0,04 0,73 1,253 s14 2,89 1,93 1,20 0,32 4,499 s15 3,22 2,71 1,62 0,63 2,227 s16 3,06 2,42 1,04 0,30 2,691 s17 3,58 3,26 1,83 0,52 1,713 Item Information Curves Test Information Function Information Information Ability (a) FII s b (FIT) Ability Figura 4 FII e FIT para os 9 itens excluídos Um fato curioso observado nas três análises do MRG foi que o software interpretou as categorias inversamente do que se pretendia analisar, ou seja, a categoria mais alta (muito satisfeito) foi identificada como Extrmt1 e posicionada à esquerda nas CCCI s. Não se encontrou nenhum argumento na função que ajusta o MRG do pacote ltm para inverter essa interpretação. Foi feita uma inversão nos códigos das categorias dos itens numa tentativa de que o software interpretasse de forma inversa. No entanto, o software interpretou os códigos da mesma forma, ou seja, a categoria mais foi identificada como Extrmt1 e posicionada à esquerda nas CCCI s. Dessa forma, os construtos não estão medindo a satisfação, mas a insatisfação dos clientes. 84 Anais Nº 1, ano 2013, p

93 Reflexões Acerca do Ajuste do Modelo de Resposta Gradual a um Banco de Dados Multidimensional Conclusões Embora os critérios utilizados na análise da dimensionalidade apontam para um construto multidimensional (de 4 a 6 dimensões) que pode ser representado por uma única dimensão dominante, o ajuste do MRG Unidimensional não funcionou adequadamente com todos os itens. No entanto, dividindo se o conjunto de itens em dois subconjuntos, ajustados separadamente pelo mesmo MRG Unidimensional, obteve se resultados adequados nos dois caso, o que pode apontar para um construto com duas dimensões dominantes. Essas dimensões supostamente representam a insatisfação dos clientes relacionada a diferentes critérios. Como trabalhos futuros pretende se interpretar os dois traços latente identificados e buscar um ajuste por um Modelo Multidimensional da TRI (TRIM). Referências Andrade, D. F.; Tavares, H. R.; Valle, R. C (2000).Teoria da resposta ao item: Conceitos e aplicações. São Paulo: ABE AssociaçãoBrasileira de Estatística. Bazán J. ; Merino, M. H. ; Mazzon, J. A. (2011). Classificação de modelos de resposta ao item policotômicos com aplicação ao marketing. Revista Brasileira de Estatística, 72, Bortolotti, S. L. V, Moreira Junior, F. J., Bornia, A. C., Sousa Júnior, A. F., Andrade, D. F. (2012). Consumer satisfaction and item response theory: creating a measurement scale. Gestão & Produção, 19(2), Reckase, M. D. (1979) Unifactor latent trait models applied to multifactor tests: Results and implications. Journal of Educational Statistics, 4, Rizopoulos, D. (2006). ltm: An R package for latent variable modeling and item response theory analyses. Journal of Statistical Software, 17, Samejima, F. (1969). Estimation of latent ability using a response pattern of graded scores. Psychometric Monograph, 17. Yoshida, E. M. P. (2007). Validade da Versão em Português da Toronto Alexithymia Scale TAS em Amostra Clínica. Psicologia: Reflexão e Crítica, 20(3), Recebido em: 03/11/2013 Avaliado em: 25/11/2014 Anais Nº 1, ano 2013, p

94 Fernando de Jesus Moreira Junior, José Renê de Oliveira, Angela Pellegrin Ansuj e Andreas Dittmar Weise 86 Anais Nº 1, ano 2013, p

95 Utilização da Teoria da Resposta ao Item na Avaliação de um Questionário para medir Sentimentos sobre a Disciplina de Estatística Use of Item Response Theory in the Evaluation of a Questionnaire to measure feelings about the Discipline of Statistics Fernando de Jesus Moreira Junior Doutor em Engenharia de Produção, UFSC Professor do Departamento de Estatística, UFSM fmjunior777@yahoo.com.br Rosebel Trindade Cunha Prates Mestre em Modelagem Matemática, UNIJUI Professora do Centro de Ciências Sociais Aplicadas, UNIOESTE rosebelprates@hotmail.com Angela Isabel dos Santos Dullius Doutora em Odontologia, UFSM Mestre em Engenharia de Produção, UFSM Professora do Departamento de Estatística, UFSM dr_angel@terra.com.br Resumo Este artigo analisa o sentimento, atitudes e concepções que envolvem as possíveis relações entre os aspectos cognitivos afetivos relacionados à disciplina de estatística, tendo como finalidade a análise das concepções e atitudes através da escala de Likert e do Modelo Logístico da Teoria da Resposta ao Item (TRI) que estima o nível de sentimento dos alunos em relação à Estatística. Adotou se um questionário da escala de Likert, composto de 20 itens, tomando uma amostra de 256 alunos da UFSM. Os resultados apresentaram que todos os 20 itens possuem uma boa qualidade e conseguem estimar adequadamente o nível de sentimento dos alunos que possuem sentimento mediano em relação à Estatística, entre mais ou menos 1,5 desvio padrão em torno da média. No entanto, há carência de itens para medir adequadamente aqueles alunos que possuem sentimentos extremos em relação à Estatística, ou seja, aqueles que estão posicionados 1,5 desvio padrão acima ou abaixo da média. Palavras chave: Escala likert. Modelo Logístico de Dois Parâmetros. Concepções. Atitudes. Disciplina de estatística. Abstract This article analyzes the sentiment, attitudes and conceptions involving the possible relationships between cognitive affective aspects related to the discipline of statistics, for purposes of analysis of conceptions and attitudes by Likert and the Logistic Model of Item Response Theory (IRT) that estimates the level of students' feeling towards Statistics. We adopted a questionnaire Likert scale consisting of 20 items, using a sample of 256 students from UFSM. The results showed that all 20 items have good quality and can accurately estimate the level of feeling of the students who have average sentiment towards Statistics, between about 1.5 standard deviation around the mean. However, there are few items to

96 Fernando de Jesus Moreira Junior, Rosebel Trindade Cunha Prates e Angela Isabel dos Santos Dullius adequately measure those students who have extreme feelings towards Statistics, ie those which are positioned 1.5 standard deviation above or below the average. Keywords: Likert scale. Two Parameters Logistic Model. Conceptions, Attitudes. Discipline of Statistics. Introdução Conceitua se que a atitude é uma disposição pessoal, indiossincrática, presente em todos os indivíduos, dirigida a objetos, eventos ou pessoas, que assume diferente direção e intensidade de acordo com as experiências do indivíduo (Brito, 1996). Ponte (1992) informa que conhecer as concepções não é tarefa fácil, pois estas não revelam facilmente através de comportamentos observáveis. As concepções têm uma natureza essencialmente cognitiva, portanto associadas ao pensar, que atuam como um filtro, dando sentido às coisas ou atuando como um elemento bloqueador para novas situações. Para diferenciar entre os conceitos de atitudes e concepções, o autor afirma que: Conceito é um termo mais genérico que atitude e, como um processo cognitivo, fornece a base para a formação da avaliação. Concepção é essencialmente o ato de identificar duas ou mais entidades ou eventos dentro de uma relação experimentalmente demarcada. As relações que ocorrem nas concepções podem, mas não é necessário, ter uma conotação avaliativa. O conceito de que 2 é maior do que 1 não tem a priori significado avaliativo. Além disso, isto não teve conteúdo ou referência específica. Quando um conceito adquire uma significância avaliativa (por exemplo, que existe mais magia no número 2 do que no 1 ou que duas cabeças são melhores do que uma) começa aproximar se de uma atitude. Neste sentido, pode se dizer que uma atitude seria um conceito avaliativo que tem sido aplicado a um referente específico, conforme Shaw (1967) apud Moro (1999). Outra definição de atitude é com uma constituição tripla (cognição, afeto e comportamento), Tesser & Shaffer (1990). Para estudar os sentimentos dos alunos que tem em relação a estatística adotou se escalas denominadas escalas somativas ou escala likert que são as mais usuais para se acessar atitudes. Assim, o trabalho analisou os itens do questionário da escala de likert, juntamente com o Modelo Logístico da Teoria da Resposta ao Item (TRI) para estimar o nível de sentimento dos alunos em relação à Disciplina de Estatística ou à Ciência Estatística. 88 Anais Nº 1, ano 2013, p

97 Utilização da Teoria da Resposta ao Item na Avaliação de um Questionário para medir Sentimentos sobre a Disciplina de Estatística 1. Metodologia A amostra do estudo foi composta por 256 alunos da UFSM que cursaram pelo menos alguma disciplina de Estatística. O questionário foi composto por 20 itens que foram avaliados em relação à concordância em uma escala likert de quatro pontos: concordo totalmente, concordo, discordo e discordo totalmente. Metade dos itens do questionário foram aplicados de forma invertida, ou seja, entre as 20 afirmações a respeito da Estatística, 10 eram afirmações positivas e 10 eram afirmações negativas. Para o tratamento dos dados, as respostas dos itens com afirmações negativas foram invertidas. Dessa forma, a escala mede o sentimento crescente de negativo para positivo em relação à Ciência Estatística. Os dados foram analisados por meio do Modelo Logístico de Dois Parâmetros (ML2) da TRI (Birnbaum, 1968) disponível no pacote irtoys do Software R. Para essa análise, os dados foram dicotomizados em: (1) concordo (categorias concordo totalmente e concordo) e (0) discordo (categorias discordo e discordo totalmente). 2. Resultados e comentários Os parâmetros dos itens foram estimados por meio do ML2 em uma escala com média 0 (zero) e desvio padrão 1 (um). Todos os itens mostraram um comportamento adequado, como pode se observar nas Curvas Características dos Itens (CCI s) da Figura 1a. Além disso, os itens possuem boa qualidade, como mostram as Funções de Informação dos Itens (FII s) da Figura 1b. A Tabela 1 apresenta a descrição dos itens e os respectivos parâmetros de discriminação (a) e de dificuldade (b) estimados pelo ML2. Os itens invertidos estão sinalizados por (*). A Figura 2 apresenta as CCI s dos itens na ordem em que aparecem na Tabela 1. Pode se observar que o item que possui maior probabilidade de concordância foi o Item 1 (b = 0,9911), ou seja, a grande maioria dos alunos não fica sob tensão em uma aula de Estatística. Por outro lado, observou se que o item que possui menor probabilidade de concordância foi o Item 18 (b = 2,2034), ou seja, a aula de Estatística, em relação às outras disciplinas, não é a aula que deixa os alunos mais felizes. Anais Nº 1, ano 2013, p

98 Fernando de Jesus Moreira Junior, Rosebel Trindade Cunha Prates e Angela Isabel dos Santos Dullius Item response function Item information function Probability of a correct response Item information Ability (a) CCI s Ability (b) FII s Figura 1 Curvas Características e Funções de Informação dos Itens Tabela 1 Descrição dos itens e os parâmetros estimados do ML2 Descrição dos Itens Parâmetro a Parâmetro b 1. Eu fico sob uma terrível tensão na aula de Estatística. * 1,6378 0, Eu não gosto de Estatística e me assusta ter que fazer essa matéria. * 3,8632 0, Eu acho a Estatística muito interessante e gosto das aulas de Estatística. 2,0475 0, A Estatística é fascinante e divertida. 2,0657 1, A Estatística me faz sentir seguro(a) e é, ao mesmo tempo, estimulante. 2,2648 1, Dá um branco na minha cabeça e não consigo pensar claramente quando estudo Estatística. * 1,7231 0, Eu tenho a sensação de insegurança quando me esforço em Estatística. * 1,8360 0, A Estatística me deixa inquieto(a), descontente, irritado(a) e impaciente. * 2,7876 0, O sentimento que eu tenho com relação à Estatística é bom. 2,8827 0, A Estatística me faz sentir como se estivesse perdido(a) em uma selva de números e sem encontrar saída. * 2,7256 0, A Estatística é algo que eu aprecio grandemente 1,6243 0, Quando eu ouço a palavra Estatística, eu tenho um sentimento de aversão. * 3,1960 0, Eu encaro a Estatística com um sentimento de indecisão, que é resultado do medo de não ser capaz em Estatística. * 2,2637 0, Eu gosto realmente de Estatística 2,8528 0, A Estatística é uma das matérias que eu realmente gosto de estudar na universidade 2,3492 0, Pensar sobre a obrigação de resolver um problema estatístico me deixa nervoso(a). * 2,0940 0, Eu nunca gostei de Estatística e é a matéria que me dá mais medo. * 2,0982 0, Eu fico mais feliz na aula de Estatística que na aula de qualquer outra matéria 0,7868 2,2034 (continuação) 90 Anais Nº 1, ano 2013, p

99 Utilização da Teoria da Resposta ao Item na Avaliação de um Questionário para medir Sentimentos sobre a Disciplina de Estatística (continuação) Descrição dos Itens Parâmetro a Parâmetro b 19. Eu me sinto tranqüilo(a) em Estatística e gosto muito dessa matéria. 2,7916 0, Eu tenho uma reação definitivamente positiva com relação a Estatística. Eu gosto e aprendo essa matéria. (*) Itens Invertidos 4,3696 0,3367 A Figura 3 apresenta a Informação Total do Teste FIT (Figura 3a) e o Histograma da distribuição do traço latente estimado (Figura 3b), ou seja, do nível de sentimento estimado do aluno numa escala com média zero e desvio padrão 1. O traço latente foi estimado por meio do método bayesiano da Esperança a Posteriori (EAP). Nota se, na Figura 3a, que a informação do teste concentra se em torno de zero e havendo pouca informação fora do intervalo entre 1,5 e 1,5 da escala. Isso significa que o questionário carece de itens para avaliar com precisão os indivíduos que estão posicionados fora desse intervalo, como observa se no Histograma da Figura 3b. No entanto, o questionário consegue discriminar indivíduos que têm sentimentos positivos em relação à estatística daqueles que têm sentimentos negativos, principalmente entre aqueles posicionados na região central da escala. Observa se que alguns itens parecem medir a mesma coisa, como, por exemplo, os itens 8 e 10, que possuem quase os mesmos valores para os parâmetros estimados (vide Tabela 1). Nesse sentido, o sentimento negativo de estar perdido parece estar bastante relacionado com os sentimentos de inquietude, descontentamento, irritação e impaciência. Anais Nº 1, ano 2013, p

100 Fernando de Jesus Moreira Junior, Rosebel Trindade Cunha Prates e Angela Isabel dos Santos Dullius Item response function Item response function Item response function Item response function Probability of a correct response Probability of a correct response Probability of a correct response Probability of a correct response Ability Ability Ability Ability Item response function Item response function Item response function Item response function Probability of a correct response Probability of a correct response Probability of a correct response Probability of a correct response Ability Ability Ability Ability Item response function Item response function Item response function Item response function Probability of a correct response Probability of a correct response Probability of a correct response Probability of a correct response Ability Ability Ability Ability 92 Anais Nº 1, ano 2013, p

101 Utilização da Teoria da Resposta ao Item na Avaliação de um Questionário para medir Sentimentos sobre a Disciplina de Estatística Item response function Item response function Item response function Item response function Probability of a correct response Probability of a correct response Probability of a correct response Probability of a correct response Ability Ability Ability Ability Item response function Item response function Item response function Item response function Probability of a correct response Probability of a correct response Probability of a correct response Probability of a correct response Ability Ability Ability Figura 2 Curvas Características dos Itens Ability Test information function Information Número de Alunos Ability (a) FIT Nível de Sentimento do Aluno (b) Histograma Figura 3 Informação Total do Teste e Histograma do Traço Latente Conclusões Os resultados mostraram que todos os itens apresentaram um comportamento adequado, em relação aos parâmetros estimados por meio do ML2. No entanto, o questionário precisaria ser composto por mais itens que envolvam sentimentos Anais Nº 1, ano 2013, p

102 Fernando de Jesus Moreira Junior, Rosebel Trindade Cunha Prates e Angela Isabel dos Santos Dullius extremos em relação à Estatística (aqueles que gostam muito de Estatística e aqueles que odeiam) a fim de estimar melhor o nível de sentimento dos alunos que estão posicionados numa distância de 1,5 desvio padrão em relação à média. Na continuidade desse trabalho, pretende se identificar os níveis âncoras e os itens âncoras e interpretar a escala construída. Para os trabalhos futuros, pretende se elaborar os itens que envolvam sentimentos extremos, a fim de aumentar a abrangência da informação do teste na escala do traço latente e aplicar o questionário em uma amostra maior. Aumentando se a amostra, também pretende se avaliar os itens com modelos politômicos da TRI. Referências Birnbaum, A. (1968) Some Latent Trait Models and Their Use in Infering an Examinee s Ability. In: LORD, F. M.; NOVICK, M. R. Statistical Theories of Mental Test Scores. Reading, MA: Addison Wesley. Brito, M. R. F.(1996) Um Estudo sobre as Atitudes em Relação à Matemática em estudantes de 1º e 2º graus. FE UNICAMP. Campinas SP. Tese de Livre Docência. Moron, C. F. (1999) As Atitudes e as concepções dos professores de educação infantil com relação à matemática. Zetetiké CEMPEM FE/UNICAMP, 7, 11. Ponte, J. P. (1992) Concepções dos professores de matemática e processo de formação. In: Brown, M, et al. Educação Matemática: Temas de Investigação. Lisboa: Instituto de Inovação Nacional e Secção de Educação e Matemática. Tesser. A, Shaffer, D. R. (1990). Attitudes Change. Annual Review of Psychology, 41, Recebido em: 03/11/2013 Avaliado em: 25/11/ Anais Nº 1, ano 2013, p

103 Efeito da Conglomeração e a Qualidade de uma Escala de Mokken: quais as relações? 1 The Effect of Cluster Sampling Design on Estimation of Loevinger H Coefficient for Mokken Scale Analysis Marcia Santos Andrade Doutora em Engenharia Elétrica e Mestre em Matemática, PUC Rio Professora do Departamento de Engenharia de Produção, Universidade Cândido Mendes armsandrade@gmail.com Cristiano Fernandes Doutor em Estatística, Londons School of Economics Professor do Departamento de Engenharia Elétrica, PUC Rio cris@ele.puc rio.br Pedro Luís do Nascimento Silva Doutor em Estatística, University of Southampton Professor na Escola Nacional de Ciências Estatísticas, ENCE/IBGE pedronsilva@gmail.com Resumo A finalidade deste estudo é avaliar o efeito do plano de amostragem por conglomerados na estimação do coeficiente H que desempenha papel importante tanto na construção quanto na avaliação de uma Escala de Mokken. Para tal, considerou se a população de referência formada pelos alunos que frequentavam o 9 ano do ensino fundamental, na rede pública, em área urbana do estado do Rio de Janeiro que participaram da Prova Brasil As respostas a um conjunto de 10 itens dicotomizados que mensuram o capital econômico da família dos alunos foram usadas no cálculo de H. Foram selecionadas amostras independentes dessa população de referência sob dois planos amostrais: amostragem por conglomerados em único estágio e amostragem aleatória simples. O estudo aponta o efeito significativo da amostragem por conglomerados na estimação do coeficiente H. Palavras chave: Coeficientes de escalonabilidade. Plano amostral complexo. Amostra complexa. Psicometria. Teoria de Resposta ao Item não paramétrica. Abstract The purpose of this manuscript is to evaluate the impact of cluster sampling design on the estimation of the coefficient H that plays a key role in the construction of the Mokken scale and it is also important for the evaluation of the quality of this scale. To investigate empirically the effect of cluster sampling design was considered the reference population: the junior high school students, in public schools in the urban area of the state of Rio de Janeiro, who took the Prova Brasil The responses to a set of 10 dichotomized items that measure the economic capital of the students families were used in the calculation of H. Repeated samples were selected from same reference population using two sampling designs: AC1S (simple random 1 Trabalho apresentado na sessão de comunicação oral do III CONBRATRI. Este trabalho é uma versão do artigo "Impacto da conglomeração na estimação do coeficiente H da Escala de Mokken" publicado na Revista Estudos em Avaliação Educacional, edição nº 55, volume 24 de 2013.

104 Marcia Santos Andrade, Cristiano Fernandes e Pedro Luís do Nascimento Silva without replacement cluster sampling) and SRSWOR (simple random sampling without replacement). The results show significant effect of cluster sampling design on the estimation of Loevinger H coefficient. Moreover, the possibility of using multilevel models must be evaluated. Keywords: Scalability coefficients. Complex sampling design. Complex samples. Psychometric, non parametric Item Response Theory. Apesar de pouco divulgada no Brasil, alguns estudos empregaram a Escala de Mokken para a mensuração de construtos como: participação política (Borba, 2012), ansiedade em matemática (Chagas et al., 2012), autocuidado de idosos (Andrade et al., 2011), hábitos de sedentarismo e atividade física (Abbes et al., 2011), prática pedagógica (Ortigão, 2011), capital econômico (Bonamino et al., 2010; Andrade; Franco; Pitombeira, 2003), qualidade de vida na demência (Inouye et al., 2009), prática docente em matemática (Ortigão, 2009), nível socioeconômico (Franco et al., 2007), dentre outros. Além disso, esse procedimento de construção de escalas de Mokken pode ser usado também para avaliar o aspecto da dimensionalidade de um conjunto de itens (Shansis et al., 2004; Sijtsma; Molennar, 2002). Dentre os coeficientes de escalonabilidade Hij, Hi e H usados para construir uma Escala de Mokken, o coeficiente H de Löevinger (1948) desempenha papel fundamental também na avaliação da consistência dessa escala (Mokken, 1971; Andrade, 2012). A mensuração de variáveis latentes via escalas de Mokken é, geralmente, construída sob a hipótese de que as respostas dadas a um conjunto de itens são realizações de variáveis aleatórias independentes e identicamente distribuídas (Särndal et al., 1992). Entretanto, essa hipótese é violada quando os respondentes os quais provêm de uma amostra probabilística estão organizados em conglomerados (escolas, turmas, hospitais, setores censitários, domicílios etc.) e, além disso, são muito homogêneos dentro do conglomerado em termos das respostas dadas aos itens no instrumento de medida. Dessa forma, torna se necessária a incorporação dessa estrutura de correlação positiva dentro dos conglomerados existentes na amostra para a estimação do coeficiente H. Existem sérias consequências nas estimativas pontuais de quantidades populacionais de interesse e na precisão dessas estimativas, caso seja feita a análise estatística de dados amostrais com estruturas de conglomeração como se fossem observações amostrais independentes e identicamente distribuídas. Assim, de modo geral, 96 Anais Nº 1, ano 2013, p

105 Efeito da Conglomeração e a Qualidade de uma Escala de Mokken: quais as relações? os resultados da estimação dos parâmetros de interesse ficam incorretos (Skinner; Holt; Smith, 1989). Diante da construção de escalas de Mokken, com dados oriundos de amostras com conglomeração desde 1961 (Cosco et al., 2012; Mokken, 1971), até agora não existem, no entanto, estudos sobre o impacto da amostragem de conglomerados na estimação dos coeficientes de escalonabilidade. Há apenas um único trabalho desenvolvido por Cohen et al. (2008) no cenário da Teoria de Resposta ao Item (TRI) sobre a estimação dos parâmetros dos itens do modelo de Rasch. Sendo assim, o propósito deste artigo é avaliar o efeito do plano amostral com conglomeração em um único estágio na estimação do coeficiente H com itens dicotômicos. 1. Metodologia 1.1. Escala de Mokken Para que a Escala de Mokken seja adequada para a mensuração do construto latente, o conjunto de itens precisa satisfazer algumas hipóteses, a saber: unidimensionalidade, independência local e monotonicidade das curvas características dos itens (CCI); além das seguintes condições sobre os coeficientes de escalonabilidade: H ij > 0, i j ; Hi > 0,30 i e H > 0,40 (Sijtsma and Molenaar, 2002, p.51 e 59). Sendo assim, o pesquisador pode utilizar o escore total 2 como uma estimativa do construto latente Hipóteses de Adequação da Escala de Mokken Unidimensionalidade De modo geral, os traços latentes que estão relacionados a comportamentos, atitudes ou aptidões apresentam várias dimensões (Andriola, 2009; Pasquali, 2009). Mensurar aspectos multidimensionais, apesar de desejável do ponto de vista prático, é ainda um problema não solucionado de modo satisfatório pela Psicometria moderna. Para lidar com esse detalhe, na maioria das vezes, o pesquisador pressupõe, no momento da construção do conjunto de itens, o enfoque unidimensional. 2 A soma das respostas atribuídas aos J itens selecionados pela Escala de Mokken que varia de zero até J. Anais Nº 1, ano 2013, p

106 Marcia Santos Andrade, Cristiano Fernandes e Pedro Luís do Nascimento Silva Posteriormente, quando esse conjunto de itens for aplicado a uma amostra de respondentes, verificar se á a validade da hipótese de unidimensionalidade. 3 O pressuposto de unidimensionalidade se refere à presença de um fator dominante (dimensão única ou principal) em detrimento dos outros fatores secundários (possíveis dimensões do traço latente) que estejam em vigor no momento da mensuração e que possam ser considerados suficientemente pequenos para serem descartados da medição (Pasquali, 2009; Gessaroli, 1994). Independência local Segundo Pasquali (2009), a suposição da independência local pressupõe que a probabilidade de o indivíduo responder corretamente ao item i não é afetada pelas respostas dadas aos demais itens. Considere um conjunto de J itens dicotômicos tal que i = 1, 2,..., J e seja β o traço latente dominante do indivíduo. A independência local das respostas de dado indivíduo ao conjunto unidimensional com J itens dicotômicos é definida por: J 1 2 J 1 2 J i=1 i β (1) Pr( U,U,...,U β) = Pr( U β) Pr( U β )... Pr( U β ) = Pr( U ) em que U i é a resposta positiva do indivíduo a um item dicotômico i e Pr( U i β ) é a probabilidade da resposta positiva desse indivíduo ao item i dado seu traço latente β. Monotonicidade não Decrescente da Curva CCI A hipótese da monotonicidade da curva característica de um dado item i estabelece que a probabilidade de responder corretamente ao item i deve ser monótona e não decrescente em relação ao traço latente β, ou seja: (2) β < β Ρr(U β ) Ρr(U β ) a b i a i b 3 Se a hipótese de unidimensionalidade for violada, verificar-se-á a adequação da Escala de Mokken às outras dimensões evidenciadas do traço latente. 98 Anais Nº 1, ano 2013, p

107 Efeito da Conglomeração e a Qualidade de uma Escala de Mokken: quais as relações? Figura 1 Comportamento monótono não decrescente de algumas curvas CCI Fonte: Sijtsma e Molenaar (2002). Vale destacar que a curva CCI, satisfazendo a relação de ordem em (2), pode não ter uma forma simétrica, mas apresentar intervalos nos quais a função seja linear (Figura 1). Para a avaliação das hipóteses de adequação de uma Escala de Mokken, empregando a library Mokken disponível no programa estatístico R (R DEVELOPMENT CORE TEAM, 2011), consulte o estudo de Van der Ark (2012) Os Coeficientes de Escalonabilidade Hij, Hi e H Mokken (1971) apresentou três coeficientes de escalonabilidade (homogeneidade) com o objetivo de construir escalas de Mokken com boas propriedades psicométricas. O primeiro deles, H ij, mede o grau de associação entre cada par de itens i e j. O segundo, H i, avalia o poder de discriminação do item i em relação aos demais itens. O terceiro, H, mede a consistência (grau de homogeneidade) da escala como um todo. Para detalhes sobre o coeficiente de escalonabilidade entre pares de itens (H ij ) e o de escalonabilidade de um item i (H i ), veja Andrade (2012). O Coeficiente H Dentre os coeficientes de escalonabilidade, H desempenha um papel importante tanto na construção de uma Escala de Mokken quanto na avaliação da consistência dessa escala (Mokken, 1971; Sijtsma and Molenaar, 2002; Andrade, 2012). Sob o enfoque da amostragem de populações finitas, esse coeficiente pode ser definido P como uma função de proporções populacionais de acertos individuais ( i ) e simultâneos P aos itens i e j ( ij ), em que i = 1, 2,..., J j = 2,..., J e. Segundo Mokken (1971), a Anais Nº 1, ano 2013, p

108 Marcia Santos Andrade, Cristiano Fernandes e Pedro Luís do Nascimento Silva popularidade de um item i é definida como a proporção de acertos ao item. A relação P de ordem entre as popularidades dos itens i e j, denotada por i < j, significa que i < P j, ou seja, o item i é mais difícil que o item j. Assumindo que os itens estejam ordenados em termos de suas popularidades populacionais, a expressão do coeficiente H é dada por: (3) H = i j i ( P - P P ) ( P - P P ) + ( P - P P ) i i j i i< j i j< i ij i j j i j, 0 H 1 Supondo que as hipóteses de adequação sejam válidas, uma Escala de Mokken pode ser classificada em fraca (0,30 H < 0,40), razoável (0,40 H< 0,50) ou forte (para valores de H acima de 0,50). Assim, de acordo com a classificação obtida da escala, o escore total pode ser empregado como uma estimativa do construto latente β (Mokken, 1971; Sijtsma and Molenaar, 2002). Estimador de H sob Desenho Amostral Complexo Ao mensurar uma variável latente mediante uma Escala de Mokken, o pesquisador pode deparar com três situações a respeito do plano amostral utilizado para a seleção da amostra na qual foi coletada as respostas dadas a um conjunto de J itens dicotômicos que compõem um instrumento de medida. Esse plano amostral pode ser por amostragem aleatória simples com reposição (AASC), amostragem aleatória simples (AAS) ou por um plano amostral complexo. Este último apresenta algumas das seguintes características: conglomeração em um ou mais estágios, estratificação, probabilidades desiguais de sorteio para as unidades envolvidas etc. Quando a amostra s for selecionada segundo um plano amostral complexo, a estimação do coeficiente H deve incorporar as características desse plano amostral, deste modo o estimador Ĥ w pode ser definido (Andrade, 2012). Como o plano de amostragem por conglomerados simples em único estágio (AC1S) é equivalente a uma AAS para valores agregados do conglomerado (Bolfarine and Bussab, 2005), o estimador Ĥ, decorrente da expressão (3) é dado por: 100 Anais Nº 1, ano 2013, p

109 Efeito da Conglomeração e a Qualidade de uma Escala de Mokken: quais as relações? (4) J -1 J i=1 j= i+1 ( Pˆ = J -1 J i i=1 j= i+1 Ĥ, Pˆ ( 1- Pˆ ) ij - Pˆ Pˆ i j j ) i = 1, 2,..., J ; j = 2, 3,..., J em que Pˆ i : estimador da proporção de acertos do item i e Pˆ ij : estimador da proporção de acertos simultâneos aos itens i e j. Vale destacar que as notações Ĥ ac 1 s e aas sob os planos de AC1S e AAS, respectivamente. Ĥ são referentes aos estimadores de H 1.2. Estudos de Simulação Para investigar o efeito da conglomeração em único estágio na estimação de H, além dos aspectos de vício, precisão e normalidade dos estimadores pontuais propostos, foram desenvolvidos dois estudos de simulação, com réplicas de amostras independentes selecionadas da mesma população de referência, sob dois planos amostrais: AC1S e AAS. População de Referência Desde 2005, a Avaliação Nacional do Rendimento Escolar (Prova Brasil) é um dos instrumentos de avaliação da educação básica, aplicado anualmente pelo Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira (Inep). Participam dessa avaliação censitária os alunos matriculados no 5 e 9 anos do Ensino Fundamental nas escolas públicas urbanas e rurais do território nacional, com pelo menos 20 alunos na série. O objetivo dessa avaliação está direcionado para o desempenho dos estudantes em leitura e resolução de problemas em matemática. Com os resultados obtidos por escolas, municípios etc. são apresentados diagnósticos da relação que envolve gestores, diretores e professores como co responsáveis pelo rendimento dos estudantes que auxiliam na tomada de decisão de políticas educacionais. A escolha do cadastro dessa avaliação educacional como um sistema de referência foi adequada para a realização dos estudos de simulação na população de referência Anais Nº 1, ano 2013, p

110 Marcia Santos Andrade, Cristiano Fernandes e Pedro Luís do Nascimento Silva de interesse, pois disponibilizou informações atualizadas sobre o contexto escolar brasileiro e, além disso, um questionário socioeconômico que permitiu a mensuração do capital econômico por meio de uma Escala de Mokken. Desta forma, considerou se a população de referência formada pelos alunos do estado do Rio de Janeiro que frequentavam o 9 ano do Ensino Fundamental nas escolas públicas urbanas que participaram da Prova Brasil Nessa população, o total de alunos estava organizado em escolas públicas e turmas. Capital Econômico A mensuração do capital econômico como a posse de bens de consumo (Bordieu, 1985; Ortigão, 2011; Soares, 2005) foi considerada neste artigo, devido a sua utilização, para medir a condição socioeconômica dos alunos. Essa prática é comum em estudos educacionais que visam à avaliação do impacto do nível socioeconômico, por exemplo, na proficiência em matemática (Andrade; Franco; Pitombeira, 2003), na eficácia escolar (Franco et al., 2007), nos programas de larga escala de avaliação da educação básica, como o Sistema de Avaliação da Educação Básica (Saeb), a Prova Brasil e o Programme for International Student Assessment (Pisa) 4, e no acesso ao ensino superior por meio do Exame Nacional do Ensino Médio (Enem) e do Programa Universidade Para Todos (Prouni). Nesse sentido, com base no questionário do aluno da Prova Brasil 2007, as respostas dadas a um conjunto de 10 itens dicotomizados (14, 5, 6, 12, 15, 8, 13, 7, 10 e 11) que mensuram o capital econômico da família dos estudantes, foram usadas no cálculo do coeficiente H. Esses itens foram rotulados, nesta ordem, como item 1,..., item 10 (Tabela 1). 4 Sob a coordenação do Inep, esses programas utilizam amostragem complexa para a coleta dos dados. 102 Anais Nº 1, ano 2013, p

111 Efeito da Conglomeração e a Qualidade de uma Escala de Mokken: quais as relações? Tabela 1 Popularidades dos itens do capital econômico na população de referência. Item Na sua casa tem...? (1: Sim; 0: Não) Popularidade (P i ) 1 Banheiro 0,980 2 Televisão em cores 0,978 3 Rádio 0,940 4 Carro 0,360 5 Empregada doméstica 0,090 6 Geladeira 0,980 7 Computador 0,480 8 Videocassete ou DVD 0,860 9 Máquina de lavar roupa 0, Aspirador de pó 0,180 Fonte: Elaboração do autor com bases nos dados do MEC/INEP/Prova Brasil, 2007 (Andrade, 2012). Plano AC1S No primeiro estágio foram selecionadas, por meio da amostragem aleatória simples, 90 escolas do 9 ano de um total de Em seguida, todos os alunos nas escolas selecionadas foram incluídos na amostra. Sob AC1S, os pesos amostrais atribuídos às escolas e aos alunos são iguais e desnecessários no cálculo das estimativas do coeficiente H. Para a comparação dos planos amostrais adotados neste estudo, foi necessário fixar o tamanho da AAS em alunos, uma vez que as escolas possuem tamanhos diferentes em termos do total de alunos do 9 ano que participaram da avaliação (Kish, 1965). Qualidade dos Estimadores sob o Plano Amostral Foram calculadas as estimativas de medidas estatísticas para avaliar a qualidade de um estimador θˆ segundo um plano amostral A, a saber: valor esperado (E A ), variância (V A ), vício (B A ), razão de vício (BR A ) e erro quadrático médio (EQM A ). Essas estimativas descrevem características importantes do comportamento dos estimadores pontuais por meio de uma aproximação da sua distribuição amostral (Särndal et al., 1992). Essas distribuições foram obtidas pelo processo de Anais Nº 1, ano 2013, p

112 Marcia Santos Andrade, Cristiano Fernandes e Pedro Luís do Nascimento Silva amostragem repetida e foram utilizadas no desenvolvimento deste estudo conforme o trabalho de Bean (1975). Cabe destacar que a variância da aproximação da distribuição amostral do estimador pontual θˆ foi considerada uma estimativa da variância verdadeira de θˆ (Bean, 1975). O impacto da conglomeração em único estágio na estimação da variância de Ĥ ac 1 s foi avaliado pela razão entre as estimativas de variâncias de Ĥ ac 1 s e Ĥ aas, nessa ordem (Särndal et al., 1992). Para testar as hipóteses de igualdade entre as médias e as variâncias das distribuições amostrais bem como a hipótese de normalidade, foram empregados os testes: Welch two sample t test, Bartlett test of homogeneity of variances e Shapiro Wilk normality test (Royston, 1982). Além disso, para testar se o estimador pontual é viciado, foi usado one sample t test. Nos processos de amostragem repetida avaliação das hipóteses de adequação de uma Escala de Mokken e a estimação do coeficiente H, foram usados os programas R (versão 2.13) e Complex Mokken (Andrade, 2012), respectivamente. 2. Resultados Nesta seção são apresentados os resultados da estimação de H obtidos pelos estudos de simulação na população de referência do Rio de Janeiro. O tamanho das réplicas de amostras conglomeradas de alunos pode ser aproximado por uma distribuição normal com média e desvio padrão 433 (Figura 2). Figura 2 Histograma do número de respondentes selecionados sob AC1S na população de referência. 0 Frequency Fonte: Andrade (2012). 104 Anais Nº 1, ano 2013, p

113 Efeito da Conglomeração e a Qualidade de uma Escala de Mokken: quais as relações? De modo geral, as popularidades dos itens e as proporções de acertos simultâneos foram bem estimadas, considerando se que o coeficiente de variação da distribuição amostral das proporções de acertos são inferiores a 1%. Em cada réplica, as hipóteses de adequação de uma Escala de Mokken são válidas no conjunto de itens fixados. Em ambos os planos amostrais, a ordenação incorreta (inversa) das popularidades populacionais ocorreu apenas nos pares: (1,2) e (2,6), em 8,4% e 2,3% do total de réplicas, respectivamente. Uma aproximação da distribuição amostral de Ĥ aas e de ac s Ĥ 1, obtida com réplicas de amostras selecionadas sob cada plano amostral, mostrou se estável para a avaliação do comportamento desses estimadores pontuais (Figura 3). Figura 3 Histogramas da distribuição amostral de superposta. Ĥ ac 1 s e aas Ĥ com densidade Normal Fonte: Andrade (2012). As distribuições amostrais diferem em termos da média e da variância (p<0,05). Além disso, a distribuição amostral de normal (p>0,05) (Tabela 2). Ĥ aas pode ser aproximada por uma distribuição Ao selecionar uma amostra conglomerada sob o plano AC1S com tamanho entre a alunos nessa população de referência, a probabilidade da variável aleatória Ĥ 1 assumir um valor no intervalo [0,30; 0,41] é igual a 0,53. ac s A Tabela 2 apresenta os resultados da estimação de H obtidos pela simulação, considerando cada plano amostral A adotado na população de referência. Anais Nº 1, ano 2013, p

114 Marcia Santos Andrade, Cristiano Fernandes e Pedro Luís do Nascimento Silva Tabela 2 Resultados da estimação de H sob AC1S e AAS na população de referência. Plano Amostral A E A V A B A EQM A W i H AC1S 0,405 2,062 0,001 2,071 0,998 AAS 0,406 1,037 0,000 1,037 0,999 0,406 Fonte: Andrade (2012). Nota: As estimativas de V A e EQM A foram multiplicadas pelo fator 10 4 ; (i) A estatística do teste de normalidade de Shapiro Wilk. Conforme a Tabela 2, sob AC1S, Ĥ ac 1 s é viciado (p<0,05) e a estimativa do vício (em valores absolutos) corresponde a 6,46% da estimativa do erro padrão desse Ĥ estimador. Além disso, a estimativa de EQM AC1S ( comparada com a estimativa de EQM AAS ( Ĥ aas ). ac s 1 ) é 99,5% maior quando 2.1. Discussão Os resultados aqui apresentados evidenciam que o plano amostral AC1S influencia a estimação do coeficiente de escalonabilidade H. Na população de referência do Rio de Janeiro, as escolas (unidades primárias de amostragem) possuem tamanhos diferentes em termos dos alunos participantes da Prova Brasil em Dessa forma, no processo de amostragem repetida de escolas sob AC1S, o tamanho das réplicas de amostras conglomeradas de alunos é uma variável aleatória (Särndal et al., 1992), que apresentou uma distribuição equilibrada de respondentes que, por sua vez, foram consideradas na estimação de H. Em face dos achados, o estimador Ĥ aas pode ser classificado como um estimador acurado (Särndal et al., 1992), uma vez que, em média, as estimativas Ĥ aas estão muito próximas do parâmetro populacional H e, além disso, apresentam pouca variabilidade quando comparadas com as estimativas de H calculadas sob o plano AC1S. Uma justificativa para esse fato pode estar relacionada ao tamanho fixado das réplicas de AAS, ao uso de estimadores de proporções (de acertos individuais e simultâneos aos itens) com elevada precisão e a inexistência do efeito da conglomeração. 106 Anais Nº 1, ano 2013, p

115 Efeito da Conglomeração e a Qualidade de uma Escala de Mokken: quais as relações? Além disso, apesar de o estimador Ĥ aas apresentar as principais qualidades procuradas pela amostragem: pequeno vício e pequena variância (Bolfarine and Bussab, 2005), esse estimador do coeficiente H não é adequado em situações em que a amostra selecionada de respondentes apresenta elevado grau de homogeneidade em relação às respostas aos itens utilizados do capital econômico. Segundo Bolfarine e Bussab (2005), a presença de vício estatisticamente significativo no estimador Ĥ ac 1 s pode ser explicada pela natureza não linear do estimador (vício técnico), pelo plano amostral adotado e pelo tamanho das réplicas. Além disso, a ordem de grandeza observada no vício não compromete, em média, a classificação final da escala. Somente sob AC1S, a estimativa da razão de vício de Ĥ ac 1 s foi superior a 5%. De acordo com Särndal et al. (1992), esse resultado tem repercussão na probabilidade de cobertura nominal do intervalo de confiança e também no cálculo desse intervalo; uma vez que deve incorporar a estimativa de EQM AC1S ao invés da estimativa de variância. Em virtude da alta homogeneidade dentro dos conglomerados, a perda de eficiência do plano amostral AC1S comparado ao plano AAS na estimação do coeficiente H era esperada (Bolfarine and Bussab, 2005). Isso foi observado no estudo de Cohen et al. (2008), que mostrou o impacto de um plano com conglomeração na estimação da variância dos estimadores dos parâmetros dos itens do modelo de Rasch. Além disso, demonstra que, ao ignorar a estrutura de conglomeração no cálculo da estimativa de variância do coeficiente H, os resultados, os testes de hipótese, o nível nominal dos intervalos de confiança e as conclusões a respeito da construção e classificação de uma Escala de Mokken ficam inválidos. Como foi visto anteriormente, o estimador Ĥ pode ser escrito como uma função de estimadores de proporções de acertos individuais (popularidades) e simultâneos aos itens. Segundo Van Onna (2004), em amostras suficientemente grandes, a propriedade de normalidade de Ĥ é verificada quando os estimadores das proporções de acertos individuais e simultâneos aos itens também apresentam essa propriedade. A afirmação não se mostrou válida neste estudo. Apesar do tamanho Anais Nº 1, ano 2013, p

116 Marcia Santos Andrade, Cristiano Fernandes e Pedro Luís do Nascimento Silva grande das réplicas de AAS (n=5723) e a propriedade de normalidade dos estimadores das popularidades serem observadas em apenas 8 itens, a distribuição amostral de Ĥ aas pode ser aproximada por uma distribuição normal. Segundo Sijtsma e Molenaar (2002), em decorrência do processo de amostragem repetida, do tamanho das réplicas e dos pares de itens com popularidades populacionais muito próximas, é possível a ordenação inversa nas popularidades estimadas dos itens em algumas réplicas. Quando esse fenômeno ocorre com frequência elevada, o processo de inferência baseado em estudos de simulação pode gerar resultados incorretos. Entretanto, neste estudo, o fenômeno da ordenação inversa ocorreu nos pares: (1,2) e (2,6), de forma balanceada em ambos os processos de seleção de réplicas, sem comprometer a qualidade dos resultados obtidos pela simulação. Conclusões Neste estudo, o uso da amostragem de conglomerados em único estágio (AC1S) teve impacto significativo na estimação do coeficiente H. Isso mostrou que a organização dos alunos em conglomerados naturais existentes na população e o grau elevado de similaridade dos respondentes em relação às respostas aos itens que mensuram o capital econômico não devem ser ignorados na estimação desse coeficiente. Recomenda se, com o intuito de melhorar a eficiência do uso da amostragem de conglomerados, sem aumentar o tamanho da amostra de respondentes, por exemplo, o uso da amostragem em dois estágios (sorteio de turmas dentro das escolas selecionadas) ou a seleção da amostra de conglomerados com probabilidades proporcionais a uma medida de tamanho dos conglomerados. Finalmente, a realização deste artigo contribui também para indicar o pouco desenvolvimento de pesquisa na área da Teoria de Resposta ao Item não Paramétrica (TRIN), apesar dos estudos recentes desenvolvidos por Andrade (2012) apresentarem uma nova abordagem baseada na amostragem complexa para os estimadores dos coeficientes de escalonabilidade e seus respectivos erros padrão. 108 Anais Nº 1, ano 2013, p

117 Efeito da Conglomeração e a Qualidade de uma Escala de Mokken: quais as relações? Dessa forma, fica em aberto, como uma linha de pesquisa para estudos futuros, a construção passo a passo de uma Escala de Mokken que incorpore as características de uma amostra complexa (Andrade, 2012). Agradecimentos Nossos agradecimentos ao Prof. Dr. Álvaro de Lima Veiga Filho, do Departamento de Engenharia Elétrica da Pontifícia Universidade Católica do Rio de Janeiro PUC Rio, pela sugestão do tema deste artigo. Agradecemos, também, ao Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira (Inep) pela concessão dos microdados da Prova Brasil 2007, ao Laboratório de Inteligência Computacional da PUC Rio (ICA),à Escola Nacional de Ciências Estatísticas (ENCE) e ao CNPq. Referências Abbes, P. T. et al. Sedentarismo e variáveis clínico metabólicas associadas à obesidade em adolescentes. Revista de Nutrição, v. 24, n. 4, p , Andrade, M. S.; Franco, C.; Pitombeira, J. B. Gênero e desempenho em matemática ao final do ensino médio: quais as relações? Estudos em Avaliação Educacional, São Paulo, n. 27, p , Andrade, M. S. et al.. Uma proposta para a mensuração do autocuidado em idosos. Cogitare Enfermagem, Curitiba, v.16, n.4, p , Andrade, M. S. A new approach for estimating the coefficients of scalability associated with Nonparametric Item Response Theory p. PhD (Thesis) Pontifícia Universidade Católica do Rio de Janeiro, Rio de Janeiro, Andriola, W. B. Psicometria moderna: características e tendências. Estudos em Avaliação Educacional, São Paulo, v. 20, n. 43, p , Bean, J. A. Distribution and properties of variance estimators for complex multistage probability samples: an empirical distribution. Vital Health Statistical, v. 65, p. 1 50, Bonamino, A. et al. Os efeitos das diferentes formas de capital no desempenho escolar: um estudo à luz de Bordieu e de Coleman. Revista Brasileira de Educação, Rio de Janeiro, v. 15, n. 45, p , Bolfarine, H.; Bussab, W. O. Elementos de amostragem. São Paulo: Edgard Blucher, Anais Nº 1, ano 2013, p

118 Marcia Santos Andrade, Cristiano Fernandes e Pedro Luís do Nascimento Silva Borba, J. Participação política: uma revisão dos modelos de classificação. Revista Sociedade e Estado, Brasília, v. 27, n. 2, p , Bordieu, P. The forms of capital. In: RICHARDSON, J. G. (Ed.). Handbook of theory and research for the sociology of education. New York: Greenwood, p Chagas, P. P. et al. Math anxiety questionnaire: similar latent structure in Brazilian and German school children. Child Development Research, v. 2012, p. 1 11, Cohen, J. et al. Consistent estimation of Rasch item parameters and their standard errors under complex sample designs. Applied Psychological Measurement, v. 32, n. 4, p , Cosco, T. D. et al. Mokken scaling analysis of the Hospital Anxiety and Depression Scale in individuals with cardiovascular disease. General Hospital Psychiatry, n. 34, p , Franco, C. et al. Qualidade e equidade em educação: reconsiderando o significado de fatores intra escolares. Ensaio: Avaliação Política Pública Educacional, Rio de Janeiro, v. 15, n. 55, p , Gessaroli, M. E. The assessment of dimensionality via local and essential independence: a comparison in theory and practice. In: LAVEAULT, D. et al. (Ed.). Modern theories of measurement: problems and issues. Ottawa, Canada: Faculty of Education, University of Ottawa, p Inouye, K. et al. Instrumentos específicos para mensurar a qualidade de vida na demência: levantamento, descrição, análise e comparação. Temas em Psicologia, Ribeirão Preto, v. 17, n. 2, p , Kish, L. Survey sampling. Nova Iorque: Wiley, Löevinger, J. The technique of homogeneous tests compared with some aspects of scale analysis and factor analysis. Psychological Bulletin, v. 45, p , Mokken, R. J. A theory and procedure of scale analysis. Mouton: The Hague, Ortigão, M. I. A sala de aula de matemática: avaliação das práticas docentes. Bolema, Rio Claro, v. 22, n. 33, p , Análise das práticas de professores de matemática da educação básica. Estudos em Avaliação Educacional, São Paulo, v. 22, n. 48, p , Pasquali, L. Psicometria: teoria dos testes na psicologia e educação. 3. ed. Petrópolis: Vozes, Anais Nº 1, ano 2013, p

119 Efeito da Conglomeração e a Qualidade de uma Escala de Mokken: quais as relações? R DEVELOPMENT CORE TEAM. R: A language and environment for statistical computing. Vienna: R Foundation for Statistical Computing, Disponível em: < project.org/>. Acesso em 01 jan Royston, P. An extension of Shapiro and Wilk s W test for normality to large samples. Applied Statistics, n. 31, p , Särndal, C. E.; Swensson, B.; Wretman, J. H. Model assisted survey sampling. New York: Springer Verlag, Shansis, F. et al. Desenvolvimento da versão em português da Escala de Avaliação de Mania de Bech Rafaelsen (EAM BR). Revista Psiquiatria, São Paulo, v. 26, n. 1, p , Sijtsma, K.; Molenaar, I. W. Introduction to nonparametric item response theory. Netherlands: Sage, Skinner, C. J.; Holt, D.; Smith, T. M. F. Analysis of complex surveys. Chichester: Wiley, Soares, F. J. Utilização da teoria de resposta ao item na produção de indicadores socioeconômicos. Pesquisa Operacional, Rio de Janeiro, v. 25, n. 1, p , Van der Ark, L. A. New developments in Mokken scale analysis. Statistical Software, v. 48, n. 5, p. 1 27, Van Onna, M. J. H. Estimates of the sampling distribution of scalability coefficient H. Applied Psychological Measurement, v. 28, n. 6, p , Recebido em: 03/11/2013 Avaliado em: 25/11/2014 Anais Nº 1, ano 2013, p

120 Marcia Santos Andrade, Cristiano Fernandes e Pedro Luís do Nascimento Silva 112 Anais Nº 1, ano 2013, p

121 Análise da Prova de Conhecimentos Gerais do Vestibular da UNESP 2012 por Modelos Uni e Multidimensionais da Teoria da Resposta ao Item Analysis of the general knowledge test of the admission examination UNESP 2012 for the uni and multi dimensional item response theory Pedro Alberto Barbetta Doutor em Engenharia de Produção, UFSC Professor Associado, UFSC pedro.barbetta@ufsc.br Ligia Maria Vettorato Trevisan Livre Docente Fundação para o Vestibular da UNESP ligiamvtrevisan@gmail.com Dalton Francisco de Andrade PhD, UNC at Chapel Hill, NC EUA Professor Voluntário, UFSC dandrade@inf.ufsc.br Heliton Ribeiro Tavares Doutor em Estatística, IME USP Professor Associado, UFPA heliton@ufpa.br Tania Cristina Arantes Macedo de Azevedo Doutora em Física, USP Professora Assistente, UNESP tmacedo@feg.unesp.br Resumo Este trabalho analisa a prova de conhecimentos gerais do vestibular da UNESP 2012, e o perfil dos avaliados dessa prova, através de modelos de teoria da resposta ao item unidimensional (TRI) e multidimensional (TRIM). Verificou se que, embora um modelo unidimensional ajustou se bem aos padrões de resposta dos itens, a prova e os avaliados são melhores representados por um modelo tridimensional, cujos traços latentes puderam ser identificados como Raciocínio Lógico, Compreensão de Texto e Conhecimento Específico de Inglês. E o posicionamento dos itens e de características dos avaliados no plano formado pelos eixos Raciocínio Lógico e Compreensão de Texto puderam gerar interpretações não evidenciadas na escala unidimensional. Palavras chave: Teoria da Resposta ao Item Multidimensional (TRIM). Posicionamento de itens. Vestibular da UNESP.

122 Pedro Alberto Barbetta, Ligia Maria Vettorato Trevisan, Dalton Francisco de Andrade, Heliton Ribeiro Tavares e Tania Cristina Arantes Macedo de Azevedo Abstract This paper analyzes the test of general knowledge of the vestibular UNESP 2012, and is showed the profile of the individuals. We used models of item response theory in the unidimensional and multidimensional approach (IRT and MIRT). It was found that a unidimensional model fitted well to the response patterns of the items, however the items and individuals are best represented by a three dimensional model whose latent traits could be identified as Logical Reasoning, Reading Comprehension and Specific Knowledge of English Language. Much information that has not appeared in the one dimensional scale has been observed in the multidimensional approach. Keywords: Multidimensional Response Item Theory (MIRT). Placement of items. Admission examination of UNESP. Introdução A prova de conhecimentos gerais do vestibular da UNESP, aplicada pela fundação VUNESP, é composta de 90 itens de múltipla escolha, envolve multidisciplinaridade incluindo conteúdos e competências, tal como preconizam os Parâmetros Curriculares Nacionais do Ensino Médio e a Matriz Curricular do Estado de São Paulo. Os candidatos selecionados nessa prova são classificados para a segunda etapa do vestibular. Pelas características da prova e dos avaliados, que inclui candidatos dos mais variados cursos de graduação, espera se que subjacente aos padrões de resposta haja uma estrutura multidimensional. Assim, procurou se ajustar modelos de teoria da resposta ao item unidimensional (TRI) e multidimensional (TRIM). Em geral, modelo de TRI unidimensional podem ser aplicados nas situações em que haja um fator dominante, o qual pode ser detectado por uma análise de componentes principais realizada sobre uma matriz de correlação apropriada das respostas dos itens, ou mesmo através da qualidade do ajuste do modelo. Por outro lado, os modelos multidimensionais permitem identificar os principais traços latentes presentes na prova e nos avaliados, permitindo uma análise mais rica. Este trabalho tem por finalidade avaliar o ajuste de modelos uni e multidimensionais da TRI na prova de conhecimentos gerais do vestibular da UNESP 2012, analisar os itens por escalas geradas por modelos uni e multidimensionais, posicionar nessas escalas o nível médio de avaliados dos cursos mais concorridos e evidenciar as diferentes interpretações práticas que podem ser obtidas pela TRI e pela TRIM. Um ajuste preliminar de modelo TRI foi feito com todos os avaliados em Mas a maior parte das análises baseou se numa amostra aleatória de avaliados que acertaram pelo menos vinte itens dentre os noventa. 114 Anais Nº 1, ano 2013, p

123 Análise da Prova de Conhecimentos Gerais do Vestibular da UNESP 2012 por Modelos Uni e Multidimensionais da Teoria da Resposta ao Item 1. Metodologia O modelo de TRI mais adotado em avaliação educacional é o logístico de três parâmetros (Andrade et al., 2000; Ayala, 2009). Por este modelo, a probabilidade de um avaliado j, com proficiência j, acertar o item i é dada por: p ij 1 ci (1 ci ) 1 e a i ( b ) j i sendo que os parâmetros a, b e c são relativos ao item; e o parâmetro está associado ao avaliado. Mais especificamente: a i representa a discriminação do item i; b i o nível de dificuldade do item i; c i a probabilidade de acerto casual do item i; e j o traço latente do avaliado j. A escala de medida do traço latente tem, supostamente, média 0 e desvio padrão 1, seguindo uma distribuição normal. O parâmetro de dificuldade, b, pode ser expresso na mesma escala de. Assim, um item com b = 2 pode ser considerado difícil e um item com b = 2 é fácil para um avaliado com proficiência mediana; da mesma forma, um indivíduo com = 2 tem alta proficiência e um indivíduo com = 2 baixa proficiência. O nível de discriminação a deve ser positivo, idealmente maior que 0,7. Quanto maior a, maior o nível de discriminação do item, porém não é realista a > 3 (ver detalhes em Andrade et al., 2000; Ayala, 2009). A Figura 1 representa, geometricamente, esses parâmetros para um item hipotético. Anais Nº 1, ano 2013, p

124 Pedro Alberto Barbetta, Ligia Maria Vettorato Trevisan, Dalton Francisco de Andrade, Heliton Ribeiro Tavares e Tania Cristina Arantes Macedo de Azevedo Figura 1 Curva representando a probabilidade de acerto de um item em função do traço latente. Os parâmetros a i, b i e c i dos itens e os parâmetros j dos avaliados são estimados objetivamente através de métodos estatísticos a partir das respostas dos avaliados e do modelo proposto. Com essas estimativas, os itens podem ser posicionados na escala, permitindo realizar uma interpretação pedagógica da mesma. É usual discretizar a escala do traço latente em intervalos de um desvio padrão e posicionar os chamados itens âncora nesses pontos (Andrade et al., 2000, p. 110). Neste trabalho os itens serão posicionados na escala contínua do traço latente na posição do parâmetro b. Numa prova multidimensional, em que há itens associados a várias habilidades ou proficiências, pode se ter uma dimensão dominante, que reflita alguma composição dessas habilidades ou proficiências presentes nos avaliados. Segundo Reckase (2009, p. 126), o parâmetro do modelo unidimensional da TRI pode representar uma composição de habilidades ou proficiências. Esta capacidade da TRI em captar uma composição de proficiências também foi verificada por Barbetta et al. (2011), analisando as respostas de um teste composto por itens de matemática e itens de linguagens e códigos de provas do ENEM. 116 Anais Nº 1, ano 2013, p

125 Análise da Prova de Conhecimentos Gerais do Vestibular da UNESP 2012 por Modelos Uni e Multidimensionais da Teoria da Resposta ao Item Um modelo usual de TRI multidimensional, ou TRIM, a probabilidade de um avaliado j, com traços latentes 1j, 2j,... Kj, acertar um item i é descrito por: p ij c i (1 c i ) 1 e 1 ( a1i 1 j a 2i 2 j... a Ki d ) Kj i Neste modelo, os parâmetros multidimensionais de discriminação e de dificuldade do item i são definidos, respectivamente, por: e Seguindo Reckase (2009), o item de um modelo TRIM pode ser posicionado na direção de maior inclinação da superfície de probabilidade de acerto, na posição em que a probabilidade de acerto atinja (c+1)/2 (ver Figura 2). As coordenadas deste ponto são: Observa se que para K = 1 (apenas um traço latente), a relação precedente pode ser escrita como = d/a = b, ou seja, o posicionamento proposto identifica se com o parâmetro de dificuldade do item. Figura 2 Posicionamento de um item no plano formado por dois traços latentes. Parâmetros do item: a1 = 1,55; a2 = 0,13; d = 1,84; c = 0,25. Anais Nº 1, ano 2013, p

126 Pedro Alberto Barbetta, Ligia Maria Vettorato Trevisan, Dalton Francisco de Andrade, Heliton Ribeiro Tavares e Tania Cristina Arantes Macedo de Azevedo As análises da prova do vestibular da UNESP (VUNESP, 2012) foram feitas com base numa amostra aleatória de avaliados que fizeram pelo menos vinte pontos no total de noventa, porém os parâmetros de dificuldade, c i, foram estimados com todos os avaliados e mantidos constantes nas demais análises. Em termos computacionais, as estimativas dos parâmetros c foram feitas com o software Bilog MG ( e o restante com o pacote mirt (Chalmers, 2013) do software livre R ( project.org). A função mirt desse pacote baseia se nos princípios desenvolvidos por Bock e Aitkin (1981) e Bock, Gibbons e Muraki (1988). 2. Dimensionalidade da prova O estudo da dimensionalidade baseou se na análise de componentes principais da matriz de correlação tetracórica (Figura 3) e análise fatorial de informação completa (Bock et al., 1988; Childs, 2000; Laros et al., 2000; Wirth, Edwards, 2007). Figura 3 Análise de componentes principais sobre a matriz de correlação tetracórica. Análise paralela baseada numa amostra n = Anais Nº 1, ano 2013, p

127 Análise da Prova de Conhecimentos Gerais do Vestibular da UNESP 2012 por Modelos Uni e Multidimensionais da Teoria da Resposta ao Item Observa se, na Figura 3, que a variância explicada por cada fator e a análise paralela (linha pontilhada) sugere que a prova é bi ou tridimensional, embora exista um fator dominante, permitindo o uso da TRI unidimensional. Ajustando modelos TRIM com diferentes dimensões e analisando as diferenças das estatísticas quiquadrado, ajustadas para uma amostra de tamanho 1.000, tem se a indicação de uma estrutura tridimensional. A Tabela 1 apresenta as cargas fatoriais baseadas num modelo unidimensional (F11) e num modelo tridimensional (F31, F32, F33). No modelo tridimensional, a porcentagem da variância explicada pelos fatores são, respectivamente, 17,4%; 8,4% e 7,6%; e as correlações corr(f31, F32) = 0,52; corr(f31, F33) = 0,71; corr(f32, F33) = 0,57. Tabela 1 Cargas fatoriais de uma análise fatorial de informação completa: modelo com um fator (F11) e com três fatores (F31, F32, F33), rotação oblimin. Item F11 F31 F32 F33 Item F11 F31 F32 F33 Item F11 F31 F32 F33 1 0,50 0,04 0,41 0, ,10 0,04 0,10 0, ,42 0,28 0,22 0,00 2 0,10 0,04 0,13 0, ,52 0,21 0,29 0, ,48 0,29 0,30 0,01 3 0,39 0,11 0,24 0, ,65 0,40 0,32 0, ,56 0,43 0,19 0,04 4 0,49 0,06 0,40 0, ,79 0,57 0,35 0, ,72 0,49 0,33 0,02 5 0,68 0,40 0,18 0, ,56 0,24 0,39 0, ,81 0,59 0,19 0,13 6 0,76 0,02 0,52 0, ,62 0,11 0,49 0, ,62 0,35 0,22 0,15 7 0,59 0,04 0,45 0, ,40 0,28 0,16 0, ,71 0,61 0,23 0,04 8 0,67 0,01 0,48 0, ,08 0,16 0,01 0, ,82 0,83 0,12 0,04 9 0,69 0,47 0,13 0, ,29 0,08 0,33 0, ,89 0,87 0,00 0, ,57 0,08 0,33 0, ,63 0,51 0,23 0, ,65 0,39 0,20 0, ,38 0,01 0,30 0, ,70 0,28 0,39 0, ,78 0,77 0,05 0, ,66 0,12 0,41 0, ,42 0,17 0,36 0, ,79 0,79 0,04 0, ,45 0,14 0,21 0, ,74 0,65 0,14 0, ,83 0,86 0,10 0, ,57 0,05 0,47 0, ,68 0,47 0,30 0, ,70 0,76 0,07 0, ,37 0,06 0,21 0, ,62 0,44 0,27 0, ,82 0,91 0,07 0, ,43 0,16 0,30 0, ,61 0,45 0,14 0, ,91 0,91 0,02 0, ,48 0,08 0,35 0, ,63 0,31 0,32 0, ,89 0,74 0,10 0, ,70 0,01 0,49 0, ,61 0,27 0,22 0, ,70 0,66 0,07 0, ,50 0,08 0,33 0, ,62 0,32 0,29 0, ,55 0,64 0,04 0, ,56 0,01 0,36 0, ,66 0,32 0,47 0, ,65 0,50 0,08 0, ,32 0,12 0,01 0, ,68 0,31 0,44 0, ,36 0,46 0,03 0, ,79 0,09 0,05 0, ,62 0,32 0,32 0, ,42 0,38 0,15 0, ,59 0,04 0,05 0, ,44 0,26 0,29 0, ,39 0,56 0,19 0, ,79 0,02 0,20 0, ,50 0,25 0,29 0, ,41 0,59 0,27 0, ,67 0,02 0,06 0, ,78 0,14 0,64 0, ,73 0,80 0,18 0, ,77 0,03 0,01 0, ,47 0,07 0,50 0, ,64 0,76 0,06 0, ,59 0,04 0,11 0, ,52 0,11 0,37 0, ,68 0,57 0,06 0, ,77 0,04 0,07 0, ,67 0,04 0,73 0, ,63 0,57 0,24 0, ,70 0,12 0,05 0, ,64 0,15 0,52 0, ,04 0,00 0,02 0, ,76 0,04 0,11 0, ,72 0,28 0,55 0, ,71 0,65 0,22 0,27 Nota: Descrição dos itens disponíveis em VUNESP (2012). Anais Nº 1, ano 2013, p

128 Pedro Alberto Barbetta, Ligia Maria Vettorato Trevisan, Dalton Francisco de Andrade, Heliton Ribeiro Tavares e Tania Cristina Arantes Macedo de Azevedo No modelo com três fatores, os fatores F31, F32 e F33 foram interpretados, respectivamente, como: F31 Raciocínio lógico + conhecimento específico F32 Compreensão de texto + conhecimento geral F33 Conhecimento específico de inglês A análise foi feita em temos do modelo unidimensional e do modelo tridimensional, mas no segundo caso, a análise limitou se aos dois primeiros eixos fatoriais (Raciocínio Lógico + Conhecimento Específico e Compreensão de texto + conhecimento geral). 3. Posicionamento dos itens baseado na TRI e na TRIM A Figura 4 toma como base o ajuste de modelo unidimensional da TRI (o modelo logístico de três parâmetros), com 40 itens com boa discriminação. Esses itens, destacados conforme seu conteúdo principal (ciências humanas; ciências da natureza e matemática; e linguagem e códigos) foram posicionados na escala de proficiência dos avaliados,. Figura 4 Posição de 40 itens no eixo de proficiência geral,, dos avaliados, por área de conhecimento do item. Observa se, na Figura 4, que os itens de Ciências da Natureza e Matemática estão posicionados em valores maiores da escala (itens mais difíceis). A figura também põe em evidência que as questões de Ciências Humanas se distribuem entre vários níveis 120 Anais Nº 1, ano 2013, p

129 Análise da Prova de Conhecimentos Gerais do Vestibular da UNESP 2012 por Modelos Uni e Multidimensionais da Teoria da Resposta ao Item da escala, caracterizando assim a faixa de maior amplitude entre as áreas que compõem a prova. A Figura 5 é baseada no ajuste de modelo tridimensional, mas considerando apenas os dois eixos de maior poder explicativo: Raciocínio Lógico + Conhecimento Específico e Compreensão de texto + conhecimento geral. E foram escolhidos para a apresentação os vinte itens com maior poder discriminação em cada um desses dois eixos (são os mesmos 40 itens apresentados na abordagem unidimensional Figura 4). Figura 5 Posição de 40 itens em dois eixos, 1 e 2, de um modelo tridimensional, por área de conhecimento do item. No plano bidimensional, os itens posicionados na parte de baixo e lado esquerdo (terceiro quadrante) são itens mais fáceis, itens posicionados na parte de cima e lado Anais Nº 1, ano 2013, p

130 Pedro Alberto Barbetta, Ligia Maria Vettorato Trevisan, Dalton Francisco de Andrade, Heliton Ribeiro Tavares e Tania Cristina Arantes Macedo de Azevedo direito (primeiro quadrante) são itens mais difíceis. Mas também, verificam se itens que se diferem em termos da compreensão de texto (conforme sua a posição vertical) e em termos de raciocínio lógico (conforme sua a posição horizontal). As questões 50 e 51, por exemplo, que estão posicionadas em níveis baixos nos dois eixos, praticamente não exigem conhecimento específico. Ambas as questões têm um texto bastante simples, acompanhado de gráfico (questão 50) e tabela (questão 51). Além disso, a redação das alternativas facilitou a identificação da resposta correta, não havendo surpresas no fato de que essas questões foram acertadas por mais de 92% dos avaliados (VUNESP, 2012). Já a questão 1, ainda que também se classifique como uma questão fácil, foi acertada por cerca de 88% dos avaliados, pois requer que o avaliado tenha capacidade de interpretar um texto além de organizar o raciocínio em termos de combinar afirmações corretas numa sequência de afirmações. A questão 84, posicionada mais a direita da Figura 5, é uma questão de Matemática com texto bastante direto, mas que exige conhecimento específico para interpretar a terminologia empregada na sua formulação e, além disso, o cálculo razoavelmente complexo para encontrar a solução correta, ou seja, exige do avaliado raciocínio lógico e conhecimento específico, por isto no ajuste do modelo de TRIM esse item posiciona se em valores altos do eixo 1. Foi acertada por cerca de 11% dos candidatos. As questões 35 e 65 posicionam se muito próximas quando se considera apenas uma medida geral de proficiência (Figura 4), mas se distanciam no plano da Figura 5. Essa característica é bastante coerente com a natureza das duas questões: a questão 35 é uma questão de História e a 65 de Biologia e solicitavam a leitura e a compreensão de textos da área, para selecionar, entre as alternativas propostas, o argumento que explicava corretamente a situação problema apresentada na questão. Ocorre que, na questão 65, ainda que a tarefa de compreender o texto fosse mais simples quando comparada à de História, a identificação do argumento correto requeria conhecimentos específicos de genética e de probabilidade. Desta forma, pode ser justificado o seu posicionamento no plano, um pouco abaixo da questão 35 (menor nível de compreensão de texto), o seu deslocamento para a direita (maior nível de 122 Anais Nº 1, ano 2013, p

131 Análise da Prova de Conhecimentos Gerais do Vestibular da UNESP 2012 por Modelos Uni e Multidimensionais da Teoria da Resposta ao Item raciocínio lógico) e também o resultado em termos de percentuais de acerto, em 42% e 34%, respectivamente. É interessante notar o comportamento das questões de números 7, (Língua Portuguesa), 43 (Geografia) e 72 ( Química). Como se pode constatar, seu posicionamento é muito próximo, tanto no eixo de proficiência geral dos avaliados (Figura1), quanto no plano dos dois eixos considerados de um modelo tridimensional (Figura 5). É muito provável que o fato de serem três questões que requeriam a compreensão de textos (tabela e mapa) para inferir informações neles contidas, contribua para a proximidade que se verifica nos resultados das duas metodologias empregadas na análise estatística. Portanto, não há que haver surpresa quanto aos percentuais de acerto nesses itens, que ficaram, nos três casos, ao redor de 60%, com ligeiro incremento de acerto na questão 7. Nesse item de Língua Portuguesa a informação a ser inferida estava implícita nas situações expostas em um texto, em Geografia a inferência se fazia com base na semelhança de cores de um mapa e em Química havia que analisar temperaturas anotadas em uma tabela para inferir os estados físicos das substâncias descritas na mesma tabela. Considerando ainda os dois métodos estatísticos empregados na análise da prova, o posicionamento de outro conjunto de itens pode ser analisado. Trata se das questões de números 64 (Biologia), 69, 73 (Química), 76 (Física) e 87 (Matemática). Na escala de proficiência geral (Figura 4) todos esse itens se posicionam muito próximos ao nível 1. No pano representado na Figura 5, pode se notar que, para as questões 69, 73, 76 e 87, aquela proximidade, ainda que com pequenas diferenças, se mantém tanto no eixo do raciocínio lógico, quanto no da compreensão de texto. Não é o que se verifica para o item 64, que agora se desloca para nível mais elevado no eixo da compreensão de texto. Se analisada a estrutura destas questões, o que se pode afirmar é que todas elas tratam de aferir capacidades de resolver problemas, utilizando conhecimento canceitual de cada uma das áreas para encontrar a resposta. No entanto, apenas a questão de Biologia (64) não demanda a aplicação de operações matemáticas e a escolha correta em um conjunto de alternativas expressas em números. Ela exige domínio de conhecimentos da linguagem específica da genética e é Anais Nº 1, ano 2013, p

132 Pedro Alberto Barbetta, Ligia Maria Vettorato Trevisan, Dalton Francisco de Andrade, Heliton Ribeiro Tavares e Tania Cristina Arantes Macedo de Azevedo elaborada com tal abrangência que só a compreensão global do texto apresentado em cada alternativa permite encontrar a resposta correta. 4. Perfil de cursos nos eixos da TRI e da TRIM Foram feitas estimativas das proficiências relativas aos modelos de TRI considerados (unidimensional e tridimensional). Considerando apenas os alunos classificados na referida prova (primeira etapa do vestibular), foram obtidas as médias dos candidatos de cada um dos vinte cursos mais concorridos. Neste contexto, na Figura 6 os cursos são posicionados na escala unidimensional (proficiência geral) e, na Figura 7, os cursos são posicionados nas escalas de Raciocínio Lógico e Compreensão de texto do modelo tridimensional. Figura 6 Proficiência geral média dos classificados em cada um dos vinte cursos mais procurados. Cabe observar que na Figura 6, embora haja três camadas (uma para cada área), tem se apenas uma medida de proficiência, descrita pelo eixo horizontal. 124 Anais Nº 1, ano 2013, p

133 Análise da Prova de Conhecimentos Gerais do Vestibular da UNESP 2012 por Modelos Uni e Multidimensionais da Teoria da Resposta ao Item Figura 7 Posição média dos classificados em cada um dos vinte cursos mais procurados, em termos de dois eixos do modelo tridimensional. Observe, por exemplo, que os cursos de Direito de Franca e Ciências Econômicas de Araraquara posicionam se próximos dos cursos de Engenharia na escala unidimensional (Figura 6), mas no plano da Figura 7, verifica se que os cursos de Engenharia exigem mais raciocínio lógico dos avaliados, mas ainda assim não superam as exigências do Curso de Medicina. E o curso de Direito diurno, além de exigir capacidades de compreensão de texto muito mais desenvolvidas que os demais cursos da área incluídos na análise, requer habilidades associadas ao raciocínio lógico comparáveis às dos alunos classificados no Curso de Engenharia Elétrica de Bauru. Nota se também pela Figura 6, que a proficiência geral dos alunos classificados para o bacharelado em Química de Araraquara, em Farmácia/Bioquímica de Araraquara e em Veterinária de Araçatuba é praticamente a mesma. O modelo multidimensional explicita Anais Nº 1, ano 2013, p

134 Pedro Alberto Barbetta, Ligia Maria Vettorato Trevisan, Dalton Francisco de Andrade, Heliton Ribeiro Tavares e Tania Cristina Arantes Macedo de Azevedo muito melhor essa proximidade; de fato, o traço do raciocínio lógico é equivalente para Química e Farmácia, discretamente mais baixa para Veterinária, em compensação, na compreensão de texto, tem se o fator que diferencia definitivamente os classificados dos três cursos: no eixo da compreensão de texto, Farmácia/Bioquímica e Veterinária estão em posição mais avançada do que a Química. Entre os Cursos de Humanas, chama a atenção o posicionamento dos classificados em Ciências Econômicas Araraquara, muito mais próximos dos classificados em Direito do que dos classificados em Administração (Jaboticabal e Araraquara). Até onde se podem analisar, os classificados em Ciências Econômicas são os melhores candidatos classificados entre os cinco cursos do campus de Araraquara que figuram na relação dos vinte mais concorridos da UNESP. 5. Fatores associados A Figura 8 apresenta no plano formado pelos eixos de Raciocínio Lógico + Conhecimento Específico e Compreensão de texto + conhecimento geral, o posicionamento médio dos avaliados separados por modalidade da escola em que fizeram o ensino médio, por faixa etária e por sexo. Figura 8 Posição média dos avaliados em dois eixos do modelo tridimensional, conforme características dos avaliados e da escola. 126 Anais Nº 1, ano 2013, p

135 Análise da Prova de Conhecimentos Gerais do Vestibular da UNESP 2012 por Modelos Uni e Multidimensionais da Teoria da Resposta ao Item Verifica se que a modalidade da escola de ensino médio é um forte fator, tanto em Raciocínio Lógico quanto em Compreensão de Texto. Alunos com 20 anos ou mais também se posicionam em níveis maiores dos dois eixos, mas os avaliados do sexo masculino diferem se dos avaliados do sexo feminino, basicamente, no eixo de Raciocínio Lógico: avaliados do sexo masculino posicionam se em níveis maiores desse eixo. Conclusões A prova de conhecimentos gerais do vestibular da UNESP pode ser considerada com três dimensões, com traços latentes interpretados por: Raciocínio Lógico (incluindo conhecimentos específicos), Compreensão de Texto (incluindo conhecimentos gerais) e Conhecimento Específico de Inglês. Embora um modelo unidimensional ajustou se bem aos padrões de resposta dos itens, a prova e os avaliados são melhores representados por um modelo tridimensional, donde interpretações não evidenciadas na escala unidimensional puderam ser feitas. A escolha entre modelo uni e multidimensional da TRI depende das características da prova (ou instrumento de medida baseado em itens) e dos avaliados (ou indivíduos respondentes). Mas, depende também dos objetivos da análise. No caso da prova de conhecimentos gerais do vestibular da UNESP, houve bom ajuste do modelo unidimensional e do modelo tridimensional. No unidimensional pode se identificar um traço latente de proficiência genérica, bastante relevante para o objetivo da prova de classificar avaliados para uma segunda fase do vestibular. Já no modelo multidimensional pode se compreender melhor as diferenças entre os itens, além de características dos avaliados, como o curso pretendido pelos aprovados na primeira fase. Agradecimentos À Fundação para o Vestibular da UNESP Vunesp, pela cessão dos resultados do Vestibular Unesp 2012 primeira fase; e pelas bolsas concedidas aos professores Dalton, Héliton e Pedro para o desenvolvimento de pesquisas em avaliação educacional. Anais Nº 1, ano 2013, p

136 Pedro Alberto Barbetta, Ligia Maria Vettorato Trevisan, Dalton Francisco de Andrade, Heliton Ribeiro Tavares e Tania Cristina Arantes Macedo de Azevedo Referências bibliográficas Andrade D.F.; Tavares, H.R.; Valle, R.C. (2000) Teoria da Resposta ao Item: Conceitos e Aplicações. São Paulo: Associação Brasileira de Estatística. Ayala, R.J. (2009) The Theory and Practice of Item Response Theory. New York: The Guilford Press. Barbetta, P.A.; Andrade, D.F.;Borgatto, A.F. (2011) Análise de provas do ENEM segundo modelos de TRI multidimensionais. CONBRATRI II, Salvador BA. Bock, R. D.; Aitkin, M. (1981). Marginal maximum likelihood estimation of item parameters: Application of an EM algorithm. Psychometrika, 46(4), Bock, R. D., Gibbons, R. e Muraki, E. (1988). Full Information Item Factor Analysis.Applied Psychological Measurement, 12(3), Chalmers, P. (2013) Package mirt: Multidimensional Item Response Theory. Version 9.0 < project.org/web/packages/mirt/mirt.pdf> Childs, R. A.; Oppler, S. H. (2000) Implication of test dimensionality for unidimensional IRT scoring: An investigation of a High Stake Testing Program. Education and Psychological Measurement, 60, p Laros, J. A.; Pasquali, L.; Rodrigues, M. M. M. (2000) Análise da unidimensionalidade das provas do SAEB. RelatórioTécnicodo CPAE UnB. Reckase, M. (2009) Multidimensional Item Response Theory. USA: Springer. VUNESP (2012) Relatório vestibular UNESP < Wirth, R.J.; Edwards, M.C. (2007) Item factor analysis: Current approaches and future directions. Psychological Methods, 12, Recebido em: 03/11/2013 Avaliado em: 25/11/ Anais Nº 1, ano 2013, p

137 Teoria da Resposta ao Item: levantamento exploratório da produção científica Item Response Theory: exploratory survey of scientific production Rafael Bernardo de Castro Graduando de Engenharia de Produção Mecânica, UFSC Pesquisador do Laboratório de Gestão e Avaliação Ambiental LGAA, UFSC rafaelbcastro@hotmail.com Thiago Henrique Silva dos Santos Graduando de Engenharia de Produção Elétrica, UFSC Bolsista do Programa Ciências sem Fronteira na Budapest University of Technology and Economics (BME) thihenriquee@gmail.com Andréa Cristina Trierweiller Pós Doutoranda em Engenharia de Produção, UFSC Pesquisadora do Programa de Pós Graduação em Engenharia de Produção, UFSC andreatri@gmail.com Lucila M. S. Campos Doutora em Engenharia de Produção, UFSC Professora do Departamento de Engenharia de Produção e Sistemas, UFSC lucila.campos@ufsc.br Antonio Cezar Bornia Doutor em Engenharia de Produção, UFSC Professor do Departamento de Engenharia de Produção e Sistemas, UFSC cezar.bornia@gmail.com Resumo Este artigo tem como objetivo analisar a publicação sobre o tema Teoria da Resposta ao Item (TRI) em periódicos científicos publicados em língua portuguesa para, a partir desse levantamento, identificar oportunidades de pesquisa. Trata se de um levantamento bibliográfico, que recorre a recursos tecnológicos para indexação dos artigos por meio do software Endnot 5 (trial) e do software Ucinet 6 (trial) para a construção do mapa de palavraschave. Procedeu se a uma análise sistêmica com a identificação de características de interesse relativas à TRI. Dentre os resultados, tem se: o número de publicações por autor; os 5 artigos mais citados ao longo do tempo por autores diversos; número de publicações a cada ano; número de artigos por universidade/organização; assuntos mais abordados e os respectivos autores e mapa de palavras chave. A TRI tem sido aplicada em diversas áreas no Brasil, como por exemplo: na educação, com o Exame Nacional do Ensino Médio, na psicologia com as avaliações psicológicas e ainda, na administração e engenharia com a análise de questões organizacionais sob diversas perspectivas, marketing, disclosure da gestão ambiental, dentre outras. Este artigo contribuiu para vislumbrar o panorama da produção acadêmica sobre a TRI e consolidar a importância dos estudos neste tema. Palavras chave: Teoria da Resposta ao Item. TRI. Bibliometria.

138 Rafael Bernardo de Castro, Thiago Henrique Silva dos Santos, Andréa Cristina Trierweiller, Lucila M. S. Campos e Antonio Cezar Bornia Abstract This article aims to analyze the publication on the topic Item Response Theory (IRT) in scientific journals published in Portuguese to identify research opportunities. It is a literature research which uses technological resources in order to index articles with the softwares Endnot 5 (trial version) and Ucinet 6 (trial version) for the construction of a map of keywords. A systemic analysis has been applied with the identification of characteristics of interest relating to Item Response Theory. We found some conclusions through of the following results: number of publications by author; the five most cited articles and authors over time by various authors; number of publications per year, and per University/organization; most addressed issues and the respective authors; map of keywords. The IRT has been applied in several areas in Brazil, for example: in education with the National High School Exam; in psychology with psychological evaluations; and also in administration and engineering to the analysis of organizational issues from different perspectives as marketing, disclosure of environmental management, among others. This article contributed to envision the landscape of scholarship on the IRT and consolidate the importance of studying this subject. Keywords: Item Response Theory. IRT. Bibliometrics. Introdução A Teoria da Resposta ao Item (TRI) tem sido utilizada, cada vez mais, em diferentes áreas do conhecimento com diversas aplicações. No Brasil, destacam se as áreas da psicologia e educação, sendo utilizada no Sistema Nacional de Avaliação da Educação Básica (SAEB) e Exame Nacional do Ensino Médio (ENEM). Portanto, levantamentos exploratórios para analisar a produção dos pesquisadores em periódicos científicos são relevantes, permitindo vislumbrar um panorama sobre o tema em estudo, neste caso, a TRI. A produção científica no Brasil tem passado por incrementos, tendo como um de seus motivos, a expansão dos cursos de pós graduação e a consequente exigência por produtividade, decorrentes da Coordenadoria de Aperfeiçoamento do Ensino Superior (CAPES). Dessa forma, levantamentos de referencial teórico (a exemplo de estudos bibliométricos) são fundamentais para situar os pesquisadores quanto à produção científica sobre o tema. Nesse sentido, este artigo tem o objetivo de analisar a publicação sobre o tema em periódicos científicos, em língua portuguesa, para, a partir desse levantamento, identificar oportunidades de pesquisa no tema. O artigo está estruturado da seguinte forma: (1) Introdução; (2) Metodologia; (3) Resultados e comentários; (4) Conclusões e (5) Referências. 130 Anais Nº 1, ano 2013, p

139 Teoria da Resposta ao Item: levantamento exploratório da produção científica 1. Metodologia Trata se de uma pesquisa bibliográfica, que utiliza recursos tecnológicos para identificação, seleção, indexação e tratamento estatístico dos artigos científicos com a utilização dos softwares EndNote 5 e Ucinet 6 (versões trial) (BORGATTI; EVERETT; FREEMAN, 2002). A busca ocorreu em 4 etapas, conforme a Figura 1: Figura 1 - Etapas da busca de dados. Fonte: Elaborada pelos autores. Essas etapas são detalhadas a seguir: (a) Inicialmente fez se a busca nas bases SciELO e Scopus (com artigos nacionais e internacionais), porém após uma análise mais aprofundada, decidiu se consultar o portal de Periódicos Capes, por ser um metabuscador, pois concentra em um único portal a busca em várias bibliotecas de todo o mundo. Na pesquisa preliminar para definição das chaves de busca, decidiu se focar na gestão ambiental, além da Teoria de Resposta ao Item. Com isso, concluiu se que, as palavras mais adequadas que se enquadravam no tema eram: Item Response Theory ; Environmental Management ; Sustainability ; Teoria da Resposta ao Item ; Teoria de Resposta ao Item ; Gestão Ambiental ; e, Sustentabilidade. Porém, após análise mais aprofundada sobraram apenas dois artigos em inglês, ou seja, um portfólio inviável para uma bibliometria. Para uma segunda rodada de busca foram redefinidas as palavras, focando se na TRI, visando aprofundar o levantamento de referencial teórico com o uso de software de indexação bibliográfica. Com isso, as novas palavras de busca foram Teoria da Resposta ao Item e Teoria de Resposta ao Item, originando 54 artigos. (b) Na segunda etapa, houve a importação e um primeiro tratamento dos artigos no EndNote 5 (trial). Quando possível essa importação foi feita pelo próprio site das bases, quando não, foi via Google Acadêmico. Referente ao tratamento das informações provenientes destes artigos foi computado os dados relacionados à autoria, título, ano de publicação, número de citações, palavras chave e Anais Nº 1, ano 2013, p

140 Rafael Bernardo de Castro, Thiago Henrique Silva dos Santos, Andréa Cristina Trierweiller, Lucila M. S. Campos e Antonio Cezar Bornia periódico. Após análise no EndNote 5 (trial), verificou se que haviam 10 artigos repetidos, 3 não foram encontrados, 2 foram publicados antes de 2000, portanto, não englobam o escopo dessa pesquisa, e 8 artigos não tinham aderência com o objetivo do projeto, obtendo se assim, 31 artigos. (c) Nessa próxima etapa, houve a leitura dos títulos e resumos dos artigos para formar uma base inicial, a leitura integral dos artigos mais relevantes, a recuperação dos artigos na base de dados (repescagem) e definição final do portfólio utilizando. (d) Para finalizar, houve a construção dos gráficos, mapa de palavras chave e identificação de tendências nos artigos do portfólio, utilizando os softwares Ucinet 6 (trial) e Microsoft Excel. 2. Resultados e comentários Neste tópico estão os resultados do tratamento dos dados realizado principalmente nos artigos do portfólio, com a apresentação de tabelas e gráficos que demonstram: (a) o número de publicações por autor; (b) os 5 artigos mais citados ao longo do tempo por autores diversos (obtidos a partir do google acadêmico); (c) número de publicações a cada ano; (d) número de artigos por universidade/organização; (e) assuntos mais abordados e os respectivos autores e (f) mapa de palavras chave. Primeiramente, apresenta se o número de publicações por autor, considerando os artigos do portfólio. Autores Tabela 1 Número de publicações por autor Número de Publicações ANDRADE, D.F. 3 PRIMI, R. 3 SANTOS, A.A.A. 3 SOARES, J.F. 3 SOARES, T.M. 3 VENDRAMINI, C.M.M. 3 FRANCISCO, C. 2 KLEIN, R. MACHADO, S.T. MIGUEL, F.K. MUNIS, M. NORONHA, A.P.P. RIBEIRO, R.B. VIEIRA, M.J. Fonte: Os autores Anais Nº 1, ano 2013, p

141 Teoria da Resposta ao Item: levantamento exploratório da produção científica A Tabela 2 apresenta os 5 artigos mais citados ao longo do tempo por autores diversos, obtidos a partir do google acadêmico. Autores Tabela 2 5 artigos mais citados ao longo do tempo por autores diversos Número de Artigos Citações ALBUQUERQUE, A.S.; TRÓCCOLI, B.T. Desenvolvimento de uma escala de bem estar subjetivo 171 SANTOS, A.A.A.; PRIMI, R.; TAXA, F.O.S.; VENDRAMINI, C M.M. SOARES, J.F.; ANDRADE, R.J. O teste de Cloze na avaliação da compreensão em leitura Nível socioeconômico, qualidade e equidade das escolas de Belo Horizonte ALEXANDRE, J.W.C.; ANDRADE, D.F.; VASCONCELOS, A.P.; ARAÚJO, A.M.S. Uma proposta de análise de um construto para medição dos fatores críticos da gestão pela qualidade por intermédio da Teoria da Resposta ao Item 27 ANDRIOLOA, W.B Fonte: Elaborada pelos autores Descrição dos Principais Métodos para Detectar o Funcionamento Diferencial dos Itens (DIF) 20 A Figura 2 mostra o número de publicações a cada ano. Figura 2 Número de publicações a cada ano. Fonte: Elaborada pelos autores Destaca se que, entre os anos de 2001 a 2006 o número de publicações sobre o tema foi baixo, o que pode ser reflexo dos estudos sobre a TRI serem recentes no Brasil. Já, a partir de 2007, observa se um incremento significante no número de publicações, em 2009 houve o maior número de publicações. Anais Nº 1, ano 2013, p

142 Rafael Bernardo de Castro, Thiago Henrique Silva dos Santos, Andréa Cristina Trierweiller, Lucila M. S. Campos e Antonio Cezar Bornia A Tabela 3 mostra o número de artigos por universidade/organização. Tabela 3 Número de artigos por universidade/organização Número publicações por universidade Universidades/Organização Estado 6 Universidade São Francisco SP 5 5 Universidade Federal de Minas Gerais Universidade Federal do Ceará MG CE 3 Universidade Federal de Juiz de Fora MG Fundação CESGRANRIO Ray Human Capital Universidade de São Paulo RJ Lisboa SP 10 Outros Outros* Fonte: Os autores. *Outros: DF (2), RS (2), SC (1), PR (1), Portugal (1), Espanha (2), Inglaterra (1). Considerou se a universidade do primeiro autor. Pode se observar na Tabela 3 que há ainda muitas oportunidades para ampliação das pesquisas e publicações com a utilização da TRI, uma vez que o número de publicações por universidade não é tão alto e estas, estão concentradas em algumas instituições. Os assuntos mais abordados e os respectivos autores são listados na Tabela 4: Tabela 4 Assuntos mais abordados e autores nos artigos considerando o portfólio e outros estudos pesquisados Assuntos mais abordados Número de artigos relativos ao assunto Educação 1. Vieira; Ribeiro; Almeida (2009) 2. Vendramini et al (2004) 3. Klein (2009) 4. Rodriguez et al (2007) 5. Albuquerque; Tróccoli (2004) 6. Franco, Brooke, Alves (2008) 7. Soares, Andrade (2006) 8. Klein, Fontanive (2009) 9. Ortigão (2009) 10. Mesquita et al (2007) 11. Luciane et al (2011) 12. Alves, Soares (2007) 13. Soares (2009) (Continuação) 134 Anais Nº 1, ano 2013, p

143 Teoria da Resposta ao Item: levantamento exploratório da produção científica (Continuação) Assuntos mais abordados Número de artigos relativos ao assunto Psicologia 1. Vieira; Ribeiro; Almeida (2011) 2. Santos et al. (2002) 3. Muniz et al. (2009) 4. Nunes et al. (2010) 5. Batista et al. (2010) 6. Wechsler; Vendramini; Schelini (2007) 7. Mendoza; Abad; Lelé (2005) 8. Castro; Trentini; Riboldi (2008) 9. Vargas et al. (2008) Engenharias/Administração 1. Bayley (2001) 2. Singh (2004) 3. Pereira, Pinto (2011) 4. Trierweiller et al. (2011) 5. Tezza et al., Vey (2011) 7. Balbim (2010) Fonte: Elaborada pelos autores A partir da Tabela 4, pode se observar que, a TRI está sendo aplicada em varias áreas do conhecimento como educação e psicologia, sendo que do portfólio analisado, a educação predominou. Percebe se que, a TRI é uma ferramenta importante que por meio dos modelos propostos, permite análises com diferentes abrangências e isto vem sendo utilizado no Sistema Nacional de Avaliação da Educação Básica, como exposto por Klein (2009) que apresenta os modelos utilizados nos SAEB/95, SAEB/97, SAEB/99 e SAEB/2001. O artigo introduz a Teoria da Resposta ao Item (TRI) em sua forma usual de um único grupo e para grupos múltiplos e explica como a TRI para grupos múltiplos está sendo utilizada no Sistema SAEB para a calibração dos itens e para a obtenção de uma escala única, por disciplina, para as proficiências dos alunas das 4ª e 8ª séries do Ensino Fundamental e para a 3ª série do Ensino Médio, para os SAEB s, a partir de Outro estudo interessante foi na aplicação da TRI para propor uma nova maneira de avaliar as competências escritoras na redação do ENEM (KLEIN; FONTANIVE, 2009). O artigo apresenta um estudo realizado com a correção da redação do ENEM 2008, adotando se uma nova forma de avaliar o domínio das competências escritoras do Anais Nº 1, ano 2013, p

144 Rafael Bernardo de Castro, Thiago Henrique Silva dos Santos, Andréa Cristina Trierweiller, Lucila M. S. Campos e Antonio Cezar Bornia exame. Procura se apresentar uma maneira diferente de interpretar as escalas das notas atribuídas à redação do ENEM, aplicando a metodologia de interpretação de escalas para itens polítomos. Essa interpretação foi feita para as escalas das notas e uma escala de proficiências obtida pela TRI. Os autores pretendem, com o trabalho realizado, a introdução da TRI na análise de redações, como as do ENEM. Já, na área de psicologia, Vieira, Ribeiro e Almeida (2009) analisam o teste Padrões aplicado a candidatos do Curso de Pilotagem Aeronáutica da Academia da Força Aérea Portuguesa. O teste Padrões é um teste de múltipla escolha informatizado que permite a avaliação do construto dependência independência de campo, tendo a singularidade de permitir que o sujeito visualize a figura alvo enquanto está tentando resolver o item (VIEIRA; RIBEIRO; ALMEIDA, 2009). Como o teste é feito com base no uso de computador, havia uma boa base de dados para estudar o comportamento psicométrico dos modelos logísticos da TRI, assim, foi estudado os modelos de 1,2 e 3 parâmetros logísticos na análise dos itens da prova Padrões, ilustrando assim, a aplicabilidade que a Teoria de Resposta ao Item pode ter, na validação e reestruturação das mais diversas provas. Na área de administração, há grande aplicabilidade da TRI no campo de Marketing como abordado por Pereira, Pinto (2011), Bayley (2001), Singh (2004). Pereira e Pinto (2011) conduzem uma aplicação prática da TRI em um estudo envolvendo a escala de orientação de mercado (Escala MikTor), com o intuito de verificar a aplicabilidade da TRI nos estudos de marketing. Ainda, considerando as áreas de engenharia e administração, tem se o estudo de Trierweiller et al. (2013) em que foi elaborado um conjunto de itens relacionado ao disclosure da gestão ambiental (Environmental Management Disclosure EMD) junto a 638 empresas brasileiras e assim, foi criada uma escala para avaliação do traço latente, no caso o EMD, dessas empresas, tendo sido utilizado o modelo logístico de 2 parâmetros. Outra aplicação com o uso da TRI é feita por Tezza (2011), que avalia a usabilidade de sites de e commerce. Após essas considerações sobre a aplicabilidade da TRI nas áreas de educação, psicologia, engenharias e administração, retoma se a apresentação dos resultados com 136 Anais Nº 1, ano 2013, p

145 Teoria da Resposta ao Item: levantamento exploratório da produção científica foco quantitativo. A Tabela 5 mostra a frequência que as palavras chave aparecem nos artigos do portfólio. Tabela 5 Algumas palavras chave e frequência que aparecem no portfólio (conjunto de 112 palavras) Palavras chave Frequência Teoria da Resposta ao Item 9 TRI 5 Funcionamento diferencial do item 3 Validação 2 Técnica de Cloze 2 Inteligência 2 Efeito escola 2 Dependência Independência de campo 2 Fonte: Elaborada pelos autores Quanto ao Mapa de Palavras Chave, a metodologia adotada para a construção (Figura 3) foi formar a rede com as palavras chave que aparecem com maior frequência nos artigos em português. Figura 3 Mapa de Palavras Chave. Fonte: Elaborada pelos autores A Figura 3 apresenta o mapa de palavras chave construído a partir do software Ucinet 6 (trial) (BORGATTI; EVERETT; FREEMAN, 2002). As palavras chave Teoria da Resposta ao Item e TRI tiveram mais interligações no mapa. Observa se que, a palavra com menos interligações foi Técnica de Cloze, que é consequência de se ter Anais Nº 1, ano 2013, p

146 Rafael Bernardo de Castro, Thiago Henrique Silva dos Santos, Andréa Cristina Trierweiller, Lucila M. S. Campos e Antonio Cezar Bornia apenas um artigo abordando esta técnica; sendo este, o trabalho de Santos et al. (2002), que abordaram o Teste de Cloze na Avaliação da Compreensão em Leitura. Conclusões O objetivo deste estudo foi analisar a publicação sobre a Teoria da Resposta ao Item em periódicos científicos em língua portuguesa para, a partir desse levantamento, identificar oportunidades de pesquisa no tema. Destaca se que, o foco de análise foram os artigos que abordavam o tema no período de 2001 a 2012, tendo sido identificadas oportunidades de pesquisa. Observou se que, a TRI pode ser aplicada nas mais diversas áreas do conhecimento. Entretanto, vem sendo mais utilizada na educação e psicologia. Constatou se que, o número de publicações por universidade não é tão alto, estando concentradas em algumas instituições, o que demonstra o potencial que o tema tem de ser explorado. Como limitações deste artigo, deve se considerar que os critérios bibliométricos utilizados estão ligados às escolhas de busca, originalmente definidas pelos pesquisadores, como o período selecionado, por exemplo. Quanto aos trabalhos futuros para refinamento da seleção de referencial teórico sobre o tema, sugere se realizar uma análise qualitativa dos autores citados nos artigos do portfólio (nas referências de cada artigo). Assim, maior aprofundamento pode ser dado ao estudo, contribuindo para ampliar as oportunidades de pesquisa no tema. Enfim, o desenvolvimento deste artigo, contribuiu para vislumbrar o panorama da produção acadêmica sobre a Teoria da Resposta ao Item, bem como consolidar a importância dos estudos neste tema. Referências Albuquerque, A.S.; Tróccoli, B.T. (2004); Desenvolvimento de uma escala de bemestar subjetivo, Psicologia: teoria e pesquisa, 20(2), Alexandre, J. W. C.; Andrade, D. F. D.; Vasconcelos, A. P. D.; & Araujo, A. M. S. D. (2002). Uma proposta de análise de um construto para medição dos fatores críticos 138 Anais Nº 1, ano 2013, p

147 Teoria da Resposta ao Item: levantamento exploratório da produção científica da gestão pela qualidade por intermédio da Teoria da Resposta ao Item. Gestão e Produção, 9(2), Alves, M. T. G., & Soares, J. F. (2007). As pesquisas sobre o efeito das escolas: contribuições metodológicas para a sociologia da educação. Sociedade e Estado, Brasília, 22(2), Andriola, W. B. (2001). Descrição dos principais métodos para detectar o funcionamento diferencial dos itens (DIF). Psicologia: Reflexão e Crítica,14(3), Araújo, E.A.C.; Andrade, D. F.; Bortolotti, S. L. V. (2009). Teoria da Resposta ao Item. Revista da Escola de Enfermagem da USP, 43, Balbim Junior, A. Avaliação da satisfação de clientes de bancos comerciais utilizando a teoria da resposta do item. (2010). 158 p. Dissertação (Mestrado) Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós Graduação em Engenharia de Produção, Florianópolis. Batista, M. H. E.; Bittencourt, J. R.; Barbosa, J. L. V.; & Pinto, S. C. (2010). Um Modelo para Geração de Perfis de Usuários Baseado em Técnicas de Psicometria. Revista Brasileira de Informática na Educação, 17(03), 25. Bayley, S. (2001). Measuring customer satisfaction. Evaluation Journal of Australasia, 1(1), Borgatti, S. P.; Everett, M. G.; Freeman, L. C. (2002). Ucinet for Windows: Software for social network analysis. Harvard, MA: Analytic Technologies, Disponível em: < Acesso em fev Castro, S.M.J. (2010). Teoria da resposta ao item: aplicação na avaliação da intensidade de sintomas depressivos. Revista Brasileira de Epidemologia, 13(3). Ceccato, M. D. G. B.; Acurcio, F. A.; Bonolo, P. F.; Guimarães, M. D. C. (2008). Compreensão da terapia anti retroviral: uma aplicação de modelo de traço latente. Cad. saúde pública, 24(7), Fidalgo, Á. M.; Scalonb, J. D. (2012). Uso dos métodos Mantel Haenszel para a detecção do funcionamento diferencial dos itens e software relacionado. Psicologia: Reflexão e Crítica, 25(1), Mendoza, C. E.F; Abad, F. J.; Lelé, A. J. (2005). Análise de itens do desenho da figura humana: aplicação de TRI. Psicologia. Teoria e pesquisa, 21(2), Franco, C.; Brooke, N.; Alves, F. (2008). Estudo Longitudinal sobre Qualidade e Equidade no Ensino Fundamental Brasileiro (GERES 2005). Ensai:o Avaliação e Políticas Públicas em Educação, 16(61), Anais Nº 1, ano 2013, p

148 Rafael Bernardo de Castro, Thiago Henrique Silva dos Santos, Andréa Cristina Trierweiller, Lucila M. S. Campos e Antonio Cezar Bornia Klein, R. (2009). Utilização da teoria de resposta ao item no Sistema Nacional de Avaliação da Educação Básica (Saeb). Revista Meta: Avaliação,1(2), Klein, R.; Fontanive, N. (2009). Uma nova maneira de avaliar as competências escritoras na redação do ENEM. Ensaio: Avaliação e Políticas Públicas em Educação, 17(65), 0 0. Luciane, K. (2011). Considerações acerca da compreensão em leitura no ensino superior. Psicologia: Ciência e Profissão, 31(4), Oliveira, L. K. M; Franco, C.; Soares, T.M. (2007). Projeto GERES/2005: novos Indicadores para Construção e Interpretação da Escala de Proficiência. REICE: Revista Electrónica Iberoamericana sobre Calidad, Eficacia y Cambio en Educación, 5(2), Muniz, M. (2009). Comparação entre dois sistemas de pontuação para o teste informatizado de percepção de emoções em fotos. Estudos de Psicologia, 26(1), Ortigão, M. I. R. (2009). A Sala de Aula de Matemática: avaliação das práticas docentes. Bolema: Boletim de Educação Matemática, 22(33). Pereira, D.R.M.; Pinto, M.R. (2011). A Teoria da Resposta ao Item: possíveis contribuições aos estudos em marketing. Gestão & Produção, 18(4), Pérez Nebra, A. R.; Torres, C. V. (2010). Medindo a imagem do destino turístico: uma pesquisa baseada na teoria de resposta ao item. Revista de Administração Contemporânea, 14(01), 80. Properties, P. (2010). Escala Fatorial de Socialização Versão Reduzida: Seleção de Itens e Propriedades Psicométricas. Psicologia: Reflexão e Crítica, 23(2), Samejima, F. (1969). Estimation of latent ability using a response pattern of graded scores. Psychometrika (17). Monograph supplement, n4, p2. Santos, A. A. A.; Primi, R.; Taxa, F. O. S.; Vendramini, C. M. M. (2002). O Teste de Cloze na avaliação da compreensão em leitura. Psicologia: reflexão e crítica, 15(3), Miranda, B. S; Neto, J. G. M; Paixao, L. A. R (2007). Aplicação do modelo de crédito parcial generalizado na avaliação do projeto SESI por um brasil alfabetizado. REICE: Revista Electrónica Iberoamericana sobre Calidad, Eficacia y Cambio en Educación, 5(2), Singh, J. (2004). Tackling measurement problems with Item Response Theory: Principles, characteristics, and assessment, with an illustrative example. Journal of Business Research, 57(2), Anais Nº 1, ano 2013, p

149 Teoria da Resposta ao Item: levantamento exploratório da produção científica Sisto, F. F.; Santos, A. A. A. D.; Noronha, A. P. P. (2007). Estudo sobre a dimensionalidade do teste R1 Forma B. Psicologia em Estudo, 12(1), Soares, J. F. (2009). Índice de desenvolvimento da educação de são Paulo idesp. São Paulo Perspec, 23(1), Soares, J. F.; Andrade, R. D. (2006). Nível socioeconômico, qualidade e eqüidade das escolas de Belo Horizonte. Ensaio: avaliação e políticas públicas em educação, 14(50), Soares, T. M.; Fernandes, N. S; Ferraz, M. S. B; Riani, J. L. R. (2010). A expectativa do professor e o desempenho dos alunos. Psicologia: teoria e pesquisa, 26(1), Soares, T. M.; Gamerman, D.; Gonçalves, F. B. (2007). Análise bayesiana do funcionamento diferencial do item. Pesquisa Operacional, 27(2), Tezza, R.; Bornia, A. C.; Andrade, D. F. D. (2011). "Measuring web usability using item response theory: Principles, features and opportunities. Interacting with Computers, 23(2), Trierweiller, A. C., Severo Peixe, B. C., Tezza, R., Bornia, A. C., & Campos, L. M. S. (2013). Measuring environmental management disclosure in industries in Brazil with Item Response Theory. Journal of Cleaner Production, 47(0), Vargas, V. D. C.; Selig, P. M.; Andrade, D. F.; Ribeiro, J. L. D. (2008). Avaliação dos intangíveis: uma aplicação em capital humano. Gestão & Produção, 15(3), Vendramini, C. M. M.; Silva, M. D.; Canale, M. (2004). Análise de itens de uma prova de raciocínio estatístico. Psicologia em Estudo, 9(3), Vey, I.H. (2011). Avaliação de desempenho logístico no serviço ao cliente baseada na teoria da resposta ao item. 275 p. Tese (Doutorado) Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós Graduação em Engenharia de Produção, Florianópolis. Vieira, M. J.; Ribeiro, R. B.; Almeida, L.; Primi, R. (2011). Comparação de modelos da Teoria de Resposta ao Item (TRI) na validação de uma prova de dependênciaindependência de campo. Avaliação Psicológica, 10(1), Vieira, M. J.; Ribeiro, R. B.; Almeida, L. S. (2009). As potencialidades da Teoria de Resposta ao Item na validade dos testes: Aplicação a uma prova de dependênciaindependência de campo. Análise Psicológica, 27(4), Wechsler, S. M.; Vendramini, C. M. M.; Schelini, P. W. (2007). Adaptação brasileira dos testes verbais da Bateria Woodcock Johnson III. Revista Internacional de Psicologia, 41(3), Anais Nº 1, ano 2013, p

150 Rafael Bernardo de Castro, Thiago Henrique Silva dos Santos, Andréa Cristina Trierweiller, Lucila M. S. Campos e Antonio Cezar Bornia Agradecimentos Gostaríamos de agradecer ao Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq) e à CAPES pelo apoio na pesquisa. Recebido em: 03/11/2013 Avaliado em: 25/11/ Anais Nº 1, ano 2013, p

151 Interpretação de Escala Multidimensional da Teoria da Resposta ao Item: uma aplicação na avaliação de qualidade de websites comerciais Interpretation of Multidimensional Scale of Item Response Theory: an application in quality assessment of commercial websites Rafael Tezza Doutor em Engenharia de produção, UFSC Professor de Graduação e Pós Graduação em Administração Empresarial, ESAG/UDESC rafael.tezza@udesc.br Antonio Cezar Bornia Doutor em Engenharia de produção, UFSC Pró Reitor de Planejamento e Orçamento, UFSC cezar@deps.ufsc.br Dalton Francisco de Andrade PhD em Biostatistics, University of North Carolina UNC/Estados Unidos Professor Voluntário, UFSC dandrade@inf.ufsc.br Pedro Alberto Barbetta Doutor em Engenharia de produção, UFSC Professor Associado, UFSC barbetta@inf.ufsc.br Resumo Este artigo apresenta uma aplicação do modelo multidimensional da teoria da resposta ao item para medir a qualidade de websites comerciais e a interpretação da escala gerada. A qualidade de um website engloba características técnicas (usabilidade/navegabilidade, apresentação da informação e interatividade) e não técnicas (design, estética, apelo visual, confiabilidade, hedonismo, imagem), configurando se, teoricamente, um contexto multidimensional. Um conjunto de 75 itens foi elaborado e uma amostra de 441 websites de e commerce dos mais variados setores foi avaliada segundo esses itens. Os dados foram analisados segundo a abordagem da análise fatorial de informação plena e da teoria da resposta ao item multidimensional (TRIM). Nesta etapa, foram discutidas questões referentes à dimensionalidade e à escolha do modelo mais adequado. Por fim, um modelo multidimensional com quatro dimensões foi ajustado e uma escala multidimensional foi interpretada. Palavras chave: Teoria da Resposta ao Item multidimensional. Interpretação de escalas. Qualidade em websites. E commerce. Abstract This article presents an application of multidimensional model of item response theory to measure the quality of commercial websites and interpretation of scale generated. The quality of a website includes technical characteristics (usability / navigability, interactivity and

152 Rafael Tezza, Antonio Cezar Bornia, Dalton Francisco de Andrade e Pedro Alberto Barbetta information presentation) and non technical (design, aesthetics, visual appeal, reliability, hedonism, image), configuring, theoretically, a multidimensional context. A set of 75 items was developed and a sample of 441 e commerce websites of various sectors was evaluated according to these items. Data were analyzed according to the approach of full information factorial analysis and multidimensional item response theory (MIRT). At this stage, questions concerning the dimensionality and the choice of the most appropriate model were discussed. Finally, a multidimensional model with four dimensions was adjusted and a multidimensional scale was interpreted. Keywords: Multidimensional Item Response Theory. Scale interpretation. Quality websites. E commerce. Introdução Atualmente a internet tem se tornado indispensável em nosso dia a dia e com isso, novas oportunidades e novas perspectivas de negócios tem se desenvolvido ou se consolidado, como é o caso particular do e commerce. Segundo Cebi (2013) o e commerce tem se tornado essencial em nosso cotidiano e representa um mercado em amplo crescimento. O projeto de um site de qualidade, como parte da estratégia de e business, tornou se um elemento chave para o sucesso neste mercado (Cao, Zhang, Seydel, 2005; Hernández, Jiménez, Martín, 2009). No mercado de e commerce uma boa interface do website tem um efeito positivo na percepção do usuário influenciando seu retorno ao website (Fan, Tsai, 2010). Do ponto de vista empresarial e mercadológico, as empresas de e commerce representam uma cadeia de processos que se inicia com a visita do cliente ao website da empresa, passando pela interação deste no website, efetivação da compra, processo logístico envolvido na entrega do produto, no caso de produtos tangíveis, e eventuais serviços de pós venda. Cada um destes processos possui sua particular importância. O website no qual os produtos são visualizados é equivalente à loja física onde é mostrada a mercadoria e a empresa comunica sua imagem para o consumidor por meio de sua interface gráfica. Segundo Downes (2007), o website é frequentemente o primeiro ponto de contato entre uma empresa que usa e commerce e seus consumidores. Desta forma, manter um site de compras atraente e amigável é essencial para o sucesso de qualquer empresa na internet (McKinney, 2004). 144 Anais Nº 1, ano 2013, p

153 Interpretação de Escala Multidimensional da Teoria da Resposta ao Item: uma aplicação na avaliação de qualidade de websites comerciais Neste contexto, considerando estas peculiaridades e o grande crescimento das empresas de comércio eletrônico, medidas de avaliação da qualidade destes serviços têm se tornado cada vez mais importante (Ding et al. 2011). Qualidade em websites é uma questão complexa e de múltiplas facetas que deve ser discutida por múltiplos ângulos o que vai além da simples facilidade de uso da interface (questões técnicas), contando com questões ligadas a fatores estéticos, de confiabilidade, interatividade, entre outros, que constituem questões não técnicas. Neste sentido, segundo Aladwani e Palvia (2002), a construção de medidas de qualidade no contexto de websites é uma tarefa desafiadora, por ser um conceito complexo e de natureza multidimensional. No entanto, embora existam na literatura várias pesquisas sobre comportamento do usuário na web, usabilidade, estética, interatividade, confiabilidade, qualidade da informação e personalização, estes levantamentos, assim como as avaliações de qualidade de websites, têm sido, de certa forma, fragmentados (Monsuwe et al. 2004; Mbipom e Harper, 2009) e utilizado tratamentos estatísticos tradicionais lineares ou unidimensionais (Hamilton, 2006). Segundo Chiou et al. (2010), do ponto de vista geral, estas abordagens são bastante úteis, avaliando a atitude do usuário para com o site e pode ser considerada como uma avaliação externa do websites. No entanto, sob o ponto de vista estratégico, pouca atenção tem sido dada à avaliação da coerência entre estes achados e a realidade prática de uma organização de e commerce. Desta forma, torna se relevante, tanto do ponto de vista teórico quanto prático, o desenvolvimento de uma sistemática ou modelagem que compile estas pesquisas e realize um tratamento estatístico adequado. Para isto, uma alternativa matematicamente viável dentro do contexto de avaliação de websites, segundo Schmettow e Vietze (2008) e Tezza et al. (2011), é a Teoria da Resposta ao Item, a qual permite a mensuração de características difíceis de serem medidas diretamente (traços latentes) com base em um conjunto de itens e na criação de uma escala interpretável. Neste contexto, o modelo unidimensional é apresentado da seguinte forma: P( U ij 1 1/ j ) (1) a ( j i ) 1 i b e Anais Nº 1, ano 2013, p

154 Rafael Tezza, Antonio Cezar Bornia, Dalton Francisco de Andrade e Pedro Alberto Barbetta onde θ é o traço latente que se quer medir, supostamente numa escala com média zero e desvio padrão um; θj é o valor do traço latente para o indivíduo j; bi é o valor do traço latente em que a probabilidade do item i ser respondido afirmativamente é igual a 0,5; ai é o parâmetro de discriminação do item i, proporcional à inclinação da Curva Característica do Item (CCI) no ponto bi. A CCI representa a relação entre a resposta prevista ao item e o traço latente do indivíduo (Reckase, 1997). Uma das suposições empregadas neste modelo é a suposição da unidimensionalidade, a qual define que todos os itens do teste estão medindo o mesmo traço latente ou a mesma composição de múltiplas habilidades. Entretanto, existem muitas situações em que os itens que compõem o instrumento de medida, podem estar medindo diferentes dimensões do traço latente, ou diferentes composições de múltiplas habilidades (Ackerman, 1994), como por exemplo, a qualidade de websites comerciais. Reckase (1985) descreve o modelo multidimensional compensatório de dois parâmetros como uma extensão multidimensional do ML2P apresentado na equação (1) da seguinte forma: 1,, (2) onde: U ij = resposta da pessoa j ao item i (0 ou 1); a ik = parâmetro de discriminação do item i na dimensão k; θ jk = traço latente da pessoa j na dimensão k; d i = parâmetro de dificuldade do item i. O expoente de e no modelo (2) pode ser escrito da seguinte forma: (3) A equação (3) mostra que o expoente é uma função linear de elementos do vetor θ, com o parâmetro d representando a ordenada na origem; e os elementos do vetor a como os parâmetros de inclinação ou de discriminação. Uma das propriedades deste modelo é que a expressão representada no expoente define uma reta num espaço de k dimensões que pode gerar linhas de equiprobabilidade, ou seja, esta forma 146 Anais Nº 1, ano 2013, p

155 Interpretação de Escala Multidimensional da Teoria da Resposta ao Item: uma aplicação na avaliação de qualidade de websites comerciais multidimensional permite que existam infinitas combinações lineares que resultam no mesmo expoente, gerando a mesma probabilidade de acerto. Esta propriedade confere ao modelo a característica compensatória. Para mais detalhes ver Reckase (2009). No entanto, um dos desafios desta modelagem multidimensional é a interpretação da escala, objeto explorado neste artigo. Do ponto de vista da relevância teórica, o presente estudo evidencia a discussão conjunta de questões referentes à conceituação e mensuração de qualidade de websites, sua dimensionalidade e o ajuste de uma modelagem estatística adequada e interpretável. Para isso, é apresentado um estudo no qual foram desenvolvimentos e calibrados itens relativos a qualidade de websites comerciais. Do ponto de vista da relevância prática, destaca se o desenvolvimento de uma escala padronizada com interpretação direta na qual se possa verificar a relação entre os componentes de qualidade (itens), dimensões e o desempenho do website em um mesmo continuum. Com isto, desenvolvedores de websites comerciais podem verificar quais requisitos são mais relevantes e qual o impacto na alteração destes. A escolha da utilização da teoria da resposta ao item (TRI) como instrumento para criação da escala para medir qualidade em websites se deu principalmente pelas suas características metodológicas. Ou seja, é capaz de desenvolver uma escala para mensurar traços latentes, como por exemplo, a qualidade de websites, tendo como base um conjunto de itens, os quais também podem ser posicionados na mesma escala do traço latente. Além disso, a TRI é capaz de analisar a dimensionalidade e a discriminação de um conjunto de itens, o que, segundo Bartolucci et al (2012) não é possível em nenhuma outra abordagem estatística conhecida. 1. Metodologia A construção dos itens partiu de um levantamento da literatura. Procurou se consolidar os diversos estudos, presentes na literatura específica e desenvolver um instrumento abrangente e consistente. Mais especificamente, a construção dos itens se deu por meio da associação dos conceitos resultantes da análise dos 191 artigos e livros pesquisados. Anais Nº 1, ano 2013, p

156 Rafael Tezza, Antonio Cezar Bornia, Dalton Francisco de Andrade e Pedro Alberto Barbetta Alguns itens foram elaborados a partir dos conceitos mais recorrentes na literatura. Outros foram extraídos integralmente de estudos anteriores como, por exemplo, Tezza et al. (2011) e W3C (2008). O planejamento do levantamento de dados seguiu a proposta de Stepchenkova et al (2010) e Tezza et al. (2011), no qual os itens são construídos para avaliar o sistema e não com o objetivo de captar percepção de clientes ou usuários, tendo portanto, a característica objetiva de um checklist. Com isso, trabalhou se a elaboração de itens objetivos, capazes de verificar a existência ou não de determinada característica associada à qualidade do website comercial. Sendo assim, todos os itens foram formulados de forma objetiva e com respostas dicotômicas. Foram elaborados 75 itens. Após a elaboração dos itens os mesmos foram submetidos à avaliação de 3 especialistas, com o objetivo de verificar a adequação dos itens ao constructo qualidade em websites comerciais. Os dados utilizados na presente análise foram formados por uma amostra da população de sites de e commerce de origem brasileira. A coleta desta amostra foi feita com o auxílio de buscadores como Google.com, Bing.com e Yahoo.com no período de janeiro e fevereiro de Foram analisados 441 sites de e commerce, abrangendo vários gêneros, escolhidos de forma aleatória. Durante o processo de amostragem tomou se o cuidado de garantir que a mesma fosse a mais diversificada possível. Para isso, além de sites com os mais diversos gêneros de produtos comercializados, observou se a variedade de estilos de design, contemplando desde sites simples até muito elaborados, o que não necessariamente implica em maior qualidade mas, contribui para a diversidade, necessários para aplicação da Teoria da Resposta ao Item (Tezza et al. 2011). Dos 75 itens gerados, 56 deles tiveram suas respostas obtidas por meio de coleta manual, na qual o aplicador, após navegação no website em análise, e responde se o mesmo possui ou não as características em questão. Este método manual de coleta de dados em websites baseou se em Pinterits et al. (2006), Al Khalifa (2010), Stepchenkova et al. (2010) e Tezza et al. (2011). A coleta manual foi realizada pelo primeiro autor. Esta coleta manual levou dois meses março a maio de Ao todo 148 Anais Nº 1, ano 2013, p

157 Interpretação de Escala Multidimensional da Teoria da Resposta ao Item: uma aplicação na avaliação de qualidade de websites comerciais foram avaliados 441 websites. Os 19 itens restantes foram analisados de forma semiautomática utilizando a ferramenta livre AChecker ( Esta ferramenta verifica as diretrizes de acessibilidade com o objetivo de estabelecer o nível de acessibilidade de websites ao detectar erros de acordo com as diretrizes de Acessibilidade para Conteúdo Web (WCAG) 2.0. O ambiente para coleta de dados foi constituído por um computador com tela de 15. O navegador utilizado foi o Internet Explorer versão 7. A resolução da tela utilizada foi de 1024 por 768 pixels. Na etapa de análise dos dados, foram realizadas análises de dimensionalidade, realizando se uma análise exploratória para identificação do número de dimensões e a adequação de cada item às dimensões. E por fim foi verificada a adequação do modelo multidimensional compensatório da teoria da resposta ao item e interpretação da escala. 2. Resultados e comentários 2.1. Avaliação da qualidade do conjunto de itens iniciais Inicialmente, foi realizada uma análise da qual com base na verificação das cargas fatoriais de cada item, o que reflete a relação do item com os fatores subjacentes (traços latentes) presentes no conjunto de dados. Para verificação das cargas fatoriais, utilizou se a estrutura de três dimensões. A utilização de três dimensões deu se com base no critério sugerido por Chalmers (2012), o qual afirma que o número de dimensões que gera um melhor ajuste aos dados pode ser verificado por meio da uma comparação de modelos utilizando uma análise de variância genérica (ANOVA) implementada no software R com base no método da análise fatorial de informação plena. O resultado retorna o qui quadrado (χ2) baseado no teste de razão de verossimilhança, bem como a diferença no AIC e BIC na comparação dos modelos. Foi feita a comparação de quatro modelos, o primeiro assumindo uma dimensão (Mod1), o segundo, duas (Mod2), o terceiro, três (Mod3) e o quarto, quatro (Mod4) A tabela 1 demonstra os resultados. Anais Nº 1, ano 2013, p

158 Rafael Tezza, Antonio Cezar Bornia, Dalton Francisco de Andrade e Pedro Alberto Barbetta Tabela 1 Comparação dos modelos de um, dois, três e quatro dimensões. Modelos χ 2 Diferença qui quadrado Graus de liberdade p valor Mod1 x Mod2 525,50 74 <0,01 377,50 74,91 Mod2x Mod3 283,32 73 <0,01 137,32 161,18 Mod3 x Mod4 83, ,16 60,12 354,53 AIC BIC Verifica se, na Tabela 1, que a diferença entre o modelo 1 e o modelo 2 é estatisticamente significante para α =0,05, (hipótese alternativa aceita) indicando que o modelo que assume duas dimensões possui mais informação que o modelo de uma dimensão, isso também pode ser visualizado nos critérios de informação AIC e BIC, nos quais verifica se que existe diferenças positivas do modelo 1 em relação ao modelo 2. O mesmo ocorre na comparação do modelo 2 e do modelo 3, no entanto, neste caso, verifica se no AIC que há diferença positiva entre os modelos 2 e 3 mas, no BIC o mesmo não ocorre. Verificou se que a maioria dos itens apresentaram cargas superiores a 0,30, em alguma dimensão, que é considerado por alguns autores (Johnson, Wichern 2007, Hair et al., 2009) um valor mínimo para que se possa considerar o item na interpretação da dimensão. Itens com carga fatorial inferior a 0,30 em todas as dimensões foram assumidos como itens pouco informativos para o construto, sendo assim, foram eliminados. Esta ação resultou na retirada de 18 itens. A nova análise do conjunto, após esta primeira retirada, mostrou mais dois itens com carga fatorial, em módulo, inferior a 0,30 em todas as dimensões, foram os itens 01 e 42, os quais também foram eliminados. Foram realizadas cinco novas análises até extrair todos os itens remanescentes com carga fatorial inferior a 0,30, desta forma, foram eliminados ao todo 31 itens Avaliação das dimensões Para avaliar a dimensionalidade do construto utilizaram se apenas os 44 itens restantes da fase anterior 150 Anais Nº 1, ano 2013, p

159 Interpretação de Escala Multidimensional da Teoria da Resposta ao Item: uma aplicação na avaliação de qualidade de websites comerciais A análise fatorial restrita, realizada por meio da matriz de correlação tetracórica, sugeriu a existência de 5 dimensões, assumindo o critério de pelo menos 50% da variância comum para o conjunto de fatores. A tabela 2 mostra os primeiros 10 autovalores considerando os 44 itens. Tabela 2 Valores próprios da matriz de correlação tetracórica dos primeiros 10 autovalores do conjunto de 44 itens. Dimensão Autovalor 8,95 4,44 3,89 3,15 2,55 2,12 1,79 1,61 1,60 1,47 Proporção acumulada da variação explicada 20,34 30,42 39,26 46,41 52,22 57,03 61,09 64,74 68,38 71,72 Alguns autores, como McDonald (1981) e Spector et al. (1997), argumentam que a análise fatorial clássica tende a superestimar o número de dimensões, criando fatores espúrios quando não há uniformidade na dificuldade dos itens. Desta forma, não é muito conveniente considerar um número muito alto de dimensões tendo em vista também o número limitado da amostra. Já a análise feita pela análise fatorial de informação plena mostrou que a primeira dimensão explica apenas 10,41% da variação total do conjunto de 44 itens, o que caracteriza um construto com mais de uma dimensão. A comparação dos modelos de uma, duas, três e quatro dimensões por meio dos critérios de informação BIC e AIC sugerida por Bartolucci et al (2012) mostrou evidências da existência de três dimensões, assumindo o critério AIC, como pode ser visualizado na tabela 3. Tabela 3 Seleção do melhor modelo com base nos critérios de informação AIC e BIC. Modelo 2 Log da máxima verossimilhança AIC BIC Mod1 6849, , ,53 Mod2 6617, , ,69 Mod3 6531, , ,91 Mod4 6493, , ,84 Como os dois critérios não foram convergentes e sugeriram a existência de 3 a 5 dimensões, optou se pelo critério empírico, recomendado por diferentes autores, como Ford et al (1986), Fleck e Bourdel (1998), Podsakoff, Ahearne e MacKenzie Anais Nº 1, ano 2013, p

160 Rafael Tezza, Antonio Cezar Bornia, Dalton Francisco de Andrade e Pedro Alberto Barbetta (1997), pode ser utilizado. Este método propõe conservar as dimensões das quais sabe se claramente dar um significado. Sendo assim, testou se empiricamente as estruturas com três, quatro e cinco dimensões, com a finalidade de verificar qual destas possui um melhor ajuste para o construto em questão. Na estrutura contendo três dimensões, verificou se que, conteúdo dos itens nas referidas dimensões não mostrou clareza na primeira e na segunda dimensão, pois ambas misturam conceitos de navegação, apresentação da informação e interação do usuário. Na sequência, a mesma análise foi feita considerando 4 dimensões. A Tabela 4 mostra a descrição dos 44 itens e a distribuição das cargas fatoriais de cada item nas quatro dimensões, utilizando a rotação ortogonal varimax. Tabela 4 Análise fatorial utilizando o método da informação plena, rotação ortogonal varimax aos 44 itens em quatro dimensões. Item Item Description F_1 F_2 F_3 F_4 Comunalidade Homepage deixa claro o que o site faz (demonstra os principais produtos e/ou uma breve descrição de seu objetivo e/ou benefícios que oferece), sem precisar usar a rolagem? O site possui imagens em movimento que podem distrair o usuário? Os links promocionais levam diretamente para a oferta anunciada? 0,130 0,660 0,030 0,020 0,454 0,160 0,140 0,200 0,440 0,279 0,390 0,680 0,110 0,090 0, O site possui menu em cascata? 0,060 0,070 0,190 0,570 0, Existe agrupamento de subcategorias? 0,050 0,300 0,030 0,530 0, Existe informações de contato telefônico ou endereço? Palavras aparentemente clicáveis são de fato clicáveis? 0,060 0,450 0,380 0,300 0,441 0,290 0,390 0,220 0,400 0, Todas as páginas possuem um campo de busca? 0,450 0,280 0,590 0,300 0, Quando há rolagem, não existem elementos de design (na tela inicial) que pareçam com marcadores de final de página? O logotipo da empresa está no canto superior esquerdo em todas as páginas do site? Existe um link de um único clique que conduz a homepage? O site permite navegação em suas páginas em apenas uma janela, ou seja, não há abertura de novas janelas em meio a navegação? 0,260 0,380 0,270 0,280 0,363 0,240 0,480 0,260 0,270 0,429 0,520 0,250 0,750 0,320 0,998 0,110 0,030 0,820 0,280 0, Existe uma lista de perguntas frequentes FAQs? 0,030 0,300 0,080 0,480 0, Ao digitar uma pesquisa no campo de busca o buscador vai dando sugestões? O sistema de busca é flexível quanto aos termos utilizados pelo usuário, ou seja, caso o usuário insira algum termo com grafia errada, o sistema de busca sugere correção? Os resultados de busca permitem classificação por outros critérios além de custo? 0,060 0,020 0,180 0,660 0,472 0,220 0,170 0,170 0,530 0,387 0,290 0,390 0,300 0,500 0,576 (continuação) 152 Anais Nº 1, ano 2013, p

161 Interpretação de Escala Multidimensional da Teoria da Resposta ao Item: uma aplicação na avaliação de qualidade de websites comerciais (continuação) Item Item Description F_1 F_2 F_3 F_4 Comunalidade 32 Ícones de continuação de página estão visíveis? 0,290 0,310 0,310 0,290 0, O preço de um produto consta ao lado da imagem ou do link do produto? Em produtos em que existam mais de uma perspectiva, é possível visualizar todas as perspectivas? Os produtos possuem informações suficientes (tamanho, características básicas)? Existe a possibilidade de inserir feedback sobre os produtos por parte do consumidor? 0,280 0,710 0,380 0,000 0,727 0,050 0,330 0,050 0,330 0,223 0,270 0,620 0,040 0,110 0,471 0,400 0,200 0,290 0,460 0, O site apresenta produtos relacionados no final da página? 0,070 0,450 0,030 0,240 0, O site possui multimídia para apresentação de produtos? Existe indicação de ambiente seguro no momento da efetivação da compra? No preenchimento de formulários, o usuário consegue visualizar os próximos passos na interface? O site possui outras formas de pagamento além do cartão de crédito? 0,000 0,520 0,090 0,080 0,285 0,130 0,520 0,020 0,330 0,397 0,210 0,200 0,530 0,410 0,533 0,240 0,430 0,470 0,240 0, É possível saber os custos totais antes de fazer cadastro (inclusive frete)? Os dados obrigatórios são diferenciados dos dados opcionais de forma visualmente clara? As mensagens de erro estão isentas de abreviaturas e/ ou códigos gerados pelo sistema operacional? Qualquer ação do usuário pode ser revertida através da opção DESFAZER ou VOLTAR? Todo o conteúdo não textual que é apresentado ao usuário tem uma alternativa em texto que serve um propósito equivalente? As informações, a estrutura e as relações transmitidas através de apresentação podem ser determinadas de forma programática ou estão disponíveis no texto? A cor não é utilizada como o único meio visual de transmitir informações, indicar uma ação, pedir uma resposta ou distinguir um elemento visual? A apresentação visual de texto e imagens de texto tem uma relação de contraste de, no mínimo, 4.5:1? Exceto para legendas e imagens de texto, o texto pode ser redimensionado sem tecnologia assistiva até 200 porcento sem perder conteúdo ou funcionalidade? Para cada limite de tempo definido pelo conteúdo, no mínimo, uma das seguintes afirmações é verdadeira: Desligar, Ajustar; Prolongar; Excepção em Tempo Real; Excepção Essencial; Excepção de 20 Horas. 0,330 0,600 0,290 0,250 0,616 0,280 0,220 0,440 0,220 0,369 0,210 0,100 0,540 0,200 0,386 0,580 0,550 0,280 0,100 0,727 0,710 0,050 0,400 0,010 0,667 0,960 0,160 0,130 0,190 1,000 0,150 0,460 0,520 0,270 0,577 0,720 0,120 0,010 0,510 0,793 0,340 0,180 0,430 0,280 0,411 0,220 0,600 0,550 0,100 0,721 (continuação) Anais Nº 1, ano 2013, p

162 Rafael Tezza, Antonio Cezar Bornia, Dalton Francisco de Andrade e Pedro Alberto Barbetta (continuação) Item Item Description F_1 F_2 F_3 F_4 Comunalidade Para informações em movimento, em modo intermitente, em deslocamento ou em atualização automática, todas as seguintes afirmações são verdadeiras: Em movimento, em modo intermitente, em deslocamento: Para quaisquer informações em movimento, em modo intermitente ou em deslocamento, que (1) sejam iniciadas automaticamente, (2) durem mais de cinco segundos, e (3) sejam apresentadas em paralelo com outro conteúdo, existe um mecanismo para o usuário colocar em pausa, parar, ou ocultar as mesmas, a menos que o movimento, o modo intermitente ou o deslocamento façam parte de uma atividade, na qual sejam essenciais; e Em atualização automática: Para quaisquer informações em atualização automática, que (1) sejam iniciadas automaticamente e (2) sejam apresentadas em paralelo com outro conteúdo, exista um mecanismo para o usuário colocar em pausa, parar ou ocultar as mesmas, ou controlar a frequência da atualização, a menos que a atualização automática faça parte de uma atividade, na qual é essencial. 0,060 0,590 0,670 0,230 0,854 Está disponível um mecanismo para ignorar blocos de conteúdo que são repetidos em várias páginas Web? 0,440 0,060 0,320 0,400 0,460 Os cabeçalhos e as etiquetas descrevem o tópico ou a finalidade? 0,430 0,160 0,230 0,200 0,303 A linguagem humana pré definida de cada página Web pode ser determinada de forma programática? 0,180 0,050 0,420 0,220 0,260 Alterar a definição de um componente de interface de usuário não provoca, automaticamente, uma alteração de contexto, a menos que o usuário tenha sido avisado sobre essa situação antes de utilizar o componente? 0,490 0,220 0,220 0,120 0,351 Se um erro de entrada for automaticamente detectado, o item que apresenta erro é identificado e o erro é descrito ao usuário por texto? 0,180 0,740 0,520 0,050 0,853 Etiquetas ou instruções são fornecidas quando o conteúdo exigir a entrada de dados por parte do usuário? 0,880 0,120 0,260 0,130 0,873 No conteúdo implementado utilizando linguagens de marcação, os elementos dispõem de marcas de início e de fim completas, os elementos estão encaixados de acordo com as respectivas especificações, os elementos não contêm atributos duplicados, e todos os IDs são exclusivos, exceto quando as especificações permitem estas características? 0,410 0,150 0,170 0,120 0,234 A primeira dimensão agrupa itens com conteúdo voltado para acessibilidade e utilização do sistema, ou seja, verificação de possíveis entraves no sistema que possam impedir, confundir ou dificultar o acesso dos usuários, particularmente usuários que possuam alguma limitação física ou cognitiva. Nota se que a maioria dos itens desta dimensão pertence ao conjunto de recomendações de acessibilidade WCAG 2.0 (W3C, 2008). 154 Anais Nº 1, ano 2013, p

163 Interpretação de Escala Multidimensional da Teoria da Resposta ao Item: uma aplicação na avaliação de qualidade de websites comerciais A segunda dimensão traz itens relacionados diretamente com apresentação da informação, praticamente todos os itens com maior carga fatorial nesta dimensão remetem a algum conceito de organização ou apresentação da informação. A terceira dimensão, assim como a segunda, apresentou todos os itens com maior carga nesta dimensão no mesmo sentido, ou seja, todos positivos, com exceção do item, 73. Analisando se os conceitos envolvidos em cada item característico desta dimensão, verifica se que a maioria possui conceito adjacente ao controle por parte do usuário ou interação deste com o sistema. Na quarta dimensão, os itens 5 e 8 apresentaram carga em sentido contrário aos da maioria. Esta peculiaridade pode ser justificada pela própria característica dos itens neste contexto. Ou seja, considerando que todos os itens desta dimensão estão relacionados diretamente com o conceito de orientação do usuário durante a navegação. O Quadro 1 mostra um resumo das dimensões e os respectivos itens de maior carregamento nestas segundo a análise fatorial. Quadro 1 Classificação dos itens conforme a dimensão, segundo a análise fatorial. Dimensão Itens Acessibilidade/utilização do sistema 56 *, 57, 58, 60, 66 *, 69, 71, 74, 75 Apresentação da informação 03, 06, 12, 22, 23, 32, 33, 35, 37, 40, 43, 45, 48, 56, 64 *, 73 * Controle por parte do usuário/interatividade 21, 24, 25, 32, 46, 47, 52, 55, 59, 61, 64, 65, 70 Orientação do usuário/navegabilidade 05 *, 08 *, 10, 19, 27, 28, 29, 30, 35, 38, 66 * Itens com carregamento contrário à maioria dos itens da dimensão Realizando se a mesma análise, agora considerando cinco dimensões, verificou se que a correlação das dimensões sofreram algumas modificações com a inserção de uma nova dimensão, aumentando algumas relações e diminuindo outras, mostrandose, portanto, inviável do ponto de vista empírico. Sendo assim, empiricamente, o modelo mais apropriado para representar o construto qualidade em websites comerciais é o de quatro dimensões. Este modelo foi então considerado para elaboração do modelo de multidimensional compensatório da teoria da resposta ao item Anais Nº 1, ano 2013, p

164 Rafael Tezza, Antonio Cezar Bornia, Dalton Francisco de Andrade e Pedro Alberto Barbetta 2.3. Aplicação do modelo multidimensional compensatório da TRI Dadas as conclusões e verificações discutidas na seção anterior assumiu se que o construto é composto de quatro dimensões. Sendo assim, trabalhou se uma modelagem multidimensional de quatro dimensões utilizando a teoria da resposta ao item. A TRI possui algumas similaridades com a análise fatorial, principalmente a modelagem multidimensional. Entretanto, a TRI possui vantagens consideráveis frente a abordagem puramente fatorial, principalmente pelo fato de tratar os itens de uma forma individual e não apenas em termos de agrupamento fatorial. Nesta linha, é possível analisar, além da qualidade do item, seu grau de dificuldade e, com isso, estimar os escores (traços latentes) dos respondentes. Segundo Bartolucci et al. (2012), nenhuma outra abordagem estatística permite estudar a dimensionalidade e o poder de discriminação de itens de uma maneira mais simples do que a TRI. A estimação dos parâmetros multidimensionais dos 44 itens apresentaram alguns problemas pontuais com 4 itens (itens 05, 24, 58, 73) tais itens apresentaram parâmetros superestimados e/ou com erro padrão alto e, portanto, foram eliminados. A Tabela 6 mostra a estimativa dos parâmetros dos 40 itens utilizando o modelo multidimensional da teoria da resposta ao item compensatório por meio do software flexmirttm (Cai, 2012). Tabela 6 Estimativas dos parâmetros multidimensionais para os 40 itens, assumindo o modelo multidimensional de dois parâmetros compensatório. Item a 1 s.e. a 2 s.e. a 3 s.e. a 4 s.e. MDISC d s.e. MDIFF 3 1,43 0,78 0,65 0,76 0,34 0,64 0,66 0,74 1,74 4,23 0,82 2,43 6 2,29 1,18 0,98 0,89 0,03 0,70 0,39 0,93 2,52 4,88 1,39 1,94 8 0,02 0,35 0,29 0,40 0,99 0,33 0,70 0,39 1,25 0,79 0,19 0, ,51 0,42 0,15 0,43 0,39 0,42 1,20 0,46 1,37 2,09 0,36 1, ,66 0,55 1,47 0,58 0,06 0,57 0,02 0,50 1,61 2,53 0,44 1, ,20 0,39 0,14 0,45 0,75 0,38 0,92 0,40 1,69 1,50 0,25 0, ,73 1,03 1,26 1,00 2,35 1,24 0,74 0,99 3,26 5,57 1,46 1, ,11 0,79 0,94 0,71 0,33 0,63 0,48 0,67 1,57 4,02 0,90 2, ,22 0,50 0,42 0,62 0,44 0,59 0,91 0,63 1,64 3,61 0,52 2, ,27 0,93 2,39 1,30 1,54 0,91 0,61 0,99 2,92 5,34 1,50 1, ,61 0,38 0,39 0,41 0,24 0,40 1,13 0,40 1,36 0,62 0,21 0, ,24 0,43 0,31 0,43 1,17 0,40 1,01 0,45 1,59 1,33 0,26 0, ,70 0,43 0,71 0,46 0,39 0,47 0,92 0,43 1,41 2,07 0,32 1, ,40 0,50 0,30 0,50 1,31 0,47 0,90 0,48 2,14 1,38 0,27 0, Anais Nº 1, ano 2013, p

165 Interpretação de Escala Multidimensional da Teoria da Resposta ao Item: uma aplicação na avaliação de qualidade de websites comerciais Item a 1 s.e. a 2 s.e. a 3 s.e. a 4 s.e. MDISC d s.e. MDIFF 32 0,96 0,36 0,38 0,41 0,86 0,40 0,47 0,39 1,42 1,62 0,24 1, ,50 1,33 1,91 1,21 0,49 0,92 1,00 0,91 3,34 6,07 1,78 1, ,60 0,47 0,20 0,47 0,13 0,42 0,61 0,49 1,73 2,43 0,37 1, ,62 0,30 0,05 0,31 0,22 0,28 0,77 0,28 1,01 0,36 0,17 0, ,16 0,44 0,04 0,49 1,60 0,47 0,39 0,48 2,01 0,73 0,24 0, ,82 0,29 0,11 0,34 0,06 0,28 0,68 0,29 1,07 0,15 0,18 0, ,84 0,53 0,42 0,69 0,35 0,78 0,75 0,84 1,25 4,36 0,91 3, ,68 0,75 1,11 0,76 0,60 0,70 0,21 0,74 1,45 4,44 0,72 3, ,70 0,40 0,59 0,46 1,40 0,45 0,83 0,41 1,87 1,23 0,25 0, ,37 1,28 1,51 1,01 0,21 0,86 0,14 1,09 2,05 5,40 1,38 2, ,89 0,58 0,73 0,59 0,81 0,54 0,72 0,62 2,30 3,12 0,50 1, ,82 0,38 0,63 0,44 1,14 0,43 0,24 0,39 1,56 1,82 0,27 1, ,09 0,41 0,14 0,42 0,14 0,38 0,99 0,40 1,49 1,52 0,27 1, ,57 1,28 1,03 1,35 0,66 1,14 0,84 1,16 2,97 6,78 2,46 2, ,98 0,97 2,04 1,07 0,26 0,81 1,63 0,98 3,29 3,05 0,91 0, ,55 0,59 0,27 0,73 2,00 0,91 0,18 0,65 2,10 3,94 0,99 1, ,30 1,00 0,20 1,19 0,22 1,00 2,03 1,53 2,43 5,74 2,17 2, ,86 0,41 0,62 0,49 0,79 0,42 0,90 0,43 1,60 0,40 0,20 0, ,51 0,82 0,47 1,10 2,08 1,01 0,34 1,29 2,22 5,59 1,34 2, ,00 1,05 0,86 1,46 2,58 1,92 0,19 1,28 2,90 6,71 2,89 2, ,73 0,79 0,06 1,13 1,56 1,05 0,31 0,72 1,75 5,02 1,28 2, ,25 0,34 0,19 0,40 0,97 0,31 0,30 0,34 1,06 1,10 0,24 1, ,29 0,30 0,48 0,35 0,63 0,31 0,51 0,32 0,99 0,57 0,20 0, ,31 0,45 0,79 0,47 0,15 0,44 1,01 0,45 1,33 2,28 0,32 1, ,14 0,56 1,18 0,65 0,36 0,54 1,29 0,65 2,12 1,77 0,36 0, ,35 0,31 0,79 0,35 0,33 0,31 0,43 0,35 1,02 0,53 0,17 0,52 A Tabela 6 mostra os parâmetros de discriminação de cada item em cada dimensão (a1, a2, a3, a4) e o parâmetro de discriminação multidimensional (MDISC) quanto maior o parâmetro de discriminação multidimensional (MDISC), maior é o poder de discriminação multidimensional do item. Além disso, a Tabela 6 mostra o valor do parâmetro de localização d de cada item que, segundo Reckase (1997), está relacionado à dificuldade do item. Porém, o valor deste parâmetro não pode ser interpretado da mesma maneira que o parâmetro de dificuldade do modelo unidimensional, pois no modelo multidimensional compensatório, o parâmetro d é um escalar, portanto, apresentando apenas um único valor para cada item. O valor que é equivalente à interpretação unidimensional do Anais Nº 1, ano 2013, p

166 Rafael Tezza, Antonio Cezar Bornia, Dalton Francisco de Andrade e Pedro Alberto Barbetta parâmetro b é dada pela divisão de d pelo parâmetro de discriminação multidimensional (MDISC), gerando assim, o parâmetro chamado dificuldade multidimensional (MDIFF) apresentada na última coluna da Tabela 6. O valor de MDIFF indica a distância da origem do espaço ao ponto de inflexão na direção do vetor de discriminação. Sendo assim, quanto maior o valor do parâmetro MDIFF maior é a dificuldade do item. O parâmetro de discriminação, assim como a carga fatorial, pode ser arbitrário em cada dimensão, considerando que possa haver algum tipo de rotação, estes carregamentos podem ser comparados identificando itens semelhantes na mesma dimensão, da mesma forma como é feita a análise fatorial (Reckase, 1997). Sendo assim, espera se que o parâmetro de discriminação de um determinado item seja maior na dimensão em que este tenha maior poder de discriminação, ou seja, na dimensão em que este possua mais informação. A estrutura apresentada na Tabela 6 assemelha se à apresentada na análise fatorial da tabela 5, a qual considera quatro dimensões. Entretanto, a configuração multidimensional da Tabela 6 apresenta algumas peculiaridades que a diferencia daquela. Primeiramente, quatro itens foram retirados por apresentarem problemas nas estimativas dos parâmetros. Em segundo, apesar de possuírem uma base estatística comum, análise fatorial de informação plena e a teoria de resposta ao item multidimensional, a última trabalha com estimação de mais parâmetros o que justifica algumas particularidades no processo de estimação, as quais podem gerar problemas de convergência como as que ocorreram nos itens 05, 24, 58 e 73.Por fim, a consequência gerada pelas reestimativas dos parâmetros é a possibilidade de reorganização dos itens nas dimensões e de alteração no significado base de alguma das dimensões, o que de fato ocorreu particularmente com a dimensão caracterizada na AF como acessibilidade e utilização do sistema e agora na reestimação da TRIM, como acessibilidade e confiabilidade do sistema, representada pela dimensão 2. Os valores em negrito na Tabela 6 destacam a dimensão na qual o item possui maior parâmetro de discriminação, indicando em qual dimensão o item possui maior informação. 158 Anais Nº 1, ano 2013, p

167 Interpretação de Escala Multidimensional da Teoria da Resposta ao Item: uma aplicação na avaliação de qualidade de websites comerciais Entretanto, como se trata de uma modelagem multidimensional compensatória, um item nem sempre é exclusivo de uma só dimensão, podendo contribuir para a estimação do traço latente do respondente (website) em várias dimensões. De uma forma geral, a primeira dimensão agrupa itens com características voltadas para condução/orientação do usuário no website, também classificada, por alguns autores, como navegabilidade e usabilidade (González; Palacios, 2004; Nusair; Kandampully, 2008). Esta dimensão contém itens com carregamento secundário principalmente na dimensão quatro, a qual é caracterizada por itens relacionados com apresentação da informação. Isto se deve ao fato de que, apesar de ser utilizada rotação ortogonal para apresentação dos resultados, existe algum tipo de relação entre as dimensões, e isto fica mais evidente nas dimensões um e quatro, particularmente porque estas características são tratadas em alguns estudos (Tezza et al., 2011; Yang et al., 2004) como características altamente correlacionadas. Jun et al. (2004) classificam a organização da informação como facilidade de uso, que neste contexto pode se entender como usabilidade. A dimensão três agrupa itens associados à interatividade. No presente estudo, a correlação entre a dimensão um e a dimensão quatro foi de aproximadamente 0,4. O comportamento destas duas dimensões reflete no carregamento dos itens 03, 19, 23, 35, 37 e 43. Esta estrutura compensatória permite que o aumento de qualidade em uma dimensão possa compensar a redução em outra. No item 19, descrito como as palavras aparentemente clicáveis são de fato clicáveis é nítido o conceito de navegação e orientação do usuário. Entretanto, este item possui reflexos em outros conceitos como, por exemplo, o de apresentação da informação, ou seja, a apresentação de uma palavra ou frase transmite uma informação de funcionalidade que orienta e informa o usuário na interface. A segunda dimensão evidenciou itens de acessibilidade, semelhante à primeira dimensão da análise fatorial da Tabela 11, e confiabilidade/segurança. Os itens característicos desta dimensão são os itens 12, 25, 45, 47, 57 e 75. O item 12 (existe Anais Nº 1, ano 2013, p

168 Rafael Tezza, Antonio Cezar Bornia, Dalton Francisco de Andrade e Pedro Alberto Barbetta informações de contato telefônico ou endereço) é uma característica importante para transmitir ao usuário confiabilidade e segurança de que, se ocorrer algum imprevisto, ele tenha um endereço físico ou um telefone para recorrer (Nielsen e Tahir 2002). O item 25 (o site permite navegação em suas páginas em apenas uma janela, ou seja, não há abertura de novas janelas em meio a navegação) é um item ligado a confiabilidade e interação. Nielsen e Loranger (2006) afirmam que a maioria dos usuários não entende como manipular várias janelas e se concentra na que está mais à frente na tela. Se não puderem voltar, eles ficarão presos e confusos. Nos item 45 e 47, a questão relacionada com segurança fica mais evidente, uma vez que o primeiro item verifica se existe indicação de ambiente seguro no momento da efetivação da compra e o segundo verifica se o site possui outras formas de pagamento além do cartão de crédito. Os itens 57 e 75 conforme discutido na análise fatorial na seção 4.3 estão ligados diretamente com a acessibilidade do sistema. A dimensão três apresenta itens característicos de interatividade. Por exemplo, os itens 21 e 28 estão ligados diretamente ao mecanismo de busca do website, o qual representa uma ferramenta bastante comum para permitir ao usuário interagir com o sistema efetuando sua busca por produtos e/ou informações. Os itens 64, 65 e 70 refletem o controle e poder de interação do usuário para com o sistema, possibilitando que o usuário possa pausar ou interromper algum conteúdo interativo ou de atualização automática. A quarta dimensão, possui correlação com a primeira dimensão de 0,384 (pela técnica de rotação não ortogonal promax). Entretanto, existem itens característicos que a caracteriza como sendo apresentação da informação, como por exemplo, os itens 27, 37, 60 e 74. Na grande maioria das aplicações da teoria da resposta ao item, seja ela unidimensional ou multidimensional, os parâmetros de discriminação do modelo são positivos (no caso multidimensional é comum a < 0 em alguma dimensão faz parte da natureza multidimensional do modelo compensatório). Isto ocorre principalmente por questões relacionadas ao próprio construto, ou seja, assume se que um valor positivo 160 Anais Nº 1, ano 2013, p

169 Interpretação de Escala Multidimensional da Teoria da Resposta ao Item: uma aplicação na avaliação de qualidade de websites comerciais de parâmetro de discriminação resulta em uma monotonicidade crescente, ou seja, com o aumento da qualidade do website do indivíduo aumenta a probabilidade de resposta positiva ao item. Este comportamento é bastante comum nas áreas educacional e psicológica, nas quais a TRI é mais difundida. Entretanto, é possível se ter valores do parâmetro de discriminação (parâmetro a) negativos, tal situação mantém o pressuposto da monotonicidade, porém decrescente. A Figura 1 mostra a estrutura criada pelo modelo compensatório multidimensional da teoria da resposta ao item. Para construção deste diagrama, assumiu se o carregamento em cada dimensão com base no sentido da carga de discriminação e na sua intensidade, assumindo aqui como sendo relevante cargas maiores que 0,70. Segundo Hair et al., (2009), em uma análise fatorial, cargas fatoriais na faixa de + 0,30 a + 0,40 são consideradas como tendo o nível mínimo para interpretação de estrutura. Cargas de + 0,50 ou maiores são tidas como praticamente significantes e maiores de + 0,70 são consideradas indicativas de estrutura bem definida. Desta forma, optou se por considerar como relevantes cargas maiores que 0,70. A Figura 1 demonstra parte da complexidade envolvida em uma modelagem multidimensional compensatória. As linhas cheias representam a interação de maior carga discriminatória e as linhas pontilhadas representam as interações secundárias com carga discriminatória no mesmo sentido da principal e com intensidade maior que 0,70. Por exemplo, o item 47 (O site possui outras formas de pagamento além do cartão de crédito) possui maior discriminação na dimensão acessibilidade e confiabilidade com a = 1,57 e interação secundárias na dimensão navegação e orientação com a = 1,37. Do ponto de vista prático, representa que a característica de possuir outras formas de pagamento além do cartão de crédito contribui do ponto de vista de qualidade em um website em termos de confiabilidade, ou seja, o website possibilita e permite ao usuário escolher a forma de pagamento que lhe pareça mais conveniente e segura, sendo, portanto, uma característica comum às duas dimensões, como tantas outras características apresentada na figura 1. Anais Nº 1, ano 2013, p

170 Rafael Tezza, Antonio Cezar Bornia, Dalton Francisco de Andrade e Pedro Alberto Barbetta Figura 1 Representação gráfica da relação de cada um dos 40 itens nas quatro dimensões caracterizadas Navegação e orientação Acessibilidade e confiabilidade Interatividade Apresentação da informação O Quadro 2 mostra a distribuição dos itens quanto às dimensões caracterizadas considerando se as maiores cargas. Quadro 2 Classificação dos itens conforme a dimensão, segundo o modelo multidimensional da teoria da resposta ao item. Dimensão Condução do usuário/navegabilidade 03, 06, 19, 22, 23, 30, 32, 33, 35, 40, 43, 48, 55, 56 Acessibilidade/confiabilidade do sistema 12, 25, 45, 47, 57, 75 Itens Controle por parte do usuário/interatividade 08*, 21, 28, 38, 46, 52, 59, 64, 65, 66, 69*, 70 Apresentação da informação 10, 27, 29, 37, 60, 61, 71, 74 * Itens com carregamento contrário à maioria dos itens da dimensão 162 Anais Nº 1, ano 2013, p

171 Interpretação de Escala Multidimensional da Teoria da Resposta ao Item: uma aplicação na avaliação de qualidade de websites comerciais 2.4. Interpretação da escala multidimensional Com base na estimação dos parâmetros de discriminação multidimensional, é possível classificar cada item conforme seu poder de discriminação ou seu poder informativo no construto, bem como, com base no parâmetro de dificuldade, classificar cada item conforme sua dificuldade. Na Tabela 6, verifica se que os itens 43, 29, 57, 74 e 28 são os itens que exigem mais de um website, ou seja, são, respectivamente, os cinco itens mais difíceis do construto. Do ponto de vista prático, isto faz sentido. Por exemplo, o item 43 é realtivo a multimídia para apresentação de produtos. Esta é uma característica pouco comum na maioria dos websites, encontrada apenas em websites mais maduros do ponto de vista de qualidade da apresentação da informação. O mesmo acontece com os itens 28 e 29 os quais tratam do aperfeiçoamento da ferramenta de busca. Quanto ao rank de discriminação, na Tabela 6, verifica se que os cinco itens mais discriminantes foram os itens 33, 57, 21, 56 e 25. A Tabela 7 mostra a estimação da habilidade dos 4 primeiros websites analisados, na escala normal N(0 ; 1), ou seja, média zero e variância um. Tabela 7 Estimação do grau de qualidade multidimensional dos 4 primeiros webistes da amostra com base no modelo multidimensional de dois parâmetros compensatório. Acessibilidade/ Controle por Orientação do usuário/ Apresentação Website confiabilidade parte do usuário/ navegabilidade da informação do sistema interatividade 001 0,105 0,130 0,864 0, ,367 0,524 0,753 0, ,887 0,328 0,557 0, ,782 0,324 0,879 0,314 Verifica se que o primeiro website possui um maior domínio dos itens relacionados à apresentação da informação, precisando assim, desenvolver melhor sua qualidade principalmente no controle por parte do usuário/interatividade, a qual apresentou domínio abaixo da média. No website número 002 observa se que existe um bom domínio da acessibilidade/ confiabilidade do sistema, havendo, entretanto, necessidade de melhoramento no que se refere aos requisitos de controle por parte do usuário/ interatividade e apresentação da informação. Anais Nº 1, ano 2013, p

172 Rafael Tezza, Antonio Cezar Bornia, Dalton Francisco de Andrade e Pedro Alberto Barbetta Entretanto, em um modelo multidimensional, a análise pontual das estimações das proficiências dos respondentes, neste caso o grau de qualidade de um website pode remeter a uma avaliação simplista do modelo, uma vez que a estrutura multidimensional agrega muito mais informação e complexidade que um modelo unidimensional. Sendo assim, cada dimensão pode ser avaliada em particular considerando cada item associado ao grau de qualidade estimado de cada website, como pode ser visualizado na Tabela 8. Esta tabela traz a probabilidade de acerto (resposta positiva) de cada item, com base nas estimativas do grau de qualidade dos quatro primeiros websites, conforme Tabela 7. Tabela 8 Probabilidade de resposta positiva dos 40 itens para os 4 primeiros websites analisados com base nos seus respectivos graus de qualidade conforme estimado no modelo multidimensional compensatório de quatro dimensões. Item Website Website Website Item Item ,995 0,995 0,964 0, ,793 0,824 0,601 0, ,999 1,000 0,986 1, ,996 0,998 0,940 0, ,999 1,000 0,970 1, ,159 0,080 0,276 0, ,770 0,839 0,710 0, ,959 0,962 0,792 0, ,888 0,914 0,958 0, ,931 0,876 0,891 0, ,511 0,440 0,344 0, ,999 0,995 1,000 0, ,944 0,973 0,815 0, ,435 0,497 0,269 0, ,579 0,463 0,729 0, ,835 0,815 0,612 0, ,589 0,548 0,357 0, ,973 0,983 0,990 0, ,988 0,994 0,937 0, ,032 0,028 0,009 0, ,990 0,992 0,997 0, ,975 0,991 0,908 0, ,982 0,992 0,954 0, ,981 0,985 0,975 0, ,983 0,982 0,932 0, ,675 0,685 0,518 0, ,895 0,864 0,876 0, ,981 0,996 0,958 0, ,997 0,999 0,975 0, ,324 0,293 0,365 0, ,488 0,324 0,360 0, ,961 0,974 0,756 0, ,959 0,939 0,948 0, ,158 0,096 0,173 0, ,762 0,832 0,593 0, ,365 0,223 0,433 0, ,141 0,080 0,100 0, ,900 0,873 0,721 0, ,764 0,747 0,729 0, ,740 0,750 0,446 0,846 Do ponto de vista prático, a análise mostrada na Tabela 8 demonstra, com base no grau de qualidade do website estimado pelo modelo multidimensional compensatório de quatro dimensões, os itens que são teoricamente dominados pelo website. Considerando o conceito de itens âncoras definidos por Beaton e Allen, (1992) e Andrade et al. (2000) no qual um dos critérios para caracterizar um item em determinado grau da escala é a probabilidade maior do que 0,650 naquele ponto da escala, verifica se que o website 001 domina a maioria todos os itens, exceto os itens 164 Anais Nº 1, ano 2013, p

173 Interpretação de Escala Multidimensional da Teoria da Resposta ao Item: uma aplicação na avaliação de qualidade de websites comerciais 27, 28, 29, 37, 38, 40, 43, 57, 61, 70 e 74, os quais apresentam probabilidade de resposta positiva inferior a 0,650. Observa se que, apesar de o website 001 apresentar maior grau de qualidade na dimensão 4, ele tem, assim como os outros 3 webistes mostrados na tabela 26, probabilidade abaixo de 0,650 (p=0,511) de responder positivamente ao item 37 o qual trata, segundo a análise do modelo, de uma característica associada a apresentação da informação. Isto se dá particularmente por se tratar de um item com parâmetro de dificuldade acima da média (0,360). Tal análise pode ser seguida aos demais itens. A análise de cada website associado com a probabilidade de resposta positiva a cada item amplia a análise prática da modelagem multidimensional, pois particulariza cada item e demonstra onde precisa ser melhorado pontualmente. Já a análise geral do grau de qualidade apresentado na Tabela 7 dá um indicativo relativo à dimensão ou ao conceito no qual o website precisa melhorar ou explorar mais. Conclusões O trabalho desenvolveu uma modelagem multidimensional utilizando a teoria da resposta ao item para mensurar qualidade em websites comerciais. Tal modelagem utilizou como base o modelo logístico de dois parâmetros multidimensional com quatro dimensões e um conjunto de 40 itens. As quatro dimensões mostraram se associadas a conceitos de navegabilidade ou condução/orientação do usuário, acessibilidade e confiabilidade do sistema, interatividade e apresentação da informação. Estas dimensões encontradas no presente trabalho remetem às dimensões mais citadas na literatura e relacionadas diretamente com a definição de qualidade em websites, que é um conjunto de características técnicas e não técnicas de um sistema web, que permitam ao usuário realizar seus objetivos em um website de forma acessível, eficiente e agradável. Como características técnicas, entende se usabilidade/navegabilidade, apresentação da informação, acessibilidade e interatividade do sistema. Como características não técnicas, entende se design, estética, apelo visual/comercial, confiabilidade, hedonismo, empatia. Anais Nº 1, ano 2013, p

174 Rafael Tezza, Antonio Cezar Bornia, Dalton Francisco de Andrade e Pedro Alberto Barbetta Do ponto de vista de implicações teóricas ao campo de qualidade em websites, o presente trabalho desenvolveu uma modelagem para avaliar requisitos de qualidade, discutiu questões relativas à dimensionalidade, e sugeriu um modelo multidimensional capaz de avaliar individualmente cada item e cada webiste em suas respectivas dimensões. Do ponto de vista prático, o trabalho abriu várias possibilidades de mensuração da qualidade em webistes comerciais com a finalidade de identificar possíveis melhorias à interface e possivelmente o desenvolvimento de ferramentas automatizadas para diagnósticos úteis para melhoria de projetos de webistes. Referências Agarwal R., Venkatesh V., Assessing a Firm's Web Presence: A Heuristic Evaluation Procedure for the Measurement of Usability, Information Systems Research, v.13 n.2, p , Aladwani, A.M. Palvia, P.C. Developing and validating na instrument for measuring user perceived web quality. Information & Management, v.39, p , Al Khalifa, H.S. The accessibility of Saudi Arabia government Web sites: an exploratory study, Universal Access in the Information Society, v.10, n.4, Andrade, D. F.; Tavares, H. R. Valle, r. C. Teoria de Resposta ao Item: conceitos e aplicações. ABE Associação Brasileira de Estatística, 4º SINAPE, Bangor, A. Kortum, P. T.. Miller, J. T. An empirical evaluation of the system usability scale. International Journal of Human Computer Interaction, v.24, n.6 p , Beaton, A. A.; Allen, N. L. Interpreting scales through scale anchoring. Journal of Educational Statistics, v. 17, p , Braz, C., Seffah A. M Raihi D. Designing a Trade Off Between Usability and Security: A Metrics Based Model, Lecture Notes in Computer Science, v.4663, p , Cai, L. flexmirttm version 1.86: A numerical engine for multilevel item factor analysis and test scoring. [Computer software]. Seattle, WA: Vector Psychometric Group, Cao, M., Zhang, Q., Seydel, J.. B2C e commerce web site quality: an empirical examination. Industrial Management & Data Systems, v.105 n.5, p , Cebi, S. A quality evaluation model for the design quality of online shopping websites, Electronic Commerce Research and Applications v.12 p , Anais Nº 1, ano 2013, p

175 Interpretação de Escala Multidimensional da Teoria da Resposta ao Item: uma aplicação na avaliação de qualidade de websites comerciais Chalmers, R.P., mirt: A Multidimensional Item Response Theory Package for the R Environment, Journal of Statistical Software, v.48, n.6, p.1 29, Chiou, W. C., Lin, C. C., Perng C., A strategic framework for website evaluation based on a review of the literature from , Information & Management, v.47, p , Deng, L., Poole, M. S.. Aesthetic design of e commerce web pages Webpage Complexity, Order and preference. Electronic Commerce Research and Applications, v.11, n.4, p , Ding, D. X., Hu, P.J.H., Sheng, O. R. L. e SELFQUAL: A scale for measuring online selfservice quality. Journal of Business Research, v.64, n.1, p , Downes, P. K. Creating a practice website. British Dental Journal, v.202, n.10, p , Ethier, J., Hadaya, P., Talbot, J., Cadieaux, J. Interface design and emotions experienced on B2C Web sites: Empirical testing of a research model. Computers in Human Behavior, v. 24, n.2, p , Fan, W., Tsai, M.,. Factors driving website success the key role of Internet customization and the influence of website quality and Internet marketing strategy. Total Quality Management, v.21 n.11, p , 2010 Fang, X., Holsapple, C.W. An empirical study of web site navigation structures' impacts on web site usability, Decision Support Systems, v.43,n.2, 2007, p Flavián, C., Guinalíu, M. Consumer trust, perceived security and privacy policy: Three basic elements of loyalty to a web site, Industrial Management & Data Systems, v.106 n.5, p , Flavián, C., Guinalíu, M., Gurrea, R., The influence of familiarity and usability on loyalty to online journalistic services: the role of user experience, Journal of Retailing and Consumer Services, v.13 p , Fleck, M. P.A., Bourdel, M. C. Método de simulação e escolha de fatores na análise dos principais componentes, Revista Saúde Pública, v.32, n.3, p267 72, Ford, J. K., Maccallum, R. C., Tait, M.. The application of exploratory factor analysis in applied psychology: a critical review and analysis. Personnel Psychology, v.39, p , Galletta, D. F.; Henry, R.; McCoy, S.; Polak, P. Web Site Delays: How Tolerant are Users?, Journal of the Association for Information Systems. v.5, n.1, PP.1 28, Anais Nº 1, ano 2013, p

176 Rafael Tezza, Antonio Cezar Bornia, Dalton Francisco de Andrade e Pedro Alberto Barbetta Goldberg, C. B., Allen, D. G.. Black and white and read all over: Race differences in reactions to recruitment Web sites. Human Resource Management, v. 47 n.2, p , Hair, J. F., Black, W. C., Babin, B.J., Anderson, R.E., Tatham, R.L. Análise multivariada de dados. 6. ed. Porto Alegre: Bookman, 2009 Hamilton, J. Benchmarking on line services industries, Journal of Systems Science and Systems Engineering, v.15, n.1, p.48 69, Hernández, B., Jiménez, J., Martín M. J. Key website factors in e business strategy, International Journal of Information Management v.29, p , 2009 Johnson, R., Wichern, D. Applied Multivariate Analysis, Prentice Hall, 6ª edição, New Jersey, Jun, M. Yang Z., Kim, D. Customers perceptions of online retailing service quality and their satisfaction, International Journal of Quality and Reliability Management, v.21, n.8, p , Kim Changsu, Galliers Robert D., Shin Namchul, Ryoo Joo Han, Kim Jongheon, Factors influencing Internet shopping value and customer repurchase intention, Electronic Commerce Research and Applications, v.11, n.4, p , Kim, S., Stoel, L. Dimensional hierarchy of retail website quality. Information & Management, v.41, n.5, p , Kulviwat, S. Bruner II, G.C. Kumar, A. Nasco, S.A. Clark, T. Toward a unified theory of consumer acceptance of technology, Psychology & Marketing, v. 24, n.12, p , Lindgaard, G., Aesthetics, visual appeal, usability, and user satisfaction: What do the user's eyes tell the user's brain? Australian Journal of Emerging Technologies and Society, v.5, n.1, p.1 14, Lindgaard, G., Gary J. F., Cathy D., J. Brown. Attention Web Designers: You Have 50 Milliseconds to Make a Good First Impression! Behavior and Information Technology v.25 p115 26, Loiacono, E., Watson, R., Goodhue, D., WEBQUAL: a measure of web site quality, in Evans, K., Scheer, L. (Eds),Marketing Educators' Conference: Marketing Theory and Applications, v. 13 p.432 7, Mbipom, G. Harper, S. Visual Aesthetics and Accessibility: Extent and Overlap. HCW EIVAA Technical Report 2, February, McDonald, R. P. Nonlinear factor analysis (Psychometric Monographs, No. 15). Iowa City: Psychometric Society, Anais Nº 1, ano 2013, p

177 Interpretação de Escala Multidimensional da Teoria da Resposta ao Item: uma aplicação na avaliação de qualidade de websites comerciais McKinney, L.N. Creating a Satisfying Internet Shopping Experience via Atmospheric Variables. International Journal of Consumer Studies, v.28, n.3, p , Monsuwe, P. T., Dellaert, B., G., C., Ruyter, K. What drives consumers to shop online? A literature review. International Journal of Service Industry Management, v.12, n.1, p , Nusair, K., Kandampully, J., The antecedents of customer satisfaction with online travel services: a conceptual model, European Business Review, v.20, n.1, p.4 19, Palmer J.W., Web site usability, design, and performance metrics, Information Systems Research v.13, n.2, p , Pandir, M. Knight. J. Homepage aesthetics: The search for preference factors and the challenges of subjectivity, Interacting with Computers v.18, p , Pinterits, A. Treiblmaier, H. Pollach I. Environmental websites: an empirical investigation of functionality and accessibility. International Journal of Technology, Policy and Management, v.6, n.1, Reckase, M. A linear logistic multidimensional model for dichotomous items response data. In W. J. van der Linden and Hambleton (Ed.), Handbook of Modern Item Response Theory (pp ). New York: Springer, Schmettow, M., Vietze, W., Introducing item response theory for measuring usability inspection processes, Proceeding of the twenty sixth annual SIGCHI conference on Human factors in computing systems, April 05 10, Florence, Italy, Seffah, A., Donyaee, M., Kline, R. B., Harkirat K., Padda,K. Usability measurement and metrics: A consolidated model, Software Quality Control, v.14 n.2, p , Spector, P. E., van Katwyk, P. T., Brannick, M. T., Chen, P. Y. When two factors don t reflect two constructs:how item characteristics can produce artificial factors. Journal of Management, v.23, p , Stepchenkova S., et al. Benchmarking CVB website performance: Spatial and structural patterns, Tourism Management, v.31, p , Taylor, M.J., England, D. (2006), Internet marketing: web site navigational design issues, Marketing Intelligence & Planning, v.24, n.1, p.77 85, Tezza, R., Bornia, A.C., Andrade, D.F., Measuring web usability using item response theory: Principles, features and opportunities, Interacting with Computers, v. 23, n.2, p , van der Merwe, R., Bekker, J. A framework and methodology for evaluating e commerce Web sites. Internet Research: Electronic Networking Applications and Policy, v.13 n.5 p , Anais Nº 1, ano 2013, p

178 Rafael Tezza, Antonio Cezar Bornia, Dalton Francisco de Andrade e Pedro Alberto Barbetta W3C (2008). Web content accessibility guidelines (wcag) 2.0. W3C Recommendation. Disponível em: Acessado em 25 de maio de Yang, Z., Jun M., Peterson, R.T. Measuring customer perceived online service quality: scale development and managerial implications, International Journal of Operations and Production Management, v.21, n.11,p , Recebido em: 03/11/2013 Avaliado em: 25/11/ Anais Nº 1, ano 2013, p

179 Processo de Composição da Prova SARESP do 5º EF de Matemática The Process of Composition of Mathematics test SARESP to the 5th Year of Elementary School Rodrigo de Souza Bortolucci Mestre em Educação Matemática, VUNESP Pesquisador, Fundação VUNESP Resumo Este trabalho apresenta o processo de composição da prova de Matemática SARESP 2013 de Matemática, para o 5º Ano do Ensino Fundamental, e explicita como a aplicação da TRI contribui nesse processo a fim de garantir uma avaliação isenta, que se identifica com o público a que se destina e que tem condições de oferecer subsídios para a melhoria do ensino público do estado de São Paulo. Palavras chave: SARESP. Avaliação de Larga Escala. Curva de informação do teste. Abstract This study presents the elaboration method of mathematics test in external assessment SARESP and shows how the Item Response Theory IRT adds to the quality of test to provide subsidies to educational system of the state of São Paulo Brazil. Keywords: SARESP. External assessment of Large Scale. Curve of test information. Introdução O Sistema de Avaliação de Rendimento Escolar do Estado de São Paulo SARESP é uma avaliação externa, aplicada desde 1996, que visa fornecer informações sobre o rendimento escolar da Educação Básica paulista, desde as séries iniciais até o desfecho no final do Ensino Médio, a fim de orientar os gestores que monitoram as políticas voltadas para a melhoria da qualidade do ensino. Esse Sistema de Avaliação utiliza se de provas para análise do desempenho dos alunos do 5º, 7º e 9º anos do Ensino Fundamental e da 3ª série do Ensino Médio, cuja montagem faz uso da metodologia dos Blocos Incompletos Balanceados (BIB) enquanto que a apuração dos resultados é respaldada pela Teoria de Resposta ao Item (TRI). A utilização do BIB torna possível o uso de uma grande quantidade de itens por série e disciplina, tornando possível a análise de um maior número de competências e habilidades do aluno. A TRI, por sua vez, permite analisar as respostas, calcular e

180 Rodrigo de Souza Bortolucci ancorar, na escala adotada pelo SARESP, as escalas médias de proficiências apuradas. Desta forma é possível, interpretar pedagogicamente os resultados para os diferentes pontos da escala e acompanhar a evolução dos indicadores de qualidade da educação ao longo dos anos. Nesse cenário, a escolha dos itens que compõem as provas é de fundamental importância, pois estes devem garantir a comparabilidade, a validade e a fidedignidade das análises de cada edição. Além do mais, é necessário que as provas permitam uma investigação contínua dos avanços e necessidades de cada ano escolar em Matemática. Este trabalho tem por objetivo apresentar e discutir o processo de composição da prova SARESP 2012 na área de Matemática aplicada aos alunos do 5º Ano do Ensino Fundamental da rede de ensino pública estadual paulista na perspectiva da Teoria de Resposta ao Item (TRI). 1. Metodologia A escolha dos itens para composição da prova de Matemática do 5º Ano do Ensino Fundamental (EF) atendeu aos seguintes critérios: - pertinência e adequação das habilidades definidas na Matriz de Referência para a Avaliação SARESP com o Currículo do Estado de São Paulo para o Ensino Fundamental. - utilização de itens pré testados, que apresentam bons índices/parâmetros estatísticos (TCT e TRI), com grau de dificuldade compatível com as exigências da SEE/SP e que permitam a continuidade da análise do desempenho obtido em edições anteriores. - grau de distanciamento entre as médias de proficiência em Matemática do SARESP 2011 e a média correspondente ao Nível Adequado, tido como padrão do desempenho esperado na avaliação SARESP. - a necessidade de incluir itens de ligação, nesse caso itens SAEB, que fizeram parte das provas propostas em edições anteriores, que garantam a comparação de desempenho em anos consecutivos de aplicação do SARESP e a verificação de habilidades durante a trajetória escolar. 172 Anais Nº 1, ano 2013, p

181 Processo de Composição da Prova SARESP do 5º EF de Matemática Segundo esses critérios, foram selecionados 104 itens para compor as provas de Matemática aplicadas aos alunos do 5º Ano EF, sendo estes 104 itens distribuídos em 26 cadernos de prova, com 24 itens cada. 2. Discussão As habilidades que compõe a matriz de avaliação do 5º Ano do Ensino Fundamental são distribuídas, assim como nos demais anos, em quatro Competências de Área (CA): Números, Operações e Funções (CA 1): busca investigar, principalmente, se o aluno é capaz de identificar diferentes representações numéricas, observar sequências numéricas e resolver situações problema envolvendo as diversas situações relacionadas às quatro operações fundamentais. Espaço e Forma (CA 2): analisa a capacidade do estudante de identificar formas geométricas, ampliações e reduções de figuras planas e observar e descrever a localização de pessoas ou objetos. Grandezas e Medidas (CA 3): verifica se o aluno é capaz de identificar as unidades de medidas usuais, estimar a medida de grandezas por meio de medidas convencionais ou não e resolver situações problema envolvendo o cálculo de perímetro e área. Tratamento da Informação (CA 4): examina a capacidade do estudante de ler, compreender e interpretar informações dispostas em tabelas ou gráficos de colunas. Além disso, cada uma dessas competências de área é dividida em Competências para observar (G I), Competências para realizar (G II) e Competências para compreender (G III), associados às competências cognitivas próprias do aluno. No 5º EF o número de habilidades está dividido da seguinte maneira 1 : TEMAS G I G II G III Total CA 1: Números, Operações e Funções CA 2: Espaço e Forma CA 3: Grandezas e Medidas CA 4: Tratamento da Informação Total Em anexo segue a distribuição das habilidades na matriz do 5º Ano do Ensino Fundamental. Disponível em Anais Nº 1, ano 2013, p

182 Rodrigo de Souza Bortolucci A montagem da prova inicia se com a divisão dos 104 itens proporcionalmente, se não igual ao menos próxima, ao número de habilidades distribuídas em cada uma das competências de área, assim como nos grupos de competências cognitivas dos alunos. Em seguida, a distribuição dos itens dentro de cada um destes blocos leva em consideração os desempenhos dos alunos nos últimos anos, de modo a continuar evidenciando a consolidação de certas habilidades e, principalmente, investigar indicativos de outras que ainda necessitam de maiores cuidados. Por exemplo, a habilidade 10 da matriz do SARESP: calcular o resultado de uma adição ou subtração de números naturais, se mostra consolidada pela grande maioria dos alunos do ano escolar em questão, tendo em vista que as diversas questões propostas para essa habilidade sempre apresentam um elevado percentual de acerto. Já a habilidade 12, resolver problemas que envolvam a adição ou subtração, em situações relacionadas aos seus diversos significados, mesmo estando ligada à H10, apresenta percentual de acerto consideravelmente menor quando comparado ao desempenho na habilidade 10. Sendo assim, a prova traz um número menor de questões para aferir a habilidade 10 e, prioriza um maior número de itens de H12 a fim de agregar precisão ao(s) ponto(s) da escala SARESP que tratam das competências derivadas dessa habilidade. Essa proposta atenta se ao fato da prova SARESP aferir a proficiência das turmas avaliadas e que essa medida não resulta simplesmente da contabilização do número de erros e acertos, mas sim de uma análise dos acertos contínuos dos estudantes, então sua elaboração não pode ser sustentada apenas por conter certa quantidade de itens fáceis, médios e difíceis, mas sim, principalmente, por permitir que os alunos respondam itens relativos às suas respectivas proficiências. A fim de garantir que os alunos se deparem com uma prova que os permita demonstrar suas habilidades, é necessário, em um primeiro momento, conhecer quem é a população alvo que realizará a prova. Ou seja, saber responder, entre outras, perguntas como: 174 Anais Nº 1, ano 2013, p

183 Processo de Composição da Prova SARESP do 5º EF de Matemática i) Qual a proficiência média destes alunos? Se um dos objetivos da avaliação é diagnosticar o rendimento escolar dos alunos da rede pública e a sua evolução, então se torna necessário conhecer as aptidões da sua maioria. Sendo assim, há que concentrar um maior número de itens em torno da proficiência média daquele ano/série focalizando suas reais habilidades, além de propiciar, mesmo que de forma discreta, uma melhora no rendimento dos alunos em relação ao ano anterior. Portanto, não é indicado, por exemplo, propor uma prova com uma grande concentração de itens que caracterizam o ponto 350 na escala de proficiência SARESP para avaliar os alunos que, em média, apresentam proficiência 200, pois, em uma prova deste tipo a grande parte dos alunos provavelmente não iria identificar a alternativa correta das questões. Ou seja, a prova iria demonstrar o que os estudantes não sabem fazer, não se propondo ao objetivo de diagnosticar as habilidades que os alunos de fato dominam. Para este modelo de prova o oposto também é verdadeiro, ou seja, o fato de tentar garantir que a prova caracterize a maioria dos estudantes resulta numa avaliação menos adequada dos alunos que estão distantes (para mais ou para menos) da proficiência dos alunos em questão. ii) Quais habilidades apresentam maiores índices de acertos e erros? Quais os motivos disso? O que fazer a partir disso? A partir dos resultados das edições anteriores, é possível conhecer o público alvo da avaliação; a sua posição na escala; quais as habilidades associadas a essa proficiência e o que se espera que o aluno consiga fazer e quais suas possíveis dificuldades. Essas ponderações auxiliam no estudo e entendimento dos erros e acertos característicos da turma, partindo da proficiência aferida àquela questão e sua adequação para o propósito de avaliação daquela turma. No caso do erro, a análise pode apontar, entre outras possibilidades, se é necessário utilizar se de uma questão que trate o assunto de forma mais simples de modo a evidenciar ainda mais a aferição de proficiência. Já no caso de acerto, um Anais Nº 1, ano 2013, p

184 Rodrigo de Souza Bortolucci estudo pode direcionar a um próximo passo que investigue aquela habilidade de uma nova maneira, a fim daquela habilidade aparecer em novos pontos da escala. Fazer isso não significa simplesmente, tornar a prova mais fácil ou mais difícil, mas sim no primeiro caso (o erro), de tentar identificar o momento em que este se inicia, ou seja, que conceitos realmente foram consolidados e o que é que que não está permitindo ao aluno atingir determinada proficiência. Já no segundo caso (o acerto), a tentativa é exatamente dar um passo adiante de forma coerente. Levando em consideração todos esses fatores, um primeiro modelo de prova foi proposto para a avaliação. A partir da relação dos 104 itens foi estimada a curva de informação da prova que permite analisar quanto o teste contém de informação para a medida de habilidade. Conforme se vê a seguir, o eixo horizontal do gráfico corresponde a um intervalo de 6 a 6 pontos que podem ser associados aos pontos da escala. Para fazer tal correspondência, assume se um ponto b do intervalo, multiplica se por 50 e adiciona se a 250, porque este é o ponto médio da escala. O gráfico seguinte mostra a curva de informação para a primeira proposta de prova. 176 Anais Nº 1, ano 2013, p

185 Processo de Composição da Prova SARESP do 5º EF de Matemática Nota se que a prova apresenta um alto poder de informação um pouco adiante do ponto 0,5, que corresponderia ao ponto 225 da escala de proficiência SARESP. Além disso, o erro padrão no intervalo 2 2 a 2 é consideravelmente baixo. Como a proficiência dos alunos está próxima de 210, foram propostas algumas alterações na composição da prova, de modo a deslocar a curva à esquerda. Após as mudanças um novo gráfico foi gerado. Em comparação ao primeiro gráfico temos: 2 Esse intervalo corresponde ao intervalo de 150 a 350 na escala de proficiência SARESP. Anais Nº 1, ano 2013, p

186 Rodrigo de Souza Bortolucci É possível notar que a alteração resultou na mudança esperada, trazendo o pico da curva mais próximo da proficiência média dos alunos, tornando a prova mais alinhada com as aspirações iniciais de sua concepção. Com uma avaliação nesse formato é esperada uma caracterização mais detalhada do desempenho da turma avaliada, afinal os itens não estão distantes da proficiência de grande parte dos alunos respondentes. Além disso, o pico da segunda curva de informação do teste ocorre no ponto 0,5, ou seja, corresponde ao ponto 225 da escala que é o ponto seguinte que os alunos do 5º Ano do Ensino Fundamental deverão alcançar em Matemática. Considerações Finais É preciso destacar que para atingir os objetivos propostos para a prova, a necessidade de aferir determinados intervalos da escala é mais relevante que a mera contagem de itens classificados como fáceis, médios ou difíceis. Privilegiar a imposição da necessidade de certo número de itens de cada dificuldade aferida causa uma inversão nas expectativas da prova. O distanciamento entre a proficiência média dos alunos e o que é tido como adequado aos mesmos 178 Anais Nº 1, ano 2013, p

187 Processo de Composição da Prova SARESP do 5º EF de Matemática resulta num maior número de questões classificadas como médias e difíceis, quando comparado as fáceis. Consequentemente, o número de questões fáceis se restringe a poucas habilidades presentes na matriz. Com isso, ao invés de propor itens mais sofisticados para essas habilidades, elas destinam se apenas a atingir um determinado número de perguntas fáceis, mesmo que essas contribuam pouco para medir a proficiência da turma. Portanto, o fato de uma prova conter maior concentração de itens classificados como médios ou difíceis, não acarreta em prejuízo no cálculo da média de proficiência, afinal isso é decorrência direta entre o distanciamento do que se considera adequado para a turma. O contrário sim, é prejudicial, ou seja, trocar parte dessas questões por outras tidas como fáceis, cujo percentual de acerto será muito alto contribui apenas para um aumento no número de acertos da turma, mas que não resulta aumento da proficiência média. Além disso, a substituição de questões, invariavelmente dificulta o mapeamento das lacunas entre os pontos da escala. Sendo assim, para uma avaliação externa isenta, é fundamental conhecer tanto o processo de aferição da proficiência, por meio da TRI, como o público que está sendo avaliado, respeitando suas limitações e explorando cada vez mais suas capacidades de modo a efetivamente promover a melhoria da educação. Referências ANDRADE, D. F.; TAVARES, H. R. e VALLE, R. C. Teoria de Resposta ao Item: conceitos e aplicações. ABE Associação Brasileira de Estatística, 4º SINAPE, SÃO PAULO (Estado) Secretaria da Educação. Matrizes de Referência para a avaliação: Matemática / Secretaria da Educação; coordenação geral, Maria Inês Fini. São Paulo: SEE, 2009., Secretaria da Educação. Proposta Curricular do Estado de São Paulo: Matemática. Coord. Maria Inês Fini. São Paulo: SEE, 2008., Secretaria da Educação. Relatório Pedagógico SARESP 2012 Matemática. Execução Rodrigo de Souza Bortolucci, Maria Eliza Fini, Ligia Maria Vettorato Trevisan e Tânia Cristina A. de Azevedo Fundação VUNESP São Paulo: SEE, Recebido em: 03/11/2013 Avaliado em: 25/11/2014 Anais Nº 1, ano 2013, p

188 Rodrigo de Souza Bortolucci ANEXO 180 Anais Nº 1, ano 2013, p

189 III CONBRATRI Congresso Brasileiro de Teoria de Resposta ao Item Seção Pôster ANAIS Direitos Reservados 2013 Emerson Coe

190 Alan

191 Aplicação da Teoria de Resposta ao Item no Estudo de Habilidades de Alunos de Educação à Distância Application of the Theory of Response to Item no Study Skills for Distance Education Students Alessandra Caetano de Souza MBA em Gestão Estratégica em Logística e MBA em Gestão Estratégica e Negócios, Administração, Faculdade Anhanguera/MG Professora, Tutora de EaD, Faculdade Anhanguera alessandracaetano@hotmail.com.br Augusto Sousa da Silva Filho Mestre em Modelagem Matemática e Computacional, CEFET/ MG Professor, Faculdade IBS FGV augustofilho@yahoo.com.br Anna Gabriela Miranda de Oliveira Mestre em Administração, Faculdade Novos Horizontes/MG Professora, Faculdade Anhanguera/ MG annamira@gmail.com Resumo Neste artigo foi realizada a analise das habilidades de uma amostra de alunos do curso de administração semipresencial de uma instituição de ensino privada em Belo Horizonte, no que tange a habilidade no uso do ambiente virtual de aprendizagem AVA. Para o desenvolvimento do que foi proposto foram criadas questões (itens), baseadas na teoria de resposta ao item TRI. O desenvolvimento da TRI aplicado para mais de um grupo (amostras) diferentes é considerada um dos maiores avanços nos últimos anos, pois possibilita a comparação de indivíduos de grupos (amostras) distintos, submetidos a provas e/ou questionários diferentes, mas com itens comuns, com redução significativa dos erros de modelagem. Posteriormente foi realizado um pré teste para detectar possíveis falhas nos itens que compõem os questionários. Finalmente os questionários foram aplicados para a amostra de alunos do segundo e do oitavo períodos. Nesta situação obtiveram se dois grupos (amostras) diferentes de alunos. Após a aplicação dos questionários e tabulação dos dados foram utilizados os pacotes ltm e irtoys do R Statistical em conjunto com os conceitos da TRI para estimar os parâmetros de interesse e os respectivos traços latentes. Palavras chave: EaD. Tecnologias de informação e comunicação. Teoria de resposta ao item TRI. Abstract In this article we analyzed the abilities of a sample of students of blended administration of a private college in Belo Horizonte, regarding the ability to use the virtual learning environment AVA. (Items) based on item response theory TRI to the development of what was proposed questions were created. The development of the IRT applied for over a different group ( samples ) is considered one of the greatest advances in recent years, since it allows the comparison of different groups of individuals (samples ) submitted to tests and/or different questionnaires, but with common items with significant reduction of modeling error.

192 Alessandra Caetano de Souza, Augusto Sousa da Silva Filho e Anna Gabriela Miranda de Oliveira Subsequently a pre test was performed to detect possible flaws in the items comprising the questionnaires. Finally, the questionnaires were applied to the sample of students of the second and eighth periods. In this situation two groups were obtained (samples) of different students. After the questionnaires and tabulation of the data packets and the ltm irtoys the R Statistical were used in conjunction with the concepts of TRI to estimate the parameters of interest and their respective latent traits. Keywords: Distance education. Information and communication technologies. Item Response Theory. Recebido em: 03/11/2013 Avaliado em: 25/11/ Anais Nº 1, ano 2013, p

193 Aplicação do Modelo Log log de Resposta ao Item Application of the Model Log log Item Response Ediane Nascimento Ferreira Mestranda em Estatística, UFPA Maria Regina Madruga Tavares Doutora em Estatística, USP Professora da Faculdade de Estatística, ICEN UFPA Heliton Ribeiro Tavares Doutor em Estatística, USP Professor da Faculdade de Estatística, ICEN UFPA Resumo Esse artigo tem como principal objetivo apresentar, propor e discutir com detalhes o desenvolvimento de uma nova função de resposta ao item assimétrica (FRA) dentro da Teoria da Resposta ao Item (TRI). Esta função é obtida pelo uso de uma nova curva característica do item (CCI) denominada de função de ligação log log. A estimação dos parâmetros dos itens é feita por Máxima Verossimilhança Marginal (MVM), supondo que a distribuição da habilidade populacional é conhecida. Estudos de simulação foram desenvolvidos para verificar o desempenho dos algoritmos desenvolvidos e a importância da escolha da função de ligação assimétrica. Palavras chave: Função de resposta assimétrica. Máxima verossimilhança marginal. Abstract This article aims to present, propose and discuss in detail the development of a new function of asymmetric response to item (FRA) within the Item Response Theory (IRT). This function is obtained by the use of a new item characteristic curve (ICC) function called log log link. The estimation of the item parameters is made by Marginal Maximum Likelihood (MVM), assuming that the population distribution of ability is known. Simulation studies have been developed to verify the performance of developed algorithms, and the importance of the choice of function unbalanced. Keywords: Asymmetric response function. Marginal maximum likelihood. Recebido em: 03/11/2013 Avaliado em: 25/11/2014

194 Ediane Nascimento Ferreira, Maria Regina Madruga Tavares e Heliton Ribeiro Tavares 186 Anais Nº 1, ano 2013, p

195 A Utilização da Teoria da Resposta ao Item para a Produção de Indicadores de Infraestrutura Escolar The use of Item Response Theory to Produce Indicators of School Infrastructure Gabriely Teixeira Graduanda em Estatística, UFJF Bolsista do Observatório da Educação, CAPES gabylazzarini_@hotmail.com Neimar da Silva Fernandes Graduando em Ciências Exatas, UFJF. Auxiliar de pesquisa, CAEd/UFJF neimar@caed.ufjf.br Andressa Soares Graduanda em Direito, UFJF Bolsista do observatório da educação CAPES andressaosoares@hotmail.com Tufi Machado Soares Pós Doutor em Estatística Professor Associado, UFJF; Coordenador de Pesquisa do CAEd/UFJF tufi@caed.ufjf.br Resumo A educação contemporânea utiliza cada vez mais diversas mídias e computadores, adicionalmente, a presença de dependências adequadas mostra se necessária a um melhor bem estar escolar, portanto é essencial a avaliação da infraestrutura. O Censo Escolar é uma importante ferramenta pois apresenta uma série de informações acerca das escolas brasileiras quanto suas dependências, posse de itens e etc. Entretanto, esta quantidade de variáveis dificulta a análise da infraestrutura, tornando se necessária a redução dimensional do conjunto, permitindo a construção de indicadores. Selecionou se ao todo 43 variáveis dicotômicas (que descrevem a posse de mídias, existência de bibliotecas, salas de professores, entre outros), fazendo se necessário o uso de modelos adequados a este tipo de resposta (neste caso a Análise Fatorial da Informação Plena). Após a realização desta, identificou se uma dimensão preponderante que explica 55% da variabilidade total, podendo assim considerar este conjunto como unidimensional, possibilitando a construção de um indicador geral para a infraestrutura escolar. Para recuperar o escore desta medida, foi empregado o modelo da Teoria da Resposta ao Item (TRI) de dois parâmetros. Esta pesquisa mostrou que as escolas tendem a ser mais carentes ou estruturadas em todos os aspectos avaliados. Este indicador possibilita a identificação de tais escolas, para que sejam auxiliadas. Palavras chave: Infraestrutura escolar. Análise fatorial da informação plena. Construção de indicadores.

196 Gabriely Teixeira, Neimar da Silva Fernandes, Andressa Soares e Tufi Machado Soares Abstract Contemporary education strategies are increasingly based upon multimedia resources. The quality of school infrastructure needs to be currently evaluated, as it is cumbersome for better student welfare and performance. In this setting, School Census is an important tool, as it features vital information regarding Brazilian schools and their facilities as well as other available resources. The generation of a large number of variables, however, tends to complicate the analysis of data regarding infrastructure, thus requiring the size reduction of the whole, allowing the construction of indicators. A total of 43 dichotomic variables, describing the ownership of media, existence of libraries, professor rooms, among others, were created. Factorial analysis of full information was considered the most suitable for the analysis of this type of response model, and was employed. Next, we identified a dominant dimension that explained 55% of the total variability, and thus considered this data set as onedimensional, allowing the construction of a general indicator for the quality of school infrastructure. To retrieve the score of this measure, we employed the two parameter model of Item Response Theory (IRT). In conclusion, the studied model was capable of telling which schools tended to be poorer or better structured in all aspects evaluated, thus enabling the correct identification of schools to be prioritarily assisted. Keywords: School infrastructure. Full information factor analysis. Construction of indicators. Recebido em: 03/11/2013 Avaliado em: 25/11/ Anais Nº 1, ano 2013, p

197 Avaliando a Dimensionalidade de itens de um Simulado do ENEM Dimensionality Assessment of the ENEM Mock Test Hugo Kenji Pereira Harada Mestre em Arquitetura de Computadores, Tohoku University/ Japão Diretor de Operações, Adaptativa Inteligência Educacional hugo.harada@adaptativa.com.br Clecio Donizete Lima Doutor em Arquitetura de Computadores, Tohoku University/ Japão Diretor Geral, Adaptativa Inteligência Educacional clecio.lima@adaptativa.com.br Fabrício Martins da Costa Mestrado em Matemática e Estatística, UFPA fabricio_estatistica@hotmail.com Heliton Ribeiro Tavares Doutor em Estatística, USP heliton@ufpa.br Resumo O Exame Nacional do Ensino Médio (ENEM) avalia a proficiência na área de linguagens e códigos e suas tecnologias através da aplicação da Teoria da Resposta ao Item (TRI) a uma prova composta por 40 questões de português e 5 de língua estrangeira. Os modelos de TRI comumente utilizados assumem que uma única dimensão é suficiente para expressar o aprendizado das línguas nativa e estrangeira. Estudos mostram, no entanto, que o processo de aprendizado de uma língua nativa difere do de uma língua estrangeira, dentre outros fatores, pelo grau de exposição do indivíduo a cada uma dessas linguagens durante o processo de formação de sua capacidade cognitiva. Estas diferenças justificam a indagação sobre a existência de dimensões adicionais que melhor representem o aprendizado da língua estrangeira. Os dados utilizados neste estudo foram obtidos a partir do simulado do ENEM promovido pela Adaptativa Inteligência Educacional e pelo jornal Folha de S.Paulo em 16 de setembro de Os dados foram analisados através do software IRTPRO V.2.01, e o modelo de três parâmetros (3PL) foi utilizado. A prova português/inglês (POR ING) foi analisada separadamente da prova português/espanhol (POR ESP) para avaliar o impacto de cada uma dessas línguas em cada um dos modelos utilizados. A análise fatorial preliminar da prova de POR ING aponta a presença nítida de uma dimensão adicional quase que limitada aos itens de inglês. Por outro lado, a análise de POR ESP indica que a segunda dimensão, que deveria se expressar predominantemente nos itens de língua espanhola, foram observados também nos itens de língua portuguesa. Isso ocorre provavelmente devido às similaridades estruturais entre as duas línguas. Durante esta etapa, confirmou se ainda a inexistência de uma terceira dimensão. O modelo bidimensional 2D FD, no qual cada dimensão influencia todos os itens analisados, foi o que se ajustou de maneira mais adequada aos dados quando comparado aos modelos unidimensionais e outros modeles bidimensionais pesquisados. Palavras chave: TRI. TRIM. ENEM. Modelos multidimensionais.

198 Hugo Kenji Pereira Harada, Clecio Donizete Lima, Fabrício Martins da Costa e Heliton Ribeiro Tavares Abstract The National High School Exam (ENEM) assesses proficiency in the area of languages, codes and its technologies through the application of Item Response Theory (IRT) to a test composed of 40 questions of Portuguese and 5 questions of a foreign language. Commonly used IRT models assume that a single dimension is sufficient to express the learning of native and foreign languages. Studies show, however, that the process of learning a native language differs from that of foreign language and depend, among other factors, on the degree of the individual's exposure to each of these languages during the development of their cognitive capacity. Such differences justify the questioning about the existence of extra dimensions in the models used that best represent the learning of a foreign language. The data used in this study were obtained from the ENEM mock test sponsored by Adaptive Educational Intelligence and the newspaper Folha de S. Paulo on September 16, Data were analyzed using the IRTPRO v.2.01 software, and three parameter model (3PL) was used. The Portuguese/English (POR ENG) test was analyzed separately from the Portuguese/Spanish test (POR ESP) to assess the impact of these languages in each of the models used. Preliminary factor analysis of the data for the POR ING test indicates a clear presence of an additional dimension that is almost limited to items of English. Moreover, analysis of POR ESP test indicates that the second dimension, which should express itself in predominantly on Spanish items were also observed on Portuguese ones. This is probably due to the structural similarities between the two languages. It was confirmed the lack of a third dimension. Of all models assessed, the twodimensional model in which each dimension influences all items of the test fitted best to the data collected. Keywords: TRI. TRIM. Multi dimensional models. Recebido em: 03/11/2013 Avaliado em: 25/11/ Anais Nº 1, ano 2013, p

199 Análise da Eficiência de Estimação de Parâmetros da TRI pelo Software ICL Analysis of Efficiency Estimation of the Parameters of Tri Software ICL Juscelia Dias Mendonça Doutoranda em Estatística e Experimentação Agropecuária, UFLA Professora Assistente do Departamento de Estatística, UFMT jusceliadm@yahoo.com.br Tábata Saturnina Trindade de Morais Doutoranda em Estatística e Experimentação Agropecuária, UFLA Professora Assistente do Departamento de Estatística, UFMT tabata1805@hotmail.com Danielle Gonçalves de Oliveira Prado Doutoranda em Estatística e Experimentação Agropecuária, UFLA Professora Assistente do Departamento de Estatística, UFTPR danigoprado@hotmail.com Resumo Atualmente, importantes decisões como o planejamento de políticas públicas educacionais e a seleção de concursos públicos, são tomadas a partir de resultados obtidos em algumas avaliações. Devido a tal importância, os instrumentos utilizados para a obtenção dos resultados devem ser válidos e precisos. Com esse objetivo, a Teoria de Resposta ao Item (TRI) que é um conjunto de modelos matemáticos, que procuram representar a probabilidade de um indivíduo dar certa resposta a um item, em função de características do item e do traço latente dos examinados, vem sendo desenvolvida. O modelo mais utilizado atualmente é o modelo logístico de três parâmetros para itens dicotômicos e unidimensionais. Este modelo possui três parâmetros dos itens que são: discriminação (a), dificuldade (b), acerto casual de indivíduos com baixa habilidade (c), e a habilidades dos examinados (θ). Para estimar tais parâmetros, existem softwares específicos, livres e comerciais. O ICL (Item response theory Command Language) é um software livre que faz estimação de parâmetros dos modelos da TRI, ele foi desenvolvido por Bradley Alvin Hanson e utiliza o algoritmo EM para realizar suas estimativas. Neste trabalho, foram realizadas simulações verificando o comportamento do software frente ao aumento de número de itens e examinados, e maior variação do parâmetro de discriminação e dificuldade. Os resultados mostram que o ICL, nas situações analisadas, produz estimativas próximas das verdadeiras para os parâmetros, sendo que os melhores resultados são obtidos na estimação das habilidades dos examinados. Palavras chave: Teoria de Resposta ao Item. Simulações. Estudo da confiabilidade do software ICL. Abstract Currently, important decisions are made based on results obtained in assessment Due to this importance, the instruments used to obtain the results should be valid and accurate. With this objective, the Item Response Theory (IRT) has been developed. The model most used today is the three parameter logistic model for dichotomous items and one dimensional. To estimate

200 Juscelia Dias Mendonça, Tábata Saturnina Trindade de Morais e Danielle Gonçalves de Oliveira Prado the parameters, there are specific software, free and commercial, the ICL (Item response theory Command Language) is a free software that makes parameter estimation of IRT models. In this work, simulations were performed verifying software behavior. The results show that the ICL in the situations analyzed, produces estimates close to the true parameters, and the best results are obtained in the estimation of the skills examined. Keywords: : Item Response Theory. Simulations. Reliability of software ICL. Recebido em: 03/11/2013 Avaliado em: 25/11/ Anais Nº 1, ano 2013, p

201 Análise dos Tempos de Respostas em Teste de Leitura em Voz Alta Analysis of Response Times in Reading Aloud Tests Marcos Antonio da Cunha Santos Doutor em Estatística, USP Universidade Federal de Minas Gerais UFMG Ângela Maria Vieira Pinheiro Doutorado em Psicologia Cognitiva pela University of Dundee, Escócia Universidade Federal de Minas Gerais UFMG Fábio Nogueira Demarqui Doutor em Estatística, UFMG Universidade Federal de Minas Gerais UFMG Resumo Neste trabalho apresentamos uma análise das respostas de 331 estudantes do 2º ao 5º ano do ensino fundamental na leitura em voz alta de um banco de dados composto por 323 palavras, devidamente classificadas de acordo com suas características psicolinguísticas. O traço latente é a habilidade de leitura das crianças. Um aspecto do banco de dados analisado é que, além da precisão da resposta (correto/incorreto), os tempos de resposta e de processamento do estudante também foram registrados. Nossos principais objetivos são a elaboração de um modelo estatístico para o tratamento da variável tempo de resposta e o estudo de critérios para a classificação e seleção de palavras apropriadas para compor os itens de um teste de reconhecimento de palavras. Este teste, través do controle de tempo de resposta e da precisão dos itens, deverá permitir uma avaliação dos processos envolvidos no reconhecimento de palavras. No presente trabalho apresentamos resultados parciais da análise dos tempos de resposta e precisão dos itens da citada base de dados. Trata se de uma análise exploratória realizada a fim de detectar comportamento diferencial de itens (DIF), considerando se o nível socioeconômico do examinando ou o nível educacional de seus pais. A presença de comportamento diferencial foi observada em alguns itens. Estes resultados deverão ser confirmados em estudos posteriores. Palavras chave: Tempo de resposta. Testes de reconhecimento de palavras. Funcionamento diferencial do item. Abstract In this work we present an analysis of the responses of 331 students from 2nd. to 5th grade of the elementary school in the reading aloud of a database consisting of 323 words, appropriately classified according to their psycholinguistics characteristics. The latent trait is the reading ability of the children. One aspect of the database analyzed is that, apart from the accuracy of the answer (correct/incorrect), the response/processing time of the student was also registered. Our main objectives are the elaboration a statistical model for the treatment of response time variable and the study of criteria for the classification and selection of

202 Marcos Antonio da Cunha Santos, Ângela Maria Vieira Pinheiro e Fábio Nogueira Demarqui appropriate words to compose the items of a word recognition test. This test, by the control of both response time and accuracy of the items, will allow the assessment of the processes involved in word recognition. We present partial results of the analysis of response times and accuracy of the items of the referred database. It consisted of an exploratory analysis which was carried out in order to detect the differential item functioning (DIF) considering the socioeconomic level of the examinee or the educational level of their parents. Items with some level of DIF was observed. These results should be confirmed in further studies. Keywords: Response time. Word recognition tests. Differential item functioning. Recebido em: 03/11/2013 Avaliado em: 25/11/ Anais Nº 1, ano 2013, p

203 Propostas de Avaliação em Diferentes Níveis de Proficiência: um estudo comparativo Proposals of Tests in Differents Levels of Proficiency: a comparative study Rodrigo de Souza Bortolucci Mestre em Educação Matemática, VUNESP Pesquisador, VUNESP rbortolucci@vunesp.com.br Adriana Moraes de Carvalho Mestre em Estatística, UFPA Técnico em Avaliação Educacional, VUNESP amoraes@vunesp.com.br Dalton Francisco de Andrade Doutor em Biostatistics, UNC SYSTEM Professor Voluntário do Departamento de Engenharia de Produção e Sistemas, UFSC dandrade@inf.ufsc.br Tânia Cristina Arantes Macedo de Azevedo Doutora em Física, USP Diretora Acadêmica, VUNESP diretoria@vunesp.com.br Resumo Este trabalho discute a adequação de diferentes provas elaboradas para avaliar os diferentes níveis de proficiência dos alunos do 9º Ano do Ensino Fundamental em Matemática da rede de ensino do Estado de São Paulo, submetidos a avaliação de larga escala SARESP. O estudo consiste na comparação de 11 provas direcionadas para diferentes intervalos da escala, com o objetivo de averiguar o erro padrão na aferição dos pontos da escala SARESP. Verificou se que a aplicação de provas direcionadas a determinados níveis de proficiência se mostra mais adequada do que uma prova comum para todos. No entanto, assumindo o formato atual da avaliação SARESP é mais recomendado propor uma prova que avalie igualmente todos os pontos da escala. Palavras chave: Função de informação do teste. Erro padrão de estimação. Abstract This study discusses the suitability of different tests designed to evaluate the different proficiency levels of students in 9th year of elementary school mathematics in the schools of the State of São Paulo, underwent external assessment of large scale SARESP. The study consists of 11 comparison tests geared towards different scale intervals, with the aim of ascertaining the standard error of measure in the SARESP scale. Keywords: Test information. Standart error estimation.

204 Rodrigo de Souza Bortolucci, Adriana Moraes de Carvalho, Dalton Francisco de Andrade e Tânia Cristina Arantes Macedo de Azevedo Recebido em: 03/11/2013 Avaliado em: 25/11/ Anais Nº 1, ano 2013, p

205 Modelo de Resposta ao Item com Controle da Heterogeneidade Atribuída a Fatores Conhecidos Item Response Model with Controlled Heterogeneity Attributed to Known Factors Rômulo Andrade da Silva Mestre em Estatística, Universidade de Brasília romuloufc@gmail.com Afrânio Márcio Corrêa Vieira Doutor em Estatística Experimental, Universidade de São Paulo Professor e Pesquisador, Universidade Federal de São Carlos afranio@ufscar.br Resumo No processo de estimação dos parâmetros dos modelos tradicionais de resposta ao item, uma das pressuposições é a independência condicional entre as respostas de diferentes indivíduos. Porém, muitas vezes esta pressuposição é relaxada, por exemplo, quando aplicada em larga escala nas avaliações de sistemas educacionais, o que pode ocasionar variabilidade extra não considerada pelos modelos usuais. A proposta é usar potenciais fontes de heterogeneidade como variáveis explicativas de um efeito aleatório multiplicativo no modelo de Rasch. Esse efeito, consequentemente, acomodará a sobredispersão presente nos dados e tornará a pressuposição de independência condicional entre indivíduos consistente com os dados. O modelo foi ajustado aos dados da Prova Brasil 2007, trazendo novas interpretações de grupos. Logo, a nova abordagem probabilística de considerar informações extras dos respondentes no momento do ajuste do modelo se mostra útil na fase de calibração dos itens em avaliações educacionais de larga escala. Palavras chave: Avaliações educacionais. Modelo de Rasch. Heterogeneidade. Superdispersão. Modelos lineares generalizados conjugados. Abstract In the estimation of the parameters of traditional models of item response process, one of the assumptions is about the conditional independence between the responses of different individuals. However, often this assumption is relaxed, for example, when applied extensively in reviews of educational systems, which can cause extra variability not considered by the usual models. The proposal is to use potential sources of heterogeneity as explanatory variables in a multiplicative random effect Rasch model. This effect therefore accommodate this over dispersion present on the data and makes the conditional independence assumption among individuals consistent. The model was fitted to data from Prova Brasil 2007 assessment, bringing new interpretations of the groups. So, the new probabilistic approach considers the extra information about the respondents at the time of the model fitting and proves to be useful in the calibration phase of the items in large scale educational assessments. Keywords: Educational assessements. Rasch Model. Heterocedastic. Overdispersion. Conjugated generalized linear mixed models.

206 Rômulo Andrade da Silva e Afrânio Márcio Corrêa Vieira Recebido em: 03/11/2013 Avaliado em: 25/11/ Anais Nº 1, ano 2013, p

207 Novo Modelo Testlet Assimétrico A New Testlet model Sandra Flores Master in Statistics, Pontificia Universidad Católica del Perú Responsible for statistical analysis, Education Quality Measurement Unit, Ministry of Education sfloresa@pucp.edu.pe Jorge Bazan Doutorado em Estatística, IME USP Professor Doutor MS 3, USP jlbazan@icmc.usp.br Caio L. N. Azevedo Pós Doutorado em Estatística, IME USP Professor MS 3, UNICAMP cnaber@ime.unicamp.br Resumo Uma das suposições principais num modelo da Teoria da Resposta ao item (TRI) é a independência condicional dos itens, não em tanto, em varias situações este suposto não é valido, por exemplo na compreensão de textos, em que um conjunto de itens estão relacionados ao mesmo estimulo (testlet). Para contornar este problema foi proposto por Bradlow, Wainer and Wang (1999) um modelo TRI de efeito aleatório. Baseados nessa proposta, nós propomos um novo modelo de Testlet chamado Modelo Logístico de expoente positivo o qual tem como casso particular o modelo testlet logístico. Este modelo resulta uma extensão do modelo LPE proposto por Samejima (1999) e Bolfarine e Bazan (2010) o qual assume curvas características de item assimétricas. Os estudos de simulação desenvolvidos confirmam que quando um conjunto de respostas em testlet são considerados, os parâmetros dos itens são melhor recuperados usando modelos de Testlet. Adicionalmente, em algumas situações, curvas assimétricas podem ser mais apropriadas. A aplicação desenvolvida num conjunto de dados reais considerando uma prova de compreensão de textos em escolas primarias do Perú, permite concluir que nossa aproximação é promissória e flexível para o trabalho com provas que consideram testlet no seu desenho. Palavras chave: Testlet. Teoria da Resposta ao Item. Curvas características de item assimétricas. Inferência bayesiana. Abstract A critical assumption in an Item Response Theory (IRT) model is conditional independence among item responses because in many situations this assumption fail, like reading comprehension where a set of items are related to a reading passage (testlet). A random effect IRT model was proposed by Bradlow, Wainer and Wang (1999) to overcome the problem. Inspired in this work, we propose a new Testlet model named Logistic positive exponent Testlet model (LP ET ) which include logistic testlet model (LT ) as a particular model. This model is an extension of LP E model proposed by Samejima (1999) and Bolfarine and Bazan (2010) which consider asymmetric item characteristic curves (ICC). Simulation studies show that when a set of responses are in testlets, parameters are better estimated by using Testlet models. In

208 Sandra Flores, Jorge Bazan e Caio L. N. Azevedo addition, skewed ICC can be more appropriate in some situations. An application with a real data set of a Reading Comprehension Test in primary schools from Peru allows to conclude that the approach is a very promising and flexible way to deal with the testlet based test forms. Keywords: Testlet. Asymmetrical link. Item Response Theory. Bayesian inference. Logistic positive exponente. Skewed. Recebido em: 03/11/2013 Avaliado em: 25/11/ Anais Nº 1, ano 2013, p

209 Realização Apoio:

14. BASE DE DATOS ErgoBD

14. BASE DE DATOS ErgoBD 14. BASE DE DATOS ErgoBD Introducción Criterios de diseño Buenas prácticas Catálogo de productos Bibliografía Legislación y normativa Enlaces web Otros documentos de interés INTRODUCCIÓN Descripción y

Leia mais

Vectores. Sentido de un vector. (origen) al punto B (extremo). Dirección de un vector

Vectores. Sentido de un vector. (origen) al punto B (extremo). Dirección de un vector Vectores Un vector fijo es un segmento orientado que va del punto A (origen) al punto B (extremo). Elementos de un vector Dirección de un vector La dirección del vector es la dirección de la recta que

Leia mais

Control Automático. Aplicaciones de LabVIEW. Ing. Eduardo Interiano

Control Automático. Aplicaciones de LabVIEW. Ing. Eduardo Interiano Control Automático Aplicaciones de LabVIEW Ing. Eduardo Interiano Agenda Introducción Aplicaciones Obtención de modelos Diseño y simulación de compensadores y reguladores Control de plantas Ejemplos de

Leia mais

Resultados de um trabalho de parceria da Fundação Bradesco com as escolas públicas no Vale do RibeirajSP

Resultados de um trabalho de parceria da Fundação Bradesco com as escolas públicas no Vale do RibeirajSP Resultados de um trabalho de parceria da Fundação Bradesco com as escolas públicas no Vale do RibeirajSP ROSE NEUBAUER* YARA ESPOSITO** ANA LUÍSA RESTANI*** MARIA CRISTINA TELLES**** ELZA MARIA GUERESCHI*****

Leia mais

Archivos e índices. Agenda

Archivos e índices. Agenda Archivos e índices Integrantes: Javier Carrasco Johnny Corbino Agenda Archivos de Registros del SGBD Organización e indexación de archivos Estructuración de índices Comparaciones de organización y costo

Leia mais

LOS MINERALES INDUSTRIALES LOS ÁRIDOS Y EL CEMENTO LA PIEDRA NATURAL LA MINERÍA Y EL MEDIO AMBIENTE ANEXOS

LOS MINERALES INDUSTRIALES LOS ÁRIDOS Y EL CEMENTO LA PIEDRA NATURAL LA MINERÍA Y EL MEDIO AMBIENTE ANEXOS www.madrid.org IMPRIME: Gráfi cas Arias Montano, S. A. Depósito Legal: M. 15.989-2007 LOS MINERALES INDUSTRIALES 129 QUÉ SON LOS MINERALES INDUSTRIALES? 134 EL RECORRIDO DE LOS MINERALES INDUSTRIALES

Leia mais

[2012] Saberes Bolivianos Su espacio En la web. Boletín [Mayo]

[2012] Saberes Bolivianos Su espacio En la web.   Boletín [Mayo] www.saberesbolivianos.com Saberes Bolivianos Suespacio Enlaweb SaberesBolivianosesunespacioconstruidopor todosparadifundiryvalorizarelconocimiento científicoenbolivia. Boletín[Mayo] [2012] www.saberesbolivianos.com

Leia mais

TEXTO. Post no Estratégia Tradução Livre 23/2016 Prof. Adinoél e Profa. Elenice. (Fonte: elpais.es) - adaptado

TEXTO. Post no Estratégia Tradução Livre 23/2016 Prof. Adinoél e Profa. Elenice. (Fonte: elpais.es) - adaptado TEXTO Cuando Hacienda le investiga En pocos días se dará el pistoletazo de salida a la campaña de renta 2014. De nuevo, preparar y verificar datos, confirmar borradores, hacer cuentas por la venta de la

Leia mais

INGENIERÍA de TELECOMUNICACIONES

INGENIERÍA de TELECOMUNICACIONES INGENIERÍA de TELECOMUNICACIONES ESTADISTICA 2018-2019 MANEJO BÁSICO DE MATLAB/Octave OBJETIVOS: Manejo básico del entorno de trabajo de MATLAB/Octave 1. Operaciones aritméticas básicas 1. Cálculos básicos:

Leia mais

BAJO LA INFLUENCIA DE SELECCIÓN DE ÍTEMS EN LA ESTIMACIÓN DE COMPETENCIAS

BAJO LA INFLUENCIA DE SELECCIÓN DE ÍTEMS EN LA ESTIMACIÓN DE COMPETENCIAS BAJO LA INFLUENCIA DE SELECCIÓN DE ÍTEMS EN LA ESTIMACIÓN DE COMPETENCIAS Leandro Lins Marino 1, 1Fundación Cesgranrio e Escuela Nacional de Ciencias Estadísticas, Brasil leandromarino@leandromarino.com.br

Leia mais

Elementos-chave no desenvolvimento de itinerários de formação, através da avaliação de competências.

Elementos-chave no desenvolvimento de itinerários de formação, através da avaliação de competências. 4-5-6 Septiembre 2014 WORKSHOP TALLER 5-E Elementos-chave no desenvolvimento de itinerários de formação, através da avaliação de competências. Elementos claves en la elaboración de itinerarios formativos

Leia mais

NORMAS PORTUGUÊS E ESPANHOL

NORMAS PORTUGUÊS E ESPANHOL NORMAS PORTUGUÊS E ESPANHOL - Português Serão aceitos trabalhos para as seguintes seções: 1. Originais - contribuições de caráter descritivo e interpretativo, baseadass na literatura recente, bem como

Leia mais

Agrupamento de Escolas de Cristelo Escola Básica de Cristelo Relação de Alunos

Agrupamento de Escolas de Cristelo Escola Básica de Cristelo Relação de Alunos : A Ano Letivo 2014 / 201 Processo Nome Idade EMR Rep. LE1 LE2 NEE 388 1 Ana Sofia Araújo Torres S 6031 2 Beatriz Ribeiro Bessa S 6602 3 Bruna Filipa Nogueira Pacheco 12 S 7 4 Énio Pereira Lima S 394 Filipa

Leia mais

Recursos Hídricos e Eco-turismo

Recursos Hídricos e Eco-turismo Recursos Hídricos e Eco-turismo Recursos Hídricos e Eco-turismo Recursos Hídricos e Eco-turismo ??? ESTA É A BACIA DE ADUÇÃO DO LAGO DA SERRA DA MESA RIO DAS ALMAS ENTRANDO AQUI AQUI ATUA O CONÁGUA ESTÁ

Leia mais

Toda educación no formal es educación popular? Una visión desde Argentina

Toda educación no formal es educación popular? Una visión desde Argentina Toda educación no formal es educación popular? Una visión desde Argentina María Carmelita Lapadula 1, María Florentina Lapadula 2 Resumen La educación no formal y la educación popular están en constante

Leia mais

Discapacidad Argentina, Brasil y Paraguay

Discapacidad Argentina, Brasil y Paraguay Prueba Piloto Conjunta sobre Discapacidad Argentina, Brasil y Paraguay Comitê do Censo Demográfico, IBGE Brasil Taller de Cierre y Conclusiones del Grupo de Trabajo Ronda Censos 2010 de la CEA-CEPAL CEPAL

Leia mais

Tema 2: Variables Aleatorias Unidimensionales

Tema 2: Variables Aleatorias Unidimensionales Curso 217-218 Contenido 1 Concepto de Variable Aleatoria 2 Función Distribución 3 Clasificación de Variables Aleatorias 4 Función Densidad de Probabilidad 5 Distribuciones Prácticas 6 Distribuciones Condicionales

Leia mais

Formato de Documentos

Formato de Documentos Formato de Documentos Caracteres Párrafos Copiar y pegar formato Lista numeradas y con viñetas Columnas Bordes y sombreados Formato de documentos Diapositiva 1 Formato de caracteres Se pueden utilizar

Leia mais

Software. Programa Paradigmas de programación Cómo se produce software

Software. Programa Paradigmas de programación Cómo se produce software SOFTWARE Software Programa Paradigmas de programación Cómo se produce software Programa Representación de un programa Entrada Programa Salida Cómo son los programas Un programa Modela un problema En función

Leia mais

Introdução à Teoria de Resposta ao Item

Introdução à Teoria de Resposta ao Item Caio L. N. Azevedo, IMECC/Unicamp Dani Gamerman, DME/UFRJ I CONBRATRI, Florianópolis 9 de dezembro de 2009 Parte II Parte 2: Implementação computacional. Análise de dados 1. Modelo de 3 parâmetros via

Leia mais

Análise do vestibular da UFLA usando a TRI

Análise do vestibular da UFLA usando a TRI Análise do vestibular 2009-1 da UFLA usando a TRI MARIA DE LOURDES LIMA BRAGION* JÚLIO SÍLVIO DE SOUSA BUENO FILHO** FÁBIO MATHIAS CORRÊA*** RESUMO Este trabalho teve como objetivo analisar as questões

Leia mais

Planejamento estratégico

Planejamento estratégico espaço ibero-americano espacio iberoamericano Planejamento estratégico Quem somos, onde queremos ir e como chegaremos lá são indagações necessárias em todas as escolas Como qualquer empresa, instituições

Leia mais

INFORMAÇÕES GERAIS / INFORMACIONES GENERALES

INFORMAÇÕES GERAIS / INFORMACIONES GENERALES RELATÓRIO HISTÓRICO 6º a 9º DO ENSINO FUNDAMENTAL E ENSINO MÉDIO HISTORIAL DEL ALUMNO 6º al 9º DE ENSEÑANZA FUNDAMENTAL Y ENSEÑANZA MEDIA Ano 20 Curso INFORMAÇÕES GERAIS / INFORMACIONES GENERALES Nome

Leia mais

O uso do gvsig na Identificação de locais estratégicos para instalação de uma loja de confecções

O uso do gvsig na Identificação de locais estratégicos para instalação de uma loja de confecções O uso do gvsig na Identificação de locais estratégicos para instalação de uma loja de confecções El uso de gvsig en la identificación sitios estratégicos para la instalación de una tienda de ropas Luiz

Leia mais

Autoridade Central Portuguesa (Autoridad Central Portuguesa)

Autoridade Central Portuguesa (Autoridad Central Portuguesa) 1 Autoridade Central Portuguesa (Autoridad Central Portuguesa) Requerimento/Pedido Ι - TIPO DE PEDIDO/REQUERIMENTO (Tipo de solicitud) Por favor indique o tipo de requerimento que pretende fazer colocando

Leia mais

ASIGNATURA: METROLOGÍA, ESTANDARIZACIÓN Y NORMALIZACIÓN. PROFESOR: CARLOS ALVARADO DE LA PORTILLA. TEMA: MEDICIONES CON VERNIER GRADUADOS EN PULGADAS GUIA DE LABORATORIO CAD 3. Trabajo Nº 5. Fecha: 21

Leia mais

Teorias de Avaliação - CE095 Exames Nacionais de Avaliação

Teorias de Avaliação - CE095 Exames Nacionais de Avaliação Teorias de Avaliação - CE095 Exames Nacionais de Avaliação Adilson dos Anjos 1 1 Departamento de Estatística Universidade Federal do Paraná aanjos@ufpr.br Curitiba, PR 7 de agosto de 2014 Exames Nacionais

Leia mais

LECCION 1 DE PORTUGUES. eu e tu / eu e vocé

LECCION 1 DE PORTUGUES. eu e tu / eu e vocé Yo LECCION 1 DE PORTUGUES Personas Eu Pessoas yo y tú nosotros / nosotras dos él ellos / ellas dos el hombre la mujer el niño una familia mi familia Mi familia está aquí. Yo estoy aquí. Tú estás aquí.

Leia mais

O PRINCÍPIO CONSTITUCIONAL DA DIGNIDADE DA PESSOA HUMANA DIANTE DO INADIMPLEMENTO CONTRATUAL PRELIMINAR DE COMPRA E VENDA DE IMÓVEL URBANO PRIVADO

O PRINCÍPIO CONSTITUCIONAL DA DIGNIDADE DA PESSOA HUMANA DIANTE DO INADIMPLEMENTO CONTRATUAL PRELIMINAR DE COMPRA E VENDA DE IMÓVEL URBANO PRIVADO UNIVERSIDADE DO VALE DO ITAJAÍ UNIVALI PRÓ-REITORIA DE PESQUISA, PÓS-GRADUAÇÃO, EXTENSÃO E CULTURA CENTRO DE EDUCAÇÃO DE CIÊNCIAS SOCIAIS E JURÍDICAS - CEJURPS PROGRAMA DE PÓS-GRADUAÇÃO STRICTO SENSU EM

Leia mais

DE PC A ARDUINO POR BLUETOOTH

DE PC A ARDUINO POR BLUETOOTH DE PC A ARDUINO POR BLUETOOTH Enviando datos a tu PC mediante Bluetooth Home De Arduino A Tu PC Por BlueTooth OBJETIVOS. Conectar TU PC a Arduino mediante Bluetooth. Gobernar un circuito, por ejemplo TACHOS

Leia mais

Agrupamento de Escolas de Cristelo Escola Básica de Cristelo Relação de Alunos

Agrupamento de Escolas de Cristelo Escola Básica de Cristelo Relação de Alunos : A 4200 1 Adriano Emanuel Barbosa Bessa 15 S 450 2 Ana Catarina Martins da Silva 15 S 4861 3 Carlos Daniel Sousa Ribeiro 15 S 4154 4 Daniel André Vieira Pinto 15 S 4727 5 Emanuel Moreira Baptista 15 S

Leia mais

Pauta de Avaliação 1º Período ( a ) Matemática Nº

Pauta de Avaliação 1º Período ( a ) Matemática Nº 5º ano, Turma A 1 Alexandre Peixoto da Rocha 2 2 Ana Luísa Costa Oliveira 57 3 3 Ana Rita Veloso Oliveira André Pimenta Fernandes 2 5 Beatriz Gonçalves Pimenta 7 6 Beatriz Martins Soares 52 3 7 Bruna Margarida

Leia mais

MANUAL DE INSTRUCCIONES SOPORTE PARA TV LCD/LED (26 55 ) WM-5729

MANUAL DE INSTRUCCIONES SOPORTE PARA TV LCD/LED (26 55 ) WM-5729 MANUAL DE INSTRUCCIONES SOPORTE PARA TV LCD/LED (26 55 ) WM-5729 ESTIMADO CLIENTE Con el fin de que obtenga el mayor desempeño de su producto, por favor lea este manual de instrucciones cuidadosamente

Leia mais

Vision & Values. Código de Trabalho em Equipe e Liderança. Código de Trabajo en Equipo y Liderazgo

Vision & Values. Código de Trabalho em Equipe e Liderança. Código de Trabajo en Equipo y Liderazgo Vision & Values Código de Trabalho em Equipe e Liderança Código de Trabajo en Equipo y Liderazgo 1 Código de Trabalho em Equipe e Liderança Nossa visão e valores formam a base de nosso comportamento e

Leia mais

ESCALA E TERRITÓRIO DO DESENVOLVIMENTO TERRITORIAL RURAL: INTERPELAÇÕES PARA A GEOGRAFIA

ESCALA E TERRITÓRIO DO DESENVOLVIMENTO TERRITORIAL RURAL: INTERPELAÇÕES PARA A GEOGRAFIA ESCALA E TERRITÓRIO DO DESENVOLVIMENTO TERRITORIAL RURAL: INTERPELAÇÕES PARA A GEOGRAFIA Montenegro Gómez, Jorge R. FCT/UNESP, Presidente Prudente jorgemon00@hotmail.com As políticas de desenvolvimento

Leia mais

Análise da Prova de Conhecimentos Gerais do Vestibular da UNESP 2012 por Modelos Uni e Multidimensionais da Teoria da Resposta ao Item

Análise da Prova de Conhecimentos Gerais do Vestibular da UNESP 2012 por Modelos Uni e Multidimensionais da Teoria da Resposta ao Item Análise da Prova de Conhecimentos Gerais do Vestibular da UNESP 2012 por Modelos Uni e Multidimensionais da Teoria da Resposta ao Item Analysis of the general knowledge test of the admission examination

Leia mais

JIA DO TECNOLÓGICO AO SIMBÓLICO: ESTUDOS RECENTES NA ANÁLISE DE PROJÉCTEIS E ADORNOS

JIA DO TECNOLÓGICO AO SIMBÓLICO: ESTUDOS RECENTES NA ANÁLISE DE PROJÉCTEIS E ADORNOS JIA 2011 - http://www.jia2011.com DO TECNOLÓGICO AO SIMBÓLICO: ESTUDOS RECENTES NA ANÁLISE DE PROJÉCTEIS E ADORNOS Luís de Jesus (UAlg) Marina Évora (UAlg) Ivo Santos (UAlg) Maria Borao (U.V.) Contacto

Leia mais

NOVIDADES LEGISLATIVAS NOVEDADES LEGISLATIVAS

NOVIDADES LEGISLATIVAS NOVEDADES LEGISLATIVAS 1 NOVIDADES LEGISLATIVAS NOVEDADES LEGISLATIVAS Boletim Binacional Direito Trabalhista Lei de Terceirização. Boletin Bi-Nacional Derecho Laboral Legislación de Subcontratación Em 31 de março de 2017, foi

Leia mais

Desarrollo sostenible de los pueblos indígenas: con ellos, para ellos

Desarrollo sostenible de los pueblos indígenas: con ellos, para ellos UNIVERSIDADE FEDERAL DE SERGIPE - POSGRAP Exame de Proficiência em Língua Estrangeira - EPLE Idioma: Língua Espanhola NOME: NÚMERO DE ORDEM: DATA: 14/10/2018 INSTRUÇÕES: 1-Este é o caderno de questões

Leia mais

GT Sujeitos: Pessoas com Deficiência e Educação Especial O SURDO NO ENSINO SUPERIOR: O QUE PENSAM OS SURDOS E O QUE DIZEM OS PROFESSORES?

GT Sujeitos: Pessoas com Deficiência e Educação Especial O SURDO NO ENSINO SUPERIOR: O QUE PENSAM OS SURDOS E O QUE DIZEM OS PROFESSORES? GT Sujeitos: Pessoas com Deficiência e Educação Especial O SURDO NO ENSINO SUPERIOR: O QUE PENSAM OS SURDOS E O QUE DIZEM OS PROFESSORES? EL SURDO EN LA ENSEÑANZA SUPERIOR: QUÉ PENSAN LOS SURDOS Y QUÉ

Leia mais

CENTRO INTERUNIVERSITARIO DE DESARROLLO CINDA 2ª REUNIÓN DE VICERRECTORES DE INVESTIGACIÓN E INNOVACIÓN CINDA

CENTRO INTERUNIVERSITARIO DE DESARROLLO CINDA 2ª REUNIÓN DE VICERRECTORES DE INVESTIGACIÓN E INNOVACIÓN CINDA CENTRO INTERUNIVERSITARIO DE DESARROLLO CINDA 2ª REUNIÓN DE VICERRECTORES DE INVESTIGACIÓN E INNOVACIÓN CINDA FORMACIÓN DE INVESTIGADORES Consideraciones iniciales La primera dificultad que encontramos

Leia mais

UNIVERSIDADE DE UBERABA PROGRAMA DE MESTRADO EM EDUCAÇÃO HELENA BORGES FERREIRA

UNIVERSIDADE DE UBERABA PROGRAMA DE MESTRADO EM EDUCAÇÃO HELENA BORGES FERREIRA UNIVERSIDADE DE UBERABA PROGRAMA DE MESTRADO EM EDUCAÇÃO HELENA BORGES FERREIRA VEREDAS: a educação a distância na formação de professores para a escola ciclada Uberaba - MG 2006 HELENA BORGES FERREIRA

Leia mais

Avaliação do Nível de Satisfação dos Usuários de um Restaurante Universitário por meio do Modelo Logístico de Dois Parâmetros

Avaliação do Nível de Satisfação dos Usuários de um Restaurante Universitário por meio do Modelo Logístico de Dois Parâmetros Avaliação do Nível de Satisfação dos Usuários de um Restaurante Universitário por meio do Modelo Logístico de Dois Parâmetros Evaluation of User Satisfaction Level of a University Restaurant through the

Leia mais

TRILHAS DA INCLUSÃO. Trabalhar com pessoas envolve reconhecer as particularidades que as torna diferentes umas das outras.

TRILHAS DA INCLUSÃO. Trabalhar com pessoas envolve reconhecer as particularidades que as torna diferentes umas das outras. TRILHAS DA INCLUSÃO Trabalhar com pessoas envolve reconhecer as particularidades que as torna diferentes umas das outras. Para respeitar alguém é preciso conectar-se a sua realidade, olhar com seus olhos

Leia mais

BuscadorCoruja.com BuscadorBuho.com

BuscadorCoruja.com BuscadorBuho.com BuscadorCoruja.com BuscadorBuho.com Manual do Usuário https://play.google.com/store/ apps/details? id=com.ufvjm.buscadorcoruja. buscadorcorujacom 2 3 Este manual destina-se a usuários cadastrados no BuscadorCoruja.

Leia mais

LINHA DE PESQUISA ESTRATÉGIAS DE PENSAMENTO E PRODUÇÃO DE CONHECIMENTO AVALIAÇÃO DA EDUCAÇÃO FÍSICA NA ESCOLA: ANÁLISE DE UMA PROPOSTA DE INTERVENÇÃO

LINHA DE PESQUISA ESTRATÉGIAS DE PENSAMENTO E PRODUÇÃO DE CONHECIMENTO AVALIAÇÃO DA EDUCAÇÃO FÍSICA NA ESCOLA: ANÁLISE DE UMA PROPOSTA DE INTERVENÇÃO UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE CENTRO DE CIÊNCIAS SOCIAIS APLICADAS DEPARTAMENTO DE EDUCAÇÃO PROGRAMA DE PÓS-GRADUAÇÃO EM EDUCAÇÃO Mestrado LINHA DE PESQUISA ESTRATÉGIAS DE PENSAMENTO E PRODUÇÃO

Leia mais

Proyecto de Norma MERCOSUR Projeto de Norma MERCOSUL

Proyecto de Norma MERCOSUR Projeto de Norma MERCOSUL Proyecto de Norma MERCOSUR Projeto de Norma MERCOSUL PrNM 24:05-00001 Año / Ano 2006 Ensayos no destructivos - Ensayo visual Requisitos generales Ensaios não destrutivos - Ensaio Visual - Procedimento

Leia mais

RESOLUÇÃO CA N o 369 DE 17 DE SETEMBRO DE 2012.

RESOLUÇÃO CA N o 369 DE 17 DE SETEMBRO DE 2012. RESOLUÇÃO CA N o 369 DE 17 DE SETEMBRO DE 2012. Aprova a assinatura do Convênio de Colaboração Acadêmica, Científica e Cultural a ser celebrado entre a Universidade Estadual de Ponta Grossa e Universidad

Leia mais

6.º Ano de Escolaridade Turma A

6.º Ano de Escolaridade Turma A Ano Escolar 0 / 0 Turma A 00 Escola Básica Bernardino Machado 066 ANA MARGARIDA BARROS MARQUES 07808 ANA OLIVEIRA GONÇALVES 70 ANDRÉ AZEVEDO ABREU 0860 ANDRÉ FILIPE DA SILVA COSTA 698 BERNARDO FERREIRA

Leia mais

El engranaje básico de la clase Economy con brida de toma de fuerza cuadrada

El engranaje básico de la clase Economy con brida de toma de fuerza cuadrada 2 El engranaje básico de la clase Economy con brida de toma de fuerza cuadrada La línea PLE con una brida de toma de fuerza cuadrada. Una alternativa potente para cargas radiales y axiales aumentadas adicionales.

Leia mais

WPLPE. WPLPE Economy Line

WPLPE. WPLPE Economy Line Economy Line Redutor planetário angular econômico para forças especialmente elevadas montagem versátil e lubrificação permanente O é a solução angular inteligente da nossa série Econômica: economia de

Leia mais

RESUMO DE DISSERTAÇÃO. AVALIAÇÃO DA REDE DE UNIDADES BÁSICAS DE SAÚDE COM FOCO NA INTEGRALIDADE a

RESUMO DE DISSERTAÇÃO. AVALIAÇÃO DA REDE DE UNIDADES BÁSICAS DE SAÚDE COM FOCO NA INTEGRALIDADE a RESUMO DE DISSERTAÇÃO AVALIAÇÃO DA REDE DE UNIDADES BÁSICAS DE SAÚDE COM FOCO NA INTEGRALIDADE a Handerson Silva Santos b O objeto de estudo desta pesquisa é a rede de unidades básicas de saúde com o modelo

Leia mais

1 25, Nelson da Silva Auxiliar. 2 24, Paula Cristina Faria Mota. 3 23, Branca Alexandra Pereira Moreira

1 25, Nelson da Silva Auxiliar. 2 24, Paula Cristina Faria Mota. 3 23, Branca Alexandra Pereira Moreira 1 25,126 4183473004 Nelson da Silva Auxiliar 2 24,505 6341243405 Paula Cristina Faria Mota 3 23,947 6473060774 Branca Alexandra Pereira Moreira 4 22,952 9500355248 José Ricardo da Silva Alves 5 22,412

Leia mais

PLE. A base dos redutores econômicos com flange de acionamento redondo. Economy Line

PLE. A base dos redutores econômicos com flange de acionamento redondo. Economy Line 4 A base dos redutores econômicos com flange de acionamento redondo O PLE é a alternativa econômica perfeita para nossas séries de precisão. Este redutor planetário foi especificamente desenvolvido para

Leia mais

SÃO LEOPOLDO, RIO GRANDE DO SUL, BRASIL 23 A 26 DE ABRIL DE 2018

SÃO LEOPOLDO, RIO GRANDE DO SUL, BRASIL 23 A 26 DE ABRIL DE 2018 SÃO LEOPOLDO, RIO GRANDE DO SUL, BRASIL 23 A 26 DE ABRIL DE 2018 CIRCULAR 01/2017 O Congresso Internacional de Arqueologia da Bacia do Prata (CAP) é um evento acadêmico idealizado para reunir profissionais

Leia mais

UNIVERSIDADE DO VALE DO ITAJAÍ JÚLIA PINHEIRO DE MELO PROPRIEDADE, FUNÇÃO SOCIAL DA PROPRIEDADE E DESAPROPRIAÇÃO: aspectos destacados.

UNIVERSIDADE DO VALE DO ITAJAÍ JÚLIA PINHEIRO DE MELO PROPRIEDADE, FUNÇÃO SOCIAL DA PROPRIEDADE E DESAPROPRIAÇÃO: aspectos destacados. UNIVERSIDADE DO VALE DO ITAJAÍ JÚLIA PINHEIRO DE MELO PROPRIEDADE, FUNÇÃO SOCIAL DA PROPRIEDADE E DESAPROPRIAÇÃO: aspectos destacados Tijucas 2009 JÚLIA PINHEIRO DE MELO PROPRIEDADE, FUNÇÃO SOCIAL DA PROPRIEDADE

Leia mais

La República Argentina y la República Federativa del Brasil, en adelante, las Partes;

La República Argentina y la República Federativa del Brasil, en adelante, las Partes; Protocolo Adicional al Acuerdo de Cooperación para el Desarrollo y la Aplicación de los Usos Pacíficos de la Energía Nuclear en Materia de Reactores, Combustibles Nucleares, Suministro de Radioisótopos

Leia mais

MANUAL DE INSTRUCCIONES LAR-10MB LICUADORA COMERCIAL INOXIDABLE, VASO MONO BLOQUE INOXID- ABLE, 10 LITROS MODELO

MANUAL DE INSTRUCCIONES LAR-10MB LICUADORA COMERCIAL INOXIDABLE, VASO MONO BLOQUE INOXID- ABLE, 10 LITROS MODELO LICUADORA COMERCIAL INOXIDABLE, VASO MONO BLOQUE INOXID- ABLE, 10 LITROS MODELO LAR-10MB MANUAL DE INSTRUCCIONES WWW.SIEMSEN.COM.BR METALÚRGICA SIEMSEN LTDA. CNPJ: 82.983.032/0001-19 Brusque - Santa Catarina

Leia mais

Podemos ver em R n? Carlos Eduardo Pedreira PESC - COPPE

Podemos ver em R n? Carlos Eduardo Pedreira PESC - COPPE Podemos ver em R n? Carlos Eduardo Pedreira PESC - COPPE 2019 Donde están los datos? En R n Tenemos entonces 2 posibilidades: Ir al R n y clasificar ahí Traer los datos para el R 2 Ventajas de traer a

Leia mais

O Ensino do Espanhol como Língua Estrangeira: Estimular a Aprendizagem através do Lúdico. Índice. Introdução 11

O Ensino do Espanhol como Língua Estrangeira: Estimular a Aprendizagem através do Lúdico. Índice. Introdução 11 Índice Índice Geral Índice de Gráficos e Tabelas Resumo Resumen Introdução 11 Capítulo 1 Evolução do Ensino do Espanhol em Portugal 17 Capítulo 2- Breve Histórico das Metodologias de Ensino de Língua Estrangeira.

Leia mais

Subasta Electrónica Inversa. Micro y Pequeñas Empresas

Subasta Electrónica Inversa. Micro y Pequeñas Empresas Subasta Electrónica Inversa Micro y Pequeñas Empresas Ana Maria Vieira Neto Secretária de Logística y Tecnologia de la Información agosto de 2013 Estructura de la SLTI / MP Órgano Central del SISG Órgano

Leia mais

NOME DISCIPLINAS OPÇÃO

NOME DISCIPLINAS OPÇÃO 10CT1 1 Ana Claúdia Macedo Rodrigues BGG/FQA 2 Ana Margarida Ribeiro Silva BGG/FQA 3 Ana Raquel Oliveira Ribeiro BGG/FQA 4 André Filipe Ferreira Lobo Pinheiro de Melo BGG/FQA 5 António José da Silva Oliveira

Leia mais

Geometria I + Geom Euclidiana [9817] MONICA MOULIN RIBEIRO MERKLE. Assinaturas

Geometria I + Geom Euclidiana [9817] MONICA MOULIN RIBEIRO MERKLE. Assinaturas de Ciencias Matematicas e da Natureza 1 de 7 1 ALAN JUNIOR SEVERO 115031635 2 ALEXIA GLORIA LACERDA DOS REIS 115115926 3 ALVARO ALBERTO GOMES DA SILVEIRA 115111299 4 ANDRE LUIS OLIVEIRA MATOS 115091813

Leia mais

Bonifácio Andrada abordou Os fatos históricos de 1964 e a situação

Bonifácio Andrada abordou Os fatos históricos de 1964 e a situação EDITORIAL EDITORIAL Dijon Moraes Júnior É sempre um privilégio escrever o editorial de uma publicação científica. Tornar público fatos, análises e ideias é enriquecer o debate e o próprio trabalho. É compartilhar

Leia mais

Ministério da Educação EXAMES FINAIS NACIONAIS DO ENSINO SECUNDÁRIO PAUTA DE CHAMADA

Ministério da Educação EXAMES FINAIS NACIONAIS DO ENSINO SECUNDÁRIO PAUTA DE CHAMADA Sala: A10 147(...)77 ALICE ROCHA DA COSTA 1 303(...)62 ANA BEATRIZ VALE DE OLIVEIRA 2 143(...)78 ANA CATARINA MOREIRA PÓVOAS 3 157(...)41 ANA CATARINA OLIVEIRA CARVALHO 4 303(...)02 ANA FERREIRA OLIVEIRA

Leia mais

LÍNGUA ESTRANGEIRA ESPANHOL 04/07/2010. Caderno de prova. Instruções. informações gerais. boa prova!

LÍNGUA ESTRANGEIRA ESPANHOL 04/07/2010. Caderno de prova. Instruções. informações gerais. boa prova! 04/07/2010 LÍNGUA ESTRANGEIRA Caderno de prova Este caderno, com dezesseis páginas numeradas sequencialmente, contém cinco questões de Espanhol, da página 2 à página 8, e cinco questões de Inglês, da página

Leia mais

Ministério da Educação e Ciência

Ministério da Educação e Ciência 14348127 ADRIANA ISABEL PEREIRA RIBEIRO Não -------- 053 05 05 (cinco) 14832779 ANA CARINA FERREIRA LOPES Sim 16 078 08 14 (catorze) Aprovado 14296519 ANA CATARINA CARVALHO CUNHA Sim 13 085 09 12 (doze)

Leia mais

Cargo: DI-02 - Professor da Carreira de Magistério do Ensino Básico, Técnico e Tecnológico - Filosofia. Homologação deferida. Motivo do indeferimento

Cargo: DI-02 - Professor da Carreira de Magistério do Ensino Básico, Técnico e Tecnológico - Filosofia. Homologação deferida. Motivo do indeferimento 1900238 ABEL JORGE LUIZ ALVES DA GRAÇA MIKI 1900114 AGNES DALEGRIA COSTA 1901120 ALAN TORRES DA CRUZ 1901227 ALESSANDRO XAVIER DO CARMO 1900757 ALEXANDRE ARANTES PEREIRA SKVIRSKY 1900816 ALEXANDRE DE LOURDES

Leia mais

DISCFLEX ACOPLAMIENTOS RÍGIDOS PARA APLICACIONES INDUSTRIALES ACOPLAMENTOS RÍGIDOS PARA APLICAÇÕES INDUSTRIAIS TORQUE FOR HEAVY DUTIES

DISCFLEX ACOPLAMIENTOS RÍGIDOS PARA APLICACIONES INDUSTRIALES ACOPLAMENTOS RÍGIDOS PARA APLICAÇÕES INDUSTRIAIS TORQUE FOR HEAVY DUTIES DISCFLEX ACOPLAMIENTOS RÍGIDOS PARA APLICACIONES INDUSTRIALES ACOPLAMENTOS RÍGIDOS PARA APLICAÇÕES INDUSTRIAIS TORQUE FOR HEAVY DUTIES DISCFLEX RANGO DE TORQUE NOMINAL: 0,15 660,00 knm FAIXA DE TORQUE

Leia mais

Prova Escrita de Espanhol

Prova Escrita de Espanhol EXAME NACIONAL DO ENSINO SECUNDÁRIO Decreto-Lei n.º 74/04, de 26 de Março Prova Escrita de Espanhol 12.º Ano de Escolaridade Iniciação trienal Prova 747/2.ª Fase 6 Páginas Duração da Prova: 1 minutos.

Leia mais

Considerações sobre o estudo de dimensionalidade em instrumentos de medida baseados em itens

Considerações sobre o estudo de dimensionalidade em instrumentos de medida baseados em itens Considerações sobre o estudo de dimensionalidade em instrumentos de medida baseados em itens Considerations about the study of dimensionality in the instruments based on items Resumo Pedro Alberto Barbetta

Leia mais

Curso Profissional de Técnico de Artes do Espectáculo Interpretação

Curso Profissional de Técnico de Artes do Espectáculo Interpretação Curso Profissional de Técnico de Artes do Espectáculo Interpretação Turma 1I 1 Bruno Sérgio dos Reis Cardoso a) Admitido 2 Victória Cristiny Ferreira Magalhães a) Admitido 3 Filipa Ferreira Gomes a) Admitido

Leia mais

A tarefa do aluno é resolver a prova da Universidade Estadual de Londrina-PR do ano de 2013 (UEL-2013).

A tarefa do aluno é resolver a prova da Universidade Estadual de Londrina-PR do ano de 2013 (UEL-2013). TAREFA DO ALUNO PROVA UEL TAREFA DO ALUNO: RESOLUÇÃO DE PROVA UEL-2013 A tarefa do aluno é resolver a prova da Universidade Estadual de Londrina-PR do ano de 2013 (UEL-2013). Em primeiro lugar, vocês devem

Leia mais

Plan de Estudios 2002

Plan de Estudios 2002 CONSTRUCCIÓN I Plan de Estudios 2002 hormigones y morteros hormigón / introducción el hormigón a. introducción: el diseño de arquitectura con hormigón b. el hormigón en estado endurecido c. el hormigón:

Leia mais

DATA: 19, 20 e 21 de outubro de 2016

DATA: 19, 20 e 21 de outubro de 2016 Universidade do Estado do Rio de Janeiro - UERJ Centro de Ciências Sociais - CCS Programa de Estudos de América Latina e Caribe - PROEALC 01 CIRCULAR: CONVOCATÓRIA VI SEMINÁRIO INTERNACIONAL DIREITOS HUMANOS,

Leia mais

PLE. PLE Economy Line. Incomparável: este redutor planetário é da máxima eficiência, mesmo com velocidades de rotação máximas

PLE. PLE Economy Line. Incomparável: este redutor planetário é da máxima eficiência, mesmo com velocidades de rotação máximas Economy Line Incomparável: este redutor planetário é da máxima eficiência, mesmo com velocidades de rotação máximas O é, talvez, a base do nosso sucesso. É especialmente leve, extremamente potente e, graças

Leia mais

Stick Up Cam Battery

Stick Up Cam Battery Stick Up Cam Battery 1. Cargar e introducir la batería. Carga la batería incluida. En primer lugar, carga completamente la batería. Para ello, enchúfala a un puerto de carga USB con el cable naranja suministrado.

Leia mais

Universidade de Aveiro

Universidade de Aveiro - RUI FILIPE RODRIGUES DE MATOS Manutenção - VÂNIA PATRÍCIA PAULO CUSTÓDIO Design Produto 6 1 19.35 2 1 18.70 1 DAVID MIGUEL DINIS DOS SANTOS COLOCADO 1 1 18.05 2 FÁBIO ANDRÉ DA COSTA CUNHA COLOCADO 1

Leia mais

Conocimiento Tradicional y Derecho Indígena

Conocimiento Tradicional y Derecho Indígena Conocimiento Tradicional y Derecho Indígena Justicia y Ética: Equilíbrio y Decisión Los Derechos Indígenas Palabras y Acción de Equilibrio y Justicia Valorização dos conhecimentos indígenas. Diálogo dos

Leia mais

Ministério da Educação

Ministério da Educação 14147292 ADRIANA NAIR FERREIRA RIBEIRO Sim 12 Faltou ---------------- ------- 14466539 ADRIANO ANDRÉ DA CUNHA DA COSTA Sim 11 040 04 09 (nove) 14363783 AGOSTINHO JORGE PIMENTA TEIXEIRA Sim 13 109 11 12

Leia mais

Universidade de Aveiro

Universidade de Aveiro Orm 1 EUFRATES DANIEL JAFET RAMOS ZERPA COLOCADO 1 1 19.57 2 TIAGO RODRIGO TAVARES DE ALMEIDA COLOCADO 1 1 18.70 3 EDIVALDO LEANDRO BIANQUINI FERREIRA COLOCADO 1 1 18.05 3 INÊS FERREIRA LIMA COLOCADO 1

Leia mais

Anexo à Acta n.º 4, Referência SAS.IPP-02/11 Lista, ordenada alfabeticamente, com os resultados obtidos no método de selecção PROVA DE CONHECIMENTOS

Anexo à Acta n.º 4, Referência SAS.IPP-02/11 Lista, ordenada alfabeticamente, com os resultados obtidos no método de selecção PROVA DE CONHECIMENTOS ADELAIDE MARGARIDA LOPES GOMES DE SOUSA 1,750 Excluído ADELINA MARIA DA MOTA CORREIA ALBANO MANUEL RIBEIRO PEREIRA 7,475 Excluído ALCINA DA CONCEIÇÃO CASTRO PÓVOAS GUEDES ANA CAROLINA COSTA DE CARVALHO

Leia mais

Agrupamento de Escolas Professor Abel Salazar Escola EB 2,3 Abel Salazar - Ronfe. Relação de Alunos

Agrupamento de Escolas Professor Abel Salazar Escola EB 2,3 Abel Salazar - Ronfe. Relação de Alunos : A 423 1 Ana Beatriz Cardoso Vieira 12 S 4172 2 Ana Beatriz Silva Vidal 12 S 4327 3 Ana João Ferreira Neto 12 S 4278 4 Ana Luísa Gonçalves Pereira 11 S 3509 5 António Ricardo Machado Ferreira 13 S 3905

Leia mais

Teste de diagnóstico de Espanhol 8º ano nível A2 MATRIZ

Teste de diagnóstico de Espanhol 8º ano nível A2 MATRIZ AGRUPAMENTO VERTICAL DE ESCOLAS PROFESSOR JOSÉ BUÍSEL Teste de diagnóstico de Espanhol 8º ano nível A MATRIZ COMPETÊNCIAS TIPOLOGIA DE EXERCÍCIOS ESTRUTURA COTAÇÃO OUVIR/ LER / ESCREVER Audição de texto.

Leia mais

Ministério da Educação e Ciência

Ministério da Educação e Ciência Data realização: segunda, 18 de junho às 14:00 h Sala: 4 14348127 ADRIANA ISABEL PEREIRA RIBEIRO 1 14581488 ADRIANA RAQUEL BARBOSA SOUSA 2 14172404 ADRIANA SILVA DE CARVALHO 3 14557115 ALDA DANIELA SILVA

Leia mais

TERRITORIALIZAÇÃO DA REFORMA AGRÁRIA E REFORMA AGRÁRIA DE MERCADO NO BRASIL ( )

TERRITORIALIZAÇÃO DA REFORMA AGRÁRIA E REFORMA AGRÁRIA DE MERCADO NO BRASIL ( ) TERRITORIALIZAÇÃO DA REFORMA AGRÁRIA E REFORMA AGRÁRIA DE MERCADO NO BRASIL (2000-2004) Eraldo da Silva Ramos Filho Universidade Federal de Sergipe (UFS) e Unesp/Presidente Prudente eramosfilhos@yahoo.com.br

Leia mais

Prémio computerworld & CIO Iberoamericano BSC para o desenvolvimento em El Salvador. Rosa Rodríguez

Prémio computerworld & CIO Iberoamericano BSC para o desenvolvimento em El Salvador. Rosa Rodríguez Prémio computerworld & CIO Iberoamericano BSC para o desenvolvimento em El Salvador Rosa Rodríguez INDICE EL SALVADOR CLIENTE PROBLEMA SOLUÇÃO BSC CASO DE SUCESSO PRÉMIO El Salvador. Localização EL SALVADOR

Leia mais

We love what we do. COMPRESSORES SEM ÓLEO. Español/Portugês

We love what we do. COMPRESSORES SEM ÓLEO. Español/Portugês We love what we do. COMPRESORES SIN ACEITE COMPRESSORES SEM ÓLEO Español/Portugês AIRE COMPRIMIDO SECO DE elevada CalIdad Y PUREZA. AR COMPRIMIDO SECO DE ELEVADA QUALIDADE E PUREZA La tecnología del grupo

Leia mais

Universidade de São Paulo Faculdade de Educação. Viviane Vieira

Universidade de São Paulo Faculdade de Educação. Viviane Vieira Universidade de São Paulo Faculdade de Educação Viviane Vieira A construção da autonomia na Educação Infantil: uma experiência a partir da cultura corporal São Paulo 2007 Viviane Vieira A construção da

Leia mais

UM ESTUDO DA RELAÇÃO ENTRE TRAÇO LATENTE E VARIÁVEIS CONTEXTUAIS NO SAEB E ENEM

UM ESTUDO DA RELAÇÃO ENTRE TRAÇO LATENTE E VARIÁVEIS CONTEXTUAIS NO SAEB E ENEM UM ESTUDO DA RELAÇÃO ENTRE TRAÇO LATENTE E VARIÁVEIS CONTEXTUAIS NO SAEB E ENEM A STUDY RELATING LATENT TRAITS TO CONTEXTUAL VARIABLES FOR THE SAEB AND ENEM EXAMS UN ESTUDIO DE LA RELACIÓN ENTRE TRAZO

Leia mais

Alunos para o quadro de honra Menção Honrosa

Alunos para o quadro de honra Menção Honrosa Alunos para o quadro de honra 2015-2016 4º ano 4A-BA 4B-BA 4B-CA 4A-CO 4B-CO 4A-LO Andreia Gabriela Pereira Oliveira Francisca Lima Pereira Francisco Martins Pereira Lara Raquel Mateus Félix Poinhos Luana

Leia mais

CALL FOR ABSTRACTS A Conference of the International Communication Section (INC) of IAMCR Digital Services in the Audiovisual World Markets,

CALL FOR ABSTRACTS A Conference of the International Communication Section (INC) of IAMCR Digital Services in the Audiovisual World Markets, CALL FOR ABSTRACTS A Conference of the International Communication Section (INC) of IAMCR Digital Services in the Audiovisual World Markets, Boundaries and Policies An Overview of the Digital Audiovisual

Leia mais

Ministério da Educação e Ciência EXAMES FINAIS NACIONAIS DO ENSINO SECUNDÁRIO PAUTA FINAL

Ministério da Educação e Ciência EXAMES FINAIS NACIONAIS DO ENSINO SECUNDÁRIO PAUTA FINAL 14858302 ADERITO DANIEL MENDES ABREU Não --------- 010 01 01 (um) ------------------- 14752613 ADRIANA FILIPA DE SOUSA TELES Sim 15 146 15 15 (quinze) Aprovado 14137347 ADRIANO FILIPE MACHADO FREITAS Sim

Leia mais

Agrupamento de Escolas de Cristelo Escola Básica de Cristelo Relação de Alunos

Agrupamento de Escolas de Cristelo Escola Básica de Cristelo Relação de Alunos : A 4320 1 Ana Rita Teixeira Barbosa 14 S 4502 2 Bárbara Inês Melo Nunes 14 S 447 3 Beatriz Ferreira Leão 13 S 4996 4 Beatriz Isabel Bento Barbosa 14 S 4702 5 Bruna Mariana Pinheiro Melo 14 S 4470 6 Catarina

Leia mais

Alunos para o Quadro de Honra. Menção Honrosa

Alunos para o Quadro de Honra. Menção Honrosa Alunos para o Quadro de Honra 2016-2017 4º ano Afonso Maia Barbosa Vieira Veloso André Wang Zhang Dinis Vicente Martins 4A-BA Fabiana Vieira Henriques Luís Pedro Magalhães Ribeiro Rodrigo Alexandre Teles

Leia mais

PLHE. Máximas forças radiais e axiais destacam esta série de produtos. Economy Line

PLHE. Máximas forças radiais e axiais destacam esta série de produtos. Economy Line 3 Máximas forças radiais e axiais destacam esta série de produtos Neugart é sinônimo de soluções inovadoras e sustentáveis de tecnologia de redutores. Exemplo atual: O novo. Esta série combina a tecnologia

Leia mais

Para hoy. Quien es? El Plan Se Hace Al Andar Veracruz El Plan Se Hace Al Andar. Tim Berry

Para hoy. Quien es? El Plan Se Hace Al Andar Veracruz El Plan Se Hace Al Andar. Tim Berry El Plan Se Hace Al Andar 30 de abríl de 2008 Tim Berry Veracruz, México 2008 Timothy J. Berry. Derechos Reservados. Para hoy Tim Berry Quien es? La Versión Nueva La Versión Nueva: Español Opcional Se Pueden

Leia mais

BOLSAS DE ESTUDO. Ano letivo 2018/ º ANO 1/8 CANDIDATURAS QUE PREENCHEM TODOS OS REQUISITOS. Nº de bolsas a atribuir: 15

BOLSAS DE ESTUDO. Ano letivo 2018/ º ANO 1/8 CANDIDATURAS QUE PREENCHEM TODOS OS REQUISITOS. Nº de bolsas a atribuir: 15 BOLSAS DE ESTUDO 10º ANO CANDIDATURAS QUE PREENCHEM TODOS OS REQUISITOS MARTA SOFIA LOPES GONCALVES PEDRO MIGUEL FERREIRA RODRIGUES PEDRO FERREIRA COELHO RITA CLAUDIA MAGALHÃES CARDOSO DA SILVA RAFAEL

Leia mais