Previsão do desempenho de estudantes usando algoritmos de filtragem colaborativa baseados em fatoração de matrizes

Transcrição

1 Previsão do desempenho de estudantes usando algoritmos de filtragem colaborativa baseados em fatoração de matrizes Bruno Henrique Sebba Dodorico Faculdade de Engenharia de Computação / CEATEC bruno_lala1@hotmail.com Juan Manuel Adán Coello Grupo de Pesquisa em Sistemas Inteligentes CEATEC juan@puc-campinas.edu.br Resumo: A nota que se prevê que um aprendiz irá obter em tarefas que ainda não realizou pode ser usada para orientar os seus passos no processo de ensino-aprendizagem. Esta nota pode ser prevista a partir dos dados adquiridos durante a interação de estudantes com sistemas tutores, usando algoritmos de filtragem colaborativa. Grande diversidade desses algoritmos têm sido usada, principalmente, no domínio do comércio eletrônico, mas o seu uso ainda é raro no contexto considerado. Esse artigo apresenta algoritmos de fatoração de matrizes que irão prever se um estudante acertará ou não uma questão, a partir de seu perfil e do perfil dos demais estudantes. Na avaliação experimental realizada, o algoritmo de filtragem colaborativa clássico User-kNN obteve maior precisão que os algoritmos baseados em fatoração de matrizes, porém com um maior tempo de execução. Palavras-chave:Sistemas de recomendação, filtragem colaborativa, dados educacionais, fatoração de matrizes, previsão do desempenho de estudantes. Área do Conhecimento: Ciências Exatas e da Terra Ciência da computação. 1. INTRODUÇÃO O problema da recomendação de uma informação ou item relevante para um determinado indivíduo é um tema que vem ganhando importância tanto no meio acadêmico quanto no comercial. Os sistemas de recomendação foram e estão sendo desenvolvidos para solucionar esse problema. Tais sistemas possuem como objetivo reduzir as inúmeras opções de itens disponíveis, prevendo um ou mais que sejam de possível interesse de um usuário. Para isso, são utilizadas informações tais como as preferências do usúario e seu respectivo histórico de interações com o sistema, que consequentemente acabam gerando novos desafios como a falta de quantidade e qualidade de dados. Com isso, surgiram novas técnicas para implementarem esse sistema e uma das mais promissoras e que será utilizada no trabalho descrito no artigo é a Filtragem Colaborativa (FC) [1]. Essa filtragem consiste na análise do comportamento passado dos usuários, ou seja, transações e interações registradas e que servem para identificar novas associações usuário-item. Essas associações se referem a uma lista de m usuários, e uma lista n de itens que são representadas por uma matriz m x n contendo as avaliações (ratings) dadas aos itens pelos usuários em questão. Uma dificuldade dessa técnica de FC é a incapacidade de recomendar itens a novos usuários ou recomendar novos itens a usuários. Essa situação está associada ao problema da partida a frio (Cold Start Problem) e é muito comum sua discussão no estudo de sistemas de recomendação. Outros problemas também são encontrados como o de matrizes esparsas (muitos espaços vazios) e matrizes muito grandes que dificultam o trabalho e a manipulação de seus dados. Outras estratégias de filtragem podem ser citadas, em particular a filtragem demográfica e a filtragem baseada em conteúdo. A

2 filtragem demográfica associa aos usuários informações demográficas (preferência, idade, gênero, localidade), que permitem gerar estereótipos e generalizações de usuários. A filtragem baseada em conteúdo que constrói um perfil para cada usuário e item. Esse perfil guarda as preferências e informações e sua construção pode ser realizada de forma implícita (comportamento e monitoração do usuário) ou explícita (questionários, perguntas). Os métodos de fatoração de matrizes são uma abordagem para a filtragem colaborativa, visando melhor desempenho e precisão na recomendação a ser realizada, assim como escalabilidade, sendo o foco do trabalho descrito neste artigo. O artigo está organizado da seguinte forma: na seção 2 aprofunda-se a discussão sobre filtragem colaborativa, apresentando detalhes dos algoritmos clássicos e usados no trabalho descrito neste artigo; na seção 3 faz-se uma introdução aos algoritmos de fatoração de matrizes, abordagem utilizada neste trabalho para prever o desempenho dos estudantes; na seção 4 apresentam-se os resultados de uma avaliação experimental desses algoritmos estudados e, finalmente, na seção 5 são apresentadas algumas considerações finais. 2. FILTRAGEM COLABORATIVA (FC) Os algoritmos de filtragem colaborativa utilizam as semelhanças entre usuários ou entre itens para prever a avaliação que um usuário daria para um item ainda não avaliado. No restante desta seção serão apresentadas duas abordagens usadas com esse propósito. A primeira baseia-se no algoritmo clássico dos k vizinhos mais próximos (K-Nearest Neighbors KNN) e a segunda nas técnicas de fatoração de matrizes KNN O User-kNN é um algoritmo clássico de filtragem colaborativa considerado como um dos mais simples de todos os algoritmos de aprendizado de máquina. Sua utilização é frequente em sistemas de recomendação. Este algoritmo baseia-se na utilização de um conjunto conhecido como K neighbors, ou seja, k vizinhos, formado pelos k usuários que possuem características semelhantes. Por meio desse conjunto é possível prever a avaliação r ui que um usuário u faria de um item i, como pode ser visto na equação (1)., = + ( ) (, )(, ) (1) (, ) ( ) Para realizar a previsão, o algoritmo necessita ter conhecimento do conjunto de usuário similares ao usuário alvo ( ( ) ), assim como o quão semelhantes eles são (sim(u,v)). As abordagens mais comuns para determinar a semelhança, ou similaridade, entre usuários são a correlação de Pearson, dada pela equação (2) e a similaridade dos cossenos, dada pela equação (3). (, )= (, )=cos(, )= (, )(, ) (, )² (, )²,, (, )² (, )² (2) (3) Na equação (1), sim(u,v) expressa o grau de semelhança entre o usuário u e um usuário v e é o valor médio atribuído por u aos itens por ele avaliados. Importante ressaltar que o algoritmo knn também pode ser baseado em itens, ou seja, forma-se um conjunto de itens similares ( ( ) ), e o procedimento e as equações para a previsão da nota que o usuário daria a um item são as mesmas, considerando um conjunto de todos os usuários que avaliaram os itens (U) ao invés do conjunto de itens avaliados (I) FC BASEADA EM FATORAÇÃO DE MATRIZES Os problemas de matrizes esparsas e de grandes dimensões são comuns nos sistemas de recomendação. Para ajudar a contornar esse problema, existem técnicas de redução de dimensionalidade [3] que transformam o espaço original de alta-dimensionalidade em um de baixa. Uma vez que as matrizes tenham sido reduzidas de dimensão (k), o valor previsto de um item (i) por um usuário (u) pode ser

3 aproximado para o produto escalar entre os usuários (U u) e o vetor de características do item (V i) como pode ser visto na equação 4. Figura 2. Teorema básico do SVD No restante desta seção serão apresentadas duas abordagens usadas com esse objetivo de redução de dimensionalidade. A primeira se trata do método estatístico clássico PCA (Principal Component Analysis) e a segunda de um método de fatoração de matrizes, o SVD (Singular Value Decomposition) PCA O PCA é um método para encontrar padrões em conjuntos de alta dimensionalidade que consiste em obter uma lista ordenada dos componentes que representam a maior variância a partir dos dados. A quantidade de variação capturada pelo primeiro componente é maior do que a quantidade de variação no segundo e assim por diante. Dessa forma, a dimensão é reduzida ao desconsiderar os componentes que pouco contribuem para a variação. Apesar de ser um método importante e bastante utilizado nos sistemas de recomendação, ele apresenta algumas limitações. O PCA pressupõe que o conjunto empírico de dados que está sendo aplicado é uma combinação linear e supõem que o conjunto de dados originial foi elaborado a partir de uma distribuição estatística Gaussiana. Caso essas suposições não forem verdadeiras, não há garantias de que a técnica funcionará de modo significativo SVD O SVD está relacionado ao método PCA. A questão chave em uma decomposição SVD é encontrar um menor espaço de característica dimensional em que os novos recursos representam conceitos e considerar que a força de cada conceito no contexto da coleção é calculável. O SVD baseia-se em que é possível decompor uma matriz usuários x itens em outras três: itens x conceitos, conceitos x conceitos (força dos conceitos) e usuários x conceitos como mostrado na figura 2 e na equação (5). = (5) A diagonal da matriz da força dos conceitos contém os valores singulares e será sempre positiva e em ordem decrescente. O SVD pode contribuir à filtragem colaborativa de duas maneiras. A primeira se trata de descobrir as relações latentes entre usuários e itens. Para isso, preenche-se a matriz da média de avaliações com zeros e se normaliza subtraindo a média do usuário. Na segunda utiliza-se o espaço de baixa dimensão resultante para aprimorar a abordagem knn apresentada na seção 2.1. Uma das limitações do SVD é a dificuldade em recalcular a fatoração cada vez que a matriz que está sendo aplicada é atualizada. A utilização dessa técnica passou a ser levada em consideração após o sucesso que teve no prêmio do Netflix [2]. 3. ALGORITMOS DE FATORAÇÃO DE MATRIZES O termo fatoração de matrizes se refere a uma aproximação que tenta minimizar a discrepância entre a matriz original e o produto dos fatores retornados pelos algoritmos de fatoração de matrizes. Isso se deve à impossibilidade de se realizar uma fatoração exata na prática. Em termos gerais, esses algoritmos caracterizam tanto itens quanto usuários por meio de vetores de variáveis latentes inferidas de padrões de avaliação dos itens. Uma alta correspondência entre essas variáveis de um item e um usuário levam a uma recomendação. O algoritmo 1 mostra o pseudocódigo de um algoritmo de fatoração de matrizes sendo que E ij refere-se ao erro quadrático entre a estimativa e a avaliação e seu cálculo está

4 explícito na equação 6. Esse erro pode ser minimizado utilizando-se o gradiente descendente estocástico [5] para diferenciar a equação em relação às diferentes variáveis latentes e obter as equações de atualização p ik e q kj. Na equação 7 verifica-se o cálculo dos componentes dos vetores de preferências do usuário i e do item j. A variável α refere-se à taxa de aprendizado e controla quanto do erro entra no passo de atualização do valor da variável latente em questão. O RapidMiner [4] possui três variações do algoritmo de fatoração de matrizes e por isso foi escolhido como a ferramenta a ser utilizada para a avaliação do desempenho desses algoritmos no problema de prever o desempenho de estudantes em tarefas ainda não realizadas. 4. AVALIAÇÃO EXPERIMENTAL Para a avaliação dos algoritmos de fatoração de matrizes presentes no RapidMiner foi utilizado a base de dados assistments [7] que consiste em um conjunto de dados coletados no entre 2009 e 2010, a partir de uma plataforma online que permite que professores selecionem questões para que estudantes as resolvam e consigam tutoria imediata. Essa base está organizada em um formato de tabela com diversas colunas e a base recortada, utilizada nos experimentos, representa avaliações feitas por estudantes para questões. Os algoritmos foram avaliados comparando os seus desempenhos relativos e o desempenho de um algoritmo de filtragem colaborativa baseado no knn. A precisão foi avaliada por meio das métricas RMSE(Root Mean Square Error) e MAE (Mean Absolute Error), que medem a diferença entre os valores previstos e os observados. O processo implementado no RapidMiner consiste na execução de uma sequência de atividades. Primeiramente a base de dados é importada na ferramenta, considerando os tipos de cada atributo. Após a importação, filtra-se essa base em função do valor de um dos atributos, no caso o correct que será o atributo que indica se um estudante acertou ou não uma determinada questão (correct = 0 correct = 1) e que será o alvo das previsões. Depois, seleciona-se os atributos que serão trabalhados e definem-se os seus respectivos papéis, ou seja, a identificação do usuário e do item. Antes dessa definição, separa-se a base em duas partições, sendo que uma será o conjunto de treinamento (80% da base original) enquanto a outra será o conjunto de testes (20% da base original). Após isso, aplicam-se os algoritmos de filtragem colaborativa e analisa-se as suas performances. Ao aplicar o algoritmo knn e os algoritmos de fatoração de matrizes, considerando os valores padrões dos parâmetros, foi gerado o gráfico apresentado na figura 3, que compara suas precisões. Observa-se que o algoritmo com aquele com o melhor desempenho, ou seja, menor índice de erros foi o algoritmo User-kNN descrito na seção 2.1. Vale ressaltar que apesar do melhor resultado de precisão, o algoritmo User-KNN foi aquele que teve requereu o maior tempo de execução.

5 Na figura 6, percebe-se que o tempo de execução desse algoritmo aumenta conforme varia-se o parâmetro do número de iterações. Figura 3. Gráfico de comparação dos algoritmos Após essa comparação, decidiu-se focar o estudo no algoritmo de fatoração de matrizes BMF (Biased Matrix Factorization) para trabalhar com a manipulação de valores dos parâmetros a fim de melhorar sua precisão. Os primeiros parâmetros a serem variados foram o número de iterações e o booleano Bold Driver, que se refere a uma técnica específica do BMF. Ao variá-los obteve-se uma leve melhora como pode ser visto nas figuras 4 e 5. Figura 4. Tabela da variação do parâmetro iteration Number Figura 6. Tempo de Execução vs. Número de Iterações Outros parâmetros também trabalhados foram os de regularização da matriz. Por meio de referências [5] [6] e estudos de experimentos anteriores, decidiu-se alterar os três parâmetros de regularização ao mesmo tempo (usuário, item e regularização). Figura 7. MAE vs. Parâmetros de Regularização (usuário,item e regularização) Figura 5. BMF: Erro vs. Número de iterações Conforme apresentado na figura 7, foi possível uma leve melhora da precisão do algoritmo, sem um aumento expressivo do tempo de execução como os outros parâmetros. Apesar da melhora na precisão dos algoritmos de fatoração de matrizes, aquele com o melhor resultado continuou sendo a técnica clássica de filtragem colaborativa User-kNN.

6 5. CONCLUSÃO O objetivo do plano de trabalho detalhado no artigo consistia em analisar o desempenho de algoritmos de filtragem colaborativa baseados em métodos de fatoração de matrizes, quando aplicados ao problema de prever o desempenho de estudantes. Essa análise pode ser interpretada como uma forma de buscar aprimorar a precisão dessa previsão e a escalabilidade dos algoritmos, levando em conta o volume de dados disponível e a densidade da matriz usuário-item construída. Os resultados obtidos experimentalmente mostram que esse aprimoramento é possível por meio da adequada escolha dos parâmetros de cada algoritmo, considerando o domínio e o contexto em que estão sendo aplicados. Systems. ACM Int. Conference on Knowledge Discovery and Data Mining (KDD 07), [7] M. Feng, N. Heffernan e K. Koedinger. Addressing the assessment challenge with an Online System that tutors as it assesses. The Journal of User Modeling and User-Adapted Interaction, AGRADECIMENTOS À FAPIC/Reitoria pela bolsa de iniciação científica, à PUC-Campinas pelas instalações que permitiram o desenvolvimento desse artigo, e ao Prof. Dr. Juan Manuel Adán Coello pela orientação e motivação. REFERÊNCIAS [1] Ò. Celma.The Recommendation Problem. Music Recommendation and Discovery Berlin Heidelberg: Springer- Verlag, [2] R. Bell, Y. Koren e C. Volinsky. Matrix factorization techniques for recommender systems. IEEE Computer Society, [3] X. Amatrian, A. Jaimes, N. Oliver e J. M. Pujol. Data mining methods for recommender systems. Recommender Systems Handbook, [4] M. Mihelcic, N. Antulov-Fantulin, M. Bosnjak e T. Smuc. Extending RapidMiner with recommender systems algorithms. RapidMiner Community Meeting and Conference (RCOMM 12), [5] R. Gemulla, P. J. Haas, E. Nijkamp, Y. Sismanis. Large-Scale Matrix Factorization with Distributed Stochastic Gradient Descent. ACM SIGKDD Int. Conference on Knowledge Discovery and Data Mining (KDD 11), [6] R. Bell, Y. Koren e C. Volinsky. Modeling Relationships at Multiple Scales to Improve Accuracy of Large Recommender