Caracterização da carga de trabalho em sistemas de educação a distância Trabalho de Mestrado Janaína R. Penedo (Aluno),Morganna Diniz(Orientador) Programa de Pós-Graduação em Informática - PPGI 1 Universidade Federal do Estado do Rio de Janeiro - UNIRIO Av. Pasteur, 296 Urca CEP 22290-240 Rio de Janeiro RJ Brazil {janaina.penedo,morganna}@uniriotec.br Ano de Ingresso no Programa de Mestrado: 2010 Época esperada de conclusão: Fevereiro de 2012 Etapas já concluídas: Avaliação dos Dados e Carga de Trabalho Resumo. É crescente o número de instituições que oferecem seus cursos através de sistemas de educação à distância (EAD). A análise de desempenho dessas aplicações está fortemente atrelada a carga de trabalho a que estes sistemas são submetidos. Para projetar adequadamente um sistema, é necessário então entender as características dessas cargas de trabalho. No caso dos sistemas para EAD, a carga é gerada pelos usuários e, portanto, é imprescindível modelar como acontece a interação dos usuários com a aplicação. O objetivo deste trabalho é apresentar uma proposta para caracterização do usuário de um sistema de EAD. Esta proposta será validada com o estudo de caso de uma aplicação que comporta 30 mil alunos de graduação espalhados por 34 polos no Estado do Rio de Janeiro. Palavras Chave:Modelagem, Caracterização de usuários, analise de carga de trabalho, Educação a Distância 1. Fundamentação Teórica Aplicações Web são ubiquos e focadas a atender um grande número de usuários, por isso necessitam ser rápidas e de confiança [Lutteroth and Weber 2008]. A previsão de alocação de recursos dessas aplicações está fortemente atrelada a carga de trabalho a que estes sistemas são submetidos. Caracterizar a carga de um sistema é uma tarefa estratégica pois as informações obtidas na análise dos dados são fundamentais para a construção de sistemas eficientes e precisos no tratamento da própria carga. O objetivo da caracterização é obter 439
uma definição fiel e atual da carga da Web e verificar o comportamento das mudanças ao longo do tempo [Jonack and Murta 2002]. Um dos principais benefícios da caracterização é que ela permite a construção de modelos analíticos que podem replicar o comportamento do usuário de modo que se possa estudar o desempenho de sistemas similares em um ambiente de laboratório, onde é possível medir com maior precisão os efeitos dos vários tipos de requisições de usuários, e ainda construir modelos mais precisos da utilização dos recursos do sistema de informação. 2. Caracterização da Contribuição Com a popularização da Internet, novas possibilidades de aplicações foram disponibilizadas, entre elas pode-se citar o crescimento extraordinário dos cursos universitários oferecidos na modalidade de Ensino a Distância (EAD). Como a Internet é considerada um meio relativamente barato para a transmissão de dados multimídia, o seu uso para a distribuição de conteúdo de aulas parece ser a resposta natural para a implementação de cursos não presenciais ou parcialmente não presenciais pelas instituições de ensino. De acordo com o MEC, em 2009, 145 instituições estavam credenciadas para a oferta de cursos superiores na modalidade a distância com mais de 760.000 mil alunos matriculados [MEC 2011]. É importante enfatizar que EAD é educação e tem que ser de qualidade, tanto quanto a educação presencial [Nascimento and Carnielli 2009]. Um dos problemas encontrados pelas instituições que provêem ensino na modalidade a distância está em como compartilhar, dimensionar e alocar os recursos computacionais corretos a seus sistemas de forma a melhor atender a esta premissa. Uma hipótese para solução deste problema está em entender como é gerada a carga de trabalho a que o sistema é submetido. No caso dos sistemas para EAD, a carga é gerada pelos seus usuários e, portanto, é imprescindível modelar como acontece a interação dos usuários com a aplicação. A determinação dos processos que representam este comportamento e suas características estatísticas nos permitirá criar modelos de carga de trabalho e compor um modelo geral de sistema, de forma a responder perguntas referentes ao aumento da escalabilidade, mantendo o desempenho satisfatório e consequentemente a qualidade de serviço. O objetivo deste trabalho é apresentar uma proposta que permita caracterizar a carga de trabalho de um sistema de EAD, levando em consideração a interação do usuário com o sistema. Para tal, são analisadas através de um estudo de caso as principais métricas relacionadas ao desempenho de acordo com a carga gerada pelas interações dos usuários do sistema. O estudo de caso a ser realizado é a do consórcio CEDERJ (Fundação CECIERJ). O Consórcio CEDERJ [CEDERJ 2011] reúne seis universidades públicas sediadas no Estado do Rio de Janeiro: 1. Universidade do Estado do Rio de Janeiro - UERJ; 2. Universidade Estadual do Norte Fluminense Darcy Ribeiro - UENF; 3. Universidade Federal do Estado do Rio de Janeiro - UNIRIO; 4. Universidade Federal do Rio de Janeiro - UFRJ; 440
5. Universidade Federal Fluminense - UFF; 6. Universidade Federal Rural do Rio de Janeiro - UFRRJ. O aluno do Consórcio CEDERJ está matriculado em uma das universidades do consórcio, dependendo do curso e do pólo regional a que esteja vinculado. Os polos são os locais onde os alunos matriculados podem realizar atividades presenciais obrigatórias, como aulas de laboratório, avaliações, entre outros. O Consórcio CEDERJ vem servindo de modelo em todo o Brasil. Em seu último vestibular se inscreveram mais de 22 mil alunos. A quantidade de cursos cresceu sete vezes em relação ao primeiro vestibular e o total de municipios atendidos passou de 4 para 34 em todo o Estado do Rio de Janeiro [CEDERJ 2011]. 3. Estado atual do trabalho Após revisão sistemática realizada sobre os trabalhos encontrados na literatura, a presente pesquisa encontra-se em fase de identificação dos parametros para compor o modelo que melhor caracterize o comportamento dos usuários do sistema de EAD. Para tal, as seguintes etapas foram definidas: 1. Revisão sistemática de trabalhos correlatos; 2. Coleta dos dados semestre de aulas (2010.2) de todos os cursos de graduação do CEDERJ; 3. Avaliação dos dados e da carga de trabalho; 4. Identificação dos parâmetros para compor o modelo de acordo com dados identificados nos trabalhos correlatos; 5. Definição dos perfis dos usuários; 6. Definição do modelo matemático para representar o sistema da informação; 7. Avaliação e geração de resultados com o modelo; 8. Criação de aplicação para demonstrar graficamente os resultados do modelo; 9. Validação do modelo com o ambiente real; 10. Discussão dos resultados. 4. Trabalhos relacionados (visão comparativa) Um grande número de estudos tem seu enfoque voltado a melhor forma de caracterizar e medir desempenho de carga de trabalho Web. Esses trabalhos consideram a carga como um todo, não se preocupando em identificar os perfis dos usuários do sistema. Isto significa que os resultados não são capazes de detectar a influência do comportamento dos usuários na geração da carga no sistema, já que apenas fornecem a média geral da carga a qual é submetida o sistema. O objetivo de [Davison 1999] é demonstrar como a falta de um correto levantamento dos dados pode afetar seriamente a caracterização do trafego Web. O autor levanta questões da utilidade das requisições HTTP para o desempenho e caracterização da carga de trabalho e demonstra os tipos de informações disponíveis ao analisar tais requisições. Em [Pereira et al. 2004] o autor realiza uma caracterização hierarquica da carga de trabalho da base de dados uma universidade federal. O autor analisa o comportamento do 441
usuário baseado no estudo das sessões e na correlação das mesmas com o serviço provido pelo servidor Web. O autor utiliza quatro níveis para tal analise: requisição, função, sessão e usuário. Em cada um dos níveis são definidas as métricas com o objetivo de compor uma metodologia de caracterização genérica para aplicações Web. Em [Almeida et al. 2001] o autor analisa as cargas de dois sistemas utilizados para EAD: BIBS e eteach. É feito um estudo de três métricas para a caracterização da carga de mídia educativa: tempo entre chegadas de sessões, popularidade das aulas e a popularidade de segmentos das aulas. Para o eteach, a distribuição exponencial mostrouse adequada para modelar o tempo entre chegadas de sessões. Já para o sistema BIBS a distribuição de Pareto foi a que mais precisamente representou esta métrica. Em [Lutteroth and Weber 2008] os autores aplicaram uma metodologia de analise orientada em que a interação do usuário e a resposta a essa interação são modeladas em um diagrama de estado de transiçao para obter os modelos de carga de trabalho em sistemas WEB. Os testes realizados ajudaram a revelar gargalos no sistema com antecipação. Em [Hernández-Orallo and Vila-Carbó 2009] os autores propõem um modelo análitico para avaliar diversas classes de carga de trabalho baseado em histogramas. A proposta se compromete a responder perguntas como: Como fica o desempenho se a carga de trabalho for aumentada em 50%? Os resultados mostraram que o modelo é exato comparado com os resultados reais quando utilizado em testes de um servidor web. Em [Benevenuto et al. 2009] foi realizada a analise da carga de trabalho de redes sociais on line baseada nas atividades dos usuários. Foram executados três tipos principais de análises: padrões das sessões, atividade dos usuários e as transições entre as atividades. Como resultado, descobriu-se aspectos relevantes a serem considerados, tais como a descoberta de ações fantasmas (onde não ocorriam nenhum tipo de requisição), como por exemplo navegação entre pagimas de perfil e visualização de fotos. Dentre os trabalhos que efetuam a caracterização da carga levando em consideração o usuário, podemos citar [Marques-Neto et al. 2009] que propõe uma metodologia para caracterização dos usuários de banda larga da internet. Essa metodologia contempla a análise de sete aspectos considerados na carga de trabalho de um provedor de banda larga: (i) processo de chegada das sessões dos usuários à infra-estrutura; (ii) processo de saída das sessões dos usuários; (iii) duração das sessões; (iv) bytes recebidos durante as sessões dos usuários; (v) bytes enviados nas sessões; (vi) os principais serviços; (vii) atividades de comércio eletrônico utilizadas na Internet de banda larga. Os itens i, ii e iii provêem informações sobre o aspecto temporal da carga, enquanto que os itens iv, v, vi e vii qualificam a carga do usuário. Em [Menascé et al. 1999], Menasce propõe uma metodologia de caracterização de carga de trabalho para sites de comércio eletrônico, introduzindo um modelo de compor- 442
tamento de usuário. A diferença entre [Marques-Neto et al. 2009] e [Menascé et al. 1999] está que o primeiro propõe uma metodologia para caracterização de usuários de provedores, enquanto que [Menascé et al. 1999] propõe uma metodologia de caracterização focada em sites de comércio eletrônico. Nessa abordagem, só são consideradas as requisições que geram ações no servidor. Dessa forma, os seguintes aspectos são citados como importantes: (i) a taxa de chegada dos pedidos de início de sessão, para cada tipo de sessão. (ii) a média de tempo passado desde que o servidor terminou uma requisição do usuário até receber outra. Trabalhos com a análise voltada para ensino a distância também são encontrados na literatura. A caracterização da interatividade de alunos do curso de computação do CEDERJ foi proposta por [Bruno C. B. Alves, Rosa M. M. Leão, Edmundo de Souza e Silva 2007]. O trabalho caracterizou apenas os videos de aulas do curso de computação. O servidor RIO permite aos usuários acesso a aulas pré-gravadas com vídeo e slides sincronizados. Neste ambiente, os alunos tem total controle sobre a aula que estão assistindo, podendo se movimentar livremente sobre todos os tópicos de cada aula e de diversas formas, parar e retomar a exibição a qualquer instante e de qualquer ponto da aula. Foram analisadas 2674 sessões de usuários, cada sessão correspondendo a uma aula assistida por aluno, durante o ano de 2005. Como principal contribuição está o estudo detalhado e a parametrização de variáveis de interatividade dos usuários do servidor RIO em um ambiente real de operação. 5. Avaliação dos Resultados O estudo inicial será desenvolvido utilizando os dados de semestre 2010.2 de todos os cursos de graduaçào do CEDERJ. Entretanto, dados de 2011.1 serão coletados para validar e comparar com os do semestre anterior. A idéia é verificar a escalabilidade e a adequação do modelo proposto diante do crescimento e alterações no sistema de informação estudado. Referências Almeida, J. M., Krueger, J., Eager, D. L., and Vernon, M. K. (2001). Analysis of educational media server workloads. Benevenuto, F., Rodrigues, T., Cha, M., and Almeida, V. (2009). Characterizing user behavior in online social networks. In IMC 09 Proceedings of the 9th ACM SIGCOMM conference on Internet measurement conference. Bruno C. B. Alves, Rosa M. M. Leão, Edmundo de Souza e Silva (2007). Caracterizando variáveis de interatividade dos alunos do curso de computação do CEDERJ baseado no servidor multimídia RIO. In In: V Workshop de Desempenho em Sistemas Computacionais e de Comunicação (WPerformance) / XXVII SBC 2007. CEDERJ (2011). Acessado em Fevereiro (2011), http://portal.cederj.edu.br/fundacao/. Davison, B. D. (1999). Web traffic logs: An imperfect resource for evaluation. In Ninth Annual Conference of the Internet Society (INET). 443
Hernández-Orallo, E. and Vila-Carbó, J. (2009). Web server performance analysis using histogram workload models. Comput. Netw., 53:2727 2739. Jonack, M. A. and Murta, C. D. (2002). Caracterização de carga de cache da www. In Revista Eletrônica de Iniciação Científica. Lutteroth, C. and Weber, G. (2008). Modeling a realistic workload for performance testing. Enterprise Distributed Object Computing Conference, IEEE International, 0:149 158. Marques-Neto, H. T., do Valle, E. V., Castilho, L. H., Almeida, J. M., and Almeida, V. A. F. (2009). Caracterização hierárquica do comportamento dos usuários de sistemas par-a-par na internet de banda larga. In 27 o Simpósio Brasileiro de Redes de Computadores e Sistemas Distribuídos. MEC (2011). Acessado em Fevereiro (2011), http://portal.mec.gov.br/. Menascé, D., Almeida, V., Fonseca, R., and Mendes, M. (1999). A methodology for workload characterization of e-commerce sites. In Proceedings of the ACM Conference on Electronic Commerce, New York. ACM. Nascimento, F. and Carnielli, B. (2009). Ensino superior: expansão com qualidade? In São Paulo em Perspectiva, 2000 - SciELO Brasil. Pereira, A., Franco, G., Silva, L., and Wagner Meira, J. (2004). A hierarchical characterization of user behavior. Web Congress, Joint Conference Brazilian Symposium on Multimedia and the Web & Latin America, 0:2 9. 444