Implementação do Conceito Big Data Utilizando Processamento Paralelo.

FACULDADE DE TECNOLOGIA DO ESTADO DE SÃO PAULO Curso Superior de Tecnologia em Sistemas para Internet Curso Superior de Tecnologia em Análise e Desenvolvimento de Sistemas Implementação do Conceito Big Data Utilizando Processamento Paralelo. PROJETO DE INICIAÇÃO CIENTIFICA Carapicuíba, 2016

FACULDADE DE TECNOLOGIA DO ESTADO DE SÃO PAULO Implementação do Conceito Big Data Utilizando Processamento Paralelo Orientadores: Profa. Dra. Magali Andreia Rossi Prof. Dr. Jean Marcos Laine Prof. Msc Tarcísio Peres Carapicuíba, 2016

1. Resumo O crescimento e a evolução de ferramentas tecnológicas nos mais diversos campos de aplicações, apresentam-se continuamente em nosso dia-a-dia como algo inovador e, em muitas vezes, como necessidade para que possamos nos manter no mercado de trabalho. Assim surgiu o conceito conhecido como Big Data. Esse conceito refere-se a capacidade de analisar massivamente os dados extraídos de diferentes fontes dentro de uma entidade, seja de pesquisa ou comercial [1], [2]. A capacidade de realizar uma análise massiva só é possível através de algum sistema distribuído de alto desempenho, como por exemplo um cluster. Neste ambiente computacional as tarefas são processadas de forma paralela com o intuito de reduzir o tempo de execução e melhorar o desempenho da solução criada. Assim, esse projeto de pesquisa tem como objetivo a implementação das ferramentas necessárias para implantação de um ambiente Big Data e a construção de um ambiente distribuído (cluster) [3], [4] para o processamento paralelo dos dados no ambiente. 2. Introdução Big Data ainda é um conceito novo no Brasil. Poucas são as entidades possuem conhecimento total sobre esse novo ambiente e como implementa-lo, acrescido muitas vezes da falta de confiança para que se possa realizar uma mudança de paradigma na atual estrutura. Contudo, trata-se de um ambiente altamente eficaz quando se refere ao processamento de dados em massa. Nele é possível gerar o armazenamento de dados extraídos de fontes como as Redes Sociais: Twitter, Facebook, Instagram [5], diretamente de sensores e também de outros tipos de dados gerados por ferramentas de monitoramento. Desta forma, esse projeto de pesquisa visa a implementação do ambiente Big Data, onde, são exploradas as atuais ferramentas de software livre disponíveis por meio da Apache Fundation [6]. As ferramentas disponibilizadas pela fundação são específicas para implementação do ambiente proposto, onde, serão estudadas e então definido o conjunto de ferramentas que melhor atenderá o propósito do projeto.

Para realização do processo de Data Collection (Coleta de Dados) serão desenvolvidos Crawlers (Extratores), capazes de extrair dados de diversas fontes atualmente disponíveis na web. O projeto contará com a implementação de um ambiente computacional de alto desempenho (cluster) para que as soluções criadas possam ser testadas e avaliadas. O termo Computação de Alto Desempenho tem sido amplamente utilizado para caracterizar o uso de recursos computacionais que são superiores aos recursos normalmente encontrados em desktops ou simples estações de trabalho. Estes recursos são empregados, em geral, para resolver problemas considerados difíceis e que até pouco tempo atrás eram considerados sem solução. Tais aplicações demandam alta capacidade de processamento do ambiente e exigem recursos que apenas alguns ambientes podem oferecer. Os sistemas de alto desempenho são fundamentais para as aplicações modernas, notadamente as aplicações interativas como jogos computacionais, aplicações comerciais que estão na WEB e também as científicas. Hoje em dia, segundo dados publicados no site www.top500.org, os sistemas computacionais de maior capacidade de processamento em atividade hoje no mundo são aglomerados de computadores (clusters). Estas máquinas estão sendo utilizadas na indústria e nos centros de pesquisa (universidades) espalhados pelo mundo. Este fato demonstra a importância destes sistemas computacionais nos dias de hoje. Neste cenário, é possível compreender o quanto esses sistemas computacionais podem ajudar no desenvolvimento de soluções que exigem alta capacidade de processamento do equipamento/infraestrutura. Uma das vantagens deste ambiente é a possibilidade de utilizar somente tecnologias e ferramentas livres (Open Source), incluindo o próprio sistema operacional. 3. Justificativa Atualmente, os desenvolvimentos voltados ao campo da ciência da computação apresentam um elevado crescimento em torno de novas tecnologias que auxiliam a tomada de decisão de forma eficiente e rápida. A análise de dados passou a ser considerada um ponto fundamental para as instituições que almejam agregar valor aos seus serviços. Para Miao e Zhang, um dos grandes desafios da implementação do conceito de Big Data é sua implementação em sistema de processamento paralelo e sua própria segurança.

Segundo Demkenco, Laat e Membrey, os desafios vão além de prover uma infraestrutura física para o processamento necessário, mas também, por exemplo, abrange a necessidade de se criar modelos semânticos para o ambiente. Ainda em suas definições Demkenco, Laat e Membrey, exploram a necessidade de ambientes onde possam ser analisados os conceitos que circundam a implementação de ambientes Big Data. 4. Objetivos Os objetivos do projeto são definidos conforme a seguir: 4.1. Objetivos Gerais Incentivar o desenvolvimento de projetos de pesquisa e a iniciação científica nos diversos cursos oferecidos pela Fatec Carapicuíba, bem como o estudo de novas tecnologias e das ferramentas atualmente utilizadas para construção do ambiente Big Data. Em paralelo, montar e configurar um cluster capaz de realizar todo o processamento paralelo que envolverá a manipulação dos dados nas aplicações. 4.2. Objetivos Específicos Análise de dados semiestruturados e não estruturados; Estudo e implementação de bases NoSQL; Desenvolvimento de Crawler (Extrator) para extração de dados web e de sensores; Estudo sobre o uso de algoritmos inteligentes (AI) nas operações básicas do ambiente; Implementação de cluster para processamento paralelo dos dados; Estudo e aplicação de técnicas de análise e otimização de desempenho [7], [8], [9]. 4.3. Objetivos Adicionais Oferecimento de minicursos e workshops para difusão do projeto de pesquisa; Escrita de artigos científicos para difusão da pesquisa desenvolvida; Elaboração de relatórios (passo-a-passo) das atividades realizadas para a construção do ambiente; Elaboração de relatórios semestrais de acompanhamento do projeto de pesquisa; Apresentação dos resultados do projeto de pesquisa em eventos científicos.

5. Metodologia Esta proposta de pesquisa pretende introduzir um estudo no campo da ciência da computação para sistemas analíticos e processamento paralelo, atualmente pesquisados e discutidos por diversas empresas e instituições de pesquisa. Assim, esse projeto de pesquisa envolve uma possível competência interdisciplinar, como, arquitetura de computadores, linguagem de programação, redes de computadores e sistemas inteligentes. Desta forma, será realizado o levantamento bibliográfico sobre o assunto, bem como, um estudo sobre as ferramentas que deverão ser implantadas/implementadas para o funcionamento do ambiente. Relacionado a implementação do cluster, primeiramente será realizada avaliação física das máquinas a serem utilizadas, estudo das técnicas para configuração do cluster, bem como um estudo de ferramentas, algoritmos e linguagens para programação paralela [10], [11], [12]. 6. Cronograma A seguir é apresentada a lista de atividades para um total de 06 meses, tendo o início previsto para em 10 de outubro de 2016 e sendo finalizado em 10 de abril de 2017, extensível para mais 6 meses. I.A. Mês 1 II.A. Meses 1, 2, 3 e 4 III.A. Meses 3, 4, 5 e 6 IV.A. Meses 3, 4, 5 e 6 V.A. Meses 4, 5 e 6 Atividade I.A: Será realizada a revisão de literatura sobre os temas envolvidos no projeto e levantamento das ferramentas a serem utilizadas. Atividade II.A: A primeira fase será a definição do conjunto de ferramentas a serem utilizadas. A segunda fase consiste na construção/implantação do ambiente físico e logico, bem como, a primeira análise referente a estabilidade e segurança do ambiente para realização das operações de testes.

Atividade III.A: Serão definidas e desenvolvidas as ferramentas para aquisição dos dados via web e sensores. Atividade IV.A: Disseminação das atividades pode incluir seminários e a apresentação dos principais resultados por meio de artigos científicos em workshops, conferências e revistas. Atividade V.A: Definição dos trabalhos futuros para continuação da pesquisa na área. 7. Seleção A presente proposta para Iniciação Científica fara a seleção dos discentes por meio do Edital Interno de Chamada N 08/2016. Serão abertas a quantidade de 13 vagas as quais serão distribuídas nas atividades definidas no item 6 dessa proposta. Referência Bibliográfica [1] T. Mattson, HPBC 2015 Keynote Speaker - Big Data: What happens when data actually gets big?, in 2015 IEEE International Parallel and Distributed Processing Symposium Workshop, 2015, pp. 535 535. [2] D. Becker, T. D. King, and B. McMullen, Big data, big data quality problem, in 2015 IEEE International Conference on Big Data (Big Data), 2015, pp. 2644 2653. [3] Han Hu, Yonggang Wen, Tat-Seng Chua, and Xuelong Li, Toward Scalable Systems for Big Data Analytics: A Technology Tutorial, IEEE Access, vol. 2, pp. 652 687, 2014. [4] X. Miao and D. Zhang, The opportunity and challenge of Big Data s application in distribution grids, in 2014 China International Conference on Electricity Distribution (CICED), 2014, pp. 962 964. [5] L. Wang, J. Zhan, C. Luo, Y. Zhu, Q. Yang, Y. He, W. Gao, Z. Jia, Y. Shi, S. Zhang, C. Zheng, G. Lu, K. Zhan, X. Li, and B. Qiu, BigDataBench: A big data benchmark suite from internet services, in 2014 IEEE 20th International Symposium on High Performance Computer Architecture (HPCA), 2014, pp. 488 499. [6] A. Fundation, The Apache Software Foundation, The Apache Software Foundation, 2016. [Online]. Available: http://www.apache.org/. [Accessed: 11-Apr-2016]. [7] JAIN, Raj. The art of computer systems performance analysis. John Wiley, 1991. [8] OBAIDAT, M. S. Fundamentals of Performance Evaluation of Computer. John Wiley Professional, 2010. [9] GUNTHER, N. J. Analyzing Computer Systems Performance. Springer Verlag, 2005. [10] Kirk, David B.; Hwu, Wen-mei W. Programming Massively Parallel Processors, Morgan Kaufmann: 1º edição, 2010. [11] Mattson, T.G, Sanders. B.A., Massingill, B.L. Patterns for Parallel Programming. Addison-

Wesley: 1º edição, 2010. [12] Gebali, Fayez. Algorithms and Parallel Computing, Wiley: 1º edição, 2011.