Implementação do Conceito Big Data Utilizando Processamento Paralelo.

Documentos relacionados
UBIBUSANALYSIS UMA FERRAMENTA DE INTERPRETAÇÃO DE

Escalonamento de Aplicações BoT em Ambiente de Nuvem

Implementação de um escalonador de processos em GPU

Autor 1 Orientador: 1. dia de mês de ano

USO DE PARALELISMO DE DADOS PARA MAIOR EFICIÊNCIA DE ALGORITMOS DE PROCESSAMENTO DE IMAGENS

UNIVERSIDADE FEDERAL DO PARÁ PRÓ-REITORIA DE PESQUISA E PÓS-GRADUAÇÃO DIRETORIA DE PESQUISA PROGRAMA INSTITUCIONAL DE BOLSAS DE INICIAÇÃO CIENTÍFICA

Programa Analítico de Disciplina INF333 Programação Competitiva

Um Calculador de Capacidade de Computação para Nós de Máquinas Virtuais LAM/MPI

Universidade Federal de Pernambuco

UNIVERSIDADE PRESBITERIANA MACKENZIE

Mecanismo de Segurança para Redes Móveis Ad Hoc

Administração de Serviços de Redes. Introdução a Clusters. Prof. Dayvidson Bezerra Contato:

Parallel Computing Paradigms

1.1 Descrição do problema A programação genética (PG) é uma meta-heurística utilizada para gerar programas de computadores, de modo que o computador

Um Servidor Escalável para Bases Massivas de

Algoritmos de Junção Estrela em MapReduce

Mineração de Dados com Big Data. Prof. Fabrício Olivetti de França Universidade Federal do ABC

com Big Data Fabrício Olivetti de França Universidade Federal do ABC

Computação Musical - Introdução slides do curso Computação Musical

Avaliação do Tempo de Processamento e Comunicação via Rotinas MPI Assíncronas no Modelo OLAM

SISTEMAS DISTRIBUÍDOS

Utilização de técnicas de Process Mining em Sistemas de Middleware Adaptativos Proposta de Trabalho de Graduação

BD e Cloud Gerenciamento de. Dados na Nuvem

Licenciatura em Informática

Informática Parte 10 Prof. Márcio Hunecke

InGriDE: Um Ambiente Integrado de Desenvolvimento para Computação em Grade

BIG DATA. Jorge Rady de Almeida Jr. Escola Politécnica da U SP

"Análise de Extratores de Característica para Reconhecimento de Face"

Paradigmas de Computação

UNIVERSIDADE PRESBITERIANA MACKENZIE Faculdade de Computação e Informática. 7th SEMESTER

INTERNET DAS COISAS: PROTÓTIPO DE BAIXO CUSTO PARA MONITORAR TEMPERATURA E UMIDADE

CONSTRUÇÃO DE UM BANCO DE DADOS PARA O LIMA

Fundamentos de Mineração de Dados

Curso de Engenharia Formação Geral 1º e 2º anos

AVALIAÇÃO DE DESEMPENHO DE PROCESSAMENTO DISTRIBUÍDO EM LARGA ESCALA COM HADOOP

Universidade Federal de Pernambuco Graduação em Ciência da Computação Centro de Informática

Introdução a Computação em Nuvem

PCS 2039 Modelagem e Simulação de Sistemas Computacionais

SERVIÇO PÚBLICO FEDERAL MINISTÉRIO DA EDUCAÇÃO INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNOLOGIA DE MINAS GERAIS IFMG

Figura 4.2: Matriz Curricular

MATRIZ CURRICULAR BACHARELADO EM ENGENHARIA DA COMPUTAÇÃO. 1º Período

Introdução na Computação Distribuída e Paralela

Currículos dos Cursos UFV CIÊNCIA DA COMPUTAÇÃO. COORDENADOR Alcione de Paiva Oliveira

Avaliação de desempenho de virtualizadores no envio e recebimento de pacotes em sistemas Linux

Sistemas Distribuídos

PRORROGAÇÃO EDITAL Nº 28/2017 PROPIT/LCC - SELEÇÃO DE PROPOSTAS PARA USO DA INFRAESTRUTURA COMPUTACIONAL DO LCC

COMPUTAÇÃO PARALELA E DISTRIBUÍDA

Sobre o curso. Fabrício Olivetti de França. Universidade Federal do ABC

Um Método para Melhoria de Dados Estruturados de Imóveis

Paradigmas de Processamento Paralelo na Resolução do Fractal de Mandelbrot

UM FRAMEWORK DE CONECTIVIDADE PARA APLICAÇÕES MÓVEIS EM JAVA ME

SERVIÇO PÚBLICO FEDERAL MINISTÉRIO DA EDUCAÇÃO INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNOLOGIA DE MINAS GERAIS IFMG

UNIVERSIDADE FEDERAL DE PERNAMBUCO CENTRO DE INFORMÁTICA GRADUAÇÃO EM ENGENHARIA DA COMPUTAÇÃO

CIC Organização e Arquitetura de Computadores. Prof. Ricardo Jacobi Notas de Aula: Prof. Gerson Henrique Pfitscher

Currículos dos Cursos UFV CIÊNCIA DA COMPUTAÇÃO. COORDENADOR Alcione de Paiva Oliveira

IV SEMANA TECH Outubro / 2017 PROGRAMA 1. Tema TI para a sociedade e Site. 2. Cronograma geral. semanatech.com.

OpenMP: Variáveis de Ambiente

Pentaho IoT Analytics Open Source Trilha IoT

Aluno do curso de Ciência da Computação da Unijuí e Bolsista PIBIC/UNIJUÍ, 3. Professor Orientador do Departamento de Ciências Exatas e Engenharias 4

Evento: XXV SEMINÁRIO DE INICIAÇÃO CIENTÍFICA

Informática Parte 11 Prof. Márcio Hunecke

Arquiteturas de Computadores. Programa de Pós-Graduação em Ciência da Computação. Plano da aula

INTEGRAÇÃO DE UMA REDE DE SENSORES SEM FIO COM A WEB UTILIZANDO UMA ARQUITETURA ORIENTADA A SERVIÇO

Página 1 of 5. Curriculum Vitae - CNPq. Dados Pessoais. Formação Acadêmica/Titulação. Atuação Profissional

MINISTÉRIO DA EDUCAÇÃO SECRETARIA DE EDUCAÇÃO PROFISSIONAL E TECNOLÓGICA INSTITUTO FEDERAL DO NORTE DE MINAS GERAIS CAMPUS MONTES CLAROS 1 PERÍODO

1º Semestre. Algoritmos e Programação Orientada a Objetos I. Fundamentos de Teoria da Computação. Introdução à Administração

Sumário. Referências utilizadas. Introdução. MAFIA: Merging of Adaptive Finite Intervals. Introdução Visão Geral e Objetivos do MAFIA

Técnicas de Inteligência Artificial

Sistemas Distribuídos

Aluno do curso de Ciência da Computação da Unijuí e Bolsista PIBIC/UNIJUÍ 3. Professor Orientador do Departamento de Ciências Exatas e Engenharias 4

O estado de arte: a evolução de computação de alto desempenho

Aprendizagem de Máquina

Desenvolvimento de Sistemas de Extração de Informações para Ambientes Colaborativos na Web

Currículos dos Cursos do CCE UFV CIÊNCIA DA COMPUTAÇÃO. COORDENADOR André Gustavo dos Santos

SSC510 Arquitetura de Computadores. 6ª aula

Índice. Classificação de textos para o ensino de português como segunda língua. Índice. technology from seed

SERVIÇO PÚBLICO FEDERAL MINISTÉRIO DA EDUCAÇÃO INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNOLOGIA DE MINAS GERAIS IFMG

Proposta de Curso LNCC

SERVIÇO PÚBLICO FEDERAL MINISTÉRIO DA EDUCAÇÃO INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNOLOGIA DE MINAS GERAIS IFMG

SERVIÇO PÚBLICO FEDERAL MINISTÉRIO DA EDUCAÇÃO INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNOLOGIA DE MINAS GERAIS IFMG

Uma métrica para recomendação de federação em rede ponto-a-ponto

ORGANIZAÇÃO E ARQUITETURA DE COMPUTADORES II AULA 04: PROCESSAMENTO PARALELO: MULTICOMPUTADOR

O reconhecimento facial é dividido em três etapas: i) detecção da face, ii) extração de características e iii) reconhecimento da face.

CURRÍCULO ACADÊMICO. _ Ciência da Computação BACHARELADO

Predição de Utilização de Recursos Computacionais Usando Séries Temporais

CURTA DURAÇÃO ANÁLISE DE BIG DATA. CARGA HORÁRIA: 80 horas COORDENAÇÃO: Prof. Dr. Adolpho Pimazoni Canton Prof.ª Drª Alessandra de Ávila Montini

BCC402 Algoritmos e Programação Avançada. Prof. Marco Antonio M. Carvalho Prof. Túlio Toffolo 2012/1

UNIVERSIDADE FEDERAL DE UBERLÂNDIA UFU

30/5/2011. Sistemas computacionais para processamento paralelo e distribuído

SERVIÇO PÚBLICO FEDERAL MINISTÉRIO DA EDUCAÇÃO INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNOLOGIA DE MINAS GERAIS IFMG

Avaliação da Disponibilidade de Infraestrutura de Sincronização de Dados

CIÊNCIA DA COMPUTAÇÃO

PLANO DE ATIVIDADES DO ESTÁGIO DE DOCÊNCIA

BALANCEAMENTO DE CARGA EM SISTEMAS MULTIPROCESSADORES UTILIZANDO O MODELO DE PROGRAMAÇÃO CHARM++ 1

Computação de Alto Desempenho Clusters de PCs

Palavras-chave: (banco de dados; prontuário médico; paciente); deve vir logo abaixo do resumo

Transcrição:

FACULDADE DE TECNOLOGIA DO ESTADO DE SÃO PAULO Curso Superior de Tecnologia em Sistemas para Internet Curso Superior de Tecnologia em Análise e Desenvolvimento de Sistemas Implementação do Conceito Big Data Utilizando Processamento Paralelo. PROJETO DE INICIAÇÃO CIENTIFICA Carapicuíba, 2016

FACULDADE DE TECNOLOGIA DO ESTADO DE SÃO PAULO Implementação do Conceito Big Data Utilizando Processamento Paralelo Orientadores: Profa. Dra. Magali Andreia Rossi Prof. Dr. Jean Marcos Laine Prof. Msc Tarcísio Peres Carapicuíba, 2016

1. Resumo O crescimento e a evolução de ferramentas tecnológicas nos mais diversos campos de aplicações, apresentam-se continuamente em nosso dia-a-dia como algo inovador e, em muitas vezes, como necessidade para que possamos nos manter no mercado de trabalho. Assim surgiu o conceito conhecido como Big Data. Esse conceito refere-se a capacidade de analisar massivamente os dados extraídos de diferentes fontes dentro de uma entidade, seja de pesquisa ou comercial [1], [2]. A capacidade de realizar uma análise massiva só é possível através de algum sistema distribuído de alto desempenho, como por exemplo um cluster. Neste ambiente computacional as tarefas são processadas de forma paralela com o intuito de reduzir o tempo de execução e melhorar o desempenho da solução criada. Assim, esse projeto de pesquisa tem como objetivo a implementação das ferramentas necessárias para implantação de um ambiente Big Data e a construção de um ambiente distribuído (cluster) [3], [4] para o processamento paralelo dos dados no ambiente. 2. Introdução Big Data ainda é um conceito novo no Brasil. Poucas são as entidades possuem conhecimento total sobre esse novo ambiente e como implementa-lo, acrescido muitas vezes da falta de confiança para que se possa realizar uma mudança de paradigma na atual estrutura. Contudo, trata-se de um ambiente altamente eficaz quando se refere ao processamento de dados em massa. Nele é possível gerar o armazenamento de dados extraídos de fontes como as Redes Sociais: Twitter, Facebook, Instagram [5], diretamente de sensores e também de outros tipos de dados gerados por ferramentas de monitoramento. Desta forma, esse projeto de pesquisa visa a implementação do ambiente Big Data, onde, são exploradas as atuais ferramentas de software livre disponíveis por meio da Apache Fundation [6]. As ferramentas disponibilizadas pela fundação são específicas para implementação do ambiente proposto, onde, serão estudadas e então definido o conjunto de ferramentas que melhor atenderá o propósito do projeto.

Para realização do processo de Data Collection (Coleta de Dados) serão desenvolvidos Crawlers (Extratores), capazes de extrair dados de diversas fontes atualmente disponíveis na web. O projeto contará com a implementação de um ambiente computacional de alto desempenho (cluster) para que as soluções criadas possam ser testadas e avaliadas. O termo Computação de Alto Desempenho tem sido amplamente utilizado para caracterizar o uso de recursos computacionais que são superiores aos recursos normalmente encontrados em desktops ou simples estações de trabalho. Estes recursos são empregados, em geral, para resolver problemas considerados difíceis e que até pouco tempo atrás eram considerados sem solução. Tais aplicações demandam alta capacidade de processamento do ambiente e exigem recursos que apenas alguns ambientes podem oferecer. Os sistemas de alto desempenho são fundamentais para as aplicações modernas, notadamente as aplicações interativas como jogos computacionais, aplicações comerciais que estão na WEB e também as científicas. Hoje em dia, segundo dados publicados no site www.top500.org, os sistemas computacionais de maior capacidade de processamento em atividade hoje no mundo são aglomerados de computadores (clusters). Estas máquinas estão sendo utilizadas na indústria e nos centros de pesquisa (universidades) espalhados pelo mundo. Este fato demonstra a importância destes sistemas computacionais nos dias de hoje. Neste cenário, é possível compreender o quanto esses sistemas computacionais podem ajudar no desenvolvimento de soluções que exigem alta capacidade de processamento do equipamento/infraestrutura. Uma das vantagens deste ambiente é a possibilidade de utilizar somente tecnologias e ferramentas livres (Open Source), incluindo o próprio sistema operacional. 3. Justificativa Atualmente, os desenvolvimentos voltados ao campo da ciência da computação apresentam um elevado crescimento em torno de novas tecnologias que auxiliam a tomada de decisão de forma eficiente e rápida. A análise de dados passou a ser considerada um ponto fundamental para as instituições que almejam agregar valor aos seus serviços. Para Miao e Zhang, um dos grandes desafios da implementação do conceito de Big Data é sua implementação em sistema de processamento paralelo e sua própria segurança.

Segundo Demkenco, Laat e Membrey, os desafios vão além de prover uma infraestrutura física para o processamento necessário, mas também, por exemplo, abrange a necessidade de se criar modelos semânticos para o ambiente. Ainda em suas definições Demkenco, Laat e Membrey, exploram a necessidade de ambientes onde possam ser analisados os conceitos que circundam a implementação de ambientes Big Data. 4. Objetivos Os objetivos do projeto são definidos conforme a seguir: 4.1. Objetivos Gerais Incentivar o desenvolvimento de projetos de pesquisa e a iniciação científica nos diversos cursos oferecidos pela Fatec Carapicuíba, bem como o estudo de novas tecnologias e das ferramentas atualmente utilizadas para construção do ambiente Big Data. Em paralelo, montar e configurar um cluster capaz de realizar todo o processamento paralelo que envolverá a manipulação dos dados nas aplicações. 4.2. Objetivos Específicos Análise de dados semiestruturados e não estruturados; Estudo e implementação de bases NoSQL; Desenvolvimento de Crawler (Extrator) para extração de dados web e de sensores; Estudo sobre o uso de algoritmos inteligentes (AI) nas operações básicas do ambiente; Implementação de cluster para processamento paralelo dos dados; Estudo e aplicação de técnicas de análise e otimização de desempenho [7], [8], [9]. 4.3. Objetivos Adicionais Oferecimento de minicursos e workshops para difusão do projeto de pesquisa; Escrita de artigos científicos para difusão da pesquisa desenvolvida; Elaboração de relatórios (passo-a-passo) das atividades realizadas para a construção do ambiente; Elaboração de relatórios semestrais de acompanhamento do projeto de pesquisa; Apresentação dos resultados do projeto de pesquisa em eventos científicos.

5. Metodologia Esta proposta de pesquisa pretende introduzir um estudo no campo da ciência da computação para sistemas analíticos e processamento paralelo, atualmente pesquisados e discutidos por diversas empresas e instituições de pesquisa. Assim, esse projeto de pesquisa envolve uma possível competência interdisciplinar, como, arquitetura de computadores, linguagem de programação, redes de computadores e sistemas inteligentes. Desta forma, será realizado o levantamento bibliográfico sobre o assunto, bem como, um estudo sobre as ferramentas que deverão ser implantadas/implementadas para o funcionamento do ambiente. Relacionado a implementação do cluster, primeiramente será realizada avaliação física das máquinas a serem utilizadas, estudo das técnicas para configuração do cluster, bem como um estudo de ferramentas, algoritmos e linguagens para programação paralela [10], [11], [12]. 6. Cronograma A seguir é apresentada a lista de atividades para um total de 06 meses, tendo o início previsto para em 10 de outubro de 2016 e sendo finalizado em 10 de abril de 2017, extensível para mais 6 meses. I.A. Mês 1 II.A. Meses 1, 2, 3 e 4 III.A. Meses 3, 4, 5 e 6 IV.A. Meses 3, 4, 5 e 6 V.A. Meses 4, 5 e 6 Atividade I.A: Será realizada a revisão de literatura sobre os temas envolvidos no projeto e levantamento das ferramentas a serem utilizadas. Atividade II.A: A primeira fase será a definição do conjunto de ferramentas a serem utilizadas. A segunda fase consiste na construção/implantação do ambiente físico e logico, bem como, a primeira análise referente a estabilidade e segurança do ambiente para realização das operações de testes.

Atividade III.A: Serão definidas e desenvolvidas as ferramentas para aquisição dos dados via web e sensores. Atividade IV.A: Disseminação das atividades pode incluir seminários e a apresentação dos principais resultados por meio de artigos científicos em workshops, conferências e revistas. Atividade V.A: Definição dos trabalhos futuros para continuação da pesquisa na área. 7. Seleção A presente proposta para Iniciação Científica fara a seleção dos discentes por meio do Edital Interno de Chamada N 08/2016. Serão abertas a quantidade de 13 vagas as quais serão distribuídas nas atividades definidas no item 6 dessa proposta. Referência Bibliográfica [1] T. Mattson, HPBC 2015 Keynote Speaker - Big Data: What happens when data actually gets big?, in 2015 IEEE International Parallel and Distributed Processing Symposium Workshop, 2015, pp. 535 535. [2] D. Becker, T. D. King, and B. McMullen, Big data, big data quality problem, in 2015 IEEE International Conference on Big Data (Big Data), 2015, pp. 2644 2653. [3] Han Hu, Yonggang Wen, Tat-Seng Chua, and Xuelong Li, Toward Scalable Systems for Big Data Analytics: A Technology Tutorial, IEEE Access, vol. 2, pp. 652 687, 2014. [4] X. Miao and D. Zhang, The opportunity and challenge of Big Data s application in distribution grids, in 2014 China International Conference on Electricity Distribution (CICED), 2014, pp. 962 964. [5] L. Wang, J. Zhan, C. Luo, Y. Zhu, Q. Yang, Y. He, W. Gao, Z. Jia, Y. Shi, S. Zhang, C. Zheng, G. Lu, K. Zhan, X. Li, and B. Qiu, BigDataBench: A big data benchmark suite from internet services, in 2014 IEEE 20th International Symposium on High Performance Computer Architecture (HPCA), 2014, pp. 488 499. [6] A. Fundation, The Apache Software Foundation, The Apache Software Foundation, 2016. [Online]. Available: http://www.apache.org/. [Accessed: 11-Apr-2016]. [7] JAIN, Raj. The art of computer systems performance analysis. John Wiley, 1991. [8] OBAIDAT, M. S. Fundamentals of Performance Evaluation of Computer. John Wiley Professional, 2010. [9] GUNTHER, N. J. Analyzing Computer Systems Performance. Springer Verlag, 2005. [10] Kirk, David B.; Hwu, Wen-mei W. Programming Massively Parallel Processors, Morgan Kaufmann: 1º edição, 2010. [11] Mattson, T.G, Sanders. B.A., Massingill, B.L. Patterns for Parallel Programming. Addison-

Wesley: 1º edição, 2010. [12] Gebali, Fayez. Algorithms and Parallel Computing, Wiley: 1º edição, 2011.