BIG DATA INTRODUÇÃO. Humberto Sandmann humberto.sandmann@gmail.com



Documentos relacionados
BIG DATA: UTILIZANDO A INTERNET PARA TOMADA DE DECISÕES

HABILITAÇÃO COMPONENTE TITULAÇÃO

MBA Analytics em Big Data

Ciência dos Dados. Preparado por Intel Corporation Bruno Domingues Principal Architect. segunda-feira, 5 de agosto de 13

Programa de Pós-Graduação em Engenharia de Sistemas e Automação Departamento de Engenharia - Universidade Federal de Lavras

Big Data Networking. Felipe Santos e Lucas Teixeira

Projeto Pedagógico do Bacharelado em Ciência da Computação. Comissão de Curso e NDE do BCC

Técnico em Informática

Sistemas de Bases de Dados

FUNDAÇÃO DE APOIO AO ENSINO TÉCNICO DO ESTADO DO RIO DE JANEIRO FAETERJ Petrópolis Área de Extensão PLANO DE CURSO

Aprendizagem de Máquina

HORÁRIO DE PROVAS 2º semestre 2013

EMENTAS DAS DISCIPLINAS

Boas Práticas em Sistemas Web muito além do HTML...

Formação: o Bacharel em Sistemas de Informações (SI); o MBA em Tecnologia da Informação e Comunicação (TIC).

PERFORMANCE EVALUATION OF A MONGODB AND HADOOP PLATFORM FOR SCIENTIFIC DATA ANALYSIS M.Govindaraju and L. Ramakrishnan

Experiência da UFSC com Projetos Apoiados pela Lei 8248

Universidade Federal de São Paulo Campus São José dos Campos LISTA DE DISCIPLINAS DA GRADUAÇÃO

CATÁLOGO DE REQUISITOS

Pós-Graduação em Engenharia Elétrica Inteligência Artificial

COMPONENTES CURRICULARES POR TITULAÇÃO PROCESSO SELETIVO 7591/2013

Banco de Dados, Integração e Qualidade de Dados. Ceça Moraes cecafac@gmail.com

Instituto de Educação Tecnológica Pós-graduação Gestão e Tecnologia da Informação - Turma 25 20/03/2015. Big Data Analytics:

UNIVERSIDADE FEDERAL DE PERNAMBUCO - PRÓ-REITORIA PARA ASSUNTOS ACADÊMICOS CURRÍCULO DO CURSO DE GRADUAÇÃO EM ENGENHARIA DA COMPUTAÇÃO PERFIL

SISTEMA DE INFORMAÇÃO. COORDENADORA Iris Fabiana de Barcelos Tronto

Análises Preditivas com uso do BIG DATA. Um estudo de caso

4 Estratégias para Implementação de Agentes

Inteligência Artificial

Faculdade de Ciência da Informação Profa. Lillian Alvares

O que é Grid Computing

Universidade de Brasília Departamento de Ciência da Informação e Documentação Programa de Pós Graduação em Ciência da Informação Prof a.

COMUNICAÇÃO NA ERA DO BIG DATA

FACULDADE KENNEDY BACHARELADO EM SISTEMAS DE INFORMAÇÃO

UNOESTE - Universidade do Oeste Paulista F I P P - Faculdade de Informática de Presidente Prudente

PROJETO DE PESQUISA MODALIDADE INICIAÇÃO CIENTÍFICA (BOLSA PIC/FACIT/FAPEMIG)

Catálogo de Requisitos de Titulação. Habilitação: Marketing

O Processo de Desenvolvimento de Software. Engenharia de Software

Pós-Graduação Lato Sensu em ENGENHARIA DE MARKETING

SIS17-Arquitetura de Computadores

Tecnologia a serviço da cidadania

Prof. Daniela Barreiro Claro

HORÁRIO DO CURSO DE CIÊNCIA DA COMPUTAÇÃO 1 PERÍODO 2015/1º SEMESTRE

TECNOLOGIA EM SISTEMAS PARA INTERNET

CATÁLOGO DE REQUISITOS DE TITULAÇÃO PROCESSO SELETIVO 5628/2015

Faculdade de Ciência da Informação Prof a Lillian Alvares

SERVIÇO PÚBLICO FEDERAL UNIVERSIDADE FEDERAL DE PERNAMBUCO CENTRO DE INFORMÁTICA DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO

Fundação Comunitária de Ensino Superior de Itabira Grade Curricular. Faculdade de Ciências Administrativas e Contábeis de Itabira

A MÁQUINA INTELIGENTE. O longo caminho do pensamento mecanizado Júlio Cesar da Silva - juliocesar@eloquium.com.br

TECNOLOGIA EM SISTEMAS PARA INTERNET

Organização e Recuperação da Informação

EMENTAS DAS DISCIPLINAS

UNIVERSIDADE FEDERAL DA BAHIA - UFBA

Grade Curricular - Engenharia de Computação

Curso de Engenharia Formação Geral 1º e 2º anos

Profs. Luiz Laranjeira, Nilton Silva, e Fabrício Braz

Curso de Engenharia. Formação Geral 1º e 2º anos

Copyright 2012 EMC Corporation. Todos os direitos reservados.

CENTRO DE PÓS-GRADUAÇÃO E PESQUISA VISCONDE DE CAIRU CEPPEV CURSO: GESTÃO DE DATACENTER E COMPUTAÇÃO EM NUVEM

LISTA DE EXERCÍCIOS. 1. Binário: Bit: Menor unidade de dados; dígito binário (0,1) Byte: Grupo de bits que representa um único caractere

Inteligência Artificial. Redes Neurais Artificiais

SISTEMAS DE INFORMAÇÃO

BRAlarmExpert. Software para Gerenciamento de Alarmes. BENEFÍCIOS obtidos com a utilização do BRAlarmExpert:

CURSO DE ENGENHARIA DE AVALIAÇÕES IMOBILIÁRIAS METODOLOGIAS CIENTÍFICAS - REGRESSÃO LINEAR MÓDULO BÁSICO E AVANÇADO - 20 horas cada Vagas Limitadas

Sistemas Distribuídos Visão Geral de Sistemas Distribuídos I. Prof. MSc. Hugo Souza

Curso: Bacharelado em Informática. Instituto de Ciências Matemáticas e de Computação

UNIVERSIDADE FEDERAL DO CEARÁ PRÓ-REITORIA DE GRADUAÇÃO CAMPUS DE SOBRAL

OBJETIVOS. Aplicar técnicas de inteligência artificial na solução de problemas de controle e automação. EMENTA

ENGENHARIA DA COMPUTAÇÃO

CORPO DOCENTE DO CURSO SUPERIOR DE TECNOLOGIA EM MANUTENÇÃO INDUSTRIAL ANO 2015

Introdução aos Bancos de Dados Não-Relacionais. Mauricio De Diana (mestrando) Marco Aurélio Gerosa (orientador)

EMENTAS DAS DISCIPLINAS

EMENTÁRIO. Princípios de Conservação de Alimentos 6(4-2) I e II. MBI130 e TAL472*.

Gerência da Informação nos Processos de Automação Industrial

Redes Neurais. Profa. Flavia Cristina Bernardini

The Eucalyptus Open- source Cloud-computing System. Janaina Siqueira Lara Wilpert Marcelo Scheidt Renata Silva

CURSO DE SISTEMAS DE INFORMAÇÃO

UNIVERSIDADE FEDERAL DE SANTA CATARINA

ENGENHARIA DA COMPUTAÇÃO

Introdução ao Modelos de Duas Camadas Cliente Servidor

Big Data Definição, Desafios e Análise de dados Seminário da disciplina IN940 - Banco de Dados

Mestrado em Informática, tendo Inteligência Artificial como área de pesquisa.

Introdução aos Sistemas de Informação. Departamento de Engenharia Rural Centro de Ciências Agrárias - UFES Bruno Vilela Oliveira bruno@cca.ufes.

A Empresa. Alguns Clientes que já utilizam nossa tecnologia.

Etec de Caraguatatuba

Departamento de Ciências e Tecnologias

Instituto Superior de Engenharia do Porto Administração de Sistemas Informáticos I Clusters

Web Data mining com R: aprendizagem de máquina

Aplicações Práticas com Redes Neurais Artificiais em Java

Gestão de Processos de Negócios

SENAI - FATESG. Prof. Esp. MBA Heuber G. F. Lima. Aula 1

UNIVERSIDADE FEDERAL DE SÃO PAULO DEPARTAMENTO DE CIÊNCIA E TECNOLOGIA - DCT. CURSO: BCT (Disciplinas Obrigatórias)

CURSO DE GRADUAÇÃO TECNOLÓGICA EM ANÁLISE E DESENVOLVIMENTO DE SISTEMAS. RECONHECIDO conforme PORTARIA nº 295, de 25 de Junho de 2008.

Evento: 14ª Semana Acadêmica Organização: Curso Superior de Tecnologia em Análise e Desenvolvimento de Sistemas. Período: 22/Abril a 26/Abril de 2013

TREINAMENTO. Apresentação. Objetivos. Dados Principais. Tecnologia Abordada Oracle Databese 11g

FIT's Software Laboratory conducts research, development and innovation projects in software and information systems, focusing on applying new

Big Data e Análise de Dados: Tendências e Aplicações em Projetos. Marcus Borba. Apresentação

CIDADE PARTICIPATIVA O GOVERNO FORA DA CAIXA

CORPO DOCENTE DO CURSO SUPERIOR DE SISTEMAS DE INFOMAÇÕES

Transcrição:

BIG DATA INTRODUÇÃO Humberto Sandmann humberto.sandmann@gmail.com

Apresentação Humberto Sandmann humberto.sandmann@gmail.com Possui graduação em Ciências da Computação pelo Centro Universitário da Faculdade de Engenharia Industrial (FEI), mestrado e doutorado em Engenharia Elétrica pela Universidade de São Paulo, com parte do doutorado realizado no Max Planck Institute for Dynamics and Selforganization em Göttingen (Alemanha). Tem experiência e estudos realizados na área de sistemas dinâmicos em redes neurais artificiais e processamento de sinais biológicos. Além disso, atua na área de ciência da computação, com ênfase em inteligência artificial. As principais áreas de esforços são: sistemas dinâmicos, redes neurais, processamento de sinais, reconhecimento de padrões e aprendizado de máquina. Atualmente, é sócio em uma empresa de tecnologia, a Selsantech, que atua na área de IoT (internet das coisas), inteligência computacional e big data, também, é professor no MBA da FIAP e Toledo e na gradução da FIAP e ESPM

Agenda Roteiro do curso Aula 1: Conceitos, mercado, tendências e arquitetura Aula 2: Ferramentas Hadoop, MongoDB, Neo4j e Solr Aula 3: HBase, Hive e tratamento de dados Aula 4: Machine learning Perceptron MLP, DeepLearning, SOM, Redes probabilística (Redes Bayesianas)

Definição Volume Variedade Velocidade

Conceitos dos 3Vs Big Volume estruturas simples (SQL) estruturas complexas (nonsql) Big Variedade um grande número de fonte de dados a serem integradas Big Velocidade diversas fontes provendo dados simultaneamente

Domínio de atuação Análises são feitas em: centenas ou milhares de nós Petabytes de dados

Big Análises Operações matemáticas complexas aprendizado de máquina (machine learning) agrupamento (clustering) detecção de tendências (predição) Complexidade computacional alta (nx) Multiplicidade matricial Decomposições matriciais Regressões lineares ou nãolineares

Exemplo Estudo de relação de covariância dentre duas ações ao longo de um intervalo de tempo Ações diárias A e B 10 anos (~2000 dias) Resultado: 2 x 2000 dados para cálculo recursivo Porém, quando pensamos em 4000 ações: 4000 x 2000 dados a serem cálculados recursivamente

Exemplo de aplicações Seguro de automóvel sensores em carros (comportamento de direção, localizações de risco, etc) Customização de propagandas Aplicações científicas genoma, imagens de satélites, astronomia, previsão do tempo, neurociência, etc.

Mudança de Domínio da Análise Small Math Big Math muitos domínios vem para ficar

Ferramentas Matlab (Octave) R SAS Microstrategy

Pontos importantes Gerenciamento de dados fraco ou não existente Sistema de arquivo de Armazenamento Escalável e paralelizável

Hadoop Gerencia e centraliza o acesso a dados espalhados por diversos nós de armazenamento (+4000 por exemplo) Implementa o design pattern map/reduce Yarn: ferramenta para gerenciamento do cluster Map/reduce Implementa um repositório unificado de nós HDFS: Hadoop File System Apenas viável se a performance não for problema OpenSource: server de referência para outras implementações

Referência Bibliográfica Bibliografia Apache Hadoop http://hadoop.apache.org/ MIT Big Data Iniciative http://bigdata.csail.mit.edu/