Ciência dos Dados. bruno.domingues@intel.com. Preparado por Intel Corporation Bruno Domingues Principal Architect. segunda-feira, 5 de agosto de 13

Documentos relacionados
BIG DATA INTRODUÇÃO. Humberto Sandmann

MBA Analytics em Big Data

O que é a ciência de dados (data science). Discussão do conceito. Luís Borges Gouveia Universidade Fernando Pessoa Versão 1.

Contexto de Big Data, Ciência de Dados e KDD

Análises Preditivas com uso do BIG DATA. Um estudo de caso

INF 1771 Inteligência Artificial

BIG DATA E ESTRATÉGIA. 19 de junho de Universidade Federal do Rio de Janeiro. Redes de Computadores I. Adriana, Evandro e Fernanda.

Modelagens e Gerenciamento de riscos (Simulação Monte Carlo)

Profs. Luiz Laranjeira, Nilton Silva, e Fabrício Braz

FLUXO DE CAIXA: Módulo BI (Business Intelligence)

Extração de Árvores de Decisão com a Ferramenta de Data Mining Weka

Laudon & Laudon Essentials of MIS, 5th Edition. Pg. 1.1

Inteligência de Negócio. Brian Cowhig

Identificar as mudanças que acontecem na forma e no uso de apoio à decisão em empreendimentos de e-business. Identificar o papel e alternativas de

Análise de Sistemas. Visão Geral: Orientação a Objetos. Prof. José Honorato Ferreira Nunes honorato.nunes@bonfim.ifbaiano.edu.br

ADM041 / EPR806 Sistemas de Informação

John Locke ( ) Colégio Anglo de Sete Lagoas - Professor: Ronaldo - (31)

MINERAÇÃO DE DADOS APLICADA. Pedro Henrique Bragioni Las Casas

SAD orientado a MODELO

NOKIA. Em destaque LEE FEINBERG

Extração de Requisitos

Instituto de Educação Tecnológica Pós-graduação Gestão e Tecnologia da Informação - Turma 25 20/03/2015. Big Data Analytics:

Informática Aplicada à Engenharia Florestal

Formas de Aumentar a Lucratividade da Sua Empresa com o Big Data

A Grande Importância da Mineração de Dados nas Organizações

Evolução dos modelos de risco do sistema financeiro nacional

Sistema de Informação Gerencial baseado em Data Warehouse aplicado a uma software house

PÓS GRADUAÇÃO EM CIÊNCIAS DE FLORESTAS TROPICAIS-PG-CFT INSTITUTO NACIONAL DE PESQUISAS DA AMAZÔNIA-INPA. 09/abril de 2014

DATA WAREHOUSE. Introdução

TÓPICOS AVANÇADOS EM ENGENHARIA DE SOFTWARE

FTAD Formação Técnica em Administração. Aula 07 - ACI Prof. Arlindo Neto

O JOGO E A APRENDIZAGEM

6 Construção de Cenários

Dr. Ronaldo Pilati - Psicologia Social - Universidade de Brasília 1

Programa do Curso de Pós-Graduação Lato Sensu MBA em Business Intelligence (BI)

SÍNTESE PROJETO PEDAGÓGICO. Missão. Objetivo Geral

COMUNICAÇÃO NA ERA DO BIG DATA

Data Mining. Origem do Data Mining 24/05/2012. Data Mining. Prof Luiz Antonio do Nascimento

Figura 1: Componentes do Kepler

Business Intelligence para Computação TítuloForense. Tiago Schettini Batista

Introdução A Engenharia Da Computação

AULA COM O SOFTWARE GRAPHMATICA PARA AUXILIAR NO ENSINO E APRENDIZAGEM DOS ALUNOS

Projeto de Sistemas I

Projeto de Redes Neurais e MATLAB

10 DICAS DE TECNOLOGIA PARA AUMENTAR SUA PRODUTIVIDADE NO TRABALHO

UNOESTE - Universidade do Oeste Paulista F I P P - Faculdade de Informática de Presidente Prudente

Copyright 2012 EMC Corporation. Todos os direitos reservados.

MetrixND. especificações. MetrixND - Ferramenta de previsão de energia elétrica

Ferramentas Livres de Armazenamento e Mineração de Dados

Apresenta. SofStore o mais novo aliado no gerenciamento do seu negócio

Modelagem e Simulação

Linguagens de. Aula 01. Profa Cristiane Koehler

Big Data : uma conversa franca sobre resultados empresariais

Prof. Raul Sidnei Wazlawick UFSC-CTC-INE. Fonte: Análise e Projeto de Sistemas de Informação Orientados a Objetos, 2ª Edição, Elsevier, 2010.

Avaliação de Desempenho de Sistemas

ArcGIS 1: Introdução ao GIS (10.2)

Extração de Conhecimento & Mineração de Dados

Informativo Bimestral da Siqueira Campos Associados agosto de ano VII - Número 21. Catálogo de Treinamentos 2013

Inteligência Artificial

RESUMO DA SOLUÇÃO CA ERwin Modeling. Como eu posso gerenciar a complexidade dos dados e aumentar a agilidade dos negócios?

PLANO DE ENSINO PRÉ-REQUISITOS: ENS

Princípios de Engenharia de Software Resumo 1 Semana 1 Versão 1.0 Data:11/03/2004

Aula 7 Componentes de um Sistema de Informação Recursos e Atividades

INF 1771 Inteligência Artificial

PRIMAVERA RISK ANALYSIS

DESENVOLVIMENTO DE UM SOFTWARE NA LINGUAGEM R PARA CÁLCULO DE TAMANHOS DE AMOSTRAS NA ÁREA DE SAÚDE

PROPOSTA DE UMA ARQUITETURA PARA CONSTRUÇÃO DE UM DATA WAREHOUSE PARA GESTÃO DA SAÚDE PÚBLICA DE UM MUNICÍPIO DO VALE DO ITAJAÍ

Avaliando o que foi Aprendido

ENGENHARIA DE COMPUTAÇÃO

MANUAL PARA PAIS E RESPONSÁVEIS SOBRE COMO LIDAR COM O "BULLYING/IJIME"

Case Vital Automação. Planejamento e Execução OLIV Consultoria:

Big Data e Análise de Dados: Tendências e Aplicações em Projetos. Marcus Borba. Apresentação

Pós-Graduação "Lato Sensu" Especialização em Análise de Dados e Data Mining

MESTRADO EM PESQUISA DE MERCADOS

)HUUDPHQWDV &RPSXWDFLRQDLV SDUD 6LPXODomR

Redes Complexas Aula 2

Projeto 6.12 Aplicação de Data Mining a Dados de Avaliação da Qualidade de Produtos de Software

CURSO DE INFORMÁTICA LICENCIATURA 1 PERÍODO

MATERIAL DIDÁTICO: APLICAÇÕES EMPRESARIAIS SISTEMA DE APOIO À DECISÃO (SAD)

Inteligência Empresarial. BI Business Intelligence. Business Intelligence 22/2/2011. Prof. Luiz A. Nascimento

Gerência de Projetos. Aula 07. Prof. Gladimir Ceroni Catarino

Gerenciamento de Dados e Gestão do Conhecimento

FACULDADE PITÁGORAS DISCIPLINA: SISTEMAS DE INFORMAÇÃO

NE-16 Instação e Configuração do GeoSan. eng. José Maria Villac Pinheiro

Introdução aos Bancos de Dados Não-Relacionais. Mauricio De Diana (mestrando) Marco Aurélio Gerosa (orientador)

Data Warehouse. Diogo Matos da Silva 1. Universidade Federal de Ouro Preto, Ouro Preto, MG, Brasil. Banco de Dados II

TECNOLOGIA DA INFORMAÇÃO - TI Elaborado e adaptado por: Prof.Mestra Rosimeire Ayres

Manual do usuário. Mobile Auto Download

O CONCEITO DE TDD NO DESENVOLVIMENTO DE SOFTWARE

TERMO DE REFERÊNCIA Nº 4031 PARA CONTRATAÇÃO DE PESSOA FÍSICA PROCESSO DE SELEÇÃO - EDITAL Nº

Prática e Gerenciamento de Projetos

PÓS-GRADUAÇÃO ANÁLISE DE BIG DATA

Introdução aos Sistemas de Informação Geográfica

Simulação Computacional de Sistemas, ou simplesmente Simulação

Preparação para a Certificação de Engenheiro da Qualidade 1

MIT CDOIQ Symposium Os temas mais abordados

CURSO SUPERIOR DE TECNOLOGIA EM LOGÍSTICA MODALIDADE A DISTÂNCIA - INGRESSANTES 1º SEM 2010

Conceitos Iniciais Parte 1

Universidade Federal de Santa Maria UFSM Centro de Tecnologia CT. Power Point. Básico

Professor: Disciplina:

Transcrição:

Ciência dos Dados Preparado por Intel Corporation Bruno Domingues Principal Architect bruno.domingues@intel.com

Homem na Lua Software Data: 1969 64kb, 2kb, RAM, Fortran Tem que funcionar! Apolo XI Velocidade: 3500km/h Peso: 13.500 kg Extremamente Complexo Homem na Lua Distância: 356.600 km Nunca feito antes Precisa retornar à Terra

Apolo XI, 1969 64kb SkyDive Stratos, 2012 Dezenas de Gigabytes

Big Data não significa necessariamente volume de dados

O que é Big Data? Os n- Vs Volume Variedade Velocidade Outros Vs que queira incluir

Desafios Precisamos paralelizar as operações com os dados mas isso é muito complexo e caro... O negócio não consegue acessar os dados relevantes e o tempo todo precisa de dados externos... Não podemos tratar em tempo os dados dos clientes para melhor a interação com eles... Não dá para colocar todos os dados no modelo star-schema... Os relatórios de BI não dizem algo que já não se sabe... Não é mais possível processar os dados dentro da janela de ETL... Não é possível predizer com boa margem de certeza se não se pode explorar os dados e desenvolver os próprios modelos Big Data nos força a mudar a forma como coletamos, armazenamos, gerenciamos, analisamos e visualizamos dado

Entendendo por Analogia Pense em data como petróleo Big Data neste contexto é a extração do petróleo, transportar em tanques, bombear através dos oleodutos e armazená-los em silos Tudo isso é Big Data...

A Arte e a Ciência de Descobrir o que não sabemos dos dados Obter previsão, informação acionável dos dados Criar produto dos dados que possuem impacto nos negócios Comunicar histórias relevantes dos dados para o negócio Criar confiança nas decisões que criam valor ao negócio

O cientista de dados Cético Curioso Possui uma mente investigativa Conhece sobre máquinas de aprendizagem Estatística Probabilidade Métodos científicos aplicados Realiza experimentos Programador Conhece sobre infraestrutura Sabe como criar produtos dos dados Capaz de encontrar respostas para perguntas Conta histórias relevantes para a área de negócio Tem domínio da teoria do conhecimento

10 coisas que os cientista dos dados fazem 1. Faz boas perguntas. O que é que...... Nós não sabemos?... O que queremos saber? 2. Define e testa hipóteses, Executa experimentos 3. Minera, raspa, lava amostras de dados relevantes 4. Simula e massacra o dado... Doma os dados 5. Explora, brinca com dados de forma a descobrir o que não se sabe 6. Modela os dados e os algoritmos 7. Entende as relações entre os dados 8. Programa a máquina de aprendizado de dados 9. Cria produtos a partir dos dados que entregam informação acionável 10. Conta histórias relevantes sobre os dados

A caixa de ferramentas do cientísta de dados Java, R, Python... Hadoop, HDFS e MapReduce... Hbase, Pig e Hive... ETL, Webscrapers, Flume, Sqoop... SQL, SGDB, DW, OLAP Knime, Weka, RapidMiner... D3.js, Gephi, ggplot2, Tableu, Flare, Shiny... SPSS, Matlab, SAS... NoSQL, Mongo DB, Couchbase, Cassandra... Microsoft Excel (acredite, realmente importante!)

Alguns princípios da Ciência dos Dados 1. Sistemas Sócio-Ténicos (STS) são complexos 2. Dados nunca descansam 3. Dado é sujo, lide com ele 4. Minerar e Lavar os dados tomam mais de 70% do tempo 5. Simplificação, Redução e Destilação 6. Curiosidade, Empirismo e Ceticismo

D I C E S Dado Informação Conheciment o Passado Entendiment o Sabedoria Futuro Eng. de Dados Analista de Minerador de Cientista de Dados Dados Dados Cru O que Como Porque Quando Números Descrição Experiência Causa e Efeito Predição Cartas Contexto Testado Provado O que é o melhor Símbolos Relacionamento Instruções Conhecer o que Conhecer o que não se sabe nem é Sinais Relatórios Programas Modelos perguntado

Modelo de Dados vs. Modelo de Algoritmo Modelagem de Dados Modelagem de Algoritmos Nós entendemos o mundo O quanto modelo de dados funciona Estatística, analise dados, mineração Regressão Linear Regressão Logística Distribuições conhecidas Intervalos de confiança Variáveis de predição Não entendemos o mundo O dados são uma caixa-preta Cientista dos Dados Máquina de aprendizado, IA, Rede Neural Interativo Acurácia Preditiva Florestas Aleatórias, SVM, GBT Distribuições de Múltiplas variáveis desconhecidas Variáveis de predição

Aprendizado pelos Dados têm seus segredos Estatístico vs. Máquina de Aprendizado Supervisionado vs. Aprendizado não assistido Indução vs. Dedução Amostragem e Intervalos de confiança Probabilidade e Distribuição Derivação e Variância Correlação vs. Casualidade Casualidade e Predição

Obrigado!