Ciência dos Dados Preparado por Intel Corporation Bruno Domingues Principal Architect bruno.domingues@intel.com
Homem na Lua Software Data: 1969 64kb, 2kb, RAM, Fortran Tem que funcionar! Apolo XI Velocidade: 3500km/h Peso: 13.500 kg Extremamente Complexo Homem na Lua Distância: 356.600 km Nunca feito antes Precisa retornar à Terra
Apolo XI, 1969 64kb SkyDive Stratos, 2012 Dezenas de Gigabytes
Big Data não significa necessariamente volume de dados
O que é Big Data? Os n- Vs Volume Variedade Velocidade Outros Vs que queira incluir
Desafios Precisamos paralelizar as operações com os dados mas isso é muito complexo e caro... O negócio não consegue acessar os dados relevantes e o tempo todo precisa de dados externos... Não podemos tratar em tempo os dados dos clientes para melhor a interação com eles... Não dá para colocar todos os dados no modelo star-schema... Os relatórios de BI não dizem algo que já não se sabe... Não é mais possível processar os dados dentro da janela de ETL... Não é possível predizer com boa margem de certeza se não se pode explorar os dados e desenvolver os próprios modelos Big Data nos força a mudar a forma como coletamos, armazenamos, gerenciamos, analisamos e visualizamos dado
Entendendo por Analogia Pense em data como petróleo Big Data neste contexto é a extração do petróleo, transportar em tanques, bombear através dos oleodutos e armazená-los em silos Tudo isso é Big Data...
A Arte e a Ciência de Descobrir o que não sabemos dos dados Obter previsão, informação acionável dos dados Criar produto dos dados que possuem impacto nos negócios Comunicar histórias relevantes dos dados para o negócio Criar confiança nas decisões que criam valor ao negócio
O cientista de dados Cético Curioso Possui uma mente investigativa Conhece sobre máquinas de aprendizagem Estatística Probabilidade Métodos científicos aplicados Realiza experimentos Programador Conhece sobre infraestrutura Sabe como criar produtos dos dados Capaz de encontrar respostas para perguntas Conta histórias relevantes para a área de negócio Tem domínio da teoria do conhecimento
10 coisas que os cientista dos dados fazem 1. Faz boas perguntas. O que é que...... Nós não sabemos?... O que queremos saber? 2. Define e testa hipóteses, Executa experimentos 3. Minera, raspa, lava amostras de dados relevantes 4. Simula e massacra o dado... Doma os dados 5. Explora, brinca com dados de forma a descobrir o que não se sabe 6. Modela os dados e os algoritmos 7. Entende as relações entre os dados 8. Programa a máquina de aprendizado de dados 9. Cria produtos a partir dos dados que entregam informação acionável 10. Conta histórias relevantes sobre os dados
A caixa de ferramentas do cientísta de dados Java, R, Python... Hadoop, HDFS e MapReduce... Hbase, Pig e Hive... ETL, Webscrapers, Flume, Sqoop... SQL, SGDB, DW, OLAP Knime, Weka, RapidMiner... D3.js, Gephi, ggplot2, Tableu, Flare, Shiny... SPSS, Matlab, SAS... NoSQL, Mongo DB, Couchbase, Cassandra... Microsoft Excel (acredite, realmente importante!)
Alguns princípios da Ciência dos Dados 1. Sistemas Sócio-Ténicos (STS) são complexos 2. Dados nunca descansam 3. Dado é sujo, lide com ele 4. Minerar e Lavar os dados tomam mais de 70% do tempo 5. Simplificação, Redução e Destilação 6. Curiosidade, Empirismo e Ceticismo
D I C E S Dado Informação Conheciment o Passado Entendiment o Sabedoria Futuro Eng. de Dados Analista de Minerador de Cientista de Dados Dados Dados Cru O que Como Porque Quando Números Descrição Experiência Causa e Efeito Predição Cartas Contexto Testado Provado O que é o melhor Símbolos Relacionamento Instruções Conhecer o que Conhecer o que não se sabe nem é Sinais Relatórios Programas Modelos perguntado
Modelo de Dados vs. Modelo de Algoritmo Modelagem de Dados Modelagem de Algoritmos Nós entendemos o mundo O quanto modelo de dados funciona Estatística, analise dados, mineração Regressão Linear Regressão Logística Distribuições conhecidas Intervalos de confiança Variáveis de predição Não entendemos o mundo O dados são uma caixa-preta Cientista dos Dados Máquina de aprendizado, IA, Rede Neural Interativo Acurácia Preditiva Florestas Aleatórias, SVM, GBT Distribuições de Múltiplas variáveis desconhecidas Variáveis de predição
Aprendizado pelos Dados têm seus segredos Estatístico vs. Máquina de Aprendizado Supervisionado vs. Aprendizado não assistido Indução vs. Dedução Amostragem e Intervalos de confiança Probabilidade e Distribuição Derivação e Variância Correlação vs. Casualidade Casualidade e Predição
Obrigado!