Big Data: Conceitos, Recursos, Tendências e Oportunidades FGV-EAESP e ESPM Workshop Big Data: Como Fazer, Exemplos de Aplicação e Cases de Sucesso
Apresentação Professor do Departamento de Informática e Métodos Quantitativos da FGV-EAESP e de Sistemas de Informação em Comunicação e Gestão e do Mestrado em Comportamento do Consumidor da ESPM. Ministra disciplinas ligadas a Geoinformação, Big Data Analytics e Estatística Espacial. Bacharel em Ciência da Computação pelo IME-USP e Mestre e Doutor em Administração de Empresas pela FGV-EAESP. É pesquisador visitante do Spatial Information Research Centre da University of Otago, na Nova Zelândia. É CKO (Chief Knowledge Officer) da startup Meia Bandeirada e sócio-fundador do GisBI, grupo de estudos e fomento da integração entre Geotecnologias e Big Data. Atua no mercado de GIS, Geomarketing e Business Intelligence desde 1994. Foi gerente de tecnologia do projeto GIS e atuou em Planejamento de Mercado, Estratégias de Marketing e Planejamento de Pesquisas de Satisfação de Clientes na AES Eletropaulo durante 13 anos. É colunista das revistas InfoGEO e GV Executivo, e consultor em Estatística Espacial e Modelos Preditivos para Crédito e Real Estate.
Real Estate (draft - confidencial) 3
BIG DATA Revista Veja 15/Maio/2013
BIG DATA BIG DATA is like TEENAGE SEX Everyone talks about it, Nobody really knows how to do it, Everyone thinks everyone else is doing it, So everyone claims they are doing it. Dan Ariely
BIG DATA Uma jogada de marketing? Big Data é apenas mais uma jogada de marketing. Propagado pelas empresas de tecnologia e de consultoria de sistemas como a Gartner, o termo Big Data permanece mal definido. Isso é intencional e lhes possibilita divulgar o que elas desejam pois seus mercados não sabem exatamente o que significa Big Data... De um modo geral, as empresas de tecnologia usam o termo Big Data para se referir a grandes volumes de dados advindos de novas fontes. Esse fato, entretanto, não é novidade. Desde o advento dos computadores, a cada ano mais dados são acumulados e novas fontes surgem... Fonte: Stephen Few Visual Business Intelligence, em 31/Out/2013
Grande Volume BIG DATA GRANDE MEDIDO EM TERABYTES 1TB = 1,000GB MEDIDO EM PETABYTES 1PB = 1,000TB MEDIDO EM EXABYTES 1EB = 1,000PB VOLUME DE INFORMAÇÕES PEQUENO 2000 s 1990 s 2010 s
Grande Variedade BIG DATA GRANDE MEDIDO EM TERABYTES 1TB = 1,000GB MEDIDO EM PETABYTES 1PB = 1,000TB MEDIDO EM EXABYTES 1EB = 1,000PB VOLUME DE INFORMAÇÕES PEQUENO 2000 s 1990 s 2010 s Dados Estruturados Dados Semi- Estruturados Dados Quase- Estruturados Dados Não Estruturados Familiar. Ex.:BDs relacionais Ex.:Dados de XML Ex.: Clickstream Ex.: Texto, Foto, Video Sensores em geral
Novas Tecnologias e Nova Organização!! BIG DATA GRANDE MEDIDO EM TERABYTES 1TB = 1,000GB MEDIDO EM PETABYTES 1PB = 1,000TB MEDIDO EM EXABYTES 1EB = 1,000PB VOLUME DE INFORMAÇÕES PEQUENO 1990 s 2000 s 2010 s Ilhas de Dados Data Warehouses Analytic Sandbox
Big Data são dados cuja escala, distribuição, diversidade e/ou velocidade de criação requer o uso de novas tecnologias de armazenamento e análise para permitir a captura do valor inserido nos mesmos (EMC, 2013) 1. Volume de dados Bilhões de linhas x bilhões de colunas Aumento de 44x de 2009 a 2020 (0,9ZB a 35ZB) 2. Complexidade de Processamento Estruturas de dados em constante mudança Necessidade de analisar tais dados em tempo real BIG DATA Definição 3. Estruturas de dados Grande variedade (80-90% não estruturada) a ser analisada Estas características tornam necessário o uso de sistemas de computação paralela e paralela massiva (MPP, massively parallel processing)
Os 5 Vs Velocidade BIG DATA: Expansão em ritmo crescente em três frentes (os 3 primeiros Vs) MB GB TB PB Volume + audio Veracidade + Valor Variedade
Características do Big Data: Estruturas de Dados O Crescimento dos Dados Não Estruturados Aumento da Estruturação 80 a 90% dos dados Estruturados Semi- Estruturados Quase Estruturados Não Estruturados Dados de um tipo, formato ou estrutura definidos Exemplo: Dados transacionais e OLAP Dados de texto com uma padronização evidente permitindo a separação Exemplo: Arquivos XML que sejam auto descritivos e definidos por um esquema XML Dados de texto com formatos variáveis, os quais podem ser formatados através de força bruta, ferramental e tempo Exemplo: Dados de clickstream da web que possam conter inconsistências de valores e formatos Dados sem estrutura definida e que são armazenados em diferentes formatos de arquivo. Exemplo: Documentos de texto, PDFs, imagens e vídeo Fonte: EMC. Big Data & Business Analytics. 2013 14
As Novas Abordagens Analíticas Alto VALOR DE NEGÓCIO Baixo Business Intelligence Business Intelligence Técnicas e Datatypes Questões Típicas Relatórios padronizados ou ad hoc, dashboards, alertas, queries, Dados estruturados, fontes tradicionais, DBs de tamanho razoável O que aconteceu no último quartil? Quanto vendemos? Onde está o problema? Em quais situações ele ocorre? Foco Métricas pré-determinadas, medição do desempenho passado, informações de planejamento Tecnologias e Medidas KPIs (Key Performance Indicators). Esquemas OLAP
As Novas Abordagens Analíticas Predictive Analytics & Data Mining (Data Science) Alto Técnicas e Data Types Questões Típicas Otimização, modelagem preditiva, previsão, análise estatística Dados estruturados ou não, várias origens, grandes bases de dados. E se..?, Qual o cenário ótimo? O que acontecerá? E se a tendência continuar? Por que isto ocorre? Foco Combinação de métodos analíticos e de inteligência artificial. Obtenção de inferências e insights diretamente dos dados Tecnologias e Medidas Análise de regressão, regras de associação, otimização e simulação Data Science VALOR DE NEGÓCIO Business Intelligence Baixo
As Novas Abordagens Analíticas Predictive Analytics & Data Mining (Data Science) Alto Técnicas e Data Tyoes Questões Típicas Otimização, modelagem preditiva, previsão, análise estatística Dados estruturados ou não, várias origens, grandes bases de dados. E se..?, Qual o cenário ótimo? O que acontecerá? E se a tendência continuar? Por que isto ocorre? Foco Combinação de métodos analíticos e de inteligência artificial. Obtenção de inferências e insights diretamente dos dados Tecnologias e Medidas Análise de regressão, regras de associação, otimização e simulação VALOR DE NEGÓCIO Baixo Data Science Business Intelligence Business Intelligence Técnicas e Datatypes Questões Típicas Relatórios padronizados ou ad hoc, dashboards, alertas, queries, Dados estruturados, fontes tradicionais, DBs de tamanho razoável O que aconteceu no último quartil? Quanto vendemos? Onde está o problema? Em quais situações ele ocorre? Foco Métricas pré-determinadas, medição do desempenho passado, informações de planejamento Tecnologias e Medidas KPIs (Key Performance Indicators). Esquemas OLAP
Repositórios de Dados A Perspectiva do Analista Ilhas de Dados Spreadmarts Data marts isolados Data Warehouses Centralização de dados em um local especialmente preparado para tal. Analytic Sandbox Dados são coletados de múltiplas fontes através de múltiplas tecnologias para análise. Planilhas e DBs de baixo volume para controle local. Extrações de dados são dependentes dos analistas. Suporta BI mas restringe análises não padronizadas. Dependente de TI & DBAs para acesso aos dados e mudanças de estrutura. Os analistas gastam muito tempo extraindo os dados de múltiplas fontes. Permite análises de alta perform. utilizando processamento in-db Reduz os custos associados com a replicação nos dados em sistemas sombra Propriedade dos Analistas ao invés de Propriedade dos DBAs Fonte: EMC. Big Data & Business Analytics. 2013 18
Data Scientists Gap de mão de obra (USA) 140,000 to 190,000 Conhecimentos Essenciais Estatística R DBs Postgresql Program. Hadoop Tipo de Conhecimento Profissionais com profunda Capacidade Analítica Descrição das Atividades Avançado treinamento em disciplinas quantitativas, tais como matemática, estatística, e inteligência artificial As Novas Funções Cargo Data Scientists, Estatísticos, Matemáticos, Economistas Gap de Gerentes e Analistas c/habilidades Analíticas USA: 1.5M Profissionais com capacidade analítica Treinamento básico em estatística e/ou inteligência artificial, capazes de definir um problema de negócios como uma questão de analítica avançada. Anal.financeiros, de mercado, life scientists, ger.de operações, e de linha de negócio Implementadores de dados e tecnologias Experiência técnica para suporte à projetos de analytics. Programadores, DBAs e analistas de sistemas.
Ambientação e Ferramentas Laboratório RStudio 20
Ofertas de Emprego para Data Scientists 21
Oportunidades Inteligência Geográfica está por aí? Aproximadamente 70 a 80% das informações relevantes nos processos decisórios têm caracterização espacial (Gartner Group, 2004) A geografia é o que possibilita a integração de dados, informações, processos, inclusive Big Data Essa integração induz uma visão sistêmica (integrada, ampla, abrangente, holística) da maioria das questões necessárias às tomadas de decisão Geomarketing e GIS: Suporte à Operação Descrição, Expansão, Segmentação e Otimização do Território de Atuação Estatística Espacial: Geoinformação em Modelos Preditivos Incorporação da Influência Geográfica nos Modelos de Predição de Renda e de Risco de Crédito Aprimoramento do poder de explicação dos Modelos Preditivos
Inteligência geográfica Políticos Impactos potenciais advindos de programas de governo Legais uso e ocupação do solo legislações complementares Jurídicos titularidades e direitos contenciosos reais e potenciais Ambientais legislação e impactos sobre e pelo meio ambiente Sociais legislação e impactos sobre e pelo ecossistema social Climático e Meteorológicos condições climáticas riscos naturais Mercadológicos demanda e concorrência real e potencial ococrrências impactantes Logísticos Condições e limitações de recursos materiais e humanos, acessos e movimentações Econômicos conjunturas locais, regionais e globais Físicos condições físicas, topográficas e geológicas locais e do entorno Cronológicos condições e limitações de tempos e prazos Estratégicos condições e limitações relativas aos empreendedores Técnico -Tecnológicos condições e limitações de tecnologias, métodos e processos Operacionais condições e limitações de recursos e capacitações locais para a operação Financeiros e Tributários condições de investimento, financiamento, custeios, tributos, riscos e retornos
Microcredit Score e Indicadores Sócio-Econômicos baseados em Energia Elétrica Análises Preditivas
Big Data: Inovação no Planejamento de Operações
Big Data: Inovação no Planejamento de Operações Ocorrências de Emergência Trânsito Tempo Médio de Deslocamento Clima e Microclima
Mapeando as Intenções Geográficas 1ª Lei da Geografia (1970): Tudo está relacionado com tudo, mas as coisas mais próximas estão mais relacionadas entre si do que as coisas mais distantes Waldo Tobler, professor emérito do Depto. Geografia da Universidade da Califórnia
Mobile Geomarketing
Análise Geográfica + Análise de Rede Geographic Social Network Statistical Analysis Média, Variância X Grau, Densidade, Centralização, Transitividade X Dependência Espacial, Vizinhança Distâncias geográficas versus Distâncias na Rede Método geodist de análise de redes Apropriação da Análise Geográfica a redes de colaboração e espaços não geográficos, cartografia temática, distâncias geodésicas R: extensão sna GeodaNet
Análise Geográfica + Análise de Rede RAE-eletrônica: Exploração do Acervo à luz da Bibliometria, Geoanálise e Redes Sociais Rede de Afiliação do Acervo da RAE-eletrônica Construção da Triangulated Irregular Network
Mapeamento do Comportamento do Consumidor Comportamento Out-door e In-door
Resumo da Ópera Dados & Informações Conceitos e plataformas Monitoramento e controle Coletores, Sensores, Internet of Things Contextualização espaço-temporal Armazenamento Dashboards BIG DATA Sistemas de Monitoramento Interpretação, análise e técnicas preditivas, geoestatística Colaboração Visualização e compreensão Informações para apoio à decisão
Para onde o mundo caminha... Mapeamento de População a partir de Registro de Chamadas Telefônicas Fonte: http://mundogeo.com/blog/2014/11/04/pesquisadores-realizammapeamento-de-populacao-com-dados-de-registro-de-chamadas/
A Preparem-se!!! Alertas e Serviços de Conveniência Clima Mobilidade Serviços públicos Eventos Notícias impactantes Ambiente Saúde Educação Serviços emergenciais Esportes e cultura Economia e política Lazer e artes Integração com outros apps
Obrigado!!! FGV-EAESP e ESPM Workshop Big Data: Como Fazer, Exemplos de Aplicação e Cases de Sucesso