Prof. Daniela Barreiro Claro
São dados que não podem ser processados ou analisados usando as ferramentas tradicionais Empresas acessando muitas informações mas não sabem como tirar proveito Normalmente estão concentradas nos dados estruturados Atualmente, os dados estão sendo gerados a todo momento, através do celular, dos sensores do carro, das cameras das lojas, etc. Processar estes dados através de um Banco de Dados tradicional é impraticavel ou até mesmo impossível.
Desafios e oportunidades para o crescimento dos dados baseado em tres dimensões Volume Quantidade de dados Velocidade Velocidade dos dados de entrada e saída Variedade Tipos de dados O que influenciou nesta explosão dos dados
Transformação do modelo de negocios Modelo mudou de orientado a produto para orientado a serviço Com isso aumentaram a quantidade de dados a ser processados e a quantidade de dados produzidos Globalização Grande responsável pela mudança do comercio no mundo Tambem modificou a variedade no formato dos dados. Personalização dos serviços Cada vez mais os consumidores desejam serviços e dados mais personalizados
Novas fontes de dados Redes sociais, smartphones, sensores, dispositivos móveis
Quantidade de dados que é gerado continuamente Diferentes tipos de dados possuem diferentes tamanhos Blogs kilobytes Chamadas de voz, videos megabytes Sensores e logs gigabytes Todo dispositivo hoje pode gerar uma grande quantidade de dados
Dados não sao mais caracterizados como dados relacionais Dados complexos Nao tem um limite, os dados vão desde emails a tweets em uma rede social Nao se tem mais controle sobre o formato de input dos dados nem sobre a estrutura destes dados A falta de um metadado significa atraso no processamento
Pode ser definida como a velocidade que os dados sao gerados e processados A velocidade que os dados sao gerados tem crescido enormemente Grande problema que nao estava sendo tratado era a escalabilidade
É importante que para o processamento do Big Data, algumas caracteristicas para se velocidade são: Sistema deve ser elástico, para garantir velocidade com um grande volume Sistema deve ampliar a escalabilidade ou reduzir sem custos adicionais Deve processar os dados no tempo mais curto O thourghput deve se manter estável independete da velocidade Deve processar dados em plataformas distribuidas
Além dos 3V que já fornecem um alto grau de complexidade no processamento destes Big Data há ainda outros fatores que contribuem Ambiguidade Falta de metadados promove a ambiguidade Ex. Em uma foto M ou F representa Masculino ou feminino e em um gráfico pode ser Monday to Friday Viscosidade Mede a resistencia que uma empresa tem no monitoramento do fluxo de dados Viralidade Mede quao rapido um dado é compartilhado na rede PeopleToPeople. Taxa de espalhamento é medida em tempo
Big data tem como característica nao ser estruturado Nao tem um estado finito Nao tem volume finito Complexidade de processamento no Big Data envolve os 3V+A: Volume qtde de dados gerado todo dia dentro e fora das organizações Variedade diferentes formatos gerados por diferentes fontes Velocidade velocidade de geração dos dados Ambiguidade ambiguidade associada aos metadados.
5 principais características para processar Big Data Volume Tamanho grande necessidade de quebrar em chunks Processamento paralelo Processamento simultaneo Dados devem ser processados a partir de qualquer ponto de falha, pois os dados sao muito grandes para serem re-inicializados desde o inicio Velocidade Dados devem ser processadosem velocidades rapidas durante a captura Devem ser processados por multiplos pontos de aquisição
Variedade Dados de diferentes formatos precisam ser processados Diferentes tipos Diferentes estruturas Diferentes regioes Big Data é ambiguo por natureza devido a falta de relevante metadados Uma das tecnologias que mais inovaram e revolucionaram Big Data foi o sistema de arquivos do Google