Estes dados vem dos diversos dispositivos Dados estão crescendo 90% dos dados foram gerados há 2 anos Dados gerados 10% Há 2 anos atrás Desde o início 90%
Grande quantidade de dados Não se trata de um simples gargalo de um SGBD Efetivamente, são capacidades de armazenamento e processamento sendo esgotadas. SGBD
Qual a forma de se escolher um filme no cinema? Sinopse: Detroit - in the future - is crime-ridden, and run by a massive company. The company have developed a huge crime-fighting robot, which unfortunately develops a rather dangerous glitch. The company sees a way to get back in favour with the public when a cop called Alex Murphy is killed by a street gang. Murphy's body is reconstructed within a steel shell and named Robocop. The Robocop is very successful against criminals, and becomes a target of supervillian Boddicker. Trailer http://youtu.be/clqk5oc3bwe
Quais os tipos de dados que temos hoje? Dados Estruturados Dados Semi-Estruturados Dados não-estruturados
Relacionados a um SGBD SGBD
Dados organizados em blocos semânticos (relações) Dados de um mesmo grupo possuem as mesmas descrições (atributos) Descrições para todas as classes de um grupo possuem o mesmo formato (esquema) Dados mantidos em um SGBD sao chamados de Dados Estruturados por manterem a mesma estrutura de representação (rígida), previamente projetada (esquema)
Atualmente, muitos dados não são mantidos no SGBD Dados Web, por exemplo, apresentam uma organização bastante heterogênea. A alta heterogeneidade dificulta as consultas a estes dados Assim, estes dados sao classificados como semi-estruturados Não são estritamente tipados Não são complementamente não-estruturados
Os dados semi-estruturados são dados onde o esquema de representação está presente (de forma explícita ou implícita) Auto-descritivo Uma análise do dado deve ser feita para que a sua estrutura possa ser identificada e extraída
Características principais Definição à posteriori Esquemas são definidos após a existência dos dados Investigação de suas estruturas particulares Estrutura irregular Não existe um esquema padrão para os dados Coleções de dados são definidos de maneiras diferentes, contendo informações incompletas Estrutura implícita Muitas vezes existe uma estrutura implícita Estrutura parcial Apenas parte dos dados disponíveis podem ter uma estrutura
Dados Estruturados Esquema pré-definido Estrutura regular Estrutura independente dos dados Estrutura reduzida Fracamente evolutiva Prescritiva (esquemas fechados e restrições de integridade) Distinção entre estrutura e dados é clara Dados SemiEstruturados Nem sempre há um esquema Estrutura irregular Estrutura embutida nos dados Estrutura extensa (particularidades de cada dado, visto que cada um pode ter uma organização própria) Fortemente evolutiva (estrutura modifica-se com frequencia) Estrutura descritiva Distinção entre estrutura e dados não é clara
Exemplos XML extensible Markup Language RDF Resource Description Framework OWL Web Ontology Language
Sao os dados que não possuem uma estrutura definida. Normalmente caracterizados por documentos textos, imagens, videos, etc Nem as estruturas sao descritas implicitamente Grande maioria dos dados atuais na Web e nas empresas seguem este formato.
Crescimento diferenciado dos tipos de dados Preferem RICH DATA 80 60 40 20 0 Filmes, figuras, documentos Word Textos simples, HTML 1996 2012
Atualmente, devido a variedade de dispositivos, os dados também são variados Diversos dispositivos Explosão de sensores, dispositivos inteligentes, tecnologias de colaboração, redes sociais Dados não são mais relacionais, mas diversificados de paginas web, emails, documentos, dados de sensores, etc Sistemas tradicionais estão em colapso para processar estes dados
Dados disponíveis x Processamento dos Dados Dados disponíveis Processamento dos dados
Volume de Dados No ano 2000, eram armazenados no mundo 800.000 Petabytes (PB) IDC: Expectativa para 2020 35 zetabytes (ZB) Twitter sozinho gera mais de 7 terabytes de dados TODOS OS DIAS Facebook 10TB
Isso deu origem ao BIG DATA
É ideal: Analisar dados semi-estruturados e nãoestruturados de uma variedade de fontes Quando todos os dados ou quase todos devem ser analisados Para analises interativas e exploratórias Big Data releva as formalidades e restrições do Data Warehouse Preserva a fidelidade dos dados