Framework para Deduplicação de Dados com Apache Spark
|
|
|
- Leonor Raminhos César
- 8 Há anos
- Visualizações:
Transcrição
1 Framework para Deduplicação de Dados com Apache Spark César Magrin - [email protected] Disciplina: Metodologia Científica - CI860 Professor: Alexandre Direne
2 Sumário 1. Qualidade de Dados 2. Deduplicação 3. Motivação 4. Processo de Christen 5. Resultados 6. Processamento Paralelo e Distribuído 7. Conclusão 8. Referências
3 Qualidade de Dados (Data Quality) Grande volume de dados. Dados de varias fontes: Dispositivos moveis, redes sociais, vendas, consultas medicas, dados bancários, entre outros. Data Cleaning. KDD (Knowledge Discovery in Databases).
4 Deduplicação Identificar registros diferentes ou múltiplos referentes a um único objeto no mundo real. Razões: Entrada de dados incorretos. inconsistências por diferentes formatos de entrada.ex: Cesar Magrin vs Cesar M. Informações incompletas.
5 Motivação Dissertação: Processo Complementar para Detecção de Registros Duplicados em Bases CADSUS - MSc. Osvaldo M. Cavalieri[3] Paraná - Cadastros CADSUS x População
6 Processo de Christen Método de Fellegi e Sunter Calcular pesos parciais para cada par de atributos. Utilizado para definir grau de semelhança entre registros. Classifica em: Duplicados, possivelmente duplicados ou diferentes. Baseado neste modelo, Christen[1,2] apresentou um modelo para deduplicação. Divido em etapas, podendo em cada etapa utilizar diferentes algoritmos.
7 Processo de Christen 1. Pré-Processamento 2. Blocagem 3. Comparação 4. Classificação 5. Avaliação e Revisão Manual
8 1-Pré-processamento A etapa de pré-processamento consiste no trabalho de converter dados para um formato padronizado. Algumas etapas: Exclusão ou substituição de caracteres desnecessários. Busca e correção de erros comuns de digitação.
9 2-Blocagem Comparação mxn se torna inviável.ex: 20k registro, geram de comparações. Os registros devem ser separados em blocos de similaridade, afim de diminuir o numero de comparações. Escolha da chave de bloco, codificação da chave (soundex)
10 3-Comparações Verificar bloco a bloco e comparar os registros entre si para identificar o grau de similaridade. Há diversos algoritmos para calculo de similaridade: comparação de strings, comparação de datas,... Etapa que exige o maior esforco computacional.
11 4-Classificação nesta etapa é calculado o peso final da similaridade que será comparada a limiares de corte. Função de Similaridade sim(a,b) =1 -> Atributos iguais sim(a,b) =0 -> Atributos diferentes 0< sim(a,b) >1 Grau de similaridade
12 Resultados Testes realizados na dissertação do Osvaldo[3]. Base de dados: cadastros (CADSUS - Colombo) Febrl[2] Etapa de blocagem:
13 Resultados(cont.) Etapa de comparação: etapa que exige maior custo computacional, a etapa anterior conseguiu diminuir o numero de comparações para aprox. 59milhões. Sem ela seria em torno de 50 bilhões.
14 Processamento Paralelo e Distribuído Spark[5] Um projeto de pesquisa da AMPLab UC Berkeley 2009 Um framework open source para processamento paralelo Uma engine empregada, na maioria dos casos, para o processamento de dados em larga escala
15 Processamento Paralelo e Distribuído(cont.) Paradigma MapReduce[4] Adequado para trabalhar com problemas que poder ser particionados ou fragmentados em sub problemas Etapas: Map, Shuffle e Reduce Hadoop[4] vs Spark[5]
16 Fonte: Figura 3.6[4]
17 Exemplos: Hadoop vs Spark Logistic regression in Hadoop and Spark Fonte: spark.apache.org Yafim - A Parallel Frequent Itemset Mining Algorithm with Spark
18 Processamento Paralelo e Distribuído(cont.) RDD Resilient - Se os dados em memória forem perdidos, eles podem ser recriados Distributed - Particiona os elementos entre cluster para serem computados paralelamente; Dataset - Os dados iniciais podem ser criados através de um arquivo externo (HDFS, HBase,...) ou paralelizando uma coleção existente.
19 Processamento Paralelo e Distribuído(cont.) RDD(cont.) Coleção de Objetos imutáveis espalhados em clusters; Criado através de transformações paralelas(map, reduce, filter,..); Recriada automaticamente em caso de falha; Controla a persistência (Cache) para reuso.
20 Conclusão A deduplicação é de fato uma tarefa importante no processo de Data Cleaning, sua falta pode acarretar em falhas num processo de tomada de decisão por exemplo. Segundo os resultados obtidos na dissertação do Osvaldo, mostra a necessidade de um sistema paralelo e distribuído para a eficacia do processo em bases maiores. O Spark aparenta ser a melhor solução para este processo com uso da paradigma MapReduce.
21 Referências 1. Peter Christen. Data Matching Peter Christen e Tim Churches. Febrl -Freely extensible biomedical record linkage Osvaldo, M Cavalieri, Bruno Muller, e Marcos Sfair Sunyê. Processo Complementar para Detecção de registros duplicados em Bases CADSUS. 4. Alfredo Goldman, Fabio Kon, Francisco. Apache Hadoop: conceitos teóricos e práticos, evolução e novas possibilidades.cap acesso: 22/10/2015
22 Obrigado! César Magrin
Apache Spark I NTRODUÇÃO À C OMPUTAÇÃO PARALELA E D ISTRIBUÍDA
Apache Spark CARLOS EDUARDO MART INS RELVAS I NTRODUÇÃO À C OMPUTAÇÃO PARALELA E D ISTRIBUÍDA Apache Hadoop Mudou a forma de armazenamento e processamento de dados em um cluster de computadores, trazendo
Informática Parte 10 Prof. Márcio Hunecke
Escriturário Informática Parte 10 Prof. Márcio Hunecke Informática CONCEITOS DE MAPREDUCE E HDFS/HADOOP/YARN 2.7.4 Big Data O termo Big Data refere-se a um grande conjunto de dados armazenados e baseia-se
A NOVA EXPERIÊNCIA ANALÍTICA
A NOVA EXPERIÊNCIA ANALÍTICA USANDO MELHOR O HADOOP COMO PEÇA DO QUEBRA-CABEÇA DO BIG DATA Rafael Aielo Gerente de Soluções AGENDA Era Big Data Hadoop O que é e como funciona SAS e Hadoop ERA BIG DATA
AVALIAÇÃO DE DESEMPENHO DE PROCESSAMENTO DISTRIBUÍDO EM LARGA ESCALA COM HADOOP
AVALIAÇÃO DE DESEMPENHO DE PROCESSAMENTO DISTRIBUÍDO EM LARGA ESCALA COM HADOOP Débora Stefani Lima de Souza [email protected] Orientador: Dr. Paulo Romero Martins Maciel INTRODUÇÃO Nem sempre os dados
Python + Spark = PySpark. Prof. Fabrício Olivetti de França Universidade Federal do ABC
Python + Spark = PySpark Prof. Fabrício Olivetti de França Universidade Federal do ABC Spark Plataforma para processamento de dados em larga escala. Baseado em transformações preguiçosas dos dados. Estende
COMPUTAÇÃO EM NUVEM E PROCESSAMENTO MASSIVO DE DADOS Conceitos, tecnologias e aplicações
COMPUTAÇÃO EM NUVEM E PROCESSAMENTO MASSIVO DE DADOS Conceitos, tecnologias e aplicações Jaqueline Joice Brito Slides em colaboração com Lucas de Carvalho Scabora Sumário Computação em Nuvem Definição
Haddop, MapReduce e Spark
Haddop, MapReduce e Spark Fabrício Olivetti de França Universidade Federal do ABC Tópicos 1. Conceitos Básicos 2. MapReduce 3. Spark 4. Transformações Básicas 5. Ações Básicas 1 Conceitos Básicos Hadoop
Big Data Open Source com Hadoop
Big Data Open Source com Hadoop Palestrante: Marcio Junior Vieira [email protected] Realização: Marcio Junior Vieira 14 anos de experiência em informática, vivência em desenvolvimento e análise
Bruno Antunes da Silva UFSCar - Sorocaba
Bruno Antunes da Silva UFSCar - Sorocaba Introdução HDFS Arquitetura Leitura e escrita Distribuição de nós Controle de réplicas Balancer MapReduce Conclusão Aplicações web com grandes quantidades de dados
Aprendizado de Máquina
Aprendizado de Máquina Template Matching Luiz Eduardo S. Oliveira Universidade Federal do Paraná Departamento de Informática http://lesoliveira.net October 25, 2012 Luiz S. Oliveira (UFPR) Aprendizado
Mineração de Dados. Arthur Emanuel de O. Carosia Cristina Dutra de Aguiar Ciferri
Mineração de Dados Arthur Emanuel de O. Carosia Cristina Dutra de Aguiar Ciferri 1 Motivação Aumento da capacidade de processamento e de armazenamento de dados; Baixo custo; Grande quantidade de dados
MapReduce Mapeando e reduzindo
MapReduce Mapeando e reduzindo Prof. Fabrício Olivetti de França Universidade Federal do ABC Motivação Vimos até então que nosso maior problema é a quantidade de dados. O processamento não pode ser distribuído
Big Data. A Nova Onda
Big Data A Nova Onda Ricardo Rezende 18 anos em TI; 12 anos como DBA Oracle; Infrastructure Principal @ Accenture Enkitec Group; Oracle Certified Professional; IBM Certified Database Associate; Mestrando
MapReduce vs Bancos de Dados Paralelos no cálculo de medidas de centralidade em grafos
MapReduce vs Bancos de Dados Paralelos no cálculo de medidas de centralidade em grafos Fabiano da Silva Fernandes 1, Eduardo Javier Huerta Yero 1 1 Mestrado em Ciência da Computação Faculdade de Campo
APLICAÇÕES DE BIG DATA COM SPARK E PYTHON
CURTA DURAÇÃO APLICAÇÕES DE BIG DATA COM SPARK E PYTHON CARGA HORÁRIA: 48 horas DURAÇÃO: 3 meses COORDENAÇÃO: Prof. Dr. Adolpho Pimazoni Canton Prof.ª Dr.ª Alessandra de Ávila Montini APRESENTAÇÃO O crescente
Introdução a Big Data. Juciander L. Moreira Wallace Brito
Introdução a Big Data Juciander L. Moreira Wallace Brito 1 Sumário 1. 2. 3. 4. 5. 6. Introdução Os 3 Vs de Big Data Definição de Big Data Mitos sobre Big Data Aplicações Iniciando um projeto de Big Data
Aula 6 Mineração Streams Representação dos Dados. Profa. Elaine Faria UFU
Aula 6 Mineração Streams Representação dos Dados Profa. Elaine Faria UFU - 2017 Agradecimentos Este material é baseado No livro Tan et al, 2006 Nos slides do prof. Andre C. P. L. F. Carvalho Agradecimentos
Análise de técnicas paralelas de deduplicação
Análise de técnicas paralelas de deduplicação Guilherme Dal Bianco Instituto de Informática - Universidade Federal do Rio Grande do Sul (UFRGS) Av. Bento Gonçalves, 9500, Porto Alegre, RS, Brasil [email protected]
Técnicas para Deduplicação de Dados
paper:170764 Uma avaliação de Eficiência e Eficácia da Combinação de Técnicas para Deduplicação de Dados Levy de Souza Silva 1, Dimas Cassimiro Nascimento Filho 2, Mirella M. Moro 1 1 Departamento de Ciência
Técnicas de Big Data e Projeção de Medidas de Risco para de Negociação em Alta Frequência
12º CONTECSI Conferência Internacional sobre Sistemas de Informação e Gestão de Tecnologia Técnicas de Big Data e Projeção de Medidas de Risco para de Negociação em Alta Frequência Alcides Carlos de Araújo
Benjamin Bengfort Jenny Kim
Benjamin Bengfort Jenny Kim Novatec Authorized Portuguese translation of the English edition of Data Analytics with Hadoop, ISBN 9781491913703 2016 Benjamin Bengfort, Jenny Kim. This translation is published
BIG DATA. Jorge Rady de Almeida Jr. Escola Politécnica da U SP
BIG DATA Jorge Rady de Almeida Jr. [email protected] Escola Politécnica da U SP BIG DATA - MOTIVAÇÃO Aumento da geração e armazenamento digital de dados Aumento da capacidade de processamento em geral:
PÓS-GRADUAÇÃO ANÁLISE DE BIG DATA
PÓS-GRADUAÇÃO ANÁLISE DE BIG DATA OBJETIVOS Este curso tem como objetivo principal apresentar de forma clara, objetiva e com aplicações reais como as metodologias de Big Data, Inteligência Artificial e
MBA ANALYTICS EM BIG DATA
MBA ANALYTICS EM BIG DATA OBJETIVOS Este curso tem como objetivo principal apresentar de forma clara, objetiva e com aplicações reais como as metodologias de Big Data, Inteligência Artificial e Computação
Efficient Query Processing in RDF Databases
Efficient Query Processing in RDF Databases AUTORES: Andrey Gubichev Munich, Germany Thomas Neumann Munich, Germany José Ramalho Apresentação capítulo 5 Curitiba, 10 de novembro de 2016 Introdução Itens
Comparação dos algoritmos sequencial e paralelo para contagem de palavras e contexto
Comparação dos algoritmos sequencial e paralelo para contagem de palavras e contexto Eduardo Delazeri Ferreira, Francieli Zanon Boito, Aline Villavicencio 1. Introdução 1 Instituto de Informática - Universidade
Mineração de Dados com Big Data. Prof. Fabrício Olivetti de França Universidade Federal do ABC
Mineração de Dados com Big Data Prof. Fabrício Olivetti de França Universidade Federal do ABC Sobre mim Formado em Engenharia Elétrica com ênfase em Computação pela Universidade Católica de Santos. Mestrado
Avaliação de desempenho e dependabilidade de processamento de dados em larga escala com Hadoop
Avaliação de desempenho e dependabilidade de processamento de dados em larga escala com Hadoop Débora Stefani Lima de Souza [email protected] Orientador: Paulo Romero Martins Maciel [email protected] Dados,
KDD E MINERAÇÃO DE DADOS:
KDD E MINERAÇÃO DE DADOS: Prof. Ronaldo R. Goldschmidt Instituto Militar de Engenharia Seção de Engenharia de Computação (SE/8) [email protected] / [email protected] Coleta de dados em vários
QUESTIONÁRIO SOBRE HADOOP LEITURA DO MATERIAL FORNECIDO ALUNO/GRUPO ;
QUESTIONÁRIO SOBRE HADOOP LEITURA DO MATERIAL FORNECIDO ALUNO/GRUPO ; LEIA O MATERIAL ANTES DE FAZER O EXEMPLO DIDÁTICO. AS QUESTÕES ABAIXO PODEM SER RESPONDIDAS, USANDO, PREFERENCIALMENTE, SUA PRÓPRIAS
SCAPE. Ambientes de preservação escaláveis. Miguel Ferreira, PhD. Director técnico // KEEP SOLUTIONS
SCAPE Ambientes de preservação escaláveis 4º Seminário sobre informação na Internet // Preservação digital 21 Nov. 2012 Miguel Ferreira, PhD. Director técnico // KEEP SOLUTIONS [email protected] 1 O que
Descoberta de Conhecimento em Bancos de Dados - KDD
Descoberta de Conhecimento em Bancos de Dados - KDD Professor: Rosalvo Ferreira de Oliveira Neto Disciplina: Inteligência Artificial Tópicos 1. Definições 2. Fases do processo 3. Exemplo do DMC 4. Avaliação
Mineração de Dados Aplicada no Contexto Educacional
Giana da Silva Bernardino ¹ e Alexandre Leopoldo Gonçalves Universidade Federal de Santa Catarina ¹[email protected] RESUMO Este trabalho faz uso da mineração de dados com o objetivo de encontrar informações
com Big Data Fabrício Olivetti de França Universidade Federal do ABC
Mineração de Dados com Big Data Fabrício Olivetti de França Universidade Federal do ABC Tópicos 1. Sobre mim 2. Sobre a Disciplina 1 Sobre mim Sobre mim Formado em Engenharia Elétrica com ênfase em Computação
HadoopDB. Edson Ie Serviço Federal de Processamento de Dados - SERPRO
HadoopDB Edson Ie Serviço Federal de Processamento de Dados - SERPRO Motivação Grandes massas de dados precisam ser processadas em clusters: 1 nó: 100TB@59MB/s = 23 dias Cluster com 1000 nós 33 min!!!
Processamento de Dados Massivos (Big-Data) com Spark. Vinícius Dias Orientador: Dorgival Guedes
Processamento de Dados Massivos (Big-Data) com Spark Vinícius Dias Orientador: Dorgival Guedes Vivemos em um mundo de dados 2 De que volume de dados estamos falando? Domo Data Never Sleeps 3.0 3 Mas não
2 Mineração de Dados Processo de Busca de Conhecimento (KDD) 2 Mineração de Dados
2 Mineração de Dados 2 Mineração de Dados A mineração de dados, ou data mining, é uma das principais etapas do processo de busca de conhecimento. Este conceito é utilizado para identificar técnicas avançadas
Processamento de dados em "tempo real"
Processamento de dados em "tempo real" com Apache Spark Structured Stream Eiti Kimura QConSP19 Eiti Kimura IT Coordinator and Software Architect at Movile Msc. in Electrical Engineering Apache Cassandra
Mineração de Dados para Detecção de Padrões de Mudança de Cobertura da Terra. Padrões e processos em Dinâmica de uso e Cobertura da Terra
Mineração de Dados para Detecção de Padrões de Mudança de Cobertura da Terra Padrões e processos em Dinâmica de uso e Cobertura da Terra Introdução 1 2 3 4 Capacidade de Armazenamento X Análise e Interpretação
MapReduce Apriori (MRA) : Uma Proposta de Implementação do Algoritmo Apriori Usando o Framework MapReduce
MapReduce Apriori (MRA) : Uma Proposta de Implementação do Algoritmo Apriori Usando o Framework MapReduce A. C. Bolina 1, D. A. Pereira 1, A. A. A. Esmin 1, M. R. Pereira 1 1 Departamento de Ciência da
COMPUTAÇÃO PARALELA E DISTRIBUÍDA
COMPUTAÇÃO PARALELA E DISTRIBUÍDA Aluno: Alessandro Faletti Orientadora: Noemi Rodriguez Introdução O objetivo inicial no projeto era aplicar a possibilidade de processamento em paralelo no sistema CSBase
Informática Parte 11 Prof. Márcio Hunecke
Escriturário Informática Parte 11 Prof. Márcio Hunecke Informática FERRAMENTAS DE INGESTÃO DE DADOS (SQOOP 1.4.6, FLUME 1.7.0, NIFI 1.3.0 E KAFKA 0.11.0) Visão geral sobre os quatro componentes Fazem
Curso: Banco de Dados I. Conceitos Iniciais
Curso: Conceitos Iniciais Discussão inicial O que são Bancos de Dados? Quais os programas de Bancos de Dados mais conhecidos no mercado? Quais as vantagens do uso de Bancos de Dados nas empresas? Como
Aplicação da técnica de mineração de dados por meio do algoritmo J48 para definição de limiares de imagens de sensoriamento remoto
Aplicação da técnica de mineração de dados por meio do algoritmo J48 para definição de limiares de imagens de sensoriamento remoto Rodrigo Rodrigues Antunes e Israel Rodrigues Gonçalves Resumo: O objetivo
ALUNO: RONI FABIO BANASZEWSKI
Model-View-Controller ALUNO: RONI FABIO BANASZEWSKI Objetivo Separar dados ou lógica de negócios (Model) da interface do usuário (View) e do fluxo da aplicação (Control) A idéia é permitir que uma mesma
ALGORITMO PARALELO E EFICIENTE PARA O PROBLEMA DE PAREAMENTO DE DADOS
ALGORITMO PARALELO E EFICIENTE PARA O PROBLEMA DE PAREAMENTO DE DADOS WALTER DOS SANTOS FILHO ALGORITMO PARALELO E EFICIENTE PARA O PROBLEMA DE PAREAMENTO DE DADOS Dissertação apresentada ao Programa
Aula 02: Conceitos Fundamentais
Aula 02: Conceitos Fundamentais Profa. Ms. Rosângela da Silva Nunes 1 de 26 Roteiro 1. Por que mineração de dados 2. O que é Mineração de dados 3. Processo 4. Que tipo de dados podem ser minerados 5. Que
Banco de Dados. Introdução. Profa. Flávia Cristina Bernardini
Banco de Dados Introdução Profa. Flávia Cristina Bernardini * Slides Baseados no material elaborado pelos professores Eduardo R. Hruschka, Cristina D. A. Ciferri e Elaine Parros Machado Motivação Operações
KDD E MINERAÇÃO DE DADOS
KDD E MINERAÇÃO DE DADOS Etapas do Processo de KDD Livro: Data Mining Conceitos, técnicas, algoritmos, Orientações e aplicações Ronaldo Goldschmidt, Eduardo Bezerra, Emmanuel Passos KDD Knowledge Discovery
Sergio Adriano Blum Data Scientists
Big Data e Inovação Sergio Adriano Blum Data Scientists Instrutor Gerente de Projetos Consultor MBA Gestão Estratégia de Empresas pela Unisinos Bacharel em Administração de Empresas com Ênfase em Análise
