Um Método para Melhoria de Dados Estruturados de Imóveis

Documentos relacionados
Uma Ferramenta para a Melhoria da Qualidade de Dados Estruturados da Web

Elicitação de requisitos de software através da utilização de questionários

Universidade Federal de Pernambuco CIn - Centro de Informática Graduação em Bacharelado em Sistemas de Informação

Uma ferramenta para Definição de Mapeamentos entre Vocabulários usados na publicação de Dados Linkados

Universidade Federal de Pernambuco Graduação em Ciência da Computação Centro de Informática

Utilização de uma estratégia para identificação de fontes de informação na fase de elicitação

Predição de links em uma rede heterogênea baseada em dados geolocalizados e de relacionamentos

UNIVERSIDADE FEDERAL DE PERNAMBUCO CENTRO DE INFORMÁTICA GRADUAÇÃO EM ENGENHARIA DA COMPUTAÇÃO

Detecção de Posicionamento no contexto de Fake News

Otimizando o processo de criação de personagens 2D em pixel art para jogos digitais através da ferramenta SpriteGen

Mineração de Textos na Web

Previsão de séries temporais através da combinação de modelo híbrido ARIMA e redes neurais artificiais

Universidade Federal de Pernambuco

TÓPICOS AVANÇADOS EM ENGENHARIA DE SOFTWARE

Utilização de técnicas de Process Mining em Sistemas de Middleware Adaptativos Proposta de Trabalho de Graduação

MODELAGEM E OTIMIZAÇÃO DE SOFTWARE AUTOMOTIVOS PROPOSTA DE TRABALHO DE GRADUAÇÃO

ESTUDO E IMPLEMENTAÇÃO DE METÁFORAS DE INTERAÇÃO 3D COM FOCO EM NAVEGAÇÃO EM AMBIENTE CAVE

Métodos Quantitativos e Qualitativos na Engenharia (M2QE) Quantitative and Qualitative Methods in Engineering (QQME)

UBIBUSANALYSIS UMA FERRAMENTA DE INTERPRETAÇÃO DE

BUSINESS & LAW FACULTY FCES Faculdade Ciências Empresariais E Sociais

Bacharel Ciência da Computação

PROCESSAMENTO E ANÁLISE DE IMAGENS DE MICROARRANJOS DE DNA

Marcos Borges Pessoa. Geração e execução automática de scripts de teste para aplicações web a partir de casos de uso direcionados por comportamento

Estudo Comparativo de Estratégias de Classificação de Páginas Web

Integração de Dados. Processamento Analítico de Dados Profa. Dra. Cristina Dutra de Aguiar Ciferri Prof. Dr. Ricardo Rodrigues Ciferri

Os desafios de interface e de interação na computação ciente de contexto

Geração semi-automática de massas de testes funcionais a partir da composição de casos de uso e tabelas de decisão

Deep Learning na Detecção de Posicionamento em Notícias Online

UNIVERSIDADE FEDERAL DE P ERNAMBUCO

Integração de Ontologia com Modelagem de Processo: Um Método para Facilitar a Elicitação de Requisitos

MEIC: especialização em Processamento e Análise de Dados (aka Big Data ou Data Science ) Quase Tudo Sobre o MEIC, 2017

Aplicação da Análise de Sistemas à Definição de Processos de Desenvolvimento de Software

DESENVOLVIMENTO DE UM REPOSITÓRIO DE DADOS DO FUTEBOL BRASILEIRO

PRÁTICAS QUE CONTRIBUEM NA FORMAÇÃO DE HACKERS AO LONGO DA GRADUAÇÃO EM CURSOS DE COMPUTAÇÃO

IDENTIFICAÇÃO DE PROBLEMAS EM PROCESSOS DE NEGÓCIO USANDO A MODELAGEM DE PROCESSOS EM BPMN E A ÁRVORE DE REALIDADE ATUAL DA TOC

GESTÃO DE DADOS NAS ORGANIZAÇÕES. Prof. Robson Almeida

Data Driven Marketing. Tratamento de dados

Extração de Conhecimento & Mineração de Dados

Gestão visual de projetos no NTI - UFPE

Uma Avaliação Crítica de Ferramantas de Analytics para aplicações Móveis

KDD E MINERAÇÃO DE DADOS:

UNIVERSIDADE FEDERAL DE PERNAMBUCO GRADUAÇÃO EM SISTEMAS DE INFORMAÇÃO CENTRO DE INFORMÁTICA

GEO-C: OPEN SMART CITIES PLATFORM

U NIVERSIDADE F EDERAL DE P ERNAMBUCO

Análise de Desempenho de Plataformas para Desenvolvimento com o Sistema Operacional Android

06/10/16 Ademir Santos EVANCE PLATAFORMA NA NUVEM

UM SISTEMA DE RECUPERAÇÃO DE

English version at the end of this document

Faculdade de Medicina da Universidade do Porto

Alinhamento dos Processos de Desenvolvimento de Software do Laboratório GAIA ao modelo de qualidade MR-MPS-SW

PROJETO DE INTERFACES PARA ÁLGEBRA DE MAPAS EM GEOPROCESSAMENTO NO AMBIENTE SPRING

Basic SharePoint Server 2013 Branding (55081)

Avaliação do site feedbackvote.com

UNIVERSIDADE FEDERAL DE PERNAMBUCO. Análise da Eficiência da Codificação de Huffman em Extensões de Fontes de Informação

A Tool to Evaluate Stuck-Open Faults in CMOS Logic Gates

Universidade Federal de Pernambuco Graduação em Ciência da Computação Centro de Informática

Como Mudar a Senha do Roteador Pelo IP o.1.1. Configure e Altere a Senha do seu Roteador acessando o IP Acesse o Site e Confira!

DEMONSTRATIVO DE CÁLCULO DE APOSENTADORIA - FORMAÇÃO DE CAPITAL E ESGOTAMENTO DAS CONTRIBUIÇÕES

Percepção e cognição visual em soluções cartográficas. Claudia Robbi Sluter

Universidade Federal de Pernambuco

Software Testing with Visual Studio 2013 (20497)

Desenvolvimento de Aplicações para o Consumo de Dados Abertos Conectados da Universidade Federal de Pernambuco

PROCESSO UNIFICADO FOCADO EM BANCO

DESCOBERTA DO CONHECIMENTO COM O USO DE TEXT MINING APLICADA AO SAC TEXT MINING. Aluno José Lino Uber. Orientador Paulo Roberto Dias

UNIVERSIDADE FEDERAL DE PERNAMBUCO GRADUAÇÃO EM SISTEMAS DE INFORMAÇÃO CENTRO DE INFORMÁTICA

Visualização de Informação Parte III. Multi-dimensional Visualization: Visual Mining of Text, Images and other Multi-dimensioanl entities.

Revisão Sistemática da Literatura sobre Métodos de Localização de Características

AUTENTICAÇÃO DE IMPRESSÕES DIGITAIS

SERVIÇO PÚBLICO FEDERAL UNIVERSIDADE FEDERAL DE SANTA CATARINA CENTRO DE CIÊNCIAS DA SAÚDE PROGRAMA DE MESTRADO PROFISSIONAL EM INFORMÁTICA EM SAÚDE

Creating a Technical Corpus

Data Quality Services (DQS)

Implementing a Data Warehouse with Microsoft SQL Server 2014 (20463)

Universidade Estadual de Ponta Grossa PRÓ-REITORIA DE GRADUAÇÃO DIVISÃO DE ENSINO

PRÓ-TRANSPORTE - MOBILIDADE URBANA - PAC COPA CT /10

B A N C O D E D A D O S G E O G R Á F I C O S M A R C O N I D E A R R U D A P E R E I R A

PRÓ-TRANSPORTE - MOBILIDADE URBANA - PAC COPA CT /10

Optimicargo transportes e logística. Manual de normas gráficas Graphic guidelines handbook 2008

Business Intelligence with Tableau and SQL Server

English version at the end of this document

AN APPROACH TO ASSESS SAFETY CONSIDERING INTEGRITY OF DATA OF ADS-B BASED AERIAL SYSTEMS

6º Congresso de Pós-Graduação AUTOMATIZAÇÃO DO PROCESSO DE CRIAÇÃO DE VISÕES PARA MODELAGEM DE DW

Implementing Data Models and Reports with SQL Server 2014 (20466)

Sweet Home: Uma ferramenta de visualização de dados focada no mercado imobiliario

Revisão Sistemática: Conceitos Básicos

SBC - Sistemas Baseados em Conhecimento

Francisco Benjamim Filho. XHITS: Estendendo o Algoritmo HITS para Extração de Tópicos na WWW DISSERTAÇÃO DE MESTRADO

English version at the end of this document

USANDO XML PARA CARGA AUTOMÁTICA DE DADOS EM BANCOS DE DADOS DE PROJETO INDUSTRIAL DE MAQUETE ELETRÔNICA PROPOSTA DE TRABALHO DE GRADUAÇÃO

LATIM - Laboratório Virtual de Técnicas de Implementação Segura. Meta 38 GerPri Gerenciamento de Identidades com Privacidade

Transcript name: 1. Introduction to DB2 Express-C

Diego Martin Mancini Orientador: Prof. Paulo A. V. de Miranda Instituto de Matemática e Estatística Universidade de São Paulo

OPTICAL IMAGE SYNTHESIS FOR CLOUD REMOVAL WITH GENERATIVE ADVERSARIAL NETWORKS

Agrupamentos de Dados: Avaliação de Métodos e Desenvolvimento de Aplicativo para Análise de Grupos

Controle da Execução e Disponibilização de Dados para Aplicativos sobre Seqüências Biológicas: o Caso BLAST

INE 5423 Banco de Dados I

RECONHECIMENTO DE CARACTERES MANUSCRITOS JAPONESES

Componentes de Software Baseados em Engenharia de

Extração de características utilizando filtros de Gabor aplicado a identificação de defeitos no couro bovino

NORMAS PARA PUBLICAÇÃO CADERNO DE INICIAÇÃO À PESQUISA

Gerir referências bibliográficas NP 405. EndNote Web

Transcrição:

Universidade Federal de Pernambuco Centro de Informática Graduação em Ciência da Computação Um Método para Melhoria de Dados Estruturados de Imóveis Lucas Nunes de Souza Proposta de Trabalho de Graduação Orientador: Prof. Luciano de Andrade Barbosa Recife Abril de 2017

Resumo A Internet contém uma grande quantidade de dados que podem ser usados para diversos propósitos, por exemplo, para modelagem de dados, análises estatísticas e previsões. No entanto, dados obtidos da web podem conter vários problemas como campos faltando, duplicatas ou informações erradas. Esses problemas podem surgir de algum erro nas fontes de dados ou no método de obtenção dos dados. Detectar e tratar esses problemas pode exigir muito trabalho e geralmente requer o uso de diferentes ferramentas e técnicas estatísticas. O principal objetivo desse trabalho é criar uma solução para ajudar o usuário nesses processos, de forma que ele possa utilizar, de forma integrada, diferentes métodos estatísticos e de visualização para ajudá-lo no processo de melhoria da qualidade de dados. Palavras-chave: recuperação de informação, qualidade de dados, web 2

Abstract The Internet contains a large amount of data that can be used for various purposes, for example, for data modeling, statistical analysis and forecasting. However, data obtained from the web may contain various problems such as missing fields, duplicates, or wrong information. These problems may arise from some error in the data sources or in the method of obtaining the data. Detecting and treating these problems can require a lot of work and usually needs the use of different statistical tools and techniques. The main goal of this work is to create a solution to help users in these processes, so that they can use different statistical and visualization methods in an integrated way to help them in the process of data quality improvement. Keywords: information retrieval, data quality, web 3

Sumário 1 Contexto 1 2 Objetivo 2 3 Cronograma 3 4 Possíveis Avaliadores 4 5 Assinaturas 5 4

CAPÍTULO 1 Contexto Na era da internet em que vivemos, entretenimento e informações são predominantemente digitais e a quantidade de dados que são gerados cada dia é enorme. Podemos encontrar todo tipo de informação na Web, desde informações e preços de produtos até dados e artigos científicos. Esses dados podem ser usados, por exemplo, para tarefas de previsões e tomadas de decisão [1]. Com o aumento de automação na forma de adquirir os dados, a preocupação com a qualidade dos dados aumenta. Normalmente é necessário que os dados estejam no correto estado e representem fielmente o mundo real [2]. A presença de dados incorretos ou inconsistentes podem distorcer significativamente resultado de análises, potencialmente negando os benefícios de usar métodos e algoritmos de previsão e análise de dados [3]. No contexto da Web, estamos interessados em dados estruturados, aqueles que possuem atributos e valores de um determinado domínio. Por exemplo, um produto numa loja online pode ter atributos preço, nome, estado, etc. Esses tipos de dados são de mais facil manipulação e análise. Dados extraídos de sites com informação estruturada podem conter problemas como: valores faltando, dados duplicados, erro de formatação, entre outros. As duas principais fontes de erros de dados obtidos da web são: Fonte dos dados: Problemas podem sugir tanto na entrada manual de dados, campos errados e faltando, ou na geração automática de páginas, erros de formatação e valores duplicados. Por exemplo, um site de imóveis pode conter valores faltando como vagas ou suites, informações normalmente não obrigatórias. por exemplo,... Método extração: Métodos de extração automatizados podem ter problemas para extrair informação devido a diferença de estrutura que cada página pode ter. Até em um único domínio, não pode ser garantido que os dados vão estar no mesmo formato. Para poder lidar com esses problemas, diversos métodos têm sido propostos na área de qualidade de dados e limpeza de dados. Como exemplo temos outliers nos dados, que podem causar efeitos negativos aos processos que forem eventualmente utilizá-los [4]. O processo de melhoria dos dados possui alguns desafios. Métodos diferentes podem ter resultados diferentes ou até mesmo um mesmo método pode ser melhor para um determinado conjunto de dados que outro. O processo de limpeza também pode criar novos erros [5]. Esse processo pode ser considerado interativo, no qual o usuário pode analisar cada etapa e decidir qual o melhor resultado [6]. Desse modo, pretende-se criar nesse trabalho uma ferramenta de suporte à melhoria na qualidade de dados estruturados. 1

CAPÍTULO 2 Objetivo O objetivo do trabalho é criar uma ferramenta que auxilie o tratamento e estudo de dados adquiridos da web. Para isso usaremos técnicas estatísticas para tratar dos problemas mais comuns encontrados nos dados. A ferramenta permitirá que o usuário escolha quais técnicas serão usadas nos dados e vizualizar o resultado de cada etapa, podendo obter os dados tratados. 2

CAPÍTULO 3 Cronograma Atividades Mar Abr Mai Jun Jul Revisão Bibliográfica Elaboração da proposta Análise dos problemas nos dados Desenvolvimento da ferramenta Relatório final Apresentação

CAPÍTULO 4 Possíveis Avaliadores São possíveis avaliadores do trabalho a ser produzido conforme especificado nesta proposta: Bernadette Farias Lóscio 4

CAPÍTULO 5 Assinaturas Lucas Nunes de Souza Aluno Luciano de Andrade Barbosa Orientador 5

Referências Bibliográficas [1] S. K. J. W. Xu Chu, Ihab F. Ilyas, Data cleaning: Overview and emerging challenges, Proceedings of the 2016 International Conference on Management of Data - SIGMOD 16, 2016. [2] M. v. d. L. Edwin de Jonge, An introduction to data cleaning with r, Proceedings of the 2016 International Conference on Management of Data - SIGMOD 16, 2013. [3] J. M. Hellerstein, Quantitative data cleaning for large databases, United Nations Economic Commission for Europe (UNECE), February 2008. [4] S. Seo, A review and comparison of methods for detecting outliers in univariate data sets, Master of Science thesis. University of Pittsburg, 2006. [5] D. S. Laure Berti-Équille, Tamraparni Dasu, Discovery of complex glitch patterns: A novel approach to quantitative data cleaning, Data Engineering (ICDE), 2011 IEEE 27th International Conference on Data Engineering, May 2011. [6] T. Dasu, Data glitches: Monsters in your data, Handbook of Data Quality, p. 163 178, 2013. 6