Integração de Dados em GIS Charles Ferreira Gonçalves
Introdução Crescimento e Disponibilidade de dados GeoEspaciais tem aumentado o interesse em KDD aplicado a GIS Existem várias fontes de dados o que implica em integração antes da efetiva utilização Objetivo em Integração: Encontrar localizações correspondentes entre bases diferentes Criar uma base única com o mínimo de ruído e réplicas possíveis
Desafios: Dados espaciais contínuos captura de dados é imprecisa e pode conter ruídos Dados com diferentes escalas e estruturas Ex: Montanhas podem ser pontos ou regiões Semânticas diferente: Ilha e região insular Dimensionalidade dos Dados: Dados apresentados em diversos níveis : 1. Nome da Localização 2. Coordenadas Espaciais 3. Tipo de Localização 4. Informações demográficas e além de outras
Abordagens Existem várias abordagens para os problemas de integração em GIS na literatura cada um com um objetivo específico: Entity Resolution Ex.: Integração de Dados Geográficos Data Conflation Ex.: Digital Gazetteer Conflation. Toponym Resolution in Text Mapeamento entre nomes de locais e coordenadas geográficas com desambiguação de nomes de entidades espaciais
General Entity Resolution Definição do Problema: Sejam duas Bases de Dados Geográficas A e B com registros do tipo: Lx = {nome do local, coordenadas espaciais, tipo do local} O objetido da Resolução de Entidades Espaçiais é encontrar pares de localidades {Li,Lj} tal que : Li pertença a A Lj pertença a B Li e Lj representem a mesma entidade geográfica no mundo real.
Entity Resolution Base GNDB: A = Qaryat an Nu'aymiyah, 'Populated Place' Base NGADB: B = Qaryat an Na'imiyah. 'Pop. Place'
General Entity Resolution Métricas de Similaridade: Nome :Métricas tradicionais de String Distância de Edição, Jaccard, Jaro, Winkler Coordenadas Ex: Inverso da Distância Tipos Co-ocorrência: N(Ti,Tj) / N(Ti) + N(Tj)
General Entity Resolution Abordagens: Procura por correspondentes baseados em: Nome Coordenadas Uma combinação ( mas como?!) Qual melhor combinação? Como distribuir pesos para nomes, coordenadas, e tipos? Um saída : Machine Learning SVM, Redes Neurais
Digital Gazetteers Conflation Conflation: "A blend or fusion,to combine two or more things to form a single new thing" Longman Dictionary "The collapsing of distinct items in such a way that their differences are apparently lost" 'Science and religion' By John F. Haught Gasetteers: Um dicionário geográfico,um compêndio de descrições de lugares: Cada entrada normalmente contém informações sobre os nomes de lugares, tipos e uma "footprint" (coordenadas)
Digital Gazetteers Conflation Baseia-se no princípio que um "lugar geográfico" é definido por: pelo menos um nome (placename) pelo menos um tipo de lugar (placetype) pelo menos um localização georeferênciada no mundo (footprint) Desafio: combinar descrições de gazetteers distintos mantendo a unicidade entre uma entidade espacial e sua correspondente entrada no gazetteer.
DG Conflation: Metricas Similaridade Geoespacial: Aplica-se no footprint
DG Conflation: Metricas Similaridade "Geotaxial" (Geotaxonomias) aplica-se no placetypes
DG Conflation: Metricas Similaridade Geonomial: Aplica-se aos nomes (placename)
DG Conflation: Metodologia 1. Todas entidades devem conter: geometria, tipo e nome 2. Realiza Blocagem por similaridade Geospacial 3. Computa as outras duas similaridade para cada par: Geotaxial e Geonominal 4. Soma-se as 3 métricas 5. Se a soma passa de um limite Delta : Agrupa-os sobre determinado critério
Toponym Resolution in Text Topônimo (Toponym): substantivo próprio que designa nome de lugar. Toponym Resolution : Tenta realizar um mapeamento, automático, entre trechos de texto que se referem a entidades espaciais com unidades georeferenciadas, resolvendo ambiguidades se necessário. Metodologia : Faz uso técnicas de Machine Learning com dados de Gazetters para detectar entidades espaciais em texto, resolvê-las usando evidências locais e retornar dados georeferenciados como coordenadas geográficas.
Conclusões Varios dos problemas que se encontram em Banco de Dados comuns aparecem em GIS, porém agravados As características dos dados geográficos (nomes, hierarquias, coordenadas, projeções, etc...) aumentam o grau de incerteza tornando o processo de integração (seja ela qual for) mais difícil Muitas aplicações em breve serão dependente desses tipos de dados, integração automatizada é essencial para o sucesso dessas. Muito trabalho a ser feito...
Referências: J. T. Hastings (2008) 'Automated conflation of digital gazetteer data',international Journal of Geographical Vivek Sehgal et Al. (2006) 'Entity Resolution in Geospatial Data Integration' ACM-GIS'06 - International Symposium on Advances in Geographic Information Systems J. L. Leidner (2004) 'Toponym resolution in text : "which sheffield is it?"', ACM SIGIR 04 Conference on Research and development in information retrieval