Resumo Componente de software para extração e desambiguação de topônimos. Index Terms Extração de informação, Extração e desambiguação de topônimos

Documentos relacionados
Dados Espaciais: Uma Introdução

Infraestrutura de Dados Espaciais - IDE

Compilação e Análise da

Processamento de Imagens Digitais e Gestão da Informação

SIG PARA GESTÃO AMBIENTAL DO ESTADO DE ALAGOAS: O CASO DE SANTANA DO IPANEMA

Integração de Dados em GIS. Charles Ferreira Gonçalves

Qualidade das bases de dados geoespaciais: conceitos e tendências. Wilson Holler

Geoinfo e MaToPiBa: Um Webgis para a disseminação de informações Geoespaciais

INTRODUÇÃO AO GEOPROCESSAMENTO

Metadados. Plano de manejo dos parques do trecho sul do Rodoanel

Os efeitos do paralelismo e relações de thesaurus em uma ferramenta de busca em bases textuais

A Infraestrutura Nacional de Dados Espaciais - INDE. Wadih João Scandar Neto Diretor de Geociências IBGE

SREI. Sistema de Registro Eletrônico Imobiliário. Parte 5 Documentos auxiliares. D1 - A Infraestrutura Nacional de Dados Espaciais (INDE).

Produtos Operacionais do Monitoramento de Queimadas e Incêndios Florestais para GEONETCast. Fabiano Morelli 15/06/2016

Noções básicas de SIG com QGIS

Alerta de riscos ambientais

SREI. Sistema de Registro Eletrônico Imobiliário. Parte 5 Documentos auxiliares. D3 - Alternativas para representação de. dados de georreferenciamento

Metadados Geoespaciais: O Coração de uma IDE. Rafael Lopes da Silva 1

Infraestrutura Nacional De Dados Espaciais. Compartilhamento e Disseminação de dados geoespaciais

MODELAGEM ESPACIAL DA EVAPOTRANSPIRAÇÃO DO CAFEEIRO UTILIZANDO O ALGORITMO SEBAL

Máquina do tempo. Catalog On The Fly. 1ª Reunião do Comitê de Insumos p/ SR (CONCAR) Luiz Motta COTIG/CGMAM/DIPRO/IBAMA.

Projeto BDG OTSS - Base de Dados Geoespaciais, Geoprocessamento e Disponibilização de Geoinformação

é um software que a medida que as citações são inseridas no texto automaticamente é criada uma respectiva lista de referências de acordo com o estilo

Gazetteers - Aplicação em RI Geográfica. Ivre Marjorie R. Machado

MundoGEO#Connnect Latin America A GEOINFORMAÇÃO EM SÃO PAULO

Identificação de Pontos Perceptualmente Importantes (PIP) em séries temporais de tópicos extraídos de dados textuais

Conjunto de técnicas (ou tecnologias) ligadas à informação espacial, que engloba a coleta, tratamento e análise de dados.

TUTORIAL. Aprenda a exportar um arquivo Shapefile para DWG do AutoCAD. ArcGIS.

RESOLUÇÃO CONJUNTA SEMAD/FEAM/IEF/IGAM Nº 2.684, 03 DE SETEMBRO DE 2018

Relatório de Metadado

Harmonização e validação de um conjunto de dados segundo o INSPIRE: o caso de estudo de sondagens geotécnicas realizadas nos Açores

Especificações Técnicas Para Aquisição de Dados Geoespaciais Digitais Vetoriais (ET-ADGV)

SERVIDOR DE MAPAS PROJETO BRASÍLIA 2060

QGIS 2.4: Sistema de Referência de Coordenadas Personalizado Jorge Santos 2014

Uma ferramenta para expansão do vocabulário com base em coocorrência

Sistemas de Informações Geográficas

SER 300 INTRODUÇÃO AO GEOPROCESSAMENTO

Módulo 12 Gerenciamento e Organização de Dados e Metadados Espaciais

Entrada e saída. Marco A L Barbosa malbarbo.pro.br. Departamento de Informática Universidade Estadual de Maringá

¹ Estudante de Geografia na Universidade Estadual de Campinas (Unicamp), estagiária na Embrapa Informática Agropecuária (Campinas, SP).

Metadados. Henrique Silva. Instituto Geográfico Português

Livro texto: Capítulo 1

TUTORIAL. Mapas em Série no ArcGIS: criação de um arquivo índice. ArcGIS.

NORMA PARA ESPECIFICAÇÃO TÉCNICA PARA PRODUTOS DE CONJUNTO DE DADOS GEOESPACIAIS (ET-PCDG)

Uso de tecnologia ESRI pela Infostrata no Programa Fome Zero Brasil. Mário Buratto Helder Carvalhais

INDICADOR DE CONFORMIDADE DOS METADADOS DA INDE

Geoprocessamento. Laboratório 1: Modelagem e Criação de Bancos de Dados

ARMAZENAMENTO E DISTRIBUIÇÃO DE DADOS GEOESPACIAIS DO ESTADO DO ACRE

TUTORIAL. Aprenda a importar um arquivo DWG no programa. ArcGIS.

Embrapa e Gestão de Dados de Pesquisa

Tutorial 1. Introdução

SISTEMAS DE INFORMAÇÃO GEOGRÁFICA SIG FORMATOS DE REPRESENTAÇÃO DE DADOS FORMATO VETORIAL

3 Serviços definidos pelo OGC e a TerraLib

Elias Ribeiro de Arruda Junior [1] ; Eymar Silva Sampaio Lopes [2] ; UFF Universidade Federal Fluminense -

Departamento de Geografia FFLCH USP. Prof. Dr. Alfredo Pereira de Queiroz Filho. Mapas: transformações e desafios. Escala

Aos Países-membros da União Aos reguladores Aos operadores designados Às Uniões Restritas (para informação) Berna, 23 de novembro de 2017

Sistemas para Informação Geo-Referenciada DEI-IST 2011/2012

Banco de Dados I. Universidade Veiga de Almeida Luiz Antônio Vivacqua Corrêa Meyer

Operações de Vizinhança Proximidade Buffer zone

Dados Vetoriais Dados Matriciais Dados Cadastrais. Representação contínua de fenômenos do espaço geográfico

INSTITUTO NACIONAL DE PESQUISAS ESPACIAIS PROGRAMA DE PÓS-GRADUAÇÃO EM SENSORIAMENTO REMOTO DIVISÃO DE PROCESSAMENTO DE IMAGENS

Recomendações para a Organização. dos Mapas Digitais de Ruído. Versão 3. Amadora

Banco de Dados Geográficos

LABORATÓRIO 1 MODELAGEM DA BASE DE DADOS

SIG Sistema de Informações Geográficas

LABORATÓRIOS DIDÁTICOS DE GEOPROCESSAMENTO

Sistemas de Informações Geográficas

arquivos multimédia Felipe Tastch Matheus Cruz

O Setor de Geotecnologia da BMP oferece os seguintes serviços:

Semana de Estudos em Geoprocessamento LABORATÓRIO DE CARTOGRAFIA E GEOPROCESSAMENTO

informação enviada (ex. Facebook) ou que a rede social utilize essa informação para sugerir locais de interesse próximos ao usuário (ex. Foursquare).

Escola de Artes, Ciências e Humanidades da Universidade de São Paulo

Infra-Estrutura de Dados Espaciais. Bruno Rabello Monteiro

EXTRAÇÃO DE BORDAS EM IMAGEM DE ALTA RESOLUÇÃO UTILIZANDO TÉCNICAS DE PROCESSAMENTO DE IMAGEM

MODELAGEM E CRIAÇÃO DE BANCOS DE DADOS

TERMO DE REFERÊNCIA Nº 05/2019

Visualizando Padrões: A visualização do Universo de Metadados

SISTEMAS DE INFORMAÇÃO GEOGRÁFICA (II)

Análise de Pontos de Função

TERMO DE REFERÊNCIA Nº 08/2019 PEDIDO

Sistemas de Informação Geográficos. Informação na Organização. O Valor da Informação. Sistemas de Informação Tradicionais. O Valor da Informação

Deployment Plataform, TerraMA 2 in the Amazon. Eymar S.S. Lopes

Passo-a-passo para desenvolver um Programa usando a Linguagem Python

Laboratório 1. Disciplina. Introdução ao Geoprocessamento SER 300. Prof. Dr. Antonio Miguel Vieira Monteiro

Sistemas de Informações Geográficas Aplicações em Saúde

AULA 09 Organização e Representação de Dados Geográficos Conceitos de GIS / Fontes de Dados / Geoprocessamento usando o QGIS Tutorial F

Tipos de dados. Fonte: Cap. 2 Conceitos Básicos em Ciência da Geoinformação

Padrões Dados Geoespaciais na INDE

SISTEMAS DE INFORMAÇÕES GEOGRÁFICAS Aula 1 - Conceitos. SIG- Eng. Cartográfica Prof. Luciene Delazari

ZONEAMENTO DAS CONDIÇÕES TÉRMICAS E HÍDRICAS DA VIDEIRA PARA VINHO NO SUBMÉDIO SÃO FRANCISCO.

Técnica. Circular. Introdução. Autores. Materiais e métodos ISSN

INSTRUÇÕES AO TRABALHO FINAL DA DISCIPLINA

Geodireito e políticas públicas As Geotecnologias e o Estado

GERENCIAMENTO DE DADOS Exercícios

INFORMAÇÕES DE IDENTIFICAÇÃO. Vetor das ruas da carta de 1916, traçadas a partir do eixo da rua. Contém a tabela: ID, Nome Antigo, Nome Atual.

P&D em Geotecnologias na Petrobras: Foco na gestão ambiental

IDENTIFICAÇÃO DE ÁREAS APTAS A EXPANSÃO AGRÍCOLA NA REGIÃO DO MATOPIBA. Cleyton Vilpert

Plano Director Municipal. Tecnologias de Informação Geográfica

QGIS 2.2 Modo de Edição: Edição de Feições de Linha

Sistema Interativo de Análise Geoespacial da Amazônia Legal: análise da distribuição e localização de dados

Transcrição:

EMBRAPA MONITORAMENTO POR SATÉLITE/EMBRAPA INFORMÁTICA AGROPECUÁRIA, TOPEXTRACT, NOVEMBRO~2013 1 Resumo Componente de software para extração e desambiguação de topônimos. Index Terms Extração de informação, Extração e desambiguação de topônimos

EMBRAPA MONITORAMENTO POR SATÉLITE/EMBRAPA INFORMÁTICA AGROPECUÁRIA, TOPEXTRACT, NOVEMBRO~2013 2 TopExtract Toponym Extraction and Disambiguation Tool: Componente de software para extração e desambiguação de topônimos Celina Maki Takemura, (Embrapa Monitoramento por Satélite), Maria Fernanda Moura, (Embrapa Informática Agropecuária), e Lucas Siegl Correa Machado, (Embrapa Informática Agropecuária - estágio) I. BACKGROUND A Rede AgroHidro tem como objetivo analisar/avaliar os impactos da atividade agrícola e das mudanças climáticas sobre os recursos hídrigos de diferentes ecorregiões brasileiras. Para subsidiar ações de investigação e disseminação do conhecimento na rede e organizar sua produção técnico-científica, permitindo o cruzamento dessas informações com outras fontes diversas, se faz necessária a identificação e desambiguação de topônimos e indexação dos documentos textuais pelos mesmos. Particularmente imporntante nesse cenário, a desambiguação de topônimos representa a ponte entre o mundo do processamento de linguagem natural e os sistemas de informações geográficos utilizados pela Rede. II. IMPLEMENTAÇÃO Dado um documento textual, a metodologia prevê o (1) reconhecimento de entidades nomeadas; (2) inferência sobre relação das entidades nomeadas à acidentes geográficos; (2) a aplicação de um gazetteer, i.e., índice de topônimos; (3) um processo de desambigação baseada em distâncias; (4) geração de metadados geográficos. A. Reconhecimento de entidades nomeadas Existe uma vasta e heterogênea gama de estratégias para identificação automática de entidades nomeadas em textos e é dependente de uma gama de fatores como língua, gênero textual e domínio do conhecimento. Neste componente de software utilizamos o OpenCalais 1. B. Índice de topônimos Neste trabalho, o repertório toponímico foi criado a partir de bases cartográficas. Para os testes detalhados na Seção Experimentos e Resultados, utilizou-se a Malha municipal brasileira do IBGE [IBGE, 2007] e a Rede hidrográfica brasileira [ANA, 2013], no entanto, o processo é extensível a outros documentos em formato Shapefile. C. Processo de desambiguação O processo de desambiguação das entidades nomeadas inicia-se com o cálculo da similaridade de cada entidade com cada item do índice de topônimos. Para o experimento, utilizamos a distância Jaro-Winkler como medida de similaridade. A métrica de distância entre palavras Jaro d j corresponde a soma ponderada do percentual de caracteres correpondentes e transpostos entre duas palavras. { 0 if m = 0 d j = 1 3 ( m + m + m t s 1 s 2 m onde: m é o número de correlações entre caracteres; s 1 e s 2 são os tamanhos das palavras s 1 e s 2; t é o número de transposições; O método Jaro-Winkler d w é uma variação feita para obter melhores resultados com palavras pequenas, como nomes de pessoas ou cidades. Este método utiliza dois parâmetros de ajuste, sendo p responsável por determinar à quantidade de caracteres comum ao prefixo das palavras l um valor maior. A métrica é dada por: ) else d w = d j + (lp(1 d j)) (2) onde: d j é a distância Jaro entre as palavras s 1 e s 2; l é a quantidade de caracteres comum no prefixo de ambas, l [0, 4] p é o fator de escala relacionado a l, p (0, 0.25] Selecionado os topônimos com maior similaridade, caso haja empate, iniciamos o processo de desambiguação, considerando a distância entre dois conjuntos de pontos X e Y, que representam "geograficamente"os topônimos como a distância entre os pontos mais próximos de X e Y : d N (X, Y ) = min (x,y) X Y d E(x, y) = min x X de(x, Y ) = min de(y, X), (3) y Y onde d E denota a distância euclidiana em S. Assim, sejam E = {e i}, i = [1, n] o conjunto das entidades nomeadas selecionadas D e d N (g 1, g 2) = x, x R a menor distância entre os pontos, tomados dois a dois, de duas geometrias. e i G(e i) = {g ji }, G(e i), onde G(e i) é denominado Conjunto de Geometrias Ambíguas de e i. Definimos Ḡ como Conjunto de Geometrias Desambiguado, onde 1 http://www.opencalais.com (1)

EMBRAPA MONITORAMENTO POR SATÉLITE/EMBRAPA INFORMÁTICA AGROPECUÁRIA, TOPEXTRACT, NOVEMBRO~2013 3 Ḡ = {(ḡ 1,..., g n)} ḡ 1 G(e 1),..., g n G(e n) (4) (ḡ 1,..., g n) Ḡ d N (ḡ i, ḡ k ) = min d N (g ji, g jk ), k = [1, n] (5) i k i k D. Metadados A ISO 19115:2003 é um padrão de metadados para informação geográfica aplicável não só a documentos digitais mas também a documentos textuais. No Brasil, instituída pelo Decreto N o 6.666 de 27/11/2008, a Infraestrutura Nacional de Dados Espaciais INDE tem como propósito catalogar, integrar e harmonizar dados geoespaciais produzidos e mantidos por instituições do governo brasileiro, facilitando sua localização, exploração e acessibilidade para os mais diversos usos. Para tanto, a INDE provê um conjunto integrado de tecnologias; políticas; mecanismos e procedimentos de coordenação e monitoramento; padrões e acordos, necessário para facilitar e ordenar a geração, o armazenamento, o acesso, o compartilhamento, a disseminação e o uso dos dados geoespaciais de origem federal, estadual, distrital e municipal. Em especial, a INDE prevê a utilização de um subconjunto da norma ISO completa, o Perfil de Metadados Geoespaciais Brasileiros - Perfil MGB. Um perfil de metadados contém um conjunto básico e necessário de elementos que retrate as características dos produtos geoespaciais de uma determinada comunidade e garanta sua identificação, avaliação e utilização consistente 2. III. REQUISITOS DE SOFTWARE E INSTALAÇÃO As bibliotecas python utilizadas são: 1) GDAL (OGR e OSR): http://trac.osgeo.org/gdal/wiki/gdalogrinpython 2) NUMPY: http://www.numpy.org/ 3) NLTK: http://nltk.org/ 4) OpenCalais http://www.opencalais.com/ 5) NER (pyner) https://github.com/dat/pyner 6) Geopy http://code.google.com/p/geopy/ 7) Google Translate https://github.com/terryyin/google-translate-python 8) PDF Miner http://www.unixuser.org/ẽuske/python/pdfminer/index.html 9) jellyfish https://pypi.python.org/pypi/jellyfish/0.2.0 Mapas utilizados para a criação do índice de topônimos: 1) HIntegrada1.shp: Arquivo contendo a hidrografia de todos os rios brasileiros (Projeção EPSG:4618 - SAD69) 3 2) 55mu2500gsd.shp: Arquivo contendo a geometria de todos os municípios brasileiros (Projeção EPSG:4618 - SAD69) 4 Encontre no arquivo "experimento.py"um exemplo de uso. IV. EXEMPLO DE USO A. Importação das bibliotecas do componente Para utilização do componente, é necessário a importação das bibliotecas que fazem parte do pacote. import shpinfo, geominfo, textualanalysis, georec B. Texto de entrada Utilizamos como entrada as seções Abstract, Introduction e Materials and methods do artigo: TEIXEIRA, A. H. de C. ; Bastiaanssen, W.G.M. ; Ahmad, M ud D ; Bos, M. G..Reviewing SEBAL input parameters for assessing evapotranspiration and water productivity for the Low-Middle São Francisco River basin, Brazil Part B: Application to the regional scale Agricultural and Forest Meteorology, v. 149, p. 477-490, 2009 5. textualanalysis.convert_pdf_all(path) 2 Em conformidade a esse Decreto, a Embrapa solicitou adesão à INDE, por meio de "nó prório", em 19 de julho de 2013. 3 http://www.ana.gov.br/bibliotecavirtual/redehidrografica.asp 4 ftp://geoftp.ibge.gov.br/malhas_digitais/municipio_2007/escala_2500mil/proj_geografica_sad69/brasil/55mu2500gsd.zip 5 http://www.alice.cnptia.embrapa.br/bitstream/doc/630907/1/heriberto.pdf

EMBRAPA MONITORAMENTO POR SATÉLITE/EMBRAPA INFORMÁTICA AGROPECUÁRIA, TOPEXTRACT, NOVEMBRO~2013 4 C. Entidades nomeadas Foram encontradas as seguintes entidades nomeadas 1) NaturalFeatures: Rio São Francisco 2) Province/State/City: Idaho, Landsat, Lagoa Grande, Petrolina textualanalysis.entitiesextraction(path) D. Topônimos com menor distância de strings e desambiguação Idaho e Landsat não tiveram topônimos com similaridade maior que limiar de corte (para este experimento foi utilizado como limiar de similaridade 0.75 para Hidro Search e 0.85 para Adm Search). Para a entidade Rio São Francisco foram encontrados 24 topônimos, para Petrolina 1 e para Lago Grande 2. 1) Hidro Search: Rio Sao Francisco: Similarity: 1.0 (24 toponym(s)) 2) Adm Search: Idaho not found - Distance < Threshold 3) Adm Search: Landsat not found - Distance < Threshold 4) Adm Search: Petrolina: Similarity: 1.0 (1 toponym(s)) 5) Adm Search: Lagoa Grande : Similarity: 1.0 (2 toponym(s)) (a) Ambíguo Figura 1. (b) Desambiguado Resultado da desambiguação # get the geometries from Natural Features NatFeatLines, NatFeatGeos = geominfo.getallgeos(natfeatfile, NatFeatCode, sad69) # get the geometries from Province or States or Citys PrStLines, PrStGeos = geominfo.getallgeos(prstfile, PrStCode, sad69) # group all the geometries and lines alllines = NatFeatLines allgeometries = NatFeatGeos for x, line in enumerate(prstlines): alllines.append(prstlines[x]) allgeometries.append(prstgeos[x]) # find the geometries with the minimal sum of distance choosenlines, choosengeos = geominfo.mindistance(allgeometries, alllines) E. Metadados Extrato dos metadados de referenciação geográfica gerados para o texto:

EMBRAPA MONITORAMENTO POR SATÉLITE/EMBRAPA INFORMÁTICA AGROPECUÁRIA, TOPEXTRACT, NOVEMBRO~2013 5 <gmd:extent> <gmd:ex_extent> <gmd:geographicelement> <gmd:ex_geographicboundingbox> <gmd:westboundlongitude><gco:decimal>-46.5264129639</ gco:decimal></gmd:westboundlongitude> <gmd:eastboundlongitude><gco:decimal>-36.3931694031</ gco:decimal></gmd:eastboundlongitude> <gmd:southboundlongitude><gco:decimal>-20.3587856293</ gco:decimal></gmd:southboundlongitude> <gmd:northboundlongitude><gco:decimal>-8.49612024154</ gco:decimal></gmd:northboundlongitude> </gmd:ex_geographicboundingbox> </gmd:geographicelement> </gmd:ex_extent> </gmd:extent> <gmd:referencesysteminfo> <gmd:md_referencesystem> <gmd:referencesystemidentifier> <gmd:rs_identifier> <gmd:code><gco:characterstring>4618</gco:characterstring></ gmd:code> <gmd:codespace><gco:characterstring>epsg</gco:characterstring>< /gmd:codespace> </gmd:rs_identifier> </gmd:referencesystemidentifier> </gmd:md_referencesystem> </gmd:referencesysteminfo> <gmd:descriptivekeywords> <gmd:md_keywords> <gmd:keyword> <gco:characterstring>rio Sao Francisco, Codigo_Rio: 74_0</ gco:characterstring> </gmd:keyword> <gmd:keyword> <gco:characterstring>lagoa Grande, Codigo_Munic: 2608750</ gco:characterstring> </gmd:keyword> <gmd:keyword> <gco:characterstring>petrolina, Codigo_Munic: 2611101</ gco:characterstring> </gmd:keyword> <gmd:type> <gmd:md_keywordtypecode codelist="http://www.isotc211.org/2005/ resources/codelist/gmxcodelists.xml#md_keywordtypecode" codelistvalue="place" codespace="isotc211/19115">place</ gmd:md_keywordtypecode> </gmd:type> </gmd:md_keywords> </gmd:descriptivekeywords> # create the choosen geometries envelope bbox = geominfo.boundingbox(choosengeos) # get the name of the choosen geometries geonames = geominfo.getgeonames(choosenlines) # create the XML file geominfo.createxml(filename, bbox, geonames)

EMBRAPA MONITORAMENTO POR SATÉLITE/EMBRAPA INFORMÁTICA AGROPECUÁRIA, TOPEXTRACT, NOVEMBRO~2013 Figura 2. Retângulo envolvente dos topônimos selecionados, usado para referenciar geograficamente o documento 6