Web Scraper e Google Maps

Documentos relacionados
Raspagem de Dados com Web Scraper no Chrome

TITULO: N o : REVISÃO: Exportação e Importação do livro de Endereço - Swap 000. Instrução de Trabalho

INSTALAÇÃO DO WORKMOTOR FREE

ATUALIZAÇÃO CERTIFICADO NF-E

COMO INSTALAR O CATÁLOGO

Baixando o Arquivo de Instalação do Bentley topograph

MANUAL DE INSTALAÇÃO ProGRAB - Programação em Gestão por Resultados da Atenção Básica

Projeto InfoFisc Offline 2.2 Manual de Utilização

Laboratório Configuração do Backup e da Restauração de Dados no Windows 7 e no Vista

Tutorial Tableau: como elaborar gráficos interativos

Manual Coleção Interativa Papel Professor Versão 2.5.3

Procedimento de instalação do Oracle EBS da Mundial

Configuração do assinador Shodō

Manual de Utilização e-rh para Servidor em Geral

UNIVERSIDADE TECNOLOGIA FEDERAL DO PARANÁ. Owncloud SERVIÇO DE COMPARTILHAMENTO EM NUVEM. Manual

Importar e Receber NF-e

Tutorial Localização de Aluno pelo Google Maps

Manual Gerenciador de Aprendizagem Papel Professor Versão 2.5.3

Guia de instalação Impressora Térmica EPSON TM-88IV (Linux)

Meios de Comunicação de Dados.

MOVIMENTAÇÃO DE APÓLICES VIDA ICATU

Guia de Instalação do Lotus Notes 7

10 Hiperlinks e Mala Direta

Manual de Utilização do Webmail v1.1

Programas. Existem vários programas gratuitos pela internet afora.

Assina Web S_Line Manual de Uso

COMO COMEÇAR Guia de Referência Rápida MAPAS

Como instalar um gerador de PDF

PROGRAMA ESPECIAL DE FORMAÇÃO PEDAGÓGICA DE PROFESSORES PARA EDUCAÇÃO PROFISSIONAL MANUAL DO AMBIENTE VIRTUAL DE APRENDIZAGEM (AVA) TUTOR

Manual para atualização do portal do CNPq - versão 1.0 Popularização da Ciência

Instalando o Driver de Impressora Custom PostScript ou PCL para Windows

Como acessar as imagens via Navegador Google Chrome

3. Como olhar os s da sua conta de do grupo rio do peixe? 6. Como visualizar ou criar novos contatos no e-groupware?

Campo de coluna: é um campo retirado da lista de dados e atribuído a uma orientação de coluna na tabela dinâmica.

Configurações do Servidor Escola

Para instalar o driver da D600 / N200 via USB ( modelo de rede ) siga os seguintes passos:

BAIXA DO CERTIFICADO DIGITAL SERPRO MOZILLA FIREFOX GOOGLE CHROME INTERNET EXPLORER SOLUTI

TICs IVINHEMA-MS

Excel Prof. André Aparecido da Silva Disponível em:

MANUAL DE EMISSÃO E INSTALAÇÃO DO CERTIFICADO TIPO A1 (GOOGLE CHROME)

SUMÁRIO. Excel

Excel Tabela Dinâmica - Incrementando seus conhecimentos e Aperfeiçoando a sua prática Excel 2010 Uso inteligente da Tabela Dinâmica

GUIA RÁPIDO PARA PETICIONAMENTO ON LINE

COMO INSTALAR O CATÁLOGO

Assistente de Instalação & Manual do Usuário

MANUAL SISGRAD (Sistema de Gestão Acadêmica) Módulo Docente

Antes de preparar a sala de videotutoria, é importante conhecer alguns termos usados na ferramenta.

SISTEMA ADM ERP - MANUAL DO USUÁRIO. Conceitos Básicos

Manual do Usuário. Versão 1.0. Página 1 de 73

Título: Como instalar e configurar o acesso ao sistema em um computador utilizado como estação?

PROCEDIMENTO DO CLIENTE

GESTÃO COMERCIAL REGISTRO DE ENTRADA DE MERCADORIA COM ARQUIVO XML

MOODLE MANUAL DE UTILIZAÇÃO - ALUNO. Elaborado por: Tecnologia da Informação 2019/1 Versão 1.0

Organizar. Colaborar. Descobrir. GUIA DE MIGRAÇÃO. RefWorks, EndNote X7, Zotero, Papers

Módulo II Tecnologia Assistiva

Excel Prof. André Aparecido da Silva Disponível em:

APRENDA COMO UTILIZAR AS FACILIDADES DO PORTAL SERVICE DESK

FAQ Perguntas Frequentes

MANUAL DO USUÁRIO. Token SafeNet Authentication. Cliente 8.3 (x32 e x64)

Manual de instalação do Microsoft SQL Server 2008 R2 Express no Windows 10

TUTORIAL UTILIZAÇÃO XOOPS UEFS. AEI - Gerência de Suporte

Criando Mensagens - Editor Drag and Drop

SMA PROCEDIMENTO DE ACESSO AO SISTEMA

Universidade Federal do Oeste da Bahia Pró-Reitoria de Tecnologia da Informação e Comunicação. Iracema Santos Veloso Reitora Pro Tempore

DIGITAL SERPRO MOZILLA

CÓPIA E EXPORTAÇÃO DE SALA

Obrigado por adquirir o GNOTE da IDEON Brazil, o mais moderno gerenciador de conteúdos da Internet.

UNIVERSIDADE ESTADUAL DE GOIÁS

MANUAL DE INSTALAÇÃO AWP MANAGER

Catálogo em Rede. Sumário

Lojamundi Tecnologia Sem Limites br

TUTORIAL DE ALINHAMENTO MÚLTIPLO NO GENEIOUS 6.1 Ana Carolina Loss e Jeronymo Dalapicolla

INSTALAÇÃO E CONFIGURAÇÃO

Guia do Instrutor Jogo da Bruxa

MANUAL DE PUBLICAÇÃO NO PORTAL CAMPUS MATÃO

- Mult-K Plus - Mult-K Grafic - MPK Elaborado Por: José Ferreira da Silva Neto Data: 22/09/09

A ferramenta wiki dentro da Plataforma Moodle funciona como um aplicativo que permite a redação e edição coletiva de textos e hipertextos.

Consolidar dados de várias planilhas em uma única planilha

Universidade de São Paulo

Selecione a opção "Novo" -> "Atalho"

CERINFO. Passo a passo sistema de distribuição. Versão 1.0

Painel Administrativo Westlock

Proteção para visualização do arquivo:

Manual aplicativo Filr Novell

Tutorial sobre Activity: Como carregar um fragmento do mapa para a tela do celular

PROCEDIMENTO OPERACIONAL PADRÃO

CAPÍTULO 1... Iniciando o Word Conhecendo a tela do word...10 Exercício...14

Instalação do ActiveViewer (Visualizador de relatórios na web)

Elaboração de Provas Online usando o Formulário Google Docs

Transcrição:

Web Scraper e Google Maps Sumário 1 Instalação do Web Scraper no Google Chrome 2 Raspagem de dados do site do Governo do Estado do Rio de Janeiro UPAs 24 horas 3 Tratamento dos dados no Excel 4 Mapa no Google Maps com planilha Excel PASSO 1 Instalação do Web Scraper no Google Chrome 1. Acesse a Chrome Web Store. Na caixa Pesquisa a loja, digite Web Scraper. https://chrome.google.com/webstore/category/extensions 2. Clique sobre a opção Web Scraper, oferecida por Martins Balodis, e quando aparecer uma nova janela, clique em ADICIONAR AO CHROME.

3. Depois de instalada a Extensão, será exibido o ícone de uma teia de aranha no canto superior direito do navegador. PASSO 2 Raspagem de dados do site do Governo do Estado do Rio de Janeiro UPAs 24 horas 1. Acesse a página onde se encontra a lista de Unidades de Pronto Atendimento (UPA) 24 horas do Estado do Rio http://www.informacaoemsaude.rj.gov.br/upas-24-horas.html Observe que são exibidos links para 29 UPAs, cada um deles levando para os respectivos dados de cada UPA. 2. Vamos começar a raspagem. Clique com o botão direito do mouse sobre qualquer área do site e depois em INSPECIONAR.

3. Clique na opção Web Scraper (o último item da lista). A extensão exibe 3 opções: SITEMAPS, SITEMAP e CREATE NEW SITEMAP. 4. Clique em CREATE NEW SITEMAP e depois em CREATE SITEMAP. Preencha os campos a seguir: Sitemap name: (dê um nome para o seu SiteMap, somente com caixa baixa, sem acentos e espaços em branco) chamarei de upas24h. Start URL: copie a URL da página que se encontra aberta e cole aqui. http://www.informacaoemsaude.rj.gov.br/upas-24-horas.html Agora, clique no botão CREATE SITEMAP. 5. É hora de definir qual elemento do código da página vamos selecionar para que a raspagem seja realizada. Clique no botão ADD NEW SELECTOR. Observe que uma nova janela é exibida. Preencha os seguintes campos: Id: dê um nome para o seletor (ou tag) que teremos como marcador do conteúdo na página. Qualquer nome pode ser dado, mas como se trata de links, vamos chamálo de links. Type: quando este item é selecionado, várias opções são exibidas. Como sabemos que se tratam de links que abrirão as respectivas página com os dados de cada UPA, vamos escolher a opção Link. Selector: Nesta opção clique no botão SELECT e depois sobre o primeiro link (01. UPA 24H Bangu). Observe que o link é iluminado com a cor vermelha.

Posicione o mouse sobre o segundo link (01. UPA 24H Botafogo) e dê mais um clique. Com isso, todos os outros links serão também iluminados. Em seguida, clique sobre o botão DONE SELECTING! Como a raspagem deverá passar por todos os links da página, marque a opção MULTIPLE. Para finalizar, clique no botão SAVE SELECTOR mais abaixo. 6. Observe que toda a ação anterior está indicada em uma linha (marcada com a caixa vermelha na imagem ao lado). Clique sobre a lista para começar a montar a raspagem dos dados das páginas individuais das UPAs. Clique no link da primeira UPA (01. UPA 24H Bangu) para abrir a página com os dados dela (nome da UPA, Endereço, Telefone). Repare que a estrutura da raspagem indica duas etapas (_root e links). 6.1. Clique no botão ADD NEW SELECTION. Na nova janela, preencha os campos a seguir: Id: dê um nome à informação que será raspada da página: Identificação. Type: Como a informação é apenas o nome da UPA, este será definido como Text. Selector: Clique no botão SELECT e depois posicione o mouse sobre o nome da UPA (01. UPA 24H Bangu) ele ficará na cor verde. Clique para

marcar a informação. Observe que o nome da UPA é iluminado com a cor vermelha. Clique em DONE SELECTING! para confirmar a seleção. (Obs: NÃO selecione a opção Multiple!) Clique no botão SAVE SELECTOR. Observe que uma nova linha de comandos é apresentada (Identificação, h2, SelectorText, false, links). 7. Repita as etapas iniciadas no item 6.1., com as seguintes informações: Id: Endereço Type: Text Selector: selecione o endereço da UPA na página. Confirme com DONE SELECTING! Clique no botão SAVE SELECTOR. 8. Faça o mesmo com os campos CEP e Telefone: Id: CEP Type: Text Selector: selecione o CEP da rua da UPA. ------------------------------------------------------------------------ Id: Telefone Type: Text Selector: selecione os telefones da UPA. Quando for finalizada essa etapa, o Web Scraper terá a seguinte conformação: 9. Agora, sim, os dados poderão ser raspados. Clique em SITEMAP (upas24h) e depois em SCRAPE.

E, por fim, sem mudar os valores em Request interval e em Page load delay, clique em START SCRAPING. 10. Quando a raspagem acabar, será exibida a seguinte tela: Clique em SITEMAP (upas24h) e depois em EXPORT DATA AS CSV. Na nova tela, clique em DOWNLOAD NOW. Se o arquivo upas24h.csv for salvo na pasta Downloads, remova-a para outra pasta de trabalho. PASSO 3 Tratamento dos dados no Excel 1. Abra o programa Excel e depois em ARQUIVO > ABRIR. Para que o arquivo CSV seja exibido, é preciso substituir a opção Todos os Arquivos do Excel por Todos os Arquivos. Selecione na pasta o arquivo upas24h.csv e depois clique em ABRIR. Na janela a seguir, deixe a opção DELIMITADO marcada e clique em AVANÇAR. 2. Desmarque a caixa TABULAÇÃO e escolha VÍRGULA. Clique em AVANÇAR.

3. Deixe marcada a opção GERAL e clique em CONCLUIR. 4. A planilha é aberta com 6 colunas (A a F) e 31 linhas. As colunas A e B têm informações que não serão necessárias para o Google Maps. Portanto, apague-as. Clique com o botão direito do mouse sobre a letra A da primeira coluna e escolha EXCLUIR. A coluna B passa a ser nomeada como A. Apague-a também. Restam enfim as colunas Identificação, Endereço, CEP e Telefone. Ajuste a largura das 4 colunas dando um clique duplo com o mouse na borda direita das colunas (entre a coluna A e a B, entre a B e a C...). 5. LIMPEZA DAS CÉLULAS Observe que muitas informações precisam passar por uma limpeza: 5.1. A linha 12 tem o seguinte título na coluna A Endereços UPAs 24H estaduais. Exclua essa linha inteira clicando sobre o número da linha com o botão direito do mouse e depois em EXCLUIR. Na coluna A, não precisamos dos números antes dos nomes das UPA ( UPA 24H Campo Grande I). Vamos 5.2. 03. usar o recurso da máscara para PROCURAR (os números) e SUBSTITUIR (por nada). - Selecione todas as células da coluna A. - Clique no botão LOCALIZAR E SELECIONAR (ou CTRL+U).

::: Em Localizar, coloque a máscara * seguida da palavra UPA (significa que a palavra UPA e tudo que estiver antes dela será localizado). ::: Em Substituir por, coloque UPA, pois assim 03. UPA, por exemplo, será substituído por UPA. - Clique em SUBSTITUIR TUDO. Serão feitas 29 substituições. Clique em FECHAR. 5.3. Como precisaremos dos endereços para a criação do mapa no Google, eles só podem ter as informações necessárias para localização das rua e avenidas no Maps. Observe que alguns endereços têm complementos entre parênteses, como é o caso do endereço da UPA 24H Campo Grande I. - Selecione todas as células da coluna B. - Clique no botão LOCALIZAR E SELECIONAR (ou CTRL+U). ::: Em Localizar, digite a máscara * entre os parênteses ( ). (significa que os parênteses serão selecionados com todo o conteúdo dentro deles). ::: Deixe a caixa Substituir por totalmente em branco (ou seja, não digite nada dentro, nem espaço em branco). - Clique em SUBSTITUIR TUDO. Serão feitas 13 substituições. Clique em FECHAR. 5.4. Repare que há ruas seguidas de s/nº. O caractere º não será reconhecido pelo Google Maps e, por isso, é preciso excluí-lo. - Selecione todas as células da coluna B. - Clique no botão LOCALIZAR E SELECIONAR (ou CTRL+U). ::: Em Localizar, digite s/nº (para incluir o º, tecle ALT + 167). ::: Em Substituir por, digite s/n. - Clique em SUBSTITUIR TUDO. Serão feitas 17 substituições. Clique em FECHAR. 5.5. Na coluna B também há logradouros terminados por nº. Neste caso, retiraremos a expressão nº completa. - Selecione todas as células da coluna B. - Clique no botão LOCALIZAR E SELECIONAR (ou CTRL+U). ::: Em Localizar, digite nº (para incluir o º, tecle ALT + 167). ::: Deixe a caixa Substituir por totalmente em branco (ou seja, não digite nada dentro, nem espaço em branco). - Clique em SUBSTITUIR TUDO. Serão feitas 9 substituições. Clique em FECHAR.

5.6. Há mais algumas correções a fazer, mas dessa vez elas serão feitas manualmente: - Localize o endereço Av. Brasil, 4.800, Complexo da Maré, Vila do João, Manguinhos, Rio de Janeiro RJ. Exclua o trecho Complexo da Maré, Vila do João,. - Exclua de Endereço: Rua A, s/n, Parque Santana, Piabetá, Magé - RJ a palavra Endereço. - Em Av. Lobo Júnior com Av. Brás de Pina, s/n, Parque Ary Barroso, Rio de Janeiro RJ, exclua com Av. Brás de Pina e Parque Ary Barroso,. 5.7. Na coluna C, vamos excluir a palavra CEP: antes dos números, pois é uma informação redundante. - Selecione todas as células da coluna B. - Clique no botão LOCALIZAR E SELECIONAR (ou CTRL+U). ::: Em Localizar, digite CEP: (não deixe de incluir após os : um espaço em branco). ::: Deixe a caixa Substituir por totalmente em branco (ou seja, não digite nada dentro, nem espaço em branco). - Clique em SUBSTITUIR TUDO. Serão feitas 24 substituições. Clique em FECHAR. 5.8. Nas colunas C e D, há algumas inconsistências. Há na coluna C informações que não são realmente os CEPs das ruas, como é o caso de telefones e até pontos de referência. E na coluna D, há a palavra null (que deve ser excluída) e CEPs, que podem ser transferidos para a coluna C. Feitas as limpezas, salve a planilha como Pasta de Trabalho do Excel. Use FILE > SAVE AS e escolha o Tipo de Arquivo.

4 Mapa no Google Maps com planilha Excel 1. Entre na sua conta Gmail. 2. Abra uma nova aba do Google Chrome e digite o seguinte endereço: www.google.com/mymaps 3. Clique no botão + CRIAR UM NOVO MAPA. 4. Clique em Mapa sem título e dê um título e uma descrição para o mapa. Título: UPAs 24 Horas Rio de Janeiro Descrição: Endereços das Unidades de Pronto Atendimento no Rio de Janeiro com atendimento 24 horas 5. Clique na opção IMPORTAR e depois em SELECIONAR UM ARQUIVO DO COMPUTADOR. Quando o arquivo for aberto, escolha na janela a opção Endereço para definir a posição dos marcadores no mapa. Clique em CONTINUAR.

6. Selecione a opção Identificação para identificar os marcadores no mapa e clique em CONCLUIR. Os dados da planilha serão carregados e distribuídos pelos endereços localizados. Amplie a região do mapa onde se encontram os marcadores e clique sobre um deles para visualizar as informações a respeito da UPA.