Analisando o comportamento dos turistas de Ouro Preto através de uma abordagem Espaço-Temporal RESUMO

Documentos relacionados
Processos Pontuais Aplicados ao Estudo da Distribuição Espacial de Enfermidades na Área Urbana da Cidade de Rio Claro, SP

Instituto Nacional de Pesquisas Espaciais - INPE. Divisão de Processamento de Imagens - DPI

Fundação Oswaldo Cruz Escola Nacional de Saúde Pública Departamento de Epidemiologia. Estatística espacial. Padrão Pontual

Análise espacial da distribuição de roubos e furtos ocorridos em Presidente Prudente em 2010

LABORATÓRIO Nº 1. Análise de Padrões de Distribuição de Pontos

Uma análise de desempenho dos métodos SCAN E BESAG & NEWELL na detecção de clusters espaciais

Análise espacial do PIB nas microrregiões do estado de Minas Gerais

AUTOCORRELAÇÃO ESPACIAL. Flávia F. Feitosa

DETECÇÃO DE CLUSTERS NA EXPLORAÇÃO DE LENHA DO SEMIÁRIDO BRASILEIRO

CARACTERIZAÇÃO DO MAPA DE KERNEL PARA AVALIAR A DISTRIBUIÇÃO DO MOGNO (Swietenia macrophylla King.) NA FLORESTA ESTADUAL DO ANTIMARY

Instituto Nacional de Pesquisas Espaciais - INPE. Divisão de Processamento de Imagens - DPI

SER-301: ANÁLISE ESPACIAL DE DADOS GEOGRÁFICOS

conglomerados espaciais

Otimização da Paleta de Cores

Análise Espacial com Mapas de Kernel em Software Livre. Anderson Maciel Lima de Medeiros Consultor em Geotecnologias Julho/2015

INF Fundamentos da Computação Gráfica Professor: Marcelo Gattass Aluno: Rogério Pinheiro de Souza

7 Testes de hipóteses conjuntas (THC)

Fundamentos de Teste de Software

Otimização da Paleta de Cores

UTILIZAÇÃO DO PROCEDIMENTO INFERÊNCIA DATA-DRIVEN PARA A ESTATÍSTICA ESPACIAL SCAN EM CASOS DO DIABETES NO ESTADO DE MINAS GERAIS

Fundação Oswaldo Cruz Escola Nacional de Saúde Pública Departamento de Epidemiologia. Estatística espacial. Áreas

Análise exploratória de dados sócioeconômicos do município do Rio de Janeiro

Análise de Redes Sociais Introdução ao Gephi

Análise de Dados de Área dos índices de indústria e malha rodoviária para o estado de Minas Gerais

informação enviada (ex. Facebook) ou que a rede social utilize essa informação para sugerir locais de interesse próximos ao usuário (ex. Foursquare).

Exercício Área - SPRING

Mercado mobile. Fábrica de Aplicativos. Vamos falar sobre, Plano revendedor

A ANÁLISE ESPACIAL VETORIAL APLICADA AO PLANEJAMENTO DA MALHA DE SETORES CENSITÁRIOS RURAIS DO IBGE

Abordagem Bayesiana adaptativa para Vigilância online de Clusters Espaciais. Resumo

4 Análise de Dados. 4.1.Procedimentos

Uma abordagem não-paramétrica da função de intensidade: uma aplicação em acidentes do trabalho

Teste de % de defeituosos para 1 amostra

Sumário RELATÓRIO DOS PORTAIS E REDES SOCIAIS DA AGB PEIXE VIVO E DO COMITÊ DA BACIA HIDROGRÁFICA DO RIO DAS VELHAS APÊNDICE I

Modelagem de dados espaciais

Oficina de Vídeo. Primeira projeção de imagens em movimento da História da Arte: O cavalo em movimento, de Eadweard Muybridge (1878)

Introdução à Informática

PONDERADA DE GRAFOS. Spencer Barbosa da Silva 1, Anderson Ribeiro Duarte 1

XXVI ENCONTRO UNIVERSITÁRIO DE INICIAÇÃO À PESQUISA - UFC TIAGO MAIA MAGALHÃES ORIENTADOR: JÚLIO FRANCISCO BARROS NETO

Exercício Pontos Porto Alegre

Detecção de Conglomerados Espaciais com Geometria Arbitrária

Para ajudar a interpretar os resultados, o Cartão de Relatórios do Assistente do teste de % de defeituosos para 1 amostra exibe os seguintes

7 CONCLUSÕES E SUGESTÕES PARA TRABALHOS FUTUROS

Especialização em Engenharia de Processos e de Sistemas de Produção

POSSUI ACESSO A INTERNET.

Testes de Hipótese para uma única Amostra - parte I

população brasileira com perfis ativos nas redes sociais. (Fonte: Conversion (especializada em Search Engine Optmization)

X ~ Binomial (n ; p) H: p = p 0 x A: p p 0 (ou A: p > p 0 ou A: p < p 0 ) { X k 1 } U { X k 2 } (ou { X k } ou { X k }) x RC não rejeitamos H

Modelos de Regressão Linear Simples - parte I

Modelos de Regressão Linear Simples parte I

7 Desempenho dos Algoritmos de uma Classe de Usuários em Relação à Distribuição que Representa o Tempo de Permanência do Usuário na Célula

MINERAÇÃO DE DADOS ESPACIAIS: A BUSCA DE PEPITAS DE OURO

Correlação e Regressão

RELATÓRIO DO TRABALHO APRESENTADO À DISCIPLINA SER-301 ANÁLISE ESPACIAL DE DADOS GEOGRÁFICOS, INTITULADO LANÇAMENTOS RESIDENCIAIS NA CIDADE DE SÃO

Dados de identificação do Acadêmico: Nome: Login: CA: Cidade: UF Assinatura: CARTÃO RESPOSTA

Redes Neurais não Supervisionadas: SOM

Questões concursos

1ª ferramenta: Google Meu Negócio. Link para cadastro:

Testes de Hipóteses. Ricardo Ehlers Departamento de Matemática Aplicada e Estatística Universidade de São Paulo

NOVO! update 6.3 (Setembro 2016)

Aplicação do Estimador de densidade por Kernel

Processos Hidrológicos CST 318 / SER 456. Tema 9 -Métodos estatísticos aplicados à hidrologia ANO 2016

Profa. Lidia Rodella UFPE-CAA

5 Resultados, Conclusões e Trabalhos Futuros

Tópicos de Estatística Espacial Pontos

6 ESTRATÉGIAS DE MARKETING PARA CAPTAR NOVOS ALUNOS NA VOLTA ÀS AULAS

Palavras-Chave: Gráficos de Controle Especiais, Geoestatística.

Mapeamento do uso do solo

Oiê!!! Estou muito feliz em ter você como parceiro! Oiiiiee!!!! Fevereiro 2018

6 Resultados e Discussões

'HVFULomRH$QiOLVH([SORUDWyULDGRV'DGRV

A criança é o tesouro. Nós, somos o mapa.

Estatística. 1 Introdução 2 Tabelas Estatísticas 3 População, Amostra e Variáveis 4 Gráficos e Distribuição de Freqüências.

Oiê!!! Estou muito feliz em ter você como parceiro!

CAPÍTULO 1 INTRODUÇÃO

Conceito de Estatística

O Processo de Weibull Poisson para Modelagem da Confiabilidade em Sistemas Reparáveis

Diego Martin Mancini Orientador: Prof. Paulo A. V. de Miranda Instituto de Matemática e Estatística Universidade de São Paulo

Como utilizar seu site para gerar mais Vendas e Novos negócios

Introdução à análise exploratória de dados

SENSORIAMENTO REMOTO APLICADO A ANÁLISE AMBIENTAL NO SEMIÁRIDO: A CLASSIFICAÇÃO DO USO E COBERTURA DA TERRA NO MUNICÍPIO DE FEIRA DE SANTANA-BA

ANÁLISES DE DIFERENTES AMOSTRAGENS NO APRIMORAMENTO DE ESTIMATIVAS DE MODELAGEM GEOESTATÍSTICA NA DEMANDA POR TRANSPORTES

Mais Informações sobre Itens do Relatório

PROPOSTA COMERCIAL. Marketing digital PARA VOCÊ MAIS MARKETING PARA EMPRESAS MAIS VENDAS

que é mais # nós impulsionamos seu negócio

Sistema de Informação Geográfica

MINERAÇÃO DE DADOS EM ARQUIVOS DE LOG GERADOS POR SERVIDORES DE PÁGINAS WEB

Distribuições Amostrais e Estimação Pontual de Parâmetros

Sexta Lista: Geração de Números Pseudo-Aleatórios e Método de Monte Carlo

Técnicas de Projeto de Algoritmos

gráficos Indispensáveis para qualquer gerente de mídias sociais Andy Cotgreave Gerente de Conteúdo Social

O Jornal Montes Claros O poder do Pequeno

5 Proposta de Integração com as Redes Sociais Pervasivas

Estatística Descritiva

MINERAÇÃO DE MÍDIAS SOCIAIS GEOGRÁFICAS DO FOURSQUARE

Estratégias Básicas Para Qualquer Negócio

Capítulo 2. Distribuições de Probabilidade Estimativas de parâmetros e tempos-atéfalha. Flávio Fogliatto

Sistema Interativo de Análise Geoespacial da Amazônia Legal: análise da distribuição e localização de dados

Autocorrelação Espacial. Sistemas de Informação Geográfica II. Estatística espacial MAUP. Estatísticas espaciais. Estatística espacial

Transcrição:

Analisando o comportamento dos turistas de Ouro Preto através de uma abordagem Espaço-Temporal André Luís Alves Costa 1 Erica Castilho Rodrigues 2 RESUMO Atualmente as redes sociais são responsáveis pela maior parte do tráfego na internet e são uma das principais formas de representação dos relacionamentos pessoais ou profissionais com milhões de adeptos. Elas têm se tornado cada vez mais populares e são um importante meio de intercâmbio de informações devido ao seu uso intenso, o que possibilita a reunião de um volume de dados valiosos para análises em larga escala. Neste trabalho foram analisados os dados (check-ins) gerados pelo Foursquare, durante o Festival de Inverno de Ouro Preto e Mariana do ano 2013, com o objetivo de analisar o padrão de distribuição espacial das localizações dos turistas ao longo dos dias de realização do evento. Foram aplicadas técnicas de visualização de dados e de Estatística Espacial para extrair informações relevante dos dados. Palavras-chave: Redes Socias 1, Distribuição Espacial 2, Ouro Preto 3, FourSquare 4. ABSTRACT In this work we analyzed the data generated by Foursquare, during the Festival de Inverno de Ouro Preto e Mariana, with the aim of analyzing the spatial distribution of the locations of the tourists. Some data visualization and spatial statistics techniques were applied to extract relevant information from the data. Keywords: Social Network 1, Spatial Distribution 2, Ouro Preto 3, FourSquare 4. 1 Introdução As redes sociais têm se tornado cada vez mais populares. O seu uso contínuo gera um volume de dados valioso a ser analisado. Neste trabalho iremos analisar um conjunto de dados desse tipo e verificar como podem trazer luz a vários aspectos relevantes de problemas práticos. 1 DEEST - UFOP. e-mail: andrealvesest@gmail.com 2 DEEST - UFOP. e-mail: ericacastirodrigues@gmail.com 3 Agradecimento a CAPES (Coordenação de Aperfeiçoamento de Pessoal de Ensino Superior) e FAPEMIG (Fundação de Amparo à Pesquisa do Estado de Minas Gerais ) pelo apoio financeiro. 1

O termo rede social online é geralmente utilizado para descrever um grupo de pessoas que interagem primariamente através de qualquer mídia de comunicação. Consequentemente, baseado nessa definição, redes sociais online existem desde a criação da internet. (BENEVENUTO; ALMEIDA; SILVA, 2011) Atualmente as redes sociais são responsáveis pela maior parte do tráfego na internet e são uma das principais formas de representação dos relacionamentos pessoais ou profissionais com milhões de adeptos. Existem diferentes tipos de redes sociais, que surgiram com diferentes propósitos sendo alguns exemplos: rede de profissionais, LinkedIn, redes para compartilhamento de mensagens curtas, Twitter, compartilhamento de vídeos, Youtube, redes de amigos, Facebook, entre outras. As redes sociais online são um importante meio de intercâmbio de informações devido ao seu uso intenso, reunindo dados suficientes para análise de redes sociais em larga escala. Devido a grande evolução das redes sociais, ocorre a necessidade de obter dados estatísticos, realizar as análises necessárias e inferir as principais informações dos usuários, para que possam ser feitos diversos estudos para diversas áreas, como Marketing, turismo, estudo de comportamento social entre outras. Neste trabalho analisamos os dados de uma rede social em que as pessoas registram sua localização espacial, o Foursquare. O usuário faz um check-in registrando as coordenadas de onde ele está naquele momento e divulga isso para seus amigos. Esse tipo de dado é extremamente relevante para analisar o comportamento de turistas. Permite verificar, por exemplo, o padrão de movimentação ao longo dos dias de um determinado evento ou ainda, aqueles locais que são mais visitados em uma determinada época. De acordo com o site oficial, O Foursquare é uma plataforma móvel baseada em localização, que faz com que a locomoção dentro de uma determinada cidade fique mais facil e mais interessante de se explorar. Mais do que uma plataforma móvel baseada em localização, o Foursquare é uma rede social locativa, um game social, um guia da cidade, um personal tracking, um cartão fidelidade ou recompensas de estabelecimentos, etc. O aplicativo do Foursquare teve sua primeira versão construída em 2008 por Dennis Crowley e Naveen Selvadurai, e foi lançado oficialmente em 2009 em um evento muito famoso em Austin no Texas chamado South by Southwest. O Foursquare teve um crescimento rápido. Em julho de 2011, já passava de dez milhões de usuários em todo o mundo. A cada dia são adicionados, em média, 35 mil novos perfis. Ainda segundo o site, o número de check-ins por dia ultrapassa 2,5 milhões. Em 2010, foram realizados mais de meio bilhão de check-ins no mundo todo.(guerreiro, 2012) O Foursquare atualmente é a maior rede social baseada em geolocalização que permite que seus usuários compartilhem sua localização com amigos ou seguidores através de check-ins (VASCONCELOS et al., 2012). Via aplicativo no smartphone, SMS ou site mobile, os usuários vão compartilhando sua localização com diversos amigos na web, e ganhando pontos e medalhas virtuais por cada check-in. É uma competição onde o usuário deve realizar mais check-ins que 2

os outros usuários naquele local, incentivando assim o uso dessa rede. Os dados gerados por essa rede social são de extrema relevância em diversos contextos. Em particular, para análise de dados sobre o turismo, possuem uma contribuição ímpar a qualquer tipo de estudo. Segundo (BARBALHO, 2004), a Internet é uma realidade integrada ao cotidiano da sociedade. Ressaltando a importância da rede no turismo (FLECHA; COSTA, 2004) frisam a Internet como ferramenta adequada para a transmissão de informações e serviços de turismo ao cliente de maneira direta. Atualmente milhões de pessoas utilizam a internet em busca de informações sobre o local de destinos ou ainda planejam o destino a ser visitado através dela, pois assim tem um leque de opções fazendo todo seu planejamento sem precisar sair de casa. Com a Internet cada vez mais acessível ao público, novas ferramentas, como as Redes Sociais, surgem e se tornam populares, passando a ser utilizadas também como veículos de divulgação. (CRUZ; MOTA; PERINOTTO, 2012) Diversos trabalhos já vêm utilizando dados de redes sociais a fim de coletar informações relevantes sobre o turismo. (LEITE; BENEVENUTO; MORO, 2013) reunem informações turísticas a partir das várias redes sociais existentes em um banco de dados, para auxiliar na busca por pontos turísticos. (CRUZ; MOTA; PERINOTTO, 2012) utilizaram dados do Orkut e do Facebook com objetivo de analisar a relação entre Turismo e Redes Sociais.(SILVA et al., 2012) propuseram uma nova técnica para visualizar a dinâmica das cidades com base em hábitos e rotinas de pessoas inferidas a partir de check-ins no Foursquare. As redes sociais portanto podem ser usadas como valiosas fontes de dados para as mais variadas áreas de estudo. Em particular, a cidade de Ouro Preto é um local que atrai olhares do mundo inteiro. É uma cidade de enorme pontencial turístico, mas que ainda pode aprimorar muito a prestação desse tipo de serviço. Neste trabalho iremos considerar os dados gerados no Foursquare durante um envento de grande visibilidade que ocorre nas cidades de Ouro Preto e Mariana, o Festival de Inverno do ano de 2013. Serão analisados então como é o padrão de distribuição espacial das localizações dos turistas ao longo dos dias. Para tanto, diversas técnicas de visualização de dados e de Estatística Espacial serão empregadas. Os dados utilizados nesse trabalho, foram coletados por um aluno de Doutorado em Ciência da Computação na Universidade Federal de Minas Gerais (UFMG). Os dados referem-se a uma amostra de check-ins realizados por usuários do Foursquare no período de realização do festival de Inverno de Ouro Preto e Mariana do ano de 2013. A coleta foi iniciada sete dias antes do início do festival e foi interrompida sete dias após o seu término, a fim de comparar o comportamento dos turistas durante o evento e fora de sua ocorrência. O Festival de Inverno de Ouro Preto e Mariana é também conhecido como Fórum das Artes. É um dos grandes eventos promovidos pelas duas primeiras Capitais Mineiras. O primeiro festival de Inverno de Ouro Preto ocorreu em 1967,e foi organizado por alguns professores da escola de Belas Artes da UFMG. onde eles tinham o intuito de divulgar manifestações artísticas. Em 2004, a Universidade Federal de Ouro Preto (UFOP), que assumiu a realização do Festival, 3

agregando também a cidade de Mariana com a proposta de integração das atividades culturais. Todas as atividades do Festival são executadas e programadas a partir de um eixo temático, que incorpora cultura, inovação e peculiaridades,da região de Ouro Preto e Mariana, de todo o país, e as inovações internacionais. O festival tem se tornado a cada ano um dos maiores festivais de arte e cultura do país, trazendo turistas de todas as regiões do país e do mundo, tornando a região dos inconfidentes, um dos principais roteiros culturais no mês de julho. 2 Material e Métodos 2.1 Estimador de Intensidade de Kernel Em inúmeras situações, como essa abordada neste trabalho, os dados em análise consistem em coordenadas geográficas de determinados eventos de interesse. Nesse caso os eventos de interesse são os check-in dos usuários do FourSquare na cidade de Ouro Preto. Esse conjunto de pontos é denominado um Processo Pontual. Diversos tipos de ferramenta podem ser usadas na análise desse tipo de dado. Uma forma eficaz de identificar padrões de distribuição desses pontos é através do Mapa de Kernel. De acordo com (CÂMARA; CARVALHO, 2004), uma ferramenta simples para analisar o comportamento de padrões de pontos é estimar a intensidade pontual do processo em toda a região de estudo. O estimador de intensidade Kernel, realiza uma contagem de todos os pontos dentro de uma região. Essa região é definida a partir de um raio definido em torno de um centróide arbitrário. Cada ponto recebe uma ponderação de acordo com a sua distância até esse centróide. A Figura 1 extraída de (JESUS; MIURA, 2009), exemplifica o estimador de intensidade Kernel para um conjunto de pontos. O ponto S representa o centróide arbitrariamente definido, S i denota o i-ésimo ponto observado. Figura 1: Estimador de intensidade para um padrão de pontos Várias funções de estimação Kernel podem ser usadas, como Kernel triangular, Kernel Gaussiano ou normal, Kernel quártico, kernel exponencial negativo, kernel uniforme, entretanto 4

segundo (BAILEY; GATRELL, 1995) as funções de estimação kernel normal ou Kernel quártico são as mais comumente utilizadas, porém saber qual a função de estimação Kernel que será utilizada não é um ponto crítico e sim, a escolha do raio τ é crucial pois pode alterar as estimativas finais. O estimador de intensidade de Kernel quártico é representado pela função: onde; τ é o raio definido, ( ) 2 3 ˆλ τ (s) = h τ τ πτ 2 1 h2 i τ 2 h i é a distância entre o ponto S e o ponto observado S i. A função quártica pesa pontos próximos mais do que pontos distantes, mas o decrescimento é gradual. O raio τ define a área centrada no ponto de estimação S que indica quantos eventos S i contribuem para a estimativa da função intensidade λ. Um raio muito pequeno irá gerar uma superfície muito descontínua já um raio muito grande acaba suavizando demais e escondendo padrões relevantes. Já existem métodos automáticos para a escolha desse raio e os mesmos estão implementados nos softwares estatísticos. 2.2 Mapa de Kernel O estimador de intensidade de Kernel é genérico e pode ser usado em diversos contextos, como por exemplo, para estimar funções de densidade. Uma outra aplicação que será usada aqui é na construção de mapas suavizados. O mapa de intensidade Kernel é um método muito útil e de fácil uso e interpretação, é uma técnica para análise do comportamento de padrões de pontos que determina uma visão geral da intensidade dos fenômenos em estudo em todas as regiões do mapa. A janela do mapa é uma região no espaço bidimensional, que tem formas arbitrárias que pode ser um retângulo, um polígono entre outras formas, que geralmente representam a área que queremos estudar ou mapear. Ela pode conter os dados de covariáveis (tais como uma imagem de satélite) ou pode ser o resultado de cálculos (como suavização do kernel). O mapa de Kernel, tem a vantagem que se em algum estudo existir um volume muito grande de pontos, a análise visual pode ficar prejudicada. A Figura 2 mostra um exemplo de um Mapa de Kernel para ocorrências de crimes na cidade de Fortaleza. 5

Figura 2: Mapa de Kernel, mostrando a densidade de crimes nas regiões de Fortaleza 2.3 Estatística Espacial Scan Vimos até agora uma ferramenta para descrever o padrão espacial de distribuição dos pontos. Após verificar essa característica, podemos estar interessados em verificar se determinadas regiões tendem a concentrar um número maior de eventos do que o que seria esperado. A metodologia mais usada na resolução desse tipo de problema é a Estatística Espacial Scan. A estatística scan segundo (PINHEIRO et al., 2009) é utilizada para detectar e avaliar agrupamentos com uma formação temporal, espacial e espaço-temporal. A estatística scan pode ser usada quando se conhece as coordenadas exatas das ocorrência do evento, ou em situações em que a ocorrência encontra-se agregada em um determinado nível geográfico. O interesse é testar se: H 0 : não há cluster no mapa H 1 : há cluster no mapa A formulação original da Estatística Scan pode ser aplicada apenas para dados agregados em regiões no mapa. No caso a ser abordado neste trabalho os dados são as localizações dos eventos, o que chamamos de um processo pontual. Apesar disso, vamos apresentar em detalhes a definição da Estatística Scan em seu formato original e em seguida explicar o tipo de adaptação que deve ser feita para o tipo de dados que vamos tratar neste trabalho. Seja Z um conjunto de regiões em que o mapa está dividido. Vamos chamar de Zona um subconjunto desse conjunto maior e vamos denotá-la por z. A Figura 3 ilustra essas definições. 6

Figura 3: Mapa da Cidade de São Paulo exemplificando uma possível zona de estudo Essas zonas são formadas a partir de círculos centradas em cada um dos m centróides das regiões do mapa com raio arbitrário r. Figura 4: Ilustração de uma zona no mapa A proposta de (KULLDORFF, 1997) baseia-se no teste da razão de verossimilhança. A estatística do teste da razão de verossimilhança LR(z) para uma determinada zona z, é calculada da seguinte forma: onde; ( ) LR(z) = L(z) c(z) c(z) ( ) C c(z) (C c(z)) q(z) Q q(z) se c(z) q(z) = > C c(z) Q q(z) L 0 1 caso contrário. 7

L(z) = função de verossimilhança sobre a hipótese alternativa; L 0 = função de verossimilhança sobre a hipótese nula; C é o número de casos total no mapa; Q é a população total; c(z) é o número de casos na zona z; q(z) é a população da zona z. O tamanho da zona vai ser determinado pelo raio, que varia entre zero e um número real grande. Ocorre, porém, que não faz sentido identificar um conglomerado que compreenda praticamente todo o mapa. Dessa maneira, uma das formas de limitar o tamanho da zona é colocar um limite de que tenha no máximo 50% da população. De acordo com (KULLDORFF, 1997) o cluster mais plausível é a zona ẑ para o qual LR(ẑ) é maximizada, isto é, LR(ẑ) LR(z) z Z. Utiliza-se simulações de Monte Carlo para testar a significância do teste. Distribui-se aleatoriamente o número total de casos do mapa entre as regiões, supondo a hipótese nula verdadeira. Compara-se o resultado observado de LR(z) com os dados obtidos das simulações de Monte Carlo e caso haja divergência entre eles, acredita-se na existência de conglomerados espaciais ou clusters. Vamos descrever a seguir com detalhes o algoritmo de simulação utilizado para detecção de conglomerados. 1. Definir uma região no mapa em estudo; 2. Calcular as distâncias até as outras regiões, ordenando-as em ordem crescente, e guardandoas em um vetor; 3. Criar um círculo centrado na região escolhida no passo 1 e continuamente aumentar o seu raio de acordo com as distâncias encontradas no passo 2. Para cada região que entrar no círculo atualizar o número de casos c(z) e a população q(z) dentro do círculo z. Calcular LR(z) para cada par (c(z);q(z)). Registrar o círculo com maior LR(z) até o momento; 4. Repetir os passos 1, 2 e 3 para cada região do mapa; 5. Utilizar simulações de Monte Carlo para avaliar a significância do teste: (a) Gerar um conjunto de casos independentes, em que C casos são distribuídos ao acaso entre as m regiões de acordo com a hipótese nula, isto é, cada região tem um número esperado de casos µ(z),e a distribuição de casos segue uma Multinomial; (b) Calcular T = max z LR(z) de acordo com os passos 1-4; (c) Repetir os passos (a) e (b) para um número grande B de simulações; (d) Ordenar os valores de T dos B conjuntos simulados e o valor de T observado no conjunto de dados original. 8

(e) Denotar o posto da estatística T associado ao conjunto de dados original por R. Se R estiver entre os 100(1 α)% maiores postos, rejeitar a hipótese nula ao nível de significância α. O p-valor associado com este teste é 1 R (B+1). 6. Se a hipótese nula for rejeitada, então a zona z associada com a maximização de LR(z) é o cluster mais plausível e deve ser armazenada para que se faça o mapa destacando o cluster encontrado. Os passos descritos até o momento aplicam-se apenas para dados agregados em áreas do mapa. Iremos ver que para o nosso problema os dados representam as coordenadas dos pontos. Para adaptar o método para este outro tipo de dados utiliza-se uma técnica chamada Diagrama de Voronoi, essa técnica que é usada para associar uma sub-região do mapa a cada um dos pontos observados. Figura 5: Conjunto hipotético de pontos. Consiste em dividir a região em que os pontos são observados em vários polígonos, de maneira que cada um deles contenha um ponto. A partir dessa divisão é possível criar a estrutra de vizinhança. Figura 6: Diagrama de Voronoi associado aos pontos. A mesma é definida considerando cada ponto como um vértice de um grafo e ligando aqueles pontos cujos polígonos são adjacentes. As zonas então serão formadas por subgrafos desse grafo maior que foi criado. 9

Figura 7: Grafo Associado ao Diagrama de Voronoi. 2.4 Teste Knox Os dados a serem analisados neste trabalho possuem, além da informação espacial, informação temporal. Em outras palavras, além das coordenadas do evento temos também o tempo em que ele ocorreu. Temos portanto uma estrutura espaço-tempo. Um ponto importante a ser analisado nesse tipo de problema é se existe uma interação entre o espaço e o tempo. Caso o padrão de distribuição espacial dos pontos se mantenha constante ao longo do tempo, dizemos que não há interação. Se esse padrão modifica-se de um tempo para o outro há interação entre eles. O teste de Knox, proposto por (E.G.KNOX, 1964), é uma ferramenta simples e muito utilizada nesse tipo de situação. As hipóteses a serem testadas são: { H 0 : H 1 : não há interação espaço-tempo há interação espaço-tempo Especificando-se distâncias críticas temporais e espaciais é possível determinar se um par de eventos está próximo no tempo e no espaço. Essas distâncias são arbitrárias e devem ser definidas pelo usuário. O teste baseia-se no número X de pares de eventos que estão simultaneamente próximos no espaço e no tempo. Um alto valor X seria uma indicação de que há uma tendência de casos próximos no tempo serem também próximos no espaço, retratando a interação espaço tempo (SILVA, 2011). Arbitra-se um valor crítico para cada distância (espacial e temporal), que são utilizados para classificar todos os possíveis pares segundo dois critérios: se a distância espacial observada entre casos i e j (d i j ) é menor ou igual do que o valor crítico definido previamente (d 0 ) e se a diferença temporal observada (t i j ) é menor ou igual do que o valor crítico definido a priori (t 0 ), dizemos que os eventos i e j são próximos no espaço e no tempo (WERNECK; STRUCHINER, 2011). Segundo (SILVA, 2011), essa estatística é comparada com uma distribuição de referência 10

(sob a hipótese nula de que o processo não apresenta interação espaço-tempo) que é obtida através de permutações aleatórias dos índices de tempo dos eventos originais. Portanto, um valor-p pequeno é uma evidência a favor da hipótese de interação espaço-tempo. 3 Resultados e Discussões 3.1 Análise Descritiva Vamos primeiramente analisar em quais horários dos dias o volume de check-ins é maior. Esses horários correspondem aqueles em que existe um maior número de pessoas nas ruas, participando das atividades. A partir da Figura 8 percebemos que a maior concentração de registros está entre as 13 horas e as 22 horas se estendendo durante toda a madrugada, isso se dá ao fato dos horários das atrações do festival de inverno na maioria dos dias começar as 13 horas. Dentre essas atividades podemos citar mostras cinematográficas e de artes plásticas, oficinas, intervenções culturais e muitas outras ações, shows de bandas e cantores famosos, bandas e cantores regionais e locais, e por toda a madrugada com o bar do festival e suas atrações. Figura 8: Gráfico dos check-in durante todo o Festival de Inverno É de se esperar que o comportamento dos turistas durante os dias úteis e durante o fim de semana sejam distintos. Diante disso, vamos analisar esses dados separadamente. A Figura 9 mostra o padrão de distribuição durante os dias úteis do festival. Observamos um número pequeno de check-ins durante a madrugada, e uma concentração maior entre as 16 horas e as 22 horas. 11

Figura 9: Gráfico dos check-ins, durante os dias úteis do Festival de Inverno Observamos a partir da Figura 10 que nos finais de semana do Festival de inverno, a maior concentração de registros foi a noite e durante toda a madrugada. Isso provavelmente se deve ao fato de inúmeras atrações que ocorreram durante a madrugada nos fins de semana, como shows de cantores famosos no festival de Inverno como Oswaldo Montenegro, Emerson Nogueira dentre outras. Temos também um número considerável de check-ins durante boa parte do dia, devido a várias atrações oferecidas pelo festival de inverno, e também pelas varias atrações turísticas que as cidades de Ouro Preto e Mariana oferecem. Figura 10: Gráfico dos check-ins, durante os fins de semana do Festival de Inverno Para efeito de comparação, vamos verificar agora qual o comportamento dos usuários nos dias que antecedem e procedem o festival. As Figuras 11 e 12 apresentam esses resultados. Observe que o volume de check-ins cai com o fim do festival. Nos dias antes do festival observamos que tivemos registros durante todas as horas do dia e durante a madrugada, com uma maior concentração no final da tarde, e durante toda a noite. E nos dias após o festival de inverno obervamos também uma concentração muito maior das 13 horas, até as 22 horas, com alguns check-ins de madrugada. 12

Figura 11: Gráfico dos check-ins dias antes do Festival de Inverno Figura 12: Gráfico dos check-ins dias depois do Festival de Inverno 3.2 Mapa Interativo Feita a análise da distribuição temporal dos dados, é importante ver como fica o seu padrão de distribuição espacial. A fim de facilitar a visualização dos pontos e sua identificação no mapa, utilizamos um recurso de plotar esses pontos tendo como fundo um mapa real do Google Maps. A Figura 13, mostra os registros coletados durante todo o período de análise. Essa figura é apenas uma representação do mapa que foi criado e é, portanto, estática. O mapa original é interativo e permite que o usuário aproxime ou afaste a imagem para identificar melhor os pontos. Nesse mapa a cor e o tamanho dos círculos variam de acordo com o número de registros. O ponto grande e amarelo, por exemplo, representa um local onde foi registrado um grande volume de check-ins. 13

Figura 13: Mapa Interativo de check-ins coletados Na distribuição dos pontos é possível observar que os pontos estão distribuídos de forma aleatória apresentando um pequeno agrupamento onde se concentra a maior intensidade de check-ins. Esse agrupamento é na Praça Tiradentes em Ouro Preto, onde fica concentrada algumas atrações do Festival de Inverno e por ser o principal ponto turistico da cidade. O outro conjunto de pontos no lado extremo direito do mapa são os check-ins realizados na cidade de Mariana, onde também acontece algumas atrações do festival de Inverno de Ouro Preto. 3.3 Mapa de Kernel Vamos olhar agora apenas para o padrão de distribuição espacial dos pontos, sem nos preocupar com que local da cidade eles se referem. Primeiramente, a Figura 14 apresenta os dados brutos, ou seja as coordenadas de todos os check-ins realizados. Olhando apenas para esse gráfico é difícil identificar padrões, portanto pode ser interessante utilizar alguma técnica de suavização. Utilizaremos aqui o Mapa de Kernel, apresentado no primeiro capítulo deste trabalho. O resultado da aplicação dessa técnica é apresentado na Figura 15. Figura 14: Coordenadas dos check-ins 14

As densidades variam de acordo com a cor e tonalidade sendo representados: azul significa densidade muito baixa; laranja indica densidade alta; verde densidade média. Essa figura mostra que o suavizador de Kernel conseguiu identificar algumas informações relevantes. A maior concentração ocorreu na área de cor laranja. Constata-se, que nesta área essa concentração acontece devido a realização dos principaís enventos do festival,e pelo grande numero de turista que frenquetam as cidades de Ouro Preto e Mariana. Essa área possivelmente é a Praça Tiradentes em Ouro Preto. A outra região que aparece em destaque na figura provavelmente se refere ao centro da cidade de Mariana. Figura 15: Mapa de intensidade Kernel 3.4 Estatística Espacial Scan Observamos até o momento como é o padrão de distribuição espacial dos check-ins. O Mapa de Kernel indicou a formação de aglomerados de pontos em dois locais distintos. Iremos agora utilizar a Estatística Scan, já apresentada neste trabalho, para testar se, de fato, existem clusters espaciais nesse conjunto de dados. Admitindo um nível de significância de 5%, utilizando o algoritmo de Kulldorff para encontrar os valores da estatística de teste LR(z) e a simulação de Monte Carlo para testar a significância da zona identificada como conglomerado. Com LR(z) = 995,08 e um p-valor=0,05 ao nivel de 5% de significância rejeitamos a hipótese nula H 0 e concluimos que a zona identificada com alta intensidade de check-ins no mapa de Kernel é um cluster. A Figura 16 apresenta as duas regiões identificadas. 15

Figura 16: Teste Scan 3.5 Teste Knox Feita a análise puramente espacial, iremos agora verificar se existe interação entre o espaço e o tempo. Para tanto, vamos utilizar o Teste de Knox anteriormente apresentado. As hipóteses do teste são: { H 0 : H 1 : não há interação espaço-tempo há interação espaço-tempo O valor esperado para o índice de Knox, sob a hipótese de que não há interação, é de 5798,79 e o valor obserado da estatística de teste foi de 5756,00. Isso mostra que o valor observado não está muito distante do que seria esperado sob H 0. Este é um indício de que a interação não existe de fato, para verificarmos isso precisamos realizar o teste Monte Carlo, gerando valores sob H 0 e analisando quão atípica é a estatística de teste neste cenário. A Figura 17 mostra o histograma com a distribuição da estatística de teste sob a hipótese nula. A linha vertical em vermelho marca o valor observado da estatística de teste. Nota-se que este valor observado encontra-se em uma área de alta densidade, indicando que ele não é atípico sob H 0. Isso nos leva a aceitar a hipótese nula e concluir que não existe interação entre o espaço e o tempo para esse conjunto de dados. Em outras palavras, o padrão de distribuição espacial dos pontos não parece mudar ao londo dos dias. Isso já era de se esperar, visto que os pontos em que ocorrem os eventos não costumam ser alterados ao longo do tempo, ou seja, os locais mais visitados das cidades são sempre os mesmos. 16

Figura 17: Distribuição da Estatísitca de Knox 4 Conclusões Este trabalho teve como proposta estudar a distribuição espacial e temporal dos check-ins feitos pelos turistas através da Rede Social Foursquare durante o Festival de Inverno de Ouro Preto e Mariana no ano de 2013. Através da aplicação de técnincas de Estatística Espacial fomos capazes de identificar aspectos relevantes sobre os dados coletados. O Mapa de Kernel permitiu uma boa visualização do padrão de distribuição espacial dos dados. O teste da Estatística Scan foi capaz de identificar dois conglomerados espaciais, que são os locais mais visitados durante o festival. A Estatística Knox mostrou que os pontos com maior número de visitas parecem não se alterar ao longo dos dias. Esse tipo de análise gera informações relevantes para os estudiosos da área, identificar os pontos mais visitados é de extrema relevância. Além disso, as análises temporais exploratórias mostraram quais os horários em que o registro de visitas é mais elevado. Neste trabalho utilizamos apenas a localização e a hora do check-in como fonte de informação. No FourSquare os usuários publicam ainda comentários sobre o local. Em trabalhos futuros podemos analisar esses comentários a fim de verificar qual a avaliação que os turistas fazem dos locais mais visitados. Referências BAILEY, T. C.; GATRELL, A. C. Interactive Spatial Data Analysis. Longman scientific and technical. [S.l.]: Longman, 1995. BARBALHO, C. R. S. Portais eletrônicos: estudo comparativo da oferta em Comunicação. 2004. Julho., 2004. DisponÃvel em: <http://www.intercom.org.br/papers/nacionais/ 17

2005/errata/barbalho.pdf>. Acesso em junho 21, 2014. BENEVENUTO, F.; ALMEIDA, J.; SILVA, A. Explorando redes sociais online: Da coleta e análise de grandes bases de dados às aplicações. In: Simpósio Brasileiro de Redes de Computadores e Sistemas Distribuídos. [S.l.: s.n.], 2011. p. 41 70. CÂMARA, G.; CARVALHO, M. S. Análise espacial de eventos. out. 2004. Out.,2004. Disponível em: <http://http://mtc-m12.sid.inpe.br/col/sid.inpe.br/sergio/ 2004/10.07.14.53/doc/cap2-eventos.pdf>. Acesso em Abril 23, 2014. CRUZ, V. L. L. da; MOTA, K. M.; PERINOTTO, A. R. C. Redes sociais na internet: Estratégia para divulgação das potencialidades turísticas do piauí. Revista Rosa dos Ventos, v. 4, p. 77 88, 2012. E.G.KNOX. The detection of space-time interactions. Applied Statistics, v. 13, n. 1, p. 25 29, 1964. FLECHA, A. C.; COSTA, J. I. P. da. O impacto das novas tecnologias nos canais de distribuição turística um estudo de caso em agência de viagens. Caderno Virtual de Turismo, v. 4, n. 4, p. 44 56, 2004. GUERREIRO, D. P. Foursquare: Formas locativas de sociabilidade e apropriação social do espaço urbano. In: Simpósio em tecnologias digitais e sociabilidade. [S.l.: s.n.], 2012. JESUS, S. C. de; MIURA, A. K. Análise espacial de fragmentos de cerrado como subsídio para a seleção de áreas prioritárias para conservação. In: Anais XIV Simpósio Brasileiro de Sensoriamento Remoto. [S.l.: s.n.], 2009. p. 3943 3950. KULLDORFF, M. A spatial scan statistic. In: Communications in statistics: theory and methods. [S.l.: s.n.], 1997. p. 1481 1496. LEITE, A. H. G.; BENEVENUTO, F.; MORO, M. M. Triptag: Ferramenta de planejamento de viagens baseada em experiências de usuários de redes sociais. In: Simpósio Brasileiro de Banco de Dados. [S.l.]: SBBD, 2013. PINHEIRO, J. G. calves et al. O uso do sensoriamento remoto e da estatística de varredura scan na detecção e quantificação em significância de agrupamentos de desmatamento no sul da amazônia. In: Anais XIV Simpósio Brasileiro de Sensoriamento Remoto. [S.l.: s.n.], 2009. p. 5359 5365. SILVA, F. R. da. Projeto de Diplomaçâo, Desenvolvimento de uma medida de associação entre espaço e tempo. Minas Gerais, MG, Brasil: [s.n.], 2011. SILVA, T. H. et al. Visualizing the invisible image of cities. In: Proc. of IEEE Int. Conf. on Cy., Phy. and Soc. Com. [S.l.]: CPScom, 2012. 18

VASCONCELOS, M. et al. Caracterização e influência do uso de tips e dones no foursquare. In: XXX Simpósio Brasileiro de Redes de Computadores e Sistemas Distribuídos. [S.l.: s.n.], 2012. p. 478 491. WERNECK, G. L.; STRUCHINER, C. J. Estudos de agregados de doença no espaço-tempo: conceitos, técnicas e desafios. In: Escola Nacional de Saúde Pública. [S.l.: s.n.], 2011. p. 611 624. 19