UNIVERSIDADE FEDERAL DE SANTA CATARINA SISTEMAS DE INFORMAÇÃO E CIÊNCIAS DA COMPUTAÇÃO INE CTC DATA MINING Prof.: Luis Otavio Campos Alvares Data Mining em Trajetórias de Objetos Móveis Cleto May Lucas Marcus Bodnar Jean Gonçalves Augusto Martins Florianópolis 2013
1. Introdução Um grande volume de dados tem sido gerado a partir de objetos móveis equipados com algum sensor como GPS, RFID e outros. Estas informações podem indicar a posição dos objetos em um determinado instante de tempo. O desafio se concentra em estudar estes dados de forma inteligente e eficiente para se obter informações para tomada de decisões. Os dados gerados a partir de objetos móveis podem ser utilizados em diversas aplicações. Possuir uma aplicação munida de informações para informar acidentes em percursos pode proporcionar a escolha de caminhos alternativos. Ou até mesmo a aplicação pode sugerir melhores caminhos. Além do monitoramento de pessoas, podemos equipar animais com estes dispositivos para coletar informações de seu posicionamento. Depois de coletados, estes dados podem servir de estudo para se descobrir padrões de comportamento destes animais, tais como a maneira como o animal se move quando está doente, quando está fugindo de algum predador, dentre outros. Uma solução para o estudo eficiente e qualificado desses dados é o Data Mining. Esta área de estudo proporciona análises inteligentes sobre os dados com o objetivo de se extrair mais do que meras agregações e indicadores. Trata se de uma área de estudo que usa ferramentas e técnicas mais poderosas que extraem conhecimento para uma tomada de decisão, tais como classificação, identificação de padrões, associação, etc.. No entanto é preciso que se desenvolva novas técnicas ou que ocorra uma evolução de técnicas existentes. Isso se deve ao fato de que os dados tratados são diferentes de dados convencionais, principalmente quando se fala de seu significado. O objetivo do presente trabalho é apresentar alguns trabalhos que propõem adaptações de técnicas existentes ou novas técnicas que solucionam o problema de lidar com novos tipos de dados.
Figura 1 Processo de Descoberta de Conhecimento (CRISP) Fazendo referência ao processo de Descoberta de Conhecimento CRISP, as principais etapas que devem ser alteradas são Preparação dos Dados e Modelagem. As demais etapas permanecem as mesmas pois não lidam diretamente com a manipulação dos dados. O restante do trabalho foi estruturado em três tópicos. O segundo tópico apresenta novos conceitos e representações de dados, o terceiro tópico contém os trabalhos realizados sobre data mining em trajetórias de objetos móveis e o quarto tópico conclui o trabalho. 2. Conceitos Para que haja um entendimento dos trabalhos relacionados na área de Trajetórias de Objetos Móveis, precisamos entender alguns novos conceitos. Este tópico se concentra em apresentar as principais definições generalizadas para compreensão dos trabalhos. A generalização de conceitos tornou se necessária devido á diferença de conceituação sobre tópicos importantes. Primeiramente precisamos definir o que seria um ponto. Um ponto é a representação de uma amostra (x,y,t) coletada de um dispositivo móvel, sendo x e y coordenada geográficas e t um instante de tempo. A agregação dos pontos coletados de um mesmo objeto móvel constitui uma trajetória. Ou seja, uma trajetória é uma sequencia temporalmente ordenada de pontos. Um exemplo de trajetória está representado pela Figura 2.
Figura 2 Trajetória Existem diversas definições e variações de trajetórias em si, dentre eles encontram se os conceitos de trajetória bruta e trajetória semântica. Trajetórias brutas são os dados puramente coletados por dispositivos móveis, possuem apenas informações do espaço e tempo, já as trajetórias semânticas são trajetórias que carregam um significado (por exemplo, uma pessoa que sai de casa, vai para o trabalho e volta para casa). Apesar da importância dessas definições, somente elas não são necessárias para compreesão básica do presente trabalho. Podemos perceber que uma trajetória em si não representa grandes informações. Uma maneira de interpretar esta trajetória é classificá la segundo episódios. Um episódio são segmentos de uma trajetória que respeitam algum predicado, variando de aplicação para aplicação. Um tipo de predicado pode ser a permanencia de um intervalo de tempo dentro de um estabelecimento (representados por uma geometria) como mostra a Figura 3. Figura 3 Episódios Existem diversas maneiras de se coletar trajetórias. Dentre as várias existentes, algumas delas são: Baseada em tempo: As amostras de posiçoes são coletadas em intervalos de um tempo definido (por exemplo, amostras de dados coletadas a cada 5 segundos); Baseada em mudança: Ocorre o registro de uma nova amostra de dados quando o objeto móvel muda de posiçao; Baseado em localização: Uma amostra de dados é coletada quando o objeto se aproxima de um sensor (por exemplo, cameras localizadas em um parque ou conexão de um computador pessoal à internet através do roteador); Baseado em evento: Acontece a coleta de uma amostra de dado quando o objeto lança ou participa de um evento (por exemplo, fazendo uma ligação telefonica para dispositivos com essa capacidade); e Combinação das diferentes maneiras apresentadas. Além de meras amostras (x,y,t), os dispositivos podem ter a capacidade de fornecer
mais informações. Alguns exemplos de dados adicionais são a direçao do movimento, a velocidade do movimento e a altitude no momento. 3. Data Mining 3.1. Transformação O processo de Descoberta do Conhecimento exige um passo fundamental anterior a sua modelagem, a Transformação dos Dados. Este passo é fundamental, pois os dados utilizados no processo de Modelagem podem estar sujos ou serem inadequados para os próximos passos. Esta etapa também é fundamental quando trabalhamos com trajetórias de objetos móveis. Isso acontece porque os equipamentos utilizados na coleta de dados podem nao ser precisos ou os dispositivos podem ser desligados durante sua operação. Existem dificuldade para lidar com dados de trajetórias. Como foi comentado durante o segundo tópico, uma trajetória é representada por uma sequencia temporalmente ordenada de pontos. No entanto, esta representação podem ser vagas ou serem inválidas. Por exemplo, na Figura 4 existem dois pontos representando uma trajetória, mas a real trajetória (representada por azul) realizada pelo objeto foi muito diferente. Ou até mesmo o segundo exemplo que representa a trajetória de um carro cruzando as quadras ao meio. Para solucionar este problema é necessário aplicar técnicas para limpar estes dados. Figura 4 Exemplo de dificuldade com trajetórias Uma técnica proposta em [Jun, 2006] apresenta uma técnica para suavização de trajetórias segundo atributos de distância, velocidade e aceleração.
Figura 5 Suavização de trajetórias Técnicas de suavização também possuem dificuldades. No trabalho [Quddus et al., 2007] são apresentadas algumas dessas dificuldades. Na Figura 6 são apresentadas dois problemas relacionados a suavização: A figura da esquerda mostra as primeiras tentativas de relacionar o ponto da localização com os pontos das vias próximas, mas como as vias eram representadas apenas nos pontos de ligação, alguns relacionamentos não eram concluídos. A figura da direita mostra uma técnica mais refinada onde se liga a localização medida a trajetória mais próxima, mas ainda assim temos um problema de ambiguidade de matching. Figura 6 Dificuldades da suavização os dados
Ja no trabalho [Newson and Krumm, 2009] foi apresentada uma proposta de map matching de trajetórias de objetos móveis com malhas viárias. O seu objetivo era encontrar a rota com a maior correspondência com a trajetória. Figura 7 Map matching de trajetórias Outro fator de importância para um melhor map matching é a qualidade dos mapas e suas vias, onde os pontos de localização vão ser melhor correspondidos com as vias de um mapa. Após aplicar os algorítmos de transformação de dados, serão aplicadas as técnicas de Data Mining. 3.2. Data Mining Após os algoritmos de limpeza dos dados passamos para a etapa de Data Mining (Modelagem). Novamente as técnicas para dados convencionais não são suficientes. Novos métodos precisam ser desenvolvidos ou os métodos existentes precisam ser atualizados. Uma método proposto em [Alvares et al., 2007] propõe um modelo de
préprocessamento de dados para adicionar semântica espacial e posteriormente analisá los. Primeiramente aplica se um algoritmo (SMoT) que encontra stops e moves (episódios) em trajetória de objetos móveis. Figura 8 Detectando stops e moves O resultado do algoritmo é um conjunto de stops e moves que permitem responder consultas do tipo: Quantas trajetórias vão de um hotel a pelo menos um local turístico. SELECT distinct count(a.tid) FROM stop a, stop b WHERE a.sftname='hotel' AND b.sftname='touristic Place' AND a.tid=b.tid AND a.sid < b.sid Podemos encontrar na literatura trabalhos que solucionam o problema de análise dos dados aperfeiçoando métodos existentes [Bogorny et al., 2010]. Por exemplo, assim como em dados convencionais, também podemos análisar padrões frequentes sobre os dados (isto é, a quantidade de stops e moves que ocorrem em conjuntos de trajetórias de acordo com o suporte mínimo). E ainda mais, podemos entender em que sequência isso pode acontecer e a associação entre trajetórias. No trabalho [Wei et al., 2012] é proposto uma método para encontrar as k rotas mais populares. O processo é composto por dois passo: Identificação de grafos de rotas e eleição de rotas mais populares. Este trabalho, por exemplo, pode contribuir para o planejamento de viagens, gerenciamento de tráfego e estudo do comportamento de animais.
Figura 9 k rotas mais populares 4. Conclusão Através deste trabalho pudemos apresentar alguns artigos que apresentam a adaptação de técnicas existentes e a criação de novas técnicas para aplicar Data Mining sobre dados de trajetórias de objetos móveis. Também pudemos identificar a semelhança com outras técnicas já aplicadas como padrões frequentes, padrões sequenciais e associação. No entanto, muito trabalho ainda precisa ser realizado. Novas técnicas estão sendo propostas assim como a evolução das mesmas. Referências 1. Alvares, L. O., Bogorny, V., Kuijpers, B., de Macedo, J. A. F., Moelans, B., and Vaisman, A. (2007). A model for enriching trajectories with semantic geographical information. In Proceedings of the 15th annual ACM international symposium on Advances in geographic information systems, GIS '07, pages 22:1{22:8, New York, NY, USA. ACM. 2. Bogorny, V., Heuser, C. A., and Alvares, L. O. (2010). A conceptual data model for trajectory data mining. In Proceedings of the 6th international conference on Geographic information science, GIScience'10, pages 1{15, Berlin, Heidelberg. Springer Verlag. 3. J Jun, R Guensler, J. O. (2006). Smoothing methods to minimize impact of global positioning system random error on travel distance, speed, and acceleration prole estimates. Transportation Research Record: Journal of the Transportation Research Board, pages 141 150. 4. Newson, P. and Krumm, J. (2009). Hidden markov map matching through noise and sparseness. In Proceedings of the 17th ACM SIGSPATIAL International Conference on Advances in Geographic Information Systems, GIS '09, pages 336 343, New York, NY,
USA. ACM. 5. Quddus, M. A., Ochieng, W. Y., and Noland, R. B. (2007). Current map matching algorithms for transport applications: State of the art and future research directions. Transportation Research Part C: Emerging Technologies, 15(5):312 328. 6. Wei, L. Y., Zheng, Y., and Peng, W. C. (2012). Constructing popular routes from uncertain trajectories. In Proceedings of the 18th ACM SIGKDD international conference on Knowledge discovery and data mining, KDD '12, pages 195{203, New York, NY, USA. ACM.