Avaliação de métodos para detecção e correção de outliers em coordenadas geográficas em linhas de transporte público.

Documentos relacionados
XX Seminário Nacional de Distribuição de Energia Elétrica SENDI a 26 de outubro Rio de Janeiro - RJ - Brasil

A UTILIZAÇÃO DE MÉTODOS ESTATÍSTICOS NO PLANEJAMENTO E ANÁLISE DE ESTUDOS EXPERIMENTAIS EM ENGENHARIA DE SOFTWARE (FONTE:

3.1 - Medidas de Posição Medidas de Dispersão Quantis Empiricos Box-plots Graficos de simetria 3.

5 Resultados Dados artificiais Convergência à mediana e à média com dados artificiais

Encontre o conjunto solução de cada uma das inequações a seguir: 6 x

Bioestatística UNESP. Prof. Dr. Carlos Roberto Padovani Prof. Titular de Bioestatística IB-UNESP/Botucatu-SP

Aula 4: Medidas Resumo

AULA 5 MEDIDAS DESCRITIVAS DOCENTE: CIRA SOUZA PITOMBO

2. Estatística Descritiva

CAP1: Estatística Descritiva para análise da variabilidade uma amostra de dados quantitativos

Fernando de Pol Mayer

Estatística Descritiva. Objetivos de Aprendizagem. 6.1 Sumário de Dados. Cap. 6 - Estatística Descritiva 1. UFMG-ICEx-EST. Média da amostra: Exemplo:

RELATÓRIO DO LABORATÓRIO 5 GEO-ESTATÍSTICA

12/06/14. Estatística Descritiva. Estatística Descritiva. Medidas de tendência central. Medidas de dispersão. Separatrizes. Resumindo numericamente

Estatística Descritiva

PARTE 1. Profa. Dra. Alessandra de Ávila Montini

ANÁLISE EXPLORATÓRIA DE DADOS 2ª PARTE

Elementos de Estatística

Sistema de Controle e Monitoramento de Carregamento de Alimentadores e Transformadores de Subestações

Introdução à probabilidade e estatística I

Medidas de Posição ou Tendência Central

Estatística Descritiva

Questões concursos

Estatística Descritiva (I)

ESTATÍSTICA. Estatística é o conjunto de métodos para a obtenção, organização, resumo, análise e interpretação dos dados.

Medidas de dispersão. 23 de agosto de 2018

Aplicação da análise descritiva e espacial em dados de capacidade de troca de cátions

MÉTODOS QUANTITATIVOS APLICADOS. Prof. Danilo Monte-Mor

Enrico Antonio Colosimo Depto. Estatística UFMG

Estatística: Objetivos e fundamentos

MOQ-13 PROBABILIDADE E ESTATÍSTICA. Professor: Rodrigo A. Scarpel

Stela Adami Vayego DEST/UFPR

Estatística

INTRODUÇÃO À ESTATÍSTICA

5 Estudo de Caso e Resultados

Bioestatística. Aula 3. MEDIDAS SEPARATRIZES Quartis, Decis e percentis. Profa. Alessandra Bussador

Descrevendo Distribuições com Números TADI

Unidade III Medidas Descritivas

Algoritmo para Determinação e Classificação de Distúrbios Múltiplos em Sistemas Elétricos 79

DISCIPLINA: ESTATÍSTICA I (CÓD. ENEC60015) PERÍODO: 3º PERÍODO

Estatística Descritiva (I)

LABORATÓRIO 5 ANÁLISE ESPACIAL DE DADOS GEOGRÁFICOS

Estatística Descritiva (I)

Vimos que é possível sintetizar os dados sob a forma de distribuições de frequência e gráficos. Pode ser de interesse apresentar esses dados através d

Estatística Computacional Profª Karine Sato da Silva

ANÁLISE DE RESULTADOS

Medidas de Tendência Central. Introdução Média Aritmética Moda Mediana Análise de Assimetria Separatrizes

UAlg esght MEDIDAS DE LOCALIZAÇÃO E DISPERSÃO. Paulo Batista Basílio ( )

UNIVERSIDADE LUSÍADA DE LISBOA. Programa da Unidade Curricular ANÁLISE DE DADOS Ano Lectivo 2017/2018

Mas, para começar a aplicar métodos estatísticos, é preciso conhecer alguns conceitos básicos.

Estatística Computacional (Licenciatura em Matemática) Duração: 2h Frequência NOME:

Estatística descritiva

UNIVERSIDADE LUSÍADA DE LISBOA. Programa da Unidade Curricular ESTATÍSTICA Ano Lectivo 2013/2014

4 Análise Exploratória

Módulo III Medidas de Tendência Central ESTATÍSTICA

ESTATÍSTICA COMPUTACIONAL AULA 5 ASSIMETRIA E CURTOSE

Laboratório 5 Analise Espacial de Dados Geográficos Geoestatística Linear

Referência Banco de dados FioCruz Doc LAB1_GEO.doc. Autor Eduardo C. G. Camargo Versão 1.0 Data DEZ / Revisão Versão Data

ESTATÍSTICA Medidas de Síntese

1. ANÁLISE EXPLORATÓRIA E ESTATÍSTICA DESCRITIVA

Plano da Apresentação. Medidas de localização central. Medidas de localização central. Média. Média. Exemplo nota média em Metodologias

Tratamento estatístico de observações

Prof. Sérgio Carvalho Estatística. I Jornada de Especialização em Concursos

um conjunto de métodos e processos quantitativos que servem para estudar e medir os fenômenos coletivos Aplicações em quase todas as áreas de

Aula 03. Medidas Descritivas de Variáveis Quantitativas. Parte 1 Medidas de Tendência Central

CE001 Bioestatística. Prof. Cesar Augusto Taconeli. Curitiba-PR 2015

UNIVERSIDADE LUSÍADA DE LISBOA. Programa da Unidade Curricular ANÁLISE DE DADOS Ano Lectivo 2013/2014

The impact of interpolation of meteorological measurements in the quality of IWV-GNSS. values

ESTUDO E IMPLEMENTAÇÃO DE CÓDIGO PARA IDENTIFICAÇÃO E SUBSTITUIÇÃO DE OUTLIERS EM DADOS DE VELOCIDADE DE PIPELINES INSPECTION GAUGES (PIGs)

Conceitos básicos Revisão de estatística descritiva

6 Validação Metrológica

7/26/2011 MEDIDAS DE POSIÇÃO

UNIVERSIDADE LUSÍADA DE LISBOA. Programa da Unidade Curricular ESTATÍSTICA Ano Lectivo 2012/2013

UNIVERSIDADE FEDERAL DE MINAS GERAIS. Confiabilidade Lista 4. Professor: Enrico Colosimo Aluno: Augusto Filho Belo Horizonte - MG

Métodos Exploratórios na Avaliação da Distribuição Espacial de Percevejos da Soja

Tutorial para o desenvolvimento das Oficinas

Guia do inventário de florestas plantadas

CAPÍTULO 4 DESCRIÇÃO E EXPLORAÇÃO DOS DADOS 2ª parte

Revisão de estatística descritiva

Tratamento estatístico de observações

Curso de Especialização em Fisioterapia Traumato-Ortopédica / 2010 NOÇÕES DE STICA

UNIVERSIDADE LUSÍADA DE LISBOA. Programa da Unidade Curricular ANÁLISE DE DADOS Ano Lectivo 2013/2014

ESTATÍSTICA BÁSICA. 01 A tabela abaixo representa os salários pagos a 150 operários da empresa P&E Ltda. Nº de salários mínimos

Estatística para Cursos de Engenharia e Informática

Lista de Exercícios Cap. 2

Medidas de tendência central,dispersão, posição, associação e boxplot

Importância da estatística 17. O que é a Estatística? 18

PARTE 2- MEDIDAS DE TENDÊNCIA CENTRAL VERSÃO: JANEIRO DE 2017

PREENCHIMENTO DE FALHAS EM SÉRIE DE DADOS PLUVIOMÉTRICOS DE URUGUAIANA (RS) E ANÁLISE DE TENDÊNCIA

Fundação Oswaldo Cruz Escola Nacional de Saúde Pública Departamento de Epidemiologia. Estatística espacial. Padrão Pontual

Análise de Desempenho do Google Mapas para Determinação de Melhor Trajeto entre O Bairro Céu Azul e a Cidade Administrativa

UNIVERSIDADE LUSÍADA DE LISBOA. Programa da Unidade Curricular ANÁLISE DE DADOS Ano Lectivo 2017/2018

Modelos: Verificação, Validação e Experimentação

EXPERIMENTAÇÃO AGRÍCOLA. Profa. Dra. Amanda Liz Pacífico Manfrim Perticarrari

Princípios de Bioestatística Aula 4 Análise Descritiva Medidas de Posição: Percentis e Escores Padronizados Box-plot

Auditoria de TIC aula 2

INF Fundamentos da Computação Gráfica Professor: Marcelo Gattass Aluno: Rogério Pinheiro de Souza

Análise de Dados de Área dos índices de indústria e malha rodoviária para o estado de Minas Gerais

Transcrição:

Avaliação de métodos para detecção e correção de outliers em coordenadas geográficas em linhas de transporte público. Rodney R. Saldanha 1 ; Ramon L. Marques 1 ; Sérgio L. Sermenho 2 1 Universidade Federal de Minas Gerais - Departamento de Engenharia Elétrica - Av. Antônio Carlos, 6627 Escola de Engenharia 31.270-010 Belo Horizonte MG Brasil; 2 CRS Sistemas - Av. Raja Gabaglia, 1492 sala 1106 Gutierrez - Belo Horizonte MG Brasil. RESENHA Este trabalho busca propor uma metodologia para detectar e corrigir erros(outliers) em coordenadas geográficas de rotas de linhas de transporte público coletivo, a fim de melhorar a qualidade dos dados disponíveis, garantindo maior precisão no planejamento de transporte. PALAVRAS-CHAVE Outlier, coordenadas geográficas, transporte público. INTRODUÇÃO O rápido desenvolvimento das técnicas de armazenamento de dados em meio digital fez com que os tempos recentes fossem chamados de Era da Informação. Sistemas poderosos de banco de dados para gerência e coleta de informações são usados em diversos campos, como finanças (empresas de grande e médio porte), astronomia, bioinformática, dentre outros. A cada dia, novas transações e registros são gerados e armazenados para futura análise e auxílio em tomada de decisões. Contudo, analisar essa grande quantidade de dados torna-se uma tarefa não-trivial, mesmo para um especialista da área. (TEIXEIRA, 2008) Com a evolução da informática e a popularização das tecnologias baseadas em geoprocessamento, tornou-se comum o uso de informações geográficas no tratamento de informações ligadas ao planejamento e à operação do transporte público, notadamente itinerários de linhas. Contudo, à medida que toda a informação para planejamento e controle operacional que o gestor de transportes dispõe baseia-se em dados georreferenciados, sejam eles oriundos de dispositivos móveis de coleta dotados de módulos GPS ou de sistemas de informação geográfica (GIS), os erros inerentes a essas medidas e as aproximações já conhecidas utilizadas nos processos de mapeamento das rotas devem ser contornados a fim de obter-se maior precisão das informações disponibilizadas. É também sabido que muitas soluções de transporte público baseiam-se em informações obtidas de GPS, sejam elas em tempo real, ou armazenadas em uma base de dados fixa, e o volume de dados dificulta sua análise de maneira manual. Neste contexto este trabalho busca estudar e propor uma metodologia para detectar e corrigir erros grosseiros (outliers) em coordenadas geográficas de rotas de linhas de transporte público coletivo, a fim de melhorar a qualidade dos dados disponíveis, garantindo maior precisão nos processos de planejamento de transporte ou mesmo auxiliar na tomada de decisão. DIAGNÓSTICO, PROPOSIÇÕES E RESULTADOS O processo de mapeamento georreferenciado de trajetos de rotas de transporte público coletivo geralmente se baseia em levantamentos físicos in loco, através do uso de GPS, que já possuem um erro inerente à tecnologia. De acordo com RODRIGUES, 2012, durante esse processo, por questões humanas ou técnicas, há falhas que comprometem a fidelidade da informação. Neste contexto a avaliação de dados georreferenciados, no que tange à qualidade e acurácia dos mesmos, torna-se um trabalho penoso e por muitas vezes oneroso. A forma tradicional e mais precisa para se fazer a validação de tais informações consiste na verificação in loco que, por motivos financeiros e logísticos, não consiste na solução mais viável. (RODRIGUES, 2012) Em quase todas as análises em estatística, os valores extremos em um conjunto de dados são capazes de distorcer os resultados analisados, por terem a capacidade de perturbar parâmetros calculados, como a média, e quebrar uma estrutura de correlação entre dados observados. Identificá-los e dar-lhes um tratamento

específico é uma tarefa nem sempre fácil. A ideia por traz das análises de valores extremos está fundamentada na sobreposição de populações. (RODRIGUES, 2012) Na tentativa de se obter uma boa técnica para, primeiramente identificar dados fora do padrão, possivelmente incorretos, e em seguida propor uma metodologia capaz de corrigir essas medidas quando possível, estudouse a técnica Box-Plot. Segundo (RODRIGUES, 2012), a análise de Box-Plot, também conhecida por Box-and- Whisker, é uma ferramenta da Estatística Não Paramétrica, que não leva em consideração pressupostos sobre a população da qual a amostra se originou, nem requer que os dados sigam distribuição Normal. Segundo RAIMUNDO et al., o box plot é uma ferramenta muito importante que permite analisar a simetria dos dados, sua dispersão e a existência ou não de outliers, sendo especialmente adequado para a comparação de dois ou mais conjuntos de dados correspondentes às categorias de uma variável quantitativa. A mediana é uma medida de localização do centro da distribuição de n elementos, definida do seguinte modo: ordenados os elementos da amostra, a mediana é o valor, que a divide ao meio, isto é, 50% dos elementos da amostra são menores ou iguais à mediana e os outros 50% são maiores ou iguais à mediana. A análise de Box-Plot (Figura 1) leva em consideração apenas valores de quantis amostrais. Um quantil é o valor limite, sob o qual concentra-se um percentual de dados observados, e é dividido em quartil (múltiplo de 25, variando de 25% a 100%), decil (múltiplo de 10, variando de 10% a 100%) e percentil (indo de 1% a 100%). Para se ter idéia de quantil, basta perceber que o percentil 50 representa a mediana dos dados, ou seja, 50% das observações estão abaixo desse valor. (RODRIGUES, 2012) 2 Figura 1 Distribuição de quartis do Box-Plot Na figura 1 o valor central da caixa representa a mediana, enquanto as bordas inferiores e superiores representam os quartis de 25% e 75% respectivamente. As alturas das bases inferiores e superiores,são os limites que determinam se os valores são ou não valores outliers. Esses limites são definidos levando em consideração a diferença entre os dois valores amostrais que coincidem com os quartis 75% e 25%, multiplicada por um fator - normalmente 1,5. Foi implementada em linguagem computacional uma rotina capaz de executar o algoritmo proposto pelo Box- Plot a fim de analisar a base de dados georreferenciados disponível, inicialmente para uma rota que visualmente apresentava problemas com relação à precisão de suas coordenadas geográficas, como mostrado nas figuras a seguir.

3 Figura 2 Rota com outlier Segundo (MEDRI, 2011) as medidas de tendência central são aquelas que produzem um valor em torno do qual os dados observados se distribuem, e que visam sintetizar em um único número o conjunto de dados. As medidas de tendência central são: média aritmética, mediana e moda. Foi escolhida como medida de tendência a mediana das distâncias entre uma dada coordenada e todas as demais da população, que compreende todas as coordenadas do itinerário. A partir das distâncias entre todos os pontos geográficos da rota obteve-se a mediana e as bordas inferior e superior, conforme descrito anteriormente. Como esperado, a execução do algoritmo encontrou uma coordenada fora dos padrões (ponto 17), correspondente ao ponto mais inferior da Figura 2, responsável pelo desvio na rota. O valor calculado para a mediana das distâncias foi de 0,03918, enquanto o valor obtido para a mediana das distâncias entre o ponto 17 e os demais foi de 0,16336. A partir da Figura 3 pode-se constatar que a medida referente ao ponto 17 foge ao padrão dos demais.

Mediana das Distâncias 4 Coordenadas 0,18000 0,16000 0,14000 0,12000 0,10000 0,08000 0,06000 0,04000 0,02000 0,00000 0 10 20 30 40 50 60 Coordenada (Ponto) Gráfico 1 Mediana das distâncias relativas de cada ponto A partir da identificação dos outliers propôs-se, como forma de corrigir a coordenada eliminando-se assim a presença de outliers nos dados, a interpolação entre medidas anteriores e posteriores ao ponto. Onde, é a posição interpolada da coordenada x (latitude) do outlier, a latitude do ponto anterior a i e a latitude do ponto posterior a i. Tal técnica somente é aplicável se os outliers estiverem presentes ao longo do itinerário da rota, ou seja, fora das extremidades (início e fim do trajeto) e com pontos vizinhos (anterior e posterior) que não sejam outliers. Aplicando-se a técnica descrita obteve-se o resultado mostrado na figura a seguir. Figura 3 Rota sem outlier (após correção) O método discutido anteriormente propõe a detecção e correção de medidas fora do padrão de uma determinada população em que grande parte dos dados estão corretos. A partir disto objetivou-se obter um

método capaz de qualificar toda a massa de dados, de maneira a decidir se é possível propor correções para os outliers identificados. Como forma de avaliar a qualidade dos dados de uma rota foi utilizada uma medida de dispersão. De acordo com (MEDRI, 2011) a dispersão de conjunto de dados é a variabilidade que os dados apresentam entre si. Se todos os valores forem iguais, não há dispersão; se os dados não são iguais, existe dispersão entre os dados. A dispersão é pequena quando os valores são próximos uns dos outros. Se os valores são muito diferentes entre si, a dispersão é grande, assim, as medidas de dispersão apresentam o grau de agregação dos dados. Utilizou-se então o desvio padrão das medianas das distâncias como variável de dispersão utilizada nos experimentos, a fim de obter-se uma medida quantidade da qualidade das coordenadas da rota. Foram realizados experimentos a fim de se obter valores típicos para rotas válidas e inválidas, de acordo à dispersão geral dos dados. Tais experimentos consistiram em executar o algoritmo com uma massa de dados controlada, contendo rotas válidas e inválidas, e avaliando-se os valores obtidos. A fim de validar o método proposto o algoritmo foi executado para uma rota considerada bem comportada, conforme mostra a figura 5, obtendo-se o 0,877 para o desvio padrão. 5 Figura 5 Rota com dispersão baixa Executou-se então o algoritmo para uma rota visualmente fora de padrão, conforme pode ser visto na figura 6, obtendo-se para tal o valor de desvio padrão 10,89.

6 Figura 6 Rota com dispersão alta CONCLUSÕES A partir dos experimentos realizados pode-se concluir que existe uma relação direta entre o desvio padrão das medianas das distâncias entre as coordenadas de uma dada linha de transporte público e a qualidade das medidas. Rotas mais bem comportadas possuem desvio padrão mais baixo, enquanto que rotas com valores fora de padrão (mais dispersos) possuem valores mais elevados. Apesar de os testes realizados ainda não permitirem a determinação de um limite no desvio padrão capaz de afirmar seguramente a validade de uma rota, a partir dos experimentos realizados pode-se inferir que valores superiores a 4 são característicos de rotas com baixa qualidade e de difícil correção pela técnica apresentada. Como sugestão para trabalhos futuros estão a investigação mais profunda das faixas de valores válidos e inválidos, além de outras variáveis para medidas de dispersão que possam assegurar um resultado mais preciso. Outra possibilidade consiste no uso de outras técnicas de identificação de outliers em detrimento do Box-Plot, como mencionado em (TEIXEIRA, 2008). REFERÊNCIAS BIBLIOGRÁFICAS RODRIGUES, J. E. P. Utilização da Análise Estatística de Box-Plot na Correção de Coordenadas Geográficas para Georreferenciamento de Clientes. XX Seminário Nacional de Distribuição de Energia Elétrica. 2012. TEIXEIRA, C. H. C. Um Algoritmo Eficiente para Detecção de Exceções em Bases Reais de Alta Dimensionalidade. CTIC/SBC. 2008. Disponível em: http://homepages.dcc.ufmg.br/~carlos/papers/sbc/ctic08.pdf. Acesso em: 06/11/2012. RAIMUNDO, C. C., FILHO, M. R. T., MELO, M. L. D., CARNAÚBA, F. Uso do box plot na detecção dos valores extremos mensais de precipitação na região da Bacia do Rio Paraíba. XVI Congresso Brasileiro de Meteorologia. 2010. Disponível em: http://www.cbmet2010.com/anais/artigos/352_90425.pdf. Acesso em: 18/07/2013. MEDRI, W. Análise Exploratória de Dados. 2011. Disponível em: http://www.uel.br/pos/estatisticaeducacao/textos_didaticos/especializacao_estatistica.pdf. Acesso em: 18/07/2013.