Detecção de fraudes em hidrômetros através da utilização de técnicas de reconhecimento de padrões Juliana Patrícia Detroz Orientador: André Tavares da Silva Programa de Pós-Graduação em Computação Aplicada (PPGCA) Universidade do Estado de Santa Catarina (UDESC) Joinville, SC - Brasil
Roteiro Introdução Motivação Objetivo Desafios Trabalhos relacionados Fundamentação teórica Desenvolvimento proposto Resultados Conclusões Referências 2/27
Introdução Motivação Crescente preocupação com escassez de recursos hídricos; Perdas de água: Em 2012 = 36,9% total água tratada (SNIS,2014); Em 2013 = 37% = aumento de 0,1% (SNIS,2015); Índices podem ser mais elevados, considerando medições precárias em determinadas regiões do país; Causas: vazamentos ocultos e aparentes, ligações clandestinas, fraudes; 3/27
Introdução Motivação Combate a fraudes: Reduzir perdas de água Minimizar desperdício água Mensalmente ocorrem visitas a todas unidades consumidoras: Ciclo de leitura = 150.000 unidades consumidoras / mês Impossibilidade análise individual da fraude no local Registro por foto; Automatizar tarefa; Sistema Especialista. 4/27
Introdução Objetivo Realizar a detecção automatizada de fraudes em hidrômetros em imagens através de técnicas de reconhecimento de padrões, minimizando necessidade de deslocamento para fiscalizações, reduzindo custos e riscos associados a esta atividade e evitando desperdício de água. 5/27
Introdução Desafios Imagens com fundos diversos; Fotos tiradas em diversos ângulos, rotações e escalas; Oclusão; Diversos tipos de fraudes: Cavalete invertido, Obstrução relógio, Remoção medidor, Ausência de lacres; Lacres rompidos; etc; } 1º indício de irregularidade 6/27
Introdução Figura 1 Exemplos de fraudes. Fonte: do próprio autor. 7/27
Trabalhos relacionados Detecção de anomalias Ação de encontrar padrões em dados que não estão em conformidade com um comportamento esperado e bem definido (CHANDOLA et al., 2009). Detecção de fraudes Identificação de atividades criminosas executadas contra organizações comerciais, cujo executor consome de forma não autorizada recursos fornecidos por esta organização (CHANDOLA et al., 2009). Exemplos: Telecomunicações (HILAS e MASTOROCOSTAS, 2008) Cartões de crédito (GHOSH e REILLY, 1994) Consumo de energia elétrica (MODENERO et al., 2012; NAGI, et al. 2008; RAMOS et al., 2011) 8/27
Trabalhos relacionados Nagi et al. (2008) Detectar irregularidades a partir de comportamento de consumo anormal SVM; 186.968 amostras de consumo médio de 24 meses + indicador de atraso de pagamento; Dados domínio contínuo; Ramos et al. (2011) Evitar perdas não técnicas de energia elétrica = diferença entre energia gerada e total faturado; OPF; Dados domínio contínuo; Problema de classificação binária. 9/27
Trabalhos relacionados Diferenças com presente pesquisa Detecção de fraudes por análise de imagens; Análise de consumo: somente eficiente para fraudes recentes; OPF + HOG (até então SVM+HOG); Classificação múltiplas classes; Classificação por contexto: Objetos de forma comum (lacre); Utilizar a floresta para encontrar as árvores (TORRALBA et al., 2010). Não identificados trabalhos aplicados ao mesmo problema; Poucos trabalhos encontrados intitulando-se detecção de fraudes por análise de imagens; 10/27
Fundamentação teórica Reconhecimento de padrões (RP) Definição: Tarefa de atribuição de rótulos a objetos, sendo estes descritos através de medidas denominadas atributos ou características (KUNCHEVA, 2004); Dados de entrada: diversos (sinais, texto, contínuos, discretos, etc.). Visão computacional: Dados de entradas: imagens; Utiliza técnicas de RP; Diversos problemas podem ser formulados como problemas de classificação. 11/27
Fundamentação teórica Figura 2 Processo de RP. Fonte: adaptado de Kuncheva (2004). 12/27
Fundamentação teórica Pré-processamento Preparar dados para auxiliar próximas etapas. Morfologia matemática Operação em uma imagem por um elemento estruturante; Operações básicas: dilatação e erosão; Abertura: remover ruídos e objetos pequenos. Figura 3 Operações morfológicas. Fonte: Dougherty e Lotufo (2003). 13/27
Fundamentação teórica Pré-processamento - Segmentação Grabcut (ROTHER et al., 2004): evolução do método de cortes em grafos; Menor interação do usuário; Limiarização Otsu (1975): não supervisionado. Figura 4 Aplicação de segmentação. Fonte: do próprio autor. 14/27
Fundamentação teórica Extração de características Extrair um vetor de características a partir da codificação das propriedades de um dado de entrada para que possam ser comparados através de uma função de similaridade (TORRES, 2009). Histogramas de gradientes orientados (HOG) Proposto por Dalal e Triggs (2005); Forma = distribuição de intensidade local do gradiente; Framework de detecção; Proposta original: SVM. Figura 5 Visualização de orientação de gradientes. Fonte: do próprio autor. 15/27
Fundamentação teórica Histogramas de gradientes orientados (HOG) Nr. características: tamanho da janela detecção; nr blocos x nr células por bloco x 9 bins; 128x80: 15 x 9 x 4 x 9 = 4860. Figura 6 Funcionamento HOG. Fonte:do próprio autor. 16/27
Fundamentação teórica Florestas de Caminhos Ótimos - OPF (PAPA et al., 2009) Classificador baseado em grafos; Reduz reconhecimento de padrões ao cálculo de floresta de caminhos mínimos; Multiclasses; Independente de parâmetros; Menor tempo de treinamento; Figura 7 Funcionamento OPF. Fonte:Papa et al. (2009). 17/27
Desenvolvimento Modelo Proposto 3 etapas: Detecção hidrômetro; Localização área dos lacres; Classificação condição dos lacres; C++; OpenCV; LibOPF. Figura 8 Estrutura do hidrômetro. Fonte:do próprio autor. 18/27
Desenvolvimento Figura 9 Modelo proposto. Fonte: do próprio autor. 19/27
Desenvolvimento Modelo Proposto 1ª etapa: HOG + OPF 5 classes: 4 hidrômetros (rotações) + 1 não hidrômetro (fundos); Hidrômetro não localizado = rotação 90º; Segmentação hidrômetro; 2ª etapa: Gera máscara do hidrômetro; Posição lacre = 1/3 à direita e 1/3 à esquerda; Gera máscara do lacre; 3ª etapa: OPF + descritores cor/textura (BIC, GCH, LBP, SMS); Em andamento; Construção base de treinamento. 20/27
Resultados 1ª etapa Figura 10 Exemplos de resultados de localização de hidrômetros. Fonte: do próprio autor. 21/27
Experimentos Resultados testes iniciais 1ª etapa: Treinamento: 962 amostras; Teste: 744 imagens. Tabela 1 Resultados. 22/27
Resultados 2ª etapa Figura 11 Execução da etapa 2. Fonte:do próprio autor. 23/27
Conclusões OPF+HOG: mostrou-se uma solução adequada para resolver a detecção de hidrômetros; Escolha da representação no objeto na base de treinamento é fundamental para o resultado; Em andamento: finalizar 3ª etapa; Testes comparativos; Documentação. 24/27
Referências BRASIL, Ministério das Cidades, Secretaria Nacional de Saneamento Ambiental, Sistema nacional de informações sobre saneamento: diagnóstico dos serviços de água e esgoto,, Brasília: SNSA/MCIDADES, 2014. BRASIL, Ministério das Cidades, Secretaria Nacional de Saneamento Ambiental, Sistema nacional de informações sobre saneamento: diagnóstico dos serviços de água e esgoto,, Brasília: SNSA/MCIDADES, 2015. CHANDOLA, V.; BANERJEE, A.; KUMAR, V. (2009) Anomaly detection: A survey. ACM Computing Surveys (CSUR), ACM, vol. 41, n. 3, pp. 15. DALAL, N.; TRIGGS, B. (2005) Histograms of oriented gradients for human detection. In Computer Vision and Pattern Recognition, IEEE Computer Society Conference on, vol. 1, pp. 886-893, ACM. DOUGHERTY, E. R.; LOTUFO, R. A. (2003) Hands-on morphological image processing. SPIE press Bellingham. GHOSH, S.; REILLY, D. L. (1994) Credit card fraud detection with a neural network. In: IEEE. System Sciences. Proceedings of the Twenty- Seventh Hawaii International Conference on. vol. 3, pp. 621 630. HILAS, C. S.; MASTOROCOSTAS, P. A. (2008) An application of supervised and unsupervised learning approaches to telecommunications fraud detection. Knowledge-Based Systems, Elsevier, vol. 21, n.7, pp. 721 726. KUNCHEVA, L. I.(2004) Combining pattern classifiers: methods and algorithms. John Wiley & Sons. MONEDERO, I.; BISCARRI, F; LEÓN, C.; GUERRERO, J. I.; BISCARRI, J.; MILLÁN, R. (2012). Detection of frauds and other non-technical losses in a power utility using pearson coefficient, bayesian networks and decision trees. International Journal of Electrical Power & Energy Systems, Elsevier, vol. 34, n. 1, pp. 90 98, 2012.. 25/27
Referências NAGI, J.; MOHAMMAD, A. M.; YAP, K. S.; TIONG, S. K.; AHMED, S. K (2008. Non-technical loss analysis for detection of electricity theft using support vector machines. In: IEEE. Power and Energy Conference. PECon 2008. IEEE 2nd International, p. 907 912. OTSU, N. (1975) A threshold selection method from gray-level histograms. Automatica, vol. 11, n. 285296, pp. 23 27. PAPA, J. P.; FALCÃO, A. X.; SUZUKI, C. T. N. (2009) Supervised pattern classification based on optimum-path forest. International Journal of Imaging Systems and Technology, vol. 19 n.2, pp.120-131. RAMOS, C. C. O.; DE SOUSA, A. N.; PAPA, J. P.; FALCAO, A. X. (2011) A new approach for nontechnical losses detection based on optimum-path forest. Power Systems, IEEE Transactions on, IEEE, vol. 26, n. 1, pp. 181 189. ROTH, P. M.; WINTER, M. (2008) Survey of appearance-based methods for object recognition. Inst. for Computer Graphics and Vision, Graz University of Technology, Austria, Technical Report ICGTR0108. TORRALBA, A.; MURPHY, K. P.; FREEMAN, W. T.(2010) Using the forest to see the trees: exploiting context for visual object detection and localization. Communications of the ACM, ACM, olv. 53, n. 3, pp. 107 114. TORRES, R. d. S.; FALCÃO, A. X.; GONÇALVES, M. A.; PAPA, J. P.; ZHANG, B.; FAN, W.; FOX. E. A. (2009) A genetic programming framework for content-based image retrieval. Pattern Recognition, Elsevier, vol. 42, n. 2, pp. 283 292. 26/27
Detecção de fraudes em hidrômetros através da utilização de técnicas de reconhecimento de padrões Juliana Patrícia Detroz Orientador: André Tavares da Silva Programa de Pós-Graduação em Computação Aplicada (PPGCA) Universidade do Estado de Santa Catarina (UDESC) Joinville, SC - Brasil