First-person activity recognition Matheus A. Nerone
Sumário 1. 2. 3. Introdução a. Contexto b. Problema c. Exemplos de uso d. Dificuldades Trabalhos Relacionados a. Artigo inicial b. Histórico Artigos 2
Introdução - Contexto 3
Introdução - Problema Reconhecimento de atividades utilizando vídeos em primeira pessoa, na figura acima um exemplo da ação fazer chá. 4
Introdução - Exemplos de uso Reabilitação - supervisão de atividades do dia-a-dia como beber de uma caneca, ligar a luz, pegar o telefone, etc. [1] 5
Introdução - Exemplos de uso Life logging - Trabalhos iniciais demonstram melhora em pacientes com perda de memória. [1] 6
Introdução - Exemplos de uso Monitoramento e entendimento de comportamento natural de animais mesmo sem pessoas próximas a eles. [2] 7
Introdução - Dificuldades Em esportes: Projéteis Motion blur Água na lente Rolling shutter effect Movimento da cabeça Granularidade 8
Trabalhos relacionados - Artigo inicial Starner, T., Schiele, B., & Pentland, A. (1998, October). Visual contextual awareness in wearable computing. 180 citações. Assistente para o jogo chamado Patrol. Monitorar a localização e a ação do jogador. 9
Artigo inicial - Base de dados Duas câmeras montadas na cabeça. 2 minutos de vídeo foram rotulados com as ações. Ações: Mirar, Atirar, Recarregar e Outros. 13 mirar/atirar, 6 recarregar e 10 outros. 10
Artigo inicial - Solução A imagem é dividida em 4x4 sub-imagens Para cada sub-imagem é calculada a probabilidade de ser {pedaço da mão, pedaço do braço, fundo} Resultando em um vetor de características com 48 probabilidades. Modelo oculto de Markov(HMM) 11
Artigo inicial - Resultados Processo treino: 30 imagens aleatórias para treinar a função de probabilidade. 7 mirar/atirar, 4 recarregar e 3 outros para treinar um HMM de 5 estágios. Teste: 6 mirar/atirar, 2 recarregar e 7 de outras. 12
Trabalhos relacionados - Histórico Até o início de 2000 os aparelhos eram desenvolvidos pelos próprios grupos de pesquisa [3]. Primeira GoPro, 2004. Epiphany Eyewear, 2011. Project Glass, 2012. 13
Artigos Pirsiavash, H., & Ramanan, D. (2012, June). Detecting activities of daily living in first-person camera views. CVPR 2012. 258 citações. Li, Y., Ye, Z., & Rehg, J. M. (2015). Delving into egocentric actions. CVPR 2015. 26 citações. Ma, M., Fan, H., & Kitani, K. M. (2016). Going Deeper into First-Person Activity Recognition. CVPR 2016. 7 citações. 14
Detecting Activities of Daily Living in First-person Camera Views 15
Detecting Activities of Daily Living in First-person Camera Views - Introdução Reconhecer atividades utilizando os objetos presentes no vídeo e o objeto que está sendo manipulado. Base de dados e código disponível em: http://people.csail.mit.edu/hpirsia v/codes/adldataset/adl.html 16
Detecting Activities of Daily Living in First-person Camera Views - Base de dados GoPro ligada ao peito do indivíduo. 10 horas de vídeo. 1280x960 a 30 frames por segundo. 18 atividades comuns do dia-a-dia. 20 pessoas para realizá-las em seus apartamentos. Labels: Ações, Object Bounding boxes, Object identity, Human-object interaction 17
Detecting Activities of Daily Living in First-person Camera Views - Base de dados Lista e taxonomia das Atividades 18
Detecting Activities of Daily Living in First-person Camera Views - Solução Bag of objects 19
Detecting Activities of Daily Living in First-person Camera Views - Solução Bag of objects com objetos ativos 20
Detecting Activities of Daily Living in First-person Camera Views - Solução Pyramid Descriptor 21
Detecting Activities of Daily Living in First-person Camera Views - Resultados STIP = Space-Time Interesting Points. O = Objetos. AO = Objetos + Objetos Ativos. IO = Identificador ideal de objetos. IA = Identificador ideal de objetos ativos. 22
Delving into egocentric actions 23
Delving into egocentric actions - Introdução Reconhecer a atividade utilizando características de movimento, objeto e egocêntricas. Características egocêntricas: Posição da mão Movimento da cabeça Informação do olhar 24
Delving into egocentric actions - Bases de dados Ambiente Controlado GTEA GTEA Gaze Mundo real GTEA Gaze+ Todas utilizam câmeras montadas na cabeça da pessoa. Disponíveis em: http://www.cbi.gatech.edu/ego centric/ 25
Delving into egocentric actions - Solução Processo de identificação de atividades. 26
Delving into egocentric actions - Resultados O = Objeto. M = Movimento. E = Egocêntrica. H = Posição da mão. G = Posição do olhar. * = utilizaram óculos com eye tracking. 27
Going Deeper into First-Person Activity Recognition 28
Going Deeper into First-Person Activity RecognitionIntrodução Arquitetura que utiliza duas CNNs (Convolutional neural network). Identificação do objeto de interesse (ObjectNet). Identificação da ação (ActionNet). 29
Going Deeper into First-Person Activity RecognitionBases de dados Ambiente Controlado GTEA GTEA Gaze Mundo real GTEA Gaze+ Bases de dados disponível em: http://cbi.gatech.edu/egocentric/datasets.htm 30
Going Deeper into First-Person Activity RecognitionSolução Arquitetura geral do sistema. 31
Going Deeper into First-Person Activity RecognitionSolução Processo de localização do objeto de interesse em um frame. 32
Going Deeper into First-Person Activity RecognitionSolução Processo de detecção da ação de um conjunto de frames. 33
Going Deeper into First-Person Activity RecognitionSolução Identificação da atividade. 34
Going Deeper into First-Person Activity RecognitionResultados 35
Referências 1. 2. 3. 4. 5. 6. 7. Pirsiavash, Hamed, and Deva Ramanan. "Detecting activities of daily living in first-person camera views." Computer Vision and Pattern Recognition (CVPR), 2012 IEEE Conference on. IEEE, 2012. Iwashita, Yumi, et al. "First-person animal activity recognition from egocentric videos." Pattern Recognition (ICPR), 2014 22nd International Conference on. IEEE, 2014. Betancourt, Alejandro, et al. "The evolution of first person vision methods: A survey." IEEE Transactions on Circuits and Systems for Video Technology25.5 (2015): 744-760. Starner, Thad, Bernt Schiele, and Alex Pentland. "Visual contextual awareness in wearable computing." Wearable Computers, 1998. Digest of Papers. Second International Symposium on. IEEE, 1998. Kitani, K. M., Okabe, T., Sato, Y., & Sugimoto, A. (2011, June). Fast unsupervised ego-action learning for first-person sports videos. In Computer Vision and Pattern Recognition (CVPR), 2011 IEEE Conference on (pp. 3241-3248). IEEE. Minghuang Ma, Haoqi Fan, and Kris M. Kitani, Going deeper into first-person activity recognition, The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2016. Li, Yin, Zhefan Ye, and James M. Rehg. "Delving into egocentric actions." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2015. 36
Referências Treinamento não supervisionado: Kitani, K. M., Okabe, T., Sato, Y., & Sugimoto, A. (2011, June). Fast unsupervised ego-action learning for first-person sports videos. In Computer Vision and Pattern Recognition (CVPR), 2011 IEEE Conference on (pp. 3241-3248). IEEE. Reconhecimento de atividades feitas com relação a câmera: Ryoo, Michael S., and Larry Matthies. "First-person activity recognition: What are they doing to me?." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2013. Survey da área: Betancourt, Alejandro, et al. "The evolution of first person vision methods: A survey." IEEE Transactions on Circuits and Systems for Video Technology25.5 (2015): 744-760. 37
Referências Proposta para melhorar o primeiro artigo apresentado: Matsuo, Kenji, et al. "An attention-based activity recognition for egocentric video." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops. 2014. 38