LP&D Data Science Challenge

Documentos relacionados
Classificação Automática de Gêneros Musicais

Mineração de Dados em Biologia Molecular

RNA aplicadas. Sistemas que aprendem sobre tendências e regras de negócio

2. Redes Neurais Artificiais

Inteligência Artificial

Créditos. SCC0173 Mineração de Dados Biológicos. Aula de Hoje. Desempenho de Classificação. Classificação IV: Avaliação de Classificadores

Fundamentos de Mineração de Dados

Roteiro. PCC142 / BCC444 - Mineração de Dados Avaliação de Classicadores. Estimativa da Acurácia. Introdução. Estimativa da Acurácia

Tutorial básico de classificação em RapidMiner

Thiago Marzagão 1. 1 Thiago Marzagão (Universidade de Brasília) MINERAÇÃO DE DADOS 1 / 21

Curso de Data Mining

Regressão Linear. Fabrício Olivetti de França. Universidade Federal do ABC

Boas Maneiras em Aprendizado de Máquinas

Aprendizagem de Máquina

Avaliando Hipóteses. George Darmiton da Cunha Cavalcanti Tsang Ing Ren CIn/UFPE

PSI Grupo IV. Yeny Steffany López Mendoza Caio Gragnani. Professor: Emilio del Moral Hernandez Julho do 2016

Classificação e Predição de Dados - Profits Consulting - Consultoria Empresarial - Serviços SAP- CRM Si

Aprendizado de Máquina

APRENDIZAGEM DE MÁQUINA

Reconhecimento de Padrões

Múltiplos Classificadores

Conceitos de Aprendizagem de Máquina e Experimentos. Visão Computacional

ANALISADOR DE DADOS AUTOMATIZADO UTILIZANDO MACHINE LEARNING. QCONSP 18 Eiti Kimura Maio/2018

Considerações de Desempenho

Como as aplicações de entretenimento (em especial jogos digitais) têm enfrentado um constante crescimento, tanto em tamanho quanto em complexidade,

Aprendizado de Máquina (Machine Learning)

UNIVERSIDADE TECNOLÓGICA FEDERAL DO PARANÁ (UTFPR) 2016/ PPGCA PPGCA/UTFPR -- CAIA003

Back Propagation. Dicas para o BP

applied machine learning workshop

Professor: Eduardo R. Hruschka Estagiário PAE: Luiz F. S. Coletta

SSC 0721 Teste e Validação de Software

Descoberta de Conhecimento em Bancos de Dados - KDD

5 Estudo de Caso e Resultados

Laboratório Classificação com o WEKA Explorer

Aula 9. Prof. Adilson Gonzaga

CINEMAN.ULTRA. Manual de usuário

Aprendizado de Máquina

Não desenvolva features, resolva problemas:

detecção de voz cantada em sinais de áudio polifônicos

Lista de Exercícios - Capítulo 8 [1] SCC Inteligência Artificial 1o. Semestre de Prof. João Luís

CEFET/RJ. Aprendizado de Máquina - Trabalho 03

Descoberta de conhecimento em redes sociais e bases de dados públicas

Redes Neurais Artificiais. Everton Gago

Modelagem da Rede Neural. Modelagem da Rede Neural. Back Propagation. Modelagem da Rede Neural. Modelagem da Rede Neural. Seleção de Variáveis:

Eduardo Vargas Ferreira

Aprendizagem de Máquina. Prof. Júlio Cesar Nievola PPGIA - PUCPR

HP UFCG Analytics Abril-Maio Um curso sobre Reconhecimento de Padrões e Redes Neurais. Por Herman Martins Gomes.

Classificação de Padrões. Abordagem prática com Redes Neurais Artificiais

Inteligência Computacional

DCBD. Avaliação de modelos. Métricas para avaliação de desempenho. Avaliação de modelos. Métricas para avaliação de desempenho...

Objetivo: Teste de pickup/dropout do elemento temporizado levantamento da curva temporizada, teste de pickup/dropout dos elementos instantâneos.

M Í D I A K I T MARCAS

Recomendação de Produtos Financeiros. Unindo Inteligência Artificial ao conhecimento de especialistas

SEMINÁRIO Visão Computacional Aluno: Afonso Pinheiro

SCC Capítulo 10 Métodos de Amostragem e Avaliação de Algoritmos

Redes Neurais no WEKA

SCC Capítulo 10 Métodos de Amostragem e Avaliação de Algoritmos

Manipulação básica de dados no PDI

Christopher Bishop, Pattern Recognition and Machine Learning, Springer, 2006 capítulo 14

Apêndice 1. Recomendações para testes de módulos

2 MÉTODOS DE FORMAÇÃO DE CÉLULAS BASEADO EM ARRANJO MATRICIAL

NoSQL Apache Cassandra para DBAs. Conceitos básicos que todo DBA deve conhecer sobre Apache Cassandra.

Seleção de Atributos 1

Capítulo 4. Programação em ASP

Geração de Modelo para Reconhecimento de Entidades Nomeadas no OpenNLP

Jarley Nóbrega

5 Protótipo e Resultados Obtidos

Redes de Computadores

4 LearnAds: um Framework de Recomendação de Anúncios

ANEXO 1 CÁLCULOS DAS NOTAS. Unidade de Negócio Minério de Ferro Brasil. Document Title Section or Chapter Name 1 of 7

Marcelo d2 nada pode me parar Marcelo d2 nada pode me parar 2013.zip

TÍTULO: IDENTIFICAÇÃO DE CARACTERES APRESENTADOS A UMA CÂMERA POR MEIO DO MOVIMENTO DOS DEDOS DA MÃO DE UM SER HUMANO

7 Congresso de Pós-Graduação MODELAGEM DE BASE DE CONHECIMENTO PARA TAREFA DE CLASSIFICAÇÃO EM MINERAÇÃO DE DADOS

2284-ELE/5, 3316-IE/3

Redes de Computadores

2. METODOLOGIA DE PESQUISA

Arquivos Seqüenciais: Intercalação

Python 3.x Estrutura de Repetição while

Redes Perceptron e Multilayer Perceptron aplicadas a base de dados IRIS

5 Modelagem e análise dos resultados

News Clipping. Como calcular ângulos entre notícias pode ajudar na prevenção à lavagem de dinheiro. Willian Gigliotti

Redes de Computadores

Apresenta. A Lista de Tarefas Completa para Distribuir sua Música. Tudo o que você precisa para vender e transmitir sua música em streaming online

Trabalho de IA - Redes Neurais: Multilayer Perceptron e16 Learning de março Vector de 2015 Quantization 1 / 28

INF 1771 Inteligência Artificial

Tópicos Especiais: Inteligência Artificial REDES NEURAIS

biometria por digitação

Prof. Heitor Silvério Lopes

Linguagens de Programação

Processos Ágeis de Desenvolvimento de Software

Rafael Izbicki 1 / 38

Obs: Se não tiver o banco que está sendo configurado, o SuperBI irá cria-lo.

Mapeamento do uso do solo para manejo de propriedades rurais

Banco de Dados Web 4º TSI. Jonathan de Matos

est171 - Aprendizado de Máquina Departamento de Estatística Universidade Federal de Minas Gerais Lista 2 Outubro de 2016 Sumário Exercício I 2

Seleção de Atributos FSS. Relevância de Atributos. Relevância de Atributos. Seleção de Atributos - FSS. FSS como Busca no Espaço de Estados

Análise dados de diagnóstico de câncer de mama

Transcrição:

LP&D Data Science Challenge Laboratório de Pesquisa e Desenvolvimento - LP&D Hugo Luiz Camargo Pinto

Sumário O Problema Base de Dados Feature Engineering Leaderboard

O Problema

LP&D Data Science Challenge Recomendação de músicas para usuários

LP&D Data Science Challenge Recomendação de músicas para usuários

Data Science Game Recomendação de músicas para usuários (Deezer) Prever se um usuário aprovou ou não uma recomendação do aplicativo Classificação binária Área sobre a curva ROC (AUC)

Base de Dados

Base de dados Contém informações sobre 19918 usuários

Base de dados Contém informações sobre 19918 usuários Além de mais de 400.000 músicas já ouvidas por eles.

Base de dados Contém informações sobre 19918 usuários Além de mais de 400.000 músicas já ouvidas por eles. Quatorze (14) features disponíveis

Features Disponíveis media_id - identifiant of the song listened by the user album_id - identifiant of the album of the song media_duration - duration of the song user_gender - gender of the user user_id - anonymized id of the user context_type - type of content where the song was listened: playlist, album... release_date - release date of the song with the format YYYYMMDD

Features Disponíveis media_id - identifiant of the song listened by the user album_id - identifiant of the album of the song media_duration - duration of the song user_gender - gender of the user user_id - anonymized id of the user context_type - type of content where the song was listened: playlist, album... release_date - release date of the song with the format YYYYMMDD ts_listen - timestamp of the listening in UNIX time platform_name - type of os platform_family - type of device user_age - age of the user listen_type - if the songs was listened in a flow or not artist_id - identifiant of the artist of the song genre_id - identifiant of the genre of the song is_listened - 1 if the track was listened, 0 otherwise

Train / Test Previamente dividida em treino e teste.

Train / Test Previamente dividida em treino e teste. Train

Train / Test Previamente dividida em treino e teste. Train

Train / Test Previamente dividida em treino e teste. Train

Train / Test Previamente dividida em treino e teste. Train

Train / Test Previamente dividida em treino e teste. Train Test

Train / Test Previamente dividida em treino e teste. Train Test

Train / Test Previamente dividida em treino e teste. Train Test

Train / Test Previamente dividida em treino e teste. Train Test

Arquivo de submissão

Arquivo de submissão Test

Arquivo de submissão Probabilidade para cada amostra do test

Kaggle.com https://inclass.kaggle.com/c/usp-2017

Kaggle.com https://inclass.kaggle.com/c/usp-2017

Kaggle.com

Train / Test Aproximadamente 7,5m amostras disponíveis para treinamento Contando com usuários repetidos centenas de vezes, mas com diferentes características 19666 usuários únicos

Train / Test Aproximadamente 7,5m amostras disponíveis para treinamento Contando com usuários repetidos centenas de vezes, mas com diferentes características 19666 usuários únicos 19918 amostras para testar Como tratar os usuários nunca antes vistos ou pouco frequentes?

Train / Test Aproximadamente 7,5m amostras disponíveis para treinamento Contando com usuários repetidos centenas de vezes, mas com diferentes características 19666 usuários únicos 19918 amostras para testar Como tratar os usuários nunca antes vistos ou pouco frequentes?

Train / Test Aproximadamente 7,5m amostras disponíveis para treinamento Contando com usuários repetidos centenas de vezes, mas com diferentes características 19666 usuários únicos 19918 amostras para testar Como tratar os usuários nunca antes vistos ou pouco frequentes? Como abordar as diversas features IDs contidas na base?

Train / Test (ts_listen)

Feature Engineering / Leaderboard

Primeira Abordagem Verificar performance do XGBoost na base Apenas features básicas e sem otimização de parâmetros

Primeira Abordagem Verificar performance do XGBoost na base Apenas features básicas e sem otimização de parâmetros Cross-Validation - AUC ~0.69

Primeira Abordagem Verificar performance do XGBoost na base Apenas features básicas e sem otimização de parâmetros Cross-Validation - AUC ~0.69

Próximos Passos Gerar percentuais de aceitação de recomendações, dado user_id, genre_id...

Próximos Passos Gerar percentuais de aceitação de recomendações, dado user_id, genre_id...

Próximos Passos Gerar percentuais de aceitação de recomendações, dado user_id, genre_id...

Próximos Passos Features para verificar se uma música é popular atualmente

Próximos Passos Features para verificar se uma música é popular atualmente

Próximos Passos Pré processamento da data de lançamento da música, release_date

Leaderboard Features percentuais Feature ano_de_lançamento Cross-Validation - AUC ~0.81

Leaderboard Features percentuais Feature ano_de_lançamento Cross-Validation - AUC ~0.81

Features percentuais - Pontos negativos Mentem sobre usuários que se repetem poucas vezes na base de dados. O mesmo vale para as outras características percentuais Confusão na IA

Features de somatórios Features para auxiliar os percentuais já levantados user_total

Features de somatórios Features para auxiliar os percentuais já levantados media_total

Leaderboard Features percentuais & somatórios Cross-Validation - AUC ~0,80

Leaderboard Features percentuais & somatórios Cross-Validation - AUC ~0,80

Usuários pouco frequentes na base de dados

Usuários pouco frequentes na base de dados Como tratar os usuários nunca antes vistos ou pouco frequentes?

Usuários pouco frequentes na base de dados Possível solução: *média*

Usuários pouco frequentes na base de dados Possível solução: *média*

Usuários pouco frequentes na base de dados Possível solução: *média*

Leaderboard Solução no LB com AUC ~0.62424

Problemas com validação AUC na cross-validação não reflete os resultados no Leaderboard De que forma validar o modelo sem a necessidade de submeter?

Features temporais Levar consideração o timestamp (ts_listen) para gerar features Gerar características apenas em relação ao passado

Features temporais Levar consideração o timestamp (ts_listen) para gerar features Gerar características apenas em relação ao passado Qual a relevância???

Features temporais Last Half Hour

Features temporais Last Hour

Ensemble Classificadores completamente descorrelacionados Tanto em termos de algoritmos de aprendizado Quanto nas features utilizadas para gerar a solução

Próximos Passos

Próximos Passos Qual a melhor opção para combinar soluções?

Próximos Passos Qual a melhor opção para combinar soluções? As melhores no Leaderboard ou as mais descorrelacionadas?

Próximos Passos Qual a melhor opção para combinar soluções? As melhores no Leaderboard ou as mais descorrelacionadas? Existe alguma feature mágica?

Hugo Pinto kaggle.com/huguera10 hugo.pinto@bcc.unifal-mg.edu.br