LP&D Data Science Challenge

Transcrição

1 LP&D Data Science Challenge Laboratório de Pesquisa e Desenvolvimento - LP&D Hugo Luiz Camargo Pinto

2 Sumário O Problema Base de Dados Feature Engineering Leaderboard

3 O Problema

4 LP&D Data Science Challenge Recomendação de músicas para usuários

5 LP&D Data Science Challenge Recomendação de músicas para usuários

6 Data Science Game Recomendação de músicas para usuários (Deezer) Prever se um usuário aprovou ou não uma recomendação do aplicativo Classificação binária Área sobre a curva ROC (AUC)

7 Base de Dados

8 Base de dados Contém informações sobre usuários

9 Base de dados Contém informações sobre usuários Além de mais de músicas já ouvidas por eles.

10 Base de dados Contém informações sobre usuários Além de mais de músicas já ouvidas por eles. Quatorze (14) features disponíveis

11 Features Disponíveis media_id - identifiant of the song listened by the user album_id - identifiant of the album of the song media_duration - duration of the song user_gender - gender of the user user_id - anonymized id of the user context_type - type of content where the song was listened: playlist, album... release_date - release date of the song with the format YYYYMMDD

12 Features Disponíveis media_id - identifiant of the song listened by the user album_id - identifiant of the album of the song media_duration - duration of the song user_gender - gender of the user user_id - anonymized id of the user context_type - type of content where the song was listened: playlist, album... release_date - release date of the song with the format YYYYMMDD ts_listen - timestamp of the listening in UNIX time platform_name - type of os platform_family - type of device user_age - age of the user listen_type - if the songs was listened in a flow or not artist_id - identifiant of the artist of the song genre_id - identifiant of the genre of the song is_listened - 1 if the track was listened, 0 otherwise

13 Train / Test Previamente dividida em treino e teste.

14 Train / Test Previamente dividida em treino e teste. Train

18 Train / Test Previamente dividida em treino e teste. Train Test

22 Arquivo de submissão

23 Arquivo de submissão Test

24 Arquivo de submissão Probabilidade para cada amostra do test

25 Kaggle.com

26 Kaggle.com

27 Kaggle.com

28 Train / Test Aproximadamente 7,5m amostras disponíveis para treinamento Contando com usuários repetidos centenas de vezes, mas com diferentes características usuários únicos

29 Train / Test Aproximadamente 7,5m amostras disponíveis para treinamento Contando com usuários repetidos centenas de vezes, mas com diferentes características usuários únicos amostras para testar Como tratar os usuários nunca antes vistos ou pouco frequentes?

30 Train / Test Aproximadamente 7,5m amostras disponíveis para treinamento Contando com usuários repetidos centenas de vezes, mas com diferentes características usuários únicos amostras para testar Como tratar os usuários nunca antes vistos ou pouco frequentes?

31 Train / Test Aproximadamente 7,5m amostras disponíveis para treinamento Contando com usuários repetidos centenas de vezes, mas com diferentes características usuários únicos amostras para testar Como tratar os usuários nunca antes vistos ou pouco frequentes? Como abordar as diversas features IDs contidas na base?

32 Train / Test (ts_listen)

33 Feature Engineering / Leaderboard

34 Primeira Abordagem Verificar performance do XGBoost na base Apenas features básicas e sem otimização de parâmetros

35 Primeira Abordagem Verificar performance do XGBoost na base Apenas features básicas e sem otimização de parâmetros Cross-Validation - AUC ~0.69

36 Primeira Abordagem Verificar performance do XGBoost na base Apenas features básicas e sem otimização de parâmetros Cross-Validation - AUC ~0.69

37 Próximos Passos Gerar percentuais de aceitação de recomendações, dado user_id, genre_id...

40 Próximos Passos Features para verificar se uma música é popular atualmente

41 Próximos Passos Features para verificar se uma música é popular atualmente

42 Próximos Passos Pré processamento da data de lançamento da música, release_date

43 Leaderboard Features percentuais Feature ano_de_lançamento Cross-Validation - AUC ~0.81

44 Leaderboard Features percentuais Feature ano_de_lançamento Cross-Validation - AUC ~0.81

45 Features percentuais - Pontos negativos Mentem sobre usuários que se repetem poucas vezes na base de dados. O mesmo vale para as outras características percentuais Confusão na IA

46 Features de somatórios Features para auxiliar os percentuais já levantados user_total

47 Features de somatórios Features para auxiliar os percentuais já levantados media_total

48 Leaderboard Features percentuais & somatórios Cross-Validation - AUC ~0,80

49 Leaderboard Features percentuais & somatórios Cross-Validation - AUC ~0,80

50 Usuários pouco frequentes na base de dados

51 Usuários pouco frequentes na base de dados Como tratar os usuários nunca antes vistos ou pouco frequentes?

52 Usuários pouco frequentes na base de dados Possível solução: *média*

55 Leaderboard Solução no LB com AUC ~

56 Problemas com validação AUC na cross-validação não reflete os resultados no Leaderboard De que forma validar o modelo sem a necessidade de submeter?

57 Features temporais Levar consideração o timestamp (ts_listen) para gerar features Gerar características apenas em relação ao passado

58 Features temporais Levar consideração o timestamp (ts_listen) para gerar features Gerar características apenas em relação ao passado Qual a relevância???

59 Features temporais Last Half Hour

60 Features temporais Last Hour

61 Ensemble Classificadores completamente descorrelacionados Tanto em termos de algoritmos de aprendizado Quanto nas features utilizadas para gerar a solução

62 Próximos Passos

63 Próximos Passos Qual a melhor opção para combinar soluções?

64 Próximos Passos Qual a melhor opção para combinar soluções? As melhores no Leaderboard ou as mais descorrelacionadas?

65 Próximos Passos Qual a melhor opção para combinar soluções? As melhores no Leaderboard ou as mais descorrelacionadas? Existe alguma feature mágica?

66 Hugo Pinto kaggle.com/huguera10