LP&D Data Science Challenge
|
|
|
- Luís Damásio Farias
- 8 Há anos
- Visualizações:
Transcrição
1 LP&D Data Science Challenge Laboratório de Pesquisa e Desenvolvimento - LP&D Hugo Luiz Camargo Pinto
2 Sumário O Problema Base de Dados Feature Engineering Leaderboard
3 O Problema
4 LP&D Data Science Challenge Recomendação de músicas para usuários
5 LP&D Data Science Challenge Recomendação de músicas para usuários
6 Data Science Game Recomendação de músicas para usuários (Deezer) Prever se um usuário aprovou ou não uma recomendação do aplicativo Classificação binária Área sobre a curva ROC (AUC)
7 Base de Dados
8 Base de dados Contém informações sobre usuários
9 Base de dados Contém informações sobre usuários Além de mais de músicas já ouvidas por eles.
10 Base de dados Contém informações sobre usuários Além de mais de músicas já ouvidas por eles. Quatorze (14) features disponíveis
11 Features Disponíveis media_id - identifiant of the song listened by the user album_id - identifiant of the album of the song media_duration - duration of the song user_gender - gender of the user user_id - anonymized id of the user context_type - type of content where the song was listened: playlist, album... release_date - release date of the song with the format YYYYMMDD
12 Features Disponíveis media_id - identifiant of the song listened by the user album_id - identifiant of the album of the song media_duration - duration of the song user_gender - gender of the user user_id - anonymized id of the user context_type - type of content where the song was listened: playlist, album... release_date - release date of the song with the format YYYYMMDD ts_listen - timestamp of the listening in UNIX time platform_name - type of os platform_family - type of device user_age - age of the user listen_type - if the songs was listened in a flow or not artist_id - identifiant of the artist of the song genre_id - identifiant of the genre of the song is_listened - 1 if the track was listened, 0 otherwise
13 Train / Test Previamente dividida em treino e teste.
14 Train / Test Previamente dividida em treino e teste. Train
15 Train / Test Previamente dividida em treino e teste. Train
16 Train / Test Previamente dividida em treino e teste. Train
17 Train / Test Previamente dividida em treino e teste. Train
18 Train / Test Previamente dividida em treino e teste. Train Test
19 Train / Test Previamente dividida em treino e teste. Train Test
20 Train / Test Previamente dividida em treino e teste. Train Test
21 Train / Test Previamente dividida em treino e teste. Train Test
22 Arquivo de submissão
23 Arquivo de submissão Test
24 Arquivo de submissão Probabilidade para cada amostra do test
25 Kaggle.com
26 Kaggle.com
27 Kaggle.com
28 Train / Test Aproximadamente 7,5m amostras disponíveis para treinamento Contando com usuários repetidos centenas de vezes, mas com diferentes características usuários únicos
29 Train / Test Aproximadamente 7,5m amostras disponíveis para treinamento Contando com usuários repetidos centenas de vezes, mas com diferentes características usuários únicos amostras para testar Como tratar os usuários nunca antes vistos ou pouco frequentes?
30 Train / Test Aproximadamente 7,5m amostras disponíveis para treinamento Contando com usuários repetidos centenas de vezes, mas com diferentes características usuários únicos amostras para testar Como tratar os usuários nunca antes vistos ou pouco frequentes?
31 Train / Test Aproximadamente 7,5m amostras disponíveis para treinamento Contando com usuários repetidos centenas de vezes, mas com diferentes características usuários únicos amostras para testar Como tratar os usuários nunca antes vistos ou pouco frequentes? Como abordar as diversas features IDs contidas na base?
32 Train / Test (ts_listen)
33 Feature Engineering / Leaderboard
34 Primeira Abordagem Verificar performance do XGBoost na base Apenas features básicas e sem otimização de parâmetros
35 Primeira Abordagem Verificar performance do XGBoost na base Apenas features básicas e sem otimização de parâmetros Cross-Validation - AUC ~0.69
36 Primeira Abordagem Verificar performance do XGBoost na base Apenas features básicas e sem otimização de parâmetros Cross-Validation - AUC ~0.69
37 Próximos Passos Gerar percentuais de aceitação de recomendações, dado user_id, genre_id...
38 Próximos Passos Gerar percentuais de aceitação de recomendações, dado user_id, genre_id...
39 Próximos Passos Gerar percentuais de aceitação de recomendações, dado user_id, genre_id...
40 Próximos Passos Features para verificar se uma música é popular atualmente
41 Próximos Passos Features para verificar se uma música é popular atualmente
42 Próximos Passos Pré processamento da data de lançamento da música, release_date
43 Leaderboard Features percentuais Feature ano_de_lançamento Cross-Validation - AUC ~0.81
44 Leaderboard Features percentuais Feature ano_de_lançamento Cross-Validation - AUC ~0.81
45 Features percentuais - Pontos negativos Mentem sobre usuários que se repetem poucas vezes na base de dados. O mesmo vale para as outras características percentuais Confusão na IA
46 Features de somatórios Features para auxiliar os percentuais já levantados user_total
47 Features de somatórios Features para auxiliar os percentuais já levantados media_total
48 Leaderboard Features percentuais & somatórios Cross-Validation - AUC ~0,80
49 Leaderboard Features percentuais & somatórios Cross-Validation - AUC ~0,80
50 Usuários pouco frequentes na base de dados
51 Usuários pouco frequentes na base de dados Como tratar os usuários nunca antes vistos ou pouco frequentes?
52 Usuários pouco frequentes na base de dados Possível solução: *média*
53 Usuários pouco frequentes na base de dados Possível solução: *média*
54 Usuários pouco frequentes na base de dados Possível solução: *média*
55 Leaderboard Solução no LB com AUC ~
56 Problemas com validação AUC na cross-validação não reflete os resultados no Leaderboard De que forma validar o modelo sem a necessidade de submeter?
57 Features temporais Levar consideração o timestamp (ts_listen) para gerar features Gerar características apenas em relação ao passado
58 Features temporais Levar consideração o timestamp (ts_listen) para gerar features Gerar características apenas em relação ao passado Qual a relevância???
59 Features temporais Last Half Hour
60 Features temporais Last Hour
61 Ensemble Classificadores completamente descorrelacionados Tanto em termos de algoritmos de aprendizado Quanto nas features utilizadas para gerar a solução
62 Próximos Passos
63 Próximos Passos Qual a melhor opção para combinar soluções?
64 Próximos Passos Qual a melhor opção para combinar soluções? As melhores no Leaderboard ou as mais descorrelacionadas?
65 Próximos Passos Qual a melhor opção para combinar soluções? As melhores no Leaderboard ou as mais descorrelacionadas? Existe alguma feature mágica?
66 Hugo Pinto kaggle.com/huguera10
Classificação Automática de Gêneros Musicais
Introdução Método Experimentos Conclusões Utilizando Métodos de Bagging e Boosting Carlos N. Silla Jr. Celso Kaestner Alessandro Koerich Pontifícia Universidade Católica do Paraná Programa de Pós-Graduação
Mineração de Dados em Biologia Molecular
Mineração de Dados em Biologia Molecular André C.. L. F. de Carvalho Monitor: Valéria Carvalho lanejamento e Análise de Experimentos rincipais tópicos Estimativa do erro artição dos dados Reamostragem
Fundamentos de Mineração de Dados
Fundamentos de Mineração de Dados Prof. Ricardo Fernandes [email protected] O que é Mineração de Dados? Uso de ferramentas matemáticas, clássicas ou inteligentes, no processo de descoberta de conhecimento
Roteiro. PCC142 / BCC444 - Mineração de Dados Avaliação de Classicadores. Estimativa da Acurácia. Introdução. Estimativa da Acurácia
Roteiro PCC142 / BCC444 - Mineração de Dados Avaliação de Classicadores Introdução Luiz Henrique de Campos Merschmann Departamento de Computação Universidade Federal de Ouro Preto [email protected]
Tutorial básico de classificação em RapidMiner
Tutorial básico de classificação em RapidMiner Mineração de dados biológicos Ciências físicas e biomoleculares Neste tutorial, aprenderemos a utilizar as funcionalidades básicas para classificação em Rapidminer.
Thiago Marzagão 1. 1 Thiago Marzagão (Universidade de Brasília) MINERAÇÃO DE DADOS 1 / 21
MINERAÇÃO DE DADOS Thiago Marzagão 1 1 [email protected] ÁRVORE DE DECISÃO & VALIDAÇÃO Thiago Marzagão (Universidade de Brasília) MINERAÇÃO DE DADOS 1 / 21 árvore de decisão Aulas passadas: queríamos
Curso de Data Mining
Curso de Data Mining Sandra de Amo Curvas Roc Uma curva ROC (Receiver Operating Characteristic) é um enfoque gráfico que permite visualizar os trade-offs entre as taxas de positivos verdadeiros e positivos
Regressão Linear. Fabrício Olivetti de França. Universidade Federal do ABC
Regressão Linear Fabrício Olivetti de França Universidade Federal do ABC Tópicos 1. Overfitting 2. Treino e Validação 3. Baseline dos modelos 1 Overfitting Overfit Em muitos casos, a amostra de dados coletada
Aprendizagem de Máquina
Aprendizagem de Máquina Avaliação de Paradigmas Alessandro L. Koerich Mestrado/Doutorado em Informática Pontifícia Universidade Católica do Paraná (PUCPR) Mestrado/Doutorado em Informática Aprendizagem
Avaliando Hipóteses. George Darmiton da Cunha Cavalcanti Tsang Ing Ren CIn/UFPE
Avaliando Hipóteses George Darmiton da Cunha Cavalcanti Tsang Ing Ren CIn/UFPE Pontos importantes Erro da Amostra e Erro Real Como Calcular Intervalo de Confiança Erros de hipóteses Estimadores Comparando
Classificação e Predição de Dados - Profits Consulting - Consultoria Empresarial - Serviços SAP- CRM Si
Classificação e Predição de Dados - Profits Consulting - Consultoria Empresarial - Serviços SAP- CRM Si Classificação de Dados Os modelos de classificação de dados são preditivos, pois desempenham inferências
Aprendizado de Máquina
Aprendizado de Máquina Introdução ao WEKA Luiz Eduardo S. Oliveira Universidade Federal do Paraná Departamento de Informática http://web.inf.ufpr.br/luizoliveira Luiz S. Oliveira (UFPR) Aprendizado de
Reconhecimento de Padrões
Reconhecimento de Padrões André Tavares da Silva [email protected] Kuncheva pg. 8 a 25 (seções 1.3 e 1.4) Roteiro da aula Cálculo do erro de um classificador Técnicas de treinamento, avaliação e teste
Como as aplicações de entretenimento (em especial jogos digitais) têm enfrentado um constante crescimento, tanto em tamanho quanto em complexidade,
1 Introdução Como as aplicações de entretenimento (em especial jogos digitais) têm enfrentado um constante crescimento, tanto em tamanho quanto em complexidade, os desafios encontrados durante o desenvolvimento
Aprendizado de Máquina (Machine Learning)
Ciência da Computação Aprendizado de Máquina (Machine Learning) Aula 09 Árvores de Decisão Max Pereira Classificação É a tarefa de organizar objetos em uma entre diversas categorias pré-definidas. Exemplos
SSC 0721 Teste e Validação de Software
SSC 0721 Teste e Validação de Software Conceitos básicos Prof. Marcio E. Delamaro [email protected] SSC 0721 Teste e Validação de Software ICMC/USP p. 1 O que é teste Atividade de executar um programa
Descoberta de Conhecimento em Bancos de Dados - KDD
Descoberta de Conhecimento em Bancos de Dados - KDD Professor: Rosalvo Ferreira de Oliveira Neto Disciplina: Inteligência Artificial Tópicos 1. Definições 2. Fases do processo 3. Exemplo do DMC 4. Avaliação
5 Estudo de Caso e Resultados
5 Estudo de Caso e Resultados 5.1. Introdução Finalizado o desenvolvimento da ferramenta, é indispensável testar suas funcionalidades e a eficácia da aplicação conjunta dos seus módulos de geração de experimentos
Laboratório Classificação com o WEKA Explorer
Laboratório Classificação com o WEKA Explorer Para esse laboratório considere os seguintes classificadores: C4.5 (J4.8) KNN Naïve Bayes Considere as bases de treinamento e teste de dígitos manuscrítos
Não desenvolva features, resolva problemas:
Não desenvolva features, resolva problemas: Como escalar um produto de forma sustentável QCon 2016 Track: Construindo e Escalando Produtos de Sucesso Bruno Ghisi CTO, Resultados Digitais @brunogh RDStation.com.br
Lista de Exercícios - Capítulo 8 [1] SCC Inteligência Artificial 1o. Semestre de Prof. João Luís
ICMC-USP Lista de Exercícios - Capítulo 8 [1] SCC-630 - Inteligência Artificial 1o. Semestre de 2011 - Prof. João Luís 1. Seja breve na resposta às seguintes questões: (a) o que você entende por Aprendizado
Descoberta de conhecimento em redes sociais e bases de dados públicas
Descoberta de conhecimento em redes sociais e bases de dados públicas Trabalho de Formatura Supervisionado Bacharelado em Ciência da Computação - IME USP Aluna: Fernanda de Camargo Magano Orientadora:
Redes Neurais Artificiais. Everton Gago
Redes Neurais Artificiais Everton Gago Como vai ser? O que é RNA? Conglomerado de neurônios!?!? Neurônio: Neurônio: Entradas: X0 = 0 X1 = 1 X2 = 1 Neurônio: Entradas: X0 = 0 X1 = 1 X2 = 1 Pesos: W0 = 0.3
Modelagem da Rede Neural. Modelagem da Rede Neural. Back Propagation. Modelagem da Rede Neural. Modelagem da Rede Neural. Seleção de Variáveis:
Back Propagation Fatores importantes para a modelagem da Rede Neural: Seleção de variáveis; veis; Limpeza dos dados; Representação das variáveis veis de entrada e saída; Normalização; Buscando melhor Generalização
Aprendizagem de Máquina. Prof. Júlio Cesar Nievola PPGIA - PUCPR
Aprendizagem de Máquina Prof. Júlio Cesar Nievola PPGIA - PUCPR Introdução Justificativa Recente progresso em algoritmos e teoria Disponibilidade crescente de dados online Poder computacional disponível
Classificação de Padrões. Abordagem prática com Redes Neurais Artificiais
Classificação de Padrões Abordagem prática com Redes Neurais Artificiais Agenda Parte I - Introdução ao aprendizado de máquina Parte II - Teoria RNA Parte III - Prática RNA Parte IV - Lições aprendidas
DCBD. Avaliação de modelos. Métricas para avaliação de desempenho. Avaliação de modelos. Métricas para avaliação de desempenho...
DCBD Métricas para avaliação de desempenho Como avaliar o desempenho de um modelo? Métodos para avaliação de desempenho Como obter estimativas confiáveis? Métodos para comparação de modelos Como comparar
Objetivo: Teste de pickup/dropout do elemento temporizado levantamento da curva temporizada, teste de pickup/dropout dos elementos instantâneos.
Tutorial de Teste Tipo de Equipamento: Relé de Proteção Marca: Ingeteam Modelo: PD250 Função: 46 ou PIOC- Desbalanceamento de Sobrecorrente Instantâneo e PTOC - Desbalanceamento de Sobrecorrente Temporizado
SEMINÁRIO Visão Computacional Aluno: Afonso Pinheiro
SEMINÁRIO Visão Computacional Aluno: Afonso Pinheiro Detecting Pedestrians Using Patterns of Motion and Appearance *Paul Viola *Michael J. Jones *Daniel Snow Por que detectar pedestres? http://conexaopenedo.com.br/2016/02/sistema-consegue-detectar-pedestres-em-tempo-real/
SCC Capítulo 10 Métodos de Amostragem e Avaliação de Algoritmos
Métodos de Amostragem e Avaliação de Algoritmos SCC-630 - Capítulo 10 Métodos de Amostragem e Avaliação de Algoritmos João Luís Garcia Rosa 1 1 Departamento de Ciências de Computação Instituto de Ciências
Redes Neurais no WEKA
Redes Neurais WEKA http://www.cs.waikato.ac.nz/ml/weka/ Redes Neurais no WEKA Introdução ao WEKA Base Benchmark Estudo de Casos Análise de Crédito Bancário 1 Redes Neurais no Weka WEKA (Waikaito Environment
Manipulação básica de dados no PDI
Manipulação básica de dados no PDI Conjunto de steps para transformação Categoria Transform Criação de novos campos Uso de expressões Adição de constantes Cálculo de valores Conversão de formatos Correspondência
Christopher Bishop, Pattern Recognition and Machine Learning, Springer, 2006 capítulo 14
Combinação de modelos Christopher Bishop, Pattern Recognition and Machine Learning, Springer, 2006 capítulo 4 Motivação Habitualmente, experimenta-se vários algoritmos (ou o mesmo com diferentes hiperparâmetros)
Apêndice 1. Recomendações para testes de módulos
Recomendações para testes de módulos - 1 Apêndice 1. Recomendações para testes de módulos O presente conjunto de recomendações tem por objetivo definir um conjunto mínimo de critérios de seleção de casos
2 MÉTODOS DE FORMAÇÃO DE CÉLULAS BASEADO EM ARRANJO MATRICIAL
2 MÉTODOS DE FORMAÇÃO DE CÉLULAS BASEADO EM ARRANJO MATRICIAL Esta dissertação trata da pesquisa e análise dos métodos existentes que utilizam arranjo matricial (array-based clustering), para obtenção
NoSQL Apache Cassandra para DBAs. Conceitos básicos que todo DBA deve conhecer sobre Apache Cassandra.
NoSQL Apache Cassandra para DBAs Conceitos básicos que todo DBA deve conhecer sobre Apache Cassandra. Apresentação Pessoal Ronaldo Martins: Há mais de 14 anos dedicado à tecnologias Oracle, passando pelas
Capítulo 4. Programação em ASP
Índice: CAPÍTULO 4. PROGRAMAÇÃO EM ASP...2 4.1 REGISTRAR...2 4.1.1 Códigos para configuração do objeto...2 4.1.2 Formulário para transferir dados da impressão digital...3 4.1.3 Código Javascript para registro
Geração de Modelo para Reconhecimento de Entidades Nomeadas no OpenNLP
Geração de Modelo para Reconhecimento de Entidades Nomeadas no OpenNLP Gabriel C. Chiele 1, Evandro Fonseca 1, Renata Vieira 1 1 Faculdade de Informática Pontifícia Universidade Católica do Rio Grande
Jarley Nóbrega
1 Jarley Nóbrega [email protected] Pentaho Data Integration Agenda Manipulação de dados no PDI Controlando o fluxo de dados Transformações no rowset Tratamento de erros e validação de dados Manipulação
Redes de Computadores
Redes de Computadores HTTP Prof. Thiago Dutra Agenda Definição de HTTP Hipertexto Características do HTTP O HTTP e a Web Conexões HTTP Mensagens HTTP Cookies Caches Web GET Condicional
Marcelo d2 nada pode me parar Marcelo d2 nada pode me parar 2013.zip
Marcelo d2 nada pode me parar 2013 Marcelo d2 nada pode me parar 2013.zip Marcelo D2 Nada Pode Me Parar EMI; 2013. Em 2013, Nada Pode Me Parar soa um tanto deslocado porque não há concorrentes diretos
TÍTULO: IDENTIFICAÇÃO DE CARACTERES APRESENTADOS A UMA CÂMERA POR MEIO DO MOVIMENTO DOS DEDOS DA MÃO DE UM SER HUMANO
Anais do Conic-Semesp. Volume 1, 2013 - Faculdade Anhanguera de Campinas - Unidade 3. ISSN 2357-8904 TÍTULO: IDENTIFICAÇÃO DE CARACTERES APRESENTADOS A UMA CÂMERA POR MEIO DO MOVIMENTO DOS DEDOS DA MÃO
2. METODOLOGIA DE PESQUISA
2. METODOLOGIA DE PESQUISA O presente capítulo apresenta a metodologia de pesquisa proposta e procura-se dar uma visão geral do que será feito para atingir os objetivos. Está dividido em seis partes: i)
Arquivos Seqüenciais: Intercalação
Arquivos Seqüenciais: Intercalação Vanessa Braganholo Baseado no Material de: Inhaúma Neves Ferraz (IC/UFF) Cenário Diversos arquivos sequenciais ordenados Problema: gerar um único arquivo ordenado a partir
Python 3.x Estrutura de Repetição while
Python 3.x Estrutura de Repetição while Introdução à Ciência da Computação Prof. Edison Ishikawa Sumário Atribuição Atualizando variáveis Iterações Revisitando o laço for Laço while Rastreando um programa
Redes Perceptron e Multilayer Perceptron aplicadas a base de dados IRIS
Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação Redes Perceptron e Multilayer Perceptron aplicadas a base de dados IRIS Aluno: Fabricio Aparecido Breve Prof.: Dr. André Ponce
News Clipping. Como calcular ângulos entre notícias pode ajudar na prevenção à lavagem de dinheiro. Willian Gigliotti
News Clipping Como calcular ângulos entre notícias pode ajudar na prevenção à lavagem de dinheiro Willian Gigliotti [email protected] Departamento de Ciências da Computação Instituto de Matemática e
Tópicos Especiais: Inteligência Artificial REDES NEURAIS
Tópicos Especiais: Inteligência Artificial REDES NEURAIS Material baseado e adaptado do Cap. 20 do Livro Inteligência Artificial de Russell & Norvig Bibliografia Inteligência Artificial Russell & Norvig
biometria por digitação
biometria por digitação Rudolf Copi Eckelberg 29 de Junho de 2018 Apresentação para a disciplina de Visão Computacional Sumário Introdução Biometria por digitação Features Biometria por digitação em teclado
Prof. Heitor Silvério Lopes
Prof. Heitor Silvério Lopes WEKA WEKA: Waikato Environment for Knowledge Analysis Iniciado em 1992, versão estável atual: 3.8.1 É um software para mineração de dados desenvolvido em Java com código aberto
Linguagens de Programação
Universidade Federal do Rio Grande do Norte Centro de Tecnologia Departamento de Computação e Automação Linguagens de Programação Professor Responsável: Luiz Affonso Henderson Guedes de Oliveira Prof.
Processos Ágeis de Desenvolvimento de Software
Processos Ágeis de Desenvolvimento de Software -Focono XP - Rodrigo Rebouças de Almeida [email protected] Processo Conjunto de atividades ordenadas, restrições e recursos que produzem um resultado
Obs: Se não tiver o banco que está sendo configurado, o SuperBI irá cria-lo.
Conteúdo 1Introdução 2Download 3Instalação 4Conexão com Banco 5Criar Árvore de Relatórios 6Salvar Layout de Gráficos e Relatórios Introdução Este artigo irá ensinar a instalar a ferramenta SuperBI que
Mapeamento do uso do solo para manejo de propriedades rurais
1/28 Mapeamento do uso do solo para manejo de propriedades rurais Teoria Eng. Allan Saddi Arnesen Eng. Frederico Genofre Eng. Marcelo Pedroso Curtarelli 2/28 Conteúdo programático: Capitulo 1: Conceitos
Banco de Dados Web 4º TSI. Jonathan de Matos
Banco de Dados Web 4º TSI Jonathan de Matos Diferenças e Semelhanças Porque escolher MySQL ou PostgreSQL? São os SGBDs livres mais populares São os projetos mais antigos e maduros Suporte de ferramentas
est171 - Aprendizado de Máquina Departamento de Estatística Universidade Federal de Minas Gerais Lista 2 Outubro de 2016 Sumário Exercício I 2
est171 - Aprendizado de Máquina Departamento de Estatística Universidade Federal de Minas Gerais Lista 2 Henrique Aparecido Laureano Matheus Henrique Sales Outubro de 2016 Sumário Exercício I 2 1 Exercício
Análise dados de diagnóstico de câncer de mama
Análise dados de diagnóstico de câncer de mama Alexandre Morales Diaz Eduardo Pereira Lima Pedro Henrique Moraes Trabalho de Modelos Lineares Generalizados (CE-225), Universidade Federal do Paraná, submetido
