Marcelo K. Albertini. 17 de Abril de 2014



Documentos relacionados
Aprendizagem de Máquina

Curso Técnico em Informática Organização Curricular. A carga horária total dos módulos é oferecida conforme quadro síntese abaixo:

Reconhecimento de Padrões. Reconhecimento de Padrões

Universidade Estadual da Paraíba UEPB - Campus I Campina Grande Curso de Graduação em Computação Bacharelado

Aprendizagem de Máquina

Modelagem e Simulação

Indústria de Software - Histórico

Aplicação de Ensembles de Classificadores na Detecção de Patologias na Coluna Vertebral

Utilização da programação de computadores em Estatística

CURSO DE SISTEMAS DE INFORMAÇÃO

Lista de Exercícios Tratamento de Incerteza baseado em Probabilidade

Engenharia de Software

Software Livre e Engenharia Elétrica

Algoritmos de Agrupamento - Aprendizado Não Supervisionado. Fabrício Jailson Barth

Apostila da disciplina Introdução à Engenharia de Software Professor: Sandro Melo Faculdades São José Curso de Tecnologia de Sistemas de Informação

FACULDADE DE COMPUTAÇÃO E INFORMÁTICA

Teste de Software: Um Breve Estudo do Importante Processo no Desenvolvimento de Softwares

Teste de Software Parte 1. Prof. Jonas Potros

Evento: 14ª Semana Acadêmica Organização: Curso Superior de Tecnologia em Análise e Desenvolvimento de Sistemas. Período: 22/Abril a 26/Abril de 2013

PERFIL PROFISSIONAL PROGRAMADOR(A) DE INFORMÁTICA. PERFIL PROFISSIONAL Programador/a de Informática Nível 3 CATÁLOGO NACIONAL DE QUALIFICAÇÕES 1/5

QUALIDADE DE SOFTWARE

Simulador Virtual para Treinamento em Visão de Máquina com LabVIEW

Introdução ao Paradigma Orientado a Objetos. Principais conceitos

Engenharia de Software II

Curva ROC. George Darmiton da Cunha Cavalcanti Tsang Ing Ren CIn/UFPE

Regressão Logística. Prof. Dr. Leandro Balby Marinho. Inteligência Artificial. Introdução Hipótese Estimativa de Parâmetros Classificação Multiclasse

Modelos Pioneiros de Aprendizado

SERVIÇO PÚBLICO FEDERAL UNIVERSIDADE FEDERAL DA PARAÍBA CONSELHO SUPERIOR DE ENSINO, PESQUISA E EXTENSÃO

INTELIGÊNCIA ARTIFICIAL

natureza do projeto e da aplicação métodos e ferramentas a serem usados controles e produtos que precisam ser entregues

Ementas Disciplinas Eletivas

"MULTRIBUIÇÃO": COLABORAÇÃO NA INTERNET Nilton Bahlis dos Santos Alberto de Francisco. Introdução:

DINÂMICA DOS FLUIDOS COMPUTACIONAL. CFD = Computational Fluid Dynamics

EMENTAS DAS DISCIPLINAS

Assunto 9 : Tecnologias de Inteligência Artificial nos Negócios

UNIVERSIDADE FEDERAL DE SANTA MARIA CENTRO DE TECNOLOGIA AULA 14 PROFª BRUNO CALEGARO

Preparando-se para o exame Certified LabVIEW Associate Developer (CLAD)


Plano de Trabalho Docente Ensino Técnico

Resumo Descritivo dos Conteúdos das Disciplinas de Ementa Aberta para

TEORIA DOS JOGOS E APRENDIZADO

Ementas Disciplinas Obrigatórias

As tecnologias de informação e comunicação

c. Técnica de Estrutura de Controle Teste do Caminho Básico

DESENVOLVIMENTO DE COMPETÊNCIAS E TALENTOS

Web Data mining com R: aprendizagem de máquina

SERVIÇO PÚBLICO FEDERAL UNIVERSIDADE FEDERAL DO PARÁ AVISO DE ABERTURA DE INSCRIÇÕES PARA A CLASSE DE ASSISTENTE

Unidade IV GERENCIAMENTO DE SISTEMAS. Prof. Roberto Marcello

PP 301 Engenharia de Reservatórios I 11/05/2011

Projeto Pedagógico do Bacharelado em Ciência da Computação. Comissão de Curso e NDE do BCC

Sumário. Introdução ao Microsoft Project. 1 Microsoft Project, gerenciamento de projetos e você 3. 2 Visão geral do Project 11.

Avaliação de Desempenho

Banco de Dados Orientado a Objetos

SERVIÇO PÚBLICO FEDERAL UNIVERSIDADE FEDERAL DO PARÁ CONSELHO SUPERIOR DE ENSINO, PESQUISA E EXTENSÃO RESOLUÇÃO N , DE 30 DE SETEMBRO DE 2010

Curso: Análise de Redes para Mídias Sociais. São Paulo 25 de Fevereiro de 2016

Método Dialético de Otimização usando o Princípio da Máxima Entropia

Regressão Linear Multivariada

Administração A. Significado da Administração

PRÓ-REITORIA DE ENSINO DE GRADUAÇÃO (PROENG) ASSESSORIA DE DESENVOLVIMENTO ASSESSORIA JURÍDICA

Engenharia de Software. Tema 1. Introdução à Engenharia de Software Profa. Susana M. Iglesias

UNIVERSIDADE PAULISTA GRADUAÇÃO EM ENFERMAGEM TREINAMENTO E DESENVOLVIMENTO DE PESSOAS

Classificação: Determinístico

MINISTÉRIO DA EDUCAÇÃO Universidade Federal de Alfenas. UNIFAL-MG

Engenharia de. Software Educacional. De onde surgiu. Papel do computador na sociedade. Equipe multidisciplinar Cuidados:

Novas Tecnologias Aplicadas à Educação O Paradigma Pedagógico da Informática Educativa Parte III. Prof. Hugo Souza

3 Qualidade de Software

Metodologia de Desenvolvimento de Software. Prof. M.Sc. Sílvio Bacalá Jr

Desenvolvimento de Sistemas BPMS. Jhonatas Vicente de Jesus

Introdução. Capítulo. 1.1 Considerações Iniciais

5. Ler cuidadosamente as mensagens de correio electrónico;

Figura 5.1.Modelo não linear de um neurônio j da camada k+1. Fonte: HAYKIN, 2001

Regulamento do Curso de. Mestrado Integrado em Engenharia Informática

Análise e visualização de dados utilizando redes neurais artificiais auto-organizáveis

Introdução à Ciência da Computação

Guia do Professor Introdução

ATIVIDADES PRÁTICAS SUPERVISIONADAS

O que é biodiversidade?

INF 1771 Inteligência Artificial

TÍTULO: COMPARAÇÃO ENTRE OS MÉTODOS DE BUSCA EM ESPAÇOS DE ESTADOS E O ALGORITMO DE DIJKSTRA

Ambiente de Simulação Virtual para Capacitação e Treinamento na Manutenção de. Disjuntores de Subestações de Energia Elétrica,

SIG. Uma plataforma para introdução de técnicas emergentes no planejamento urbano, regional e de transportes

UNIVERSIDADE ESTADUAL DE CAMPINAS. Instituto de Matemática, Estatística e Computação Científica

Paradigmas de Engenharia de Software

MINERAÇÃO DE DADOS APLICADA. Pedro Henrique Bragioni Las Casas

2 Classificação de Imagens de Sensoriamento Remoto

ATIVIDADES PRÁTICAS SUPERVISIONADAS

KDD. Fases limpeza etc. Datamining OBJETIVOS PRIMÁRIOS. Conceitos o que é?

Resumo. 1 Introdução. (jim, ramices)@das.ufsc.br

Plano Temático. 1. Introdução

Transcrição:

Introdução a Mineração de Dados Marcelo K. Albertini 17 de Abril de 2014

2/1 Organização do curso Prof. Marcelo Keese Albertini Sala: Bloco 1A - sala 1A230 Horário de atendimento: Sexta-feira 14h-17h ou com agendamento E-mail: marcelo.albertini arroba gmail Material da disciplina: http://www.facom.ufu.br/~albertini/md

3/1 A disciplina Objetivos apresentar principais tarefas e técnicas de mineração de dados habilitar o aluno implementar suas próprias ferramentas de mineração de dados habilitar o aluno aplicar mineração de dados em problemas práticos Habilidades para bom aproveitamento saber programar bom conhecimento de estruturas de dados (árvores) um pouco de geometria, cálculo e estatística leitura de textos em inglês

4/1 Atividades previstas Três trabalhos - 25 pontos 3 semanas para fazer cada mixto de implementação de algoritmos aplicação a conjuntos de dados reais exercícios Três provas - 80 pontos Prova 1-25 - 22/05/2014 Prova 2-25 - 17/07/2014 Prova 3-30 - 21/08/2014

5/1 Materiais de estudo Machine Learning, T. Mitchell. Pattern Classification (2nd ed.), R. Duda, P. Hart & D. Stork. Pattern recognition and machine learning, Christopher M. Bishop. Artigos científicos

Mineração de dados e aprendizado de máquina Mineração de dados A maior parte de mineração de dados hoje é realizada com algoritmos de aprendizado de máquina. Um avanço no paradigma de aprendizado de máquina valerá 10 Microsofts (Bill Gates, Microsoft) Aprendizado de máquina é a próxima Internet (Tony Tether, Ex-Diretor da DARPA) Motores de busca atualmente são uma questão de aprendizado de máquina (Prabhakar Raghavan, Ex-Diretor de Pesquisa do Yahoo) Machine Learning at Google raises deep scientific and engineering challenges. (Google Research http://goo.gl/ekpvh9) Google compra empresa de aprendizado de máquina DeepMind NASA por mais de US$500 milhões Janeiro/2014 6/1

7/1 O que é Aprendizado de Máquina? Automatizar automação Fazer computadores programarem eles mesmos A escrita de software é um gargalo para tratar dados disponíveis Permitir os dados fazerem o trabalho sozinhos Mineração de dados!

8/1 Mudança de paradigma Programação tradicional Dados + Programa computador saída Mineração de dados Dados + saída computador programa

9/1 Metáfora: agricultura Mineração de dados não é mágica, é como agricultura sementes = algoritmos nutrientes = dados agricultor = você plantas = programas

10/1 Exemplos de aplicações Motor de busca Web Finanças E-comércio Robótica Redes sociais Extração de informação Biologia computacional (projeto de remédios) Depuração de softwares Sua área favorita

11/1 Aprendizado de máquina Mineração de dados é feita por algoritmos de aprendizado de máquina Existem dezenas de milhares de algoritmos de aprendizado de máquina Todo algoritmo de aprendizado de máquina tem três componentes Representação Avaliação Otimização

12/1 Representação: a linguagem Qual linguagem usar? Componente mais estável de aprendizado de máquina. Árvores de decisão Conjuntos de regras / programas lógicos (Prolog) Aprendizado Baseado em Instâncias Modelos baseados em grafos (Redes Bayesianas/Markovianas) Representação de dependências Redes neurais competição biológica Máquinas de vetores suporte (instâncias + redes neurais) Mistura de modelos a melhor decisão é aquela mais votada

13/1 Avaliação: medidas Está funcionando? Após gerar um programa candidato, como saber se está bom? Acurácia quantos acertos das tentativas?

13/1 Avaliação: medidas Está funcionando? Após gerar um programa candidato, como saber se está bom? Acurácia quantos acertos das tentativas? Precisão e recuperação ORI

13/1 Avaliação: medidas Está funcionando? Após gerar um programa candidato, como saber se está bom? Acurácia quantos acertos das tentativas? Precisão e recuperação ORI Erro quadrático quantidade numérica

13/1 Avaliação: medidas Está funcionando? Após gerar um programa candidato, como saber se está bom? Acurácia quantos acertos das tentativas? Precisão e recuperação ORI Erro quadrático quantidade numérica Verossimilhança o que está acontecendo é provável?

13/1 Avaliação: medidas Está funcionando? Após gerar um programa candidato, como saber se está bom? Acurácia quantos acertos das tentativas? Precisão e recuperação ORI Erro quadrático quantidade numérica Verossimilhança o que está acontecendo é provável? Probabilidade a posteriori verossimilhança + conhecimento prévio

13/1 Avaliação: medidas Está funcionando? Após gerar um programa candidato, como saber se está bom? Acurácia quantos acertos das tentativas? Precisão e recuperação ORI Erro quadrático quantidade numérica Verossimilhança o que está acontecendo é provável? Probabilidade a posteriori verossimilhança + conhecimento prévio Custo/Utilidade na prática, custos diferentes para acertos e erros

13/1 Avaliação: medidas Está funcionando? Após gerar um programa candidato, como saber se está bom? Acurácia quantos acertos das tentativas? Precisão e recuperação ORI Erro quadrático quantidade numérica Verossimilhança o que está acontecendo é provável? Probabilidade a posteriori verossimilhança + conhecimento prévio Custo/Utilidade na prática, custos diferentes para acertos e erros Margem SVM: encontrar limite entre decisões

13/1 Avaliação: medidas Está funcionando? Após gerar um programa candidato, como saber se está bom? Acurácia quantos acertos das tentativas? Precisão e recuperação ORI Erro quadrático quantidade numérica Verossimilhança o que está acontecendo é provável? Probabilidade a posteriori verossimilhança + conhecimento prévio Custo/Utilidade na prática, custos diferentes para acertos e erros Margem SVM: encontrar limite entre decisões Entropia quantidade de informação

13/1 Avaliação: medidas Está funcionando? Após gerar um programa candidato, como saber se está bom? Acurácia quantos acertos das tentativas? Precisão e recuperação ORI Erro quadrático quantidade numérica Verossimilhança o que está acontecendo é provável? Probabilidade a posteriori verossimilhança + conhecimento prévio Custo/Utilidade na prática, custos diferentes para acertos e erros Margem SVM: encontrar limite entre decisões Entropia quantidade de informação Divergência Kullback-Liebler aumento relativo de informação

14/1 Otimização Como usar a linguagem para fazer funcionar? Formas de busca de soluções. Depende da linguagem e da avaliação. Otimização combinatorial Exemplo: busca greedy (gananciosa) Otimização convexa Gradiente descendente qual é a melhor direção Otimização com restrições Programação linear

15/1 Tipos de aprendizado Aprendizado supervisionado (indutivo) Dados de treino incluem saídas desejadas

15/1 Tipos de aprendizado Aprendizado supervisionado (indutivo) Dados de treino incluem saídas desejadas Aprendizado não-supervisionado Supervisão pode custar caro Mais difícil avaliar Dados de treino podem não incluir saídas desejadas Uso de informação lateral

15/1 Tipos de aprendizado Aprendizado supervisionado (indutivo) Dados de treino incluem saídas desejadas Aprendizado não-supervisionado Supervisão pode custar caro Mais difícil avaliar Dados de treino podem não incluir saídas desejadas Uso de informação lateral Aprendizado semi-supervisionado Dados de treino incluem algumas saídas desejadas Pouca supervisão + maior parte não supervisionada

15/1 Tipos de aprendizado Aprendizado supervisionado (indutivo) Dados de treino incluem saídas desejadas Aprendizado não-supervisionado Supervisão pode custar caro Mais difícil avaliar Dados de treino podem não incluir saídas desejadas Uso de informação lateral Aprendizado semi-supervisionado Dados de treino incluem algumas saídas desejadas Pouca supervisão + maior parte não supervisionada Aprendizado por reforço Aprendizado de sequência de ações Recompensa após sequência de ações

16/1 Aplicações Aprendizado Indutivo Detexify http://detexify.kirelabs.org/classify.html

17/1 Aplicações Aprendizado Indutivo Akinator http://pt.akinator.com/personnages/

18/1 Aplicações Aprendizado Indutivo Nciku http://www.nciku.com/

19/1 Aplicações Aprendizado Indutivo Amazon - concurso de identificação de credenciais de empregados (2013) http://www.kaggle.com/c/amazon-employee-access-challenge

Aprendizado indutivo Temos exemplos de uma função x,f( x) Devemos predizer função f( x) para exemplos x completamente novos f( x) discreto: classificação Exemplo: spam vs. não-spam f( x) contínuo: regressão Exemplo: predizer preço de imóveis f( x) = Probabilidade( x): Estimação de probabilidades Tipo especial de regressão Exemplo: qual a probabilidade do Atlético Mineiro ganhar do Corinthians? 20/1

21/1 O que veremos Aprendizado supervisionado 1. Indução de árvores de decisão 2. Indução de regras 3. Aprendizado baseado em instâncias 4. Aprendizado bayesiano/estatístico 5. Redes neurais 6. Teoria do aprendizado 7. Máquina de vetores-suporte 8. Mistura de modelos Aprendizado não supervisionado Agrupamento (redução do número de exemplos) Redução de dimensionalidade (redução do número de atributos)

22/1 Mineração de dados na prática 1. Entender o domínio, conhecimento a priori e objetivos Exemplo: projeto de novos remédios Duas pessoas: especialista no domínio e especialista em mineração 2. Integração de dados, seleção, limpeza, pré-processamento, e outros Consumo da maior parte do tempo 3. Modelos de aprendizado 4. Interpretação de resultados caixa preta vs. branca 5. Consolidação e uso do conhecimento descoberto 6. Iterar para melhorar aprendizado de máquina