Prof. Msc. Paulo Muniz de Ávila



Documentos relacionados
Data Mining Software Weka. Software Weka. Software Weka 30/10/2012

Sistema de mineração de dados para descobertas de regras e padrões em dados médicos

MINERAÇÃO DE DADOS APLICADA. Pedro Henrique Bragioni Las Casas

XIII Encontro de Iniciação Científica IX Mostra de Pós-graduação 06 a 11 de outubro de 2008 BIODIVERSIDADE TECNOLOGIA DESENVOLVIMENTO

Data Mining. Origem do Data Mining 24/05/2012. Data Mining. Prof Luiz Antonio do Nascimento

Extração de Árvores de Decisão com a Ferramenta de Data Mining Weka

Microsoft Innovation Center

A Grande Importância da Mineração de Dados nas Organizações

Fases para um Projeto de Data Warehouse. Fases para um Projeto de Data Warehouse. Fases para um Projeto de Data Warehouse

ADM041 / EPR806 Sistemas de Informação

No mundo atual, globalizado e competitivo, as organizações têm buscado cada vez mais, meios de se destacar no mercado. Uma estratégia para o

DATA WAREHOUSE. Introdução

UNIVERSIDADE FEDERAL DE SANTA CATARINA GRADUAÇÃO EM SISTEMAS DE INFORMAÇÃO DEPARTAMENTO DE INFORMÁTICA E ESTATÍSTICA DATA MINING EM VÍDEOS

Fluxo de trabalho do Capture Pro Software: Indexação de código de barras e separação de documentos

WEKA: The bird. Ferramenta Weka Waikato Environment for Knowledge Analysis. Ambiente WEKA. Explorer. Explorer. Explorer

Fluxo de trabalho do Capture Pro Software: Indexação de OCR e separação de documentos de código de correção

ISO/IEC 12207: Gerência de Configuração

Planejamento Estratégico de TI. Prof.: Fernando Ascani

Professor: Disciplina:

Microsoft Access: Criar consultas para um novo banco de dados. Vitor Valerio de Souza Campos

Algoritmos Indutores de Árvores de

MINERAÇÃO DE DADOS EDUCACIONAIS: UM ESTUDO DE CASO APLICADO AO PROCESSO SELETIVO DO IFSULDEMINAS CÂMPUS MUZAMBINHO

Novell. Novell Teaming 1.0. novdocx (pt-br) 6 April 2007 EXPLORAR O PORTLET BEM-VINDO DESCUBRA SEU CAMINHO USANDO O NOVELL TEAMING NAVIGATOR

Algoritmos Genéticos em Mineração de Dados. Descoberta de Conhecimento. Descoberta do Conhecimento em Bancos de Dados

Rational Requirements Composer Treinamento aos Analistas de Qualidade e Gestor das Áreas de Projeto


Administração de dados - Conceitos, técnicas, ferramentas e aplicações de Data Mining para gerar conhecimento a partir de bases de dados

Extração de Requisitos

Microsoft Access XP Módulo Um

Introdução ao EBSCOhost 2.0

Aprendizagem de Máquina

UTILIZANDO O SOFTWARE WEKA

Exemplo de Aplicação do DataMinig

Política de privacidade do Norton Community Watch

GUIA BÁSICO DA SALA VIRTUAL

Aula 4 Estatística Conceitos básicos

Orientação a Objetos

Extração de Conhecimento & Mineração de Dados

Banco de Dados - Senado

Banco de Dados Microsoft Access: Criar tabelas. Vitor Valerio de Souza Campos

Google Drive: Acesse e organize seus arquivos

DWARF DATAMINER: UMA FERRAMENTA GENÉRICA PARA MINERAÇÃO DE DADOS

Data Mining: Ferramenta JAVA

Inteligência Empresarial. BI Business Intelligence. Business Intelligence 22/2/2011. Prof. Luiz A. Nascimento

SAD. Paulo Silva, Rodolfo Ribeiro, Vinicius Tavares

GARANTIA DA QUALIDADE DE SOFTWARE

Gerencie a sala de espera e garanta a satisfação dos pacientes

Manual do usuário. v1.0

Como gerar arquivos para Sphinx Operador

Material de Apoio. SEB - Contas a Pagar. Versão Data Responsável Contato 1 05/12/2011 Paula Fidalgo paulaf@systemsadvisers.com

Introdução. Olá! Seja bem-vindo ao manager. O melhor sistema de marketing do mercado.

4. Que tipos de padrões podem ser minerados. 5. Critérios de classificação de sistemas de Data Mining. 6. Tópicos importantes de estudo em Data Mining

Banco de Dados Microsoft Access: Criar tabelas

COLETA DE INFORMAÇÕES E PREVISÃO DE DEMANDA

ALBUM DE FOTOGRAFIAS NO POWER POINT

Como conduzir com sucesso um projeto de melhoria da qualidade

Manual do Usuário - ProJuris Web - Biblioteca Jurídica Página 1 de 20

O Processo de KDD. Data Mining SUMÁRIO - AULA1. O processo de KDD. Interpretação e Avaliação. Seleção e Pré-processamento. Consolidação de dados

Data Mining: Conceitos e Técnicas

Bem-vindo ao Guia de Introdução - Utilitários

Aula 01 - Formatações prontas e condicionais. Aula 01 - Formatações prontas e condicionais. Sumário. Formatar como Tabela

Este tutorial está publicado originalmente em

O que é a ciência de dados (data science). Discussão do conceito. Luís Borges Gouveia Universidade Fernando Pessoa Versão 1.


Aula 09 - Atualização de uma tabela dinâmica. Aula 09 - Atualização de uma tabela dinâmica. Sumário. Atualizando a tabela dinâmica

AULA 1 Iniciando o uso do TerraView

Tabela e Gráficos Dinâmicos Como estruturar dinamicamente dados no Excel

Concepção e Elaboração

Manual de usuário. do sistema multicálculo CotakWeb

MANUAL DE UTILIZAÇÃO

MANUAL C R M ÍNDICE. Sobre o módulo de CRM Definindo a Campanha... 3

Introdução ao Tableau Server 7.0

ADMINISTRAÇÃO DE SISTEMAS OPERACIONAIS SERVIÇOS IMPRESSÃO. Professor Carlos Muniz

Manual do usuário. Softcall Java. versão 1.0.5

Capítulo 7 Medidas de dispersão

Data Warehouse. Debora Marrach Renata Miwa Tsuruda

Principais Benefícios. ESET Endpoint Antivírus

IMPLEMENTAÇÃO DE UM ALGORITMO DE PADRÕES DE SEQUÊNCIA PARA DESCOBERTA DE ASSOCIAÇÕES ENTRE PRODUTOS DE UMA BASE DE DADOS REAL

MANUAL COMO CRIAR UM PROJETO

TOTVS Gestão Hospitalar Manual Ilustrado Central de Material Esterilizado. 11.8x. março de 2015 Versão: 3.0

Auxiliar de instalação (Português Brasileiro) Primeiros passos

MANUAL DO ANIMAIL Terti Software

FUTURA SISTEMAS. Futura Mobile.

Manual de criação de envios no BTG360

Interatividade aliada a Análise de Negócios

Mapas Interativos de Saúde Ambiental: Principais Funções.

Microsoft Access: Criar relações para um novo banco de dados. Vitor Valerio de Souza Campos

Especificação do 3º Trabalho

Modelo para elaboração do Plano de Negócios

Universidade Tecnológica Federal do Paraná UTFPR Programa de Pós-Graduação em Computação Aplicada Disciplina de Mineração de Dados

Manual Operacional SIGA

PRIMAVERA RISK ANALYSIS

Manual de Utilização Autorizador

Oracle Applications and Technologies

EXEMPLO DE COMO FAZER UMA MALA DIRETA

O objetivo da Mineração de Dados é extrair ou minerar conhecimento de grandes volumes de

OFICINA BLOG DAS ESCOLAS

Sumário. Computação Gráfica Illustrator

Transcrição:

Prof. Msc. Paulo Muniz de Ávila

O que é Data Mining? Mineração de dados (descoberta de conhecimento em bases de dados): Extração de informação interessante (não-trivial, implícita, previamente desconhecida e potencialmente útil) dos dados armazenados em grandes massas de dados Nomes alternativos: Descoberta (mineração) de conhecimento em banco de dados (KDD), extração de conhecimento, análise de dados/padrões, business intelligence, etc. O que não é data mining? Processamento de consultas dedutivo. Sistemas especialistas ou pequenos programas estatísticos ou de aprendizado de máquina

Aplicações em Potencial Análise de dados e suporte a decisões Análise de mercado Marketing sob demanda, relação entre clientes, análise e segmentação de mercado, análise cruzada de dados, etc. Análise de risco Previsão, controle de qualidade, análise competitiva, análise de seguros Detecção de fraude Outras Aplicações Mineração de texto (news group, email, documentos XML e HTML) Web mining

Análise de Mercado (1) Quais são as fontes de dados para análise? Transações de cartões de crédito, cartões de fidelidade, cupons de desconto, serviços de televendas, estudos de comportamento (questionários públicos, web, etc.) Marketing sob demanda Descobrir grupos de modelos de clientes que compartilham as mesmas características: interesses, hábitos de compras, etc. Determinar padrões de compras no tempo Análise cruzada de dados Associações/co-relações entre vendas de produtos Previsão baseada nas associações determinadas

Análise de Mercado (2) Customer profiling Data mining pode mostrar que tipos de clientes compram que tipos de produtos (clustering ou classificação) Identificação das necessidades dos clientes Melhores produtos para diferentes clientes Modelos de predição para descobrir que fatores vão atrair novos clientes Informações sumárias Relatórios multidimensionais e estatísticos

Detecção de Fraude (1) Aplicações Largamente usada em serviços de saúde, cartões de créditos, telecomunicações (fraude de ligações telefônicas), etc. Técnicas Dados históricos para construir modelos de comportamento fraudulentos e usar mineração de dados para identificar instâncias similares Exemplos Seguro de automóveis: detecta um grupo de pessoas que são potenciais coletores de sinistros Lavagem de dinheiro: detecta transações suspeitas de dinheiro Seguro de saúde: detecta pacientes profissionais e grupo de outores usados para receber seguro destes pacientes

Detecção de Fraude (2) Detecção inapropriada de tratamento médico Comissão de Seguro de Saúde da Austrália identificou que em muitos casos os tratamentos não eram necessários (economia de $1milhão/ano). Detecção de fraudes telefônicas Modelo de ligações telefônicas: destino da ligação, duração, hora do dia, dia da semana. Análise de padrões que desviam do padrão esperado.

Data Mining: Uma Etapa do Processo KDD 1 - SELEÇÃO 2 - PRÉ-PROCESSAMENTO (Limpeza + Enriquecimento) 3 - TRANSFORMAÇÃO 5 4 - MINERAÇÃO 4 5 - INTERPRETAÇÃO 3 Regras e Padrões 2 Dados Pré-processados 1 Dados Dados Selecionados Dados Transformados Conhecimento

Etapas do Processo KDD Conhecer o domínio da aplicação: Conhecimento relevante e metas da aplicação Criar a base de dados alvo: seleção de dados Limpeza dos dados e pré-processamento: (até 60% do esforço!) Transformação dos dados: Contemplar propriedades importantes e dimensões. Escolha das funções do data mining sumarização, classificação, associação, clustering. Escolha dos algortimos de mineração Data mining: busca dos padrões de interesse Avaliação dos padrões descobertos e apresentação do conhecimento visualização, transformação, remoção de padrões redundantes, etc. Uso do conhecimento descoberto

Algoritmos de Mineração O algoritmo de mineração é o mecanismo que cria um modelo a partir das informações disponíveis na base de dados. Para criar um modelo, um algoritmo primeiro analisa um conjunto de dados e procura padrões e tendências específicos. O algoritmo usa os resultados dessa análise para definir os parâmetros do modelo de mineração. Esses parâmetros são aplicados pelo conjunto de dados inteiro para extrair padrões acionáveis e estatísticas detalhadas.

Weka O pacote de software Weka (Waikato Environment for Knowledge Analysis) começou a ser escrito em 1993, usando Java, na Universidade de Wakato, Nova Zelândia sendo adquirido posteriormente por uma empresa no final de 2006. O Weka encontra-se licenciado ao abrigo da General Public License sendo portanto possível estudar e alterar o respectivo código fonte. O Weka tem como objetivo agregar algoritmos provenientes de diferentes abordagens/paradigmas na subárea da inteligência artificial dedicada ao estudo da aprendizagem por parte de máquinas.

Weka Essa subárea pretende desenvolver algoritmos e técnicas que permitam a um computador "aprender" (no sentido de obter novo conhecimento) quer indutiva quer dedutivamente. O Weka procede à análise computacional e estatística dos dados fornecidos recorrendo a técnicas de dataminning tentando, indutivamente, a partir dos padrões encontrados gerar hipóteses para soluções e no extremos inclusive teorias sobre os dados em questão.

Tarefas de Mineração De acordo com os objetivos pretendidos, podem ser realizadas várias tarefas de mineração de dados. Uma tarefa é um conceito que define o modo como as informações serão mineradas. Pode ser visto como uma funcionalidade. O conjunto de tarefas realizadas sobre os dados disponíveis define a análise realizada em um dado intervalo de tempo. Uma tarefa pode utilizar-se de diferentes abordagens para alcançar os objetivos. Essas abordagens são conhecidas como técnicas.

Técnicas de Mineração As principais técnicas são: Classificação Agrupamento Regras de Associação

Classificação A classificação é um conceito bastante conhecido do homem. Essa tarefa consiste em categorizar os dados em classes previamente definidas de acordo com a similaridade de alguma característica dos dados. Por exemplo, em um supermercado podemos classificar os produtos em algumas classes prédefinidas: frios, laticínios, produtos de higiene, jardinagem, etc.

Weka Técnicas de Classificação Algoritmo J48 O algoritmo J48 fornece uma classificação de uma base de dados que lhe é fornecida. Ele gera um classificador na forma de uma árvore de decisão. Uma árvore de decisão descreve uma estrutura de árvore onde folhas representam classificações e ramos representam conjunções de características que levam às classificações Vamos a um exemplo no Weka

Weka Exemplo Após executar o software Weka Clique em Explorer.

Weka - Ambiente

Weka Exemplo Selecione Open File... Abrir o arquivo tempo.arff

Weka Arquivo ARFF @relation weather @attribute tempo {ensolarado, nublado, chuvoso} @attribute temperatura real @attribute humidade real @attribute ventando {TRUE, FALSE} @attribute jogar? {yes, no} @data ensolarado,85,85,false,no ensolarado,80,90,true,no nublado,83,86,false,yes chuvoso,70,96,false,yes chuvoso,68,80,false,yes chuvoso,65,70,true,no nublado,64,65,true,yes...

Weka Arquivo ARFF @relation weather @attribute tempo {ensolarado, nublado, chuvoso} @attribute temperatura real @attribute humidade real @attribute ventando {TRUE, FALSE} @attribute jogar? {yes, no} @data ensolarado,85,85,false,no ensolarado,80,90,true,no nublado,83,86,false,yes chuvoso,70,96,false,yes chuvoso,68,80,false,yes chuvoso,65,70,true,no nublado,64,65,true,yes 5/21/2010 University of Waikato 21

Explorando a GUI do Weka

Classificando com J48 Selecione o classificador J48 conforme Figura ao lado. Após selecionar clique em Close.

Classificando com J48

Classificando com o J48 Instâncias classificadas Corretamente/incorretamente

Classificando com o J48

Classificando com o J48

Classificando com o J48

Vamos testar nosso modelo Tempo Temperatura humidade Ventando Nublado 76 90 FALSE Ensolarado 80 86 TRUE Chuvoso 70 100 FALSE Como as instâncias são classificadas?

Testando o modelo Crie um arquivo chamado tempo_real.arff (wordpad) @relation weather_real_data @attribute tempo {ensolarado, nublado, chuvoso} @attribute temperatura real @attribute humidade real @attribute ventando {TRUE, FALSE} @attribute jogar? {yes, no} @data nublado,76,90,false,yes ensolarado,80,86,true,yes chuvoso,70,100,false,yes

Classificando com o J48 1 2 3

Classificando com o J48 O que ocorreu aqui? 1 instância classificada como incorreta.

Classificando com o J48

Classificando com o J48

Erros no modelo Às vezes nosso modelo contem algumas inconsistências. Vamos criar uma inconsistência no modelo e verificar se o classificador é capaz de detectala.

Inserindo a inconsistência Na base de dados tempo.arff insira a linha abaixo: nublado,70,80,true,no Execute novamente o treinamento necessário abri-lo novamente. do algoritmo. É

1 2

Erro detectado no modelo O que aconteceu?

Erro detectado no modelo

Mais um exemplo Vamos agora utilizar um outro algoritmo muito conhecido, o naive bayses. Este algoritmo recebe este nome porque é baseado na teoria da probabilidade de Bayes. O algoritmo tem por objetivo calcular a probabilidade de que um novo dado pertença a alguma classe previamente determinada [Pichiliani 2007]. Este tipo de predição é chamado de classificação estatística, pois é completamente baseada em probabilidades.

Naive Bayses

Naive Bayses Analise a saída do algoritmo? Alguma classe classificada de forma incorreta? Visualize a classificação de erros 1 2

Agrupamento A tarefa de agrupamento é bastante parecida com a de classificação. A diferença fundamental é que na classificação, as classes já estão definidas previamente, enquanto que no agrupamento, as classes são definidas durante a tarefa de acordo com o estabelecimento do conjunto de atributos que devem nortear essa categorização

Agrupamento Observe o agrupamento definido na base de dados. Temos 2 grupos: Jogar/SIM = 9 Jogar/NÃO = 5

Agrupamento Para o nosso propósito é importante que os dados não estejam categorizados em Jogar/SIM ou Jogar/Não. Em outras palavras, queremos que o algoritmo de agrupamento seja capaz de inferir esses grupos de forma automática. Sendo assim, precisamos remover o atributo jogar? da nossa base de dados. O Weka irá nos ajudar nessa tarefa.

1 2

4 1 2 3

Agrupamento

Agrupamento

Agrupamento Output

Agrupamento O algoritmo foi eficiente par a essa base de dados? Lembre-se dos dados originais. Observe o agrupamento definido na base de dados. Temos 2 grupos: Jogar/SIM = 9 Jogar/NÃO = 5

Associação Essa tarefa visa identificar grupos de fatos que ocorrem em conjunto ou de forma condicionada. A área de utilização mais comum desse tipo de tarefa é a área de vendas. Busca identificar-se relacionamentos e associações entre produtos para o estabelecimento de pacotes, ou rearranjo de prateleiras. Por exemplo. Se 50% dos consumidores que compram o produto A comprarem também o produto B, colocar esses produtos em prateleiras próximas ou estimular o consumo em conjunto desses itens certamente trará resultados benéficos para as vendas.

Algoritmo Apriori Apriori é um algoritmo clássico para aprendizado de regras de associação. Apriori é utilizado com bases de dados que contém transações (como por exemplo, conjuntos de itens comprados por consumidores). Como é comum em mineração de associações, dado um conjuntos de itens, o algoritmo tenta encontrar subconjuntos em comum que estejam acima de uma confiança mínima definida pelo utilizador.

Weka Apriori Trabalha apenas com atributos nominais e binários OK

Weka Apriori Trabalha apenas com atributos nominais e binários Problema!!!!

Weka Apriori É possível converter atributos? SIM e o software Weka provê esses recursos.

Weka Apriori - Filtros 1 2

Weka Apriori - Filtros 4 1 2 3

Melhorando as regras

Exercícios Suponha que você deseje treinar um sistema para que seja capaz de detectar se uma determinada pessoa é homem ou mulher. Quais atributos você acredita ser necessário? Monte um arquivo ARFF com 10 instâncias e verifique a eficiência do modelo criado?