Descoberta de Conhecimento em Banco de Dados: Fundamentos, Ferramentas e Aplicações

Documentos relacionados
MINERAÇÃO DE DADOS APLICADA. Pedro Henrique Bragioni Las Casas

Data Mining. Origem do Data Mining 24/05/2012. Data Mining. Prof Luiz Antonio do Nascimento

Extração de Árvores de Decisão com a Ferramenta de Data Mining Weka

Fases para um Projeto de Data Warehouse. Fases para um Projeto de Data Warehouse. Fases para um Projeto de Data Warehouse

Prof. Msc. Paulo Muniz de Ávila

ADM041 / EPR806 Sistemas de Informação

Planejamento Estratégico de TI. Prof.: Fernando Ascani

CRM. Customer Relationship Management

No mundo atual, globalizado e competitivo, as organizações têm buscado cada vez mais, meios de se destacar no mercado. Uma estratégia para o

Resumo dos principais conceitos. Resumo dos principais conceitos. Business Intelligence. Business Intelligence

Professor: Disciplina:

Planejamento Estratégico de TI. Prof.: Fernando Ascani

ARCO - Associação Recreativa dos Correios. Sistema para Gerenciamento de Associações Recreativas Plano de Desenvolvimento de Software Versão <1.

Sistema de mineração de dados para descobertas de regras e padrões em dados médicos

Sistema. Atividades. Sistema de informações. Tipos de sistemas de informação. Everson Santos Araujo

Inteligência Empresarial. BI Business Intelligence. Business Intelligence 22/2/2011. Prof. Luiz A. Nascimento

SAD. Paulo Silva, Rodolfo Ribeiro, Vinicius Tavares

Aprendizagem de Máquina

Planejamento Estratégico de TI. Prof.: Fernando Ascani

Universidade de Brasília. Faculdade de Ciência da Informação. Prof a Lillian Alvares

CRM - Customer Relationship Management

Como melhorar a tomada de decisão. slide 1

Universidade de Brasília. Departamento de Ciência da Informação e Documentação. Prof a.:lillian Alvares

Interatividade aliada a Análise de Negócios


MATERIAL DIDÁTICO: APLICAÇÕES EMPRESARIAIS SISTEMA DE APOIO À DECISÃO (SAD)

Pós-Graduação "Lato Sensu" Especialização em Análise de Dados e Data Mining

Introdução a Computação

Pós-Graduação em Gerenciamento de Projetos práticas do PMI

Data Mining: Ferramenta JAVA

BRAlarmExpert. Software para Gerenciamento de Alarmes. BENEFÍCIOS obtidos com a utilização do BRAlarmExpert:

ADMINISTRAÇÃO DE SISTEMAS DE INFORMAÇÃO (AULA 04)

Identificar as mudanças que acontecem na forma e no uso de apoio à decisão em empreendimentos de e-business. Identificar o papel e alternativas de

Unidade I FINANÇAS EM PROJETOS DE TI. Prof. Fernando Rodrigues

Resumo do BABok 2.0 O Guia de Referência de Análise de Negócio Curso de Analista de Negócio 3.0

Banco do Brasil S.A. Consulta ao Mercado - RFP - Request for Proposa Aquisição de Ferramenta de Gestão de Limites Dúvida de Fornecedor

Na medida em que se cria um produto, o sistema de software, que será usado e mantido, nos aproximamos da engenharia.

Fornecendo Inteligência, para todo o mundo, a mais de 20 anos.

O que é a ciência de dados (data science). Discussão do conceito. Luís Borges Gouveia Universidade Fernando Pessoa Versão 1.

TI Aplicada. Aula 02 Áreas e Profissionais de TI. Prof. MSc. Edilberto Silva prof.edilberto.silva@gmail.com

MASTER IN PROJECT MANAGEMENT

Tecnologia em Gestão Pública Desenvolvimento de Projetos - Aula 9 Prof. Rafael Roesler

Universidade de Brasília. Faculdade de Ciência da Informação. Profa. Lillian Alvares

Gestão do Conhecimento A Chave para o Sucesso Empresarial. José Renato Sátiro Santiago Jr.

Programa do Curso de Pós-Graduação Lato Sensu MBA em Business Intelligence (BI)

DATA WAREHOUSE NO APOIO À TOMADA DE DECISÕES

Modelagem e Simulação

Prova de Conhecimento para Consultores de Implementação MPS.BR INSTRUÇÕES

PRIAD: GESTÃO DE RELACIONAMENTO COM CLIENTES

XIII Encontro de Iniciação Científica IX Mostra de Pós-graduação 06 a 11 de outubro de 2008 BIODIVERSIDADE TECNOLOGIA DESENVOLVIMENTO

Processos de Desenvolvimento de Software

Análise do Ambiente estudo aprofundado

Respostas da Lista de Exercícios do Módulo 1: Fundamentos dos SI. Resposta do Exercício 1

APOO Análise e Projeto Orientado a Objetos. Requisitos

Thalita Moraes PPGI Novembro 2007

Tópicos em Engenharia de Software (Optativa III) AULA 2. Prof. Andrêza Leite (81 )

Gerência de Projetos Prof. Dr. Sandro Ronaldo Bezerra Oliveira

VANTAGEM ESTRATÉGICA. Assunto: Administração do Conhecimento

Felipe Pedroso Castelo Branco Cassemiro Martins BALANCED SCORECARD FACULDADE BELO HORIZONTE

Laudon & Laudon Essentials of MIS, 5th Edition. Pg. 1.1

4. Que tipos de padrões podem ser minerados. 5. Critérios de classificação de sistemas de Data Mining. 6. Tópicos importantes de estudo em Data Mining

UNIVERSIDADE FEDERAL DE SANTA CATARINA GRADUAÇÃO EM SISTEMAS DE INFORMAÇÃO DEPARTAMENTO DE INFORMÁTICA E ESTATÍSTICA DATA MINING EM VÍDEOS

Professor Severino Domingos Júnior Disciplina: Gestão de Compras e Estoques no Varejo

Sistemas de Gerenciamento do Relacionamento com o Cliente (Customer Relationship Management CRM)

MetrixND. especificações. MetrixND - Ferramenta de previsão de energia elétrica

GESTÃO DE PROJETOS PARA A INOVAÇÃO

A Grande Importância da Mineração de Dados nas Organizações

Universidade de Brasília Departamento de Ciência da Informação e Documentação Programa de Pós Graduação em Ciência da Informação Prof a.

Trilhas Técnicas SBSI

Portaria Inep nº 249, de 02 de junho de Publicada no Diário Oficial da União em 04 de junho de 2014.

PRIMAVERA RISK ANALYSIS

CONCURSO PÚBLICO ANALISTA DE SISTEMA ÊNFASE GOVERNANÇA DE TI ANALISTA DE GESTÃO RESPOSTAS ESPERADAS PRELIMINARES

Data Mining: Conceitos e Técnicas

PROCESSO DE DESENVOLVIMENTO DE SOFTWARE. Modelos de Processo de Desenvolvimento de Software

O que significa esta sigla?

EXECUTIVE GESTÃO ESTRATÉGICA

)HUUDPHQWDV &RPSXWDFLRQDLV SDUD 6LPXODomR

Glossário Apresenta a definição dos termos, siglas e abreviações utilizadas no contexto do projeto Citsmart.

Programação com acesso a BD. Prof.: Clayton Maciel Costa clayton.maciel@ifrn.edu.br

DATA WAREHOUSE. Introdução

Uma estrutura (framework) para o Business Intelligence (BI)

CUSTOMER RELATIONSHIP MANAGEMENT

Microsoft Innovation Center

Banco de Dados Aula 1 Introdução a Banco de Dados Introdução Sistema Gerenciador de Banco de Dados

Análise e Projeto de Sistemas. Engenharia de Software. Análise e Projeto de Sistemas. Contextualização. Perspectiva Histórica. A Evolução do Software

Service Level Management SLM. Gerenciamento de Níveis de Serviço

Lista de verificação (Check list) para planejamento e execução de Projetos

Metodologia e Gerenciamento do Projeto na Fábrica de Software v.2

Fundamentos de Sistemas de Informações: Exercício 1

O papel do bibliotecário na Gestão do Conhecimento. Profª Dr a Valéria Martin Valls Abril de 2008

Portaria Inep nº 190 de 12 de julho de 2011 Publicada no Diário Oficial de 13 de julho de 2011, Seção 1, pág. 13

CEAP CENTRO DE ENSINO SUPERIOR DO AMAPÁ CURSO DE ADMINISTRAÇÃO DISCIPLINA COMÉRCIO ELETRÔNICO PROF. CÉLIO CONRADO

Oficina de Gestão de Portifólio

Capítulo 13: Tecnologia da Informação. Prof.: Roberto Franciscatto

Feature-Driven Development

Estruturando o modelo de RH: da criação da estratégia de RH ao diagnóstico de sua efetividade

Exemplo de Aplicação do DataMinig

Transcrição:

Descoberta de Conhecimento em Banco de Dados: Fundamentos, Ferramentas e Aplicações Prof. Dr. Paulo Roberto Schroeder de Souza Artefatos para a Inteligência

DCBD 2 Agenda CONTEXTUALIZAÇÃO Inteligência Organizacional METODOLOGIAS CRISP-DM Modelagem do conhecimento FERRAMENTAS WEKA APLICAÇÕES xxx

DCBD 3 Inteligência Organizacional Aprendizagem Organizacional Habilidade de uma empresa aprender e rapidamente traduzir em ações o conhecimento como um meio eficaz de atingir vantagem competitiva O que uma empresa conhece, como usa o que conhece e com que rapidez pode assimilar algo novo Um dos objetivos da Inteligência Organizacional: Melhorar a qualidade da tomada de decisão em todos os níveis da organização, através do aumento do acesso às informações e da redução do problema de sobrecarga de informações.

DCBD 4 Inteligência Organizacional Ciclo do conhecimento COMPREENSÃO, ANÁLISE, SÍNTESE Técnicas de visualização,... DESCOBERTA DE CONHECIMENTO Projeto de busca de padões, Data Mining, Estatística,... ORGANIZAÇÃO/TRANSFORMAÇÃO/ANÁLISE Data Warehouse, Data Mart, OLAP, consultas, relatórios,... COLETA Papel, arquivos, bases de dados operacionais,... Decisão Conhecimento Informação Dado Realidade Potencial de apoio a decisões estratégicas AÇÃO

DCBD 5 Inteligência Organizacional Contexto de organizações no mundo competitivo (O modelo das 5 forças de Porter)

DCBD 6 Inteligência Organizacional Definição Conjunto de conceitos e metodologias que, fazendo uso de acontecimentos (fatos) e sistemas baseados nesses acontecimentos, apóia a tomada de decisões em negócios Elementos técnico-organizacionais Database Marketing CRM Balanced Scorecard Data warehousing BI DCBD Negócio Inteligência Organizacional Gestão Tecnologia da Informação

DCBD 7 Inteligência Organizacional Para que sistemas de IO? Database Marketing ( Marketing de precisão ) Ajuda a melhorar os contatos futuros e assegura um planejamento mais realista do marketing Usa canais e meios de comunicação de marketing para: Ampliar a ajuda na busca do público-alvo da empresa Estimular a demanda de seu público Estar perto do público, registrando e mantendo uma memória eletrônica sobre clientes, clientes potenciais, todos os contatos comerciais e de comunicação

DCBD 8 Inteligência Organizacional Para que sistemas de IO? CRM (Customer Relationship Management) Estratégia de negócio voltada ao atendimento e à antecipação das necessidades dos clientes atuais e potenciais Envolve...... a captura dos dados dos clientes ao longo de toda a empresa... a consolidação em um banco de dados central... a análise e distribuição dos resultados da análise para todos os pontos de contato, utilizando as informações ao interagir com os clientes por meio de qualquer ponto de contato com a empresa Engloba...... conceitos, métricas, processos, soluções, gestão de canais e estratégias... ferramentas das áreas de marketing, vendas e serviços

DCBD 9 Inteligência Organizacional Para que sistemas de IO? Balanced Scorecard Sistema de gestão da estratégia a longo prazo Busca traduzir a missão e a estratégia das organizações num conjunto abrangente de desempenho como base para um sistema de medição e gestão estratégica Empresas podem adotar esta metodologia para... Esclarecer e obter consenso em relação à estratégia Comunicar a estratégia a toda a organização Alinhar as metas departamentais e pessoais à estratégia corporativa Associar objetivos estratégicos metas de longo prazo orçamentos anuais Identificar e alinhar as iniciativas estratégicas Realizar revisões estratégicas periódicas e sistemáticas Obter feedback p/aprofundar o conhecimento da estratégia e aperfeiçoá-la

DCBD 10 Inteligência Organizacional Sistemas de Suporte à Decisão Problema: Explosão de dados Ferramentas automáticas de coleta de dados e tecnologia madura de armazenamento acarretam o surgimento de grandes bancos de dados e outros repositórios de informação Estamos nos afogando em dados, mas carentes de conhecimento! Excesso de dados nas Organizações Disseminação de sistemas de informação (aplicações) Eficiência para coletar e armazenar grandes volumes de dados Dificuldade de se extrair informações táticas e estratégicas e se obter conhecimento dos negócios Sistemas de Suporte à Decisão

DCBD 11 Inteligência Organizacional Sistemas de Suporte à Decisão... necessitam de informação / conhecimento (Análises, Diagnósticos, Recomendações, Ações realizadas / em curso,...) Devem extrair e integrar dados de múltiplas fontes Servem-se da experiência para analisar dados contextualizados Trabalham com hipóteses (criação de cenários) Procuram relações de causa/efeito Transformam os registros obtidos em informação útil para o conhecimento empresarial

DCBD 12 Inteligência Organizacional Onde está o conhecimento das Organizações? Conhecimento refere-se à habilidade de criar um modelo mental que descreva objetos e indique ações a realizar Conhecimento tácito, segundo a gestão do conhecimento, Está nas pessoas (Experiências, casos, rotinas, observações, requisitos, códigos, especificações, mensagens,...) Não permite representação Difícil de explicar e se elicitar Se torna dados e informação quando assume forma explícita Conhecimento explícito ( informação ) Bases de Dados, documentos, correspondências, arquivos, livros, filmes, textos, planilhas,..

DCBD 13 Inteligência Organizacional Onde está o conhecimento das Organizações? Conhecimento na IA IA busca viabilizar a transferência desses processos para sistemas capazes de simular o processo de decisão do ser humano Representação do conhecimento Simbólica (Frames, Redes Semânticas, Ontologias, Regras de Produção, Árvores de Decisão,...) Conexionista (Redes Neurais Artificiais) Métodos de aprendizagem Agrupamento - Clustering (Não supervisionados) Classificação (Supervisionados) Associação... if... then...

DCBD 14 Inteligência Organizacional Explicitação do conhecimento Processo de articulação do conhecimento tácito em conceitos explícitos. O tácito se torna explícito expresso na forma de metáforas, analogias, Elicitação de conceitos, hipóteses ou modelos. (Nonaka & Takeuchi) conhecimento Engenharia do conhecimento CommonKADS Modelo organizacional Modelo Tarefas Modelo Agentes Modelo Conhecimento Modelo Comunicação Modelo Projeto Descoberta de conhecimento (Reconhecimento de padrões) Fayyad CRISP-DM

DCBD 15 CRISP-DM Introdução CRISP-DM = Cross Industry Standard Process for Data Mining Projeto que padroniza conceitos e técnicas na busca de informações em banco de dados Surgiu a partir da experiência de três empresas pioneiras no setor (1996): DaimlerChrysler - Aplica análises de data mining em seus negócios NCR - Provê soluções de datawarehouse SPSS - Disponibiliza soluções baseadas no processo de mineração de dados Padroniza os passos do processo de descoberta de conhecimento e sua aplicação em diferentes mercados, independente do segmento Agiliza grandes projetos de DCBD, com mais eficiência e com menor custo Pode ser usada por qualquer analista de informações, tendo como base qualquer software de DM Manual disponível em www.crisp-dm.org

DCBD 16 CRISP-DM Fases Compreensão do problema Compreensão dos dados Preparação dos dados Modelagem Avaliação Aplicação (Deployment)

DCBD 17 CRISP-DM Compreensão do problema 1.1 - Objetivos do negócio Plano de fundo Objetivos do negócio Critério de sucesso do negócio 1.2 - Avaliação da situação Inventário de recursos Exigências, suposições e limitações Riscos e contingências Terminologia Custos e benefícios 1.3 - Objetivos do data mining (DCBD) Objetivos do data mining Critério do sucesso do data mining 1.4 - Plano de projeto Plano de projeto Avaliação inicial de ferramentas e técnicas

DCBD 18 CRISP-DM Entendimento dos dados 2.1 - Coleta inicial dos dados Relatório da coleta inicial dos dados 2.2 - Descrição dos dados Relatório da descrição dos dados 2.3 - Exploração de dados Relatos da exploração de dados 2.4 - Verificação da qualidade dos dados Relatório de qualidade dos dados

DCBD 19 CRISP-DM Preparação dos dados 3.1 - Seleção dos dados Racionalização para inclusão/exclusão 3.2 - Limpeza dos dados Relatório da limpeza de dados 3.3 -Construção dos dados Atributos derivados Registros gerados 3.4 - Integração dos dados Dados combinados 3.5 - Formatação dos dados Dados reformatados

DCBD 20 CRISP-DM Modelagem 4.1 - Seleção da técnica de modelagem Técnica de modelagem 4.2 - Geração do design de teste Design de teste 4.3 - Construção do modelo Ajustes de parâmetros Modelos Descrição dos modelos 4.4 - Avaliação do modelo (Acurácia e generalidade do modelo) Avaliação do modelo (Validação cruzada, taxas de erro, etc) Avaliação do modelo revisado

DCBD 21 CRISP-DM Avaliação do modelo 5.1 - Avaliar resultados Avaliação dos resultados do data mining a respeito dos critérios do sucesso do negócio Modelos aprovados 5.2 - Processo de revisão Revisão do processo 5.3 - Determinação dos próximos passos Lista das ações possíveis Decisão

DCBD 22 CRISP-DM Aplicação (Deployment) 6.1 - Planejamento da implantação Plano de implantação 6.2 - Planejamento do monitoramento e manutenção Plano de monitoramento e manutenção 6.3 - Produção do relatório final Relatório final Apresentação final 6.4 - Revisão o projeto Documentação de experiências Exemplos: Estruturação de Call Center com televendas Marketing de precisão baseado em segmentação de mercado Refinamento de perfis de clientes Combate a fraudes (cartões de crédito, TRE, TCU, CGU, etc). Gestão epidemiológica Gestão de Ciência & Tecnologia Avaliação do cumprimento de objetivos

DCBD 23 Modelagem do conhecimento Objetivo: construção de uma base de conhecimento... Base de Conhecimento IF... THEN... Modelo organizacional Modelo Tarefas Modelo Agentes IF... THEN... IF... THEN... IF... THEN... Modelo Conhecimento Modelo Comunicação Modelo Projeto

DCBD 24 Modelagem do conhecimento... no contexto organizacional Benchmarking, Monitoramento, Head-hunting,... Inteligência Competitiva Coleta/Busca, Captura,... INTERNET GC Rotinas Livros e-mail IO Requisitos Gravações DW Código de sistemas Bases de dados Regras de negócio Casos Textos Filmes Planilhas Especificações Documentos Experiências Observações OLAP Data Mart Método empírico Engenharia do Conhecimento Reconhecimento de Padrões Método analítico Base de Conhecimento Sistemas de Suporte à Decisão

DCBD 25 Modelagem do conhecimento Data Mining Utiliza técnicas sofisticadas de análise estatística e modelagem (aprendizagem de máquina) para descobrir padrões e relações escondidas nas bases de dados das organizações Padrões que métodos tradicionais não encontrariam! Padrões encontrados pela construção de modelos (representações abstratas da realidade) Um bom modelo ajuda a compreender um negócio e sugere ações que podem ajudar uma organização a ter sucesso É um processo iterativo!

DCBD 26 Modelagem do conhecimento Data Mining Treino (estimativa) do modelo com um conjunto dos dados Teste com os dados restantes Às vezes, é preciso uma validação com um terceiro grupo de dados (grupo de validação) Dados de teste podem ser um fatores de influência no modelo Grupo de validação atua como uma medida independente da precisão do modelo BD Treino Teste Mineração Modelo Teste Acurácia Treinamento BD 1 BD 2 A precisão resultante é uma boa estimativa para como o modelo se irá comportar com futuras bases de dados Isto não garante que o modelo está correto! Se mesma técnica fosse utilizada numa sucessão de bases com dados semelhantes aos de treino e teste, a precisão média estaria próxima à obtida desta forma Por melhor que seja a precisão, não há garantia de que o modelo reflita de fato o mundo real Existem sempre circunstâncias que podem levar a modelos incorretos Teste BD 3 BD 2 BD 3 BD 1 Ac 1 BD 1 BD 3 BD 2 Ac 2 Ac 3 Ac

DCBD 27 Modelagem do conhecimento Data Mining Tecnologias de suporte Conhecimento if... then... Informação DM DM OLAP DW Dado

DCBD 28 Modelagem do conhecimento Data Mining O que Data Mining pode fazer Data Mining permite Confirmar relações empíricas Descobrir padrões novos e úteis Pode trazer melhoria de desempenho, se comparado com os que não utilizam eficientemente estas técnicas Às vezes, descobre-se fatos que podem conduzir a melhorias radicais no negócio! O que Data Mining NÃO pode fazer Não se pode prescindir de conhecer o negócio, compreender os dados disponíveis ou de compreender os métodos analíticos Ajuda a encontrar padrões nos dados, mas nada diz sobre seu valor para a organização! Os padrões encontrados devem ser verificados no mundo real! É conveniente que se compreenda o funcionamento das ferramentas escolhidas e os algoritmos em que se baseiam! Não encontra respostas a perguntas que não se fez deve-se saber a priori o tipo de padrão que se procura Não substitui analistas e gestores de negócio, mas lhes oferece uma poderosa ferramenta para melhorarem o seu trabalho!

DCBD 29 Modelagem do conhecimento Data Mining Modelos preditivos Utilizam dados com resultados conhecidos para desenvolver um modelo que possa ser utilizado para prever valores para diferentes dados Fazem uma previsão explícita Modelos descritivos Descrevem padrões em dados existentes, que podem ser utilizados para guiar decisões Podem ser utilizados para ajudar a construir um modelo preditivo ou para fazer uma previsão implícita quando formam a base para uma ação ou decisão Data Mining Atividades preditivas Atividades descritivas Classificação Séries Regressão Regras de Clustering temporais associação Sumarização

DCBD 30 Modelagem do conhecimento Atividades preditivas Classificação É preciso identificar as características ou casos que indicam a que grupo cada caso pertence Utilizado para compreender os dados existentes e para prever a classe de novas instâncias (variável discreta) Os modelos de classificação são criados examinando dados previamente classificados (casos) e ajustando-se o modelo em construção para mapear o padrão preditivo Os casos existentes podem derivar de uma base de dados histórica ou de uma experiência em que uma amostra de uma base de dados é testada no mundo real Regressão Funciona como a classificação, tendo como saída um valor numérico (variável contínua) No caso mais simples, utilizam-se técnicas estatísticas padrão, como regressão linear No entanto, a maioria dos problemas reais não são projeções lineares, demandando métodos mais sofisticados (geração de modelos não lineares) Séries temporais Baseia-se na evolução temporal para, dados valores referentes a um determinado momento, prever valores em momentos futuros Consideram-se propriedades temporais diferenciadoras, como sazonalidade, efeitos do calendário (feriados),...

DCBD 31 Modelagem do conhecimento Atividades descritivas Agrupamento (Clustering) Divide a base de dados em grupos diferentes Encontrar grupos diferentes cujos membros são aparentemente semelhantes Ao contrário da classificação, não há uma variável que identifique os grupos, ou por quais atributos os dados serão agrupados Os grupos devem ser analisados por alguém que conheça muito bem o negócio Associações Identifica co-ocorrência de valores que caracterizam os casos Por exemplo, itens que, com frequência, aparecem juntos em compras de supermercado Descobrem regras do tipo: Sequenciamento Se o item A é parte de um evento, então em x% das vezes (fator de confiança) o item B também é parte do evento Funciona como a associação, mas os itens relacionados ocorrem em tempos diferentes Para se encontrar seqüências, além da captura dos detalhes de cada transação, é preciso garantir a a origem única de cada sequência Por exemplo, em análise de logs, é preciso associar cada clickstream a um único ator

DCBD 32 Modelagem do conhecimento Técnicas Análise Estatística Árvores de Decisão (ID3 e suas derivações,...) Redes Neurais (MLP,...) Agrupamento (K-médias,...) Associação (Apriori,...)...

DCBD 33 Modelagem do conhecimento Técnicas Estatística Estuda a coleta, organização e interpretação de dados numéricos Assim como Data Mining, tenta encontrar padrões e regularidades nos dados Data Mining se serve da Estatística para descoberta de padrões, cálculo de aproximações, médias, taxas de erro e desvios Técnicas estatísticas mais utilizadas Técnicas baseadas em modelos lineares e não-lineares Amostragem Avaliação de hipóteses e do conhecimento obtido Modelo bayesiano Análise multivariada

DCBD 34 Modelagem do conhecimento Técnicas Classificação CONHECIMENTO DO DOMÍNIO Especialista CONHECIMENTO DO DOMÍNIO Variáveis independentes (atributos) Variável dependente (classe) X 1 X 2... X m Y Classificador Especificação do problema T 1 x 11 x 12... x 1m Y 1 T 2 x21 x 22... x 2m Y 2...... T n x 1n x 2n x nm Y n Aprendizado de máquina Dados brutos Avaliação

DCBD 35 Modelagem do conhecimento Técnicas Árvores de Decisão Dívida 20000 10000 100 o R 1 o R 4 o o o o o x x o x R 3 x x x o o R 2 1000 10000 o R 1 : Se R 1000 Então Não rentável R 2 : Se 1000 < R < 10.000 E D 100 Então Não rentável R 3 : Se 1000 < R < 10.000 E 100 < D < 10.000 Então Rentável R 4 : Se 1000 < R < 10.000 E D 10.000 Então Não rentável R 5 : Se R 10.000 E D < 20.000 Então Rentável R 6 : Se R 10.000 E D 20.000 Então Não rentável o o o x o x R 6 R 5 Renda Neste caso, o diagrama de retângulos é a representação mais adequada para se visualizar a partição do espaço de características gerada pela árvore de decisão Todos os pontos dentro de um retângulo são classificados da mesma forma, pois todos satisfazem a regra que define o retângulo

DCBD 36 Modelagem do conhecimento Técnicas Árvores de Decisão X 1 Raiz <a 1 >a 1 X 2 Regra X 2 X 2 Nó a 3 <a 3 >a 3 <a 2 >a 2 X 1 a 2 <a 4 >a 4 a 4 a 1 X 1

DCBD 37 Modelagem do conhecimento Técnicas Árvores de Decisão Árvore pensada

DCBD 38 Modelagem do conhecimento Técnicas Árvores de Decisão Ganho de informação E 1 E 7 E 11 Sono Pouco Pouco Não Transporte Carro Carro Carro UCB Sim Sim Não Álcool Sim Não Sim Sair Não Sim Sim Fome Sim Sim Sim Vai pra balada? Sim Sim Sim E 3 Sim Carro Não Sim Sim Sim Não E 9 Sim Carro Não Sim Sim Não Não E 2 Pouco Carona Não Não Sim Sim Sim E 4 Pouco Carona Não Não Sim Não Sim E 12 Não Carona Não Sim Sim Sim Sim E 8 Pouco Carona Não Não Não Sim Não E 10 Não Outros Sim Sim Sim Não Sim E 5 Sim Outros Sim Sim Sim Não Não E 6 Pouco Outros Não Sim Não Sim Não Transporte? carro carona outros +: {E 1, E 7, E 11 } : {E 3, E 9 } +: {E 2, E 4, E 12 } : {E 8 } +: {E 10 } : {E 5, E 6 }

DCBD 39 Modelagem do conhecimento Técnicas Árvores de Decisão Ganho de informação E 1 E 2 E 4 Sono Pouco Pouco Pouco Transporte Carro Carona Carona UCB Sim Não Não Álcool Sim Não Não Sair Não Sim Sim Fome Sim Sim Não Vai pra balada? Sim Sim Sim E 7 Pouco Carro Sim Não Sim Sim Sim E 6 Pouco Outros Não Sim Não Sim Não E 8 Pouco Carona Não Não Não Sim Não E 3 Sim Carro Não Sim Sim Sim Não E 5 Sim Outros Sim Sim Sim Não Não E 9 Sim Carro Não Sim Sim Não Não E 10 Não Outros Sim Sim Sim Não Sim E 11 Não Carro Não Sim Sim Sim Sim E 12 Não Carona Não Sim Sim Sim Sim Sono? sim pouco não +: {} : {E 3, E 5, E 9 } +: {E 1, E 2, E 4, E 7 } : {E 6, E 8 } +: {E 10, E 11, E 12 } : {}

DCBD 40 Modelagem do conhecimento Técnicas Árvores de Decisão Árvore calculada

DCBD 41 Modelagem do conhecimento Técnicas Redes Neurais Artificiais Técnica computacional que utiliza modelos matemáticos inspirados na estrutura neural de organismos inteligentes e que adquirem conhecimento através da experiência

DCBD 42 Modelagem do conhecimento Técnicas Redes Neurais Artificiais

DCBD 43 Modelagem do conhecimento Técnicas Redes Neurais Artificiais Iniciar todas as conexões com w i = 0 (ou aleatórios) Repita Para cada padrão de treinamento (X, d) faça Calcular a saída y Se (d y) então atualizar pesos até o erro ser aceitável Classe B Classe B Classe A Classe A Modelos lineares Modelos não lineares

DCBD 44 Modelagem do conhecimento Técnicas Agrupamento Dado um conjunto de objetos, colocar os objetos em grupos baseados na similaridade entre eles Utilizado para encontrar padrões inesperados nos dados Aquático Ovíparo Mamífero

DCBD 45 Modelagem do conhecimento Técnicas Agrupamento Clustering - Técnica de aprendizado não-supervisionado, ou seja, quando não há uma classe associada a cada exemplo Os exemplos são colocados em clusters (grupos), cujos membros são similares entre si Por outro lado, os clusters devem ser diferentes entre si Representações de agrupamentos:

DCBD 46 Modelagem do conhecimento Técnicas Agrupamento Métricas de similaridade A distância é o método mais natural para dados numéricos Valores pequenos indicam maior similaridade Não generaliza muito bem para dados não numéricos (Qual a distância entre masculino e feminino?) Métricas de Distância mais comuns Hamming - Usada para dados categóricos dist ( v 1 1, v 2 0, sev ) 1, sev 1 1 v v 2 2 Euclidiana - Usada para dados numéricos Normalização As distâncias são freqüentemente normalizadas dividindo a distância de cada atributo pelo intervalo de variação (i.e. diferença entre valores máximo e mínimo) daquele atributo Assim, a distância para cada atributo é normalizada para o intervalo [0,1]

DCBD 47 Modelagem do conhecimento Técnicas Agrupamento Passos para se fazer um agrupamento Passo 1: Escolha aleatória de clusters e cálculo dos centróides (círculos maiores) Passo 2: Atribua cada ponto ao centróide mais próximo Passo 3: Recalcule centróides (neste exemplo, a solução é agora estável)

DCBD 48 Modelagem do conhecimento Técnicas Agrupamento Exemplo

DCBD 49 Modelagem do conhecimento Técnicas Agrupamento Exemplo (K = 2)

DCBD 50 Modelagem do conhecimento Técnicas Agrupamento Exemplo (K = 3)

DCBD 51 Modelagem do conhecimento Técnicas Agrupamento Exemplo (K = 4)

DCBD 52 Modelagem do conhecimento Técnicas Agrupamento Exemplo (K = 5)

DCBD 53 Modelagem do conhecimento Técnicas Agrupamento Exemplo (K = 6)

DCBD 54 Modelagem do conhecimento Técnicas Agrupamento Exemplo (K = 7)

DCBD 55 Modelagem do conhecimento Técnicas Agrupamento Exemplo (K = 8)

DCBD 56 Modelagem do conhecimento Técnicas Agrupamento Exemplo (K = 9)

DCBD 57 Modelagem do conhecimento Técnicas Agrupamento Exemplo (K = 10)

DCBD 58 Modelagem do conhecimento Técnicas Associação Notoriedade em DCBD pela descoberta da relação compra de fraldas cerveja Mas o que fazer? Colocar as fraldas junto com as cervejas para facilitar a venda? Colocá-las distantes para obrigar o cliente a passear por outras gôndolas? Decisões cabem ao especialista em marketing, baseado na sua experiência Regras de associação ou regras associativas: {X 1, X 2,..., X n } Y Se todos os itens X 1, X 2,..., X n estão numa transação, então há uma boa chance de se encontrar também Y

DCBD 59 Modelagem do conhecimento Técnicas Associação O algoritmo Apriori

DCBD 60 Modelagem do conhecimento Técnicas Associação O algoritmo Apriori Exemplo: Suporte mínimo: 0,3 3 {café,pão,manteiga} 3 3 4 {café,pão} {pão,manteiga} {café,manteiga} 3 5 5 {leite} {café} {cerveja} {pão} {manteiga} {arroz} {feijão}

DCBD 61 Modelagem do conhecimento Técnicas Associação O algoritmo Apriori Exemplo: Suporte mínimo: 0,3 Conjunto de regras - Conjunto de itens: {café, pão} Se café Então pão [conf = 1,0] Se pão Então café [conf = 0,6] - Conjunto de itens: {café, manteiga} Se café Então manteiga [conf = 1,0] Se manteiga Então café [conf = 0,6] - Conjunto de itens: {pão, manteiga} Se pão Então manteiga [conf = 0,8] Se manteiga Então pão [conf = 0,8] - Conjunto de itens: {café, manteiga, pão} Se café, manteiga Então pão [conf = 1,0] Se café, pão Então manteiga [conf = 1,0] Se manteiga, pão Então café [conf = 0,75] Se café Então manteiga, pão [conf = 1,0] Se manteiga Então café, pão [conf = 0,6] Se pão Então café, manteiga [conf = 0,6]

DCBD 62 Modelagem do conhecimento Técnicas Associação O algoritmo Apriori Exemplo: Suporte mínimo: 0,3 Conjunto de regras - Padrões descobertos, minsup = 0,3 e minconf = 0,8: Se café Então pão [conf = 1,0] Se café Então manteiga [conf = 1,0] Se pão Então manteiga [conf = 0,8] Se manteiga Então pão [conf = 0,8] Se café, manteiga Então pão [conf = 1,0] Se café, pão Então manteiga [conf = 1,0] Se café Então manteiga, pão [conf = 1,0]

DCBD 63 Ferramentas Nome Técnicas disponíveis Fabricante Site Tipo de aplicativo PolyAnalyst Classificação, regressão, regras de associação, clustering, sumarização e modelagem de dependência Megaputer Intelligence www.megaputer.com Pacote Magnum Opus Regras de associação Rule Quest www.rulequest.com Específico XpertRule Miner Classificação, regras de associação e clustering Attar Software Ltd. www.attar.com Pacote DataMite Regras de associação Dr. Philip Vasey através do LPA Prolog Específico Microsoft Data Analyzer 2002 Classificação e clustering Microsoft Corp. www.microsoft.com Pacote Oracle 9i Data Mining Classificação e regras de associação Oracle Corp. www.oracle.com Pacote Darwin Classificação, regressão e clustering Oracle Corp. www.oracle.com Pacote Data-Miner Software Kit Classificação e regressão Data-Miner Pty LTd www-data-miner.com Específico

DCBD 64 Ferramentas Nome Técnicas disponíveis Fabricante Site Tipo de aplicativo MineSet Classificação, regressão, regras de associação e clustering Silicon Graphics Inc. www.sgi.com Pacote WEKA Classificação, regressão e regras de associação University of Waikato www.cs.waikato.ac.nz Pacote Intelligent Miner Regras de associação, padrões seqüenciais, classificação, clustering, sumarização e modelagem de dependência IBM Corp. www.ibm.com Pacote MLC++ Classificação, regressão e clustering Silicon Graphics Inc. www.sgi.com/tech/mlc Biblioteca See5 Classificação Rule Quest www.rulequest.com Específico Cubist Regressão Rule Quest www.rulequest.com Específico Clementine Classificação, regras de associação, clustering e padrões seqüenciais SPSS Inc. www.spss.com Pacote

DCBD 65 WEKA Software de Aprendizagem de Máquina/Data Mining escrito em Java (GNU Public License) Usado para pesquisa, educação e aplicações Complementa o livro Data Mining - Practical Machine Learning Tools and Techniques de Ian W. Witten & Eibe Frank Principais características: Conjunto abrangente de ferramentas para pré-processamento de dados, algoritmos de aprendizagem e métodos de avaliação Interface Gráfica (visualização de dados) Ambiente para comparação de algoritmos de aprendizagem Versões: WEKA 3.3: É a que vamos utilizar para a a apresentação WEKA 3.4: Versão compatível com o livro (2ª Edição) WEKA 3.6: Versão estável atual WEKA 3.7: Developpment Version

DCBD 66 WEKA Entrada de dados WEKA só manipula arquivos planos Atributo numérico Atributo nominal @relation heart-disease-simplified @attribute age numeric @attribute sex { female, male} @attribute chest_pain_type { typ_angina, asympt, non_anginal, atyp_angina} @attribute cholesterol numeric @attribute exercise_induced_angina { no, yes} @attribute class { present, not_present} @data 63,male,typ_angina,233,no,not_present 67,male,asympt,286,yes,present 67,male,asympt,229,yes,present 38,female,non_anginal,?,no,not_present... Arquivo no formato.arf

DCBD 67 WEKA Abertura

DCBD 68 WEKA Abertura Simple CLI Antiga interface em linha de comando Explorer Principal interface gráfica do WEKA Dá acesso a todas as funcionalidades por meio de seleção de menus e fornecimento de parâmetros Experimenter Permite a realização de experimentos em larga escala com diversas configurações de parâmetros Pode rodar em ambientes de grid KnowledgeFlow Permite executar um conjuto de ações em uma sequência controlada

DCBD 69 WEKA Pré-processamento Dados podem ser importados de um arquivo em diversos formatos: ARFF CSV com os nomes das variáveis na primeira linha (pode ser gerado pelo EXCEL) C4.5 (sistema de Quinlan) 2 arquivos, um com nomes e outro com dados binary formato gerado pelo Java para compactar grandes arquivos de dados Dados podem também ser lidos de uma URL ou de um banco de dados SQL (usando JDBC) Ferramentas de pré-processamento no WEKA são chamadas filters WEKA contém filtros para: Discretização Normalização Amostragem Seleção de atributos Transformação Combinação de atributos

DCBD 70

DCBD 71

DCBD 72

DCBD 73

DCBD 74

DCBD 75

DCBD 76

DCBD 77

DCBD 78

DCBD 79

DCBD 80

DCBD 81

DCBD 82 WEKA Construção de classificadores Classificadoes no WEKA são modelos para predição nominal ou de quantidades numéricas (sic) Incluem: Árvores e listas de decisão Classificadores baseados em instâncias Support Vector Machines (Método baseado em aprendizagem estatística) Redes neurais (Multi-Layer Perceptrons, ) Regressão logística (Método estatístico de predição de valores de variáveis categóricas) Redes bayesianas (Método probabilístico) Ferramentas para melhoria do desenpenho dos classificadores (Meta-classificadores)

DCBD 83

DCBD 84

DCBD 85

DCBD 86

DCBD 87

DCBD 88

DCBD 89

DCBD 90

DCBD 91

DCBD 92

DCBD 93

DCBD 94

DCBD 95

DCBD 96

DCBD 97

DCBD 98

DCBD 99

DCBD 100

DCBD 101

DCBD 102 QuickTime and a TIFF (LZW) decompressor are needed to see this picture.

DCBD 103 QuickTime and a TIFF (LZW) decompressor are needed to see this picture.

DCBD 104

DCBD 105

DCBD 106

DCBD 107

DCBD 108

DCBD 109 Quic k Time and a TIFF (LZW) dec ompres s or are needed to s ee this pic ture.

DCBD 110

DCBD 111

DCBD 112

DCBD 113

DCBD 114 QuickTime and a TIFF (LZW) decompressor are needed to see this picture.

DCBD 115

DCBD 116 QuickTime and a TIFF (LZW) decompressor are needed to see this picture.

DCBD 117

DCBD 118

DCBD 119

DCBD 120

DCBD 121

DCBD 122

DCBD 123 WEKA Agrupamento de dados WEKA contém agrupadores para encontrar grupos de instâncias similares em um conjunto de dados Métodos implementados: k-means EM Cobweb X-means FarthestFirst Agrupamentos podem ser visualizados e comparados a agrupamentos verdadeiros (se existir)

DCBD 124

DCBD 125

DCBD 126

DCBD 127

DCBD 128

DCBD 129

DCBD 130

DCBD 131

DCBD 132

DCBD 133

DCBD 134 WEKA Associação WEKA contém uma implementação do algoritmo Apriori para aprendizagem de regras de associação Só trabalha com dados discretos Pode identificar dependências estatísticas entre grupos de atributos: leite, manteiga pão (com confiança 0.9 e suporte 4) Apriori pode computar todas as regras com um suporte mínimo e uma certa confiança

DCBD 135

DCBD 136

DCBD 137

DCBD 138

DCBD 139 WEKA Seleção de atributos Painel que pode ser usado para investigar quais (subconjunto de) atributos são os mais preditivos Seus métodos contêm um método de busca e um método de avaliação WEKA disponibiliza combinações (semi-)arbitrárias desses métodos

DCBD 140

DCBD 141

DCBD 142

DCBD 143

DCBD 144

DCBD 145

DCBD 146 WEKA Visualozação de dados Bastante útil na prática: Por exemplo, ajuda a determinar a dificuldade do problema de aprendizagem WEKA pode visualizar atributos simples (1-d) e pares de atributos (2-d) Valores de classe codificados por cores Opção de Jitter para lidar com atributos nominais (e detectar pontos de dados escondidos ) Função Zoom-in

DCBD 147

DCBD 148

DCBD 149

DCBD 150

DCBD 151

DCBD 152