PPGCA/UTFPR câmpus Curitiba -- CAIA003 - Mineração de Dados -- Profs. Celso Kaestner e Heitor Lopes Trabalho #2 Regras de Associação

Documentos relacionados
Trabalho #2. a) Calcule o Suporte para os conjuntos de sintomas {dor de cabeça}, {tosse, fadiga, dor de cabeça}

Regras de Associação

Mineração de Dados (Regras de associação)

Aprendizado de Máquina (Machine Learning)

Silva (2014) faz a classificação dos elementos no trabalho Data Mining sobre um dataset de Câncer de Mama:

Prof. Heitor Silvério Lopes

UNIVERSIDADE TECNOLÓGICA FEDERAL DO PARANÁ (UTFPR) 2016/ PPGCA PPGCA/UTFPR -- CAIA003

MINERAÇÃO DE DADOS EM ARQUIVOS DE LOG GERADOS POR SERVIDORES DE PÁGINAS WEB

Sempre aplicando os algoritmos de classificação com a validação cruzada de 10 folds, os resultados foram os seguintes:

Regras de Associação. José Augusto Baranauskas Departamento de Física e Matemática FFCLRP-USP

Exemplo: vendas casadas Sei que quem compra A também compra B. Mineração de Dados. Técnicas de Associação. prof. Luis Otavio Alvares

Sistema de mineração de dados para descoberta de padrões em dados médicos

Trabalho 1 - Relatório Técnico

Mineração de Dados. Arthur Emanuel de O. Carosia Cristina Dutra de Aguiar Ciferri

Weka. Universidade de Waikato - Nova Zelândia. Coleção de algoritmos de aprendizado de máquina para resolução de problemas de Data Mining

Créditos. SCC0173 Mineração de Dados Biológicos. Aula de Hoje. Análise de Associação. Mineração de Regras de Associação

Mineração de Dados em Biologia Molecular

RELATÓRIO TÉCNICO DISCIPLINA: MINERAÇÃO DE DADOS PPGCA fase 3 / 2016 Prof. Celso Antônio Alves Kaestner

Mineração de itemsets e regras de associação

Introdução a Sistemas Inteligentes

Mineração de Dados Aplicada no Contexto Educacional

partir da navegação de usuários em sites Web

Métodos para Classificação: - Naïve Bayes.

Número: Nome:

Minerando regras de associação

SCC0173 Mineração de Dados Biológicos

Data Mining: Ferramenta JAVA

Sarajane M. Peres e Clodoaldo A. M. Lima. 19 de novembro de 2015

Classificação: 1R e Naïve Bayes. Eduardo Raul Hruschka

Mineração de padrões frequentes

Inteligência Artificial

Professor: Eduardo R. Hruschka Estagiário PAE: Luiz F. S. Coletta

Associações & Freqüentes

UNIVERSIDADE DE SÃO PAULO

Mineração de Dados e Aprendizado de Máquinas. Rodrigo Leite Durães.

Mineração de Dados - II

MINERAÇÃO DE DADOS APLICADO AO JOGO LIGA QUATRO

Uma visão diferente do Teorema de Laplace

Introdução à Mineração de Dados com Aplicações em Ciências Espaciais

Prof: Renato Rocha Souza. Aluno: Walter Dominguez

Passos para o Aprendizado de Máquina com Pentaho. Prof. Marcos Vinicius Fidelis UTFPR/UEPG

Aula 13: Regras de Associação. Rafael Izbicki

Sistema SGPA-IFSP. Manual de Instalação

Relatório Técnico - SVM na base Breast Cancer Wisconsin

Laboratório Classificação com o WEKA Explorer

Regras de Associação. Roteiro da Aula. Exemplos de perguntas a responder. Motivação e Relevância. Motivação e relevância. Regras de associação:

Laboratório Preprocessamento com WEKA Explorer

Descoberta de conhecimento aplicando regras de associação na ferramenta WEKA

Patterns Identification in the Consumption of Oracle Database Resources Using Weka Tool in Data Mining

Inteligência Artificial

MOQ-14 PROJETO e ANÁLISE de EXPERIMENTOS. Professor: Rodrigo A. Scarpel

Aplicação de Regras de Associação para Mineração de Dados em uma Empresa do Setor Varejista Visando Auxiliar na Gestão de Vendas

Gripe H1N1, o que os Pais precisam saber!

Data Science. Data Stream Mining: trabalhando com dados massivos. André Luís Nunes Porto Alegre, Globalcode Open4education

Inteligência nos Negócios (Business Inteligente)

Perfil epidemiológico do consumo de álcool entre os estudantes da Universidade Federal do Sul e Sudeste do Pará

Regras Rudimentarias

Utilizando Regras de Associação para Delinear o Perfil Feminino em Ciência da Computação

Universidade Federal do Paraná

Sobre o curso. Fabrício Olivetti de França. Universidade Federal do ABC

Mineração de Dados em Biologia Molecular

Aprendizado de Máquina (Machine Learning)

Coleta e Análise de Características de Fluxo para Classificação de Tráfego em Redes Definidas por Software

Uso do Algoritmo APriori para Descoberta de Padrões de Evasão de Usuários em Cursos Online. Francisco Neto Orientador: Alberto

Mineração de Dados voltada para Recomendação no Âmbito de Marketing de Relacionamento

QUALIDADE DE VIDA DOS PROFESSORES DE CIÊNCIAS E BIOLOGIA DA REDE PÚBLICA DO MUNICÍPIO DE ARAPONGAS- PR

Estudo de Caso. Índice. Descrição da Área. Daniel Gomes Dosualdo Solange Oliveira Rezende

Roteiro. PCC142 / BCC444 - Mineração de Dados. Cenário

Renato Martins Assunção

Figura 1: Metodologia de Reconhecimentos de Padrões desenvolvida na UFC

Data Science e Big Data

Prof. Júlio Cesar Nievola Data Mining PPGIa PUCPR

Aprendizado de Supervisionado

Vacinação do Adulto/Idoso

ANÁLISE DE BIG DATA E INTELIGÊNCIA ARTIFICIAL PARA A ÁREA MÉDICA

Computação Evolucionária

Influenza (gripe) 05/07/2013

Universidade Federal de Uberlândia - Mestrado em Ciência da Computação. Profa. Sandra A. de Amo

Pós-Graduação em Ciência da Computação CCM Sistemas de Banco de Dados

Aprendizado de Supervisionado

TEMA 003 CONHEÇA E PREVINA AS DOENÇAS DO INVERNO

Avaliação das leis de proibição ao fumo

Roteiro. Introdução. Introdução. Introdução. Abordagens. Aprendizado de máquina. (machine learning) Introdução. Arquitetura

Relatório de Atividades

Aprendizado de Máquina

Aprendizado de Máquina

UNIVERSIDADE DE MOGI DAS CRUZES - UMC COMISSÃO PRÓPRIA DE AVALIAÇÃO CPA

2COP355 INTELIGÊNCIA COMPETITIVA. Algoritmos. Sylvio Barbon Junior 27 de novembro de 2015 DC-UEL Sylvio Barbon Jr 1

Estudo das Condições Climáticas em uma Planta Geradora de Energia Eólica Utilizando Mineração de Dados


SCC0173 Mineração de Dados Biológicos

Data Mining Software Weka. Software Weka. Software Weka 30/10/2012

KDD, Mineração de Dados e Algoritmo Apriori


Attribute Information:

EXTRAÇÃO DE ASSOCIAÇÕES EM BASES DE DADOS DE VAREJO

Fundamentos de Mineração de Dados

Créditos. SCC0173 Mineração de Dados Biológicos. Aula de Hoje. Introdução. Classificação III: Árvores de Decisão

Curso de Data Mining. Sandra de Amo. Aula 18 - Mineração de padrões em caminhos percorridos por usuários da Internet

Transcrição:

UNIVERSIDADE TECNOLÓGICA FEDERAL DO PARANÁ (UTFPR) Mineração de Dados 2016/3 Professores Celso e Heitor Jean Avila Rangel 1801317 - PPGCA PPGCA/UTFPR câmpus Curitiba -- CAIA003 - Mineração de Dados -- Profs. Celso Kaestner e Heitor Lopes Trabalho #2 Regras de Associação 1) Um total de 10 pacientes estiveram em um Posto de Saúde com sintomas que sugerem gripe, mostrados na tabela abaixo. Considere o atendimento de cada paciente como uma transação de uma cesta de compras, onde cada sintoma é um item comprado. Paciente Sintomas (a=febre, b=tosse, c=coriza, d=fadiga, e=dor de cabeça) 1 {a,d,e} 2 {a,b,c,e} 3 {a,b,d,e} 4 {a,c,d,e} 5 {b,c,e} 6 {b,d,e} 7 {c,d} 8 {a,b,c} 9 {a,d,e} 10 {a,b,e} a) Calcule o Suporte para os conjuntos de sintomas {dor de cabeça}, {tosse, fadiga, dor de cabeça} e {tosse, fadiga}. Suporte: os pacientes com DOR DE CABEÇA: 1, 2, 3, 4, 5, 6, 9 e 10 = 8 8/10 = 0,8 os pacientes com TOSSE, FADIGA e DOR DE CABEÇA: 3 e 6 = 2 2/10 = 0,2 os pacientes com TOSSE e FADIGA: 3 e 6 = 2 2/10 = 0,2 Confiança: FADIGA -> DOR DE CABEÇA Fadiga: 1, 3, 4, 6, 9 = 5 Dor de cabeça: 1, 3, 4, 6, 9, 10 = 6 5 / 6 = 0,833 DOR DE CABEÇA -> FADIGA Dor de cabeça: 1, 2, 3, 4, 5, 6, 9 e 10 = 8 5/8 = 0,625 A confiança NÃO é assimétrica. Se inverter os atributos, o resultado sai diferente.

c) Quantas regras têm Suporte mínimo de 0,5? Os elementos sozinhos acontecem na seguinte quantidade de vezes: A = 7 B = 6 C = 5 D = 6 E = 8 Existem 8 regras com suporte mínimo de 0,5 d) Descubra a regra de maior Confiança possível que tenha Suporte mínimo de 50%. Informe também o valor da Confiança. A maior confiança possível no suporte mínimo de 0.5 é de 100%. Todos os pacientes que NÃO apresentaram CORIZA possuíam DOR DE CABEÇA. Em segundo lugar, ocorre a regra que diz que quando o paciente tem FEBRE (7 casos), ele possui DOR DE CABEÇA. A confiança nessa regra é de 0.86, pois acontecem em 6 casos (de 7). 2) Faça download do dataset Fertility disponível no Machine Learning Repository. Este dataset tem a finalidade de determinar a normalidade ou não da concentração de espermatozoides em 100 voluntários, de acordo com critérios da OMS, com base em 9 atributos sócio-demográficos, ambientais, hábitos de vida e saúde. a) O dataset tem todos os atributos numéricos que precisam ser transformados em nominais para o uso no software Weka. Isto pode ser feito diretamente com o Weka, na aba pre-processamento utilizando os filtros não-supervisionados de atributos. Num primeiro momento, ignore os atributos previsores Idade e Horas-sentado. O dataset deve ter o seguinte aspecto: b) Utilizando o algoritmo Apriori e tendo o atributo-meta (classe) como Result obtenha regras de associação para Result=normal com Suporte/Confiança mínimos de 0,25/0,9. Analise qualitativamente as regras obtidas se são interessantes ou não. Quais as conclusões sobre os resultados? Apriori =======

Minimum support: 0.25 (25 instances) Minimum metric <confidence>: 0.9 Number of cycles performed: 15 Generated sets of large itemsets: Size of set of large itemsets L(1): 14 Size of set of large itemsets L(2): 39 Size of set of large itemsets L(3): 29 Size of set of large itemsets L(4): 3 Best rules found: 1. Fever=0 Alcohol=1 27 ==> Result=Normal 27 <conf:(1)> lift:(1.14) lev:(0.03) [3] conv:(3.24) 2. Season=-1 Ch_Diseas=1 26 ==> Result=Normal 26 <conf:(1)> lift:(1.14) lev:(0.03) [3] conv:(3.12) 3. Trauma=1 Surgery=1 25 ==> Result=Normal 25 <conf:(1)> lift:(1.14) lev:(0.03) [3] conv:(3) 4. Alcohol=1 Smoking=-1 30 ==> Result=Normal 29 <conf:(0.97)> lift:(1.1) lev:(0.03) [2] conv:(1.8) 5. Season=-1 28 ==> Result=Normal 27 <conf:(0.96)> lift:(1.1) lev:(0.02) [2] conv:(1.68) 6. Trauma=1 Fever=0 28 ==> Result=Normal 27 <conf:(0.96)> lift:(1.1) lev:(0.02) [2] conv:(1.68) 7. Season=-1 Result=Normal 27 ==> Ch_Diseas=1 26 <conf:(0.96)> lift:(1.11) lev:(0.03) [2] conv:(1.75) 8. Ch_Diseas=1 Alcohol=1 Smoking=-1 26 ==> Result=Normal 25 <conf:(0.96)> lift:(1.09) lev:(0.02) [2] conv:(1.56) 9. Alcohol=1 40 ==> Result=Normal 38 <conf:(0.95)> lift:(1.08) lev:(0.03) [2] conv:(1.6) 10. Ch_Diseas=1 Alcohol=1 36 ==> Result=Normal 34 <conf:(0.94)> lift:(1.07) lev:(0.02) [2] conv:(1.44)

Interpretação: Possuíram casos NORMAIS: Na primeira linha, vimos quem não bebe e possuiu febre a mais de 3 meses. Na segunda, vimos quem não teve doenças na infância e fez o exame no inverno. Na terceira, quem nunca teve trauma ou fez cirurgia. Na quarta, quem nunca fumou e quem não bebe. Em resumo, quem não bebe, não fuma, não fez cirurgia e nunca teve uma doença séria, possui boa fertilidade. Vimos que durante o INVERNO os pacientes obtiveram um melhor resultado. c) Utilize o Package Manager do Weka, acessível pela aba Tools do GUI Chooser e através dele instale o pacote HotSpot utilizado para gerar Regras e Árvores de Associação. Uma vez instalado, utilize este algoritmo para descobrir regras interessantes para a classe-alvo Altered com suporte mínimo 0,25. Quais conclusões gerais se pode tirar destas regras (quando contrastadas com as do item anterior)? Hot Spot ======== Total population: 100 instances Target attribute: Result Target value: Altered [value count in total population: 12 instances (12%)] Minimum value count for segments: 3 instances (25% of target value total population) Maximum branching factor: 2 Maximum rule length: unbounded Minimum improvement in target: 1% Result=Altered (12% [12/100]) Alcohol = 0.6 (21.05% [4/19]) Age <= 0.67 (50% [3/6]) Age > 0.61 (100% [3/3]) Surgery = 1 (75% [3/4]) Age > 0.61 (100% [3/3]) Trauma = 0 (100% [3/3]) Season = 1 (42.86% [3/7])

Age > 0.58 (60% [3/5]) Hours_sitted > 0.25 (100% [3/3]) Hours_sitted > 0.25 (60% [3/5]) Age > 0.64 (20.37% [11/54]) Hours_sitted > 0.38 (38.46% [5/13]) Hours_sitted <= 0.5 (55.56% [5/9]) Surgery = 1 (80% [4/5]) Age <= 0.75 (62.5% [5/8]) Surgery = 1 (80% [4/5]) Fever = 0 (66.67% [4/6]) Surgery = 1 (75% [3/4]) Surgery = 1 (50% [4/8]) Trauma = 0 (66.67% [4/6]) Hours_sitted <= 0.5 (80% [4/5]) Age <= 0.69 (75% [3/4]) Fever = 0 (60% [3/5]) Trauma = 0 (75% [3/4]) Hours_sitted <= 0.5 (75% [3/4]) Trauma = 0 (36% [9/25]) Smoking = 1 (60% [3/5]) Season = 1 (55.56% [5/9]) Surgery = 1 (80% [4/5]) Ch_Diseas = 1 (100% [3/3]) Hours_sitted > 0.25 (100% [3/3]) Hours_sitted > 0.25 (80% [4/5]) Age <= 0.69 (100% [4/4]) Nesta etapa, confirmamos a etapa anterior (pessoas que bebem ou fumam mais, tendem a ter os piores resultados). Também percebemos que as pessoas mais velhas possuem mais incidência nos casos de fertilidade ALTERADA. Houve uma grande incidência de fertilidade ALTERADA também quando o exame foi realizado no período do OUTONO.