PPGCA/UTFPR câmpus Curitiba -- CAIA003 - Mineração de Dados -- Profs. Celso Kaestner e Heitor Lopes Trabalho #2 Regras de Associação

UNIVERSIDADE TECNOLÓGICA FEDERAL DO PARANÁ (UTFPR) Mineração de Dados 2016/3 Professores Celso e Heitor Jean Avila Rangel 1801317 - PPGCA PPGCA/UTFPR câmpus Curitiba -- CAIA003 - Mineração de Dados -- Profs. Celso Kaestner e Heitor Lopes Trabalho #2 Regras de Associação 1) Um total de 10 pacientes estiveram em um Posto de Saúde com sintomas que sugerem gripe, mostrados na tabela abaixo. Considere o atendimento de cada paciente como uma transação de uma cesta de compras, onde cada sintoma é um item comprado. Paciente Sintomas (a=febre, b=tosse, c=coriza, d=fadiga, e=dor de cabeça) 1 {a,d,e} 2 {a,b,c,e} 3 {a,b,d,e} 4 {a,c,d,e} 5 {b,c,e} 6 {b,d,e} 7 {c,d} 8 {a,b,c} 9 {a,d,e} 10 {a,b,e} a) Calcule o Suporte para os conjuntos de sintomas {dor de cabeça}, {tosse, fadiga, dor de cabeça} e {tosse, fadiga}. Suporte: os pacientes com DOR DE CABEÇA: 1, 2, 3, 4, 5, 6, 9 e 10 = 8 8/10 = 0,8 os pacientes com TOSSE, FADIGA e DOR DE CABEÇA: 3 e 6 = 2 2/10 = 0,2 os pacientes com TOSSE e FADIGA: 3 e 6 = 2 2/10 = 0,2 Confiança: FADIGA -> DOR DE CABEÇA Fadiga: 1, 3, 4, 6, 9 = 5 Dor de cabeça: 1, 3, 4, 6, 9, 10 = 6 5 / 6 = 0,833 DOR DE CABEÇA -> FADIGA Dor de cabeça: 1, 2, 3, 4, 5, 6, 9 e 10 = 8 5/8 = 0,625 A confiança NÃO é assimétrica. Se inverter os atributos, o resultado sai diferente.

c) Quantas regras têm Suporte mínimo de 0,5? Os elementos sozinhos acontecem na seguinte quantidade de vezes: A = 7 B = 6 C = 5 D = 6 E = 8 Existem 8 regras com suporte mínimo de 0,5 d) Descubra a regra de maior Confiança possível que tenha Suporte mínimo de 50%. Informe também o valor da Confiança. A maior confiança possível no suporte mínimo de 0.5 é de 100%. Todos os pacientes que NÃO apresentaram CORIZA possuíam DOR DE CABEÇA. Em segundo lugar, ocorre a regra que diz que quando o paciente tem FEBRE (7 casos), ele possui DOR DE CABEÇA. A confiança nessa regra é de 0.86, pois acontecem em 6 casos (de 7). 2) Faça download do dataset Fertility disponível no Machine Learning Repository. Este dataset tem a finalidade de determinar a normalidade ou não da concentração de espermatozoides em 100 voluntários, de acordo com critérios da OMS, com base em 9 atributos sócio-demográficos, ambientais, hábitos de vida e saúde. a) O dataset tem todos os atributos numéricos que precisam ser transformados em nominais para o uso no software Weka. Isto pode ser feito diretamente com o Weka, na aba pre-processamento utilizando os filtros não-supervisionados de atributos. Num primeiro momento, ignore os atributos previsores Idade e Horas-sentado. O dataset deve ter o seguinte aspecto: b) Utilizando o algoritmo Apriori e tendo o atributo-meta (classe) como Result obtenha regras de associação para Result=normal com Suporte/Confiança mínimos de 0,25/0,9. Analise qualitativamente as regras obtidas se são interessantes ou não. Quais as conclusões sobre os resultados? Apriori =======

Minimum support: 0.25 (25 instances) Minimum metric <confidence>: 0.9 Number of cycles performed: 15 Generated sets of large itemsets: Size of set of large itemsets L(1): 14 Size of set of large itemsets L(2): 39 Size of set of large itemsets L(3): 29 Size of set of large itemsets L(4): 3 Best rules found: 1. Fever=0 Alcohol=1 27 ==> Result=Normal 27 <conf:(1)> lift:(1.14) lev:(0.03) [3] conv:(3.24) 2. Season=-1 Ch_Diseas=1 26 ==> Result=Normal 26 <conf:(1)> lift:(1.14) lev:(0.03) [3] conv:(3.12) 3. Trauma=1 Surgery=1 25 ==> Result=Normal 25 <conf:(1)> lift:(1.14) lev:(0.03) [3] conv:(3) 4. Alcohol=1 Smoking=-1 30 ==> Result=Normal 29 <conf:(0.97)> lift:(1.1) lev:(0.03) [2] conv:(1.8) 5. Season=-1 28 ==> Result=Normal 27 <conf:(0.96)> lift:(1.1) lev:(0.02) [2] conv:(1.68) 6. Trauma=1 Fever=0 28 ==> Result=Normal 27 <conf:(0.96)> lift:(1.1) lev:(0.02) [2] conv:(1.68) 7. Season=-1 Result=Normal 27 ==> Ch_Diseas=1 26 <conf:(0.96)> lift:(1.11) lev:(0.03) [2] conv:(1.75) 8. Ch_Diseas=1 Alcohol=1 Smoking=-1 26 ==> Result=Normal 25 <conf:(0.96)> lift:(1.09) lev:(0.02) [2] conv:(1.56) 9. Alcohol=1 40 ==> Result=Normal 38 <conf:(0.95)> lift:(1.08) lev:(0.03) [2] conv:(1.6) 10. Ch_Diseas=1 Alcohol=1 36 ==> Result=Normal 34 <conf:(0.94)> lift:(1.07) lev:(0.02) [2] conv:(1.44)

Interpretação: Possuíram casos NORMAIS: Na primeira linha, vimos quem não bebe e possuiu febre a mais de 3 meses. Na segunda, vimos quem não teve doenças na infância e fez o exame no inverno. Na terceira, quem nunca teve trauma ou fez cirurgia. Na quarta, quem nunca fumou e quem não bebe. Em resumo, quem não bebe, não fuma, não fez cirurgia e nunca teve uma doença séria, possui boa fertilidade. Vimos que durante o INVERNO os pacientes obtiveram um melhor resultado. c) Utilize o Package Manager do Weka, acessível pela aba Tools do GUI Chooser e através dele instale o pacote HotSpot utilizado para gerar Regras e Árvores de Associação. Uma vez instalado, utilize este algoritmo para descobrir regras interessantes para a classe-alvo Altered com suporte mínimo 0,25. Quais conclusões gerais se pode tirar destas regras (quando contrastadas com as do item anterior)? Hot Spot ======== Total population: 100 instances Target attribute: Result Target value: Altered [value count in total population: 12 instances (12%)] Minimum value count for segments: 3 instances (25% of target value total population) Maximum branching factor: 2 Maximum rule length: unbounded Minimum improvement in target: 1% Result=Altered (12% [12/100]) Alcohol = 0.6 (21.05% [4/19]) Age <= 0.67 (50% [3/6]) Age > 0.61 (100% [3/3]) Surgery = 1 (75% [3/4]) Age > 0.61 (100% [3/3]) Trauma = 0 (100% [3/3]) Season = 1 (42.86% [3/7])

Age > 0.58 (60% [3/5]) Hours_sitted > 0.25 (100% [3/3]) Hours_sitted > 0.25 (60% [3/5]) Age > 0.64 (20.37% [11/54]) Hours_sitted > 0.38 (38.46% [5/13]) Hours_sitted <= 0.5 (55.56% [5/9]) Surgery = 1 (80% [4/5]) Age <= 0.75 (62.5% [5/8]) Surgery = 1 (80% [4/5]) Fever = 0 (66.67% [4/6]) Surgery = 1 (75% [3/4]) Surgery = 1 (50% [4/8]) Trauma = 0 (66.67% [4/6]) Hours_sitted <= 0.5 (80% [4/5]) Age <= 0.69 (75% [3/4]) Fever = 0 (60% [3/5]) Trauma = 0 (75% [3/4]) Hours_sitted <= 0.5 (75% [3/4]) Trauma = 0 (36% [9/25]) Smoking = 1 (60% [3/5]) Season = 1 (55.56% [5/9]) Surgery = 1 (80% [4/5]) Ch_Diseas = 1 (100% [3/3]) Hours_sitted > 0.25 (100% [3/3]) Hours_sitted > 0.25 (80% [4/5]) Age <= 0.69 (100% [4/4]) Nesta etapa, confirmamos a etapa anterior (pessoas que bebem ou fumam mais, tendem a ter os piores resultados). Também percebemos que as pessoas mais velhas possuem mais incidência nos casos de fertilidade ALTERADA. Houve uma grande incidência de fertilidade ALTERADA também quando o exame foi realizado no período do OUTONO.