II Semana de Tecnologia da Informação IFBA Campus Vitória da Conquista 27 a 30 de maio de 2014 WEKA: The bird Ferramenta Weka Waikato Environment for Knowledge Analysis Prof. MSc Pablo Freire Matos Informática - Instituto Federal da Bahia (IFBA) pablofmatos@gmail.com 2 Ambiente WEKA Experimento Experimento Linha de Comando Workflow Linha de Comando Workflow Java API Java API 3 4 5 6 1
Discretização Normalização Seleção de atributos Transformação e combinação de atributos,... 7 8 Arquivos de entrada: ARFF, CSV, C4.5, binário URL ou de um banco de dados SQL (usando JDBC) no WEKA são chamados de "filtros" Arquivo ARFF Attribute-Relation File Format @relation <nome-relação> @relation tempo @attribute <nome-atributo> <tipo-de-dados> Tipo de dados pode ser numeric, nominal, string ou date @attribute temperatura numeric @attribute ventoso {verdadeiro, falso} @attribute jogar {sim, não} WEKA contém filtros para Discretização, normalização, seleção de atributos, transformação e combinação de atributos,... @data Valores perdidos são representados por? @data 25,falso,sim 9 10 Formato.ARFF Formato.ARFF Aparência Temperatura Umidade Vento Jogo Sol Quente Alta Falso Não Sol Quente Alta Verdadeiro Não Encoberto Quente Alta Falso Sim Chuvoso Agradavel Alta Falso Sim Chuvoso Frio Normal Falso Sim Chuvoso Frio Normal Verdadeiro Não Encoberto Frio Normal Verdadeiro Sim Sol Agradavel Alta Falso Não Sol Frio Normal Falso Sim Chuvoso Agradavel Normal Falso Sim Sol Agradavel Normal Verdadeiro Sim Encoberto Agradavel Alta Verdadeiro Sim Encoberto Quente Normal Falso Sim Chuvoso Agradavel Alta Verdadeiro Não 11 12 2
Formato.CSV ARFF Viewer.CSV (Comma-separated values) 13 14 Atributo: the Atributo: class 15 16 17 18 3
Antes Depois 19 20 Discretizar 21 22 23 24 4
Categorização 25 26 Naive Bayes Cross-validation 27 28 J48 Percentagem 29 30 5
31 32 33 34 Agrupamento 35 36 6
Dados Iris Iris 37 38 k-means 39 40 Cluster = 2 41 42 7
Cluster = 3 43 44 45 46 47 8