Mestrado em Análise de Dados e Sistemas de Apoio à Decisão. Faculdade de Economia. Universidade de Porto. Extracção de Conhecimento de Dados I

Transcrição

1 Mestrado em Análise de Dados e Sistemas de Apoio à Decisão Faculdade de Economia Universidade de Porto Extracção de Conhecimento de Dados I PROBLEMAS DE CLASSIFICAÇÃO Manuel José Ferreira Monteiro Novembro de 2005

2 ÍNDICE 1. Objectivo Descrição do problema Descrição do Dataset Aplicações utilizadas Aplicação do método OneR Explicação do modelo obtido pelo método OneR Listas de Decisão Métodos de Procura Construção de regras usando procura Hill-Climbing Construção de regras usando procura em largura-primeiro Construção de regras usando o procura em profundidade-primeiro Conclusão dos métodos de procura Outros métodos do WEKA Algumas Comparações Medir taxa erro e de acerto sobre uma parte de teste Comparação entre métodos Conclusões Bibliografia e Endereços de Internet... 22

3 1. Objectivo Pretende-se com este trabalho a consolidação de conhecimentos na área de introdução ao data mining. Em simultâneo com o resumo do tema será analisado um caso prático onde serão aplicadas algumas das técnicas apresentadas. O que é o Data Mining? O Data Mining (DM) é um processo que usa uma variedade de ferramentas de análise de dados para descobrir de forma automática ou semi-automática padrões e relações (modelos de decisão, tendências, afinidades, desvios) nos dados. Usa ferramentas das ciências da computação, Inteligência Artificial e Estatística. As tarefas habituais do DM são a Classificação, Regressão, Previsão, Associação e Agrupamento, entre outras. 2. Descrição do problema A análise de um dataset só fará sentido se a pessoa que faz a analise é minimamente versada nos domínios do problema em estudo. É importante que o analista possa interpretar de forma eficaz os resultados obtidos. Se o analista não é versado no problema em análise, poderá obviamente ser assessorado por profissionais da área. Neste estudo privilegiou-se, acima de tudo, a compreensão dos conceitos introdutórios do Data Mining, decidiu-se por isso utilizar um dataset simples que permitisse absorver com clareza os conceitos associados à matéria e que permitisse alguma flexibilidade na aplicação de métodos manuais. Após testar diversos datasets, nomeadamente os disponibilizados pela UCI (reconhecimento de caracteres, diabetes, doenças de coração, entre outros) optou-se por um conjunto de dados associados à população do Titanic. O caso do afundamento do Titanic é um evento famoso que qualquer pessoa entende. 3

4 O objectivo é analisar os dados e procurar um padrão (por exemplo: a maior parte dos sobreviventes eram do sexo masculino) e obter a probabilidade de uma dada pessoa sobreviver ou não ao acidente do Titanic, confirmar alguns dos dados que fazem parte do nosso senso comum, como por exemplo se terá sido adoptada a regra de Mulheres e crianças primeiro, ou ainda se terá sido a 1ª classe privilegiada no momento de atribuição dos barcos salva-vidas. 3. Descrição do Dataset Os dados foram originalmente recolhidos pela British Board of Trade na sua investigação ao acidente. Esta base de dados contém quatro atributos para cada uma das 2201 pessoas no Titanic quando este se afundou. Os atributos são: Classe: {1ª Classe, 2ª Classe, 3ª Classe, Tripulação} Idade: {Adulto, Criança} Sexo: {M, F} Sobreviveu: {Sim, Não} O conjunto de dados original inclui os nomes dos tripulantes, mas não foram usados por serem irrelevantes para o estudo. 4

5 4. Aplicações utilizadas Utilizou-se o Weka como aplicação principal. O que é o WEKA? É uma colecção de algoritmos de Machine Learning para tarefas de Data Mining. Os algoritmos podem ser aplicados directamente aos datasets ou chamados de aplicações JAVA próprias. O WEKA (Waikato Environment for Knowledge Analysis) contém ferramentas para pré-processamento, classificação, regressão, clustering, regras de associação e visualização de dados. Para mais informações e download da aplicação consultar: Utilizou-se igualmente o Excel para algumas estatísticas de base e preparação dos dados para input do WEKA. 5

6 5. Aplicação do método OneR Um dos métodos aplicados neste estudo é o OneR. O que é o OnerR? O modelo OneR é usado em problemas de classificação e baseia-se no pressuposto de que frequentemente um atributo é suficiente para determinar a classe. O atributo escolhido pelo OneR é aquele que possuir menor erro. É o algoritmo mais simples. Como o nome sugere, este sistema gera uma regra (One Rule). Em algumas circunstâncias é tão poderoso como sistemas mais sofisticados como o J48 e o PART. Aplicando-se o método OneR ao dataset obtém-se o seguinte modelo: === Classifier model (full training set) === Sexo: M -> Não F -> Sim (1708/2201 instances correct) O atributo escolhido pelo OneR foi o sexo. Como se poderá verificar nos dados obtidos classificou correctamente 1708 instâncias. Como se verifica no extracto de Weka seguinte representa uma classificação correcta de 77.6%. === Evaluation on training set === === Summary === Correctly Classified Instances % Incorrectly Classified Instances % Kappa statistic Mean absolute error

7 Root mean squared error Relative absolute error % Root relative squared error % Total Number of Instances 2201 Continuando a analisar os dados obtidos consegue-se ainda obter o nível de precisão para cada uma das classes, assim temos (73,2%) de precisão para o Sim e (78,9%) para o Não. === Detailed Accuracy By Class === TP Rate FP Rate Precision Recall F-Measure Class Sim Não Outro dos elementos fornecidos pelo WEKA quando se aplica o OnerR é a matriz de confusão. A matriz de confusão fornece na sua diagonal principal o número de instâncias classificadas correctamente para cada classe. Assim, o Sim teve 344 instâncias classificadas correctamente e 126 erradamente. De forma análoga, o Não obteve 1364 instâncias classificadas correctamente contra 367 classificadas incorrectamente. === Confusion Matrix === a b <-- classified as a = Sim b = Não Num dataset com mais classes é interessante verificar como se distribuem as classificações incorrectas pelas restantes classes. Quanto maior for a absorção de instâncias pela diagonal principal, mais optimizado está o modelo obtido. 7

8 6. Explicação do modelo obtido pelo método OneR Como o OnerR chegou ao modelo apresentado? O OneR diz: Para cada atributo A Para cada valor V1,..., Vn do atributo, construir a regra A=Vi -> C: C é a classe mais frequente nos exemplos com A=Vi calcular o erro da regra (#respostas erradas) / (#respostas) calcular o erro da hipótese baseada em A Escolher a hipótese com menor erro Seguindo essa regra obtemos: Atributo Valor Atributo Classe # Classe mais frequente # Respostas Erradas # Respostas #Erradas / #Respostas Classe 1ª Classe Sim % Não 122 2ª Classe Sim 118 Não % 3ª Classe Sim 178 Não % Tripulação Sim 212 Não % Idade Adulto Sim 654 Não % Criança Sim % Não 52 Sexo Masculino Sim 367 Não % Feminino Sim % Não 126 Observa-se que o menor erro na coluna #Erradas/#Respostas é 21%, o que implica que o atributo seleccionado seja o atributo Sexo. 8

9 7. Listas de Decisão Aplicaram-se outros métodos ao dataset utilizando o WEKA, o PRISM e o PART. Estes dois métodos permitem criar listas de decisão. Os dados obtidos foram: Método PRISM PART Correctly Classified Instances ,304% ,055% Incorrectly Classified Instances ,697% ,945% Ou seja, o PRISM não se adequa ao dataset estudado dado apenas classificar correctamente 32,304% das instâncias. Optou-se por isso analisar o método PART por ter uma taxa de classificação correcta de 79,055%, superior ao OneR analisado anteriormente. A lista obtida no PART foi: PART decision list Sexo = M AND Classe = 2ª_Classe AND Idade = Adulto: Não (168.0/14.0) Sexo = M AND Classe = Tripulação: Não (862.0/192.0) Sexo = M AND Classe = 3ª_Classe: Não (510.0/88.0) Sexo = F AND Classe = 3ª_Classe: Não (196.0/90.0) Sexo = F: Sim (274.0/20.0) Idade = Adulto: Não (175.0/57.0) : Sim (16.0) Number of Rules : 7 9

10 Foram geradas sete regras com o PART. Pode-se ainda verificar o grau de precisão obtido. === Detailed Accuracy By Class === TP Rate FP Rate Precision Recall F-Measure Class Sim Não Verifica-se uma excelente precisão para o SIM com 93.1%, o Não consegue apenas uma precisão de 76,9%. Tal como no OneR também no PART é gerada a matriz de confusão. === Confusion Matrix === a b <-- classified as a = Sim b = Não 10

11 8. Métodos de Procura Aplicaram-se os métodos de procura Hill-Climbing, Profundidade-Primeiro e Largura-Primeiro à totalidade dos dados do dataset. A abordagem foi data driven. 8.1 Construção de regras usando procura Hill-Climbing Para descrever a construção das regras, considera-se o método de procura Hill- Climbing, em que a abordagem a seguir será o Data Driven. Usando uma abordagem Data Driven, este método de procura heurística começa com uma regra maximamente geral, neste caso classe= Sim e verifica-se a qualidade da regra através do seu erro. Método de Procura Hill-Climbing Dados: H0 (maximamente geral), Obj, Rel. Gen. Fila <- [ ] H<-H0 Até H satisfazer Obj Gera hipóteses: especializações max. gerais de H Junta novas hipóteses a Fila Selecciona : H Fila : argmax q(h) esvazia fila (poupa memória) Repete retorna H Aplicando o método obtemos uma primeira iteração: 1ª Iteração #Erradas #Respostas % Classe=1ª Classe Sobrevive=Sim ,38 Classe=2ª Classe Sobrevive=Sim ,59 Classe=3ª Classe Sobrevive=Sim ,75 Sim Classe=Tripulação Sobrevive=Sim ,76 Idade=Adulto Sobrevive=Sim ,69 Idade=Criança Sobrevive=Sim ,48 Sexo=Feminino Sobrevive=Sim ,27 Sexo=Masculino Sobrevive=Sim ,79 11

12 Como na primeira iteração não foi encontrada nenhuma regra com zero erros, então terá que se continuar a refinar a regra que optimiza localmente a heurística, ou seja aquela que errasse num menor número de exemplos, e que neste caso será: Idade=Criança Sobrevive=Sim. Esta regra serve de base para a 2ª iteração do método: 2ª Iteração #Erradas #Respostas % Classe=1ª Classe Sobrevive=Sim Idade=Criança & Sobrevive=Sim Classe=2ª Classe Sobrevive=Sim Classe=3ª Classe Sobrevive=Sim ,66 Classe=Tripulação Sobrevive=Sim Sexo=Feminino Sobrevive=Sim ,38 Sexo=Masculino Sobrevive=Sim ,55 Na 2ª iteração encontraram-se duas ocorrências com zero respostas erradas que satisfaz o objectivo (heurística), a procura termina aqui. Para este exemplo, obtêm-se duas regras que optimizam a classe Sim : Idade=Criança & Classe=1ª Classe Sobrevive=Sim Idade=Criança & Classe=2ª Classe Sobrevive=Sim De referir que nesta 2ª iteração aparece um 3º registo com erro igual a zero. Porém, este não pode utilizado porque representa igualmente uma classificação que não retorna resultados no dataset. 8.2 Construção de regras usando procura em largura-primeiro Considerando o mesmo conjunto de dados do ponto anterior, começa-se a procura, com a hipótese maximamente geral, tentando chegar à especialização que satisfaz a condição zero erros para o exemplo. 12

13 Método de Procura em Largura-Primeiro - Completa Se existe solução encontra - Pouco prática (em geral) Processamento Memória Procura bottom-up em largura primeiro começa com hipótese maximamente específica Dados: H0 (maximamente geral), objectivo Obj, Relação de generalidade Fila <- [ ] H<-H0 Até H satisfazer Obj Gera hipóteses: especializações max. gerais de H Junta novas hipóteses ao fim de Fila Selecciona: H <- primeiro(fila) Retira primeiro da fila Repete Retorna H Considera-se a procura de regras para a classe-> SIM. Neste método de procura, as novas hipóteses geradas, são acrescentadas ao fim da fila, e a nova hipótese a testar retira-se sempre do início da fila. 13

14 Fila H Erro # % [] -->Sim ,67 [Classe=1ª Classe;Idade=Criança;Sexo=Masculino] Classe=1ª Classe Sim ,38 [Idade=Criança;Sexo=Masculino;Classe=1ª Classe & Idade=Criança;Classe=1ª Classe & Sexo=Masculino] Idade=Criança Sim ,48 [Sexo=Masculino;Classe=1ª Classe & Idade=Criança;Classe=1ª Classe & Sexo=Masculino;Idade=Criança & Sexo=Masculino] Sexo=Masculino Sim ,79 [Classe=1ª Classe & Idade=Criança;Classe=1ª Classe & Sexo=Masculino;Idade=Criança & Sexo=Masculino;Classe=1ª Classe & Idade=Criança & Sexo=Masculino] Classe=1ª Classe & Idade=Criança Sim Nesta primeira iteração consegue-se zero erros. Assim consegue-se gerar a primeira regra: Classe=1ª Classe & Idade=Criança Sobrevive=SIM A árvore representativa da utilização do método de procura em Largura-Primeiro é a seguinte: 14

15 8.3 Construção de regras usando o procura em profundidade-primeiro Neste método as novas hipóteses geradas são acrescentadas no início da fila, e a nova hipótese a testar sai sempre do início da fila. Método de Procura em Profundidade-Primeiro - Problema dos caminhos infinitos - Retrocesso (backtracking) - Pouco prática (em geral) Processamento Apesar de gastar pouca memória Dados: H0 (maximamente geral), Obj, Rel. Gen. Fila <- [ ] H<-H0 Até H satisfazer Obj Gera hipóteses: especializações max. gerais de H Junta novas hipóteses ao início de Fila Selecciona: H <- primeiro(fila) Retira primeiro da fila Repete Retorna H Fila H Erro # % [] -->Sim ,68 [Classe=1ª Classe;Idade=Criança;Sexo=Masculino] Classe=1ªClasse-->Sim ,38 [Classe=1ª Classe & Idade=Criança;Classe=1ª Classe & Sexo=Masculino;Idade=Criança;Sexo=Ma sculino] Classe=1ª Classe & Idade=Criança-->Sim A regra obtida é: 15

16 Classe=1ª Classe & Idade=Criança Sobrevive=Sim A árvore representativa da utilização do método de procura em Profundidade-Primeiro é a seguinte: 8.4 Conclusão dos métodos de procura Neste caso específico o método que se revelou mais rápido foi o Método de Procura em Profundidade-Primeiro. O mais eficaz foi o Hill-Climbing tendo em conta que conseguiu gerar duas regras em simultâneo. 16

17 9. Outros métodos do WEKA Analisaram-se outros métodos do WEKA de forma a avaliar outras capacidades deste sistema. O método J 48, por exemplo, permite a construção de árvores de decisão. Aplicando este método obtemos: === Classifier model (full training set) === J48 pruned tree Sexo = M Classe = 1ª_Classe Idade = Adulto: Não (175.0/57.0) Idade = Criança: Sim (5.0) Classe = 2ª_Classe Idade = Adulto: Não (168.0/14.0) Idade = Criança: Sim (11.0) Classe = 3ª_Classe: Não (510.0/88.0) Classe = Tripulação: Não (862.0/192.0) Sexo = F Classe = 1ª_Classe: Sim (145.0/4.0) Classe = 2ª_Classe: Sim (106.0/13.0) Classe = 3ª_Classe: Não (196.0/90.0) Classe = Tripulação: Sim (23.0/3.0) Number of Leaves : 10 Verifica-se ainda que este modelo classifica correctamente 79,055% das instâncias. === Evaluation on training set === === Summary === Correctly Classified Instances % Incorrectly Classified Instances % 17

18 O nível de precisão é elevado, nomeadamente 93,1% para o Sim e 76,9% para o Não === Detailed Accuracy By Class === TP Rate FP Rate Precision Recall F-Measure Class Sim Não A matriz de confusão é a seguinte: === Confusion Matrix === a b <-- classified as a = Sim b = Não A árvore de decisão gerada pelo J48 é a seguinte: Árvores de Decisão Árvores de Decisão são um meio de representar uma série de regras que levam a uma classe ou valor. 18

19 10. Algumas Comparações 10.1 Medir taxa erro e de acerto sobre uma parte de teste Pretende-se verificar com a seguinte tabela se o uso de diferentes formas de utilização do dataset implica resultados muito diferentes, isto no que diz respeito à escolha dos dados de treino e de teste. Classificadas Classificadas Precisão Precisão Correctamente Incorrectamente "SIM" "NÃO" Cross-Validation 77,60% 22,40% 0,732 0,788 ONER Use Training Set 77,60% 22,40% 0,732 0,788 Percentage Split (66%) 77,44% 22,56% 0,762 0,777 Cross-Validation 79,06% 20,95% 0,931 0,769 PART Use Training Set 79,06% 20,95% 0,931 0,769 Percentage Split (66%) 78,24% 21,76% 0,946 0,759 Cross-Validation 78,92% 21,08% 0,93 0,768 J48 Use Training Set 79,06% 20,95% 0,931 0,769 Percentage Split (66%) 77,17% 22,83% 0,941 0,75 Cross-Validation 32,30% 67,70% PRISM Use Training Set 32,30% 67,70% 0,323 0 Percentage Split (66%) 32,84% 67,16% 0,

20 As variações dentro do mesmo método não são significativas, não chegando em nenhum dos casos a diferenças de 2% Comparação entre métodos Excluindo o PRISM, as variações entre os diferentes sistemas apresentados não são muito significativas. Foram avaliados todos os métodos disponibilizados no WEKA e nenhum conseguiu ultrapassar o desempenho do PART. O PRISM permite-nos concluir que a escolha do método não pode ser feita ao acaso pois pode apresentar valores muito insatisfatórios. De referir que o PRISM aplicado a outros datasets (diabetes, reconhecimento de caracteres e outros) obteve óptimos resultados. 20

21 11. Conclusões Os diferentes dados obtidos nas comparações realizadas permitem concluir que o OnerR, apesar do seu conceito simples e da sua facilidade de utilização, consegue obter excelentes resultados, comparando-o com métodos mais complexos como o PART ou o J48. Relembrando alguns dos possíveis objectivos do trabalho, por exemplo, saber se foram privilegiadas as classes sociais mais elevadas ou se a máxima Mulheres e crianças primeiro se tinha aplicado, poderemos tirar algumas conclusões analisando a árvore de decisão gerada pelo J48. Sexo = M Classe = 1ª_Classe Idade = Adulto: Não (175.0/57.0) Idade = Criança: Sim (5.0) Classe = 2ª_Classe Idade = Adulto: Não (168.0/14.0) Idade = Criança: Sim (11.0) Classe = 3ª_Classe: Não (510.0/88.0) Classe = Tripulação: Não (862.0/192.0) Sexo = F Classe = 1ª_Classe: Sim (145.0/4.0) Classe = 2ª_Classe: Sim (106.0/13.0) Classe = 3ª_Classe: Não (196.0/90.0) Classe = Tripulação: Sim (23.0/3.0) É notória que a 3ª Classe está associada a Não Sobreviveu, induzindo que provavelmente a classe social inferior foi preterida em relação às mais elevadas. Quanto à máxima Mulheres e crianças primeiro poderemos igualmente verificar pela árvore que para o sexo Masculino, em todas as classes sociais e tripulação, os adultos ficaram associados a um Não Sobreviveu. Poderá isto induzir que efectivamente as mulheres e crianças tiveram algum tipo de prioridade na hora do salvamento. 21

22 Bibliografia e Endereços de Internet - Acetatos das aulas de ECDI, Professor Doutor Alípio Jorge - The "Unusual Episode" Data Revisited Robert J. MacG. Dawson Saint Mary's University Journal of Statistics Education v.3, n.3 (1995) - Data Mining: Concepts and Techniques Jiawei Han and Micheline Kamber Simon Fraser University - Introduction to Data Mining and Knowledge Discovery Third Edition By Two Crows Corporation Endereços de Internet - WEKA - Data Mining with Weka - WEKA - Machine Learning Algorithms in Java Tutorial - UCI Machine Learning Repository 22

23 Trabalho realizado por Manuel José Ferreira Monteiro Disciplina Extracção do Conhecimento dos Dados I Docente Professor Doutor Alípio Jorge Mestrado Análise de Dados e Sistemas de Apoio à Decisão Faculdade de Economia - Universidade do Porto 14 de Novembro de 2005