Mestrado em Análise de Dados e Sistemas de Apoio à Decisão. Faculdade de Economia. Universidade de Porto. Extracção de Conhecimento de Dados I

Tamanho: px
Começar a partir da página:

Download "Mestrado em Análise de Dados e Sistemas de Apoio à Decisão. Faculdade de Economia. Universidade de Porto. Extracção de Conhecimento de Dados I"

Transcrição

1 Mestrado em Análise de Dados e Sistemas de Apoio à Decisão Faculdade de Economia Universidade de Porto Extracção de Conhecimento de Dados I PROBLEMAS DE CLASSIFICAÇÃO Manuel José Ferreira Monteiro Novembro de 2005

2 ÍNDICE 1. Objectivo Descrição do problema Descrição do Dataset Aplicações utilizadas Aplicação do método OneR Explicação do modelo obtido pelo método OneR Listas de Decisão Métodos de Procura Construção de regras usando procura Hill-Climbing Construção de regras usando procura em largura-primeiro Construção de regras usando o procura em profundidade-primeiro Conclusão dos métodos de procura Outros métodos do WEKA Algumas Comparações Medir taxa erro e de acerto sobre uma parte de teste Comparação entre métodos Conclusões Bibliografia e Endereços de Internet... 22

3 1. Objectivo Pretende-se com este trabalho a consolidação de conhecimentos na área de introdução ao data mining. Em simultâneo com o resumo do tema será analisado um caso prático onde serão aplicadas algumas das técnicas apresentadas. O que é o Data Mining? O Data Mining (DM) é um processo que usa uma variedade de ferramentas de análise de dados para descobrir de forma automática ou semi-automática padrões e relações (modelos de decisão, tendências, afinidades, desvios) nos dados. Usa ferramentas das ciências da computação, Inteligência Artificial e Estatística. As tarefas habituais do DM são a Classificação, Regressão, Previsão, Associação e Agrupamento, entre outras. 2. Descrição do problema A análise de um dataset só fará sentido se a pessoa que faz a analise é minimamente versada nos domínios do problema em estudo. É importante que o analista possa interpretar de forma eficaz os resultados obtidos. Se o analista não é versado no problema em análise, poderá obviamente ser assessorado por profissionais da área. Neste estudo privilegiou-se, acima de tudo, a compreensão dos conceitos introdutórios do Data Mining, decidiu-se por isso utilizar um dataset simples que permitisse absorver com clareza os conceitos associados à matéria e que permitisse alguma flexibilidade na aplicação de métodos manuais. Após testar diversos datasets, nomeadamente os disponibilizados pela UCI (reconhecimento de caracteres, diabetes, doenças de coração, entre outros) optou-se por um conjunto de dados associados à população do Titanic. O caso do afundamento do Titanic é um evento famoso que qualquer pessoa entende. 3

4 O objectivo é analisar os dados e procurar um padrão (por exemplo: a maior parte dos sobreviventes eram do sexo masculino) e obter a probabilidade de uma dada pessoa sobreviver ou não ao acidente do Titanic, confirmar alguns dos dados que fazem parte do nosso senso comum, como por exemplo se terá sido adoptada a regra de Mulheres e crianças primeiro, ou ainda se terá sido a 1ª classe privilegiada no momento de atribuição dos barcos salva-vidas. 3. Descrição do Dataset Os dados foram originalmente recolhidos pela British Board of Trade na sua investigação ao acidente. Esta base de dados contém quatro atributos para cada uma das 2201 pessoas no Titanic quando este se afundou. Os atributos são: Classe: {1ª Classe, 2ª Classe, 3ª Classe, Tripulação} Idade: {Adulto, Criança} Sexo: {M, F} Sobreviveu: {Sim, Não} O conjunto de dados original inclui os nomes dos tripulantes, mas não foram usados por serem irrelevantes para o estudo. 4

5 4. Aplicações utilizadas Utilizou-se o Weka como aplicação principal. O que é o WEKA? É uma colecção de algoritmos de Machine Learning para tarefas de Data Mining. Os algoritmos podem ser aplicados directamente aos datasets ou chamados de aplicações JAVA próprias. O WEKA (Waikato Environment for Knowledge Analysis) contém ferramentas para pré-processamento, classificação, regressão, clustering, regras de associação e visualização de dados. Para mais informações e download da aplicação consultar: Utilizou-se igualmente o Excel para algumas estatísticas de base e preparação dos dados para input do WEKA. 5

6 5. Aplicação do método OneR Um dos métodos aplicados neste estudo é o OneR. O que é o OnerR? O modelo OneR é usado em problemas de classificação e baseia-se no pressuposto de que frequentemente um atributo é suficiente para determinar a classe. O atributo escolhido pelo OneR é aquele que possuir menor erro. É o algoritmo mais simples. Como o nome sugere, este sistema gera uma regra (One Rule). Em algumas circunstâncias é tão poderoso como sistemas mais sofisticados como o J48 e o PART. Aplicando-se o método OneR ao dataset obtém-se o seguinte modelo: === Classifier model (full training set) === Sexo: M -> Não F -> Sim (1708/2201 instances correct) O atributo escolhido pelo OneR foi o sexo. Como se poderá verificar nos dados obtidos classificou correctamente 1708 instâncias. Como se verifica no extracto de Weka seguinte representa uma classificação correcta de 77.6%. === Evaluation on training set === === Summary === Correctly Classified Instances % Incorrectly Classified Instances % Kappa statistic Mean absolute error

7 Root mean squared error Relative absolute error % Root relative squared error % Total Number of Instances 2201 Continuando a analisar os dados obtidos consegue-se ainda obter o nível de precisão para cada uma das classes, assim temos (73,2%) de precisão para o Sim e (78,9%) para o Não. === Detailed Accuracy By Class === TP Rate FP Rate Precision Recall F-Measure Class Sim Não Outro dos elementos fornecidos pelo WEKA quando se aplica o OnerR é a matriz de confusão. A matriz de confusão fornece na sua diagonal principal o número de instâncias classificadas correctamente para cada classe. Assim, o Sim teve 344 instâncias classificadas correctamente e 126 erradamente. De forma análoga, o Não obteve 1364 instâncias classificadas correctamente contra 367 classificadas incorrectamente. === Confusion Matrix === a b <-- classified as a = Sim b = Não Num dataset com mais classes é interessante verificar como se distribuem as classificações incorrectas pelas restantes classes. Quanto maior for a absorção de instâncias pela diagonal principal, mais optimizado está o modelo obtido. 7

8 6. Explicação do modelo obtido pelo método OneR Como o OnerR chegou ao modelo apresentado? O OneR diz: Para cada atributo A Para cada valor V1,..., Vn do atributo, construir a regra A=Vi -> C: C é a classe mais frequente nos exemplos com A=Vi calcular o erro da regra (#respostas erradas) / (#respostas) calcular o erro da hipótese baseada em A Escolher a hipótese com menor erro Seguindo essa regra obtemos: Atributo Valor Atributo Classe # Classe mais frequente # Respostas Erradas # Respostas #Erradas / #Respostas Classe 1ª Classe Sim % Não 122 2ª Classe Sim 118 Não % 3ª Classe Sim 178 Não % Tripulação Sim 212 Não % Idade Adulto Sim 654 Não % Criança Sim % Não 52 Sexo Masculino Sim 367 Não % Feminino Sim % Não 126 Observa-se que o menor erro na coluna #Erradas/#Respostas é 21%, o que implica que o atributo seleccionado seja o atributo Sexo. 8

9 7. Listas de Decisão Aplicaram-se outros métodos ao dataset utilizando o WEKA, o PRISM e o PART. Estes dois métodos permitem criar listas de decisão. Os dados obtidos foram: Método PRISM PART Correctly Classified Instances ,304% ,055% Incorrectly Classified Instances ,697% ,945% Ou seja, o PRISM não se adequa ao dataset estudado dado apenas classificar correctamente 32,304% das instâncias. Optou-se por isso analisar o método PART por ter uma taxa de classificação correcta de 79,055%, superior ao OneR analisado anteriormente. A lista obtida no PART foi: PART decision list Sexo = M AND Classe = 2ª_Classe AND Idade = Adulto: Não (168.0/14.0) Sexo = M AND Classe = Tripulação: Não (862.0/192.0) Sexo = M AND Classe = 3ª_Classe: Não (510.0/88.0) Sexo = F AND Classe = 3ª_Classe: Não (196.0/90.0) Sexo = F: Sim (274.0/20.0) Idade = Adulto: Não (175.0/57.0) : Sim (16.0) Number of Rules : 7 9

10 Foram geradas sete regras com o PART. Pode-se ainda verificar o grau de precisão obtido. === Detailed Accuracy By Class === TP Rate FP Rate Precision Recall F-Measure Class Sim Não Verifica-se uma excelente precisão para o SIM com 93.1%, o Não consegue apenas uma precisão de 76,9%. Tal como no OneR também no PART é gerada a matriz de confusão. === Confusion Matrix === a b <-- classified as a = Sim b = Não 10

11 8. Métodos de Procura Aplicaram-se os métodos de procura Hill-Climbing, Profundidade-Primeiro e Largura-Primeiro à totalidade dos dados do dataset. A abordagem foi data driven. 8.1 Construção de regras usando procura Hill-Climbing Para descrever a construção das regras, considera-se o método de procura Hill- Climbing, em que a abordagem a seguir será o Data Driven. Usando uma abordagem Data Driven, este método de procura heurística começa com uma regra maximamente geral, neste caso classe= Sim e verifica-se a qualidade da regra através do seu erro. Método de Procura Hill-Climbing Dados: H0 (maximamente geral), Obj, Rel. Gen. Fila <- [ ] H<-H0 Até H satisfazer Obj Gera hipóteses: especializações max. gerais de H Junta novas hipóteses a Fila Selecciona : H Fila : argmax q(h) esvazia fila (poupa memória) Repete retorna H Aplicando o método obtemos uma primeira iteração: 1ª Iteração #Erradas #Respostas % Classe=1ª Classe Sobrevive=Sim ,38 Classe=2ª Classe Sobrevive=Sim ,59 Classe=3ª Classe Sobrevive=Sim ,75 Sim Classe=Tripulação Sobrevive=Sim ,76 Idade=Adulto Sobrevive=Sim ,69 Idade=Criança Sobrevive=Sim ,48 Sexo=Feminino Sobrevive=Sim ,27 Sexo=Masculino Sobrevive=Sim ,79 11

12 Como na primeira iteração não foi encontrada nenhuma regra com zero erros, então terá que se continuar a refinar a regra que optimiza localmente a heurística, ou seja aquela que errasse num menor número de exemplos, e que neste caso será: Idade=Criança Sobrevive=Sim. Esta regra serve de base para a 2ª iteração do método: 2ª Iteração #Erradas #Respostas % Classe=1ª Classe Sobrevive=Sim Idade=Criança & Sobrevive=Sim Classe=2ª Classe Sobrevive=Sim Classe=3ª Classe Sobrevive=Sim ,66 Classe=Tripulação Sobrevive=Sim Sexo=Feminino Sobrevive=Sim ,38 Sexo=Masculino Sobrevive=Sim ,55 Na 2ª iteração encontraram-se duas ocorrências com zero respostas erradas que satisfaz o objectivo (heurística), a procura termina aqui. Para este exemplo, obtêm-se duas regras que optimizam a classe Sim : Idade=Criança & Classe=1ª Classe Sobrevive=Sim Idade=Criança & Classe=2ª Classe Sobrevive=Sim De referir que nesta 2ª iteração aparece um 3º registo com erro igual a zero. Porém, este não pode utilizado porque representa igualmente uma classificação que não retorna resultados no dataset. 8.2 Construção de regras usando procura em largura-primeiro Considerando o mesmo conjunto de dados do ponto anterior, começa-se a procura, com a hipótese maximamente geral, tentando chegar à especialização que satisfaz a condição zero erros para o exemplo. 12

13 Método de Procura em Largura-Primeiro - Completa Se existe solução encontra - Pouco prática (em geral) Processamento Memória Procura bottom-up em largura primeiro começa com hipótese maximamente específica Dados: H0 (maximamente geral), objectivo Obj, Relação de generalidade Fila <- [ ] H<-H0 Até H satisfazer Obj Gera hipóteses: especializações max. gerais de H Junta novas hipóteses ao fim de Fila Selecciona: H <- primeiro(fila) Retira primeiro da fila Repete Retorna H Considera-se a procura de regras para a classe-> SIM. Neste método de procura, as novas hipóteses geradas, são acrescentadas ao fim da fila, e a nova hipótese a testar retira-se sempre do início da fila. 13

14 Fila H Erro # % [] -->Sim ,67 [Classe=1ª Classe;Idade=Criança;Sexo=Masculino] Classe=1ª Classe Sim ,38 [Idade=Criança;Sexo=Masculino;Classe=1ª Classe & Idade=Criança;Classe=1ª Classe & Sexo=Masculino] Idade=Criança Sim ,48 [Sexo=Masculino;Classe=1ª Classe & Idade=Criança;Classe=1ª Classe & Sexo=Masculino;Idade=Criança & Sexo=Masculino] Sexo=Masculino Sim ,79 [Classe=1ª Classe & Idade=Criança;Classe=1ª Classe & Sexo=Masculino;Idade=Criança & Sexo=Masculino;Classe=1ª Classe & Idade=Criança & Sexo=Masculino] Classe=1ª Classe & Idade=Criança Sim Nesta primeira iteração consegue-se zero erros. Assim consegue-se gerar a primeira regra: Classe=1ª Classe & Idade=Criança Sobrevive=SIM A árvore representativa da utilização do método de procura em Largura-Primeiro é a seguinte: 14

15 8.3 Construção de regras usando o procura em profundidade-primeiro Neste método as novas hipóteses geradas são acrescentadas no início da fila, e a nova hipótese a testar sai sempre do início da fila. Método de Procura em Profundidade-Primeiro - Problema dos caminhos infinitos - Retrocesso (backtracking) - Pouco prática (em geral) Processamento Apesar de gastar pouca memória Dados: H0 (maximamente geral), Obj, Rel. Gen. Fila <- [ ] H<-H0 Até H satisfazer Obj Gera hipóteses: especializações max. gerais de H Junta novas hipóteses ao início de Fila Selecciona: H <- primeiro(fila) Retira primeiro da fila Repete Retorna H Fila H Erro # % [] -->Sim ,68 [Classe=1ª Classe;Idade=Criança;Sexo=Masculino] Classe=1ªClasse-->Sim ,38 [Classe=1ª Classe & Idade=Criança;Classe=1ª Classe & Sexo=Masculino;Idade=Criança;Sexo=Ma sculino] Classe=1ª Classe & Idade=Criança-->Sim A regra obtida é: 15

16 Classe=1ª Classe & Idade=Criança Sobrevive=Sim A árvore representativa da utilização do método de procura em Profundidade-Primeiro é a seguinte: 8.4 Conclusão dos métodos de procura Neste caso específico o método que se revelou mais rápido foi o Método de Procura em Profundidade-Primeiro. O mais eficaz foi o Hill-Climbing tendo em conta que conseguiu gerar duas regras em simultâneo. 16

17 9. Outros métodos do WEKA Analisaram-se outros métodos do WEKA de forma a avaliar outras capacidades deste sistema. O método J 48, por exemplo, permite a construção de árvores de decisão. Aplicando este método obtemos: === Classifier model (full training set) === J48 pruned tree Sexo = M Classe = 1ª_Classe Idade = Adulto: Não (175.0/57.0) Idade = Criança: Sim (5.0) Classe = 2ª_Classe Idade = Adulto: Não (168.0/14.0) Idade = Criança: Sim (11.0) Classe = 3ª_Classe: Não (510.0/88.0) Classe = Tripulação: Não (862.0/192.0) Sexo = F Classe = 1ª_Classe: Sim (145.0/4.0) Classe = 2ª_Classe: Sim (106.0/13.0) Classe = 3ª_Classe: Não (196.0/90.0) Classe = Tripulação: Sim (23.0/3.0) Number of Leaves : 10 Verifica-se ainda que este modelo classifica correctamente 79,055% das instâncias. === Evaluation on training set === === Summary === Correctly Classified Instances % Incorrectly Classified Instances % 17

18 O nível de precisão é elevado, nomeadamente 93,1% para o Sim e 76,9% para o Não === Detailed Accuracy By Class === TP Rate FP Rate Precision Recall F-Measure Class Sim Não A matriz de confusão é a seguinte: === Confusion Matrix === a b <-- classified as a = Sim b = Não A árvore de decisão gerada pelo J48 é a seguinte: Árvores de Decisão Árvores de Decisão são um meio de representar uma série de regras que levam a uma classe ou valor. 18

19 10. Algumas Comparações 10.1 Medir taxa erro e de acerto sobre uma parte de teste Pretende-se verificar com a seguinte tabela se o uso de diferentes formas de utilização do dataset implica resultados muito diferentes, isto no que diz respeito à escolha dos dados de treino e de teste. Classificadas Classificadas Precisão Precisão Correctamente Incorrectamente "SIM" "NÃO" Cross-Validation 77,60% 22,40% 0,732 0,788 ONER Use Training Set 77,60% 22,40% 0,732 0,788 Percentage Split (66%) 77,44% 22,56% 0,762 0,777 Cross-Validation 79,06% 20,95% 0,931 0,769 PART Use Training Set 79,06% 20,95% 0,931 0,769 Percentage Split (66%) 78,24% 21,76% 0,946 0,759 Cross-Validation 78,92% 21,08% 0,93 0,768 J48 Use Training Set 79,06% 20,95% 0,931 0,769 Percentage Split (66%) 77,17% 22,83% 0,941 0,75 Cross-Validation 32,30% 67,70% PRISM Use Training Set 32,30% 67,70% 0,323 0 Percentage Split (66%) 32,84% 67,16% 0,

20 As variações dentro do mesmo método não são significativas, não chegando em nenhum dos casos a diferenças de 2% Comparação entre métodos Excluindo o PRISM, as variações entre os diferentes sistemas apresentados não são muito significativas. Foram avaliados todos os métodos disponibilizados no WEKA e nenhum conseguiu ultrapassar o desempenho do PART. O PRISM permite-nos concluir que a escolha do método não pode ser feita ao acaso pois pode apresentar valores muito insatisfatórios. De referir que o PRISM aplicado a outros datasets (diabetes, reconhecimento de caracteres e outros) obteve óptimos resultados. 20

21 11. Conclusões Os diferentes dados obtidos nas comparações realizadas permitem concluir que o OnerR, apesar do seu conceito simples e da sua facilidade de utilização, consegue obter excelentes resultados, comparando-o com métodos mais complexos como o PART ou o J48. Relembrando alguns dos possíveis objectivos do trabalho, por exemplo, saber se foram privilegiadas as classes sociais mais elevadas ou se a máxima Mulheres e crianças primeiro se tinha aplicado, poderemos tirar algumas conclusões analisando a árvore de decisão gerada pelo J48. Sexo = M Classe = 1ª_Classe Idade = Adulto: Não (175.0/57.0) Idade = Criança: Sim (5.0) Classe = 2ª_Classe Idade = Adulto: Não (168.0/14.0) Idade = Criança: Sim (11.0) Classe = 3ª_Classe: Não (510.0/88.0) Classe = Tripulação: Não (862.0/192.0) Sexo = F Classe = 1ª_Classe: Sim (145.0/4.0) Classe = 2ª_Classe: Sim (106.0/13.0) Classe = 3ª_Classe: Não (196.0/90.0) Classe = Tripulação: Sim (23.0/3.0) É notória que a 3ª Classe está associada a Não Sobreviveu, induzindo que provavelmente a classe social inferior foi preterida em relação às mais elevadas. Quanto à máxima Mulheres e crianças primeiro poderemos igualmente verificar pela árvore que para o sexo Masculino, em todas as classes sociais e tripulação, os adultos ficaram associados a um Não Sobreviveu. Poderá isto induzir que efectivamente as mulheres e crianças tiveram algum tipo de prioridade na hora do salvamento. 21

22 Bibliografia e Endereços de Internet - Acetatos das aulas de ECDI, Professor Doutor Alípio Jorge - The "Unusual Episode" Data Revisited Robert J. MacG. Dawson Saint Mary's University Journal of Statistics Education v.3, n.3 (1995) - Data Mining: Concepts and Techniques Jiawei Han and Micheline Kamber Simon Fraser University - Introduction to Data Mining and Knowledge Discovery Third Edition By Two Crows Corporation Endereços de Internet - WEKA - Data Mining with Weka - WEKA - Machine Learning Algorithms in Java Tutorial - UCI Machine Learning Repository 22

23 Trabalho realizado por Manuel José Ferreira Monteiro Disciplina Extracção do Conhecimento dos Dados I Docente Professor Doutor Alípio Jorge Mestrado Análise de Dados e Sistemas de Apoio à Decisão Faculdade de Economia - Universidade do Porto 14 de Novembro de 2005

Data Mining: Ferramenta JAVA

Data Mining: Ferramenta JAVA Data Mining: Ferramenta JAVA JAVA para Data Mining Weka 3: Data Mining Software em Java http://www.cs.waikato.ac.nz/ml/weka/ Coleção de algoritmos para as tarefas de data mining; Free software. WEKA: JAVA

Leia mais

SISTEMAS DE APRENDIZADO PARA A IDENTIFICAÇÃO DO NÚMERO DE CAROÇOS DO FRUTO PEQUI LEARNING SYSTEMS FOR IDENTIFICATION OF PEQUI FRUIT SEEDS NUMBER

SISTEMAS DE APRENDIZADO PARA A IDENTIFICAÇÃO DO NÚMERO DE CAROÇOS DO FRUTO PEQUI LEARNING SYSTEMS FOR IDENTIFICATION OF PEQUI FRUIT SEEDS NUMBER SISTEMAS DE APRENDIZADO PARA A IDENTIFICAÇÃO DO NÚMERO DE CAROÇOS DO FRUTO PEQUI Fernando Luiz de Oliveira 1 Thereza Patrícia. P. Padilha 1 Conceição A. Previero 2 Leandro Maciel Almeida 1 RESUMO O processo

Leia mais

Introdução a Datamining (previsão e agrupamento)

Introdução a Datamining (previsão e agrupamento) E o que fazer depois de ter os dados organizados? Introdução a Datamining (previsão e agrupamento) Victor Lobo Mestrado em Estatística e Gestão de Informação Ideias base Aprender com o passado Inferir

Leia mais

Introdução a Datamining (previsão e agrupamento)

Introdução a Datamining (previsão e agrupamento) Introdução a Datamining (previsão e agrupamento) Victor Lobo Mestrado em Estatística e Gestão de Informação E o que fazer depois de ter os dados organizados? Ideias base Aprender com o passado Inferir

Leia mais

UTILIZANDO O SOFTWARE WEKA

UTILIZANDO O SOFTWARE WEKA UTILIZANDO O SOFTWARE WEKA O que é 2 Weka: software livre para mineração de dados Desenvolvido por um grupo de pesquisadores Universidade de Waikato, Nova Zelândia Também é um pássaro típico da Nova Zelândia

Leia mais

Data Mining Software Weka. Software Weka. Software Weka 30/10/2012

Data Mining Software Weka. Software Weka. Software Weka 30/10/2012 Data Mining Software Weka Prof. Luiz Antonio do Nascimento Software Weka Ferramenta para mineração de dados. Weka é um Software livre desenvolvido em Java. Weka é um É um pássaro típico da Nova Zelândia.

Leia mais

Extração de Árvores de Decisão com a Ferramenta de Data Mining Weka

Extração de Árvores de Decisão com a Ferramenta de Data Mining Weka Extração de Árvores de Decisão com a Ferramenta de Data Mining Weka 1 Introdução A mineração de dados (data mining) pode ser definida como o processo automático de descoberta de conhecimento em bases de

Leia mais

Prof. Msc. Paulo Muniz de Ávila

Prof. Msc. Paulo Muniz de Ávila Prof. Msc. Paulo Muniz de Ávila O que é Data Mining? Mineração de dados (descoberta de conhecimento em bases de dados): Extração de informação interessante (não-trivial, implícita, previamente desconhecida

Leia mais

1. Apresentação da Prova... 2. 2. Resultados Nacionais Globais... 4. 3. Resultados Nacionais por Área Temática... 5

1. Apresentação da Prova... 2. 2. Resultados Nacionais Globais... 4. 3. Resultados Nacionais por Área Temática... 5 0 ÍNDICE PROVA DE AFERIÇÃO DE MATEMÁTICA 2.º CICLO 1. Apresentação da Prova... 2 2. Resultados Nacionais Globais... 4 3. Resultados Nacionais por Área Temática... 5 4. Resultados Nacionais por Item...

Leia mais

Avaliando o que foi Aprendido

Avaliando o que foi Aprendido Avaliando o que foi Aprendido Treinamento, teste, validação Predição da performance: Limites de confiança Holdout, cross-validation, bootstrap Comparando algoritmos: o teste-t Predecindo probabilidades:função

Leia mais

Sistema de mineração de dados para descobertas de regras e padrões em dados médicos

Sistema de mineração de dados para descobertas de regras e padrões em dados médicos Sistema de mineração de dados para descobertas de regras e padrões em dados médicos Pollyanna Carolina BARBOSA¹; Thiago MAGELA² 1Aluna do Curso Superior Tecnólogo em Análise e Desenvolvimento de Sistemas

Leia mais

Mineração de Dados: Introdução e Aplicações

Mineração de Dados: Introdução e Aplicações Mineração de Dados: Introdução e Aplicações Luiz Henrique de Campos Merschmann Departamento de Computação Universidade Federal de Ouro Preto luizhenrique@iceb.ufop.br Apresentação Luiz Merschmann Engenheiro

Leia mais

MINERAÇÃO DE DADOS APLICADA. Pedro Henrique Bragioni Las Casas pedro.lascasas@dcc.ufmg.br

MINERAÇÃO DE DADOS APLICADA. Pedro Henrique Bragioni Las Casas pedro.lascasas@dcc.ufmg.br MINERAÇÃO DE DADOS APLICADA Pedro Henrique Bragioni Las Casas pedro.lascasas@dcc.ufmg.br Processo Weka uma Ferramenta Livre para Data Mining O que é Weka? Weka é um Software livre do tipo open source para

Leia mais

Reconhecimento de Padrões

Reconhecimento de Padrões Engenharia Informática (ramos de Gestão e Industrial) Departamento de Sistemas e Informação Reconhecimento de Padrões Projecto Final 2004/2005 Realizado por: Prof. João Ascenso. Departamento de Sistemas

Leia mais

Data Science e Big Data

Data Science e Big Data InforAbERTA IV Jornadas de Informática Data Science e Big Data Luís Cavique, Porto, março 2014 Agenda 1. Definições: padrões micro e Macro 2. Novos padrões para velhos problemas: Similis, Ramex, Process

Leia mais

Data, Text and Web Mining

Data, Text and Web Mining Data, Text and Web Mining Fabrício J. Barth TerraForum Consultores Junho de 2010 Objetivo Apresentar a importância do tema, os conceitos relacionados e alguns exemplos de aplicações. Data, Text and Web

Leia mais

Considerações sobre Conhecimento Incerto e Redes Bayesianas

Considerações sobre Conhecimento Incerto e Redes Bayesianas Considerações sobre Conhecimento Incerto e Redes Bayesianas Felipe S. Gurgel 1, Maiquel de Brito 1 1 Universidade Federal de Santa Catarina - UFSC Departamento de Automação e Sistemas - DAS UFSC/CTC/DAS

Leia mais

MINERAÇÃO DE DADOS PARA DETECÇÃO DE SPAMs EM REDES DE COMPUTADORES

MINERAÇÃO DE DADOS PARA DETECÇÃO DE SPAMs EM REDES DE COMPUTADORES MINERAÇÃO DE DADOS PARA DETECÇÃO DE SPAMs EM REDES DE COMPUTADORES Kelton Costa; Patricia Ribeiro; Atair Camargo; Victor Rossi; Henrique Martins; Miguel Neves; Ricardo Fontes. kelton.costa@gmail.com; patriciabellin@yahoo.com.br;

Leia mais

Técnicas de Seleção de Atributos utilizando Paradigmas de Algoritmos Disciplina de Projeto e Análise de Algoritmos

Técnicas de Seleção de Atributos utilizando Paradigmas de Algoritmos Disciplina de Projeto e Análise de Algoritmos Técnicas de Seleção de Atributos utilizando Paradigmas de Algoritmos Disciplina de Projeto e Análise de Algoritmos Theo Silva Lins, Luiz Henrique de Campos Merschmann PPGCC - Programa de Pós-Graduação

Leia mais

Aprendizado de classificadores das ementas da Jurisprudência do Tribunal Regional do Trabalho da 2ª. Região - SP

Aprendizado de classificadores das ementas da Jurisprudência do Tribunal Regional do Trabalho da 2ª. Região - SP Aprendizado de classificadores das ementas da Jurisprudência do Tribunal Regional do Trabalho da 2ª. Região - SP Thiago Ferauche, Maurício Amaral de Almeida Laboratório de Pesquisa em Ciência de Serviços

Leia mais

ActivALEA. active e actualize a sua literacia

ActivALEA. active e actualize a sua literacia ActivALEA active e actualize a sua literacia N.º 25 HIISTOGRAMA Por: Maria Eugénia Graça Martins Departamento de Estatística e Investigação Operacional da FCUL memartins@fc.ul.pt Emília Oliveira Escola

Leia mais

Identificação de Caracteres com Rede Neuronal Artificial com Interface Gráfica

Identificação de Caracteres com Rede Neuronal Artificial com Interface Gráfica Identificação de Caracteres com Rede Neuronal Artificial com Interface Gráfica João Paulo Teixeira*, José Batista*, Anildio Toca**, João Gonçalves**, e Filipe Pereira** * Departamento de Electrotecnia

Leia mais

DWARF DATAMINER: UMA FERRAMENTA GENÉRICA PARA MINERAÇÃO DE DADOS

DWARF DATAMINER: UMA FERRAMENTA GENÉRICA PARA MINERAÇÃO DE DADOS DWARF DATAMINER: UMA FERRAMENTA GENÉRICA PARA MINERAÇÃO DE DADOS Tácio Dias Palhão Mendes Bacharelando em Sistemas de Informação Bolsista de Iniciação Científica da FAPEMIG taciomendes@yahoo.com.br Prof.

Leia mais

Extracção de Anúncios e Notificação de Utilizadores do Site do Emprego Científico da Fundação para a Ciência e a Tecnologia

Extracção de Anúncios e Notificação de Utilizadores do Site do Emprego Científico da Fundação para a Ciência e a Tecnologia Extracção de Conhecimento da Internet Mestrado em Inteligência Artificial e Computação Extracção de Anúncios e Notificação de Utilizadores do Site do Emprego Científico da Fundação para a Ciência e a Tecnologia

Leia mais

APLICAÇÃO DA MINERAÇÃO DE DADOS PARA GERAÇÃO DE CONHECIMENTO: UM EXPERIMENTO PRÁTICO

APLICAÇÃO DA MINERAÇÃO DE DADOS PARA GERAÇÃO DE CONHECIMENTO: UM EXPERIMENTO PRÁTICO 2, 3 e 4 de Julho de 2009 ISSN 1984-9354 APLICAÇÃO DA MINERAÇÃO DE DADOS PARA GERAÇÃO DE CONHECIMENTO: UM EXPERIMENTO PRÁTICO Priscila Azarias Universidade Tecnológica Federal do Paraná - Campus Ponta

Leia mais

Introdução. Capítulo 1

Introdução. Capítulo 1 Capítulo 1 Introdução Em computação, muitos problemas são resolvidos por meio da escrita de um algoritmo que especifica, passo a passo, como resolver um problema. No entanto, não é fácil escrever um programa

Leia mais

Aplicação de Técnicas de Data Mining em Extracção de Elementos de Documentos Comerciais. Ana Cristina da Silva Anacleto

Aplicação de Técnicas de Data Mining em Extracção de Elementos de Documentos Comerciais. Ana Cristina da Silva Anacleto Aplicação de Técnicas de Data Mining em Extracção de Elementos de Documentos Comerciais por Ana Cristina da Silva Anacleto Tese de Mestrado em Análise de Dados e Sistemas de Apoio à Decisão Orientada por

Leia mais

Universidade do Algarve Faculdade de Ciências e Tecnologia Licenciatura em Informática Ramo Tecnológico

Universidade do Algarve Faculdade de Ciências e Tecnologia Licenciatura em Informática Ramo Tecnológico Universidade do Algarve Faculdade de Ciências e Tecnologia Licenciatura em Informática Ramo Tecnológico Técnicas de clustering Relatório Discentes: Ricardo Seromenho, N.º 23842 Docente: Prof.º Doutor Patrício

Leia mais

INTRODUÇÃO A MINERAÇÃO DE DADOS UTILIZANDO O WEKA

INTRODUÇÃO A MINERAÇÃO DE DADOS UTILIZANDO O WEKA INTRODUÇÃO A MINERAÇÃO DE DADOS UTILIZANDO O WEKA Marcelo DAMASCENO(1) (1) Instituto Federal de Educação, Ciência e Tecnologia do Rio Grande do Norte/Campus Macau, Rua das Margaridas, 300, COHAB, Macau-RN,

Leia mais

Experimentos de Mineração de Dados em R Disciplina do curso de Pós-Graduação da UTFPR

Experimentos de Mineração de Dados em R Disciplina do curso de Pós-Graduação da UTFPR Experimentos de Mineração de Dados em R Disciplina do curso de Pós-Graduação da UTFPR Paulo Carvalho Diniz Junior CPGEI / UTFPR Avenida Sete de Setembro, 3165 Curitiba-PR - CEP 80.230-910 E-mail: paulo.carvalho.diniz@gmail.com

Leia mais

Indução de Árvores de Decisão para a Inferência de Redes Gênicas

Indução de Árvores de Decisão para a Inferência de Redes Gênicas PR UNIVERSIDADE TECNOLÓGICA FEDERAL DO PARANÁ Ministério da Educação Universidade Tecnológica Federal do Paraná Pró-Reitoria de Pesquisa e Pós-Graduação Relatório Final de Atividades Indução de Árvores

Leia mais

POS-Tagging usando Pesquisa Local

POS-Tagging usando Pesquisa Local POS-Tagging usando Pesquisa Local João Laranjinho and Irene Rodrigues and Lígia Ferreira Universidade de Évora Abstract. Neste artigo apresenta-se um sistema de part-of-speech tagging, independente do

Leia mais

TÉCNICAS DE COMPUTAÇÃO PARALELA PARA MELHORAR O TEMPO DA MINERAÇÃO DE DADOS: Uma análise de Tipos de Coberturas Florestais

TÉCNICAS DE COMPUTAÇÃO PARALELA PARA MELHORAR O TEMPO DA MINERAÇÃO DE DADOS: Uma análise de Tipos de Coberturas Florestais UNIVERSIDADE ESTADUAL DE PONTA GROSSA PRÓ-REITORIA DE PESQUISA E PÓS-GRADUAÇÃO PROGRAMA DE PÓS-GRADUAÇÃO EM COMPUTAÇÃO APLICADA CRISTIAN COSMOSKI RANGEL DE ABREU TÉCNICAS DE COMPUTAÇÃO PARALELA PARA MELHORAR

Leia mais

5 Extraindo listas de produtos em sites de comércio eletrônico

5 Extraindo listas de produtos em sites de comércio eletrônico 5 Extraindo listas de produtos em sites de comércio eletrônico Existem diversos trabalhos direcionadas à detecção de listas e tabelas na literatura como (Liu et. al., 2003, Tengli et. al., 2004, Krüpl

Leia mais

Dados e Estatística na TI-nspire MATERIAIS DE APOIO ÀS SESSÕES PRÁTICAS. Grupo de Trabalho T 3 da Associação de Professores de Matemática

Dados e Estatística na TI-nspire MATERIAIS DE APOIO ÀS SESSÕES PRÁTICAS. Grupo de Trabalho T 3 da Associação de Professores de Matemática na TI-nspire MATERIAIS DE APOIO ÀS SESSÕES PRÁTICAS 0. Os números loucos do futebol Em plena crise financeira, os clubes de futebol conseguem continuar a investir milhões nas contratações de novos jogadores

Leia mais

XIII Encontro de Iniciação Científica IX Mostra de Pós-graduação 06 a 11 de outubro de 2008 BIODIVERSIDADE TECNOLOGIA DESENVOLVIMENTO

XIII Encontro de Iniciação Científica IX Mostra de Pós-graduação 06 a 11 de outubro de 2008 BIODIVERSIDADE TECNOLOGIA DESENVOLVIMENTO XIII Encontro de Iniciação Científica IX Mostra de Pós-graduação 06 a 11 de outubro de 2008 BIODIVERSIDADE TECNOLOGIA DESENVOLVIMENTO EPE0147 UTILIZAÇÃO DA MINERAÇÃO DE DADOS EM UMA AVALIAÇÃO INSTITUCIONAL

Leia mais

KDD. Fases limpeza etc. Datamining OBJETIVOS PRIMÁRIOS. Conceitos o que é?

KDD. Fases limpeza etc. Datamining OBJETIVOS PRIMÁRIOS. Conceitos o que é? KDD Conceitos o que é? Fases limpeza etc Datamining OBJETIVOS PRIMÁRIOS TAREFAS PRIMÁRIAS Classificação Regressão Clusterização OBJETIVOS PRIMÁRIOS NA PRÁTICA SÃO DESCRIÇÃO E PREDIÇÃO Descrição Wizrule

Leia mais

UML (Unified Modelling Language) Diagrama de Classes

UML (Unified Modelling Language) Diagrama de Classes UML (Unified Modelling Language) Diagrama de Classes I Classes... 2 II Relações... 3 II. Associações... 3 II.2 Generalização... 9 III Exemplos de Modelos... III. Tabelas de IRS... III.2 Exames...3 III.3

Leia mais

Descoberta de Conhecimento em Bases de Dados. Classificação

Descoberta de Conhecimento em Bases de Dados. Classificação Universidade Técnica de Lisboa INSTITUTO SUPERIOR DE ECONOMIA E GESTÃO Informática e Sistemas de Informação Aplicados em Economia Descoberta de Conhecimento em Bases de Dados. Classificação Descoberta

Leia mais

Regressão logística na identificação de factores de risco em acidentes automóveis e fraude de seguros.

Regressão logística na identificação de factores de risco em acidentes automóveis e fraude de seguros. Regressão logística na identificação de factores de risco em acidentes automóveis e fraude de seguros. José Luís Mourão Faculdade de Ciências Universidade do Porto 28 de Janeiro de 2013 José Luís Mourão

Leia mais

UTILIZAÇÃO DE TÉCNICAS DE BUSINESS INTELLIGENCE NA BASE DE CON- SULTAS ESPECIALIZADAS DO SISTEMA ÚNICO DE SAÚDE.

UTILIZAÇÃO DE TÉCNICAS DE BUSINESS INTELLIGENCE NA BASE DE CON- SULTAS ESPECIALIZADAS DO SISTEMA ÚNICO DE SAÚDE. UTILIZAÇÃO DE TÉCNICAS DE BUSINESS INTELLIGENCE NA BASE DE CON- SULTAS ESPECIALIZADAS DO SISTEMA ÚNICO DE SAÚDE. UTILIZATION OF TECHNIQUES OF BUSINESS INTELLIGENCE IN THE BASE OF SPECIALIZED QUERIES OF

Leia mais

Projeto de Redes Neurais e MATLAB

Projeto de Redes Neurais e MATLAB Projeto de Redes Neurais e MATLAB Centro de Informática Universidade Federal de Pernambuco Sistemas Inteligentes IF684 Arley Ristar arrr2@cin.ufpe.br Thiago Miotto tma@cin.ufpe.br Baseado na apresentação

Leia mais

CURSO DE PÓS-GRADUAÇÃO

CURSO DE PÓS-GRADUAÇÃO CURSO DE PÓS-GRADUAÇÃO EM ANÁLISE DE DADOS E GESTÃO DE INFORMAÇÃO Grupo de trabalho Armando Mendes Áurea Sousa Fátima Brilhante Rita Marques Brandão Osvaldo Silva Fevereiro 2010 Enquadramento e justificação

Leia mais

Barómetro Regional da Qualidade Avaliação da Satisfação dos Utentes dos Serviços de Saúde

Barómetro Regional da Qualidade Avaliação da Satisfação dos Utentes dos Serviços de Saúde Avaliação da Satisfação dos Utentes dos Serviços de Saúde Entidade Promotora Concepção e Realização Enquadramento Avaliação da Satisfação dos Utentes dos Serviços de Saúde Índice RESUMO EXECUTIVO...

Leia mais

Web Data Mining com R: design de projetos para criação de modelos preditivos

Web Data Mining com R: design de projetos para criação de modelos preditivos Web Data Mining com R: design de projetos para criação de modelos preditivos Fabrício Jailson Barth Faculdade BandTec e VAGAS Tecnologia Junho de 2013 Sumário e Objetivos Etapas em estudos preditivos Escolha

Leia mais

Data Mining II Modelos Preditivos

Data Mining II Modelos Preditivos Data Mining II Modelos Preditivos Prof. Doutor Victor Lobo Mestre André Melo Mestrado em Estatística e Gestão de Informação Objectivo desta disciplina Fazer previsões a partir de dados. Conhecer os principais

Leia mais

MINERAÇÃO DE DADOS EDUCACIONAIS: UM ESTUDO DE CASO APLICADO AO PROCESSO SELETIVO DO IFSULDEMINAS CÂMPUS MUZAMBINHO

MINERAÇÃO DE DADOS EDUCACIONAIS: UM ESTUDO DE CASO APLICADO AO PROCESSO SELETIVO DO IFSULDEMINAS CÂMPUS MUZAMBINHO MINERAÇÃO DE DADOS EDUCACIONAIS: UM ESTUDO DE CASO APLICADO AO PROCESSO SELETIVO DO IFSULDEMINAS CÂMPUS MUZAMBINHO Fernanda Delizete Madeira 1 ; Aracele Garcia de Oliveira Fassbinder 2 INTRODUÇÃO Data

Leia mais

A Utilização de Software Livre na Análise de QoS em Redes IP Utilizando Mineração de Dados

A Utilização de Software Livre na Análise de QoS em Redes IP Utilizando Mineração de Dados A Utilização de Software Livre na Análise de QoS em Redes IP Utilizando Mineração de Dados Maxwel Macedo Dias 1, Edson M.L.S. Ramos 2, Luiz Silva Filho 3, Roberto C. Betini 3 1 Faculdade de Informática

Leia mais

Curso Superior de Tecnologia em Banco de Dados Disciplina: Projeto de Banco de Dados Relacional II Prof.: Fernando Hadad Zaidan

Curso Superior de Tecnologia em Banco de Dados Disciplina: Projeto de Banco de Dados Relacional II Prof.: Fernando Hadad Zaidan Faculdade INED Curso Superior de Tecnologia em Banco de Dados Disciplina: Projeto de Banco de Dados Relacional II Prof.: Fernando Hadad Zaidan 1 Unidade 4.5 2 1 BI BUSINESS INTELLIGENCE BI CARLOS BARBIERI

Leia mais

Web Data Mining com R

Web Data Mining com R Web Data Mining com R Fabrício J. Barth fabricio.barth@gmail.com VAGAS Tecnologia e Faculdade BandTec Maio de 2014 Objetivo O objetivo desta palestra é apresentar conceitos sobre Web Data Mining, fluxo

Leia mais

Manual de Access 2007

Manual de Access 2007 Manual de Access 2007 Índice Introdução... 4 Melhor que um conjunto de listas... 5 Amizades com relações... 6 A Estrutura de uma Base de Dados... 8 Ambiente do Microsoft Access 2007... 9 Separadores do

Leia mais

CRM e Prospecção de Dados

CRM e Prospecção de Dados CRM e Prospecção de Dados Marília Antunes aula de 11 de Maio 09 6 Modelos de regressão 6.1 Introdução No capítulo anterior foram apresentados alguns modelos preditivos em que a variável resposta (a variável

Leia mais

Sugestão de palavras chave para campanhas em motores de busca em arranque

Sugestão de palavras chave para campanhas em motores de busca em arranque Relatório Técnico FEUP Sugestão de palavras chave para campanhas em motores de busca em arranque João Albuquerque AdClick Ricardo Morla INESC TEC e FEUP Gabriel David INESC TEC e FEUP Rui Campos AdClick

Leia mais

Sistemas de Apoio à Decisão. Vocabulário e conceitos Vista geral

Sistemas de Apoio à Decisão. Vocabulário e conceitos Vista geral Sistemas de Apoio à Decisão Vocabulário e conceitos Vista geral Decisão A escolha de uma entre várias alternativas Processo de tomada de decisão (decision making) Avaliar o problema Recolher e verificar

Leia mais

O Processo de KDD Knowledge Discovery in Database para Aplicações na Medicina

O Processo de KDD Knowledge Discovery in Database para Aplicações na Medicina SEMINC 2001 57 O Processo de KDD Knowledge Discovery in Database para Aplicações na Medicina MARIZA FERRO HUEI DIANA LEE UNIOESTE - Universidade Estadual do Oeste do Paraná CECE Centro de Engenharias e

Leia mais

Aula 02: Conceitos Fundamentais

Aula 02: Conceitos Fundamentais Aula 02: Conceitos Fundamentais Profa. Ms. Rosângela da Silva Nunes 1 de 26 Roteiro 1. Por que mineração de dados 2. O que é Mineração de dados 3. Processo 4. Que tipo de dados podem ser minerados 5. Que

Leia mais

Tópicos Especiais: INTELIGÊNCIA DE NEGÓCIOS II. Mineração de Dados. Sylvio Barbon Junior barbon@uel.br. 26 de junho de 2015 DC-UEL Sylvio Barbon Jr 1

Tópicos Especiais: INTELIGÊNCIA DE NEGÓCIOS II. Mineração de Dados. Sylvio Barbon Junior barbon@uel.br. 26 de junho de 2015 DC-UEL Sylvio Barbon Jr 1 Tópicos Especiais: INTELIGÊNCIA DE NEGÓCIOS II Mineração de Dados Sylvio Barbon Junior barbon@uel.br 26 de junho de 2015 DC-UEL Sylvio Barbon Jr 1 Sumário Etapa I Etapa II Inteligência de Negócios Visão

Leia mais

ALGORITMOS DE APRENDIZADO DE MÁQUINA APLICADOS À PARÂMETROS MENSURADOS NO RIO ATIBAIA/SP

ALGORITMOS DE APRENDIZADO DE MÁQUINA APLICADOS À PARÂMETROS MENSURADOS NO RIO ATIBAIA/SP ALGORITMOS DE APRENDIZADO DE MÁQUINA APLICADOS À PARÂMETROS MENSURADOS NO RIO ATIBAIA/SP Maria Rejane Lourençoni Siviero 1 & Estevam Rafael Hruschka Júnior 2 RESUMO - Este artigo trata-se da aplicação

Leia mais

Davy Baía MSC Candidate

Davy Baía MSC Candidate Descoberta de conhecimento em banco de dados utilizando técnicas de mineração de dados no domínio da Engenharia de Software para fins de gerenciamento do processo de desenvolvimento Davy Baía MSC Candidate

Leia mais

Ferramentas Livres de Armazenamento e Mineração de Dados

Ferramentas Livres de Armazenamento e Mineração de Dados Ferramentas Livres de Armazenamento e Mineração de Dados JasperBI, Pentaho, Weka 09/2009 Eng. Pablo Jorge Madril pmadril@summa.com.br Summa Technologies www.summa.com.br Eng. Pablo Jorge Madril pmadril@summa.com.br

Leia mais

Aprendizagem de Máquina

Aprendizagem de Máquina Aprendizagem de Máquina Professor: Rosalvo Ferreira de Oliveira Neto Disciplina: Inteligência Artificial Tópicos 1. Definições 2. Tipos de aprendizagem 3. Paradigmas de aprendizagem 4. Modos de aprendizagem

Leia mais

Utilização de Técnicas de Mineração de Dados como Auxílio na Detecção de Cartéis em Licitações Carlos Vinícius Sarmento Silva Célia Ghedini Ralha

Utilização de Técnicas de Mineração de Dados como Auxílio na Detecção de Cartéis em Licitações Carlos Vinícius Sarmento Silva Célia Ghedini Ralha WCGE II Workshop de Computação Aplicada em Governo Eletrônico Utilização de Técnicas de Mineração de Dados como Auxílio na Detecção de Cartéis em Licitações Carlos Vinícius Sarmento Silva Célia Ghedini

Leia mais

Ao conjunto total de tabelas, chamamos de Base de Dados.

Ao conjunto total de tabelas, chamamos de Base de Dados. O QUE É O ACCESS? É um sistema gestor de base de dados relacional. É um programa que permite a criação de Sistemas Gestores de Informação sofisticados sem conhecer linguagem de programação. SISTEMA DE

Leia mais

Sistemas de Apoio à Decisão

Sistemas de Apoio à Decisão Sistemas de Apoio à Decisão Data Mining & Optimização Victor Lobo Objectivos gerais Abrir horizontes em temas actuais Aprender técnicas usadas em Sistemas de apoio à decisão ou Business Intelligence Métodos

Leia mais

Determinação dos Fatores Críticos na Análise de Desempenho de Alunos de Pósgraduação Utilizando Metodologia de Mineração de Dados

Determinação dos Fatores Críticos na Análise de Desempenho de Alunos de Pósgraduação Utilizando Metodologia de Mineração de Dados Resumo Determinação dos Fatores Críticos na Análise de Desempenho de Alunos de Pósgraduação Utilizando Metodologia de Mineração de Dados Autoria: Elizabeth de Oliveira Carpenter, Gerson Lachtermacher O

Leia mais

Planeamento experimental Tutorial para o DX 6.

Planeamento experimental Tutorial para o DX 6. Planeamento experimental Tutorial para o DX 6. Apresentam-se algumas imagens (comentadas) obtidas durante o procedimento de planeamento (desenho) experimental com o Design-Expert (O sítio da empresa StatEase

Leia mais

Satisfação de Restrições. Capítulo 5 (disponível online)

Satisfação de Restrições. Capítulo 5 (disponível online) Satisfação de Restrições Capítulo 5 (disponível online) Sumário Problemas de Satisfação de Restrições (CSPs) Procura com Retrocesso para CSPs Procura Local para CSPs Estrutura dos CSPs Problemas de Satisfação

Leia mais

3. Características amostrais. Medidas de localização e dispersão

3. Características amostrais. Medidas de localização e dispersão Estatística Descritiva com Excel Complementos. 77 3. Características amostrais. Medidas de localização e dispersão 3.1- Introdução No módulo de Estatística foram apresentadas as medidas ou estatísticas

Leia mais

Tarefas e Técnicas de Mineração de Dados TAREFAS E TÉCNICAS DE MINERAÇÃO DE DADOS

Tarefas e Técnicas de Mineração de Dados TAREFAS E TÉCNICAS DE MINERAÇÃO DE DADOS Tarefas e Técnicas de Mineração de Dados TAREFAS E TÉCNICAS DE MINERAÇÃO DE DADOS Sumário Conceitos / Autores chave... 3 1. Introdução... 3 2. Tarefas desempenhadas por Técnicas de 4 Mineração de Dados...

Leia mais

Microsoft Innovation Center

Microsoft Innovation Center Microsoft Innovation Center Mineração de Dados (Data Mining) André Montevecchi andre@montevecchi.com.br Introdução Objetivo BI e Mineração de Dados Aplicações Exemplos e Cases Algoritmos para Mineração

Leia mais

Luiz Henrique Marino Cerqueira Faculdade de Engenharia de Computação CEATEC luiz.hmc@puccamp.edu.br

Luiz Henrique Marino Cerqueira Faculdade de Engenharia de Computação CEATEC luiz.hmc@puccamp.edu.br AVALIAÇÃO COMPARATIVA DE ALGORITMOS PARA SISTEMAS DE RECOMENDAÇÃO EM MÚLTIPLOS DOMÍNOS: PREVISÃO DO DESEMPENHO DE ESTUDANTES A PARTIR DE SUA INTERAÇÃO COM UM SISTEMA TUTOR. Luiz Henrique Marino Cerqueira

Leia mais

Marcio Cataldi 1, Carla da C. Lopes Achão 2, Bruno Goulart de Freitas Machado 1, Simone Borim da Silva 1 e Luiz Guilherme Ferreira Guilhon 1

Marcio Cataldi 1, Carla da C. Lopes Achão 2, Bruno Goulart de Freitas Machado 1, Simone Borim da Silva 1 e Luiz Guilherme Ferreira Guilhon 1 Aplicação das técnicas de Mineração de Dados como complemento às previsões estocásticas univariadas de vazão natural: estudo de caso para a bacia do rio Iguaçu Marcio Cataldi 1, Carla da C. Lopes Achão

Leia mais

Resoluções comentadas das questões de Estatística da prova para. ANALISTA DE GERENCIAMENTO DE PROJETOS E METAS da PREFEITURA/RJ

Resoluções comentadas das questões de Estatística da prova para. ANALISTA DE GERENCIAMENTO DE PROJETOS E METAS da PREFEITURA/RJ Resoluções comentadas das questões de Estatística da prova para ANALISTA DE GERENCIAMENTO DE PROJETOS E METAS da PREFEITURA/RJ Realizada pela Fundação João Goulart em 06/10/2013 41. A idade média de todos

Leia mais

Padronização de Processos: BI e KDD

Padronização de Processos: BI e KDD 47 Padronização de Processos: BI e KDD Nara Martini Bigolin Departamento da Tecnologia da Informação -Universidade Federal de Santa Maria 98400-000 Frederico Westphalen RS Brazil nara.bigolin@ufsm.br Abstract:

Leia mais

Paralelização do algoritmo SPRINT usando MyGrid

Paralelização do algoritmo SPRINT usando MyGrid Paralelização do algoritmo SPRINT usando MyGrid Juliana Carvalho, Ricardo Rebouças e Vasco Furtado Universidade de Fortaleza UNIFOR juliana@edu.unifor.br ricardo@sspds.ce.gov.br vasco@unifor.br 1. Introdução

Leia mais

sdescoberta DE CONHECIMENTO APLICADO A DADOS ELEITORAIS

sdescoberta DE CONHECIMENTO APLICADO A DADOS ELEITORAIS sdescoberta DE CONHECIMENTO APLICADO A DADOS ELEITORAIS Claudio Tavares Especialista em Banco de Dados, Unicenp. E-mail: cláudio.tavares@renault.com Daniel Bozza Especialista em Banco de Dados, Unicenp.

Leia mais

Análise de técnicas de selecção de atributos em Bioinformática

Análise de técnicas de selecção de atributos em Bioinformática Análise de técnicas de selecção de atributos em Bioinformática Rui Mendes 100378011 Bioinformática 10/11 DCC Artigo Base Yvan Saeys, Inaki Inza and Pedro Larranaga. A review of feature selection techniques

Leia mais

Computação Adaptativa

Computação Adaptativa Departamento de Engenharia Informática Faculdade de Ciências e Tecnologia Universidade de Coimbra 2007/08 Computação Adaptativa TP2 OCR Optical Character Recognition Pedro Carvalho de Oliveira (MEI) Nº

Leia mais

Classificação da imagem (ou reconhecimento de padrões): objectivos Métodos de reconhecimento de padrões

Classificação da imagem (ou reconhecimento de padrões): objectivos Métodos de reconhecimento de padrões Classificação de imagens Autor: Gil Gonçalves Disciplinas: Detecção Remota/Detecção Remota Aplicada Cursos: MEG/MTIG Ano Lectivo: 11/12 Sumário Classificação da imagem (ou reconhecimento de padrões): objectivos

Leia mais

AVALIAÇÃO COMPARATIVA DE ALGORITMOS PARA SISTEMAS DE RECOMENDAÇÃO EM MÚLTIPLOS DOMÍNIOS: MODELOS INTERPRETÁVEIS APLICADOS A DADOS EDUCACIONAIS

AVALIAÇÃO COMPARATIVA DE ALGORITMOS PARA SISTEMAS DE RECOMENDAÇÃO EM MÚLTIPLOS DOMÍNIOS: MODELOS INTERPRETÁVEIS APLICADOS A DADOS EDUCACIONAIS AVALIAÇÃO COMPARATIVA DE ALGORITMOS PARA SISTEMAS DE RECOMENDAÇÃO EM MÚLTIPLOS DOMÍNIOS: MODELOS INTERPRETÁVEIS APLICADOS A DADOS EDUCACIONAIS Hugo Marques Casarini Faculdade de Engenharia de Computação

Leia mais

Curva ROC. George Darmiton da Cunha Cavalcanti Tsang Ing Ren CIn/UFPE

Curva ROC. George Darmiton da Cunha Cavalcanti Tsang Ing Ren CIn/UFPE Curva ROC George Darmiton da Cunha Cavalcanti Tsang Ing Ren CIn/UFPE Introdução ROC (Receiver Operating Characteristics) Curva ROC é uma técnica para a visualização e a seleção de classificadores baseado

Leia mais

Aplicação do algoritmo SimpleKMeans em experimento de milho verde

Aplicação do algoritmo SimpleKMeans em experimento de milho verde Aplicação do algoritmo SimpleKMeans em experimento de milho verde Wesley Viana 1, Prof. MSc. Marcos de Moraes Sousa 1, Prof. MSc. Júnio César de Lima 1 Prof. Dr. Milton Sérgio Dornelles 1 1 Instituto Federal

Leia mais

APLICAÇÃO DE DATA MINING NA IDENTIFICAÇÃO DE PADRÕES EM CRIANÇAS RESPIRADORAS BUCAIS E NASAIS 1.

APLICAÇÃO DE DATA MINING NA IDENTIFICAÇÃO DE PADRÕES EM CRIANÇAS RESPIRADORAS BUCAIS E NASAIS 1. APLICAÇÃO DE DATA MINING NA IDENTIFICAÇÃO DE PADRÕES EM CRIANÇAS RESPIRADORAS BUCAIS E NASAIS 1. SQUIZANI, Cleonice Schell 2 ; MORALES, Yuri 2 ; VIEIRA, Sylvio André Garcia 2 1 Trabalho de pesquisa - UNIFRA

Leia mais

Guia de Estudo Folha de Cálculo Microsoft Excel

Guia de Estudo Folha de Cálculo Microsoft Excel Tecnologias da Informação e Comunicação Guia de Estudo Folha de Cálculo Microsoft Excel Estrutura geral de uma folha de cálculo: colunas, linhas, células, endereços Uma folha de cálculo electrónica ( electronic

Leia mais

Uma aplicação de Inteligência Computacional e Estatística Clássica na Previsão do Mercado de Seguros de Automóveis Brasileiro

Uma aplicação de Inteligência Computacional e Estatística Clássica na Previsão do Mercado de Seguros de Automóveis Brasileiro Uma aplicação de Inteligência Computacional e Estatística Clássica na Previsão do Mercado de Seguros de Automóveis Brasileiro Tiago Mendes Dantas t.mendesdantas@gmail.com Departamento de Engenharia Elétrica,

Leia mais

O Processo de KDD. Data Mining SUMÁRIO - AULA1. O processo de KDD. Interpretação e Avaliação. Seleção e Pré-processamento. Consolidação de dados

O Processo de KDD. Data Mining SUMÁRIO - AULA1. O processo de KDD. Interpretação e Avaliação. Seleção e Pré-processamento. Consolidação de dados SUMÁRIO - AULA1 O Processo de KDD O processo de KDD Interpretação e Avaliação Consolidação de dados Seleção e Pré-processamento Warehouse Data Mining Dados Preparados p(x)=0.02 Padrões & Modelos Conhecimento

Leia mais

APLICAÇÃO DE MINERAÇÃO DE DADOS PARA O LEVANTAMENTO DE PERFIS: ESTUDO DE CASO EM UMA INSTITUIÇÃO DE ENSINO SUPERIOR PRIVADA

APLICAÇÃO DE MINERAÇÃO DE DADOS PARA O LEVANTAMENTO DE PERFIS: ESTUDO DE CASO EM UMA INSTITUIÇÃO DE ENSINO SUPERIOR PRIVADA APLICAÇÃO DE MINERAÇÃO DE DADOS PARA O LEVANTAMENTO DE PERFIS: ESTUDO DE CASO EM UMA INSTITUIÇÃO DE ENSINO SUPERIOR PRIVADA Lizianne Priscila Marques SOUTO 1 1 Faculdade de Ciências Sociais e Aplicadas

Leia mais

Utilização do SOLVER do EXCEL

Utilização do SOLVER do EXCEL Utilização do SOLVER do EXCEL 1 Utilização do SOLVER do EXCEL José Fernando Oliveira DEEC FACULDADE DE ENGENHARIA DA UNIVERSIDADE DO PORTO MAIO 1998 Para ilustrar a utilização do Solver na resolução de

Leia mais

Expanda suas Capacidades Analíticas

Expanda suas Capacidades Analíticas Módulos IBM SPSS Statistics Expanda suas Capacidades Analíticas Um guia resumido dos módulos para o IBM SPSS Statistics Base Destaques Existem vários produtos IBM SPSS para te ajudar em cada fase do projeto

Leia mais

Sistemas de Apoio à Decisão Árvores de decisão V 1.2, V.Lobo, EN/ISEGI, 2010

Sistemas de Apoio à Decisão Árvores de decisão V 1.2, V.Lobo, EN/ISEGI, 2010 V., V.Lobo, EN/ISEGI, O que é a árvore de decisão? Arvores de decisão Victor Lobo Algorítmo para tomar decisões (ou classificar) Modo de representar conhecimento Tem penas? Nós (testes, ou conceitos) Comprimento

Leia mais

E se conseguisse reduzir os seus custos de energia até 20%?

E se conseguisse reduzir os seus custos de energia até 20%? E se conseguisse reduzir os seus custos de energia até 20%? Uma solução eficaz de Gestão Energética para o Retalho Eficiência Energética no Retalho Será que está a gastar mais em energia do que necessita?

Leia mais

Disciplina de Text Mining

Disciplina de Text Mining Disciplina de Text Mining Fabrício J. Barth fabricio.barth@gmail.com Pós Graduação em Big Data - Faculdade BandTec Novembro de 2015 Objetivo O objetivo deste curso é apresentar a área de Text Mining. Serão

Leia mais

3 Metodologia de Previsão de Padrões de Falha

3 Metodologia de Previsão de Padrões de Falha 3 Metodologia de Previsão de Padrões de Falha Antes da ocorrência de uma falha em um equipamento, ele entra em um regime de operação diferente do regime nominal, como descrito em [8-11]. Para detectar

Leia mais

Prof. Júlio Cesar Nievola Data Mining PPGIa PUCPR

Prof. Júlio Cesar Nievola Data Mining PPGIa PUCPR Encontrar grupos de objetos tal que objetos em um grupo são similares (ou relacionados) uns aos outros e diferentes de (ou não relacionados) a objetos em outros grupos Compreensão Agrupa documentos relacionados

Leia mais

Transcrição Automática de Música

Transcrição Automática de Música Transcrição Automática de Música Ricardo Rosa e Miguel Eliseu Escola Superior de Tecnologia e Gestão do Instituto Politécnico de Leiria Departamento de Engenharia Informática A transcrição automática de

Leia mais

Estudo de Mercado Fiabilidade de Leitura em Loja

Estudo de Mercado Fiabilidade de Leitura em Loja Estudo de Mercado Fiabilidade de Leitura em Loja Decorreu no primeiro trimestre 2009, um estudo de avaliação de implementação e desempenho dos códigos de barras comerciais, no âmbito do espaço nacional.

Leia mais

Mineração de dados em triagem de risco de saúde

Mineração de dados em triagem de risco de saúde Mineração de dados em triagem de risco de saúde Thales Vaz Maciel 1 ; Vinicius Rosa Seus 2 ; Karina dos Santos Machado 3 ; Eduardo Nunes Borges 4 1234 Centro de Ciências Computacionais, Fundação Universidade

Leia mais

Exemplo de Aplicação do DataMinig

Exemplo de Aplicação do DataMinig Exemplo de Aplicação do DataMinig Felipe E. Barletta Mendes 19 de fevereiro de 2008 INTRODUÇÃO AO DATA MINING A mineração de dados (Data Mining) está inserida em um processo maior denominado Descoberta

Leia mais