Mestrado em Análise de Dados e Sistemas de Apoio à Decisão. Faculdade de Economia. Universidade de Porto. Extracção de Conhecimento de Dados I

Tamanho: px
Começar a partir da página:

Download "Mestrado em Análise de Dados e Sistemas de Apoio à Decisão. Faculdade de Economia. Universidade de Porto. Extracção de Conhecimento de Dados I"

Transcrição

1 Mestrado em Análise de Dados e Sistemas de Apoio à Decisão Faculdade de Economia Universidade de Porto Extracção de Conhecimento de Dados I PROBLEMAS DE CLASSIFICAÇÃO Manuel José Ferreira Monteiro Novembro de 2005

2 ÍNDICE 1. Objectivo Descrição do problema Descrição do Dataset Aplicações utilizadas Aplicação do método OneR Explicação do modelo obtido pelo método OneR Listas de Decisão Métodos de Procura Construção de regras usando procura Hill-Climbing Construção de regras usando procura em largura-primeiro Construção de regras usando o procura em profundidade-primeiro Conclusão dos métodos de procura Outros métodos do WEKA Algumas Comparações Medir taxa erro e de acerto sobre uma parte de teste Comparação entre métodos Conclusões Bibliografia e Endereços de Internet... 22

3 1. Objectivo Pretende-se com este trabalho a consolidação de conhecimentos na área de introdução ao data mining. Em simultâneo com o resumo do tema será analisado um caso prático onde serão aplicadas algumas das técnicas apresentadas. O que é o Data Mining? O Data Mining (DM) é um processo que usa uma variedade de ferramentas de análise de dados para descobrir de forma automática ou semi-automática padrões e relações (modelos de decisão, tendências, afinidades, desvios) nos dados. Usa ferramentas das ciências da computação, Inteligência Artificial e Estatística. As tarefas habituais do DM são a Classificação, Regressão, Previsão, Associação e Agrupamento, entre outras. 2. Descrição do problema A análise de um dataset só fará sentido se a pessoa que faz a analise é minimamente versada nos domínios do problema em estudo. É importante que o analista possa interpretar de forma eficaz os resultados obtidos. Se o analista não é versado no problema em análise, poderá obviamente ser assessorado por profissionais da área. Neste estudo privilegiou-se, acima de tudo, a compreensão dos conceitos introdutórios do Data Mining, decidiu-se por isso utilizar um dataset simples que permitisse absorver com clareza os conceitos associados à matéria e que permitisse alguma flexibilidade na aplicação de métodos manuais. Após testar diversos datasets, nomeadamente os disponibilizados pela UCI (reconhecimento de caracteres, diabetes, doenças de coração, entre outros) optou-se por um conjunto de dados associados à população do Titanic. O caso do afundamento do Titanic é um evento famoso que qualquer pessoa entende. 3

4 O objectivo é analisar os dados e procurar um padrão (por exemplo: a maior parte dos sobreviventes eram do sexo masculino) e obter a probabilidade de uma dada pessoa sobreviver ou não ao acidente do Titanic, confirmar alguns dos dados que fazem parte do nosso senso comum, como por exemplo se terá sido adoptada a regra de Mulheres e crianças primeiro, ou ainda se terá sido a 1ª classe privilegiada no momento de atribuição dos barcos salva-vidas. 3. Descrição do Dataset Os dados foram originalmente recolhidos pela British Board of Trade na sua investigação ao acidente. Esta base de dados contém quatro atributos para cada uma das 2201 pessoas no Titanic quando este se afundou. Os atributos são: Classe: {1ª Classe, 2ª Classe, 3ª Classe, Tripulação} Idade: {Adulto, Criança} Sexo: {M, F} Sobreviveu: {Sim, Não} O conjunto de dados original inclui os nomes dos tripulantes, mas não foram usados por serem irrelevantes para o estudo. 4

5 4. Aplicações utilizadas Utilizou-se o Weka como aplicação principal. O que é o WEKA? É uma colecção de algoritmos de Machine Learning para tarefas de Data Mining. Os algoritmos podem ser aplicados directamente aos datasets ou chamados de aplicações JAVA próprias. O WEKA (Waikato Environment for Knowledge Analysis) contém ferramentas para pré-processamento, classificação, regressão, clustering, regras de associação e visualização de dados. Para mais informações e download da aplicação consultar: Utilizou-se igualmente o Excel para algumas estatísticas de base e preparação dos dados para input do WEKA. 5

6 5. Aplicação do método OneR Um dos métodos aplicados neste estudo é o OneR. O que é o OnerR? O modelo OneR é usado em problemas de classificação e baseia-se no pressuposto de que frequentemente um atributo é suficiente para determinar a classe. O atributo escolhido pelo OneR é aquele que possuir menor erro. É o algoritmo mais simples. Como o nome sugere, este sistema gera uma regra (One Rule). Em algumas circunstâncias é tão poderoso como sistemas mais sofisticados como o J48 e o PART. Aplicando-se o método OneR ao dataset obtém-se o seguinte modelo: === Classifier model (full training set) === Sexo: M -> Não F -> Sim (1708/2201 instances correct) O atributo escolhido pelo OneR foi o sexo. Como se poderá verificar nos dados obtidos classificou correctamente 1708 instâncias. Como se verifica no extracto de Weka seguinte representa uma classificação correcta de 77.6%. === Evaluation on training set === === Summary === Correctly Classified Instances % Incorrectly Classified Instances % Kappa statistic Mean absolute error

7 Root mean squared error Relative absolute error % Root relative squared error % Total Number of Instances 2201 Continuando a analisar os dados obtidos consegue-se ainda obter o nível de precisão para cada uma das classes, assim temos (73,2%) de precisão para o Sim e (78,9%) para o Não. === Detailed Accuracy By Class === TP Rate FP Rate Precision Recall F-Measure Class Sim Não Outro dos elementos fornecidos pelo WEKA quando se aplica o OnerR é a matriz de confusão. A matriz de confusão fornece na sua diagonal principal o número de instâncias classificadas correctamente para cada classe. Assim, o Sim teve 344 instâncias classificadas correctamente e 126 erradamente. De forma análoga, o Não obteve 1364 instâncias classificadas correctamente contra 367 classificadas incorrectamente. === Confusion Matrix === a b <-- classified as a = Sim b = Não Num dataset com mais classes é interessante verificar como se distribuem as classificações incorrectas pelas restantes classes. Quanto maior for a absorção de instâncias pela diagonal principal, mais optimizado está o modelo obtido. 7

8 6. Explicação do modelo obtido pelo método OneR Como o OnerR chegou ao modelo apresentado? O OneR diz: Para cada atributo A Para cada valor V1,..., Vn do atributo, construir a regra A=Vi -> C: C é a classe mais frequente nos exemplos com A=Vi calcular o erro da regra (#respostas erradas) / (#respostas) calcular o erro da hipótese baseada em A Escolher a hipótese com menor erro Seguindo essa regra obtemos: Atributo Valor Atributo Classe # Classe mais frequente # Respostas Erradas # Respostas #Erradas / #Respostas Classe 1ª Classe Sim % Não 122 2ª Classe Sim 118 Não % 3ª Classe Sim 178 Não % Tripulação Sim 212 Não % Idade Adulto Sim 654 Não % Criança Sim % Não 52 Sexo Masculino Sim 367 Não % Feminino Sim % Não 126 Observa-se que o menor erro na coluna #Erradas/#Respostas é 21%, o que implica que o atributo seleccionado seja o atributo Sexo. 8

9 7. Listas de Decisão Aplicaram-se outros métodos ao dataset utilizando o WEKA, o PRISM e o PART. Estes dois métodos permitem criar listas de decisão. Os dados obtidos foram: Método PRISM PART Correctly Classified Instances ,304% ,055% Incorrectly Classified Instances ,697% ,945% Ou seja, o PRISM não se adequa ao dataset estudado dado apenas classificar correctamente 32,304% das instâncias. Optou-se por isso analisar o método PART por ter uma taxa de classificação correcta de 79,055%, superior ao OneR analisado anteriormente. A lista obtida no PART foi: PART decision list Sexo = M AND Classe = 2ª_Classe AND Idade = Adulto: Não (168.0/14.0) Sexo = M AND Classe = Tripulação: Não (862.0/192.0) Sexo = M AND Classe = 3ª_Classe: Não (510.0/88.0) Sexo = F AND Classe = 3ª_Classe: Não (196.0/90.0) Sexo = F: Sim (274.0/20.0) Idade = Adulto: Não (175.0/57.0) : Sim (16.0) Number of Rules : 7 9

10 Foram geradas sete regras com o PART. Pode-se ainda verificar o grau de precisão obtido. === Detailed Accuracy By Class === TP Rate FP Rate Precision Recall F-Measure Class Sim Não Verifica-se uma excelente precisão para o SIM com 93.1%, o Não consegue apenas uma precisão de 76,9%. Tal como no OneR também no PART é gerada a matriz de confusão. === Confusion Matrix === a b <-- classified as a = Sim b = Não 10

11 8. Métodos de Procura Aplicaram-se os métodos de procura Hill-Climbing, Profundidade-Primeiro e Largura-Primeiro à totalidade dos dados do dataset. A abordagem foi data driven. 8.1 Construção de regras usando procura Hill-Climbing Para descrever a construção das regras, considera-se o método de procura Hill- Climbing, em que a abordagem a seguir será o Data Driven. Usando uma abordagem Data Driven, este método de procura heurística começa com uma regra maximamente geral, neste caso classe= Sim e verifica-se a qualidade da regra através do seu erro. Método de Procura Hill-Climbing Dados: H0 (maximamente geral), Obj, Rel. Gen. Fila <- [ ] H<-H0 Até H satisfazer Obj Gera hipóteses: especializações max. gerais de H Junta novas hipóteses a Fila Selecciona : H Fila : argmax q(h) esvazia fila (poupa memória) Repete retorna H Aplicando o método obtemos uma primeira iteração: 1ª Iteração #Erradas #Respostas % Classe=1ª Classe Sobrevive=Sim ,38 Classe=2ª Classe Sobrevive=Sim ,59 Classe=3ª Classe Sobrevive=Sim ,75 Sim Classe=Tripulação Sobrevive=Sim ,76 Idade=Adulto Sobrevive=Sim ,69 Idade=Criança Sobrevive=Sim ,48 Sexo=Feminino Sobrevive=Sim ,27 Sexo=Masculino Sobrevive=Sim ,79 11

12 Como na primeira iteração não foi encontrada nenhuma regra com zero erros, então terá que se continuar a refinar a regra que optimiza localmente a heurística, ou seja aquela que errasse num menor número de exemplos, e que neste caso será: Idade=Criança Sobrevive=Sim. Esta regra serve de base para a 2ª iteração do método: 2ª Iteração #Erradas #Respostas % Classe=1ª Classe Sobrevive=Sim Idade=Criança & Sobrevive=Sim Classe=2ª Classe Sobrevive=Sim Classe=3ª Classe Sobrevive=Sim ,66 Classe=Tripulação Sobrevive=Sim Sexo=Feminino Sobrevive=Sim ,38 Sexo=Masculino Sobrevive=Sim ,55 Na 2ª iteração encontraram-se duas ocorrências com zero respostas erradas que satisfaz o objectivo (heurística), a procura termina aqui. Para este exemplo, obtêm-se duas regras que optimizam a classe Sim : Idade=Criança & Classe=1ª Classe Sobrevive=Sim Idade=Criança & Classe=2ª Classe Sobrevive=Sim De referir que nesta 2ª iteração aparece um 3º registo com erro igual a zero. Porém, este não pode utilizado porque representa igualmente uma classificação que não retorna resultados no dataset. 8.2 Construção de regras usando procura em largura-primeiro Considerando o mesmo conjunto de dados do ponto anterior, começa-se a procura, com a hipótese maximamente geral, tentando chegar à especialização que satisfaz a condição zero erros para o exemplo. 12

13 Método de Procura em Largura-Primeiro - Completa Se existe solução encontra - Pouco prática (em geral) Processamento Memória Procura bottom-up em largura primeiro começa com hipótese maximamente específica Dados: H0 (maximamente geral), objectivo Obj, Relação de generalidade Fila <- [ ] H<-H0 Até H satisfazer Obj Gera hipóteses: especializações max. gerais de H Junta novas hipóteses ao fim de Fila Selecciona: H <- primeiro(fila) Retira primeiro da fila Repete Retorna H Considera-se a procura de regras para a classe-> SIM. Neste método de procura, as novas hipóteses geradas, são acrescentadas ao fim da fila, e a nova hipótese a testar retira-se sempre do início da fila. 13

14 Fila H Erro # % [] -->Sim ,67 [Classe=1ª Classe;Idade=Criança;Sexo=Masculino] Classe=1ª Classe Sim ,38 [Idade=Criança;Sexo=Masculino;Classe=1ª Classe & Idade=Criança;Classe=1ª Classe & Sexo=Masculino] Idade=Criança Sim ,48 [Sexo=Masculino;Classe=1ª Classe & Idade=Criança;Classe=1ª Classe & Sexo=Masculino;Idade=Criança & Sexo=Masculino] Sexo=Masculino Sim ,79 [Classe=1ª Classe & Idade=Criança;Classe=1ª Classe & Sexo=Masculino;Idade=Criança & Sexo=Masculino;Classe=1ª Classe & Idade=Criança & Sexo=Masculino] Classe=1ª Classe & Idade=Criança Sim Nesta primeira iteração consegue-se zero erros. Assim consegue-se gerar a primeira regra: Classe=1ª Classe & Idade=Criança Sobrevive=SIM A árvore representativa da utilização do método de procura em Largura-Primeiro é a seguinte: 14

15 8.3 Construção de regras usando o procura em profundidade-primeiro Neste método as novas hipóteses geradas são acrescentadas no início da fila, e a nova hipótese a testar sai sempre do início da fila. Método de Procura em Profundidade-Primeiro - Problema dos caminhos infinitos - Retrocesso (backtracking) - Pouco prática (em geral) Processamento Apesar de gastar pouca memória Dados: H0 (maximamente geral), Obj, Rel. Gen. Fila <- [ ] H<-H0 Até H satisfazer Obj Gera hipóteses: especializações max. gerais de H Junta novas hipóteses ao início de Fila Selecciona: H <- primeiro(fila) Retira primeiro da fila Repete Retorna H Fila H Erro # % [] -->Sim ,68 [Classe=1ª Classe;Idade=Criança;Sexo=Masculino] Classe=1ªClasse-->Sim ,38 [Classe=1ª Classe & Idade=Criança;Classe=1ª Classe & Sexo=Masculino;Idade=Criança;Sexo=Ma sculino] Classe=1ª Classe & Idade=Criança-->Sim A regra obtida é: 15

16 Classe=1ª Classe & Idade=Criança Sobrevive=Sim A árvore representativa da utilização do método de procura em Profundidade-Primeiro é a seguinte: 8.4 Conclusão dos métodos de procura Neste caso específico o método que se revelou mais rápido foi o Método de Procura em Profundidade-Primeiro. O mais eficaz foi o Hill-Climbing tendo em conta que conseguiu gerar duas regras em simultâneo. 16

17 9. Outros métodos do WEKA Analisaram-se outros métodos do WEKA de forma a avaliar outras capacidades deste sistema. O método J 48, por exemplo, permite a construção de árvores de decisão. Aplicando este método obtemos: === Classifier model (full training set) === J48 pruned tree Sexo = M Classe = 1ª_Classe Idade = Adulto: Não (175.0/57.0) Idade = Criança: Sim (5.0) Classe = 2ª_Classe Idade = Adulto: Não (168.0/14.0) Idade = Criança: Sim (11.0) Classe = 3ª_Classe: Não (510.0/88.0) Classe = Tripulação: Não (862.0/192.0) Sexo = F Classe = 1ª_Classe: Sim (145.0/4.0) Classe = 2ª_Classe: Sim (106.0/13.0) Classe = 3ª_Classe: Não (196.0/90.0) Classe = Tripulação: Sim (23.0/3.0) Number of Leaves : 10 Verifica-se ainda que este modelo classifica correctamente 79,055% das instâncias. === Evaluation on training set === === Summary === Correctly Classified Instances % Incorrectly Classified Instances % 17

18 O nível de precisão é elevado, nomeadamente 93,1% para o Sim e 76,9% para o Não === Detailed Accuracy By Class === TP Rate FP Rate Precision Recall F-Measure Class Sim Não A matriz de confusão é a seguinte: === Confusion Matrix === a b <-- classified as a = Sim b = Não A árvore de decisão gerada pelo J48 é a seguinte: Árvores de Decisão Árvores de Decisão são um meio de representar uma série de regras que levam a uma classe ou valor. 18

19 10. Algumas Comparações 10.1 Medir taxa erro e de acerto sobre uma parte de teste Pretende-se verificar com a seguinte tabela se o uso de diferentes formas de utilização do dataset implica resultados muito diferentes, isto no que diz respeito à escolha dos dados de treino e de teste. Classificadas Classificadas Precisão Precisão Correctamente Incorrectamente "SIM" "NÃO" Cross-Validation 77,60% 22,40% 0,732 0,788 ONER Use Training Set 77,60% 22,40% 0,732 0,788 Percentage Split (66%) 77,44% 22,56% 0,762 0,777 Cross-Validation 79,06% 20,95% 0,931 0,769 PART Use Training Set 79,06% 20,95% 0,931 0,769 Percentage Split (66%) 78,24% 21,76% 0,946 0,759 Cross-Validation 78,92% 21,08% 0,93 0,768 J48 Use Training Set 79,06% 20,95% 0,931 0,769 Percentage Split (66%) 77,17% 22,83% 0,941 0,75 Cross-Validation 32,30% 67,70% PRISM Use Training Set 32,30% 67,70% 0,323 0 Percentage Split (66%) 32,84% 67,16% 0,

20 As variações dentro do mesmo método não são significativas, não chegando em nenhum dos casos a diferenças de 2% Comparação entre métodos Excluindo o PRISM, as variações entre os diferentes sistemas apresentados não são muito significativas. Foram avaliados todos os métodos disponibilizados no WEKA e nenhum conseguiu ultrapassar o desempenho do PART. O PRISM permite-nos concluir que a escolha do método não pode ser feita ao acaso pois pode apresentar valores muito insatisfatórios. De referir que o PRISM aplicado a outros datasets (diabetes, reconhecimento de caracteres e outros) obteve óptimos resultados. 20

21 11. Conclusões Os diferentes dados obtidos nas comparações realizadas permitem concluir que o OnerR, apesar do seu conceito simples e da sua facilidade de utilização, consegue obter excelentes resultados, comparando-o com métodos mais complexos como o PART ou o J48. Relembrando alguns dos possíveis objectivos do trabalho, por exemplo, saber se foram privilegiadas as classes sociais mais elevadas ou se a máxima Mulheres e crianças primeiro se tinha aplicado, poderemos tirar algumas conclusões analisando a árvore de decisão gerada pelo J48. Sexo = M Classe = 1ª_Classe Idade = Adulto: Não (175.0/57.0) Idade = Criança: Sim (5.0) Classe = 2ª_Classe Idade = Adulto: Não (168.0/14.0) Idade = Criança: Sim (11.0) Classe = 3ª_Classe: Não (510.0/88.0) Classe = Tripulação: Não (862.0/192.0) Sexo = F Classe = 1ª_Classe: Sim (145.0/4.0) Classe = 2ª_Classe: Sim (106.0/13.0) Classe = 3ª_Classe: Não (196.0/90.0) Classe = Tripulação: Sim (23.0/3.0) É notória que a 3ª Classe está associada a Não Sobreviveu, induzindo que provavelmente a classe social inferior foi preterida em relação às mais elevadas. Quanto à máxima Mulheres e crianças primeiro poderemos igualmente verificar pela árvore que para o sexo Masculino, em todas as classes sociais e tripulação, os adultos ficaram associados a um Não Sobreviveu. Poderá isto induzir que efectivamente as mulheres e crianças tiveram algum tipo de prioridade na hora do salvamento. 21

22 Bibliografia e Endereços de Internet - Acetatos das aulas de ECDI, Professor Doutor Alípio Jorge - The "Unusual Episode" Data Revisited Robert J. MacG. Dawson Saint Mary's University Journal of Statistics Education v.3, n.3 (1995) - Data Mining: Concepts and Techniques Jiawei Han and Micheline Kamber Simon Fraser University - Introduction to Data Mining and Knowledge Discovery Third Edition By Two Crows Corporation Endereços de Internet - WEKA - Data Mining with Weka - WEKA - Machine Learning Algorithms in Java Tutorial - UCI Machine Learning Repository 22

23 Trabalho realizado por Manuel José Ferreira Monteiro Disciplina Extracção do Conhecimento dos Dados I Docente Professor Doutor Alípio Jorge Mestrado Análise de Dados e Sistemas de Apoio à Decisão Faculdade de Economia - Universidade do Porto 14 de Novembro de 2005

Data Mining: Ferramenta JAVA

Data Mining: Ferramenta JAVA Data Mining: Ferramenta JAVA JAVA para Data Mining Weka 3: Data Mining Software em Java http://www.cs.waikato.ac.nz/ml/weka/ Coleção de algoritmos para as tarefas de data mining; Free software. WEKA: JAVA

Leia mais

SISTEMAS DE APRENDIZADO PARA A IDENTIFICAÇÃO DO NÚMERO DE CAROÇOS DO FRUTO PEQUI LEARNING SYSTEMS FOR IDENTIFICATION OF PEQUI FRUIT SEEDS NUMBER

SISTEMAS DE APRENDIZADO PARA A IDENTIFICAÇÃO DO NÚMERO DE CAROÇOS DO FRUTO PEQUI LEARNING SYSTEMS FOR IDENTIFICATION OF PEQUI FRUIT SEEDS NUMBER SISTEMAS DE APRENDIZADO PARA A IDENTIFICAÇÃO DO NÚMERO DE CAROÇOS DO FRUTO PEQUI Fernando Luiz de Oliveira 1 Thereza Patrícia. P. Padilha 1 Conceição A. Previero 2 Leandro Maciel Almeida 1 RESUMO O processo

Leia mais

Introdução a Datamining (previsão e agrupamento)

Introdução a Datamining (previsão e agrupamento) E o que fazer depois de ter os dados organizados? Introdução a Datamining (previsão e agrupamento) Victor Lobo Mestrado em Estatística e Gestão de Informação Ideias base Aprender com o passado Inferir

Leia mais

Introdução a Datamining (previsão e agrupamento)

Introdução a Datamining (previsão e agrupamento) Introdução a Datamining (previsão e agrupamento) Victor Lobo Mestrado em Estatística e Gestão de Informação E o que fazer depois de ter os dados organizados? Ideias base Aprender com o passado Inferir

Leia mais

Extração de Árvores de Decisão com a Ferramenta de Data Mining Weka

Extração de Árvores de Decisão com a Ferramenta de Data Mining Weka Extração de Árvores de Decisão com a Ferramenta de Data Mining Weka 1 Introdução A mineração de dados (data mining) pode ser definida como o processo automático de descoberta de conhecimento em bases de

Leia mais

UTILIZANDO O SOFTWARE WEKA

UTILIZANDO O SOFTWARE WEKA UTILIZANDO O SOFTWARE WEKA O que é 2 Weka: software livre para mineração de dados Desenvolvido por um grupo de pesquisadores Universidade de Waikato, Nova Zelândia Também é um pássaro típico da Nova Zelândia

Leia mais

ActivALEA. active e actualize a sua literacia

ActivALEA. active e actualize a sua literacia ActivALEA active e actualize a sua literacia N.º 25 HIISTOGRAMA Por: Maria Eugénia Graça Martins Departamento de Estatística e Investigação Operacional da FCUL memartins@fc.ul.pt Emília Oliveira Escola

Leia mais

Data Mining Software Weka. Software Weka. Software Weka 30/10/2012

Data Mining Software Weka. Software Weka. Software Weka 30/10/2012 Data Mining Software Weka Prof. Luiz Antonio do Nascimento Software Weka Ferramenta para mineração de dados. Weka é um Software livre desenvolvido em Java. Weka é um É um pássaro típico da Nova Zelândia.

Leia mais

MINERAÇÃO DE DADOS APLICADA. Pedro Henrique Bragioni Las Casas pedro.lascasas@dcc.ufmg.br

MINERAÇÃO DE DADOS APLICADA. Pedro Henrique Bragioni Las Casas pedro.lascasas@dcc.ufmg.br MINERAÇÃO DE DADOS APLICADA Pedro Henrique Bragioni Las Casas pedro.lascasas@dcc.ufmg.br Processo Weka uma Ferramenta Livre para Data Mining O que é Weka? Weka é um Software livre do tipo open source para

Leia mais

Sistema de mineração de dados para descobertas de regras e padrões em dados médicos

Sistema de mineração de dados para descobertas de regras e padrões em dados médicos Sistema de mineração de dados para descobertas de regras e padrões em dados médicos Pollyanna Carolina BARBOSA¹; Thiago MAGELA² 1Aluna do Curso Superior Tecnólogo em Análise e Desenvolvimento de Sistemas

Leia mais

5 Extraindo listas de produtos em sites de comércio eletrônico

5 Extraindo listas de produtos em sites de comércio eletrônico 5 Extraindo listas de produtos em sites de comércio eletrônico Existem diversos trabalhos direcionadas à detecção de listas e tabelas na literatura como (Liu et. al., 2003, Tengli et. al., 2004, Krüpl

Leia mais

Prof. Msc. Paulo Muniz de Ávila

Prof. Msc. Paulo Muniz de Ávila Prof. Msc. Paulo Muniz de Ávila O que é Data Mining? Mineração de dados (descoberta de conhecimento em bases de dados): Extração de informação interessante (não-trivial, implícita, previamente desconhecida

Leia mais

Avaliando o que foi Aprendido

Avaliando o que foi Aprendido Avaliando o que foi Aprendido Treinamento, teste, validação Predição da performance: Limites de confiança Holdout, cross-validation, bootstrap Comparando algoritmos: o teste-t Predecindo probabilidades:função

Leia mais

INTELIGÊNCIA ARTIFICIAL Data Mining (DM): um pouco de prática. (1) Data Mining Conceitos apresentados por

INTELIGÊNCIA ARTIFICIAL Data Mining (DM): um pouco de prática. (1) Data Mining Conceitos apresentados por INTELIGÊNCIA ARTIFICIAL Data Mining (DM): um pouco de prática (1) Data Mining Conceitos apresentados por 1 2 (2) ANÁLISE DE AGRUPAMENTOS Conceitos apresentados por. 3 LEMBRE-SE que PROBLEMA em IA Uma busca

Leia mais

Weka. Universidade de Waikato - Nova Zelândia. Coleção de algoritmos de aprendizado de máquina para resolução de problemas de Data Mining

Weka. Universidade de Waikato - Nova Zelândia. Coleção de algoritmos de aprendizado de máquina para resolução de problemas de Data Mining Weka Universidade de Waikato - Nova Zelândia Coleção de algoritmos de aprendizado de máquina para resolução de problemas de Data Mining implementado em Java open source software http://www.cs.waikato.ac.nz/ml/weka/

Leia mais

Técnicas de Seleção de Atributos utilizando Paradigmas de Algoritmos Disciplina de Projeto e Análise de Algoritmos

Técnicas de Seleção de Atributos utilizando Paradigmas de Algoritmos Disciplina de Projeto e Análise de Algoritmos Técnicas de Seleção de Atributos utilizando Paradigmas de Algoritmos Disciplina de Projeto e Análise de Algoritmos Theo Silva Lins, Luiz Henrique de Campos Merschmann PPGCC - Programa de Pós-Graduação

Leia mais

Extracção de Anúncios e Notificação de Utilizadores do Site do Emprego Científico da Fundação para a Ciência e a Tecnologia

Extracção de Anúncios e Notificação de Utilizadores do Site do Emprego Científico da Fundação para a Ciência e a Tecnologia Extracção de Conhecimento da Internet Mestrado em Inteligência Artificial e Computação Extracção de Anúncios e Notificação de Utilizadores do Site do Emprego Científico da Fundação para a Ciência e a Tecnologia

Leia mais

MINERAÇÃO DE DADOS APLICADO AO JOGO LIGA QUATRO

MINERAÇÃO DE DADOS APLICADO AO JOGO LIGA QUATRO INPE-16640-RPQ/845 MINERAÇÃO DE DADOS APLICADO AO JOGO LIGA QUATRO Wesley Gomes de Almeida Relatório final da disciplina Princípios e Aplicações de Mineração de Dados (CAP-359) do Programa de Pós-Graduação

Leia mais

Curso Superior de Tecnologia em Banco de Dados Disciplina: Projeto de Banco de Dados Relacional II Prof.: Fernando Hadad Zaidan

Curso Superior de Tecnologia em Banco de Dados Disciplina: Projeto de Banco de Dados Relacional II Prof.: Fernando Hadad Zaidan Faculdade INED Curso Superior de Tecnologia em Banco de Dados Disciplina: Projeto de Banco de Dados Relacional II Prof.: Fernando Hadad Zaidan 1 Unidade 4.5 2 1 BI BUSINESS INTELLIGENCE BI CARLOS BARBIERI

Leia mais

Competição internacional de Literacia Estatística do ISLP http://www.stat.auckland.ac.nz/~iase/islp/competition

Competição internacional de Literacia Estatística do ISLP http://www.stat.auckland.ac.nz/~iase/islp/competition Competição internacional de Literacia Estatística do ISLP http://www.stat.auckland.ac.nz/~iase/islp/competition 1.- Beber Coca-Cola e a saúde dos ossos. http://figurethis.org/ Os dados organizados em tabelas

Leia mais

Avaliação de riscos de empréstimo: Um caso de estudo de Data Mining.

Avaliação de riscos de empréstimo: Um caso de estudo de Data Mining. Curso de Engenharia de Sistemas e Informática - 5º Ano Ficha T. Prática n.º 8 Análise Inteligente de Dados Objectivo: Tomar contacto a descrição relativa a um caso prático de utilização de ferramentas

Leia mais

Barómetro Regional da Qualidade Avaliação da Satisfação dos Utentes dos Serviços de Saúde

Barómetro Regional da Qualidade Avaliação da Satisfação dos Utentes dos Serviços de Saúde Avaliação da Satisfação dos Utentes dos Serviços de Saúde Entidade Promotora Concepção e Realização Enquadramento Avaliação da Satisfação dos Utentes dos Serviços de Saúde Índice RESUMO EXECUTIVO...

Leia mais

Descoberta de Conhecimento em Bases de Dados. Classificação

Descoberta de Conhecimento em Bases de Dados. Classificação Universidade Técnica de Lisboa INSTITUTO SUPERIOR DE ECONOMIA E GESTÃO Informática e Sistemas de Informação Aplicados em Economia Descoberta de Conhecimento em Bases de Dados. Classificação Descoberta

Leia mais

MINERAÇÃO DE DADOS EDUCACIONAIS: UM ESTUDO DE CASO APLICADO AO PROCESSO SELETIVO DO IFSULDEMINAS CÂMPUS MUZAMBINHO

MINERAÇÃO DE DADOS EDUCACIONAIS: UM ESTUDO DE CASO APLICADO AO PROCESSO SELETIVO DO IFSULDEMINAS CÂMPUS MUZAMBINHO MINERAÇÃO DE DADOS EDUCACIONAIS: UM ESTUDO DE CASO APLICADO AO PROCESSO SELETIVO DO IFSULDEMINAS CÂMPUS MUZAMBINHO Fernanda Delizete Madeira 1 ; Aracele Garcia de Oliveira Fassbinder 2 INTRODUÇÃO Data

Leia mais

Universidade Tecnológica Federal do Paraná UTFPR Programa de Pós-Graduação em Computação Aplicada Disciplina de Mineração de Dados

Universidade Tecnológica Federal do Paraná UTFPR Programa de Pós-Graduação em Computação Aplicada Disciplina de Mineração de Dados Universidade Tecnológica Federal do Paraná UTFPR Programa de Pós-Graduação em Computação Aplicada Disciplina de Mineração de Dados Prof. Celso Kaestner Poker Hand Data Set Aluno: Joyce Schaidt Versão:

Leia mais

TÉCNICAS DE COMPUTAÇÃO PARALELA PARA MELHORAR O TEMPO DA MINERAÇÃO DE DADOS: Uma análise de Tipos de Coberturas Florestais

TÉCNICAS DE COMPUTAÇÃO PARALELA PARA MELHORAR O TEMPO DA MINERAÇÃO DE DADOS: Uma análise de Tipos de Coberturas Florestais UNIVERSIDADE ESTADUAL DE PONTA GROSSA PRÓ-REITORIA DE PESQUISA E PÓS-GRADUAÇÃO PROGRAMA DE PÓS-GRADUAÇÃO EM COMPUTAÇÃO APLICADA CRISTIAN COSMOSKI RANGEL DE ABREU TÉCNICAS DE COMPUTAÇÃO PARALELA PARA MELHORAR

Leia mais

3. Características amostrais. Medidas de localização e dispersão

3. Características amostrais. Medidas de localização e dispersão Estatística Descritiva com Excel Complementos. 77 3. Características amostrais. Medidas de localização e dispersão 3.1- Introdução No módulo de Estatística foram apresentadas as medidas ou estatísticas

Leia mais

Data Science e Big Data

Data Science e Big Data InforAbERTA IV Jornadas de Informática Data Science e Big Data Luís Cavique, Porto, março 2014 Agenda 1. Definições: padrões micro e Macro 2. Novos padrões para velhos problemas: Similis, Ramex, Process

Leia mais

Computação Adaptativa

Computação Adaptativa Departamento de Engenharia Informática Faculdade de Ciências e Tecnologia Universidade de Coimbra 2007/08 Computação Adaptativa TP2 OCR Optical Character Recognition Pedro Carvalho de Oliveira (MEI) Nº

Leia mais

Reconhecimento de Padrões

Reconhecimento de Padrões Engenharia Informática (ramos de Gestão e Industrial) Departamento de Sistemas e Informação Reconhecimento de Padrões Projecto Final 2004/2005 Realizado por: Prof. João Ascenso. Departamento de Sistemas

Leia mais

Universidade do Algarve Faculdade de Ciências e Tecnologia Licenciatura em Informática Ramo Tecnológico

Universidade do Algarve Faculdade de Ciências e Tecnologia Licenciatura em Informática Ramo Tecnológico Universidade do Algarve Faculdade de Ciências e Tecnologia Licenciatura em Informática Ramo Tecnológico Técnicas de clustering Relatório Discentes: Ricardo Seromenho, N.º 23842 Docente: Prof.º Doutor Patrício

Leia mais

Mineração de Dados: Introdução e Aplicações

Mineração de Dados: Introdução e Aplicações Mineração de Dados: Introdução e Aplicações Luiz Henrique de Campos Merschmann Departamento de Computação Universidade Federal de Ouro Preto luizhenrique@iceb.ufop.br Apresentação Luiz Merschmann Engenheiro

Leia mais

XIII Encontro de Iniciação Científica IX Mostra de Pós-graduação 06 a 11 de outubro de 2008 BIODIVERSIDADE TECNOLOGIA DESENVOLVIMENTO

XIII Encontro de Iniciação Científica IX Mostra de Pós-graduação 06 a 11 de outubro de 2008 BIODIVERSIDADE TECNOLOGIA DESENVOLVIMENTO XIII Encontro de Iniciação Científica IX Mostra de Pós-graduação 06 a 11 de outubro de 2008 BIODIVERSIDADE TECNOLOGIA DESENVOLVIMENTO EPE0147 UTILIZAÇÃO DA MINERAÇÃO DE DADOS EM UMA AVALIAÇÃO INSTITUCIONAL

Leia mais

Data, Text and Web Mining

Data, Text and Web Mining Data, Text and Web Mining Fabrício J. Barth TerraForum Consultores Junho de 2010 Objetivo Apresentar a importância do tema, os conceitos relacionados e alguns exemplos de aplicações. Data, Text and Web

Leia mais

(Docentes, Não-Docentes, Alunos e Encarregados de Educação) NOTA IMPORTANTE Esta apresentação não dispensa e leitura do Relatório da Função Manuel Leão. Tendo como preocupação fundamental a procura da

Leia mais

Davy Baía MSC Candidate

Davy Baía MSC Candidate Descoberta de conhecimento em banco de dados utilizando técnicas de mineração de dados no domínio da Engenharia de Software para fins de gerenciamento do processo de desenvolvimento Davy Baía MSC Candidate

Leia mais

Experimentos de Mineração de Dados em R Disciplina do curso de Pós-Graduação da UTFPR

Experimentos de Mineração de Dados em R Disciplina do curso de Pós-Graduação da UTFPR Experimentos de Mineração de Dados em R Disciplina do curso de Pós-Graduação da UTFPR Paulo Carvalho Diniz Junior CPGEI / UTFPR Avenida Sete de Setembro, 3165 Curitiba-PR - CEP 80.230-910 E-mail: paulo.carvalho.diniz@gmail.com

Leia mais

Análise da mortalidade em Portugal.

Análise da mortalidade em Portugal. Análise da mortalidade em Portugal. Paulo Canas Rodrigues; João Tiago Mexia (E-mails: paulocanas@fct.unl.pt; jtm@fct.unl.pt) Resumo Neste trabalho apresentam-se tabelas de mortalidade para a população

Leia mais

MINERAÇÃO DE DADOS PARA DETECÇÃO DE SPAMs EM REDES DE COMPUTADORES

MINERAÇÃO DE DADOS PARA DETECÇÃO DE SPAMs EM REDES DE COMPUTADORES MINERAÇÃO DE DADOS PARA DETECÇÃO DE SPAMs EM REDES DE COMPUTADORES Kelton Costa; Patricia Ribeiro; Atair Camargo; Victor Rossi; Henrique Martins; Miguel Neves; Ricardo Fontes. kelton.costa@gmail.com; patriciabellin@yahoo.com.br;

Leia mais

Aprendizagem de Máquina

Aprendizagem de Máquina Aprendizagem de Máquina Professor: Rosalvo Ferreira de Oliveira Neto Disciplina: Inteligência Artificial Tópicos 1. Definições 2. Tipos de aprendizagem 3. Paradigmas de aprendizagem 4. Modos de aprendizagem

Leia mais

1. Apresentação da Prova... 2. 2. Resultados Nacionais Globais... 4. 3. Resultados Nacionais por Área Temática... 5

1. Apresentação da Prova... 2. 2. Resultados Nacionais Globais... 4. 3. Resultados Nacionais por Área Temática... 5 0 ÍNDICE PROVA DE AFERIÇÃO DE MATEMÁTICA 2.º CICLO 1. Apresentação da Prova... 2 2. Resultados Nacionais Globais... 4 3. Resultados Nacionais por Área Temática... 5 4. Resultados Nacionais por Item...

Leia mais

Sugestão de palavras chave para campanhas em motores de busca em arranque

Sugestão de palavras chave para campanhas em motores de busca em arranque Relatório Técnico FEUP Sugestão de palavras chave para campanhas em motores de busca em arranque João Albuquerque AdClick Ricardo Morla INESC TEC e FEUP Gabriel David INESC TEC e FEUP Rui Campos AdClick

Leia mais

Introdução. Capítulo 1

Introdução. Capítulo 1 Capítulo 1 Introdução Em computação, muitos problemas são resolvidos por meio da escrita de um algoritmo que especifica, passo a passo, como resolver um problema. No entanto, não é fácil escrever um programa

Leia mais

KDD. Fases limpeza etc. Datamining OBJETIVOS PRIMÁRIOS. Conceitos o que é?

KDD. Fases limpeza etc. Datamining OBJETIVOS PRIMÁRIOS. Conceitos o que é? KDD Conceitos o que é? Fases limpeza etc Datamining OBJETIVOS PRIMÁRIOS TAREFAS PRIMÁRIAS Classificação Regressão Clusterização OBJETIVOS PRIMÁRIOS NA PRÁTICA SÃO DESCRIÇÃO E PREDIÇÃO Descrição Wizrule

Leia mais

DWARF DATAMINER: UMA FERRAMENTA GENÉRICA PARA MINERAÇÃO DE DADOS

DWARF DATAMINER: UMA FERRAMENTA GENÉRICA PARA MINERAÇÃO DE DADOS DWARF DATAMINER: UMA FERRAMENTA GENÉRICA PARA MINERAÇÃO DE DADOS Tácio Dias Palhão Mendes Bacharelando em Sistemas de Informação Bolsista de Iniciação Científica da FAPEMIG taciomendes@yahoo.com.br Prof.

Leia mais

Considerações sobre Conhecimento Incerto e Redes Bayesianas

Considerações sobre Conhecimento Incerto e Redes Bayesianas Considerações sobre Conhecimento Incerto e Redes Bayesianas Felipe S. Gurgel 1, Maiquel de Brito 1 1 Universidade Federal de Santa Catarina - UFSC Departamento de Automação e Sistemas - DAS UFSC/CTC/DAS

Leia mais

E se conseguisse reduzir os seus custos de energia até 20%?

E se conseguisse reduzir os seus custos de energia até 20%? E se conseguisse reduzir os seus custos de energia até 20%? Uma solução eficaz de Gestão Energética para o Retalho Eficiência Energética no Retalho Será que está a gastar mais em energia do que necessita?

Leia mais

Projeto de Redes Neurais e MATLAB

Projeto de Redes Neurais e MATLAB Projeto de Redes Neurais e MATLAB Centro de Informática Universidade Federal de Pernambuco Sistemas Inteligentes IF684 Arley Ristar arrr2@cin.ufpe.br Thiago Miotto tma@cin.ufpe.br Baseado na apresentação

Leia mais

Paralelização do algoritmo SPRINT usando MyGrid

Paralelização do algoritmo SPRINT usando MyGrid Paralelização do algoritmo SPRINT usando MyGrid Juliana Carvalho, Ricardo Rebouças e Vasco Furtado Universidade de Fortaleza UNIFOR juliana@edu.unifor.br ricardo@sspds.ce.gov.br vasco@unifor.br 1. Introdução

Leia mais

UML (Unified Modelling Language) Diagrama de Classes

UML (Unified Modelling Language) Diagrama de Classes UML (Unified Modelling Language) Diagrama de Classes I Classes... 2 II Relações... 3 II. Associações... 3 II.2 Generalização... 9 III Exemplos de Modelos... III. Tabelas de IRS... III.2 Exames...3 III.3

Leia mais

Sistemas de Apoio à Decisão

Sistemas de Apoio à Decisão Sistemas de Apoio à Decisão Alternativas para modelar o processo de tomada de decisões: consultar o gestor/perito e elaborar um modelo a partir dessa informação. construir um modelo a partir de dados.

Leia mais

Tutorial: Árvore de Decisão com Weka para a classificação de carne suína

Tutorial: Árvore de Decisão com Weka para a classificação de carne suína Universidade Estadual de Londrina - UEL 2 CTA 121 - Processamento de Imagens em Alimentos Prática de Aprendizado de Máquina com Weka 28/07/2016 Prof. Dr. Sylvio Barbon Jr Tutorial: Árvore de Decisão com

Leia mais

Manual de Access 2007

Manual de Access 2007 Manual de Access 2007 Índice Introdução... 4 Melhor que um conjunto de listas... 5 Amizades com relações... 6 A Estrutura de uma Base de Dados... 8 Ambiente do Microsoft Access 2007... 9 Separadores do

Leia mais

Mobilidade na FEUP Deslocamento Vertical

Mobilidade na FEUP Deslocamento Vertical Mobilidade na FEUP Deslocamento Vertical Relatório Grupo 515: Carolina Correia Elder Vintena Francisco Martins Salvador Costa Sara Palhares 2 Índice Introdução...4 Objectivos...5 Método...6 Dados Obtidos...7

Leia mais

3 Metodologia de Previsão de Padrões de Falha

3 Metodologia de Previsão de Padrões de Falha 3 Metodologia de Previsão de Padrões de Falha Antes da ocorrência de uma falha em um equipamento, ele entra em um regime de operação diferente do regime nominal, como descrito em [8-11]. Para detectar

Leia mais

Resoluções comentadas das questões de Estatística da prova para. ANALISTA DE GERENCIAMENTO DE PROJETOS E METAS da PREFEITURA/RJ

Resoluções comentadas das questões de Estatística da prova para. ANALISTA DE GERENCIAMENTO DE PROJETOS E METAS da PREFEITURA/RJ Resoluções comentadas das questões de Estatística da prova para ANALISTA DE GERENCIAMENTO DE PROJETOS E METAS da PREFEITURA/RJ Realizada pela Fundação João Goulart em 06/10/2013 41. A idade média de todos

Leia mais

Aula 01 - Formatações prontas e condicionais. Aula 01 - Formatações prontas e condicionais. Sumário. Formatar como Tabela

Aula 01 - Formatações prontas e condicionais. Aula 01 - Formatações prontas e condicionais. Sumário. Formatar como Tabela Aula 01 - Formatações prontas e Sumário Formatar como Tabela Formatar como Tabela (cont.) Alterando as formatações aplicadas e adicionando novos itens Removendo a formatação de tabela aplicada Formatação

Leia mais

EXCEL TABELAS DINÂMICAS

EXCEL TABELAS DINÂMICAS Informática II Gestão Comercial e da Produção EXCEL TABELAS DINÂMICAS (TÓPICOS ABORDADOS NAS AULAS DE INFORMÁTICA II) Curso de Gestão Comercial e da Produção Ano Lectivo 2002/2003 Por: Cristina Wanzeller

Leia mais

POS-Tagging usando Pesquisa Local

POS-Tagging usando Pesquisa Local POS-Tagging usando Pesquisa Local João Laranjinho and Irene Rodrigues and Lígia Ferreira Universidade de Évora Abstract. Neste artigo apresenta-se um sistema de part-of-speech tagging, independente do

Leia mais

Exemplo de Aplicação do DataMinig

Exemplo de Aplicação do DataMinig Exemplo de Aplicação do DataMinig Felipe E. Barletta Mendes 19 de fevereiro de 2008 INTRODUÇÃO AO DATA MINING A mineração de dados (Data Mining) está inserida em um processo maior denominado Descoberta

Leia mais

PROGRAMAÇÃO DE MICROPROCESSADORES 2011 / 2012

PROGRAMAÇÃO DE MICROPROCESSADORES 2011 / 2012 Departamento de Engenharia Electrotécnica PROGRAMAÇÃO DE MICROPROCESSADORES 2011 / 2012 Mestrado Integrado em Engenharia Electrotécnica e de Computadores 1º ano 2º semestre Trabalho Final Reservas de viagens

Leia mais

O que é a estatística?

O que é a estatística? Elementos de Estatística Prof. Dr. Clécio da Silva Ferreira Departamento de Estatística - UFJF O que é a estatística? Para muitos, a estatística não passa de conjuntos de tabelas de dados numéricos. Os

Leia mais

APLICAÇÃO DE MINERAÇÃO DE DADOS PARA O LEVANTAMENTO DE PERFIS: ESTUDO DE CASO EM UMA INSTITUIÇÃO DE ENSINO SUPERIOR PRIVADA

APLICAÇÃO DE MINERAÇÃO DE DADOS PARA O LEVANTAMENTO DE PERFIS: ESTUDO DE CASO EM UMA INSTITUIÇÃO DE ENSINO SUPERIOR PRIVADA APLICAÇÃO DE MINERAÇÃO DE DADOS PARA O LEVANTAMENTO DE PERFIS: ESTUDO DE CASO EM UMA INSTITUIÇÃO DE ENSINO SUPERIOR PRIVADA Lizianne Priscila Marques SOUTO 1 1 Faculdade de Ciências Sociais e Aplicadas

Leia mais

Usando o Excel ESTATÍSTICA. Funções

Usando o Excel ESTATÍSTICA. Funções Funções Podemos usar no Excel fórmulas ou funções. Anteriormente já vimos algumas fórmulas. Vamos agora ver o exemplo de algumas funções que podem ser úteis para o trabalho de Excel. Para começar podemos

Leia mais

Identificação de Caracteres com Rede Neuronal Artificial com Interface Gráfica

Identificação de Caracteres com Rede Neuronal Artificial com Interface Gráfica Identificação de Caracteres com Rede Neuronal Artificial com Interface Gráfica João Paulo Teixeira*, José Batista*, Anildio Toca**, João Gonçalves**, e Filipe Pereira** * Departamento de Electrotecnia

Leia mais

AS DESIGUALDADES DE REMUNERAÇÕES ENTRE HOMENS E MULHERES AUMENTAM COM O AUMENTO DO NIVEL DE ESCOLARIDADE E DE QUALIFICAÇÃO DAS MULHERES

AS DESIGUALDADES DE REMUNERAÇÕES ENTRE HOMENS E MULHERES AUMENTAM COM O AUMENTO DO NIVEL DE ESCOLARIDADE E DE QUALIFICAÇÃO DAS MULHERES Desigualdades graves entre Homens e Mulheres com escolaridade e qualificação elevadas Pág. 1 AS DESIGUALDADES DE REMUNERAÇÕES ENTRE HOMENS E MULHERES AUMENTAM COM O AUMENTO DO NIVEL DE ESCOLARIDADE E DE

Leia mais

ADM041 / EPR806 Sistemas de Informação

ADM041 / EPR806 Sistemas de Informação ADM041 / EPR806 Sistemas de Informação UNIFEI Universidade Federal de Itajubá Prof. Dr. Alexandre Ferreira de Pinho 1 Sistemas de Apoio à Decisão (SAD) Tipos de SAD Orientados por modelos: Criação de diferentes

Leia mais

Regressão logística na identificação de factores de risco em acidentes automóveis e fraude de seguros.

Regressão logística na identificação de factores de risco em acidentes automóveis e fraude de seguros. Regressão logística na identificação de factores de risco em acidentes automóveis e fraude de seguros. José Luís Mourão Faculdade de Ciências Universidade do Porto 28 de Janeiro de 2013 José Luís Mourão

Leia mais

CRM e Prospecção de Dados

CRM e Prospecção de Dados CRM e Prospecção de Dados Marília Antunes aula de 11 de Maio 09 6 Modelos de regressão 6.1 Introdução No capítulo anterior foram apresentados alguns modelos preditivos em que a variável resposta (a variável

Leia mais

Aprendizado de classificadores das ementas da Jurisprudência do Tribunal Regional do Trabalho da 2ª. Região - SP

Aprendizado de classificadores das ementas da Jurisprudência do Tribunal Regional do Trabalho da 2ª. Região - SP Aprendizado de classificadores das ementas da Jurisprudência do Tribunal Regional do Trabalho da 2ª. Região - SP Thiago Ferauche, Maurício Amaral de Almeida Laboratório de Pesquisa em Ciência de Serviços

Leia mais

Business Intelligence & Performance Management

Business Intelligence & Performance Management Como medir a evolução do meu negócio? Tenho informação para esta decisão? A medição da performance é uma dimensão fundamental para qualquer actividade de gestão. Recorrentemente, qualquer gestor vê-se

Leia mais

Gestão da Informação. Gestão da Informação. AULA 3 Data Mining

Gestão da Informação. Gestão da Informação. AULA 3 Data Mining Gestão da Informação AULA 3 Data Mining Prof. Edilberto M. Silva Gestão da Informação Agenda Unidade I - DM (Data Mining) Definição Objetivos Exemplos de Uso Técnicas Tarefas Unidade II DM Prático Exemplo

Leia mais

Aplicação de Técnicas de Data Mining em Extracção de Elementos de Documentos Comerciais. Ana Cristina da Silva Anacleto

Aplicação de Técnicas de Data Mining em Extracção de Elementos de Documentos Comerciais. Ana Cristina da Silva Anacleto Aplicação de Técnicas de Data Mining em Extracção de Elementos de Documentos Comerciais por Ana Cristina da Silva Anacleto Tese de Mestrado em Análise de Dados e Sistemas de Apoio à Decisão Orientada por

Leia mais

Análise de técnicas de selecção de atributos em Bioinformática

Análise de técnicas de selecção de atributos em Bioinformática Análise de técnicas de selecção de atributos em Bioinformática Rui Mendes 100378011 Bioinformática 10/11 DCC Artigo Base Yvan Saeys, Inaki Inza and Pedro Larranaga. A review of feature selection techniques

Leia mais

Web Data Mining com R

Web Data Mining com R Web Data Mining com R Fabrício J. Barth fabricio.barth@gmail.com VAGAS Tecnologia e Faculdade BandTec Maio de 2014 Objetivo O objetivo desta palestra é apresentar conceitos sobre Web Data Mining, fluxo

Leia mais

O Processo de KDD Knowledge Discovery in Database para Aplicações na Medicina

O Processo de KDD Knowledge Discovery in Database para Aplicações na Medicina SEMINC 2001 57 O Processo de KDD Knowledge Discovery in Database para Aplicações na Medicina MARIZA FERRO HUEI DIANA LEE UNIOESTE - Universidade Estadual do Oeste do Paraná CECE Centro de Engenharias e

Leia mais

TÓPICOS AVANÇADOS EM ENGENHARIA DE SOFTWARE

TÓPICOS AVANÇADOS EM ENGENHARIA DE SOFTWARE TÓPICOS AVANÇADOS EM ENGENHARIA DE SOFTWARE Engenharia de Computação Professor: Rosalvo Ferreira de Oliveira Neto Estudos Comparativos Recentes - Behavior Scoring Roteiro Objetivo Critérios de Avaliação

Leia mais

CENSOS 2001 Análise de População com Deficiência Resultados Provisórios

CENSOS 2001 Análise de População com Deficiência Resultados Provisórios Informação à Comunicação Social 4 de Fevereiro de 2002 CENSOS 2001 Análise de População com Deficiência Resultados Provisórios A disponibilização destes resultados provisórios dos Censos 2001 sobre a população

Leia mais

Folha de cálculo. Excel. Agrupamento de Escolas de Amares

Folha de cálculo. Excel. Agrupamento de Escolas de Amares Folha de cálculo Excel Agrupamento de Escolas de Amares Índice 1. Funcionalidades básicas... 3 1.1. Iniciar o Excel... 3 1.2. Criar um livro novo... 3 1.3. Abrir um livro existente... 3 1.4. Inserir uma

Leia mais

APLICAÇÃO DA MINERAÇÃO DE DADOS PARA GERAÇÃO DE CONHECIMENTO: UM EXPERIMENTO PRÁTICO

APLICAÇÃO DA MINERAÇÃO DE DADOS PARA GERAÇÃO DE CONHECIMENTO: UM EXPERIMENTO PRÁTICO 2, 3 e 4 de Julho de 2009 ISSN 1984-9354 APLICAÇÃO DA MINERAÇÃO DE DADOS PARA GERAÇÃO DE CONHECIMENTO: UM EXPERIMENTO PRÁTICO Priscila Azarias Universidade Tecnológica Federal do Paraná - Campus Ponta

Leia mais

Autora: Maria dos Anjos Leitão de Campos. Instituto Nacional de Estatística / Departamento de Estatísticas Sociais

Autora: Maria dos Anjos Leitão de Campos. Instituto Nacional de Estatística / Departamento de Estatísticas Sociais Artig tigo 4º_ página 67 A mortalidade por VIH/SIDA em Portugal: alterações da estrutura etária Autora: Maria dos Anjos Leitão de Campos Instituto Nacional de Estatística / Departamento de Estatísticas

Leia mais

Prof. Júlio Cesar Nievola Data Mining PPGIa PUCPR

Prof. Júlio Cesar Nievola Data Mining PPGIa PUCPR Uma exploração preliminar dos dados para compreender melhor suas características. Motivações-chave da exploração de dados incluem Ajudar na seleção da técnica correta para pré-processamento ou análise

Leia mais

Instituto Politécnico de Beja. Escola Superior de Tecnologia e Gestão

Instituto Politécnico de Beja. Escola Superior de Tecnologia e Gestão Instituto Politécnico de Beja Escola Superior de Tecnologia e Gestão Curso de Engenharia Informática Disciplina de Estrutura de dados e Algoritmos 2º Ano - 1º Semestre Relatório Connected Component Labeling

Leia mais

Sistemas de Apoio à Decisão. Vocabulário e conceitos Vista geral

Sistemas de Apoio à Decisão. Vocabulário e conceitos Vista geral Sistemas de Apoio à Decisão Vocabulário e conceitos Vista geral Decisão A escolha de uma entre várias alternativas Processo de tomada de decisão (decision making) Avaliar o problema Recolher e verificar

Leia mais

sdescoberta DE CONHECIMENTO APLICADO A DADOS ELEITORAIS

sdescoberta DE CONHECIMENTO APLICADO A DADOS ELEITORAIS sdescoberta DE CONHECIMENTO APLICADO A DADOS ELEITORAIS Claudio Tavares Especialista em Banco de Dados, Unicenp. E-mail: cláudio.tavares@renault.com Daniel Bozza Especialista em Banco de Dados, Unicenp.

Leia mais

Utilização de Técnicas de Mineração de Dados como Auxílio na Detecção de Cartéis em Licitações Carlos Vinícius Sarmento Silva Célia Ghedini Ralha

Utilização de Técnicas de Mineração de Dados como Auxílio na Detecção de Cartéis em Licitações Carlos Vinícius Sarmento Silva Célia Ghedini Ralha WCGE II Workshop de Computação Aplicada em Governo Eletrônico Utilização de Técnicas de Mineração de Dados como Auxílio na Detecção de Cartéis em Licitações Carlos Vinícius Sarmento Silva Célia Ghedini

Leia mais

Data Mining II Modelos Preditivos

Data Mining II Modelos Preditivos Data Mining II Modelos Preditivos Prof. Doutor Victor Lobo Mestre André Melo Mestrado em Estatística e Gestão de Informação Objectivo desta disciplina Fazer previsões a partir de dados. Conhecer os principais

Leia mais

PESQUISA SOBRE O PERFIL DE ALUNOS NA UTILIZAÇÃO DE UM SITE DOCENTE DO ENSINO SUPERIOR

PESQUISA SOBRE O PERFIL DE ALUNOS NA UTILIZAÇÃO DE UM SITE DOCENTE DO ENSINO SUPERIOR PESQUISA SOBRE O PERFIL DE ALUNOS NA UTILIZAÇÃO DE UM SITE DOCENTE DO ENSINO SUPERIOR Wesley Humberto da Silva (Fundação Araucária), André Luis Andrade Menolli (Orientador) e-mail: wesleyhumberto11@mail.com

Leia mais

Um compilador é um programa que lê um programa escrito numa dada linguagem, a linguagem objecto (fonte), e a traduz num programa equivalente

Um compilador é um programa que lê um programa escrito numa dada linguagem, a linguagem objecto (fonte), e a traduz num programa equivalente Capítulo 1 Introdução Um compilador é um que lê um escrito numa dada linguagem, a linguagem objecto (fonte), e a traduz num equivalente numa outra linguagem, a linguagem destino Como parte importante neste

Leia mais

Ferramentas Livres de Armazenamento e Mineração de Dados

Ferramentas Livres de Armazenamento e Mineração de Dados Ferramentas Livres de Armazenamento e Mineração de Dados JasperBI, Pentaho, Weka 09/2009 Eng. Pablo Jorge Madril pmadril@summa.com.br Summa Technologies www.summa.com.br Eng. Pablo Jorge Madril pmadril@summa.com.br

Leia mais

TIC Unidade 2 Base de Dados. Informação é todo o conjunto de dados devidamente ordenados e organizados de forma a terem significado.

TIC Unidade 2 Base de Dados. Informação é todo o conjunto de dados devidamente ordenados e organizados de forma a terem significado. Conceitos relativos à Informação 1. Informação O que á a informação? Informação é todo o conjunto de dados devidamente ordenados e organizados de forma a terem significado. 2. Dados Em informática designa-se

Leia mais

PROCESSAMENTO TEXTUAL EM PÁGINAS DA WEB

PROCESSAMENTO TEXTUAL EM PÁGINAS DA WEB PROCESSAMENTO TEXTUAL EM PÁGINAS DA WEB Aluno: Pedro Lazéra Cardoso Orientador: Eduardo Sany Laber Antecedentes Na primeira fase da Iniciação Científica, o aluno deu continuidade ao projeto que estava

Leia mais

ATIVIDADES INVESTIGATIVAS NO ENSINO DE MATEMÁTICA: RELATO DE UMA EXPERIÊNCIA

ATIVIDADES INVESTIGATIVAS NO ENSINO DE MATEMÁTICA: RELATO DE UMA EXPERIÊNCIA ATIVIDADES INVESTIGATIVAS NO ENSINO DE MATEMÁTICA: RELATO DE UMA EXPERIÊNCIA GT 01 - Educação Matemática no Ensino Fundamental: Anos Iniciais e Anos Finais Maria Gorete Nascimento Brum - UNIFRA- mgnb@ibest.com.br

Leia mais

Utilização do SOLVER do EXCEL

Utilização do SOLVER do EXCEL Utilização do SOLVER do EXCEL 1 Utilização do SOLVER do EXCEL José Fernando Oliveira DEEC FACULDADE DE ENGENHARIA DA UNIVERSIDADE DO PORTO MAIO 1998 Para ilustrar a utilização do Solver na resolução de

Leia mais

Segue-se o estudo da forma como os computadores armazenam e acedem às informações contidas na sua memória.

Segue-se o estudo da forma como os computadores armazenam e acedem às informações contidas na sua memória. 4. Variáveis Para a execução de qualquer tipo de programa o computador necessita de ter guardados os diferentes tipos de dados, já estudados. Esses dados estão guardados na sua memória. Segue-se o estudo

Leia mais

Curva ROC. George Darmiton da Cunha Cavalcanti Tsang Ing Ren CIn/UFPE

Curva ROC. George Darmiton da Cunha Cavalcanti Tsang Ing Ren CIn/UFPE Curva ROC George Darmiton da Cunha Cavalcanti Tsang Ing Ren CIn/UFPE Introdução ROC (Receiver Operating Characteristics) Curva ROC é uma técnica para a visualização e a seleção de classificadores baseado

Leia mais

Guia de Estudo Folha de Cálculo Microsoft Excel

Guia de Estudo Folha de Cálculo Microsoft Excel Tecnologias da Informação e Comunicação Guia de Estudo Folha de Cálculo Microsoft Excel Estrutura geral de uma folha de cálculo: colunas, linhas, células, endereços Uma folha de cálculo electrónica ( electronic

Leia mais

CURSO DE PÓS-GRADUAÇÃO

CURSO DE PÓS-GRADUAÇÃO CURSO DE PÓS-GRADUAÇÃO EM ANÁLISE DE DADOS E GESTÃO DE INFORMAÇÃO Grupo de trabalho Armando Mendes Áurea Sousa Fátima Brilhante Rita Marques Brandão Osvaldo Silva Fevereiro 2010 Enquadramento e justificação

Leia mais

INTRODUÇÃO A MINERAÇÃO DE DADOS UTILIZANDO O WEKA

INTRODUÇÃO A MINERAÇÃO DE DADOS UTILIZANDO O WEKA INTRODUÇÃO A MINERAÇÃO DE DADOS UTILIZANDO O WEKA Marcelo DAMASCENO(1) (1) Instituto Federal de Educação, Ciência e Tecnologia do Rio Grande do Norte/Campus Macau, Rua das Margaridas, 300, COHAB, Macau-RN,

Leia mais