Data, Text and Web Mining



Documentos relacionados
Fabrício J. Barth. Apontador

Web Data Mining com R

Informações na era do Big Data

Algoritmos Indutores de Árvores de

Disciplina de Text Mining

Web Data mining com R: aprendizagem de máquina

Aprendizagem de Máquina

Hierarquia de modelos e Aprendizagem de Máquina

MINERAÇÃO DE DADOS APLICADA. Pedro Henrique Bragioni Las Casas

Contexto de Big Data, Ciência de Dados e KDD

Algoritmos de Agrupamento - Aprendizado Não Supervisionado. Fabrício Jailson Barth

Universidade Tecnológica Federal do Paraná UTFPR Programa de Pós-Graduação em Computação Aplicada Disciplina de Mineração de Dados

Extração de Árvores de Decisão com a Ferramenta de Data Mining Weka

Data Mining. Origem do Data Mining 24/05/2012. Data Mining. Prof Luiz Antonio do Nascimento

Laboratório de Mídias Sociais

XIII Encontro de Iniciação Científica IX Mostra de Pós-graduação 06 a 11 de outubro de 2008 BIODIVERSIDADE TECNOLOGIA DESENVOLVIMENTO

Sistema de mineração de dados para descobertas de regras e padrões em dados médicos

Gerenciamento de Dados e Gestão do Conhecimento

Fases para um Projeto de Data Warehouse. Fases para um Projeto de Data Warehouse. Fases para um Projeto de Data Warehouse

Observatório da Web: Uma Plataforma para Monitoramento de Eventos em Tempo Real. Gisele L. Pappa Outubro/2013

SISTEMAS DE APRENDIZADO PARA A IDENTIFICAÇÃO DO NÚMERO DE CAROÇOS DO FRUTO PEQUI LEARNING SYSTEMS FOR IDENTIFICATION OF PEQUI FRUIT SEEDS NUMBER

DWARF DATAMINER: UMA FERRAMENTA GENÉRICA PARA MINERAÇÃO DE DADOS

RECUPERANDO INFORMAÇÃO SOBRE TEXTOS PUBLICADOS NO TWITTER


Aprendizagem de Máquina

Sistema Tutor Inteligente baseado em Agentes. Pedagógicas da Universidade Aberta do Piauí. Prof. Dr. Vinicius Ponte Machado

Semântica para Sharepoint. Busca semântica utilizando ontologias

O que é a ciência de dados (data science). Discussão do conceito. Luís Borges Gouveia Universidade Fernando Pessoa Versão 1.

Ambiente Weka Waikato Environment for Knowledge Analysis

Analista de Sistemas S. J. Rio Preto

Aprendizado de classificadores das ementas da Jurisprudência do Tribunal Regional do Trabalho da 2ª. Região - SP

Diferenças da versão 6.3 para a 6.4

ADM041 / EPR806 Sistemas de Informação

Manual do sistema Versão 1.0

DATA WAREHOUSE. Introdução

DESENVOLVIMENTO DE UM REPOSITÓRIO DE DADOS DO FUTEBOL BRASILEIRO

textos documentos semi-estruturado

Classificação da imagem (ou reconhecimento de padrões): objectivos Métodos de reconhecimento de padrões

Estudo e Análise da Base de Dados do Portal Corporativo da Sexta Região da Polícia Militar com vista à aplicação de Técnicas de Mineração de Dados1

Ferramentas Livres de Armazenamento e Mineração de Dados

Extração Automática de Palavras-chave de Textos da Língua Portuguesa

Considerações sobre Conhecimento Incerto e Redes Bayesianas

Aprendizagem de Máquina

Chapter 3. Análise de Negócios e Visualização de Dados

REQUISITOS. Prof. Msc. Hélio Esperidião

Projeto de Redes Top-Down

Data Mining: Conceitos e Técnicas

Prof. Júlio Cesar Nievola Data Mining PPGIa PUCPR

Extração de Conhecimento & Mineração de Dados

Laudon & Laudon Essentials of MIS, 5th Edition. Pg. 1.1

O Processo de KDD. Data Mining SUMÁRIO - AULA1. O processo de KDD. Interpretação e Avaliação. Seleção e Pré-processamento. Consolidação de dados

Web Data Mining com R: design de projetos para criação de modelos preditivos

Análise de usabilidade de menus de navegação em portal com grande quantidade de informação e vários níveis hierárquicos

Projeto de Redes Neurais e MATLAB

Clique este botão para submeter outra pesquisa. Você também pode fazê-lo premindo a tecla 'Enter'.

O Que é Data Warehouse

Histórico da Revisão. Versão Descrição Autor. 1.0 Versão Inicial

ANÁLISE DA CONSERVAÇÃO PÓS-COLHEITA DA ALFACE (Lactuca Sativa, L) UTILIZANDO O SISTEMA DE APOIO À TOMADA DE DECISÃO BKD

GED E ECM. Bruno Velaz. Maximizando resultados com ECM e GED para pequenas e médias empresas. 21/09/2011 1

www. inf.br Outubro/2008 5www.habisp.inf.br TREINAMENTO HABISP VERBA DE ATENDIMENTO

Sistema de pedidos. com técnicas de recomendação

Aula 01 - Formatações prontas e condicionais. Aula 01 - Formatações prontas e condicionais. Sumário. Formatar como Tabela

Banco de Dados - Senado

Universidade de Brasília. Faculdade de Ciência da Informação. Prof a Lillian Alvares

No mundo atual, globalizado e competitivo, as organizações têm buscado cada vez mais, meios de se destacar no mercado. Uma estratégia para o

Microsoft Innovation Center

Experimentos de Mineração de Dados em R Disciplina do curso de Pós-Graduação da UTFPR

FUNDAMENTOS DE SISTEMAS DE INFORMAÇÃO

Prof. Msc. Paulo Muniz de Ávila

OBJETOS DE APRENDIZAGEM

MANUAL JOOMLA 2.5 PORTAL INTERNET. Ministério do Esporte

Padronização de Processos: BI e KDD

UTILIZANDO O SOFTWARE WEKA

Capítulo. Sistemas de apoio à decisão

PO GESTÃO DE PROCESSOS E DOCUMENTAÇÃO 008

BlackBerry World Storefront. Versão: Guia do usuário

DANFE e o Código de Barras

ANEXO I Sumário Manual de Preços e Serviços Digitais

A Grande Importância da Mineração de Dados nas Organizações

Aula 02: Conceitos Fundamentais

CAPÍTULO 1 INTRODUÇÃO À GESTÃO DA QUALIDADE

GUIA DE CURSO. Tecnologia em Sistemas de Informação. Tecnologia em Desenvolvimento Web. Tecnologia em Análise e Desenvolvimento de Sistemas

Complemento da Versão 2.3 Categorização Pagina 1 Fone: (17) Agenda Hoken Versão 2.

Nova Versão 3.0 do Software de Gestão de Equipamentos da Katun KDFM!

4 Estratégias para Implementação de Agentes

UNIVERSIDADE FEDERAL DO PARANÁ UFPR Bacharelado em Ciência da Computação

Palavras-chave: i3geo, gvsig, Mapserver, integração, plugin. Contato: ou

Clustering - agrupamento. Baseado no capítulo 8 de. Introduction to Data Mining

T U T O R I A I S WEB OF SCIENCE TUTORIAL. Biblioteca da Escola de Engenharia da UFRGS. WEB OF SCIENCE - Tutorial

Indice. Prefácio CAPÍTULO 1 - Introdução à gestão da qualidade

Módulo 4: Gerenciamento de Dados

Algoritmos Genéticos em Mineração de Dados. Descoberta de Conhecimento. Descoberta do Conhecimento em Bancos de Dados

Planejamento Estratégico de TI. Prof.: Fernando Ascani

Transcrição:

Data, Text and Web Mining Fabrício J. Barth TerraForum Consultores Junho de 2010

Objetivo Apresentar a importância do tema, os conceitos relacionados e alguns exemplos de aplicações. Data, Text and Web Mining Objetivo 2

Importância do Tema 3

Problema Importância do Tema Problema 4

Alguns dados... Relação Horário x Dia x Quantidade de Notícias Produzidas Notícias 500 400 300 200 100 0 500 450 400 350 300 250 200 150 100 50 0 0 2 4 6 8 10 12 14 Horário 16 18 20 22 0 10 20 30 40 50 60 70 80 Dia 90 Quantidade de notícias publicadas na Web por apenas seis veículos de notícias. Importância do Tema Alguns dados... 5

Alguns dados... 160000 140000 120000 Estadão Folha G1 Globo Online Terra Último Segundo Total Notícias publicadas na Internet Quantidade (Notícias) 100000 80000 60000 40000 20000 0 0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 Tempo (Dias) Importância do Tema Alguns dados... 6

Por que minerar informações? Explicitar conhecimento médico a partir de registros médicos. Sumarizar tendências de publicações de artigos e patentes sobre um determinado tema. Sumarizar e filtrar notícias relevantes. Importância do Tema Por que minerar informações? 7

Sumarizar a opinião expressa na Web sobre a sua empresa. Identificar padrões de navegação em sites. Identificar grupos de usuários com perfil similar em ambientes de escrita colaborativa. Importância do Tema Por que minerar informações? 8

Explicitar conhecimento médico a partir de registros médicos 9

Diagnóstico para o uso de lentes de contato O setor de oftalmologia de um hospital da cidade de São Paulo possui, no seu banco de dados, um histórico de pacientes que procuraram o hospital queixando-se de problemas na visão. A conduta, em alguns casos, realizada pelo corpo cĺınico de oftalmologistas do hospital é indicar o uso de lentes ao paciente. Problema: Extrair do banco de dados do hospital uma hipótese que explica que paciente deve usar ou não lente de contatos. Explicitar conhecimento médico a partir de registros médicos Diagnóstico para o uso de lentes de contato 10

Quais são os componentes deste sistema? 11

Componentes Que objetos são relevantes para a criação da hipótese? Como representá-los? Que linguagem de representação de conhecimento deve-se utilizar para representar a hipótese? Que algoritmo utilizar para gerar a hipótese? Quais são os componentes deste sistema? Componentes 12

Que objetos são relevantes? Depois de um estudo detalhado do problema com especialistas da área... Idade do paciente. Se o paciente tem ou não miopia. Se o paciente tem ou não astigmatismo. Qual é a taxa de lacrimejamento dos olhos do paciente. Como representá-los? Atributo/Valor Quais são os componentes deste sistema? Componentes 13

Atributos idade (jovem, adulto, idoso) miopia (míope, hipermétrope) astigmatismo (não, sim) taxa de lacrimejamento (reduzido, normal) lentes de contato (forte, fraca, nenhuma) Quais são os componentes deste sistema? Atributos 14

Dados Idade Miopia Astigmat. Lacrimej. Lentes jovem míope não reduzido nenhuma jovem míope não normal fraca jovem míope sim reduzido nenhuma jovem míope sim normal forte jovem hiper não reduzido nenhuma jovem hiper não normal fraca jovem hiper sim reduzido nenhuma jovem hiper sim normal forte adulto míope não reduzido nenhuma Quais são os componentes deste sistema? Dados 15

Idade Miopia Astigmat. Lacrimej. Lentes adulto míope não normal fraca adulto míope sim reduzido nenhuma adulto míope sim normal forte adulto hiper sim reduzido nenhuma adulto hiper não normal fraca adulto hiper sim reduzido nenhuma adulto hiper sim normal nenhuma Quais são os componentes deste sistema? Dados 16

Idade Miopia Astigmat. Lacrimej. Lentes idoso míope não reduzido nenhuma idoso míope não normal nenhuma idoso míope sim reduzido nenhuma idoso míope sim normal forte idoso hiper não reduzido nenhuma idoso hiper não normal fraca idoso hiper sim reduzido nenhuma idoso hiper sim normal nenhuma Quais são os componentes deste sistema? Dados 17

Extração de conhecimento O que foi apresentado nos slides anteriores pode ser considerado como conhecimento? Não Pode ser apresentado como uma informação que consegue explicar a tomada de decisão dos especialistas? Não O que fazer? Quais são os componentes deste sistema? Extração de conhecimento 18

Extração de conhecimento Extrair a informação realmente relevante. Utilizar uma linguagem de representação compreensível ao ser humano. Quais são os componentes deste sistema? Extração de conhecimento 19

Árvore de decisão Cada nodo interno testa um atributo. Cada aresta corresponde a um valor de atributo. Cada nodo folha retorna uma classificação. Quais são os componentes deste sistema? Árvore de decisão 20

Algoritmos Indutores de Decisão Árvores de Que algoritmo utilizar para gerar hipóteses na forma de árvores de decisão? ID3, C4.5[2]: são algoritmos indutores de árvore de decisão, top-down, recursivos e que fazem uso do conceito de entropia para identificar os melhores atributos que representam o conjunto de dados. Quais são os componentes deste sistema? Algoritmos Indutores de Árvores de Decisão 21

Resultado: Sistema Especialista (none, soft, hard) Quais são os componentes deste sistema? Resultado: Sistema Especialista 22

Sistema Especialista: Regras de Produção Baseado na premissa que o processo de tomada de decisão humano pode ser modelado por meio de regras do tipo SE condições ENTÃO conclusões [FAÇA ações] Convertendo uma árvore de decisão em regras de produção: Quais são os componentes deste sistema? Sistema Especialista: Regras de Produção 23

SE lacrimejamento=reduzido ENTÃO lente=nenhuma SE lacrimejamento=normal E astigmatismo=não ENTÃO lente=fraca SE lacrimejamento=normal E astigmatismo=sim E miopia=miope ENTÃO lente=forte SE lacrimejamento=normal E astigmatismo=sim E miopia=hipermetrope ENTÃO lente=nenhuma Quais são os componentes deste sistema? Sistema Especialista: Regras de Produção 24

Um pouco de código... Gerar a árvore de decisão usando o RapidMiner a. Codificar as regras de produção usando o Drools Expert b. a http://www.rapidminer.com b http://www.jboss.org/drools/drools-expert.html Quais são os componentes deste sistema? Um pouco de código... 25

Organizar documentos 26

O que fazer com grandes quantidades de documentos? Notícias, patentes, artigos... Para tirar proveito desta informação é necessário organizá-la de alguma forma: Agrupamento de notícias, patentes, artigos. Classificação, Recomendação e Filtragem de Notícias. Organizar documentos O que fazer com grandes quantidades de documentos? 27

Exemplo de agrupamento E quando não é possível fazer manualmente? Organizar documentos Exemplo de agrupamento 28

Definições de Algoritmos de Agrupamento O objetivo dos algoritmos de agrupamento é colocar os objetos similares em um mesmo grupo e objetos não similares em grupos diferentes. Normalmente, objetos são descritos e agrupados usando um conjunto de atributos e valores. Não existe nenhuma informação sobre a classe ou categoria dos objetos. Organizar documentos Definições de Algoritmos de Agrupamento 29

Formato de um documento... Esta disciplina tem como objetivo apresentar os principais conceitos da área de Inteligência Artificial, caracterizar as principais técnicas e métodos, e implementar alguns problemas clássicos desta área sob um ponto de vista introdutório. A estratégia de trabalho, o conteúdo ministrado e a forma dependerão dos projetos selecionados pelos alunos. Inicialmente, os alunos deverão trazer os seus Projetos de Conclusão de Curso, identificar intersecções entre o projeto e a disciplina, e propor atividades para a disciplina.... Organizar documentos Formato de um documento 30

Atributo/Valor usando vetores Como representar os documentos? di = (p i1, p i2,, pin) (1) Os atributos são as palavras que aparecem nos documentos. Se todas as palavras que aparecem nos documentos forem utilizadas, o vetor não ficará muito grande? Organizar documentos Atributo/Valor usando vetores 31

Diminuindo a dimensionalidade do vetor Como filtrar as palavras que devem ser usadas como atributos? Em todos os idiomas existem átomos (palavras) que não significam muito. Stop-words Esta disciplina tem como objetivo apresentar os principais conceitos da área de Inteligência Artificial, caracterizar as principais técnicas e métodos, e implementar alguns problemas clássicos desta área sob um ponto de vista introdutório. Organizar documentos Diminuindo a dimensionalidade do vetor 32

Diminuindo ainda mais a dimensionalidade do vetor Algumas palavras podem aparecer no texto de diversas maneiras: técnica, técnicas, implementar, implementação... Stemming - encontrar o radical da palavra e usar apenas o radical. Organizar documentos Diminuindo ainda mais a dimensionalidade do vetor 33

Atributo/Valor usando vetores Já conhecemos os atributos. E os valores? Booleana - se a palavra aparece ou não no documento (1 ou 0) Por freqüência do termo - a freqüência com que a palavra aparece no documento (normalizada ou não) Ponderação tf-idf - o peso é proporcional ao número de ocorrências do termo no documento e inversamente proporcional ao número de documentos onde o termo aparece. Organizar documentos Atributo/Valor usando vetores 34

Por freqüência do termo (apresent,0.33) (form,0.33) (tecnic,0.33) (caracteriz,0.33) (projet,1.0) (introdutori,0.33) (objet,0.33) (inteligente,0.33) (conclusa,0.33) (selecion,0.33) (intersecco,0.33) (classic,0.33) (identific,0.33) (conceit,0.33) (trabalh,0.33) (disciplin,1.0) (traz,0.33) Organizar documentos Por freqüência do termo 35

Conjunto de Exemplos - Atributo/Valor Doc. apresent form tecnic caracteriz d 1 0.33 0.33 0.33 0.33 d 2 0 0.5 0.2 0.33 d 3 1 0.6 0 0 d 4 0.4 0.3 0.33 0.4 d 5 1 0.4 0.1 0.1 d n Organizar documentos Conjunto de Exemplos - Atributo/Valor 36

Componentes para uma solução... Organizar documentos Componentes para uma solução... 37

Pré-processamento dos documentos: um pouco de código... Converter texto em TF-IDF usando o RapidMiner. Organizar documentos Pré-processamento dos documentos: um pouco de código... 38

Que algoritmo de agrupamento utilizar? Organizar documentos Que algoritmo de agrupamento utilizar? 39

Algoritmos para Agrupamento - K-means K significa o número de agrupamentos (que deve ser informado à priori). Sequência de ações iterativas. A parada é baseada em algum critério de qualidade dos agrupamentos (por exemplo, similaridade média). Organizar documentos Algoritmos para Agrupamento - K-means 40

Algoritmo para Agrupamento - K-means 5 5 4 4 3 3 2 2 1 1 0 1 2 3 4 5 6 7 8 0 1 2 3 4 5 6 7 8 (1) Objetos que devem ser agrupados (2) Sorteio dos pontos centrais dos agrupamentos 5 5 4 4 3 3 2 2 1 1 0 1 2 3 4 5 6 7 8 0 1 2 3 4 5 6 7 8 (3) Atribuição dos objetos aos agrupamentos (4) Definição do centro do agrupamento Organizar documentos Algoritmo para Agrupamento - K-means 41

Algoritmos para agrupamento dos documentos - Weka Execução do K-means no Weka a. a http://www.cs.waikato.ac.nz/ml/weka/ Organizar documentos Algoritmos para agrupamento dos documentos - Weka 42

Algoritmo para agrupamento dos documentos - Resultados A i n s t â n c i a 0. 1, 0. 1, 0. 1, 0. 1, 0. 1 e s t á no c l u s t e r 1 A i n s t â n c i a 0. 1, 0. 2, 0. 3, 0. 1, 0. 8 e s t á no c l u s t e r 1 A i n s t â n c i a 0. 3, 0. 4, 0. 5, 0. 8, 0. 9 e s t á no c l u s t e r 0 A i n s t â n c i a 0. 3, 0. 1, 0. 1, 0. 1, 0. 1 e s t á no c l u s t e r 1 A i n s t â n c i a 0. 3, 0. 1, 0. 1, 0. 1, 0. 1 e s t á no c l u s t e r 1 A i n s t â n c i a 0. 8, 0. 7, 0. 8, 0. 8, 0. 8 e s t á no c l u s t e r 0 A i n s t â n c i a 0. 1, 0. 1, 0. 1, 0. 1, 0. 1 e s t á no c l u s t e r 1 A i n s t â n c i a 0. 1, 0. 1, 0. 1, 0. 1, 0. 1 e s t á no c l u s t e r 1 A i n s t â n c i a 0. 1, 0. 1, 0. 1, 0. 1, 0. 1 e s t á no c l u s t e r 1 A i n s t â n c i a 0. 6, 0. 5, 0. 6, 0. 6, 0. 6 e s t á no c l u s t e r 0 A i n s t â n c i a 0. 6, 0. 5, 0. 6, 0. 6, 0. 6 e s t á no c l u s t e r 0 A i n s t â n c i a 0. 1, 0. 1, 0. 1, 0. 1, 0. 1 e s t á no c l u s t e r 1 A i n s t â n c i a 0. 2, 0. 8, 0. 8, 0. 7, 0. 9 e s t á no c l u s t e r 0 A i n s t â n c i a 0. 1, 0. 1, 0. 1, 0. 1, 0. 1 e s t á no c l u s t e r 1 Organizar documentos Algoritmo para agrupamento dos documentos - Resultados 43

Classificação de documentos 44

Classificação e Filtragem de Notícias Classificação de documentos Classificação e Filtragem de Notícias 45

Conjunto de Exemplos - Atributo/Valor e Classe Doc. apresent form tecnic caracteriz Relevante d 1 0.33 0.33 0.33 0.33 1 d 2 0 0.5 0.2 0.33 0 d 3 1 0.6 0 0 1 d 4 0.4 0.3 0.33 0.4 1 d 5 1 0.4 0.1 0.1 1 d n Classificação de documentos Conjunto de Exemplos - Atributo/Valor e Classe 46

Qual é o problema? Classificação de documentos Qual é o problema? 47

Uma solução... Classificação de documentos Uma solução... 48

Processo de trabalho Classificação de documentos Processo de trabalho 49

Minerando ambientes colaborativos de escrita (Wiki) 50

Que informações um Wiki tem? Documento Versão Editor Data Documento Versão Editor Data d 1 1 u 1 d 2 4 u 7 d 1 2 u 2 d 3 1 u 5 d 1 3 u 2 d 3 2 u 6 d 1 4 u 3 d 3 3 u 6 d 1 5 u 4 d 4 1 u 8 d 2 1 u 4 d 4 2 u 9 d 2 2 u 5 d 5 1 u 10 d 2 3 u 6 d 5 2 u 11 Exemplo de histórico de criação e alteração de páginas em um Wiki. Minerando ambientes colaborativos de escrita (Wiki) Que informações um Wiki tem? 51

O que eu posso fazer com isto? (a) Legenda: ui = usuário i di = documento i u5 u6 d3 d2 u7 u2 u4 u9 d1 d5 d4 u1 u3 u10 u11 u8 (b) 000000000000 000000000000 111111111111 111111111111 000000000000 111111111111 000000000000 000000000000 111111111111 111111111111 d2 000000000000 111111111111 000000000000 000000000000 111111111111 111111111111 d3 000000000000 111111111111 000000000000 000000000000 111111111111 111111111111 000000000000 111111111111 000000000000 111111111111 000000000000 111111111111 d1 000000000000 111111111111 000000000000 111111111111 000000000000 111111111111 0000000 0000000 0000000 1111111 1111111 1111111 d5 0000000 1111111 0000000 1111111 0000000 1111111 0000000 1111111 d4 0000000 1111111 0000000 1111111 0000000 1111111 Similaridade: 000 111 000 111 alta média baixa Minerando ambientes colaborativos de escrita (Wiki) O que eu posso fazer com isto? 52

Exemplo Execução de uma aplicação usando estes conceitos. Minerando ambientes colaborativos de escrita (Wiki) Exemplo 53

Considerações Finais 54

Considerações Finais Caso sobre conhecimento médico: Data Mining. Agrupamento, classificação e filtragem de documentos: Text Mining. Caso Wiki: Web Mining O que existe em comum nestes casos? Considerações Finais Considerações Finais 55

Referências 56

References [1] Tom M. Mitchell. Machine Learning. McGraw-Hill, 1997. [2] J. R. Quinlan. Knowledge Acquisition for Knowledge-Based Systems, chapter Simplifying Decision Trees. Academic Press, 1988. [3] Stuart J. Russel and Peter Norvig. Artificial intelligence: a modern approach. Prentice-Hall, 2 edition, 2003. [4] Ian H. Witten and Eibe Frank. Data Mining: Practical Machine Learning Tools and Techniques. Elsevier, second edition, 2005. 56-1