Informações na era do Big Data

Documentos relacionados

Data, Text and Web Mining

Fabrício J. Barth. Apontador

Web Data Mining com R

Contexto de Big Data, Ciência de Dados e KDD

Algoritmos Indutores de Árvores de

Disciplina de Text Mining

Web Data mining com R: aprendizagem de máquina

MINERAÇÃO DE DADOS APLICADA. Pedro Henrique Bragioni Las Casas

Hierarquia de modelos e Aprendizagem de Máquina

Universidade Tecnológica Federal do Paraná UTFPR Programa de Pós-Graduação em Computação Aplicada Disciplina de Mineração de Dados

Aprendizagem de Máquina

Laboratório de Mídias Sociais

Data Mining. Origem do Data Mining 24/05/2012. Data Mining. Prof Luiz Antonio do Nascimento

servidores Web com RapidMiner

UTILIZANDO O SOFTWARE WEKA

Observatório da Web: Uma Plataforma para Monitoramento de Eventos em Tempo Real. Gisele L. Pappa Outubro/2013

Extração de Árvores de Decisão com a Ferramenta de Data Mining Weka

Fases para um Projeto de Data Warehouse. Fases para um Projeto de Data Warehouse. Fases para um Projeto de Data Warehouse

ADM041 / EPR806 Sistemas de Informação

Web Data Mining com R: design de projetos para criação de modelos preditivos

O que é a ciência de dados (data science). Discussão do conceito. Luís Borges Gouveia Universidade Fernando Pessoa Versão 1.

XIII Encontro de Iniciação Científica IX Mostra de Pós-graduação 06 a 11 de outubro de 2008 BIODIVERSIDADE TECNOLOGIA DESENVOLVIMENTO

Aprendizagem de Máquina

INF 1771 Inteligência Artificial

4 Estratégias para Implementação de Agentes

Banco de Dados - Senado

A Grande Importância da Mineração de Dados nas Organizações

CIDADE PARTICIPATIVA O GOVERNO FORA DA CAIXA

UNIVERSIDADE FEDERAL DE SANTA CATARINA GRADUAÇÃO EM SISTEMAS DE INFORMAÇÃO DEPARTAMENTO DE INFORMÁTICA E ESTATÍSTICA DATA MINING EM VÍDEOS

RECUPERANDO INFORMAÇÃO SOBRE TEXTOS PUBLICADOS NO TWITTER

MINERAÇÃO DE DADOS EDUCACIONAIS: UM ESTUDO DE CASO APLICADO AO PROCESSO SELETIVO DO IFSULDEMINAS CÂMPUS MUZAMBINHO

Sistema de mineração de dados para descobertas de regras e padrões em dados médicos

Gerenciamento de Dados e Gestão do Conhecimento

DESENVOLVIMENTO DE UM REPOSITÓRIO DE DADOS DO FUTEBOL BRASILEIRO

ANEXO I Sumário Manual de Preços e Serviços Digitais

Algoritmos de Agrupamento - Aprendizado Não Supervisionado. Fabrício Jailson Barth

Engenharia de Software: Introdução. Mestrado em Ciência da Computação 2008 Profa. Itana Gimenes

Manual de acesso ao UNICURITIBA Virtual (Moodle) para alunos EAD

Prof. Msc. Paulo Muniz de Ávila

Boas Práticas em Sistemas Web muito além do HTML...

Chapter 3. Análise de Negócios e Visualização de Dados

Mineração de Opinião / Análise de Sentimentos

Aprendizado de classificadores das ementas da Jurisprudência do Tribunal Regional do Trabalho da 2ª. Região - SP

Aula 02: Conceitos Fundamentais

Ambiente Weka Waikato Environment for Knowledge Analysis

Classificação de Imagens

SISTEMAS DE APRENDIZADO PARA A IDENTIFICAÇÃO DO NÚMERO DE CAROÇOS DO FRUTO PEQUI LEARNING SYSTEMS FOR IDENTIFICATION OF PEQUI FRUIT SEEDS NUMBER

Questionário. A ferramenta auxilia na alocação de Não (0) x x x. Satisfatório (5) complexidade de um caso de uso? de uso (72) Sim (10)

Proposta Revista MARES DE MINAS

Módulo 4: Gerenciamento de Dados

O Processo de KDD. Data Mining SUMÁRIO - AULA1. O processo de KDD. Interpretação e Avaliação. Seleção e Pré-processamento. Consolidação de dados

Big Data. Como utilizar melhor e mais rápido seus dados e informações utilizando metodologias e tecnologias GED/ECM

UNIVERSIDADE FEDERAL DO PARANÁ UFPR Bacharelado em Ciência da Computação

Projeto de Redes Top-Down

textos documentos semi-estruturado

DATA WAREHOUSE. Introdução

FATEC Cruzeiro José da Silva. Ferramenta CRM como estratégia de negócios

Aprendizagem de Máquina

Planejamento Estratégico de TI. Prof.: Fernando Ascani

Paralelização do algoritmo SPRINT usando MyGrid

Organizaçãoe Recuperação de Informação GSI521. Prof. Rodrigo Sanches Miani FACOM/UFU

MANUAL DE NAVEGAÇÃO UNICURITIBA VIRTUAL

SISTEMA GERENCIADOR DE BANCO DE DADOS

Testes de Usabilidade

FURB - Universidade Regional de Blumenau TCC - Trabalho de Conclusão de Curso Acadêmico: Fernando Antonio de Lima Orientador: Oscar Dalfovo

Ferramentas Livres de Armazenamento e Mineração de Dados

Uma análise de ferramentas de modelagem e gerência de metadados aplicadas ao projeto de BI/DW-UFBA

05/06/2012. Banco de Dados. Gerenciamento de Arquivos. Gerenciamento de Arquivos Sistema Gerenciador de Banco de Dados Modelos de Dados

Glossário Apresenta a definição dos termos, siglas e abreviações utilizadas no contexto do projeto Citsmart.

CLIPPING. Thiago A. S. Pardo

Analista de Sistemas S. J. Rio Preto

Monitoramento de Redes Sociais

Algoritmos Genéticos em Mineração de Dados. Descoberta de Conhecimento. Descoberta do Conhecimento em Bancos de Dados

DWARF DATAMINER: UMA FERRAMENTA GENÉRICA PARA MINERAÇÃO DE DADOS

Análise de usabilidade de menus de navegação em portal com grande quantidade de informação e vários níveis hierárquicos

Análise e visualização de dados utilizando redes neurais artificiais auto-organizáveis

Universidade de Brasília. Faculdade de Ciência da Informação. Prof a Lillian Alvares

CLASSIFICAÇÃO AUTOMÁTICA DE PATENTES COM O MODELO VETORIAL DE REPRESENTAÇÃO DE DOCUMENTOS

COMUNICAÇÃO NA ERA DO BIG DATA

Agrupamento de dados

Mídias sociais como apoio aos negócios B2C

Manual de Operação do Sistema de Tickets Support Suite

Experimentos de Mineração de Dados em R Disciplina do curso de Pós-Graduação da UTFPR

FUNDAÇÃO DE APOIO AO ENSINO TÉCNICO DO ESTADO DO RIO DE JANEIRO FAETERJ Petrópolis Área de Extensão PLANO DE CURSO

Manual de acesso ao UNICURITIBA Virtual (Moodle) para alunos

Planejamento Estratégico de TI. Prof.: Fernando Ascani

QUESTÃO 2: A respeito do diagrama de caso de uso apresentado, assinale a alternativa correta.

Banco de Dados Aula 1 Introdução a Banco de Dados Introdução Sistema Gerenciador de Banco de Dados

REQUISITOS. Prof. Msc. Hélio Esperidião

como ferramenta de análise de informações no mercado de saúde: o caso da Unimed-BH Ana Paula Franco Viegas Pereira

Data Science e Big Data

Transcrição:

Uma Introdução à Mineração de Informações na era do Big Data Fabrício J. Barth VAGAS Tecnologia e Faculdades BandTec Setembro de 2012

Palestrante Fabrício J. Barth. Formado em Ciência da Computação pela FURB. Mestrado e Doutorado em Engenharia da Computação pela USP. Recuperação e mineração de informações para domínios de investigação; Identificação de temas emergentes e especialistas em bases de patentes e artigos; Desenvolvimento e gestão de uma plataforma de busca georeferenciada (www.apontador.com.br). Data Scientist na VAGAS Tecnologia (www.vagas.com.br). Professor da Faculdade BandTec (www.bandtec.com.br). Uma Introdução à Mineração de Informações na era do Big Data Palestrante 2

Objetivo Apresentar a importância do tema, os conceitos relacionados e alguns exemplos de aplicações. Uma Introdução à Mineração de Informações na era do Big Data Objetivo 3

Sumário Importância do Tema Manipulando dados estruturados Manipulando dados não-estruturados (textos) Agrupamento Classificação Web Data Mining Considerações Finais Referências Uma Introdução à Mineração de Informações na era do Big Data Sumário 4

Importância do Tema 5

Problema http://investingcaffeine.com/2010/01/07/tmi-the-age-of-information-overload/ Importância do Tema Problema 6

Alguns dados... Relação Horário x Dia x Quantidade de Notícias Produzidas Notícias 500 400 300 200 100 0 500 450 400 350 300 250 200 150 100 50 0 0 2 4 6 8 10 12 14 Horário 16 18 20 22 0 10 20 30 40 50 60 70 80 Dia 90 Quantidade de notícias publicadas na Web por apenas seis veículos de notícias (D 0 = 17/07/2007) Importância do Tema Alguns dados... 7

Mais dados... 160000 140000 120000 Estadão Folha G1 Globo Online Terra Último Segundo Total Notícias publicadas na Internet Quantidade (Notícias) 100000 80000 60000 40000 20000 0 0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 Tempo (Dias) D 0 = 17/07/2007 Importância do Tema Mais dados... 8

Big Data We collect an astonishing amount of digital information......we ve long since surpassed our ability to store and process it all. Big data is here, and it s causing big problems... [1] Importância do Tema Big Data 9

Mais números A380: Heathrow JFK: 640 TBs de log Twitter: 12+ TBs of tweet every day Facebook: 25+ TBs of log data every day Sistemas baseados em RFID Smartphones com GPS, acelerómetro,... http://www.ibmbigdatahub.com/ Mitchell. Mining our reality. Science. 2009 Importância do Tema Mais números 10

Por que minerar informações? Explicitar conhecimento médico a partir de registros médicos. Identificar comportamento anômalo (i.e., fraudes, falhas) Sumarizar tendências de publicações de artigos e patentes sobre um determinado tema. Sumarizar e filtrar notícias relevantes. Importância do Tema Por que minerar informações? 11

Sumarizar a opinião expressa na Web sobre a sua empresa. Identificar padrões de navegação em sites. Identificar conteúdo impróprio em sites. Recomendação de livros, filmes, restaurantes e empregos. Importância do Tema Por que minerar informações? 12

Explicitar conhecimento médico a partir de registros médicos 13

Diagnóstico para o uso de lentes de contato O setor de oftalmologia de um hospital da cidade de São Paulo possui, no seu banco de dados, um histórico de pacientes que procuraram o hospital queixando-se de problemas na visão. A conduta, em alguns casos, realizada pelo corpo cĺınico de oftalmologistas do hospital é indicar o uso de lentes ao paciente. Problema: Extrair do banco de dados do hospital uma hipótese que explica que paciente deve usar ou não lente de contatos. Explicitar conhecimento médico a partir de registros médicos Diagnóstico para o uso de lentes de contato 14

Banco de dados do ambiente de produção Explicitar conhecimento médico a partir de registros médicos Banco de dados do ambiente de produção 15

Por onde começar? 16

Responder as seguintes perguntas: Que objetos/atributos são relevantes para a criação da hipótese? Como representá-los? Que linguagem de representação de conhecimento deve-se utilizar para representar a hipótese? Que algoritmo utilizar para gerar a hipótese? Por onde começar? Responder as seguintes perguntas: 17

Que objetos são relevantes? Depois de um estudo detalhado do problema com especialistas da área... Idade do paciente. Se o paciente tem ou não miopia. Se o paciente tem ou não astigmatismo. Qual é a taxa de lacrimejamento dos olhos do paciente. Como representá-los? Atributo/Valor Por onde começar? Responder as seguintes perguntas: 18

Atributos idade (jovem, adulto, idoso) miopia (míope, hipermétrope) astigmatismo (não, sim) taxa de lacrimejamento (reduzido, normal) lentes de contato (forte, fraca, nenhuma) Por onde começar? Atributos 19

Dados Idade Miopia Astigmat. Lacrimej. Lentes jovem míope não reduzido nenhuma jovem míope não normal fraca jovem míope sim reduzido nenhuma jovem míope sim normal forte jovem hiper não reduzido nenhuma jovem hiper não normal fraca jovem hiper sim reduzido nenhuma jovem hiper sim normal forte adulto míope não reduzido nenhuma Por onde começar? Dados 20

Idade Miopia Astigmat. Lacrimej. Lentes adulto míope não normal fraca adulto míope sim reduzido nenhuma adulto míope sim normal forte adulto hiper sim reduzido nenhuma adulto hiper não normal fraca adulto hiper sim reduzido nenhuma adulto hiper sim normal nenhuma Por onde começar? Dados 21

Idade Miopia Astigmat. Lacrimej. Lentes idoso míope não reduzido nenhuma idoso míope não normal nenhuma idoso míope sim reduzido nenhuma idoso míope sim normal forte idoso hiper não reduzido nenhuma idoso hiper não normal fraca idoso hiper sim reduzido nenhuma idoso hiper sim normal nenhuma Por onde começar? Dados 22

Extração de conhecimento O que foi apresentado nos slides anteriores pode ser considerado como conhecimento? Não Pode ser apresentado como uma informação que consegue explicar a tomada de decisão dos especialistas? Não O que fazer? Por onde começar? Extração de conhecimento 23

Extração de conhecimento Extrair a informação realmente relevante. Utilizar uma linguagem de representação compreensível ao ser humano. (mostrar exemplo no RapidMiner - www.rapid-i.com) Por onde começar? Extração de conhecimento 24

Árvore de decisão Por onde começar? Árvore de decisão 25

Algoritmos Indutores de Decisão Árvores de Que algoritmo utilizar para gerar hipóteses na forma de árvores de decisão? ID3, C4.5[7]: são algoritmos indutores de árvore de decisão, top-down, recursivos e que fazem uso do conceito de entropia para identificar os melhores atributos que representam o conjunto de dados. Por onde começar? Algoritmos Indutores de Árvores de Decisão 26

Resultado: Sistema Especialista (none, soft, hard) Por onde começar? Resultado: Sistema Especialista 27

Organizar documentos 28

O que fazer com grandes quantidades de documentos? Notícias, patentes, artigos, mensagens de twitter, questões abertas de um questionário de pesquisa,... Para tirar proveito desta informação é necessário organizá-la de alguma forma: Agrupamento de notícias, patentes, artigos e mensagens. Classificação, Recomendação e Filtragem de documentos (notícias, relatórios, mensagens do twitter, avaliação de itens). Organizar documentos O que fazer com grandes quantidades de documentos? 29

Exemplo de classificação/agrupamento Organizar documentos Exemplo de classificação/agrupamento 30

Etapas Pré-processamento dos dados. Modelagem (supervisionada ou não supervisionada). Avaliação do modelo. Utilização Organizar documentos Etapas 31

Pré-processamento dos dados 32

Formato de um documento... Esta disciplina tem como objetivo apresentar os principais conceitos da área de Inteligência Artificial, caracterizar as principais técnicas e métodos, e implementar alguns problemas clássicos desta área sob um ponto de vista introdutório. A estratégia de trabalho, o conteúdo ministrado e a forma dependerão dos projetos selecionados pelos alunos. Inicialmente, os alunos deverão trazer os seus Projetos de Conclusão de Curso, identificar intersecções entre o projeto e a disciplina, e propor atividades para a disciplina.... Pré-processamento dos dados Formato de um documento 33

Conjunto de Exemplos - Atributo/Valor Doc. apresent form tecnic caracteriz d 1 0.33 0.33 0.33 0.33 d 2 0 0.5 0.2 0.33 d 3 1 0.6 0 0 d 4 0.4 0.3 0.33 0.4 d 5 1 0.4 0.1 0.1 d n Pré-processamento dos dados Conjunto de Exemplos - Atributo/Valor 34

Atributo/Valor usando vetores Como representar os documentos? di = (p i1, p i2,, pin) (1) Os atributos são as palavras que aparecem nos documentos. Se todas as palavras que aparecem nos documentos forem utilizadas, o vetor não ficará muito grande? Pré-processamento dos dados Atributo/Valor usando vetores 35

Diminuindo a dimensionalidade do vetor Como filtrar as palavras que devem ser usadas como atributos? Em todos os idiomas existem átomos (palavras) que não significam muito. Stop-words Esta disciplina tem como objetivo apresentar os principais conceitos da área de Inteligência Artificial, caracterizar as principais técnicas e métodos, e implementar alguns problemas clássicos desta área sob um ponto de vista introdutório. Pré-processamento dos dados Diminuindo a dimensionalidade do vetor 36

Diminuindo ainda mais a dimensionalidade do vetor Algumas palavras podem aparecer no texto de diversas maneiras: técnica, técnicas, implementar, implementação... Stemming - encontrar o radical da palavra e usar apenas o radical. Pré-processamento dos dados Diminuindo ainda mais a dimensionalidade do vetor 37

Atributo/Valor usando vetores Já conhecemos os atributos. E os valores? Booleana - se a palavra aparece ou não no documento (1 ou 0) Por freqüência do termo - a freqüência com que a palavra aparece no documento (normalizada ou não) Ponderação tf-idf - o peso é proporcional ao número de ocorrências do termo no documento e inversamente proporcional ao número de documentos onde o termo aparece. Pré-processamento dos dados Atributo/Valor usando vetores 38

Por freqüência do termo (apresent,0.33) (form,0.33) (tecnic,0.33) (caracteriz,0.33) (projet,1.0) (introdutori,0.33) (objet,0.33) (inteligente,0.33) (conclusa,0.33) (selecion,0.33) (intersecco,0.33) (classic,0.33) (identific,0.33) (conceit,0.33) (trabalh,0.33) (disciplin,1.0) (traz,0.33) Pré-processamento dos dados Por freqüência do termo 39

Análise do conteúdo publicado no Twitter através de algoritmos de agrupamento 40

Componentes para uma solução... Fonte Coletor Pré-processamento dos documentos Agrupa documentos Agrupamentos de documentos Análise do conteúdo publicado no Twitter através de algoritmos de agrupamento Componentes para uma solução... 41

Coletando dados do twitter $ c u r l o a b o u t B r a s i l. t x t h t t p s : / / stream. t w i t t e r. com/1/ s t a t u s e s / f i l t e r. j s o n? t r a c k=b r a s i l u u s e r : passwd % T o t a l % R e c e i v e d % X f e r d Average Speed Time Time Time C u r r e n t Dload Upload T o t a l Spent L e f t Speed 100 4549 k 0 4549 k 0 0 5986 0 : : 0 : 1 2 : 5 8 : : 6226 $ wc l a b o u t B r a s i l. t x t 1501 a b o u t B r a s i l. t x t $ d a t e Ter 28 Ago 2012 2 3 : 5 1 : 1 0 BRT Análise do conteúdo publicado no Twitter através de algoritmos de agrupamento Coletando dados do twitter 42

# # forma de uso : ruby t w i t t e r. rb > mensagens. c s v # r e q u i r e rubygems r e q u i r e j s o n c o n t e n t = F i l e. open ( a b o u t B r a s i l. t x t ) c o n t e n t. each do l i n e p u t s JSON. p a r s e ( l i n e ) [ t e x t ] end Análise do conteúdo publicado no Twitter através de algoritmos de agrupamento Coletando dados do twitter 43

Componentes para uma solução... Fonte Coletor Pré-processamento dos documentos Agrupa documentos Agrupamentos de documentos Wiki2Group - http://trac.fbarth.net.br/wikianalysis Análise do conteúdo publicado no Twitter através de algoritmos de agrupamento Componentes para uma solução... 44

Definições de Algoritmos de Agrupamento O objetivo dos algoritmos de agrupamento é colocar os objetos similares em um mesmo grupo e objetos não similares em grupos diferentes. Normalmente, objetos são descritos e agrupados usando um conjunto de atributos e valores. Não existe nenhuma informação sobre a classe ou categoria dos objetos. Análise do conteúdo publicado no Twitter através de algoritmos de agrupamento Definições de Algoritmos de Agrupamento 45

Algoritmos para Agrupamento - K-means K significa o número de agrupamentos (que deve ser informado à priori). Sequência de ações iterativas. A parada é baseada em algum critério de qualidade dos agrupamentos (por exemplo, similaridade média). Análise do conteúdo publicado no Twitter através de algoritmos de agrupamento Algoritmos para Agrupamento - K-means 46

Algoritmo para Agrupamento - K-means 5 5 4 4 3 3 2 2 1 1 0 1 2 3 4 5 6 7 8 0 1 2 3 4 5 6 7 8 (1) Objetos que devem ser agrupados (2) Sorteio dos pontos centrais dos agrupamentos 5 5 4 4 3 3 2 2 1 1 0 1 2 3 4 5 6 7 8 0 1 2 3 4 5 6 7 8 (3) Atribuição dos objetos aos agrupamentos (4) Definição do centro do agrupamento Análise do conteúdo publicado no Twitter através de algoritmos de agrupamento Algoritmo para Agrupamento - K-means 47

Algoritmo para agrupamento dos twittes - Resultados Execução do processo no RapidMiner Análise do conteúdo publicado no Twitter através de algoritmos de agrupamento twittes - Resultados Algoritmo para agrupamento dos 48

Análise dos agrupamentos (clusters) RT @TWlTTEI : t c h e r e r e t c h e tche bara bere tchu tcha l e l e l e paragada t h a r a r a RT @TWlTTEI : t c h e r e r e t c h e tche bara bere tchu tcha l e l e l e paragada t h a r a r a RT @PiadaDePobre : t c h e r e r e t c h e tche bara bere tchu tcha l e l e l e paragada t h a r a RT @soucrack : t c h e r e r e t c h e tche bara bere tchu tcha l e l e l e paragada t h a r a r a RT @PiadaDePobre : t c h e r e r e t c h e tche bara bere tchu tcha l e l e l e paragada t h a r a t c h e r e r e t c h e tche bara bere tchu tcha l e l e l e paragada t h a r a r a parapapa ach RT @PiadaDePobre : t c h e r e r e t c h e tche bara bere tchu tcha l e l e l e paragada t h a r a t c h e r e r e t c h e tche bara bere tchu tcha l e l e l e paragada t h a r a r a parapapa ach RT @PiadaDePobre : t c h e r e r e t c h e tche bara bere tchu tcha l e l e l e paragada t h a r a RT @PiadaDePobre : t c h e r e r e t c h e tche bara bere tchu tcha l e l e l e paragada t h a r a RT @TWlTTEI : t c h e r e r e t c h e tche bara bere tchu tcha l e l e l e paragada t h a r a r a RT @TWlTTEI : t c h e r e r e t c h e tche bara bere tchu tcha l e l e l e paragada t h a r a r a Análise do conteúdo publicado no Twitter através de algoritmos de agrupamento Análise dos agrupamentos (clusters) 49

Análise do conteúdo publicado no Twitter através de algoritmos de agrupamento Análise dos agrupamentos (clusters) 50

Classificação de documentos 51

Análise de Sentimento em mensagens no Twitter Teor das mensagens sobre a empresa Vale nos últimos sete dias. http://www.opsys.com.br/ - [4] Classificação de documentos Análise de Sentimento em mensagens no Twitter 52

Conjunto de Exemplos Rotulados Doc. Mensagem Classe d 1 A empresa X é uma empresa muito séria Positivo d 2 O produto Y é uma porcaria Negativo d 3 Gostei muito da palestra de fulano Positivo d 4 Aquela praia é muito bonita Positivo d 5 Gostei daquele restaurante Positivo d n Rotular manualmente Utilizar emoticons :) :( Classificação de documentos Conjunto de Exemplos Rotulados 53

Conjunto de Exemplos - Atributo/Valor e Classe Doc. restaur empres bom caracteriz Classe d 1 0.33 0.33 0.33 0.33 Positivo d 2 0 0.5 0.2 0.33 Negativo d 3 1 0.6 0 0 Positivo d 4 0.4 0.3 0.33 0.4 Positivo d 5 1 0.4 0.1 0.1 Positivo d n Classificação de documentos Conjunto de Exemplos - Atributo/Valor e Classe 54

Classificando objetos Naïve Bayes [6] Support Vector Machines (SVM) [2] Classificação de documentos Classificando objetos 55

Utilização Utilizando o modelo criado é possível inferir se novos twittes possuem sentimento positivo ou negativo. Transformando o c o n j u n t o de t r e i n a m e n t o em um v e t o r de p a l a v r a s C r i a n d o o modelo A p l i c a n d o o modelo a novos c a s o s Mensagem Meu voto e para X, com c e r t e z a! e c l a s s i f i c a d a como POSITIVA Mensagem E s t e p r o d u t o e muito ruim e c l a s s i f i c a d a como NEGATIVA Mensagem Nunca mais compro n a q u e l a l o j a! e c l a s s i f i c a d a como NEGATIVA Mensagem Fulano e um m e n t i r o s o! e c l a s s i f i c a d a como NEGATIVA Mensagem X l i d e r a intenã Ã o de voto e c l a s s i f i c a d a como POSITIVA Classificação de documentos Utilização 56

Outro Exemplo: Classificação e Filtragem de Notícias Classificação de documentos Outro Exemplo: Classificação e Filtragem de Notícias 57

Qual é o problema? http://fbarth.net.br/projetos/riinteligente.html - Sistema FaroFino [5] Classificação de documentos Qual é o problema? 58

Processo de trabalho Web Coletor de RSS Pré-processamento dos documentos Classifica e filtra documentos implementação Notícia 1 = gostei Notícia 2 = não gostei Notícia 3 = gostei Notícia 4 = gostei Notícia 5 = gostei Notícia 6 = não gostei Notícia 7 = gostei Algoritmo gerador de hipóteses ID3, C4.5, J4.8 Naïve Bayes Knn, SVM Hipótese Treinamento, Testes e Prototipação Classificação de documentos Processo de trabalho 59

Minerando o log de um servidor Web 60

Processo de mineração de padrões na Web Pré processamento dos dados Log dos servidores de aplicação Limpeza dos dados Identificação de pageview Identificação de seções Integração de dados Transformação dos dados Banco de dados com as transações dos usuários Padrões Padrões de uso Agrupamento de pageview Análise de correlação Mineração de regras de associação Mineração de padrões sequenciais Minerando o log de um servidor Web Processo de mineração de padrões na Web 61

Exemplo típico de log Minerando o log de um servidor Web Exemplo típico de log 62

Pré-processamento do log: identificação de usuários Minerando o log de um servidor Web Pré-processamento do log: identificação de usuários 63

Pré-processamento do log: identificação das seções Minerando o log de um servidor Web Pré-processamento do log: identificação das seções 64

Matriz de transações Minerando o log de um servidor Web Matriz de transações 65

Matriz de transações com meta-informações sobre as páginas usuário categoria 1 categoria 2 categoria 3 categoriam user 1 0 2 0 1 user 2 1 1 0 0 user 3 2 0 1 0 user 4 0 1 0 0 usern 1 1 0 1 Cada página pode pertencer a uma categoria (i.e., tipo de livro, tipo de estabelecimento comercial) Cada página pode estar associada a uma cidade (i.e., um estabelecimento, uma vaga de emprego) Minerando o log de um servidor Web Matriz de transações com meta-informações sobre as páginas 66

Regras de Associação Caso do supermercado (fralda cerveja) Quem acessa a página sobre futebol também acessa a página de volei em 90% dos casos (futebol volei). Quem acessa a página de ofertas e a página de material de construção também finaliza a compra em 83% dos casos (ofertas material construção compra) Minerando o log de um servidor Web Regras de Associação 67

Considerações Finais 68

Processo Levantamento de requisitos Entendimento do problema Análise descritiva dos dados Pré processamento Criação dos modelos Avaliação Ferramentas (i.e., RapidMiner, Weka, libsvm, Octave, Matlab) Utilização Eficiente (tempo e espaço) Acertivo Considerações Finais Processo 69

Considerações Finais Foram vistos: problemas de classificação, agrupamento e análise de log. Tem muito mais de onde vieram estes... Atenção para o processo! Pré-processamento, criação dos modelos, avaliação e aplicação. Mahout, Hadoop, Carrot2. Antes de instalar ferramentas para a mineração das informações, tente entender os seus dados e os seus problemas! Faça uma análise descritiva dos dados. Muitos dados... Muitas oportunidades... Considerações Finais Considerações Finais 70

Obrigado! http://fbarth.net.br http://fbarth.net.br/materiais/palestras.html fabricio.barth@gmail.com Considerações Finais Obrigado! 71

Referências 72

References [1] Data, data everywhere. a special report on managing information. The Economist, pages 1 16, February 2010. [2] Chih-Chung Chang and Chih-Jen Lin. LIBSVM: A library for support vector machines. ACM Transactions on Intelligent Systems and Technology, 2:27:1 27:27, 2011. Software available at http://www.csie.ntu.edu. tw/~cjlin/libsvm. [3] Bing Liu. Web Data Mining: Exploring Hyperlinks, Contents, and Usage Data (Data-Centric Systems and Applications). Springer, 1st ed. 2007. corr. 2nd printing edition, January 2009. 72-1

[4] Thomas Jefferson P. Lopes, Gabriel Koji Lemos Hiratani, Fabrício J. Barth, Orlando Rodrigues, Jr., and Juliana Maraccini Pinto. Mineração de opiniões aplicada à análise de investimentos. In Companion Proceedings of the XIV Brazilian Symposium on Multimedia and the Web, WebMedia 08, pages 117 120, New York, NY, USA, 2008. ACM. [5] João Carlos Medau, Maria Cristina Belderrain, and Fabrício J. Barth. Reordenação de resultados de busca na web conforme critério de relevância definido pelo usuário. In Anais do XI Simpósio Brasileiro de Sistemas Multimídia e Web - WebMedia, pages 220 222, 2005. [6] Tom M. Mitchell. Machine Learning. McGraw-Hill, 1997. 72-2

[7] J. R. Quinlan. Knowledge Acquisition for Knowledge-Based Systems, chapter Simplifying Decision Trees. Academic Press, 1988. [8] Stuart J. Russel and Peter Norvig. Artificial intelligence: a modern approach. Prentice-Hall, 2 edition, 2003. [9] Ian H. Witten and Eibe Frank. Data Mining: Practical Machine Learning Tools and Techniques. Elsevier, second edition, 2005. 72-3