Categorização Hierárquica de Textos em um Portal Agregador de Notícias

Tamanho: px
Começar a partir da página:

Download "Categorização Hierárquica de Textos em um Portal Agregador de Notícias"

Transcrição

1 Hugo Lima Borges Categorização Hierárquica de Textos em um Portal Agregador de Notícias Dissertação apresentada à Universidade Federal do ABC como parte dos requisitos para a obtenção do Título de Mestre em Engenharia de Informação. Orientadora : Professora Doutora Ana Carolina Lorena Santo André Setembro de 2009

2 Resumo BORGES, H. L. (2009). Categorização Hierárquica de Textos em um Portal Agregador de Notícias. 100p. Dissertação (Mestrado) - Universidade Federal do ABC - Santo André, Diversos domínios apresentam estrutura de organização hierárquica. Um exemplo de área de estudo que pode considerar esse tipo de estrutura é a categorização de textos, em que documentos são agrupados em tópicos principais, que por sua vez se dividem em subtópicos e assim por diante. Técnicas de Aprendizado de Máquina (AM) podem ser utilizadas na obtenção de modelos de classificação que levem em consideração a hierarquia das classes. Neste trabalho estudou-se o uso do AM na categorização hierárquica de notícias. Estes estudos contribuíram para a construção de um portal web agregador de notícias em língua portuguesa. O sistema proposto, Informeme, faz a captura de notícias de diversas fontes jornalísticas, realiza a classificação delas e as apresenta em uma hierarquia de classes pré-definida. Um primeiro modelo de classificação foi obtido e testado, considerando as particularidades da aplicação, e seu desempenho foi avaliado por meio de medidas de desempenho micro e macro. Palavras-chave: Aprendizado de Máquina, Classificação Hierárquica de Textos, Categorização de Textos, Naïve Bayes, Classificação Textos, Portal Web Agregador de Notícias. i

3 Abstract BORGES, H. L. (2009). Informeme: Hierarchical Text Categorization for a News Aggregator Portal. 100p. Master Thesis - Universidade Federal do ABC - Santo André, Several domains present a hierarchical organization structure. One example of area that may take into account this kind of structure is text categorization, where documents can be grouped in major topics, that are them subdivided in subtopics and so on. Machine Learning (ML) techniques can be used for obtaining classification models that consider the hierarchy of classes. This work presents a study on the use of ML in the hierarchical categorization of news. This investigation contributed for the creation of a news aggregator portal in the Portuguese language. The proposed system, named Informeme, captures news from a variety of sources, classifies and presents them in a pre-defined hierarchy of classes. A first classification model was obtained and tested considering the particularities of the application. The model was evaluated employing macro and micro performance measures. Keywords: Machine Learning, Hierarchical Text Classification, Text Categorization, Naïve Bayes, News Aggregator Portal. ii

4 Conteúdo Resumo Abstract Sumário ii iii iv 1 Introdução Motivação Objetivos Organização do Texto Mineração de Textos Introdução Pré-processamento de Textos Determinando o Vocabulário de Termos Seleção e Extração de Termos Pesagem de Termos Classificação de Textos Técnicas de Classificação O Classificador Multinomial de Naïve Bayes Avaliação de Classificadores Considerações Finais Classificação Hierárquica de Textos Introdução Classificação Hierárquica Tipos de Hierarquias Nível de predição Abordagens para Classificação Hierárquica Avaliação de Classificadores Hierárquicos Classificação Hierárquica de Textos Abordagem top-down iii

5 CONTEÚDO iv Abordagem big-bang Outras abordagens Considerações Finais Estudos Iniciais Motivação e Objetivos Conjuntos de Dados Metodologia Resultados Stemming Remoção de atributos com baixa frequência (cutoff ) Seleção de Atributos Pesagem de Atributos Comparação com SVM Considerações Finais O sistema Informeme Introdução Componentes do sistema Classificador Hierárquico de Notícias Capturador de notícias Banco de dados Aplicação web Agendador de tarefas Estudo de Caso Motivação e Objetivos Conjunto de Dados Metodologia Resultados Considerações Finais Conclusão Resultados Obtidos Contribuições e Limitações do Trabalho Trabalhos Futuros Considerações Finais Referências Bibliográficas 91

6 Lista de Abreviaturas AM Aprendizado de Máquina CHT Categorização Hierárquica de Textos MT Mineração de Textos MD Mineração de Dados DCBD Descoberta de Conhecimento a partir de Bases de Dados RI Recuperação de Informação IA Inteligência Artificial DCT Descoberta de Conhecimento de Textos PLN Processamento de Linguagem Natural MEV Modelo de Espaço Vetorial MTD Matriz de Termos e Documentos BOW Bag-of-words ( Sacola de palavras ) TDF Terms Document Frequency (Frequência de Termos no Documento) DF Document Frequency (Frequência nos Documentos) IG Information Gain (Ganho de Informação) MI Mutual Information (Informação Mútua) χ 2 Qui-quadrado OR Odds Ratio (Razão de Desigualdade) BNS Bi-Normal Separation (Separação Bi-Normal) FDA Função de Densidade Acumulada NB Naïve Bayes (Bayes Ingênuo) LSI Latent Semantic Indexing (Indexação de Semântica Latente) SVD Singular-Value Decomposition (Decomposição em Valores Singulares). 12 TF Terms Frequency (Frequência dos Termos) v

7 CONTEÚDO vi TF-IDF Terms Frequency - Inverse Document Frequency (Frequência dos Termos - Frequência Inversa nos Documentos) TF-RF Terms Frequency - Relevance Frequency (Frequência dos Termos - Frequência da Relevância) SVM Support Vector Machines (Máquinas de Vetores de Suporte) CT Categorização de Textos CP Classificação Plana CH Classificação Hierárquica AD Árvores de Decisão RNAs Redes Neurais Artificiais k-nn k-nearest-neighbours (k-vizinhos Mais Próximos) MNB Multinomial Naïve Bayes (Bayes Ingênuo Multinomial) BEP Break-Even Point (Ponto de Equilíbrio) DAG Directed Acyclic Graph (Grafo Direcionado Acíclico) CMA Conditionally-Multinomial Attributes (Atributos Condicionalmente Multinomiais) KDB KDataBase HS Hierarchical Shrinkage (Redução Hierárquica) HM Hierarchical Mixture (Mistura Hierárquica) PLD Pairwise Linear Discriminants (Discriminantes Lineares Pareados) Ro Rocchio SCMA Stein-CMA RCV1 Reuters Corpora Volume N 20 Newsgrowps WO Weight of Evidence (Peso da Evidência) HME Hierarchical Mixtures of Experts (Combinação Hierárquica de Especialistas) SH-RLS Stochastic Hierarchical Regularized Least Squares (Mínimos Quadradados Regularizado Hierárquico Estocástico) CB Centroid Based (Baseado em Centróides) PLSA Probabilistic Latent Semantic Analysis (Análise Latente Semântica Probabilística)

8 CONTEÚDO vii MSWSP Mean Squared Weighted Shortest Path distance (distância Média Quadrática Ponderada do Caminho mais Curto) RSS Really Simple Syndication (Sindicação Realmente Simples) XML extensible Markup Language (Linguagem de Marcação Extensível) MVC Model - View - Controller (Modelo - Visão - Controlador) XHTML Extensible HyperText Markup Language (Linguagem de Hipertexto e Marcação Extensível) CSS Cascading Style Sheets (Folhas de Estilo em Cascata) EM Expectation-Maximization (Maximização de Expectativa)

9 Lista de Figuras 3.1 Exemplos de possíveis estruturas hierárquicas Abordagens para a classificação hierárquica Gráficos: F µ 1, F µ 1 dist., F1 M e F1 M dist. para diferentes valores de cutoff Gráficos: F µ 1, F µ 1 dist., F1 M e F1 M dist. para diferentes técnicas de seleção de atributos (20 Newsgroups) Gráficos: F µ 1, F µ 1 dist., F1 M e F1 M dist. para diferentes técnicas de seleção de atributos (Reuters ) Gráficos: F µ 1, F µ 1 dist., F1 M e F1 M dist. para diferentes técnicas de pesagem de atributos (20 Newsgroups) Gráficos: F µ 1, F µ 1 dist., F µ 1 e F1 M dist. para diferentes técnicas de pesagem de atributos (Reuters ) Componentes do sistema Informeme Sistema Informeme - página inicial Sistema Informeme - Página da subcategoria Automobilismo Sistema Informeme - Painel de controle, tela para classificação manual de notícias Gráficos: F µ 1, F µ 1 dist., F1 M e F1 M dist. para diferentes números de atributos viii

10 Lista de Tabelas 2.1 Exemplo de uma Matriz de Termos e Documentos Tabela de contingência para a classe c i Resumo dos trabalhos relacionados à CHT Hierarquia empregada para o 20 Newsgroups Hierarquia empregada para o Reuters Características dos conjuntos de dados empregados Quantidade de atributos antes e após stemming Efetividade do classificador com e sem stemming Redução de atributos antes e após aplicação de cutoff Efetividade do classificador MNB comparado com SVM linear Hierarquia empregada para o sistema Informeme Características do conjunto de dados empregado Fontes de notícia empregadas na construção do conjunto de dados Quantidade de atributos antes e após stemming F 1 do classificador MNB para as categorias no primeiro nível da hierarquia F 1 e F 1 dist. do classificador MNB para as categorias em nós folha Efetividade do classificador MNB com e sem a pré-classificação ix

11 Capítulo 1 Introdução 1.1 Motivação A classificação hierárquica é um modo bastante comum para a organização de diversos tipos de dados. Na web, diversos sites organizam seu conteúdo em uma hierarquia, o que, geralmente, facilita a navegação do usuário e permite que este encontre com maior facilidade as informações de seu interesse. Na organização de conteúdos na web frequentemente recorre-se à tarefa de categorização de textos. Nesta, procura-se discriminar conjuntos de textos em categorias que designam seu conteúdo. Em particular, quando se tem uma hierarquia de tópicos, em que cada categoria pode ser dividida em subtópicos e assim por diante, figura-se a CHT 1. A área de inteligência computacional de AM 2 provê técnicas que permitem automatizar o processo de categorização de textos. Neste processo é fornecido um conjunto de textos de categorias conhecidas, a partir do qual um modelo ou classificador é extraído. Este modelo pode ser usado na categorização de novos textos. No contexto da CHT, a indução do classificador deve, de alguma maneira, levar em consideração a hierarquia de classes (categorias) de forma que a classificação de um texto em uma subclasse também implique em sua pertinência à(s) superclasse(s) correspondente(s) na hierarquia. O presente trabalho busca estudar a CHT e seus tópicos correlatos que empregam técnicas de AM. Além do estudo teórico, trabalha-se com a criação de um classificador para a classificação hierárquica de textos para um site agregador de notícias denominado Informeme. Sites deste tipo buscam organizar notícias provenientes de diversas fontes em um ambiente que facilite a navegação por parte dos eventuais leitores. O classificador atua então na discriminação dos textos de acordo com seu assunto (conteúdo). As predições realizadas pelo classificador direcionam onde 1 Categorização Hierárquica de Textos 2 Aprendizado de Máquina 1

12 CAPÍTULO 1. INTRODUÇÃO 2 as notícias serão exibidas no sistema. No projeto deste classificador, considerouse inicialmente o estudo de conjuntos de dados da literatura em CHT. Frente aos resultados obtidos para eles, decisões acerca de etapas como pré-processamento de textos e escolha de classificação foram realizadas. Criou-se então um conjunto de dados composto de notícias de fontes jornalísticas em língua portuguesa e avaliou-se a categorização hierárquica em tal conjunto. 1.2 Objetivos Neste trabalho estudou-se algumas das decisões envolvidas na elaboração de um classificador 3 hierárquico de textos para seu uso em um portal agregador de notícias. Pode-se listar os seguintes objetivos seguidos nesta dissertação para a realização da tarefa supra-citada: apresentar ao leitor a tarefa de classificação de textos, com enfoque na classificação hierárquica, sumarizando os principais trabalhos nesta área; baseado em trabalhos da literatura, escolher uma metodologia adequada para a aplicação considerada, permitindo a classificação hierárquica de grandes quantidades de notícias; desenvolver um protótipo de aplicação web funcional que capture notícias e as classifique hierarquicamente; avaliar o desempenho do classificador hierárquico implementado com conjuntos de dados da literatura e no cenário da aplicação construída; discutir o uso da classificação hierárquica como ferramenta para a organização de notícias, apontando vantagens, desvantagens e possíveis adaptações e melhorias para esta aplicação. 3 Os termos classificação e categorização de textos, assim como classificador serão usados indistintamente nesta dissertação, embora de fato a categorização de textos seja um tipo especializado de classificação, em que os textos são especificamente discriminados pelos assuntos que tratam

13 CAPÍTULO 1. INTRODUÇÃO Organização do Texto No Capítulo 2 é apresentada uma introdução à Mineração de Textos, com ênfase na tarefa de classificação de textos. Em seguida, no Capítulo 3, o tópico de Classificação Hierárquica de Textos é explorado, mostrando-se as particularidades e possíveis abordagens para o problema. Apresenta-se uma síntese dos resultados obtidos pelos principais trabalhos na área. O Capítulo 4 apresenta experimentos realizados com o classificador a ser empregado na agregação de notícias em dois conjuntos de dados da literatura. Avalia-se o classificador em relação a diferentes técnicas de pré-processamento de textos. O Capítulo 5 trata do sistema proposto neste trabalho. Inicialmente, explica-se as funcionalidades e detalhes de implementação do sistema. Em seguida, apresentamse experimentos feitos com um conjunto de dados construído a partir de notícias capturadas na web e discute-se como a classificação pode ser empregada no sistema. Por fim, no Capítulo 6, conclui-se o trabalho apresentando suas contribuições, limitações, resultados obtidos e trabalhos futuros.

14 Capítulo 2 Mineração de Textos 2.1 Introdução Inicialmente é importante se considerar o conceito de MD 1. A MD consiste em extrair ou minerar conhecimento a partir de grandes quantidades de dados. Em parte da literatura relacionada, a MD é também tratada como sinônimo para outro termo, a DCBD 2. Outros autores vêem a MD como uma etapa no processo de DCBD, o qual compreende as seguintes etapas: a seleção, limpeza e integração dos dados, a transformação dos dados, a mineração dos dados e a avaliação e apresentação dos resultados (Han & Kamber, 2001). É importante destacar que a MD busca extrair conhecimento inovador, ou seja, algo anteriormente não conhecido e que tenha valor para o domínio em que é aplicada. Outras áreas importantes envolvidoas com a MD são o AM, a RI 3 e a Estatística. O AM é uma área da IA 4 que se concentra em estudar como construir programas de computador que melhorem seu desempenho automaticamente por meio da experiência (Mitchell, 1997). Em MD estas técnicas procuram aprender pela análise de conjuntos de dados. A Estatística tem suas raízes na matemática e lida com a ciência e a prática da análise de dados empíricos. A RI é definida pelo padrão ISO 2382/I como as ações, métodos e procedimentos para a recuperação de dados armazenados para prover informação sobre um assunto determinado. Entre estas ações estão, por exemplo, a indexação de textos, a análise de questões e a análise de relevância (Hotho et al., 2005). A MT 5 ou DCT 6 se caracteriza quando os dados analisados estão na forma 1 Mineração de Dados 2 Descoberta de Conhecimento a partir de Bases de Dados 3 Recuperação de Informação 4 Inteligência Artificial 5 Mineração de Textos 6 Descoberta de Conhecimento de Textos 4

15 CAPÍTULO 2. MINERAÇÃO DE TEXTOS 5 textual. Ela usa técnicas de RI, extração de informação, PLN 7 e as conecta com os algoritmos e métodos da DCBD, MD, AM e Estatística (Hotho et al., 2005). Identificam-se três etapas principais na MT: o pré-processamento ou preparação dos textos, a extração de padrões, em que se realiza a mineração em si e o pósprocessamento, em que se faz a avaliação e validação dos resultados obtidos. Entre as principais tarefas para extração de padrões estão o agrupamento (ou clustering), a extração de características, a indexação temática, a sumarização e a classificação Rezende (2002), foco desta dissertação. A classificação consiste em discriminar os textos entre diferentes classes, por exemplo, de acordo com seu tópico ou assunto tratado. Na Seção 2.2, apresenta-se a etapa de pré-processamento de textos. Em seguida, na Seção 2.3, introduz-se a tarefa de classificação de textos, apresentando as principais técnicas empregadas e como é feita a avaliação de seus resultados. O algoritmo Multinomial de Naïve Bayes, empregado no presente trabalho, é descrito em maiores detalhes nesta seção. Por fim, na Seção 2.4, contextualiza-se a importância da MT e da classificação de textos para este trabalho. 2.2 Pré-processamento de Textos Um componente essencial nos processos de MD e MT é o conjunto de dados sobre os quais as técnicas de extração de padrões serão aplicadas. Na MD um item do conjunto de dados representa um conjunto de informações que pode ser identificado unicamente. Um item possui atributos ou características (features), informações inerentes ao item e que o descrevem. Um livro, por exemplo, pode ter como características seu autor, a editora, o ano de publicação, assunto, quantidade de páginas, entre outros. Na MT um item é visto como um documento, que é uma sequência de termos em linguagem natural que expressa ideias sobre algum assunto, podendo ser de forma livre (não-estruturado) ou semiestruturado. O termo é definido como uma unidade semântica, frase ou palavra (ou mais precisamente uma raiz da palavra). Assim, para um texto livre é comum empregar seus termos como atributos. Já um texto semi-estruturado pode também empregar como atributos conceitos e palavras-chave. Enquanto a MD tipicamente lida com intervalos de alguns até centenas de atributos, é comum que a MT lide com milhares de atributos (Cios et al., 2007). A fase de pré-processamento da MT está frequentemente relacionada à área de RI. Nesta etapa, os documentos precisam ser representados em um formato adequado para a indução do modelo de classificação ou de outra tarefa de MT. O 7 Processamento de Linguagem Natural

16 CAPÍTULO 2. MINERAÇÃO DE TEXTOS 6 modelo Booleano (ou Binomial) e o modelo de espaço vetorial (ou Multinomial) são os mais utilizados para a representação de documentos textuais. No modelo Booleano, o conjunto de textos é representado por uma matriz incidente de termos e documentos. Os termos são geralmente palavras ou outros elementos extraídos do texto. Na tabela de incidência, as linhas representam todos os termos presentes nos textos e as colunas identificam os próprios documentos. Esta representação pode ser também invertida, isto é, documentos representados pelas linhas e termos pelas colunas. Uma célula C ij nesta matriz recebe o valor de 1 quando o termo i está presente no documento j e 0 caso contrário. O MEV 8 é bastante similar. Cada texto ou documento é representado por um vetor e os termos representam dimensões no espaço Euclidiano. O conjunto de documentos é representado pela MTD 9, em que as colunas correspondem aos termos e as linhas correspondem aos documentos. O valor de um elemento C ij é o peso do termo j no documento i. Pode-se empregar diferentes pesagens, embora seja mais comum usar alguma medida que leve em consideração a frequência do termo no texto em questão. Tendo como exemplo a segunda estrofe do poema No meio do caminho de Carlos Drummond de Andrade e considerando-se cada um dos quatro últimos versos como quatro documentos distintos (D1, D2, D3 e D4, respectivamente), pode-se construir a MTD mostrada na Tabela 2.1. Um termo é definido como uma palavra do texto e o peso é dado pela frequência da palavra no texto.... Nunca me esquecerei desse acontecimento na vida de minhas retinas tão fatigadas. D1: Nunca me esquecerei que no meio do caminho D2: tinha uma pedra D3: tinha uma pedra no meio do caminho D4: no meio do caminho tinha uma pedra Na Tabela 2.1, o peso em cada célula C ij é dado pelo número de ocorrências do termo j no documento i. Quatro documentos são representados usando onze termos. Nesta tabela, por exemplo, o termo nunca aparece uma única vez no documento D1, enquanto o termo tinha não aparece neste mesmo documento. Nota-se que, pelo fato de não existir repetição de palavras em um mesmo verso, a MTD é equivalente à representação Booleana neste exemplo. Além disso, por não considerar a posição dos termos, os documentos D3 e D4 são idênticos nesta representação. Também é importante salientar-se que em casos reais esta matriz costuma ser bastante esparsa, 8 Modelo de Espaço Vetorial 9 Matriz de Termos e Documentos

17 CAPÍTULO 2. MINERAÇÃO DE TEXTOS 7 Tabela 2.1: Exemplo de uma Matriz de Termos e Documentos Termos Documentos nunca me esquecerei que no meio do caminho tinha uma pedra D D D D isto é, muitos termos aparecem apenas em alguns documentos e, portanto, grande parte das células apresenta valor nulo Determinando o Vocabulário de Termos A tokenização, processo de fragmentar sentenças em palavras, é geralmente empregada para obter os termos que serão usados para representar os textos. Caracteres numéricos, pontuações e outros símbolos como apóstrofos e hifens geralmente são removidos, isto é, não são considerados. Os textos são passados para letras minúsculas, assim não há distinção entre palavras em caixa alta e caixa baixa. Nesta etapa é importante que se tenha conhecimento do idioma e do domínio dos textos, pois estes aspectos influenciam na implementação do tokenizador. A representação do documento em que cada palavra corresponde a um atributo é conhecida como BOW 10. Embora essa representação ignore a relação semântica entre palavras vizinhas, ela é vastamente usada por sua simples implementação e por apresentar bons resultados na literatura. Outra representação possível é a de n-grama, em que n é o número de palavras sequenciais representando cada atributo. Isto permite que a representação leve em conta a relação entre palavras vizinhas. Na frase O rato roeu a roupa do rei de Roma, por exemplo, tem-se os seguintes trigrama (n-grama composto de três palavras): O rato roeu, rato roeu a, roeu a roupa, a roupa do, roupa do rei, do rei de, rei de Roma. É possível também a utilização de representações estatísticas baseadas na distribuição das palavras dentro dos textos. Na classificação em especial, algumas palavras de uso comum em geral têm pouco valor para identificar documentos com uma determinada característica. Estas palavras são chamadas palavras de parada (stopwords). Costumam ser pronomes, artigos e verbos comuns (como o, a, um, ela, tem, é). Estas palavras são armazenadas em uma lista de palavras de parada (stoplist), contendo as palavras mais comuns para a língua ou domínio do conjunto de dados. Elas são então removidas na etapa de pré-processamento. Contudo, esta remoção nem sempre é desejável e em algumas 10 Bag-of-words ( Sacola de palavras )

18 CAPÍTULO 2. MINERAÇÃO DE TEXTOS 8 situações traz poucas vantagens, pois a redução de termos é desprezível. Além do mais, outras técnicas que consideram a pesagem dos termos estatisticamente podem lidar melhor com termos frequentes. Sebastiani (2002) cita a identificação de autoria como exemplo de aplicação em que a remoção de stopwords é indesejável, uma vez que é a frequência das palavras mais comuns que permite distinguir um autor de outro. O stemming (derivação, radicação ou lematização) é outro processo comumente empregado para a redução dos termos. A ideia desta técnica é a de se considerar a similaridade nos significados das palavras e suas variações morfológicas. Isto é conseguido pela redução das palavras para seu radical provável. Um dos métodos mais comuns para o stemming é o algoritmo de Porter (Porter, 1997). Basicamente, neste algoritmo as palavras passam por alguns passos nos quais seus sufixos são substituídos por outros mais simples, tentando obter um radical comum. As palavras em inglês plays, playing e playable seriam, por exemplo, reduzidas para play, obtendo um radical comum. Embora esse algoritmo tenha sido originalmente concebido para a língua inglesa, existem diversas adaptações para outros idiomas. Savoy (2008) e Porter (2008) mantêm repositórios com implementações de stemming para diversas línguas. Outro algoritmo de stemming bastante usado foi proposto por Lovins (1968). É um algoritmo mais simples que remove um único sufixo em um só passo, trazendo uma redução menor na quantidade de termos se comparado ao algoritmo de Porter. Uma técnica um pouco mais elaborada para a redução de termos envolve o uso de um tesauro, uma espécie de vocabulário controlado que aponta para a relação entre as palavras. Isto permite que sinônimos, abreviações, acrônimos e diferentes grafias sejam representados por um único termo. É comum que, para algumas tarefas como classificação e agrupamento, sejam removidos termos com baixa frequência no conjunto de dados, em um procedimento chamado cutoff. Estes termos, que aparecem poucas vezes no conjunto ou em poucos documentos, podem ser considerados de pouco poder preditivo e sua remoção pode levar a uma redução dimensional considerável Seleção e Extração de Termos Após indexar os documentos usando o MEV, é comum que, para a classificação, se faça a seleção e a pesagem dos termos. A seleção dos termos, também chamada de seleção de atributos, é o processo de escolher, dentre todos os termos do conjunto de dados, aqueles que apresentam melhor eficiência em discriminar os tipos ou classes de textos. É uma técnica de redução dimensional, isto é, o número de termos considerados que representam as dimensões dos vetores é reduzido. Isto implica em

19 CAPÍTULO 2. MINERAÇÃO DE TEXTOS 9 menor custo computacional para a posterior indução dos classificadores a partir dos dados. A redução dimensional pode também evitar o super-ajustamento do modelo (overfitting). A maioria dos métodos de seleção de atributos em MT são derivados das áreas da álgebra linear e da RI. Podem ser usados localmente, ou seja, a seleção é feita para cada classe separadamente, ou globalmente, quando o conjunto de termos é selecionado considerando-se todas as classes. A seleção de termos pode ser feita empregando-se um wrapper, que consiste em identificar os melhores termos para o conjunto de dados pela aplicação do mesmo algoritmo de aprendizado que será usado na etapa de extração de padrões ou por filtragem, que consiste em manter apenas os termos que atingem um determinado limiar de escore (pontuação). A filtragem é a técnica mais comum para a classificação de textos pelo fato dos métodos wrapper serem computacionalmente custosos em problemas de grande escala. O escore é obtido por uma função que busca medir a importância de tal termo para a classificação. Ou seja, essa função é calculada para todos os termos do conjunto de dados e seleciona-se um subconjunto de termos que ultrapassam o limiar desejado ou até que se atinja o total de termos desejado. A TDF 11 ou DF 12 (Equação 2.1) é uma das funções mais simples usadas na seleção de atributos. Nesta técnica, os termos que mais frequentemente aparecem nos documentos são selecionados. Outras funções importantes utilizadas na literatura são o IG 13 (Equação 2.2), a MI 14 (Equação 2.3), o χ 215 (Equação 2.4) e o OR 16 (Equação 2.5). DF (t k, c i ) = P (t k c i ) (2.1) P (t k c i ) IG(t k, c i ) = P (t k c i ) log 2 P (t k ) P (c i ) + P ( t P ( t k c i ) k c i ) log 2 P ( t k ) P (c i ) P (t k c i ) +P (t k c i ) log 2 P (t k ) P ( c i ) + P ( t P ( t k c i ) k c i ) log 2 P ( t k ) P ( c i ) (2.2) MI(t k, c i ) = log 2 P (t k c i ) P (t k ) P (c i ) (2.3) 11 Terms Document Frequency (Frequência de Termos no Documento) 12 Document Frequency (Frequência nos Documentos) 13 Information Gain (Ganho de Informação) 14 Mutual Information (Informação Mútua) 15 Qui-quadrado 16 Odds Ratio (Razão de Desigualdade)

20 CAPÍTULO 2. MINERAÇÃO DE TEXTOS 10 χ 2 (t k, c i ) = N (P (t k c i ) P ( t k c i ) P ( t k c i ) P (t k c i )) 2 P (t k ) P (c i ) OR(t k, c i ) = log 2 (P (t k c i ) (1 P (t k c i ))) (1 P (t k c i )) P (t k c i ) (2.4) (2.5) Nessas equações, tem-se: P (t k ) indica a probabilidade de um termo selecionado aleatoriamente ser o termo t k ; P ( t k ) indica a probabilidade de um termo selecionado aleatoriamente não ser o termo t k ; P (c i ) indica a probabilidade de um documento selecionado aleatoriamente pertencer à classe c i ; P ( c i ) indica a probabilidade de um documento selecionado aleatoriamente não pertencer à classe c i ; P (t k, c i ) indica a probabilidade de um termo t k estar presente em um documento selecionado aleatoriamente pertencente à categoria c i ; P ( t k c i ) indica a probabilidade de um termo diferente de t k, isto é t k, estar em um documento aleatoriamente selecionado que pertence à categoria c i ; P (t k c i ) indica a probabilidade de um termo t k estar em um documento aleatoriamente selecionado que não pertence à categoria c i, isto é, c i ; P ( t k c i ) indica a probabilidade de um termo diferente de t k, isto é t k, estar em um documento selecionado aleatoriamente que não pertence à categoria c i, isto é, c i ; N é a cardinalidade (número de elementos) do conjunto de dados, ou seja, o total de documentos. Estas funções apresentadas baseiam-se na ideia de que os melhores termos representando uma dada classe são aqueles distribuídos do modo mais distinto entre os exemplos positivos e negativos desta classe (pertencentes e não pertencentes à classe, respectivamente). Em experimentos realizados por Yang & Pedersen (1997) comparando IG, DF, MI, e χ 2, observou-se que a IG e χ 2 são as técnicas mais efetivas quando se remove uma grande quantidade de atributos (90% ou mais). Quando removendo menor quantidade de atributos, a DF apresenta desempenho similar a IG e χ 2, sendo que estas três medidas têm uma grande correlação. Por esse motivo, a DF pode ser usada

Aprendizado de classificadores das ementas da Jurisprudência do Tribunal Regional do Trabalho da 2ª. Região - SP

Aprendizado de classificadores das ementas da Jurisprudência do Tribunal Regional do Trabalho da 2ª. Região - SP Aprendizado de classificadores das ementas da Jurisprudência do Tribunal Regional do Trabalho da 2ª. Região - SP Thiago Ferauche, Maurício Amaral de Almeida Laboratório de Pesquisa em Ciência de Serviços

Leia mais

UTILIZANDO O SOFTWARE WEKA

UTILIZANDO O SOFTWARE WEKA UTILIZANDO O SOFTWARE WEKA O que é 2 Weka: software livre para mineração de dados Desenvolvido por um grupo de pesquisadores Universidade de Waikato, Nova Zelândia Também é um pássaro típico da Nova Zelândia

Leia mais

Complemento II Noções Introdutória em Redes Neurais

Complemento II Noções Introdutória em Redes Neurais Complemento II Noções Introdutória em Redes Neurais Esse documento é parte integrante do material fornecido pela WEB para a 2ª edição do livro Data Mining: Conceitos, técnicas, algoritmos, orientações

Leia mais

Nathalie Portugal Vargas

Nathalie Portugal Vargas Nathalie Portugal Vargas 1 Introdução Trabalhos Relacionados Recuperação da Informação com redes ART1 Mineração de Dados com Redes SOM RNA na extração da Informação Filtragem de Informação com Redes Hopfield

Leia mais

Avaliando o que foi Aprendido

Avaliando o que foi Aprendido Avaliando o que foi Aprendido Treinamento, teste, validação Predição da performance: Limites de confiança Holdout, cross-validation, bootstrap Comparando algoritmos: o teste-t Predecindo probabilidades:função

Leia mais

Data, Text and Web Mining

Data, Text and Web Mining Data, Text and Web Mining Fabrício J. Barth TerraForum Consultores Junho de 2010 Objetivo Apresentar a importância do tema, os conceitos relacionados e alguns exemplos de aplicações. Data, Text and Web

Leia mais

Prof. Msc. Paulo Muniz de Ávila

Prof. Msc. Paulo Muniz de Ávila Prof. Msc. Paulo Muniz de Ávila O que é Data Mining? Mineração de dados (descoberta de conhecimento em bases de dados): Extração de informação interessante (não-trivial, implícita, previamente desconhecida

Leia mais

textos documentos semi-estruturado

textos documentos semi-estruturado 1 Mineração de Textos Os estudos em Aprendizado de Máquina normalmente trabalham com dados estruturados Entretanto, uma grande quantidade de informação é armazenada em textos, que são dados semiestruturados

Leia mais

3 Metodologia de Previsão de Padrões de Falha

3 Metodologia de Previsão de Padrões de Falha 3 Metodologia de Previsão de Padrões de Falha Antes da ocorrência de uma falha em um equipamento, ele entra em um regime de operação diferente do regime nominal, como descrito em [8-11]. Para detectar

Leia mais

04/03/2013. Gerenciamento de Dados e Informação. Recuperação de Dado X Informação. Histórico

04/03/2013. Gerenciamento de Dados e Informação. Recuperação de Dado X Informação. Histórico Recuperação de Dado X Informação Gerenciamento de Dados e Informação Fernando Fonseca Ana Carolina Robson Fidalgo Comparação (matching) Recuperação de Dados Exata Recuperação de Informação Aproximada Dados

Leia mais

2 Conceitos Gerais de Classificação de Documentos na Web

2 Conceitos Gerais de Classificação de Documentos na Web Conceitos Gerais de Classificação de Documentos na Web 13 2 Conceitos Gerais de Classificação de Documentos na Web 2.1. Páginas, Sites e Outras Terminologias É importante distinguir uma página de um site.

Leia mais

Otimização de Recuperação de Informação usando Algoritmos Genéticos

Otimização de Recuperação de Informação usando Algoritmos Genéticos Otimização de Recuperação de Informação usando Algoritmos Genéticos Neide de Oliveira Gomes, M. Sc., nog@inpi.gov.br Prof. Marco Aurélio C. Pacheco, PhD Programa de Doutorado na área de Métodos de Apoio

Leia mais

FERRAMENTA PARA CRIAÇÃO DE BASES DE CONHECIMENTO NA FORMA DE ONTOLOGIA OWL A PARTIR DE DADOS NÃO ESTRUTURADOS

FERRAMENTA PARA CRIAÇÃO DE BASES DE CONHECIMENTO NA FORMA DE ONTOLOGIA OWL A PARTIR DE DADOS NÃO ESTRUTURADOS FERRAMENTA PARA CRIAÇÃO DE BASES DE CONHECIMENTO NA FORMA DE ONTOLOGIA OWL A PARTIR DE DADOS NÃO ESTRUTURADOS Aluno: Allan Renato Sabino Orientador: Roberto Heinzle Roteiro Introdução; Objetivos; Fundamentação

Leia mais

Técnicas de Seleção de Atributos utilizando Paradigmas de Algoritmos Disciplina de Projeto e Análise de Algoritmos

Técnicas de Seleção de Atributos utilizando Paradigmas de Algoritmos Disciplina de Projeto e Análise de Algoritmos Técnicas de Seleção de Atributos utilizando Paradigmas de Algoritmos Disciplina de Projeto e Análise de Algoritmos Theo Silva Lins, Luiz Henrique de Campos Merschmann PPGCC - Programa de Pós-Graduação

Leia mais

Extração Automática de Palavras-chave de Textos da Língua Portuguesa

Extração Automática de Palavras-chave de Textos da Língua Portuguesa Extração Automática de Palavras-chave de Textos da Língua Portuguesa Maria Abadia Lacerda Dias, Marcelo de Gomensoro Malheiros Centro Universitário UNIVATES Lajeado RS Brasil {mald,mgm}@univates.br Abstract.

Leia mais

RECUPERAÇÃO DE DOCUMENTOS TEXTO USANDO MODELOS PROBABILISTICOS ESTENDIDOS

RECUPERAÇÃO DE DOCUMENTOS TEXTO USANDO MODELOS PROBABILISTICOS ESTENDIDOS ISBN 978-85-61091-05-7 Encontro Internacional de Produção Científica Cesumar 27 a 30 de outubro de 2009 RECUPERAÇÃO DE DOCUMENTOS TEXTO USANDO MODELOS PROBABILISTICOS ESTENDIDOS Marcello Erick Bonfim 1

Leia mais

KDD. Fases limpeza etc. Datamining OBJETIVOS PRIMÁRIOS. Conceitos o que é?

KDD. Fases limpeza etc. Datamining OBJETIVOS PRIMÁRIOS. Conceitos o que é? KDD Conceitos o que é? Fases limpeza etc Datamining OBJETIVOS PRIMÁRIOS TAREFAS PRIMÁRIAS Classificação Regressão Clusterização OBJETIVOS PRIMÁRIOS NA PRÁTICA SÃO DESCRIÇÃO E PREDIÇÃO Descrição Wizrule

Leia mais

Universidade Tecnológica Federal do Paraná UTFPR Programa de Pós-Graduação em Computação Aplicada Disciplina de Mineração de Dados

Universidade Tecnológica Federal do Paraná UTFPR Programa de Pós-Graduação em Computação Aplicada Disciplina de Mineração de Dados Universidade Tecnológica Federal do Paraná UTFPR Programa de Pós-Graduação em Computação Aplicada Disciplina de Mineração de Dados Prof. Celso Kaestner Poker Hand Data Set Aluno: Joyce Schaidt Versão:

Leia mais

Web Data Mining com R

Web Data Mining com R Web Data Mining com R Fabrício J. Barth fabricio.barth@gmail.com VAGAS Tecnologia e Faculdade BandTec Maio de 2014 Objetivo O objetivo desta palestra é apresentar conceitos sobre Web Data Mining, fluxo

Leia mais

JESS Uma ferramenta para detecção de linguagem em textos

JESS Uma ferramenta para detecção de linguagem em textos UNIVERSIDADE FEDERAL DO RIO GRANDE DO SUL INSTITUTO DE INFORMÁTICA CURSO DE CIÊNCIA DA COMPUTAÇÃO ALINE GRACIELA LERMEN DOS SANTOS JESS Uma ferramenta para detecção de linguagem em textos Trabalho de Graduação.

Leia mais

O uso da Mineração de Textos para Extração e Organização Não Supervisionada de Conhecimento

O uso da Mineração de Textos para Extração e Organização Não Supervisionada de Conhecimento Revista de Sistemas de Informacao da FSMA n. 7 (2011) pp. 7-21 http://www.fsma.edu.br/si/sistemas.html O uso da Mineração de Textos para Extração e Organização Não Supervisionada de Conhecimento Solange

Leia mais

tipos de métodos, técnicas de inteligência artificial e técnicas de otimização. Por fim, concluise com as considerações finais.

tipos de métodos, técnicas de inteligência artificial e técnicas de otimização. Por fim, concluise com as considerações finais. 1. Introdução A previsão de vendas é fundamental para as organizações uma vez que permite melhorar o planejamento e a tomada de decisão sobre o futuro da empresa. Contudo toda previsão carrega consigo

Leia mais

SISTEMAS DE APRENDIZADO PARA A IDENTIFICAÇÃO DO NÚMERO DE CAROÇOS DO FRUTO PEQUI LEARNING SYSTEMS FOR IDENTIFICATION OF PEQUI FRUIT SEEDS NUMBER

SISTEMAS DE APRENDIZADO PARA A IDENTIFICAÇÃO DO NÚMERO DE CAROÇOS DO FRUTO PEQUI LEARNING SYSTEMS FOR IDENTIFICATION OF PEQUI FRUIT SEEDS NUMBER SISTEMAS DE APRENDIZADO PARA A IDENTIFICAÇÃO DO NÚMERO DE CAROÇOS DO FRUTO PEQUI Fernando Luiz de Oliveira 1 Thereza Patrícia. P. Padilha 1 Conceição A. Previero 2 Leandro Maciel Almeida 1 RESUMO O processo

Leia mais

Prof. Júlio Cesar Nievola Data Mining PPGIa PUCPR

Prof. Júlio Cesar Nievola Data Mining PPGIa PUCPR Encontrar grupos de objetos tal que objetos em um grupo são similares (ou relacionados) uns aos outros e diferentes de (ou não relacionados) a objetos em outros grupos Compreensão Agrupa documentos relacionados

Leia mais

Análise de componentes principais (PCA)

Análise de componentes principais (PCA) Análise de componentes principais (PCA) Redução de dados Sumarizar os dados que contém muitas variáveis (p) por um conjunto menor de (k) variáveis compostas derivadas a partir do conjunto original. p k

Leia mais

Mineração de Textos. E. A. M. Morais A. P. L. Ambrósio. Instituto de Informática Universidade Federal de Goiás www.inf.ufg.br

Mineração de Textos. E. A. M. Morais A. P. L. Ambrósio. Instituto de Informática Universidade Federal de Goiás www.inf.ufg.br Mineração de Textos E. A. M. Morais A. P. L. Ambrósio Technical Report - INF_005/07 - Relatório Técnico December - 2007 - Dezembro The contents of this document are the sole responsibility of the authors.

Leia mais

Recuperação de Imagens na Web Baseada em Informações Textuais

Recuperação de Imagens na Web Baseada em Informações Textuais Recuperação de Imagens na Web Baseada em Informações Textuais André Ribeiro da Silva Mário Celso Candian Lobato Universidade Federal de Minas Gerais Departamento de Ciência da Computação {arsilva,mlobato}@dcc.ufmg.br

Leia mais

MINERAÇÃO DE DADOS APLICADA. Pedro Henrique Bragioni Las Casas pedro.lascasas@dcc.ufmg.br

MINERAÇÃO DE DADOS APLICADA. Pedro Henrique Bragioni Las Casas pedro.lascasas@dcc.ufmg.br MINERAÇÃO DE DADOS APLICADA Pedro Henrique Bragioni Las Casas pedro.lascasas@dcc.ufmg.br Processo Weka uma Ferramenta Livre para Data Mining O que é Weka? Weka é um Software livre do tipo open source para

Leia mais

Extração de Árvores de Decisão com a Ferramenta de Data Mining Weka

Extração de Árvores de Decisão com a Ferramenta de Data Mining Weka Extração de Árvores de Decisão com a Ferramenta de Data Mining Weka 1 Introdução A mineração de dados (data mining) pode ser definida como o processo automático de descoberta de conhecimento em bases de

Leia mais

Web Data mining com R: aprendizagem de máquina

Web Data mining com R: aprendizagem de máquina Web Data mining com R: aprendizagem de máquina Fabrício Jailson Barth Faculdade BandTec e VAGAS Tecnologia Junho de 2013 Sumário O que é Aprendizagem de Máquina? Hierarquia de aprendizado. Exemplos de

Leia mais

RODRIGO DE MORAES UMA INVESTIGAÇÃO EMPÍRICA E COMPARATIVA DA APLICAÇÃO DE RNAS AO PROBLEMA DE MINERAÇÃO DE OPINIÕES E ANÁLISE DE SENTIMENTOS

RODRIGO DE MORAES UMA INVESTIGAÇÃO EMPÍRICA E COMPARATIVA DA APLICAÇÃO DE RNAS AO PROBLEMA DE MINERAÇÃO DE OPINIÕES E ANÁLISE DE SENTIMENTOS UNIVERSIDADE DO VALE DO RIO DOS SINOS UNISINOS UNIDADE ACADÊMICA DE PESQUISA E PÓS-GRADUAÇÃO PROGRAMA DE PÓS-GRADUAÇÃO EM COMPUTAÇÃO APLICADA NÍVEL MESTRADO RODRIGO DE MORAES UMA INVESTIGAÇÃO EMPÍRICA

Leia mais

Fabrício J. Barth. Apontador http://www.apontador.com.br http://www.apontador.com.br/institucional/ fabricio.barth@lbslocal.com

Fabrício J. Barth. Apontador http://www.apontador.com.br http://www.apontador.com.br/institucional/ fabricio.barth@lbslocal.com Uma Introdução à Mineração de Informações Fabrício J. Barth Apontador http://www.apontador.com.br http://www.apontador.com.br/institucional/ fabricio.barth@lbslocal.com Outubro de 2010 Objetivo Apresentar

Leia mais

17/10/2012. dados? Processo. Doutorado em Engenharia de Produção Michel J. Anzanello. Doutorado EP - 2. Doutorado EP - 3.

17/10/2012. dados? Processo. Doutorado em Engenharia de Produção Michel J. Anzanello. Doutorado EP - 2. Doutorado EP - 3. Definição de Data Mining (DM) Mineração de Dados (Data Mining) Doutorado em Engenharia de Produção Michel J. Anzanello Processo de explorar grandes quantidades de dados à procura de padrões consistentes

Leia mais

Universidade de Brasília

Universidade de Brasília Universidade de Brasília Instituto de Ciências Exatas Departamento de Ciência da Computação Classificação Automática de Páginas Web Multi-label via MDL e Support Vector Machines Rodrigo de La Rocque Ormonde

Leia mais

Uso de Informações Lingüísticas na etapa de pré-processamento em Mineração de Textos

Uso de Informações Lingüísticas na etapa de pré-processamento em Mineração de Textos UNIVERSIDADE DO VALE DO RIO DOS SINOS CIÊNCIAS EXATAS E TECNOLÓGICAS PROGRAMA INTERDISCIPLINAR DE PÓS-GRADUAÇÃO EM COMPUTAÇÃO APLICADA PIPCA Uso de Informações Lingüísticas na etapa de pré-processamento

Leia mais

FILTRAGEM DE INFORMAÇÃO NA WEB USANDO REDE NEURAL DE HOPFIELD E ONTOLOGIA

FILTRAGEM DE INFORMAÇÃO NA WEB USANDO REDE NEURAL DE HOPFIELD E ONTOLOGIA FILTRAGEM DE INFORMAÇÃO NA WEB USANDO REDE NEURAL DE HOPFIELD E ONTOLOGIA Daniel Mandelli Martins Faculdade de Engenharia de Computação CEATEC danielmartins@puc-campinas.edu.br Juan Manuel Adán Coello

Leia mais

Introdução. Capítulo 1

Introdução. Capítulo 1 Capítulo 1 Introdução Em computação, muitos problemas são resolvidos por meio da escrita de um algoritmo que especifica, passo a passo, como resolver um problema. No entanto, não é fácil escrever um programa

Leia mais

Organizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU

Organizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU Organizaçãoe Recuperaçãode Informação GSI521 Prof. Dr. Rodrigo Sanches Miani FACOM/UFU Aula anterior Organização e Recuperação de Informação(GSI521) Modelo vetorial- Definição Para o modelo vetorial, o

Leia mais

Pré processamento de dados II. Mineração de Dados 2012

Pré processamento de dados II. Mineração de Dados 2012 Pré processamento de dados II Mineração de Dados 2012 Luís Rato Universidade de Évora, 2012 Mineração de dados / Data Mining 1 Redução de dimensionalidade Objetivo: Evitar excesso de dimensionalidade Reduzir

Leia mais

ADM041 / EPR806 Sistemas de Informação

ADM041 / EPR806 Sistemas de Informação ADM041 / EPR806 Sistemas de Informação UNIFEI Universidade Federal de Itajubá Prof. Dr. Alexandre Ferreira de Pinho 1 Sistemas de Apoio à Decisão (SAD) Tipos de SAD Orientados por modelos: Criação de diferentes

Leia mais

AULAS 13, 14 E 15 Correlação e Regressão

AULAS 13, 14 E 15 Correlação e Regressão 1 AULAS 13, 14 E 15 Correlação e Regressão Ernesto F. L. Amaral 23, 28 e 30 de setembro de 2010 Metodologia de Pesquisa (DCP 854B) Fonte: Triola, Mario F. 2008. Introdução à estatística. 10 ª ed. Rio de

Leia mais

Classificação: Definição. Classificação: conceitos básicos e árvores de decisão. Exemplos de Tarefas de Classificação

Classificação: Definição. Classificação: conceitos básicos e árvores de decisão. Exemplos de Tarefas de Classificação Classificação: Definição Mineração de dados Classificação: conceitos básicos e árvores de decisão Apresentação adaptada do material de apoio do livro: Introduction to Data Mining Tan, Steinbach, Kumar

Leia mais

Organização e Recuperação da Informação

Organização e Recuperação da Informação GSI024 Organização e Recuperação da Informação Introdução Ilmério Reis da Silva ilmerio@facom.ufu.br www.facom.ufu.br/~ilmerio/ori UFU/FACOM - 2011/1 Arquivo 1a Introdução Porque RI? Problemas da solução

Leia mais

KDD UMA VISAL GERAL DO PROCESSO

KDD UMA VISAL GERAL DO PROCESSO KDD UMA VISAL GERAL DO PROCESSO por Fernando Sarturi Prass 1 1.Introdução O aumento das transações comerciais por meio eletrônico, em especial as feitas via Internet, possibilitou as empresas armazenar

Leia mais

Inteligência Computacional [2COP229]

Inteligência Computacional [2COP229] Inteligência Computacional [2COP229] Mestrado em Ciência da Computação Sylvio Barbon Jr barbon@uel.br (2/24) Tema Aula 1 Introdução ao Reconhecimento de Padrões 1 Introdução 2 Componentes clássicos da

Leia mais

3. REDES DE CAMADA ÚNICA

3. REDES DE CAMADA ÚNICA 3. REDES DE CAMADA ÚNICA Perceptron Forma mais simples de RN Utilizado para classificação de padrões (linearmente separáveis) Consiste em um único neurônio, com pesos sinápticos ajustáveis e bias 3.1 Funções

Leia mais

Aprendizagem de Máquina

Aprendizagem de Máquina Introdução Aprendizagem de Máquina Alessandro L. Koerich Introdução Desde que os computadores foram inventados temos nos perguntado: Eles são capazes de aprender? Se pudéssemos programá-los para aprender

Leia mais

INF 1771 Inteligência Artificial

INF 1771 Inteligência Artificial Edirlei Soares de Lima INF 1771 Inteligência Artificial Aula 12 Aprendizado de Máquina Agentes Vistos Anteriormente Agentes baseados em busca: Busca cega Busca heurística Busca local

Leia mais

Pesquisa Operacional

Pesquisa Operacional GOVERNO DO ESTADO DO PARÁ UNIVERSIDADE DO ESTADO DO PARÁ CENTRO DE CIÊNCIAS NATURAIS E TECNOLOGIA DEPARTAMENTO DE ENGENHARIA Pesquisa Operacional Tópico 4 Simulação Rosana Cavalcante de Oliveira, Msc rosanacavalcante@gmail.com

Leia mais

Classificação de textos: definição & relevância para ORI

Classificação de textos: definição & relevância para ORI Conteúdo Conteúdo Classificação de textos: definição & relevância para ORI Conteúdo Classificação de textos: definição & relevância para ORI Naive Bayes: classificador de textos Conteúdo Classificação

Leia mais

MLP (Multi Layer Perceptron)

MLP (Multi Layer Perceptron) MLP (Multi Layer Perceptron) André Tavares da Silva andre.silva@udesc.br Roteiro Rede neural com mais de uma camada Codificação de entradas e saídas Decorar x generalizar Perceptron Multi-Camada (MLP -

Leia mais

Laboratório de Mídias Sociais

Laboratório de Mídias Sociais Laboratório de Mídias Sociais Aula 02 Análise Textual de Mídias Sociais parte I Prof. Dalton Martins dmartins@gmail.com Gestão da Informação Universidade Federal de Goiás O que é Análise Textual? Análise

Leia mais

Sumário. Parte l. 1. Introdução à pesquisa qualitativa e quantitativa em marketing 1 1.1 Pesquisa qualitativa 1 1.2 Pesquisa quantitativa 3

Sumário. Parte l. 1. Introdução à pesquisa qualitativa e quantitativa em marketing 1 1.1 Pesquisa qualitativa 1 1.2 Pesquisa quantitativa 3 Sumário Parte l 1. Introdução à pesquisa qualitativa e quantitativa em marketing 1 1.1 Pesquisa qualitativa 1 1.2 Pesquisa quantitativa 3 2. Entrevistas 5 2.1 Tipos de entrevistas 8 2.2 Preparação e condução

Leia mais

Universidade Federal de Santa Catarina. Text Mining. Data Mining INE5644

Universidade Federal de Santa Catarina. Text Mining. Data Mining INE5644 Universidade Federal de Santa Catarina Text Mining Data Mining INE5644 Augusto Fredigo Hack Luis Felipe Nunes Matheus Hoffmann Silva Thiago Thalison Firmino de Lima Florianópolis, 19 de outrubro de 2013

Leia mais

A Preparação dos Dados

A Preparação dos Dados A Preparação dos Dados Escolhas Básicas Objetos, casos, instâncias Objetos do mundo real: carros, arvores, etc Ponto de vista da mineração: um objeto é descrito por uma coleção de características sobre

Leia mais

UMA ABORDAGEM DE PODA PARA MÁQUINAS DE APRENDIZADO EXTREMO VIA ALGORITMOS GENÉTICOS

UMA ABORDAGEM DE PODA PARA MÁQUINAS DE APRENDIZADO EXTREMO VIA ALGORITMOS GENÉTICOS UMA ABORDAGEM DE PODA PARA MÁQUINAS DE APRENDIZADO EXTREMO VIA ALGORITMOS GENÉTICOS Alisson S. C. Alencar, Ajalmar R. da Rocha Neto Departamento de Computação, Instituto Federal do Ceará (IFCE). Programa

Leia mais

Introdução a Datamining (previsão e agrupamento)

Introdução a Datamining (previsão e agrupamento) E o que fazer depois de ter os dados organizados? Introdução a Datamining (previsão e agrupamento) Victor Lobo Mestrado em Estatística e Gestão de Informação Ideias base Aprender com o passado Inferir

Leia mais

Luiz Henrique Marino Cerqueira Faculdade de Engenharia de Computação CEATEC luiz.hmc@puccamp.edu.br

Luiz Henrique Marino Cerqueira Faculdade de Engenharia de Computação CEATEC luiz.hmc@puccamp.edu.br AVALIAÇÃO COMPARATIVA DE ALGORITMOS PARA SISTEMAS DE RECOMENDAÇÃO EM MÚLTIPLOS DOMÍNOS: PREVISÃO DO DESEMPENHO DE ESTUDANTES A PARTIR DE SUA INTERAÇÃO COM UM SISTEMA TUTOR. Luiz Henrique Marino Cerqueira

Leia mais

PROJETO DE REDES www.projetoderedes.com.br

PROJETO DE REDES www.projetoderedes.com.br PROJETO DE REDES www.projetoderedes.com.br Centro Universitário de Volta Redonda - UniFOA Curso Tecnológico de Redes de Computadores 5º período Disciplina: Tecnologia WEB Professor: José Maurício S. Pinheiro

Leia mais

AVALIAÇÃO COMPARATIVA DE ALGORITMOS PARA SISTEMAS DE RECOMENDAÇÃO EM MÚLTIPLOS DOMÍNIOS: MODELOS INTERPRETÁVEIS APLICADOS A DADOS EDUCACIONAIS

AVALIAÇÃO COMPARATIVA DE ALGORITMOS PARA SISTEMAS DE RECOMENDAÇÃO EM MÚLTIPLOS DOMÍNIOS: MODELOS INTERPRETÁVEIS APLICADOS A DADOS EDUCACIONAIS AVALIAÇÃO COMPARATIVA DE ALGORITMOS PARA SISTEMAS DE RECOMENDAÇÃO EM MÚLTIPLOS DOMÍNIOS: MODELOS INTERPRETÁVEIS APLICADOS A DADOS EDUCACIONAIS Hugo Marques Casarini Faculdade de Engenharia de Computação

Leia mais

Curso Superior de Tecnologia em Banco de Dados Disciplina: Projeto de Banco de Dados Relacional II Prof.: Fernando Hadad Zaidan

Curso Superior de Tecnologia em Banco de Dados Disciplina: Projeto de Banco de Dados Relacional II Prof.: Fernando Hadad Zaidan Faculdade INED Curso Superior de Tecnologia em Banco de Dados Disciplina: Projeto de Banco de Dados Relacional II Prof.: Fernando Hadad Zaidan 1 Unidade 4.5 2 1 BI BUSINESS INTELLIGENCE BI CARLOS BARBIERI

Leia mais

1 Tipos de dados em Análise de Clusters

1 Tipos de dados em Análise de Clusters Curso de Data Mining Sandra de Amo Aula 13 - Análise de Clusters - Introdução Análise de Clusters é o processo de agrupar um conjunto de objetos físicos ou abstratos em classes de objetos similares Um

Leia mais

Categorização de Textos baseada em Conceitos

Categorização de Textos baseada em Conceitos Pontifícia Universidade Católica do Rio Grande do Sul Faculdade de Informática Programa de Pós-Graduação em Ciência da Computação Encontro de PLN Categorização de Textos baseada em Conceitos Silvia Maria

Leia mais

3 ALGORITMOS GENÉTICOS : CONCEITOS BÁSICOS E EXTENSÕES VINCULADAS AO PROBLEMA DE MINIMIZAÇÃO DE PERDAS

3 ALGORITMOS GENÉTICOS : CONCEITOS BÁSICOS E EXTENSÕES VINCULADAS AO PROBLEMA DE MINIMIZAÇÃO DE PERDAS 3 ALGORITMOS GENÉTICOS : CONCEITOS BÁSICOS E EXTENSÕES VINCULADAS AO PROBLEMA DE MINIMIZAÇÃO DE PERDAS 3.1 - Conceitos Básicos Entendemos como algoritmo um conjunto predeterminado e bem definido de regras

Leia mais

Universidade Federal do Rio de Janeiro - IM/DCC & NCE

Universidade Federal do Rio de Janeiro - IM/DCC & NCE Universidade Federal do Rio de Janeiro - IM/DCC & NCE Processamento de Imagens Tratamento da Imagem - Filtros Antonio G. Thomé thome@nce.ufrj.br Sala AEP/033 Sumário 2 Conceito de de Filtragem Filtros

Leia mais

TÓPICOS AVANÇADOS EM ENGENHARIA DE SOFTWARE

TÓPICOS AVANÇADOS EM ENGENHARIA DE SOFTWARE TÓPICOS AVANÇADOS EM ENGENHARIA DE SOFTWARE Engenharia de Computação Professor: Rosalvo Ferreira de Oliveira Neto Estudos Comparativos Recentes - Behavior Scoring Roteiro Objetivo Critérios de Avaliação

Leia mais

Introdução a Datamining (previsão e agrupamento)

Introdução a Datamining (previsão e agrupamento) Introdução a Datamining (previsão e agrupamento) Victor Lobo Mestrado em Estatística e Gestão de Informação E o que fazer depois de ter os dados organizados? Ideias base Aprender com o passado Inferir

Leia mais

Conceitos de Mineração de Dados na Web

Conceitos de Mineração de Dados na Web Capítulo 2 Conceitos de Mineração de Dados na Web Rafael Santos Resumo Já não é mais possível apresentar a Web como uma novidade, comentando sobre suas características básicas sua pervasividade e ubiqüidade

Leia mais

Unidade 5 Armazenamento e Indexação

Unidade 5 Armazenamento e Indexação Unidade 5 Armazenamento e Indexação Engenharia de Computação / Engenharia de Produção Banco de Dados Prof. Maria das Graças da Silva Teixeira Material base: Banco de Dados, 2009.2, prof. Otacílio José

Leia mais

Inteligência Computacional Aplicada a Engenharia de Software

Inteligência Computacional Aplicada a Engenharia de Software Inteligência Computacional Aplicada a Engenharia de Software Estudo de caso III Prof. Ricardo de Sousa Britto rbritto@ufpi.edu.br Introdução Em alguns ambientes industriais, pode ser necessário priorizar

Leia mais

Aprendizagem de Máquina

Aprendizagem de Máquina Aprendizagem de Máquina Alessandro L. Koerich Programa de Pós-Graduação em Informática Pontifícia Universidade Católica do Paraná (PUCPR) Horários Aulas Sala [quinta-feira, 7:30 12:00] Atendimento Segunda

Leia mais

Profs. Luiz Laranjeira, Nilton Silva, e Fabrício Braz

Profs. Luiz Laranjeira, Nilton Silva, e Fabrício Braz Laboratório de Dependabilidade e Segurança Lades Profs. Luiz Laranjeira, Nilton Silva, e Fabrício Braz RENASIC/CD-CIBER CD Ciber CTC - Comitê Técnico Científico RENASIC CD Comitê Diretor ASTECA VIRTUS

Leia mais

Pós-Graduação em Engenharia Elétrica Inteligência Artificial

Pós-Graduação em Engenharia Elétrica Inteligência Artificial Pós-Graduação em Engenharia Elétrica Inteligência Artificial João Marques Salomão Rodrigo Varejão Andreão Inteligência Artificial Definição (Fonte: AAAI ): "the scientific understanding of the mechanisms

Leia mais

Vetor Quantização e Aglomeramento (Clustering)

Vetor Quantização e Aglomeramento (Clustering) (Clustering) Introdução Aglomeramento de K-partes Desafios do Aglomeramento Aglomeramento Hierárquico Aglomeramento divisivo (top-down) Aglomeramento inclusivo (bottom-up) Aplicações para o reconhecimento

Leia mais

Data Warehousing. Leonardo da Silva Leandro. CIn.ufpe.br

Data Warehousing. Leonardo da Silva Leandro. CIn.ufpe.br Data Warehousing Leonardo da Silva Leandro Agenda Conceito Elementos básicos de um DW Arquitetura do DW Top-Down Bottom-Up Distribuído Modelo de Dados Estrela Snowflake Aplicação Conceito Em português:

Leia mais

Aplicação da Medida TfIdf em Bancos de Dados Relacionais para Ordenação de Consultas por Termos

Aplicação da Medida TfIdf em Bancos de Dados Relacionais para Ordenação de Consultas por Termos Aplicação da Medida TfIdf em Bancos de Dados Relacionais para Ordenação de Consultas por Termos Daniel Pereira Lima 1, Naziane Alves Pinto 2, Carla Oran Fonseca de Souza 3, Francisca Sancha Azevedo da

Leia mais

Experimentos de Mineração de Dados em R Disciplina do curso de Pós-Graduação da UTFPR

Experimentos de Mineração de Dados em R Disciplina do curso de Pós-Graduação da UTFPR Experimentos de Mineração de Dados em R Disciplina do curso de Pós-Graduação da UTFPR Paulo Carvalho Diniz Junior CPGEI / UTFPR Avenida Sete de Setembro, 3165 Curitiba-PR - CEP 80.230-910 E-mail: paulo.carvalho.diniz@gmail.com

Leia mais

Organizaçãoe Recuperação de Informação GSI521. Prof. Rodrigo Sanches Miani FACOM/UFU

Organizaçãoe Recuperação de Informação GSI521. Prof. Rodrigo Sanches Miani FACOM/UFU Organizaçãoe Recuperação de Informação GSI521 Prof. Rodrigo Sanches Miani FACOM/UFU Introdução Organização e Recuperação de Informação(GSI521) Tópicos Recuperação de informação (RI); Breve histórico; O

Leia mais

2.1.2 Definição Matemática de Imagem

2.1.2 Definição Matemática de Imagem Capítulo 2 Fundamentação Teórica Este capítulo descreve os fundamentos e as etapas do processamento digital de imagens. 2.1 Fundamentos para Processamento Digital de Imagens Esta seção apresenta as propriedades

Leia mais

3 Classificação. 3.1. Resumo do algoritmo proposto

3 Classificação. 3.1. Resumo do algoritmo proposto 3 Classificação Este capítulo apresenta primeiramente o algoritmo proposto para a classificação de áudio codificado em MPEG-1 Layer 2 em detalhes. Em seguida, são analisadas as inovações apresentadas.

Leia mais

1 Introdução 1.1. Segurança em Redes de Computadores

1 Introdução 1.1. Segurança em Redes de Computadores 1 Introdução 1.1. Segurança em Redes de Computadores A crescente dependência das empresas e organizações modernas a sistemas computacionais interligados em redes e a Internet tornou a proteção adequada

Leia mais

Classificação de Imagens de Sensoriamento Remoto usando SVM

Classificação de Imagens de Sensoriamento Remoto usando SVM Raphael Belo da Silva Meloni Classificação de Imagens de Sensoriamento Remoto usando SVM Dissertação de Mestrado Dissertação apresentada como requisito parcial para obtenção do título de Mestre pelo Programa

Leia mais

Análise e visualização de dados utilizando redes neurais artificiais auto-organizáveis

Análise e visualização de dados utilizando redes neurais artificiais auto-organizáveis Análise e visualização de dados utilizando redes neurais artificiais auto-organizáveis Adriano Lima de Sá Faculdade de Computação Universidade Federal de Uberlândia 20 de junho de 2014 Adriano L. Sá (UFU)

Leia mais

SUMÁRIO. Introdução... 3

SUMÁRIO. Introdução... 3 SUMÁRIO Introdução..................................... 3 1 Consultas por Similaridade e Espaços métricos............. 5 1.1 Consultas por abrangência e consultas aos k-vizinhos mais próximos... 5 1.2

Leia mais

Análise de técnicas de selecção de atributos em Bioinformática

Análise de técnicas de selecção de atributos em Bioinformática Análise de técnicas de selecção de atributos em Bioinformática Rui Mendes 100378011 Bioinformática 10/11 DCC Artigo Base Yvan Saeys, Inaki Inza and Pedro Larranaga. A review of feature selection techniques

Leia mais

Introdução à Simulação

Introdução à Simulação Introdução à Simulação O que é simulação? Wikipedia: Simulação é a imitação de alguma coisa real ou processo. O ato de simular algo geralmente consiste em representar certas características e/ou comportamentos

Leia mais

Explorator: uma ferramenta para mineração de dados do Twitter

Explorator: uma ferramenta para mineração de dados do Twitter Departamento de Sistemas e Computação FURB Curso de Ciência da Computação Trabalho de Conclusão de Curso 2013/2 Explorator: uma ferramenta para mineração de dados do Twitter Acadêmico: Diego Santos Luiz

Leia mais

Revisando o Método de Análise da Semântica Latente para Propósitos de Mineração de Opiniões sobre Produtos

Revisando o Método de Análise da Semântica Latente para Propósitos de Mineração de Opiniões sobre Produtos Revisando o Método de Análise da Semântica Latente para Propósitos de Mineração de Opiniões sobre Produtos Wilson Pires Gavião Neto 1, Sidnei Renato Silveira 1 1 Sistemas de Informação: Ciência e Tecnologia

Leia mais

Radar de Penetração no Solo e Meio- Ambiente

Radar de Penetração no Solo e Meio- Ambiente UNIVERSIDADE DE SÃO PAULO INSTITUTO DE ASTRONOMIA, GEOFÍSICA E CIÊNCIAS ATMOSFÉRICAS DEPARTAMENTO DE GEOFÍSICA Curso 3ª Idade Radar de Penetração no Solo e Meio- Ambiente Vinicius Rafael Neris dos Santos

Leia mais

Pesquisador em Informações Geográficas e Estatísticas A I GESTÃO DA QUALIDADE LEIA ATENTAMENTE AS INSTRUÇÕES ABAIXO.

Pesquisador em Informações Geográficas e Estatísticas A I GESTÃO DA QUALIDADE LEIA ATENTAMENTE AS INSTRUÇÕES ABAIXO. 7 EDITAL N o 04/2013 LEIA ATENTAMENTE AS INSTRUÇÕES ABAIXO. 01 - O candidato recebeu do fiscal o seguinte material: a) este CADERNO DE QUESTÕES, com os enunciados das 8 (oito) questões discursivas, sem

Leia mais

Técnicas de Mineração de Dados Aplicadas a Reservatórios visando à Gestão Ambiental na Geração de Energia

Técnicas de Mineração de Dados Aplicadas a Reservatórios visando à Gestão Ambiental na Geração de Energia Técnicas de Mineração de Dados Aplicadas a Reservatórios visando à Gestão Ambiental na Geração de Energia Aluno: Gabriel Leite Mariante Orientador: Marley Maria Bernardes Rebuzzi Vellasco Introdução e

Leia mais

RECONHECIMENTO DE PADRÕES TEXTUAIS PARA CATEGORIZAÇÃO AUTOMÁTICA DE DOCUMENTOS. Laila Beatriz Soares Melo

RECONHECIMENTO DE PADRÕES TEXTUAIS PARA CATEGORIZAÇÃO AUTOMÁTICA DE DOCUMENTOS. Laila Beatriz Soares Melo RECONHECIMENTO DE PADRÕES TEXTUAIS PARA CATEGORIZAÇÃO AUTOMÁTICA DE DOCUMENTOS Laila Beatriz Soares Melo DISSERTAÇÂO SUBMETIDA AO CORPO DOCENTE DA COORDENAÇÃO DOS PROGRAMAS DE PÓS-GRADUAÇÃO DE ENGENHARIA

Leia mais

Aplicação de um método LSA na avaliação automática de respostas discursivas

Aplicação de um método LSA na avaliação automática de respostas discursivas Aplicação de um método LSA na avaliação automática de respostas discursivas João Carlos Alves dos Santos 1, Tácio Ribeiro 2, Eloi Favero 2, Joaquim Queiroz 3 1 Faculdade de Matemática Universidade Federal

Leia mais

Criação de um Arquivo Invertido para a Recuperação de Informação em Grandes Volumes de Texto

Criação de um Arquivo Invertido para a Recuperação de Informação em Grandes Volumes de Texto Criação de um Arquivo Invertido para a Recuperação de Informação em Grandes Volumes de Texto Rafael Rodrigo da Silva 1, Wender Magno Cota 1 1 Universidade Presidente Antônio Carlos (UNIPAC) Faculdade Regional

Leia mais

AVALIAÇÃO QUALITATIVA DE COST DRIVERS PELO MÉTODO AHP

AVALIAÇÃO QUALITATIVA DE COST DRIVERS PELO MÉTODO AHP AVALIAÇÃO QUALITATIVA DE COST DRIVERS PELO MÉTODO AHP Edson de Oliveira Pamplona, Dr. Escola Federal de Engenharia de Itajubá Av. BPS, 1303 Itajubá, MG CEP: 37500-000 e-mail: pamplona@iem.efei.br Prof.

Leia mais

2 Máquinas de Estados em Jogos Eletrônicos

2 Máquinas de Estados em Jogos Eletrônicos 2 Máquinas de Estados em Jogos Eletrônicos Máquinas de Estados são um conceito importante em várias áreas da ciência. Em particular, a engenharia e a computação utilizam Máquinas de Estados como ferramentas

Leia mais

- Aula 1 - ARQUITETURA DE COMPUTADORES

- Aula 1 - ARQUITETURA DE COMPUTADORES - Aula 1 - ARQUITETURA DE COMPUTADORES Em arquitetura de computadores serão estudados aspectos da estrutura e do funcionamento dos computadores. O objetivo é apresentar de forma clara e abrangente a natureza

Leia mais

Universidade Federal do Estado do Rio de Janeiro

Universidade Federal do Estado do Rio de Janeiro Universidade Federal do Estado do Rio de Janeiro Centro de Ciências Exatas e Tecnologia Escola de Informática Aplicada Análise do perfil de uma comunidade científica através de mineração de texto. Brunno

Leia mais

FUNDAMENTOS DE SISTEMAS DE INFORMAÇÃO

FUNDAMENTOS DE SISTEMAS DE INFORMAÇÃO @ribeirord FUNDAMENTOS DE SISTEMAS DE INFORMAÇÃO Rafael D. Ribeiro, M.Sc,PMP. rafaeldiasribeiro@gmail.com http://www.rafaeldiasribeiro.com.br Lembrando... Aula 4 1 Lembrando... Aula 4 Sistemas de apoio

Leia mais