RECONHECIMENTO DE PADRÕES TEXTUAIS PARA CATEGORIZAÇÃO AUTOMÁTICA DE DOCUMENTOS. Laila Beatriz Soares Melo

Tamanho: px
Começar a partir da página:

Download "RECONHECIMENTO DE PADRÕES TEXTUAIS PARA CATEGORIZAÇÃO AUTOMÁTICA DE DOCUMENTOS. Laila Beatriz Soares Melo"

Transcrição

1 RECONHECIMENTO DE PADRÕES TEXTUAIS PARA CATEGORIZAÇÃO AUTOMÁTICA DE DOCUMENTOS Laila Beatriz Soares Melo DISSERTAÇÂO SUBMETIDA AO CORPO DOCENTE DA COORDENAÇÃO DOS PROGRAMAS DE PÓS-GRADUAÇÃO DE ENGENHARIA DA UNIVERSIDADE FEDERAL DO RIO DE JANEIRO COMO PARTE DOS REQUISITOS NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE MESTRE EM CIÊNCIAS EM ENGENHARIA ELÉTRICA. Aprovada por: Prof. Jorge Lopes de Souza Leão, Dr.Ing Prof. Antonio Carneiro de Mesquita Filho, Dr.d État. Prof.Geraldo Bonorino Xexéo, D.Sc. RIO DE JANEIRO, RJ - BRASIL DEZEMBRO DE 2007

2 MELO, LAILA BEATRIZ SOARES Reconhecimento de Padrões Textuais para Categorização Automática de Documentos [Rio de Janeiro] 2007 IX, 74p. 29,7 cm (COPPE/UFRJ, M.Sc., Engenharia Elétrica, 2007) Dissertação - Universidade Federal do Rio de Janeiro, COPPE 1. Categorização de Textos I. COPPE/UFRJ II. Título ( série ) ii

3 iii À Bruna, Claudia, Lourdes e Michel

4 Agradecimentos Ao Professor Jorge Lopes de Souza Leão pelo incentivo e orientação ao longo do trabalho; Aos amigos Fabiana, Henrique, Ítalo, Marcel, Milton, Newton, Rubens, Sergio, Yuri, Zé pelo apoio e companheirismo; Ao professor Antonio Carneiro de Mesquita Filho pelas contribuições com seus conhecimentos ao longo do trabalho; Ao professor Geraldo Bonorino Xexéo pelas contribuições com seus conhecimentos; Às crianças pela alegria e atenção que me dedicam. iv

5 Resumo da Dissertação apresentada à COPPE/UFRJ como parte dos requisitos necessários para a obtenção do grau de Mestre em Ciências (M.Sc.) RECONHECIMENTO DE PADRÕES TEXTUAIS PARA CATEGORIZAÇÃO AUTOMÁTICA DE DOCUMENTOS Laila Beatriz Soares Melo Dezembro/2007 Orientador: Jorge Lopes de Souza Leão Programa: Engenharia Elétrica Este trabalho propõe uma abordagem do problema de reconhecimento de padrões textuais aplicada ao processo de classificação automática de documentos. Foram utilizados dois conjuntos de textos: um voltado para a linguagem mais próxima do cotidiano e o outro voltado para a linguagem técnica-científica para permitir a avaliação da abordagem a diferentes tipos de textos. Foram usados dois tipos de classificadores, o Naïves Bayes e as Redes Neurais Artificiais, como métodos comparativos dos resultados obtidos. v

6 Abstract of Dissertation presented to COPPE/UFRJ as a partial fulfillment of the requirements for the degree of Master of Science (M.Sc.) TEXTUAL PATTERN RECOGNITION FOR AUTOMATIC DOCUMENTS CATEGORIZATION Laila Beatriz Soares Melo December/2007 Advisor: Jorge Lopes de Souza Leão Department: Electrical Engineering This work proposes an aproach to textual pattern recognition with application to the process of automatic document categorization. Two corpora of texts have been used, one of them next to the daily use and the other a more technical-cientific language, in orter to evaluate the efficiency of the approach to different types of texts. Two types of classifiers were used, the Naïve Bayes and the Artificial Neural Networks and their influence on the results was evaluated. vi

7 ĺndice: 1. Introdução Classificador Naïve Bayes Introdução Conceitos Básicos Modelos Redes Neurais Introdução Conceitos Básicos Processo de Aprendizagem Redes Multilayer Perceptron (MLP) Seleção de Características Pré-processamento Pré-processamento Lingüístico Análise Sintática Extração das Categorias Gramaticais Morfossintáticas Representação dos Documentos Cálculo de Relevância Escore de Relevância Coeficiente de Correlação Seleção de Atributos A Classificação Base de Dados Textuais Preparação dos Documentos Ferramentas Utilizadas Experimentos Considerações Resultados Obtidos Classificador Naïve Bayes Corpus Jornal Corpus Teses Redes Neurais Corpus Jornal Corpus Teses Classificador Naïve Bayes Especialista Corpus Jornal vii

8 Corpus Teses Redes Neurais Especialistas Corpus Jornal Corpus Teses Resultados Comparativos Naïve Bayes Corpus Jornal Corpus Teses Redes Neurais Corpus Jornal Corpus Teses Conclusões e Trabalhos Futuros Sobre o Trabalho Realizado Sobre o Trabalho que Pode ser Realizado viii

9 ĺndice de Figuras: Figura 1-1 Categorização Automática de Documentos de Textos (CADT)... 3 Figura 1-2 Etapas da Categorização Automática de Documentos de Textos... 4 Figura 1-3 Proposta de Trabalho e Abordagens... 6 Figura Modelo de um Neurônio Artificial Figura Rede MLP do tipo feedforward com uma camada oculta Figura Marcação do analisador sintático PALAVRAS Figura Arquivo WORDS Figura Arquivo CHUNKS Figura Arquivo POS Figura Relação termo-documento com categorias predefinidas Figura Processo de extração das categorias gramaticais Figura Ensemble de Classificadores Especialistas ix

10 1. Introdução Diante da grande quantidade de informação textual existente atualmente em formato eletrônico, tanto na Internet (informações em geral, mensagens de correio, etc) como nas empresas (relatórios, documentação, etc) e diante de seu crescimento diário cada vez maior, a pesquisa em documentos relevantes tem-se tornado uma tarefa difícil, consumidora de tempo e muitas vezes improdutiva diante do que se deseja obter, rapidez e objetividade na obtenção de determinada informação. O reconhecimento de padrões trata da classificação e da descrição dos objetos. O ser humano constantemente faz uso do reconhecimento de padrões ao reconhecer imagens, sons, etc. A leitura de um texto também é feita através de reconhecimento de padrões, pois através das palavras, frases, o texto é interpretado. O processamento da linguagem natural tem se mostrado uma tarefa difícil, pois ao contrário do ser humano que ao fazer uma leitura dispõe de outras informações (padrões) para compreender e classificar, a máquina tem acesso somente ao padrão textual obtido através de um conjunto de termos selecionados para representar um conceito desejado. A área da Recuperação da Informação (RI) (BAEZA & YATES,1999) tem sido foco de diversas pesquisas, buscando técnicas automatizadas capazes de organizar e pesquisar documentos textos em linguagem natural (não estruturados), de maneira a obter a partir da consulta de um usuário a informação desejada para fins diferenciados tais como bibliotecas, armazenamento e disponibilidade de informações para setores específicos, disseminação de informações, seleção de documentos, etc. Com a evolução da área da RI surgiu a Mineração de Textos (MT) ou Text Mining (TAN, 1999). Segundo Tan (1999), a área de MT trata da extração de padrões ou conhecimentos interessantes a partir de um conjunto de documentos textuais. Na área de MT, existem diversas abordagens técnicas para organização e extração da 1

11 informação, dentre elas, a Categorização Automática de Documentos de Textos (CADT). A CADT é uma técnica de Processamento da Linguagem Natural (Russel & Norvig, 1995), a qual através de diferentes técnicas de Aprendizado de Máquina aplicadas a distintas coleções de documentos, procura extrair padrões úteis para organizar e recuperar informação dos textos. O processo de categorização de textos ou classificação automática de documentos, foi desenvolvido com o intuito de suprir as necessidades de separar a informação em categorias de conhecimentos, de maneira a permitir a manipulação e a recuperação destes. Quanto mais complexo for o processo de categorização, mais difícil e demorado será o tratamento da informação, obrigando a combinação de técnicas de análise de linguagem natural, recuperação de informação e métodos de análise de dados qualitativos. Atualmente a categorização automática de textos é de grande importância em áreas como, o tratamento e organização da informação de grandes organizações, a triagem e classificação de correio eletrônico, categorização de páginas da Web, etc. Através da técnica CADT, é possível reduzir o foco da pesquisa de interesse dentro do grande volume de informações disponíveis, já que selecionar documentos dentro de uma base já pré-estabelecida é muito menos dispendioso (YANG & PEDERSON, 1997). Em linhas gerais, a CADT é uma técnica utilizada para classificar um conjunto de documentos em uma ou mais categorias pré-definidas.(figura 1-1) 2

12 Figura 1-1 Categorização Automática de Documentos de Textos (CADT) A tarefa de categorização de textos pode ser dividida em cinco etapas principais (Figura 1-2): - Definição da Coleção de Documentos a serem classificados; - Pré-processamento: consiste de um conjunto de ações para transformar a informação em linguagem não-estruturada (textos), em um conjunto de informações passíveis de serem entendidas para a extração do conhecimento. - Seleção de características: consiste na seleção das palavras (termos) que melhor representem cada documento, fazendo uso de cálculos, técnicas ou métodos que melhor se apliquem à extração da informação; - Classificação: consiste em determinar a que classe pertence cada documento, aplicando-se diferentes técnicas de aprendizado de máquina que realizem o reconhecimento de padrões; - Interpretação dos Resultados. 3

13 Figura 1-2 Etapas da Categorização Automática de Documentos de Textos Este trabalho propõe uma abordagem do problema de reconhecimento de padrões textuais aplicada ao processo de categorização automática de documentos. Pretende-se avaliar a classificação automática de textos em português fazendo uso de informações lingüísticas para extração de termos, utilizando dois diferentes conjuntos 4

14 de documentos (corpora), dos quais um utiliza uma linguagem próxima do cotidiano (textos de jornal) e outro utiliza uma linguagem técnica-científica (textos de dissertações de mestrado e teses de doutorado). Através de diferentes técnicas aplicadas ao cálculo de relevância dos termos, como escore de relevância e coeficiente de correlação, e diferentes métodos utilizados para a categorização, como o classificador Naïve Bayes e as Redes Neurais Artificiais do tipo Multi-layer Perceptron (MLP), será feita uma comparação dos resultados e avaliação da abordagem proposta. Corpora utilizados: um é formado por textos do jornal Folha de São Paulo elaborados pelo NILC (Núcleo Interinstitucional de Lingüística Computacional) contendo 855 documentos de textos correspondentes às categorias esportes, imóveis, informática, política e turismo; o outro conjunto é formado por textos compostos por títulos e resumos das dissertações de mestrado e teses de doutorado da Engenharia Elétrica - COPPE/UFRJ contendo 475 textos correspondentes às categorias controle, microeletrônica, processamento de sinais, redes de computadores e sistemas de potência. A Figura 1-3 mostra uma representação da proposta de trabalho com suas diferentes abordagens. 5

15 Figura 1-3 Proposta de Trabalho e Abordagens Este trabalho está organizado em sete capítulos cujo conteúdo é relacionado a seguir. O capítulo um apresenta uma breve introdução definindo o objetivo e a estrutura do trabalho em si. O capítulo dois fornece uma introdução ao classificador Naïve Bayes. O capítulo três apresenta uma introdução às redes neurais artificiais com ênfase nas Redes Perceptron de múltiplas camadas (Multi-Layer Perceptron ou MLP). O capítulo quatro descreve o processo de seleção de características, como o pré-processamento dos textos para extração das características, o modelo de 6

16 representação dos documentos, os cálculos de relevância utilizados e a seleção dos termos mais relevantes. No capítulo cinco são descritos os corpora, as ferramentas utilizadas para a representação dos textos e para a classificação, a implementação computacional destes processos e os experimentos realizados. O capítulo seis apresenta os resultados obtidos. O capítulo sete apresenta as conclusões e sugestões de trabalhos futuros. 7

17 2. Classificador Naïve Bayes 2.1. Introdução O classificador Naïve Bayes é baseado no teorema de Bayes e é um dos classificadores mais usados em categorização de textos (McCALLUM, NIGAM, 1998). É um algoritmo para o aprendizado indutivo com abordagem probabilística. É simples, rápido e de fácil implementação. Baseado na probabilidade condicional de determinadas palavras aparecerem em um documento o qual pertence a uma determinada categoria, esta técnica permite calcular as probabilidades de um novo documento pertencer a cada uma das categorias e atribuir a este as categorias de maior probabilidade (LEWIS, RINGUETTE, 1994) Conceitos Básicos O classificador Bayesiano é uma simplificação funcional do classificador ideal Bayesiano. Chamado Naïve por assumir que os atributos são condicionalmente independentes, este classificador assume que existe independência entre as palavras de um texto, ou seja, o método classifica palavras assumindo que a probabilidade de sua ocorrência independe da posição no texto. Apesar desta consideração ser vista como não representativa da realidade, segundo Domingos & Pazzani (1997) a suposição de independência de palavras na maioria dos casos não prejudica a eficiência do classificador. Cada um dos documentos do conjunto de treinamento é descrito por atributos que indicam a presença ou ausência dos termos <a 1, a 2,...,a n > e o classificador deverá atribuir a cada um dos documentos a categoria mais provável, por meio de uma função f que devolve valores (categorias) pertencentes a um conjunto finito V. O classificador Bayesiano se baseia na suposição simplificada de que vários atributos dos documentos de entrada são condicionalmente independentes, dado o 8

18 valor final da função f de saída. Isto é, este classificador considera que a probabilidade de ocorrência de uma conjunção de atributos em um dado exemplo é igual ao produtório das probabilidades de ocorrência de cada atributo isoladamente: V MAP = argmax P( a1, a2,..., an v j ). P( v j ) (2.2-1) vj V Como os atributos são condicionalmente independentes, dado v, ou seja, as (a 1, a 2,..., na) são independentes. P( a, a2,..., a Onde: v ) = P( a v ) (2.2-2) 1 n j i j i P a, a,..., a n v ) é a probabilidade de ocorrência do conjunto de evidências ( 1 2 j dada a ocorrência da hipótese (categoria) Assim o classificador Bayesiano Ingênuo (Naïve Bayes - NB): V NB = argmax P( v vj V j ) i P( a i v j ) (2.2-3) Onde: V NB é a categoria atribuída ao documento; v j é cada um dos possíveis valores (categorias) pertencentes a V; P ( v j ) é a probabilidade inicial da ocorrência de cada hipótese; P a i v ) é a probabilidade de ocorrência de cada evidência dada à ( j ocorrência de uma hipótese (categoria). 9

19 Sendo assim, considerando que um documento D seja formado por um conjunto de termos t 1 à t n, a equação fornece P ( D ) C i P n ( D C i ) = P ( t j C i ) Onde: (2.2-4) j = 1 P ( t j C i ) é a probabilidade do termo t j dada uma categoria C i Modelos Dentre os modelos estatísticos existentes para os classificadores Naïve Bayes, tem-se o modelo binário que representa um documento como um vetor binário de palavras considerando apenas a ocorrência das palavras no texto e o modelo multinomial, utilizado nessa dissertação, que representa um documento como um vetor de freqüências das palavras no texto. McCallum & Nigam (1998) realizaram experimentos comparando o modelo binário com o modelo multinomial e verificaram que o modelo multinomial apresenta melhores resultados. 10

20 3. Redes Neurais 3.1. Introdução O sistema nervoso é formado por um conjunto extremamente complexo de células, os neurônios. Eles têm um papel essencial na determinação do funcionamento e comportamento do corpo humano e do raciocínio. Os neurônios são formados pelos dendritos, que são um conjunto de ramificações de entrada, pelo corpo central, e pelos axônios que são as ramificações de saída. O potencial do axônio de um neurônio pode se propagar para outro através da existência de um ponto de contacto do seu axônio com um dendrito deste segundo neurônio. Este ponto de contacto é denominado conexão sináptica, ou simplesmente sinapse. As sinapses são unidades estruturais e funcionais elementares que permitem as interações entre neurônios (HAYKIN, 2001). As redes neurais artificiais são projetadas para simular a estrutura e funcionamento do cérebro humano. São sistemas de processamento de informação intrinsecamente paralelos e distribuídos, constituídos de unidades elementares denominadas neurônios, que têm a capacidade para armazenar conhecimentos experimentais e disponibilizá-los para uso. Possuem habilidade de aprender e generalizar (HAYKIN, 2001) Conceitos Básicos Em uma rede neural, o processamento é feito através da interação de neurônios, também chamados de unidades de processamento ou simplesmente unidades (RUMELHART et al, 1986), que são em geral baseadas no modelo proposto por McCulloch & Pitts para o neurônio humano. De maneira geral, um conjunto de entradas são aplicadas ao neurônio, que responde com uma saída. Cada entrada tem uma influência própria na saída, ou seja, cada entrada tem seu próprio peso na saída. 11

21 A conexão de diversos neurônios, organizados em uma ou mais camadas, constitui uma rede neural artificial. A rede neural artificial, também chamada apenas de rede neural, se assemelha ao cérebro humano em dois aspectos: (HAYKIN, 2001) - o conhecimento é adquirido pela rede através de um processo de aprendizagem; - as conexões entre os neurônios, conhecidas como pesos sinápticos, são utilizadas para armazenar o conhecimento adquirido. O neurônio é a unidade de processamento da rede. Cada neurônio gera uma saída a partir da combinação de sinais de entrada recebidos de outros neurônios com os quais está conectado ou a partir de sinais externos. Cada conexão entre dois neurônios possui um peso e estes pesos guardam o conhecimento da rede. A saída de um neurônio é na maior parte dos modelos, o resultado de uma função de ativação aplicada à soma ponderada de suas entradas. Ajustando-se os pesos a rede neural assimila padrões e é capaz de fazer generalizações, produzindo saídas consistentes para entradas não apresentadas anteriormente a rede.(correa, 2002) Neurônios que desempenham função semelhante fazem parte de uma mesma camada. As camadas de uma rede neural podem ser classificadas como entrada, saída ou intermediária. A camada de entrada recebe informações do meio ambiente (documentos). Esta camada apenas propaga esta entrada para a camada seguinte sem nenhuma transformação. A camada de saída transmite a saída para o mundo externo, ou seja, a resposta da rede neural desejada (categoria do documento processado). As camadas intermediárias são as camadas que interligam outras camadas da rede neural, recebendo como entrada as saídas de outra camada e gerando saídas como entradas para outras camadas. Algumas redes não possuem camadas intermediárias e por isso são chamadas de redes de camadas simples. 12

22 3.3. Processo de Aprendizagem Um dos fatores preponderantes para se fazer uso de uma rede neural, é devido a sua capacidade de aprender com seu ambiente e com isso obter melhor performance. Isso é feito com o treinamento caracterizado por um processo iterativo de ajustes aplicados a seus pesos. Essa aprendizagem é executada a partir de um conjunto de regras definidas para a solução de um problema de aprendizado, chamado de algoritmo de aprendizado ou de treinamento. Existem diferentes tipos de algoritmos de aprendizado específicos para determinados modelos de redes neurais, os quais diferem entre si principalmente pela maneira como os pesos são modificados. (BRAGA, CARVALHO, LUDERMIR, 2000) O processo de aprendizagem de uma rede neural é caracterizado pela atualização dos valores dos pesos sinápticos de uma rede neural de maneira a obter da rede um padrão de processamento desejado. Nesse contexto existem os seguintes processos de aprendizagem: - Aprendizado Supervisionado: o processamento desejado para a rede é especificado através de um conjunto de pares ordenados formado por algumas entradas para a rede e as respectivas saídas desejadas. Durante o processo de aprendizagem, é feita uma comparação entre o valor desejado e o valor de saída da rede gerando um erro, o qual é utilizado para ajustar os pesos da rede. Quando este erro é reduzido a valores considerados aceitáveis para o padrão de processamento desejado, é dito que a aprendizagem foi conseguida. - Aprendizado Não Supervisionado: modelos de redes neurais que possuem capacidade de auto-organização e conseguem produzir saídas satisfatórias a partir dos dados de entrada somente, sem que sejam fornecidas as saídas para estes dados de entrada. A aprendizagem é feita pela descoberta de similaridades nos dados de entrada. 13

23 3.4. Redes Multilayer Perceptron (MLP) As redes MLP, também chamadas de perceptrons de múltiplas camadas são do tipo feedforward e é muito comum serem utilizadas em problemas de classificação. Nestas redes, o sinal de saída de cada neurônio é o resultado da aplicação da função de ativação sobre a soma ponderada dos sinais de entrada. O modelo de um neurônio artificial é apresentado na figura Figura Modelo de um Neurônio Artificial As redes de uma só camada (perceptron simples) são utilizadas para classificação de padrões que sejam linearmente separáveis. Para classificação de padrões não linearmente separáveis são utilizadas redes MLP. São do tipo feedforward, o fluxo de dados ocorre da camada de entrada para a camada de saída. Possuem uma ou mais camada ocultas, onde as entradas das unidades das camadas mais elevadas conectam-se com as saídas das unidades da camada imediatamente inferior. Uma rede MLP típica, com uma camada intermediária (oculta) pode ser vista na figura

24 Figura Rede MLP do tipo feedforward com uma camada oculta Para calcular os pesos adequados a rede a partir de ocorrências do tipo entrada - saída desejada, é necessária uma regra de treinamento. O algoritmo de retropropagação de erro (também chamado de algoritmo de backpropagation) é o mais comumente utilizado dentro dos algoritmos de aprendizagem supervisionada, para treinamento destas redes, pois tem obtido bons resultados quando aplicadas na solução de diversos problemas difíceis (MITCHELL, 1997). A aprendizagem por retropropagação de erro consiste de dois passos através das diferentes camadas de rede: (HAYKIN, 2001) - passo para frente (propagação) onde um padrão de atividade (vetor de entrada) é aplicado aos neurônios da rede e seu efeito se propaga através da rede, camada por camada. Um conjunto de saídas é produzido como resposta da rede. Durante o passo de propagação, os pesos sinápticos da rede são todos fixos. - passo para trás (retropropagação) - durante o passo para trás, os pesos sinápticos são todos ajustados de acordo com uma regra de correção de erro, ou seja, a resposta real da rede é subtraída de uma resposta desejada para produzir um sinal 15

25 de erro. Este sinal de erro é então propagado para trás através da rede, contra a direção das conexões sinápticas. Os pesos sinápticos são ajustados para fazer com que a resposta real da rede se mova para mais perto da resposta desejada, em um sentido estatístico. Este algoritmo se baseia na regra de aprendizagem por correção de erro e procura minimizar o erro obtido pela saída da rede através do ajuste de pesos. As redes MLP possuem boa capacidade de generalização, classificando corretamente padrões não utilizados no treinamento ou com ruído. (BRAGA, CARVALHO, LUDERMIR, 2000). 16

26 4. Seleção de Características Segundo Jackson e Moulinier (2002), considerando a problemática geral do processamento informacional da linguagem natural (PLN), em meados da década de 1990 começaram a serem introduzidas sofisticadas abordagens estatísticas no processamento da linguagem natural, trabalhando-se com enormes quantidades de dados lingüísticos, oriundos, por exemplo, de acervos de agências de notícias e páginas da Web. Diante disso, observam uma tendência para o desenvolvimento de programas capazes de executar automaticamente tarefas múltiplas, como por exemplo: selecionar documentos de uma base com enfoque no seu conteúdo, agrupálos em categorias ou classes e deles extrair determinados conjuntos de informações. Segundo Moens (2000): o homem executa a categorização de texto lendo o texto e deduzindo as classes de expressões específicas e seus padrões de contexto. A CADT simula este processo e reconhece os padrões de classificação como uma combinação de características de texto. Estes padrões devem ser gerais o bastante para ter grande aplicabilidade, mas específicos o suficiente para serem seguros quanto à categorização de uma grande quantidade de textos. Um conjunto de documentos de textos pode ser representado por um grande número de atributos ou características. Considerando um grande conjunto de atributos, a criação do modelo classificador pode ser prejudicada pelo fato de existirem atributos irrelevantes ou redundantes a uma determinada classificação, conseqüentemente a classificação de novas instâncias será prejudicada. A seleção de características é o processo de identificação do subconjunto mais representativo, relevante e efetivo dos atributos disponíveis para descrever cada padrão. Basicamente o que a seleção de características faz é reduzir o conjunto de palavras utilizado para representar um documento no processo de classificação. Diferentes etapas são utilizadas para selecionar as palavras que representarão os documentos a serem classificados. 17

27 Como por exemplo: - remoção de palavras que não teriam significado para o processo de classificação, como as stopwords (preposições, artigos, etc), pois são palavras que se repetem em quase todos os documentos e portanto não são significativas para distinguir cada documento em um processo de classificação; - formatação dos textos de maneira a obter uma representação estruturada; - cálculo de relevância para identificar os termos mais significativos; - redução da dimensionalidade através da seleção dos termos mais relevantes, etc. Neste trabalho as etapas para tratamento e preparação dos textos podem ser vistas a seguir. 4.1 Pré-processamento Arquivos textos possuem algumas características difíceis de serem trabalhadas, pois apresentam pouca ou nenhuma estruturação, dificultando o uso de técnicas já conhecidas, e muitas vezes o tamanho do documento compreende milhares de palavras ou termos, tornando o trabalho exaustivo e lento. O pré-processamento é uma etapa de grande importância na CADT e trabalhosa, pois compreende diversas etapas para transformar o conjunto de documentos em linguagem natural em uma lista de termos úteis e em um formato compatível para a extração do conhecimento. (SILVA, 2004) A maneira como os documentos são representados e identificados envolve a verificação dos conteúdos, que podem ser analisados automaticamente através de frases e/ou termos que o documento contém. (CORREA, 2002) Esta análise pode ser realizada através de duas abordagens (RIZZI, 2000): 18

28 - abordagem estatística aplicando-se métodos que incluem seleção e contagem dos termos nos documentos. Neste caso, o termo é o meio de acesso ao documento, e a maneira pela qual eles são identificados e diferenciados. - abordagem lingüística aplicando-se métodos semânticos e sintáticos nos textos dos documentos; O pré-processamento mais comumente utilizado trata da análise léxica (eliminação de dígitos, sinais de pontuação, transformação de maiúscula em minúscula, isolamento dos termos), remoção de termos irrelevantes ou stopwords (preposição, artigos, conjunções, etc) (KORFHAGE, 1997; KOWALSKI, 1997; SALTON, 1983), stemming ou normalização morfológica dos termos (remoção de afixos e sufixos reduzindo a palavra a seu radical) e seleção dos termos. Neste trabalho, ao invés das etapas apresentadas acima, pretende-se realizar o pré-processamento fazendo uso de informações lingüísticas para extração das informações pertinentes, ou seja, os termos são extraídos baseados em suas categorias sintáticas e posteriormente são feitas combinações gramaticais que serão utilizadas no processo de classificação como pode ser visto a seguir Pré-processamento Lingüístico Para a extração do conhecimento lingüístico, é necessário fazer a análise sintática dos textos e extrair as informações a partir dela. O pré-processamento lingüístico é composto dos seguintes passos: - Análise sintática; - Extração das categorias gramaticais. 19

29 Análise Sintática A sintaxe estuda as regras que governam a formação das frases de uma determinada língua. Estas regras podem ser usadas para a determinação da estrutura sintática das frases geradas. Uma frase é formada por constituintes (e.g., Sintagma Nominal, Sintagma Verbal, etc), que, por sua vez, são compostos por constituintes de ordem inferior (e.g., Sintagma Preposicional, Sintagma Adverbial, etc), até se chegar às categorias básicas (e.g., substantivo, verbo, etc). Regras sintáticas determinam a ordem linear dos constituintes na frase, com base na sua categoria sintática. Nas estruturas frasais observa-se uma hierarquia: Sentença (frase), constituintes (componentes sintáticos ou sintagmas), itens lexicais (palavras). O sintagma é a unidade da análise sintática composta de um núcleo (e.g., um verbo, um nome, um adjetivo, etc) e de outros termos que a ele se unem, formando uma locução que entrará na formação. O nome do sintagma depende da classe da palavra que forma seu núcleo, havendo assim sintagma nominal (núcleo substantivo), sintagma verbal (núcleo verbo), sintagma adjetival (núcleo adjetivo), sintagma adverbial (núcleo advérbio), sintagma preposicional (núcleo preposição) (SILVA, 2004). A determinação da estrutura sintática das frases é vista como uma etapa central na interpretação de linguagem natural, a partir da qual a frase de entrada pode ser formalmente analisada. Através da técnica de parsing é possível determinar a estrutura sintática da frase sob análise. Um parser é um algoritmo que mapeia uma frase na sua estrutura sintática. Neste trabalho, foi utilizado o parser PALAVRAS. Ele trabalha no nível do sintagma, tentando validar o agrupamento de termos que compõe as frases. 20

30 O analisador sintático PALAVRAS, desenvolvido para o português por Bick (BICK, 2000), faz parte de um grupo de parsers, do projeto Visual Interactive Syntax Learning do Institute of Language and Communication da University of Southern Denmark. Este analisador gera anotação lingüística para textos em língua portuguesa. Através dele, é possível fazer a análise sintática de uma sentença ou de um conjunto de sentenças (textos em linguagem natural). Ele recebe como entrada uma sentença e gera a análise sintática da mesma como pode ser visto a seguir na figura A figura mostra a marcação sintática do parser para a sentença Crianças correm em verdes campos. submetida ao PALAVRAS. Figura Marcação do analisador sintático PALAVRAS No exemplo acima verifica-se as seguintes etiquetas morfossintáticas: SUBJ = sujeito; P = predicado; pp = sintagma preposicional; np = sintagma nominal; v*fin = verbo flexionado; n = substantivo; prp = preposição; adj = adjetivo; entre parênteses tem-se a forma canônica da palavra e fora dos parênteses a palavra como aparece no documento. Com base nas marcações do analisador sintático, um conjunto de programas denominado XTRACTOR foi desenvolvido em cooperação com a Universidade de 21

31 Évora. A ferramenta XTRACTOR (GASPERIN, 2003) engloba a análise do corpus por meio do PALAVRAS, e converte a saída do analisador sintático em três arquivos XML(eXtensible Markup Language). XML é uma linguagem de marcação que tem sido utilizada em diversas áreas e aplicações. Em processamento de linguagem natural, essa linguagem é utilizada para agregar aos textos anotações com informações lingüísticas de uma maneira organizada e padronizada (BUITELAAR, 2003) (VILELA, 2005). Dos arquivos gerados em XML, um contém a lista de palavras do texto e seus identificadores (arquivo WORDS figura ), outro contém a estrutura das sentenças (arquivo CHUNKS figura ) e o outro contém as informações morfossintáticas do texto (arquivo POS part of speech figura ) de interesse para este trabalho. A figura mostra o arquivo WORDS com a lista de palavras e seus identificadores (único para cada termo do texto), gerado a partir da sentença Crianças correm em verdes campos. Figura Arquivo WORDS A figura mostra o arquivo CHUNKS, que consiste das estruturas e subestruturas sintáticas das sentenças. Um chunk representa a estrutura interna da sentença. 22

32 Figura Arquivo CHUNKS A figura mostra o arquivo POS (Part of Speech) que apresenta as informações morfossintáticas das palavras do texto, onde: o elemento n = substantivo; v = verbo, prp = preposição, adj = adjetivo. A palavra do texto é apresentada em sua forma canônica classificada em gênero e número. 23

33 Figura Arquivo POS Através do arquivo POS gerado em XML, é possível extrair as categorias gramaticais dos textos analisados Extração das Categorias Gramaticais A extração das categorias gramaticais é feita através de folhas de estilo XSL (extensible Stylesheet Language) aplicadas ao arquivo POS gerado em XML. XSL é um conjunto de instruções destinadas à visualização de documentos XML, sendo possível transformar um documento XML em diversos formatos como por exemplo HTML, RTF e TXT. A linguagem XSL auxilia a identificação dos elementos de um documento XML, permitindo a simplificação do processamento de transformação desses elementos em outros formatos de apresentação. Uma folha de estilos é composta por um conjunto de regras (chamado templates) ativado no processamento de um documento XML. 24

34 Utilizando-se folhas de estilo, as categorias gramaticais são extraídas e portanto os termos correspondentes ao documento. Neste trabalho foram implementadas folhas de estilo para extração das categorias gramaticais: substantivo; substantivo e adjetivo; substantivo e verbo; substantivo e nome próprio; substantivo, nome próprio e adjetivo; substantivo, verbo e adjetivo. Extraídos os termos dos documentos, faz-se necessário representar a coleção de documentos em um formato estruturado e compacto de maneira a atender as necessidades de processamento, utilizando os chamados termos de indexação Representação dos Documentos O objetivo principal de um modelo de representação de documentos, é a obtenção de uma descrição adequada da semântica do texto, de uma forma que permita a execução correta da tarefa alvo, de acordo com as necessidades do usuário (GEAN e KAESTNER, 2004). Diversos modelos foram desenvolvidos para a representação de grandes coleções de textos que identificam documentos sobre temas específicos. Um dos modelos utilizados, devido a sua simplicidade e a rapidez com que as operações com vetores são realizadas, é o modelo de espaço vetorial. Segundo von Wangenheim (2006), a capacidade de um sistema de realizar o reconhecimento de padrões de forma flexível e adaptável está intimamente associada à idéia de que um sistema de reconhecimento de padrões deve ser capaz de aprender as características e a distribuição dos padrões no espaço vetorial definido por um determinado domínio de aplicação. Isso implica que o sistema seja conseqüentemente capaz de aprender como associar um determinado padrão à classe à qual pertence (WANGENHEIM, 2006). 25

35 De acordo com o modelo vetorial de Salton (1975), cada documento é representado por um vetor no espaço T-dimensional, onde T é o número de diferentes termos presentes na coleção. Os valores das coordenadas do vetor que representa o documento estão associados aos termos, e usualmente são obtidos a partir de uma função relacionada à freqüência dos termos no documento e na coleção. A figura apresenta a relação termo-documento com categorias predefinidas, utilizando este modelo de representação. Figura Relação termo-documento com categorias predefinidas Onde: - d 1 a d D são documentos da coleção; - t 1 a t T são os termos; - c 1 a c C são as categorias predefinidas; - w 11 a w D T são os pesos dos termos. Segundo este modelo, os termos se tornam dimensões e os valores informam a relevância (peso) dos termos. Assim, neste modelo os documentos são representados por vetores e cada índice corresponde a uma palavra (SALTON, 1988). Um peso é associado a cada palavra para descrever sua relevância no documento. Estas associações de pesos aos termos de indexação funcionam como um grau de similaridade entre os vetores documentos, e entre os vetores documentos e os vetores 26

36 representativos das categorias. A similaridade entre dois vetores é obtida aplicandose o produto interno dividido pelo produto das normas entre esses dois vetores. Cada categoria pode ser representada como um conjunto de vetores resultantes do somatório dos documentos pertencentes aos respectivos subconjuntos delas. Não havendo variância muito grande entre os documentos de uma categoria, apenas um vetor resultante do somatório de todos os documentos a ela pertencentes pode ser utilizado para representá-la. Em um conjunto de textos, se uma palavra aparece em grande parte deles, não é um bom termo de indexação, porém se esta aparece em alguns poucos, já é significativa para a representação da coleção. Portanto, existem palavras que são mais significativas do que outras, daí a necessidade de se atribuir pesos aos termos (palavras) como medida de relevância dos mesmos para o documento (CORREA,2002). 4.2 Cálculo de Relevância Concluído o pré-processamento, estabelecidos os termos da coleção e o modelo de representação dos documentos, é necessário definir o conjunto de termos que melhor representem o assunto a ser categorizado através de uma indexação automática. Este conjunto deve ser estabelecido através de um cálculo de representatividade dos termos, ou seja, estes termos devem ter associados a eles, valores que quantificam sua representatividade na coleção de documentos através de um cálculo de relevância. Dentre as técnicas existentes para execução desta tarefa, a medida mais comumente usada é o tf-idf que é a freqüência do termo no documento multiplicada pelo inverso da freqüência deste termo na coleção. Neste trabalho foram utilizados o Escore de Relevância (ER) e o Coeficiente de Correlação (CC). 27

37 Escore de Relevância O escore de relevância foi proposto e aplicado inicialmente no estudo de Wiener, Pederson e Weigend (1995) com base no peso de relevância de Salton e Buckley (1983). Nos estudos de Salton e Buckley (1983), ele calculou a freqüência de cada termo no documento. Posteriormente, calculou a freqüência do termo dentro do documento e da coleção, chegando ao cálculo da freqüência inversa de documentos. Ao verificar que termos com alto grau de representatividade de conteúdo possuem alta freqüência no documento e baixa freqüência na coleção, ele definiu a técnica do cálculo do peso de relevância do termo. Segundo Salton e Buckley (1983), a indexação de textos feita a partir de termos com pesos associados, alcança melhores resultados pois o peso determina o grau de importância do termo dentro do documento. Baseado neste estudo Wiener propôs o escore de relevância. O escore de relevância se baseia na freqüência dos termos em uma dada categoria e também nas outras categorias da coleção. A partir destes dados é calculada a relevância do termo para uma dada categoria. Termos que aparecem em muitas categorias obtêm valores baixos, por serem pouco discriminantes, enquanto que termos que aparecem em poucas categorias ficam com valores muito altos, podendo então representar a categoria. O Escore de Relevância do termo t é definido por: w ct 1 + dc 6 r t = log ( ) w ct 1 + d 6 c 28

38 Onde: - w ct é o número de documentos pertencentes a uma dada categoria (c) que contém o termo t ; - d c é o número total de documentos da categoria considerada (c); - - w é o número de documentos de outras categorias que contém o termo t; ct d é o número total de documentos de outras categorias. c A constante 1/6 aparece na fórmula para eliminar o problema da divisão por zero (caso em que o termo só apareça na categoria considerada e não apareça nas outras categorias) Coeficiente de Correlação O coeficiente de correlação foi desenvolvido por Ng et al. (1997) para indicar o grau de correlação entre uma palavra e um documento. Ele leva em conta a quantidade total de documentos de uma coleção, a quantidade de documentos em que a palavra aparece e a quantidade de documentos em que ela não aparece. O Coeficiente de Correlação entre o termo t e a classe c é definido por: ( Nr + xnn Nr xnn+ ) x N ( N + N ) x( N + N ) x( N + N ) x( N + N ) C ( t, c) = ( ) r + r n+ n r + n+ r n Onde: - Nr+ é o número de documentos relevantes para C j que contém o termo t; - Nr _ é o número de documentos relevantes para C j que não contém o termo t; 29

39 - Nn+ é o número de documentos não relevantes para C j que contém o termo t; - Nn _ é o número de documentos não relevantes para C j que não contém o termo t. Esta medida corresponde à raiz quadrada do valor obtido pela métrica do Quiquadrado (mede estatisticamente o grau de independência entre o termo e a categoria). O coeficiente de correlação é maior para as palavras que indicam a pertinência de um documento à categoria C j enquanto a métrica do Qui-quadrado gera valores maiores não só para este conjunto de palavras mas também para aquelas que indicam a não pertinência à C j. 4.3 Seleção de Atributos Estabelecidos os termos dos documentos e seus respectivos valores estabelecidos através do cálculo de relevância, faz-se necessário eliminar os termos não representativos e reduzir a dimensionalidade, já que, utilizar todos os termos, além de poder ser inviável computacionalmente, pode também ser um fator de comprometimento da classificação. Cabe salientar também, que o tempo de processamento é proporcional à quantidade de termos utilizados. Diferentes métodos são utilizados com o intuito de reduzir a quantidade de termos representativos e não perder a qualidade de representatividade, como seleção por peso do termo, seleção por linguagem natural, etc. Neste trabalho foi utilizada a técnica seleção por peso do termo, também chamada de truncagem, que tem por objetivo selecionar os termos mais relevantes para representar um documento e eliminar o restante. Através da truncagem é possível reduzir a dimensionalidade de maneira a otimizar a performance do classificador e obter um desempenho satisfatório. Esta é uma técnica bastante utilizada por obter bons resultados. 30

40 Esta técnica consiste em ordenar os termos por um grau de relevância e os de maior grau são selecionados para a classificação. 31

41 5. A Classificação Através do reconhecimento de padrões é possível classificar. Segundo Wangenheim (2006), o aprendizado de máquina em reconhecimento de padrões é um método que permite organizar uma seqüência de padrões P 1, P 2,..., P n em vários conjuntos de padrões CP 1, CP 2,..., CP k denominados classes, de tal forma que os padrões organizados em cada conjunto são similares entre si e dissimilares dos padrões armazenados nos outros conjuntos. Neste capítulo serão descritas as coleções (corpora) utilizadas, as metodologias, técnicas e ferramentas utilizadas para o preparo dos textos de forma a apresentá-los a classificação, assim como a metodologia utilizada na concepção, treinamento e avaliação dos classificadores utilizados Base de Dados Textuais Dois corpora denominados corpus Jornal e corpus Teses, foram utilizados para a classificação: - Corpus Jornal é um conjunto de textos elaborado pelo Núcleo Interinstitucional de Lingüística Computacional (NILC), composto por 855 textos de artigos jornalísticos do ano de 1994 do jornal Folha de São Paulo divididos em cinco categorias, cada uma com 171 textos. As categorias são: esportes, imóveis, informática, política e turismo. - Corpus Teses é um conjunto de textos compostos por título e resumo, das dissertações de mestrado e teses de doutorado da Engenharia Elétrica da COPPE/UFRJ, composto por 475 textos divididos em cinco categorias, cada uma com 95 textos. As categorias são: controle, microeletrônica, processamento de sinais, redes e sistemas de potência. 32

42 5.2. Preparação dos Documentos Os corpora foram submetidos ao analisador sintático PALAVRAS para obtenção da análise sintática das sentenças. Em seguida, as marcações obtidas pelo parser são submetidas à ferramenta XTRACTOR para geração dos arquivos em XML. Aplicando-se folhas de estilo XSL aos arquivos XML gerados, foram obtidas as categorias gramaticais e foram feitas as seguintes combinações de categorias gramaticais: substantivo, substantivo+nome próprio, substantivo+adjetivo, substantivo+verbo, substantivo+nome próprio+adjetivo, substantivo+verbo+adjetivo de cada texto. Este processo pode ser visto na figura Figura Processo de extração das categorias gramaticais As tabelas e mostram o número de termos dos corpora Jornal e Teses, após a extração das categorias gramaticais. 33

43 A tabela mostra o número de termos da coleção referente ao corpus Jornal. Tabela Corpus Jornal e o número de termos da coleção A Tabela mostra o número de termos da coleção referente ao corpus Teses. 34

44 Tabela Corpus Teses e o número de termos da coleção Para a classificação, é necessário estabelecer um conjunto para treino e um conjunto para teste. Na tentativa de averiguar a robustez dos resultados e obter uma representação mais realista dos conjuntos de treino e teste, evitando resultados específicos a um determinado conjunto escolhido aleatoriamente, foi utilizado o 3-fold cross validation. Para cada categoria dos dois corpora, o conjunto de textos foi dividido em treino e teste, sendo 2/3 para treino e 1/3 para teste. Com relação ao corpus Jornal, os 855 documentos que fazem parte da coleção, foram divididos em cinco classes, sendo 171 documentos por classe. Os documentos de cada classe foram então, divididos em aproximadamente 2/3 para o conjunto de treino e 1/3 para o conjunto de testes. Com relação ao corpus Teses, os 475 documentos que fazem parte da coleção, foram divididos em cinco classes, sendo 95 documentos por classe. Os documentos de cada classes foram então, divididos em aproximadamente 2/3 para o conjunto de treino e 1/3 para o conjunto de testes. 35

45 5.3. Ferramentas Utilizadas Para o processamento dos textos foi utilizada a ferramenta WVTool, desenvolvida em Java por Michael Wurst e adaptada para o uso neste trabalho. Através desta ferramenta, é feita uma correspondência entre a lista de palavras (termos) e seus valores numéricos obtidos através dos cálculos de relevância (escore de relevância e coeficiente de correlação) aplicados aos documentos. A partir dos n termos mais relevantes, selecionados através do método de truncagem, são construídos os vetores locais de cada categoria. Unindo-se os vetores locais de cada categoria, é formado o vetor global. Este vetor global gerado vai servir de índice para os vetores de cada exemplo e as posições correspondentes representam a importância da mesma dentro do documento. Para a construção dos vetores locais foram selecionados os 6, 12, 18, 24, 30 termos mais relevantes de cada categoria, e através da junção dos vetores locais, são gerados respectivamente os vetores globais com 30, 60, 90, 120, e 150 termos. Estas posições já definem a entrada na ferramenta para classificação. Para a classificação foi utilizada a ferramenta WEKA (Waikato Environment for Knowledge Analysis) (WITTEN and FRANK, 2000). Esta ferramenta possui uma coleção de algoritmos de aprendizado de máquina para resolução de problemas de Data Mining, é implementada em Java (open source), suporta métodos de aprendizagem supervisionada e não supervisionada tais como, Árvores de decisão, Redes Neurais Artificiais, Naïve Bayes, Support Vector Machine, K-means, etc. A ferramenta lê os dados no formato ARFF (formato padrão de arquivo utilizado pela ferramenta). O ARFF consiste basicamente de duas partes: - Primeira parte: consiste de uma lista de todos os atributos definidos pelos tipos ou valores que ele pode representar; - Segunda parte: contém uma lista de todas as instâncias, onde os valores dos atributos são separados por vírgula. 36

46 5.4. Experimentos Neste trabalho utilizou-se para a classificação os classificadores Naïve Bayes e as Redes Neurais. Para o algoritmo Naïve Bayes, foi utilizado o modelo multinomial por apresentar melhores resultados na categorização de textos segundo McCallum & Nigam (1998) e Yang & Liu (1999). Para as Redes Neurais Artificiais foi utilizada a Rede MLP do tipo feedforward com algoritmo de backpropagation. Os parâmetros estabelecidos foram, 0.9 para o valor de momentum, 0.1 para taxa de aprendizado, a condição de parada foi 3000 épocas, o número de neurônios na camada intermediária foi variado entre 2, 4, 8 e 16 neurônios e o número de neurônios na camada de saída corresponde às classes referentes a cada corpus. Estes valores foram baseados nos estudos de SILVA (2004). Para avaliação foi levado em conta os valores referentes à média do percentual de erro obtido no resultado da classificação dos três conjuntos de teste. Após realizados os experimentos com os dois classificadores citados acima e os resultados analisados, foi feita uma pesquisa com o intuito de melhorar os resultados obtidos no processo de classificação. Para esta pesquisa foram utilizadas somente as combinações de categorias gramaticais que obtiveram os melhores resultados em cada corpus. Essa pesquisa foi elaborada utilizando-se um ensemble de classificadores. Para cada classificador convencional (Naïve Bayes e Redes Neurais) foi composto um conjunto de cinco classificadores denominados, neste trabalho, Naïve Bayes Especialistas e Redes Neurais Especialistas. As saídas de cada especialista são enviadas para um combinador que produzirá o resultado final, ou seja, a classe vencedora. A suposição é de que os erros sejam minimizados através do uso de múltiplos classificadores ao invés de um único classificador. 37

Complemento II Noções Introdutória em Redes Neurais

Complemento II Noções Introdutória em Redes Neurais Complemento II Noções Introdutória em Redes Neurais Esse documento é parte integrante do material fornecido pela WEB para a 2ª edição do livro Data Mining: Conceitos, técnicas, algoritmos, orientações

Leia mais

Figura 5.1.Modelo não linear de um neurônio j da camada k+1. Fonte: HAYKIN, 2001

Figura 5.1.Modelo não linear de um neurônio j da camada k+1. Fonte: HAYKIN, 2001 47 5 Redes Neurais O trabalho em redes neurais artificiais, usualmente denominadas redes neurais ou RNA, tem sido motivado desde o começo pelo reconhecimento de que o cérebro humano processa informações

Leia mais

Universidade Tecnológica Federal do Paraná UTFPR Programa de Pós-Graduação em Computação Aplicada Disciplina de Mineração de Dados

Universidade Tecnológica Federal do Paraná UTFPR Programa de Pós-Graduação em Computação Aplicada Disciplina de Mineração de Dados Universidade Tecnológica Federal do Paraná UTFPR Programa de Pós-Graduação em Computação Aplicada Disciplina de Mineração de Dados Prof. Celso Kaestner Poker Hand Data Set Aluno: Joyce Schaidt Versão:

Leia mais

UNIVERSIDADE FEDERAL DE SANTA CATARINA GRADUAÇÃO EM SISTEMAS DE INFORMAÇÃO DEPARTAMENTO DE INFORMÁTICA E ESTATÍSTICA DATA MINING EM VÍDEOS

UNIVERSIDADE FEDERAL DE SANTA CATARINA GRADUAÇÃO EM SISTEMAS DE INFORMAÇÃO DEPARTAMENTO DE INFORMÁTICA E ESTATÍSTICA DATA MINING EM VÍDEOS UNIVERSIDADE FEDERAL DE SANTA CATARINA GRADUAÇÃO EM SISTEMAS DE INFORMAÇÃO DEPARTAMENTO DE INFORMÁTICA E ESTATÍSTICA DATA MINING EM VÍDEOS VINICIUS DA SILVEIRA SEGALIN FLORIANÓPOLIS OUTUBRO/2013 Sumário

Leia mais

MINERAÇÃO DE DADOS APLICADA. Pedro Henrique Bragioni Las Casas pedro.lascasas@dcc.ufmg.br

MINERAÇÃO DE DADOS APLICADA. Pedro Henrique Bragioni Las Casas pedro.lascasas@dcc.ufmg.br MINERAÇÃO DE DADOS APLICADA Pedro Henrique Bragioni Las Casas pedro.lascasas@dcc.ufmg.br Processo Weka uma Ferramenta Livre para Data Mining O que é Weka? Weka é um Software livre do tipo open source para

Leia mais

3 Metodologia de Previsão de Padrões de Falha

3 Metodologia de Previsão de Padrões de Falha 3 Metodologia de Previsão de Padrões de Falha Antes da ocorrência de uma falha em um equipamento, ele entra em um regime de operação diferente do regime nominal, como descrito em [8-11]. Para detectar

Leia mais

Aprendizagem de Máquina

Aprendizagem de Máquina Aprendizagem de Máquina Professor: Rosalvo Ferreira de Oliveira Neto Disciplina: Inteligência Artificial Tópicos 1. Definições 2. Tipos de aprendizagem 3. Paradigmas de aprendizagem 4. Modos de aprendizagem

Leia mais

Redes Neurais. Profa. Flavia Cristina Bernardini

Redes Neurais. Profa. Flavia Cristina Bernardini Redes Neurais Profa. Flavia Cristina Bernardini Introdução Cérebro & Computador Modelos Cognitivos Diferentes Cérebro Computador Seqüência de Comandos Reconhecimento de Padrão Lento Rápido Rápido Lento

Leia mais

MLP (Multi Layer Perceptron)

MLP (Multi Layer Perceptron) MLP (Multi Layer Perceptron) André Tavares da Silva andre.silva@udesc.br Roteiro Rede neural com mais de uma camada Codificação de entradas e saídas Decorar x generalizar Perceptron Multi-Camada (MLP -

Leia mais

PALAVRAS-CHAVE: Massas Nodulares, Classificação de Padrões, Redes Multi- Layer Perceptron.

PALAVRAS-CHAVE: Massas Nodulares, Classificação de Padrões, Redes Multi- Layer Perceptron. 1024 UMA ABORDAGEM BASEADA EM REDES PERCEPTRON MULTICAMADAS PARA A CLASSIFICAÇÃO DE MASSAS NODULARES EM IMAGENS MAMOGRÁFICAS Luan de Oliveira Moreira¹; Matheus Giovanni Pires² 1. Bolsista PROBIC, Graduando

Leia mais

Redes Neurais. A IA clássica segue o paradigma da computação simbólica

Redes Neurais. A IA clássica segue o paradigma da computação simbólica Abordagens não simbólicas A IA clássica segue o paradigma da computação simbólica Redes Neurais As redes neurais deram origem a chamada IA conexionista, pertencendo também a grande área da Inteligência

Leia mais

XIII Encontro de Iniciação Científica IX Mostra de Pós-graduação 06 a 11 de outubro de 2008 BIODIVERSIDADE TECNOLOGIA DESENVOLVIMENTO

XIII Encontro de Iniciação Científica IX Mostra de Pós-graduação 06 a 11 de outubro de 2008 BIODIVERSIDADE TECNOLOGIA DESENVOLVIMENTO XIII Encontro de Iniciação Científica IX Mostra de Pós-graduação 06 a 11 de outubro de 2008 BIODIVERSIDADE TECNOLOGIA DESENVOLVIMENTO EPE0147 UTILIZAÇÃO DA MINERAÇÃO DE DADOS EM UMA AVALIAÇÃO INSTITUCIONAL

Leia mais

Projeto de Redes Neurais e MATLAB

Projeto de Redes Neurais e MATLAB Projeto de Redes Neurais e MATLAB Centro de Informática Universidade Federal de Pernambuco Sistemas Inteligentes IF684 Arley Ristar arrr2@cin.ufpe.br Thiago Miotto tma@cin.ufpe.br Baseado na apresentação

Leia mais

Organizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU

Organizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU Organizaçãoe Recuperaçãode Informação GSI521 Prof. Dr. Rodrigo Sanches Miani FACOM/UFU Aula anterior Organização e Recuperação de Informação(GSI521) Modelo vetorial- Definição Para o modelo vetorial, o

Leia mais

Diagrama de Classes. Um diagrama de classes descreve a visão estática do sistema em termos de classes e relacionamentos entre as classes.

Diagrama de Classes. Um diagrama de classes descreve a visão estática do sistema em termos de classes e relacionamentos entre as classes. 1 Diagrama de Classes Um diagrama de classes descreve a visão estática do sistema em termos de classes e relacionamentos entre as classes. Um dos objetivos do diagrama de classes é definir a base para

Leia mais

Modelos Pioneiros de Aprendizado

Modelos Pioneiros de Aprendizado Modelos Pioneiros de Aprendizado Conteúdo 1. Hebb... 2 2. Perceptron... 5 2.1. Perceptron Simples para Classificaçãod e Padrões... 6 2.2. Exemplo de Aplicação e Motivação Geométrica... 9 2.3. Perceptron

Leia mais

Organizaçãoe Recuperação de Informação GSI521. Prof. Rodrigo Sanches Miani FACOM/UFU

Organizaçãoe Recuperação de Informação GSI521. Prof. Rodrigo Sanches Miani FACOM/UFU Organizaçãoe Recuperação de Informação GSI521 Prof. Rodrigo Sanches Miani FACOM/UFU Introdução Organização e Recuperação de Informação(GSI521) Tópicos Recuperação de informação (RI); Breve histórico; O

Leia mais

Nathalie Portugal Vargas

Nathalie Portugal Vargas Nathalie Portugal Vargas 1 Introdução Trabalhos Relacionados Recuperação da Informação com redes ART1 Mineração de Dados com Redes SOM RNA na extração da Informação Filtragem de Informação com Redes Hopfield

Leia mais

Uso de Informações Lingüísticas na etapa de pré-processamento em Mineração de Textos

Uso de Informações Lingüísticas na etapa de pré-processamento em Mineração de Textos Uso de Informações Lingüísticas na etapa de pré-processamento em Mineração de Textos Cassiana Fagundes da Silva, Fernando Santos Osório, Renata Vieira 1 1 PIPCA Universidade do Vale do Rio dos Sinos (UNISINOS)

Leia mais

Data, Text and Web Mining

Data, Text and Web Mining Data, Text and Web Mining Fabrício J. Barth TerraForum Consultores Junho de 2010 Objetivo Apresentar a importância do tema, os conceitos relacionados e alguns exemplos de aplicações. Data, Text and Web

Leia mais

Extração de Árvores de Decisão com a Ferramenta de Data Mining Weka

Extração de Árvores de Decisão com a Ferramenta de Data Mining Weka Extração de Árvores de Decisão com a Ferramenta de Data Mining Weka 1 Introdução A mineração de dados (data mining) pode ser definida como o processo automático de descoberta de conhecimento em bases de

Leia mais

ADM041 / EPR806 Sistemas de Informação

ADM041 / EPR806 Sistemas de Informação ADM041 / EPR806 Sistemas de Informação UNIFEI Universidade Federal de Itajubá Prof. Dr. Alexandre Ferreira de Pinho 1 Sistemas de Apoio à Decisão (SAD) Tipos de SAD Orientados por modelos: Criação de diferentes

Leia mais

Arquitetura de Rede de Computadores

Arquitetura de Rede de Computadores TCP/IP Roteamento Arquitetura de Rede de Prof. Pedro Neto Aracaju Sergipe - 2011 Ementa da Disciplina 4. Roteamento i. Máscara de Rede ii. Sub-Redes iii. Números Binários e Máscara de Sub-Rede iv. O Roteador

Leia mais

Capítulo 3. Avaliação de Desempenho. 3.1 Definição de Desempenho

Capítulo 3. Avaliação de Desempenho. 3.1 Definição de Desempenho 20 Capítulo 3 Avaliação de Desempenho Este capítulo aborda como medir, informar e documentar aspectos relativos ao desempenho de um computador. Além disso, descreve os principais fatores que influenciam

Leia mais

Aplicações Práticas com Redes Neurais Artificiais em Java

Aplicações Práticas com Redes Neurais Artificiais em Java com em Java Luiz D Amore e Mauro Schneider JustJava 2009 17 de Setembro de 2009 Palestrantes Luiz Angelo D Amore luiz.damore@metodista.br Mauro Ulisses Schneider mauro.schneider@metodista.br http://blog.mauros.org

Leia mais

Sistema de mineração de dados para descobertas de regras e padrões em dados médicos

Sistema de mineração de dados para descobertas de regras e padrões em dados médicos Sistema de mineração de dados para descobertas de regras e padrões em dados médicos Pollyanna Carolina BARBOSA¹; Thiago MAGELA² 1Aluna do Curso Superior Tecnólogo em Análise e Desenvolvimento de Sistemas

Leia mais

Banco de Dados Aula 1 Introdução a Banco de Dados Introdução Sistema Gerenciador de Banco de Dados

Banco de Dados Aula 1 Introdução a Banco de Dados Introdução Sistema Gerenciador de Banco de Dados Banco de Dados Aula 1 Introdução a Banco de Dados Introdução Um Sistema Gerenciador de Banco de Dados (SGBD) é constituído por um conjunto de dados associados a um conjunto de programas para acesso a esses

Leia mais

UNIVERSIDADE FEDERAL DE SANTA CATARINA

UNIVERSIDADE FEDERAL DE SANTA CATARINA UNIVERSIDADE FEDERAL DE SANTA CATARINA CIÊNCIAS DA COMPUTAÇÃO MÁQUINAS DE COMITÊ APLICADAS À FILTRAGEM DE SPAM Monografia submetida à UNIVERSIDADE FEDERAL DE SANTA CATARINA para a obtenção do grau de BACHAREL

Leia mais

Resolução de problemas e desenvolvimento de algoritmos

Resolução de problemas e desenvolvimento de algoritmos SSC0101 - ICC1 Teórica Introdução à Ciência da Computação I Resolução de problemas e desenvolvimento de algoritmos Prof. Vanderlei Bonato Prof. Cláudio Fabiano Motta Toledo Sumário Análise e solução de

Leia mais

DATA WAREHOUSE. Introdução

DATA WAREHOUSE. Introdução DATA WAREHOUSE Introdução O grande crescimento do ambiente de negócios, médias e grandes empresas armazenam também um alto volume de informações, onde que juntamente com a tecnologia da informação, a correta

Leia mais

RECUPERAÇÃO DE DOCUMENTOS TEXTO USANDO MODELOS PROBABILISTICOS ESTENDIDOS

RECUPERAÇÃO DE DOCUMENTOS TEXTO USANDO MODELOS PROBABILISTICOS ESTENDIDOS ISBN 978-85-61091-05-7 Encontro Internacional de Produção Científica Cesumar 27 a 30 de outubro de 2009 RECUPERAÇÃO DE DOCUMENTOS TEXTO USANDO MODELOS PROBABILISTICOS ESTENDIDOS Marcello Erick Bonfim 1

Leia mais

Aula 2 RNA Arquiteturas e Treinamento

Aula 2 RNA Arquiteturas e Treinamento 2COP229 Aula 2 RNA Arquiteturas e Treinamento 2COP229 Sumário 1- Arquiteturas de Redes Neurais Artificiais; 2- Processos de Treinamento; 2COP229 1- Arquiteturas de Redes Neurais Artificiais -Arquitetura:

Leia mais

2 Diagrama de Caso de Uso

2 Diagrama de Caso de Uso Unified Modeling Language (UML) Universidade Federal do Maranhão UFMA Pós Graduação de Engenharia de Eletricidade Grupo de Computação Assunto: Diagrama de Caso de Uso (Use Case) Autoria:Aristófanes Corrêa

Leia mais

PLANOS DE CONTINGÊNCIAS

PLANOS DE CONTINGÊNCIAS PLANOS DE CONTINGÊNCIAS ARAÚJO GOMES Capitão SC PMSC ARAÚJO GOMES defesacivilgomes@yahoo.com.br PLANO DE CONTINGÊNCIA O planejamento para emergências é complexo por suas características intrínsecas. Como

Leia mais

Esta dissertação apresentou duas abordagens para integração entre a linguagem Lua e o Common Language Runtime. O objetivo principal da integração foi

Esta dissertação apresentou duas abordagens para integração entre a linguagem Lua e o Common Language Runtime. O objetivo principal da integração foi 5 Conclusão Esta dissertação apresentou duas abordagens para integração entre a linguagem Lua e o Common Language Runtime. O objetivo principal da integração foi permitir que scripts Lua instanciem e usem

Leia mais

Do neurônio biológico ao neurônio das redes neurais artificiais

Do neurônio biológico ao neurônio das redes neurais artificiais Do neurônio biológico ao neurônio das redes neurais artificiais O objetivo desta aula é procurar justificar o modelo de neurônio usado pelas redes neurais artificiais em termos das propriedades essenciais

Leia mais

5 Extraindo listas de produtos em sites de comércio eletrônico

5 Extraindo listas de produtos em sites de comércio eletrônico 5 Extraindo listas de produtos em sites de comércio eletrônico Existem diversos trabalhos direcionadas à detecção de listas e tabelas na literatura como (Liu et. al., 2003, Tengli et. al., 2004, Krüpl

Leia mais

3 Classificação. 3.1. Resumo do algoritmo proposto

3 Classificação. 3.1. Resumo do algoritmo proposto 3 Classificação Este capítulo apresenta primeiramente o algoritmo proposto para a classificação de áudio codificado em MPEG-1 Layer 2 em detalhes. Em seguida, são analisadas as inovações apresentadas.

Leia mais

Data Mining. Origem do Data Mining 24/05/2012. Data Mining. Prof Luiz Antonio do Nascimento

Data Mining. Origem do Data Mining 24/05/2012. Data Mining. Prof Luiz Antonio do Nascimento Data Mining Prof Luiz Antonio do Nascimento Data Mining Ferramenta utilizada para análise de dados para gerar, automaticamente, uma hipótese sobre padrões e anomalias identificadas para poder prever um

Leia mais

Tabela de Símbolos. Análise Semântica A Tabela de Símbolos. Principais Operações. Estrutura da Tabela de Símbolos. Declarações 11/6/2008

Tabela de Símbolos. Análise Semântica A Tabela de Símbolos. Principais Operações. Estrutura da Tabela de Símbolos. Declarações 11/6/2008 Tabela de Símbolos Análise Semântica A Tabela de Símbolos Fabiano Baldo Após a árvore de derivação, a tabela de símbolos é o principal atributo herdado em um compilador. É possível, mas não necessário,

Leia mais

Matlab - Neural Networw Toolbox. Ana Lívia Soares Silva de Almeida

Matlab - Neural Networw Toolbox. Ana Lívia Soares Silva de Almeida 27 de maio de 2014 O que é a Neural Networw Toolbox? A Neural Network Toolbox fornece funções e aplicativos para a modelagem de sistemas não-lineares complexos que não são facilmente modelados com uma

Leia mais

TÓPICOS AVANÇADOS EM ENGENHARIA DE SOFTWARE

TÓPICOS AVANÇADOS EM ENGENHARIA DE SOFTWARE TÓPICOS AVANÇADOS EM ENGENHARIA DE SOFTWARE Engenharia de Computação Professor: Rosalvo Ferreira de Oliveira Neto Estudos Comparativos Recentes - Behavior Scoring Roteiro Objetivo Critérios de Avaliação

Leia mais

Aprendizagem de Máquina

Aprendizagem de Máquina Aprendizagem de Máquina Alessandro L. Koerich Programa de Pós-Graduação em Informática Pontifícia Universidade Católica do Paraná (PUCPR) Horários Aulas Sala [quinta-feira, 7:30 12:00] Atendimento Segunda

Leia mais

textos documentos semi-estruturado

textos documentos semi-estruturado 1 Mineração de Textos Os estudos em Aprendizado de Máquina normalmente trabalham com dados estruturados Entretanto, uma grande quantidade de informação é armazenada em textos, que são dados semiestruturados

Leia mais

1. Conceitos de sistemas. Conceitos da Teoria de Sistemas. Conceitos de sistemas extraídos do dicionário Aurélio:

1. Conceitos de sistemas. Conceitos da Teoria de Sistemas. Conceitos de sistemas extraídos do dicionário Aurélio: 1. Conceitos de sistemas Conceitos da Teoria de Sistemas OPTNER: É um conjunto de objetos com um determinado conjunto de relações entre seus objetos e seus atributos. TILLES: É um conjunto de partes inter-relacionadas.

Leia mais

Após essa disciplina você vai ficar convencido que a estatística tem enorme aplicação em diversas áreas.

Após essa disciplina você vai ficar convencido que a estatística tem enorme aplicação em diversas áreas. UNIVERSIDADE FEDERAL DA PARAÍBA INTRODUÇÃO Departamento de Estatística Luiz Medeiros http://www.de.ufpb.br/~luiz/ CONCEITOS FUNDAMENTAIS DE ESTATÍSTICA O que a Estatística significa para você? Pesquisas

Leia mais

Análise e visualização de dados utilizando redes neurais artificiais auto-organizáveis

Análise e visualização de dados utilizando redes neurais artificiais auto-organizáveis Análise e visualização de dados utilizando redes neurais artificiais auto-organizáveis Adriano Lima de Sá Faculdade de Computação Universidade Federal de Uberlândia 20 de junho de 2014 Adriano L. Sá (UFU)

Leia mais

Organizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU

Organizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU Organizaçãoe Recuperaçãode Informação GSI521 Prof. Dr. Rodrigo Sanches Miani FACOM/UFU Análisede links Page Rank Prof. Dr. Rodrigo Sanches Miani FACOM/UFU Motivação Suponha que um modelo clássico, como

Leia mais

QFD: Quality Function Deployment QFD: CASA DA QUALIDADE - PASSO A PASSO

QFD: Quality Function Deployment QFD: CASA DA QUALIDADE - PASSO A PASSO QFD: CASA DA QUALIDADE - PASSO A PASSO 1 - INTRODUÇÃO Segundo Akao (1990), QFD é a conversão dos requisitos do consumidor em características de qualidade do produto e o desenvolvimento da qualidade de

Leia mais

CONCURSO PÚBLICO ANALISTA DE SISTEMA ÊNFASE GOVERNANÇA DE TI ANALISTA DE GESTÃO RESPOSTAS ESPERADAS PRELIMINARES

CONCURSO PÚBLICO ANALISTA DE SISTEMA ÊNFASE GOVERNANÇA DE TI ANALISTA DE GESTÃO RESPOSTAS ESPERADAS PRELIMINARES CELG DISTRIBUIÇÃO S.A EDITAL N. 1/2014 CONCURSO PÚBLICO ANALISTA DE GESTÃO ANALISTA DE SISTEMA ÊNFASE GOVERNANÇA DE TI RESPOSTAS ESPERADAS PRELIMINARES O Centro de Seleção da Universidade Federal de Goiás

Leia mais

Orientação a Objetos

Orientação a Objetos 1. Domínio e Aplicação Orientação a Objetos Um domínio é composto pelas entidades, informações e processos relacionados a um determinado contexto. Uma aplicação pode ser desenvolvida para automatizar ou

Leia mais

Prof. Msc. Paulo Muniz de Ávila

Prof. Msc. Paulo Muniz de Ávila Prof. Msc. Paulo Muniz de Ávila O que é Data Mining? Mineração de dados (descoberta de conhecimento em bases de dados): Extração de informação interessante (não-trivial, implícita, previamente desconhecida

Leia mais

Curso: Ciência da Computação Disciplina: Construção de Compiladores Período: 2010-1 Prof. Dr. Raimundo Moura

Curso: Ciência da Computação Disciplina: Construção de Compiladores Período: 2010-1 Prof. Dr. Raimundo Moura UFPI CCN DIE Curso: Ciência da Computação Disciplina: Construção de Compiladores Período: 2010-1 Prof. Dr. Raimundo Moura O projeto Desenvolver um compilador de um subconjunto básico da linguagem PORTUGOL.

Leia mais

COMPARAÇÃO DOS MÉTODOS DE SEGMENTAÇÃO DE IMAGENS OTSU, KMEANS E CRESCIMENTO DE REGIÕES NA SEGMENTAÇÃO DE PLACAS AUTOMOTIVAS

COMPARAÇÃO DOS MÉTODOS DE SEGMENTAÇÃO DE IMAGENS OTSU, KMEANS E CRESCIMENTO DE REGIÕES NA SEGMENTAÇÃO DE PLACAS AUTOMOTIVAS COMPARAÇÃO DOS MÉTODOS DE SEGMENTAÇÃO DE IMAGENS OTSU, KMEANS E CRESCIMENTO DE REGIÕES NA SEGMENTAÇÃO DE PLACAS AUTOMOTIVAS Leonardo Meneguzzi 1 ; Marcelo Massoco Cendron 2 ; Manassés Ribeiro 3 INTRODUÇÃO

Leia mais

AMBIENTE PARA AUXILIAR O DESENVOLVIMENTO DE PROGRAMAS MONOLÍTICOS

AMBIENTE PARA AUXILIAR O DESENVOLVIMENTO DE PROGRAMAS MONOLÍTICOS UNIVERSIDADE REGIONAL DE BLUMENAU CENTRO DE CIÊNCIAS EXATAS E NATURAIS CURSO DE CIÊNCIAS DA COMPUTAÇÃO BACHARELADO AMBIENTE PARA AUXILIAR O DESENVOLVIMENTO DE PROGRAMAS MONOLÍTICOS Orientando: Oliver Mário

Leia mais

Algoritmos e Programação (Prática) Profa. Andreza Leite andreza.leite@univasf.edu.br

Algoritmos e Programação (Prática) Profa. Andreza Leite andreza.leite@univasf.edu.br (Prática) Profa. Andreza Leite andreza.leite@univasf.edu.br Introdução O computador como ferramenta indispensável: Faz parte das nossas vidas; Por si só não faz nada de útil; Grande capacidade de resolução

Leia mais

Laboratório de Mídias Sociais

Laboratório de Mídias Sociais Laboratório de Mídias Sociais Aula 02 Análise Textual de Mídias Sociais parte I Prof. Dalton Martins dmartins@gmail.com Gestão da Informação Universidade Federal de Goiás O que é Análise Textual? Análise

Leia mais

4 Avaliação Econômica

4 Avaliação Econômica 4 Avaliação Econômica Este capítulo tem o objetivo de descrever a segunda etapa da metodologia, correspondente a avaliação econômica das entidades de reservas. A avaliação econômica é realizada a partir

Leia mais

A Grande Importância da Mineração de Dados nas Organizações

A Grande Importância da Mineração de Dados nas Organizações A Grande Importância da Mineração de Dados nas Organizações Amarildo Aparecido Ferreira Junior¹, Késsia Rita da Costa Marchi¹, Jaime Willian Dias¹ ¹Universidade Paranaense (Unipar) Paranavaí PR Brasil

Leia mais

Prof. Júlio Cesar Nievola Data Mining PPGIa PUCPR

Prof. Júlio Cesar Nievola Data Mining PPGIa PUCPR Uma exploração preliminar dos dados para compreender melhor suas características. Motivações-chave da exploração de dados incluem Ajudar na seleção da técnica correta para pré-processamento ou análise

Leia mais

Glossários em Moodle (1.6.5+)

Glossários em Moodle (1.6.5+) Glossários em Moodle (1.6.5+) Athail Rangel Pulino 2 Ficha Técnica Título Glossários em Moodle Autor Athail Rangel Pulino Filho Copyright Creative Commons Edição Agosto 2007 Glossários em Moodle 3 Índice

Leia mais

Fases para um Projeto de Data Warehouse. Fases para um Projeto de Data Warehouse. Fases para um Projeto de Data Warehouse

Fases para um Projeto de Data Warehouse. Fases para um Projeto de Data Warehouse. Fases para um Projeto de Data Warehouse Definição escopo do projeto (departamental, empresarial) Grau de redundância dos dados(ods, data staging) Tipo de usuário alvo (executivos, unidades) Definição do ambiente (relatórios e consultas préestruturadas

Leia mais

Desenvolvendo uma Arquitetura de Componentes Orientada a Serviço SCA

Desenvolvendo uma Arquitetura de Componentes Orientada a Serviço SCA Desenvolvendo uma Arquitetura de Componentes Orientada a Serviço SCA RESUMO Ricardo Della Libera Marzochi A introdução ao Service Component Architecture (SCA) diz respeito ao estudo dos principais fundamentos

Leia mais

Metadados. 1. Introdução. 2. O que são Metadados? 3. O Valor dos Metadados

Metadados. 1. Introdução. 2. O que são Metadados? 3. O Valor dos Metadados 1. Introdução O governo é um dos maiores detentores de recursos da informação. Consequentemente, tem sido o responsável por assegurar que tais recursos estejam agregando valor para os cidadãos, as empresas,

Leia mais

CHECK - LIST - ISO 9001:2000

CHECK - LIST - ISO 9001:2000 REQUISITOS ISO 9001: 2000 SIM NÃO 1.2 APLICAÇÃO A organização identificou as exclusões de itens da norma no seu manual da qualidade? As exclusões são relacionadas somente aos requisitos da sessão 7 da

Leia mais

GARANTIA DA QUALIDADE DE SOFTWARE

GARANTIA DA QUALIDADE DE SOFTWARE GARANTIA DA QUALIDADE DE SOFTWARE Fonte: http://www.testexpert.com.br/?q=node/669 1 GARANTIA DA QUALIDADE DE SOFTWARE Segundo a NBR ISO 9000:2005, qualidade é o grau no qual um conjunto de características

Leia mais

A ATIVIDADE DE RESUMO PARA AVALIAR A COMPREENSÃO DE TEXTOS EM PROVAS DE PROFICIÊNCIA DE LÍNGUA ESTRANGEIRA

A ATIVIDADE DE RESUMO PARA AVALIAR A COMPREENSÃO DE TEXTOS EM PROVAS DE PROFICIÊNCIA DE LÍNGUA ESTRANGEIRA A ATIVIDADE DE RESUMO PARA AVALIAR A COMPREENSÃO DE TEXTOS EM PROVAS DE PROFICIÊNCIA DE LÍNGUA ESTRANGEIRA Marília Marques Lopes RESUMO Essa dissertação tratou da utilização de dois instrumentos de avaliação

Leia mais

SEGMENTAÇÃO DE IMAGENS EM PLACAS AUTOMOTIVAS

SEGMENTAÇÃO DE IMAGENS EM PLACAS AUTOMOTIVAS SEGMENTAÇÃO DE IMAGENS EM PLACAS AUTOMOTIVAS André Zuconelli 1 ; Manassés Ribeiro 2 1. Aluno do Curso Técnico em Informática, turma 2010, Instituto Federal Catarinense, Câmpus Videira, andre_zuconelli@hotmail.com

Leia mais

Análise e Desenvolvimento de Sistemas ADS Programação Orientada a Obejeto POO 3º Semestre AULA 03 - INTRODUÇÃO À PROGRAMAÇÃO ORIENTADA A OBJETO (POO)

Análise e Desenvolvimento de Sistemas ADS Programação Orientada a Obejeto POO 3º Semestre AULA 03 - INTRODUÇÃO À PROGRAMAÇÃO ORIENTADA A OBJETO (POO) Análise e Desenvolvimento de Sistemas ADS Programação Orientada a Obejeto POO 3º Semestre AULA 03 - INTRODUÇÃO À PROGRAMAÇÃO ORIENTADA A OBJETO (POO) Parte: 1 Prof. Cristóvão Cunha Objetivos de aprendizagem

Leia mais

Revisão de Banco de Dados

Revisão de Banco de Dados Revisão de Banco de Dados Fabiano Baldo 1 Sistema de Processamento de Arquivos Antes da concepção dos BDs o registro das informações eram feitos através de arquivos. Desvantagens: Redundância e Inconsistência

Leia mais

PROJETO DE REDES www.projetoderedes.com.br

PROJETO DE REDES www.projetoderedes.com.br PROJETO DE REDES www.projetoderedes.com.br Centro Universitário de Volta Redonda - UniFOA Curso Tecnológico de Redes de Computadores 5º período Disciplina: Tecnologia WEB Professor: José Maurício S. Pinheiro

Leia mais

Automação de Locais Distantes

Automação de Locais Distantes Automação de Locais Distantes Adaptação do texto Improving Automation at Remote Sites da GE Fanuc/ Water por Peter Sowmy e Márcia Campos, Gerentes de Contas da. Nova tecnologia reduz custos no tratamento

Leia mais

Capítulo 8 MONITORAMENTO E AVALIAÇÃO

Capítulo 8 MONITORAMENTO E AVALIAÇÃO Capítulo 8 MONITORAMENTO E AVALIAÇÃO 8 MONITORAMENTO E AVALIAÇÃO 8.1 Introdução O processo de monitoramento e avaliação constitui um instrumento para assegurar a interação entre o planejamento e a execução,

Leia mais

ANÁLISE DA CONSERVAÇÃO PÓS-COLHEITA DA ALFACE (Lactuca Sativa, L) UTILIZANDO O SISTEMA DE APOIO À TOMADA DE DECISÃO BKD

ANÁLISE DA CONSERVAÇÃO PÓS-COLHEITA DA ALFACE (Lactuca Sativa, L) UTILIZANDO O SISTEMA DE APOIO À TOMADA DE DECISÃO BKD ANÁLISE DA CONSERVAÇÃO PÓS-COLHEITA DA ALFACE (Lactuca Sativa, L) UTILIZANDO O SISTEMA DE APOIO À TOMADA DE DECISÃO BKD RESUMO Thereza P. P. Padilha Fabiano Fagundes Conceição Previero Laboratório de Solos

Leia mais

Curso: Técnico de Informática Disciplina: Redes de Computadores. 1- Apresentação Binária

Curso: Técnico de Informática Disciplina: Redes de Computadores. 1- Apresentação Binária 1- Apresentação Binária Os computadores funcionam e armazenam dados mediante a utilização de chaves eletrônicas que são LIGADAS ou DESLIGADAS. Os computadores só entendem e utilizam dados existentes neste

Leia mais

O que é a estatística?

O que é a estatística? Elementos de Estatística Prof. Dr. Clécio da Silva Ferreira Departamento de Estatística - UFJF O que é a estatística? Para muitos, a estatística não passa de conjuntos de tabelas de dados numéricos. Os

Leia mais

Conteúdo. Disciplina: INF 02810 Engenharia de Software. Monalessa Perini Barcellos. Centro Tecnológico. Universidade Federal do Espírito Santo

Conteúdo. Disciplina: INF 02810 Engenharia de Software. Monalessa Perini Barcellos. Centro Tecnológico. Universidade Federal do Espírito Santo Universidade Federal do Espírito Santo Centro Tecnológico Departamento de Informática Disciplina: INF 02810 Prof.: (monalessa@inf.ufes.br) Conteúdo 1. Introdução 2. Processo de Software 3. Gerência de

Leia mais

ALGORITMOS PARTE 01. Fabricio de Sousa Pinto

ALGORITMOS PARTE 01. Fabricio de Sousa Pinto ALGORITMOS PARTE 01 Fabricio de Sousa Pinto Algoritmos: Definição 2 É uma sequência de instruções finita e ordenada de forma lógica para a resolução de uma determinada tarefa ou problema. Algoritmos 3

Leia mais

Aprendizagem de Máquina

Aprendizagem de Máquina Aprendizagem de Máquina Professor: Rosalvo Ferreira de Oliveira Neto Disciplina: Inteligência Artificial Tópicos 1. Definições 2. Tipos de aprendizagem 3. Paradigmas de aprendizagem 4. Modos de aprendizagem

Leia mais

Redes Neurais Construtivas. Germano Crispim Vasconcelos Centro de Informática - UFPE

Redes Neurais Construtivas. Germano Crispim Vasconcelos Centro de Informática - UFPE Redes Neurais Construtivas Germano Crispim Vasconcelos Centro de Informática - UFPE Motivações Redes Feedforward têm sido bastante utilizadas em aplicações de Reconhecimento de Padrões Problemas apresentados

Leia mais

Treinamento Auditor Fiscal. Instrutor: Jaime Naves Gestora: Adriana Nunes

Treinamento Auditor Fiscal. Instrutor: Jaime Naves Gestora: Adriana Nunes Treinamento Auditor Fiscal Instrutor: Jaime Naves Gestora: Adriana Nunes Conceito: O Auditor Fiscal WEB é uma solução que permite a usuários de qualquer segmento empresarial realizar auditorias sobre os

Leia mais

Aula 01 - Formatações prontas e condicionais. Aula 01 - Formatações prontas e condicionais. Sumário. Formatar como Tabela

Aula 01 - Formatações prontas e condicionais. Aula 01 - Formatações prontas e condicionais. Sumário. Formatar como Tabela Aula 01 - Formatações prontas e Sumário Formatar como Tabela Formatar como Tabela (cont.) Alterando as formatações aplicadas e adicionando novos itens Removendo a formatação de tabela aplicada Formatação

Leia mais

Classificação da imagem (ou reconhecimento de padrões): objectivos Métodos de reconhecimento de padrões

Classificação da imagem (ou reconhecimento de padrões): objectivos Métodos de reconhecimento de padrões Classificação de imagens Autor: Gil Gonçalves Disciplinas: Detecção Remota/Detecção Remota Aplicada Cursos: MEG/MTIG Ano Lectivo: 11/12 Sumário Classificação da imagem (ou reconhecimento de padrões): objectivos

Leia mais

Universidade Paulista

Universidade Paulista Universidade Paulista Ciência da Computação Sistemas de Informação Gestão da Qualidade Principais pontos da NBR ISO/IEC 12207 - Tecnologia da Informação Processos de ciclo de vida de software Sergio Petersen

Leia mais

UM ESTUDO DE CASO SOBRE A INDEXAÇÃO AUTOMÁTICA DE DOCUMENTOS OFICIAIS DA UENP BASEADO EM LAYOUTS

UM ESTUDO DE CASO SOBRE A INDEXAÇÃO AUTOMÁTICA DE DOCUMENTOS OFICIAIS DA UENP BASEADO EM LAYOUTS UM ESTUDO DE CASO SOBRE A INDEXAÇÃO AUTOMÁTICA DE DOCUMENTOS OFICIAIS DA UENP BASEADO EM LAYOUTS Alexia Guilherme Bianque (PIBIC/CNPq), Ederson Marco Sgarbi (Orientador), a.g.bianque10@gmail.com.br Universidade

Leia mais

CAPÍTULO 3 - TIPOS DE DADOS E IDENTIFICADORES

CAPÍTULO 3 - TIPOS DE DADOS E IDENTIFICADORES CAPÍTULO 3 - TIPOS DE DADOS E IDENTIFICADORES 3.1 - IDENTIFICADORES Os objetos que usamos no nosso algoritmo são uma representação simbólica de um valor de dado. Assim, quando executamos a seguinte instrução:

Leia mais

3 SCS: Sistema de Componentes de Software

3 SCS: Sistema de Componentes de Software 3 SCS: Sistema de Componentes de Software O mecanismo para acompanhamento das chamadas remotas se baseia em informações coletadas durante a execução da aplicação. Para a coleta dessas informações é necessário

Leia mais

A lógica de programação ajuda a facilitar o desenvolvimento dos futuros programas que você desenvolverá.

A lógica de programação ajuda a facilitar o desenvolvimento dos futuros programas que você desenvolverá. INTRODUÇÃO A lógica de programação é extremamente necessária para as pessoas que queiram trabalhar na área de programação, seja em qualquer linguagem de programação, como por exemplo: Pascal, Visual Basic,

Leia mais

Aula 02 Excel 2010. Operações Básicas

Aula 02 Excel 2010. Operações Básicas Aula 02 Excel 2010 Professor: Bruno Gomes Disciplina: Informática Básica Curso: Gestão de Turismo Sumário da aula: 1. Operações básicas; 2. Utilizando Funções; 3. Funções Lógicas; 4. Gráficos no Excel;

Leia mais

1. Sistemas de numeração

1. Sistemas de numeração 1. Sistemas de numeração Quando mencionamos sistemas de numeração estamos nos referindo à utilização de um sistema para representar uma numeração, ou seja, uma quantidade. Sistematizar algo seria organizar,

Leia mais

Banco de Dados Profa. Dra. Cristina Dutra de Aguiar Ciferri. Banco de Dados Processamento e Otimização de Consultas

Banco de Dados Profa. Dra. Cristina Dutra de Aguiar Ciferri. Banco de Dados Processamento e Otimização de Consultas Processamento e Otimização de Consultas Banco de Dados Motivação Consulta pode ter sua resposta computada por uma variedade de métodos (geralmente) Usuário (programador) sugere uma estratégia para achar

Leia mais

5. EXPERIÊNCIAS E ANÁLISE DOS RESULTADOS. 5.1 - Os Programas de Avaliação

5. EXPERIÊNCIAS E ANÁLISE DOS RESULTADOS. 5.1 - Os Programas de Avaliação 36 5. EXPERIÊNCIAS E ANÁLISE DOS RESULTADOS 5.1 - Os Programas de Avaliação Programas de avaliação convencionais foram utilizados para análise de diversas configurações da arquitetura. Estes programas

Leia mais

TÍTULO: PROPOSTA DE METODOLOGIA BASEADA EM REDES NEURAIS ARTIFICIAIS MLP PARA A PROTEÇÃO DIFERENCIAL DE TRANSFORMADORES DE POTÊNCIA

TÍTULO: PROPOSTA DE METODOLOGIA BASEADA EM REDES NEURAIS ARTIFICIAIS MLP PARA A PROTEÇÃO DIFERENCIAL DE TRANSFORMADORES DE POTÊNCIA TÍTULO: PROPOSTA DE METODOLOGIA BASEADA EM REDES NEURAIS ARTIFICIAIS MLP PARA A PROTEÇÃO DIFERENCIAL DE TRANSFORMADORES DE POTÊNCIA CATEGORIA: CONCLUÍDO ÁREA: ENGENHARIAS E ARQUITETURA SUBÁREA: ENGENHARIAS

Leia mais

Banco de Dados. Modelagem de Dados com MER. Prof. Walteno Martins Parreira Jr www.waltenomartins.com.br waltenomartins@yahoo.

Banco de Dados. Modelagem de Dados com MER. Prof. Walteno Martins Parreira Jr www.waltenomartins.com.br waltenomartins@yahoo. Banco de Dados Modelagem de Dados com MER Prof. Walteno Martins Parreira Jr www.waltenomartins.com.br waltenomartins@yahoo.com 2015 Modelagem de Dados Modelagem de Dados tem como objetivo transformar uma

Leia mais

Gerenciamento de Riscos do Projeto Eventos Adversos

Gerenciamento de Riscos do Projeto Eventos Adversos Gerenciamento de Riscos do Projeto Eventos Adversos 11. Gerenciamento de riscos do projeto PMBOK 2000 PMBOK 2004 11.1 Planejamento de gerenciamento de riscos 11.1 Planejamento de gerenciamento de riscos

Leia mais

2 Gerenciamento de Log 2.1 Definições básicas

2 Gerenciamento de Log 2.1 Definições básicas 2 Gerenciamento de Log 2.1 Definições básicas Os logs são fontes riquíssimas de informação e são gerados pelos servidores e pelas aplicações conforme eventos significativos acontecem. Em [1], log é definido

Leia mais

1. NÍVEL CONVENCIONAL DE MÁQUINA

1. NÍVEL CONVENCIONAL DE MÁQUINA 1. NÍVEL CONVENCIONAL DE MÁQUINA Relembrando a nossa matéria de Arquitetura de Computadores, a arquitetura de Computadores se divide em vários níveis como já estudamos anteriormente. Ou seja: o Nível 0

Leia mais

FUNDAÇÃO DE APOIO AO ENSINO TÉCNICO DO ESTADO DO RIO DE JANEIRO FAETERJ Petrópolis Área de Extensão PLANO DE CURSO

FUNDAÇÃO DE APOIO AO ENSINO TÉCNICO DO ESTADO DO RIO DE JANEIRO FAETERJ Petrópolis Área de Extensão PLANO DE CURSO FUNDAÇÃO DE APOIO AO ENINO TÉCNICO DO ETADO DO RIO DE JANEIRO PLANO DE CURO 1. Identificação Curso de Extensão: INTRODUÇÃO AO ITEMA INTELIGENTE Professor Regente: José Carlos Tavares da ilva Carga Horária:

Leia mais