Uma ferramenta para anotação de relações semânticas entre termos

Tamanho: px
Começar a partir da página:

Download "Uma ferramenta para anotação de relações semânticas entre termos"

Transcrição

1 Uma ferramenta para anotação de relações semânticas entre termos Leonardo Sameshima Taba, Helena de Medeiros Caseli Departamento de Computação Universidade Federal de Sâo Carlos (UFSCar) São Carlos SP Brasil 1. Introdução O Processamento de Língua Natural (PLN) adquire importância cada vez maior atualmente. É uma área em evidência pois a quantidade de informação disponível na forma de textos cresce a cada dia; no entanto, os recursos humanos disponíveis para estruturar e extrair conhecimento útil dessa vasta quantidade de dados não acompanham seu ritmo de crescimento, sendo necessário o uso de ferramentas para o processamento automático de textos. Essas ferramentas, por sua vez, precisam de uma quantidade de corpora anotados com informações relevantes para treinamento, mas a produção desses recursos é custosa, demandando tempo e anotadores especializados. Considerando os níveis de processamento linguístico, a morfologia e a sintaxe são níveis em que já existe uma quantidade significativa de corpora anotados. Em comparação, a semântica ainda tem uma quantidade inexpressiva de recursos, especialmente considerando a língua portuguesa. Essa escassez de dados semânticos é um limitador para diversas aplicações que poderiam se beneficiar de tais recursos, como a tradução automática, a recuperação de informação, a busca na web entre outras. Assim, dado o grande esforço necessário para a construção de recursos linguísticos e a escassez desses recursos em nível semântico, sobretudo para a língua portuguesa, este artigo apresenta uma ferramenta construída com o propósito de auxiliar a tarefa de anotação de relações semânticas. Essa tarefa se propõe a identificar relações semânticas binárias entre termos de um texto. Exemplos clássicos de relações semânticas incluem a hiponímia (subclasse e superclasse), meronímia (parte e todo) e sinonímia (sinônimos). Este trabalho enfoca sete relações semânticas derivadas da teoria da organização do conhecimento de Minsky (Minsky 1986), descritas na Tabela 1.

2 Tabela 1. Relações semânticas consideradas neste trabalho Relação semântica Sentença exemplo Relação extraída 1 is-a(subclasse, Maçã é uma fruta is-a(maçã, fruta) superclasse) 2 property-of(algo/alguém, característica) O prédio é alto property-of(prédio, alto) 3 part-of(todo, parte) Parafuso é parte de uma máquina part-of(máquina, parafuso) 4 made-of(produto, substância) Cacau é utilizado para fazer chocolate made-of(chocolate, cacau) 5 effect-of(ação/estado, Gripe causa febre effect-of(gripe, febre) conseqüência) 6 used-for(entidade, Pás são usadas para cavar used-for(pás, cavar) função) 7 location-of(algo/alguém, local) Uma secretária pode ser encontrada em um escritório location-of(secretária, escritório) A ferramenta apresentada neste artigo foi desenvolvida no âmbito de um estudo sobre extração automática de relações semânticas, fornecendo suporte para a construção manual de um corpus anotado, recurso necessário para o treinamento dos métodos computacionais automáticos investigados. Dois modelos em específico, árvores de decisão (Quinlan 1993) e Support Vector Machines (Cortes e Vapnik 1995), foram treinados sobre um conjunto inicial de dados de treinamento. Com o uso desses algoritmos, a ferramenta se torna capaz de detectar automaticamente novas relações semânticas, agilizando o processo de anotação do corpus. O restante deste artigo se organiza da seguinte forma: a Seção 2 apresenta uma breve revisão da bibliografia sobre ferramentas de anotação semântica; a Seção 3 apresenta a metodologia e as principais decisões tomadas na construção da ferramenta descrita neste artigo; a Seção 4 apresenta os resultados obtidos com o uso da ferramenta; e a Seção 5 traz as conclusões e considerações para trabalhos futuros.

3 2. Revisão bibliográfica Algumas das ferramentas já desenvolvidas para a tarefa de anotação semântica de corpora são a SALTO (Burchardt et al. 2006) e a GATE (Cunningham et al. 2011). A SALTO (Burchardt et al. 2006) foi originalmente desenvolvida para a anotação de papéis semânticos no formato da semântica de frames (Baker et al. 1998), embora possa ser utilizada para outros tipos de anotação. Além da funcionalidade da marcação de textos, a ferramenta também pode fazer gerenciamento de corpus e tem uma interface para resolução de conflitos entre anotadores. Os formatos de entrada e saída de dados aceitos pela SALTO são o Tiger XML (Mengel e Lezius 2000) e seu formato próprio, o SALSA/Tiger XML. A SALTO foi desenvolvida utilizando a linguagem Java e a biblioteca Swing para a interface com o usuário. O projeto Propbank-Br (Duran e Aluísio 2011), cujo objetivo é a criação de uma base textual anotada com papéis semânticos em português do Brasil, utiliza esta ferramenta em seu desenvolvimento. A GATE (Cunningham et al. 2011) é uma plataforma dedicada ao desenvolvimento de qualquer tipo de tarefa de PLN, incluindo etiquetação de corpora. Ela fornece um ambiente integrado para o desenvolvimento de aplicações de PLN, possibilitando a integração de todas as etapas do processamento de um texto (p. ex. tokenização, segmentação, análise léxica) em um mesmo local. A GATE aceita diversos formatos de dados de entrada como texto puro, HTML, SGML, XML, PDF, entre outros, mas tem um formato de armazenamento próprio baseado em XML. A linguagem utilizada em seu desenvolvimento foi Java. Apesar da existência dessas alternativas, optou-se pelo desenvolvimento de uma nova ferramenta focada nos objetivos específicos desta pesquisa, já que os trabalhos existentes fazem diversos tipos de anotações e possuem muitas funcionalidades que não seriam aproveitadas no escopo desta pesquisa a plataforma GATE em especial fornece um ambiente completo de desenvolvimento que seria subutilizado. Assim, preferiu-se o desenvolvimento de uma ferramenta mais simples e alinhada diretamente com a tarefa de marcação de relações semânticas entre termos.

4 3. Metodologia A ferramenta para anotação de relações semânticas entre termos foi desenvolvida utilizando a linguagem Java versão 1.6, a biblioteca Swing para a interface com o usuário e o ambiente de desenvolvimento NetBeans 7.1. Sua interface principal pode ser vista na Figura 1. O uso da linguagem Java torna a aplicação independente de plataforma e sistema operacional (Windows, Linux, etc.), bastando que o usuário tenha uma versão recente (ao menos 1.6) do Java Runtime Environment (JRE) instalado. Figura 1. Interface principal da ferramenta O formato de entrada escolhido foi o JSON 1. O motivo dessa escolha sobre outros formatos tradicionais para codificação de corpus como o Tiger XML (Mengel e Lezius 2000) e o XCES (Ide et al. 2000) é que o JSON é igualmente portável entre aplicações e fácil de ser processado computacionalmente porém é mais sucinto, resultando em arquivos menores. A unidade mínima de anotação foi definida como um token, que neste trabalho é uma sequência de quaisquer caracteres exceto o espaço em branco. Um termo é considerado uma sequência de tokens que corresponde a uma entidade no texto, e uma relação é definida como uma tripla <relação, termo1, termo2>, onde relação é uma das 1

5 sete relações descritas na Tabela 1 e termo1 e termo2 são os termos que participam da relação. Por exemplo, na Figura 1 temos três relações demarcadas: part-of(record, novela), part-of(record, A=Revanche) e is-a(a=revanche, novela). Outra estratégia adotada no desenvolvimento da ferramenta foi a de que não pode haver sobreposição entre os termos, ou seja, um mesmo token não pode fazer parte de dois termos distintos. Essa decisão visa simplificar a marcação dos termos. O corpus inicial escolhido para anotação foi o CETENFolha 2, composto por textos jornalísticos e compreendendo cerca de 25 milhões de palavras em português, divididas em aproximadamente 1,6 milhões de sentenças anotadas morfossintaticamente pelo parser PALAVRAS (Bick 2000). Uma amostra dessas sentenças foi selecionada de acordo com a frequência de ocorrência de sintagmas nominais (SNs) no corpus foram escolhidas as sentenças que continham sintagmas que ocorriam de 18 a 51 vezes. Essa faixa foi delimitada pois representa cerca de 15 mil sintagmas, o que, considerando a lista de frequências ordenada e acumulada de todos os SNs, correspondem a uma faixa de 10% do total de SNs do corpus, cuja frequência está entre 40% e 50% da distribuição acumulada. Desse modo, os termos selecionados não são os mais frequentes, localizados no início da curva de distribuição, nem os menos frequentes, localizados no fim da curva. O intervalo entre 40% e 50% foi definido empiricamente e com o intuito de se obter uma boa variedade de sintagmas distintos (15 mil) com um número significativo de ocorrências (18 a 51). As sentenças nas quais esses 15 mil SNs ocorrem foram selecionadas, resultando em uma amostra de aproximadamente 230 mil sentenças a serem anotadas. Essas sentenças foram transformadas do formato de saída do PALAVRAS para o formato JSON e divididas em pacotes com cerca de 1000 sentenças. Como o processo de anotação do corpus está sendo realizado por dois anotadores, cada par de conjuntos de 1000 sentenças tem por volta de 100 sentenças em comum para o cálculo da concordância entre os anotadores. A ferramenta possibilita a comparação entre dois conjuntos de dados, mostrando as sentenças comuns aos dois conjuntos e calculando a concordância entre as anotações (Figura 2). Essa funcionalidade facilita a comparação entre as anotações feitas pelos dois anotadores. 2

6 Figura 2. Interface de comparação de anotações Extração automática de relações semânticas O objetivo final da pesquisa na qual a ferramenta descrita neste artigo está inserida é realizar a extração automática de relações semânticas. Isso pode ser feito através do uso de modelos computacionais de aprendizado de máquina (AM) treinados sobre os conjuntos de sentenças anotadas manualmente com as relações de interesse. De forma simplificada, os modelos de AM decidem, para cada par de termos em uma sentença, se uma dada relação existe entre esse par de termos ou não. A decisão é feita com base na similaridade das características (também chamadas de features) dos pares de termos encontrados com as características das relações marcadas manualmente. Foram escolhidos dois algoritmos para realizar os testes iniciais: árvores de decisão (Quinlan 1993) e Support Vector Machines (Cortes e Vapnik 1995). Alguns exemplos de relações semânticas encontradas automaticamente por esses dois métodos são apresentados na próxima seção.

7 A tarefa de extração automática de relações semânticas é composta de duas etapas: primeiro os termos de interesse de uma sentença precisam ser identificados; em seguida, as relações existentes entre os pares de termos devem ser detectadas. Essa detecção é feita por algoritmos de AM como descrito no parágrafo anterior. A primeira etapa de identificação dos termos, por sua vez, nesta ferramenta pode ser auxiliada por um identificador baseado em um autômato finito (Hopcroft et al. 1979), mostrado na Figura 3 3. Esse identificador foi criado para que nomes compostos como África do Sul ou Organização Mundial da Saúde fossem identificados como sendo um único termo. Depois que o autômato é aplicado sobre a sentença todos os substantivos e adjetivos restantes (que não fazem parte de nenhum termo) são marcados como termos. Essa identificação automática é feita para auxiliar o anotador humano na tarefa de anotação do corpus, sendo que ele pode modificar livremente as marcações feitas inicialmente pela ferramenta. 4. Resultados Figura 3. Autômato finito que identifica termos compostos Com o uso da ferramenta, um primeiro conjunto de aproximadamente 3800 sentenças foi completamente anotado por dois anotadores: cada anotador etiquetou cerca de 2000 sentenças, sendo que havia por volta de 200 sentenças comuns aos dois anotadores. O número de relações resultante dessa rodada de anotação é apresentado na Tabela 2. Percebe-se que as relações mais freqüentes são a property-of, is-a, part-of e location-of, sendo as demais muito menos frequentes. 3 No autômato o símbolo A indica um token iniciado com letra maiúscula e o símbolo x indica qualquer token que não participe de alguma transição de estado. Quando o estado 4 é alcançado o termo identificado é marcado.

8 Tabela 2. Número de relações marcadas por cada anotador separadamente e em conjunto. A intersecção compreende as 200 sentenças comuns aos dois anotadores Relação Anotador A Anotador B Intersecção Total de relações distintas property-of is-a part-of location-of effect-of used-for made-of Total A taxa de concordância entre os dois anotadores, verificada sobre o conjunto de cerca de 200 sentenças comuns, é calculada como o número de relações anotadas da mesma forma por ambos dividido pelo número total de relações distintas anotadas. Essa razão, nesta primeira etapa de anotação, foi de 69,17%, sendo que do total de 785 relações semânticas distintas anotadas pelos dois anotadores haviam 543 anotadas da Tabela 3. Alguns exemplos de relações semânticas encontradas automaticamente pelos métodos de aprendizado de máquina e o trecho da sentença da qual elas foram extraídas (termos aparecem marcados entre colchetes) Relação Sentença part-of(usp, Equipe) [Equipe] de a [USP] detalha... property-of(atividade, física)... [adeptos] de a [atividade] [física] [moderada] ganham... property-of(atividade, moderada)... [adeptos] de a [atividade] [física] [moderada] ganham... is-a(natação, modalidades)... [modalidades] [esportivas] [distintas], como [natação]... location-of(hospital San Martino, o [Hospital San Martino], em [Gênova], Gênova) [Itália]...

9 mesma forma. Em paralelo ao trabalho de anotação um manual de anotação está sendo desenvolvido para permitir que outros anotadores possam integrar o processo de anotação futuramente. A Tabela 3 mostra alguns exemplos de relações semânticas corretamente encontradas pelos métodos de AM citados na seção anterior. 5. Conclusões e trabalhos futuros Este artigo apresentou uma ferramenta de anotação de relações semânticas entre termos. Essa ferramenta é específica para a tarefa em questão e utiliza um formato próprio de representação, codificado na estrutura JSON. Ela está sendo utilizada para a anotação semântica de uma amostra do corpus CETENFolha que serve de base para estudos sobre extração automática de relações semânticas em corpora escritos em português do Brasil, através do treinamento de modelos computacionais automáticos. Dois modelos, árvores de decisão e Support Vector Machines, estão sendo testados. Embora a ferramenta já esteja funcional em sua forma atual, novas melhorias estão planejadas para versões futuras. Uma das funcionalidades a serem implantadas é permitir que o usuário customize as relações que queira anotar, possibilitando que outras relações além das 7 definidas possam ser anotadas. Referências BAKER, C. F., FILLMORE,C. J., e LOWE, J. B. (1998). The Berkeley framenet project In: Proceedings of the 36 th annual meeting of the association for computational linguistics and 17 th international conference on computational linguistics, Montreal, Canadá: Association for Computational Linguistics. vol. 1, pp BICK, E. (2000). The parsing system Palavras : automatic grammatical analysis of Portuguese in a constraint grammar framework. Dinamarca: Aarhus University Press. BURCHARDT, A.; ERK, K.; FRANK, A.; KOWALSKI, A.; PADO, S., e PINKAL, M. (2006). Salto a versatile multi-level annotation tool, In: Proceedings of LREC 2006, Gênova, Itália. CORTES, C. e VAPNIK, V. (1995). Support-vector networks. Machine Learning, vol. 20. pp

10 CUNNINGHAM, H.; MAYNARD, D.; BONTCHEVA, K.; TABLAN, V.; ASWANI, N.; ROBERTS, I.; GORRELL, G.; FUNK, A.; ROBERTS, A.; DAMLJANOVIC, D.; HEITZ, T.; GREENWOOD, M. A.; SAGGION, H.; PETRAK, J.; LI, Y., e PETERS, W. (2011). Text Processing with GATE (Version 6). DURAN, M. S. e ALUÍSIO, S. M. (2011). Propbank-br: a Brazilian Portuguese corpus annotated with semantic role labels, In: Proceedings of the 8 th Symposium in Information and Human Language Technology, Cuiabá/MT, Brasil. HOPCROFT, J.; MOTWANI, R., e ULLMAN, J. (1979). Introduction to automata theory, languages, and computation, vol 2. Reading, EUA: Addison-wesley. IDE, N.; BONHOMME, P., e ROMARY, L. (2000). Xces: an xml-based encoding standard for linguistic corpora, In: Proceedings of LREC 2000, Atenas, Grécia. pp MENGEL, A. e LEZIUS, W. (2000). An xml-based encoding format for syntactically annotated corpora, In: Proceedings of LREC 2000, Atenas, Grécia. pp MINSKY, M. (1986). The Society of Mind. EUA: Simon and Schuster. QUINLAN, J. R. (1993). C4.5: programs for machine learning. São Francisco, EUA: Morgan Kaufmann Publishers Inc.

Uma ferramenta para anotação de relações semânticas entre termos

Uma ferramenta para anotação de relações semânticas entre termos 1. Introdução Uma ferramenta para anotação de relações semânticas entre termos O Processamento de Língua Natural (PLN) adquire importância cada vez maior atualmente. É uma área em evidência pois a quantidade

Leia mais

O tratamento da partícula se para fins de anotação de papéis semânticos

O tratamento da partícula se para fins de anotação de papéis semânticos O tratamento da partícula se para fins de anotação de papéis semânticos Magali Sanches Duran, Sandra Maria Aluísio Núcleo Interinstitucional de Linguística Computacional ICMC Universidade de São Paulo

Leia mais

CP Compiladores I Prof. Msc.. Carlos de Salles

CP Compiladores I Prof. Msc.. Carlos de Salles CP 5017.9 Prof. Msc.. Carlos de Salles 1 - EMENTA O Processo de Compilação. Deteção e Recuperação de Erros. Introdução à geração de Código Intermediário. Geração de Código de Máquina. Otimização. Uma visão

Leia mais

Comparação dos algoritmos sequencial e paralelo para contagem de palavras e contexto

Comparação dos algoritmos sequencial e paralelo para contagem de palavras e contexto Comparação dos algoritmos sequencial e paralelo para contagem de palavras e contexto Eduardo Delazeri Ferreira, Francieli Zanon Boito, Aline Villavicencio 1. Introdução 1 Instituto de Informática - Universidade

Leia mais

Índice. Classificação de textos para o ensino de português como segunda língua. Índice. technology from seed

Índice. Classificação de textos para o ensino de português como segunda língua. Índice. technology from seed Classificação de textos para o ensino de português como segunda língua Pedro Santos Curto Conclusões, Contribuições e Trabalho futuro 1 2 Motivação Aplicações e escala da classificação de textos Motivação

Leia mais

SUBCATEGORIZATION FRAMES A PARTIR DE CORPORA EM PORTUGUÊS

SUBCATEGORIZATION FRAMES A PARTIR DE CORPORA EM PORTUGUÊS EXTRAÇÃO AUTOMÁTICA DE SUBCATEGORIZATION FRAMES A PARTIR DE CORPORA EM PORTUGUÊS 1 Introdução A tarefa de identificar automaticamente subcategorization frames (SCFs), que se enquadra como um tipo de aquisição

Leia mais

Recapitulando... Abordagens: PLN. Abordagens: PLN 29/03/2012. Introdução ao Processamento de Línguas Naturais. Distribuição de palavras

Recapitulando... Abordagens: PLN. Abordagens: PLN 29/03/2012. Introdução ao Processamento de Línguas Naturais. Distribuição de palavras Introdução ao Processamento de Línguas Naturais SCC5908 Introdução ao Processamento de Língua Natural Thiago A. S. Pardo Recapitulando... Abordagens superficiais vs. profundas Simbolismo vs. estatística

Leia mais

6 Conclusão Contribuições da Dissertação

6 Conclusão Contribuições da Dissertação 6 Conclusão Neste trabalho, foi apresentado um sistema colaborativo capaz de controlar as versões das edições de um vídeo no formato MPEG-2, sem que os editores estejam no mesmo local, ao mesmo tempo.

Leia mais

NEPaLE: Uma ferramenta computacional de suporte à avaliação de paráfrases

NEPaLE: Uma ferramenta computacional de suporte à avaliação de paráfrases NEPaLE: Uma ferramenta computacional de suporte à avaliação de paráfrases Rafael de Oliveira Teixeira 1, Eloize Rossi Marques Seno 1, Helena de Medeiros Caseli 2 1 Instituto Federal de São Paulo câmpus

Leia mais

Descoberta de conhecimento em redes sociais e bases de dados públicas

Descoberta de conhecimento em redes sociais e bases de dados públicas Descoberta de conhecimento em redes sociais e bases de dados públicas Trabalho de Formatura Supervisionado Bacharelado em Ciência da Computação - IME USP Aluna: Fernanda de Camargo Magano Orientadora:

Leia mais

UMA FERRAMENTA PARA A PESQUISA EM CORPORA DE AQUISIÇÃO DE LINGUAGEM

UMA FERRAMENTA PARA A PESQUISA EM CORPORA DE AQUISIÇÃO DE LINGUAGEM UMA FERRAMENTA PARA A PESQUISA EM CORPORA DE AQUISIÇÃO DE LINGUAGEM 1. INTRODUÇÃO Corpora de linguagem dirigida a e produzida por crianças são recursos valiosos para estudos de aquisição da linguagem,

Leia mais

6 Atributos. A dívida da empresa subiu.

6 Atributos. A dívida da empresa subiu. 6 Atributos Para buscar o sentimento de um texto automaticamente precisamos encontrar boas pistas ao longo do discurso. Uma grande variedade de palavras e expressões possui conotação positiva ou negativa,

Leia mais

Semântica no Reconhecedor Gramatical Linguístico

Semântica no Reconhecedor Gramatical Linguístico Workshop de Tecnologias Adaptativas WTA 2015 Semântica no Reconhecedor Gramatical Linguístico Ana Contier, Djalma Padovani, João José Neto Linguagem Natural - Desafios Crescente quantidade de documentos

Leia mais

1.1 Tema Aprendizado de Máquina (Mit97) é o campo da Inteligência Artificial responsável pelo desenvolvimento de modelos inferidos automaticamente a

1.1 Tema Aprendizado de Máquina (Mit97) é o campo da Inteligência Artificial responsável pelo desenvolvimento de modelos inferidos automaticamente a 1 Introdução 1.1 Tema Aprendizado de Máquina (Mit97) é o campo da Inteligência Artificial responsável pelo desenvolvimento de modelos inferidos automaticamente a partir de dados. Existem diversas aplicações

Leia mais

Análise Automática de Coerência Textual em Resumos Científicos: Avaliando Quebras de Linearidade

Análise Automática de Coerência Textual em Resumos Científicos: Avaliando Quebras de Linearidade Proceedings of Symposium in Information and Human Language Technology. Natal, RN, Brazil, November 4 7, 2015. c 2015 Sociedade Brasileira de Computação. Análise Automática de Coerência Textual em Resumos

Leia mais

Ontologias Linguísticas e Processamento de Linguagem Natural. Ygor Sousa CIn/UFPE

Ontologias Linguísticas e Processamento de Linguagem Natural. Ygor Sousa CIn/UFPE Ontologias Linguísticas e Processamento de Linguagem Natural Ygor Sousa CIn/UFPE ycns@cin.ufpe.br 2015 Roteiro Processamento de Linguagem Natural Ontologias Linguísticas WordNet FrameNet Desambiguação

Leia mais

Análise de sentimentos para português brasileiro usando redes neurais recursivas

Análise de sentimentos para português brasileiro usando redes neurais recursivas Análise de sentimentos para português brasileiro usando redes neurais recursivas Henrico Bertini Brum 1, Fábio Natanel Kepler 1 1 Ciência da Computação Universidade Federal do Pampa (UNIPAMPA) Caixa Postal

Leia mais

EDITOR DE ANOTAÇÃO DE SIMPLIFICAÇÃO: MANUAL DO USUÁRIO

EDITOR DE ANOTAÇÃO DE SIMPLIFICAÇÃO: MANUAL DO USUÁRIO Universidade de São Paulo USP Universidade Federal de São Carlos UFSCar Universidade Estadual Paulista UNESP EDITOR DE ANOTAÇÃO DE SIMPLIFICAÇÃO: MANUAL DO USUÁRIO Helena de Medeiros Caseli Tiago de Freitas

Leia mais

ELABORAÇÃO DE DICIONÁRIO ELETRÔNICO Mauro Rebello 1, Violeta de San Tiago Dantas Barbosa Quental 2.

ELABORAÇÃO DE DICIONÁRIO ELETRÔNICO Mauro Rebello 1, Violeta de San Tiago Dantas Barbosa Quental 2. DL - DEPARTAMENTO DE LETRAS ELABORAÇÃO DE DICIONÁRIO ELETRÔNICO Mauro Rebello 1, Violeta de San Tiago Dantas Barbosa Quental 2. 1 Aluno do curso de Letras da PUC-Rio 2 Professora e pesquisadora da área

Leia mais

Aplicação de Histograma de Gradientes Orientados para detecção de hidrômetros em imagens de fundo complexo

Aplicação de Histograma de Gradientes Orientados para detecção de hidrômetros em imagens de fundo complexo Aplicação de Histograma de Gradientes Orientados para detecção de hidrômetros em imagens de fundo complexo Juliana Patrícia Detroz Professor: André Tavares da Silva Universidade do Estado de Santa Catarina

Leia mais

MODELO DE CLASSIFICAÇÃO AUTOMÁTICA DE QUESTÕES NA LÍNGUA PORTUGUESA Henrique Maia Braum 1, Sandro José Rigo 1, Jorge L. V.

MODELO DE CLASSIFICAÇÃO AUTOMÁTICA DE QUESTÕES NA LÍNGUA PORTUGUESA Henrique Maia Braum 1, Sandro José Rigo 1, Jorge L. V. CINTED- Novas Tecnologias na Educação 1 MODELO DE CLASSIFICAÇÃO AUTOMÁTICA DE QUESTÕES NA LÍNGUA PORTUGUESA Henrique Maia Braum 1, Sandro José Rigo 1, Jorge L. V. Barbosa 1 1 UNISINOS Universidade do Vale

Leia mais

Reconhecimento de Entidades Nomeadas para o Português Usando o OpenNLP

Reconhecimento de Entidades Nomeadas para o Português Usando o OpenNLP Reconhecimento de Entidades Nomeadas para o Português Usando o OpenNLP Evandro B. Fonseca, Gabriel C. Chiele, Renata Vieira Faculdade de Informática PUCRS Porto Alegre, Brazil Email: evandro.fonseca, gabriel.chiele{@acad.pucrs.br},

Leia mais

Desenvolvimento de Sistemas de Extração de Informações para Ambientes Colaborativos na Web

Desenvolvimento de Sistemas de Extração de Informações para Ambientes Colaborativos na Web Desenvolvimento de Sistemas de Extração de Informações para Ambientes Colaborativos na Web Douglas Nogueira 1, Vladia Pinheiro 2, Vasco Furtado 1, Tarcisio Pequeno 1 1 Mestrado em Informática Aplicada

Leia mais

Aprendizagem de Máquina

Aprendizagem de Máquina Aprendizagem de Máquina Apresentação da Disciplina Alessandro L. Koerich 2008 Mestrado e Doutorado em Informática Pontifícia Universidade Católica do Paraná (PUCPR) Mestrado/Doutorado em Informática Aprendizagem

Leia mais

Uma ferramenta para expansão do vocabulário com base em coocorrência

Uma ferramenta para expansão do vocabulário com base em coocorrência Resumos Expandidos: XI Mostra de Estagiários e Bolsistas... 11 Uma ferramenta para expansão do vocabulário com base em coocorrência Exupério Lédo Silva Júnior 1 Roberta Akemi Sinoara 2 Solange Oliveira

Leia mais

4 Algoritmos de Aprendizado

4 Algoritmos de Aprendizado 4 Algoritmos de Aprendizado Este capítulo apresenta os algoritmos utilizados ao longo da dissertação e alguns utilizados como base por eles. Os algoritmos adotados são todos de aprendizado supervisionado.

Leia mais

VerbLexPor: um recurso léxico com anotação de papéis semânticos para o português

VerbLexPor: um recurso léxico com anotação de papéis semânticos para o português Proceedings of Symposium in Information and Human Language Technology. Natal, RN, Brazil, November 4 7, 2015. c 2015 Sociedade Brasileira de Computação. VerbLexPor: um recurso léxico com anotação de papéis

Leia mais

DESENVOLVIMENTO DE FERRAMENTAS PARA A CONSTRUÇÃO ÁGIL DE EXTRATORES DE INFORMAÇÃO. Matheus Silva Santos 1 Cassiano Bueno Silva 2 Eraldo R.

DESENVOLVIMENTO DE FERRAMENTAS PARA A CONSTRUÇÃO ÁGIL DE EXTRATORES DE INFORMAÇÃO. Matheus Silva Santos 1 Cassiano Bueno Silva 2 Eraldo R. DESENVOLVIMENTO DE FERRAMENTAS PARA A CONSTRUÇÃO ÁGIL DE EXTRATORES DE INFORMAÇÃO Matheus Silva Santos 1 Cassiano Bueno Silva 2 Eraldo R. Fernandes 3 1 Instituto Federal de Goiás/Campus Jataí/Técnico em

Leia mais

Análise Sintática de Frases utilizando Gramáticas Livres de Contexto Probabilísticas

Análise Sintática de Frases utilizando Gramáticas Livres de Contexto Probabilísticas Universidade de São Paulo Mestrado em Ciência da Computação Instituto de Matemática e Estatística Disciplina MAC5725 Lingüística Computacional Análise Sintática de Frases utilizando Gramáticas Livres de

Leia mais

Geração de Modelo para Reconhecimento de Entidades Nomeadas no OpenNLP

Geração de Modelo para Reconhecimento de Entidades Nomeadas no OpenNLP Geração de Modelo para Reconhecimento de Entidades Nomeadas no OpenNLP Gabriel C. Chiele 1, Evandro Fonseca 1, Renata Vieira 1 1 Faculdade de Informática Pontifícia Universidade Católica do Rio Grande

Leia mais

COMPUTAÇÃO E LINGUÍSTICA: UM APLICATIVO WEB PARA BUSCAS AUTOMÁTICAS NO CORPUS DIGITAL DOVIC

COMPUTAÇÃO E LINGUÍSTICA: UM APLICATIVO WEB PARA BUSCAS AUTOMÁTICAS NO CORPUS DIGITAL DOVIC 315 de 665 COMPUTAÇÃO E LINGUÍSTICA: UM APLICATIVO WEB PARA BUSCAS AUTOMÁTICAS NO CORPUS DIGITAL DOVIC Aline Silva Costa 97 (UESB) Cristiane Namiuti Temponi 98 (UESB) Jorge Viana Santos 99 (UESB) RESUMO

Leia mais

Aprendizagem de Máquina

Aprendizagem de Máquina Plano da Apresentação Aprendizagem de Máquina Alessandro L. Koerich 2007 Mestrado e Doutorado em Informática Pontifícia Universidade Católica do Paraná (PUCPR) Professor & Experiência Acadêmica Horários

Leia mais

Corpus e Anotação Semântica: um Experimento para a Língua Portuguesa a partir da Semântica de Frames

Corpus e Anotação Semântica: um Experimento para a Língua Portuguesa a partir da Semântica de Frames Corpus e Anotação Semântica: um Experimento para a Língua Portuguesa a partir da Semântica de Frames Rove Chishman rove@unisinos.br Lucas Lermen lucaslermen@gmail.com ABSTRACT This paper describes the

Leia mais

DESCOBERTA DO CONHECIMENTO COM O USO DE TEXT MINING APLICADA AO SAC TEXT MINING. Aluno José Lino Uber. Orientador Paulo Roberto Dias

DESCOBERTA DO CONHECIMENTO COM O USO DE TEXT MINING APLICADA AO SAC TEXT MINING. Aluno José Lino Uber. Orientador Paulo Roberto Dias DESCOBERTA DO CONHECIMENTO COM O USO DE TEXT MINING APLICADA AO SAC TEXT MINING Aluno José Lino Uber Orientador Paulo Roberto Dias Dezembro/2004 Roteiro Introdução Objetivo Conceitos Motivação / Tipos

Leia mais

PROTÓTIPO PARA SUMARIZAÇÃO AUTOMÁTICA DE TEXTOS ESCRITOS EM LÍNGUA PORTUGUESA ALEXANDRE BUSARELLO JOYCE MARTINS

PROTÓTIPO PARA SUMARIZAÇÃO AUTOMÁTICA DE TEXTOS ESCRITOS EM LÍNGUA PORTUGUESA ALEXANDRE BUSARELLO JOYCE MARTINS PROTÓTIPO PARA SUMARIZAÇÃO AUTOMÁTICA DE TEXTOS ESCRITOS EM LÍNGUA PORTUGUESA ALEXANDRE BUSARELLO JOYCE MARTINS Roteiro Introdução Objetivos Fundamentação Teórica Especificação Implementação Operacionalidade

Leia mais

DESENVOLVIMENTO DE UM PARSER DE CONECTORES TEXTUAIS E SUA APLICAÇÃO PARA ANÁLISE DE. Leonardo Zilio(Letras/UFRGS) Rodrigo Wilkens(PPG-Comp/UFRGS)

DESENVOLVIMENTO DE UM PARSER DE CONECTORES TEXTUAIS E SUA APLICAÇÃO PARA ANÁLISE DE. Leonardo Zilio(Letras/UFRGS) Rodrigo Wilkens(PPG-Comp/UFRGS) DESENVOLVIMENTO DE UM PARSER DE CONECTORES TEXTUAIS E SUA APLICAÇÃO PARA ANÁLISE DE GÊNEROS TEXTUAIS Leonardo Zilio(Letras/UFRGS) Rodrigo Wilkens(PPG-Comp/UFRGS) IX ELC Porto Alegre 08 de Outubro de 2010

Leia mais

ARS Ferramenta de anotação de relações semânticas em textos escritos em português do Brasil

ARS Ferramenta de anotação de relações semânticas em textos escritos em português do Brasil Universidade de São Paulo - USP Universidade Federal de São Carlos - UFSCar Universidade Estadual Paulista - UNESP ARS Ferramenta de anotação de relações semânticas em textos escritos em português do Brasil

Leia mais

MCZA Processamento de Linguagem Natural Semântica e similaridade de palavras: Parte I

MCZA Processamento de Linguagem Natural Semântica e similaridade de palavras: Parte I MCZA017-13 Processamento de Linguagem Natural Semântica e similaridade de palavras: Parte I Prof. Jesús P. Mena-Chalco jesus.mena@ufabc.edu.br 1Q-2018 1 Bibliografia Daniel Jurafsky & James H. Martin.

Leia mais

Apresentação. !! Familiarização com os métodos de construção de compiladores de linguagens e com as técnicas de compilação mais habituais.

Apresentação. !! Familiarização com os métodos de construção de compiladores de linguagens e com as técnicas de compilação mais habituais. Apresentação Universidade dos Açores Departamento de Matemática www.uac.pt/~hguerra/!! Aquisição de conceitos sobre a definição de linguagens de programação.!! Familiarização com os métodos de construção

Leia mais

ALINHAMENTO MANUAL DE TEXTOS E SUMÁRIOS EM UM CORPUS JORNALÍSTICO MULTIDOCUMENTO

ALINHAMENTO MANUAL DE TEXTOS E SUMÁRIOS EM UM CORPUS JORNALÍSTICO MULTIDOCUMENTO ALINHAMENTO MANUAL DE TEXTOS E SUMÁRIOS EM UM CORPUS JORNALÍSTICO MULTIDOCUMENTO 1. Introdução Com o imenso volume de informação disponível na web, necessita-se de estratégias que permitam absorvê-la de

Leia mais

SCC-5832 Teoria da Computação

SCC-5832 Teoria da Computação Teoria da Computação SCC-5832 Teoria da Computação João Luís Garcia Rosa 1 1 Departamento de Ciências de Computação Instituto de Ciências Matemáticas e de Computação Universidade de São Paulo - São Carlos

Leia mais

Introdução ao Processamento de Línguas Naturais. SCC5908 Introdução ao Processamento de Língua Natural. Thiago A. S. Pardo

Introdução ao Processamento de Línguas Naturais. SCC5908 Introdução ao Processamento de Língua Natural. Thiago A. S. Pardo /0/0 Introdução ao Processamento de Línguas Naturais SCC5908 Introdução ao Processamento de Língua Natural Thiago A. S. Pardo Dilemas no Brasil Como lidar com a interdisciplinaridade Linda no papel, complicada

Leia mais

Como as aplicações de entretenimento (em especial jogos digitais) têm enfrentado um constante crescimento, tanto em tamanho quanto em complexidade,

Como as aplicações de entretenimento (em especial jogos digitais) têm enfrentado um constante crescimento, tanto em tamanho quanto em complexidade, 1 Introdução Como as aplicações de entretenimento (em especial jogos digitais) têm enfrentado um constante crescimento, tanto em tamanho quanto em complexidade, os desafios encontrados durante o desenvolvimento

Leia mais

Linguagens Formais e Autômatos (BBC242) Professor: Anderson Almeida Ferreira DECOM-UFOP

Linguagens Formais e Autômatos (BBC242) Professor: Anderson Almeida Ferreira DECOM-UFOP Linguagens Formais e Autômatos (BBC242) Professor: Anderson Almeida Ferreira DECOM-UFOP Ementa Gramáticas. Linguagens Regulares, Livres-de-Contexto e Sensíveis-ao- Contexto. Tipos de Reconhecedores. Operações

Leia mais

GUIA PARA ANOTAÇÃO LINGUÍSTICA USANDO A FERRAMENTA SALTO

GUIA PARA ANOTAÇÃO LINGUÍSTICA USANDO A FERRAMENTA SALTO GUIA PARA ANOTAÇÃO LINGUÍSTICA USANDO A FERRAMENTA SALTO Por: Magali Sanches Duran Organizei este guia sob a forma de perguntas e respostas a fim de apoiar o minicurso "Anotação Semântica na prática: apresentação

Leia mais

COMPILADORES PROGRAMA E BIBLIOGRAFIA

COMPILADORES PROGRAMA E BIBLIOGRAFIA COMPILADORES PROGRAMA E BIBLIOGRAFIA Mariza A. S. Bigonha e Roberto S. Bigonha UFMG 27 de maio de 2008 Todos os direitos reservados Proibida cópia sem autorização dos autores OBJETIVOS DO CURSO Ensinar

Leia mais

OntoLP: Engenharia de Ontologias em Língua Portuguesa

OntoLP: Engenharia de Ontologias em Língua Portuguesa OntoLP: Engenharia de Ontologias em Língua Portuguesa Luiz Carlos Ribeiro Jr. (PUCRS, lucarijr@gmail.com) Renata Vieira (PUCRS, renata.vieira@gmail.com) Patrícia Nunes Gonçalves (PUCRS, patt.nunes@gmail.com)

Leia mais

UNIVERSIDADE LUSÍADA DE LISBOA. Programa da Unidade Curricular TEORIA DA COMPUTAÇÃO Ano Lectivo 2017/2018

UNIVERSIDADE LUSÍADA DE LISBOA. Programa da Unidade Curricular TEORIA DA COMPUTAÇÃO Ano Lectivo 2017/2018 Programa da Unidade Curricular TEORIA DA COMPUTAÇÃO Ano Lectivo 2017/2018 1. Unidade Orgânica Ciências da Economia e da Empresa (1º Ciclo) 2. Curso Engenharia Informática 3. Ciclo de Estudos 1º 4. Unidade

Leia mais

SCC Introdução à Teoria da Computação

SCC Introdução à Teoria da Computação SCC-0505 João Luís Garcia Rosa 1 1 Departamento de Ciências de Computação Instituto de Ciências Matemáticas e de Computação Universidade de São Paulo - São Carlos http://www.icmc.usp.br/~joaoluis/ joaoluis@icmc.usp.br

Leia mais

Universidade de Santa Cruz do Sul UNISC Departamento de informática COMPILADORES. Introdução. Geovane Griesang

Universidade de Santa Cruz do Sul UNISC Departamento de informática COMPILADORES. Introdução. Geovane Griesang Universidade de Santa Cruz do Sul UNISC Departamento de informática COMPILADORES Introdução geovanegriesang@unisc.br Processadores de linguagem Linguagens de programação são notações para se descrever

Leia mais

Extração de paráfrases em português a partir de léxicos bilíngues: um estudo de caso

Extração de paráfrases em português a partir de léxicos bilíngues: um estudo de caso Extração de paráfrases em português a partir de léxicos bilíngues: um estudo de caso Paulo César Polastri 1,2, Helena de Medeiros Caseli 1,2, Eloize Rossi Marques Seno 2,3 1 Departamento de Computação,

Leia mais

Corretor Gramatical Para o Emacs

Corretor Gramatical Para o Emacs Trabalho de Conclusão de Curso Thiago Maciel batista Orientador: Prof. Dr. Marcelo Finger Instituto de Matemática e Estatística Universidade de São Paulo 16 de novembro de 2010 Roteiro 1 Introdução 2 Processamento

Leia mais

Prof. Dr. Marcos Castilho. Departamento de Informática/UFPR. 22 de Fevereiro de 2018

Prof. Dr. Marcos Castilho. Departamento de Informática/UFPR. 22 de Fevereiro de 2018 22 de Fevereiro de 2018 Motivação O que é um computador? O que é um algoritmo? Para que serve um algoritmo? Quando um algoritmo é bom? A análise de um algoritmo depende do computador? Motivação Em teoria

Leia mais

Extração de Alvos em Comentários de Notícias em Português baseada na Teoria da Centralização

Extração de Alvos em Comentários de Notícias em Português baseada na Teoria da Centralização Proceedings of Symposium in Information and Human Language Technology. Natal, RN, Brazil, November 4 7, 2015. c 2015 Sociedade Brasileira de Computação. Extração de Alvos em Comentários de Notícias em

Leia mais

Teoria da Computação (BBC244)

Teoria da Computação (BBC244) Teoria da Computação (BBC244) Professor: Anderson Almeida Ferreira anderson.ferreira@gmail.com http://www.decom.ufop.br/anderson Sala COM 10 DECOM-UFOP Ementa Gramáticas. Linguagens. Operações com Linguagens.

Leia mais

Etiquetação morfossintática de textos em português do Brasil no domínio do e-commerce

Etiquetação morfossintática de textos em português do Brasil no domínio do e-commerce Etiquetação morfossintática de textos em português do Brasil no domínio do e-commerce Márcio Lima Inácio 1,2, Helena de Medeiros Caseli 1 1 Departamento de Computação Universidade Federal de São Carlos

Leia mais

SCC Teoria da Computação e Linguagens Formais

SCC Teoria da Computação e Linguagens Formais SCC-0205 João Luís Garcia Rosa 1 1 Departamento de Ciências de Computação Instituto de Ciências Matemáticas e de Computação Universidade de São Paulo - São Carlos http://www.icmc.usp.br/~joaoluis/ joaoluis@icmc.usp.br

Leia mais

Linguagens Formais e Autômatos. Tiago Alves de Oliveira

Linguagens Formais e Autômatos. Tiago Alves de Oliveira Linguagens Formais e Autômatos Tiago Alves de Oliveira Ementa Linguagens Regulares; Máquinas de Turing; O Problema da Parada da Máquina de Turing; Autômatos Finitos; Linguagens Livres de Contexto; Autômatos

Leia mais

ESTUDOS DA TRADUÇÃO II. Prof. Carlos Rodrigues 11 de abril de 2015

ESTUDOS DA TRADUÇÃO II. Prof. Carlos Rodrigues 11 de abril de 2015 ESTUDOS DA TRADUÇÃO II Prof. Carlos Rodrigues 11 de abril de 2015 O que são corpora eletrônicos? Como os corpora eletrônicos contribuem com a atividade dos tradutores e intérpretes? Corpus/ Corpora? Corpora

Leia mais

Prof. Heitor Silvério Lopes

Prof. Heitor Silvério Lopes Prof. Heitor Silvério Lopes WEKA WEKA: Waikato Environment for Knowledge Analysis Iniciado em 1992, versão estável atual: 3.8.1 É um software para mineração de dados desenvolvido em Java com código aberto

Leia mais

Castro (2008, p.7) define a palavra ontologia de forma mais simplificada:

Castro (2008, p.7) define a palavra ontologia de forma mais simplificada: Recuperação de Informação baseada em Castro (2008, p.7) define a palavra ontologia de forma mais simplificada: Ela é o resultado da junção de dois termos gregos onta (entes) e logos (teoria, discurso,

Leia mais

Implementação de Kernel Customizado Aplicado à Análise de Sentimentos em Resenhas de Filmes

Implementação de Kernel Customizado Aplicado à Análise de Sentimentos em Resenhas de Filmes Implementação de Kernel Customizado Aplicado à Análise de Sentimentos em Resenhas de Filmes Luciana Kayo e Paulo Mei Prof. Dr. Marco Dimas Gubitoso Introdução Inspiração na competição When Bag of Words

Leia mais

Compressão de Textos. Introdução. Introdução. Introdução. O volume de informação textual disponível on-line é imenso:

Compressão de Textos. Introdução. Introdução. Introdução. O volume de informação textual disponível on-line é imenso: Compressão de Textos Estrutura de Dados II Prof. Guilherme Tavares de Assis Universidade Federal de Ouro Preto UFOP Instituto de Ciências Exatas e Biológicas ICEB Departamento de Computação DECOM O volume

Leia mais

MCZA Processamento de Linguagem Natural Reconhecimento de entidades nomeadas

MCZA Processamento de Linguagem Natural Reconhecimento de entidades nomeadas MCZA017-13 Processamento de Linguagem Natural Reconhecimento de entidades nomeadas Prof. Jesús P. Mena-Chalco jesus.mena@ufabc.edu.br 1Q-2018 1 2 3 Bibliografia Daniel Jurafsky & James H. Martin. Speech

Leia mais

PROJETO DE PROGRAMAS. Projeto de Programas PPR0001

PROJETO DE PROGRAMAS. Projeto de Programas PPR0001 PROJETO DE PROGRAMAS Projeto de Programas PPR0001 Desenvolvimento de Software 2 3 Desenvolvimento de Software Análise de Requisitos Distinguir e dividir o sistema em componentes: Analisar os componentes

Leia mais

Identificadores Nome de variáveis, constantes, métodos, etc...

Identificadores Nome de variáveis, constantes, métodos, etc... IV.2 Aspectos Léxicos Convencionais Classes de símbolos Genéricos Token genérico / Lei de formação bem definida Podem possuir limitações de tamanho e/ou valor Possuem valor semântico o token deve ser acompanhado

Leia mais

Compiladores. Análise Léxica

Compiladores. Análise Léxica Compiladores Análise Léxica Regras Léxicas Especificam o conjunto de caracteres que constituem o alfabeto da linguagem, bem como a maneira que eles podem ser combinados; Exemplo Pascal: letras maiúsculas

Leia mais

Fusão Automática de Sentenças Similares em Português

Fusão Automática de Sentenças Similares em Português Fusão Automática de Sentenças Similares em Português Eloize Rossi Marques Seno, Maria das Graças Volpe Nunes NILC ICMC Unisidade de São Paulo Caixa Postal 668 13560-970 São Carlos SP Brasil {eloize,gracan}@icmc.usp.br

Leia mais

Pesquisa Digital PATRICIA para Consultas a Banco de Dados em Linguagem Natural

Pesquisa Digital PATRICIA para Consultas a Banco de Dados em Linguagem Natural Pesquisa Digital PATRICIA para Consultas a Banco de Dados em Linguagem Natural Rodrigo Bonone Moreira 1, Alexandre de Oliveira Zamberlan 1 1 UNIFRA Centro Universitário Franciscano Curso de Ciência da

Leia mais

Os tipos de anotações, a codificação, e as interfaces do Projeto Lácio-Web: Quão longe estamos dos padrões internacionais para córpus?

Os tipos de anotações, a codificação, e as interfaces do Projeto Lácio-Web: Quão longe estamos dos padrões internacionais para córpus? Os tipos de anotações, a codificação, e as interfaces do Projeto Lácio-Web: Quão longe estamos dos padrões internacionais para córpus? Sandra Maria Aluísio 1,2, Leandro H. M. de Oliveira 1, Gisele Montilha

Leia mais

PROCESSAMENTO DE LINGUAGEM NATURAL (PLN): FERRAMENTAS E DESAFIOS

PROCESSAMENTO DE LINGUAGEM NATURAL (PLN): FERRAMENTAS E DESAFIOS PROCESSAMENTO DE LINGUAGEM NATURAL (PLN): FERRAMENTAS E DESAFIOS Lucas Matheus Santos Andrade, Rafael Couto Barros, Marcelo Anderson Batista dos Santos Instituto Federal de Educação, Ciência e Tecnologia

Leia mais

TeMário 2006: Estendendo o Córpus TeMário

TeMário 2006: Estendendo o Córpus TeMário Universidade de São Paulo - USP Universidade Federal de São Carlos - UFSCar Universidade Estadual Paulista - UNESP TeMário 2006: Estendendo o Córpus TeMário Erick Galani Maziero Vinícius Rodrigues de Uzêda

Leia mais

Fazendo máquinas enxergarem com OpenCV. TCHÊLINUX 2017 Felipe Aguiar Corrêa

Fazendo máquinas enxergarem com OpenCV. TCHÊLINUX 2017 Felipe Aguiar Corrêa Fazendo máquinas enxergarem com OpenCV TCHÊLINUX 2017 Felipe Aguiar Corrêa Quem é esse cara aí? UFPEL Ciência da Computação Visão Computacional Rastreamento de Pedestres Visão Computacional Sub-área da

Leia mais

Noções de grafos (dirigidos)

Noções de grafos (dirigidos) Noções de grafos (dirigidos) Grafo G = (V, E) é um conjunto de vértices (ou nós) V e um conjunto de arcos E V V. 1 2 5 3 4 G = ({1, 2, 3, 4, 5}, {(1, 2), (2, 3), (2, 4), (3, 2), (3, 4), (4, 4)}) Um arco

Leia mais

Compiladores. Motivação. Tradutores. Motivação. Tipos de Tradutores. Tipos de Tradutores

Compiladores. Motivação. Tradutores. Motivação. Tipos de Tradutores. Tipos de Tradutores Motivação Prof. Sérgio Faustino Compiladores Conhecimento das estruturas e algoritmos usados na implementação de linguagens: noções importantes sobre uso de memória, eficiência, etc. Aplicabilidade freqüente

Leia mais

UFCG IQuanta DSC. Cheyenne R. G. Isidro Bernardo Lula Júnior

UFCG IQuanta DSC. Cheyenne R. G. Isidro Bernardo Lula Júnior Um Algoritmo para Transformar Autômatos Finitos Não- Determinísticos em Autômatos Finitos Quânticos Preservando o Número de Estados e a Linguagem Reconhecida Cheyenne R. G. Isidro cha@dsc.ufcg.edu.br Bernardo

Leia mais

INE5317 Linguagens Formais e Compiladores. Ricardo Azambuja Silveira INE-CTC-UFSC URL:

INE5317 Linguagens Formais e Compiladores. Ricardo Azambuja Silveira INE-CTC-UFSC   URL: INE5317 Linguagens Formais e Compiladores Ricardo Azambuja Silveira INE-CTC-UFSC E-Mail: silveira@inf.ufsc.br URL: www.inf.ufsc.br/~silveira Plano de Ensino OBJETIVO GERAL: Estudar a teoria das linguagens

Leia mais

XML. Prof. Júlio Machado

XML. Prof. Júlio Machado XML Prof. Júlio Machado julio.machado@pucrs.br INTRODUÇÃO O que é XML? É a sigla de Extensible Markup Language Linguagem de especificação para descrever dados Padrão aberto e largamente usado Definido

Leia mais

Implementação de um Modelo para Previsão de Evasão Escolar no IFSULDEMINAS

Implementação de um Modelo para Previsão de Evasão Escolar no IFSULDEMINAS 6ª Jornada Científica e Tecnológica e 3º Simpósio de Pós-Graduação do IFSULDEMINAS 04 e 05 de novembro de 2014, Pouso Alegre/MG Implementação de um Modelo para Previsão de Evasão Escolar no IFSULDEMINAS

Leia mais

Identificação de Pontos Perceptualmente Importantes (PIP) em séries temporais de tópicos extraídos de dados textuais

Identificação de Pontos Perceptualmente Importantes (PIP) em séries temporais de tópicos extraídos de dados textuais Universidade de São Paulo Biblioteca Digital da Produção Intelectual - BDPI Departamento de Ciências de Computação - ICMC/SCC Comunicações em Eventos - ICMC/SCC 2015 Identificação de Pontos Perceptualmente

Leia mais

Turma A - Segundas e Quartas das 8h30min - 10h10min Turma B - Segundas e Quartas das 10h30min - 12h10min

Turma A - Segundas e Quartas das 8h30min - 10h10min Turma B - Segundas e Quartas das 10h30min - 12h10min UNIVERSIDADE DEDERAL DO RIO GRANDE DO SUL INSTITUTO DE INFORMÁTICA DEPARTAMENTO DE INFORMÁTICA TEÓRICA 2 Semestre 2008 04/08/2008 a 12/12/2008 DISCIPLINA: TEORIA DA COMPUTAÇÃO N CÓDIGO: INF05501. Horário:

Leia mais

PLN e áreas correlatas

PLN e áreas correlatas Introdução ao Processamento de Línguas Naturais SCC5869 Tópicos em Processamento de Língua Natural Thiago A. S. Pardo PLN e áreas correlatas Limites entre PLN e outras áreas: como percebem isso? Recuperação

Leia mais

Compiladores I Prof. Ricardo Santos (cap 1)

Compiladores I Prof. Ricardo Santos (cap 1) Compiladores I Prof. Ricardo Santos (cap 1) Compiladores Linguagens de programação são notações que permitem descrever como programas devem executar em uma máquina Mas, antes do programa executar, deve

Leia mais

Construção de Compiladores

Construção de Compiladores Construção de Compiladores Parte 1 Introdução Linguagens e Gramáticas F.A. Vanini IC Unicamp Klais Soluções Motivação Porque compiladores? São ferramentas fundamentais no processo de desenvolvimento de

Leia mais

Exercicios. 7.2 Quais das seguintes afirmações são verdadeiras? Justifica. (d) abcd L((a(cd) b) )

Exercicios. 7.2 Quais das seguintes afirmações são verdadeiras? Justifica. (d) abcd L((a(cd) b) ) Exercicios 7.1 Escreve expressões regulares para cada uma das seguintes linguagens de Σ = {a, b}: (a) palavras com não mais do que três as (b) palavras com um número de as divisível por três (c) palavras

Leia mais

Determinação de vícios refrativos oculares utilizando Support Vector Machines

Determinação de vícios refrativos oculares utilizando Support Vector Machines Determinação de vícios refrativos oculares utilizando Support Vector Machines Giampaolo Luiz Libralão, André Ponce de Leon F. de Carvalho, Antonio Valerio Netto, Maria Cristina Ferreira de Oliveira Instituto

Leia mais

MCZA Processamento de Linguagem Natural Semântica e similaridade de palavras: Parte III

MCZA Processamento de Linguagem Natural Semântica e similaridade de palavras: Parte III MCZA017-13 Processamento de Linguagem Natural Semântica e similaridade de palavras: Parte III Prof. Jesús P. Mena-Chalco jesus.mena@ufabc.edu.br 1Q-2018 1 Bibliografia Daniel Jurafsky & James H. Martin.

Leia mais

EXTRAÇÃO AUTOMÁTICA DE ESTRUTURAS DE SUBCATEGORIZAÇÃO A PARTIR DE CORPORA EM PORTUGUÊS

EXTRAÇÃO AUTOMÁTICA DE ESTRUTURAS DE SUBCATEGORIZAÇÃO A PARTIR DE CORPORA EM PORTUGUÊS EXTRAÇÃO AUTOMÁTICA DE ESTRUTURAS DE SUBCATEGORIZAÇÃO A PARTIR DE CORPORA EM PORTUGUÊS Leonardo Zilio (PPG-Letras/UFRGS) Adriano Zanette (PPG-Computação/UFRGS) Carolina Scarton (ICMC/USP) Introdução A

Leia mais

Pedro Paulo Balage Filho

Pedro Paulo Balage Filho Interface Web para o projeto: Sumarização Automática Multidocumento para o Português do Brasil com Base na Teoria de Estruturação Multidocumento CST (Cross-documentStructure Theory) Pedro Paulo Balage

Leia mais

Classificação Automática de Gêneros Musicais

Classificação Automática de Gêneros Musicais Introdução Método Experimentos Conclusões Utilizando Métodos de Bagging e Boosting Carlos N. Silla Jr. Celso Kaestner Alessandro Koerich Pontifícia Universidade Católica do Paraná Programa de Pós-Graduação

Leia mais

Tratamento dos Erros de Sintaxe. Adriano Maranhão

Tratamento dos Erros de Sintaxe. Adriano Maranhão Tratamento dos Erros de Sintaxe Adriano Maranhão Introdução Se um compilador tivesse que processar somente programas corretos, seu projeto e sua implementação seriam grandemente simplificados. Mas os programadores

Leia mais

Manual OntoLP. 1-Introdução ao OntoLP Instalação do OntoLP Executando o OntoLP Observação Importante...4

Manual OntoLP. 1-Introdução ao OntoLP Instalação do OntoLP Executando o OntoLP Observação Importante...4 Manual OntoLP Sumário: 1-Introdução ao OntoLP...2 2-Instalação do OntoLP...2 3-Executando o OntoLP...2 4-Observação Importante...4 5-Aba de Carga do Corpus...5 6-Aba de Extração de Termos...7 7- Aba de

Leia mais

Classificação de Sentença

Classificação de Sentença Universidade Federal de São Carlos - UFSCar Departamento de Computação - DC Programa de Pós-Graduação em Ciência da Computação - PPGCC Aluno: Pablo Freire Matos Orientador: Dr. Ricardo Rodrigues Ciferri

Leia mais

Linguagens Formais e Autômatos

Linguagens Formais e Autômatos Linguagens Formais e Autômatos Contextualização Prof.ª Aracele Garcia de Oliveira Fassbinder IFSULDEMINAS Campus Muzambinho Muzambinho, Fevereiro de 2012 Sobre esta disciplina O que é uma linguagem formal?

Leia mais

Categorização de Textos da Língua Portuguesa com Árvores de Decisão, SVM e Informações Lingüísticas

Categorização de Textos da Língua Portuguesa com Árvores de Decisão, SVM e Informações Lingüísticas Categorização de Textos da Língua Portuguesa com Árvores de Decisão, SVM e Informações Lingüísticas Cassiana Fagundes da Silva 1, Renata Vieira 2 1 Faculdade Seama Av. Nações Unidas, 1201 Jesus de Nazaré

Leia mais

Introdução parte II. Compiladores. Mariella Berger

Introdução parte II. Compiladores. Mariella Berger Introdução parte II Compiladores Mariella Berger Sumário Partes de um compilador Gerador da Tabela de Símbolos Detecção de erros As fases da análise As fases de um compilador Montadores O que é um Compilador?

Leia mais

Geração Automática de Metadados

Geração Automática de Metadados Geração Automática de Metadados José David Fernández Curado Instituto de Matemática e Estatística - Universidade de São Paulo November 17, 2010 1 Introdução Motivação Metadados 2 Algoritmos de Geração

Leia mais

Mineração de Textos na Web

Mineração de Textos na Web Mineração de Textos na Web Luciano Antonio Digiampietri Escola de Artes Ciências e Humanidades da Universidade de São Paulo digiampietri@usp.br Resumo: Com o crescimento das informações disponíveis na

Leia mais

SCC Capítulo 3 Linguagens Sensíveis ao Contexto e Autômatos Limitados Linearmente

SCC Capítulo 3 Linguagens Sensíveis ao Contexto e Autômatos Limitados Linearmente SCC-505 - Capítulo 3 Linguagens Sensíveis ao Contexto e João Luís Garcia Rosa 1 1 Departamento de Ciências de Computação Instituto de Ciências Matemáticas e de Computação - Universidade de São Paulo http://www.icmc.usp.br/~joaoluis

Leia mais