Classificação de Relações Abertas utilizando Similaridade entre Estruturas Gramaticais

Tamanho: px
Começar a partir da página:

Download "Classificação de Relações Abertas utilizando Similaridade entre Estruturas Gramaticais"

Transcrição

1 Classificação de Relações Abertas utilizando Similaridade entre Estruturas Gramaticais George C. G. Barbosa 1, Daniela Barreiro Claro 1 1 FORMAS - Grupo de Pesquisa em Formalismos e Aplicações Semânticas Departamento de Ciência da Computação (DCC) Universidade Federal da Bahia (UFBA) Av. Adhemar de Barros, s/n, Ondina Salvador BA Brasil gcgbarbosa@gmail.com, dclaro@ufba.br Abstract. The amount of natural language data published over the Internet keeps growing faster than human capacity to process them. Thus, the information extraction technique becomes important to get useful information. This work aims to extract and classify semantic relations in a non-structured text. We proposed a method based on structural similarity. Multilingual and small training sets are one of our major contributions. Our preliminary results encourage and show a positive research direction. Keywords: information extraction, open relation extraction, multilingual; Resumo. A quantidade de dados publicados em linguagem natural na internet vem crescendo mais rápido do que a capacidade dos humanos em processálos. Desta forma, a técnica de extração de relações se torna importante na obtenção de informação útil e relevante. Este trabalho objetiv extrair e classificar relações semânticas em uma base de dados textual. Nossoo método proposto é baseado em similaridade entre estruturas gramaticais. Multilingual e um dataset de treino reduzido são algumas das principais contribuições deste trabalho. Os resultados preliminares encorajam e apresentam um direcionamento positivo da pesquisa. Palavras Chave: extração da informação, extração de relações abertas, multilingual; Mês e ano de ingresso no programa: Setembro/2014. Nível: Mestrado. Previsão para conclusão: Dezembro/2016. Etapas já concluídas: Etapa de Extração. Os experimentos preliminares foram realizados e evidenciaram que uma maior quantidade de relações amplia as possibilidades de classificá-las como válidas. Etapas futuras: Etapa de Classificação por similaridade das estruturas gramaticais. O desenvolvimento desta etapa está em andamento, restando finalizar a implementação do método proposto, realizar os experimentos e comparar os resultados propostos na literatura.

2 1. Introdução Um aumento nas operações policiais com a apreensão de computadores têm evidenciado um crescimento na análise dos documentos apreendidos. Estas análises são custosas e despendem tempo de peritos criminais responsáveis por extrair informações relevantes nas operações policiais. É evidente a necessidade de extrair informação destes documentos com o intuito de agilizar o processo da análise pericial e indiciação dos envolvidos no crime. Muitos esforços têm sido realizados no sentido de extrair informação desses textos [Fader et al. 2011]. A tarefa de aquisição de informação a partir de dados não estruturados ou semiestruturados é denominada de Extração da Informação (IE, do inglês Information Extraction). A IE pode ser classificada em aberta ou fechada. A IE fechada, também conhecida como tradicional, tem como objetivo extrair relações em um domínio específico, geralmente um conjunto pré-especificado de expressões [Schmitz et al. 2012]. O fato de existir um domínio fechado é um fator limitante pois dificulta a descoberta de novas informações. A IE aberta (OIE, do inglês Open Information Extraction) tem como principais objetivos: (i) independência de domínio, (ii) extração não supervisionada e (iii) escalabilidade para grandes bases de dados [Del Corro and Gemulla 2013]. Este trabalho aborda as IE abertas (OIE) devido a diversidade de domínio que podem ocorrer nas operações policiais. Dentro da IE existe a Extração de Relação (RE, do inglês Relation Extraction) que tem como objetivo extrair relações semânticas das sentenças [Faruqui and Kumar 2015]. A RE pode ser de domínio fechado ou aberto (ORE), na qual a primeira considera apenas um conjunto fechado de relações entre dois argumentos, e a segunda permite a extração de padrões de sentenças em uma determinada linguagem para identificar as relações existentes. A maioria dos trabalhos atuais realizam ORE exclusivamente para o Inglês. Esse idioma possui ferramentas linguísticas mais sofisticadas, como por exemplo, etiquetadores morfossintáticos, analisadores de NP, além de analisadores de árvores de dependência e por fim, grandes bases de treinamento. Muitas dessas ferramentas não estão disponíveis para outros idiomas. Esse fato eleva a necessidade de métodos independentes de idioma. Além do esforço para desenvolver modelos para outros idiomas, a construção da base de treinamento é um fator proibitivo. Normalmente, estas bases de treinamento necessitam de um especialista para rotular manualmente as relações extraídas, o que demanda muito tempo. Com o intuito de minimizar este esforço na criação das bases de treinamento, uma base reduzida, conforme proposto em [Souza and Claro 2014] para o Português do Brasil, para o inglês foi utilizada como base de treinamento, minimizando os esforços manuais para rotulá-la. Assim, este trabalho objetiva extrair e classificar as relações abertas considerando os padrões morfológicos e a similaridade entre estruturas gramaticais (SEG), evidenciando a utilização da base reduzida e da abordagem multilingual. Sendo c 1 e c 2 dois conjuntos de classes gramaticais obtidos a partir de duas sentenças s 1 e s 2, o método proposto (SEG) pode ser definido como uma função f(c 1, c 2 ) que retorna a similaridade entre as duas sentenças. Os resultados evidenciaram uma classificação promissora com a base reduzida de treinamento.

3 As próximas seções estão organizadas da seguinte forma: a seção 2 apresenta os trabalhos correlatos, a seção 3 explica as contribuições deste trabalho, na seção 4 são apresentados os experimentos preliminares e, por fim, a seção 5 traz as conclusões parciais e os trabalhos futuros. 2. Trabalhos Correlatos Duas abordagens principais têm sido utilizadas para extrair relações abertas. Essas abordagens são classificadas por este trabalho em primeira e segunda geração. A primeira geração obtém extratos na forma (e 1, frase relacional, e 2 ) em três etapas [Wu and Weld 2010]: 1. Etiquetação: As sentenças são etiquetadas automaticamente através de heurísticas ou a partir de supervisão distante (treinamento semi-supervisionado); 2. Aprendizado: Um extrator de frases relacionais é treinado utilizando um modelo de etiquetação sequencial (ex: CRF); 3. Extração: Um conjunto de argumentos (e 1, e 2 ) é identificado na sentença de teste. Em seguida o extrator treinado na etapa 2 é utilizado para etiquetar as palavras contidas entre os argumentos e compor a frase relacional (caso ela exista), extraindo a relação no formato (e 1, fraserelacional, e 2 ). Os primeiros trabalhos que seguiram esta abordagem foram [Banko et al. 2007], [Banko et al. 2008] e [Fader et al. 2011]. Autores em [Banko et al. 2007] introduziram a OIE através do TextRunner que faz uso de etiquetação gramatical (POS, do inglês Part-of-Speech) e etiquetação de frases nominais (NP, do inglês Noun Phrase), e um classificador Naive Bayes treinado usando exemplos gerados a partir do Penn Tree Bank [Marcus et al. 1993]. Trabalhos sucessores [Banko et al. 2008] demostraram que a utilização de uma cadeia linear CRF melhorava a qualidade das extrações. Em seguida, os autores em [Wu and Weld 2010] demonstraram com o WOE P arse que era possível usar as tabelas de informação presentes nas páginas da Wikipedia como fonte de treinamento, o que resultou em uma melhora na cobertura em decorrência da disponibilidade de uma grande base de treino. A principal desvantagem da abordagem da primeira geração se dá pela necessidade da etiquetação de uma grande base de dados, da ordem de milhares de sentenças. Isto implica em alto custo de construção dos conjuntos de treinamento, além da demanda de recursos linguísticos sofisticados para viabilizar a etiquetação automática, dificilmente encontrados fora do idioma Inglês. Além disso, o método de extração por etiquetação sequencial é pouco eficaz em sentenças maiores, pois há um aumento da incerteza na associação de cada etiqueta a uma palavra à medida que a sequência cresce [Souza and Claro 2014]. A segunda geração é a atualmente utilizada e foi desenvolvida para contornar algumas das limitações apresentadas por meio de modificações nas estratégias na etapa de extração. Nesta nova abordagem, primeiramente é realizada a etapa de extração, seguida pelo aprendizado necessário e por fim a classificação das relações conforme descrito abaixo: 1. Extração: Inicialmente, um extrator baseado em padrões linguísticos (ex: padrões verbais) seleciona uma sequência de palavras que representa a relação semântica

4 entre e 1 e e 2, identificando frases relacionais que correspondem a esses padrões. Em seguida, se um conjunto de argumentos (e 1, e 2 ) for identificado na sentença de teste, então é gerada a relação na forma (e 1, frase relacional, e 2 ); 2. Aprendizado: Um classificador de extrações é treinado por meio de um conjunto de features linguísticas; 3. Classificação: O classificador treinado na etapa 2 é utilizado para distinguir as relações válidas das inválidas geradas na etapa 1. A segunda geração tornou-se mais sólida com o ReVerb [Fader et al. 2011]. Ela substitui o aprendizado, na etapa de extração, pelo processamento de regras baseadas em padrões morfológicos. Após a extração das relações, um classificador é utilizado na remoção das extrações inválidas do conjunto que contém todas as relações extraídas. Esta abordagem permite uma redução significativa na cardinalidade do conjunto de treinamento, já que a complexidade do aprendizado para classificação das relações é inferior à do aprendizado para a identificação das relações. Por outro lado, a construção de conjuntos de treinamento a partir de features linguísticas eleva o custo de classificação, pois a identificação de features representativas requer uma análise mais aprofundada das características da língua no contexto do problema. Embora ainda pertencente à segunda geração, alguns trabalhos diferem na técnicas empregadas. O ReVerb [Fader et al. 2011] utiliza os padrões morfológicos na etapa de extração, enquanto alguns trabalhos mais recentes utilizam técnicas de análise de dependência que demostram um melhora na quantidade de relações extraídas [Schmitz et al. 2012, Del Corro and Gemulla 2013, Angeli et al. 2015]. O OLLIE [Schmitz et al. 2012] faz uso de um conjunto de padrões aprendidos a partir de um base de extrações de alto grau de confiança obtidos pelo ReVerb para extrair relações de forma aberta. Uma abordagem similar é utilizada no ClausIE [Del Corro and Gemulla 2013] no qual padrões identificados manualmente a partir da árvore de dependência das sentenças são utilizados para extrair relações. Em [Angeli et al. 2015] uma abordagem similar ao ClausIE é utilizada, porém, antes da etapa de extração são aplicadas técnicas para separar as sentenças em núcleos semânticos, de forma que as relações extraídas possuem relações mais curtas e informativas. Este trabalho se posiciona nesta segunda geração e trabalha com padrões gramaticais na etapa de Extração. Os padrões gramaticais utilizados no ReVerb para extração de relações em Inglês foram utilizados com êxito no Português por [Pereira and Pinheiro 2015]. Estes padrões gramaticais direcionam para uma independência de idioma na etapa de Extração. Os trabalhos anteriormente citados objetivam o idioma Inglês. Tanto o ReVerb quanto o TextRunner utilizam features baseadas em características específicas do Inglês. Em relação aos métodos que usam árvore de dependência sintática (OLLIE e CLAUSIE), os padrões utilizados para extração de relações são também específicos para o Inglês. Autores em [Faruqui and Kumar 2015] trazem uma abordagem para extrair relações, de forma independente de domínio, utilizando o OLLIE e o Google Translator. A sentença no idioma alvo é traduzida para o Inglês, as relações são extraídas utilizando o OLLIE e posteriormente a relação é traduzida novamente para o idioma alvo. Observouse que os erros inerentes ao processo de tradução são os principais fatores limitantes desse método.

5 Embora as features utilizadas estejam presentes na etapa de Extração, a etapa de classificação das relações extraídas também é dependente de idioma. Assim, a extração de relações baseadas em restrição sintática possui um bom nível de maturidade, tendo sido verificada a sua aplicabilidade em dois idiomas diferentes (PT-BR e EN). Porém, ainda é necessário o desenvolvimento de um método de classificação independente de idiomas. 3. Metodologia e Contribuições A Figura 1 descreve a arquitetura do método proposto neste trabalho. Esta proposta está dividida em: (1) extração e (2) classificação. Essas etapas estão descritas nas próximas subseções. Figura 1. Fluxograma de execução do método proposto 3.1. Extração Durante a etapa de extração uma base contendo texto em linguagem natural é recebida como entrada pelo método. Dentro da tarefa de NLP são realizadas as seguintes atividades: 1. Detecção de Sentenças: responsável por detectar o inicio e fim de cada sentença no texto; 2. Detecção de Tokens: responsável por detectar e separar cada palavra ou sinal de pontuação; 3. Etiquetador POS: responsável por atribuir uma classe morfológica a cada uma das palavras; 4. Etiquetador NP: identificar os sintagmas nominais dentro da sentença. Posteriormente é aplicada a restrição sintática com o objetivo de extrair as frases relacionais que combinam com o padrão descrito na Figura 2. Após a extração da frase relacional, as frases nominais mais próximas à esquerda e à direita na sentença são selecionadas, formando a tripla (e 1, fraserelacional, e 2 ). Por exemplo, a sentença A decisão sobre a UFM caberá ao prefeito Paulo Maluf. geraria a frase relacional caberá ao, por esta se tratar de um verbo seguido de preposição, sendo extraída a tripla ( A decisão sobre a UFM, caberá ao, prefeito Paulo Maluf )

6 Figura 2. Expressão regular para extração das relações [Fader et al. 2011] 3.2. Classificação A etapa de classificação concentra a principal contribuição deste trabalho. Os trabalhos em ORE, disponíveis na literatura para o Inglês, possuem em sua metodologia etapas dependentes de idioma. O presente trabalho propõe classificar as relações a partir da sua estrutura gramatical. As seguintes etapas fazem parte deste processo de classificação: 1. Construção da base reduzida: uma base reduzida (base de exemplos) é construída a partir de textos na língua alvo com relações obtidas da etapa de extração e classificada manualmente por um juiz; 2. Treinamento: a estrutura gramatical é mapeada em uma estrutura de grafos; 3. Classificação: o algoritmo SEG verifica a similaridade entre as relações comparando-as com estruturas similares presentes na base de exemplos. Dado três grafos da base de treinamento G t1, G t2 e G t3, onde G t1 foi classificado manualmente como válido e G t2 e G t3 são inválidos, o grafo da base de testes G ti é classificado baseado na comparação com os três grafos da base de exemplos. A Tabela 1 apresenta o cálculo de similaridade entre o grafo na base de teste G ti com os grafos na base de treinamento (G t1, G t2, G t3 ), obtendo os valores na Tabela 1. Tabela 1. Exemplo de comparação entre estruturas Comparação Similaridade G t1 G ti 0.95 G t3 G ti 0.63 G t2 G ti 0.57 Como o grafo G ti foi mais similar com G t1 e tendo G t1 sido classificado manualmente como válido, G ti é classificado pelo algoritmo também como válido. 4. Experimentos Preliminares Um experimento parcial foi realizado com o objetivo de avaliar a etapa de extração descrita na Seção 3. Esse experimento consistiu na validação do método proposto na etapa de extração aplicando-o em uma base em Inglês. A base foi disponibilizada por [Fader et al. 2011] e consiste em um arquivo de texto com 500 sentenças selecionadas da Web sem nenhum tipo de processamento prévio. A Figura 3 traz o número de extrações realizadas por cada ferramenta. É importante citar que no caso do SEG não houve uma etapa de classificação (o que justifica o maior número de extrações), porém, a metodologia utilizada enfatiza a importância de extrair o maior número de relações possível durante esta etapa. Isso mostra que o resultado

7 obtido é satisfatório, visto que amplia as possibilidades de classificação através do método proposto, que ainda está em desenvolvimento. Tendo o resultado da etapa de extração sido satisfatório, isso amplia as possibilidades de maximização na etapa de classificação. É notório observar que o número de extrações obtido com o SEG foi quase duplicado em relação as extrações obtidas pelo ReVerb [Fader et al. 2011]. Por fim, as extrações obtidas não foram analizadas quantitativamente, visto que não há uma separação explícita da etapa de classificação. Figura 3. Número de extrações obtidas por cada trabalho 5. Conclusões A maioria dos trabalhos atuais realizam ORE exclusivamente para o Inglês. Esse idioma possui ferramentas linguísticas mais sofisticadas e grandes bases de treinamento. Muitas dessas ferramentas não estão disponíveis para outros idiomas. Esse fato eleva a necessidade de métodos independentes de idiomas. Além disso, é importante observar que estes novos idiomas não possuem uma base de treinamento, o que demanda esforço e tempo para a construção da mesma. Este trabalho tem por objetivo reduzir o esforço nesta construção e consequentemente no processamento da etapa de classificação. A próxima etapa desse trabalho corresponde a conclusão do desenvolvimento e teste do método proposto denominado SEG. Espera-se que a utilização dessa abordagem apresente resultados similares ou melhores aos encontrados na literatura, com a vantagem da independência de idioma e necessidade de uma base de treinamento reduzida. Agradecimentos: à FAPESB pela concessão de bolsa de pesquisa BOL0334/2015. Referências Angeli, G., Premkumar, M. J., and Manning, C. D. (2015). Leveraging linguistic structure for open domain information extraction. Linguistics, (1/24). Banko, M., Cafarella, M. J., Soderland, S., Broadhead, M., and Etzioni, O. (2007). Open information extraction for the web. In IJCAI, volume 7, pages

8 Banko, M., Etzioni, O., and Center, T. (2008). The tradeoffs between open and traditional relation extraction. In ACL, volume 8, pages Del Corro, L. and Gemulla, R. (2013). Clausie: clause-based open information extraction. In Proceedings of the 22nd international conference on World Wide Web, pages ACM. Fader, A., Soderland, S., and Etzioni, O. (2011). Identifying relations for open information extraction. In Proceedings of the Conference on Empirical Methods in Natural Language Processing, pages Association for Computational Linguistics. Faruqui, M. and Kumar, S. (2015). Multilingual open relation extraction using crosslingual projection. arxiv preprint arxiv: Marcus, M. P., Marcinkiewicz, M. A., and Santorini, B. (1993). Building a large annotated corpus of english: The penn treebank. Computational linguistics, 19(2): Pereira, V. and Pinheiro, V. (2015). Report-um sistema de extração de informações aberta para língua portuguesa. In Proceedings of Symposium in Information and Human Language Technology, pages Sociedade Brasileira de Computação. Schmitz, M., Bart, R., Soderland, S., Etzioni, O., et al. (2012). Open language learning for information extraction. In Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, pages Association for Computational Linguistics. Souza, E. N. P. and Claro, D. B. (2014). Extração de relações utilizando features diferenciadas para português. Linguamática, 6(2): Wu, F. and Weld, D. S. (2010). Open information extraction using wikipedia. In Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics, pages Association for Computational Linguistics.

Utilizando Features Linguísticas Genéricas para Classificação de Triplas Relacionais em Português

Utilizando Features Linguísticas Genéricas para Classificação de Triplas Relacionais em Português Proceedings of Symposium in Information and Human Language Technology. Uberlândia, MG, Brazil, October 2 5, 2017. c 2017 Sociedade Brasileira de Computação. Utilizando Features Linguísticas Genéricas para

Leia mais

6 Atributos. A dívida da empresa subiu.

6 Atributos. A dívida da empresa subiu. 6 Atributos Para buscar o sentimento de um texto automaticamente precisamos encontrar boas pistas ao longo do discurso. Uma grande variedade de palavras e expressões possui conotação positiva ou negativa,

Leia mais

Extração de Relações Abertas Baseadas em Features para a Língua Portuguesa do Brasil

Extração de Relações Abertas Baseadas em Features para a Língua Portuguesa do Brasil Universidade Federal da Bahia Departamento de Ciências da Computação Colegiado de Ciência da Computação Extração de Relações Abertas Baseadas em Features para a Língua Portuguesa do Brasil Nemuel Leal

Leia mais

Índice. Classificação de textos para o ensino de português como segunda língua. Índice. technology from seed

Índice. Classificação de textos para o ensino de português como segunda língua. Índice. technology from seed Classificação de textos para o ensino de português como segunda língua Pedro Santos Curto Conclusões, Contribuições e Trabalho futuro 1 2 Motivação Aplicações e escala da classificação de textos Motivação

Leia mais

2 Sentiment Analysis 2.1

2 Sentiment Analysis 2.1 2 Sentiment Analysis 2.1 Definição do Problema Sentiment Analysis é um problema de categorização de texto no qual deseja-se detectar opiniões favoráveis e desfavoráveis com relação a um determinado tópico

Leia mais

Análise de sentimentos para português brasileiro usando redes neurais recursivas

Análise de sentimentos para português brasileiro usando redes neurais recursivas Análise de sentimentos para português brasileiro usando redes neurais recursivas Henrico Bertini Brum 1, Fábio Natanel Kepler 1 1 Ciência da Computação Universidade Federal do Pampa (UNIPAMPA) Caixa Postal

Leia mais

utilizando Features Diferenciadas para Português

utilizando Features Diferenciadas para Português Extração de Relações utilizando Features Diferenciadas para Português Relation Extraction using Di erent Features in Portuguese Erick Nilsen Pereira de Souza Universidade Federal da Bahia ericknilsen@gmail.com

Leia mais

4 Algoritmos de Aprendizado

4 Algoritmos de Aprendizado 4 Algoritmos de Aprendizado Este capítulo apresenta os algoritmos utilizados ao longo da dissertação e alguns utilizados como base por eles. Os algoritmos adotados são todos de aprendizado supervisionado.

Leia mais

Comparação dos algoritmos sequencial e paralelo para contagem de palavras e contexto

Comparação dos algoritmos sequencial e paralelo para contagem de palavras e contexto Comparação dos algoritmos sequencial e paralelo para contagem de palavras e contexto Eduardo Delazeri Ferreira, Francieli Zanon Boito, Aline Villavicencio 1. Introdução 1 Instituto de Informática - Universidade

Leia mais

Semântica no Reconhecedor Gramatical Linguístico

Semântica no Reconhecedor Gramatical Linguístico Workshop de Tecnologias Adaptativas WTA 2015 Semântica no Reconhecedor Gramatical Linguístico Ana Contier, Djalma Padovani, João José Neto Linguagem Natural - Desafios Crescente quantidade de documentos

Leia mais

Análise Sintática de Frases utilizando Gramáticas Livres de Contexto Probabilísticas

Análise Sintática de Frases utilizando Gramáticas Livres de Contexto Probabilísticas Universidade de São Paulo Mestrado em Ciência da Computação Instituto de Matemática e Estatística Disciplina MAC5725 Lingüística Computacional Análise Sintática de Frases utilizando Gramáticas Livres de

Leia mais

Brasil: Uma Adaptação da Expressão Regular para Frase Nominal

Brasil: Uma Adaptação da Expressão Regular para Frase Nominal Universidade Federal da Bahia - UFBA Instituto de Matemática - IM Departamento de Ciência de Computação - DCC Bacharelado em Sistemas de Informação - BSI Extração de Relação Aberta para o Português do

Leia mais

Descoberta de conhecimento em redes sociais e bases de dados públicas

Descoberta de conhecimento em redes sociais e bases de dados públicas Descoberta de conhecimento em redes sociais e bases de dados públicas Trabalho de Formatura Supervisionado Bacharelado em Ciência da Computação - IME USP Aluna: Fernanda de Camargo Magano Orientadora:

Leia mais

SQLLOMining: Obtenção de Objetos de Aprendizagem utilizando técnicas de Aprendizado de Máquina

SQLLOMining: Obtenção de Objetos de Aprendizagem utilizando técnicas de Aprendizado de Máquina Susana Rosich Soares Velloso SQLLOMining: Obtenção de Objetos de Aprendizagem utilizando técnicas de Aprendizado de Máquina Dissertação de Mestrado Dissertação apresentada como requisito parcial para obtenção

Leia mais

RePort - Um Sistema de Extração de Informações Aberta para Língua Portuguesa

RePort - Um Sistema de Extração de Informações Aberta para Língua Portuguesa Proceedings of Symposium in Information and Human Language Technology. Natal, RN, Brazil, November 4 7, 2015. c 2015 Sociedade Brasileira de Computação. RePort - Um Sistema de Extração de Informações Aberta

Leia mais

PROTÓTIPO PARA SUMARIZAÇÃO AUTOMÁTICA DE TEXTOS ESCRITOS EM LÍNGUA PORTUGUESA ALEXANDRE BUSARELLO JOYCE MARTINS

PROTÓTIPO PARA SUMARIZAÇÃO AUTOMÁTICA DE TEXTOS ESCRITOS EM LÍNGUA PORTUGUESA ALEXANDRE BUSARELLO JOYCE MARTINS PROTÓTIPO PARA SUMARIZAÇÃO AUTOMÁTICA DE TEXTOS ESCRITOS EM LÍNGUA PORTUGUESA ALEXANDRE BUSARELLO JOYCE MARTINS Roteiro Introdução Objetivos Fundamentação Teórica Especificação Implementação Operacionalidade

Leia mais

Extração e Representação Semântica de Fatos Temporais

Extração e Representação Semântica de Fatos Temporais Extração e Representação Semântica de Fatos Temporais Leandro Gallina 1, Renata Galante 1 1 Instituto de Informática Universidade Federal do Rio Grande do Sul (UFRGS) Caixa Postal 15.064 91.501-970 Porto

Leia mais

Extração de paráfrases em português a partir de léxicos bilíngues: um estudo de caso

Extração de paráfrases em português a partir de léxicos bilíngues: um estudo de caso Extração de paráfrases em português a partir de léxicos bilíngues: um estudo de caso Paulo César Polastri 1,2, Helena de Medeiros Caseli 1,2, Eloize Rossi Marques Seno 2,3 1 Departamento de Computação,

Leia mais

Deep Learning for Chinese Word Segmentation and POS Tagging

Deep Learning for Chinese Word Segmentation and POS Tagging Deep Learning for Chinese Word Segmentation and POS Tagging Lin Yu Han Universidade Federal do Paraná Novembro 2015 Tagging: Sumário Sumário Introdução. Arquitetura da Rede Neural Experimentos Considerações

Leia mais

Matéria: Desenho e desenvolvimento de tecnologias linguísticas

Matéria: Desenho e desenvolvimento de tecnologias linguísticas Introdução às tecnologias linguísticas Pablo Gamallo Otero Departamento de Língua Espanhola Universidade de Santiago de Compostela Matéria: Desenho e desenvolvimento de tecnologias linguísticas Mestrado

Leia mais

MODELO DE CLASSIFICAÇÃO AUTOMÁTICA DE QUESTÕES NA LÍNGUA PORTUGUESA Henrique Maia Braum 1, Sandro José Rigo 1, Jorge L. V.

MODELO DE CLASSIFICAÇÃO AUTOMÁTICA DE QUESTÕES NA LÍNGUA PORTUGUESA Henrique Maia Braum 1, Sandro José Rigo 1, Jorge L. V. CINTED- Novas Tecnologias na Educação 1 MODELO DE CLASSIFICAÇÃO AUTOMÁTICA DE QUESTÕES NA LÍNGUA PORTUGUESA Henrique Maia Braum 1, Sandro José Rigo 1, Jorge L. V. Barbosa 1 1 UNISINOS Universidade do Vale

Leia mais

Verificação automática de substantivos compostos através de reconhecimento de padrões sintáticos

Verificação automática de substantivos compostos através de reconhecimento de padrões sintáticos Universidade Federal do Rio Grande do Sul Grupo de Processamento de Linguagens Naturais Projeto Expressões Multipalavras Verificação automática de substantivos compostos através de reconhecimento de padrões

Leia mais

1.1 Tema Aprendizado de Máquina (Mit97) é o campo da Inteligência Artificial responsável pelo desenvolvimento de modelos inferidos automaticamente a

1.1 Tema Aprendizado de Máquina (Mit97) é o campo da Inteligência Artificial responsável pelo desenvolvimento de modelos inferidos automaticamente a 1 Introdução 1.1 Tema Aprendizado de Máquina (Mit97) é o campo da Inteligência Artificial responsável pelo desenvolvimento de modelos inferidos automaticamente a partir de dados. Existem diversas aplicações

Leia mais

Extração de Alvos em Comentários de Notícias em Português baseada na Teoria da Centralização

Extração de Alvos em Comentários de Notícias em Português baseada na Teoria da Centralização Proceedings of Symposium in Information and Human Language Technology. Natal, RN, Brazil, November 4 7, 2015. c 2015 Sociedade Brasileira de Computação. Extração de Alvos em Comentários de Notícias em

Leia mais

Mineração de Textos na Web

Mineração de Textos na Web Mineração de Textos na Web Luciano Antonio Digiampietri Escola de Artes Ciências e Humanidades da Universidade de São Paulo digiampietri@usp.br Resumo: Com o crescimento das informações disponíveis na

Leia mais

Geração de Modelo para Reconhecimento de Entidades Nomeadas no OpenNLP

Geração de Modelo para Reconhecimento de Entidades Nomeadas no OpenNLP Geração de Modelo para Reconhecimento de Entidades Nomeadas no OpenNLP Gabriel C. Chiele 1, Evandro Fonseca 1, Renata Vieira 1 1 Faculdade de Informática Pontifícia Universidade Católica do Rio Grande

Leia mais

Geração de features para resolução de correferência: Pessoa, Local e Organização

Geração de features para resolução de correferência: Pessoa, Local e Organização Geração de features para resolução de correferência: Pessoa, Local e Organização Evandro B. Fonseca 1, Renata Vieira 1, Aline A. Vanin 1 1 Faculdade de Informática Pontifícia Universidade Católica do Rio

Leia mais

SEMINÁRIO Visão Computacional Aluno: Afonso Pinheiro

SEMINÁRIO Visão Computacional Aluno: Afonso Pinheiro SEMINÁRIO Visão Computacional Aluno: Afonso Pinheiro Detecting Pedestrians Using Patterns of Motion and Appearance *Paul Viola *Michael J. Jones *Daniel Snow Por que detectar pedestres? http://conexaopenedo.com.br/2016/02/sistema-consegue-detectar-pedestres-em-tempo-real/

Leia mais

Análise Automática de Coerência Textual em Resumos Científicos: Avaliando Quebras de Linearidade

Análise Automática de Coerência Textual em Resumos Científicos: Avaliando Quebras de Linearidade Proceedings of Symposium in Information and Human Language Technology. Natal, RN, Brazil, November 4 7, 2015. c 2015 Sociedade Brasileira de Computação. Análise Automática de Coerência Textual em Resumos

Leia mais

Linguagens de Programação

Linguagens de Programação O estudante estuda muito. Regras: 7 9 12 14. . Regras: 2 4 . Regras: 1 Representar através de uma árvore de derivação. 77 O estudante estuda muito.

Leia mais

Classificação Hierárquica Multirrótulo Utilizando Redes Neurais Artificiais

Classificação Hierárquica Multirrótulo Utilizando Redes Neurais Artificiais Classificação Hierárquica Multirrótulo Utilizando Redes Neurais Artificiais Ricardo Cerri Instituto de Ciências Matemáticas e de Computação Universidade de São Paulo cerri@icmc.usp.br Roteiro Introdução

Leia mais

Classificadores Bayesianos

Classificadores Bayesianos Escola Politécnica da Universidade de São Paulo Departamento de Engenharia de Computação e Sistemas Digitais - PCS PCS5708 Técnicas de Raciocínio Probabilístico em Inteligência Artificial Classificadores

Leia mais

Identificação de Pontos Perceptualmente Importantes (PIP) em séries temporais de tópicos extraídos de dados textuais

Identificação de Pontos Perceptualmente Importantes (PIP) em séries temporais de tópicos extraídos de dados textuais Universidade de São Paulo Biblioteca Digital da Produção Intelectual - BDPI Departamento de Ciências de Computação - ICMC/SCC Comunicações em Eventos - ICMC/SCC 2015 Identificação de Pontos Perceptualmente

Leia mais

UMA FERRAMENTA PARA A PESQUISA EM CORPORA DE AQUISIÇÃO DE LINGUAGEM

UMA FERRAMENTA PARA A PESQUISA EM CORPORA DE AQUISIÇÃO DE LINGUAGEM UMA FERRAMENTA PARA A PESQUISA EM CORPORA DE AQUISIÇÃO DE LINGUAGEM 1. INTRODUÇÃO Corpora de linguagem dirigida a e produzida por crianças são recursos valiosos para estudos de aquisição da linguagem,

Leia mais

MCZA Processamento de Linguagem Natural Introdução

MCZA Processamento de Linguagem Natural Introdução MCZA017-13 Processamento de Linguagem Natural Introdução Prof. Jesús P. Mena-Chalco jesus.mena@ufabc.edu.br 1Q-2018 1 Motivação Processamento de Linguagem Natural (PLN) tem relação com: atividades que

Leia mais

Iam Vita Jabour. O Impacto de Atributos Estruturais na Identificação de Tabelas e Listas em Documentos HTML. Dissertação de Mestrado

Iam Vita Jabour. O Impacto de Atributos Estruturais na Identificação de Tabelas e Listas em Documentos HTML. Dissertação de Mestrado Iam Vita Jabour O Impacto de Atributos Estruturais na Identificação de Tabelas e Listas em Documentos HTML Dissertação de Mestrado Dissertação apresentada como requisito parcial para obtenção do grau de

Leia mais

INTRODUCTION TO TEXT MINING AND INFORMATION EXTRACTION. Daniela Barreiro Claro

INTRODUCTION TO TEXT MINING AND INFORMATION EXTRACTION. Daniela Barreiro Claro INTRODUCTION TO TEXT MINING AND INFORMATION EXTRACTION Daniela Barreiro Claro Outline Text Mining Information Retrieval Information Extraction 2 Introduction 3 Introduction 4 Introduction Intensive process

Leia mais

DESENVOLVIMENTO DE FERRAMENTAS PARA A CONSTRUÇÃO ÁGIL DE EXTRATORES DE INFORMAÇÃO. Matheus Silva Santos 1 Cassiano Bueno Silva 2 Eraldo R.

DESENVOLVIMENTO DE FERRAMENTAS PARA A CONSTRUÇÃO ÁGIL DE EXTRATORES DE INFORMAÇÃO. Matheus Silva Santos 1 Cassiano Bueno Silva 2 Eraldo R. DESENVOLVIMENTO DE FERRAMENTAS PARA A CONSTRUÇÃO ÁGIL DE EXTRATORES DE INFORMAÇÃO Matheus Silva Santos 1 Cassiano Bueno Silva 2 Eraldo R. Fernandes 3 1 Instituto Federal de Goiás/Campus Jataí/Técnico em

Leia mais

Extração de Informação Téc1 (Verbo e POS) e Téc2 (POS)

Extração de Informação Téc1 (Verbo e POS) e Téc2 (POS) Universidade Federal de São Carlos - UFSCar Departamento de Computação - DC Programa de Pós-Graduação em Ciência da Computação - PPGCC Téc1 (Verbo e POS) e Téc2 (POS) Aluno: Pablo Freire Matos Orientador:

Leia mais

UNIVERSIDADE FEDERAL DE PERNAMBUCO CENTRO DE INFORMÁTICA GRADUAÇÃO EM ENGENHARIA DA COMPUTAÇÃO

UNIVERSIDADE FEDERAL DE PERNAMBUCO CENTRO DE INFORMÁTICA GRADUAÇÃO EM ENGENHARIA DA COMPUTAÇÃO UNIVERSIDADE FEDERAL DE PERNAMBUCO CENTRO DE INFORMÁTICA GRADUAÇÃO EM ENGENHARIA DA COMPUTAÇÃO Sistema de Sumarização Automática de Textos Baseado em Classes de Documentos PROPOSTA DE TRABALHO DE GRADUAÇÃO

Leia mais

Desenvolvimento de Sistemas de Extração de Informações para Ambientes Colaborativos na Web

Desenvolvimento de Sistemas de Extração de Informações para Ambientes Colaborativos na Web Desenvolvimento de Sistemas de Extração de Informações para Ambientes Colaborativos na Web Douglas Nogueira 1, Vladia Pinheiro 2, Vasco Furtado 1, Tarcisio Pequeno 1 1 Mestrado em Informática Aplicada

Leia mais

Profª Ana Lúcia Lima Marreiros Maia Profª Fabiana Cristina Bertoni

Profª Ana Lúcia Lima Marreiros Maia Profª Fabiana Cristina Bertoni Profª Ana Lúcia Lima Marreiros Maia Profª Fabiana Cristina Bertoni Motivação e Objetivos Etapas do Desenvolvimento de um Sistema de Recuperação de Informações (SRI): Pré-processamento; Representação; Extração

Leia mais

Tratamento dos Erros de Sintaxe. Adriano Maranhão

Tratamento dos Erros de Sintaxe. Adriano Maranhão Tratamento dos Erros de Sintaxe Adriano Maranhão Introdução Se um compilador tivesse que processar somente programas corretos, seu projeto e sua implementação seriam grandemente simplificados. Mas os programadores

Leia mais

Aprendizado de Máquina

Aprendizado de Máquina Aprendizado de Máquina Principais tópicos Aprendizado profundo André C P L F de Carvalho Posdoutorando: Isvani Frias-Blanco ICMC-USP Introdução Redes profundas Aprendizado profundo Redes autodecodificadoras

Leia mais

Automatização de um Método de Avaliação de Estruturas Retóricas

Automatização de um Método de Avaliação de Estruturas Retóricas Automatização de um Método de Avaliação de Estruturas Retóricas Erick Galani Maziero (erickgm@grad.icmc.usp.br) Thiago Alexandre Salgueiro Pardo (taspardo@icmc.usp.br) Núcleo Interinstitucional de Lingüística

Leia mais

DESCOBERTA DO CONHECIMENTO COM O USO DE TEXT MINING APLICADA AO SAC TEXT MINING. Aluno José Lino Uber. Orientador Paulo Roberto Dias

DESCOBERTA DO CONHECIMENTO COM O USO DE TEXT MINING APLICADA AO SAC TEXT MINING. Aluno José Lino Uber. Orientador Paulo Roberto Dias DESCOBERTA DO CONHECIMENTO COM O USO DE TEXT MINING APLICADA AO SAC TEXT MINING Aluno José Lino Uber Orientador Paulo Roberto Dias Dezembro/2004 Roteiro Introdução Objetivo Conceitos Motivação / Tipos

Leia mais

Um Método para Melhoria de Dados Estruturados de Imóveis

Um Método para Melhoria de Dados Estruturados de Imóveis Universidade Federal de Pernambuco Centro de Informática Graduação em Ciência da Computação Um Método para Melhoria de Dados Estruturados de Imóveis Lucas Nunes de Souza Proposta de Trabalho de Graduação

Leia mais

Descoberta de Conhecimento em Bancos de Dados - KDD

Descoberta de Conhecimento em Bancos de Dados - KDD Descoberta de Conhecimento em Bancos de Dados - KDD Professor: Rosalvo Ferreira de Oliveira Neto Disciplina: Inteligência Artificial Tópicos 1. Definições 2. Fases do processo 3. Exemplo do DMC 4. Avaliação

Leia mais

Classificação Automática de Gêneros Musicais

Classificação Automática de Gêneros Musicais Introdução Método Experimentos Conclusões Utilizando Métodos de Bagging e Boosting Carlos N. Silla Jr. Celso Kaestner Alessandro Koerich Pontifícia Universidade Católica do Paraná Programa de Pós-Graduação

Leia mais

Uma ferramenta para expansão do vocabulário com base em coocorrência

Uma ferramenta para expansão do vocabulário com base em coocorrência Resumos Expandidos: XI Mostra de Estagiários e Bolsistas... 11 Uma ferramenta para expansão do vocabulário com base em coocorrência Exupério Lédo Silva Júnior 1 Roberta Akemi Sinoara 2 Solange Oliveira

Leia mais

Aprendizado de Máquina (Machine Learning)

Aprendizado de Máquina (Machine Learning) Ciência da Computação (Machine Learning) Aula 01 Motivação, áreas de aplicação e fundamentos Max Pereira Nem todo conhecimento tem o mesmo valor. O que torna determinado conhecimento mais importante que

Leia mais

7 Experimentos com Tarefas de PLN

7 Experimentos com Tarefas de PLN 7 Experimentos com Tarefas de PLN Com o objetivo de mostrar a qualidade dos classificadores gerados através das abordagens BAS apresentadas, conduzimos experimentos com duas classes de problemas de Processamento

Leia mais

Aprendizado de Máquina

Aprendizado de Máquina Universidade Federal do Espírito Santo Centro de Ciências Agrárias CCA UFES Departamento de Computação Aprendizado de Máquina Inteligência Artificial Site: http://jeiks.net E-mail: jacsonrcsilva@gmail.com

Leia mais

Uma Abordagem de Extração de Terminologia Para a Construção de uma Representação Atributo-valor a Partir de Documentos Não Estruturados

Uma Abordagem de Extração de Terminologia Para a Construção de uma Representação Atributo-valor a Partir de Documentos Não Estruturados Uma Abordagem de Extração de Terminologia Para a Construção de uma Representação Atributo-valor a Partir de Documentos Não Estruturados Daniel de Faveri Honorato 1, Maria Carolina Monard 1, and Huei Diana

Leia mais

MATA60 BANCO DE DADOS Aula: Otimização. Prof. Daniela Barreiro Claro

MATA60 BANCO DE DADOS Aula: Otimização. Prof. Daniela Barreiro Claro MATA60 BANCO DE DADOS Aula: Otimização Prof. Daniela Barreiro Claro Introdução a Otimização SQL, SQL3 e OQL são linguagens declarativas O SGBD deve processar e otimizar estas consultas antes delas serem

Leia mais

Minimização do Impacto do Problema de Desvio de Conceito por Meio de Acoplamento em Ambiente de Aprendizado Sem Fim

Minimização do Impacto do Problema de Desvio de Conceito por Meio de Acoplamento em Ambiente de Aprendizado Sem Fim Minimização do Impacto do Problema de Desvio de Conceito por Meio de Acoplamento em Ambiente de Aprendizado Sem Fim Maisa Cristina Duarte, Estevam R. Hruschka Jr., Maria do Carmo Nicoletti Departamento

Leia mais

OntoLP: Engenharia de Ontologias em Língua Portuguesa

OntoLP: Engenharia de Ontologias em Língua Portuguesa OntoLP: Engenharia de Ontologias em Língua Portuguesa Luiz Carlos Ribeiro Jr. (PUCRS, lucarijr@gmail.com) Renata Vieira (PUCRS, renata.vieira@gmail.com) Patrícia Nunes Gonçalves (PUCRS, patt.nunes@gmail.com)

Leia mais

Compiladores I Prof. Ricardo Santos (cap 1)

Compiladores I Prof. Ricardo Santos (cap 1) Compiladores I Prof. Ricardo Santos (cap 1) Compiladores Linguagens de programação são notações que permitem descrever como programas devem executar em uma máquina Mas, antes do programa executar, deve

Leia mais

Ferramenta de apoio a identificação de eventos utilizando Linguagem Natural. Aluno: Ricardo Tomelin Orientador: Everaldo Artur Grahl

Ferramenta de apoio a identificação de eventos utilizando Linguagem Natural. Aluno: Ricardo Tomelin Orientador: Everaldo Artur Grahl Ferramenta de apoio a identificação de eventos utilizando Linguagem Natural Aluno: Ricardo Tomelin Orientador: Everaldo Artur Grahl Roteiro 1. Introdução 2. Objetivos 3. Análise Essencial de Sistemas 4.

Leia mais

Identificação e Tratamento de Expressões Multipalavras aplicado à Recuperação de Informação

Identificação e Tratamento de Expressões Multipalavras aplicado à Recuperação de Informação Universidade Federal do Rio Grande do Sul Instituto de Informática Programa de Pós-Graduação em Computação Identificação e Tratamento de Expressões Multipalavras aplicado à Recuperação de Informação Otávio

Leia mais

Uma abordagem de classificação automática para Tipo de Pergunta e Tipo de Resposta

Uma abordagem de classificação automática para Tipo de Pergunta e Tipo de Resposta Uma abordagem de classificação automática para Tipo de Pergunta e Tipo de Resposta Patricia Nunes Gonçalves 1, António Horta Branco 1 1 Faculdade de Ciências da Universidade de Lisboa Lisboa - Portugal

Leia mais

Rickson Guidolini Orientador: Nivio Ziviani Co-orientador: Adriano Veloso

Rickson Guidolini Orientador: Nivio Ziviani Co-orientador: Adriano Veloso Detecção de Réplicas de Sítios Web em Máquinas de Busca Usando Aprendizado de Máquina Rickson Guidolini Orientador: Nivio Ziviani Co-orientador: Adriano Veloso Universidade Federal de Minas Gerais LATIN

Leia mais

Machine Learning. Classificação de documentos com Apache Mahout.

Machine Learning. Classificação de documentos com Apache Mahout. Machine Learning Classificação de documentos com Apache Mahout. Agenda Contexto Objetivo Solução Resultados Prática Contexto Contexto Uma assessoria jurídica separa, classifica e encaminha convocações

Leia mais

ALINHAMENTO MANUAL DE TEXTOS E SUMÁRIOS EM UM CORPUS JORNALÍSTICO MULTIDOCUMENTO

ALINHAMENTO MANUAL DE TEXTOS E SUMÁRIOS EM UM CORPUS JORNALÍSTICO MULTIDOCUMENTO ALINHAMENTO MANUAL DE TEXTOS E SUMÁRIOS EM UM CORPUS JORNALÍSTICO MULTIDOCUMENTO 1. Introdução Com o imenso volume de informação disponível na web, necessita-se de estratégias que permitam absorvê-la de

Leia mais

Aprendizado de Máquina

Aprendizado de Máquina Universidade Federal do Espírito Santo Centro de Ciências Agrárias CCA UFES Departamento de Computação Aprendizado de Máquina Inteligência Artificial Site: http://jeiks.net E-mail: jacsonrcsilva@gmail.com

Leia mais

5 Experimentos Conjunto de Dados

5 Experimentos Conjunto de Dados Experimentos 48 5 Experimentos Este capítulo apresenta o ambiente experimental utilizado para validar o método de predição do CTR proposto neste trabalho. Na seção 5.1, descrevemos a geração do conjunto

Leia mais

Recapitulando... Abordagens: PLN. Abordagens: PLN 29/03/2012. Introdução ao Processamento de Línguas Naturais. Distribuição de palavras

Recapitulando... Abordagens: PLN. Abordagens: PLN 29/03/2012. Introdução ao Processamento de Línguas Naturais. Distribuição de palavras Introdução ao Processamento de Línguas Naturais SCC5908 Introdução ao Processamento de Língua Natural Thiago A. S. Pardo Recapitulando... Abordagens superficiais vs. profundas Simbolismo vs. estatística

Leia mais

Ontologias Como Apoio Ao Mapeamento De Laudos Médicos De Endoscopia Digestiva Alta Para Bases De Dados Estruturadas

Ontologias Como Apoio Ao Mapeamento De Laudos Médicos De Endoscopia Digestiva Alta Para Bases De Dados Estruturadas Ontologias Como Apoio Ao Mapeamento De Laudos Médicos De Endoscopia Digestiva Alta Para Bases De Dados Estruturadas Luiz Henrique Dutra da Costa (PIBIC/Unioeste), Carlos Andres Ferrero, Cláudio Saddy Rodrigues

Leia mais

Utilização do Corte Percentual na categorização de documentos da Web com o algoritmo Naive Bayes

Utilização do Corte Percentual na categorização de documentos da Web com o algoritmo Naive Bayes Utilização do Corte Percentual na categorização de documentos da Web com o algoritmo Naive Bayes José Alberto Sousa Torres/ Grinaldo Oliveira /Cláudio Alves Amorim * Em um momento em que é crescente a

Leia mais

SBC - Sistemas Baseados em Conhecimento

SBC - Sistemas Baseados em Conhecimento Siglas, Símbolos, Abreviaturas DW - Data Warehouse KDD Knowledge Discovery in Database MD Mineração de Dados OLAP - On-line analytical processing SBC - Sistemas Baseados em Conhecimento 1. INTRODUÇÃO O

Leia mais

Hierarquias de conceitos extraídas automaticamente de corpus de domínio específico Um experimento sobre um corpus de Pediatria

Hierarquias de conceitos extraídas automaticamente de corpus de domínio específico Um experimento sobre um corpus de Pediatria Hierarquias de conceitos extraídas automaticamente de corpus de domínio específico Um experimento sobre um corpus de Pediatria Lucelene Lopes, Renata Vieira, Daniel Martins Grupo Processamento de Linguagem

Leia mais

Indexação automática. CBD/ECA Indexação: teoria e prática

Indexação automática. CBD/ECA Indexação: teoria e prática Indexação automática CBD/ECA Indexação: teoria e prática Indexação documentária Identificar pela análise dos documentos, os seus assuntos extrair os conceitos que indicam o seu conteúdo traduzir os conceitos

Leia mais

Pedro Larronda Asti. Anotador Morfossintático para o Português-Twitter. Dissertação de Mestrado

Pedro Larronda Asti. Anotador Morfossintático para o Português-Twitter. Dissertação de Mestrado Pedro Larronda Asti Anotador Morfossintático para o Português-Twitter Dissertação de Mestrado Dissertação apresentada ao Programa de Pós graduação em Informática do Departamento de Informática do Centro

Leia mais

DCBD. Avaliação de modelos. Métricas para avaliação de desempenho. Avaliação de modelos. Métricas para avaliação de desempenho...

DCBD. Avaliação de modelos. Métricas para avaliação de desempenho. Avaliação de modelos. Métricas para avaliação de desempenho... DCBD Métricas para avaliação de desempenho Como avaliar o desempenho de um modelo? Métodos para avaliação de desempenho Como obter estimativas confiáveis? Métodos para comparação de modelos Como comparar

Leia mais

Descoberta de conhecimento em textos - Análise semântica. Diogo Cardoso Eduardo Camilo Inácio Eduardo Monteiro Dellandréa Guilherme Gomes

Descoberta de conhecimento em textos - Análise semântica. Diogo Cardoso Eduardo Camilo Inácio Eduardo Monteiro Dellandréa Guilherme Gomes Descoberta de conhecimento em textos - Análise semântica Diogo Cardoso Eduardo Camilo Inácio Eduardo Monteiro Dellandréa Guilherme Gomes Introdução Diversidade de textos não padronizados; Emails, artigos,

Leia mais

MCZA Processamento de Linguagem Natural Classificação de textos

MCZA Processamento de Linguagem Natural Classificação de textos MCZA017-13 Processamento de Linguagem Natural Classificação de textos Prof. Jesús P. Mena-Chalco jesus.mena@ufabc.edu.br 1Q-2018 1 Bibliografia Daniel Jurafsky & James H. Martin. Speech and language processing:

Leia mais

A/ART casa/n caiu/v./. Figura 3.1: Frase com anotação morfossintática.

A/ART casa/n caiu/v./. Figura 3.1: Frase com anotação morfossintática. 3 Tarefa Esse capítulo começa dissertando sobre as vantagens de se agrupar as palavras em classes, como elas são agrupadas em part-of-speechs e suas aplicações. Em seguida é apresentado o Anotador Morfossintático

Leia mais

Objetivos. 1. O método desenvolvido usa características de pares de pixeis para fazer estatísticas e formar

Objetivos. 1. O método desenvolvido usa características de pares de pixeis para fazer estatísticas e formar Introdução Comidas podem apresentar deformações e variações em sua forma, além de conter muitos ingredientes, nem todos visíveis; Métodos tradicionais de reconhecimento requerem a detecção de características

Leia mais

Classificação e Predição de Dados - Profits Consulting - Consultoria Empresarial - Serviços SAP- CRM Si

Classificação e Predição de Dados - Profits Consulting - Consultoria Empresarial - Serviços SAP- CRM Si Classificação e Predição de Dados - Profits Consulting - Consultoria Empresarial - Serviços SAP- CRM Si Classificação de Dados Os modelos de classificação de dados são preditivos, pois desempenham inferências

Leia mais

Análise e conversão de tabloides de. Igor dos Santos Montagner Orientador: Prof. Dr. Roberto Marcondes Cesar Junior. promoções

Análise e conversão de tabloides de. Igor dos Santos Montagner Orientador: Prof. Dr. Roberto Marcondes Cesar Junior. promoções Análise e conversão de tabloides de Igor dos Santos Montagner Orientador: Prof. Dr. Roberto Marcondes Cesar Junior promoções Agenda Problema Objetivo nal Solução proposta Atenção visual e mapa de saliências

Leia mais

TÍTULO: DESENVOLVIMENTO DE UM SISTEMA DE PERGUNTA E RESPOSTA BASEADO EM CORPUS

TÍTULO: DESENVOLVIMENTO DE UM SISTEMA DE PERGUNTA E RESPOSTA BASEADO EM CORPUS TÍTULO: DESENVOLVIMENTO DE UM SISTEMA DE PERGUNTA E RESPOSTA BASEADO EM CORPUS CATEGORIA: CONCLUÍDO ÁREA: CIÊNCIAS EXATAS E DA TERRA SUBÁREA: COMPUTAÇÃO E INFORMÁTICA INSTITUIÇÃO: UNIVERSIDADE DO SAGRADO

Leia mais

Leitura de Documentos. Priscila Engiel

Leitura de Documentos. Priscila Engiel Leitura de Documentos Priscila Engiel pengiel@inf.puc-rio.br Leitura de documentos Leitura de documentos formais que regulam ou descrevem o sistema ou aspectos que interferem em sua execução Quais documentos?

Leia mais

Organizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU

Organizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU Organizaçãoe Recuperaçãode Informação GSI521 Prof. Dr. Rodrigo Sanches Miani FACOM/UFU Pré-processamento de documentos Organização e Recuperação de Informação(GSI521) Introdução O pré-processamento de

Leia mais

Aprendizado de Máquina

Aprendizado de Máquina Aprendizado de Máquina Introdução Luiz Eduardo S. Oliveira Universidade Federal do Paraná Departamento de Informática http://lesoliveira.net Luiz S. Oliveira (UFPR) Aprendizado de Máquina 1 / 19 Introdução

Leia mais

2284-ELE/5, 3316-IE/3

2284-ELE/5, 3316-IE/3 INTELIGÊNCIA ARTIFICIAL 2284-ELE/5, 3316-IE/3 Universidade da Beira Interior, Departamento de Informática Hugo Pedro Proença, 2007/2008 Aprendizagem Supervisionada 2 Os vários algoritmos de Aprendizagem

Leia mais

Introdução ao Processamento de Línguas Naturais. SCC5908 Introdução ao Processamento de Língua Natural. Thiago A. S. Pardo

Introdução ao Processamento de Línguas Naturais. SCC5908 Introdução ao Processamento de Língua Natural. Thiago A. S. Pardo /0/0 Introdução ao Processamento de Línguas Naturais SCC5908 Introdução ao Processamento de Língua Natural Thiago A. S. Pardo Dilemas no Brasil Como lidar com a interdisciplinaridade Linda no papel, complicada

Leia mais

Por que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Abordagens automáticas

Por que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Abordagens automáticas Por que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Abordagens automáticas Wrapper Filtros Muitos algoritmos de AM são projetados de modo a selecionar os

Leia mais

Prof. Daniela Barreiro Claro

Prof. Daniela Barreiro Claro O volume de dados está crescendo sem parar Gigabytes, Petabytes, etc. Dificuldade na descoberta do conhecimento Dados disponíveis x Análise dos Dados Dados disponíveis Analisar e compreender os dados 2

Leia mais

Métodos de Acesso Métrico

Métodos de Acesso Métrico Métodos de Acesso Métrico http://www.icmc.usp.br/img/novafaixa.png Arthur Emanuel de O. Carosia Profa. Dra. Cristina Dutra de Aguiar Ciferri Índice Conceitos Básicos Métodos de Acesso Onion-tree 2 Índice

Leia mais

Aprendizado de Máquina

Aprendizado de Máquina Universidade Federal do Espírito Santo Centro de Ciências Agrárias CCENS UFES Departamento de Computação Aprendizado de Máquina Inteligência Artificial Site: http://jeiks.net E-mail: jacsonrcsilva@gmail.com

Leia mais

Mineração de Opinião Multilíngue para Comentários sobre Produtos

Mineração de Opinião Multilíngue para Comentários sobre Produtos paper:15 Mineração de Opinião Multilíngue para Comentários sobre Produtos Anderson U. Kauer 1 1 Instituto de Informática Universidade Federal do Rio Grande do Sul (UFRGS) Caixa Postal 15.064 91.501-970

Leia mais

MINISTÉRIO DA DEFESA EXÉRCITO BRASILEIRO DEPARTAMENTO DE EDUCAÇÃO E CULTURA DO EXÉRCITO DIRETORIA DE EDUCAÇÃO PREPARATÓRIA E ASSISTENCIAL

MINISTÉRIO DA DEFESA EXÉRCITO BRASILEIRO DEPARTAMENTO DE EDUCAÇÃO E CULTURA DO EXÉRCITO DIRETORIA DE EDUCAÇÃO PREPARATÓRIA E ASSISTENCIAL MINISTÉRIO DA DEFESA EXÉRCITO BRASILEIRO DEPARTAMENTO DE EDUCAÇÃO E CULTURA DO EXÉRCITO DIRETORIA DE EDUCAÇÃO PREPARATÓRIA E ASSISTENCIAL 6º ANO Ensino Fundamental Língua Portuguesa 2) Inferir o sentido

Leia mais

"Análise de Extratores de Característica para Reconhecimento de Face"

Análise de Extratores de Característica para Reconhecimento de Face Universidade Federal de Pernambuco Centro de Informática Graduação em Engenharia de Computação Proposta de Trabalho de Graduação "Análise de Extratores de Característica para Reconhecimento de Face" Orientador:

Leia mais

Seleção de Atributos 1

Seleção de Atributos 1 Seleção de Atributos 1 Tópicos Por que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Seleção de atributos antes do aprendizado Benefícios Abordagens automáticas

Leia mais

Aprendizado de Máquina. Combinando Classificadores

Aprendizado de Máquina. Combinando Classificadores Universidade Federal do Paraná (UFPR) Departamento de Informática (DInf) Aprendizado de Máquina Combinando Classificadores David Menotti, Ph.D. web.inf.ufpr.br/menotti Introdução O uso de vários classificadores

Leia mais

4 Framework Proposto para Construção de Mediadores

4 Framework Proposto para Construção de Mediadores 41 4 Framework Proposto para Construção de Mediadores Neste capitulo apresentamos um framework que implementa a estratégia para enriquecimento de dados a partir de informações da Deep Web, descrita no

Leia mais

Mapeamento do uso do solo para manejo de propriedades rurais

Mapeamento do uso do solo para manejo de propriedades rurais 1/28 Mapeamento do uso do solo para manejo de propriedades rurais Teoria Eng. Allan Saddi Arnesen Eng. Frederico Genofre Eng. Marcelo Pedroso Curtarelli 2/28 Conteúdo programático: Capitulo 1: Conceitos

Leia mais

MCZA Processamento de Linguagem Natural Expressões regulares

MCZA Processamento de Linguagem Natural Expressões regulares MCZA017-13 Processamento de Linguagem Natural Expressões regulares Prof. Jesús P. Mena-Chalco jesus.mena@ufabc.edu.br 1Q-2018 1 Bibliografia Daniel Jurafsky & James H. Martin. Speech and language processing:

Leia mais

Gerência de Dados da Web Extração de Dados Baseada na Estrutura da Árvore DOM

Gerência de Dados da Web Extração de Dados Baseada na Estrutura da Árvore DOM Gerência de Dados da Web Extração de Dados Baseada na Estrutura da Árvore DOM Métodos Baseados em Alinhamento de Árvores (Apresentação contém material elaborado por AlBgran S. da Silva) 2013 Sumário Abordagem

Leia mais

RDFMat Um serviço para criação de repositórios de dados RDF a partir de crawling na Web de dados

RDFMat Um serviço para criação de repositórios de dados RDF a partir de crawling na Web de dados RDFMat Um serviço para criação de repositórios de dados RDF a partir de crawling na Web de dados Alberto T. Tavares, Hélio R. de Oliveira, Bernadette F. Lóscio Centro de Informática Universidade Federal

Leia mais