Determinação do Grau de Similaridade entre Frases

Documentos relacionados
Agenda. Requisitos para desenvolvimento do sistema de informação DW-e IS. Comparação de plataformas de integração. Requisitos de sistema

HEMOVIDA (CICLO DO SANGUE - Gerenciamento de estoque para grandes eventos)

Nota prévia... XXI 1. PHP, Apache Server e MySQL... 1

RELATÓRIO DEFINIÇÃO. Resumo

Gerenciamento do Escopo do Projeto (PMBoK 5ª ed.)

Prof. Daniela Barreiro Claro

GUIA DE FUNCIONAMENTO DA UNIDADE CURRICULAR

MINERAÇÃO DE DADOS. Thiago Marzagão MINERAÇÃO DE TEXTOS. Thiago Marzagão (UnB) MINERAÇÃO DE DADOS 1/ / 25

Arquitecturas de Software Enunciado de Projecto

PLANIFICAÇÃO INTRODUÇÃO ÀS TECNOLOGIAS DE INFORMAÇÃO BLOCO I

Orientações para Inscrição do Grupo e Projeto de Pesquisa

Fundamentos de Teste de Software

Programação WEB. Prof. André Gustavo Duarte de Almeida www3.ifrn.edu.br/~andrealmeida. Aula II jquery UI

Inglês Prova º Ciclo do Ensino Básico (Decreto-Lei nº17/2016, de 4 de abril) 1. Introdução. 2. Objeto de avaliação

PHC CS. Loja Web. A sua loja online integrada com o PHC CS Gestão. Aproveite todos os benefícios do seu negócio online

Fundamentos de Programação. Diagrama de blocos

PESQUISA OPERACIONAL 4470E- 04

Matrizes de Transferência de Forças e Deslocamentos para Seções Intermediárias de Elementos de Barra

Métricas de Software Importância e Aplicação

MOQ-14 Projeto e Análise de Experimentos

Abdulay Mota do Nascimento Abreu

Longitudinais. Análise de Dados. XIX Congresso da Sociedade Portuguesa de Estatística. M. Salomé Cabral M. Helena Gonçalves

INGLÊS - Nível º Ciclo do Ensino Básico (Decreto-Lei nº 17/2016, de 4 de abril)

Universidade Federal do Rio de Janeiro Campus Macaé Professor Aloísio Teixeira Coordenação de Pesquisa e Coordenação de Extensão

Engenharia de Software II

TECNOLOGIAS DA INFORMAÇÃO E COMUNICAÇÃO (TIC) PLANIFICAÇÃO ANUAL 8º ANO ANO LETIVO 2013/2014

Contrata Consultor na modalidade Produto

INFORMAÇÃO - PROVA DE EQUIVALÊNCIA À FREQUÊNCIA INGLÊS (LE I) COMPONENTES ESCRITA E ORAL

ENGENHARIA DE SOFTWARE

Driver Next Versão 1.0 de Português

Plano de Trabalho Docente Ensino Técnico

Como Elaborar uma Proposta de Projeto

Ensino Técnico Integrado ao Médio FORMAÇÃO PROFISSIONAL. Plano de Trabalho Docente 2013

Recensão digital Dezembro de 2013

GUIA PARA O PREENCHIMENTO DOS FORMULÁRIOS ENTIDADE GESTORA SOCIEDADE PONTO VERDE

SUBSISTEMA DE INFORMAÇÃO DE PESSOAL (SIP) INTRODUÇÃO

Matriz de Especificação de Prova da Habilitação Técnica de Nível Médio. Habilitação Técnica de Nível Médio: Técnico em Logística

ANÁLISE COMPARATIVA DOS DADOS METEOROLÓGICOS NAS ESTAÇÕES AUTOMÁTICAS E CONVENCIONAIS DO INMET EM BRASÍLIA DF.

Plano de Trabalho Docente Ensino Técnico

ROTEIRO PARA REGISTRO NO CONTAS ONLINE Programa Caminho da Escola Parte I Execução Financeira Data de atualização: 21/6/2012

ISS Eletrônico. Formato de Arquivos para Transmissão de Documentos Declarados através do aplicativo OFFLINE. Extensão do Arquivo JUNHO2006.

Gestão Documental. Gestão Documental

MBA em Gerenciamento de Projetos. Teoria Geral do Planejamento. Professora: Maria Erileuza do Nascimento de Paula

SIPAC Sistema Integrado de Patrimônio, Administração e Contratos MÓDULO ORÇAMENTO

AGRUPAMENTO DE ESCOLAS DE PÓVOA DE LANHOSO

Programação Orientada a Objetos SANTOS, Rafael

Estatística Analítica

PROGRAMA PROREDES BIRD RS TERMO DE REFERÊNCIA PARA CONTRATAÇÃO DE CONSULTORIA INDIVIDUAL ESPECIALIZADA EM ANÁLISE DE SISTEMAS NA ÁREA DA EDUCAÇÃO

EDITAL nº 17/2016 PRÊMIO CAPES DE TESE - EDIÇÃO 2016 TÍTULO I DAS DISPOSIÇÕES GERAIS

Etiquetagem Energética de Produtos Apresentação sumária

Protocolo relativo a Estágio Curricular

1. Introdução. Gestão Orçamental. Júlia Fonseca 2010/2011. Gestão Orçamental

VIII Oficinas de Formação A Escola na Sociedade da Informação e do Conhecimento praticar ao Sábado. E-learning. 3 de Março de 2007

Programação Orientada a Objectos - P. Prata, P. Fazendeiro

Modelos de Regressão Linear Simples - Erro Puro e Falta de Ajuste

Lógica de Programação. Profas. Simone Campos Camargo e Janete Ferreira Biazotto

Manual de Utilização. Ao acessar o endereço chegaremos a seguinte página de entrada: Tela de Abertura do Sistema

Modelo conceitual de Smart Devices

D-Francoforte no Meno: Aluguer de salas de reuniões e conferências 2013/S Anúncio de concurso. Serviços

PROPOSTA DE FORNECIMENTO DE SERVIÇOS APOIO REMOTO À EXECUÇÃO DA CONTABILIDADE POC-EDUCAÇÃO

Adaptação com Base na Comunidade Lista de Controlo do Plano de Implementação do Projecto

Relatório do Experimento 1 Sistema Massa - Mola. Fernando Henrique Ferraz Pereira da Rosa

ActivALEA. ative e atualize a sua literacia

DGEstE D i r e ç ã o - G e r a l d o s E sta b e l e c i m e n t o s E s c o l a r e s

Banco de Dados I. Prof. Edson Thizon

Formação à distância do Centro Virtual Camões do Instituto Camões Ensino e Aprendizagem do Português Europeu L2, 6 créditos ECS.

ESPANHOL INIC. Ano Letivo 2013/2014 INFORMAÇÃO - PROVA DE EQUIVALÊNCIA À FREQUÊNCIA. 11º Ano de Escolaridade

Treinamento Presencial: Spend Analysis para Compras. Data: 22 de Junho de 2016 Carga horária: 8 horas Local: São Paulo/ SP

Engenharia de Produção

EGEA ESAPL - IPVC. Resolução de Problemas de Programação Linear, com recurso ao Excel

Manifestação. O Sistema de Distribuição Fiscal Eletrônica do Gosocket. Manual de Usabilidade Gadget Manifestação

2 Segmentação de imagens e Componentes conexas

Memórias do trabalho

Prefeitura da Cidade de Nova Iguaçú. SEMED Secretaria Municipal de Educação. Coordenadoria Municipal de Ciência e Tecnologia

PESQUISA OPERACIONAL -PROGRAMAÇÃO LINEAR. Prof. Angelo Augusto Frozza, M.Sc.

Biblioteca Escolar da EB2 Dr. Manuel de Oliveira Perpétua. Como pesquisar na internet

Portal de Sistemas Integrados. Manual do Usuário. Versão: 1.0

Prova de Exame de Equivalência à Frequência do Ensino Secundário de:

aplicação arquivo Condições Gerais de Utilização

Tecnologias aplicadas à Inteligência Empresarial e Inteligência Competitiva e o Brasil?

E-Faces - Um classificador capaz de analisar imagens e classificá-las como faces ou não faces utilizando o método Eigenfaces

A escrita que faz a diferença

Desenvolvimento de Software

Assessoria Técnica de Tecnologia da Informação - ATTI. Projeto de Informatização da. Secretaria Municipal de Saúde do. Município de São Paulo

A dissertação é dividida em 6 capítulos, incluindo este capítulo 1 introdutório.

Laboratório de Sustentabilidade Sessão 6: A planificação estratégica. Maio de 2015

Finanças Empresariais I. Cap. 4

UNIVERSIDADE TÉCNICA DE MOÇAMBIQUE UDM DIRECÇÃO ACADÉMICA

Tipo de Prova: Escrita e Oral

Regulamento das provas especialmente adequadas destinadas a avaliar a capacidade para a frequência do Curso de Licenciatura em Enfermagem da ESEL dos

ESTRUTURA DO CURSO 08:00-10:00 RTQ-R

Ação de formação Excel Avançado

PROJETO DE LÍNGUA PORTUGUESA

Fundamentos de Sistemas Operacionais

Modelagem De Sistemas

Transcrição:

Determinação do Grau de Similaridade entre Frases UC 21095 Projeto Final Licenciatura em Informática Estudante nº 1100194: Helena Sofia Felisberto Coelho Orientadora: Prof.ª Gracinda Carvalho Lisboa, setembro de 2016

Introdução Apresentação do Problema 2 O processamento de linguagem natural integra um grande número de aplicações: sistemas de prospeção de dados (data mining), pergunta-resposta, sumarização automática de textos, deteção de plágio A determinação do grau de semelhança entre frases é uma tarefa com grande impacto nesse processamento, pois uma recolha de informação adequada depende da existência de métricas de similaridade para a avaliação da associação entre cada string e textos num corpus. Perante a variedade existente na linguagem natural, os sistemas que fazem uma avaliação semântica além da lexical afiguram-se mais relevantes.

Introdução Objetivos 3 Adicionar uma funcionalidade de comparação de frases ao sistema de pergunta-resposta IdSay (Carvalho, 2011) Analisar a literatura científica para selecionar um algoritmo Implementar o algoritmo, integrando-o no sistema IdSay Realizar testes ao sistema Escrever um artigo científico acerca do trabalho realizado

Considerações Teóricas O Sistema IdSay 4 Sistema de pergunta-resposta para a língua portuguesa Palavras representadas por números inteiros em vez de strings Criação e carregamento de índices (bases de informação) Níveis sucessivos de processamento: normalização de palavras lematização / stemming (agregar palavras morfologicamente relacionadas) determinação de entidades (base WES_PT) determinação de equivalências semânticas (base TeP) Aceita perguntas via consola ou ficheiros XML Bom desempenho em eventos internacionais

Considerações Teóricas A Tarefa ASSIN 2016 Primeira competição de sistemas de avaliação da similaridade semântica textual em português, no Workshop de Avaliação de Similaridade Semântica e de Inferência Textual (ASSIN) Atribuir a um par de frases uma pontuação numérica (1 5) que avalia quão similar é o seu conteúdo Criação do primeiro corpus anotado para tal tarefa em português (variantes brasileira e europeia), com frases retiradas de textos reais Inclui secções de treino e teste para sistemas de aprendizagem automática Script em Python para avaliação de resultados 5

Procedimentos Decisões Tomadas Linguagem de programação: C++ (programação orientada por objetos) Ambiente de desenvolvimento integrado: Visual Studio Sistema operativo: Windows Comparação de frases: Algoritmo Levenshtein Distance adaptado Três níveis de comparação: básica, ao nível das raízes e semântica Adição da opção de comparação de frases ao menu principal do IdSay 6 Submenus para escolha do nível de comparação e da via de leitura de frases (consola ou ficheiro XML) Avaliação de resultados: script da tarefa ASSIN

O Algoritmo Levenshtein Distance 7 Concebido pelo cientista russo Vladimir Levenshtein (1966) Avalia a similaridade entre duas strings com base no número de operações necessárias para transformar uma na outra (inserção, deleção e substituição de caracteres) Para cálculo da distância de edição, o custo de cada operação é normalmente 1 Para strings idênticas, a distância será 0 Aplicações: correção ortográfica, comparação de dialetos, análise de DNA, autenticação de assinaturas

Procedimentos Escrita de Código 8 Não

Resultados Exemplos de Utilização 9 Os testes funcionais empíricos mostram que o sistema produz os resultados esperados Exemplos de execução: Paulo Moreno excluído por dois minutos. / Alexis Borges volta a ser excluído por 2 minutos. A Lua é bonita / A lua é bela

Exemplo de aplicação do algorimto LD 10 Frase 1 (m = 7) Frase 2 (n = 10) Alexis Borges volta a ser excluído por 2 minutos. 0 1 2 3 4 5 6 7 8 9 10 Paulo 1 1 2 3 4 5 6 7 8 9 10 Moreno 2 2 2 3 4 5 6 7 8 9 10 excluído 3 3 3 3 4 5 5 6 7 8 9 por 4 4 4 4 4 5 6 5 6 7 8 dois 5 5 5 5 5 5 6 6 5/6 6/7 7/8 minutos 6 6 6 6 6 6 6 7 6/7 5/6 6/7. 7 7 7 7 7 7 7 7 7/8 6/7 5/6

Resultados Testes Estatísticos 11 L1 L2 L2 - S L4 L4 - S Pearson 0,27 0,27 0,27 0,29 0,27 MSE 1,03 0,95 0,96 0,93 0,96 L1 comparação básica L2 comparação ao nível das raízes L4 comparação semântica S uso de stemming em vez de lematização Pearson Coeficiente de Correlação de Pearson (teste de associação linear) MSE Mean Square Error (Erro Quadrático Médio) diferença entre uma estimativa e a realidade estimada

Considerações Finais 12 A associação linear é mais fraca do que se desejaria, mas a progressão das métricas estatísticas segundo os níveis de comparação corresponde ao esperado (associação menor para a comparação básica e maior para comparação semântica). Os testes estatísticos não permitam validar a adequação deste algoritmo à tarefa em causa Mas isso não significa que não serve para o fim pretendido. É preciso considerar que existe subjetividade na atribuição humana de um grau de similaridade a um par de frases. Deduz-se que a via seguida para adição ao sistema IdSay da funcionalidade de comparação de frases não reproduziu tão bem quanto se esperava uma avaliação humana do grau de similaridade entre frases.

Considerações Finais Perspetivas Futuras 13 Prossecução do desenvolvimento do sistema IdSay Aplicação de técnicas de aprendizagem automática combinando vários indicadores Exemplos de indicadores: distância de edição do par + número de elementos de diversas categorias gramaticais + relação entre as palavras partilhadas e o total de palavras diferentes nas duas frases, com e sem análise de sinónimos e raízes. Método dos k vizinhos mais próximos, com cálculo da distância de Manhattan ou euclideana para decidir, com base nos dados dos pares dum conjunto de treino, a pontuação a atribuir aos pares dum conjunto de teste.