Extração de Relações Abertas Baseadas em Features para a Língua Portuguesa do Brasil

Transcrição

1 Universidade Federal da Bahia Departamento de Ciências da Computação Colegiado de Ciência da Computação Extração de Relações Abertas Baseadas em Features para a Língua Portuguesa do Brasil Nemuel Leal Pereira Salvador-BA 2014

2 Nemuel Leal Pereira Extração de Relações Abertas Baseadas em Features para a Língua Portuguesa do Brasil Monografia submetida ao Colegiado de Ciência da Computação da Universidade Federal da Bahia como parte dos requisitos necessários para obtenção do grau de Bacharel em Ciência da Computação. Área de Concentração: Ciência da Computação Linhas de Pesquisas: Extração de Relações Daniela Barreiro Claro (Orientadora) Salvador-BA 2014

3 Resumo Extração de Relações (ER) corresponde numa tarefa da Extração de Informação, tendo por finalidade a busca de relacionamentos entre entidades mencionadas que pode ser identificada como nome de pessoas, organizações, lugares e outras classes de interesse em documentos não-estruturados ou semi-estruturado. Extração é dita ER Abertas quando não é limitada por regras relacionais pré-definidas. ER Abertas propõem com base em um conjunto de relações extraídas, minimizar as extrações inválidas. Nesse sentido o presente trabalho busca construir features representativas para determinar relações válidas na língua portuguesa do Brasil. Nessa construção busca-se remodelar features representativas de trabalhos estudados em língua inglesa, para o português, readaptar features representativas e já traduzidas (adaptadas) do inglês para o português, mas ainda precisa-se aumentar seu mérito, e por fim criar outras novas features. A readaptação citada é baseada nas features proposta pelo trabalho de Nilsen (2014) no objetivo de se ter melhor comportamento e representatividade, independente da variação do tamanho do corpus (Base de Documentos). Algumas outras contribuições consistem na modificação da ferramenta SEGAPP, construída pelo trabalho supracitado, para que se extraia mais relações válidas em um mesmo quantitativo de sentenças de um determinado Corpus. Palavras-chave: Extração da Informação, Features, Extração de Relações.

4 Agradecimentos São tantos os que tenho que agradecer por darem sua contribuição, de uma forma ou de outra, para que este trabalho pudesse ser realizado. Agradeço muito a Deus pelas oportunidades colocadas em meu caminho e por me dar perseverança nos momentos de dificuldade. À minha Ivanete Leal e meu pai Reginaldo Campos por terem me guiado no caminho correto, sempre tentando fazer o bem para os seus filhos. Agradeço ainda ao meu irmão Quemuel Leal e a meu amigo Edvã Gonçalvez pelo apoio essencial durante o desenvolvimento da minha monografia. Também tenho que fazer o meu agradecimento à minha namorada Lediane Sales por ter me apoiado absolutamente em todas as etapas da minha graduação, como também em minhas decisões, sobretudo me aturado durante todo o período de estudo e ter aguentado as minhas noites em claro para que este trabalho pudesse ser concluído. Sou muito grato por ter tido a oportunidade de ter a prof. Daniela Claro como minha orientadora de Graduação e por todas as suas valiosas horas investidas em mim e neste trabalho. Deixo também uma palavra de agradecimento aos professores da UFBA que fizeram parte do meu amadurecimento acadêmico. Finalmente, agradeço a todas as outras pessoas que em algum momento também estiveram envolvidas no desenvolvimento desta Graduação.

5 "Quem nunca errou nunca experimentou nada novo." Albert Einstein

6 Sumário 1 Introdução Organização do Trabalho Fundamentação Teórica Extração da Informação Features Extração de Relações Extração de Relações Abertas Trabalhos Relacionados As Vantagens e Desvantagens entre as Relações Tradicionais e Abertas Identificando Relações Abertas para Extração de Informação Classificação de Relações Semânticas Abertas Baseadas em Similaridade de Estruturas Gramáticas na Língua Portuguesa Solução Proposta Melhorias Na Ferramenta SEGAPP Padrão de Extração da Restrição Sintática Prioridade das Sentenças Maiores Modificação na Condição Final da Sentença Entidades Compostas Remodelagem das Features de Nilsen (2014) Experimentos Metodologia Métodos de Avaliação

7 5.1.2 Processo de Classificação Manual das ER Abertas e Construção do Conjunto de Treinamento Baseado em Features Experimento 1: Extração de Relações na Restrição Sintática Experimento 2: Representatividade das Features Propostas Experimento 3: Tamanho do Corpus Resultados Experimento 1: Extração de Relações na Restrição Sintática Experimento 2: Representatividade das Features Propostas Experimento 3: Tamanho do Corpus Conclusões e Trabalhos Futuros

8 Lista de Figuras 2.1 Representação das Informações Extraídas de um Texto Não-Estruturado [Nilsen (2014)] Pré-Processamento MT [Nilsen (2014)] Arquitetura de Sistemas de EI Formato Padrão do Conjuntos de Exemplos [Lee (2000)] Função do Conjunto de Features extraídas de S [Nilsen (2014)] Exemplos de Relações Especificas [Nilsen (2014)] Relações Específicas e Abertas [Nilsen (2014)] Entidades Rotuladas para Extração de Relações Abertas [Banko e Etzioni (2008)] Entidades Rotuladas para Extração de Relações Abertas [Banko e Etzioni (2008)] Restrições Sintáticas de Extração de Relações [Banko e Etzioni (2008)] Padrão da Restrição Sintática do ReVerb [Fader et al. (2011)] Restrições Violadas Restrição Sintática Adaptada para Língua Portuguesa [Nilsen (2014)] Relações Válidas e Inválidas Baseadas no Padrão 3.6 [Nilsen (2014)] Matriz de Correlação entre Classes Morfológicas [Nilsen (2014)] Classifica uma Extração com base em Similaridade de Estruturas Gramaticais [Nilsen (2014)] Features da Dissertação Nilsen (2014) Análise das Modificações Realizadas no SEGAPP

9 6.2 Análise da Representatividade das Features Análise da Representatividade das Features Proposta Nesse Trabalho em Função do Corpus Análise da Representatividade das Features de Nilsen (2014) em Função do Corpus Estimativa Baseado na Regressão Linear Simples

10 Lista de Algoritmos 4.1 Expressão Regular da Restrição Sintática Expressão Regular da Restrição Sintática Expressão Regular da Restrição Sintática Expressão Regular da Restrição Sintática Expressão Regular da Restrição Sintática Prioriza relações maiores para o mesmo par de entidades Condição de fim de sentença Condição para sentenças mal formadas de fim de sentença Condição final de sentença sem pontuação Expressão regular da Restrição Sintática Entidade Composta

11 Capítulo 1 Introdução Atualmente busca-se soluções para tratar o grande volume na faixa de milhões de documentos com informações irrelevantes aos interesses específicos de cada usuário. Nesse sentido com a advento da WEB o crescimento de texto não estruturados se acentuou de maneira incontestável, tornando necessário técnicas de tratamentos do mesmo. Nessas condições a pesquisa na área de Extração da Informação (EI) se apresenta para minimizar essa situação, em que um dos objetivos é que, dada uma busca de um usuário, o retorno será documentos relevantes semanticamente, todavia, os resultados oferecidos por esses sistemas são ainda pouco precisos. Há inúmeras aplicações na área de Extração de Relações, sendo então uma tarefa bastante difundida em diversos trabalhos de pesquisa. A tarefa de Extração de Relações a partir de textos é um dos principais desafios da área de Extração da Informação, devido ao conhecimento linguístico exigido, e a sofisticação das técnicas de processamento em conjunto com a complexidade de se ter uma boa ferramenta para trabalhar com processamento de texto numa abordagem de extração de relações semântica. Algumas aplicações da ER são percebidas em variados trabalhos que tratam de construção automática de Ontologia (Lucelene et al. (2009)), como também de sistemas de Perguntas e Respostas (PR), esse tipo de sistema tem como entrada uma pergunta em linguagem natural, propondo então uma resposta conforme sua base de conhecimento, e alguns outros trabalhos

12 Capítulo 1: Introdução 11 referenciam a Computação Forense. A computação Forense utiliza técnicas de Extração de relações semânticas abertas. Ela possibilita encontrar automaticamente correspondências entre entidades suspeitas em um determinado corpus, e uma das característica mais importante desta técnica é a independência de domínio, devido ao fato de que uma investigação pode envolver mais de um domínio. A técnica de extração de relações é tratada em alguns trabalhos, principalmente as relações específicas do tipo hiponímia (e.g. is-a(ufba,universidade)) e meronímia (e.g. part-of(cabeça,corpo)), essa técnica busca por padrões já definidos. Todavia, a extração de relações específicas baseadas em padrões textuais delimita muito os tipos de extrações, alcançando baixa cobertura e alta precisão. Como solução para esse problema é abordado a técnica de ER abertas que busca automaticamente no texto qualquer tipo de relação. Na extração de relações abertas existem algumas técnicas para se extrair as relações, das quais se destacam a técnica de extração baseada em features Fader et al. (2011), Banko e Etzioni (2008), e a técnica de extração baseada similaridade estrutural de grafos Nilsen (2014). Neste trabalho se delimita na técnica de extração baseadas em features que foi motivado pela pouca análise que a dissertação Nilsen (2014) fez referente às features. A proposta desse trabalho é dividida em duas etapas principais. A primeira etapa consiste na extração de relações, e a segunda etapa uma análise de relações válidas e inválidas. Na primeira etapa este trabalho propõe uma melhoria na definição sintática com as modificações realizadas na ferramenta SEGAPP para extrair mais relações, enquanto que na segunda etapa esse trabalho propõe novas features para uma melhor comparação com as features previamente definidas na dissertação Nilsen (2014). Experimentos foram realizados e ótimos resultados foram comprovados.

13 Capítulo 1: Introdução Organização do Trabalho Esta monografia esta estruturada da seguinte forma: O Capítulo 2 aborda uma fundamentação teórica na área de Extração da Informação definindo os tipos de documentos, dos quais é possível extrair as informações de interesse. Fornece uma visão geral das features apresentando abordagens principais para o tratamento das mesmas. A conclusão deste capítulo se dá com conceitos da Extração de Relações, classificando-as quanto aos tipos de métodos utilizados e de relações podendo ser específicas ou abertas. O Capítulo 3 trata de alguns trabalhos relacionados que abordam Extração de Relações Abertas. O trabalho Banko e Etzioni (2008) foi um dos primeiros a apresentar resultados relevantes para tal tarefa, já o Fader et al. (2011) e o Nilsen (2014) apresentam abordagens baseadas em restrições sintáticas e léxicas, diferenciando-se na classificação das relações, onde o primeiro firma-se em classificação baseada features e o último em similaridade estrutural baseado em grafos. O Capítulo 4 propõe melhorias na ferramenta SEGAPP desenvolvida no trabalho de Nilsen (2014), uma das mais relevantes realizações é a criação de uma nova relação a ser extraída de um certo corpus, possibilitando assim um aumento no quantitativo das relações extraídas. Aqui é apresentado também uma busca pela identificação e construção de um conjunto representativo de features para o problema de ER abertas, permitindo classificar melhor novas relações. No Capítulo 5 é proposto uma descrição dos experimentos sobre as melhorias das propostas descritas no capítulo anterior. No Capítulo 6 apresenta os resultados dos experimentos realizados, comprovando de fato que houve melhoras contribuindo assim na literatura da ER abertas. Por fim no Capítulo 7 encontram-se a conclusão deste presente trabalho e possíveis trabalhos futuros.

14 Capítulo 2 Fundamentação Teórica Nesta seção são apresentados conceitos da Extração de Informação (EI) como uma contribuição de forma semântica nos tratamento de algumas imprecisões causadas pelos sistemas de Recuperação de informações (RI). Sistema de RI tem como objetivo recuperar documentos relevantes em uma busca, tendo como entrada a palavra-chave de um usuário, todavia não detalha o conteúdo desses documentos, dessa forma a EI continua o processo de busca de conhecimento com as tarefas Recuperação de Entidades Mencionadas (REM) e Extração de Relações (ER). Discute-se também a importância da Extração de Relações semânticas, como também as features que são treinadas para classificar essas relações extraídas. 2.1 Extração da Informação Inicialmente é notável diferenciar a Extração de Informação da Recuperação de Informação visto que a primeira extrai informações relevantes dos documentos, podendo ser com abordagens baseadas em dicionário, em regras ou em aprendizagem de máquina, enquanto que a segunda recupera documentos relevantes de uma coleção de documentos. Segundo Yangarber e Grishman (2000), Extração de Informação abrange uma gama de tarefas, incluindo a identificação de nome, classificação, rastreamento de entidade e captura

15 Capítulo 2: Fundamentação Teórica 14 de eventos. É um processo para identificar automaticamente tipos específicos de entidades, contidas em textos e armazenar as informações extraídas de uma forma estruturada. Para welmisson (2009) Extração de Informação é uma coleção de métodos e técnicas que têm como objetivo extrair, de fontes semi-estruturadas ou não-estruturadas, informação relevante. Um Sistema de EI é capaz de extrair, de fontes de informação textuais, apenas informação que seja do interesse dos usuários do sistema, as partes que não são interessantes aos usuários não são extraidas. E para Riloff e Jones (1999) Sistemas de Extração de Informação têm como finalidade extrair informações específicas de texto em língua natural. Os sistemas de EI sempre possuem dois domínios específicos: Um dicionário de padrões de extração e um dicionário semântico. O dicionário de padrões pode ser gerado manualmente ou automaticamente, e o dicionário semântico quase sempre é construído manualmente por causa do seu vocabulário específico. O objetivo principal dos sistemas de Extração de Informação é a predição, baseando-se em conjuntos de treinamento e de teste (documentos textuais). Esses sistemas propõem predições de rótulos de sequências textuais dos conjunto de teste com base no conjunto de treinamento, de forma a identificar e classificar automaticamente as informações específicas e mais relevantes semanticamente contidas nesse conjunto. Desse modo, os sistemas de EI transformam textos semi-estruturados ou não estruturados em informações estruturadas, que podem ser representadas em formato tabular conforme ilustra a Figura 2.1. Figura 2.1: Representação das Informações Extraídas de um Texto Não-Estruturado [Nilsen (2014)]

16 Capítulo 2: Fundamentação Teórica 15 Conforme ilustra a Figura 2.2 a EI atua na etapa de pré-processamento da Mineração de texto (MT) que é um processo, o qual utiliza algoritmos capazes de analisar coleções de documentos textuais com o objetivo de extrair conhecimento. Dessa forma, ela é uma sub-tarefa das tarefas dependentes do problema, que tem por finalidade extrair informações específicas de textos não estruturados, como, os nomes das entidades (REM) e as relações (ER) existentes entre esses nomes. Figura 2.2: Pré-Processamento MT [Nilsen (2014)] Tipos de Documentos para Extração da Informação A extração da informação pode ser realizada em documentos estruturados como também em documentos livres. Assim pode-se definir esses documentos de acordo com as formas estruturais seguintes. Estruturado: Textos que apresentam uma uniformidade em todo seu conteúdo. Essa regularidade é capturada por sistemas para EI, permitindo que elementos contidos no texto de interesse sejam identificados de acordo com regras padronizadas, tais como marcadores textuais, espaço em branco, tabulações, símbolos, ordem de apresentação dos elementos, entre outros delimitadores. Um formulário preenchido é um exemplo desse tipo de documento.

17 Capítulo 2: Fundamentação Teórica 16 Semi-Estruturado: Os textos semi-estruturados são aqueles que apresentam alguma regularidade em seus dados. Alguns desses dados podem está em uma determinada formatação enquanto outras informações aparecem de forma irregular. Esses documentos, comparados com os estruturados, são os mais encontrados. Dentre outros tipos de documentos semi-estruturados, têm-se como exemplo arquivos XML e anúncios de classificados, ambos não são rígidos em seus formatos, permitindo variações na ordem e na maneira em que os dados são apresentados. Não-Estruturado: Os textos não estruturados são aqueles que não contêm regularidades ao decorrer do seu conteúdo. Sobre todos os corpus e repositórios de documentos textuais com esse tipo de estrutura está a Web que contém centenas de milhares de documentos não-estruturados. Para extração de Informação sobre esses tipos de documentos, conforme retrata alguns autores, a EI é composta por abordagens baseadas em regras, aprendizado de Máquina (AM) e abordagens com base em Dicionário. Abordagens para Extração da Informação Segundo Matos (2010), Extração da Informação apresenta algumas abordagens para extrair informações, são elas: Abordagem baseada em regras, aprendizado de máquina, e em dicionário. A primeira faz o uso de algum tipo de conhecimento, a segunda utiliza classificadores para separar sentenças ou documentos e a última utiliza informações de um dicionário para auxiliar na identificação dos termos ou das entidades no texto. Abordagem Baseada em Regras: Segundo Matos (2010), são utilizadas regras para a EI, porém essa abordagem apresenta algumas desvantagens: Prolonga significativamente a construção de sistemas, reduz a capacidade de adaptação de regras em outro sistema devido a sua especifidade a um certo domínio e, exclui termos que não correspondem aos padrões predefinidos. Essa abordagem possui um bom desempenho, no entanto apresenta problemas de adaptação para novos domínios. Um exemplo é apresentado no trabalho de Álvarez (2007), que constrói

18 Capítulo 2: Fundamentação Teórica 17 um padrão para um tipo de referência bibliográfica de artigos científicos, todavia percebe-se que existem diferentes formatos de referências. Abordagem Baseada em Aprendizado de Máquina: De acordo com Álvarez (2007), essa abordagem pode ser utilizada para automatizar a aquisição das regras a serem usadas em um novo domínio. Para isso é necessário a criação de grandes quantidades de instâncias na base de teste para testar sistemas baseados em Aprendizado de Máquina a partir de uma base de treinamento. Abordagem Baseada em Dicionário: Armazena informações referente a um determinado domínio. No domínio biomédico, dentre outros termos, é importante a identificação de gene, proteínas e enzimas. Essa abordagem utiliza uma lista de termos para identificar ocorrências no texto. O casamento de padrões geralmente é utilizado entre as entradas contidas no dicionário e as palavras encontradas nas sentenças (MATOS, 2010). Um problema recorrente aqui é a limitação de termos presentes no dicionário bem como suas variações. Arquitetura de Sistemas de Extração de Informação Existem variados sistemas de EI compostos por elementos básicos contidos no processo de extração, assim, a maioria desses seguem uma arquitetura genérica do processo de extração da informação. O processo de extração é composto por dois blocos principais: Extração de fatos individuais. Extração baseada na integração dos fatos do primeiro bloco gerando outros fatos. A Figura 2.3 mostra a arquitetura básica de um sistema de EI em que a extração de fatos individuais é realizado a partir de um conjunto de padrões que expressam a possível existência de um fato no texto. Sendo assim, é realizado uma estruturação para identificar vários níveis de termos e seus relacionamentos.

19 Capítulo 2: Fundamentação Teórica 18 Normalmente a primeira fase se inicia com uma análise léxica na identificação de tokens, como também é realizado o reconhecimento de entidades, como nomes próprio e localidades, ambos são reconhecidos por iniciarem com letra maiúscula. É realizado também uma análise morfológica das classes de palavras com base nos termos contidos no texto. Seguindo para a fase de integração, é realizado uma análise dos relacionamentos possíveis entre os termos, esses, são analisados e combinados considerando todo o contexto numa análise sintática/semântica, podendo então fornecer informações sobre um dado nome próprio, seu papel semântico e suas relações no contexto da frase. No Processamento de Linguagem Natural essas relações envolvem classes de palavras. Posteriormente as regras de inferência são usadas para integrar os fatos (tokens) para deduzir informações implícitas no texto baseando-se nos fatos já existentes (MORAIS, 2003). Para uma análise final do processo de extração da informação são inferidas as informações extraídas, para assim classificar o texto no contexto da abordagem do documento. Figura 2.3: Arquitetura de Sistemas de EI

20 Capítulo 2: Fundamentação Teórica Features O Aprendizado de Máquina é uma área da Inteligência Artificial que tem como objetivo o desenvolvimento de técnicas computacionais que permitem a construção de sistemas capazes de adquirir conhecimento de forma automática a partir de exemplos (WESLEY, 2012). Aprendizado de Máquina, seus conceitos e técnicas de Inteligência Artificial têm sido incorporados cada vez mais às soluções de problemas reais de diversas áreas através de Sistemas de Inteligência Artificial. Nesses sistemas os processos de aquisição, representação e manipulação de conhecimento estão relacionados ao processo de aprendizado, que é essencial para que uma máquina seja capaz de ter um comportamento inteligente. A aquisição de conhecimento pode ser adquirida através de sistemas de Aprendizado de Máquina (AM), é o caso de aquisição de conhecimento automático, já para se ter um conhecimento manual é feito uma pesquisa direta em algum material da área de interesse ou a um especialista do domínio de interesse. De modo geral, o objetivo de um Sistema de AM está na extração de conhecimento, com diferentes regras aplicáveis a novos dados, extraindo o máximo de informação e estimando medidas como precisão, cobertura e Medida-F de futuras classificações, de tal maneira que o modelo classifique corretamente os exemplos conhecidos como também novos exemplos. Esses exemplos são representados por features potencialmente relevantes para tal problema. Assim, quanto mais importantes e significativas as features utilizadas para descrever os exemplos, mais confiável será a classificação de um sistema de aprendizado de máquina. Conforme Nilsen (2014) se as features (atributos) captam as propriedades essenciais do conceito, o papel do Sistema de aprendizado de máquina é rearranjar essas features numa forma genérica de relatar tal conceito. Entretanto, se os atributos não expressarem as relações inerentes ao processo classificatório, as generalizações produzidas por qualquer algoritmo de aprendizado terão baixo desempenho na classificação de novos casos. Nessa linha de raciocínio percebe-se a importância de se determinar um conjunto de feature relevante para determinada situação, sendo um processo crítico e fundamental para o sucesso de qualquer Sistema de aprendizado de máquina.

21 Capítulo 2: Fundamentação Teórica 20 Lee (2000) afirma no seu trabalho de dissertação cujo título é Seleção e Construção de features Relevantes para o Aprendizado de Máquina, que é um problema complexo a construção de features apropriadas para descrever um certo conceito. Observa-se então, a necessidade da seleção de features relevantes para solucionar o problema de se extrair informações específicas de centenas de milhares de documentos textuais espalhados por toda a WEB bem como repositórios de documentos textuais. Essa quantidade de dados proporcionou o crescimento das técnicas de Aprendizado de Máquina a tais bases de dados. Desse modo, abordagens para o tratamento de seleção de Features são essenciais para facilitar a descoberta de features relevantes para um certo problema. Existem duas abordagens principais para o tratamento de Seleção de Features (SF): 1. Seleção de um Subconjunto de Features (SSF) ou Feature Subset Selection (FSS); 2. Indução Construtiva (IC), podendo ser chamada também de Construção de features ou mesmo Aprendizado Construtivo. Na Seleção de um Subconjunto de features, dado um conjunto de n features, pretende-se selecionar um subconjunto dessas features, após a etapa do processo de seleção, o subconjunto selecionado terá tamanho m, se somente se m n. SSF consiste numa diminuição do número de features que serão posteriormente consideradas no processo de indução. Na Indução Construtiva, dado novamente esse mesmo conjunto n de features, através de combinações de features originais, gera-se novas features que podem melhorar a linguagem de descrição do conjunto de exemplos e, por conseguinte a precisão do classificador. Em oposição a abordagem SSF, a seleção de um Subconjunto de features na abordagem Indução Construtiva, aumenta o quantitativo de features, isto é, ao findar desse processo serão obtidas m features, tal que m > n.

22 Capítulo 2: Fundamentação Teórica 21 O Problema da Seleção de Features Na Seleção de features, é complexo de se determinar quais features devem ser selecionadas ou ignoradas. Segundo Lee (2000) para a tarefa de Seleção de features é importante que estudos empíricos sejam realizados sobre os conjuntos de dados de interesse, a fim de avaliar que métodos de SF são mais apropriados, ou que método apresenta o melhor desempenho. Relevância das Features Há diferentes definições na literatura para o significado da relevância de uma feature, devido ao fato que um conjunto de features pode ser relevante a um e não a outro. Nesse contexto, existem diversas definições de relevância, as quais dependem dos objetivos desejados, tais como, relevância em relação ao conceito meta, em relação a distribuição de probabilidade, dentre outros. Para uma melhor explanação sobre as features, algumas considerações devem ser feitas: 1. Seja n cada conjunto de features que descreve cada exemplo E; 2. O domínio de cada feature é denotado por D i. 3. Uma feature pode assumir um número finito de valores discretos, ou pode ser do tipo contínuo e. 4. Uma instância ou mesmo registro é um ponto no espaço de instâncias D 1 x D 2 x... x D n. De acordo com a Figura 2.4, o algoritmo de aprendizado de máquina recebe um conjunto S de exemplos de treinamento como entrada, em que cada exemplo associa-se a um rótulo (classe), que pode ser discreto ou contínuo. Dessa forma, dados exemplos E i compostos pelos valores de n atributos X 1, X 2,..., X n, ou seja, para cada E i = (x i1, x i2,..., x in ) e classe y associada a cada exemplo, a tarefa é encontrar o conceito meta (ou função) c, tal que y = c(e).

23 Capítulo 2: Fundamentação Teórica 22 Os valores das classes são tipicamente valores discretos no caso da classificação, ou contínuos em problemas de regressão. Figura 2.4: Formato Padrão do Conjuntos de Exemplos [Lee (2000)] 2.2 Extração de Relações Extração de Relações (ER) consiste em detectar e classificar relações semânticas que ocorrem entre entidades reconhecidas em um determinado texto (COLLOVINI, 2004). Segundo Collovini (2004) a relação de extração é considerada relevante de acordo com vários fatores, principalmente pelo tipo de informação que se deseja extrair e o objetivo da tarefa de extração. A Extração de Relações é uma tarefa da Extração da Informação que pode ser definida como a descoberta de relações, normalmente binárias, explícitas ou implícitas, entre entidades mencionadas contidas em documentos não estruturados. Quando as fontes de dados são textos não estruturados, a identificação automática dos relacionamentos entre os conceitos pode ser realizada através da ER. (NILSEN, 2014). Referente a aplicabilidade das ER, segundo Nilsen (2014) essa tarefa tem aplicações em diversas áreas, tais como na construção automática de ontologias e léxicos computacionais, em sistemas de perguntas e respostas e na computação forense. Ontologias são importantes para organizar e descrever informação, mas são difíceis de criar e manter, esse fato motiva o desenvolvimento de ferramentas de auxílio nessa tarefa (BOTERO; RICARTE, ). Para que esse modelo seja minimamente representativo, é necessário populá-lo com um grande número de instâncias obtidas em diversas fontes de dados, inclusive em documentos textuais. Por conta disso, popular ontologias manualmente

24 Capítulo 2: Fundamentação Teórica 23 é considerada uma tarefa altamente dispendiosa, o que torna necessária a extração automática dessas informações. Outra aplicação do conhecimento gerado na tarefa de ER é exemplificada nos sistemas de respostas a perguntas. Perguntas específicas em linguagem natural têm sido frequentemente utilizadas nas strings pesquisadas nos motores de busca da internet, como no seguinte exemplo: onde nasceu Nelson Mandela?, que pode ser respondida através da relação (Nelson Mandela, nascido em,?). Em síntese, as questões são feitas em linguagem natural e o sistema busca automaticamente a resposta mais provável, que corresponde a um dos argumentos de uma relação extraída. (NILSEN, 2014). Classificação Por Técnica Aplicada A ER abertas pode ser classificada quanto ao tipo de técnica aplicada, aborda-se aqui os dois principais tipos: Baseadas em padrões textuais e Aprendizado de Máquina. 1. Padrões Texutais. Em padrões textuais extrai-se relações utilizando regras formadas por expressões regulares contendo termos específicos. Para exemplo de uma expressão regular tem-se: F N 1 {, } especialmente {F N 2, F N 3...} {ou e} F N n (2.1) Onde F N k são frases nominais. Padrões textuais permitem a extração de relações específicas que já são previamente definidas. Neste exemplo a seguir são extraídos relações do tipo hiponímia: is-a(np i, NP 1 ), com i 2, 3,..., n na instancia deste segmento de sentença: "...a maioria das universidades, especialmente UFBA, UNEB e UFSC...", possibilita extrair as seguintes relações: is-a(ufba, universidade), is-a(uneb, universidade), is-a(ufsc, universidade).

25 Capítulo 2: Fundamentação Teórica 24 Uma desvantagem dessa abordagem é a sua limitação. No que se refere à limitação, esse padrão é bem específico em suas regras resultando em alta precisão, entretanto baixa cobertura, portanto não cobre todas as relações contidas em um texto bem como suas variações ao longo do tempo. Devido a ambiguidade característica da linguagem natural certos padrões podem ser associados a diversos tipos de relações incoerentes. Por conta disso, a criação de uma base representativa de regras para esse tipo de método consiste em uma tarefa altamente dispendiosa, já que cada regra necessita de um tratamento específico (NILSEN, 2014). Por exemplo, seja o padrão textual "tais como", que é comumente reduzido à palavra denotativa "como"em textos escritos em Português, pode pertencer às seguintes classes morfológicas: Conjunção, pronome relativo, substantivo, advérbio interrogativo, advérbio de modo, interjeição e preposição. A despeito disso, o único sentido da palavra "como"que deve ser reconhecido pelo referido padrão é o equivalente a "por exemplo"(pronome relativo) (NILSEN, 2014). Diferentemente dos padrões textuais as técnicas de aprendizado de máquina apresentam melhores resultados em termos de precisão e cobertura. 2. Aprendizado de Máquina (AM). As abordagens baseadas em AM selecionam features a partir de um conjunto de treinamento para determinar se existe alguma relação entre as entidades de uma nova instância. Formalmente, dada uma sentença S = w 1, w 2,..., e 1,...w j,..., e 2,...w n, em que e 1 e e 2 são entidades, uma função de mapeamento f é definda por: Figura 2.5: Função do Conjunto de Features extraídas de S [Nilsen (2014)] Θ(S): Conjunto de features extraídas de S e R representa a relação semântica avaliada. Baseado então em Θ(S) e R a equação na Figura 2.5 decide se existe uma relação semântica entre as entidades e 1 e e 2 dentro da sentença S.

26 Capítulo 2: Fundamentação Teórica Extração de Relações Abertas Extração de Relações abertas são ilimitadas quanto ao domínio, possibilitando alta cobertura comparado com a Extração de Relações específicas. Este último tipo de extração baseia-se em relações semânticas predefinidas conforme ilustrado algumas na Figura 2.6, tendo uma grande desvantagem de não reconhecer muitas relações semânticas ao decorrer do texto por não pertencer as relações previamente definidas. Figura 2.6: Exemplos de Relações Especificas [Nilsen (2014)] Desse modo, uma ótima vantagem da ER abertas consiste na não limitação de relações, consequentemente na ilimitação de domínio, uma característica obrigatória para aplicações voltadas para Computação Forense (Figura 2.7). Figura 2.7: Relações Específicas e Abertas [Nilsen (2014)] Nos últimos anos a inclusão digital associada à popularização da internet resultou no crescimento da prática de crimes praticados por ou com auxílio do computador. O aumento da capacidade de armazenamento e a diminuição do custo dos dispositivos inseridos na

27 Capítulo 2: Fundamentação Teórica 26 sociedade resultaram em grandes conteúdos de textos de arquivos contidos em mídias apreendidas em operações policiais. Esses textos forenses podem ser extremamente diferentes entre si, partindo desde um contrato formal de uma instituição que contém linguagem mais formalizada até uma conversa informal vindo de uma rede social. Assim sendo, há uma dependência de se aplicar o método de ER abertas para não cair no problema de relações pré-definidas. Na literatura de extração de relações existem trabalhos recentes, como o Open IE Banko e Etzioni (2008) que abordam a tarefa de extrair relações semânticas independente da quantidade do vocabulário contido em um corpus. Trabalhos que abordam a ER abertas apresentam ainda um problema grave: A quantidade de extrações inválidas ocorre muito nos métodos atuais que tratam dessa tarefa. Como exemplos a Tabela 2.1 contém alguns exemplos de extrações inválidas. Para uma extração ser inválida basta ela apresentar incompletude, e/ou incoerência. Quando a semântica do relacionamento entre as entidades, mesmo sendo completa, não condiz com a interpretação correta da sentença, a extração é dita incoerente. Já uma extração incompleta é caracterizada quando a interpretação da associação entre as entidades é prejudicada pela ausência de termos que compõem a relação (NILSEN; DANIELA, 2014). Sentenças João tem falado muito com todos os jogadores, exceto Pedro. A estrela símbolo do PT vai emoldurar programas de Luiz Inácio Lula da Silva. Relações Inválidas (João, tem falado muito com, Pedro). (PT, vai emoldurar programas de, Luiz Inácio.) Tabela 2.1: Descrição de Extração de Relações Inválidas. Um exemplo de uma ER abertas inválida por incompletude é demonstrado na primeira linha da Tabela 2.1, visto que a interpretação da relação entre as entidades João e Pedro é prejudicada pela ausência do termo "exceto". Na segunda linha percebe-se uma incoerência na extração da relação tornando-a uma extração inválida, devido ao fato das entidades PT e Luiz Inácio terem um relacionamento semântico completo não condizendo com a interpretação correta da sentença.

28 Capítulo 2: Fundamentação Teórica 27 Nos primeiros trabalhos sobre ER abertas a forma abordada para extrair relações que se discute no presente trabalho é dada por (e 1, frase relacional, e 2 ), seguindo três etapas que são apresentadas no trabalho de Nilsen (2014). 1. Etiquetação: As sentenças são etiquetadas automaticamente através de heurísticas ou a partir de supervisão distante (treinamento semi-supervisionado); 2. Aprendizado: Um extrator de frases relacionais é treinado utilizando um modelo de etiquetação sequencial de aprendizado estatístico (e.g. CRF); 3. Extração: Um conjunto de argumentos (e 1, e 2 ) é identificado na sentença de teste. Em seguida, o extrator treinado na etapa 2 é utilizado para etiquetar as palavras contidas entre os argumentos e compor a frase relacional (caso ela exista), extraindo a relação no formato ( e 1, frase relacional, e 2 ). Na primeira etapa de etiquetação percebe-se uma desvantagem desse método, pois para etiquetar todas as sentenças do texto percebe-se um alto custo de construção dos conjuntos de treinamento, todavia a etiquetação tem que ser realizada para que a etapa de aprendizado seja realizada de maneira eficiente, além disso, o método de extração por etiquetação sequencial é pouco eficaz em sentenças maiores, pois a incerteza aumenta na etiquetação da palavra conforme o crescimento da sentença. Para contornar algumas dessas limitações novas abordagens têm surgido por meio de modificações na metodologia e, por conseguinte, nas estratégias adotadas nas etapas de extração (Nilsen (2014)). Abaixo se descreve o procedimento. 1. Extração: Inicialmente, um extrator baseados em padrões linguísticos (e.g. padrões morfológicos) seleciona uma sequência de palavras que representa a relação semântica entre e1 e e2, identificando frases relacionais que casam com esses padrões. Em seguida, se um conjunto de argumentos (e 1, e 2 ) for identificado na sentença de teste, então é gerada a relação na forma ( e 1, frase relacional, e 2 ); 2. Aprendizado: Um classificador de extrações é treinado por meio de um conjunto de features linguísticas;

29 Capítulo 2: Fundamentação Teórica Classificação: O classificador treinado na etapa 2 é utilizado para distinguir as relações válidas das inválidas geradas na etapa 1. Essas novas abordagens substituem o aprendizado na etapa de extração pelo processamento de regras baseadas em padrões morfológicos. Em seguida, um classificador é utilizado na remoção das relações inválidas do conjunto que contém todas as relações extraídas. Essa metodologia permite uma redução significativa na cardinalidade do conjunto de treinamento, já que a complexidade do aprendizado para classificação das relações é inferior a do aprendizado para a identificação das relações. Por outro lado, a construção de conjuntos de treinamento a partir de features linguísticas eleva o custo de classificação, pois a identificação de features representativas requer uma análise mais aprofundada das características da língua no contexto do problema (NILSEN, 2014).

30 Capítulo 3 Trabalhos Relacionados Este capítulo aborda aspectos importantes de trabalhos que tratam da tarefa de Extração da Informação. As abordagens descritas nesta etapa utilizam padrões sintáticos e léxicos para extrair relações. Todavia, somente os trabalhos da subseções 3.1 e 3.2 cujos autores são Banko e Etzioni (2008) e Fader et al. (2011) respectivamente, classificam as novas relações baseando-se em features, e o trabalho citado na subseção 3.3 classifica as relações extraídas a partir de similaridades de estrutura gramatical baseado em grafos. 3.1 As Vantagens e Desvantagens entre as Relações Tradicionais e Abertas Banko e Etzioni (2008) apresentam um sistema de extração de relações abertas denominado O-CRF baseado no modelo CRF. Bem como em Fader et al. (2011) e Nilsen (2014), os autores Banko e Etzioni (2008) desempenham a capacidade de extrair uma variedade de relações semânticas entre entidades com a abordagem de padrões léxico-sintáticos (Figura 3.3). A extração da estrutura relacional para cada sentença é dada por: (E 1,verbo, E 2 ), em que E 1 e E 2 são entidades na presença de um verbo entre elas indicando uma possível relação entre as entidades. Para a etiquetação em forma de tuplas relacionais é feito um treinamento do sistema O-CRF,

31 Capítulo 3: Trabalhos Relacionados 30 aplicando um conjunto de heurísticas. Tais heurísticas são obtidas com a anotação da função sintática e semântica, como por exemplo, a extração de sintagmas nominais participantes da relação sujeito-verbo-objeto apresentada na Figura 3.1, em que as entidades envolvidas estão destacadas com retângulos. Figura 3.1: Entidades Rotuladas para Extração de Relações Abertas [Banko e Etzioni (2008)] O sistema 0-CRF registra E 1 e E 2 como etiqueta ENT denotando que são entidades envolvidas na relação, e que essa etiqueta serve para registrar as extremidades da relação extraída de uma sentença. Diferentemente as palavras que se encontram entre as entidades e que participam da relação extraída são rotuladas de acordo com sua função. Para exemplificar, a sequência de etiquetas dada pelo O-CRF é apresentada na Figura 3.2, o verbo born recebe a etiqueta B-REL, indicando o início da relação, seguindo a sequência tem-se que in que recebe a etiqueta I-REL por fazer parte da relação. E todas as outras palavras que não fazem parte da relação explícita entre as entidades recebem a etiqueta 0. Figura 3.2: Entidades Rotuladas para Extração de Relações Abertas [Banko e Etzioni (2008)] Do mesmo modo que outros sistemas de Extração de Relação encontrados na literatura, Banko e Etzioni (2008) utiliza as features no sistema O-CRF. Finalizando seu trabalho, para a comprovação do sistema O-CRF foram feitos experimentos em um conjunto de 500 sentenças selecionadas randomicamente do corpus desenvolvido por (Bunescu and Mooney, 2007). Em seus experimentos o autor compara o resultado alcançado pelo sistema O-CRF com o TextRunner, sistema Open IE que utiliza o classificador Naive Bayes para predizer se as

32 Capítulo 3: Trabalhos Relacionados 31 Figura 3.3: Restrições Sintáticas de Extração de Relações [Banko e Etzioni (2008)] palavras que ocorrem entre duas entidades indicam uma relação ou não. O-CRF alcançou cerca do dobro da eficiência em Cobertura e um aumento na taxa de Precisão em relação ao TextRunner (Cobertura de 23.2% e Precisão de 86.6% ). 3.2 Identificando Relações Abertas para Extração de Informação O autor deste trabalho aborda ER abertas a partir de padrões morfológicos baseado em padrões de restrições. Para a este tipo de extração ele propõe restrição léxica e sintática. Na restrição sintática, o método verifica se a sequência de classes morfológicas de um determinada sentença segue o padrão definido pela expressão regular apresentada na Figura 3.4. Figura 3.4: Padrão da Restrição Sintática do ReVerb [Fader et al. (2011)]

33 Capítulo 3: Trabalhos Relacionados 32 Desse modo, neste trabalho a restrição sintática tem como base duas propostas: Eliminar extrações incoerentes e, reduzir extrações não muito informativas capturando frases relacionais expressa por uma combinação entre classes morfológicas. A restrição sintática requer que a frase relacional corresponda com o padrão depois de etiquetada pelo POS, estes etiquetadores são ferramentas que realizam a etiquetação morfossintática das palavras de uma sentença. Nessa etapa de restrição sintática, as relações extraídas são baseadas na estrutura morfológica definida abaixo. 1. Somente um verbo (e.g., invented); 2. Um verbo seguido de uma preposição (e.g., located in); 3. Um verbo seguido de um substantivo, adjetivo ou advérbio terminando com uma preposição (e.g., has atomic weight of). Ressalva-se que na extração de relações abertas a maior frase relacional é escolhida. Após a obtenção da frase relacional deseja-se que a relação esteja entre as entidades na frase. Posteriormente ao processo da extração das relações vinculado ao padrão sintático, o próximo passo é a análise léxica através da restrição léxica que se baseia na intuição de que uma relação válida deve ser encontrada em várias instâncias de um corpus. Assim, quando uma relação não é identificada no corpus, ela é considerada muito específica para compor uma extração. Para comprovação das abordagens de restrições sintáticas e léxicas fez-se uma análise com um conjunto de 300 sentenças de um conjunto randômico de páginas web, e como resultado um conjunto de 327 relações foi retornado. Para cada relação, foi checado o padrão da restrição sintática. Ao final da análise foi comprovado que 85% das relações satisfazem as restrições. A Figura 3.5 apresenta a identificação desse percentual de acerto como também de alguns casos onde as restrições foram violadas: Por estruturas frasais não contíguas, frase relacional que não estão entre as entidades entre outros erros.

34 Capítulo 3: Trabalhos Relacionados 33 Figura 3.5: Restrições Violadas Na extração de Relações o algoritmo de extração do Reverb recebe como entrada uma sentença S etiquetada morfologicamente e retorna a tripla (x, r v, y) em duas etapas: 1. Extração de Relações: Para cada verbo v em S, encontre a relação com uma sequência de palava mais longa entre as entidades, tal que: i - r v comece com v; ii - r v satisfaça a restrição sintática, e iii - r v satisfaça a restrição léxica. 2. Extração de Argumentos: Para cada relação r v identificada na primeira etapa, encontre a frase nominal x mais próxima de r v a esquerda e a frase nominal y mais próxima de r v a direita. Se o par (x; y) for encontrado, retorne a extração (x; r v ; y).

35 Capítulo 3: Trabalhos Relacionados Classificação de Relações Semânticas Abertas Baseadas em Similaridade de Estruturas Gramáticas na Língua Portuguesa Este trabalho de Nilsen (2014) propõe um método que incorpora a similaridade das estruturas gramaticais das sentenças na classificação de novas extrações, que ao invés de utilizar uma base de treinamento gerado a partir de um conjunto de features, utiliza uma base de exemplo que possui custo de construção inferior e não depende do idioma. É desenvolvido uma ferramenta de similaridade de estruturas gramaticais SEGAPP, que utiliza o cálculo de isomorfismo em subgrafos na identificação de similaridade estrutural entre modelos em problemas distintos, o mesmo princípio é utilizado na modelagem em grafos das estruturas morfológicas que compõem as sentenças, com a finalidade de identificar padrões que permitam distinguir relações válidas e inválidas extraídas de texto não estruturado. Nesse modelo, um conjunto de documentos não estruturados obtidos a partir de diversas fontes é padronizado para o formato XML, através de técnicas de processamento preparatório. Essa padronização permite a seleção das sentenças contidas nos documentos, além do armazenamento intermediário das sentenças selecionadas em uma base de dados. Em seguida, o autor utiliza o CogrOO (Corretor Gramatical) que define as classes morfológicas dos termos de cada sentença, que são utilizadas na extração de relações abertas a partir das restrições sintática e léxica adaptadas para a Língua Portuguesa. Após a etapa de extração, um modelo de estruturas gramaticais baseado em grafos é gerado, utilizando as classes morfológicas obtidas das relações candidatas (relações que ainda não foram ainda classificadas de válidas ou invalida). Esse modelo serve de base para a definição dos algoritmos que compõem a abordagem de similaridade que utiliza uma pequena base contendo exemplos de relações válidas e inválidas para classificar novas relações. No objetivo de extrair relações semânticas abertas o SEGAPP utilizou como idioma-alvo a língua portuguesa diferentemente de outros trabalhos do estado da arte conforme descrito em

36 Capítulo 3: Trabalhos Relacionados 35 Nilsen (2014), onde o idioma-alvo é a língua inglesa, o SEGAPP objetiva aplicar e avaliar a incorporação da similaridade de estruturas gramaticais na classificação de relações abertas em português. Adaptações foram realizadas a partir dos principais métodos de extração baseados em padrões morfológicos, uma vez que estes apresentam os melhores resultados da categoria. O SEGAPP foi adaptado tomando como base o trabalho do Fader et al. (2011). A primeira adaptação realizada foi na restrição sintática onde a expressão regular foi alterada para identificar padrões morfológicos na Língua Portuguesa. A Figura 3.6 mostra a restrição sintática utilizada na extração de relações semânticas abertas em Português, de onde é possível extrair relações constituídas por: i - Ao menos verbo; ii - Ao menos verbo e preposição; iii - Ao menos verbo e um substantivo, adjetivo, advérbio, pronome ou determinante seguido de uma preposição; Figura 3.6: Restrição Sintática Adaptada para Língua Portuguesa [Nilsen (2014)] Baseado ainda em Fader et al. (2011) há uma outra adaptação no objetivo de evitar extrações muito específicas, e portanto pouco representativas geradas pela restrição sintática. Essa etapa é realizada através da restrição léxica, que é baseada na intuição de que uma relação válida deve ser encontrada em várias instâncias de um corpus. Desse modo, quando um tipo relação morfológica não é identificada várias vezes no corpus, ela é considerada muito específica para compor uma extração. A restrição léxica baseia-se no quantitativo das classes morfológicas em uma relação, isto é, apenas as relações que possuam mais de cinco classes morfológicas (termos) são processadas

37 Capítulo 3: Trabalhos Relacionados 36 pela restrição léxica. Por essa linha de entendimento, percebe-se que construções menores, como as que são apresentadas na Figura 3.7 nunca são descartadas. Essas construções constituem-se em exemplos de sentenças válidas e inválidas baseadas em alguns padrões da expressão regular da restrição sintática. Figura 3.7: Relações Válidas e Inválidas Baseadas no Padrão 3.6 [Nilsen (2014)] Segundo Nilsen (2014), a partir dessas adaptações, estima-se que cerca de 3/4 das relações semânticas abertas baseadas em verbos são identificadas em Português (cerca de 10% a menos que o percentual obtido pela abordagem correspondente em Inglês). Para uma avaliação quanto a cobertura, sabendo que o modelo de extração de relações em Português definido no SEGAPP não é capaz de identificar por completo os tipos de relações da língua, o autor propôs uma análise para estimar o percentual de cobertura perdida após a aplicação das restrições sintática e léxica. A metodologia foi a mesma do Fader et al. (2011): Identificar manualmente todas as relações válidas entre frases nominais em segmentos aleatórios contidos nos textos. Foram escolhidas aleatoriamente 160 sentenças, obtendo 177 relações em que 76,3% foram reconhecidas pelo método de extração automática.

38 Capítulo 3: Trabalhos Relacionados 37 Apresenta-se sobre as relações extraídas que não foram reconhecidas pelo método a seguir. Estruturas com padrões morfológicos longos não mapeados (14,7%): Padrão V W W P W P (e.g., X fez uma tentativa de acordo com Y ). Frases com estruturas não-contíguas (6,2%): Períodos compostos por coordenação (e.g., X foi construído e mantido por Y ); Complementos de verbos transitivos diretos e indiretos (e.g., X agradeceu o presente a Y ); Orações explicativas (e.g., X, que comandou a greve foi preso por Y ). Sentenças com relações que não estão entre os argumentos (2,3%): Frases introdutórias (e.g., Z, Sequestrado por X e Y ). Orações relativas (e.g., A empresa X que Y fundou). Relações excluídas pela restrição léxica (0,5%): Padrão V V V V W P (e.g., X alegou estar sendo procurado continuamente por Y ). Vale ressaltar que a análise não considerou o impacto dos erros gerados pelo etiquetador morfológico CoGrOO utilizado, pois várias vezes o mesmo retorna uma classe morfológica errada o que impacta muito na restrição sintática. Do ponto de vista da precisão de extração, verificou-se que para cada relação válida, cerca de três relações inválidas são identificadas pela restrição sintática. Dessa maneira, assim como nas abordagens voltadas para a Língua Inglesa, grande parte das extrações em português são compostas por relações inválidas, o que demanda a aplicação de estratégias de classificação dessas relações para melhorar a qualidade do método de extração. Para a classificação das relações semânticas abertas em válidas ou inválidas após as etapas de restrições sintáticas e léxicas, um modelo de estruturas gramaticais é gerado utilizando

39 Capítulo 3: Trabalhos Relacionados 38 as classes morfológicas obtidas das relações candidatas. Esse modelo serve de base para a definição dos algoritmos que compõem a abordagem de similaridade proposta, que utiliza uma pequena base contendo exemplos de relações válidas e inválidas para classificar novas relações. O algoritmo de classificação por similaridade é baseado na ideia de que os modelos gerados a partir das estruturas morfológicas de cada sentença válida tende a ser semelhante com o mesmo modelo em outras sentenças válidas; o que também é válido para exemplo de sentenças que contém uma relação inválida, ou seja, um grafo é gerado a partir de uma sentença inválida, sendo possível identificar semelhanças entre esse grafo e o grafo de outra sentença inválida, baseando-se nas estruturas morfológicas existentes neles. Para estimar essa similaridade entre esses grafos é utilizado abordagem de similaridade estrutural e de rótulos (Classes morfológicas): Abordagem de Similaridade Estrutural dos Grafos A similaridade estrutural é diretamente proporcional à quantidade de vértice do clique máximo entre os grafos comparados, e inversamente proporcional a quantidade de vértice que eles possuem, sabendo que essa similaridade corresponde a um número que varia entre 0 e 1. A similaridade estrutural é máxima quando os gráficos são isomorfos e mínima quando o clique máximo entre esses dois grafos corresponde a um único vértice (NILSEN, 2014). Essa etapa é realizada utilizando a equação 3.1. SIM e (G 1, G 2 ) = V c D (3.1) Abordagem de Similaridade de Rótulos dos Grafos Baseado na construção de uma matriz de correlação entre as classes morfológicas apresentada na Figura 3.8, quanto maior a quantidade de conjuntos com palavras idênticas pertencentes a classes distintas, maior a correlação entre essas classes. Por exemplo, se uma

40 Capítulo 3: Trabalhos Relacionados 39 palavra possui na sua definição de dicionário mais de uma classe morfológica associada a ela, então ela contribui para a correlação entre essas classes morfológica. Figura 3.8: Matriz de Correlação entre Classes Morfológicas [Nilsen (2014)] Para similaridade de rótulos o autor leva em conta as diferenças entre os rótulos dos vértices obtidos de cada par de grafos comparados, pois verificou-se que subgrafos isomórficos possuem rótulos idênticos, indicando uma similaridade maior. A equação 3.2 elaborada em seu trabalho representa essa similaridade. SIM r (G 1, G 2 ) = V c i=1 M[ψ(V 1, v i )][ψ(v 2, v i )] D (3.2) O autor com as duas abordagens descritas consolidam o cálculo de similaridade. Utilizando tanto a similaridade estrutural quanto a similaridade de rótulos obtem a similaridade entre dois grafos para identificar a semelhança entre os modelos de estruturas gramaticais, e por conseguinte, poder classificar posteriormente uma relação extraída como válida ou inválida. (Equação 3.3). SIM(G 1, G 2 ) = w e SIM e (G 1, G 2 ) + w r SIM r (G 1, G 2 ) (3.3)

41 Capítulo 3: Trabalhos Relacionados 40 Classificação por Similaridade Identifica-se nessa fase as semelhanças entre os modelos de estruturas gramaticais. O Algoritmo 3.9 basicamente recebe uma lista de exemplos e pretende classificar uma extração de teste com base em um limiar de similaridade. Primeiramente, o algoritmo constrói o grafo tendo como entrada uma sequência de etiquetas morfológicas da extração de teste e compara com cada grafo gerado de cada instância da lista de exemplos; toda vez que o acúmulo de similaridade válida supera o acúmulo de similaridade inválida em relação aos grafos de testes e aos grafos de exemplos, a extração é considerada válida, caso contrário, ela recebe a classe inválida, isso só acontece se a diferença entre essas similaridades supera o limiar, quando não supera o limiar a extração não é classificada. Concluí-se então a ideia do trabalho de Nilsen (2014) com a proposta de classificação de Relações Semânticas Abertas Baseada em Similaridade de Estruturas Gramaticais na Língua Portuguesa do Brasil.

42 Capítulo 3: Trabalhos Relacionados 41 Figura 3.9: Classifica uma Extração com base em Similaridade de Estruturas Gramaticais [Nilsen (2014)]

43 Capítulo 4 Solução Proposta Esse capítulo propõe duas macro-etapas principais. A primeira etapa consiste na extração de relações enquanto a segunda, numa análise de relações válidas e inválidas. Na primeira macro-etapa é proposto uma melhoria na definição do padrão de restrição sintática da ferramenta SEGAPP desenvolvida no trabalho de Nilsen (2014), onde se predefine uma estrutura sintática dos tipos relações extraídas do texto não-estruturado. Outras melhorias na ferramenta também são apresentadas. A segunda etapa foi motivada pela pouca análise que se fez na dissertação Nilsen (2014) referente as features propostas. Nessa macro-etapa foram desenvolvidas novas features para a identificação de relações válidas e inválidas. 4.1 Melhorias Na Ferramenta SEGAPP Nesta primeira macro-etapa algumas modificações foram realizadas na ferramenta SEGAPP, são estas: Modificação do padrão sintático definido na Figura 3.6, alteração da condição final para reconhecimento de uma sentença, adicionamento de prioridade da maior relação dentro de uma mesma sentença, e por fim reconhecimento de entidades compostas numa frase nominal. Tais modificações proporcionaram um bom entendimento das relações extraídas para o usuário, como também, principalmente, uma maior cobertura para as extrações a

44 Capítulo 4: Solução Proposta 43 serem avaliadas como válidas ou inválidas posteriormente Padrão de Extração da Restrição Sintática O padrão sintático definido na Figura 3.6 busca identificar relações semânticas abertas na língua portuguesa do Brasil. Composta pelas seguintes restrições. i - Ao menos um verbo; ii - Ao menos um verbo e preposição; iii - Ao menos um verbo e um substantivo, adjetivo, advérbio, pronome ou determinante seguido de uma preposição; O SEGAPP consiste numa ferramenta desenvolvida no intuito de extrair relações abertas, bem como classificá-las como válidas ou inválidas por similaridade de estrutura gramatical baseado em grafos. E para extraír relações relações essa ferramenta utiliza esse padrão sintático descrito no capitulo 3. Baseado nessas restrições, somente a ii e a iii são aceitos pelo SEGAPP. Elas são representadas pela expressão regular no Algoritmo 4.1 para reconhecer entidades nas extremidades desses dois tipos de relações e, no Algoritmo 4.2 para extrair as relações, uma vez que as entidades das extremidades das relações já foram identificadas pela expressão regular no Algoritmo 4.1. Algoritmo 4.1 Expressão Regular da Restrição Sintática 1 1: /** 2: * Expressao Regular para identificacao de uma extracao na 3: * restricao sintatica. 4: */ 5: public static final String PADRAO_EXTRACAO = "(E[^E]{0,7} [V]* V( N P A P B P R P D P P)[^E]{0,7}E)"; Algoritmo 4.2 Expressão Regular da Restrição Sintática 2. 1: public static final String PADRAO_FRASE_RELACIONAL = "([V]* 2: V( N P A P B P R P D P P))";

45 Capítulo 4: Solução Proposta 44 Ambos os códigos são da classe Constantes() proposta por Nilsen (2014). É válido ratificar que para o reconhecimento de qualquer relação é necessário que ela esteja entre entidades conforme descrito no capitulo 3, baseado no trabalho de Fader et al. (2011) na etapa de extração de argumento. Percebe-se que a expressão regular definida por Nilsen (2014) não reconhecia relações que eram compostas unicamente por verbos, que é a restrição i. Assim, caso a sentença não tenha uma outra relação ela é desprezada. A nível de exemplificação esse tipo de relação é da forma (Edgard Santos; fundou; UFBA), onde Edgard Santos e UFBA são entidades e f undou é a relação entre as entidades, sabendo que nesse tipo de restrição podem existir um ou mais verbos. Na busca por melhorias, para obter uma maior cobertura na extração de relações abertas, o código-fonte foi analisado e constatado que era necessário haver uma modificação nas duas expressões regulares. Foi modificado o Algoritmo 4.1 para 4.3 e o Algoritmo 4.2 para 4.4 como segue abaixo. Algoritmo 4.3 Expressão Regular da Restrição Sintática 3. 1: public static final String PADRAO_EXTRACAO = "(E[^E]{0,7} [V]* 2: V( N P A P B P R P D P P [V]*)[^E]{0,7}E)"; Algoritmo 4.4 Expressão Regular da Restrição Sintática 4. 1: public static final String PADRAO_FRASE_RELACIONAL = "(V ([V][\\s])* 2: (N P A P B P R P D P P ([V][\\s])*))"; Nesse sentido, a expressão regular [V] foi inserida nas expressões regulares dos Algoritmos 4.3 e 4.4 objetivando o reconhecimento da restrição sintática i. Assim, [V] é posto na posição final das mesmas para contribuir que sejam reconhecidas primeiramente as relações maiores, dadas pelas restrições ii e iii. Sabendo que essas duas últimas restrições geralmente compõem uma relação com um quantitativo maior de sequências de palavras, com essa alteração e algumas outras que vão se falar mais adiante, é satisfeito a propriedade da restrição sintática que necessita buscar as relações em uma sentença com um quantitativo maior de termos da relação, e caso não encontre, busca-se as relações com menor quantitativo

46 Capítulo 4: Solução Proposta 45 de palavras. Com a nova restrição adaptada na ferramenta possivelmente dará um bom aumento, entre outras medidas, na cobertura para as relações extraídas. Por exemplo, na sentença: "Maria correu, mas negou ter atirado em João" nenhuma relação era encontrada pois na extração da relação desta sentença reconhecia o verbo correu e imediatamente depois desse verbo buscava-se alguma sequência de termos que satisfaça as restrições ii e iii, com insucesso no casamento do dessas restrições. Com essa nova modificação possibilitou a extração da relação (Maria; correu; joão). Ainda é dada como inválida pois aqui ainda não esta tratando o caso de prioridades de relações maiores e menores Prioridade das Sentenças Maiores Após as modificações realizadas na seção sobre as relações abertas extraídas pela ferramenta, observou-se numa análise manual dessas relações que para um mesmo par de entidade pode ser identificado mais de uma relação pertencente a um mesmo par de entidades. Essas relações podem ser posteriormente classificadas tanto como válida quanto como inválida. Em vista disto, nesta etapa pretende-se criar uma verificação de prioridades para relações existentes em um mesmo par de entidades na tentativa também de minimizar relações classificadas como inválidas. O método comparativo entre tamanhos de relações para um mesmo par de entidade se dá considerando que toda relação cuja a restrição sintática i (seção 4.1.1) é considerada menor que relações reconhecidas pelas restrições ii e iii. Adotou-se essa forma de verificação, devido ao fato de que geralmente todas as ocorrências de relações que pertencem a um mesmo par de entidades seguiam esse princípio. Dessa forma, primeiramente foi adicionada a expressão regular apresentada no Algoritmo 4.5 para reconhecimento, apenas de relações com estrutura morfológica dada pelas restrições ii e iii e posteriormente a expressão do Algoritmo 4.4. Descrito no Algoritmo 4.6.

47 Capítulo 4: Solução Proposta 46 Algoritmo 4.5 Expressão Regular da Restrição Sintática 5. 1: public static final String PADRAO_FRASE_RELACIONAL1 = "(V ([V][\\ s])* 2: (N P A P B P R P D P P ) ([V][\\s]){2,})"; Integrou-se também na expressão do Algoritmo 4.5 a expressão ([V ][\\s]){2, } no caso de se ter mais de uma relação da estrutura sintática i para um mesmo par de entidadespriorizando a relação de maior quantitativo de palavras. Posteriormente foram definidas condições necessárias na classe Extrator() baseadas nas expressões regulares discutidas para priorizar relação de tamanho maior que porventura esteja relacionado com o mesmo par de entidade (Algoritmo 4.6). Algoritmo 4.6 Prioriza relações maiores para o mesmo par de entidades. 1: /* Identifica a lista de sentencas e Etiquetas que casam 2: com a restricao sintatica definida em um padrao. */ 3: ArrayList<Etiqueta>listaEtiquetasGrupo = null; 4: 5: /* Busca encontrar uma relacao de maior tamanho para 6: posteriormente extrair a relacao.*/ 7: try { 8: listaetiquetasgrupo = restricaosintatica.execute(listaetiquetas, 9: Constantes.PADRAO_FRASE_RELACIONAL1); 10: 11: // Caso contrario extrai a menor ou a unica relacao existente. 12: }catch (Exceptione) { 13: listaetiquetasgrupo = restricaosintatica.execute(listaetiquetas, 14: Constantes.PADRAO_FRASE_RELACIONAL); 15: } Para uma breve explicação, seguindo o mesmo exemplo proposto no resultado das modificações realizadas na seção A sentença Maria correu, mas negou ter atirado em João. Nessa sentença é possível retirar duas relações para um mesmo par de entidades, a saber: (Maria; correu; João) (Maria; negou ter atirado em; João) Diferentemente da versão anterior do SEGAPP, que por sua vez nem reconhecia relações

48 Capítulo 4: Solução Proposta 47 nessa sequência estrutural dessa sentença. Após a modificação realizada na seção reconheceu a primeira ocorrência desse exemplo, todavia, como uma relação inválida. E após as modificações desta seção referente às prioridades de relações de tamanho maiores, passou a reconhecer a relação (Maria; negou ter atirado em; João), pois é maior que (Maria; correu; João), além de classificá-la como uma relação válida Modificação na Condição Final da Sentença As sentenças pertencentes a textos estruturados ou não, encerram um sentido completo seguido de uma pontuação, seja ela ponto final ou ponto seguimento. Todavia, constatou-se que existem sentenças que por algum motivo não levaram uma pontuação indicando seu término, caracterizando como uma sentença mal formada. Outra situação percebida são algumas situações em que os pontos seguimentos presentes no texto não estão devidamente espaçados. Nesse sentido, esta seção objetiva aumentar a cobertura das ER abertas na verificação desses erros e consequentemente reconhecendo relações presentes nesses tipos sentenças, que antes, o SEGAPP não reconhecia com a linha de código da classe Arquivo() presente no Algoritmo 4.7. Algoritmo 4.7 Condição de fim de sentença. 1: if(token.endswith(".")) {... As alterações são apresentadas no Algoritmo 4.8 e 4.9. O primeiro Algoritmo reconhece sentenças mal formadas causadas pela falta de pontuação de uma frase para compor o sentido completo na língua portuguesa do Brasil. Algoritmo 4.8 Condição para sentenças mal formadas de fim de sentença. 1: if( (token.endswith(".")) (!st.hasmoreelements()) ) {... O segundo Algoritmo tem como objetivo corrigir sentenças que em seu final contém ponto seguimento junto e sem espaço a uma palavra que o sucede imediatamente, não identificando então o fim da sentença, assim sendo pode não reconhecer uma relação existente na mesma.

49 Capítulo 4: Solução Proposta 48 Algoritmo 4.9 Condição final de sentença sem pontuação. 1: linha = linha.replaceall("[.]", ". "); Para exemplificar a aplicação das modificações realizadas nesta seção, sejam duas sentenças mal formadas da seguinte forma: Maria, após o trabalho, veio buscar João.Informaram a ela que joão já saiu. Maria correu, mas negou ter roubado João Na ferramenta proposta por Nilsen (2014) não reconhecia nenhuma das duas relações. A primeira por não reconhecer a entidade João por está da seguinte forma: "João.Informaram", e a segunda sentença por não encontrar o ponto final, ignorando-a. As correções realizadas propuseram o reconhecimento de relações contidas nas duas sentenças. Na primeira, reconhece pela alteração do Algoritmo 4.9 ficando (Maria, veio buscar, João), enquanto a segunda reconhece pela alteração apresentada no Algoritmo 4.8, alcançando a relação (Maria, negou ter roubado, João). Ambas são classificadas posteriormente como relações válidas. Propondo bons resultados nas medidas de desempenho a ser analisadas nos experimentos e resultados deste presente trabalho Entidades Compostas Nesta seção objetiva-se reconhecer entidades compostas, do tipo, "Chico Lopes", e "economia brasileira" para facilitar o entendimento da relação quando apresentada para o usuário. Na versão anterior do SEGAPP não reconhecia uma entidade composta. Um exemplo desse tipo de entidade é mostrado logo abaixo. Chico Lopes refere-se a economia brasileira.

50 Capítulo 4: Solução Proposta 49 A versão anterior do SEGAPP extraia a seguinte relação como válida: (Chico; refere-se a; economia). Para reconhecimento das entidades compostas foram modificados as expressões regulares conforme descrito no Algoritmo Algoritmo 4.10 Expressão regular da Restrição Sintática. 1: public static final String PADRAO_EXTRACAO = "(E ([Ê][\\s]) 2: {0,7}V([V][\\s])* 3: (N P A P B P R P D P P ([V][\\s])*)([Ê][\\s]){0,7}(E A E))"; 4: 5: public static final String PADRAO_EXTRACAO1 = "(E ([Ê][\\s]) 6: {0,7}V([V][\\s])* 7: (N P A P B P R P D P P V ([V][\\s])*)([Ê][\\s]){0,7}(E A E))"; Para armazenar os valores das entidades compostas adicionou-se o código-fonte do Algoritmo 4.11 no método geraextrato() da classe Extrator(). Algoritmo 4.11 Entidade Composta 1: if(listaetiquetas.get(1).getrotulo() == "A"){ 2: /* Propor uma sequencia de palavras para Entidades.*/ 3: extrato.setentidade1(listaetiquetas.get(0).getpalavra() +" "+ 4: listaetiquetas.get(1).getpalavra()); 5: }else{ 7: //Caso nao tenha Entidade composta obtem-se so uma unica entidade. 8: extrato.setentidade1(listaetiquetas.get(0).getpalavra()); 9: } 10: if(listaetiquetas.get(listaetiquetas.size()-1).getrotulo() == "A"){ 11: extrato.setentidade2(listaetiquetas.get(listaetiquetas.size()-2). 12: getpalavra() +" "+ listaetiquetas.get(listaetiquetas.size()-1). 13: getpalavra()); 14: }else{ 15: extrato.setentidade2(listaetiquetas.get(listaetiquetas.size()-1). 16: getpalavra()); 17: } Com as devidas alterações a ferramenta SEGAPP apresenta a relação da forma abaixo, oferecendo uma maior clareza para a relação extraída. (Chico Lopes, refere-se a, Economia agrária).

51 Capítulo 4: Solução Proposta Remodelagem das Features de Nilsen (2014) Essa proposta busca uma readaptação das features definidas no trabalho Nilsen (2014), bem como a criação de novas features. Conforme Nilsen (2014) se as features captam as propriedades essenciais do conceito, o papel do sistema de Aprendizado de Máquina é rearranjar essas features numa forma genérica de relatar tal conceito. Entretanto, se os atributos não expressarem as relações inerentes ao processo classificatório, as generalizações produzidas por qualquer algoritmo de aprendizado terão baixo desempenho na classificação de novos casos. Nessa linha de raciocínio, percebe-se a importância de se determinar features relevantes para determinado problema, sendo fundamental para o sucesso de qualquer sistema. Para se entender as definições das features nesta seção é necessário saber que para toda a relação adotou-se que: A estrutura de uma relação é da forma (fn 1 ; rel; fn 2 ), onde fn 1 e fn 2 representam as frases nominais contendo entidades mencionadas encontradas antes e depois da relação, e rel denota a frase relacional da extração. Essas frases relacionais foram obtidas conforme as restrições sintática e léxica descritas anteriormente. Na Figura 4.1 constam as features propostas por Nilsen (2014). Tais features foram modeladas apenas por adaptação das features de Fader et al. (2011). Essa adaptação consiste tão somente numa tradução da língua inglesa para a língua portuguesa do Brasil. No trabalho citado realizou-se pouca análise na elaboração e no estudo das features, devido ao fato que a classificação de relações abertas foram feitos por similaridade de grafos. Essas features basicamente foram construídas para ser possível a comparação com outros trabalhos em língua inglesa da literatura. O conjunto de features construído nesta monografia está descrito na Tabela 4.1. Para conseguir esse conjunto foi necessário a criação de muitas outras features que por sua vez foram treinadas e apenas selecionadas as mais relevantes para o problema.

52 Capítulo 4: Solução Proposta 51 Figura 4.1: Features da Dissertação Nilsen (2014) Features F 1 F 2 F 3 F 4 F 5 F 6 F 7 F 8 F 9 F 10 F 11 Descrição Entre fn 1 e rel contém no máximo uma palavra na sentença. Entre rel e fn 2 contém no máximo uma palavra na sentença. Entre fn 1 e rel e entre rel e fn 2 contém no máximo uma palavra na sentença. Entre fn 1 e fn 2 não existe pontuação na sentença. fn 1 é sucedido imediatamente por um verbo de rel na sentença. A última palavra em rel é uma preposição. A string fn 1 + rel está contida na sentença. A string rel + fn 2 está contida na sentença. A string fn 1 + rel + fn 2 está contida na sentença. fn 2 sucede um verbo ou uma preposição de rel na sentença. Tamanho(fn 1 até fn 2 ) na sentença, contém no máximo seis palavras. Tabela 4.1: Definição das Features. Para um melhor entendimento sobre o conjunto de features gerados, além de ter o conhecimento do processo de criação das mesmas, segue as descrições. F 1, F 2 e F 3 : Foram readaptadas baseadas nas melhores features F 9, F 10 e F 11 propostas por Nilsen (2014), proporcionando classificar como válida relações que contém ao máximo uma palavra na sentença, estando ela entre as entidades e a relação extraída. F 4 : Percebeu-se que a maioria das relações válidas não contém pontuação entre as entidades. F 5 : Nas Relações válidas após a entidade a esquerda geralmente é precedido um verbo.

53 Capítulo 4: Solução Proposta 52 F 6 : Baseada numa lematização das features F 2, F 3, F 4, F 5, F 6, F 7 e F 8 do trabalho de Nilsen (2014). F 7, F 8 e F 9 : Mantidas (F 9, F 10 e F 11 ). F 10 : Uma preposição ou verbo da relação válida geralmente antecede a entidade mais a direita. F 11 : Busca verificar a ocorrência da quantidade de palavras da relação incluindo também as entidades.

54 Capítulo 5 Experimentos Nestes experimentos objetiva-se, avaliar os resultados apresentados na proposta deste presente trabalho. Assim sendo, adotou-se três Macro-Experimentos: 1 o Experimento: Refere-se a extração de relações baseado na modificação do padrão da restrição sintática e outras alterações realizadas na ferramenta SEGAPP discutidas no capítulo anterior. 2 o Experimento: Aborda uma análise das novas features proposta neste trabalho, inclusive algumas que foram remodeladas a partir das features definidas por Nilsen (2014). Neste experimento comprova-se que as features readaptadas estão bem definidas. 3 o Experimento: Trata do tamanho do corpus (Base de Documentos). Procura-se analisar a relevância das novas features em função da variação do tamanho do corpus. 5.1 Metodologia Todos os experimentos baseiam-se nas sentenças retiradas aleatoriamente do corpus CETENFolha, que contém cerca de 24 milhões de palavras em português do Brasil originadas do Jornal Folha de São Paulo. As sentenças do corpus envolve diversos temas,

55 Capítulo 5: Experimentos 54 tais como: Economia, esporte, transporte, educação, política, o pai da computação Allan Turing, poluição, racismo entre outros Métodos de Avaliação Métodos de avaliação são utilizados por diversos trabalhos que tratam da Recuperação de Informação, Extração de informação, como tantas outras técnicas sobre documentos. Nesse sentido, utilizou-se esses métodos para possibilitar também comparações entre trabalhos do estado da arte. Precisão: Para definir uma razão entre o número de relações corretamente classificadas e o número de relações que receberam uma classificação utiliza-se a Precisão. P recisao = (relacoes corretamente classificadas) (relacoes classif icadas) (5.1) Cobertura: Dada pela fração das relações que receberam uma classificação e total de relações testadas. Cobertura = (relacoes classificadas) (relacoes testadas) (5.2) Medida-F: Análise da média harmônica entre precisão e cobertura. Medida F = 2 P recisao Cobertura P recisao + Cobertura (5.3) Processo de Classificação Manual das ER Abertas e Construção do Conjunto de Treinamento Baseado em Features Para todos os experimentos realizados neste trabalho que se refere a uma classificação manual das relações extraídas e construção do conjunto de treinamento das features, segue as etapas abaixo.

56 Capítulo 5: Experimentos Primeiramente as sentenças não-estruturadas são etiquetadas automaticamente pelo CoGrOO, um corretor gramatical acoplável a um editor de texto de código aberto, e desenvolvido para o Português do Brasil. O CoGrOO define as classes morfológicas dos termos de cada sentença, que são utilizadas na extração de relações abertas a partir das restrições sintática e léxica implementadas no extrator de relações. Todavia, essa ferramenta ainda classifica alguns termos erroneamente, daí procura-se corrigir tais erros manualmente. 2. Após a etapa de etiquetação dos termos, classifica-se as relações extraídas dessas sentenças como válidas ou inválidas manualmente com base nas relações extraídas e etiquetadas. 3. Para os experimentos que são realizados baseados em features, após a classificação das ER abertas manualmente, há uma necessidade de treiná-las construindo uma base de treinamento, valorando as features de forma binária: 1 caso a feature represente uma relação válida, 0 caso contrário. A construção é dada dessa forma para ser utilizada em algoritmo de aprendizado de máquina. Vale ressaltar que essa construção é altamente dispendiosa, ainda mais quando se tem corpos grandes como se teve de 500 e 1000 sentenças no 3 o experimento. 4. Posteriormente a construção do conjunto de treinamento para um conjunto de features, adapta-se o conjunto de treinamento no padrão.arff para poder utilizar algoritmos de aprendizado de máquina da ferramenta WEKA (Coleção de algoritmos de máquina de aprendizado para tarefas de mineração de dados). Utilizou-se o algoritmo J48 para obter os resultados da Precisão, cobertura, Medida-F e Curva-ROC. O J48 corresponde à implementação do algoritmo C4.5, que utiliza os conceitos de entropia e ganho de informação para construir uma árvore de classificação a partir de atributos reais ou discretos. Nesse algoritmo, cada nó da árvore representa um atributo de decisão e as folhas contém as classes possíveis do atributo de saída. A árvore de classificação é construída de forma top-down, onde os nós que possuem maior ganho de informação são posicionados nos primeiros níveis. Dessa maneira, uma nova instância é classificada conforme o percurso

57 Capítulo 5: Experimentos 56 obtido da raiz até uma folha da árvore, a partir dos valores dos seus atributos (NILSEN, 2014). 5.2 Experimento 1: Extração de Relações na Restrição Sintática Neste experimento é realizado uma análise na contribuição das modificações na ferramenta SEGAPP com uma base de teste de 60 sentenças retiradas do corpus citado na metodologia. Avalia-se aqui uma das contribuições mais relevante no que se refere às alterações na ferramenta SEGAPP. Essa contribuição consiste na modificação da restrição sintática do SEGAPP adicionando mais um tipo de relação definida na seção como sendo a restrição "i - Ao menos um verbo", ou seja: X(V erbo){1, }Y. Primeiramente pretende-se identificar qual a porcentagem da ocorrência dessa nova relação nessa base de teste escolhida aleatoriamente. Para tal análise é verificado quais das relações retiradas do corpus tem a estrutura da nova relação proposta, afim de verificar se houve um aumento do quantitativo de relações extraídas, possibilitando posteriormente a classificação de mais relações extraídas para um mesmo quantitativo de sentenças. Este experimento propõe verificar também se com as mudanças feitas na ferramenta, foram elevados, principalmente, o resultado da cobertura da extração de relações em comparação com os resultados alcançados por Nilsen (2014) (sem as alterações realizadas na seção 4.1). São utilizados métodos de avaliação tradicionais descritos na metodologia e para realização dessa parte do experimento foi necessário a classificação manual das ER abertas.

58 Capítulo 5: Experimentos Experimento 2: Representatividade das Features Propostas Este experimento propõe analisar o conjunto de features construído no capitulo anterior composto por features que foram originadas a partir de remodelagens de outras já existentes no trabalho de Nilsen (2014), buscando uma melhoria das mesmas, composto também por features conservadas do trabalho de Nilsen (2014) por terem um bom mérito, e por fim a criação das restantes para compor todas as features do conjunto. O objetivo principal dessa análise é buscar uma comprovação de que elas estão bem definidas, pois features bem representativas é importante para o sucesso de qualquer sistema. Para realizar este experimento é retirado aleatoriamente 100 sentenças do corpus descrito na metodologia, em posse dessas sentenças é então realizado uma classificação manual das relações extraídas, que também já está definido todo o processo na metodologia, posteriormente a essa etapa faz-se uma avaliação utilizando os métodos tradicionais de avaliação: precisão, cobertura, medida-f e curva-roc sobre as features do presente trabalho e as features elaboradas por Nilsen (2014) verificando se houve melhorias, isto é, se houve uma readaptação das features propostas no capitulo 4 para a língua portuguesa do Brasil. Vai-se fazer uma análise com base no algoritmo J48 descrito na metodologia. 5.4 Experimento 3: Tamanho do Corpus Com base na hipótese de que quanto maior o tamanho da base de documentos para se criar um conjunto de treinamento, melhores e mais consolidados são os resultados da representatividade das features, esse experimento tem o objetivo de verificar se as features propostas no presente trabalho, bem como as features do trabalho de Nilsen (2014) continuam representativas com a variação do tamanho do corpus. Nesse sentido, constrói-se um conjunto de treinamento baseado em features, como descrito na metodologia, variando o tamanho do corpus para 100, 500 e 1000 sentenças, e referente

59 Capítulo 5: Experimentos 58 as features do trabalho de Nilsen (2014) variou-se o corpus em 100 e 500 sentenças, e para 1000 sentenças faz-se uma estimativa. Depois da construção custosa dos conjuntos de treinamentos uma análise é realizada utilizando a ferramenta WEKA. Para a realização da estimativa da precisão das features de Nilsen (2014) para um corpus de 1000 sentenças, utiliza-se a técnica da Regressão Linear Simples, que é um método para se estimar um valor esperado de uma variável y, dados os valores da variável x, neste caso, pretende-se estimar a precisão dado o tamanho do corpus. Para isso, ajusta-se uma reta aos dados, e com base na reta e nos dados constrói-se a equação da reta para então poder realizar uma estimativa da precisão caso fosse construído um conjunto de treinamento baseado nas features de Nilsen (2014) para um corpus de 1000 sentenças. Como valores de entrada para a construção da reta, foi construído baseado no conjunto de treinamento das features de Nilsen (2014) para um corpus de 500 sentenças, 50 instâncias. Essas instâncias é formada pela relação do tamanho do corpus com sua devida precisão, ou seja, no conjunto de tamanhos de corpus elaborados: 10, 20,..., 490, 500, para cada um desses tamanhos analisa-se a precisão utilizando ferramenta WEKA com o algoritmo J48, como descrito na metodologia. Utilizou-se o algoritmo J48 que corresponde ao algoritmo C4.5 para obter o resultado da qualidade das features em predizer a classe de uma nova relação extraída. O J48 retorna resultados como precisão, cobertura, medida-f e curva-roc desses conjuntos de treinamentos que corresponde a representatividade das features.

60 Capítulo 6 Resultados Nesse capítulo foram organizados os experimentos conforme foram apresentados no capítulo 5: O primeiro experimento refere-se aos resultados obtidos da Extração de Relações, no segundo experimento se refere às features remoduladas, no terceiro apresenta os resultados do mérito das features em função da variação do corpus. 6.1 Experimento 1: Extração de Relações na Restrição Sintática Na análise da porcentagem da relação X(V erbo){1, }Y baseado nas sentenças referidas no Experimento 1, foram obtidos, dentro das relações extraídas, uma porcentagem de ocorrência de 46,7% das relações em análise. Concluí-se que a nova relação aumentou significativamente o quantitativo das ER abertas. Refente às melhorias realizadas na ferramenta SEGAPP foram avaliados e obtidos como resultado, conforme mostra a Figura 6.1, uma Precisão de 80,0%, Cobertura de 100% e Medida-F de 90,0%, diferentemente da versão anterior que obtiveram uma Precisão de 63,1%, Cobertura de 31,6% e Medida-F de 42,0%. Concluí-se que todas as alterações realizadas no capítulo 4 seção 4.1 foram ótimas para extrair mais relações abertas, possibilitando que posteriormente se classifique mais relações válidas e inválidas

61 Capítulo 6: Resultados 60 automaticamente baseadas em features. Em especial, a cobertura teve um ótimo resultado, todavia em estudos percebe-se que para um quantitativo maior de sentenças provavelmente não alcance uma cobertura de 100% e sim tendendo a esse resultado. Figura 6.1: Análise das Modificações Realizadas no SEGAPP 6.2 Experimento 2: Representatividade das Features Propostas Após a realização do experimento 2, tendo como base as features propostas e as features de Nilsen (2014), ambas submetidas ao SEGAPP modificado, percebeu-se que as novas features readaptadas para o português do Brasil tiveram melhores representatividades em comparação com as do trabalho de Nilsen (2014). Para se chegar nessa conclusão foi construído uma base de treinamento para os dois conjuntos de features sobre o SEGAPP modificado. Por fim analisou-se ambas as bases de treinamento na ferramenta WEKA, buscando valores representativos para os métodos tradicionais de avaliação. Os Resultados são apresentados na Figura 6.2.

62 Capítulo 6: Resultados 61 Figura 6.2: Análise da Representatividade das Features Esses resultados demonstraram que foi construído um bom conjunto de feature. Todavia é necessário verificar se para um corpus de tamanho maior as features permanecem representativas, consolidando assim esses resultados. Nesse sentido, o Experimento 3 aborda essa consolidação variando o corpos em 100, 500 e 1000 sentenças. Além da análise das novas features, verificou-se que as features do trabalho de Nilsen (2014) tiveram resultados inferiores aos apresentados em seu trabalho. A justificativa para isso é que as modificações realizadas na ferramenta SEGAPP tornou-as menos representativas. Um exemplo desse efeito é a nova relação adicionada no padrão sintático, que invalida as features F 2, F 3, F 4, F 5, F 6, F 7 e F 8 do seu trabalho, pois elas propõem que todas as relações válidas terminem com um tipo de preposição e essa nova relação adicionada obrigatoriamente termina com verbo, além de corresponder cerca de 46,7% do corpus segundo o Experimento 1. Ainda referente a nova relação percebeu-se no momento de criação do conjunto de treinamento das features do trabalho de Nilsen (2014) sobre o SEGAPP modificado, que as relações extraídas válidas, contém muitas das vezes um termo entre as entidades mencionadas, diminuindo as medidas de desempenho das features F 9, F 10 e F 11 do trabalho de Nilsen (2014), e aumentando a representatividade das novas features F 1, F 2 e F 3 readaptadas conforme descreve-se no capítulo 4 para reconhecer também esses tipos de

63 Capítulo 6: Resultados 62 relações e poder classificar corretamente relações válidas e inválidas. Os resultados das features do trabalho de Nilsen (2014) treinadas no SEGAPP não modificado e modificado, com base nas 100 sentenças, estão representadas na Tabela 6.1. Métodos Features Nilsen - SEGAPP Anterior. Features Nilsen - SEGAPP Atual. Precisão 84.5% 80.3% Cobertura. 83.8% 81.0% Medida-F 83.6% 80.4% Curva-ROC 80.1% 63.8% Tabela 6.1: Comparação do desempenho das Features. 6.3 Experimento 3: Tamanho do Corpus Após a realização do experimento 3 que visa verificar a representatividade das features em função do corpus, utilizando tanto as features propostas nesta monografia quanto as features de Nilsen (2014), sendo que ambas são treinadas na ferramenta SEGAPP modificada. Verificou-se que as novas features readaptadas para o português do Brasil tiveram melhores representatividades em comparação com as do trabalho de Nilsen (2014), mesmo com a variação do corpus em 100, 500 e 1000 sentenças. A Figura 6.3 apresenta o comportamento das features definidas nesse trabalho em função da variação do corpus. Percebe-se que há um aumento minimo gradativo em termos de precisão, cobertura, medida-f e curva-roc. A justificativa para a elevação desses resultados foram features bem definidas para o problema, baseado em uma dispendiosa procura por features relevantes, pois para alcançar esse conjunto foram construídas várias features, todavia eram irrelevantes para o problema sendo então descartadas.

64 Capítulo 6: Resultados 63 Figura 6.3: Análise da Representatividade das Features Proposta Nesse Trabalho em Função do Corpus A Figura 6.4 apresenta o comportamento das features definidas no trabalho Nilsen (2014) em função da variação do corpus. Percebe-se que as medidas de precisão, cobertura, medida-f mantiveram quase que o mesmo resultado diferentemente da curva-roc que teve um aumento mais considerável. Alguns fatores justificam esses resultados. Figura 6.4: Análise da Representatividade das Features de Nilsen (2014) em Função do Corpus Um dos fatores que justifica que as features do presente trabalho têm maior representatividade que as de Nilsen (2014) é que o autor fez pouca análise quanto as features, por motivos significativos: Seu trabalho consiste na classificação de ER abertas por similaridade de estruturas gramaticais baseado em grafos, e seu conjunto de treinamento

65 Capítulo 6: Resultados 64 é composto por relações válidas e inválidas analisadas manualmente, sendo menos custoso sua construção para um mesmo quantitativo de sentenças frente às features. Nessa pouca análise, foi realizado na construção das features simplesmente uma tradução (adaptação) das melhores features em inglês para o português do Brasil, enquanto as features propostas neste presente trabalho foram readaptadas e melhoradas. Um outro fator foi que as modificações realizadas na ferramenta SEGAPP tornou-as menos representativas conforme descrito no resultado do experimento 2. Como referido no resultado do experimento 2 as features do trabalho de Nilsen (2014) treinadas no SEGAPP do seu trabalho tiveram resultados superiores as features do trabalho de Nilsen (2014) SEGAPP modificado, devido ao fato de que algumas modificações na ferramenta tiverem efeitos negativos. Os resultados das features do trabalho de Nilsen (2014) treinadas no SEGAPP não modificado e modificado, baseado desta vez em 500 sentenças, estão representadas na Tabela 6.2. Métodos Features Nilsen - SEGAPP Anterior. Features Nilsen - SEGAPP Atual. Precisão 85.8% 80.2% Cobertura. 85.2% 81.4% Medida-F 85.2% 80.6% Curva-ROC 86.7% 71.5% Tabela 6.2: Comparação do desempenho das Features. Figura 6.5: Estimativa Baseado na Regressão Linear Simples

Exibir mais