Além da correção ortográfica nos editores de textos livres



Documentos relacionados
Guia do professor. Introdução

Biblioteca Escolar. O Dicionário

MC-102 Aula 01. Instituto de Computação Unicamp

Migração para Software Livre Administração da Faculdade de Engenharia de Ilha Solteira

AMBIENTE PARA AUXILIAR O DESENVOLVIMENTO DE PROGRAMAS MONOLÍTICOS

Manual de Utilização Central de Serviços

Introdução. à Linguagem JAVA. Prof. Dr. Jesus, Edison O. Instituto de Matemática e Computação. Laboratório de Visão Computacional

Orientações sobre o Novo Produto SACR Sistema de Acolhimento com Classificação de Risco. Versão 1.0, 30/11/2009

Tutorial para Professores com as alterações do Ambiente Moodle 2.7

E3Suite. Estudo da Evolução de Eventos Científicos

ORGANIZAÇÃO CURRICULAR

T U T O R I A I S WEB OF SCIENCE TUTORIAL. Biblioteca da Escola de Engenharia da UFRGS. WEB OF SCIENCE - Tutorial

Palavras-chave: i3geo, gvsig, Mapserver, integração, plugin. Contato: ou

TOTVS Gestão Hospitalar Manual Ilustrado - Unidades de Diagnóstico março de Versão: 2.0

Novidades no Q-flow 3.02

Nome: Login: CA: Cidade: UF CARTÃO RESPOSTA QUESTÃO RESPOSTA QUESTÃO RESPOSTA

2º CONGRESSO INTERDISCIPLINAR EM SAÚDE E EDUCAÇÃO: MEIO AMBIENTE, CIÊNCIA E QUALIDADE DE VIDA

Aplicação Prática de Lua para Web

Ferramenta de apoio a gerência de configuração de software. Aluno: Rodrigo Furlaneto Orientador: Everaldo Artur Grahl

Construção de Compiladores. Construção de Compiladores. Motivação. Motivação. Contexto Histórico. Classificações: Gerações 09/03/2010

Introdução à Lógica de Programação

Universidade de São Paulo São Carlos, SP Instituto de Ciências Matemáticas e de Computação. SSC0206 1/2010 Introdução à Compilação

Web Service - NFS-e. Definição das especificações e critérios técnicos necessários para utilização do WebService. FREIRE INFORMÁTICA Versão 2.

Desenvolvimento de um software de gerenciamento de projetos para utilização na Web

Melhorias e Correções Patch's

Perguntas Freqüentes (FAQs)

FERRAMENTA PARA CRIAÇÃO DE BASES DE CONHECIMENTO NA FORMA DE ONTOLOGIA OWL A PARTIR DE DADOS NÃO ESTRUTURADOS

Tutorial para Professores com as alterações do Ambiente Moodle 2.7

Quais são as novidades?

FundamentosemInformática

FACULDADE DE ENGENHARIA DE COMPUTAÇÃO. PROJETO FINAL I e II PLANO DE TRABALHO <NOME DO TRABALHO> <Nome do Aluno> <Nome do Orientador>

O que queremos. Processamento Estatístico da Linguagem Natural. Parsing Morfológico. Regras Simples. Adicionando palavras. Regras Derivacionais

Introdução ao EBSCOhost 2.0

PORTAL DE RELACIONAMENTO GROUP

Histórico de Revisão Data Versão Descrição Autor

ICC Introdução para JavaScript

PROGRAMAÇÃO JAVA. Parte 1

1 Essa é a tela de login do Sistema de Atendimento Online, siga o passo a passo abaixo.

Processamento de dados XML

MANUAL DE INSTALAÇÃO E CONFIGURAÇÃO

Ontologia Navegadores_Codigo-Aberto

PLATAFORMA DE DESENVOLVIMENTO PINHÃO PARANÁ MANUAL DE UTILIZAÇÃO DO CVS NO ECLIPSE

Melhoria no Desenvolvimento Ágil com Implantação de Processo de Integração Contínua Multiplataforma para Java e.net. Hudson

4 O Workflow e a Máquina de Regras

MANUAL DE IMPLANTAÇÃO SISTEMA DE INVENTÁRIO CACIC GOVERNO FEDERAL SOFTWARE PÚBLICO

Gerenciador de Log Documento Visão. Versão 2.0

UNIVERSIDADE FEDERAL DE SERGIPE CAMPUS PROF. ALBERTO CARVALHO DEPARTAMENTO DE SISTEMAS DE INFORMAÇÃO ENGENHARIA DE SOFTWARE I

RELATÓRIO DO SITE DA DISCIPLINA ENG312 PROJETOS MECÂNICOS I (

Intranets. FERNANDO ALBUQUERQUE Departamento de Ciência da Computação Universidade de Brasília 1.INTRODUÇÃO

Aula 03 Internet. Prof. Bruno Gomes

EDITORES DE TEXTO Capítulo 1: Avaliação técnica e econômica dos principais editores de texto do mercado.

Vamos criar uma nova Página chamada Serviços. Clique em Adicionar Nova.

Ponto Secullum 4 ESPECIFICAÇÕES TÉCNICAS FUNCIONALIDADES FICHA TÉCNICA. Ficha Técnica

Perguntas Frequentes. Distribuidores

TOTVS BA Guia de Customização Linha Logix

ENGENHARIA DE SOFTWARE I

Manual de Ativação de Licenças Windows 8

Desenvolvimento de Interfaces Prototipação

Alterações Easycaptive

Sistema Gerenciador de Conteúdo OpenCms: um caso de sucesso no CEFET-MG

3 Dicas MATADORAS Para Escrever s Que VENDEM Imóveis

MANUAL DE INSTALAÇÃO E CONFIGURAÇÃO. Motor Periférico Versão 8.0

ANEXO 11. Framework é um conjunto de classes que colaboram para realizar uma responsabilidade para um domínio de um subsistema da aplicação.

Manual do Ambiente Moodle para Professores

Corretor Gramatical Para o Emacs

Laboratório de Mídias Sociais

Criando extensões para o BrOffice.org usando Java e NetBeans

EXPRESSO LIVRE 3º Encontro Técnico de Desenvolvedores

Secretaria da Educação do Estado do Rio Grande do Sul. Manual: Sistema de Controle Patrimonial Inventário

Sistema PROJUDI Vara de Execuções Penais

Estabelecer a sistemática para controle de acesso e proteção de dados do sistema SMART e INTRANET através de usuário e senha.

FACULDADE DE ADMINISTRAÇÃO E NEGÓCIOS DE SERGIPE

Satélite. Manual de instalação e configuração. CENPECT Informática cenpect@cenpect.com.br

Um Processo para Desenvolvimento de Aplicações Web Baseado em Serviços. Autores: Fábio Zaupa, Itana Gimenes, Don Cowan, Paulo Alencar e Carlos Lucena

INSTALAÇÃO DO SISTEMA CONTROLGÁS

Treinamento Auditor Fiscal. Instrutor: Jaime Naves Gestora: Adriana Nunes

Padrões de Atendimento de Serviços da empresa

Channel. Visão Geral e Navegação. Tutorial. Atualizado com a versão 3.9

Agora todas as Unimeds vão falar uma só língua. Unimed do Brasil Federação São Paulo Portal Unimed

Nota Fiscal de Serviço Eletrônica Layout de Utilização via software proprio/particular ISSQN NFSE DANFE

Sumário. 1

Anote aqui as informações necessárias:

DESENVOLVENDO APLICAÇÃO UTILIZANDO JAVA SERVER FACES

Introdução à Tecnologia Web. Tipos de Sites. Profª MSc. Elizabete Munzlinger

PROPOSTA COMERCIAL - SISTEMA EMISSOR DE NF-e 2.0

U3 Sistemas Análise e Desenvolvimento de Softwares ===== Manual [Atualização nº 1141] ===== Manual. Atualização nº 2015.

Vamos criar uma nova Página chamada Serviços. Clique em Adicionar Nova.

SISTEMA PATRIMÔNIO WEB

Metodos de Programação

Lógica de Programação

Conhecer o conteúdo programático do componente Língua Portuguesa e desenvolver habilidades de compreensão, interpretação e produção de textos orais e

TUTORIAL DE INSTALAÇÃO DA MÁQUINA VIRTUAL VIRTUALBOX COM INSTALAÇÃO DA VERSÃO DO SISTEMA OPERACIONAL UBUNTU

Introdução a Banco de Dados

Flex. MANUAL DE USO DA FERRAMENTA FLEX O Flex como gerenciador de conteúdo

LINGUAGEM DE BANCO DE DADOS

Integração TOTVS Colaboração 2.0 Recepção NFS-e - Datasul

Manual Integra S_Line

Corretor Gramatical Para o Emacs

Ministério da Cultura

Transcrição:

Além da correção ortográfica nos editores de textos livres William D. Colen M. Silva (colen@users.sourceforge.net) Eng. Computação pela Escola Politécnica da USP (2006) Mestrando Ciência da Computação IME USP Desenvolvedor CoGrOO desde 2004 1

Corretor Gramatical CoGrOO Além da correção ortográfica nos editores de textos livres Agenda Sobre o projeto Além da correção ortográfica Como funciona o CoGrOO Demonstração / Módulos O CoGrOO 3.1 e o CoGrOO 4.0 Como fazer o melhor corretor gramatical O papel da comunidade Além da correção gramatical Conclusões 2

Apresentação do CoGrOO Primeiro e único Mais de 35 mil downloads diretos (contando apenas da versão 2.0 em diante) Estimativa: +100 mil usuários Usado por empresas estatais e privadas. Algumas empresas tem ele instalado em milhares de máquinas Reconhecido localmente como sendo um importante esforço para o desenvolvimento do BrOffice.org 3

Celepar Informática do Paraná 4

5

Banco do Brasil 35 mil máquinas 6

Correios (piloto) 7

Petrobras (piloto) 85 mil 8

9

Apresentação do CoGrOO Foi o primeiro corretor gramatical integrado ao OOo do mundo. Segundo mais utilizado (perde apenas para o Language Tool, que suporta inglês). O projeto Golfiño (Galego) foi criado a partir do CoGrOO. Recebemos pedidos para criar versões do CoGrOO para português de Portugal e para o Espanhol. Módulos foram úteis para outros trabalhos, como por exemplo um grupo de pesquisa sobre saúde usou o CoGrOO na análise de prescrições medicas. 10

Apresentação do CoGrOO Hospedado pelo SourceForge Licença LGPL Fácil instalação e uso Atualizações frequentes Apoio da comunidade Já foi integrado com Firefox plug-in (Bruno Sant'Anna) AbiWord (SoC Gabriel Bakiewicz) WebSevices LangBot Apoema (Bruno Sant'Anna) 11

Além da correção ortográfica Usuário entra um texto Verificador ortográfico tenta encontrar a palavra digitada em seu banco de dados Caso a palavra não seja encontrada ele usa algoritmos de similaridade para encontrar possíveis correções 12

Além da correção ortográfica VERO é o corretor ortográfico do BrOffice.org Dicionário com 304 mil entradas Descritor de afixos com mais de 25 mil linhas menino/dopqr menino menina meninos meninas meninão menininho Ainda é responsável pela separação silábica O VERO conta com apoio da comunidade e é coordenado pelo Raimundo Moura. Frequentemente atualizado. Primeiro a incorporar o Acordo Ortográfico É o corretor oficial do BrOffice.org, e também pode ser usado no Firefox (e outros que suportarem o Hunspell) 13

Além da correção ortográfica Ainda hoje a análise ortográfica é objeto de estudo na Ciência da Computação Existem muitos problemas que ainda não possuem solução ótima Existem softwares que podem tratar de diversos idiomas, por exemplo no OOo 14

Corretor Gramatical Usuário entra um texto O verificador tenta fazer a análise gramatical do texto e na estrutura de dados gerada ele busca por padrões de erros O verificador tenta sugerir correções para o texto. 15

Corretor Gramatical Não existe um padrão funcional para todas as línguas (como o Hunspell para verificação ortográfica) Requer a análise detalhada do texto. É um processo que consome bastante recurso Existem muitos problemas ainda em aberto na análise gramatical automática, é tema de muitas pesquisas em Engenharia e Ciência da Computação (Linguística Computacional). 16

Como funciona o CoGrOO Análise Gramatical Problema Fundamental: Resolver ambiguidades Detecção de limites de palavras/sentenças Sr. Silva estava jogando futebol. O computador novo custará R$ 2.500,00. Ambiguidades nos sentidos das palavras Nada como voltar para casa! (substantivo) Ele se casa na semana que vem. (verbo) 17

Como funciona o CoGrOO texto Detector de Sentenças Detector de Tokens Aplicador Regras Locais Erros Detector de Nomes Dicionários Aplicador Regras Sintagmas Etiquetador Morfológico Detector Sintagmas Aplicador Regras Sujeito Verbo Detector Sujeito Verbo Gerador de Sugestões 18

Dicionários Dicionários de palavras com classificação morfológica casa: [verbo casar] [substantivo feminino singular] Dicionários de relacionamentos entre palavras meninas menino menino meninos menina meninas Dicionário de abreviaturas sr. tel. r. 19

Separador de Sentenças Entrada: Saída: [Ele foi procurar uma casa. Ele vai se casar com a Srta. Maria.] [Ele foi procurar uma casa.] [Ele vai se casar com a Srta. Maria.] Desafio: Decidir se marcas de fim de linha estão separando linhas no contexto. Exemplo "Srta." 20

Separador de Tokens Entrada: Saída: [A Sra. Maria, esposa do Sr. José, trouxe-nos frutas.] [A][Sra.][Maria][,][esposa][do][Sr.][José][,][trouxe] [-nos][frutas][.] Desafio Além dos espaços muitos outros símbolos podem separar tokens na frase. Exemplo "José, trouxe-nos" são quatro tokens. 21

Etiquetador Morfológico Entrada: Saída: [Ele foi procurar uma casa.] [Ele, pronome pessoal masculino 3ª pessoa singular] [foi, verbo ir passado 3ª pessoa do singular] [procurar, verbo procurar no infinitivo] [uma, artigo indefinido feminino singular] [casa, substantivo feminino singular] [., ponto final] Desafio Muitas palavras de mesma grafia podem ser classificadas de diferentes formas de acordo com o contexto em que estão. Por exemplo "casa", que pode ser substantivo ou verbo (casar). 22

Agrupador Entrada: Saída: [Ele, pronome pessoal masculino 3ª pessoa singular] [foi, verbo ir passado 3ª pessoa do singular] [procurar, verbo procurar no infinitivo] [uma, artigo indefinido feminino singular] [casa, substantivo feminino singular] [., ponto final] [Ele, sintagma nominal masculino 3ª pessoa singular ] [foi procurar, sintagma verbal 3ª pessoa singular] [uma casa, sintagma nominal feminino 3ª pessoa singular] [., ponto final] Desafio Encontrar sequências que poderiam ser tratadas como elemento único. Exemplo "uma casa". 23

Analisador Sintático Simples Entrada: Saída: [Ele, sintagma nominal masculino 3ª pessoa singular ] [foi procurar, sintagma verbal 3ª pessoa singular] [uma casa, sintagma masculino feminino 3ª pessoa singular] [., ponto final] [Ele, sujeito] [foi procurar, verbo] [uma casa, sintagma nominal feminino 3ª pessoa singular] [., ponto final] Desafio Identificar entre os sintagmas quais compõem sujeito e verbo. 24

Análise da Arquitetura e do Desenvolvimento Tipos de erros: colocação pronominal concordância nominal concordância entre sujeito e verbo concordância verbal uso de crase erros comuns da língua portuguesa escrita 25

Regras Análise de desvios por padrões Estrutura de regra Método Mensagem Padrão Exemplo: artigo masculino plural + substantivo masculino singular Modelos genéricos de sugestão Descritos em arquivo XML e validados por um XSD 26

Regras Árvores Criação de árvores de busca a partir dos padrões das regras Aplicadores São algoritmos recursivos que fazem a busca com base nas árvores e na sentença processada pelo CoGrOO 27

XML Schema XML (regras) Compilador JAXB Tempo de compilação TagMask Pattern Rule Classes de regras Aplicação leitura-validação Instâncias das regras regra3 : Rule regra2 : Rule regra1 : Rule Tempo de execução Para construtor de árvores de regras 28

Leitura e validação Instâncias das regras regra3 : Rule regra2 : Rule regra1 : Rule Construtor de árvores de regras Geral Local-sintagma Sujeito-verbo Tempo de execução Aplicadores recursivos sentenca : Sentence Geral Local-sintagma Sujeito-verbo erro3 : Mistake erro2 : Mistake erro1 : Mistake Resposta 29

Sistemas Desenvolvidos Treinamento Refinamento dos parâmetros de treinamento Teste de desempenho Teste das regras Visualizadores gráficos Servidor RPC Servidor XML Integração com o OpenOffice.org 30

Desempenho Testes de Desempenho 1 2 3 4 Treinamento Treinamento 5 6 7 8 9 10 Treinamento Treinamento 31

Desempenho Tokenizer - 98,74% Name Finder 90,11% Considerado cada token Chunker 77,25% Considera a sentença Tagger 96,05% Considera a sentença Considera a sentença Shallow Parser 68,80% Considera a sentença 32

Futuro: um CoGrOO mais forte Expandir seu uso para atrair apoio Melhorar sensivelmente o corretor para o português conquistar mais usuários no Brasil Ser suportado por outros programas (Firefox, KOffice) atingir não usuários do BrOffice.org. Disponibilizar API para processamento de linguagens naturais apoio da comunidade acadêmica Suportar outros idiomas conquistar usuários de fora do Brasil 33

CoGrOO 3.1 Novo Chunker e Shallow Parser fim do falso erro de concordância sujeito verbo. Refatoração e melhorias de desempenho usando profiler Documentação dos módulos internos de análise gramatical, que serão disponibilizados para a comunidade Testes automatizados Incorporação do Acordo Ortográfico 34

CoGrOO 4.0 Adoção de uma arquitetura padrão para processamento de linguagens naturais Separar o corretor gramatical da máquina de processamento de linguagens Sistema de plug-ins permite customizações (troca de arquivo de regras, troca de motor de análise gramatical etc) Suporte a múltiplos idiomas Meios de reportar erros diretamente do BrOffice.org 35

Além da correção gramatical... E agora? Já existe um corretor gramatical... o que eu poderia fazer? 36

Além da correção gramatical... Sumarização Verificação de legibilidade Auto-texto Análise semântica Outros auxílios à redação Interpretação de texto e busca por referências relacionadas 37

Quem pode fazer o melhor corretor do mundo? A comunidade! 38

Comunidade (Colaboradores Web) Página que possibilita experimentar o CoGrOO e seus módulos pela Web Página que possibilita escrever e testar regras online regras poderiam ser submetidas para a equipe avaliar Página que aplica o corretor sobre textos extraídos do Wikipédia interface permitiria que o colaborador determinasse a causa do erro (dicionário, etiquetador) Página que permite entrar com texto livre para cadastrar mal funcionamento do corretor

Discussão...