RetiraAcentuação e PostCounter: Ferramentas de otimização e preparação de arquivos

Documentos relacionados
OPERAÇÃO RECEPTOR CT-E MASTERSAF DF-E

Tutorial sobre o MineraFórum I. Introdução

Tutorial sobre o MineraFórum

NIVELAMENTO DE INFORMÁTICA. Professor: Cleber Semensate

1. Exportações Formulários em XML. Finalidade: salvar um questionário no formato XML.

Um Cliente de Webmail para ser acessado em Celulares

Uso de Índices na Otimização e Processamento de Consultas. Otimização e Processamento de Consultas. Otimização e Processamento de Consultas

O trabalho de recensão assistido por computador

DESCOBERTA DO CONHECIMENTO COM O USO DE TEXT MINING APLICADA AO SAC TEXT MINING. Aluno José Lino Uber. Orientador Paulo Roberto Dias

Índice CRIAR E EDITAR GRÁFICOS... 3 CARACTERÍSTICAS AVANÇADAS DE GRÁFICOS AUTO FILTRO TABELA DINÂMICA CLASSIFICAR LISTAS...

SISTEMAS OPERACIONAIS

MTA Monitor. Manual de Usuário. Transferência de Arquivos. Versão: Última modificação: 11/11/2014

Bioinformática: QBQ-5722 Anotação Artemis: Passo-a-passo. Prof. Dr. João Carlos Setubal

6 IMPLEMENTAÇÃO DO MODELO DE REFERÊNCIA

1º No módulo de Gestão Contábil é possível acessar o relatório através do menu Relatórios Diário.

Manual de instalação, configuração e utilização do Enviador XML

PREFEITURA MUNICIPAL DE BLUMENAU

MANUAL DE INSTRUÇÕES PORTAL DE NOTÍCIAS CLIPTVNEWS

Manual módulo FCI - Ficha de Conteúdo de Importação

Universidade Federal de Santa Catarina Centro Tecnológico Departamento de Informática e Estatística Curso de Graduação em Ciências da Computação

I-Preproc: uma ferramenta para pré-processamento e indexação incremental de documentos

PUBLICAÇÃO DE MATERIAIS

OPERAÇÃO CT-E MASTERSAF DF-E

PROTÓTIPO PARA SUMARIZAÇÃO AUTOMÁTICA DE TEXTOS ESCRITOS EM LÍNGUA PORTUGUESA ALEXANDRE BUSARELLO JOYCE MARTINS

Investigando Sistemas de Informação. Crafty Syntax Live Help

Dreamweaver CS6 Plano de Aula - 24 Aulas (Aulas de 1 Hora).

NÚCLEO DE TECNOLOGIAS EDUCACIONAIS DE NOVA ANDRADINA O USO DO SOFTWARE HOT POTATOES

Introdução à Programação. João Manuel R. S. Tavares

PLATAFORMA SIGA RIO DAS VELHAS MANUAL DO CÓDIGO FONTE

Introdução à Programação

PLANO DE ENSINO. INF01210 Semestre: 2009 / 2 Carga horária: 60h Créditos: 04 Pre-requisitos: Nenhum Turmas e Professores: INTRODUÇÃO À INFORMÁTICA

Manual Moodle. Perfil de Aluno. Elaboração:

Excel 2016 com VBA. Aula 4. Prof. Guilherme Nonino Rosa

SOFTWARE PRIMAVERA COMPOSIÇÃO

Descoberta de conhecimento em textos - Análise semântica. Diogo Cardoso Eduardo Camilo Inácio Eduardo Monteiro Dellandréa Guilherme Gomes

Captura de Processos Programa Captura. Programa Captura Orientações

Linguagem R R-Gui e R-Commander

Uma ferramenta para expansão do vocabulário com base em coocorrência

O que há de novo no Excel? Auxílio para iniciar o trabalho. Conheça as novidades do Excel 2013

Manual de Instalação C3SL

BAUR Software para a gestão de dados de medição ITS Lite

Informática - Processadores de Texto- - Microsoft Word - Profª. Me. Valéria Espíndola Lessa

Aprendizado de Máquina (Machine Learning)

GERENCIADOR DE SISTEMAS

LibreOffice Writer. Principais caraccterísticas: Também Salva: Software Livre e Gratuíto

Manual do Professor AVA - Moodle/Unesp (versão 3.0) CHAT

TUTORIAL Rbio - Biometria no R 1

Introdução à Informática

Introdução à Informática

BIBLIOMETRIA ANEXO I COMO EXPORTAR DADOS NAS BASES SCOPUS E EBSCOHOST

Tutorial: Configuração do CLP Citrino

Web Presentation Patterns - Controllers

a. Inicialmente é preciso definir um ESTILO para os TÍTULOS do texto que vão integrar o sumário. SELECIONE o primeiro título que vai compor o sumário:

VVTeste: Ambiente de geração e gerenciamento de testes e de defeitos como apoio aos processos de Verificação e Validação do MPS.br

OntoGen: Uma Ferramenta para Integração de Esquemas XML - Manual da Ferramenta

Cenários de Projeto. Aula 19 15/05/2013. INF1403 Introdução a IHC. Profa. Luciana Salgado

Manual do Estudante AVA - Moodle/Unesp (versão 3.0) FÓRUM DE DISCUSSÃO

DreamweaverCC Plano de Aula - 24 Aulas (Aulas de 1 Hora).

COMPRAS - Importar NF-e

Plano de Aula - DreamWeaver CC - cód Horas/Aula

O melhor de tudo nessas indicações que todas as Ferramentas SEO que vou indicar são grátis.

A CASA DO SIMULADO DESAFIO QUESTÕES MINISSIMULADO 104/360

Florianópolis, 11 de março de Sped Fiscal EFD Manual de Geração do Arquivo

LA VOUIVRE JOGO DA GLÓRIA

Amazon WorkSpaces Application Manager. Guia do usuário

Guia Doxygen. Emanuel Filipe Galdino Alves

Treinamento Laboratório

Dreamweaver CS5 Plano de Aula - 24 Aulas (Aulas de 1 Hora).

DEPARTAMENTO DE MATEMÁTICA E CIÊNCIAS EXPERIMENTAIS

Manual de integração Vendas x WMS

Recursos B-on CURRENT CONTENTS. Saber usar. Novembro,2008

Tutorial de uso das Comunidades de Prática Otics

E-Dictor 1.0 beta. M a n u a l. F e v e r e i r o, Paixão de Sousa, Kepler & Faria 2010

Ferramentas gráficas e relatórios

Plano de Aula - Dreamweaver CS5 - cód Horas/Aula

<NOME>ABIAS FRANCISCO DE SOUZA</NOME> <CNPJCPF> </CNPJCPF> <NMATRICULA>101264</NMATRICULA>

Android OLÁ MUNDO MÓVEL. Prof. Dr. Joaquim assunção.

Relatório de Atividades

Manual do usuário people

QUAL A NECESSIDADE EXISTIR UM CONSTRUTOR? A opção pelo desenvolvimento do construtor é justificada essencialmente por dois fatores:

Gestão de Base de dados Tabelas e Chaves

Changelog 20/02/2019. Importante: é necessário limpar o cache do seu navegador antes de acessar a interface web do sistema.

Professor: M. Sc. Cristiano Mariotti

Dreamweaver CC_15x21.indd 1 06/04/ :04:22

Transmissão Automática de Dados para o INE

SICOOBNET EMPRESARIAL

XML. Prof. Júlio Machado

Introdução a informática WORD

1. Introdução O que é Microsoft PowerPoint Recursos de PowerPoint. Introdução

PORTARIA Nº466, de 15 de julho 2013

edictor 1.0 beta 010 M a n u a l F e v e r e i r o, Paixão de Sousa, Kepler & Faria 2010 Versão 2014 do Manual: Igor Leal

UNICALDAS Faculdade de Caldas Novas Núcleo de Educação à Distância - NEaD. MANUAL DO ALUNO (UnicaldasVIRTUAL) Versão 1.0

EXERCÍCIOS COMPLEMENTARES AULA 3

FTIN Formação Técnica em Informática

Padrão para Códigos Java

PADRÃO DE INTEGRAÇÃO XML

Sibele Loss Edimara Heis

Serasa - PEFIN. Desenvolvido o programa para gerar remessa de inclusão e exclusão de clientes no Serasa.

Campus Capivari Análise e Desenvolvimento de Sistemas (ADS) Prof. André Luís Belini /

Transcrição:

RetiraAcentuação e PostCounter: Ferramentas de otimização e preparação de arquivos Yasmmin C. Martins, Breno F. T. Azevedo, Hélvia P. P. Bastos Núcleo de Informática na Educação (NIE) Instituto Federal Fluminense Campus Campos-Centro (IFF) Campos dos Goytacazes, RJ Brasil {helviabastos, brenoter}@gmail.com, nim_asay@hotmail.com Abstract: This paper describes tools created to optimize text mining activities. Their development aimed at preparing files to be analyzed by the software Presente! [Kambara-Silva 2011]. In spite of being structurally simple, their application allows for more flexibility in text mining, as well as other applications. Resumo: O trabalho descreve duas ferramentas criadas para otimizar atividades de mineração de textos. Ambos os recursos foram desenvolvidos para preparar arquivos a serem analisados pelo software Presente! [Kambara-Silva 2011]. Embora sejam estruturalmente simples, sua aplicação otimiza e flexibiliza atividades de mineração de textos, além de permitir outras aplicações. 1. Introdução As ferramentas foram desenvolvidas para otimizar a preparação e verificação dos arquivos a serem processados e analisados pelo programa Presente! [Kambara-Silva 2011], assim como tornar mais rápidas determinadas atividades necessárias na organização dos arquivos de entrada. O PostCounter pode ser usado para calcular o total de tópicos e postagens de um fórum de discussão. A ferramenta também fornece valores estatísticos que podem ser úteis na apresentação dos resultados finais.o RetiraAcentuação pode ser usado para qualquer arquivo de texto, com extensões como HTML, XML, TXT, DOC etc. O objetivo deste software é remover a acentuação das palavras existentes nos arquivos. 2. PostCounter 1

Este software foi desenvolvido com o objetivo de realizar a contagem automática de tópicos em fóruns de discussão e a quantidade de postagens feitas nos mesmos. Essa função evita a ocorrência de erros e a necessidade de realizar tal operação repetidas vezes (caso a contagem fosse feita manualmente). Figura 1: Arquivo de entrada para o contador A Figura 1 mostra uma parte da página web que o PostCounter utiliza, com vários tópicos e a quantidade de postagens representada pelos números na coluna respostas. Com esse arquivo HTML, o programa faz uma varredura em todo o documento e armazena as linhas do HTML como 2

texto codificado (no formato UTF-8). Em seguida, ele busca por determinadas tags que marcam cada repetição de blocos semelhantes com as informações requeridas, como se verifica nas colunas 1 e 4 da figura. Com isso, após processar todos os arquivos HTML dentro de uma pasta comum, ele fornece as respostas na área de texto logo abaixo do botão Contar postagens, organizando a ordem de acordo com a sequência dos arquivos que estavam no diretório escolhido. Figura 2: Ilustração do software PostCounter com os arquivos de entrada e os resultados dos mesmos 3

Na figura acima, pode-se verificar os resultados apresentados pelo software. Um dos arquivos de fórum possuía mais de 900 postagens. O índice de erro que poderia haver caso a contagem fosse realizada manualmente poderia ser alto. 3. RetiraAcentuação Este software foi desenvolvido para remover a acentuação das palavras existentes em um ou vários arquivos. No contexto deste trabalho, o software foi desenvolvido para analisar postagens de fóruns de discussão. Figura 3: Ilustração do software de retirada de acentuação A Figura 3 apresenta a interface do software. É possível escolher os diretórios tanto do arquivo de entrada quanto de saída. Após o processamento dos dados de entrada, um arquivo de saída será gravado com o resultado da operação. 4

4. Conclusão Os programas descritos neste trabalho são relativamente simples em sua aparência e funcionamento. Entretanto, ajudaram a otimizar e tornar mais rápidas algumas etapas da preparação dos arquivos de entrada da ferramenta Analisador do software Presente!. Referências Kambara-Silva, J.K. (2011) Automatização do processo de aquisição de presença social em fóruns e chats. Trabalho de Conclusão de Curso. Instituto de Informática. Universidade Federal do Rio Grande do Sul. Porto Alegre. 5