KELVIN RAMIRES CAPOBIANCO AVALIAÇÃO DA ETAPA DE PRÉ-PROCESSAMENTO NA MINERAÇÃO DE TEXTO EM REDES SOCIAIS DIGITAIS
|
|
- Maria Fernanda Valgueiro Coimbra
- 8 Há anos
- Visualizações:
Transcrição
1 KELVIN RAMIRES CAPOBIANCO AVALIAÇÃO DA ETAPA DE PRÉ-PROCESSAMENTO NA MINERAÇÃO DE TEXTO EM REDES SOCIAIS DIGITAIS LONDRINA PR 2015
2
3 KELVIN RAMIRES CAPOBIANCO AVALIAÇÃO DA ETAPA DE PRÉ-PROCESSAMENTO NA MINERAÇÃO DE TEXTO EM REDES SOCIAIS DIGITAIS Versão Preliminar de Trabalho de Conclusão de Curso apresentado ao curso de Bacharelado em Ciência da Computação da Universidade Estadual de Londrina para obtenção do título de Bacharel em Ciência da Computação. Orientador: Prof. Dr. Sylvio Barbon Júnior LONDRINA PR 2015
4 Kelvin Ramires Capobianco Avaliação da etapa de pré-processamento na mineração de texto em redes sociais digitais/ Kelvin Ramires Capobianco. Londrina PR, p. : il. (algumas color.) ; 30 cm. Orientador: Prof. Dr. Sylvio Barbon Júnior Universidade Estadual de Londrina, Palavra-chave1. 2. Palavra-chave2. I. Orientador. II. Universidade xxx. III. Faculdade de xxx. IV. Título CDU 02:141:005.7
5 KELVIN RAMIRES CAPOBIANCO AVALIAÇÃO DA ETAPA DE PRÉ-PROCESSAMENTO NA MINERAÇÃO DE TEXTO EM REDES SOCIAIS DIGITAIS Versão Preliminar de Trabalho de Conclusão de Curso apresentado ao curso de Bacharelado em Ciência da Computação da Universidade Estadual de Londrina para obtenção do título de Bacharel em Ciência da Computação. BANCA EXAMINADORA Prof. Dr. Sylvio Barbon Júnior Universidade Estadual de Londrina Orientador Prof. Dr. Segundo Membro da Banca Universidade/Instituição do Segundo Membro da Banca Prof. Dr. Terceiro Membro da Banca Universidade/Instituição do Terceiro Membro da Banca Prof. Ms. Quarto Membro da Banca Universidade/Instituição do Quarto Membro da Banca Londrina PR, 19 de outubro de 2015
6
7 Dedicatoria.
8
9 AGRADECIMENTOS
10
11 Frase efeito
12
13 CAPOBIANCO, K.R.. Avaliação da etapa de pré-processamento na mineração de texto em redes sociais digitais. 40 p. Trabalho de Conclusão de Curso Versão Preliminar (Bacharelado em Ciência da Computação) Universidade Estadual de Londrina, Londrina PR, RESUMO Com o sucesso em popularidade e volume de dados de fácil acesso, as Redes Sociais Digitais, como o Twitter, são alvo de diversos mecanismos de avaliação de conteúdo para a extração de conhecimento, tais como a analise de sentimento. Assim, este trabalho tem como objetivo apresentar um modelo que comprove a importância da fase de préprocessamento e que para cada aplicação existe uma melhor forma de realizar esta fase. Os resultados procuram apresentar uma importante contribuição do modelo e estímulo para mais estudos na área. Palavras-chave: Mineração de Texto. Redes Sociais Digitais. Stemming. Ruído. Préprocessamento
14
15 CAPOBIANCO, K.R.. Evaluation of preprocessing techniques on digital social networks. 40 p. Final Project Draft Version (Bachelor of Science in Computer Science) State University of Londrina, Londrina PR, ABSTRACT With the success in popularity and volume of data easily accessible, the Digital Social Networks like Twitter, are subject to various evaluation mechanisms of content for knowledge extraction, as such as sentiment analysis. This assay aims to present a model to prove the importance of preprocessing techniques and also show that for each kind of application there is a better way to perform it. The results seek to present an important contribution model and stimulus for further studies in the area. Keywords: Text Mining. Digital Social Network. Stemming. Noise. Preprocessing
16
17 LISTA DE ILUSTRAÇÕES Figura 1 As etapas da mineração de texto Figura 2 Especificação do Modelo Figura 3 Síntese dos Experimentos
18
19 LISTA DE TABELAS
20
21 LISTA DE ABREVIATURAS E SIGLAS MT AS PLN RSD Mineração de Texto Análise de Sentimento Processamento de linguagem natural Redes sociais digitais
22
23 SUMÁRIO 1 INTRODUÇÃO Objetivos Organização do Trabalho FUNDAMENTAÇÃO TEÓRICA Conceitos Mineração de Texto Pré-processamento Stopwords Stemming Trabalhos Correlatos Mineração de Texto em redes sociais digitais Análise de sentimento e polarização Pré-processamento, Stemming e remoção de ruído MATERIAIS E MÉTODOS Descrição do Modelo A Base de Dados As Aplicações Pré-processamento Experimentos Testes e Resultados REFERÊNCIAS
24
25 23 1 INTRODUÇÃO Redes sociais digitais são aplicativos com a capacidade de conectar pessoas e organizações com afinidades por diferentes tipos de relações. Neste tipo de ambiente é possível compartilhar qualquer tipo de informação, assim como procurar sobre qualquer tipo de informação. O crescimento e sucesso desse tipo de aplicativo está diretamente ligado ao avanço da internet. Twitter, Facebook e Instagram são alguns exemplos de softwares sociais que atingiram grau elevado de sucesso. Entre eles o Twitter se destaca pela quantidade de usuários e a velocidade com que eles aumentam. Em 2013 o mesmo apresentava cerca de 200 milhões de usuários [1] e atualmente apresenta por volta de 500 milhões, sendo o Brasil o segundo país que mais os possui. 1. Outro ponto de destaque é seu método de funcionamento, que pode ser nomeado de microblogging, isto pois usuários compartilham breves textos (a quantidade máxima permitida é de 140 caracteres), que são acessíveis a qualquer outro que desejar receber informações sobre tal perfil ou procurar pelo assunto abordado. Mídias sociais geram uma grande quantidade de dados, e estes podem ser manipulados e analisados a fim de compreender um pouco mais sobre: sentimento, forma de escrita, opiniões e marketing. Considerando a relevância destas informações faz-se necessária a utilização de uma forma de obtê-la de forma automatizada e quantificada, como a mineração de texto em conjunto com análise de sentimento. A análise de sentimento busca determinar a partir de uma opinião um sentimento, seja ele em relação a uma pessoa, serviço, produto ou mesmo outra opinião. Este é determinado de acordo com a polaridade (positiva ou negativa) da informação analisada. Em AS é comum encontrar trabalhos que procuram utilizar as técnicas para classificar sentimentos do cotidiano e em RSD os usuários tendem a compartilhar cada vez mais sobre o seu dia a dia. Em [2] busca utilizar AS em conjunto com o Twitter para avaliar qual o potencial de informação que esta rede possui. O estudo mostra que mais de 85% dos tweets que são criados estão de alguma forma relacionados a reportagens da televisão ou notícias divulgadas pela mídia. Devido ao compartilhamento em tempo real que a ferramenta fornece é possível então classificar o sentimento de um usuário no momento em que ele recebe a notícia seja ela de qualquer tipo de mídia, portanto este tende a compartilhar suas emoções sem que outros fatores o influenciem. O que intensifica o sentimento expressado. [3] De acordo com [4] a forma que as pessoas pensam sempre foi objeto de grande interesse. Como as plataformas sociais fornecem grande quantidade de dados subjetivos, 1
26 24 quantificando opiniões e sentimentos, o estudo procura mostrar que cada vez mais a quantidade de trabalho que procuram identificar a polaridade e classificar a emoção que um texto possui irão aumentar. Por outro A mineração de texto é a área relacionada ao estudo de grandes volumes de texto. Sua importância se da pois pode ser utilizada em áreas de estudo, tais como saúde e economia. Note que [5] procura utilizar a MT para automaticamente classificar páginas web que falam sobre saúde, visto que com o crescimento da rede é comum aparecer sites falsos que visam enganar um usuário. Em conjunto com a grande quantidade de usuários do Twitter e a frequência que o site é utilizado é possível perceber que a MT pode ser parar reconhecer diversos fatos importantes como: desastres naturais, características de usuários e marketing em geral [6, 7, 8]. Desta forma a quantidade de texto gerada pelas RSD se mostra adequado à utilização destas técnicas, porém, a informalidade linguística apresentada nas redes sociais digitais pode gerar graves problemas. Dentre eles está o ruído, prejudicando a utilização de algoritmos de indexação de texto para classificar a relevância das palavras, e o sarcasmo e ironia, que dificultam a polarização das opiniões gerando resultados não esperados. Existem diversas formas de tentar eliminar o ruído, como a utilização do stemming ou a remoção das stopwords porém é necessário ressaltar que o ruído de uma aplicação para a outra deve mudar. Dentro os passos de MT, a fase de pré-processamento apresenta diversidade elevada de abordagens, isto se da pois existem diferentes técnicas e formas de alcançar o objetivo desta fase, que é transformar a base de dados obtida em uma representação numérica. É possível separar cada um dos termos, calcular a frequência, eliminar o que não é relevante, trabalhar palavras que apresentam o mesmo radical, eliminar sufixos e afixos e outras diversas técnicas, o que torna a etapa de pré-processamento uma das mais difíceis e mais importantes. 1.1 Objetivos O principal objetivo deste trabalho é mostrar que o ruído gerado por RSD é mutável, ou seja, o que não é relevante a uma aplicação pode ser para outra. Desta forma, o mesmo visa aplicar soluções para remover o ruído encontradas na literatura em duas aplicações de MT, pretendendo mostrar que a escolha das técnicas na fase de pré-processamento tem diferentes influências para cada uma delas, tencionando mostrar ainda que esta escolha pode melhorar os resultados obtidos assim como piora-los se for executada de forma não adequada.
27 Organização do Trabalho O capítulo 2 apresenta a fundamentação teórica, o que visa dar o entendimento de conceitos necessários para compreensão deste trabalho, assim como apresentar a gama de trabalhos relacionados ao que esta sendo proposto. O capítulo 3 mostra cada etapa do modelo como a obtenção dos dados, as aplicações que serão utilizadas como base e como serão realizados os testes.
28
29 27 2 FUNDAMENTAÇÃO TEÓRICA 2.1 Conceitos Mineração de Texto Uma abordagem na área de PLN que merece destaque é a mineração de texto. Esta pode ser definida como um conjunto de técnicas para obtenção de informações significativas a partir de um texto, sendo ele não estruturado ou semi-estruturado [9]. Apesar de ser comumente utilizada em textos literários, livros ou em ambientes com elevado nível de formalidade, atualmente estas também estão sendo empregadas em redes sociais digitais. O presente trabalho dará enfoque neste uso. A MT pode ser compreendida como um processo que visa descobrir informações em grande quantidade de texto, por meio da identificação de padrões e relações em dados que se mostram relevantes. Em suma, ela é caracterizada pela interação de um usuário com uma coleção de dados (neste caso, texto) ao longo do tempo, por meio de um conjunto de ferramentas de análise [10]. As aplicações que fazem uso destas técnicas seguem as seguintes etapas: aquisição, pré-processamento, indexação ou transformação, mineração de dados,avaliação. Dado os trabalho [11] e [12] as etapas da MT podem ser descritas da seguinte maneira: Aquisição: é a etapa onde será coletada a base de dados, assim como todas os dados necessários para a aplicação. Por fim ocorre a junção da base com o dados adicionais. Pré-processamento: A etapa de pré-processamento visa preparar o dado para que o mesmo esteja apto a passar pelas próximas etapas. É nesta etapa que ocorre a separação dos termos, a limpeza, a transformação do texto em seu referencial numérico e o calculo da frequência de termos. Esta etapa será vista com mais detalhes na sub-seção abaixo. Transformação: Na etapa de transformação é onde ocorre a seleção e extração de atributos visando gerar a melhor representação dos dados, esta também é a etapa de indexação onde os dados serão agrupados em índices o que ira facilitar a identificação de características, o acesso e recuperação de determinado atributo para um documento. Mineração dos Dados: Também conhecida como etapa de classificação, onde serão aplicados os algoritmos de mineração de dados. Que podem ser dos seguintes tipos:
30 28 de classificação, regressão, segmentação, associação e análise. A escolha do tipo do algoritmo se da de acordo com a necessidade da aplicação. Avaliação e Interpretação: A fase onde o modelo será avaliado a fim de constatar que o mesmo é eficaz. A primeira parte é dada pela avaliação do algoritmo de mineração de dados escolhido. Esta é feita por medidas estatísticas e precisão e confiabilidade[13]. A precisão verifica se o algoritmo é preciso o suficiente para continuar sendo executado, já a confiabilidade vai analisar qual o nível de sucesso que o algoritmo obteve em relação ao seu conjunto de treinamento. Se esses parâmetros não forem satisfeitos é necessário então voltar as etapas anteriores a fim de descobrir o problema. A Figura 1 mostra cada uma das etapas da mineração de texto [11] Figura 1 As etapas da mineração de texto [11]
31 Pré-processamento Em aplicações que utilizam MT a primeira etapa a ser realizada após a aquisição da base de dados é a de pré-processamento, que consiste em trabalhar a grande quantidade de texto obtida para que este se torne mais adequado e gere melhores resultados após a aplicação. Embora não necessariamente siga uma regra, a fase de pré-processamento geralmente é dada pela decomposição do texto em termos e suas frequências. Os termos que são menos significativos podem ser descartados, assim como os que apresentam frequência elevada podem ser desvalorizados. Após o pré-processamento o resultado obtido é chamado de Bag of Words, o que denota uma representação numérica do texto bruto obtido [10]. Toda aplicação que utilize MT necessita de uma base de dados, e ao obtê-la a quantidade bruta destas palavras é chamada de corpus, incluindo repetições. A quantidade total, retirando as repetições, é chamada de léxico. A etapa de pré-processamento interage com o corpus de um texto visando transformá-lo a fim de efetivar a obtenção do léxico. Estas transformações podem ser dadas de acordo com a aplicação, porém existem algumas operações padrões como a remoção de stopwords e o stemming. Em bases de dados é comum que na parte do corpus possa haver texto indesejado, que pode ser chamado de ruído. De uma forma geral, o ruído pode ser compreendido como tudo que interfere de forma negativa na interpretação da informação [14]. Uma etapa de pré-processamento bem realizada pode diminuir a ação do ruído na etapa de classificação e avaliação. Em RSD a quantidade de ruído gerada é aumentada de acordo com a informalidade linguística, que é característica nestas redes. Nota-se que é comum encontrar erros de escrita, palavras abreviadas e emoticons (junção de caracteres para expressar um sentimento), o que em diversas aplicações passa a ser considerado como ruído. Ainda na fase de pré-processamento os termos serão contados de acordo com sua ocorrência no texto, para que após seja feito o cálculo da frequência de cada um. Este cálculo é realizado por meio de algoritmos de indexação de texto, tais como: Term Frequency Inverse Document Frequency (TF-IDF) e Latent Semantic Indexing (LSI) Stopwords As stopwords podem ser definidas como palavras a serem evitadas, portanto deverão ser eliminadas na etapa de pré-processamento [10]. É comum encontrar em listas de stopwords grande quantidade de preposições e conjunções, visto que elas aparecem com grande frequência em textos porém não apresentam grande relevância. Em contrapartida, apesar de também apresentarem grande frequência, os artigos possuem um maior grau
32 30 de relevância, sendo de grande importância em aplicações que analisam sentimento, dessa forma podem ser poupados destas listas. Além disso, é comum a remoção de pontuação, caracteres especiais e links para páginas na internet em conjunto. Apesar da existência de listas de stopwords padrões, as mesmas podem ser definidas de acordo com a aplicação. Nota-se que para cada problema existe uma melhor forma de lidar com estas palavras, por exemplo uma palavra pode ser irrelevante ao problema 1, o que a definiria como stopword, porém extremamente necessária ao 2. Desta forma, uma das melhores formas de abordagem é definir e gerar uma lista de stopwords de acordo com a aplicação a ser implementada Stemming Uma das formas de tentar solucionar o problema do ruído é utilizar uma técnica chamada Stemming, que consiste em representar as diferentes formas de uma palavra em uma palavra raiz, por exemplo, as palavras conectando e conectado poderiam ser representadas na palavra raiz conectar [15]. Ao realizar essa transformação a quantidade de palavras tende a se tornar menor, visto que as mesmas estão sendo agrupadas no seu radical comum. Sendo assim, esta é uma das mais conhecidas técnicas de redução da quantidade léxica. Esta redução facilita, por exemplo, o trabalho dos algoritmos de indexação, pois como os termos estão agrupados não é necessário calcular a frequência de termos parecidos diversas vezes, e além disso, a frequência dos termos relevantes aumenta. É comum ser realizado antes a técnica de tokenização, que visa separar o documento em termos, geralmente buscando os espaços em branco, as quebras de linha ou pontuações para realizar a separação. O resultado da mesma facilita a utilização do algoritmo de stemming. Entre outras formas de reduzir termos existe o método n-gram, onde sequência de letras são agrupadas seguindo uma ordem, seja elas de uma em uma, duas em duas ou n em n [16]. 2.2 Trabalhos Correlatos Mineração de Texto em redes sociais digitais As RSD geram uma grande quantidade de dados e estes podem ser manipulados e analisados a fim de compreender um pouco mais sobre sentimentos, forma de escrita, opiniões e marketing. Considerando a relevância destas informações faz-se necessária a utilização de uma forma de obtê-la de forma automatizada e quantificada. Um exemplo de RSD é o Twitter, que gera uma base de dados muito grande, podendo ser agrupada de acordo com assuntos ou eventos como a Copa do Mundo. Nota-
33 31 se que é necessário trabalhar os dados obtidos a fim de evitar ruídos linguísticos, além de ser possível utilizar algoritmos de clusterização (como o k-means) para analisar os resultados obtidos [17]. Em outra abordagem procura-se mostrar como o Twitter está relacionado às grandes marcas. Os resultados mostram o mesmo como uma ferramenta confiável para análise de marcas, porém a não remoção do ruído pode atrapalhar os resultados [18]. Em [8] as técnicas de mineração de texto são utilizadas para demonstrar que atualmente as empresas (pizzarias) necessitam entender a análise feita nos softwares sociais e transformar estes dados em vantagens para realização de marketing na internet, uma ferramenta que cresce a cada dia e possibilita uma relação de proximidade entre a empresa e o consumidor. Além de ser usada para empresas e marketing em geral, estas técnicas podem ser utilizadas para resolver outros tipos de problemas. Em [7], com auxílio de tais técnicas uma forma para avaliar incidentes envolvendo incêndios naturais e relacionar atributos entre eles é desenvolvida Análise de sentimento e polarização Em seus primeiros trabalhos, a análise de sentimento buscava determinar os sentimentos em textos criados para avaliar um produto ou serviço (reviews). Em [19] isto é abordado com sucesso. Em contrapartida o avanço da internet possibilitou que novas formas de debates fossem criadas, como fóruns de discussão online. Ao manifestar uma opinião nestes fóruns é comum receber diversas respostas (sendo elas positivas ou negativas). Este tipo de interação é chamado de debate polarizado. Em [20] a dificuldade de realizar uma análise de sentimento em um debate polarizado é retratada. A postura dos participantes foi avaliada em 14 debates distintos (10 ideológicos e 4 não ideológicos) e de acordo com os resultados apenas 78,26% das postagens foram classificadas de forma correta, o que mostra que automatizar o processo de análise desse tipo de debates não é trivial. Para resolver este problema, um modelo para análise de sentimento em debates polarizados foi proposto em [21]. Os padrões linguísticos, o contexto e a ocorrência são utilizados para identificar as opiniões expressas nos textos, além disso, este modelo trata dois fenômenos linguísticos: Anáfora e concessões, que podem prejudicar a análise. Cada opinião é representada por uma tripla (produto, palavra opinativa e sentença) e sua polaridade inicial é dada utilizando as classes gramaticais de acordo com a palavra opinativa da tripla. Este modelo foi avaliado em três experimentos (com três configurações diferentes). O primeiro utilizando apenas padrões linguísticos obteve taxas entre 50% e 65% de acurácia em três debates, o segundo utilizando a resolução de anáforas e concessões apresentou melhora de 10% a 12% na taxa de acurácia anterior em dois dos três testes e o terceiro agregando a análise do grafo de respostas apresentou melhora de 10% na acurácia
34 32 para todos os experimentos. É possível perceber um aumento na porcentagem ao utilizar este modelo, porém o crescimento não é tão discrepante em relação ao obtido com o uso da análise de sentimento padrão Pré-processamento, Stemming e remoção de ruído Ao que se relaciona a stemming, Shrma et. al. [15] apresenta um estudo e comparativo entre as técnicas e principais algoritmos, procurando mostrar a eficiência de métodos como a remoção de afixos e a variedade de sucessores em relação a técnica de n-gram, além de destacar abordagens estatísticas, gráficas e de acordo com regras. O trabalho destaca o fato da quantidade de texto que é gerada a cada dia na web e que recuperar esta informação de maneira eficiente é um grande desafio. Este estudo mostra ainda que o custo computacional destas técnicas é baixo, assim como o tempo de processamento. Por fim, ao comparar as abordagens o mesmo chega à conclusão que a técnica gráfica apresenta resultados melhores em relação a estatística, tanto na língua inglesa quanto na francesa. Porém, ressalta que apesar do fato de que stemming aumenta o desempenho da recuperação da informação, ainda existem questões em aberto nessa área que precisam ser tradadas, como o tamanho da amostra a ser analisada em aplicações que utilizam gráficos e a dificuldade de implementação dos algoritmos em idiomas diferentes do inglês. Para [22] as atividades de pré-processamento desempenham um papel vital em várias aplicações. Este trabalho utiliza três etapas, sendo elas a remoção de stopwords, o stemming e a verificação da escrita. Vale ressaltar que o autor procura mostrar os benefícios da verificação de escrita, tais como evitar a diminuição da acurácia com erros e economizar tempo ao não utilizar o algoritmo nestas instâncias. O trabalho busca ainda comparar a implementação padrão do algoritmo de Poter com a versão aprimorada proposta no artigo, visto que as técnicas tradicionais podem se tornar inadequadas com o vasto aumento de texto gerado pela web. Comumente um algoritmo de stemming lidará com alguns problemas, como a dependência do contexto e a dificuldade de avaliar se um sufixo é de fato importante ou se o mesmo deve ser removido e o modelo proposto visa lidar de forma efetiva com estes problemas. Nota-se que para a aplicação escolhida a melhor técnica foi a proposta no modelo, pois pode ser utilizada de forma dinâmica em qualquer domínio. Já a abordagem de [23] mostra que a análise de sentimento em redes sociais digitais está atraindo uma atenção especial, visto a quantidade de texto gerado e que os usuários tendem a falar sobre assuntos cotidianos e expressar sua opinião nestas redes. Assim, treinar um classificador com dados de um tweet (nome dado a uma postagem no twitter), gera uma grande quantidade de ruído, sendo assim é necessário a utilização de boas técnicas de pré-processamento. Entre algumas das técnicas utilizadas estão o stemming, a remoção de letras repetidas feita de acordo com uma implementação baseada no modelo
35 33 de n-gram, remoção de URLs (Links) e negações. Com a utilização dessas técnicas o trabalho consegue atingir 85,5% de acurácia na classificação. De acordo com [24], foi analisada uma base de dados obtida no twitter durante a realização do jogo Brasil x Japão na Copa das Confederações em Tal estudo propõe um modelo automático para redução do ruído gerado nesta base. A proposta para redução do ruído utilizava uma modelagem em níveis: a primeira parte seria a remoção de caracteres e siglas especiais assim como as palavras que os procedem; a segunda parte seria a remoção de pontuação e stopwords, no terceiro nível a correção ortográfica e por fim as palavras são comparadas ao vocabulário de internet e substituídas por sua grafia formal. Os experimentos foram feitos utilizando o algoritmo de indexação LSI e os resultados mostram que emoticons e usuários da rede eram classificados como palavras com grande relevância, após a utilização do modelo foi verificado que ao remover estes casos as palavras com maior relevância eram de acordo com o tema. Em [25] após realizar a etapa de tokenização, procura-se então encontrar palavras escritas em inglês casual (informal) e transformá-las para uma escrita formal. O trabalho tenta ainda comparar o modelo proposto com outros que visam realizar apenas a correção ortográfica. Os resultados mostram que a diminuição dos erros eleva em até 15% a eficácia dos classificadores. Sendo assim, conclui-se que o melhor seria utilizar a proposta do artigo em conjunto com um corretor ortográfico padrão, pois a abordagem integrada vem a ser uma forma mais eficaz do que a proposta de apenas correção. Por fim, em [26] mostra o papel que o pré-processamento pode desempenhar em aplicações que visam a análise de sentimento. Este utiliza uma combinação de técnicas para reduzir o ruído gerado, entre elas estão a limpeza do texto online, a remoção de espaços em branco, a expansão das abreviações, o stemming, remoção de stopwords e negações. Como resultado, o mesmo mostra que a análise de sentimento é uma área muito importante a ser explorada, principalmente com o constante crescimento das RSD e o marketing que pode ser gerado em cima delas. Todavia estas geram uma grande quantidade de ruído, portanto a etapa de pré-processamento deve ser feita da melhor forma possível a fim de maximizar os resultados obtidos pelo classificador.
36
37 35 3 MATERIAIS E MÉTODOS 3.1 Descrição do Modelo O modelo proposto segue o que esta especificado na Figura 2: Figura 2 Especificação do Modelo A Base de Dados A base de dados a ser utilizada neste trabalho conta com tweets obtidos no dia 27/01/2014 de acordo com a realização da última partida da temporada de futebol americano nos Estados Unidos da América, conhecido como Super Bowl. Esta base está disponível na internet para utilização pública As Aplicações A primeira aplicação escolhida para ser reproduzida neste trabalho é a [27], neste trabalho o autor procura classificar os usuários do Twitter em três classes, sendo elas 1
38 36 os bots (usuários que realizam apenas postagens atemáticas), os cyborgs (usuários que realizam postagens atemáticas e postagens normais) e os humanos (usuários comuns da rede). A segunda aplicação escolhida foi [28], onde é feita a análise de sentimento de acordo com a polaridade dos termos. Vale ressaltar que será reproduzido tudo que foi proposto pelos autores, porém no caso da aplicação 2 será utilizada a base de dados proposta neste trabalho por uma questão de padronização dos testes Pré-processamento Para a fase de pré-processamento serão desenvolvidas as seguintes técnicas: remoção de stopwords, o stemming, correção ortográfica, remoção de Links, caracteres especiais e transformação de texto informal (vocabulário da internet, gírias, abreviações) para formal. Serão então separadas em quatro grupos: Grupo 1: Nenhuma atividade de pré-processamento; Grupo 2: Todas as atividades de pré-processamento; Grupo 3: Stemming + remoção de Stopwords; Grupo 4: Remoção de Stopwords + correção ortográfica + remoção de caracteres especiais + transformação de texto informal para formal; Os grupos foram separados a fim de facilitar a confecção dos experimentos. Os grupos 1 e 2 visam mostrar a importância do pré-processamento na MT, já para grupo 3 a escolha das técnicas foi dada empiricamente para a aplicação 2, visto que a literatura não dá enfoque na fase de pré-processamento para a detecção e remoção de bots. Por fim, para o grupo 4 as técnicas seguem o indicado para aplicações de MT e análise de sentimento encontradas na literatura Experimentos Serão realizados oito experimentos, que serão divididos a fim de utilizar todos os grupos de pré-processamento em conjunto com as duas aplicações escolhidas. Da seguinte forma: Experimento 1: Grupo 1 + Aplicação 1; Experimento 2: Grupo 2 + Aplicação 1;
39 37 Experimento 3: Grupo 3 + Aplicação 1; Experimento 4: Grupo 4 + Aplicação 1; Experimento 5: Grupo 1 + Aplicação 2; Experimento 6: Grupo 2 + Aplicação 2; Experimento 7: Grupo 3 + Aplicação 2; Experimento 8: Grupo 4 + Aplicação 2. Abaixo segue a Figura 3 para sintetizar os experimentos, onde N abrange a quantidade de grupos e M, a quantidade de aplicações: Figura 3 Síntese dos Experimentos Testes e Resultados Para os testes e resultados será utilizado um classificador com o auxílio do software Weka 2. O classificador utilizado respeitará o que melhor obteve resultados no artigo que 2
40 38 denota a aplicação 1 [27] e a aplicação 2 [28]. Em seguida os resultados serão comparados com o da literatura a fim de validar o que foi proposto no modelo. Além disso, a frequência das palavras será analisada de acordo com o algoritmo de indexação de texto Term Frequency Inverse Document Frequency (TF-IDF), para que em cada experimento seja destacada quais são as palavras com maior relevância.
41 39 REFERÊNCIAS [1] GOLBECK, J. Analyzing the social web. [S.l.]: Newnes, [2] KWAK, H. et al. What is twitter, a social network or a news media? In: ACM. Proceedings of the 19th international conference on World wide web. [S.l.], p [3] SAKAKI, T.; OKAZAKI, M.; MATSUO, Y. Earthquake shakes twitter users: real-time event detection by social sensors. In: ACM. Proceedings of the 19th international conference on World wide web. [S.l.], p [4] PANG, B.; LEE, L. Opinion mining and sentiment analysis. Foundations and trends in information retrieval, Now Publishers Inc., v. 2, n. 1-2, p , [5] FALCÃO, A. E. J. et al. Indecs: método automatizado de classificação de páginas web de saúde usando mineração de texto e descritores em ciências da saúde (decs). Journal of Health Informatics, v. 1, n. 1, [6] PAK, A.; PAROUBEK, P. Twitter as a corpus for sentiment analysis and opinion mining. In: LREC. [S.l.: s.n.], v. 10, p [7] ZHANG, D.; JIANG, K. Application of data mining techniques in the analysis of fire incidents. Procedia Engineering, Elsevier, v. 43, p , [8] HE, W.; ZHA, S.; LI, L. Social media competitive analysis and text mining: A case study in the pizza industry. International Journal of Information Management, Elsevier, v. 33, n. 3, p , [9] SUKANYA, M.; BIRUNTHA, S. Techniques on text mining. In: IEEE. Advanced Communication Control and Computing Technologies (ICACCCT), 2012 IEEE International Conference on. [S.l.], p [10] FELDMAN, R.; SANGER, J. The text mining handbook: advanced approaches in analyzing unstructured data. [S.l.]: Cambridge University Press, [11] MAIMON, O.; ROKACH, L. Data mining and knowledge discovery handbook. [S.l.]: Springer, v. 2. [12] RIBEIRO, J. S.; KAUFMAN, K. A.; KERSCHBERG, L. Knowledge discovery from multiple databases. In: KDD. [S.l.: s.n.], p [13] INGERSOLL, G. S.; MORTON, T. S.; FARRIS, A. L. Taming text: how to find, organize, and manipulate it. [S.l.]: Manning Publications Co., [14] SUH, J. H.; PARK, C. H.; JEON, S. H. Applying text and data mining techniques to forecasting the trend of petitions filed to e-people. Expert Systems with Applications, Elsevier, v. 37, n. 10, p , [15] SHARMA, D. Stemming algorithms: A comparative study and their analysis. International Journal of Applied Information Systems, v. 4, n. 3, p. 7 12, 2012.
42 40 [16] ADAMSON, G. W.; BOREHAM, J. The use of an association measure based on character structure to identify semantically related pairs of words and document titles. Information storage and retrieval, Elsevier, v. 10, n. 7, p , [17] WALKER, M. A. et al. That is your evidence?: Classifying stance in online political debate. Decision Support Systems, Elsevier, v. 53, n. 4, p , [18] MOSTAFA, M. M. More than words: Social networks text mining for consumer brand sentiments. Expert Systems with Applications, Elsevier, v. 40, n. 10, p , [19] SILVA, N. R.; LIMA, D.; BARROS, F. Sapair: Um processo de análise de sentimento no nível de característica. In: 4nd International Workshop on Web and Text Intelligence (WTI 12), Curitiba. [S.l.: s.n.], [20] WALKER, M. A. et al. That is your evidence?: Classifying stance in online political debate. Decision Support Systems, Elsevier, v. 53, n. 4, p , [21] NETO, F. A. R.; BARROS, F. de A. Asdp: um processo para análise de sentimento em debates polarizados. [22] RAMASUBRAMANIAN, C.; RAMYA, R. Effective pre-processing activities in text mining using improved porter s stemming algorithm. International Journal of Advanced Research in Computer and Communication Engineering, v. 2, n. 12, p , [23] BAO, Y. et al. The role of pre-processing in twitter sentiment analysis. In: Intelligent Computing Methodologies. [S.l.]: Springer, p [24] CAPOBIANCO, K. R.; JÚNIOR, S. B. Modelo para redução automática de ruído em conteúdo de redes sociais digitais. [25] CLARK, E.; ARAKI, K. Text normalization in social media: progress, problems and applications for a pre-processing system of casual english. Procedia-Social and Behavioral Sciences, Elsevier, v. 27, p. 2 11, [26] HADDI, E.; LIU, X.; SHI, Y. The role of text pre-processing in sentiment analysis. Procedia Computer Science, Elsevier, v. 17, p , [27] IGAWA, R. A. e. a. Account classification in online social networks with lbca and wavelets. Proceedings of Information Sciences, Elsevier, [28] MONTEJO-RÁEZ, A. et al. Crowd explicit sentiment analysis. Knowledge-Based Systems, Elsevier, v. 69, p , 2014.
Análise de Sentimentos e Mineração de Links em uma Rede de Co-ocorrência de Hashtags
Universidade Federal de Pernambuco Graduação em Ciência da Computação 2012.2 Análise de Sentimentos e Mineração de Links em uma Rede de Co-ocorrência de Hashtags Proposta de Trabalho de Graduação Aluno:
Leia mais3 Estratégia para o enriquecimento de informações
34 3 Estratégia para o enriquecimento de informações Podemos resumir o processo de enriquecimento de informações em duas grandes etapas, a saber, busca e incorporação de dados, como ilustrado na Figura
Leia mais3 Qualidade de Software
3 Qualidade de Software Este capítulo tem como objetivo esclarecer conceitos relacionados à qualidade de software; conceitos estes muito importantes para o entendimento do presente trabalho, cujo objetivo
Leia maisMetadados. 1. Introdução. 2. O que são Metadados? 3. O Valor dos Metadados
1. Introdução O governo é um dos maiores detentores de recursos da informação. Consequentemente, tem sido o responsável por assegurar que tais recursos estejam agregando valor para os cidadãos, as empresas,
Leia maisc. Técnica de Estrutura de Controle Teste do Caminho Básico
1) Defina: a. Fluxo de controle A análise de fluxo de controle é a técnica estática em que o fluxo de controle através de um programa é analisado, quer com um gráfico, quer com uma ferramenta de fluxo
Leia maisTeste de Software: Um Breve Estudo do Importante Processo no Desenvolvimento de Softwares
Teste de Software: Um Breve Estudo do Importante Processo no Desenvolvimento de Softwares André Assis Lôbo de Oliveira Francisco Guerra Fernandes Júnior Faculdades Alves Faria, 74445190, Brasil andrelobin@hotmail.com,
Leia maisESTUDO DE CASO: LeCS: Ensino a Distância
ESTUDO DE CASO: LeCS: Ensino a Distância HERMOSILLA, Lígia Docente da Faculdade de Ciências Jurídicas e Gerenciais de Garça FAEG - Labienópolis - CEP 17400-000 Garça (SP) Brasil Telefone (14) 3407-8000
Leia maisADMINISTRAÇÃO I. Família Pai, mãe, filhos. Criar condições para a perpetuação da espécie
1 INTRODUÇÃO 1.1 ORGANIZAÇÃO E PROCESSOS A administração está diretamente ligada às organizações e aos processos existentes nas mesmas. Portanto, para a melhor compreensão da Administração e sua importância
Leia maisSISTEMAS DE INFORMAÇÃO GERENCIAIS
SISTEMAS DE INFORMAÇÃO GERENCIAIS Aluno: Luiza Cavalcanti Marques Orientador: Silvio Hamacher Introdução A modelagem e a utilização de bancos de dados em atividades gerenciais têm sofrido um aumento significativo
Leia maisCapítulo 2 Usabilidade... 24 2.1 Definição de usabilidade... 25 2.2 Resumo... 39 2.3 Leitura recomendada... 39
Prefácio... IX Lista de Siglas e Abreviaturas... XIII Lista de Figuras e Quadros... XVI Capítulo 1 Portal web... 1 1.1 Definição de portal web... 3 1.2 Portal corporativo... 8 1.3 Resumo... 22 1.4 Leitura
Leia maisEngenharia de Software II
Engenharia de Software II Aula 28 Revisão para a Prova 2 http://www.ic.uff.br/~bianca/engsoft2/ Aula 28-28/07/2006 1 Matéria para a Prova 2 Gestão de projetos de software Conceitos (Cap. 21) Métricas (Cap.
Leia maisTransformação de um Modelo de Empresa em Requisitos de Software
Transformação de um Modelo de Empresa em Requisitos de Software Fábio Levy Siqueira 1 and Paulo Sérgio Muniz Silva 2 1 Programa de Educação Continuada da Poli-USP, São Paulo, Brazil 2 Escola Politécnica
Leia maisUNIVERSIDADE FEDERAL DE SANTA MARIA CENTRO DE TECNOLOGIA AULA 14 PROFª BRUNO CALEGARO
UNIVERSIDADE FEDERAL DE SANTA MARIA CENTRO DE TECNOLOGIA AULA 14 PROFª BRUNO CALEGARO Santa Maria, 01 de Novembro de 2013. Revisão aula passada Projeto de Arquitetura Decisões de projeto de Arquitetura
Leia maisEstudo de Caso Bicicletada Curitiba
Estudo de Caso Bicicletada Curitiba Tópicos Principais Análises de contexto de uso Testes de usabilidade Categorizações de conteúdo Fluxogramas de navegação Protótipos de baixa fidelidade (wireframes)
Leia maisSocial Media and the new Advertising: an analysis of Farm's Instagram.
MÍDIAS SOCIAIS E A NOVA PUBLICIDADE: UMA ANÁLISE DO INSTAGRAM DA FARM Social Media and the new Advertising: an analysis of Farm's Instagram. Nunes, Rita de Cássia; Graduanda; Faculdade Senac Pernambuco
Leia maisUNIVERSIDADE FEDERAL RURAL DE PERNAMBUCO DEPARTAMENTO DE ESTATÍSTICA E INFORMÁTICA BACHARELADO EM SISTEMAS DE INFORMAÇÃO RAPID APPLICATION DEVELOPMENT
UNIVERSIDADE FEDERAL RURAL DE PERNAMBUCO DEPARTAMENTO DE ESTATÍSTICA E INFORMÁTICA BACHARELADO EM SISTEMAS DE INFORMAÇÃO RAPID APPLICATION DEVELOPMENT Disciplina: Modelagem a Programação Orientada a Objetos
Leia maisFAZEMOS MONOGRAFIA PARA TODO BRASIL, QUALQUER TEMA! ENTRE EM CONTATO CONOSCO!
FAZEMOS MONOGRAFIA PARA TODO BRASIL, QUALQUER TEMA! ENTRE EM CONTATO CONOSCO! DEFINIÇÃO A pesquisa experimental é composta por um conjunto de atividades e técnicas metódicas realizados para recolher as
Leia maisAdministração de Sistemas de Informação I
Administração de Sistemas de Informação I Prof. Farinha Aula 04 Conceito Sistema de Informação é uma série de elementos ou componentes inter-relacionados que coletam (entrada), manipulam e armazenam (processo),
Leia mais3 Metodologia 3.1. Tipo de pesquisa
3 Metodologia 3.1. Tipo de pesquisa Escolher o tipo de pesquisa a ser utilizado é um passo fundamental para se chegar a conclusões claras e responder os objetivos do trabalho. Como existem vários tipos
Leia maisCapítulo 2. Processos de Software. 2011 Pearson Prentice Hall. Todos os direitos reservados. slide 1
Capítulo 2 Processos de Software slide 1 Tópicos apresentados Modelos de processo de software. Atividades de processo. Lidando com mudanças. Rational Unified Process (RUP). Um exemplo de um processo de
Leia maisDESENVOLVIMENTO DE UM REPOSITÓRIO DE DADOS DO FUTEBOL BRASILEIRO
Universidade Federal de Ouro Preto - UFOP Instituto de Ciências Exatas e Biológicas - ICEB Departamento de Computação - DECOM DESENVOLVIMENTO DE UM REPOSITÓRIO DE DADOS DO FUTEBOL BRASILEIRO Aluno: Rafael
Leia maisDocumento Descritivo do Mecanismo de Busca. Preparação do Portal para indexação
Documento Descritivo do Mecanismo de Busca Este documento visa esclarecer as regras que serão executadas pelo mecanismo de busca para a recuperação de informações a partir de uma palavra e/ou expressão
Leia mais1 Introdução Qualquer tipo de veiculação de conteúdo pago na internet pode ser considerado como uma ação publicitária. Esta ação é semelhante aos modelos tradicionais de mídia (televisão, rádio, revistas
Leia maistextos documentos semi-estruturado
1 Mineração de Textos Os estudos em Aprendizado de Máquina normalmente trabalham com dados estruturados Entretanto, uma grande quantidade de informação é armazenada em textos, que são dados semiestruturados
Leia maisTÉCNICAS DE PROGRAMAÇÃO
TÉCNICAS DE PROGRAMAÇÃO (Adaptado do texto do prof. Adair Santa Catarina) ALGORITMOS COM QUALIDADE MÁXIMAS DE PROGRAMAÇÃO 1) Algoritmos devem ser feitos para serem lidos por seres humanos: Tenha em mente
Leia maisTutorial 7 Fóruns no Moodle
Tutorial 7 Fóruns no Moodle O Fórum é uma atividade do Moodle que permite uma comunicação assíncrona entre os participantes de uma comunidade virtual. A comunicação assíncrona estabelecida em fóruns acontece
Leia maisEngenharia de Software e Gerência de Projetos Prof. Esp. André Luís Belini Bacharel em Sistemas de Informações MBA em Gestão Estratégica de Negócios
Engenharia de Software e Gerência de Projetos Prof. Esp. André Luís Belini Bacharel em Sistemas de Informações MBA em Gestão Estratégica de Negócios Cronograma das Aulas. Hoje você está na aula Semana
Leia maisPlusPixel Marketing Digital SOMOS MAIS SOCIAIS DO QUE NUNCA
PlusPixel Marketing Digital SOMOS MAIS SOCIAIS DO QUE NUNCA Proposta de Marketing Digital Design inox Marketing de Resultados A PlusPixel vem oferecendo seus serviços desde o início da internet, isso nos
Leia maisInfluência do Encaminhamento de Mensagens na Topologia de Redes Sociais
Influência do Encaminhamento de Mensagens na Topologia de Redes Sociais Samuel da Costa Alves Basilio, Gabriel de Oliveira Machado 1 Centro Federal de Educação Tecnológica de Minas Gerais - CEFET MG, Unidade
Leia maisPROCESSAMENTO TEXTUAL EM PÁGINAS DA WEB
PROCESSAMENTO TEXTUAL EM PÁGINAS DA WEB Aluno: Pedro Lazéra Cardoso Orientador: Eduardo Sany Laber Antecedentes Na primeira fase da Iniciação Científica, o aluno deu continuidade ao projeto que estava
Leia maisFMU - FACULDADES METROPOLITANAS UNIDAS E-COMMERCE, SOCIAL COMMERCE, MOBILE MARKETING E MARKETING DE PERMISSÃO.
FMU - FACULDADES METROPOLITANAS UNIDAS E-COMMERCE, SOCIAL COMMERCE, MOBILE MARKETING E MARKETING DE PERMISSÃO. São Paulo - SP 2016 RENAN ROCHA ALVES - RA: 6448758 E-COMMERCE, SOCIAL COMMERCE, MOBILE MARKETING
Leia maisMarkes Roberto Vaccaro
Markes Roberto Vaccaro Sumário 1 - CONHECER OS SEGREDOS DO MARKETING DIGITAL... 3 2 CRIAR UM BLOG DE NICHO... 4 3 - COMEÇANDO A ESTRATÉGIA DE MARKETING... 4 4 - PRODUTOS DIGITAIS... 5 5 OPTIMIZAÇÃO DE
Leia maisCOMO FUNCIONA NOSSA CONSULTORIA DE MARKETING DIGITAL ESPECIALIZADA EM VENDAS ONLINE
www.agenciaatos.com.br COMO FUNCIONA NOSSA CONSULTORIA DE MARKETING DIGITAL ESPECIALIZADA EM VENDAS ONLINE APLICAÇÃO DA CONSULTORIA EM VENDAS ONLINE É assim que os resultados são gerados. No entanto, é
Leia mais4 Experimentos. 4.4 detalha os experimentos com os algoritmos V-Wrapper e NCE. 4.1
4 Experimentos A estratégia V-Wrapper descrita por Zheng et. al (ZSW07), resumida no Capítulo 2, foi implementada com a finalidade de comparar um método baseado em atributos visuais com o algoritmo proposto
Leia maisModelo para mineração de texto e classificação de sentimento automática em conteúdo de redes sociais digitais
Modelo para mineração de texto e classificação de sentimento automática em conteúdo de redes sociais digitais Kelvin Ramires Capobianco 1, Sylvio Barbon Júnior 1 1 Departamento de Computação Universidade
Leia maisPESQUISA SOBRE O PERFIL DE ALUNOS NA UTILIZAÇÃO DE UM SITE DOCENTE DO ENSINO SUPERIOR
PESQUISA SOBRE O PERFIL DE ALUNOS NA UTILIZAÇÃO DE UM SITE DOCENTE DO ENSINO SUPERIOR Wesley Humberto da Silva (Fundação Araucária), André Luis Andrade Menolli (Orientador) e-mail: wesleyhumberto11@mail.com
Leia maisConvertendo resultados
Convertendo resultados Correlação de Fatores de Ranqueamento A correlação nada mais é do que notar um fato que ocorre e inferir que o resultado depende daquele fato. Por exemplo, posso dizer que toda vez
Leia maisANÁLISE DAS CARACTERÍSTICAS DOS SITES QUE DISPONIBILIZAM OBJETOS DE APRENDIZAGEM DE ESTATÍSTICA PARA O ENSINO MÉDIO 1
ANÁLISE DAS CARACTERÍSTICAS DOS SITES QUE DISPONIBILIZAM OBJETOS DE APRENDIZAGEM DE ESTATÍSTICA PARA O ENSINO MÉDIO 1 Kethleen Da Silva 2, Tânia Michel Pereira 3, Edson Luiz Padoin 4, Matheus Reis De Almeida
Leia maisATENAS: Um Sistema Gerenciador de Regras de Negócio
1. Introdução ATENAS: Um Sistema Gerenciador de Regras de Negócio Geraldo Zimbrão da Silva (IM/UFRJ) Victor Teixeira de Almeida (COPPE/UFRJ) Jano Moreira de Souza (COPPE/UFRJ) Francisco Gonçalves Pereira
Leia maisCinco restrições de desenvolvimento/teste que afetam a velocidade, o custo e a qualidade dos seus aplicativos
Série de ebooks sobre desenvolvimento em paralelo ágil: Capítulo 2 Cinco restrições de desenvolvimento/teste que afetam a velocidade, o custo e a qualidade dos seus aplicativos Novas pressões, mais restrições
Leia maisExtração de Requisitos
Extração de Requisitos Extração de requisitos é o processo de transformação das idéias que estão na mente dos usuários (a entrada) em um documento formal (saída). Pode se entender também como o processo
Leia mais18º Congresso de Iniciação Científica IMPLEMENTAÇÃO DE UM MODELO DE TESTE DE APLICAÇÕES WEB
18º Congresso de Iniciação Científica IMPLEMENTAÇÃO DE UM MODELO DE TESTE DE APLICAÇÕES WEB Autor(es) HARLEI MIGUEL DE ARRUDA LEITE Orientador(es) PLÍNIO ROBERTO SOUZA VILELA Apoio Financeiro PIBIC/CNPQ
Leia mais2 Fundamentação Conceitual
2 Fundamentação Conceitual 2.1 Computação Pervasiva Mark Weiser define pela primeira vez o termo Computação Ubíqua ou Computação Pervasiva (Ubiquitous Computing) em (10). O autor inicia o trabalho com
Leia maisConceitos Básicos de Rede. Um manual para empresas com até 75 computadores
Conceitos Básicos de Rede Um manual para empresas com até 75 computadores 1 Conceitos Básicos de Rede Conceitos Básicos de Rede... 1 A Função de Uma Rede... 1 Introdução às Redes... 2 Mais Conceitos Básicos
Leia maisAgenda Semântica. Grupo: Francisco Rodrigues Júnior Guilherme Daher Ferreira Luana Vieira Morellato Renan Rigo
Universidade Federal do Espírito Santo Inteligência Artificial Agenda Semântica Grupo: Francisco Rodrigues Júnior Guilherme Daher Ferreira Luana Vieira Morellato Renan Rigo Vitória 2007/02 Agenda Semântica
Leia maisESTUDO DE VIABILIDADE. Santander, Victor - Unioeste Aula de Luiz Eduardo Guarino de Vasconcelos
ESTUDO DE VIABILIDADE Santander, Victor - Unioeste Aula de Luiz Eduardo Guarino de Vasconcelos Objetivos O que é um estudo de viabilidade? O que estudar e concluir? Benefícios e custos Análise de Custo/Benefício
Leia maisGerenciamento de Projetos Modulo VIII Riscos
Gerenciamento de Projetos Modulo VIII Riscos Prof. Walter Cunha falecomigo@waltercunha.com http://waltercunha.com Bibliografia* Project Management Institute. Conjunto de Conhecimentos em Gerenciamento
Leia maisO guia completo para uma presença. online IMBATÍVEL!
O guia completo para uma presença online IMBATÍVEL! Sumário Introdução 3 Capítulo 1 - Produção de Conteúdo: Por que e Como produzir 5 Capítulo 2 - Distribuição e Divulgação 8 Capítulo 3 - Monitoramento
Leia maisAMOSTRAGEM ESTATÍSTICA EM AUDITORIA PARTE ll
AMOSTRAGEM ESTATÍSTICA EM AUDITORIA PARTE ll! Os parâmetros para decisão do auditor.! Tipos de planos de amostragem estatística em auditoria. Francisco Cavalcante(f_c_a@uol.com.br) Administrador de Empresas
Leia maisIntrodução Já acessou rede social Acessam semanalmente Acessam diariamente USA Brasil Argentina México
O século XIX ficou conhecido como o século europeu; o XX, como o americano. O século XXI será lembrado como o Século das Mulheres. (Tsvi Bisk, Center for Strategic Futurist Thinking, 2008) A Sophia Mind,
Leia maisGerenciamento de Projetos Modulo IX Qualidade
Gerenciamento de Projetos Modulo IX Qualidade Prof. Walter Cunha falecomigo@waltercunha.com http://waltercunha.com Bibliografia* Project Management Institute. Conjunto de Conhecimentos em Gerenciamento
Leia maisCLASSIFICAÇÃO AUTOMÁTICA DE PATENTES COM O MODELO VETORIAL DE REPRESENTAÇÃO DE DOCUMENTOS
III SBA Simpósio Baiano de Arquivologia 26 a 28 de outubro de 2011 Salvador Bahia Políticas arquivísticas na Bahia e no Brasil CLASSIFICAÇÃO AUTOMÁTICA DE PATENTES COM O MODELO VETORIAL DE REPRESENTAÇÃO
Leia maisAula 2 Revisão 1. Ciclo de Vida. Processo de Desenvolvimento de SW. Processo de Desenvolvimento de SW. Processo de Desenvolvimento de SW
Ciclo de Vida Aula 2 Revisão 1 Processo de Desenvolvimento de Software 1 O Processo de desenvolvimento de software é um conjunto de atividades, parcialmente ordenadas, com a finalidade de obter um produto
Leia maisagility made possible
RESUMO DA SOLUÇÃO Utilitário ConfigXpress no CA IdentityMinder a minha solução de gerenciamento de identidades pode se adaptar rapidamente aos requisitos e processos de negócio em constante mudança? agility
Leia maisperspectivas e abordagens típicas de campos de investigação (Senra & Camargo, 2010).
1 Introdução Os avanços na tecnologia da informação, bem como o crescimento da sociedade da informação através do uso da Internet, obrigaram os governos de inúmeros países, em seus mais variados níveis,
Leia maisCENTRO ESTADUAL DE EDUCAÇÃO TECNOLOGICA PAULA SOUZA ETEC DR. EMLIO HERNANDEZ AGUILAR
CENTRO ESTADUAL DE EDUCAÇÃO TECNOLOGICA PAULA SOUZA ETEC DR. EMLIO HERNANDEZ AGUILAR ÁLVARO JOSÉ PIAZON JUNIOR ANDERSON DA SILVA SPERA DÉBORA VICENTE DE OLIVEIRA MANUAL DE ORIENTAÇÃO PARA DESENVOLVIMENTO
Leia maisAtualizações de Software Guia do Usuário
Atualizações de Software Guia do Usuário Copyright 2009 Hewlett-Packard Development Company, L.P. Windows e Windows Vista são marcas registradas da Microsoft Corporation nos EUA. Aviso sobre o produto
Leia maisA CIÊNCIA DOS PEQUENOS JOGOS Fedato Esportes Consultoria em Ciências do Esporte
A CIÊNCIA DOS PEQUENOS JOGOS Fedato Esportes Consultoria em Ciências do Esporte Prof. Antonio Carlos Fedato Filho Prof. Guilherme Augusto de Melo Rodrigues Monitorando e conhecendo melhor os trabalhos
Leia maisSumário. Introdução ao Microsoft Project. 1 Microsoft Project, gerenciamento de projetos e você 3. 2 Visão geral do Project 11.
Sumário Introdução... xiii A quem se destina este livro...xiii Como o livro está organizado...xiii Como baixar os arquivos de prática...xiv Suas configurações no Project...xv Suporte técnico...xvi Parte
Leia maisnatureza do projeto e da aplicação métodos e ferramentas a serem usados controles e produtos que precisam ser entregues
Modelo De Desenvolvimento De Software É uma representação abstrata do processo de desenvolvimento que define como as etapas relativas ao desenvolvimento de software serão conduzidas e interrelacionadas
Leia maisRequisitos de Software
Requisitos de Software (Cap 6 - Sommerville) UNIVERSIDADE FEDERAL DE ALAGOAS Curso de Ciência da Computação Engenharia de Software I Prof. Rômulo Nunes de Oliveira Requisitos funcionais e não funcionais
Leia mais1. Introdução. 1.1 Contextualização do problema e questão-problema
1. Introdução 1.1 Contextualização do problema e questão-problema A indústria de seguros no mundo é considerada uma das mais importantes tanto do ponto de vista econômico como do ponto de vista social.
Leia maisClassificação: Determinístico
Prof. Lorí Viali, Dr. viali@pucrs.br http://www.pucrs.br/famat/viali/ Da mesma forma que sistemas os modelos de simulação podem ser classificados de várias formas. O mais usual é classificar os modelos
Leia maisAnálise comparativa sobre bases de dados para armazenamento e consulta de dados não estruturados no formato JSON.
UNIVERSIDADE FEDERAL DE PERNAMBUCO CENTRO DE INFORMÁTICA Análise comparativa sobre bases de dados para armazenamento e consulta de dados não estruturados no formato JSON. Proposta de Trabalho de Graduação
Leia maisAS MÍDIAS SOCIAIS E O SEU ALCANCE PARA A IMAGEM E O AUMENTO DAS VENDAS DAS PEQUENAS EMPRESAS VAREJISTAS DE SANTA FÉ DO SUL (SP) RESUMO
200 AS MÍDIAS SOCIAIS E O SEU ALCANCE PARA A IMAGEM E O AUMENTO DAS VENDAS DAS PEQUENAS EMPRESAS VAREJISTAS DE SANTA FÉ DO SUL (SP) RESUMO Clayton Cardoso de MORAES 1 Guilherme Bernardo SARDINHA 2 O presente
Leia maisIntrodução. Uso do disco Vantagens Desvantagens Baixo custo, facilidade de manutenção do software e do hardware, simetria e flexibilidade
Introdução É sabido que os processos rodam em processadores. Nos sistemas tradicionais existe somente um único processador, de forma que não há dúvida a respeito de como ele deve ser usado. Em um sistema
Leia maisConectar diferentes pesquisas na internet por um menu
Conectar diferentes pesquisas na internet por um menu Pré requisitos: Elaboração de questionário Formulário multimídia Publicação na internet Uso de senhas na Web Visualização condicionada ao perfil A
Leia maisResumo Descritivo dos Conteúdos das Disciplinas de Ementa Aberta para 2012-1
Universidade Federal de Juiz de Fora Departamento de Ciência da Computação Resumo Descritivo dos Conteúdos das Disciplinas de Ementa Aberta para 2012-1 Disciplina: DCC089 - TOPICOS EM COMPUTACAO CIENTIFICA
Leia maisPROCEDIMENTOS DE AUDITORIA INTERNA
1/8 Sumário 1 Objetivo 2 Aplicação 3 Documentos complementares 4 Definições 5 Procedimento 1 Objetivo Este Procedimento tem como objetivo descrever a rotina aplicável aos procedimentos de auditoria interna
Leia maisCAPÍTULO 2. Grafos e Redes
CAPÍTULO 2 1. Introdução Um grafo é uma representação visual de um determinado conjunto de dados e da ligação existente entre alguns dos elementos desse conjunto. Desta forma, em muitos dos problemas que
Leia maisSistemas de Arquivos NTFS, FAT16, FAT32, EXT2 e EXT3
Sistemas de Arquivos NTFS, FAT16, FAT32, EXT2 e EXT3 Os sistemas de arquivos é a parte do SO responsável pelo gerenciamento dos arquivos (estrutura, identificação, acesso, utilização, proteção e implementação).
Leia maisComputador E/S, Memória, Barramento do sistema e CPU Onde a CPU Registradores, ULA, Interconexão interna da CPU e Unidade de controle.
Introdução Os principais elementos de um sistema de computação são a unidade central de processamento (central processing unit CPU), a memória principal, o subsistema de E/S (entrada e saída) e os mecanismos
Leia maisUNIVERSIDADE FEDERAL DE OURO PRETO PROJETO BÁSICO CURSO DE APERFEIÇOAMENTO EM PRODUÇÃO E ORGANIZAÇÃO DE CONTEÚDO NA EAD CURSO PARA DOCENTES DA UFOP
UNIVERSIDADE FEDERAL DE OURO PRETO CENTRO DE EDUCAÇÃO ABERTA E A DISTANCIA PROJETO BÁSICO CURSO DE APERFEIÇOAMENTO EM PRODUÇÃO E ORGANIZAÇÃO DE CONTEÚDO NA EAD CURSO PARA DOCENTES DA UFOP 2007 IDENTIFICAÇÃO
Leia maisSistema de mineração de dados para descobertas de regras e padrões em dados médicos
Sistema de mineração de dados para descobertas de regras e padrões em dados médicos Pollyanna Carolina BARBOSA¹; Thiago MAGELA² 1Aluna do Curso Superior Tecnólogo em Análise e Desenvolvimento de Sistemas
Leia maisO Cisco IBSG prevê o surgimento de mercados globais conectados
O Cisco IBSG prevê o surgimento de mercados globais conectados Como as empresas podem usar a nuvem para se adaptar e prosperar em um mercado financeiro em rápida mudança Por Sherwin Uretsky, Aron Dutta
Leia maisDE ARTIGO CIENTÍFICO
CURSOS DE COMUNICAÇÃO SOCIAL, TURISMO, DIREITO E PÓS-GRADUAÇÃO Maria Paulina Gomes Maria Paulina Gomes Manual elaborado para orientar os alunos que estão realizando a disciplina Trabalho de Conclusão
Leia maisVISÃO GERAL DE BANCO DE DADOS
Banco de Dados BD_A007 Visão Geral de Banco de Dados 02 de março de 2005 VISÃO GERAL DE BANCO DE DADOS Relação de siglas utilizadas neste trabalho: ABD: Administrador de Banco de Dados. BD: Banco de Dados.
Leia maisEngenharia de Software Unidade I Visão Geral
Conteúdo programático Engenharia de Software Unidade I Visão Geral Prof. Francisco Gerson A. de Meneses O que é Produtos de Software Distribuição de Software Um sistema de Software O software em um cenário
Leia maisLaboratório de Mídias Sociais
Laboratório de Mídias Sociais Aula 04 Análise de Rede de Mídias Sociais parte I Prof. Dalton Martins dmartins@gmail.com Gestão da Informação Universidade Federal de Goiás O que é análise de rede de mídias
Leia maisCampus Capivari Análise e Desenvolvimento de Sistemas (ADS) Prof. André Luís Belini E-mail: prof.andre.luis.belini@gmail.com /
Campus Capivari Análise e Desenvolvimento de Sistemas (ADS) Prof. André Luís Belini E-mail: prof.andre.luis.belini@gmail.com / andre.belini@ifsp.edu.br MATÉRIA: SEGURANÇA DA INFORMAÇÃO Aula N : 15 Tema:
Leia maisGerenciamento de Projetos Modulo III Grupo de Processos
Gerenciamento de Projetos Modulo III Grupo de Processos Prof. Walter Cunha falecomigo@waltercunha.com http://waltercunha.com Bibliografia* Project Management Institute. Conjunto de Conhecimentos em Gerenciamento
Leia maisMineração de Opinião / Análise de Sentimentos
Mineração de Opinião / Análise de Sentimentos Carlos Augusto S. Rodrigues Leonardo Lino Vieira Leonardo Malagoli Níkolas Timmermann Introdução É evidente o crescimento da quantidade de informação disponível
Leia mais2 METODOLOGIA DA PESQUISA
2 METODOLOGIA DA PESQUISA A pesquisa, como toda atividade racional e sistemática, exige que as ações desenvolvidas ao longo de seu processo sejam efetivamente planejadas. Para Gil (1991), o conhecimento
Leia maisAKNA SOFTWARE. Configurações. de DNS
AKNA SOFTWARE Configurações de DNS ÍNDICE Introdução... 03 SPF... 03 DKIM... 03 CNAME... 04 Obtenção de parâmetros... 05 Via alertas do sistema... 05 Via menu do sistema... 06 Passo a passo da configuração...
Leia maisAlgoritmos e Programação Parte Teórica
Universidade Federal do Vale do São Francisco Curso de Engenharia da Produção / Elétrica Algoritmos e Programação Parte Teórica Prof. Jorge Cavalcanti jorge.cavalcanti@univasf.edu.br www.univasf.edu.br/~jorge.cavalcanti
Leia maisEvolução da cooperação em populações modeladas por autômatos celulares com o uso de teoria de jogos
Geração de modelos de redes com verificação dos parâmetros topológicos Prof. Pedro Schimit - schimit@uninove.br Muitas coisas podem ser modeladas a partir de modelos de redes (ou grafos). A maneira como
Leia maisExtração de Conhecimento & Mineração de Dados
Extração de Conhecimento & Mineração de Dados Nesta apresentação é dada uma breve introdução à Extração de Conhecimento e Mineração de Dados José Augusto Baranauskas Departamento de Física e Matemática
Leia maisUNIVERSIDADE FEDERAL DE PERNAMBUCO GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO CENTRO DE INFORMÁTICA
UNIVERSIDADE FEDERAL DE PERNAMBUCO GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO CENTRO DE INFORMÁTICA ANÁLISE DE AGENTES CLASSIFICADORES PARA CATEGORIZAÇÃO AUTOMÁTICA DE DOCUMENTOS DIGITAIS PROPOSTA DE TRABALHO
Leia maisITIL v3 - Operação de Serviço - Parte 1
ITIL v3 - Operação de Serviço - Parte 1 É na Operação de Serviço que se coordena e realiza as atividades e processos necessários para fornecer e gerenciar serviços em níveis acordados com o usuário e clientes
Leia maisPreparação do Trabalho de Pesquisa
Preparação do Trabalho de Pesquisa Ricardo de Almeida Falbo Metodologia de Pesquisa Departamento de Informática Universidade Federal do Espírito Santo Pesquisa Bibliográfica Etapas do Trabalho de Pesquisa
Leia maisINSTITUTO CAMPINENSE DE ENSINO SUPERIOR FACULDADE MAURÍCIO DE NASSAU CURSO DE ENFERMAGEM. NOME DOS ALUNOS (equipe de 4 pessoas) TÍTULO DO PROJETO
1 INSTITUTO CAMPINENSE DE ENSINO SUPERIOR FACULDADE MAURÍCIO DE NASSAU CURSO DE ENFERMAGEM NOME DOS ALUNOS (equipe de 4 pessoas) TÍTULO DO PROJETO CAMPINA GRANDE-PB 2014 2 NOME DOS ALUNOS (equipe de 4
Leia maisIan Castro de Souza CSO da Salve! Digital
Ian Castro de Souza CSO da Salve! Digital v Ian Castro de Souza CSO da Salve! Digital Graduado em Comunicação na Universidade Federal da Bahia (UFBA), desde a academia esteve imerso no mundo do marketing
Leia maisEspecificação Operacional.
Especificação Operacional. Para muitos sistemas, a incerteza acerca dos requisitos leva a mudanças e problemas mais tarde no desenvolvimento de software. Zave (1984) sugere um modelo de processo que permite
Leia maisProcessos de gerenciamento de projetos em um projeto
Processos de gerenciamento de projetos em um projeto O gerenciamento de projetos é a aplicação de conhecimentos, habilidades, ferramentas e técnicas às atividades do projeto a fim de cumprir seus requisitos.
Leia maisProcessos de Software
Processos de Software Prof. Márcio Lopes Cornélio Slides originais elaborados por Ian Sommerville O autor permite o uso e a modificação dos slides para fins didáticos O processo de Um conjunto estruturado
Leia maisPortal do Projeto Tempo de Ser
Sumário Portal do Projeto Tempo de Ser O que é um Wiki?...2 Documentos...2 Localizando documentos...3 Links...3 Criando um Documento...4 Criando um link...4 Editando um Documento...5 Sintaxe Básica...5
Leia mais