UNIVERSIDADE DO SUL DE SANTA CATARINA JÔNATAS ANDRADE TAVARES

Tamanho: px
Começar a partir da página:

Download "UNIVERSIDADE DO SUL DE SANTA CATARINA JÔNATAS ANDRADE TAVARES"

Transcrição

1 UNIVERSIDADE DO SUL DE SANTA CATARINA JÔNATAS ANDRADE TAVARES SOLUÇÃO DE BUSINESS INTELLIGENCE 2.0 PARA EXTRAÇÃO E ANÁLISE DE DADOS A PARTIR DO TWITTER Florianópolis

2 2014 JÔNATAS ANDRADE TAVARES SOLUÇÃO DE BUSINESS INTELLIGENCE 2.0 PARA EXTRAÇÃO E ANÁLISE DE DADOS A PARTIR DO TWITTER Trabalho de Conclusão de Curso apresentado ao Curso de Graduação em Sistemas da Informação da Universidade do Sul de Santa Catarina, como requisito parcial à obtenção do título de Bacharel em Sistemas da Informação. Orientador: Flavio Ceci, MEng. Florianópolis

3 2014 JÔNATAS ANDRADE TAVARES SOLUÇÃO DE BI 2.0 PARA EXTRAÇÃO E ANÁLISE DE DADOS UTILIZANDO FONTES DE DADOS NÃO ESTRUTURADAS A PARTIR DO TWITTER. Este Trabalho de Conclusão de Curso foi julgado adequado à obtenção do título de Bacharel em Sistemas de Informação e aprovado em sua forma final pelo Curso de Graduação em Sistemas da Informação da Universidade do Sul de Santa Catarina. Florianópolis, 10 de Novembro de Prof. Flávio Ceci, MEng. Universidade do Sul de Santa Catarina Prof. Saulo Popov Zambiasi, Dr. Universidade do Sul de Santa Catarina Prof. Julio Goncalves Reinaldo, Bel. Universidade do Sul de Santa Catarina

4 AGRADECIMENTOS Agradeço a Deus por me permitir estar aqui neste momento concluindo mais uma jornada. Agradeço aos meus pais, por me apoiarem, dar forças e estarem sempre presentes nos momentos mais difíceis incentivando, tanto emocionalmente como financeiramente. Agradeço a minha família, por me dar apoio, carinho e incentivo. Agradeço ao professor e orientador Flavio Ceci, por todo apoio prestado durante a elaboração deste trabalho. Agradeço também aos colegas que fizeram parte desta caminhada, compartilhando conhecimento e auxílio. Por fim, agradeço a todos que de forma direta ou indireta fizeram parte da minha vida acadêmica. A todos, meu muito obrigado.

5 RESUMO De acordo com sua crescente evolução, a internet transformou-se em um ambiente rico de informações, contendo diversos tipos de assuntos. Por consequência disto, este ambiente tornou-se muito atrativo às organizações. Contudo, com essa imensa quantidade de informações, as organizações necessitam adquirir ferramentas que possibilitem a coleta das informações pertinentes ao seu âmbito e às introduza em suas bases de conhecimento. O Business Inteligence (BI) 2.0 é um conjunto de ferramentas de grande contribuição para estas organizações, permite que as informações contidas na Web 2.0 sejam introduzidas nos seus repositórios de dados, disponibilizando, assim, informações necessárias para uma análise mais ágil, melhorando e auxiliando no processo de tomada de decisão. Diante deste contexto e com a proposta de apresentar um exemplo deste conjunto de ferramentas, este trabalho possui como proposta de solução apresentar, assim, uma solução de BI 2.0. Para isso, foi desenvolvido um experimento que permite a extração de informações contidas na web de maneira não estruturada, mais especificamente informações da rede social Twitter, realize o processo de transformação dos dados coletados, utilizando o processo de ETL, e os insira em uma base de dados, possibilitando realizar uma análise das informações obtidas, graficamente. Os resultados obtidos neste experimento foram satisfatórios fornecendo a importância de existirem estes conjuntos de ferramentas, tendo em vista a agilidade e a facilidade de obtenção de informações relacionadas ao âmbito da análise realizada. Palavras-chave: Business Intelligence 2.0. ETL. Twitter. Extração de Informação.

6 ABSTRACT According to its growing trend, the Internet has become a rich information environment, containing many kinds of matters. By consequence, this environment has become very attractive to organizations. However, with this immense amount of information, organizations need to acquire tools that enable the collection of information relevant to their context and to enter into their knowledge bases. The Business Intelligence (BI) 2.0 is a set of large contribution to these organizations tools, allows the information contained in the Web 2.0 are introduced in their data repository, thus providing information necessary for a more agile analysis, improving and aiding in the decision-making process. Given this context and with the proposal to provide an example of this toolkit, as this paper has proposed solution thus present a BI 2.0. For this, we developed an experiment that allows the extraction of information contained in the web of unstructured manner, specifically information from the social network Twitter, perform the transformation of the data collected using the ETL process, and insert them into a base data, allowing to perform an analysis of the information obtained graphically. The results obtained in this experiment were satisfactory providing the importance of these toolkits exist, given the speed and the ease of obtaining information relating to the scope of the analysis. Keywords: Business Intelligence 2.0. ETL. Web. Twitter. Information Extraction..

7 LISTA DE FIGURAS Figura 1 - Funções de um sistema de informação Figura 2 Níveis hierárquicos da informação Figura 3 - Classificação dos Sistemas de Informação Figura 4 - Arquitetura de BI Figura 5 - O processo de ETL Figura 6 - Etapas do processo KDT Figura 7 - Etapas Metodológicas Figura 8 - Fluxograma da proposta de solução Figura 9 - Arquitetura Tecnológica Figura 10 - Diferentes perspectivas em UML Figura 11 - Requisitos Funcionais Figura 12 - Requisitos Não Funcionais Figura 13 - Regras de Negócio Figura 14 - Protótipo da tela de login Figura 15 - Protótipo da tela inicial Figura 16 - Protótipo da tela de termos Figura 17 - Protótipo da tela de histórico Figura 18 - Protótipo da tela de entidades Figura 19 - Casos de Uso Figura 20 - Modelo de Domínio Figura 21 - Modelo de Robustez Figura 22 - Modelo de Sequência do Caso de Uso UC002 - Primeira Parte Figura 23 - Modelo de Sequência do Caso de Uso UC002 - Segunda Parte Figura 24 - Modelo de Sequência do Caso de Uso UC002 - Terceira Parte Figura 25 - Diagrama de Classes Figura 26 - Proposta de Solução Figura 27 - Ferramentas Tecnológicas Figura 28 - Relacionamento das Ferramentas com a Proposta de Solução Figura 29 - Tela Login Figura 30 - Tela Login Incorreto Figura 31 - Tela Inicial Figura 32 - Tela Inicial Status Stop Figura 33 - Tela Termos Figura 34 - Termo Cadastrado com Sucesso Figura 35 - Confirmação de exclusão Figura 36 - Sucesso na Exclusão do Termo Figura 37 - Tela Histórico Figura 38 - Tela Entidades Figura 39 - Sucesso no Upload Figura 40 Logout Figura 41 - Modelo Relacional... 86

8 Figura 42 - Modelo Dimensional Figura 43 - Carga Dimensão Cargo Figura 44 - Carga Dimensão Evento Figura 45 - Step Table Input Evento Figura 46 - Table Output Evento Figura 47 - Carga Dimensão Partido Figura 48 - Table Input Partido Figura 49 - Table Output Partido Figura 50 - Carga Dimensão Pessoa Figura 51 - Table Input Pessoa Figura 52 - Table Output Pessoa Figura 53 - Carga Dimensão Tempo Figura 54 - Table Input Tempo Figura 55 - Table Output Tempo Figura 56 - Carga Dimensão Termo Figura 57 - Table Input Termo Figura 58 - Table Output Termo Figura 59 - Carga Dimensão Assunto Figura 60 - Table Input Assunto Figura 61 - Table Output Assunto Figura 62 - Carga Dimensão Semente Figura 63 - Table Input Semente Figura 64 - Table Output Semente Figura 65 - Carga est_fato Figura 66 - Table Input Tweetid Figura 67 - Table Input est_entidades Figura 68 - Table Input est_termos Figura 69 - Merge Join est_fato Figura 70 - Lookup Semente Figura 71 - Lookup Cargo Figura 72 - Lookup Evento Figura 73 - Lookup Partido Figura 74 - Lookup Pessoa Figura 75 - Lookup Tempo Figura 76 - Lookup Assunto Figura 77 - Lookup Termos Figura 78 - Insert e Update est_fato Figura 79 - Carga fato_tcc Figura 80 - Table Input fato_tcc Figura 81 - Insert Update fato_tcc Figura 82 - Cubo OLAP Figura 83 - Análise Cubo OLAP Figura 84 - Total Tweets Candidatos Presidência Figura 85 - Total Tweets Candidatos Governador

9 Figura 86 - Total Tweets Presidência Assunto Figura 87 - Total Tweets Termo Presidência Figura 88 - Cenário de Avaliação Figura 89 Gráfico Questão Figura 90 - Gráfico Questão Figura 91 - Gráfico Questão Figura 92 - Gráfico Questão Figura 93 - Gráfico Questão Figura 94 - Gráfico Questão Figura 95 - Gráfico Questão Figura 96 - Gráfico Questão Figura 97 - Gráfico Questão Figura 98 - Gráfico Questão

10 LISTA DE QUADROS Quadro 1 - Tabela diferencial entre modelo Dimensional e ER Quadro 2 - Tabela Redes Sociais Quadro 3 - Comparativo entre BI e BI Quadro 4 - Tipos de diagramas oficiais da UML Quadro 5 - Matriz de Rastreabilidade entre Casos de Uso e Requisitos... 61

11 SUMÁRIO 1 INTRODUÇÃO PROBLEMÁTICA OBJETIVOS Objetivo Geral Objetivos Específicos JUSTIFICATIVA ESTRUTURA DA MONOGRAFIA REVISÃO BIBLIOGRÁFICA SISTEMAS DE INFORMAÇÃO Dado, Informação, Conhecimento e Inteligência Dado Informação Conhecimento Inteligência Classificação dos Sistemas de Informação Sistemas de Apoio a Decisão (SAD) BUSINESS INTELLIGENCE Histórico e Definições Arquitetura de BI Modelagem Dimensional ETL Mineração de Dados Relatórios e OLAP Business Intelligence EXTRAÇÃO DE INFORMAÇÃO Reconhecimento de entidades nomeadas (NER) Descoberta de conhecimento em texto (KDT) WEB MÉTODO CARACTERIZAÇÃO DO TIPO DE PESQUISA ETAPAS METODOLÓGICAS PROPOSTA Fluxograma da proposta de solução Arquitetura Tecnológica DELIMITAÇÕES PROJETO DE SOLUÇÃO PARA O EXTRATOR DE DADOS UML MODELAGEM DA SOLUÇÃO DE COLETA PROPOSTA Requisitos Requisitos Funcionais... 49

12 Requisitos Não Funcionais Regras de Negócio Protótipos de Tela Casos de uso Modelo de domínio Diagrama de Robustez Diagrama de Sequencia Modelo de classes DESENVOLVIMENTO PROPOSTA DE SOLUÇÃO FERRAMENTAS TECNOLÓGICAS EXPERIMENTO Dicionário de Dados Cenário de Aplicação Histórico do desenvolvimento PROTÓTIPO DESENVOLVIDO Coletor Banco de Dados Relacional Modelo Dimensional ETL Cubo OLAP Análise AVALIAÇÃO Análise da Infraestrutura de BI desenvolvida Questionário Cenário de Avaliação Resultados CONSIDERAÇÕES DO CAPÍTULO CONCLUSÕES E TRABALHOS FUTUROS CONCLUSÕES TRABALHOS FUTUROS

13 13 1 INTRODUÇÃO É notório que cada vez mais as soluções de Business Intelligence (BI) estão sendo utilizadas nas organizações. Silva (2011) afirma que BI consiste na transformação metódica e consciente dos dados provenientes de quaisquer fontes de dados (estruturados e não estruturados) em novas formas de proporcionar informação e conhecimento dirigidos aos negócios e orientados aos resultados. O uso dessas soluções tornou-se mais frequente, tendo em vista a sua abrangência, pois podem ser utilizadas em qualquer área de atuação das organizações, auxiliando nas tomadas de decisões. O mercado, por sua vez, torna-se mais competitivo. São inúmeras as empresas de diversos tipos de segmentos, contribuindo para uma melhoria nos serviços oferecidos e na busca pela satisfação dos clientes. Nesta busca, nota-se que a satisfação do cliente só é alcançada quando se atinge a sua necessidade de negócio. Com isso, as empresas começaram a procurar ferramentas com o intuito de conhecer melhor o ambiente de negócio dos clientes. Eis que surgem ferramentas que, através de várias fontes de informações, extraem os dados, com interesse nos relacionados ao ambiente de negócio do cliente, e os transformam em informações úteis para a melhoria e apoio nas decisões do cliente e das próprias organizações. Para Reginato e Nascimento (2007), BI tem como objetivos transformar grandes quantidades de dados em informações de qualidade, para a tomada de decisão, de modo a possibilitar uma visão sistêmica do negócio e auxiliar na distribuição uniforme dos dados entre os usuários. Assim, o BI gradativamente foi evoluindo, a procura por informações foi aumentando e a necessidade de satisfazer o cliente tornou-se prioridade para as empresas. As melhorias nas ferramentas de BI também foram constantes, até que começaram a aparecer informações úteis também na Web. No mundo globalizado, a informação está disponível nos diversos veículos de comunicação. Contudo, atualmente, tem crescido a quantidade de usuários e clientes que usam a Web para se expressarem ou para divulgarem informações de seu próprio conhecimento ou ainda de conhecimento mútuo. Devido à facilidade de se expressar, o ser humano tem adotado a Web como um meio de se comunicar com pessoas em todos os lugares do mundo, sem precisar sair de casa.

14 14 Com esse aumento de informação, as organizações descobriram que um dos melhores caminhos para descobrirem informações relevantes aos seus clientes, ou até mesmo à própria organização, era a captura dessa informação na Web. Com o avanço da tecnologia, foram se criando também ambientes para facilitar a comunicação entre as pessoas, e a Web foi se transformando, ganhando ferramentas de uso cotidiano, melhorando a comunicação interpessoal. Para Ceci (2012), as pessoas estão cada vez mais produzindo dados de maneira involuntária, seja escutando música on-line, fazendo buscas como Google, Bing e Yahoo, navegando em sites, interagindo em redes sociais, entre outros. Segundo Marteleto (2001), redes sociais são conjuntos de participantes autônomos, unindo ideias e recursos em torno de valores e interesses compartilhados. Este trabalho tem como finalidade desenvolver uma solução de BI que permita usar as informações contidas nessas redes sociais, neste caso, é usado o Twitter, para inseri-las em um repositório de dados, a fim de apoiar uma decisão futura. No primeiro capítulo, é apresentada a problemática, objetivos gerais e específicos, justificativa, e uma seção que demonstra como esta monografia está organizada. 1.1 PROBLEMÁTICA Conforme exposto anteriormente, Business Intelligence possui uma grande importância para as organizações em se tratando de tomada de decisão. Contudo, nem sempre as informações obtidas de uma fonte de dados estruturados são satisfatórias para a organização que, por sua vez, necessita buscar dados em outras fontes. De acordo com Inmon et al. (2008), dados estruturados são dados que vem repetidamente no mesmo formato e layout. Muitas organizações enfrentam problemas com a busca das informações. Em alguns casos, o processo de captura dessas informações é muito custoso, como por exemplo, as informações obtidas das próprias bases relacionais das organizações. Dessa forma, as empresas necessitam buscar informações em outras fontes de dados, como, é o caso das fontes não estruturadas. Segundo Nelson (2010), Business Intelligence 2.0 prevê a revisão dos princípios de disponibilização de dados e de exploração de informações, associando ao BI tradicional os recursos oferecidos pela Web 2.0, focando na colaboração em comunidades de informação, no uso de novas tecnologias da Web tal como XML, RSS, MASHUPS e Ajax, e nos conceitos de

15 15 integração pela Web Semântica através de ontologias compartilhadas. Segundo Prada (2008), web semântica é um novo passo no desenvolvimento da internet marcado principalmente pela organização do conteúdo e pela interação inteligente do usuário com o material disponibilizado na rede. As redes sociais são fontes de dados interessantes para os negócios das organizações, pois armazenam informações, como, por exemplo, dados de localização ou de pretensão futura dos clientes, importante para a decisão das tendências futuras do negócio. Segundo Baldan et al.(2011), as redes sociais se tornaram um dos principais canais de comunicação das organizações com o seu cliente final. Segundo Lunardi (2011, apud CECI, 2012 p.54), as informações de redes sociais são muito importantes para organização e podem auxiliar a inteligência competitiva, a análise de opinião sobre os produtos e serviços da organização. Contudo, os dados de fontes estruturadas somados com os dados de fontes não estruturadas e, ainda, convergindo para um único ponto, no caso o Data Warehouse (DW), acarretam em um grande acúmulo de informações, trazendo preocupações para as organizações que necessitam que esses dados sejam tratados e analisados de forma a gerar informações úteis aos seus negócios. Desta forma, como definir um ferramental computacional para tratar essa quantidade massiva de dados de modo a analisar e gerar inteligência à organização que, por sua vez, depende da tomada de decisão correta para dar um melhor andamento nos seus negócios? Como realizar a extração destes dados nas fontes não estruturadas, como, por e- xemplo, a rede social Twitter? 1.2 OBJETIVOS Nesta sessão, são apresentados o objetivo geral e os objetivos específicos Objetivo Geral O objetivo deste trabalho é disponibilizar uma solução de BI 2.0 que realize a extração e análise de dados, utilizando fontes de dados não estruturados do Twitter a partir de recursos da Web 2.0, a fim da demonstração de alguns indicadores.

16 Objetivos Específicos - definir ferramental computacional para apoiar a implementação da solução de BI 2.0; - propor uma solução para extração, transformação e carga de dados não estruturados; - apresentar um protótipo para análise dos dados armazenados; - formular uma solução baseada em análise de dados da Web 2.0; - documentar os resultados e constatações obtidas. 1.3 JUSTIFICATIVA A crescente procura pelo conhecimento nas organizações, gradativamente, vem ganhando espaço e traz como consequência um acúmulo expressivo de informações. Com isso, percebemos uma grande dependência de recursos computacionais, devido à necessidade do armazenamento das informações. Contudo, o interesse das organizações vai além do simples armazenamento de informação. As organizações necessitam que se crie um relacionamento entre os dados, apresentando-os de forma a gerar uma certa inteligência para tomada de decisões futuras. Segundo Ceci (2010), há bastante tempo, as organizações utilizam seus dados o- peracionais para gerar informação que os ajudem na etapa de tomada de decisão. Mas nunca se produziu tantos dados no ambiente virtual como nos dias de hoje. O surgimento de uma série de dispositivos que mantém cada vez mais as pessoas conectadas proporciona uma verdadeira avalanche de novos dados por segundo. Com auxilio de ferramentas de BI, as organizações encontram a forma de melhorar a tomada de decisão e o armazenamento de informações a medida que é realizada a convergência de dados de diversas fontes para as bases de conhecimento. Segundo Côrtes (2002, apud SELL, 2006 p.25), Business Intelligence é um conjunto de conceitos e metodologias que visa a apoiar a tomada de decisões nos negócios, a partir da transformação do dado em informação e da informação em conhecimento.

17 17 Apesar da grande quantidade de informações armazenadas em suas bases de conhecimento, as organizações também perceberam a crescente utilização das redes sociais como forma de geração de informação. Com uma melhor análise desses dados, chegou-se a conclusão de que se inseridos em um contexto de negócio, poderiam ser a peça chave para a tomada de decisão. Desta forma, as soluções de BI evoluíram e surge um novo conceito denominado BI 2.0. Na visão de Pintas e Siqueira (2011), a maior deficiência das soluções tradicionais de BI está na latência entre o acontecimento do evento e a tomada de decisão. Segundo os autores em questão, o BI 2.0 tem como foco atacar essa latência. A utilização do BI 2.0, além de outros assuntos, foi escolhida com o objetivo de buscar resolver este problema relacionado à extração e análise dos dados não estruturados e estruturados contidos no DW. Mediante esta nova abordagem de BI, as organizações esperam uma melhora na expressividade perante o mercado, buscando novas necessidades dos clientes. O BI 2.0 possui um foco a mais para a organização, ao entender e ouvir os clientes, buscando milhares de informações de usuários espalhados na web. Este trabalho propõe a utilização do BI 2.0, aliado com ferramentas da rede social do Twitter, utilizando uma abordagem inovadora para a extração de informações e inserção em um repositório de dados com o intuito de uma demonstração da tomada de decisão de uma organização.

18 ESTRUTURA DA MONOGRAFIA A monografia se encontra dividida em seis capítulos com o seguinte conteúdo: Capítulo 1 Apresenta o propósito, introdução, os objetivos, a justificativa e a estrutura da monografia. Capítulo 2 - Referencial teórico, apresentando os principais temas e conceitos relacionados ao tema Business Intelligence 2.0. Capítulo 3 Apresenta o método de pesquisa adotado. Capítulo 4 A modelagem para a proposta de solução é descrita. Capítulo 5 Demonstrada a proposta de solução, bem como informações e avaliação dos resultados. Capítulo 6 - Conclusão, trabalhos futuros e considerações finais.

19 19 2 REVISÃO BIBLIOGRÁFICA Este capítulo tem como principal objetivo apresentar um referencial bibliográfico para amparar os temas e assuntos abordados na monografia, além de auxiliar no seu desenvolvimento. Desta forma, o capítulo foi estruturado para que apresente quatro assuntos principais: sistemas de informação, Business Intelligence, extração de Informação e web 2.0. Tais assuntos são base das referências contidas neste capítulo. O capítulo ainda contém um detalhamento de cada um destes assuntos, ou seja, os assuntos foram analisados e explanados para melhor entendimento do contexto geral da monografia. No detalhamento desses assuntos principais, existem alguns subitens, como uma introdução dos conceitos sobre dado, informação e conhecimento, além da classificação dos sistemas de informação. Contudo, o foco principal se dá nos assuntos tangíveis ao tema da monografia, desta forma, este capítulo ainda contempla os principais conceitos de Business Intelligence 2.0, ETL, modelagem dimensional, mineração de dados, reconhecimento de entidades nomeadas (NER), descoberta de conhecimento em texto (KDT) e Web SISTEMAS DE INFORMAÇÃO Conforme Manãs (1999, apud CECI, 2012), um sistema de informação é um conjunto interdependente das pessoas, das estruturas da organização, das tecnologias de informação (hardware e software), dos procedimentos e métodos que deveriam permitir à empresa dispor, no tempo desejado, das informações de que necessita (ou necessitará) para seu funcionamento atual e para sua evolução. Segundo Laudon e Laudon (1998), um sistema de informação (SI) pode ser definido tecnicamente como um conjunto de componentes inter-relacionados que coletam (ou recuperam), processam, armazenam e distribuem informações destinadas a apoiar à tomada de decisões, à coordenação e o controle de uma organização. Além de dar apoio à tomada de decisões, à coordenação e ao controle, esses sistemas também auxiliam os gerentes e trabalhadores a analisar problemas, visualizar assuntos complexos e criar novos produtos. Comple-

20 20 ta que estes sistemas contêm informações sobre pessoas, locais e itens significativos para a organização ou para o ambiente que a cerca. Os autores Laudon e Laudon (1998), ainda, relatam que três atividades em um sistema de informação geram conclusões que as organizações necessitam para tomar decisões, controlar operações, analisar problemas e criar novos produtos ou serviços. Essas atividades são entrada, processamento e saída (Figura 1). A entrada captura ou coleta dados brutos de dentro da organização ou de seu ambiente externo. O processamento converte esses dados brutos em uma forma mais significativa. A saída transfere as informações processadas às pessoas que as utilizarão ou às atividades nas quais elas serão empregadas. Os sistemas de informação também requerem um feedback, que é uma resposta à ação adotada a determinados membros da organização para ajudá-los a avaliar ou corrigir o estágio de entrada. Figura 1 - Funções de um sistema de informação. Fonte: Adaptado de Laudon e Laudon (1998). Em análise a figura 1, nota-se que o fluxo de atividades não possui fim, ou seja, os sistemas de informações possuem, assim, um fluxo contínuo de atividades, de acordo com as citadas por Laudon e Laudon (1998).

21 Dado, Informação, Conhecimento e Inteligência Conforme o texto introdutório deste trabalho, a concentração de dados de todos os tipos de fontes é cada vez maior. Esta informação é consequência das crescentes quantidades de informações dos diversos assuntos injetadas na rede. Para contribuir com esta crescente, as empresas estão começando a adotar novas práticas de captura do conhecimento. Com o objetivo de explanar melhor sobre este assunto, a figura 2, apresenta o relacionamento entre Dado, Informação, Conhecimento e Inteligência, termos que são abordados e conceituados nos itens. Figura 2 Níveis hierárquicos da informação. Fonte: Adaptado de Moresi (2000).

22 22 Em análise a figura 2, nota-se que dado, informação, conhecimento e inteligência são itens distintos, porém podem ser interligados de forma a gerar conteúdo necessário para a tomada de decisão de uma empresa Dado Segundo Davenport e Prusak (1998), dados são um conjunto de fatos distintos e objetivos, relativos a eventos, na forma de registros estruturados de transações, os quais descrevem apenas parte de um fato ocorrido. Ainda que não forneçam julgamento, interpretação ou qualquer base sustentável para a tomada de ação, são importantes, porque constituem a matéria prima essencial para a criação da informação. Já para Fialho et al. (2006), dados são representações simbólicas para descrições de atributos de qualquer nível. Para Moresi (2000), dados compreendem a classe mais baixa da informação e incluem os itens que representam fatos, textos, gráficos, imagens estáticas, sons, etc. Representa a matéria prima a ser utilizada na produção de informações. A análise concentra-se em dois tipos de dados, sendo eles, os dados estruturados e não estruturados. Inmon et al.(2008) definem dados estruturados como sendo dados que vêm repetidamente no mesmo formato e layout, geralmente oriundos dos sistemas transacionais. Enquanto dados não estruturados referem-se ao fato de que nenhuma estrutura identificável está disponível, seja por meio de metadados ou pelo seu próprio conteúdo (SINT et al., 2009). Contudo, existe outro tipo de dado, conhecido como semiestruturado. De acordo com o conceito de Sint et al.(2009), dados semiestruturados são dados sem esquemas ou que são autodescritos, pois não há nenhum metadado externo do tipo ou estrutura de dados. Para exemplificar melhor o termo, Barbieri (2001) confirma que os dados que outrora eram meros representantes de fatos comuns como nome, endereço, telefone, etc., hoje, sofisticam-se na representação de imagens, vídeos, sons, dados temporais, indicadores econômicos, planilhas, páginas HTML e estruturas XML. Laudon e Laudon (2010) completam que dados são sequências de fatos ainda não analisados, representativos de eventos que ocorrem nas organizações ou no ambiente físico, antes de terem sido organizados e arranjados de uma forma que as pessoas possam entendêlos e usá-los.

23 Informação Informação é definida como uma mensagem, geralmente na forma de documento ou uma comunicação audível ou visível, com um emitente e um receptor, cuja finalidade é mudar o modo de como o destinatário vê algo e de exercer algum impacto sobre seu julgamento e comportamento, segundo Davenport e Prusak (1998). Outros autores possuem definições similares ao assunto. Segundo Fialho et al. (2006), informação é um conjunto de dados que são processados corretamente e tornam-se compreensíveis, ou seja, apresentem um significado, criando padrões e acionando significados na mente dos indivíduos. Já para Moresi (2000), as informações são dados que passam por algum tipo de processamento para serem exibidos em forma inteligível para as pessoas que irão utilizá-los. Laudon e Laudon (2010) simplificam o conceito de informação e diz que são dados apresentados em uma forma significativa e útil para os seres humanos Conhecimento Para Fialho et al. (2006), pode-se definir conhecimento como um conjunto completo de informações, dados e relações que auxiliamos indivíduos na tomada de decisão, à realização de tarefas e à geração de novas informações e conhecimentos. Para Moresi (2000), o conhecimento são as informações que foram analisadas e avaliadas sobre a sua confiabilidade, sua relevância e sua importância. O conhecimento é obtido pela interpretação e integração de vários dados e informações Inteligência Para Moresi (2000), a inteligência é a informação como oportunidade, ou seja, o conhecimento contextualmente relevante que permite atuar com vantagem no ambiente considerado. Inteligência é a arte de aplicar conhecimento imperfeito. É a arte de perceber cientificamente os desafios selvagens. Não importa quanta informação se obtém; a incerteza sempre existirá. E mesmo assim decisões terão de ser tomadas (FULD, 2006).

24 24 Além disso, a inteligência pressupõe a faculdade de apreender, aprender e compreender, buscando a adaptação ou transformação de maneira satisfatória [...] e atualmente a capacidade emocional (ROBERTO, 2004) Classificação dos Sistemas de Informação Segundo Laudon e Laudon (1998), os sistemas de informação são classificados de acordo com níveis hierárquicos, sendo eles: sistemas de nível operacional, sistemas de nível de produção de conhecimento, sistemas de nível gerencial e sistemas de nível estratégico. Segue uma ilustração figura 3 e um detalhamento desses três níveis hierárquicos. Figura 3 - Classificação dos Sistemas de Informação Fonte: Adaptado de Laudon e Laudon (1998). Os Sistemas de Nível Operacional são destinados ao suporte das atividades do negócio da empresa, tendo como função ou acompanhando da rotina, indicando o nível das vendas, compras, fluxo de caixa, emissão de notas fiscais. São sistemas ligados ao cotidiano das empresas e suas operações, cujo nome é Sistemas de Informação Transacionais (SIT), formando a base de informações para os Sistemas de Informação Gerenciais (SIG) e Sistemas de Apoio à Decisão (SAD).

25 25 Os Sistemas de Nível de Produção de Conhecimento apoiam o processo de coleta e armazenamento de novo conhecimento associado ao negócio, para a administração da continuidade das tarefas cotidianas. Os Sistemas de Nível Gerencial são destinados ao controle e monitoramento das atividades relacionadas ao nível operacional, indicando simulações de cenários estruturados, sendo um sistema com o foco na média gerência da empresa, e podem ser divididos em dois tipos de sistemas: os Sistemas de Informações Gerenciais (SIG), os quais são destinados ao suporte das atividades, agregando dados internos e apresentando resumos das transações operacionais, permitindo acompanhar o andamento e comparar desempenhos; e os Sistemas de Apoio à Decisão (SAD), destinados a apoiar a decisão em situações rotineiras e semiestruturadas. Os Sistemas de Nível Estratégico são destinados às situações e decisões não estruturadas, tais como: tendência, posicionamento da empresa, mudanças no ambiente interno e externo, e são classificados como Sistemas de Suporte aos Executivos (SSE), com base na comunicação e utilização de informações externas (LAUDON; LAUDON, 1998) Sistemas de Apoio a Decisão (SAD) Os Sistemas de Apoio à Decisão estão diretamente ligados com a camada gerencial da organização, a que está ligada às atividades estratégicas. Esses sistemas atuam sobre repositórios de dados dimensionais (data warehouses) e bases de dados com valores consolidados, a fim de facilitar a entrega de informações estratégicas para apoio à decisão (CECI, 2012). De acordo com Turban et al.(2009), os Sistemas de Apoio à Decisão são sistemas baseados em regras que normalmente oferecem uma solução em uma área funcional (como finanças e produção) a um problema de gestão específico e repetitivo comum em um setor de negócio. Ramos (2005) afirma que os Sistemas de Apoio à Decisão ajudam os gerentes a tomarem decisões não usuais, que se alteram com rapidez e que não são facilmente especificadas com antecedência. A autora ainda completa que usualmente tratam informações internas obtidas a partir dos sistemas de processamento de transações (SPT) ou dos SIG, mas também recorrem a informações de fontes externas, tais como o valor corrente das ações ou os preços dos produtos de concorrentes.

26 26 Vinhal (1998) detalha o SAD em uma lista, contendo um conjunto de características ideais que aqui são resumidas: 1. um SAD deve servir de apoio ao processo decisório principalmente em processos semi estruturados e não estruturados, onde estão casados o julgamento humano com as informações computacionais provenientes dos modelos (o julgamento humano nunca é substituído); 2. o suporte deve ser estendido a todos os níveis de uma cadeia de planejamento, ajudando na integração entre os níveis; 3. o suporte deve ser estendido tanto a indivíduos (decisão independente) quanto a grupos (decisão interdependente). Muitos problemas organizacionais envolvem decisões em grupo; 4. um SAD deve englobar todos os níveis do processo decisório, ou seja, análise do problema, modelagem, escolha e implementação; 5. um SAD deve suportar vários tipos de processos de tomada de decisão e estilos; 6. um SAD deve ser adaptativo; 7. um SAD deve ser fácil de manipular (flexibilidade conversacional); 8. um SAD deve visar a efetividade na tomada de decisão e não a eficiência; 9. o tomador de decisão deve aprender com o uso do SAD, e esse aprendizado deve gerar novas demandas com relação ao seu uso (adaptabilidade); 10. um SAD deve ser fácil de construir e de fácil manutenção; 11. um SAD avançado é equipado com uma base de conhecimento e modelos de inferência sobre a mesma. Ainda, Kaster, Medeiros e Rocha (2002) completam que os sistemas de apoio a decisão são sistemas que fornecem mecanismos para facilitar a interação do usuário, através de interfaces e pacotes específicos de software, com modelos de análise e dados de um determinado domínio para gerar e avaliar soluções alternativas. Laudon e Laudon (2010) concluem que os sistemas de apoio à decisão ajudam os gerentes de nível médio a tomar decisões não usuais. Eles focam problemas únicos e que se alteram com rapidez, para os quais não existe um procedimento de resolução totalmente predefinido.

27 BUSINESS INTELLIGENCE De acordo com Turban et al.(2009), o ambiente de negócios no qual as empresas operam atualmente está se tornando cada vez mais complexo e mutante. O volume de informações armazenadas nos bancos de dados das organizações é cada vez maior. Contudo, apenas o armazenamento dessas informações não é suficiente, há a necessidade de analisá-las e utilizá-las de forma inteligente na tomada de decisões das empresas. Turban et al.(2009), ainda, completam que o processamento dessas informações, na estrutura das decisões necessárias, deve ser feito de forma rápida, com frequência em tempo real e comumente exige algum apoio computadorizado. Esta sessão trata dos principais conceitos do BI para suprir esta necessidade de analise, tratamento e transformação dos dados necessários para a tomada de decisão da empresa Histórico e Definições Segundo Côrtes (2002), Business Intelligence é um conjunto de conceitos e metodologias que visa ao apoio à tomada de decisões nos negócios a partir da transformação do dado em informação e da informação em conhecimento. Para o autor Barbieri (2001), de forma mais ampla, BI pode ser entendido como a utilização de variadas fontes de informação para se definir estratégias de competitividade nos negócios da empresa. Turban et al.(2009) explicam que os principais objetivos do BI são permitir o a- cesso interativo aos dados (às vezes, em tempo real), proporcionar a manipulação desses dados e fornecer aos gerentes e a analistas de negócios a capacidade de realizar a análise adequada. Os autores ainda completam que BI baseia-se na transformação de dados em informações, depois em decisões e, finalmente, em ações. De acordo com o histórico de Business Intelligence, segundo Turban et al.(2009), o termo BI foi cunhado pelo Gartner Group em meados da década de Contudo, o conceito iniciou muito antes com suas raízes nos sistemas de geração de relatórios SIG dos anos Durante esses períodos, os sistemas de geração de relatórios eram estáticos, bidimensi-

28 28 onais e não possuíam recursos de análise. No início dos anos 1980, surgiu o conceito de sistemas de informações executivas (EIS). Esse conceito expandiu o suporte computadorizado aos gerentes e executivos de nível superior. Alguns dos recursos introduzidos foram sistemas de geração de relatórios dinâmicos multidimensionais (ad hoc ou sobdemanda), prognósticos e previsões, análise de tendências, detalhamento, acesso a status e fatores críticos de sucesso. Esses recursos apareceram em dezenas de produtos comerciais até o meio da década de Depois, os mesmos recursos e alguns recursos novos apareceram sob o nome de BI. Já, para Ceci (2012), o termo BI foi patenteado pela empresa Gartner, mas, na prática, esse conceito já era aplicado muito antes do invento dos computadores pelos povos antigos. Em um contexto histórico, Primak (2008) deduziu que a sociedade do Oriente Médio antigo utilizava-se dos princípios básicos de BI, quando cruzavam informações obtidas pela natureza para auxiliar na tomada de decisão das aldeias. A análise do comportamento das marés, o levantamento dos períodos chuvosos e de seca, a movimentação e posicionamento dos astros era a forma de obter informações que serviam de base para a tomada de decisões importantes para a comunidade Arquitetura de BI Sell (2006) destaca três iniciativas de arquiteturas, são elas: SEWASIE (BER- GAMASCHI et al., 2005), BIKM (CODY et al., 2002) e a proposta de Priebe e Pernul (2003). Sewasie é uma arquitetura que se encontra em desenvolvimento para suportar buscas de informações em fontes de dados diversos para o suporte a negociações (BERGA- MASCHI et al.; 2004, 2005; CATARCI et al. 2004). Já, o Bikm (CODY et al., 2002) busca suportar a localização e a recomendação de documentos ao tomador de decisão à medida que o usuário explora cubos de dados em ferramentas OLAP. E, ainda, a proposta de Priebe e Pernul (2003) objetiva uma abordagem para mapear cubos e documentos para possibilitar buscas integradas de recursos. Turban et al.(2009, p.28) concluem que BI tem quatro grandes componentes: um data warehouse (DW) com seus dados-fonte a análise de negócios, uma coleção de ferramentas para manipular e analisar os dados no data warehouse, incluindo data mining; business

29 29 performance management(bpm) para monitoria e análise do desempenho e uma interface de usuário (como o dashboard). De acordo com Cruz (2008) BPM é o nome dado a um conjunto de múltiplos elementos, conceitos e metodologias que juntos tem a finalidade de tratar de forma holística processos de negócio. A figura 4 demonstra uma arquitetura de alto nível do BI. Figura 4 - Arquitetura de BI Fonte: Adaptado de Turban et al.(2009, p.30). A figura 4 representa a arquitetura, em alto nível de Business Intelligence. Na representação, existem três ambientes: Ambiente de DW, Ambiente de Análise de Negócios e Ambiente de Desempenho e Estratégia. Após a extração dos dados nas variadas fontes de dados existentes, no Ambiente de DW, a equipe técnica transforma estes dados e realiza a criação do DW. No ambiente de análise de negócios, os usuários, por sua vez, acessam o DW criado, analisam os dados e fornecem os resultados para respectivos gerentes e executivos com o objetivo de realizar as devidas estratégias para seu negócio. Observa-se que o DW é de extrema importância para o negócio. Para facilitar e agilizar as pesquisas, o DW, geralmente, é modelado de forma Dimensional. Na próxima seção, é descrito melhor esta modelagem.

30 Modelagem Dimensional Para Silva (2011), o modelo dimensional, também conhecido como esquema estrela, organiza os dados de uma forma intuitiva, que é focado no alto desempenho das consultas e é orientado à estratificação de informação. Barbieri (2001) define o modelo dimensional como uma estrutura que modifica a ordem de distribuição de campos por entre as tabelas, permitindo uma formatação estrutural mais voltada para os muitos pontos de entradas específicos (as chamadas dimensões) e menos para os dados granulares em si (os chamados fatos). O autor ainda completa que nesta estrutura os dados estarão numa forma quase estelar, em que várias tabelas de entradas estarão se relacionando com algumas (poucas) tabelas de informações, criando uma notação mais sintética, legível e objetiva. No quadro 1, encontra-se a diferença do modelo dimensional para o modelo relacional (ER) de dados, de acordo com Barbieri (2001). Quadro 1 - Tabela diferencial entre modelo Dimensional e ER. Modelo Dimensional Modelo Relacional Padrão de estrutura mais fácil e intuitiva Modelo mais complexo Anterior ao MER, anos 80 Ênfase nos Bancos de Dados Relacionais, anos 70 Tabelas Fato e tabelas Dimensão Tabelas que representam Dados e Relacionamentos Tabelas Fato são o núcleo normalizadas Todas as tabelas são comumente normalizadas Tabelas Dimensão são os pontos de entrada As tabelas são indistintamente acessadas e de filtro inicial Tabelas Dimensão opcionalmente normalizaddas Todas as tabelas são comumente normaliza- Modelo mais facilmente joined Maior dificuldade de join pelo número maior de tabelas Leitura mais fácil do modelo por usuários Maior dificuldade de leitura pelo usuário não não especializados especializado Fonte: Barbieri (2001).

31 31 Analisando o quadro desenvolvido por Barbieri (2001), percebe-se que o modelo dimensional tem o intuito de gerar uma melhor performance para as pesquisas realizadas em um banco de dados, pois apresenta um padrão fácil e intuitivo, possibilitando a utilização mais rápida dos join ETL Segundo Ceci (2012), ETL (Extraction, Transformation and Loading) é um processo responsável por extrair os dados das bases operacionais (transacionais) da organização, efetuar transformações a fim de gerar informações válidas para a análise e apoio ao processo decisório e, por último, armazená-las em um repositório que facilite o acesso às informações. Turban et al.(2009) definem ETL como um processo que consiste em extração (leitura dos dados de um ou mais bancos de dados), transformação (conversão dos dados extraídos de sua forma anterior na forma em que precisam estar, para que sejam colocados em um data warehouse ou apenas em outro banco de dados e carga (colocação dos dados no data warehouse). A figura 5 demonstra os processos de ETL. Figura 5 - O processo de ETL Fonte: Adaptado de Turban et al. (2009). Barbieri (2001) divide o conceito de ETL em cinco pontos: - Filtro de Dados: Relaciona os procedimentos e condições para se eliminar os e- lementos de dados indesejáveis no modelo Dimensional, - Integração de Dados: Define a forma de se correlacionar informações existentes em fontes distintas, e que deverão ser integradas no sistema gerencial.

32 32 - Condensação de Dados: Define a forma de se reduzir volumes de dados visando obter informações resumidas e sumariadas. - Conversão de dados: Define os procedimentos para se transformar dados em u- nidades, formatos e dimensões diferentes. - Derivação de Dados: Define os meios e fórmulas para se produzir dados virtuais, a partir de dados existentes. Através dos pontos citados acima, de acordo com Barbieri (2001), o processo de ETL, dentro do conceito dos pontos já conhecidos do processo que seriam: Extração, Transformação e Carga, existe um detalhamento de cada ponto, resultando no aparecimento de cinco pontos distintos Mineração de Dados Segundo Sezões et al. (2006), mineração de dados ou data mining é um conceito que engloba todos os processos, que através de uma diversidade de ferramentas tecnológicas de análise, permitem descobrir padrões e relações num determinado conjunto de dados. Turban et al.(2009) conceitua data mining como uma classe de análise de informações, baseada em bancos de dados, a qual procura padrões ocultos em uma coleção de dados que podem ser usados para prever comportamentos futuros. Contudo Barbieri (2001) define data mining como uma forma de busca de informações baseadas em algoritmos que objetivam o reconhecimento de padrões escondidos nos dados e não necessariamente revelados pelas outras abordagens analíticas, como OLAP. Laudon e Laudon (2010) concluem que data mining fornece percepções dos dados corporativos que não podem ser obtidas com o OLAP, descobrindo padrões e relacionamentos ocultos em grandes bancos de dados e inferindo regras a partir deles para prever comportamentos futuros. Segundo Sferra e Corrêa (2003), Data Mining, ou Mineração de Dados, pode ser entendido como o processo de extração de informações, sem conhecimento prévio, de um grande banco de dados e seu uso para tomada de decisões. É uma metodologia aplicada em diversas áreas que usam o conhecimento, como empresas, indústrias e instituições de pesquisa. Data Mining define o processo automatizado de captura e análise de grandes conjuntos de dados para extrair um significado, sendo usado tanto para descrever características do passado como para predizer tendências para o futuro.

33 33 Ainda segundo Sferra e Corrêa (2003), existem alguns métodos tradicionais de Data Mining, listados abaixo: - Classificação: associa ou classifica um item a uma ou várias classes categóricas pré-definidas. Uma técnica estatística apropriada para classificação é a análise discriminante. Os objetivos dessa técnica envolvem a descrição gráfica ou algébrica das características diferenciais das observações de várias populações, além da classificação das observações em uma ou mais classes predeterminadas. A idéia é derivar uma regra que possa ser usada para classificar, de forma otimizada, uma nova observação a uma classe já rotulada. - Modelos de Relacionamento entre Variáveis: associa um item a uma ou mais variáveis de predição de valores reais, consideradas variáveis independentes ou exploratórias. Técnicas estatísticas como regressão linear simples, múltipla e modelos lineares por transformação são utilizadas para verificar o relacionamento funcional que, eventualmente, possa existir entre duas variáveis quantitativas, ou seja, constatar se há uma relação funcional entre X e Y. - Análise de Agrupamento (Cluster): associa um item a uma ou várias classes categóricas (ou clusters), em que as classes são determinadas pelos dados, diversamente da classificação em que as classes são pré-definidas. Os clusters são definidos por meio do agrupamento de dados baseados em medidas de similaridade ou modelos probabilísticos. A análise de cluster (ou agrupamento) é uma técnica que visa a detectar a existência de diferentes grupos dentro de um determinado conjunto de dados e, em caso de sua existência, determinar quais são eles. - Sumarização: determina uma descrição compacta para um dado subconjunto. As medidas de posição e variabilidade são exemplos simples de sumarização. Funções mais sofisticadas envolvem técnicas de visualização e a determinação de relações funcionais entre variáveis.as funções de sumarização são frequentemente usadas na análise exploratória de dados com geração automatizada de relatórios, sendo responsáveis pela descrição compacta de um conjunto de dados. A sumarização é utilizada, principalmente, no pré-processamento dos dados, quando valores inválidos são determinados por meio do cálculo de medidas estatísticas como mínimo, máximo, média, moda, mediana e desvio padrão amostral, no caso de variáveis quantitativas, e, no caso de variáveis categóricas, por meio da distribuição de freqüência dos valores. Técnicas de sumarização mais sofisticadas são chamadas de visualização, que são de extrema importância e imprescindíveis para se obter um entendimento, muitas vezes intuitivo, do conjunto de dados. Exemplos de técnicas de visualização de dados incluem

34 34 diagramas baseados em proporções, diagramas de dispersão, histogramas e box plots, entre outros. - Modelo de Dependência: descreve dependências significativas entre variáveis. Modelos de dependência existem em dois níveis: estruturado e quantitativo. O nível estruturado especifica, geralmente em forma de gráfico, quais variáveis são localmente dependentes. O nível quantitativo especifica o grau de dependência, usando alguma escala numérica. - Regras de Associação: determinam relações entre campos de um banco de dados. A idéia é a derivação de correlações multivariadas que permitam subsidiar as tomadas de decisão. A busca de associação entre variáveis é, frequentemente, um dos propósitos das pesquisas empíricas. A possível existência de relação entre variáveis orienta análises, conclusões e evidenciação de achados da investigação. Uma regra de associação é definida como se X então Y, ou X Y, onde X e Y são conjuntos de itens e X Y =. Diz-se que X é o antecedente da regra, enquanto Y é o seu consequente. Medidas estatísticas como correlação e testes de hipóteses apropriados revelam a frequência de uma regra no universo dos dados minerados. - Análise de Séries Temporais: determina características sequenciais, como dados com dependência no tempo. Seu objetivo é modelar o estado do processo extraindo e registrando desvios e tendências no tempo. Correlações entre dois instantes de tempo, ou seja, as observações de interesse, são obtidas em instantes sucessivos de tempo por exemplo, a cada hora, durante 24 horas ou são registradas por algum equipamento de forma contínua, como um traçado eletrocardiográfico. As séries são compostas por quatro padrões: tendência, variações cíclicas, variações sazonais e variações irregulares. Há vários modelos estatísticos que podem ser aplicados a essas situações, desde os de regressão linear (simples e múltiplos), os lineares por transformação e regressões assintóticas, além de modelos com defasagem, como os autorregressivos (AR) e outros deles derivados Relatórios e OLAP Segundo Ceci (2012), relatórios são utilizados até hoje pelas organizações. O seu uso possibilita a apresentação de dados e informações de maneira estática, é basicamente uma fotografia de um cenário ou situação. A interação com o usuário é muito baixa, permitindo apenas o consumo do seu conteúdo.

35 35 Sezões et al. (2006) definem que OLAP (online analytical processing) é um conceito que se refere a aplicações informáticas que permitem efetuar, de forma rápida e partilhada, a análise de informação multidimensional, originária de diversas fontes de dados. Barbieri (2001) confirma que OLAP representa a característica de se trabalhar os dados, com operadores dimensionais, possibilitando uma forma múltipla e combinada de análise. Turban et al.(2009) concluem que OLAP se refere a uma variedade de atividades normalmente executadas por usuários finais em sistemas online. Normalmente, OLAP inclui atividades como geração e resposta de consultas, solicitação de relatórios e gráficos ad hoc e execução dos mesmos, realização de análises estatísticas tradicionais ou modernas e construção de apresentações visuais. Laudon e Laudon (2010) informam que OLAP permite a análise multidimensional de dados, de forma que os usuários vejam os mesmos dados de diferentes maneiras, pois usa múltiplas dimensões Business Intelligence 2.0 Segundo Martins (2008), o propósito dos ambientes de BI 2.0 é melhorar o desempenho dos processos de tomada de decisão, reduzindo o tempo entre a ocorrência de um evento no ambiente transacional e o momento quando uma decisão é tomada no ambiente informacional. De acordo com Nelson (2010), BI 2.0 implica um afastamento do armazém de dados padrão que as ferramentas de inteligência de negócios têm usado e que dará lugar ao contexto e a necessidade de relacionar informações de forma rápida a partir de muitas fontes. Nelson (2010) lista alguns termos usados em BI 2.0: - alertas proativos e notificações; - evento dirigido / Tempo real / Acesso instantâneo às informações; - análise avançada; - integração empresarial; - mashups e integração de portaisbi; - móvel / Acesso ubíquo; - melhoria da visualização, Rich Interfaces (RIA); - análise in-memory.

36 36 No quadro 2, Nelson (2010) ainda criou um conceito chave e as lições apresentadas pelo BI 2.0 da rede social utilizada. Quadro 2 - Tabela Redes Sociais Web 2.0 / Rede Social Conceito Chave Lições do BI 2.0 Twitter Curtas, concisas atualizações. A informação flui continuamente e as pessoas podem prestar atenção e re-tweets e codificar conforme necessário. Os usuários do Twitter têm evoluído a plataforma para torná-lo mais útil (por exemplo, hash tags). Informalidade leva à rápida disseminação. Em tempo real, o fluxo contínuo de decisões, o status sobre o negócio, processamento de eventos complexos. Plataforma evolui a- través do uso / orgânicos evolução não planejada de recursos. Explicação sucinta do estado do negócio. Pesquisa comentários; Gerar nuvens de palavras que fornecem uma visualização da "vibe" ou sentimento do negócio. Tags e comentários de usuários. Enviar informações digno de nota (Qualquer coisa na web que você acha que é interessante) - associála a dados ou objetos. Fonte: Nelson Para uma melhor interpretação do assunto, Xavier e Pereira (2009) também criaram um quadro (Quadro 3), porém com um comparativo entre BI e BI 2.0. Quadro 3 - Comparativo entre BI e BI2.0 Consumo estático de relatórios. Envio e apresentação de relatórios estáticos para os usuários. BI BI 2.0 Função de alto custo e considerada um luxo Comunidades de usuários dinâmicas, colaboração ativa e compartilhamento imediato das informações. Fornecimento de informações dinâmicas e interativas, com usuários elaborando seus próprios relatórios ou assinando as informações de que necessitam. Soluções econômicas e rentáveis disponibi-

37 37 dentro da organização. BI para uns poucos usuários especializados. Relatórios orientados para a impressão. Gráficos com barras estatísticas e gráficos circulares segmentados. OLAP para análise. Instalação, upgrade e uso complexos e de alto consumo de tempo. Relatórios baseados no desktop ou em HTML estáticos. Fonte: Xavier e Pereira (2009). lizadas para a empresa como um todo. BI para todos dentro da organização, na medida em que for necessário. Aplicações de geração de relatórios interativas e baseadas na Web. Visualização de dados intuitiva, dinâmica e interativa. OLAP junto a alternativas inovadoras, menos complexas e de alto desempenho e geração ad hoc de relatórios. Instalação, upgrades e uso simplificados. Relatórios integrados com eventos e processos automatizados; relatórios como serviços na Web (via XML). Analisando o quadro desenvolvido por Xavier e Pereira (2009), percebe-se que o BI 2.0 trouxe vantagens no que diz respeito à dinâmica das atividades, à economia e à rentabilidade. A simplificação das tarefas também é evidente no comparativo entre BI e BI 2.0. Segundo Ceci (2010), de acordo com as características principais apresentadas no quadro, podem-se levantar: - aumento da quantidade de usuários à aplicação de BI na organização (mais setores a utilizam, tirando o foco somente da camada gerencial); - aplicações mais simples e intuitivas, com melhora no tempo de resposta; - combinação dos dados dos repositórios da organização com dados disponíveis na Web. Na visão de Pintas e Siqueira (2011), a maior deficiência das soluções tradicionais de BI está na latência entre o acontecimento do evento e a tomada de decisão. Segundo os autores em questão, o BI 2.0 tem como foco atacar essa latência. Ainda segundo os autores Pintas e Siqueira (2011), podemos dividir a latência entre o acontecimento de um evento e a tomada de decisão em três partes: latência de dados, latência de análise e a latência de decisão. Segundo Nicholls (2006 apud PINTAS e SIQUEI- RA, 2011), o objetivo do BI 2.0 é reduzir todas as três latências, desta forma maximizando o valor de cada decisão tomada. Este aumento de valor representa menor tempo para a identificação de um risco ou uma oportunidade para a empresa.

38 EXTRAÇÃO DE INFORMAÇÃO Um dos problemas que as organizações têm enfrentado para trabalhar com o conhecimento é como encontrá-lo, recuperá-lo, armazená-lo, e compartilhá-lo entre os seus membros (CECI, 2010). Como o foco dessa monografia são as redes sociais, as quais contemplam informações que podem auxiliar na tomada de decisão, se faz necessária a utilização de recursos para extração desses dados necessários para a organização. Na sessão seguinte, estão descritos conceitos e informações sobre estes recursos necessários para a extração de informações, sendo eles o Reconhecimento de entidades nomeadas (NER) e Descoberta de conhecimento em texto Reconhecimento de entidades nomeadas (NER) Para Ceci, Pietrobon e Gonçalves (2012), Reconhecimento de Entidades Nomeadas (NER) é considerado uma parte da extração de informações, onde o objetivo é encontrar e categorizar seções de texto em categorias pré-estabelecidas. Segundo Zhu, Uren e Motta (2005), NER é um técnica da área de extração de informação (EI) que tem como função reconhecer entidades em textos de diferentes tipos e de diferentes domínios. Ceci (2012) explica que o NER (Named Entity Recognition) é uma técnica que tem como objetivo encontrar as fronteiras de um termo no texto e, se disponível uma base de conhecimento, também classificar este termo, como, por exemplo, pode-se reconhecer o termo Unisul Virtual e apresentá-lo como uma organização. Para Negri e Magnini (2004), NER tem como tarefa identificar e categorizar entidades mencionadas (pessoas, organizações, locais), expressões temporais (hora e data) e alguns tipos de expressão numérica (percentual e valor monetário) escritos em um texto. Segundo Ceci (2010), seguem algumas vantagens na utilização de sistemas NER, conforme segue abaixo: - auxiliar no processo de recuperação de informação: o sistema NER identifica as entidades do texto antes do processo de indexação, fazendo com que seja indexada a entidade, que pode ser comporta de vários termos, em vez de apenas os termos;

39 39 - detecção de eventos: por meio das datas encontradas nos textos, pode-se fazer uma relação com os termos próximos e verificar a evolução destes; - manutenção em ontologias: através das entidades levantadas pelo sistema NER, pode-se verificar qual delas é uma possível classe da ontologia em questão e quais termos estão relacionados com a classe a fim de atualizar essa ontologia (GIU- LIANO, 2009). Segundo Gonçalves (2006), o processo de NER constitui-se na análise de cada documento através da utilização de bases de conhecimento e de análises de padrões léxicos, possibilitando assim a extração e a nomeação de elementos textuais Descoberta de conhecimento em texto (KDT) O processo KDT é definido como a extração de padrões relevantes e não triviais a partir de bases de dados semi ou não estruturadas. Também, utiliza técnicas da mineração de dados, mas, nesse caso, usam-se técnicas de processamento de linguagem natural para extrair conceitos de texto e mais uma vez análises estatísticas, mas para recuperar padrões e técnicas de visualização, permitindo análises interativas (GONÇALVES, 2006). De acordo com Feldman e Hirs (1997), o processo KDT pode ser definido como a extração não trivial de informações implícitas, previamente desconhecidas e potencialmente úteis de grandes bases textuais. Mooney e Nahm (2003) completam que é um processo para encontrar padrões interessantes e úteis, modelos, direções, tendências ou regras a partir de textos não estruturados. Na figura 6, apresentam-se as etapas do processo KDT. Figura 6 - Etapas do processo KDT. Fonte: Adaptado de Mooney e Nahm (2003).

40 40 Através da interpretação da figura 6, nota-se que o processo do KDT, segundo uma visão dos autores Mooney e Nahm (2003), possui fases desde a extração da informação até a geração do conhecimento, o qual pode ser utilizado no processo decisório de uma organização, por exemplo. 2.4 WEB 2.0 De acordo com Bressan (2007), em linhas gerais, Web 2.0 diria respeito a uma segunda geração de serviços e aplicativos da rede e a recursos, tecnologias e conceitos que permitem um maior grau de interatividade e colaboração na utilização da Internet. Segundo Moura (2012), o termo Web 2.0 está associado a aplicações Web, em que o objetivo principal é facilitar os seguintes aspectos: compartilhamento de informações de maneira interativa, interoperabilidade, desenvolvimento com foco no usuário e colaboração na World Wide Web (WWW). Coutinho e Bottentuit (2007) concluem que a Web 2.0 é uma forma de utilização colaborativa da internet, em que o conhecimento é compartilhado de maneira coletiva e descentralizado de autoridade para utilizá-lo e reeditá-lo. Segundo Primo (2007), a Web 2.0 é a segunda geração de serviços online, caracterizada por potencializar as formas de publicação, ampliação das formas de produção cooperada e compartilhamento e organização de informações. Silva (2013) acrescenta que a Web 2.0 é considerada por muitos como uma rede em forma de plataforma, em que milhares de softwares são oferecidos como serviços, que são frequentemente atualizados e, quanto mais utilizados, melhores ficam suas aplicações. Segundo Corrêa (2012), a web 2.0 instalou uma nova espécie de participação do leitor enquanto co-autor do conteúdo que circula pela Internet. Dessa forma, percebe-se um avanço considerável na relação leitor-autor, eliminando barreiras que impediam uma comunicação direta entre esses. O cidadão comum tem agora acesso quase ilimitado a todo e qualquer assunto postado na rede, inclusive resultados de pesquisa e inovação científica e tecnológica, podendo, inclusive, interagir diretamente com o autor e seu conteúdo.

41 41 3 MÉTODO Este capítulo possui como objetivo realizar uma abordagem sobre a metodologia utilizada neste trabalho. Este capítulo está estruturado contendo os subitens, caracterização do tipo de pesquisa, etapas metodológicas, propósito das etapas, proposta de solução e delimitações. 3.1 CARACTERIZAÇÃO DO TIPO DE PESQUISA Segundo Menezes e Silva (2005), pesquisa é um conjunto de ações, propostas para encontrar a solução para um problema, que tem por base procedimentos racionais e sistemáticos. A pesquisa é realizada quando se tem um problema e não se têm informações para solucioná-lo. Para Kauark, Manhães e Medeiros (2010), em se tratando de ciência, pesquisa é a busca de solução a um problema que alguém queira saber a resposta. Contudo esta seção, além dos conceitos de pesquisa, busca também citar os tipos de pesquisa. A importância de conhecer os tipos de pesquisas existentes está na necessidade de definição dos instrumentos e procedimentos que um pesquisador precisa utilizar no planejamento da sua investigação (KAUARK, MANHÃES e MEDEIROS, 2010). De acordo com Menezes e Silva (2005, p.20), existem várias formas de classificar as pesquisas. Do ponto de vista da sua natureza, podem ser: Pesquisa Básica e Pesquisa Aplicada, já do ponto de vista da forma de abordagem do problema, podem ser: Pesquisa Quantitativa e Pesquisa Qualitativa. Segundo uma abordagem do ponto de vista da sua natureza, utiliza-se como tipo de pesquisa neste trabalho a Pesquisa Aplicada. Segundo Menezes e Silva (2005), a pesquisa aplicada objetiva gerar conhecimentos para aplicação prática e dirigidos à solução de problemas específicos. Envolve verdades e interesses locais. Já, no ponto de vista da forma de abordagem, este trabalho utiliza como tipo de pesquisa a Qualitativa. Segundo Menezes e Silva (2005), a pesquisa qualitativa considera

42 42 que há uma relação dinâmica entre o mundo real e o sujeito, isto é, um vínculo indissociável entre o mundo objetivo e a subjetividade do sujeito que não pode ser traduzido em números. Menezes e Silva (2005) ainda citam mais abordagens dos tipos de pesquisa, do ponto de vista de seus objetivos, pode ser: pesquisa exploratória, pesquisa descritiva e pesquisa explicativa. A abordagem do tipo Pesquisa Exploratória é utilizada neste trabalho. Segundo Gil (1991), a pesquisa exploratória visa a proporcionar maior familiaridade com o problema com vistas a torná-lo explícito ou a construir hipóteses. Envolve levantamento bibliográfico; entrevistas com pessoas que tiveram experiências práticas com o problema pesquisado; análise de exemplos que estimulem a compreensão. Assume, em geral, as formas de Pesquisas Bibliográficas e Estudos de Caso. Por último, Menezes e Silva (2005, p.21), ainda, citam outra abordagem do ponto de vista dos procedimentos técnicos, podendo ser: Pesquisa Bibliográfica, Pesquisa Documental, Pesquisa Experimental, Levantamento, Estudo de caso, Pesquisa Expost-Facto, Pesquisa Ação e Pesquisa Participante. De acordo com essa abordagem, este trabalho utiliza o ponto de vista de Pesquisa Bibliográfica, pois, de acordo com Gil (1991) a pesquisa bibliográfica é a pesquisa quando elaborada a partir de material já publicado, constituído principalmente de livros, artigos de periódicos e atualmente com material disponibilizado na Internet. Na próxima seção, são apresentadas as etapas metodológicas que norteiam esta pesquisa. 3.2 ETAPAS METODOLÓGICAS As etapas metodológicas deste trabalho são divididas em seis partes: A. revisão bibliográfica; B. modelagem; C. confecção dos capítulos da monografia; D. desenvolvimento;

43 43 E. testes; F. avaliação. Figura 7 - Etapas Metodológicas. Fonte: Elaborada pelo autor, A figura 7 demonstra as Etapas Metodológicas de acordo com a estrutura deste trabalho. A seguir, seguem as descrições detalhadas de cada item. A etapa inicial denominada Revisão bibliográfica, consiste em todo o embasamento teórico para apoiar na estruturação e desenvolvimento da monografia. A etapa seguinte, chamada de Modelagem, fornece a modelagem da base de dados que é criada, de acordo com o modelo dimensional pesquisado. A etapa de Confecção dos capítulos da monografia tem como finalidade criar e estruturar os capítulos da monografia. Já, na etapa de Desenvolvimento, posterior a etapa de Modelagem, é realizado o desenvolvimento do sistema proposto pela monografia, ou seja, toda a parte de programação envolvida no sistema e também estão contidas as consultas ao banco de dados, de acordo com o estudo de caso apresentado. Em sequência, após a conclusão do desenvolvimento, realiza-se a etapa de Testes, a qual o sistema é submetido a alguns testes para avaliar seu funcionamento de acordo como é esperado. Caso a etapa de Testes dê êxito, para completar uma última etapa, foi criada, a que é chamada de Validação, que contem um cenário elaborado pelo autor da monografia em que o sistema é executado.

44 PROPOSTA A proposta é o desenvolvimento de uma solução de Business Intelligence 2.0 para extração e análise, utilizando fonte de dados não estruturados a partir da rede social, Twitter. Com a finalidade de melhor entendimento da proposta de solução, os próximos i- tens demonstraram o fluxograma da proposta (Figura 8) e a arquitetura da solução (Figura 9) Fluxograma da proposta de solução Para melhor entendimento da solução proposta, neste item é demonstrado um fluxograma, contendo as etapas para solução da monografia. Segue o fluxograma ilustrado na figura 8. Figura 8 - Fluxograma da proposta de solução. Fonte: Elaborada pelo Autor, A solução proposta possui como entrada de dados a coleta de dados da rede social Twitter. Em seguida, será criado um processo de ETL para extração, transformação e carga dos dados na Base Operacional do cliente. É realizada a modelagem e desenvolvimento da Base Operacional para armazenamento dos dados extraídos das redes sociais, seguindo com o desenvolvimento das consultas ao banco de dados para filtrar as informações necessárias para a aplicação, finalizando com o desenvolvimento da aplicação de Business Intelligence 2.0.

45 Arquitetura Tecnológica Para melhor entendimento da arquitetura tecnológica da monografia, neste item está demonstrada uma ilustração (Figura 9) desta arquitetura e, também, uma breve descrição da ilustração. Figura 9 - Arquitetura Tecnológica. Fonte: Elaborada pelo Autor, A figura 9 demonstra a estrutura tecnológica adequada para aplicação da solução proposta. Na arquitetura proposta, será utilizado um servidor contendo uma aplicação de BI 2.0 para permitir ao usuário visualizar o resultado das consultas realizadas e um banco de dados. 3.4 DELIMITAÇÕES Seguem as delimitações expostas a seguir: não foi desenvolvida uma ferramenta que realize a inserção de dados na rede social Twitter. A ferramenta apenas demonstra as informações analisadas obtidas do banco de dados; as informações apresentadas somente são obtidas da rede social Twitter; não são utilizadas contas de usuários reais do Twitter para extração de dados destas redes; não se tem como foco desenvolver uma nova técnica para extração de informação, nesse trabalho foca-se apenas na utilização das técnicas já existentes.

46 46 4 PROJETO DE SOLUÇÃO PARA O EXTRATOR DE DADOS Neste capítulo, são demonstradas as definições técnicas e metodológicas da monografia. São abordados alguns conceitos de UML, levantamento de requisitos, casos de uso, modelo de robustez, protótipos de tela, modelo de classe, modelo de domínio, modelo de e sequência. 4.1 UML Segundo LARMAN (2005), a Linguagem de Modelagem Unificada (UML) é uma linguagem visual para especificar, construir e documentar os artefatos dos sistemas. O autor, ainda, descreve que a UML é a notação diagramática padrão, de fato, para desenhar ou apresentar figuras (com algum texto) relacionadas à software, principalmente, software orientado a objeto (OO). LARMAN (2005) cita três tipos de perspectivas que a UML pode adotar. São e- las: Perspectiva Conceitual, Perspectiva de Especificação (software) e Perspectiva de Implantação (software), conforme demonstrado na figura 10. Figura 10 - Diferentes perspectivas em UML Fonte: Larman (2005).

47 47 Seguem as definições das três diferentes perspectivas em UML, de acordo com o autor LARMAN (2005): Perspectiva Conceitual: Os diagramas são interpretados como descrevendo coisas em uma situação do mundo real ou domínio de interesse. Perspectiva Especificação (software): Os diagramas (usando a mesma notação da perspectiva conceitual) descrevem abstrações de software ou componentes com especificações e interfaces, mas nenhum comprometimento com uma implementação particular (por exemplo, não especificamente uma classe em C# ou Java). Perspectiva de Implementação (software): Os diagramas descrevem implementações de software em uma tecnologia particular (tal como Java). Segundo Fowler (2005), UML (Unified Modeling Language) é uma família de notações gráficas, apoiada por um metamodelo único, que ajuda na descrição e no projeto de sistemas de software, particularmente daqueles construídos, utilizando o estilo orientado a objetos (OO). O UML é uma linguagem diagramática, utilizável para especificação, visualização e documentação de sistemas (SILVA e VIDEIRA, 2001). De acordo com os autores, Silva e Videira (2001), o UML possui as seguintes características principais: é independente do domínio de aplicação; é independente do processo ou metodologia de desenvolvimento; é independente das ferramentas de modelação; apresenta mecanismos potentes de extensão; agrega um conjunto muito significativo de diferentes diagramas/técnicas dispersos por diferentes linguagens. O objetivo principal é promover e facilitar a comunicação entre um grupo variado de intervenientes (SILVA e VIDEIRA, 2001). Fowler (2005) criou uma tabela para citar os variados tipos de diagrama oficiais da UML, conforme demonstrado no quadro 4.

48 48 Quadro 4 - Tipos de diagramas oficiais da UML Diagrama Objetivo Atividades Comportamento procedimental e paralelo. Classes Classe, características e relacionamentos. Comunicação Interação entre objetos; ênfase nas ligações. Componentes Estrutura e conexão de componentes. Estruturas compostas Decomposição de uma classe em tempo de execução. Distribuição Distribuição de artefatos nos nós. Visão geral da interação Mistura de diagrama de sequência e de atividades. Objetos Exemplo de configurações de instâncias. Pacotes Estrutura hierárquica em tempo de compilação. Sequência Interação entre objetos; ênfase na sequência. Máquinas de estado Como os eventos alteram um objeto no decorrer de sua vida. Sincronismo Interação entre objetos; ênfase no sincronismo. Casos de uso Como os usuários interagem com um sistema. Fonte: Adaptado de Fowler (2005). Na próxima sessão é demonstrada a modelagem da solução de coleta proposta, contemplando apenas a modelagem do módulo de coleta da solução. 4.2 MODELAGEM DA SOLUÇÃO DE COLETA PROPOSTA Nesta seção, é apresentada a modelagem da solução de coleta de dados proposta. São demonstrados os requisitos funcionais, não funcionais, regras de negócio, diagramas de casos de uso, protótipos de tela, modelos de domínio, modelos de classe, modelos de robustez, finalizando com modelos de sequência Requisitos Segundo Sommerville (2003), em alguns casos, um requisito é visto como uma declaração abstrata, de alto nível, de uma função que o sistema deve fornecer ou de uma res-

49 49 trição do sistema. No outro extremo, ele é uma definição detalhada, matematicamente formal, de uma função do sistema. Sommerville (2003), ainda, separa os requisitos em três níveis diferentes de descrição, são eles: 1. requisitos do usuário: são declarações, em linguagem natural e também em diagramas sobre as funções que o sistema deve fornecer e as restrições sob as quais deve operar; 2. requisitos de sistema: estabelecem detalhadamente as funções e as restrições de sistema. O documento de requisitos de sistema, algumas vezes chamado de especificação funcional, deve ser preciso. Ele pode servir como um contrato entre o comprador do sistema e o desenvolvedor do software; 3. especificação de projeto de software: é uma descrição abstrata do projeto de software que é uma base para o projeto e a implementação mais detalhados. Essa especificação acrescenta mais detalhes à especificação de requisitos do sistema. Diferentes níveis de especificação de sistema são uteis porque comunicam informações sobre o sistema para diferentes tipos de leitores (SOMMERVILLE, 2003). Segundo Sommerville (2003), os requisitos de sistema de software são, frequentemente, classificados como funcionais ou não funcionais, conforme segue nas próximas seções. Segundo Silva e Videira (2001), um requisito é uma especificação de uma determinada ação ou determinada condição que o sistema deve satisfazer Requisitos Funcionais Sommerville (2003) define requisitos funcionais (RF) como declarações de funções como sistema deve fornecer, como o sistema deve reagir a entradas específicas e como deve se comportar em determinadas situações. Em alguns casos, os requisitos funcionais podem também explicitamente declarar o que o sistema não deve fazer. Um requisito funcional descreve uma determinada ação (ou função) que o sistema deverá suportar (SILVA e VIDEIRA, 2001).

50 50 A figura 11 ilustra os requisitos funcionais da solução de coleta de dados proposta. Figura 11 - Requisitos Funcionais Fonte: Autor Segue o detalhamento de cada requisito funcional, de acordo com a figura 11: RF001 O sistema deve permitir a autenticação dos usuários: Autenticar o usuário do sistema, validando o login e senha informados pelo usuário; RF002 - O sistema deve possuir uma tela de login para acesso ao sistema: A tela de login deverá apresentar o nome do sistema, um campo de login e outro campo de senha para que o usuário realize a inserção dos dados; RF003 - O sistema deve permitir a extração de dados públicos do Twitter: As coletas do Twitter só poderão ser de dados públicos;

51 51 RF004 - O sistema não deve permitir qualquer tipo de inserção de dados no Twitter: O sistema só deve permitir a coleta de dados no Twitter; RF005 - O sistema deve permitir a persistência de dados no Data Warehouse: O sistema fará a persistência dos dados coletados do Twitter no Data Warehouse; RF006 - O sistema deve permitir consultas ao Data Warehouse: O sistema poderá consultar informações armazenadas no Data Warehouse para futuras análises. RF007 - O sistema deve permitir o cadastro de termos a serem pesquisados no Twitter: O cadastro de termo permitirá que o sistema consiga extrair determinadas informações do Twitter; RF008 - O sistema deve permitir a remoção de termos: Por sua vez, o sistema também permitirá que estes termos sejam excluídos; RF009 - O sistema deve permitir a consulta do último tweet coletado: O sistema permitirá a consulta do último tweet com o intuito de identificar se as coletas estão sendo realizadas corretamente, possibilitando o histórico do último registro capturado; RF010 - O sistema deve possuir o cadastro de entidades: O cadastro de entidades será permitido para que seja possível realizar o relacionamento das entidades nomeadas com os tweets coletados; RF011 - O sistema deve permitir consultar o status do servidor Stream: O sistema permitirá a consulta dos status do servidor Stream para que seja identificado se este está ativado ou inativado; RF012 - O sistema deve permitir a importação de arquivos para carga no banco de dados: A importação de arquivos é necessária para carregar as entidades no sistema Requisitos Não Funcionais Segundo Sommerville (2003), os requisitos não funcionais (RNF) são restrições sobre os serviços ou as funções oferecidas pelo sistema. Entre eles, destacam-se restrições de tempo, restrições sobre o processo de desenvolvimento, padrões, entre outros. Um requisito tem a ver com aspectos gerais do sistema tais como: desempenho, robustez, fiabilidade, distribuição, segurança, integração, com a internet, abertura, ou suporte de Standards (SILVA e VIDEIRA, 2001).

52 52 A figura 12 ilustra os requisitos não funcionais da solução de coleta de dados proposta. Figura 12 - Requisitos Não Funcionais Fonte: Autor. Segue o detalhamento de cada requisito não funcional, de acordo com a figura 12: RNF001 O sistema será acessado via Web: Para utilização do sistema, o usuário utilizará um browser; RNF002 O sistema deve apresentar uma interface limpa: A interface deverá ser clara e objetiva para o perfeito entendimento do usuário; RNF003 A página inicial do sistema deve ser a tela de login do usuário: A primeira tela do sistema será a autenticação do usuário; RNF004 Todos os erros ocorridos no sistema deverão ser tratados: As exceptions ocorridas durante a execução do sistema deverão ser tratadas para o entendimento do usuário; RNF05 O sistema deve permitir o acesso simultâneo de usuários: Um ou mais usuários podem acessar o sistema simultaneamente;

53 53 RNF06 O sistema deve possuir compatibilidade com o navegador: Como requisito mínimo de utilização do sistema, será a utilização do navegador Chrome versão m. RNF07 O servidor deve ter uma configuração mínima: O servidor deverá ter as seguintes configurações mínimas: HD 20GB, Memória 2GB, Java 7, Apache Tomcat 7 e SGBD MariaDB ; RNF008 - Para utilização do sistema, é necessário estar conectado na internet: Requisito necessário devido a extração de dados do Twitter Regras de Negócio Segundo GUIDE (2000), uma regra de negócio é uma sentença que define ou qualifica algum aspecto do negócio, representando o conhecimento dos especialistas do negócio. Para Gottesdiener (1997), as regras de negócio oferecem vantagens como: rapidez no desenvolvimento do sistema, facilidade de mudança, requisitos mais completos e definidos e balanceamento entre flexibilidade e controle centralizado. Larman (2005), por sua vez, relata que regras de negócio descrevem tipicamente requisitos ou políticas que transcendem um projeto de software. A figura 13 ilustram as regras de negócio da solução de coleta de dados proposta. Figura 13 - Regras de Negócio Fonte: Autor Segue o detalhamento de cada regra de negócio, de acordo com a figura 13:

54 54 RN001 O sistema só poderá aceitar os status Ativo e Inativo do servidor de Stream: Esta regra implica que os valores aceitados pelo sistema para status do servidor são apenas Ativo e Inativo; RN002 O sistema deverá possuir apenas um usuário, chamado admin : Esta regra implica que o sistema possuirá um único usuário Protótipos de Tela Para Guedes (2009), protótipo de tela consiste em desenvolver rapidamente um rascunho do que seria o sistema de informação quando estivesse finalizado. Um protótipo normalmente apresenta pouco mais do que a interface do software a ser desenvolvido, ilustrando como as informações seriam inseridas e recuperadas no sistema, apresentando alguns exemplos com dados fictícios de quais seriam os resultados apresentados pelo software, principalmente em forma de relatório. de dados proposta. As figuras 14, 15, 16, 17 e 18 ilustram os protótipos de tela da solução de coleta Figura 14 - Protótipo da tela de login Fonte: Autor

55 55 A figura 15 representa a tela inicial do sistema responsável pela autenticação do usuário. A figura a seguir, figura 16, é aberta pelo sistema logo que o usuário efetua a autenticação no sistema. Figura 15 - Protótipo da tela inicial Fonte: Autor A figura 16 é responsável pela manipulação e informação do servidor Stream. É também acessada pelo item Início do menu superior. Nesta tela é possível realizar o start/stop do servidor e ainda obter informações do status e de quanto tempo o sistema está neste status. A figura 16, representa a tela de cadastro e remoção de termos.

56 56 Figura 16 - Protótipo da tela de termos Fonte: Autor A figura 17 é acessada pelo item Termos do menu superior e é responsável pelo cadastro, listagem e remoção dos termos necessários para extração de informações no Twitter. A figura 17, representa a tela de listagem de histórico de tweets. Figura 17 - Protótipo da tela de histórico Fonte: Autor

57 57 A figura 18 é acessada pelo item Histórico do menu superior e é responsável pela listagem do último tweet coletado no sistema. Esta tela permite confirmar se o servidor Stream está coletando corretamente. A figura 18, representa a tela de carregamento de entidades. Figura 18 - Protótipo da tela de entidades Fonte: Autor A figura 18 é acessada pelo item Entidades do menu superior e é responsável pelo carregamento de entidades no sistema, permitindo o relacionamento de entidades nomeadas. Segue a lista de protótipos de tela, de acordo com as figuras 14,15, 16, 17 e 18. TEL001 Tela Login; TEL002 Tela Inicial; TEL003 Tela Termos; TEL004 Tela Histórico; TEL005 Tela Entidades.

58 Casos de uso Segundo Larman (2005), caso de uso é uma coleção de cenários relacionados de sucesso e fracasso, que descrevem um ator usando um sistema como meio para atingir um objetivo. O autor completa que casos de uso são narrativas em texto, amplamente utilizadas para descobrir e registrar requisitos. Já para Guedes (2009), o diagrama de casos de uso apresenta uma linguagem simples e de fácil compreensão para que os usuários possam ter uma ideia geral de como o sistema irá se comportar. Completa que é utilizado principalmente para auxiliar no levantamento e análise dos requisitos, em que são determinadas as necessidades do usuário, e na compreensão do sistema como um todo, embora venha a ser consultado durante todo o processo de modelagem e sirva de base para todos os outros diagramas. A figura 19 ilustra os casos de uso da solução de coleta de dados proposta. Figura 19 - Casos de Uso Fonte: Autor Segue a lista de casos de uso, de acordo com a figura 19:

59 59 UC001 Autenticar no sistema: Caso de uso responsável pela autenticação do usuário no sistema. Cenário: 1. Usuário abre o sistema; 2. Sistema exibe a tela de login (TEL001 Tela Login); 3. Usuário preenche os campos de login; 4. Usuário seleciona a opção login; 5. Sistema valida os dados de login no banco de dados; 6. Sistema fecha a tela de login (TEL001 Tela Login); UC002 Manipular o servidor Stream: Caso de uso responsável por executar o start/stop do serviço de extração de dados do Twitter. Demonstra também o status do extrator (Ativo ou Inativo) e ainda a data e a hora do último status. Cenário: 1. Usuário acessa a tela inicial (TEL002 Tela Inicial); 2. Sistema abre a tela inicial (TEL002 Tela Inicial); 3. Usuário seleciona a opção desejada; 3.1. Iniciar o serviço de stream; Usuário seleciona a opção start; Sistema inicia o serviço de stream; Sistema insere o status do serviço na tela inicial (TEL002 Tela Inicial); 3.2. Parar o serviço de stream; Usuário seleciona a opção stop; Sistema finaliza o serviço de stream; Sistema insere o status do serviço na tela inicial (TEL002 Tela Inicial). UC003 Cadastrar termos: Caso de uso responsável pelo cadastro de termos necessários para pesquisas e extração de dados no Twitter. Cenário: 1. Usuário acessa a tela de termos (TEL003 Tela Termos); 2. Sistema abre a tela de termos (TEL003 Tela Termos); 3. Usuário digita o termo desejado; 4. Usuário pressiona a opção salvar;

60 60 5. Sistema realiza o cadastro do termo; 6. Sistema imprime uma mensagem de sucesso no cadastro do termo; 7. Sistema lista todos os termos do sistema na tela de termos (TEL003 Tela Termos). UC004 Remover termos: Caso de uso responsável pela remoção dos termos cadastrados no sistema. Cenário: 1. Usuário acessa a tela de termos (TEL003 Tela Termos); 2. Sistema abre a tela de termos (TEL003 Tela Termos); 3. Sistema lista todos os termos cadastrados; 4. Usuário escolhe o tema desejado e pressiona a opção para apagar o termo; 5. Sistema apaga o termo escolhido pelo usuário; 6. Sistema imprime uma mensagem de sucesso na remoção do termo; 7. Sistema lista os termos existentes na tela de termos (TEL003 Tela Termos). UC005 Listar histórico de tweets: Caso de uso responsável por listar o último tweet coletado do Twitter. Cenário: 1. Usuário acessa a tela de histórico (TEL004 Tela Histórico); 2. Sistema abre a tela de histórico (TEL004 Tela Histórico); 3. Sistema consulta o último tweet coletado; 4. Sistema exibe o último tweet coletado na tela de histórico (TEL004 Tela Histórico). UC006 Inserção de entidades: Caso de uso responsável pelo cadastro de entidades no sistema, necessário para o processo de relacionamento de entidades nomeadas. Cenário: 1. Usuário acessa a tela de entidades (TEL005 Tela Entidades); 2. Usuário pressiona a opção Escolher arquivo ; 3. Usuário seleciona o arquivo a ser carregado; 4. Usuário pressiona a opção Upload ; 5. Sistema carrega as entidades no sistema;

61 61 6. Sistema apresenta a mensagem de sucesso no carregamento do arquivo na tela de entidades (TEL005 Tela Entidades). No quadro é apresentado a rastreabilidade demonstrando o relacionamento entre os casos de uso com os requisitos. Quadro 5 - Matriz de Rastreabilidade entre Casos de Uso e Requisitos Casos de Uso Requisitos RF001 - O sistema deve permitir a autenticação do usuário; UC001 - Acessar o sistema RF002 - O sistema deve possuir uma tela de login para acesso ao sistema. UC002 - Manipular o RF003 - O sistema deve permitir a extração de dados públicos do Twitter. serviço de Stream UC003 - Cadastrar termos serem pesquisados no Twitter. RF007 - O sistema deve permitir o cadastro de termos a UC004 - Remover termos RF008 - O sistema deve permitir a remoção de termos. UC005 - Listar histórico RF009 - O sistema deve permitir a consulta do último tweet de tweet coletado. UC006 - Inserção de entidades Fonte: Autor RF010 - O sistema deve possuir o cadastro de entidades; RF012 - O sistema deve permitir a importação de arquivos para carga no banco de dados Modelo de domínio Larman (2005) define o modelo de domínio sendo uma representação visual de classes conceituais, ou objetos do mundo real, em um domínio. O autor conclui que, aplicando a notação UML, um modelo de domínio é ilustrado com um conjunto de diagramas de classes em que nenhuma operação (assinatura de método) é definida. A figura 20 ilustra o modelo de domínio da solução proposta.

62 62 Figura 20 - Modelo de Domínio Fonte: Autor Segue a lista de domínios, de acordo com a figura 20: Stream Entidade PalavraChave Tweet Usuario Diagrama de Robustez Segundo Silva e Videira (2001), o diagrama de robustez é uma atividade importante no ICONIX. Este tipo de atividade foi inicialmente proposto por Ivar Jacobson, de forma a permitir ilustrar graficamente as interações entre objetos participantes num caso de utilização. Foram definidos três tipos de objetos: Objetos de fronteira/interface («boundary») permitem aos atores comunicarem com o sistema. Exemplos comuns deste tipo de objeto são janelas, páginas Web, janelas de diálogo.

63 63 Objetos de entidade («entity») correspondem geralmente aos objetos identificados no modelo do domínio. Estes objetos são geralmente mapeados em tabelas de bases de dados ou ficheiros que guardam a informação necessária. Objetos de controle («control») funcionam como integradores entre os objetos de fronteira e os objetos de entidade. O objetivo destes objetos é conterem as regras de negócio e as políticas de funcionamento de modo a potenciarem a independência das interfaces com os utilizadores, por um lado, e dos esquemas das bases de dados, por outro. Estes objetos terminam ocasionalmente como objetos no modelo estático; mas mais geralmente, acabam por ser convertidos em métodos de objetos de entidade ou de objetos de fronteira. A figura 21 ilustra o modelo de robustez do caso de uso UC002. Figura 21 - Modelo de Robustez Fonte: Autor Segue os itens, de acordo com a figura 21: TelaInicial InicioServlet StreamTweetServlet StreamDAO TweetDAO EntidadeDAO

64 64 PalavraChaveDAO Stream TweetStream GerenciaTweet GerenciaEntidade Tweet Usuário Entidade PalavraChave Diagrama de Sequencia De acordo com Larman (2005), um diagrama de sequência é um artefato que ilustra os eventos de entrada e saída relacionados com o sistema em discussão. Eles são entradas para contratos de operação e, mais importante, projetos de objetos. Larman (2005) ainda descreve que este diagrama é uma figura que mostra, para um cenário específico de um caso de uso, os eventos que os atores externos geram, sua ordem e os eventos entre os sistemas. Fowler (2005) resume que diagramas de sequencia descrevem como grupos de objetos colaboram em algum comportamento. As figuras 22, 23 e 24 ilustram o modelo de sequência do caso de uso UC002.

65 65 Figura 22 - Modelo de Sequência do Caso de Uso UC002 - Primeira Parte Fonte: Autor A figura 23 representa uma parte do diagrama de sequência do caso de uso UC002, responsável por listar as informações de status e desde quando o servidor está neste status.

66 66 Figura 23 - Modelo de Sequência do Caso de Uso UC002 - Segunda Parte Fonte: Autor A figura 23 representa uma parte do diagrama de sequência do caso de uso UC002, responsável por ativar o servidor Stream.

67 67 Figura 24 - Modelo de Sequência do Caso de Uso UC002 - Terceira Parte Fonte: Autor A figura 24 representa uma parte do diagrama de sequência do caso de uso UC002, responsável por parar o servidor Stream Modelo de classes Para Fowler (2005), um diagrama de classe descreve os tipos de objetos presentes no sistema e os vários tipos de relacionamentos estáticos existentes entre eles. Os diagramas de classes também mostram as propriedades e as operações de uma classe e as restrições que se aplicam à maneira como os objetos estão conectados. A figura 25 ilustra o modelo de classe do caso de uso UC002.

68 68 Figura 25 - Diagrama de Classes Fonte: Autor Segue a lista classes, de acordo com a figura 25: TelaInicial InicioServlet StreamTweetServlet StreamDAO EntidadeDAO TweetDAO PalavraChaveDAO Stream PalavraChave Entidade TweetStream Tweet GerenciaTweet GerenciaEntidade

69 69 5 DESENVOLVIMENTO Este capítulo tem como objetivo demonstrar o desenvolvimento da proposta de solução, bem como a avaliação do mesmo através da sua aplicação em um experimento. O capítulo contempla a proposta de solução, ferramentas tecnológicas utilizadas, informações sobre o experimento, o cenário de aplicação, o histórico do desenvolvimento, o protótipo desenvolvido e a avaliação. 5.1 PROPOSTA DE SOLUÇÃO Nesta sessão está descrita e ilustrada a proposta conforme a figura 26. Segue a figura ilustrativa e em seguida todo o detalhamento de cada componente existente na proposta de solução. Figura 26 - Proposta de Solução Fonte: Autor. 1. Twitter: Rede social utilizada na proposta de solução que contempla os dados não estruturados essenciais para a população da base de dados. 2. Extrator: Ferramenta que faz a extração dos tweets de acordo com os termos de interesse passados pelo usuário. 3. NER: Algoritmo responsável por identificar os termos e entidades nos dados coletados (tweets).

70 70 4. Banco de Dados Relacional: Estrutura de banco de dados que contempla os dados coletados através da ferramenta Extrator. 5. Estagiamento: Estrutura de banco de dados que contempla o estruturado os relacionamentos entre os termos, entidades e os dados coletados. 6. ETL: Ferramenta utilizada para estruturar os dados no banco de dados dimensional. 7. DW (Data Warehouse): Estrutura de banco de dados que contempla as dimensões e a tabela fato essenciais para permitir e agilizar as consultas. 8. OLAP: Ferramenta utilizada para realizar as consultas no DW. 5.2 FERRAMENTAS TECNOLÓGICAS Esta sessão contempla a descrição de todas as ferramentas tecnológicas utilizadas na proposta de solução, uma imagem onde contempla todos os logos das ferramentas utilizadas e outra imagem onde se vincula cada parte da proposta de solução com a ferramenta tecnológica utilizada. A seguir segue a figura 27, que ilustra todos os logos das ferramentas utilizadas. Figura 27 - Ferramentas Tecnológicas Fonte: Autor

71 71 Seguem informações detalhadas de cada logo, conforme figura Twitter: Conforme o próprio site da rede social (https://twitter.com/), o Twitter é uma rede de informações composta de mensagens com 140 caracteres, conhecidas como Tweets. É uma maneira fácil de ver as novidades sobre assuntos que lhe interessam. O Twitter contém informações valiosas e interessantes. O usuário receberá as mensagens dos demais usuários que optar por seguir diretamente em sua página. É como ter um jornal cujas manchetes são sempre interessantes. O usuário pode acompanhar o desenrolar dos acontecimentos, saber mais sobre temas e pessoas que são importantes para ele e ficar sempre por dentro das novidades. Tudo em tempo real. 2. Twitter4j: Conforme o próprio site da ferramenta (http://twitter4j.org/), Twitter4J é uma biblioteca Java não oficial para a API do Twitter. Com Twitter4J, o usuário pode facilmente integrar seu aplicativo Java com o serviço Twitter. 3. Java: Linguagem de programação e plataforma computacional lançada pela primeira vez pela Sun Microsystems em Existem muitas aplicações e sites que não funcionarão, a menos que você tenha o Java instalado, e mais desses são criados todos os dias. O Java é rápido, seguro e confiável. De laptops a datacenters, consoles de games a supercomputadores científicos, telefones celulares à Internet, o Java está em todos os lugares. Site oficial https://www.java.com/. 4. MariaDB: Conforme o próprio site do fabricante (https://mariadb.org/), MariaDB é um servidor de banco de dados que oferece a funcionalidade e substituição para o MySQL. MariaDB é construído por alguns dos autores originais do MySQL, com a ajuda da grande comunidade de desenvolvedores de software livre e software de código aberto. Além das funcionalidades básicas do MySQL, MariaDB oferece um rico conjunto de aprimoramentos de recursos, incluindo mecanismos de armazenamento alternativo, otimizações de servidores e patches. 5. Mondrian: Conforme o próprio site da ferramenta (http://community.pentaho.com/projects/mondrian/), Mondrian é uma ferramenta OLAP escrita em Java. Com esta ferramenta o sistema responde a consultas rapidamente, o suficiente

72 72 para permitir uma exploração interativa de dados, mesmo se eles têm milhões de discos, ocupando vários gigabytes. Traz análise multidimensional para as massas, permitindo aos usuários examinar dados de negócios e cruzar informações. 6. Pentaho Data Integration (PDI): Conforme o próprio site da ferramenta (http://community.pentaho.com/projects/data-integration/), o PDI prepara e mistura os dados para criar uma imagem completa do seu negócio que impulsiona percepções. A plataforma de integração de dados completa proporciona a análise de dados prontos aos usuários finais a partir de qualquer fonte. Com ferramentas visuais para eliminar a codificação e complexidade, Pentaho coloca grandes dados e todas as fontes de dados ao alcance dos negócios dos usuários de TI. 7. Eclipse: O Eclipse, segundo a IBM, é uma plataforma de desenvolvimento de software livre extensível, baseada em Java. Por si só, é simplesmente uma estrutura e um conjunto de serviços para desenvolvimento de aplicativos de componentes de plug-in. Felizmente, o E- clipse vem com um conjunto padrão de plug-ins, incluindo as amplamente conhecidas Ferramentas de Desenvolvimento Java (JDT). Site oficial 8. Enterprise Architect: Segundo a Sparx Systems, é uma ferramenta excepcional com recursos de ponta e um rico conjunto de recursos para ajudar a gerenciar informações e inovar no ambiente complexo e exigente de hoje. A um preço significativamente mais baixo do que as ferramentas concorrentes, Enterprise Architect oferece a oportunidade da modelagem e construção de recursos de ponta a um preço amigável. Site oficial A imagem a seguir, figura 28, ilustra a proposta de solução relacionada com as ferramentas tecnológicas utilizadas. Figura 28 - Relacionamento das Ferramentas com a Proposta de Solução

73 73 Fonte: Autor 1. Própria rede social Twitter. 2. No Extrator foi utilizada a linguagem de programação Java com a API Twitter4j. 3. No Relacionamento e reconhecimento de Entidades foi utilizada a linguagem de programação Java. 4. Para Banco de Dados Relacional foi utilizado o MariaDB. 5. Para o Estagiamento foi utilizado o MariaDB. 6. Para a ETL foi utilizado o Pentaho. 7. Para o DW foi utilizado o MariaDB. 8. Para o OLAP foi utilizado o Mondrian. 9. Para o desenvolvimento foi utilizado a IDE Eclipse. 10. Para a modelagem foi utilizado o Enterprise Architect. 5.3 EXPERIMENTO Esta sessão contempla a descrição dos experimentos utilizados para o desenvolvimento da proposta de solução. Também está descrito o Cenário de Aplicação e o Histórico de desenvolvimento. Para o início do desenvolvimento da proposta de solução foi pensado em quais redes sociais utilizar e quais dados seriam necessários coletar. Em uma primeira abordagem, optou-se pela utilização das redes sociais Facebook e Twitter, tendo em vista a popularidade destas duas redes. Contudo ao iniciar o desenvolvimento verificou-se que a API do Facebook,

74 74 atualmente a versão 2.0, restringia muito as buscas e as informações apresentadas nesta rede não seriam muito interessantes se comparados às informações do Twitter. A API do Twitter, Twitter4j, apresentou simplicidade na coleta das informações, sendo necessária apenas a criação de uma conta e também um perfil para realizar as coletas. Optou-se por coletar informações relacionadas às Eleições 2014, pois contemplaria uma grande quantidade de informações, facilitando a demonstração da análise no final. Em relação à coleta do Twitter, para início de uma análise optou-se por utilizar, como termos semente, os perfis dos candidatos a presidente e a governador, incluindo também a hashtag do Debate Presidencial e os perfis da TV Justiça, voz do Brasil e PAC, programa do governo federal. Com estas sementes observou-se uma grande quantidade de informações capturada sendo suficiente para apresentação dos dados posteriormente. Com relação às entidades, para construção do relacionamento de entidades nomeadas, foram incluídos os nomes dos candidatos a presidente e a governador. Além disso, foram incluídos termos frequentes, eventos e assuntos. Para inclusão destes, foi realizada uma pesquisa nos 1000 primeiros tweets coletados, buscando identificar quais palavras eram mais frequentes e consequentemente resultariam em mais informações para a análise no final. Na próxima sessão é apresentado o dicionário de dados, possuindo a relação de palavras comuns a respeito da proposta de solução, em ordem alfabética, acompanhadas das suas respectivas definições Dicionário de Dados A ASSUNTO: Dimensão do Data Warehouse que contempla palavras que englobam um conjunto de palavras similares ou referem-se ao mesmo tema. C CARGO: Dimensão do Data Warehouse que contempla o cargo público dos políticos envolvidos no experimento. E EVENTO: Dimensão do Data Warehouse que contempla palavras similares a eventos globais ocorridos no Brasil durante o experimento.

75 75 ENTIDADE: São todos os elementos utilizados no experimento para demonstrar e classificar os tipos de dados provenientes do Data Warehouse. P PARTIDO: Dimensão do Data Warehouse que contempla as siglas dos partidos políticos e- xistentes no Brasil. PESSOA: Dimensão do Data Warehouse que contempla o nome dos políticos envolvidos no experimento. S SEMENTE: Dimensão do Data Warehouse que contempla palavras utilizadas como fonte para coleta de informações no Twitter. T TERMO: Dimensão do Data Warehouse que contempla palavras similares a adjetivos ou até mesmo termos frequentes existentes nos tweets coletados no experimento. TEMPO: Dimensão do Data Warehouse que contempla o dia, mês e ano dos tweets coletados no experimento. Na próxima sessão são abordados assuntos relacionados ao cenário de aplicação utilizado e alguns exemplos de utilização das redes sociais pelos políticos que impulsionaram as candidaturas, mostrando a importância do assunto no contexto mundial Cenário de Aplicação

76 76 Os conceitos de política vêm desde a antiguidade. A palavra política deriva de politikós, do grego, e diz respeito àquilo que é da cidade, da polis (na Grécia Antiga), da sociedade, ou seja, que é de interesse do homem enquanto cidadão. Os conceitos de política não mudaram, contudo a forma em que a política é inserida na vida dos cidadãos mudou, tendo em vista aos avanços da tecnologia. O destaque da política incluída nos avanços da tecnologia foi na campanha eleitoral de Barack Obama, onde o seu lema Change we can believe in tornou-se comum em diversas redes sociais. Segundo Fernandes et. al (2009), Obama contou com uma equipe onde um dos fundadores da rede social Facebook, Chris Hughes era um dos profissionais contratados. Esta equipe criou uma rede social denominada My.Barack.Obama, ou simplesmente MyBO. Esta rede social concentrava eleitores a favor ou não da campanha do candidato e possuía links para outras redes sociais, como o Facebook e o próprio Twitter e, além disso, exibia convites nestas redes sociais para os usuários entrarem na rede social MyBO. Como resultado da campanha, Obama conseguiu conquistar o povo e ganhou as eleições em As redes sociais foram essenciais para a candidatura do presidente Barack Obama, mas também estão presentes nas eleições de Informações sobre candidatos, propostas, campanhas estão circulando em todas as redes sociais e ganhando cada vez mais importância, pois conseguem transparecer as opiniões diversas dos eleitores e conectar estes eleitores com os próprios candidatos Histórico do desenvolvimento A proposta de solução foi pensada, primeiramente, como uma alternativa aos usuários da aplicação de analisar as informações a cerca dos seus assuntos de interesse através das informações provenientes das redes sociais. Para iniciar a implementação foi escolhido as ferramentas tecnológicas a serem u- tilizadas. Inicialmente, foi escolhido um servidor de aplicação virtualizado. Entre as opções existiam as fornecedoras Amazon Web Services(AWS) e a Digital Ocean. Devido a facilidade e o conhecimento, optou-se pelo servidor de aplicação virtualizado disponibilizado pela Digital Ocean. O servidor possuía 512Mb de memória RAM e 10GB de HD e o sistema operacional utilizado foi o CentOS 7.0 x64, tendo em vista a afinidade com este sistema operacional. Em seguida, foram instaladas as ferramentas, iniciando com o servidor de banco de dados MariaDB versão O MariaDB foi escolhido devido ao sistema de gerencia-

77 77 mento de pacotes do CentOS possuir este servidor de banco de dados em sua lista para download e por já ter utilizado esta mesma ferramenta em outros trabalhos. Além de conter o SGBD MySQL, ao qual também já foi utilizado em outros trabalhos. Após a instalação do MariaDB, foi instalado o Java. A opção por utilizar a linguagem de programação Java foi devido ao conhecimento existente com esta linguagem. A versão instalada do Java foi a 1.7.0_65. A próxima ferramenta instalada foi o Apache Tomcat versão 7, com o objetivo de disponibilizar a aplicação na WEB. Após a instalação das ferramentas, iniciou-se o desenvolvimento da proposta de solução. Foi realizado primeiramente o esboço das telas do sistema e a modelagem das tabelas do banco de dados em papel. O desenvolvimento foi iniciado com a tela de login. A parte gráfica da tela de login foi elaborada tomando como exemplo alguns sites da internet. Por sua vez, as demais telas também. Em seguida, foram criadas as telas de manipulação do servidor, cadastramento de entidades, histórico de tweets e cadastramento de entidades. Para o desenvolvimento da aplicação foi utilizada a IDE Eclipse versão Luna release Para o cadastramento de entidades surgiram dúvidas na implementação em utilizar a notação JSON ou simplesmente a leitura de arquivo texto em formatos pré-definidos. Foi optado pela segunda opção, leitura de arquivo texto devido ao conhecimento da facilidade. O desenvolvimento seguiu com a implementação dos relacionamentos de termos e entidades. Para isto, foi utilizado o Hibernate com o intuito de conexão no banco de dados para realizar as consultas e as inserções. No primeiro momento os relacionamentos ocorreram conforme previsto, contudo ao passar dos dias, com o volume de dados crescendo exageradamente no banco de dados ao executar os relacionamentos, ocorria problemas com quantidade de memória insuficiente. Para solução deste problema foi necessário melhorar o código, liberando alguns recursos e ampliar a memória e o HD do servidor de aplicação. A memória foi ampliada para 2GB e o HD para 20GB. Continuando a implementação, a ferramenta escolhida para os processos de carga de ETL foi o Pentaho Data Integration (PDI) versão Nesta etapa criaram-se as dimensões e as tabelas fatos da solução. E por fim, para finalizar a implementação, a ferramenta OLAP escolhida foi o Mondrian Schema Workbench, necessária para a criação dos cubos e disponibilização informações consultadas pelos usuários.

78 PROTÓTIPO DESENVOLVIDO Nesta seção é apresentado o sistema desenvolvido e suas funcionalidades. São a- presentadas as principais telas do sistema e uma breve descrição. A sessão foi dividida por subdivisões para melhor entendimento do protótipo desenvolvido Coletor O Coletor é um módulo do protótipo responsável, principalmente, por realizar as coletas dos dados do Twitter e inseri-las no banco de dados. Ao acessar o sistema, a primeira tela é a tela de login, apresentada na figura 29, que tem como finalidade autenticar o usuário, permitindo apenas o acesso a usuários autorizados. Figura 29 - Tela Login Fonte: Autor. Nesta tela o usuário deve inserir os dados de autenticação que são: login e senha. Após pressionar o botão Login, o sistema valida as informações no banco de dados e o direciona para a tela inicial. Caso os dados inseridos pelo usuário sejam incorretos, uma mensa-

79 79 gem aparece nesta tela informando falha na autenticação do usuário, conforme demonstrado na figura 30. Figura 30 - Tela Login Incorreto Fonte: Autor A tela inicial tem a função de permitir o start e o stop do serviço de stream de dados do Twitter, conforme segue a figura 31. Figura 31 - Tela Inicial Fonte: Autor

80 80 Nesta tela é possível visualizar o status e desde quando está neste status, o serviço de stream, e também iniciar e parar este serviço. No caso da figura 31 o status do servidor está como ativo. Já na figura 32, o status do servidor está como inativo. Figura 32 - Tela Inicial Status Stop Fonte: Autor A próxima tela é a tela de termos, representada pela figura 33. Esta tela é responsável pelo cadastramento de termos utilizados para extração de dados no Twitter. Figura 33 - Tela Termos Fonte: Autor

81 81 Nesta tela é possível realizar o cadastramento e a exclusão de termos cadastrados no sistema. Para realizar o cadastramento, o usuário deverá inserir o termo desejado no campo Cadastro de Termos e clicar no botão salvar. Ao salvar, o sistema imprime uma mensagem de sucesso no cadastramento do termo, conforme demonstrado na figura 34. Figura 34 - Termo Cadastrado com Sucesso Fonte: Autor Caso o usuário necessite deletar um termo, será necessário clicar na imagem de um X em vermelho, a qual representa o botão de exclusão. Ao clicar no botão para deletar o termo, o sistema exibe alerta, questionando o usuário se realmente deseja deletar o termo, conforme a figura 35. Figura 35 - Confirmação de exclusão

82 82 Fonte: Autor Assim que o usuário pressionar OK, para validar a exclusão, o sistema emite uma mensagem informando o êxito na exclusão do termo, conforme segue figura 36. Figura 36 - Sucesso na Exclusão do Termo Fonte: Autor A tela seguinte é a tela de histórico, representada pela figura 37, que permite a visualização do último tweet coletado. Os dados possíveis para a visualização são: - Usuário que publicou o tweet; - Data e hora em que o tweet foi publicado; - Conteúdo do tweet. Nesta tela ainda existe um botão atualizar, tendo em vista que a tela não atualiza automaticamente.

83 83 Figura 37 - Tela Histórico Fonte: Autor E para finalizar, a tela de entidades, responsável pelo cadastramento de entidades, representada pela figura 38. Para realizar a inserção das entidades, primeiramente, o usuário deverá criar um arquivo no formato (.properties), conforme o exemplo abaixo: [presidente] AÉCIO NEVES DILMA MARINA SILVA... [governador] AFRÂNIO BOPPRÉ CLAUDIO VIGNATTI RAIMUNDO COLOMBO... Em seguida, deverá escolher este arquivo criado, clicando no botão Escolher arquivo. E clicar no botão para realizar o upload, ilustrado pela seta verde apontada para cima.

84 84 Figura 38 - Tela Entidades Fonte: Autor Caso o upload for realizado com sucesso, aparecerá uma mensagem confirmando o êxito, conforme ilustrado na figura 39. Figura 39 - Sucesso no Upload Fonte: Autor Caso o usuário queira efetuar o logout, será necessário clicar no botão de logout existente no canto superior direito de qualquer tela do sistema. Clicando neste botão, o sistema emite um alerta confirmando o logout efetuado pelo usuário, conforme figura 40.

85 85 Figura 40 Logout Fonte: Autor O coletor ainda é responsável por realizar o relacionamento das entidades. Para o relacionamento de entidades foi desenvolvido um algoritmo que verifica em cada tweet coletado se existem as palavras (termos e entidades) cadastradas no banco de dados e os relacionam com seu respectivo tweetid (ID do tweet coletado). Estes relacionamentos são armazenados em tabelas de banco de dados específicas, conforme demonstrado na próxima sessão Banco de Dados Relacional Os dados do Twitter (tweets e informações de perfil do usuário) que são coletados pelo coletor são armazenados no banco de dados, conforme o modelo relacional representado pela figura 41.

86 86 Figura 41 - Modelo Relacional Fonte: Autor O modelo relacional apresenta um total de sete tabelas, sendo elas: tweet, est_termos, palavrachave, est_entidades, entidade, usuarios e stream. Tabela Usuarios Esta tabela armazena informações dos usuários que acessam o coletor. A tabela usuarios possui três campos, são eles: id, login e senha. a) O campo id é a chave primária da tabela. Este campo é do tipo bigint(20) e incremental automático. b) O campo login armazena o login dos usuários que acessam o sistema. Este campo é do tipo varchar(255). c) O campo senha armazena a senha, dos usuários que acessam o sistema, criptografada com o algoritmo SHA1. Este campo é do tipo varchar(255).

87 87 Tabela Stream Esta tabela é responsável por armazenar informações do serviço de stream. A tabela possui três campos: id, data_status e status. a) O campo id é a chave primária da tabela. Este campo é do tipo bigint(20) e incremental automático. b) O campo data_status armazena a data que o serviço stream iniciou no último status, ou seja, desde quando o stream está em determinado status. Este campo é do tipo datetime. c) O campo status armazena o status do serviço stream. Este campo é do tipo varchar(255). Tabela Tweet Esta tabela é responsável por armazenar informações dos tweets coletados. A tabela possui seis campos, sendo eles: id, conteudo, data_publicacao, localizacao, tweetid e u- suario. a) O campo id é a chave primária da tabela. Este campo é do tipo bigint(20) e incremental automático. b) O campo conteudo armazena o conteúdo do tweet. Este campo é do tipo varchar(255). c) O campo data_publicacao armazena a data de publicação do tweet. Este campo é do tipo datetime. d) O campo localizacao armazena a localização onde o tweet foi publicado este campo é do tipo varchar(255). e) O campo tweetid armazena o id do tweet publicado. Este campo é do tipo bigint(20). Para melhoria na performance das consultas, este campo foi indexado. f) O campo usuario armazena o usuário que publicou o tweet. Este campo é do tipo varchar(255). Tabela est_termos Esta tabela é responsável por armazenar o relacionamento existente entre os termos (palavrachave) e os tweets. A tabela possui três campos, sendo eles: id, tweetid e id_termo. a) O campo id é a chave primária da tabela. Este campo é do tipo bigint(20) e incremental automático.

88 88 b) O campo tweetid armazena o id do tweet publicado. Este campo é do tipo bigint(20). Para melhoria na performance das consultas, este campo foi indexado. c) O campo id_termo armazena o id do termo (palavrachave). Este campo é do tipo bigint(20). Tabela est_entidades Esta tabela é responsável por armazenar o relacionamento entre os tweets e as entidades existentes. A tabela possui três campos, sendo eles: id, tweetid e id_entidade. a) O campo id é a chave primária da tabela. Este campo é do tipo bigint(20) e incremental automático. b) O campo tweetid armazena o id do tweet publicado. Este campo é do tipo bigint(20). Para melhoria na performance das consultas, este campo foi indexado. c) O campo id_entidade armazena o id do termo (palavrachave). Este campo é do tipo bigint(20). Tabela palavrachave Esta tabela é responsável por armazenar os termos, ou melhor, sementes existentes no sistema. A tabela possui dois campos, sendo eles: id, palavra. a) O campo id é a chave primária da tabela. Este campo é do tipo bigint(20) e incremental automático. b) O campo palavra armazena as sementes. Este campo é do tipo varchar(255). Tabela entidade Esta tabela é responsável por armazenar as entidades existentes no sistema. A tabela possui dois campos, sendo eles: id, entidade. a) O campo id é a chave primária da tabela. Este campo é do tipo bigint(20) e incremental automático. b) O campo entidade armazena as entidades. Este campo é do tipo varchar(255).

89 Modelo Dimensional Após os tweets serem armazenados no banco de dados, modelo relacional, estes dados são tratados, transformados e carregados em um novo modelo de banco de dados, modelo dimensional, necessário para facilitar e agilizar as pesquisas dos dados. Esta sessão aborda o modelo dimensional da proposta de solução. Para melhor explicar este modelo, segue figura 42. Figura 42 - Modelo Dimensional Fonte: Autor O modelo dimensional da proposta de solução é composto por dez tabelas, dentre as quais oito são tabelas de dimensão, uma é tabela fato e outra é uma tabela de estagiamento, sendo elas: dim_pessoa, dim_evento, dim_partido, dim_tempo, dim_termo, dim_assunto, dim_cargo, dim_semente, est_fato e fato_tcc. Segue abaixo, o detalhamento de cada tabela.

90 90 Tabela dim_pessoa Esta tabela é responsável por conter informações da dimensão pessoa. Contempla o nome das pessoas (candidatos eleições 2014) da proposta de solução. A tabela possui dois campos: id e nome_pessoa. a) O campo id é a chave primária da tabela. Este campo é do tipo int(11) e incremental automático. b) O campo nome_pessoa armazena os nomes das pessoas da proposta de solução. Este campo é do tipo varchar(255). Tabela dim_evento Esta tabela é responsável por conter informações da dimensão evento. Contempla o nome dos eventos da proposta de solução. A tabela possui dois campos: id e evento. a) O campo id é a chave primária da tabela. Este campo é do tipo int(11) e incremental automático. b) O campo evento armazena os eventos da proposta de solução. Este campo é do tipo varchar(45). Tabela dim_partido Esta tabela é responsável por conter informações da dimensão partido. Contempla a sigla dos partidos da proposta de solução. A tabela possui dois campos: id e partido. a) O campo id é a chave primária da tabela. Este campo é do tipo int(11) e incremental automático. b) O campo partido armazena a sigla dos partidos da proposta de solução. Este campo é do tipo varchar(45). Tabela dim_tempo Esta tabela é responsável por conter informações da dimensão tempo. Contempla o dia, mês e ano do tweets capturados. A tabela possui quatro campos: id, dia, mes e ano. a) O campo id é a chave primária da tabela. Este campo é do tipo int(11) e incremental automático. b) O campo dia armazena o dia da captura do tweet. Este campo é do tipo int(11). c) O campo mes armazena o mês da captura do tweet. Este campo é do tipo int(11). d) O campo ano armazena o ano da captura do tweet. Este campo é do tipo int(11).

91 91 Tabela dim_termo Esta tabela é responsável por conter informações da dimensão termo. Contempla os termos mais frequentes existentes nos tweets capturados pelo coletor. A tabela possui dois campos, sendo eles: id e termo. a) O campo id é a chave primária da tabela. Este campo é do tipo int(11) e incremental automático. b) O campo termo armazena os termos mais frequentes existentes nos tweets capturados pelo coletor. Este campo é do tipo varchar(255). Tabela dim_assunto Esta tabela é responsável por conter informações da dimensão assunto. Contempla os assuntos mais frequentes existentes nos tweets capturados pelo coletor. A tabela possui dois campos, sendo eles: id e assunto. a) O campo id é a chave primária da tabela. Este campo é do tipo int(11) e incremental automático. b) O campo assunto armazena os assuntos mais frequentes existentes nos tweets capturados pelo coletor. Este campo é do tipo varchar(255). Tabela dim_cargo Esta tabela é responsável por conter informações da dimensão cargo. Contempla os cargos dos candidatos da proposta de solução. A tabela possui dois campos, sendo eles: id e cargo. a) O campo id é a chave primária da tabela. Este campo é do tipo int(11) e incremental automático. b) O campo cargo armazena os cargos dos candidatos da proposta de solução. Este campo é do tipo varchar(255). Tabela dim_semente Esta tabela é responsável por conter informações da dimensão semente. Contempla as sementes da proposta de solução. A tabela possui dois campos, sendo eles: id e semente. a) O campo id é a chave primária da tabela. Este campo é do tipo int(11) e incremental automático.

92 92 b) O campo semente armazena as sementes da proposta de solução. Este campo é do tipo varchar(255). Tabela est_fato Esta tabela é responsável por realizar o estagiamento dos dados para a tabela fato_tcc. Esta tabela possui nove campos, sendo eles: id, id_cargo, id_evento, id_partido, id_pessoa, id_tempo, id_assunto, id_termo e id_semente. a) O campo id é a chave primária da tabela. Este campo é do tipo int(11) e incremental automático. b) O campo id_cargo contempla o id dos cargos dos candidatos. Este campo é foreign key e referencia o campo id da tabela dim_cargo. Este campo é do tipo int(11). c) O campo id_evento contempla o id dos eventos. Este campo é foreign key e referencia o campo id da tabela dim_evento. Este campo é do tipo int(11). d) O campo id_partido contempla o id dos partidos. Este campo é foreign key e referencia o campo id da tabela dim_partido. Este campo é do tipo int(11). e) O campo id_pessoa contempla o id das pessoas. Este campo é foreign key e referencia o campo id da tabela dim_pessoa. Este campo é do tipo int(11). f) O campo id_tempo contempla o id do tempo em que os tweets foram capturados. Este campo é foreign key e referencia o campo id da tabela dim_tempo. Este campo é do tipo int(11). g) O campo id_assunto contempla o id dos assuntos. Este campo é foreign key e referencia o campo id da tabela dim_assunto. Este campo é do tipo int(11). h) O campo id_termo contempla o id dos termos. Este campo é foreign key e referencia o campo id da tabela dim_termo. Este campo é do tipo int(11). i) O campo id_semente contempla o id das sementes. Este campo é foreign key e referencia o campo id da tabela dim_semente. Tabela fato_tcc Esta tabela é a tabela fato do modelo dimensional. Esta tabela possui também nove campos, sendo eles: seq_cargo, seq_evento, seq_partido, seq_pessoa, seq_tempo, seq_assunto, seq_termo, seq_semente, quantidade. a) O campo seq_cargo contempla o id dos cargos dos candidatos. Este campo é foreign key e referencia o campo id da tabela dim_cargo. Este campo é do tipo int(11).

93 93 b) O campo seq_evento contempla o id dos eventos. Este campo é foreign key e referencia o campo id da tabela dim_evento. Este campo é do tipo int(11). c) O campo seq_partido contempla o id dos partidos. Este campo é foreign key e referencia o campo id da tabela dim_partido. Este campo é do tipo int(11). d) O campo seq_pessoa contempla o id das pessoas. Este campo é foreign key e referencia o campo id da tabela dim_pessoa. Este campo é do tipo int(11). e) O campo seq_tempo contempla o id do tempo em que os tweets foram capturados. Este campo é foreign key e referencia o campo id da tabela dim_tempo. Este campo é do tipo int(11). f) O campo seq_assunto contempla o id dos assuntos. Este campo é foreign key e referencia o campo id da tabela dim_assunto. Este campo é do tipo int(11). g) O campo seq_termo contempla o id dos termos. Este campo é foreign key e referencia o campo id da tabela dim_termo. Este campo é do tipo int(11). h) O campo seq_semente contempla o id das sementes. Este campo é foreign key e referencia o campo id da tabela dim_semente. i) O campo quantidade armazena a quantidade total de cada conjunto de dimensões. Este campo é do tipo int(11) ETL A coleta dos dados do modelo relacional, a transformação e logo em seguida a carga no modelo dimensional foi realizado através de um processo chamado ETL. Este processo foi executado utilizando a ferramenta Pentaho Data Integration.O detalhamento deste processo está descrito abaixo. Transformação dim_cargo Esta transformação é responsável por inserir os cargos no modelo dimensional, na tabela dim_cargo. A figura 43 ilustra esta transformação.

94 94 Figura 43 - Carga Dimensão Cargo Fonte: Autor. Para este processo foi utilizado apenas um step (Execute SQL script) da transformação dim_cargo. Transformação dim_evento Esta transformação é responsável por realizar as consultas no modelo relacional, transformar os dados e carregá-los para o modelo dimensional, na tabela dim_evento. Segue abaixo figura 44 para ilustrar este procedimento. Figura 44 - Carga Dimensão Evento Fonte: Autor.

95 95 Esta transformação possui três steps. O primeiro step é do tipo input e é responsável por realizar a consulta no modelo relacional, conforme ilustrado na figura 45. Figura 45 - Step Table Input Evento Fonte: Autor. O segundo step é do tipo Select Value que recebe os campos id, nome e tipo da tabela entidade do modelo relacional e remove os campos id e tipo. O terceiro step é do tipo Table Output, responsável por realizar a carga dos dados na tabela dim_evento do modelo dimensional. A figura 46 ilustra este step. Figura 46 - Table Output Evento Fonte: Autor.

96 96 Transformação dim_partido Esta transformação é responsável por realizar as consultas no modelo relacional, transformar os dados e carregá-los para o modelo dimensional, na tabela dim_partido. Segue abaixo figura 47 para ilustrar este procedimento. Figura 47 - Carga Dimensão Partido Fonte: Autor. Esta transformação possui três steps. O primeiro step é do tipo input e é responsável por realizar a consulta no modelo relacional, conforme ilustrado na figura 48. Figura 48 - Table Input Partido Fonte: Autor. O segundo step é do tipo Select Value que recebe os campos id, nome e tipo da tabela entidade do modelo relacional e remove os campos id e tipo. O terceiro step é do tipo Table Output, responsável por realizar a carga dos dados na tabela dim_partido do modelo dimensional. A figura 49 ilustra este step.

97 97 Figura 49 - Table Output Partido Fonte: Autor. Transformação dim_pessoa Esta transformação é responsável por realizar as consultas no modelo relacional, transformar os dados e carregá-los para o modelo dimensional, na tabela dim_pessoa. Segue abaixo figura 50 para ilustrar este procedimento. Figura 50 - Carga Dimensão Pessoa Fonte: Autor. Esta transformação possui três steps. O primeiro step é do tipo input e é responsável por realizar a consulta no modelo relacional, conforme ilustrado na figura 51.

98 98 Figura 51 - Table Input Pessoa Fonte: Autor. O segundo step é do tipo Select Value que recebe os campos id, nome e tipo da tabela entidade do modelo relacional e remove os campos id e tipo. O terceiro step é do tipo Table Output, responsável por realizar a carga dos dados na tabela dim_pessoa do modelo dimensional. A figura 52 ilustra este step. Figura 52 - Table Output Pessoa Fonte: Autor.

99 99 Transformação dim_tempo Esta transformação é responsável por realizar as consultas no modelo relacional, transformar os dados e carregá-los para o modelo dimensional, na tabela dim_tempo. Segue abaixo figura 53 para ilustrar este procedimento. Figura 53 - Carga Dimensão Tempo Fonte: Autor. Esta transformação possui três steps. O primeiro step é do tipo input e é responsável por realizar a consulta no modelo relacional, conforme ilustrado na figura 54. Figura 54 - Table Input Tempo Fonte: Autor. O segundo step é do tipo Sort Rows que organiza os ano, mes e dia da tabela tweet do modelo relacional.

100 100 O terceiro step é do tipo Table Output, responsável por realizar a carga dos dados na tabela dim_pessoa do modelo dimensional. A figura 55 ilustra este step. Figura 55 - Table Output Tempo Fonte: Autor. Transformação dim_termo Esta transformação é responsável por realizar as consultas no modelo relacional, transformar os dados e carregá-los para o modelo dimensional, na tabela dim_termo. Segue abaixo figura 56 para ilustrar este procedimento. Figura 56 - Carga Dimensão Termo Fonte: Autor. Esta transformação possui três steps. O primeiro step é do tipo input e é responsável por realizar a consulta no modelo relacional, conforme ilustrado na figura 57.

101 101 Figura 57 - Table Input Termo Fonte: Autor. O segundo step é do tipo Select Value que recebe os campos id, nome e tipo da tabela entidade do modelo relacional e remove os campos id e tipo. O terceiro step é do tipo Table Output, responsável por realizar a carga dos dados na tabela dim_termo do modelo dimensional. A figura 58 ilustra este step. Figura 58 - Table Output Termo Fonte: Autor.

102 102 Transformação dim_assuntos Esta transformação é responsável por realizar as consultas no modelo relacional, transformar os dados e carregá-los para o modelo dimensional, na tabela dim_assunto. Segue abaixo figura 59 para ilustrar este procedimento. Figura 59 - Carga Dimensão Assunto Fonte: Autor Esta transformação possui três steps. O primeiro step é do tipo input e é responsável por realizar a consulta no modelo relacional, conforme ilustrado na figura 60. Figura 60 - Table Input Assunto Fonte: Autor. O segundo step é do tipo Select Value que recebe os campos id, nome e tipo da tabela entidade do modelo relacional e remove os campos id e tipo.

103 103 O terceiro step é do tipo Table Output, responsável por realizar a carga dos dados na tabela dim_assunto do modelo dimensional. A figura 61 ilustra este step. Figura 61 - Table Output Assunto Fonte: Autor. Transformação dim_semente Esta transformação é responsável por realizar as consultas no modelo relacional, transformar os dados e carregá-los para o modelo dimensional, na tabela dim_semente. Segue abaixo figura 62 para ilustrar este procedimento. Figura 62 - Carga Dimensão Semente Fonte: Autor. Esta transformação possui três steps. O primeiro step é do tipo input e é responsável por realizar a consulta no modelo relacional, conforme ilustrado na figura 63.

104 104 Figura 63 - Table Input Semente Fonte: Autor. O segundo step é do tipo Select Value que recebe os campos id, nome e tipo da tabela entidade do modelo relacional e remove os campos id e tipo. O terceiro step é do tipo Table Output, responsável por realizar a carga dos dados na tabela dim_semente do modelo dimensional. A figura 64 ilustra este step. Figura 64 - Table Output Semente Fonte: Autor.

105 105 Transformação est_fato Esta transformação é responsável por realizar as consultas no modelo relacional, transformar os dados e carregá-los para o modelo dimensional, na tabela est_fato. Segue abaixo figura 65 para ilustrar este procedimento. Figura 65 - Carga est_fato Fonte: Autor. Esta transformação possui quatorze steps. O primeiro step é do tipo input e é responsável por realizar a consulta no modelo relacional, na tabela tweet, conforme ilustrado na figura 66.

106 106 Figura 66 - Table Input Tweetid Fonte: Autor. A partir dos dados coletados no primeiro step, seguem dois hops (conexões) deste para dois novos steps, conforme segue abaixo. O segundo step é do tipo Table Input e é responsável por realizar a consulta no modelo relacional, na tabela est_entidades, conforme ilustrado na figura 67. Figura 67 - Table Input est_entidades Fonte: Autor.

107 107 O terceiro step é do tipo Table Input também e é responsável por realizar a consulta no modelo relacional, na tabela est_termos, conforme ilustrado na figura 68. Figura 68 - Table Input est_termos Fonte: Autor O quarto step é do tipo Merge Join e é responsável por realizar o merge dos dados nas consultas do segundo e terceiro step, conforme ilustrado na figura 69. Figura 69 - Merge Join est_fato Fonte: Autor. O quinto step é do tipo Database Lookup e é responsável por identificar o id dos dados oriundos do merge que são relacionados às sementes, conforme ilustrado na figura 70.

108 108 Figura 70 - Lookup Semente Fonte: Autor O sexto step é do tipo Database Lookup e é responsável por identificar o id dos dados oriundos do merge que são relacionados aos cargos, conforme ilustrado na figura 71. Figura 71 - Lookup Cargo Fonte: Autor. O sétimo step é do tipo Database Lookup e é responsável por identificar o id dos dados oriundos do merge que são relacionados aos eventos, conforme ilustrado na figura 72.

109 109 Figura 72 - Lookup Evento Fonte: Autor. O oitavo step é do tipo Database Lookup e é responsável por identificar o id dos dados oriundos do merge que são relacionados aos partidos, conforme ilustrado na figura 73. Figura 73 - Lookup Partido Fonte: Autor. O nono step é do tipo Database Lookup e é responsável por identificar o id dos dados oriundos do merge que são relacionados às pessoas, conforme ilustrado na figura 74.

110 110 Figura 74 - Lookup Pessoa Fonte: Autor. O décimo step é do tipo Database Lookup e é responsável por identificar o id dos dados oriundos do merge que são relacionados aos tempos, conforme ilustrado na figura 75. Figura 75 - Lookup Tempo Fonte: Autor. O décimo primeiro step é do tipo Database Lookup e é responsável por identificar o id dos dados oriundos do merge que são relacionados aos assunto, conforme ilustrado na figura 76.

111 111 Figura 76 - Lookup Assunto Fonte: Autor. O décimo segundo step é do tipo Database Lookup e é responsável por identificar o id dos dados oriundos do merge que são relacionados aos termos, conforme ilustrado na figura 77. Figura 77 - Lookup Termos Fonte: Autor. O décimo terceiro step é do tipo Select Value que recebe os campos palavra, tweetid, ano, mês, dia, tipo, nome, tweetid_1, seq_semente, seq_cargo, seq_evento, seq_partido, seq_pessoa, seq_tempo, seq_assunto e seq_termo do fluxo de dados da transformação e remove os campos palavra, tweetid, ano, mês, dia, tipo, nome e tweetid_1.

112 112 O décimo quarto step é do tipo Insert/Update e é responsável por inserir as informações na tabela est_fato, conforme figura 78. Figura 78 - Insert e Update est_fato Fonte: Autor. Transformação fato_tcc Esta transformação é responsável por realizar uma consulta na tabela est_fato, realizar uma soma dos campos correspondentes de cada dimensão e inserir as informações na tabela fato_tcc. Segue abaixo figura 79 para ilustrar este procedimento.

113 113 Figura 79 - Carga fato_tcc Fonte: Autor Esta transformação possui dois steps. O primeiro step é do tipo table input e é responsável por realizar a consulta e soma na tabela est_fato, conforme ilustrado na figura 80. Figura 80 - Table Input fato_tcc Fonte: Autor. O segundo step é do tipo Insert / Update e é responsável por inserir os dados na tabela fato_tcc, conforme a figura 81.

114 114 Figura 81 - Insert Update fato_tcc Fonte: Autor Cubo OLAP Nesta sessão é apresentado o cubo OLAP, estrutura de dados responsável por organizar os dados de forma a facilitar a análise dos mesmos, cruzando informações entre as dimensões. Para a criação do cubo, foi utilizado a ferramenta Mondrian Schema Workbench. Para o entendimento melhor, segue abaixo figura 82 que ilustra esta estrutura.

115 115 Figura 82 - Cubo OLAP Fonte: Autor. O cubo OLAP criado possui um total de oito dimensões, cada qual contendo um nível hierárquico e um level. Cada dimensão coleta informações de suas respectivas tabelas no modelo dimensional. O cubo também possui medida chamada quantidade, necessária para contagem total dos dados Análise Nesta sessão é apresentado o módulo de análise, responsável por apresentar os resultados obtidos pela solução proposta. Para demonstração dos dados, foi utilizada a ferramenta Saiku Analytics existente na interface de administração do Pentaho. Esta ferramenta realiza a carga do cubo OLAP criado anteriormente e disponibiliza através de gráficos e estatísticas as informações desejadas. Para melhor entendimento, segue a figura 83 que demonstra um exemplo de gráfico criado pela ferramenta.

116 116 Figura 83 - Análise Cubo OLAP Fonte: Autor. Neste exemplo foi criado um gráfico apontando a quantidade de tweets capturados relacionados aos candidatos a presidência das Eleições de Para construção deste gráfico foi utilizado a dimensão semente e a medida quantidade, filtrando apenas pelos candidatos à presidência. Esta ferramenta também possibilita outros tipos de análise utilizando as dimensões criadas.

117 AVALIAÇÃO Esta sessão apresenta a avaliação efetivada por um questionário referente à solução de BI 2.0 proposta. Nas sessões posteriores estão descritos os seguintes itens: Questionário, Cenário da Avaliação, Resultados dos Questionários e Considerações Finais Análise da Infraestrutura de BI desenvolvida Este sessão tem como objetivo demonstrar a análise da proposta de solução contendo os dados relacionados às eleições 2014 ilustrados nos gráficos gerados pela ferramenta Saiku Analytics. Estão apresentados alguns exemplos de gráficos gerados pela ferramenta e uma breve interpretação destes. A primeira análise demonstrada é a quantidade total de tweets coletados relacionados ao candidatos a presidência. Este gráfico é importante para identificar quais candidatos foram mais comentados e foram mais expressivos durante o período da análise. Segue figura 84 que ilustra este gráfico. Figura 84 - Total Tweets Candidatos Presidência Fonte: Autor.

118 118 Através deste gráfico verificamos que o candidato à presidência das eleições de 2014 com mais citações nos tweets foi a candidata Marina Silva com quase tweets. Já os candidatos com menor número de citações nos tweets foram Pastor Everaldo e Levy Fidelix com cerca de 350 tweets. No próximo gráfico demonstramos o mesmo quantitativo, contudo em relação aos candidatos à governador do estado de Santa Catarina das eleições Segue figura 96 que ilustra o gráfico. Figura 85 - Total Tweets Candidatos Governador Fonte: Autor Neste gráfico identificou-se que o candidato à governador do estado de Santa Catarina com maiores citações nos tweets foi o candidato Raimundo Colombo com aproximadamente 250 tweets em comparação ao menos citado que foi a candidata Janaina Deitos com cerca de 5 citações. No próximo gráfico, ilustrado na figura 86, está demonstrada a quantidade de citações nos tweets, separados por assuntos, de cada candidato a presidência das eleições de 2014.

Planejamento Estratégico de TI. Prof.: Fernando Ascani

Planejamento Estratégico de TI. Prof.: Fernando Ascani Planejamento Estratégico de TI Prof.: Fernando Ascani Data Warehouse - Conceitos Hoje em dia uma organização precisa utilizar toda informação disponível para criar e manter vantagem competitiva. Sai na

Leia mais

2. GESTÃO DA CADEIA DE SUPRIMENTOS

2. GESTÃO DA CADEIA DE SUPRIMENTOS 1. Conceito de cadeia de suprimentos e seus autores: impactos das vendas e dos custos no lucro da cadeia. competição entre cadeias de suprimento. fluxos logísticos (informação, materiais/produtos, financeiro)

Leia mais

Sistema. Atividades. Sistema de informações. Tipos de sistemas de informação. Everson Santos Araujo everson@everson.com.br

Sistema. Atividades. Sistema de informações. Tipos de sistemas de informação. Everson Santos Araujo everson@everson.com.br Sistema Tipos de sistemas de informação Everson Santos Araujo everson@everson.com.br Um sistema pode ser definido como um complexo de elementos em interação (Ludwig Von Bertalanffy) sistema é um conjunto

Leia mais

Business Intelligence e ferramentas de suporte

Business Intelligence e ferramentas de suporte O modelo apresentado na figura procura enfatizar dois aspectos: o primeiro é sobre os aplicativos que cobrem os sistemas que são executados baseados no conhecimento do negócio; sendo assim, o SCM faz o

Leia mais

FUNDAMENTOS DE SISTEMAS DE INFORMAÇÃO

FUNDAMENTOS DE SISTEMAS DE INFORMAÇÃO @ribeirord FUNDAMENTOS DE SISTEMAS DE INFORMAÇÃO Rafael D. Ribeiro, M.Sc,PMP. rafaeldiasribeiro@gmail.com http://www.rafaeldiasribeiro.com.br Lembrando... Aula 4 1 Lembrando... Aula 4 Sistemas de apoio

Leia mais

Business Intelligence

Business Intelligence e-book Senior Business Intelligence 1 Índice 03 05 08 14 17 20 22 Introdução Agilize a tomada de decisão e saia à frente da concorrência Capítulo 1 O que é Business Intelligence? Capítulo 2 Quatro grandes

Leia mais

SAD orientado a DADOS

SAD orientado a DADOS Universidade do Contestado Campus Concórdia Curso de Sistemas de Informação Prof.: Maico Petry SAD orientado a DADOS DISCIPLINA: Sistemas de Apoio a Decisão SAD orientado a dados Utilizam grandes repositórios

Leia mais

Business Intelligence Um enfoque gerencial para a Inteligência do Negócio.Efrain Turban e outros.tradução. Bookman, 2009.

Business Intelligence Um enfoque gerencial para a Inteligência do Negócio.Efrain Turban e outros.tradução. Bookman, 2009. REFERÊNCIAS o o Business Intelligence Um enfoque gerencial para a Inteligência do Negócio.Efrain Turban e outros.tradução. Bookman, 2009. Competição Analítica - Vencendo Através da Nova Ciência Davenport,

Leia mais

Professor: Disciplina:

Professor: Disciplina: Professor: Curso: Esp. Marcos Morais de Sousa marcosmoraisdesousa@gmail.com Sistemas de informação Disciplina: Introdução a SI Noções de sistemas de informação Turma: 01º semestre Prof. Esp. Marcos Morais

Leia mais

SUMÁRIO 1. INTRODUÇÃO... 2 2. O QUE É DATA WAREHOUSE?... 2 3. O QUE DATA WAREHOUSE NÃO É... 4 4. IMPORTANTE SABER SOBRE DATA WAREHOUSE... 5 4.

SUMÁRIO 1. INTRODUÇÃO... 2 2. O QUE É DATA WAREHOUSE?... 2 3. O QUE DATA WAREHOUSE NÃO É... 4 4. IMPORTANTE SABER SOBRE DATA WAREHOUSE... 5 4. SUMÁRIO 1. INTRODUÇÃO... 2 2. O QUE É DATA WAREHOUSE?... 2 3. O QUE DATA WAREHOUSE NÃO É... 4 4. IMPORTANTE SABER SOBRE DATA WAREHOUSE... 5 4.1 Armazenamento... 5 4.2 Modelagem... 6 4.3 Metadado... 6 4.4

Leia mais

Uma estrutura (framework) para o Business Intelligence (BI)

Uma estrutura (framework) para o Business Intelligence (BI) Uma estrutura conceitural para suporteà decisão que combina arquitetura, bancos de dados (ou data warehouse), ferramentas analíticas e aplicações Principais objetivos: Permitir o acesso interativo aos

Leia mais

Sistemas de Informação Gerenciais (SIG)

Sistemas de Informação Gerenciais (SIG) Faculdade de Engenharia - Campus de Guaratinguetá Sistemas de Informação Gerenciais (SIG) Prof. José Roberto Dale Luche Unesp Um SISTEMA DE INFORMAÇÃO é um conjunto de componentes inter-relacionados, desenvolvidos

Leia mais

Data Warehousing Visão Geral do Processo

Data Warehousing Visão Geral do Processo Data Warehousing Visão Geral do Processo Organizações continuamente coletam dados, informações e conhecimento em níveis cada vez maiores,, e os armazenam em sistemas informatizados O número de usuários

Leia mais

CONHECENDO E CONCEITUANDO SISTEMAS DE INFORMAÇÃO

CONHECENDO E CONCEITUANDO SISTEMAS DE INFORMAÇÃO CONHECENDO E CONCEITUANDO SISTEMAS DE INFORMAÇÃO Franco Vieira Sampaio 1 Atualmente a informática está cada vez mais inserida no dia a dia das empresas, porém, no início armazenavam-se os dados em folhas,

Leia mais

Data Warehouses. Alunos: Diego Antônio Cotta Silveira Filipe Augusto Rodrigues Nepomuceno Marcos Bastos Silva Roger Rezende Ribeiro Santos

Data Warehouses. Alunos: Diego Antônio Cotta Silveira Filipe Augusto Rodrigues Nepomuceno Marcos Bastos Silva Roger Rezende Ribeiro Santos Data Warehouses Alunos: Diego Antônio Cotta Silveira Filipe Augusto Rodrigues Nepomuceno Marcos Bastos Silva Roger Rezende Ribeiro Santos Conceitos Básicos Data Warehouse(DW) Banco de Dados voltado para

Leia mais

Administração de Sistemas de Informação Gerenciais UNIDADE IV: Fundamentos da Inteligência de Negócios: Gestão da Informação e de Banco de Dados Um banco de dados é um conjunto de arquivos relacionados

Leia mais

UNIVERSIDADE FEDERAL DE MINAS GERAIS BACHARELADO EM SISTEMAS DE INFORMAÇÃO

UNIVERSIDADE FEDERAL DE MINAS GERAIS BACHARELADO EM SISTEMAS DE INFORMAÇÃO UNIVERSIDADE FEDERAL DE MINAS GERAIS BACHARELADO EM SISTEMAS DE INFORMAÇÃO Proposta de Formação Complementar: BUSINESS INTELLIGENCE E SUA APLICAÇÃO À GESTÃO Aluno: Yussif Tadeu de Barcelos Solange Teixeira

Leia mais

Sistemas de Informação James A. O Brien Editora Saraiva Capítulo 5

Sistemas de Informação James A. O Brien Editora Saraiva Capítulo 5 Para entender bancos de dados, é útil ter em mente que os elementos de dados que os compõem são divididos em níveis hierárquicos. Esses elementos de dados lógicos constituem os conceitos de dados básicos

Leia mais

SISTEMAS DE APOIO À DECISÃO SAD

SISTEMAS DE APOIO À DECISÃO SAD SISTEMAS DE APOIO À DECISÃO SAD Conceitos introdutórios Decisão Escolha feita entre duas ou mais alternativas. Tomada de decisão típica em organizações: Solução de problemas Exploração de oportunidades

Leia mais

Modelo de dados do Data Warehouse

Modelo de dados do Data Warehouse Modelo de dados do Data Warehouse Ricardo Andreatto O modelo de dados tem um papel fundamental para o desenvolvimento interativo do data warehouse. Quando os esforços de desenvolvimentos são baseados em

Leia mais

Aplicação A. Aplicação B. Aplicação C. Aplicação D. Aplicação E. Aplicação F. Aplicação A REL 1 REL 2. Aplicação B REL 3.

Aplicação A. Aplicação B. Aplicação C. Aplicação D. Aplicação E. Aplicação F. Aplicação A REL 1 REL 2. Aplicação B REL 3. Sumário Data Warehouse Modelagem Multidimensional. Data Mining BI - Business Inteligence. 1 2 Introdução Aplicações do negócio: constituem as aplicações que dão suporte ao dia a dia do negócio da empresa,

Leia mais

www.projetode redes.co m.br www.redesde com p uta dores. com. br

www.projetode redes.co m.br www.redesde com p uta dores. com. br Outras Apostilas em: www.projetode redes.co m.br www.redesde com p uta dores. com. br Centro Universitário Geraldo di Biase 1. Sistemas, Processos e Informações Ao observarmos o funcionamento de um setor

Leia mais

BUSINESS INTELLIGENCE -Inteligência nos Negócios-

BUSINESS INTELLIGENCE -Inteligência nos Negócios- UNIVERSIDADE SÃO FRANCISCO CENTRO DE CIÊNCIAS JURÍDICAS, HUMANAS E SOCIAIS BUSINESS INTELLIGENCE -Inteligência nos Negócios- Curso: Administração Hab. Sistemas de Informações Disciplina: Gestão de Tecnologia

Leia mais

BUSINESS INTELLIGENCE, O ELEMENTO CHAVE PARA O SUCESSO DAS ORGANIZAÇÕES.

BUSINESS INTELLIGENCE, O ELEMENTO CHAVE PARA O SUCESSO DAS ORGANIZAÇÕES. Encontro de Ensino, Pesquisa e Extensão, Presidente Prudente, 22 a 25 de outubro, 2012 88 BUSINESS INTELLIGENCE, O ELEMENTO CHAVE PARA O SUCESSO DAS ORGANIZAÇÕES. Andrios Robert Silva Pereira, Renato Zanutto

Leia mais

Sistemas de Apoio à Decisão (SAD) - Senado

Sistemas de Apoio à Decisão (SAD) - Senado Sistemas de Apoio à Decisão (SAD) - Senado DW OLAP BI Ilka Kawashita Material preparado :Prof. Marcio Vitorino Sumário OLAP Data Warehouse (DW/ETL) Modelagem Multidimensional Data Mining BI - Business

Leia mais

Data Warehouse. Debora Marrach Renata Miwa Tsuruda

Data Warehouse. Debora Marrach Renata Miwa Tsuruda Debora Marrach Renata Miwa Tsuruda Agenda Introdução Contexto corporativo Agenda Introdução Contexto corporativo Introdução O conceito de Data Warehouse surgiu da necessidade de integrar dados corporativos

Leia mais

Palavras-chave: On-line Analytical Processing, Data Warehouse, Web mining.

Palavras-chave: On-line Analytical Processing, Data Warehouse, Web mining. BUSINESS INTELLIGENCE COM DADOS EXTRAÍDOS DO FACEBOOK UTILIZANDO A SUÍTE PENTAHO Francy H. Silva de Almeida 1 ; Maycon Henrique Trindade 2 ; Everton Castelão Tetila 3 UFGD/FACET Caixa Postal 364, 79.804-970

Leia mais

Prova INSS RJ - 2007 cargo: Fiscal de Rendas

Prova INSS RJ - 2007 cargo: Fiscal de Rendas Prova INSS RJ - 2007 cargo: Fiscal de Rendas Material de Apoio de Informática - Prof(a) Ana Lucia 53. Uma rede de microcomputadores acessa os recursos da Internet e utiliza o endereço IP 138.159.0.0/16,

Leia mais

Tópicos Especiais em Economia e Gestão da Saúde

Tópicos Especiais em Economia e Gestão da Saúde Tópicos Especiais em Economia e Gestão da Saúde Sistemas de Informações ( Parte I) Patrícia Paula Dias de Sá Residente de Administração em Gestão Hospitalar Hospital Universitário - UFJF Ato ou efeito

Leia mais

Aula 15. Tópicos Especiais I Sistemas de Informação. Prof. Dr. Dilermando Piva Jr.

Aula 15. Tópicos Especiais I Sistemas de Informação. Prof. Dr. Dilermando Piva Jr. 15 Aula 15 Tópicos Especiais I Sistemas de Informação Prof. Dr. Dilermando Piva Jr. Site Disciplina: http://fundti.blogspot.com.br/ Conceitos básicos sobre Sistemas de Informação Conceitos sobre Sistemas

Leia mais

Sistemas de Informações Gerenciais

Sistemas de Informações Gerenciais Sistemas de Informações Gerenciais Aula 4 Sistema de Informação SI baseado em computadores Organização, administração e estratégia Professora: Cintia Caetano INTRODUÇÃO Sistemas de Informação são parte

Leia mais

AULA 5 O E-BUSINESS E OS SISTEMAS DE APOIO ÀS DECISÕES E DE INFORMAÇÃO EXECUTIVA

AULA 5 O E-BUSINESS E OS SISTEMAS DE APOIO ÀS DECISÕES E DE INFORMAÇÃO EXECUTIVA AULA 5 O E-BUSINESS E OS SISTEMAS DE APOIO ÀS DECISÕES E DE INFORMAÇÃO EXECUTIVA APOIO ÀS DECISÕES DE E-BUSINESS E SISTEMAS DE APOIO ÀS DECISÕES Conceito O conceito básico de e-business é simples: negócios

Leia mais

Tecnologias e Sistemas de Informação

Tecnologias e Sistemas de Informação Universidade Federal do Vale do São Francisco Curso de Administração Tecnologia e Sistemas de Informação - 02 Prof. Jorge Cavalcanti jorge.cavalcanti@univasf.edu.br www.univasf.edu.br/~jorge.cavalcanti

Leia mais

5 Estudo de Caso. 5.1. Material selecionado para o estudo de caso

5 Estudo de Caso. 5.1. Material selecionado para o estudo de caso 5 Estudo de Caso De modo a ilustrar a estruturação e representação de conteúdos educacionais segundo a proposta apresentada nesta tese, neste capítulo apresentamos um estudo de caso que apresenta, para

Leia mais

Unidade III PRINCÍPIOS DE SISTEMAS DE. Prof. Luís Rodolfo

Unidade III PRINCÍPIOS DE SISTEMAS DE. Prof. Luís Rodolfo Unidade III PRINCÍPIOS DE SISTEMAS DE INFORMAÇÃO Prof. Luís Rodolfo Vantagens e desvantagens de uma rede para a organização Maior agilidade com o uso intenso de redes de computadores; Grandes interações

Leia mais

Prof. Msc. Paulo Muniz de Ávila

Prof. Msc. Paulo Muniz de Ávila Prof. Msc. Paulo Muniz de Ávila O que é Data Mining? Mineração de dados (descoberta de conhecimento em bases de dados): Extração de informação interessante (não-trivial, implícita, previamente desconhecida

Leia mais

Data Warehouses Uma Introdução

Data Warehouses Uma Introdução Data Warehouses Uma Introdução Alex dos Santos Vieira, Renaldy Pereira Sousa, Ronaldo Ribeiro Goldschmidt 1. Motivação e Conceitos Básicos Com o advento da globalização, a competitividade entre as empresas

Leia mais

Conceitos. - Sistema de Informação, Estruturas e Classificação. - Dados x Informações. Edson Almeida Junior www.edsonalmeidajunior.com.

Conceitos. - Sistema de Informação, Estruturas e Classificação. - Dados x Informações. Edson Almeida Junior www.edsonalmeidajunior.com. Conceitos - Sistema de Informação, Estruturas e Classificação - Dados x Informações Edson Almeida Junior www.edsonalmeidajunior.com.br Definição de Sistema Uma coleção de objetos unidos por alguma forma

Leia mais

PÓS-GRADUAÇÃO Lato Sensu. Gestão e Tecnologia da Informação

PÓS-GRADUAÇÃO Lato Sensu. Gestão e Tecnologia da Informação IETEC - INSTITUTO DE EDUCAÇÃO TECNOLÓGICA PÓS-GRADUAÇÃO Lato Sensu Gestão e Tecnologia da Informação BAM: Analisando Negócios e Serviços em Tempo Real Daniel Leôncio Domingos Fernando Silva Guimarães Resumo

Leia mais

DATA WAREHOUSE. Introdução

DATA WAREHOUSE. Introdução DATA WAREHOUSE Introdução O grande crescimento do ambiente de negócios, médias e grandes empresas armazenam também um alto volume de informações, onde que juntamente com a tecnologia da informação, a correta

Leia mais

SISTEMAS DE INFORMAÇÃO. Prof. José Carlos Vaz Baseado em LAUDON, K. & LAUDON, J. Sistemas de Informação Gerenciais. Pearson, 2004 (5a. ed.).

SISTEMAS DE INFORMAÇÃO. Prof. José Carlos Vaz Baseado em LAUDON, K. & LAUDON, J. Sistemas de Informação Gerenciais. Pearson, 2004 (5a. ed.). SISTEMAS DE INFORMAÇÃO Prof. José Carlos Vaz Baseado em LAUDON, K. & LAUDON, J. Sistemas de Informação Gerenciais. Pearson, 2004 (5a. ed.). O que é um sistema de informação? Um conjunto de componentes

Leia mais

01/12/2009 BUSINESS INTELLIGENCE. Agenda. Conceito. Segurança da Informação. Histórico Conceito Diferencial Competitivo Investimento.

01/12/2009 BUSINESS INTELLIGENCE. Agenda. Conceito. Segurança da Informação. Histórico Conceito Diferencial Competitivo Investimento. BUSINESS INTELLIGENCE Agenda BI Histórico Conceito Diferencial Competitivo Investimento Segurança da Objetivo Áreas Conceito O conceito de Business Intelligencenão é recente: Fenícios, persas, egípcios

Leia mais

CAPÍTULO 7. SISTEMAS DE APOIO À DECISÃO (SAD) SISTEMAS DE SUPORTE À DECISÃO (SSD)

CAPÍTULO 7. SISTEMAS DE APOIO À DECISÃO (SAD) SISTEMAS DE SUPORTE À DECISÃO (SSD) 1 CAPÍTULO 7. SISTEMAS DE APOIO À DECISÃO (SAD) SISTEMAS DE SUPORTE À DECISÃO (SSD) A necessidade dos SAD surgiu em decorrência de diversos fatores, como, por exemplo: Competição cada vez maior entre as

Leia mais

PERSPECTIVA FUNCIONAL DOS SISTEMAS DE INFORMAÇÃO E TIPOS DE SISTEMA DE INFORMAÇÃO

PERSPECTIVA FUNCIONAL DOS SISTEMAS DE INFORMAÇÃO E TIPOS DE SISTEMA DE INFORMAÇÃO CURSO: GESTÃO AMBIENTAL PROFESSOR: WENES SILVA DOS SANTOS ALUNOS: ANDRÉ VIANA CAVALCANTE, DANILO CARVALHO DE OLIVEIRA, GEISA MOREIRA DE SOUSA, FERNANDA MONTES, LIAMAR MONTES, PRISCILA CASTRO, RAIMUNDINHA

Leia mais

Capítulo 1 - A revolução dos dados, da informação e do conhecimento 1 B12 4

Capítulo 1 - A revolução dos dados, da informação e do conhecimento 1 B12 4 Sumário Capítulo 1 - A revolução dos dados, da informação e do conhecimento 1 B12 4 Capítulo 2 - Reputação corporativa e uma nova ordem empresarial 7 Inovação e virtualidade 9 Coopetição 10 Modelos plurais

Leia mais

MATERIAL DIDÁTICO: APLICAÇÕES EMPRESARIAIS SISTEMA DE APOIO À DECISÃO (SAD)

MATERIAL DIDÁTICO: APLICAÇÕES EMPRESARIAIS SISTEMA DE APOIO À DECISÃO (SAD) AULA 07 MATERIAL DIDÁTICO: APLICAÇÕES EMPRESARIAIS SISTEMA DE APOIO À DECISÃO (SAD) JAMES A. O BRIEN MÓDULO 01 Páginas 286 à 294 1 AULA 07 SISTEMAS DE APOIO ÀS DECISÕES 2 Sistemas de Apoio à Decisão (SAD)

Leia mais

DATA WAREHOUSE. Rafael Ervin Hass Raphael Laércio Zago

DATA WAREHOUSE. Rafael Ervin Hass Raphael Laércio Zago DATA WAREHOUSE Rafael Ervin Hass Raphael Laércio Zago Roteiro Introdução Aplicações Arquitetura Características Desenvolvimento Estudo de Caso Conclusão Introdução O conceito de "data warehousing" data

Leia mais

Programa do Curso de Pós-Graduação Lato Sensu MBA em Business Intelligence (BI)

Programa do Curso de Pós-Graduação Lato Sensu MBA em Business Intelligence (BI) Programa do Curso de Pós-Graduação Lato Sensu MBA em Business Intelligence (BI) Apresentação O programa de Pós-graduação Lato Sensu em Business Intelligence Inteligência Competitiva tem por fornecer conhecimento

Leia mais

Thiago Locatelli de OLIVEIRA, Thaynara de Assis Machado de JESUS; Fernando José BRAZ Bolsistas CNPq; Orientador IFC Campus Araquari

Thiago Locatelli de OLIVEIRA, Thaynara de Assis Machado de JESUS; Fernando José BRAZ Bolsistas CNPq; Orientador IFC Campus Araquari DESENVOLVIMENTO DE AMBIENTE PARA A GESTÃO DO CONHECIMENTO RELACIONADO AOS DADOS PRODUZIDOS PELO SISTEMA DE GERENCIAMENTO DE TRANSITO DA CIDADE DE JOINVILLE/SC PARTE I Thiago Locatelli de OLIVEIRA, Thaynara

Leia mais

Identificar as mudanças que acontecem na forma e no uso de apoio à decisão em empreendimentos de e-business. Identificar o papel e alternativas de

Identificar as mudanças que acontecem na forma e no uso de apoio à decisão em empreendimentos de e-business. Identificar o papel e alternativas de 1 Identificar as mudanças que acontecem na forma e no uso de apoio à decisão em empreendimentos de e-business. Identificar o papel e alternativas de relatórios dos sistemas de informação gerencial. Descrever

Leia mais

Inteligência Empresarial. BI Business Intelligence. Business Intelligence 22/2/2011. Prof. Luiz A. Nascimento

Inteligência Empresarial. BI Business Intelligence. Business Intelligence 22/2/2011. Prof. Luiz A. Nascimento Inteligência Empresarial Prof. Luiz A. Nascimento BI Pode-se traduzir informalmente Business Intelligence como o uso de sistemas inteligentes em negócios. É uma forma de agregar a inteligência humana à

Leia mais

Interatividade aliada a Análise de Negócios

Interatividade aliada a Análise de Negócios Interatividade aliada a Análise de Negócios Na era digital, a quase totalidade das organizações necessita da análise de seus negócios de forma ágil e segura - relatórios interativos, análise de gráficos,

Leia mais

Bloco Administrativo

Bloco Administrativo Bloco Administrativo BI Business Intelligence Objetivo O objetivo deste artigo é dar uma visão geral sobre o Módulo Business Intelligence, que se encontra no Bloco Administrativo. Todas informações aqui

Leia mais

Data Warehousing. Leonardo da Silva Leandro. CIn.ufpe.br

Data Warehousing. Leonardo da Silva Leandro. CIn.ufpe.br Data Warehousing Leonardo da Silva Leandro Agenda Conceito Elementos básicos de um DW Arquitetura do DW Top-Down Bottom-Up Distribuído Modelo de Dados Estrela Snowflake Aplicação Conceito Em português:

Leia mais

Requisitos de business intelligence para TI: O que todo gerente de TI deve saber sobre as necessidades reais de usuários comerciais para BI

Requisitos de business intelligence para TI: O que todo gerente de TI deve saber sobre as necessidades reais de usuários comerciais para BI Requisitos de business intelligence para TI: O que todo gerente de TI deve saber sobre as necessidades reais de usuários comerciais para BI Janeiro de 2011 p2 Usuários comerciais e organizações precisam

Leia mais

Banco de Dados - Senado

Banco de Dados - Senado Banco de Dados - Senado Exercícios OLAP - CESPE Material preparado: Prof. Marcio Vitorino OLAP Material preparado: Prof. Marcio Vitorino Soluções MOLAP promovem maior independência de fornecedores de SGBDs

Leia mais

TÓPICOS AVANÇADOS EM ENGENHARIA DE SOFTWARE

TÓPICOS AVANÇADOS EM ENGENHARIA DE SOFTWARE TÓPICOS AVANÇADOS EM ENGENHARIA DE SOFTWARE Engenharia de Computação Professor: Rosalvo Ferreira de Oliveira Neto OLPT x OLAP Roteiro OLTP Datawarehouse OLAP Operações OLAP Exemplo com Mondrian e Jpivot

Leia mais

Módulo 2. Definindo Soluções OLAP

Módulo 2. Definindo Soluções OLAP Módulo 2. Definindo Soluções OLAP Objetivos Ao finalizar este módulo o participante: Recordará os conceitos básicos de um sistema OLTP com seus exemplos. Compreenderá as características de um Data Warehouse

Leia mais

Chapter 3. Análise de Negócios e Visualização de Dados

Chapter 3. Análise de Negócios e Visualização de Dados Chapter 3 Análise de Negócios e Visualização de Dados Objetivos de Aprendizado Descrever a análise de negócios (BA) e sua importância par as organizações Listar e descrever brevemente os principais métodos

Leia mais

IBM Cognos Business Intelligence Scorecarding

IBM Cognos Business Intelligence Scorecarding IBM Cognos Business Intelligence Scorecarding Unindo a estratégia às operações com sucesso Visão Geral O Scorecarding oferece uma abordagem comprovada para comunicar a estratégia de negócios por toda a

Leia mais

IF685 Gerenciamento de Dados e Informação - Prof. Robson Fidalgo 1

IF685 Gerenciamento de Dados e Informação - Prof. Robson Fidalgo 1 IF685 Gerenciamento de Dados e Informação - Prof. Robson Fidalgo 1 Banco de Dados Introdução Por: Robson do Nascimento Fidalgo rdnf@cin.ufpe.br IF685 Gerenciamento de Dados e Informação - Prof. Robson

Leia mais

e-business A IBM definiu e-business como: GLOSSÁRIO

e-business A IBM definiu e-business como: GLOSSÁRIO Através do estudo dos sistemas do tipo ERP, foi possível verificar a natureza integradora, abrangente e operacional desta modalidade de sistema. Contudo, faz-se necessário compreender que estas soluções

Leia mais

Fundamentos da inteligência de negócios: gestão da informação e de bancos de dados

Fundamentos da inteligência de negócios: gestão da informação e de bancos de dados Fundamentos da inteligência de negócios: gestão da informação e de bancos de dados slide 1 1 Copyright 2011 Pearson Education, Inc. publishing as Prentice Hall Objetivos de estudo Como um banco de dados

Leia mais

Classificação dos Sistemas de Informação

Classificação dos Sistemas de Informação Sistemas de Informação Classificação dos Sistemas de Informação O que veremos? Estaremos examinando o tipo de sistema de informação Gerencial. Veremos também, outras classificações dos sistemas de informação.

Leia mais

Laudon & Laudon Essentials of MIS, 5th Edition. Pg. 1.1

Laudon & Laudon Essentials of MIS, 5th Edition. Pg. 1.1 Laudon & Laudon Essentials of MIS, 5th Edition. Pg. 1.1 SISTEMA DE APOIO À DECISÃO Grupo: Denilson Neves Diego Antônio Nelson Santiago Sabrina Dantas CONCEITO É UM SISTEMA QUE AUXILIA O PROCESSO DE DECISÃO

Leia mais

Estratégias em Tecnologia da Informação

Estratégias em Tecnologia da Informação Estratégias em Tecnologia da Informação Capítulo 6 Sistemas de Informações Estratégicas Sistemas integrados e sistemas legados Sistemas de Gerenciamento de Banco de Dados Material de apoio 2 Esclarecimentos

Leia mais

Resumo dos principais conceitos. Resumo dos principais conceitos. Business Intelligence. Business Intelligence

Resumo dos principais conceitos. Resumo dos principais conceitos. Business Intelligence. Business Intelligence É um conjunto de conceitos e metodologias que, fazem uso de acontecimentos e sistemas e apoiam a tomada de decisões. Utilização de várias fontes de informação para se definir estratégias de competividade

Leia mais

srbo@ufpa.br www.ufpa.br/srbo

srbo@ufpa.br www.ufpa.br/srbo CBSI Curso de Bacharelado em Sistemas de Informação BI Prof. Dr. Sandro Ronaldo Bezerra Oliveira srbo@ufpa.br www.ufpa.br/srbo Tópicos Especiais em Sistemas de Informação Faculdade de Computação Instituto

Leia mais

TÉCNICAS DE INFORMÁTICA WILLIAN FERREIRA DOS SANTOS

TÉCNICAS DE INFORMÁTICA WILLIAN FERREIRA DOS SANTOS TÉCNICAS DE INFORMÁTICA WILLIAN FERREIRA DOS SANTOS Vimos em nossas aulas anteriores: COMPUTADOR Tipos de computadores Hardware Hardware Processadores (CPU) Memória e armazenamento Dispositivos de E/S

Leia mais

Curso Superior de Tecnologia em Banco de Dados Disciplina: Projeto de Banco de Dados Relacional II Prof.: Fernando Hadad Zaidan

Curso Superior de Tecnologia em Banco de Dados Disciplina: Projeto de Banco de Dados Relacional II Prof.: Fernando Hadad Zaidan Faculdade INED Curso Superior de Tecnologia em Banco de Dados Disciplina: Projeto de Banco de Dados Relacional II Prof.: Fernando Hadad Zaidan 1 Unidade 4.2 2 1 BI BUSINESS INTELLIGENCE BI CARLOS BARBIERI

Leia mais

A importância da. nas Organizações de Saúde

A importância da. nas Organizações de Saúde A importância da Gestão por Informações nas Organizações de Saúde Jorge Antônio Pinheiro Machado Filho Consultor de Negócios www.bmpro.com.br jorge@bmpro.com.br 1. Situação nas Empresas 2. A Importância

Leia mais

Gerenciamento de Dados e Gestão do Conhecimento

Gerenciamento de Dados e Gestão do Conhecimento ELC1075 Introdução a Sistemas de Informação Gerenciamento de Dados e Gestão do Conhecimento Raul Ceretta Nunes CSI/UFSM Introdução Gerenciando dados A abordagem de banco de dados Sistemas de gerenciamento

Leia mais

Aline França a de Abreu, Ph.D

Aline França a de Abreu, Ph.D Aline França a de Abreu, Ph.D igti.eps.ufsc.br 07 / 10/ 04 Núcleo de estudos Criado em 1997 - UFSC/EPS Equipe multidisciplinar, com aproximadamente 20 integrantes OBJETIVO Gerar uma competência e uma base

Leia mais

SISTEMAS DE INFORMAÇÃO GERENCIAIS

SISTEMAS DE INFORMAÇÃO GERENCIAIS SISTEMAS DE INFORMAÇÃO GERENCIAIS O PODER DA INFORMAÇÃO Tem PODER quem toma DECISÃO Toma DECISÃO correta quem tem SABEDORIA Tem SABEDORIA quem usa CONHECIMENTO Tem CONHECIMENTO quem possui INFORMAÇÃO (Sem

Leia mais

Sistemas de Informação CEA460 - Gestão da Informação

Sistemas de Informação CEA460 - Gestão da Informação Sistemas de Informação CEA460 - Gestão da Informação Janniele Aparecida Conceitos Sistema de Informação Conjunto de componentes interrelacionados que coletam (ou recuperam), processam e armazenam e distribuem

Leia mais

DESENVOLVIMENTO DE PLUG-INS KETTLE PARA GERAÇÃO DE MONDRIAN SCHEMA A PARTIR DE BASES RELACIONAIS, UTILIZANDO A METODOLOGIA AGILE ROLAP.

DESENVOLVIMENTO DE PLUG-INS KETTLE PARA GERAÇÃO DE MONDRIAN SCHEMA A PARTIR DE BASES RELACIONAIS, UTILIZANDO A METODOLOGIA AGILE ROLAP. DESENVOLVIMENTO DE PLUG-INS KETTLE PARA GERAÇÃO DE MONDRIAN SCHEMA A PARTIR DE BASES RELACIONAIS, UTILIZANDO A METODOLOGIA AGILE ROLAP. Eduardo Cristovo de Freitas Aguiar (PIBIC/CNPq), André Luís Andrade

Leia mais

SISTEMA DE INFORMAÇÃO APLICADO NA ÁREA DE ADMINISTRAÇÃO DE MATERIAIS BASEADO EM DATA WAREHOUSE

SISTEMA DE INFORMAÇÃO APLICADO NA ÁREA DE ADMINISTRAÇÃO DE MATERIAIS BASEADO EM DATA WAREHOUSE SISTEMA DE INFORMAÇÃO APLICADO NA ÁREA DE ADMINISTRAÇÃO DE MATERIAIS BASEADO EM DATA WAREHOUSE OSCAR DALFOVO, M.A. dalfovo@furb.rct-sc.br Professor da Universidade Regional de Blumenau Rua: Antônio da

Leia mais

IMPLANTAÇÃO DO DW NA ANVISA

IMPLANTAÇÃO DO DW NA ANVISA IMPLANTAÇÃO DO DW NA ANVISA Bruno Nascimento de Ávila 1 Rodrigo Vitorino Moravia 2 Maria Renata Furtado 3 Viviane Rodrigues Silva 4 RESUMO A tecnologia de Business Intelligenge (BI) ou Inteligência de

Leia mais

Desenvolvimento de um Sistema de Apoio à Decisão. Thiago Rafael Zimmermann. Prof. Dr. Oscar Dalfovo

Desenvolvimento de um Sistema de Apoio à Decisão. Thiago Rafael Zimmermann. Prof. Dr. Oscar Dalfovo Desenvolvimento de um Sistema de Apoio à Decisão Acadêmico Thiago Rafael Zimmermann Orientador Prof. Dr. Oscar Dalfovo Roteiro da apresentação Introdução Objetivos Fundamentação Teórica Informação Sistemas

Leia mais

Sistemas de Apoio à Inteligência do Negócio

Sistemas de Apoio à Inteligência do Negócio Sistemas de Apoio à Inteligência do Negócio http://www.uniriotec.br/~tanaka/sain tanaka@uniriotec.br Visão Geral de Business Intelligence Evolução dos Sistemas de Informação (computadorizados) 1950 s:

Leia mais

Data Mining: Conceitos e Técnicas

Data Mining: Conceitos e Técnicas Data Mining: Conceitos e Técnicas DM, DW e OLAP Data Warehousing e OLAP para Data Mining O que é data warehouse? De data warehousing para data mining Data Warehousing e OLAP para Data Mining Data Warehouse:

Leia mais

Sistemas de Apoio à Decisão. Profa. Jiani Cardoso Disciplina: Sistemas de Informação Aula de 13/set/2005

Sistemas de Apoio à Decisão. Profa. Jiani Cardoso Disciplina: Sistemas de Informação Aula de 13/set/2005 Sistemas de Apoio à Decisão Profa. Jiani Cardoso Disciplina: Sistemas de Informação Aula de 13/set/2005 Sistemas de Suporte Gerencial SIG (sistema de Informação Gerencial) SAD (Sistema de Apoio à Decisão)

Leia mais

Sistema de informação para controle de vendas em imobiliária

Sistema de informação para controle de vendas em imobiliária Sistema de informação para controle de vendas em imobiliária Acadêmico: Diego Vicentini Orientador: Prof. Paulo R. Dias FURB Universidade Regional de Blumenau Julho/2007 Roteiro da apresentação Introdução

Leia mais

Fases para um Projeto de Data Warehouse. Fases para um Projeto de Data Warehouse. Fases para um Projeto de Data Warehouse

Fases para um Projeto de Data Warehouse. Fases para um Projeto de Data Warehouse. Fases para um Projeto de Data Warehouse Definição escopo do projeto (departamental, empresarial) Grau de redundância dos dados(ods, data staging) Tipo de usuário alvo (executivos, unidades) Definição do ambiente (relatórios e consultas préestruturadas

Leia mais

EXECUTIVE. A Web 2.0. pode salvar o BI?

EXECUTIVE. A Web 2.0. pode salvar o BI? EXECUTIVE briefing guia executivo para decisões estratégicas A Web 2.0 pode salvar o BI? A usabilidade e a intuitividade das tecnologias Web 2.0 revolucionam o complexo mercado de Business Intelligence.

Leia mais

Edições Edge do SAP InfiniteInsight Visão geral Viabilizando insights preditivos apenas com cliques de mouse, sem códigos de computador

Edições Edge do SAP InfiniteInsight Visão geral Viabilizando insights preditivos apenas com cliques de mouse, sem códigos de computador Soluções de análise da SAP Edições Edge do SAP InfiniteInsight Visão geral Viabilizando insights preditivos apenas com cliques de mouse, sem códigos de computador Índice 3 Um caso para análise preditiva

Leia mais

CONSIDERAÇÕES SOBRE ATIVIDADES DE IDENTIFICAÇÃO, LOCALIZAÇÃO E TRATAMENTO DE DADOS NA CONSTRUÇÃO DE UM DATA WAREHOUSE

CONSIDERAÇÕES SOBRE ATIVIDADES DE IDENTIFICAÇÃO, LOCALIZAÇÃO E TRATAMENTO DE DADOS NA CONSTRUÇÃO DE UM DATA WAREHOUSE CONSIDERAÇÕES SOBRE ATIVIDADES DE IDENTIFICAÇÃO, LOCALIZAÇÃO E TRATAMENTO DE DADOS NA CONSTRUÇÃO DE UM DATA WAREHOUSE Fabio Favaretto Professor adjunto - Programa de Pós Graduação em Engenharia de Produção

Leia mais

Eficiência na manutenção de dados mestres referentes a clientes, fornecedores, materiais e preços

Eficiência na manutenção de dados mestres referentes a clientes, fornecedores, materiais e preços da solução SAP SAP ERP SAP Data Maintenance for ERP by Vistex Objetivos Eficiência na manutenção de dados mestres referentes a clientes, fornecedores, materiais e preços Entregar a manutenção de dados

Leia mais

Uma análise multidimensional dos dados estratégicos da empresa usando o recurso OLAP do Microsoft Excel

Uma análise multidimensional dos dados estratégicos da empresa usando o recurso OLAP do Microsoft Excel Uma análise multidimensional dos dados estratégicos da empresa usando o recurso OLAP do Microsoft Excel Carlos Alberto Ferreira Bispo (AFA) cafbispo@siteplanet.com.br Daniela Gibertoni (FATECTQ) daniela@fatectq.com.br

Leia mais

UNIVERSIDADE REGIONAL DE BLUMENAU CENTRO DE CIÊNCIAS EXATAS E NATURAIS CURSO DE CIÊNCIAS DA COMPUTAÇÃO (Bacharelado)

UNIVERSIDADE REGIONAL DE BLUMENAU CENTRO DE CIÊNCIAS EXATAS E NATURAIS CURSO DE CIÊNCIAS DA COMPUTAÇÃO (Bacharelado) UNIVERSIDADE REGIONAL DE BLUMENAU CENTRO DE CIÊNCIAS EXATAS E NATURAIS CURSO DE CIÊNCIAS DA COMPUTAÇÃO (Bacharelado) SISTEMA INTERNO INTEGRADO PARA CONTROLE DE TAREFAS INTERNAS DE UMA EMPRESA DE DESENVOLVIMENTO

Leia mais

SISTEMAS DE INFORMAÇÃO GERENCIAL

SISTEMAS DE INFORMAÇÃO GERENCIAL SISTEMAS DE INFORMAÇÃO GERENCIAL 2015 Sabemos que as empresas atualmente utilizam uma variedade muito grande de sistemas de informação. Se você analisar qualquer empresa que conheça, constatará que existem

Leia mais

Visão Geral dos Sistemas de Informação

Visão Geral dos Sistemas de Informação Visão Geral dos Sistemas de Informação Existem muitos tipos de sistemas de informação no mundo real. Todos eles utilizam recursos de hardware, software, rede e pessoas para transformar os recursos de dados

Leia mais

Uma Ferramenta Web para BI focada no Gestor de Informação

Uma Ferramenta Web para BI focada no Gestor de Informação Uma Ferramenta Web para BI focada no Gestor de Informação Mikael de Souza Fernandes 1, Gustavo Zanini Kantorski 12 mikael@cpd.ufsm.br, gustavoz@cpd.ufsm.br 1 Curso de Sistemas de Informação, Universidade

Leia mais

Expanda suas Capacidades Analíticas

Expanda suas Capacidades Analíticas Módulos IBM SPSS Statistics Expanda suas Capacidades Analíticas Um guia resumido dos módulos para o IBM SPSS Statistics Base Destaques Existem vários produtos IBM SPSS para te ajudar em cada fase do projeto

Leia mais

Utilização de ferramentas de colaboração para Gestão do Conhecimento

Utilização de ferramentas de colaboração para Gestão do Conhecimento Utilização de ferramentas de colaboração para Gestão do Conhecimento Carlos Roberto de Souza Tavares 1 Carlos Mário Dal Col Zeve 2 RESUMO Um dos maiores problemas que as empresas atuais enfrentam refere-se

Leia mais

Unidade III PLANEJAMENTO ESTRATÉGICO DE. Prof. Daniel Arthur Gennari Junior

Unidade III PLANEJAMENTO ESTRATÉGICO DE. Prof. Daniel Arthur Gennari Junior Unidade III PLANEJAMENTO ESTRATÉGICO DE TECNOLOGIA DA INFORMAÇÃO Prof. Daniel Arthur Gennari Junior Sobre esta aula Gestão do conhecimento e inteligência Corporativa Conceitos fundamentais Aplicações do

Leia mais

Data Warehouse Processos e Arquitetura

Data Warehouse Processos e Arquitetura Data Warehouse - definições: Coleção de dados orientada a assunto, integrada, não volátil e variável em relação ao tempo, que tem por objetivo dar apoio aos processos de tomada de decisão (Inmon, 1997)

Leia mais

ShoeSystem 1.0 Sistema para loja de calçados

ShoeSystem 1.0 Sistema para loja de calçados Artigo apresentado ao UNIS, como parte dos requisitos para obtenção do título de tecnólogo em Análise e Desenvolvimento de Sistemas 1 ShoeSystem 1.0 Sistema para loja de calçados André Luis dos Reis Revair,

Leia mais

Aplicação de Data Warehousing no Cadastro de Ficha Limpa do TSE

Aplicação de Data Warehousing no Cadastro de Ficha Limpa do TSE Aplicação de Data Warehousing no Cadastro de Ficha Limpa do TSE Mateus Ferreira Silva, Luís Gustavo Corrêa Lira, Marcelo Fernandes Antunes, Tatiana Escovedo, Rubens N. Melo mateusferreiras@gmail.com, gustavolira@ymail.com,

Leia mais

2 Descoberta de Conhecimento em Bases de Dados 2.1. Introdução

2 Descoberta de Conhecimento em Bases de Dados 2.1. Introdução 2 Descoberta de Conhecimento em Bases de Dados 2.1. Introdução De acordo com [FAYY96], o conceito de descoberta de conhecimento em bases de dados pode ser resumido como o processo não-trivial de identificar

Leia mais