Terry Lima Ruas. Mineração de Dados em Redes Complexas: Um Estudo sobre a Dinâmica do Conteúdo Social

Tamanho: px
Começar a partir da página:

Download "Terry Lima Ruas. Mineração de Dados em Redes Complexas: Um Estudo sobre a Dinâmica do Conteúdo Social"

Transcrição

1 Terry Lima Ruas Mineração de Dados em Redes Complexas: Um Estudo sobre a Dinâmica do Conteúdo Social Monografia apresentada ao Centro de Matemática, Computação e Cognição - CMCC/UFABC - como parte dos requisitos necessários à obtenção do título de Bacharel em Ciência da Computação. Orientadora: Prof. a Dr. a Maria das Graças Bruno Marietto Universidade Federal do ABC 29 de Julho de 2010

2 Terry Lima Ruas Mineração de Dados em Redes Complexas: Um Estudo sobre a Dinâmica do Conteúdo Social Monografia apresentada ao Centro de Matemática, Computação e Cognição - CMCC/UFABC - como parte dos requisitos necessários à obtenção do título de Bacharel em Ciência da Computação. Orientadora: Prof. Dr. a Maria das Graças Bruno Marietto Universidade Federal do ABC 29 de Julho de 2010

3 RESUMO Rede complexa é uma forma de modelar a natureza onde dado um grupo de elementos constituintes de um sistema natural qualquer, deve-se determinar alguma regra para estabelecer uma ligação entre esses elementos. Esses elementos podem ser pessoas, proteínas, internet, aeroportos entre outras coisas. Neste trabalho, o foco será dado ao grupo constituído por humanos. As ligações entre esses elementos dependem da característica a ser observada. Por exemplo, pessoas podem estar ligadas por conexões de amizade ou devido ao compartilhamento de alguma opinião. Nos últimos anos presencia-se uma considerável expansão nestas redes complexas, mais especificamente nas redes nas quais os elementos constituintes são seres humanos. Mesmo está expansão sendo algo relativamente novo, as questões levantadas são possivelmente respondidas pela teoria das redes sociais, que desde sempre estão presentes na humanidade. A teoria das redes fornece explicações para uma miríade de fenômenos sociais, como por exemplo, criatividade individual, rentabilidade nas empresas, como indivíduos podem se combinar para criar sociedades duradouras e funcionais. No entanto, para se analisar esse vasto campo é necessário focar-se em objetivos claros. Devido à imensidão de dados disponíveis encontra-se a necessidade de utilizar abordagens que facilitem o tratamento de tantos dados. Neste trabalho é proposto um estudo frente aos dados presentes nas redes complexas, mais especificamente nas redes sociais. Através da mineração de dados, espera-se fornecer arcabouço suficiente e sólido, para que seja possível a construção de um panorama no qual se possa analisar e representar determinadas redes complexas.

4 SUMÁRIO Resumo Sumário ii iv 1 Introdução Objetivos Um Panorama sobre Redes Complexas Teoria dos Grafos: Arcabouço Conceitual Vizinhança e Graus Caminhos e Circuitos Redes Complexas Redes Complexas Modeladas Como Grafos Propriedades Coeficiente de Aglomeração Distribuição de Graus Robustez Mistura de Padrões Correlação de Graus Modelos de Redes Complexas Redes Aleatórias Redes Regulares Redes Small World Redes de Barabási e Albert Extração e Mineração de Conhecimento em Base de Dados: Principais Conceitos Definições: Extração de Dados Data Warehouse Fonte de Dados Dados de Teste Armazenamento de Dados Entrega de Informações Metadados Controle e Gerenciamento Base de Dados e Data Warehouse Processo de Extração de Conhecimento de Base de Dados Compreensão do Domínio de Aplicação Seleção de Dados Preparação de Dados Limpeza e Pré-Processamento de Dados Data Mining Técnicas Básicas de Data Mining iv

5 SUMÁRIO v Classificação Regressão Agrupamento ou Clustering Sumarização Modelagem de Dependência Detecção de Mudança ou Desvios (Outliers) Algoritmos Utilizados em Data Mining Extração de Padrões Definição de Parâmetros Redução de Atributos Generalização Mudanças dos Dados Compreensão de Padrões Interpretação e Avaliação de Padrões Consolidação do Conhecimento Representação e Processamento de Dados da Web para Mineração Estado da Arte: Aplicações de Mineração de Dados na Web Mineração de Conteúdo Mineração de Estruturas na Web Mineração de Redes Sociais e Similares Mineração de Registros de Acesso (logs) a Servidores e Similares Outros Redes Sociais: Referencial Teórico Elementos des Redes Sociais Atores Conexões Interação, Relação e Laços Sociais Interações Relações Laços Capital Social Tipos de Redes Sociais Redes Sociais Emergentes Redes Sociais de Filiação ou Redes Associativas Análise de Redes Sociais Arcabouço Conceitual Conceitos Chave e Métricas Centralidade Cliques Rede Social para Difusão da Informação Exemplos da Difusão da Informação Inovação Canais de Comunicação Tempo Sistema Social Modelo Estudado para Difusão de Informação Um Modelo Multiagente para Difusão de Informação O Ambiente Físico Arquitetura do Agente Pessoa Módulo: Procurando-Informação

6 SUMÁRIO vi Módulo: Processando-Informação Módulo IP: Atributos Individuais Módulo IP: Regras para Determinar o Grau de Homophilia Análise da Difusão da Informação Via a Integração de Redes Sociais e Mineração de Dados Configuração da Simulação Análise das Simulações Primeiro Experimento: Baixa Densidade de Agentes Movimento Coletivo e Comunicação Indireta Dinâmica Social em Baixa Densidade Segundo Experimento: Alta Densidade de Agentes Movimento Coletivo e Comunicação Indireta Dinâmica Social em Alta Densidade Mineração de Dados no Sistema Social Primeiro Experimento Segundo Experimento Considerações Finais 61 R Referências 63

7 C A P Í T U L O 1 INTRODUÇÃO O interesse no estudo de redes complexas permeia todo o século XX. Iniciado pelas ciências exatas, notoriamente matemáticos e físicos trouxeram contribuições significativas para o estudo das redes, que depois foram absorvidas pela Sociologia, na perspectiva da análise estrutural das redes sociais. Os primeiros passos da teoria das redes encontram-se principalmente nos trabalhos do matemático Ëuler [Euler 1741] que criou o primeiro teorema da teoria dos grafos. Um grafo é uma representação de um conjunto de nós conectados por arestas que, em conjunto, formam uma rede. Tendo como base esta nova idéia, vários estudiosos [Barabási 2003, Buchanan 2003, Watts 1999, Watts 2003] dedicaram-se ao trabalho de compreender quais eram as propriedades de diversos tipos de grafos e como se dava o processo de sua construção, ou seja, como seus nós se agrupavam. Essa forma de percepção dos elementos como redes seria crucial para a compreensão das relações complexas do mundo atual. Mais especificamente dentro do assunto de redes complexas a análise das redes sociais parte de duas grandes visões do objeto de estudo: as redes inteiras (whole networks) e as redes personalizadas (ego-centered networks) ( [Watts 2003, Degenne e Forse 1999, Wellman 1997, Wellman et al. 2003, Garton, Haythornthwaite e Wellman 1997]). O primeiro aspecto é focado na relação estrutural da rede com o grupo social. Para [Watts 2003] As redes, de acordo com esta visão, são assinaturas de identidade social - o padrão de relações entre os indivíduos está mapeando as preferências e características dos próprios envolvidos na rede.". O segundo foco está no papel social de um indivíduo, compreendido não apenas através dos grupos (redes) a que ele pertence, mas igualmente através das posições que ele tem dentro dessas redes. A diferença entre os dois focos está no corpus da análise escolhida pelo pesquisador [Recuero 2004]. Garton [Garton, Haythornthwaite e Wellman 1997] explica que a análise de redes sociais foca principalmente nos padrões de relações entre as pessoas. O estudo de redes sociais reflete uma mudança do individualismo comum nas ciências sociais em busca de uma análise estrutural. Para ir além dos atributos individuais e considerar as relações entre os atores sociais, a análise das redes sociais busca focar-se em novas unidades de análise", tais como: relações (caracterizadas por conteúdo, direção e força), laços sociais (que conectam pares de atores através de uma ou mais relações), multiplexidade (quanto mais relações um laço social possui, maior a sua multiplexidade) e composição do laço social (derivada dos atributos individuais dos atores envolvidos). O estudo de redes sociais procura também levar para a sociedade os elementos principais estudados em uma rede, tais como densidade da rede, clusterização, etc [Recuero 2004]. A princípio, os sociólogos acreditavam que as unidades básicas das redes sociais eram as díades, ou seja, as relações entre duas pessoas seriam a menor estrutura relacional da sociedade. E com isso, as relações entre indivíduos que formaria um grupo se dariam de modo randômico [Wellman 1

8 1.1. Objetivos ]. Uma outra vertente para a análise das redes sociais defendiam que as unidades básicas seriam constituídas pelas tríades, de formato triangular. Nesse modelo, por exemplo, duas pessoas possuem um amigo em comum. Assim essas duas pessoas possuem maiores chances de se conhecerem entre si e fazerem parte de um mesmo grupo. Partindo dessa perspectiva, a análise estrutural das redes sociais procura focar no estabelecimento das relações sociais entre os agentes humanos, que originarão as redes sociais, tanto no mundo concreto, quanto no mundo virtual. Isso porque em uma rede social, as pessoas são os nós e as arestas são constituídas pelos laços sociais gerados através da interação social [Recuero 2004]. Por sua complexidade as redes sociais (virtuais ou não) acabam gerando mais dados do que a capacidade humana possui de interpretá-los e compreendê-los. Por essa razão, são necessárias novas técnicas e ferramentas capazes de analisar automaticamente essa quantidade de dados produzidos, fornecendo o conhecimento necessário para ajudar nos mais diversos processos de tomada de decisão. A área da Computação conhecida como Extração de Conhecimento em Base de Dados (do inglês Knowledge Discovery in Databases - KDD), surgiu para auxiliar a análise de grande volume de dados, sendo assim ideal para o cenário de redes sociais. As pesquisas nesta área têm o objetivo de estudar a aplicação de novas metodologias, técnicas e ferramentas capazes de extrair conhecimento embutido em um grande volume de dados [Oliveira 2000]. O processo de KDD pode ser entendido como uma área interdisciplinar pois utiliza conceitos de diversas frentes do conhecimento: bases de dados, métodos estatísticos, ferramentas de visualização e técnicas de Inteligência Artificial (IA). Assim, as inovações feitas nestas áreas são refletidas diretamente nas metodologias, técnicas e ferramentas usadas para a descoberta de conhecimento nos dados [Oliveira 2000]. Deste modo, o escopo do presente trabalho se conteve no estudo dos dados que compõem essas redes complexas, mais especificamente as redes sociais. De forma a fornecer uma visão ampla de quais são as principais organizações de dados nessas redes, como os dados são organizados, quais as maneiras de extrair os dados destas redes, como extraí-los e em seguidas transformar essa quantidade de dados em informações relevantes. 1.1 Objetivos Este projeto de graduação concentrou-se em investigar questões relacionadas à análise de dados em sistemas complexos. Mais especificamente na dinâmica de redes sociais, tendo como base as teorias de Redes Complexas, Teoria dos Grafos, Redes Sociais, Extração e Mineração de Dados. Devido ao amplo leque de possíveis escopos de análise, foi necessário definir uma aplicação específica para o estudo das técnicas de mineração e análise de dados. Nesta pesquisa o domínio escolhido para o estudo de caso foi o de Redes Sociais. Para o alcance deste objetivo principal cinco (05) objetivos específicos foram considerados. O primeiro objetivo específico preocupou-se com o estudo dos referenciais teórico e técnico das áreas de Redes Complexas e Teoria dos Grafos, nos quais conteve-se em delinear o estado da arte nos temas que serviram de base desta pesquisa. O segundo objetivo específico correspondeu ao estudo sobre Extração e Mineração de Dados e Redes Sociais, procurando conhecer técnicas e solidificar o embasamento teórico para o desenvolvimento do trabalho. O terceiro objetivo, foi focado em analisar como ocorre a organização de dados em Redes Complexas e Redes Sociais. Estudando modelos de dados aplicados em tais redes, foi possível formalizar a estrutura de determinadas redes, assim como delinear uma área de escopo para esse projeto. O quarto objetivo diz respeito ao estudo dos modelos de Extração e Mineração de Dados aplicados em Redes Sociais. Analisando a literatura [Oliveira 2000], [Cazella 2005], [Castilho 2004] observouse que existem diversas caracterizações sobre tal assunto.

9 1.1. Objetivos 3 A partir dos modelos conceituais estudados foi feito um estudo de caso sobre a extração de dados em determinada rede, de forma que implementou-se um dos modelos estudados no intuito de alcançar o quinto e último objetivo específico. Encontrando assim subsídios para obter uma análise sobre o sistema social estudado.

10 C A P Í T U L O 2 UM PANORAMA SOBRE REDES COMPLEXAS O estudo de redes complexas é um tema interdisciplinar que abrange diversas áreas de conhecimento, tais como a Ciência da Computação, Matemática, Física, Biologia e Sociologia. O termo redes complexas refere-se a um grafo que apresenta uma estrutura topográfica não trivial, composto por um conjunto de vértices (nós) que são interligados por meio de arestas [Barabási 2003]. O estudo de redes na forma de grafos é um dos pilares da matemática discreta e teve início em 1735, quando Euler propôs uma solução para o problema das pontes de Königsberg, originando a Teoria dos Grafos. Desse modo, diversos aspectos do mundo real podem ser representados por meio de redes complexas a partir de analogias para a resolução de problemas específicos. É possível, por exemplo, modelar toda a estrutura física de uma grande rede de computadores tal como a Internet. Nesse caso, os computadores conectados à Internet referem-se aos vértices da rede enquanto que os cabos e meios de transmissão representam as arestas do grafo. Outras analogias podem ser também utilizadas, tais como o conteúdo de páginas WEB World Wide Web, relações sociais entre grupos de pessoas, redes organizacionais ou de negócios entre companhias, redes neurais, redes metabólicas, cadeia alimentar, entre outras [Metz et al. 2007]. A Figura 2.1 é um exemplo de uma rede complexa. 4

11 2.1. Teoria dos Grafos: Arcabouço Conceitual 5 Figura 2.1: Exemplo de uma Rede Complexa entre Jogadores e Treinadores [Evans 2009,]. Antes de aprofundar o assunto tema deste projeto é importante que alguns conceitos sejam estabelecidos e explicados, visando estabelecer um arcabouço teórico a ser usado neste trabalho. Deste modo, a próxima seção trata alguns conceitos relevantes sobre Teoria dos Grafos [Feofiloff, Kohayakawa e Wakabayashi 2009]. 2.1 Teoria dos Grafos: Arcabouço Conceitual Para qualquer conjunto V denota-se por V (2) o conjunto de todos os pares não ordenados de elementos de V. Se V tem n elementos então V (2) tem ( n n(n 1) 2 ) := 2 elementos. Os elementos de V (2) são identificados com os subconjuntos de V que têm cardinalidade 2. Assim, cada elemento de V (2) terá a forma {v,w}, sendo v e w dois elementos distintos de V. Um grafo é um par (V,A) em que V é um conjunto arbitrário e A é um subconjunto de V (2). Os elementos de V são chamados vértices e os de A são chamados arestas [Feofiloff, Kohayakawa e Wakabayashi 2009]. Um grafo simples não pode ter duas arestas diferentes com o mesmo par de pontas (ou seja, não pode ter arestas paralelas). Também não pode ter uma aresta com pontas coincidentes (ou seja, não pode ter laços). Muitas vezes é conveniente dar um nome ao grafo como um todo. Se o nome do grafo for G, o conjunto dos seus vértices será denotado por V(G) e o conjunto das suas arestas por A(G). O número de vértices de G é denotado por n(g) e o número de arestas por m(g). Portanto, n(g) = V (G) e m(g) = A(G) A Figura 2.2 mostra um tipo de grafo simples na qual t, u, v, w, x e z são vértices e vw, uv, xw, xu, yz e xy são arestas.

12 2.1. Teoria dos Grafos: Arcabouço Conceitual 6 Figura 2.2: Grafo Simples [Feofiloff, Kohayakawa e Wakabayashi 2009]. O complemento de um grafo (V, A) é o grafo (V, V (2) \A). O complemento de um grafo G será denotado por G. A Figura 2.3 mostra um grafo G e seu complemento H ( G). Figura 2.3: Grafo Simples no qual G é o Grafo e H seu Complemento ( G). Um grafo G é completo se A(G)=V (G) (2) e vazio se A(G)=. A expressão G é um K n é uma abreviatura de G é um grafo completo com n vértices. A expressão G é um K n é uma abreviatura de G é um grafo vazio com n vértices. A Figura 2.4 mostra um exemplo de grafo completo K 6 [Feofiloff, Kohayakawa e Wakabayashi 2009]. Figura 2.4: Exemplo de um Grafo Completo K Vizinhança e Graus A vizinhança de um conjunto X de vértices de um grafo G é o conjunto de todos os vértices que têm algum vizinho em X. Esse conjunto é denotado por Γ(X ). A vizinhança de um vértice v é o conjunto Γ(v). O corte associado a (ou cofronteira, cociclo etc) um conjunto X de vértices é o conjunto de todas as arestas que têm uma ponta em X e outra em V (G)\X, denotado por (X ). É evidente que ( ) = (V (G)) = [Feofiloff, Kohayakawa e Wakabayashi 2009]. Um corte em um grafo é qualquer conjunto da forma (X ), onde X é um conjunto de vértices. O grau de um vértice v é o número de arestas que incidem em v, ou seja, a cardinalidade do corte

13 2.1. Teoria dos Grafos: Arcabouço Conceitual 7 (v) (igual à cardinalidade de Γ(v)). Dessa forma o grau de v em um grafo G é denotado por g(v). O grau mínimo de um grafo G é o número δ(g) := mi n{g (v) : v V (G)}. O grau máximo do grafo é o número (G) := max{g (v) : v V (G)}. Um grafo G é dito como regular se todos os seus vértices tem o mesmo grau, ou seja, se δ(g) = (G). Um grafo é k-regular se g(v)=k para todo vértice v. A Figura 2.5 exemplifica um grafo 3-regular. Figura 2.5: Exemplo de Grafo 3-regular Caminhos e Circuitos Um caminho é qualquer grafo da forma ({v 1, v 2,..., v n }, {v i, v i+1 : 1 i < n, v i A}). Em outras palavras, um caminho é um grafo C cujo conjunto de vértices admite uma permutação (v 1, v 2,..., v n ) tal que: {v 1 v 2, v 2 v 3,..., v n 1 v n } Os vértices v 1 e v n são os extremos do caminho. O caminho descrito pode ser denotado por {v 1 v 2, v 2 v 3,..., v n }. A Figura 2.6 mostra uma caminho. Figura 2.6: Grafo Representando um Caminho. Um circuito é um grafo da forma ({v 1, v 2,..., v n }, {v i, v i+1 : 1 i < n}) v n v 1, com n > 3. Em outras palavras, um circuito é um grafo O com n(o) 3 cujo conjunto de vértices admite uma permutação ({v 1, v 2,..., v n }) tal que: {v 1 v 2, v 2 v 3,..., v n } {v n v 1 } = A(O) O comprimento de um caminho ou circuito é o número de arestas do grafo, um caminho de comprimento k tem k + 1 vértices e um circuito de comprimento k tem k vértices. Um triângulo, quadrado, pentágono e hexágono é o mesmo que um circuito de comprimento 3, 4, 5 e 6 respectivamente. Um caminho ou circuito é par se tem comprimento par, e ímpar se tem comprimento ímpar. A Figura 2.7 mostra um circuito de comprimento 8. O conteúdo em Teoria dos Grafos é muito extenso para o escopo desse projeto. O objetivo desta Seção foi introduzir os principais tópicos básicos para que o mesmo possa ser entendido. Para uma análise mais detalhada sobre grafos consulte [Netto 2006,Feofiloff, Kohayakawa e Wakabayashi 2009].

14 2.2. Redes Complexas 8 Figura 2.7: Grafo Representando um Circuito. 2.2 Redes Complexas Os estudos das redes complexas foram iniciados em meados de 1930, quando sociólogos utilizavam essas redes com a finalidade de estudar o comportamento da sociedade e a relação entre os indivíduos. Essas pesquisas eram baseadas em características muito peculiares das redes, como a centralidade (o vértice mais central) e a conectividade (vértices com maior número de conexões). As redes sociais eram constituídas por indivíduos, representados por vértices, e pelas interações entre eles, as arestas. A centralidade e a conectividade eram usadas, por exemplo, para determinar os indivíduos que melhor se relacionavam com os demais ou para identificar os indivíduos mais influentes [Metz et al. 2007]. Com o avanço da tecnologia de informação e a disponibilidade de computadores e redes de comunicação, que permitem a análise de dados em grandes quantidades, houve uma mudança significativa na área. As pesquisas, antes focadas nas pequenas redes e nas propriedades de vértices individuais ou arestas, passaram a considerar propriedades estatísticas em larga-escala. Atualmente, são comuns estudos com redes envolvendo milhões ou bilhões de vértices, as quais antes eram compostas por dezenas ou, em casos extremos, centenas de vértices. A mudança de paradigma revelou várias características que diferem substancialmente as redes do mundo real das redes aleatórias, tidas por muitos anos como o principal modelo de redes. Descobriu-se que a topologia e a evolução das redes do mundo real apresentam propriedades organizacionais bastante robustas e distintas das redes aleatórias. Essa é a principal razão pela qual as redes passaram a ser chamadas de redes complexas [Metz et al. 2007]. Em geral sistemas complexos possuem grande número de elementos fundamentais, cuja constituição é simples e o comportamento coletivo é não trivial. Henri Poincaré foi o primeiro a mostrar que sistemas relativamente simples podem ter um comportamento evolutivo indeterminado. Poincaré percebeu este fato após notar que é matematicamente impossível encontrar a trajetória de três planetas interagindo gravitacionalmente entre si. Com o passar dos anos novas áreas surgiram (e.g sistemas não lineares, redes neurais, caos e sistemas auto organizáveis) para pesquisa de sistemas tão peculiares. Por exemplo, nos anos 90 pesquisadores perceberam que muitas estruturas naturais são auto similares como os fractais [Mandelbrot 1983]. As atenções voltadas à ciência dos sistemas complexos começaram a mudar de foco a partir de 1999, quando Albert, Jeong e Barabási realizaram uma descoberta surpreendente, baseada em estudos do psicólogo Stanley Milgram [Milgram 1967]. Albert, Jeong e Barábasi aplicaram os estudos de Milgram à rede mundial de computadores (World Wide Web - WWW ). Esta rede é formada por páginas WEB interligadas por hiperlinks que tornam possível a navegação entre elas. O estudo procurou encontrar o número médio de hiperlinks que separavam duas páginas escolhidas aleatoriamente nesta rede. Os resultados mostraram que, em média, as páginas da Internet estão separa-

15 2.2. Redes Complexas 9 das por pouco menos de vinte cliques do mouse, confirmando assim os estudos sobre o efeito small world [Milgram 1967, Viana 2007] Redes Complexas Modeladas Como Grafos Uma rede complexa Γ é definida por um conjunto V(Γ)={v i : i = 1,2,..., N } de vértices (ou nós, ou indivíduos) e um conjunto E(Γ) = {(v i, v j ) : v i e v j V (Γ)} de arestas (ou conexões, ou links) que conectam pares de vértices de acordo com regras específicas [Costa et al. 2007]. Não são considerados vértices com auto-conexão, (v i, v j ) E(Γ) onde i = j, e os elementos de E(Γ) devem ser únicos, (v i, v j ) (v i, v k ), se, e somente se, v j v k, ou seja, não podem existir múltiplas conexões entre um único par de vértices. Além disso, as arestas não possuem direção preferencial, ou seja, (v i, v j ) (v j, v i ). Existe um conjunto W (Γ) = {w i,j : w i,j R} de pesos, tal que cada elemento do conjunto E(Γ) está mapeado num elemento de W (Γ)((v i, v j ) w i,j ) [Rocha 2007]. Uma sub-rede κ de Γ é definida por um conjunto de vértices V (κ), tal que V (κ) V (Γ) e E(κ) {(v i, v j ) : (v i, v j ) R(Γ) e v i, v j V (κ)}. Por exemplo, uma sub-rede κ pode ser definida contendo apenas um vértice tal que V (κ) = {v i V (Γ)} e E(κ) =, contendo a própria rede original Γ ou contendo um número nulo de vértices V (κ) = e E(κ) = (rede vazia) [Rocha 2007]. Por definição uma sub-rede κ é conectada (ou conexa) se qualquer um dos seus vértices puder ser alcançado a partir de quaisquer outros vértices da mesma sub-rede κ, ou seja, se existir um caminho que passe por todos os vértices da sub-rede κ. Tanto o caminho quanto seu comprimento (d) são análogos aqueles apresentados na Seção Dado que um conjunto V (Γ) possui N elementos, a rede Γ pode ser escrita na forma de uma matriz de pesos W N xm, onde cada elemento w i,j da matriz W representa o elemento (v i, v j ) do conjunto E(Γ) cujo valor é dado pelo respectivo mapeamento no conjunto W (Γ). Usando o processo de limiarização [Costa et al. 2007] é possível obter uma nova rede Γ, esta nova rede pode ser representada por uma matriz de adjacências A N xm, onde a i,j = 1 se o elemento (v i, v j ) E(Γ) e a i,j = 0 se o elemento (v i, v j ) E(Γ). Deste modo, apenas as conexões existentes entre os vértices são consideradas e não os seus respectivos pesos Propriedades As redes complexas apresentam algumas propriedades. Tais propriedades podem auxiliar em análises dos mais variados aspectos das redes, e com os mais diferenciados propósitos. Nesta seção são apresentadas algumas das principais características das redes complexas Coeficiente de Aglomeração Os agrupamentos intrínsecos às redes são qualificados por meio do coeficiente de aglomeração, também conhecido como fenômeno de transitividade. Esse fenômeno ocorre quando um vértice A está conectado a um vértice B, e o vértice B está conectado a um vértice C, aumentando as chances do vértice A também estar conectado ao vértice C. Em outras palavras, a transitividade indica a presença de um número elevado de triângulos na rede, i.e., conjuntos de três vértices conectados uns aos outros. Para entender melhor, considere a analogia com uma rede social. Nesse caso, pode-se dizer que se A é amigo de B e B é amigo de C, existem grandes chances de A e C também serem amigos. O coeficiente de aglomeração CA de uma rede é obtido a partir da Equação 2.1, onde # referese ao número de triângulos na rede, e #v representa o número de vértices triplamente conectados, i.e., vértices com arestas não direcionadas para o outro par de nós. O fator 3 no numerador referese ao fato de que cada triângulo apresenta três triplas e também para garantir que o coeficiente de aglomeração seja um valor entre 0 (zero) e 1 (um) [Metz et al. 2007]. C A = 3 # #v (2.1)

16 2.2. Redes Complexas Distribuição de Graus O grau de um vértice qualquer em uma rede define o número de arestas que incidem (conectam) àquele vértice. Desse modo, a distribuição de graus é uma função de distribuição probabilística que indica a probabilidade de um determinado vértice ter grau fixo. Isto se uma rede for criada, caso essa já exista esse valor pode ser dado. Uma maneira de quantificar essa distribuição é por meio de uma função de distribuição cumulativa (Equação 2.2), onde p k é a fração de nós da rede com grau k e P k é a função cumulativa de distribuição de probabilidades. P k = p k (2.2) k =k Em um dígrafo 1, por outro lado, cada vértice tem um grau de entrada e de saída, acarretando em uma equação diferente para o cálculo da distribuição de graus. Essa nova equação é escrita em função de p j k com duas variáveis, representando a fração de vértices que têm, simultaneamente, um grau de entrada j e um grau de saída k. A distribuição de graus nas redes aleatórias segue a distribuição de Poisson. No entanto, em muitas redes reais a distribuição de graus segue a Lei de Potência, em que p k k α para uma constante α qualquer [Metz et al. 2007] Robustez Indica a capacidade de resistência da rede quanto às remoções de alguns vértices, sem que haja perda de sua funcionalidade. Essa propriedade está diretamente relacionada com a distribuição de graus dos vértices, pois a remoção de vértices pode resultar na perda de conexão entre pares de vértices ou, ainda, aumentar significativamente o caminho de um vértice a outro [Metz et al. 2007] Mistura de Padrões Alguns tipos de redes apresentam uma mistura de padrões diferentes onde os vértices podem representar diferentes tipos de objetos. Nas redes de cadeias alimentares, por exemplo, existem vértices que representam plantas, animais herbívoros e animais carnívoros. Em geral, a probabilidade de conexão entre esses vértices é dependente do seu tipo. Nesse caso específico, existem arestas conectando os herbívoros às plantas e os herbívoros aos carnívoros. Por outro lado, existem poucas conexões entre herbívoros e herbívoros ou entre animais carnívoros e plantas. As redes de relações sociais também apresentam essa propriedade, pois são constituídas por vértices que representam pessoas de diferentes etnias. Nesse tipo de rede há uma tendência de existirem mais conexões entre vértices do mesmo tipo, uma vez que as pessoas estão mais propensas a se relacionarem com outras pessoas da mesma etnia [Newman 2003]. Uma curiosidade também observada por Newman é que, essencialmente, todas as redes sociais apresentam essas variações de padrões, enquanto outros tipos de redes não (e.g. redes biológicas, redes tecnológicas, entre outras) Correlação de Graus Indica se as arestas em uma rede associam vértices com graus parecidos. Essa correlação é usada, principalmente, em redes com variações de padrões, para investigar a probabilidade de conexão dos vértices de diferentes tipos [Metz et al. 2007] Modelos de Redes Complexas Na literatura são apresentados muitos modelos para classificação de redes complexas [Metz et al. 2007, Costa et al. 2007, Rocha 2007, Viana 2007]. Nesta seção serão apresentados os modelos clássicos de redes, bem como suas características. 1 Um digrafo, ou grafo dirigido, é um grafo com flechas nas arestas.

17 2.2. Redes Complexas Redes Aleatórias Também conhecida como Rede de Erdös e Rény (ER), é o modelo mais simples que uma rede complexa pode assumir, constituindo assim uma das bases da teoria moderna das redes complexas. No contexto da teoria das redes complexas, uma rede aleatória (ER) é construída definindo um conjunto de vértices V (Γ ER ) e conectando pares de vértices com probabilidade p. Portanto, com p=0 obtém-se uma rede completamente fragmentada (E(Γ ER ) = ) e o outro extremo com p = 1, a rede fica completamente conectada, tal que o coeficiente de aglomeração ( C A ) (Seção 2.1) será máximo, C A = 1. Uma variação na construção da rede aleatória é definir o tamanho do conjunto E(Γ ER ), ou seja, o número máximo de arestas ER e conectar pares de vértices (v i, v j ) escolhidos aleatoriamente até que esse número máximo seja alcançado. A Figura 2.8 mostra um tipo de rede aleatória em seu desenvolvimento [Rocha 2007]. Figura 2.8: Rede Aleatória em Desenvolvimento. Desse modo, uma distribuição de conexões que possui um valor característico de conexões é dado pelo grau médio da rede, conforme mostra a Equação 2.3. A distribuição de Poisson é dada pela Equação 2.4. k = p(n 1) (2.3) P ER (k) = k k e k /k! (2.4) Esse mecanismo de construção implica que a vizinhança de cada vértice será fracamente conectada entre si se a probabilidade p for baixa, ou seja, o coeficiente de aglomeração médio, C A = k N, será baixo em uma rede esparsa (N k ). O que é válido na maioria das redes reais, implicando que C A 1 [Rocha 2007]. A aleatoriedade das conexões gera uma quebra de simetria que faz com que o caminho médio entre quaisquer dois vértices da rede seja muito pequeno se comparado ao tamanho da rede (d ER ln(n ) ln[ k ] ), quando a rede é esparsa. Esse fenômeno da distância média entre quaisquer vértices de uma rede Γ ser pequena é conhecido como o efeito small world (mundo pequeno), e foi inicialmente descoberto numa rede social construída a partir de um experimento conduzido por Stanley Milgram em 1967 [Milgram 1967] Redes Regulares Modelo popular no ramo da ciência da Física do Estado Sólido. Também chamadas de Redes Geográficas, as redes que caracterizam esse modelo possuem vértices que se situam em uma posição bem

18 2.2. Redes Complexas 12 definida no espaço Euclidiano. Além disso, as conexões são distribuídas somente entre os vizinhos topológicos de cada vértice. Na Física do Estado Sólido, a rede regular é uma ferramenta indispensável para a representação dos átomos em um estrutura e suas interações locais. A Figura 2.9 mostra um exemplo de uma rede regular com condições de contorno, onde cada um dos vértices está conectado aos seus primeiros vizinhos topológicos [Viana 2007]. Figura 2.9: Modelo de Rede Regular Redes Small World Muitas redes apresentam padrões altamente conectados, tendendo a formar pequenas quantidades de conexões em cada vértice. Nesse modelo, conexões são estabelecidas entre vértices mais próximos, apresentando assim um mundo pequeno (Small world). Neste modelo, a distância média entre quaisquer dois vértices de uma rede muito grande não ultrapassa um número pequeno de vértices. Para isso, basta que algumas conexões aleatórias entre grupos sejam estabelecidas. A Figura 2.10 ilustra uma rede do tipo Small world [Metz et al. 2007]. Figura 2.10: Modelo de Rede Small World [Metz et al. 2007]. O efeito small world é observado nas redes em que a maioria dos vértices se conecta a outros através de um caminho mínimo. O caminho mínimo, também chamado de caminho geodésico ou distância geodésica, é aquele formado pelo menor número de arestas que conectam um vértice origem e um vértice destino [Milgram 1967]. O comprimento do caminho mínimo médio (CM) entre pares de vértices em um grafo não direcionado é dado pela Equação 2.5, onde d i j é a distância geodésica do vértice i até o vértice j [Metz et al. 2007]. l = d i j (2.5) n(n + 1) i j

19 2.2. Redes Complexas 13 Essa definição apresenta problemas nas redes com mais de um componente. Um componente é representado por um único vértice, ou por um conjunto de vértices e de arestas que conectam os pares de vértices. Nas redes com mais de um componente não há um caminho conectando um vértice qualquer de um componente com um outro vértice qualquer de outro. Em outras palavras, há um subconjunto de vértices interconectados entre si, mas sem qualquer conexão com um outro subconjunto da rede. Para evitar problemas no cálculo da distância média geodésica, são considerados apenas os pares de nós em que há um caminho entre eles [Metz et al. 2007]. O efeito observado no modelo small world tem implicações relevantes na dinâmica de redes sociais. Por exemplo, um boato pode se espalhar muito mais rápido, se ao invés de cem passos, levarem apenas seis para chegar de um indivíduo ao outro Redes de Barabási e Albert Paralelamente às demonstrações matemáticas das propriedades das redes aleatórias, o estudo de redes sociais foi independentemente evoluindo ao longo das últimas décadas. Apesar das redes sociais apresentarem algumas propriedades das redes aleatórias (como o efeito small world), em geral, estas não apresentam uma distribuição de conexões aleatória, ou seja, seu mecanismo de construção não podia ser completamente atribuído à aleatoriedade. Em 1999 Barabási e Price propuseram um modelo de construção de rede bastante similar ao de Price (conexões direcionadas), porém para explicar a estrutura de ponteiros entre páginas da WWW. Ambos os modelos se diferenciavam das redes aleatória e regular por introduzir um crescimento e conexão preferencial [Rocha 2007]. No modelo de Barabási e Albert, ilustrado pela Figura 2.11(a), também conhecido como Modelo Livre de Escala, a rede é construída sobre um conjunto composto de m vértices que inicialmente estão completamente conectados. Cada novo vértice introduzido no conjunto V (Γ B A ) tem um número fixo de arestas m. Estas arestas do novo vértice são ligadas preferencialmente aos vértices de V (Γ B A ) mais conectados, tal que essa preferência seja dada por uma função f (k) = αk, onde α > 0 [Rocha 2007]. A preferência pelos vértices mais conectados (fenômeno também conhecido como o o rico fica mais rico"ou vantagem acumulada") resulta numa distribuição de graus (Figura 2.11(b), onde os vértices mais antigos concentram a maior parte das conexões em oposição aos vértices mais novos que ficam marginalizados na rede. Isto resulta numa Lei de Potência dada por P B A k 3, onde o grau médio é dado por k = 2m. Assim, diferentemente dos outros modelos, essa rede não possui um valor de grau (uma escala) característico e por isso do nome Rede Livre de Escala (ou sem escala). Essa distribuição mostra que, enquanto alguns vértices (concentradores ou hubs) possuem um grande número de vizinhos, a grande maioria dos vértices possuem um número pequeno de vizinhos. A presença desses hubs de conexões faz com que o caminho médio em quaisquer dois vértices da rede Γ B A seja consideravelmente diminuído, de forma que rapidamente um vértice v i possa ser alcançado a partir de qualquer outro vértice v j. O processo de crescimento e conexão preferencial também resulta de um baixo índice de conectividade na vizinhança do vértice v i ( C A N 0,75 ), porém com o valor maior que o índice da rede aleatória [Rocha 2007].

20 2.2. Redes Complexas 14 (a) (b) Figura 2.11: (a) Amostra da Rede Complexa de Barabási-Albert - o concetrador que emerge na estrutura aparece em cinza escuro - e (b) Distribuição de graus teórica resultante da convexão preferencias - não normalizada [Rocha 2007]

21 C A P Í T U L O 3 EXTRAÇÃO E MINERAÇÃO DE CONHECIMENTO EM BASE DE DADOS: PRINCIPAIS CONCEITOS O mundo de hoje é palco de uma evolução acelerada nos meios tecnológicos. Essa evolução proporciona cada vez mais formas para que se possa produzir e armazenar grande quantidade de dados. Isso faz com que o trabalho de analistas e pesquisadores em fazer análise sobre esses dados seja extremamente custoso se feito manualmente [Oliveira 2000]. Os analistas de negócios precisam fazer uso de ferramentas capazes de fornecer informações mais complexas do que apenas listar o número de pessoas cadastradas no mailing list do clube, ou desenhar gráficos da evolução de membros de uma fraternidade. É preciso que perguntas mais elaboradas sejam respondidas tendo como base dados por eles coletados. Perguntas como: qual pessoa dentre os meus associados possui maior influência sobre os demais associados, analisando os tipos de relações existentes entre esse associado e os outros membros do clube nos últimos 5 anos. Dessa forma, novas ferramentas de análise e extração de conhecimento devem ser usadas no processo decisório e investigativo [Oliveira 2000]. A Extração de Conhecimento em Base de Dados (do inglês Knowledge Discovery in Database - KDD) é uma área interdisciplinar, assim como as relações existentes entre as pessoas em determinados círculos sociais. A área de KDD incorpora técnicas utilizadas em áreas como Base de Dados, Inteligência Artificial e Estatística. Desse modo, as técnicas utilizadas em KDD não devem ser vistas como substitutas de outras formas de análise (e.g. OLAP), mas sim, como práticas para melhorar os resultados das explorações feitas com as ferramentas atualmente usadas [Oliveira 2000]. 3.1 Definições: Extração de Dados Uma definição aceita sobre KDD na comunidade acadêmica foi dada por Fayyad ( [Fayyad et al. 1996]) como sendo: Extração de Conhecimento em Base de Dados é o processo não trivial de identificação de padrões válidos, novos, potencialmente úteis e compreensíveis embutidos nos dados". Para um melhor entendimento é interessante definir mais claramente cada componente da mesma: Padrão: denota os conjuntos de modelos que representam alguma abstração de um subconjunto dos dados em alguma linguagem descritiva; Processo: a extração de conhecimento de uma Base de Dados envolve diversas etapas, tal como a preparação dos dados, busca por padrões e avaliação do conhecimento; 15

22 3.1. Definições: Extração de Dados 16 Válidos: os padrões descobertos devem possuir algum grau de certeza, ou seja, devem satisfazer funções ou limiares que garantam que os exemplos cobertos e os casos relacionados ao padrão encontrado sejam aceitáveis; Novos: um padrão encontrado deve fornecer novas informações sobre os dados. O grau de novidade serve para determinar o quão novo ou inédito é um padrão. Ele pode ser medido através de comparações entre as mudanças ocorridas nos dados, ou no conhecimento anterior; Úteis: os padrões descobertos devem ser incorporados de forma a serem utilizados; Compreensíveis: um dos objetivos de realizar-se KDD é fazer com que os padrões possam ser entendidos em alguma linguagem descritiva pelos usuários, de forma a permitir uma compreensão mais profunda dos dados; Conhecimento: o conhecimento é definido em termos dependentes do domínio que estão relacionados fortemente com medidas de utilidade, originalidade e compreensão. Vale ressaltar que em diversos trabalhos o termo KDD é utilizado como Data Mining. Porém, tem-se nesse trabalho uma distinção entre esses termos. Na qual Data Mining está inserido dentro do contexto do KDD, como componente deste processo. A matéria prima do KDD é composta pelos dados, que podem estar em diferentes estruturas de armazenamento Data Warehouse Um Data Warehouse (DW) é uma coleção de dados orientada a fatos, multidimensional, integrada e não volátil que armazena uma "cópia"otimizada dos dados operacionais para serem consultados e analisados. Esse tipo de repositório possui dados agregados, resumidos e históricos para apoiar tomadas de decisões estratégicas. Um DW pode ser visto como uma evolução dos sistemas gerenciadores da informação [Oliveira 2000, Ponniah 2001]. Existem alguns pontos importantes que precisam ser considerados no momento de se planejar e projetar um DW, como: eficiência nas respostas de consultas complexas, facilidade para se aumentar e diminuir o nível de agregação durante a navegação entre os dados, dispor de estruturas que possuam dados resumidos e agregados em múltiplas dimensões, entre outras. Um projeto de Data Warehouse envolve a definição de um modelo estrutural, a definição de sua topologia e possíveis fontes de dados e os mecanismos para transformar, inserir e atualizar dados. Deste modo, para conseguir realizar um projeto que atenda aos requisitos de um determinado domínio de aplicação, alguns componentes são imprescindíveis [Ponniah 2001]. Tais componentes são apresentados nas próximas subseções Fonte de Dados A fonte de dados dentro do DW pode ser agrupada em quatro (04) grupos gerais: dados de produção, dados internos, dados arquivados e dados externos. Os dados de produção são baseados nos requisitos de informação do DW, e servem para aplicações verticais. Estes dados são fornecidos por diferentes sistemas operacionais da empresa. Uma característica importante dos dados de produção é a disparidade. Um grande desafio é padronizar e transformar os dados díspares dos diversos tipos de dados de produção dos sistemas, convertê-los e integrar as partes em dados úteis para o armazenamento no DW. Os dados internos adicionam complexidade ao processo de transformar e integrar os dados antes que possam ser armazenados no DW. É preciso determinar estratégias para coletar os dados das planilhas, encontrar maneiras diferentes de coletar dados de documentos textuais e agregá-los as bases de dados dos departamentos.

23 3.1. Definições: Extração de Dados 17 Com relação aos dados arquivados, os DWs mantém dados históricos (arquivados) para que se possa analisá-los durante o tempo. Este tipo de dado é útil para os padrões mais exigentes e análise de tendências. Com relação aos dados externos, normalmente não são adequados com os formatos de dados internos. Deste modo, é necessário que se execute conversões de dados para seus formatos internos e tipos de dados. É importante que haja organização nas transmissões de dados a partir de fontes externas. Algumas fontes podem fornecer informações desde intervalos regulares a intervalos estipulados Dados de Teste Três funções principais devem ser realizadas para obtenção de dados: extração, transformação e carregamento dos dados nos diversos sistemas de armazenamentos do DW. Extração de Dados: Esta função deve lidar com grande quantidade de fontes de dados. Devese aplicar a técnica correta para cada tipo de fonte. Muitas vezes, por estarem em diferentes máquinas, os dados possuem formatos diferentes e devem ser tratados para sua extração; Transformação de Dados: Padronização dos elementos dos dados forma boa parte da transformação de dados, assim como padronização semântica. A padronização de dados também envolve a forma como elementos de diferentes entidades são combinados; Carregar Dados: Caracteriza a tarefa de carregar os dados. O teste de dados fornece um local, e uma área, com um conjunto de funções de limpar, alterar, combinar, converter, duplicar, e preparar fonte de dados para armazenamento e utilização nos DWs [Ponniah 2001] Armazenamento de Dados O armazenamento de dados nos DWs são feitos em repositórios diferentes. Estes repositórios necessitam manter grande quantidade de conteúdo histórico para análise de dados. Além disso, deve-se armazenar esses dados em estruturas convenientes para análise e não para uma rápida resposta de informações individuais. Portanto, os dados dentro do DW são armazenados separadamente dos dados do sistema operacional. Vale ressaltar que muitos DWs utilizam sistemas gerenciadores de base de dados multidimensionais (MMDDBs) [Ponniah 2001]. Todos os modelos seguem uma arquitetura formada por tabelas fatos, que possuem uma chave composta constituída de várias chaves que referenciam outras tabelas conhecidas como tabelas dimensionais, as quais representam diferentes dimensões de um negócio. Os modelos usados são [Oliveira 2000]: Modelo Star: possui uma única tabela fato ligada a várias tabelas dimensionais; Modelo Join Star: possui diversas tabelas fatos ligadas às tabelas dimensionais, sendo que uma tabela dimensional pode ser referenciada por mais de um tabela fato; Modelo Snowflake: diferencia-se do modelo Star por possuir apenas sub-tabelas"dimensionais, representando uma agregação maior dos dados que são referenciadas unicamente pelas tabelas dimensionais.

24 3.1. Definições: Extração de Dados Entrega de Informações Com o intuito de fornecer informação para todos utilizadores do DW, o sistema de entrega de dados inclui diferentes métodos de entrega conforme mostra a Figura 3.1. Figura 3.1: Componente de Entrega de Informações [Ponniah 2001] Metadados Os metadados em DW se assemelham aos metadados de outros similares como: dados do dicionário ou como catálogo de dados em um sistema de gerenciamento de banco de dados. Os metadados possuem dados sobre os dados contidos nos DWs Controle e Gerenciamento O gerenciamento e o controle interagem com o componente de metadados para executar as funções de gestão e controle. Como o componente de metadados contém informações sobre o armazenamento de dados em si, os metadados são a fonte de informações para o módulo de gestão [Ponniah 2001] Base de Dados e Data Warehouse Um DW é mantido separado da base de dados operacional. Isto é feito porque tal repositório suporta aplicações de processamento analítico online (OLAP), cujos requisitos funcionais e de desempenho são muito diferentes dos de aplicações para processamento de transações online (OLTP) que são suportadas por base de dados operacionais. Os sistemas OLTP são utilizados para processar operações feitas diariamente em uma organização, por exemplo, transações bancárias. Dessa forma, é necessário que as estruturas de armazenamento desses sistemas possuam um modelo normalizado, como Entidade Relacionamento, que favoreça o desempenho das transações e a consistência dos dados. Essas base, normalmente, possuem entre megabytes e gigabytes de dados armazenados. Num sistema OLAP, o DW é projetado para apoiar consultas complexas que auxiliem os analistas durante o processo de tomada de decisão, assim, dados históricos, agregados, sociais e resumidos são necessários. Os dados consolidados de um DW podem ser gerados a partir de diversas fontes, logo esse tipo de repositório tende a possuir giabytes ou até mesmo terabytes de dados. A Tabela 3.1 traça um paralelo entre base de dados operacionais e DW [Oliveira 2000].

25 3.2. Processo de Extração de Conhecimento de Base de Dados 19 Tabela 3.1: Principais Diferenças entre Base de Dados Operacionais e Data Warehouse. Apesar de não ser obrigatória, a construção de um DW pode reduzir drasticamente a complexidade e a duração do processo de KDD. 3.2 Processo de Extração de Conhecimento de Base de Dados Extrair conhecimento de base de dados pode envolver, entre outras coisas, a utilização de algoritmos de aprendizado de máquina capazes de generalizar os fatos encontrados em um grande repositório de dados, na forma de regras de alto nível compreensíveis ao ser humano. Quando se tenta realizar tarefas referentes ao descobrimento de conhecimento em aplicações do mundo real, percebe-se que as mesmas podem ser de extrema complexidade e que a tarefa de Data Mining representa apenas uma porção, de grande importância, do processo global. Assim o processo de KDD deve ser visto como sendo composto por várias etapas interligadas [Ponniah 2001].

26 3.2. Processo de Extração de Conhecimento de Base de Dados 20 Figura 3.2: Etapas do Processo de KDD [Ponniah 2001]. O processo de Extração de Conhecimento em Base de Dados é interativo e iterativo, envolvendo diversas etapas, conforme a Figura 3.2. Essa por sua vez deve considerar os seguintes passos para se conseguir extrair o conhecimento [Fayyad et al. 1996]: 1. Compreensão do domínio de aplicação; 2. Seleção de dados; 3. Preparação de dados; 4. Limpeza dos dados; 5. Data mining; 6. Interpretação e avaliação do conhecimento; 7. Consolidação do conhecimento. As etapas do processo de KDD, normalmente, são realizadas de forma sequencial, ou seja, é preciso compreender o domínio de aplicação, selecionar e transformar os dados para depois tentar encontrar padrões nos dados. E por se tratar de um processo interativo, as pessoas envolvidas na sua realização devem possuir um canal de comunicação que viabilize uma boa troca de informações [Oliveira 2000]. As etapas do processo de KDD sugeridas podem não cobrir exaustivamente todos passos existentes. Entretanto, esta sequência de tarefas pode ser considerada como sendo os requisitos mínimos para se conseguir extrair conhecimento de bases de dados.

27 3.2. Processo de Extração de Conhecimento de Base de Dados Compreensão do Domínio de Aplicação O entendimento do domínio de aplicação, de onde será extraído o conhecimento necessário para apoiar a tomada de decisões é de grande importância. Para isso, fica claro a necessidade de identificar quais são os objetivos e requisitos necessários para que seja possível extrair e incorporar o conhecimento adquirido. Não existe um padrão que se deve seguir a fim de obter total compreensão do domínio de aplicação. Porém, alguns aspectos podem ser levados em consideração na tentativa de se definir a esfera de ação de uma aplicação, como: Definição dos objetivos e dos requisitos da extração de conhecimento; Identificação das possíveis fontes de dados; Modo de distribuição do conhecimento extraído; Estudo de viabilidade e custos da aplicação do processo. Uma vez que o domínio de aplicação tenha sido compreendido, deve-se selecionar e preparar os dados para serem analisados na próxima etapa Seleção de Dados Essa etapa preocupa-se em localizar e escolher quais as fontes de dados estão relacionadas ao domínio, para que um conjunto de dados apropriado possa ser selecionado das mesmas. Por exemplo, se o objetivo é fazer análises das interações entre os usuários de uma rede social, então as fontes de dados significantes para essa etapa seriam: mensagens entre usuários, conectividade entre nós (usuários), usuários em comum, entre outros [Oliveira 2000]. As fontes de dados podem ser classificadas como internas e externas. As fontes internas normalmente são repositórios de dados que já estão incorporados ao sistema de aplicação do domínio em questão. Também e normalmente são constituídas por Data Warehouse, bases de dados operacionais e dados históricos. As fontes externas são compostas por todos os outros tipos de localidades que habitualmente não estão incorporados ao sistema de aplicação como, por exemplo, documentos (e.g. relatórios), Internet (e.g. HTML) e informações do especialista do domínio [Oliveira 2000]. Os dados contidos em fontes internas normalmente já estão armazenados em algum tipo de repositório estruturado (e. g. base de dados relacional) e, por isso requerem menos processamento, pois eles podem ser recuperados utilizando-se consultas SQL (Structured Query Language), por exemplo. Enquanto que os dados contidos em fontes externas precisam ser formatado e inseridos de forma que possam ser recuperados e preparados para análise [Oliveira 2000]. As fontes podem possuir quantidades de gigabytes e terabytes de dados e, além disso, estes dados podem vir de fontes distintas, necessitando que estes estejam reduzidos e colocados num conjunto de dados com estrutura homogênea (e. g. tabela) para permitir a análise conjunta destes. O dados podem estar em diferentes lugares, exigindo uma integração. Esta tarefa de integração muitas vezes não é trivial, exigindo a adequação de alguns dados [Oliveira 2000] Preparação de Dados Essa etapa é responsável pela atividade de amostragem dos dados. Nem sempre é possível analisar todos os dados de uma população, sendo necessário pegar uma amostra representativa para realizar o processo de KDD. Os dados também podem estar em formatos diferentes, pois podem ter sido coletados de diferentes fontes. Então, algumas transformações devem ser feitas sobre eles, por exemplo, converter tipos não suportados por um que todas as fontes consigam representar, se isso for possível [Oliveira 2000].

28 3.2. Processo de Extração de Conhecimento de Base de Dados 22 O tamanho do conjunto pode apresentar alguns problemas, pois a quantidade de dados reunida, às vezes, pode impossibilitar a realização do processo de KDD uma vez que algoritmos usados em Data Mining conseguem tratar apenas um número limitado de registros. Por isso, deve-se utilizar algumas técnicas de amostragem para que se possa reduzir o tamanho de dados obtendo um subconjunto que seja relevante e representativo. A realização de amostragem é crítica dentro do processo de KDD pois, se não forem utilizadas técnicas estatísticas adequadas, pode-se gerar um subconjunto de dados não representativo, resultando em análise que não demonstra a verdadeira situação dos fatos registrados na base de dados ou distorcendo resultados. Nesse interim, devem ser observados os seguintes aspectos para se fazer amostragem dos dados: O tamanho da amostra; Estratégias para obtenção da amostra (técnicas estatísticas podem ser utilizadas, bem como o apoio do especialista do domínio); Homogeneidade dos dados; Dinâmica dos dados (mudança de valores de atributos ao longo do tempo). Durante a coleta de dados, pode ocorrer dos dados conterem informações replicadas, campos faltantes"e ruídos. Assim é preciso limpar e pré-processar estes dados para que possam ser aplicadas técnicas de Data Mining (DM) [Oliveira 2000] Limpeza e Pré-Processamento de Dados Devido aos erros, registros replicados e dados ausentes presentes durante a preparação de dados (Seção 3.2.3) é importante fazer uma limpeza de pré-processamento nos dados. As operações para contornar esses erros"devem compreender, entre outros, os seguintes aspectos: padronização dos valores do atributos, remoção de registros duplicados, tratamento e eliminação de ruídos e tratamento de valores ausentes. Em um conjunto de dados constituído por diversas fontes pode acontecer, por exemplo, que o atributo sexo"possua diferentes valores e tipos com o mesmo significado como: masc", masculino", m"ou 1". Então, deve-se transformar estes valores como sendo de um tipo único e iguais para todos, padronizando-os [Oliveira 2000]. Pode ocorrer que os mesmos dados, de um cliente, estejam contidos em diferentes registros e sendo considerado como duas pessoas distintas, pois, o nome do cliente em um determinado registro aparece sem abreviações e em outro aparece abreviado. Deste modo, é importante remover registros duplicados. Muitas vezes os dados coletados podem conter erros ocasionados por diversos fatores no momento da recuperação de diversas fontes, como: acidentes (e. g. falta de energia elétrica), tipos não são suportados pelo gerenciador de base de dados (e.g. objetos multimídia podem não ser suportados e serem armazenados como lixo"), entre outros. Os campos que contém ruídos nos seus valores devem ser tratados atribuindo o valor correto aos dados, ou devem ser eliminados da base de dados caso não tenham como ser tratados. É muito comum encontrar registros cujos campos possuam valores ausentes. Isto pode ocorrer devido a erros na entrada dos dados, por exemplo, se no momento em que um operador estiver cadastrando as informações de clientes, ele pode esquecer (ou ignorar) alguns campos de dados. Dessa forma, deve-se estabelecer critérios para o tratamento de atributos ausentes [Oliveira 2000] Apesar de existirem ferramentas capazes de automatizar essas tarefas, a presença de um especialista de domínio pode torná-la muito mais precisa e confiável. Com os dados selecionados, preparados, limpos e pré-processados pode-se dar início à etapa de Data Mining.

29 3.2. Processo de Extração de Conhecimento de Base de Dados Data Mining A etapa de Data Mining, ou mineração de dados, pode ser vista como uma sequência de etapas dentro do processo de KDD, que pode envolver repetidas iterações da aplicação de um determinado algoritmo com o objetivo de se extrair padrões dos dados. Os algoritmos e as técnicas usados para se criar modelos a partir de dados, normalmente, provém de áreas como: Aprendizado de Máquina (AM), Reconhecimento de Padrões e Estatística. Estas técnicas, muitas vezes, podem ser combinadas para se obter resultados melhores Técnicas Básicas de Data Mining Os dois objetivos principais da mineração de dados são a previsão e a descrição de modelos. A previsão pode ser conseguida utilizando-se determinadas variáveis para prever valores desconhecidos ou futuros de outras variáveis de interesse. A descrição envolve a descoberta de padrões interpretáveis por humanos que descrevam os fatos cadastrados em bases de dados. Alguns autores como Fayyad [Fayyad et al. 1996] mencionam que dentro do contexto de KDD, descrever modelos possui maior importância que prever os mesmos, embora a maioria dos algoritmos de AM e Reconhecimento de Padrões foquem na previsão [Oliveira 2000]: Além dos algoritmos de mineração de dados (explicados na Seção ) é necessário descrever as técnicas utilizadas. Essas definições ficam mais claras considerando que os dados a serem minerados são representados em forma de tabela normal ou planilha. Dentro dessa, considera-se suas linhas como dados (registros) e as colunas como atributos. Assumi-se que todas as linhas devem ser consideradas para a mineração de dados, mas os valores de atributos de algumas podem estar faltando. Um outro conceito usado em mineração de dados é o de espaço de atributos. Pode-se imaginar que cada dado em uma base (linhas na tabela) é um ponto n-dimensional que pode ser facilmente visualizado se houver duas ou três dimensões (dados com mais de três dimensões devem ser visualizados com técnicas específicas). Dados semelhantes devem aparecer geometricamente próximos no espaço de atributos, e a distância calculada neste espaço entre dois pontos é usada por várias técnicas de mineração de dados para representar semelhança e diferença entre os dados correspondentes. A ordem que os dados aparecem na tabela é irrelevante para a distribuição destes pontos no espaço de atributos. Tabela 3.2: Exemplo de Dados para Mineração em Forma de Tabela [Santos 2009]. Para melhor entender as técnicas existentes tem-se como exemplo de dados a Tabela 3.2, a qual possui sete (07) registros e cada um tem seis (06) atributos (A 1 à A 5 e classe). Os atributos A 1 à A 4 são numéricos, possivelmente representados por escalas diferentes. O atributo A 5 é discreto, representado por um caracter ( I ou P ). A classe é discreta, podendo assumir valores como: baixo, médio ou alto. Para alguns dados, o valor deste atributo não se encontra disponível, sendo representado pelo símbolo?. Com estas definições é possível descrever as várias técnicas usadas para criar os modelos usados em mineração de dados. Estas técnicas podem ser categorizadas nos modelos usados em mineração

30 3.2. Processo de Extração de Conhecimento de Base de Dados 24 de dados. Nos seguintes tipos [Santos 2009]: classificação, regressão, agrupamento, sumarização, modelagem de dependência, detecção de mudanças entre outros. Estas técnicas não são mutuamente exclusivas entre si, ou seja, técnicas de classificação como árvores de decisão [Quinlan 1993] ou regressão são muito usadas para sumarização. Classificadores são usados para criar modelos para detecção de desvios, técnicas de modelagem de dependência podem ser usadas para determinar subconjuntos de dados para processamento especializado, e até mesmo técnicas híbridas que combinam aspectos de classificação e agrupamento podem ser usadas quando não for possível usar dados e categorias de forma confiável Classificação Descoberta de uma, função preditiva que consegue classificar um dado em uma de várias classes discretas que são pre-definidas ou conhecidas. Como por exemplo, segundo a Tabela 3.2, seria a classificação do conteúdo de um documento a partir de atributos medidos do mesmo, no caso, determinação do valor do atributo classe"para cada registro, a partir dos valores dos atributos A 1 a A 5. A função de classificação é criada usando-se os atributos de vários exemplos existentes de dados e de suas classes fornecidas de forma supervisionada. O algoritmo de classificação aprenderá que testes e valores devem ser aplicados aos atributos para decidir por uma classe. A classe deve ser um atributo de tipo discreto, e para que um bom modelo seja gerado, é necessário ter um conjunto razoável de dados completos para cada uma das classes consideradas para a tarefa [Santos 2009] Regressão Descoberta de uma função preditiva de forma similar à feita na técnica de Classificação, mas com o objetivo de calcular o valor numérico real ao invés de obter uma classe discreta. Algoritmos de regressão podem ser usados para atribuir uma nota numérica (como um fator de indicação) para um filme baseado em seus atributos. Assim como no caso da Classificação, a função que calcula a nota poderá ser criada analisando exemplos de filmes, seus atributos e notas já existentes, onde a nota deve ser um atributo numérico [Santos 2009] Agrupamento ou Clustering Descoberta de grupos naturais de dados que possivelmente indicam similaridade entre os mesmos. Dados agrupados em um mesmo grupo podem ser considerados parecidos o suficiente; e dados em grupos diferentes são considerados diferentes entre si. Diferentemente das técnicas de Classificação e Regressão, não existem classes ou valores pré-definidos que podem ser usados para identificar as classes. Os algoritmos de agrupamento formam os grupos considerados naturais de acordo com alguma métrica, para que possam ser processados posteriormente como objetos correspondendo à mesma categoria. A maioria dos algoritmos clássicos de agrupamento somente permite o uso de atributos numéricos, já que uma função de distância é usada para determinar a pertinência de um determinado dado a um grupo, mas extensões que consideram dados numéricos e não numéricos de forma separada podem ser criadas. Usando a Tabela 3.2, e técnicas tradicionais, é possível descartar os atributos A 5 e Classe, e verificar se os dados podem ser agrupados em dois ou mais grupos naturais, ou verificar se os dados para determinada classe formam grupos compactos e bem separados dos de outras classes [Santos 2009] Sumarização Técnicas que permitem a identificação de uma descrição compacta e inteligível para os dados (ou para um subconjunto dos mesmos). Frequentemente é possível sumarizar os dados mesmo com alguma imprecisão, e o valor das técnicas é na capacidade de descrever os dados, não necessariamente

31 3.2. Processo de Extração de Conhecimento de Base de Dados 25 Tabela 3.3: Classificação dos Algoritmos de AM usados em Data Mining [Oliveira 2000]. em sua precisão. Uma sumarização grosseira pode ser feita com os dados da Tabela 3.2 e expressa com regras: documentos classificados como alto"tem o valor do atributo A 2 maior do que 50 e documentos classificados como médio"tem os valores de A 1 maiores que 100 [Santos 2009] Modelagem de Dependência A Modelagem de Depencdê considera técnicas que permitem a identificação de um modelo que descreve dependências significativas entre valores de um atributo de um conjunto de dados ou parte dele ou valores existentes nos dados. Técnicas de busca de regras de associação (também conhecidas pelo nome genérico carrinho de compras") podem ser consideradas técnicas do modelo de dependência. Essas técnicas geralmente assumem que os tipos de atributos usados são discretos ou discretizáveis no próprio algoritmo que implementa a técnica [Santos 2009] Detecção de Mudança ou Desvios (Outliers) Técnicas que permitem a descoberta e identificação de dados que não se comportam de acordo com um modelo aceitável de dados (ou, por exemplo, mudanças em séries temporais ou em dados indexados por tempo). Estas técnicas podem identificar mudanças ou padrões inesperados em todos os dados ou em um subconjunto [Santos 2009] Algoritmos Utilizados em Data Mining A escolha de um algoritmo para DM deve considerar vários aspectos: objetivo da tarefa a ser realizada, tamanho da base de dados, precisão exigida, entre outros. Muitas vezes, são realizados testes empíricos com diferentes tipos de algoritmos para se descobrir qual deles apresenta o melhor resultado em termos da qualidade e precisão dos padrões encontrados. Os algoritmos de aprendizado de máquina podem ser classificados em vários aspectos: por tipo de aprendizado, por tipo de paradigma, por tipo de linguagem de descrição, e por modo de incorporação de novos exemplos. A Tabela 3.3 apresenta um resumo dessa classificação [Oliveira 2000]. Com relação ao modo como esses algoritmos aprendem, eles podem ser classificados como sendo de aprendizado supervisionado e não supervisionado. No aprendizado supervisionado os algoritmos utilizam dados para treinamento, dados para validação e teste dos modelos gerados. No aprendizado não-supervisionado não existem dados de treinamento, assim o algoritmo deve tentar encontrar os padrões através de caracterização e/ou segmentação destes dados. Deste modo, os algoritmos de aprendizado de máquina podem seguir diferentes paradigmas, tais como [Oliveira 2000]: Paradigma Simbólico: o aprendizado é feito na tentativa de se construir representações simbólicas de um conceito através da análise de exemplos de contra exemplos desse conceito. As representações simbólicas estão tipicamente na forma de alguma expressão lógica, árvore de deci-

32 3.2. Processo de Extração de Conhecimento de Base de Dados 26 são, regras de produção, rede semântica, etc. Os métodos de aprendizado podem ser tratados como: proposicional e relacional [Tecuci et al. 1995]. Paradigma Estatístico: as técnicas estatísticas, em geral, tendem a focar tarefas em que todos os atributos têm valores contínuos. Vários modelos matemáticos são utilizados para se construir os modelos dos dados [Elder IV e Pregibon 1996] Paradigma Instance-Based: uma forma de classificar um caso é lembrar de um caso similar cuja classe é conhecida e assumir que o novo caso terá a mesma classe. Esta filosofia exemplifica os sistemas instance-based, que classificam casos nunca vistos através de casos similares conhecidos [Aha, Kibler e Albert 1991, Quinlan 1993]. Paradigma Conexionista: as redes neurais artificiais (RNA) são construções matemáticas relativamente simples que utilizam o mecanismo de paralelismo, onde são conectados um grande número de pequenas unidades de processamento ligadas em rede. As RNA possuem a capacidade de aprender por exemplos e fazer interpolações e extrapolações do que aprenderam. No paradigma conexionista não se procura obter regras como na abordagem simbólica, mas determinar a intensidade de conexões entre neurônios [Braga, Carvalho e Ludermir 2007]. Paradigma Genético: um classificador genético consiste de uma população de elementos de classificação que competem para fazer uma predição, onde os elementos que possuem uma performance fraca são descartados e os mais fortes proliferam, produzindo variações de si mesmos. Os algoritmos deste paradigma são conhecidos por algoritmos genéticos, os quais baseiam-se nos mecanismos de seleção natural e genético para fazer otimizações e buscas [Goldberg]. Em um sistema de aprendizado é preciso representar exemplos, conceitos ou a teoria do domínio da aplicação na forma de linguagens de descrição. Estas linguagens são [Oliveira 2000]: Linguagem de descrição de exemplos ou instâncias: descreve os exemplos utilizados pelo programa para aprender conceitos, estabelecendo limites sobre tipos de padrões que o sistema pode aprender; Linguagem de descrição de hipóteses ou conceitos aprendidos: descreve o estado interno de um programa de aprendizado, correspondente a teoria dos conceitos ou padrões que existem nos dados, estabelecendo limites sobre o que pode ou não pode ser aprendido (e.g. regras de decisão, árvores de decisão); Linguagem de descrição da teoria de domínio ou conhecimento de fundo: descreve todo o conhecimento prévio que o programa possui a respeito do domínio. Os algoritmos de aprendizado indutivo também podem ser classificados de acordo com a possibilidade de integração de novos exemplos aos modelos encontrados, podendo ser classificados como [Oliveira 2000]: Não incremental: necessita de que todos os exemplos de treinamento, simultaneamente, estejam disponíveis para que seja induzido um conceito. É vantajoso usar esses algoritmos para problemas de aprendizado onde todos os exemplos estão disponíveis e, provavelmente, não irão ocorrer mudanças; Incremental: revê a definição do conceito corrente, se necessário, em resposta a cada nova instância de treinamento observada. Os exemplos observados são considerados um a um pelo sistema. Isto é, o sistema considera o primeiro exemplo e, de acordo com esse exemplo, constrói uma determinada hipótese; a seguir considera um segundo exemplo, que pode ou não modificar a primeira hipótese, baseando-se em como esta classifica o segundo exemplo

33 3.2. Processo de Extração de Conhecimento de Base de Dados 27 Tabela 3.4: Exemplos de Algoritmos de Aprendizado de Máquina [Oliveira 2000]. Alguns dos algoritmos utilizados para fazer extração de padrões [Tecuci et al. 1995, Kohavi et al. 1994] são listados na Tabela 3.4. Estes algoritmos são classificados em função de tipo de aprendizado, paradigma de aprendizado, linguagem de descrição e modo que novos exemplos são incorporados Extração de Padrões Após definida a tarefa de Data Mining e escolhido o algoritmo, é possível iniciar o processo de extração de conhecimento. Entretanto, deve ser observado que o analista precisa observar algumas aspectos de extração de conhecimento tais como: Definição de Parâmetros, Redução de Atributos, Generalização, Mudanças dos Dados e Compreensão de Padrões. Que serão detalhadas nas próximas seções [Oliveira 2000] Definição de Parâmetros Algoritmos diferentes, normalmente, possuem parâmetros distintos. A definição correta dos parâmetros, frequentemente, pode ser conseguida através de experimentos empíricos. Assim, quanto mais experiente for o analista maior serão as chances deste conseguir ajustar os parâmetros adequadamente Redução de Atributos Pode ser percebido que alguns dos atributos do conjunto de dados não possuem muita relevância para o algoritmo selecionado, então pode-se pensar em excluir tais atributos Generalização Um algoritmo deve ser capaz de reconhecer padrões desconhecidos e não decorar exemplos apresentados. Para isso, deve-se utilizar técnicas estatísticas que reforçam a generalização de um preditor ou descritor, além de garantir pequenas taxas de erros. Para isso, as amostras são dividas em conjuntos separados de treinamento e teste, possibilitando dessa forma medir a taxa de erro através do conjunto de teste. Essas técnicas são [Oliveira 2000]: Holdout: divide fixamente a amostra de exemplos em dois terços para treinamento e um terço para teste. A estimativa deste método é adequada para grandes conjuntos de dados. Resampling: realizam experimentos com diferentes partições das instâncias em teste e treinamento. Possui como taxa de erro a média das taxas de erros calculadas sobre o conjunto de teste e treinamento, e possui como taxa de erro a média das taxas de erros calculadas sobre o conjunto de teste em casa experimento. Um método bastante utilizado de resampling é o

34 3.3. Representação e Processamento de Dados da Web para Mineração 28 cross-validation que divide um conjunto de exemplos em k partições mutuamente exclusivas. A cada iteração é utilizada uma partição para testar o sistema de aprendizado e k 1 restantes para o treinamento. Como são realizadas k iterações, então todas as k partições servem como conjunto de teste Mudanças dos Dados Dados que mudam com muita frequência podem invalidar os padrões descobertos anteriormente. A possível solução para este problemas é incluir métodos incrementais que consigam atualizar os padrões já encontrados Compreensão de Padrões Em muitas aplicações é importante tornar as descobertas mais facilmente compreensíveis aos usuários. Para tanto, podem ser utilizadas técnicas sofisticadas de visualização de dados. Os resultados obtidos, normalmente, são apresentados em algum tipo de representação como árvores de decisão, regras de decisão, gráficos ou relatórios escritos. Várias áreas estão envolvidas no processo de KDD, desde a coleta dos dados a serem analisados até a visualização dos resultados obtidos [Oliveira 2000] Interpretação e Avaliação de Padrões Os padrões encontrados na etapa de DM devem ser validados a partir da interpretação e avaliação destes. Os usuários envolvidos devem interpretar os padrões extraídos e, para tal, podem lançar mão de ferramentas estatísticas e de visualização que permitam fazer uma leitura"precisa sobre os resultados, de forma a possibilitar a verificação da validade e novidade, ou mesmo, a irrelevância dos padrões encontrados [Oliveira 2000]. Caso o conhecimento não seja validado, então provavelmente deve-se retornar às etapas anteriores e tentar refazê-las ou senão melhorá-las. Esta iteração pode ocorrer até que se obtenha resultados aceitáveis ou concluir-se que seja possível extrair conhecimento relevante dos dados [Oliveira 2000] Consolidação do Conhecimento Nessa etapa deve-se agregar valor a um sistema de apoio à tomada de decisão. Isto é feito incorporandose tal conhecimento a um sistema de aplicação ou documentando-o e relatando-o às partes interessadas. Após a consolidação do conhecimento, pode-se resolver conflitos potenciais entre os conhecimento anteriores e previamente extraídos ou acreditados [Oliveira 2000]. 3.3 Representação e Processamento de Dados da Web para Mineração Estudos de mineração de dados na Web possuem três enfoques principais [Santos 2009]: Mineração de Conteúdo da Web, que é o processo de extração de conhecimento do conteúdo de documentos e de seus metadados (descrição, informações sobre autores, palavras-chave, etc). Esse enfoque abrange principalmente documentos textuais (páginas em texto, HTML ou outros formatos; s, lista de discussão, grupos de usuários blogs, etc), mas pode-se também incluir mineração de dados multimídia na Web usando ou não dados textuais associados. Mineração de Estruturas da Web, que é o processo de descoberta de conhecimento a partir da organização da Web, em especial através da ligação entre documentos na Web.

35 3.3. Representação e Processamento de Dados da Web para Mineração 29 Mineração de Uso da Web, que envolve a análise de dados coletados sobre o acesso à documentos na Web (em particular logs), geralmente com a intenção de descobrir padrões de acesso a sites ou conjuntos de documentos apara melhorar a qualidade da experiência do usuário ou para modelar o comportamento dos mesmos. Segundo Rafael Santos [Santos 2009] esses três enfoques não são mutuamente exclusivos. Frequentemente usa-se um conjunto de dados como suporte a outro. Algumas abordagens ( [Wu et al. 2008] e [Utard e Fürnkranz 2005]) usam dados de conteúdo dos documentos e das ligações entre documentos para tarefas específicas de mineração, e outras [Berendt et al. 2002] usam logs de servidores juntamente com as estruturas correspondentes dos sites para melhor caracterizar os padrões de acesso dos usuários. A natureza dos dados que podem ser usados diferenciam-se bastante dependendo do enfoque dado: dados de conteúdo são geralmente textuais, com alguma estrutura, dependendo do formato (HTML, s), que indica seções ou identifica metadados dos documentos. Dados sobre o uso na Web, em geral são estruturalmente bem mais simples, representados como entradas temporais em uma base de dados textual (logs) que podem ser praticamente considerados como uma tabela de banco de dados relacionais. Dados de estruturas da Web são representados como grafos onde vértices representam objetos na Web e arestas representam conexões entre estes objetos [Santos 2009] Estado da Arte: Aplicações de Mineração de Dados na Web Por se tratar de um assunto muito vasto, esta seção mostra apenas alguns trabalhos publicados relacionados com a mineração de dados na Web. Devido sua dimensão os trabalhos podem ser publicados em vários tipos de veículos, deste modo, forne-se aqui uma pequena amostra do conteúdo como um todo Mineração de Conteúdo [Gryc et al. 2007] investigam algumas abordagens analíticas para tentar descobrir como a inovação acontece com dados de discussão coletados de uma rede social limitada e temporária"(innovation Jam da IBM). Os dados contém informações textuais (tópicos de discussão), a estrutura destes tópicos e as relações entre os participantes (a maioria funcionários da IBM). [Durant e Smith 2006] apresentam técnicas de mineração de dados que, usadas com alguns atributos específicos, conseguem estimar o sentimento político de blogs. A seleção de atributos melhora consideravelmente a qualidade da classificação obtida com algoritmos clássicos. [Baeza-Yates, Jr. e Ziviani 2006] apresentam um estudo interessante sobre o reuso de conteúdo na Web, mostrando que o conteúdo de parte da Web usada no estudo é reciclada"de outras páginas mais antigas, e comentam sobre a influência deste fato nos algoritmos de classificação de sistemas de busca. [Linstead et al. 2009] apresentam uma ferramenta que coleta, processa e armazena documentos em repositórios de software na Internet, criando métricas e descritores sobre autores, documentos, palavras e tópicos, que podem ser usadas para quantificação e análise do código e busca por similaridade, disparidades e competências. [Piatetsky-Shapiro 2007] usa os documentos do site KDNuggets.com para uma análise das mudanças dos termos frequentes ao longo do tempo, identificando mudanças de comportamento como ofertas de emprego relacionadas com mineração de dados por indústrias e decréscimo de interesse por alguns termos (com explicações baseadas em experiência pessoal) Mineração de Estruturas na Web O exemplo mais conhecido de algoritmo de mineração de estruturas na Web é o PageRank [Wu et al. 2008], implementado pelos criadores do Google.

36 3.3. Representação e Processamento de Dados da Web para Mineração 30 [Utard e Fürnkranz 2005] mostram uma nova maneira de incorporar informações sobre o conteúdo de dois documentos na Web conectados por hyperlinks. Ao invés de usar todo o texto ou um sumário dos documentos, eles usam parte das páginas próximas das declarações dos hyperlinks. Seu trabalho apresenta várias abordagens para identificar proximidade estrutural e textual entre os documentos, e avalia estas abordagens. [Bhagat, Cormode e Rozenbaum 2007] usam informações de relações entre blogs para classificálos através de uma abordagem de rotulação de grafos de forma semi-supervisionada. A técnica é demonstrada classificando blogs como semelhantes a alguns já rotulados usando atributos como idade, sexo e localização Mineração de Redes Sociais e Similares [Creamer et al. 2007] apresentam uma técnica de mineração de ligações para extrair hierarquias sociais a partir de coleções de mensagens eletrônicas. A abordagem é demonstrada com dados reais (troca de mensagens entre executivos da empresa Enron). A técnica pode ser usada para inferir hierarquias de outros domínios, como redes sociais, por exemplo. [Creamer e Stolfo 2009] apresentam um algoritmo que pode ser aplicado a redes sociais corporativas (compostas de diretores e analistas financeiros) para avaliação do impacto de parâmetros [REVER] em ganhos e estratégias das empresas. [Zaïane, Chen e Goebel 2009] consideram que bases de dados bibliográficas podem ser usadas para abstrair redes sociais de pesquisadores, criando e analisando grafos de relações autor-conferência e autor-conferência-tópicos. A técnica pode ser usada para identificar áreas de atuação similares e recomendar colaborações entre pesquisadores. [Semeraro et al. 2006] apresentam um sistema de descoberta de perfis de usuários que extrai as preferências do usuário a partir de bases de artigos científicos indexados semanticamente. Uma comparação entre técnicas para indução de perfis de usuários a partir de recomendações de produtos dos usuários, e consequentemente de suas preferências, é feita por [Esposito et al. 2003]. [Williams et al. 2006] apresentam um estudo sobre mecanismos que podem impedir ou minimizar o efeito de ataques por injeção de perfis", que são usados para prejudicar revisões em sistemas abertos de recomendação. Este trabalho extende um anterior ( [Mobasher, Jin e Zhou 2003]) que apresenta as vulnerabilidades em sistemas colaborativos de recomendação e as técnicas que podem ser usadas para explorar estas vulnerabilidades. [Wang et al. 2008] apresentam um modelo generativo para inferência de comunidades a partir de uma sequência temporal de eventos de interações entre membros de uma comunidade, em contraste à maioria das técnicas tradicionais de mineração de dados de comunidades, que usam redes ou grafos estáticos. [Shah et al. 2002] usam técnicas para identificar padrões frequentes ou comuns de lances em um sistema de leilões eletrônico (ebay), e conseguem confirmar padrões já esperados e identificar novos nos dados coletados. Como parte da análise os autores apresentam possíveis motivações econômicas para alguns destes padrões identificam possíveis tentativas de fraude Mineração de Registros de Acesso (logs) a Servidores e Similares [Anand, Mulvenna e Chevalier 2003] apresentam uma visão geral do processo de mineração de registros de acesso, analisando várias métricas de eficiência propostas na literatura e propondo modelos de interação entre usuários e objetos em um site. [Kim e Chan 2005] mostram uma técnica para personalizar resultados de um sistema de buscas na Internet usando interesse pessoal dos usuários, representado através de seus marcadores (bookmarks) que indicam interesses em páginas e tópicos. [Masseglia et al. 2008] apresentam a solução para um problema interessante: tradicionalmente logs são segmentados em períodos arbitrários (um determinado mês ou período para o qual existe um interesse explícito), o que faz com que a análise seja automaticamente tendenciosa e que impede

37 3.3. Representação e Processamento de Dados da Web para Mineração 31 a descoberta de picos sazonais em registros. A abordagem proposta pelos autores extrai automaticamente períodos densos"de acesso e padrões de comportamento frequentes Outros [Escudeiro e Jorge 2005] apresentam uma metodologia de recuperação automática de conteúdo (coleções de documentos) da Web baseada em tópicos que é adaptativa e dinâmica (podendo mudar de acordo com mudanças de interesse do usuário). O artigo também apresenta uma detalhada análise de sistemas semelhantes desenvolvidos anteriormente, por outros autores. [Markov, Last e Kandel 2006]propõem o uso de informação estrutural e contextual para classificação de documentos, e mostram que o uso deste tipo de informação (ordem e proximidade das palavras, localização da palavra no documento, marcadores de texto como HTML) oferece resultados melhores do que os obtidos com classificadores que usam vetores de atributos dos textos.

38 C A P Í T U L O 4 REDES SOCIAIS: REFERENCIAL TEÓRICO Redes Sociais podem ser entendidas, de forma geral, como um conjunto de nós sócio-relevantes conectados por uma ou mais relações. Estes nós, também conhecidos como membros da rede, são as unidades que são conectadas pelas relações cujos padrões estuda-se neste trabalho. Muitas vezes essas unidades são pessoas ou organizações, mas a princípio toda unidade que se conecta a outras unidades pode ser estudada como nós dentro de uma rede. Isto incluindo páginas web [Watts 1999], artigos [Wellman et al. 2003], países, vizinhanças, posições, entre outros. Definir quais nós incluir dentro da análise de redes geralmente acaba acarretando certos desafios. Por exemplo, um estudioso na área de pesquisas médicas sobre doenças de coração. Definiri quais indivíduos considerar para tal análise pode ser uma tarefá árdua, especialmente porque muitas análises em redes evitam abordagens baseadas em grupos para compreender o mundo social. 4.1 Elementos des Redes Sociais As redes sociais, sejam elas virtuais ou não, possuem elementos que não são tão facilmente identificados quanto em uma rede comum. Como definir os atores sociais dentro da Internet? Quais tipos de relações considerar entre os atores? O que influencia na dinâmica do conteúdo dessa rede? Quais os tipos de dados que melhor exemplificam/modelam essas redes? Deste modo, tem-se um vasto número de elementos presentes nas redes sociais. As seções seguintes focam em explicar os principais elementos constituintes destas redes, assim como suas principais métricas Atores Os Atores são um dos principais elementos das redes sociais, os quais são representados pelos nós. Estes, geralmente, são pessoas que atuam de forma a moldar as estruturas sociais, através da interação e da constituição de laços sociais. No entanto, quando se foca em redes sociais na Internet o atores podem assumir papéis um pouco diferente do padrões convencionais. Isso por causa do distanciamento entre os envolvidos na interação social, principal característica da comunicação mediada por computador, os atores não são imediatamente discerníveis. Estes, no ciberespaço, podem ser representados por um weblog, por um fotolog, por um twitter, etc [Recuero 2009]. A importância destes atores frente às redes sociais está presente em trabalhos como: [Döring 2002], [Lemos 2002], [Sibilia 2003], [Sibilia 2004] entre outros. 32

39 4.1. Elementos des Redes Sociais Conexões Sem juízo de valores as conexões entre os nós das redes sociais são as relações existentes entre os mesmos. Estas por usa vez, podem ser percebidas de diversas maneiras. As conexões em uma rede social são constituídas dos laços sociais, que são formados através da interação social entre os atores [Recuero 2009]. Por determinar as alterações dentro das estruturas das redes sociais, as conexões são o grande foco de estudo na análise de redes sociais. Essas conexões, na Internet, são percebidas graças à possibilidade de manter os rastros sociais dos indivíduos, que persistem. Um comentário em um weblog, por exemplo, permanece ali até alguém o delete ou o weblog saia do ar. Essas relações permanecem no ciberespaço, permitindo ao pesquisador a percepção das trocas sociais Interação, Relação e Laços Sociais Para distinguir os diferentes tipos de conexões especificam-se as mesmas de acordo com suas principais características Interações A interação pode ser vista como a matéria prima das relações e dos laços sociais. Para autores como [Cardoso e Iaani 1966], a interação implica em uma reciprocidade da satisfação entre os envolvidos e compreende também as intenções e atuações de cada um. A interação é, portanto, aquela que tem um reflexo comunicativo entre o indivíduo e seus pares, como reflexo social. Deste modo, o estudo da interação social compreende o estudo da comunicação entre os atores. As interações dentro do ciberespaço podem ser classificadas como [Recuero 2009]: Síncrona: é aquela que simula uma interação em tempo real (e.g. chats, sistema de mensagens, etc); Assíncrona: é aquela que não possui uma expectativa de resposta imediata (e.g. s). No âmbito virtual, as interações entre atores ocorrem de forma um pouco diferente. Segundo Raquel, [Recuero 2009], há vários fatores, dentre os quais dois possuem maior relevância. O primeiro é que os atores não se dão imediatamente a conhecer, não existe pistas da linguagem não verbal e da interpretação do contexto da interação. É tudo construído pela mediação do computador. O segundo é a influência das possibilidades de comunicação das ferramentas utilizadas pelos atores. Essas permitem que a interação entre os usuários perdurem mesmo quando os mesmos se encontram desconectados do ciberespaço. Com isso, pode-se atribuir a esse último fator o aparecimento de interações assíncronas Relações O conjunto de interações sociais forma relações sociais. Segundo [Wasserman e Faust 1994] são os padrões de interação, que definem uma relação social que envolve dois ou mais agentes ou indivíduos comunicantes. Esses padrões (ou regularidades) nas interações fazem surgir as estruturas. A relação é considerada a unidade básica de análise em uma rede social. Entretanto, uma relação sempre envolve uma quantidade grande de interações. Por exemplo, dar suporte, pode acontecer através de uma troca de mensagens no Google Talk ou mesmo de um comentário, ou de ambos. Receber suporte também é resultado dessas interações. No entanto, as relações não precisam ser compostas apenas de interações capazes de construir, ou acrescentar algo. Elas também podem ser conflituosas, ou compreender ações que diminuam a força do laço social [Recuero 2009]. As relações podem ser mediadas pelo computador, da mesma forma que as interações. A mediação pelo computador traz aspectos importantes para a relação social. Este distanciamento proporciona, por exemplo, anonimato sob muitas formas, já que a relação entre o corpo físico e a personalidade do ator já não é imediatamente dada a conhecer. Logo, é mais fácil iniciar e terminar relações,

40 4.1. Elementos des Redes Sociais 34 pois muitas vezes, elas não envolvem o eu"físico do ator. Além do mais, barreiras como sexualidade, cor, limitações físicas e outras não são imediatamente dadas a conhecer, proporcionando uma maior liberdade aos atores envolvidos na relação, que podem reconstruir-se no ciberespaço [Recuero 2009] Laços Wellman [Wellman 2001] define laços como, Laços consistem em uma ou mais relações específicas, tais como proximidade, contato frequente, fluxos de informação, conflito ou suporte emocional. A interconexão destes laços canaliza recursos para localizações específicas na estrutura dos sistemas sociais. Os padrões destas relações - a estrutura da rede social - organiza os sistemas de troca, controle, dependência, cooperação e conflito Physical Place and Cyberplace: The Rise of Personalized Networking - BARRY WELLMAN O laço é a efetiva conexão entre os atores que são envolvidos na interações. Laços são formas mais institucionalizadas de conexão entre atores, constituídos no tempo e através da interação social. Um laço é constituído a partir das interações e das relações, sendo denominado laço relacional [Recuero 2009]. No entanto, Breiger [Breiger 1974] também explica que os laços podem ter outra constituição, através da associação. Para ele as relações sociais constituem a conexão entre os indivíduos. Entretanto, a conexão entre um indivíduo e uma instituição ou grupo torna-se um laço de outra ordem, representado unicamente por um sentimento de pertencimento. Essa característica representa um laço associativo. Para Breiger o laço social não depende apenas das interações. Deste modo, laços relacionais são constituídos através de relações sociais, ou seja, somente acontecem através da interação social. Laços de associação independem dessa ação, sendo necessário apenas um pertencimento a um determinado local, instituição ou grupo. É possível classificar os laços em mais dois tipos [Recuero 2009]: Laços fortes: são aqueles que se caracterizam pela intimidade, pela proximidade e pela intencionalidade em criar e manter uma conexão entre duas pessoas. Em outras palavras, esses laços caracterizam as relações duradouras entre amigos, por exemplo. Laços fortes constituem-se em vias mais amplas e concretas para as trocas sociais. Laços fracos: caracterizam-se por relações esparsas, as quais não são íntimas ou próximas. É possível observar esse tipo de relação quando se faz referência à amigos de pessoas conhecidas, os quais não se tem uma relação intima ou próxima. Nesses tipos de laços as trocas sociais são mais difusas. Laços fracos são fundamentais, pois conectam os clusters nas redes sociais. Vale ressaltar que ambos os laços, fortes e fracos, são sempre relacionais pois são consequência da interação que, através do conteúdo e das mensagens constituem uma conexão entre os atores envolvidos. Um outro aspecto que deriva da característica da força dos laços é que nem todos estes laços são recíprocos. Por exemplo, considere um ator A que tem como melhor amigo outro ator B (laço forte) e que B, em retorno, não considera A como uma pessoa íntima ou até mesmo um amigo (laço mais fraco). Isso mostra que os laços que conectam esses dois indivíduos possuem forças diferentes, tratando-se de laços assimétricos. Os laços são considerados simétricos quando possuem a mesma força em ambos os sentidos de conexão [Recuero 2009]. Laços sociais mediados pelo computador costumam ser do tipo multiplexo. Laços desse tipo são caracterizados por possuírem, em sua constituição, diversos tipos de relações sociais. Por exemplo, um mesmo grupo de amigos interage entre si dentro do ambiente de trabalho, na academia e em momentos de lazer. Laços multiplexos refletem interações que acontecem em diversos espaços e sistemas.

41 4.2. Tipos de Redes Sociais Capital Social O capital social representa a qualidade das conexões de uma rede social. Segundo Raquel, [Recuero 2009] esse elemento é um dos mais estudados por diversos autores como um indicativo da conexão entre pares de indivíduos em uma rede social. Por esse motivo encontra-se diversas abordagens sobre tal elemento. No entanto, concorda-se que este refere-se a um valor constituído a partir das interações entre os atores sociais. Vale ressaltar que o cálculo deste item não é uma tarefa fácil. A seguir listam-se alguns dos conceitos mais utilizados referente ao capital social: [Bourdieu 1986]: O capital social é o agregado dos recursos atuais e potenciais, os quais estão conectados com a posse de uma rede durável, de relações de conhecimento e reconhecimento mais ou menos institucionalizadas, ou em outras palavras, à associação a um grupo - o qual provê cada um dos membros com suporte do capital coletivo. [Coleman 1988]: O capital social é definido por sua função. Não é uma entidade única, mas uma variedade de entidades, com dois elementos em comum: consistem em um aspecto das estruturas sociais, e facilitam certas ações dos atores - tanto corporações quando pessoas - dentro da estrutura. Como outras formas de capital, o capital social é produtivo, fazendo com que seja possível atingir certos fins que, sem ele, não seriam possíveis de ser atingidos. [Putnam 2000]: O capital social refere-se à conexão entre indivíduos - redes sociais e normas de reciprocidade e confiança que emergem dela. 4.2 Tipos de Redes Sociais As redes sociais podem ser dividas em dois tipos: as redes emergentes e as redes de filiação ou redes de associação. Os dois tipos podem estar presentes em uma mesma rede analisada. No entanto, dependendo da forma que se escolhe observar a rede, percebe-se aspectos diferentes dessa rede Redes Sociais Emergentes As redes desse tipo são aquelas expressas a partir das interações entre os atores sociais. São redes cujas conexões entre os nós emergem através das trocas sociais realizadas pela interação social. Essas redes surgem de acordo com uma estrutura bottom-up, caracterizada pela construção do grupo através da interação, por exemplo, nos comentários de uma página pessoal. Esse tipo de interação proporcionaria a criação de laços sociais dialógicos, que eventualmente possuem capacidade de gerar laços mais fortes. Ao analisar uma rede em um site de relacionamentos (e.g. Orkut, Facebook, etc) percebe-se que, através dos comentários trocados entre os atores (e.g. pessoas, representações de empresas, etc) uma rede emergente é observada. Isso porquê tem-se, constantemente, sua rede sendo construída e reconstruída através das trocas sociais. A Figura 4.1 mostra a característica bottom-up observada nessas redes, na qual comentários constroem"o grupo através das interações entre os atores [Recuero 2009].

42 4.2. Tipos de Redes Sociais 36 Figura 4.1: Exemplo de uma Rede Emergente [Branding 2008,]. Essas redes comumente são pequenas, pois a quantidade de comentários recíprocos, que realmente representam trocas sociais, é concentrada em poucos nós, tanto pelo investimento, quanto pelo tempo necessário para que as trocas sociais aconteçam. Em outras palavras, a redes emergentes dependem do tempo (assim como seu comprometimento e investimento) disponível para que as interações entre os atores sociais no computador ganhem força. Nesse tipo de rede os atores são responsáveis por manter um certo fluxo de dados, de modo a não deixar que esses sejam cessados e a rede esquecida, e assim perdendo seu valor/contribuição para o todo da rede. Assim, quando analisadas, as redes desse tipo mostram clusters altamente conectados, conforme mostra a Figura 4.2 [Recuero 2009]. Figura 4.2: Cluster em uma Rede Emergente [Recuero 2009,].

43 4.3. Análise de Redes Sociais 37 Para analisar as trocas sociais nesse tipo de rede investiga-se os comentários trocados, as conversações, a rede viva". Deste modo, redes emergentes são centradas na interação, constituídas através da interação do tipo mútuo. Essa interação social mútua forma redes sociais nas quais os laços são constituídos de um pertencimento relacional, que é emergente, caracterizado pelo sentir-se parte"através das trocas comunicacionais [Primo 2003] Redes Sociais de Filiação ou Redes Associativas As redes de filiação são constituídas de dois tipos de nós: os atores e os grupos, os quais se relacionam por conexões de pertencimento [Recuero 2009]. Segundo Watts [Watts 2003], a rede de filiação é uma estrutura de grupo que não parte de laços sociais entre seus membros, mas que permite que aa pessoas interajam e que eles sejam construídos. A relação que define uma rede de filiação é a relação de pertencimento, descolado de qualquer tipo de interação. No entanto, para o autor, essas redes permitem a inferência de laços sociais, uma vez que, quanto maior o número de contextos divididos pelos indivíduos, maior a possibilidade de que eles tenham algum tipo de relação social. De acordo com Raquel [Recuero 2009] as redes sociais de filiação ou associativas na Internet são aquelas derivadas das conexões estáticas"entre os atores, ou seja, das interações reativas que possuem um impacto na rede social. São redes cujas conexões são forjadas através dos mecanismos de associação ou de filiação dos sites de redes sociais. Por exemplo, a lista de amigos"do Facebook, ou da lista de seguidores no Twitter. Diferentemente das redes emergentes, as redes de filiação representam uma rede mais estável e estática. Analisando a lista de amigos"no Orkut de um ator qualquer ela não pressupõe interação social do tipo mútuo, mas reativa com efeito social. Já que, uma vez adicionado, o ator ali permanece independente da interação para que se mantenha o laço social ativo [Recuero 2009]. Por não possuírem custos para os atores, redes dessa espécie costumam ser muito grandes. Os sites de redes sociais, facilitam conexões que não possuem custo aos atores envolvidos. Dessa maneira fazem com que seja geradas redes muito grandes e constituídas por laços fracos. Ao contrário das redes emergentes, nesse tipo de rede não é necessário que os atores interajam para manter a conexão. A Figura 4.3 mostra exemplos desse tipo de rede, onde há uma grande quantidade de nós, mas uma densidade menor de conexões, que são mantidas entre vários nós. (a) Figura 4.3: Redes Associativas a partir de Conexões Recíprocas [Recuero 2009] (b) 4.3 Análise de Redes Sociais A Análise de Redes Sociais (ARS) é o mapeamento e a medição de relações e fluxos entre pessoas, grupos, organizações, computadores e outras entidades de informação/conhecimento. Os nós na rede são pessoas e grupos (conforme visto na Seção 4.1), enquanto os links mostram relações ou fluxos entre nós. A ARS fornece uma análise visual e matemática das relações humanas. Consultores de gestão

44 4.3. Análise de Redes Sociais 38 utilizam essa tecnologia para seus negócios, e a chamam de Análise de Redes Sociais Organizacionais (ARSO) Arcabouço Conceitual ARS é o estudo das relações sociais entre um certo conjunto de atores. A principal diferença entre ARS e as outras abordagens de ciências sociais é o foco voltado para as relações entre os atores, ao invés dos atributos dos atores. A análise de redes engloba uma visão geral das estruturas sociais baseadas na crença que os tipos e padrões das relações emergem das conectividade do indivíduo, e que a presença (ou ausência) de tais tipos e padrões possuem efeitos substânciais na rede e seus constituintes [Mika 2007]. A ARS requer um novo conjunto de conceitos e métodos para coletar os dados e analisá-los. A ARS fornece [Mika 2007]: Vocabulário para descrever as estruturas sociais; Modelos formais que capturam as propriedades comuns de todas as redes sociais; Conjunto de métodos aplicáveis à análise de redes em geral. Os conceitos e métodos para análise de redes são baseados em uma formal descrição de redes como grafos (vide Seção 2.2.1). A análise de redes também aplica modelos estatísticos e probabilísticos em uma proporção menor que técnicas algébricas. Os métodos para extração de dados em análise de redes são focados em coletar dados de uma maneira segura. A coleção de dados é feita através de questionários padrões e técnicas de observação, que tem como objetivos assegurar a corretude e a completude dos dados. Geralmente registros de interação social são usados para construir modelos de redes sociais Conceitos Chave e Métricas A ARS desenvolveu uma série de conjuntos e métodos específicos para seu contexto. As sub-seções seguintes apresentam as métricas básicas mais utilizadas, de forma a estabelecer um panorama no qual define-se as ferramentas"adotadas nesse trabalho. Número de Ligação Uma unidade básica de medida de uma rede é o número de ligações mantidas por indivíduo com outros, e através da rede como um todo. O número de ligações mantidas por um indivíduo pode mostrar a comunicação e a carga de contatos para o indivíduo. No entanto, porque as redes diferem em tamanho, uma estatística mais padronizada é necessária para a comparação entre as redes [Mika 2007]. Díade É a rede mais simples que existe, formada por apenas dois atores e as possíveis ligações entre si. Os atores podem estar conectados ou não, e a sua ligação é uma propriedade do par. Por exemplo, um ator A é amigo de um outro amigo B, e vice-versa. Tríade É a rede formada por três atores e as possíveis ligações entre si. A tríade traz alguns conceitos importantes, como a transitividade (vide Seção ). Potencialmente, em uma tríade há três díades. Nas relações sociais, isso pode ser um importante fator, pois se um ator A mantém relações com o ator B, e este com o ator C, há um caminho possível, passando pelo ator B, para o ator A realizar interações com o ator C. Em outras palavras é mais fácil de os atores A e C serem amigos se ambos manterem relações com o ator B. Sub-Grupo Um sub-grupo de atores é um conjunto de atores e suas relações. Isto pode ser muito importante no estudo de redes sociais complexas e extensas, com a análise de subgrupos específicos, delimitados dentro do grupo. As díades e tríades podem definir inúmeros sub-grupos.

45 4.3. Análise de Redes Sociais 39 Grupo Um grupo é definido como um conjunto finito de atores que estão relacionados entre si. Ponte Segundo Wasserman [Wasserman e Faust 1994] os laços fracos são de grande importância nas redes sociais, uma vez que estes apresentam a função de ligar partes de uma rede social que não são ligadas diretamente através de laços fortes, o que dá origem ao conceito de ponte (bridges). Pontes são atores que interligam grupos. Retirando-se os atores pontes, a rede ficaria isolada. Densidade A densidade é talvez a métrica mais comummente utilizada na conectividade das redes. Esta é calculada como a proporção do número de reais ligações com o número de possíveis ligações. Como as conexões podem ser bi-direcionais (entrando e saindo do ator), para relações não-direcionas (e.g. colaboração, compartilhamento) a densidade da rede é calculada como mostra a equação 4.1: Densi d ade = n/(n (N 1)/2) (4.1) Onde n é o número de ligações reais, e N o número de atores na rede. A Densidade representa a interconexão da rede, com consequências para elementos como a taxa de câmbio de informação e grau de conhecimento comum [Mika 2007]. Centralidade e Centralização Outra métrica utilizada é a centralidade, sendo aplicada em nível de indivíduo definindo o quão central um ator é dentro da rede. Em nível da rede essa métrica mostra até que ponto a rede está organizada em torno de atores-chave. Uma maneira de calcular esta posição é identificar o indivíduo com o maior número de ligações (degree centrality). A direção da ligação se torna importante para interpretar o papel desse indivíduo. Um alto número de ligações-entrantes"(high in-degree) indica uma grande quantidade de outros indivíduos que escolheram se relacionar com o indivíduo em questão. Esses possuem um alto nível de prestígio. Um alto nível de ligações-saintes"indica que o indivíduo se relaciona muito com os outros. Nesse caso pode-se dizer que estes indivíduos possuem um alto grau de influência nos outros. Indivíduos com um baixo grau de centralidade podem ser atores periféricos na rede [Mika 2007] Centralidade Posições estratégicas também fornecem poderes aos indivíduos de controlarem a circulação de recursos na rede. Outras medidas de centralidade calculam quanto um ator permanece frente a outros na rede (betweenness), e como eles são posicionados na rede como um todo para se tornarem caminhos de recursos e informações que circulam a rede. Através de qualquer medida atores que ocupam posições centrais desempenham papéis importantes nas redes [Mika 2007]. Atores não-centrais também são importantes para se identificar. Atores isolados, e outros periféricos são deixados de lado do fluxo central ( mainstream") de atividades da rede. Estes podem receber recursos com um certo atraso, e talvez até depois que sua utilidade seja expirada. Esses atores estão, geralmente, insatisfeitos com seu papel na rede, e estão propensos a sairem da mesma [Mika 2007] Cliques Outra medida importante para redes é a medida em que os membros da rede interna formam panelinhas", clusters ou componentes. Novamente, configurações básicas dos laços podem revelar quem está ligado a quem nos subgrupos da rede. Como um membro do grupo, isto pode ser óbvio, mas as associações podem parecer que não são as esperadas, com base em critérios inesperados. Novamente, essas características são úteis para entender como uma rede está operando [Mika 2007].

46 C A P Í T U L O 5 REDE SOCIAL PARA DIFUSÃO DA INFORMAÇÃO O termo difusão é utilizado amplamente, sendo englobando tanto a difusão do conhecimento, quanto como a persuasão para a adoção de uma determinada inovação pelos membros de um sistema alvo. De forma mais específica o processo de Difusão de Inovação ocorre quando alguma inovação é comunicada através de alguns canais sobre membros de um sistema social. Neste sentido a difusão é um tipo particular de comunicação, consistindo na troca de mensagens sobre uma idéia. Este processo é composto pelos seguintes elementos: a inovação, a comunicação, o tempo e o sistema social. A difusão é um tipo de mudança social, definida como o processo pelo qual alterções sucessivas, ou não, ocorrem na estrutura e na funcionalidade de um sistema social. Quando novas idéias são inventadas, difundidas e adotadas ou rejeitadas, levam a certas consequências, fazendo com que mudanças sociais ocorram. Tais mudanças também podem ocorrer através de outros meios, por exemplo, através de revoluções políticas, eventos naturais como terremotos, ou através de regulamentações governamentais. Deste modo, pode-se dizer que a difusão é um tipo especial de comunicação, cujas mensagens são sobre novas idéias. Esse conceito de novas idéias no conteúdo das mensagens atribui à difusão uma característica especial. Essa novidade significa que existirá, de alguma forma, um certo grau de incerteza frente a sua difusão. Incerteza pode ser caracterizada como o grau cujo número de alternativas são consideradas com relação a ocorrência de um evento, e probabilidade relativas dessas alternativas. Em outras palavras, incerteza implica em uma imprevisibilidade de uma estrutura de informação [Noronha et al. 2009, Rogers 2003]. Pelo que foi exposto até o momento, pode-se observar que o processo de difusão da informação é um sistema complexo que gera uma rede social. Sendo assim, objetivando desenvolverum estudo de caso interligando as teorias e técnicas de rede sociais e mineração de dados. Neste capítulo tem-se o estudo de um modelo de difusão de inovação em uma rede social. Esse é um assunto tanto de interesse corporativo quanto de interesse acadêmico. No âmbito corporativo pode-se citar a disseminação de uma nova tecnologia na utilização de algum processo em específico. Fica clara a importância de se saber quais são os indivíduos (empresas ou pessoas) que mais conseguem disseminar tal idéia, bem como o que faz desses bons disseminadores no sistema em que se encontram. Na vertente acadêmica pode-se estudar quem, dentre diversos pesquisadores de diversas áreas, consegue fazer com que sua tese seja melhor aceita e adotada. Quais os caminhos, através de outros atores da rede, que esse conseguiu se destacar. Todas essas questões mostram a importância do estudo nessa área. 40

47 5.1. Exemplos da Difusão da Informação Exemplos da Difusão da Informação Inovação Uma inovação é uma idéia, prática ou objeto que é adotado como novo por um indivíduo ou uma unidade de adoção (um grupo, empresa, etc). O senso de novidade de uma idéia para um indivíduo determina sua reação a ela. Se a idéia parece ser nova para o indivíduo, é uma inovação. Dentro do escopo tecnológico existem duas naturezas de inovação: de hardwaree de software. O hardware consiste de uma ferramenta que incorpora a tecnologia através de um material ou um objeto físico. O software consiste em informação base para a ferramenta. Por exemplo, quando discute-se sobre hardware de computadores está se falando de semicondutores, transistores, conexões elétricas e carcaças de de metal. Quando escuta-se sobre software de computadores o foco está ligado em comando codificados, intruções, e outros aspectos dessa ferramenta que permitem a extensão da capacidade humana para resolução de certos problemas [Noronha et al. 2009] Canais de Comunicação Comunicação é o processo pelo qual participantes criam e compartilham informações com o objetivo de alcançar um mútuo entendimento sobre determinada questão. Difusão é um tipo particular de comunicação cujo conteúdo da mensagem trocada é composto por uma nova idéia. A essência do processo de difusão reside na troca de informações onde um indivíduo comunica uma nova idéia para um, ou um grupo de outros indivíduos. Este processo pode ser estruturado da seguinte maneira [Noronha et al. 2009, Rogers 2003]: Uma inovação; Um indivíduo ou outra unidade que detém conhecimento da inovação, ou experiência em utilizá-la; Outro indivíduo ou unidade que ainda não possui experiência sobre a inovação; Canal de comunição conectando essas duas unidades. O canal de comunicação é o meio pelo qual as mensagens trafegam de um indivíduo para outro. A natureza da relação da troca de mensagens entre um par de indivíduos determina as condições sob as quais uma fonte transmitirá, ou não, a inovação para o receptor, e o efeito dessa tranferência Tempo Tempo é o terceiro elemento no processo de difusão. A inclusão do tempo como uma variável na pesquisa sobre difusão é um de seus pontos fortes. Vale ressaltar que mensurar o tempo é uma tarefa um tanto quanto delicada, desse modo vê-se necessário tratar essa variável de forma a representar ao máximo a realidade. A dimensão de tempo é envolvida na difusão nos seguintes cenários [Rogers 2003]: Processo inovação-decisão: processo de aceitar/rejeitar uma inovação. Composto por: conhecimento, persuasão, decisão, implementação e confirmação; Demora na aceitação a inovação de um indivíduo ou outra unidade de adoção: a demora ou precocidade cuja uma inovação é adotada - comparando-se com outros membros de um sistema; Taxa de aceitação de inovação em um sistema: geralmente mensurada através do número de membros de um sistema que adotam a inovação em um período dado.

48 5.2. Modelo Estudado para Difusão de Informação Sistema Social Sistema social é definido como o conjunto de unidades interrelacionadas que estão relacionadas para alcançarem um objetivo em comum ou resolverem um determinado problema. Os membros ou unidade desse sistema podem ser indivíduos, grupos informais, organizações, e/ou subsistemas. O sistema analisado nesse estudo de modelo consiste em análisar a difusão de informação entre unidades representadas por indivíduos, que serão caracterizados na Seção 5.2. De acordo com [Noronha et al. 2009, Rogers 2003], um princípio básico para a comunicação entre humanos é que a transferência de idéias ocorre mais frequentemente entre dois indivíduos que são similares, ou homophilous. Homophilia é o grau que dois indivíduos que interajem são similares em certos atributos, tais como: crenças, educação, status social, entre outros. Em uma situação arbitrária, quando um indivíduo consegue interagir com qualquer um dentre um número de outros indivíduos, há uma forte tendência a selecionar alguém que seja muito similar. Homophilia ocorre quando indivíduos similares pertencem a um mesmo grupo, moram ou trabalham perto um dos outros, e dividem os mesmos interesses. Esse interesse físico e social faze com que a comunicação entre homophilicos seja mais provável. Tal comunicação tende também a ser mais efetiva, e assim mais recompensadora. Quando compartilha-se interesses comuns a comunicação de novas idéias há maiores chances de obter melhores efeitos em termos de ganho de conhecimento, formação de atitude e mudanças [Noronha et al. 2009, Rogers 2003]. Um dos problemas na difusão de inovação é que os indivíduos são geralmente heterophilous. Essa diferença frequentemente leva a uma comunicação ineficiente, uma vez que os participantes tendem a não falar a mesma língua". Na verdade, quando dois indivíduos são idênticos sobre seu compreendimento de uma inovação, nenhuma difusão pode ocorrer uma vez que não existe novas informações a serem trocadas. A natureza da difusão demanda que pelo menos exista um pouco de homophilia entre dois indivíduos. Idealmente, eles devem ser homopilhous em todas outras variáveis (educação, status sociais, etc), embora eles sejam heterophilous sobre o compreendimento de inovação. Vale ressaltar que, na vida real, dois indivíduos são heterophilous em todas essas variáveis, já que conhecimento e experiência com uma inovação são fortemente relacionadas com educação, experiência de vida, entre outros [Noronha et al. 2009, Rogers 2003]. 5.2 Modelo Estudado para Difusão de Informação O modelo proposto por [Noronha et al. 2009] é uma variação do modelo proposto por [Rogers 2003]. Este sugere que a classificação dos membros de um dado sistema socialdeve ser de acordo com seu nível de aceitação frente a inovações. Os indivíduos em um sistema social não adotam um inovação ao mesmo tempo. Deste modo, é possível categorizar estes indivíduos de acordo com o tempo que eles necessitam para adotar alguma inovação. Tal sistema de classificação, assim como o conjunto de atributos, foi baseado no modelo de difusão de informação proposto por [Noronha et al. 2009]. O conceito de inovação é definido na Seção Esse sistema é baseado em uma distribuição normal de frequência do número de individuos que adotam uma inovação, em função do tempo do processo de adoção de uma inovação. Como ilustrado na Figura 5.1, este sistema de classificação possui quatro (04) categorias: inovadores, adotantes Precoces, maioria precoce e retardatários [Noronha et al. 2009].

49 5.3. Um Modelo Multiagente para Difusão de Informação 43 Figura 5.1: Categorias de Adotantes [Rogers 2003]. Os inovadores (innovators) são essencialmente aventureiros e cosmopolitanos. Segundo [Rogers 2003] são membros locais com ligações heterogênas fracas para sistemas externos. Eles possuem o papel de trazer inovações externas para seu sistema social. Graças a sua posição cosmopolitana, caracterizada por sua localização periférica na rede, eles não são consultados ou seguidos no processo de inovação-decisão. Sua tendência de ignorar, ou infringir, as normas sociais é outro fator que influência sua baixa reputação social. Os adotantes precoces, também conhecidos como líderes de opinião (opinion leaders), possuem grande reputação social. Eles se comportam de acordo com as normas do sistema social, são bem integrados e geralmente são nós centrais em redes sociais locais. Eles servem como modelos para os membros do sistema. Quando optam por uma inovação o crescimento de seguidores em massa tende a acelarar. Essa categoria possui o desejo de ter seguidores e influenciar outros membros do sistema, em outra palavras, esses são os formadores de opinião [Noronha et al. 2009]. Os seguidores fortes (strong followers), conhecidos como retardatários, tendem a imitar a maioria precoce. A maioria precoce sofre uma pressão social graças a seu comportamento: quanto maior o seu número e os de adotantes precoces em uma posição de adotar inovações, maior será a tendência dessa maioria precoce em imitá-los no processo de inovação-decisão. 5.3 Um Modelo Multiagente para Difusão de Informação A finalidade do modelo proposto por [Noronha et al. 2009] é observar a atração que adotantes precoces exercem em outros agentes bem como o padrão físico de movimentação que essa atração pode ocasionar tendo em vista o conceito de homophilia. Neste trabalho utiliza-se o mesmo modelo, mas com um enfoque diferente. Através do modelo proposto, este projeto tem como objetivo estudar a rede social formada pelo processo de difusão de informação, além de estudar quais são os principais atores nela envolvidos, o que faz com que haja essa interação social entre eles e quais são os atributos (e que tipo) fazem com que essa relação seja formada. O modelo é baseado em características do sistema de classificação adoção definido pelo modelo de difusão de inovação. As características que definem as categorias dos agentes são descritas de forma generalizada pelo modelo de [Rogers 2003]. Essas generalizaçoes são classificadas em três atributos: valores individuias, atributos e comportamento comunicativo. Os agentes possuem uma relação mútua de similaridade e diferença definida pela grau de hompohilia, então todos os agentes possuem um iíder de ppinião (adotante precoce) com um alto grau de homophilia. A hompohilia é um substrato para o estabelecimento indireto de uma comunicação entre o modelo de agentes. Na Seção explica-se o modelo de agentes utilizado e como esses três atributos formam o grau de homophilia Em cada interação da simulação os agentes procuram encontrar seu grupo de acordo sua homophilia. Contudo, o ambiente físico e sua situação sócio-econômica constituem um obstáculo para

50 5.3. Um Modelo Multiagente para Difusão de Informação 44 o alcance de seu objetivo. A homophilia entre os agentes em uma vizinhança é a informação que os agentes devem ponderar para decidir entre um espaço físico em detrimento de outros, caracterizando um ciclo de incerteza. Essa incerteza surge da inabilidade do agente em determinar o escopo físico onde ele pode obter a maior homophilia do sistema. Enquanto que a inovação é caracterizada quando um agente decide seguir um grupo, seu líder em potencial presente, ou não [Noronha et al. 2009]. O modelo multiagente proposto considera os seguintes elementos em sua composição: A arquitetura do agente Pessoa, que representa um indivíduo submetido ao processo de inovaçãodecisão; O ambiente físico, que representa o local onde os agentes estão fisicamente distribuídos e iteragem uns com os outros O Ambiente Físico A distribuição dos agentes no ambiente físico é um importante aspecto para o modelo. Os agentes são distribuídos randomicamente no ambiente no início da simulação. Devido a essa aleatoriedade os agentes podem, ou não, encontrar seus líderes de opinião ao decorrer da simulação. Essa distribuição randômica através do ponto de referência é o fator físico que representa a incerteza do agente em relação ao seu desejo. O Ambiente Físico, ilustrado na Figura 5.2, representa o espaço onde os agentes e os outros objetos do modelo estão. Os outros elementos considerados são: (i) posição do agente (x, y), (ii) regras estabelecendo as características básicas do ambiente - definindo as restrições comportamentais da simulação, por exemplo, o ponto de referência de sua vizinhança [Noronha et al. 2009]. Agente no Ambiente Agente Observador Agente Observado Quadrante Raio de visão 2 Figura 5.2: Visão do Ambiente para Definição da Vizinhança [Noronha et al. 2009]. A topologia é representada em uma grade de duas dimensões (2D Grid) e, durante a simulação, cada célula pode conter somente um único agente. A interação dos agentes com o ambiente físico ocorre por meio de um mecanismo de leitura delimitado pelos quandrantes. Esse mecanismo considera que um agente é direcionado a um área onde, em média, os agentes possuem um maior grau de homphilia com ele. A escolha dessa área é baseada na definição de quatro quadrantes. O comprimento e largura cada um são determinados pelo raio do escopo do agente (que é definido de acordo com sua categoria). A Figura 5.2 ilustra o cenário descrito [Noronha et al. 2009]. No exemplo ilustrado o agente em questão possui um raio de três (03) unidades de leitura, e a partir de sua posição ele divide sua vizinhança em quadrantes de um (01) a quatro(04). Para realizar tal tarefa, o agente efetua os seguintes passos: 1. Estabelecimento dos pontos de referência para a escolha do quadrante, ilustrado na Figura 5.3;

51 5.3. Um Modelo Multiagente para Difusão de Informação Estabelecimento da área de observação na forma de quadrantes, conforme mostra a Figura 5.2; 3. A observação da área delimitada. O ponto de referência para leitura da vizinhança é randomicamente escolhido pelo agente. 1 2 Agente 3 4 Figura 5.3: Pontos de Referência para Estabelecer a Vizinhança [Noronha et al. 2009] Arquitetura do Agente Pessoa O agente Pessoa representa um indivíduo no Ambiente Físico, sujeito ao processo de inovaçãodecisão tendo em vista a homophilia. Os agentes nesse modelo são definidos dentro do sistema social de acordo com os atributos sociais e pelo desejo de se posicionarem o mais próximo possível do maior grau de homophilia [Noronha et al. 2009]. Existem duas atividades definidas no processo de inovação-decisão, segundo [Rogers 2003]: procurandoinformação e processando-informação. Por meio dessas duas atividades o membro do sistema pode reduzir o nível de incerteza sobre uma inovação e optar por sua adoção efetiva. Uma visão geral da arquitetura dos agentes é mostrada na Figura 5.4. Figura 5.4: Arquitetura Geral do Agente Pessoa [Noronha et al. 2009] Módulo: Procurando-Informação O módulo Procurando-Informação (do inglês Information-Seeking - IS) realiza um varredura do Ambiente Físico. A cada iteração na simulação, os agentes reiniciam o processo de inovação-decisão pela leitura da vizinhança. Através dessa leitura o agente coleta a média da homophilia em cada quadrante de sua vizinhança. Analisando através de uma visão macro, esse módulo possui os seguintes passos [Noronha et al. 2009]: 1. Estabelecimento do ponto de referência; 2. Estabelecimento do quadrante; 3. Estabelecimento do raio de visão; 4. Coleta dos dados da vizinhança. Os dados coletados para cada um dos quatro quadrantes de observação são: células inativas, células ocupadas e o grau médio de homophilia.

52 5.3. Um Modelo Multiagente para Difusão de Informação Módulo: Processando-Informação O módulo Processando-Informação (do inglês Information-Processing - IP) realiza a comparação do grau de homophilia entre o agente e cada quadrante de sua vizinhança, com a análise dos dados coletados do módulo IS. Essa comparação é feita de acordo com os seguintes passos: 1. Recolhimento da média do grau de homophilia de cada agente presente em cada quadrante; 2. Submeter cada agente observado para comparação do grau de homophilia para determinar a média do grau de homophilia dos agentes com o quadrante referente; 3. Determinar o quadrante com o maior grau de homophilia de acordo com as regras internas. A Figura 5.5 ilustra a visão dos processos descritos na Seção e na Seção Figura 5.5: Arquitetura Geral dos Módulos IP e IS [Noronha et al. 2009] Módulo IP: Atributos Individuais Os três (03) atributos que definem socialmente os agentes são: (i) escopo, (ii) imagem própria e (iii) sociabilidade. O atributo escopo tem como objetivo representar as generalizações sóciais, o atributo imagem prória representa as generalizações pessoais e a sociabilidade as generalizações de comunicação. O atributo escopo (mostrado na Tabela 5.1) é uma constante que define o comprimento do raio de leitura (conforme explica a Seção 5.3.1). Tabela 5.1: Atributo Escopo e sua Escala. Escopo Nível Raio Categoria 0 12 OL 1 9 IN 2 6 WF 3 3 SF Onde OL, IN, WF esf significam respectivamente: Líderes de Opinião, Inovadores, Seguidores Fracos e Seguidores Fortes. O atributo imagem prória (mostrado na Tabela 5.2) é modelado como uma variável discreta aleatória que varia de 0 à 100. O atributo sociabilidade (mostrado na Tabela 5.3) é modelado como uma variável discreta aleatória que varia de 0 à Módulo IP: Regras para Determinar o Grau de Homophilia O módulo IP é responsável por determinar o grau de homophilia entre o agente observado e o agente observador, utilizando um certo conjunto de regras. Por meio dessas regras o agente observador

INSTITUTO TECNOLÓGICO DE AERONÁUTICA DIVISÃO DE ENGENHARIA ELETRÔNICA LABORATÓRIO DE GUERRA ELETRÔNICA

INSTITUTO TECNOLÓGICO DE AERONÁUTICA DIVISÃO DE ENGENHARIA ELETRÔNICA LABORATÓRIO DE GUERRA ELETRÔNICA INSTITUTO TECNOLÓGICO DE AERONÁUTICA DIVISÃO DE ENGENHARIA ELETRÔNICA LABORATÓRIO DE GUERRA ELETRÔNICA CURSO DE ESPECIALIZAÇÃO EM ANÁLISE DE AMBIENTE ELETROMAGNÉTICO CEAAE /2008 DISCIPLINA EE-09: Inteligência

Leia mais

Trabalho Computacional

Trabalho Computacional Universidade Federal do Espírito Santo Departamento de Informática Profª Claudia Boeres Teoria dos Grafos - 2014/2 Trabalho Computacional 1. Objetivo Estudo e implementação de algoritmos para resolução

Leia mais

4- PROJETO DE BANCO DE DADOS

4- PROJETO DE BANCO DE DADOS 4- PROJETO DE BANCO DE DADOS OBJETIVOS DE ENSINO: 4 - Empregar a técnica da modelagem de dados no projeto de banco de dados. OBJETIVOS OPERACIONAIS Ao final desta unidade o aluno será capaz de: 4.1 - Definir

Leia mais

3 Estratégia para o enriquecimento de informações

3 Estratégia para o enriquecimento de informações 34 3 Estratégia para o enriquecimento de informações Podemos resumir o processo de enriquecimento de informações em duas grandes etapas, a saber, busca e incorporação de dados, como ilustrado na Figura

Leia mais

Metadados. 1. Introdução. 2. O que são Metadados? 3. O Valor dos Metadados

Metadados. 1. Introdução. 2. O que são Metadados? 3. O Valor dos Metadados 1. Introdução O governo é um dos maiores detentores de recursos da informação. Consequentemente, tem sido o responsável por assegurar que tais recursos estejam agregando valor para os cidadãos, as empresas,

Leia mais

PLANEJAMENTO ESTRATÉGICO

PLANEJAMENTO ESTRATÉGICO PLANEJAMENTO ESTRATÉGICO Este material resulta da reunião de fragmentos do módulo I do Curso Gestão Estratégica com uso do Balanced Scorecard (BSC) realizado pelo CNJ. 1. Conceitos de Planejamento Estratégico

Leia mais

ESTENDENDO A UML PARA REPRESENTAR RESTRIÇÕES DE INTEGRIDADE

ESTENDENDO A UML PARA REPRESENTAR RESTRIÇÕES DE INTEGRIDADE ESTENDENDO A UML PARA REPRESENTAR RESTRIÇÕES DE INTEGRIDADE Fabiana Gomes Marinho Faculdade Lourenço Filho Resumo: Na UML, a modelagem conceitual dos dados é descrita pelo diagrama de classes, que através

Leia mais

Figura 5.1.Modelo não linear de um neurônio j da camada k+1. Fonte: HAYKIN, 2001

Figura 5.1.Modelo não linear de um neurônio j da camada k+1. Fonte: HAYKIN, 2001 47 5 Redes Neurais O trabalho em redes neurais artificiais, usualmente denominadas redes neurais ou RNA, tem sido motivado desde o começo pelo reconhecimento de que o cérebro humano processa informações

Leia mais

O modelo Entidade-Relacionamento. Agenda: -Modelagem de dados utilizando O Modelo Entidade-Relacionamento

O modelo Entidade-Relacionamento. Agenda: -Modelagem de dados utilizando O Modelo Entidade-Relacionamento O modelo Entidade-Relacionamento Agenda: -Modelagem de dados utilizando O Modelo Entidade-Relacionamento 1 Antes de começarmos: A modelagem conceitual é uma fase muito importante no plamejamento de um

Leia mais

SISTEMAS DE INFORMAÇÃO GERENCIAIS

SISTEMAS DE INFORMAÇÃO GERENCIAIS SISTEMAS DE INFORMAÇÃO GERENCIAIS Aluno: Luiza Cavalcanti Marques Orientador: Silvio Hamacher Introdução A modelagem e a utilização de bancos de dados em atividades gerenciais têm sofrido um aumento significativo

Leia mais

Eng Civil Washington Peres Núñez Dr. em Engenharia Civil pela Universidade Federal do Rio Grande do Sul

Eng Civil Washington Peres Núñez Dr. em Engenharia Civil pela Universidade Federal do Rio Grande do Sul PESQUISA ANÁLISE DE CARACTERÍSTICAS DE QUALIDADE DE MISTURAS ASFÁLTICAS PRODUZIDAS NA ATUALIDADE NO SUL DO BRASIL E IMPACTOS NO DESEMPENHO DE PAVIMENTOS FLEXÍVEIS. MANUAL DE OPERAÇÃO DO BANCO DE DADOS

Leia mais

Planejamento Estratégico de TI. Prof.: Fernando Ascani

Planejamento Estratégico de TI. Prof.: Fernando Ascani Planejamento Estratégico de TI Prof.: Fernando Ascani Data Mining Os métodos tradicionais de Data Mining são: Classificação Associa ou classifica um item a uma ou várias classes categóricas pré-definidas.

Leia mais

ADMINISTRAÇÃO I. Família Pai, mãe, filhos. Criar condições para a perpetuação da espécie

ADMINISTRAÇÃO I. Família Pai, mãe, filhos. Criar condições para a perpetuação da espécie 1 INTRODUÇÃO 1.1 ORGANIZAÇÃO E PROCESSOS A administração está diretamente ligada às organizações e aos processos existentes nas mesmas. Portanto, para a melhor compreensão da Administração e sua importância

Leia mais

Complemento I - Noções Introdutórias em Data Warehouses

Complemento I - Noções Introdutórias em Data Warehouses Complemento I - Noções Introdutórias em Data Warehouses Esse documento é parte integrante do material fornecido pela WEB para a 2ª edição do livro Data Mining: Conceitos, técnicas, algoritmos, orientações

Leia mais

Análise e Projeto de Software

Análise e Projeto de Software Análise e Projeto de Software 1 Mundo Real Modelagem Elicitação Análise Problemas Soluções Gap Semântico Mundo Computacional Elicitação de Requisitos Análise de Requisitos Modelagem dos Requisitos 2 Projeto

Leia mais

Aula 4 Conceitos Básicos de Estatística. Aula 4 Conceitos básicos de estatística

Aula 4 Conceitos Básicos de Estatística. Aula 4 Conceitos básicos de estatística Aula 4 Conceitos Básicos de Estatística Aula 4 Conceitos básicos de estatística A Estatística é a ciência de aprendizagem a partir de dados. Trata-se de uma disciplina estratégica, que coleta, analisa

Leia mais

DESENVOLVENDO O SISTEMA

DESENVOLVENDO O SISTEMA DESENVOLVENDO O SISTEMA Declaração da Necessidade O primeiro passo do processo de análise de sistema envolve a identificação da necessidade [Pressman-95]. Normalmente o analista reúne-se com o usuário

Leia mais

Manual do Usuário. Protocolo

Manual do Usuário. Protocolo Manual do Usuário Protocolo Índice de capítulos Parte I - Processos............................... 01 1 - Buscar................................ 01 2 - Listar................................ 02 3 - Abertura..............................

Leia mais

CAPÍTULO 2. Grafos e Redes

CAPÍTULO 2. Grafos e Redes CAPÍTULO 2 1. Introdução Um grafo é uma representação visual de um determinado conjunto de dados e da ligação existente entre alguns dos elementos desse conjunto. Desta forma, em muitos dos problemas que

Leia mais

Laços Fortes e Fracos

Laços Fortes e Fracos Laços Fortes e Fracos Redes Sociais e Econômicas Prof. André Vignatti A Força de Laços em Redes de Larga Escala Para estudar laços fracos e fortes, foi feita uma pesquisa usando dados reais de uma companhia

Leia mais

Introdução a Redes Complexas

Introdução a Redes Complexas Introdução a Redes Complexas Jornadas de Atualização em Informática (JAI) CSBC 2011 Encontro 1/3 Daniel R. Figueiredo LAND PESC/COPPE/UFRJ Do que trata Redes Complexas? Entender como as coisas se conectam

Leia mais

Curso: Diagnóstico Comunitário Participativo.

Curso: Diagnóstico Comunitário Participativo. Curso: Diagnóstico Comunitário Participativo. Material referente ao texto do Módulo 3: Ações Básicas de Mobilização. O conhecimento da realidade é a base fundamental ao desenvolvimento social, que visa

Leia mais

Desenvolve Minas. Modelo de Excelência da Gestão

Desenvolve Minas. Modelo de Excelência da Gestão Desenvolve Minas Modelo de Excelência da Gestão O que é o MEG? O Modelo de Excelência da Gestão (MEG) possibilita a avaliação do grau de maturidade da gestão, pontuando processos gerenciais e resultados

Leia mais

PROCEDIMENTOS DE AUDITORIA INTERNA

PROCEDIMENTOS DE AUDITORIA INTERNA 1/8 Sumário 1 Objetivo 2 Aplicação 3 Documentos complementares 4 Definições 5 Procedimento 1 Objetivo Este Procedimento tem como objetivo descrever a rotina aplicável aos procedimentos de auditoria interna

Leia mais

Pedagogia Estácio FAMAP

Pedagogia Estácio FAMAP Pedagogia Estácio FAMAP # Objetivos Gerais: O Curso de Graduação em Pedagogia da Estácio FAMAP tem por objetivo geral a formação de profissionais preparados para responder às diferenciadas demandas educativas

Leia mais

UML: Diagrama de Casos de Uso, Diagrama de Classes

UML: Diagrama de Casos de Uso, Diagrama de Classes UML: Diagrama de Casos de Uso, Diagrama de Classes Diagrama de Casos de Uso O modelo de casos de uso visa responder a pergunta: Que usos (funcionalidades) o sistema terá? ou Para que aplicações o sistema

Leia mais

Guia de utilização da notação BPMN

Guia de utilização da notação BPMN 1 Guia de utilização da notação BPMN Agosto 2011 2 Sumário de Informações do Documento Documento: Guia_de_utilização_da_notação_BPMN.odt Número de páginas: 31 Versão Data Mudanças Autor 1.0 15/09/11 Criação

Leia mais

Conceitos Básicos de Rede. Um manual para empresas com até 75 computadores

Conceitos Básicos de Rede. Um manual para empresas com até 75 computadores Conceitos Básicos de Rede Um manual para empresas com até 75 computadores 1 Conceitos Básicos de Rede Conceitos Básicos de Rede... 1 A Função de Uma Rede... 1 Introdução às Redes... 2 Mais Conceitos Básicos

Leia mais

Redes de Computadores. Camada de Aplicação Teoria de Redes Complexas: Conceitos Básicos em Grafos

Redes de Computadores. Camada de Aplicação Teoria de Redes Complexas: Conceitos Básicos em Grafos Redes de Computadores Camada de Aplicação Teoria de Redes Complexas: Conceitos Básicos em Grafos Introdução Como as coisas estão conectadas? Redes! A network is a set of vertices or nodes provided with

Leia mais

MODELAGEM E SIMULAÇÃO

MODELAGEM E SIMULAÇÃO MODELAGEM E SIMULAÇÃO Professor: Dr. Edwin B. Mitacc Meza edwin@engenharia-puro.com.br www.engenharia-puro.com.br/edwin Terminologia Básica Utilizada em de Sistemas Terminologia Básica Uma série de termos

Leia mais

PROJETO DE COOPERAÇÃO TÉCNICA INTERNACIONAL. Projeto 914 BRA5065 - PRODOC-MTC/UNESCO DOCUMENTO TÉCNICO Nº 03

PROJETO DE COOPERAÇÃO TÉCNICA INTERNACIONAL. Projeto 914 BRA5065 - PRODOC-MTC/UNESCO DOCUMENTO TÉCNICO Nº 03 PROJETO DE COOPERAÇÃO TÉCNICA INTERNACIONAL Diretrizes e Estratégias para Ciência, Tecnologia e Inovação no Brasil Projeto 914 BRA5065 - PRODOC-MTC/UNESCO DOCUMENTO TÉCNICO Nº 03 RELATÓRIO TÉCNICO CONCLUSIVO

Leia mais

UNIVERSIDADE FEDERAL RURAL DE PERNAMBUCO DEPARTAMENTO DE ESTATÍSTICA E INFORMÁTICA BACHARELADO EM SISTEMAS DE INFORMAÇÃO RAPID APPLICATION DEVELOPMENT

UNIVERSIDADE FEDERAL RURAL DE PERNAMBUCO DEPARTAMENTO DE ESTATÍSTICA E INFORMÁTICA BACHARELADO EM SISTEMAS DE INFORMAÇÃO RAPID APPLICATION DEVELOPMENT UNIVERSIDADE FEDERAL RURAL DE PERNAMBUCO DEPARTAMENTO DE ESTATÍSTICA E INFORMÁTICA BACHARELADO EM SISTEMAS DE INFORMAÇÃO RAPID APPLICATION DEVELOPMENT Disciplina: Modelagem a Programação Orientada a Objetos

Leia mais

ITIL v3 - Operação de Serviço - Parte 1

ITIL v3 - Operação de Serviço - Parte 1 ITIL v3 - Operação de Serviço - Parte 1 É na Operação de Serviço que se coordena e realiza as atividades e processos necessários para fornecer e gerenciar serviços em níveis acordados com o usuário e clientes

Leia mais

Agenda Semântica. Grupo: Francisco Rodrigues Júnior Guilherme Daher Ferreira Luana Vieira Morellato Renan Rigo

Agenda Semântica. Grupo: Francisco Rodrigues Júnior Guilherme Daher Ferreira Luana Vieira Morellato Renan Rigo Universidade Federal do Espírito Santo Inteligência Artificial Agenda Semântica Grupo: Francisco Rodrigues Júnior Guilherme Daher Ferreira Luana Vieira Morellato Renan Rigo Vitória 2007/02 Agenda Semântica

Leia mais

LISTA DE VERIFICAÇAO DO SISTEMA DE GESTAO DA QUALIDADE

LISTA DE VERIFICAÇAO DO SISTEMA DE GESTAO DA QUALIDADE Questionamento a alta direção: 1. Quais os objetivos e metas da organização? 2. quais os principais Produtos e/ou serviços da organização? 3. Qual o escopo da certificação? 4. qual é a Visão e Missão?

Leia mais

MANUAL DA SECRETARIA

MANUAL DA SECRETARIA MANUAL DA SECRETARIA Conteúdo Tela de acesso... 2 Liberação de acesso ao sistema... 3 Funcionários... 3 Secretaria... 5 Tutores... 7 Autores... 8 Configuração dos cursos da Instituição de Ensino... 9 Novo

Leia mais

Teste de Software: Um Breve Estudo do Importante Processo no Desenvolvimento de Softwares

Teste de Software: Um Breve Estudo do Importante Processo no Desenvolvimento de Softwares Teste de Software: Um Breve Estudo do Importante Processo no Desenvolvimento de Softwares André Assis Lôbo de Oliveira Francisco Guerra Fernandes Júnior Faculdades Alves Faria, 74445190, Brasil andrelobin@hotmail.com,

Leia mais

Relatório Trabalho Prático 2 : Colônia de Formigas para Otimização e Agrupamento

Relatório Trabalho Prático 2 : Colônia de Formigas para Otimização e Agrupamento Relatório Trabalho Prático 2 : Colônia de Formigas para Otimização e Agrupamento Ramon Pereira Lopes Rangel Silva Oliveira 31 de outubro de 2011 1 Introdução O presente documento refere-se ao relatório

Leia mais

3.1 Definições Uma classe é a descrição de um tipo de objeto.

3.1 Definições Uma classe é a descrição de um tipo de objeto. Unified Modeling Language (UML) Universidade Federal do Maranhão UFMA Pós Graduação de Engenharia de Eletricidade Grupo de Computação Assunto: Diagrama de Classes Autoria:Aristófanes Corrêa Silva Adaptação:

Leia mais

Aula 2 Revisão 1. Ciclo de Vida. Processo de Desenvolvimento de SW. Processo de Desenvolvimento de SW. Processo de Desenvolvimento de SW

Aula 2 Revisão 1. Ciclo de Vida. Processo de Desenvolvimento de SW. Processo de Desenvolvimento de SW. Processo de Desenvolvimento de SW Ciclo de Vida Aula 2 Revisão 1 Processo de Desenvolvimento de Software 1 O Processo de desenvolvimento de software é um conjunto de atividades, parcialmente ordenadas, com a finalidade de obter um produto

Leia mais

Engenharia de Software e Gerência de Projetos Prof. Esp. André Luís Belini Bacharel em Sistemas de Informações MBA em Gestão Estratégica de Negócios

Engenharia de Software e Gerência de Projetos Prof. Esp. André Luís Belini Bacharel em Sistemas de Informações MBA em Gestão Estratégica de Negócios Engenharia de Software e Gerência de Projetos Prof. Esp. André Luís Belini Bacharel em Sistemas de Informações MBA em Gestão Estratégica de Negócios Cronograma das Aulas. Hoje você está na aula Semana

Leia mais

TRANSMISSÃO DE DADOS Prof. Ricardo Rodrigues Barcelar http://www.ricardobarcelar.com

TRANSMISSÃO DE DADOS Prof. Ricardo Rodrigues Barcelar http://www.ricardobarcelar.com - Aula 3-1. A CAMADA DE REDE (Parte 1) A camada de Rede está relacionada à transferência de pacotes da origem para o destino. No entanto, chegar ao destino pode envolver vários saltos em roteadores intermediários.

Leia mais

Gestão da Qualidade em Projetos

Gestão da Qualidade em Projetos Gestão da Qualidade em Projetos Definição do Escopo Escopo O escopo do projeto define o que precisa ser feito. Isso se refere a todo o trabalho que deve ser realizado com a finalidade de produzir todas

Leia mais

5 Considerações finais

5 Considerações finais 5 Considerações finais A dissertação traz, como foco central, as relações que destacam os diferentes efeitos de estratégias de marca no valor dos ativos intangíveis de empresa, examinando criticamente

Leia mais

Introdução a Banco de Dados Aula 03. Prof. Silvestri www.eduardosilvestri.com.br

Introdução a Banco de Dados Aula 03. Prof. Silvestri www.eduardosilvestri.com.br Introdução a Banco de Dados Aula 03 Prof. Silvestri www.eduardosilvestri.com.br Arquiteturas de Banco de Dados Arquiteturas de BD - Introdução Atualmente, devem-se considerar alguns aspectos relevantes

Leia mais

UNIÃO EDUCACIONAL DO NORTE UNINORTE AUTOR (ES) AUTOR (ES) TÍTULO DO PROJETO

UNIÃO EDUCACIONAL DO NORTE UNINORTE AUTOR (ES) AUTOR (ES) TÍTULO DO PROJETO UNIÃO EDUCACIONAL DO NORTE UNINORTE AUTOR (ES) AUTOR (ES) TÍTULO DO PROJETO RIO BRANCO Ano AUTOR (ES) AUTOR (ES) TÍTULO DO PROJETO Pré-Projeto de Pesquisa apresentado como exigência no processo de seleção

Leia mais

Extração de Conhecimento & Mineração de Dados

Extração de Conhecimento & Mineração de Dados Extração de Conhecimento & Mineração de Dados Nesta apresentação é dada uma breve introdução à Extração de Conhecimento e Mineração de Dados José Augusto Baranauskas Departamento de Física e Matemática

Leia mais

Trabalho de Implementação Jogo Reversi

Trabalho de Implementação Jogo Reversi Trabalho de Implementação Jogo Reversi Paulo Afonso Parreira Júnior {paulojr@comp.ufla.br} Rilson Machado de Olivera {rilson@comp.ufla.br} Universidade Federal de Lavras UFLA Departamento de Ciência da

Leia mais

BACHARELADO EM SISTEMAS DE INFORMAÇÃO EaD UAB/UFSCar Sistemas de Informação - prof. Dr. Hélio Crestana Guardia

BACHARELADO EM SISTEMAS DE INFORMAÇÃO EaD UAB/UFSCar Sistemas de Informação - prof. Dr. Hélio Crestana Guardia O Sistema Operacional que você usa é multitasking? Por multitasking, entende-se a capacidade do SO de ter mais de um processos em execução ao mesmo tempo. É claro que, num dado instante, o número de processos

Leia mais

Redes de Computadores II

Redes de Computadores II Redes de Computadores II UDP Prof: Ricardo Luís R. Peres Tem como objetivo prover uma comunicação entre dois processos de uma mesma sessão que estejam rodando em computadores dentro da mesma rede ou não.

Leia mais

A SEGUIR ALGUMAS DICAS PARA O DESENVOLVIMENTO DE UM PROJETO CIENTÍFICO

A SEGUIR ALGUMAS DICAS PARA O DESENVOLVIMENTO DE UM PROJETO CIENTÍFICO A SEGUIR ALGUMAS DICAS PARA O DESENVOLVIMENTO DE UM PROJETO CIENTÍFICO DESENVOLVENDO UM PROJETO 1. Pense em um tema de seu interesse ou um problema que você gostaria de resolver. 2. Obtenha um caderno

Leia mais

Conectar diferentes pesquisas na internet por um menu

Conectar diferentes pesquisas na internet por um menu Conectar diferentes pesquisas na internet por um menu Pré requisitos: Elaboração de questionário Formulário multimídia Publicação na internet Uso de senhas na Web Visualização condicionada ao perfil A

Leia mais

Introdução. Capítulo. 1.1 Considerações Iniciais

Introdução. Capítulo. 1.1 Considerações Iniciais Capítulo 1 Introdução 1.1 Considerações Iniciais A face humana é uma imagem fascinante, serve de infinita inspiração a artistas há milhares de anos. Uma das primeiras e mais importantes habilidades humanas

Leia mais

Unidade II - Sistemas de Equações Lineares

Unidade II - Sistemas de Equações Lineares Unidade II - Sistemas de Equações Lineares 1- Situando a Temática Discutiremos agora um dos mais importantes temas da matemática: Sistemas de Equações Lineares Trata-se de um tema que tem aplicações dentro

Leia mais

ELABORAÇÃO DE PROJETOS

ELABORAÇÃO DE PROJETOS Unidade II ELABORAÇÃO DE PROJETOS DE PESQUISA Profa. Eliane Gomes Rocha Pesquisa em Serviço Social As metodologias qualitativas de pesquisa são utilizadas nas Ciências Sociais e também no Serviço Social,

Leia mais

SISTEMA DE SERVIÇOS DE INFRA-ESTRUTURA DA UFRGS

SISTEMA DE SERVIÇOS DE INFRA-ESTRUTURA DA UFRGS SISTEMA DE SERVIÇOS DE INFRA-ESTRUTURA DA UFRGS Instituição: UFRGS Autores: Ricardo Vieira, José Luis Machado e Álvaro Juscelino Lanner Área: Sistema de Informações Introdução. O trabalho aqui proposto

Leia mais

Manual do Usuário - ProJuris Web - Biblioteca Jurídica Página 1 de 20

Manual do Usuário - ProJuris Web - Biblioteca Jurídica Página 1 de 20 As informações contidas neste documento estão sujeitas a alterações sem o prévio aviso, o que não representa um compromisso da Virtuem Informática. As pessoas, organizações ou empresas e eventos de exemplos

Leia mais

Resolução da lista de exercícios de casos de uso

Resolução da lista de exercícios de casos de uso Resolução da lista de exercícios de casos de uso 1. Explique quando são criados e utilizados os diagramas de casos de uso no processo de desenvolvimento incremental e iterativo. Na fase de concepção se

Leia mais

DATA WAREHOUSE. Introdução

DATA WAREHOUSE. Introdução DATA WAREHOUSE Introdução O grande crescimento do ambiente de negócios, médias e grandes empresas armazenam também um alto volume de informações, onde que juntamente com a tecnologia da informação, a correta

Leia mais

COMISSÃO DE COORDENAÇÃO DE CURSO INTRA-UNIDADE

COMISSÃO DE COORDENAÇÃO DE CURSO INTRA-UNIDADE PROJETO PEDAGÓGICO I. PERFIL DO GRADUANDO O egresso do Bacharelado em Economia Empresarial e Controladoria deve ter sólida formação econômica e em controladoria, além do domínio do ferramental quantitativo

Leia mais

Exercícios Teóricos Resolvidos

Exercícios Teóricos Resolvidos Universidade Federal de Minas Gerais Instituto de Ciências Exatas Departamento de Matemática Exercícios Teóricos Resolvidos O propósito deste texto é tentar mostrar aos alunos várias maneiras de raciocinar

Leia mais

Roteiro SENAC. Análise de Riscos. Planejamento do Gerenciamento de Riscos. Planejamento do Gerenciamento de Riscos

Roteiro SENAC. Análise de Riscos. Planejamento do Gerenciamento de Riscos. Planejamento do Gerenciamento de Riscos SENAC Pós-Graduação em Segurança da Informação: Análise de Riscos Parte 2 Leandro Loss, Dr. Eng. loss@gsigma.ufsc.br http://www.gsigma.ufsc.br/~loss Roteiro Introdução Conceitos básicos Riscos Tipos de

Leia mais

Planejamento - 7. Planejamento do Gerenciamento do Risco Identificação dos riscos. Mauricio Lyra, PMP

Planejamento - 7. Planejamento do Gerenciamento do Risco Identificação dos riscos. Mauricio Lyra, PMP Planejamento - 7 Planejamento do Gerenciamento do Risco Identificação dos riscos 1 O que é risco? Evento que representa uma ameaça ou uma oportunidade em potencial Plano de gerenciamento do risco Especifica

Leia mais

Fundamentos Decifrados de Contabilidade

Fundamentos Decifrados de Contabilidade 1 Resultado... 1 1.1 Receitas... 1 1.2 Despesas... 3 1.3 Ajustes... 6 2 Os conceitos de capital e de manutenção do capital... 7 1 Resultado O resultado é a medida mais utilizada para aferir a performance

Leia mais

Capítulo 2. Processos de Software. 2011 Pearson Prentice Hall. Todos os direitos reservados. slide 1

Capítulo 2. Processos de Software. 2011 Pearson Prentice Hall. Todos os direitos reservados. slide 1 Capítulo 2 Processos de Software slide 1 Tópicos apresentados Modelos de processo de software. Atividades de processo. Lidando com mudanças. Rational Unified Process (RUP). Um exemplo de um processo de

Leia mais

Potenciação no Conjunto dos Números Inteiros - Z

Potenciação no Conjunto dos Números Inteiros - Z Rua Oto de Alencar nº 5-9, Maracanã/RJ - tel. 04-98/4-98 Potenciação no Conjunto dos Números Inteiros - Z Podemos epressar o produto de quatro fatores iguais a.... por meio de uma potência de base e epoente

Leia mais

Medição tridimensional

Medição tridimensional A U A UL LA Medição tridimensional Um problema O controle de qualidade dimensional é tão antigo quanto a própria indústria, mas somente nas últimas décadas vem ocupando a importante posição que lhe cabe.

Leia mais

1 Um guia para este livro

1 Um guia para este livro PARTE 1 A estrutura A Parte I constitui-se de uma estrutura para o procedimento da pesquisa qualitativa e para a compreensão dos capítulos posteriores. O Capítulo 1 serve como um guia para o livro, apresentando

Leia mais

Ambiente de Simulação Virtual para Capacitação e Treinamento na Manutenção de. Disjuntores de Subestações de Energia Elétrica,

Ambiente de Simulação Virtual para Capacitação e Treinamento na Manutenção de. Disjuntores de Subestações de Energia Elétrica, Ambiente de Simulação Virtual para Capacitação e Treinamento na Manutenção de Disjuntores de Subestações de Energia Elétrica Prof. Dr. Lineu Belico dos Reis EPUSP Resumo: O informe técnico apresenta a

Leia mais

Síntese do Projeto Pedagógico do Curso de Sistemas de Informação PUC Minas/São Gabriel

Síntese do Projeto Pedagógico do Curso de Sistemas de Informação PUC Minas/São Gabriel PONTIFÍCIA UNIVERSIDADE CATÓLICA DE MINAS GERAIS Instituto de Informática Síntese do Projeto Pedagógico do Curso de Sistemas de Informação PUC Minas/São Gabriel Belo Horizonte - MG Outubro/2007 Síntese

Leia mais

Copyright Proibida Reprodução. Prof. Éder Clementino dos Santos

Copyright Proibida Reprodução. Prof. Éder Clementino dos Santos NOÇÕES DE OHSAS 18001:2007 CONCEITOS ELEMENTARES SISTEMA DE GESTÃO DE SSO OHSAS 18001:2007? FERRAMENTA ELEMENTAR CICLO DE PDCA (OHSAS 18001:2007) 4.6 ANÁLISE CRÍTICA 4.3 PLANEJAMENTO A P C D 4.5 VERIFICAÇÃO

Leia mais

Inovação aberta na indústria de software: Avaliação do perfil de inovação de empresas

Inovação aberta na indústria de software: Avaliação do perfil de inovação de empresas : Avaliação do perfil de inovação de empresas Prof. Paulo Henrique S. Bermejo, Dr. Prof. André Luiz Zambalde, Dr. Adriano Olímpio Tonelli, MSc. Pamela A. Santos Priscila Rosa LabGTI Laboratório de Governança

Leia mais

IMPLEMENTAÇÃO DE UM PROTÓTIPO PARA INFORMATIZAÇÃO DE PROCESSO DE ADEQUAÇÃO DE FÉRIAS

IMPLEMENTAÇÃO DE UM PROTÓTIPO PARA INFORMATIZAÇÃO DE PROCESSO DE ADEQUAÇÃO DE FÉRIAS 1 IMPLEMENTAÇÃO DE UM PROTÓTIPO PARA INFORMATIZAÇÃO DE PROCESSO DE ADEQUAÇÃO DE FÉRIAS Autor: Petrus Adriano Neto* petrusneto@yahoo.com.br RESUMO: A informatização das empresas é um caminho sem volta na

Leia mais

O Planejamento Participativo

O Planejamento Participativo O Planejamento Participativo Textos de um livro em preparação, a ser publicado em breve pela Ed. Vozes e que, provavelmente, se chamará Soluções de Planejamento para uma Visão Estratégica. Autor: Danilo

Leia mais

perspectivas e abordagens típicas de campos de investigação (Senra & Camargo, 2010).

perspectivas e abordagens típicas de campos de investigação (Senra & Camargo, 2010). 1 Introdução Os avanços na tecnologia da informação, bem como o crescimento da sociedade da informação através do uso da Internet, obrigaram os governos de inúmeros países, em seus mais variados níveis,

Leia mais

UNIVERSIDADE FEDERAL DE SANTA MARIA CENTRO DE TECNOLOGIA AULA 14 PROFª BRUNO CALEGARO

UNIVERSIDADE FEDERAL DE SANTA MARIA CENTRO DE TECNOLOGIA AULA 14 PROFª BRUNO CALEGARO UNIVERSIDADE FEDERAL DE SANTA MARIA CENTRO DE TECNOLOGIA AULA 14 PROFª BRUNO CALEGARO Santa Maria, 01 de Novembro de 2013. Revisão aula passada Projeto de Arquitetura Decisões de projeto de Arquitetura

Leia mais

Gestão do Risco e da Qualidade no Desenvolvimento de Software

Gestão do Risco e da Qualidade no Desenvolvimento de Software Gestão do Risco e da Qualidade no Desenvolvimento de Software Questionário Taxinómico do Software Engineering Institute António Miguel 1. Constrangimentos do Projecto Os Constrangimentos ao Projecto referem-se

Leia mais

agility made possible

agility made possible RESUMO DA SOLUÇÃO Utilitário ConfigXpress no CA IdentityMinder a minha solução de gerenciamento de identidades pode se adaptar rapidamente aos requisitos e processos de negócio em constante mudança? agility

Leia mais

DATA WAREHOUSE. Rafael Ervin Hass Raphael Laércio Zago

DATA WAREHOUSE. Rafael Ervin Hass Raphael Laércio Zago DATA WAREHOUSE Rafael Ervin Hass Raphael Laércio Zago Roteiro Introdução Aplicações Arquitetura Características Desenvolvimento Estudo de Caso Conclusão Introdução O conceito de "data warehousing" data

Leia mais

Gráficos. Incluindo gráficos

Gráficos. Incluindo gráficos Gráficos Mas antes de começar, você precisa ter em mente três conceitos importantes que constituem os gráficos do Excel 2007. O primeiro deles é o ponto de dados. Este elemento é representado pela combinação

Leia mais

INTERPRETANDO A GEOMETRIA DE RODAS DE UM CARRO: UMA EXPERIÊNCIA COM MODELAGEM MATEMÁTICA

INTERPRETANDO A GEOMETRIA DE RODAS DE UM CARRO: UMA EXPERIÊNCIA COM MODELAGEM MATEMÁTICA INTERPRETANDO A GEOMETRIA DE RODAS DE UM CARRO: UMA EXPERIÊNCIA COM MODELAGEM MATEMÁTICA Marcos Leomar Calson Mestrando em Educação em Ciências e Matemática, PUCRS Helena Noronha Cury Doutora em Educação

Leia mais

AMOSTRAGEM ESTATÍSTICA EM AUDITORIA PARTE ll

AMOSTRAGEM ESTATÍSTICA EM AUDITORIA PARTE ll AMOSTRAGEM ESTATÍSTICA EM AUDITORIA PARTE ll! Os parâmetros para decisão do auditor.! Tipos de planos de amostragem estatística em auditoria. Francisco Cavalcante(f_c_a@uol.com.br) Administrador de Empresas

Leia mais

ARQUITETURA DE COMPUTADORES

ARQUITETURA DE COMPUTADORES 1 ARQUITETURA DE COMPUTADORES U C P Prof. Leandro Coelho Plano de Aula 2 Aula Passada Definição Evolução dos Computadores Histórico Modelo de Von-Neumann Básico CPU Mémoria E/S Barramentos Plano de Aula

Leia mais

Data Warehousing. Leonardo da Silva Leandro. CIn.ufpe.br

Data Warehousing. Leonardo da Silva Leandro. CIn.ufpe.br Data Warehousing Leonardo da Silva Leandro Agenda Conceito Elementos básicos de um DW Arquitetura do DW Top-Down Bottom-Up Distribuído Modelo de Dados Estrela Snowflake Aplicação Conceito Em português:

Leia mais

3.4 O Princípio da Equipartição de Energia e a Capacidade Calorífica Molar

3.4 O Princípio da Equipartição de Energia e a Capacidade Calorífica Molar 3.4 O Princípio da Equipartição de Energia e a Capacidade Calorífica Molar Vimos que as previsões sobre as capacidades caloríficas molares baseadas na teoria cinética estão de acordo com o comportamento

Leia mais

NORMA BRASILEIRA DE CONTABILIDADE TÉCNICA DO SETOR PÚBLICO NBCT (IPSAS)

NORMA BRASILEIRA DE CONTABILIDADE TÉCNICA DO SETOR PÚBLICO NBCT (IPSAS) NORMA BRASILEIRA DE CONTABILIDADE TÉCNICA DO SETOR PÚBLICO NBCT (IPSAS) Temas para Discussão 1) DISPOSIÇÕES GERAIS 2) DEFINIÇÕES GERAIS 3) CARACTERÍSTICAS E ATRIBUTOS DA INFORMAÇÃO DE CUSTOS 4) EVIDENCIAÇÃO

Leia mais

ESPAÇOS MUNIDOS DE PRODUTO INTERNO

ESPAÇOS MUNIDOS DE PRODUTO INTERNO ESPAÇOS MUNIDOS DE PRODUTO INTERNO Angelo Fernando Fiori 1 Bruna Larissa Cecco 2 Grazielli Vassoler 3 Resumo: O presente trabalho apresenta um estudo sobre os espaços vetoriais munidos de produto interno.

Leia mais

Especificação Operacional.

Especificação Operacional. Especificação Operacional. Para muitos sistemas, a incerteza acerca dos requisitos leva a mudanças e problemas mais tarde no desenvolvimento de software. Zave (1984) sugere um modelo de processo que permite

Leia mais

Simulado Banco de Dados I Bimestre 1 Capítulo 1 Projeto Lógico de Banco de Dados

Simulado Banco de Dados I Bimestre 1 Capítulo 1 Projeto Lógico de Banco de Dados Simulado Banco de Dados I Bimestre 1 Capítulo 1 Projeto Lógico de Banco de Dados 01) Defina com suas próprias palavras: a) Banco de Dados b) Sistema Gerenciador de Banco de Dados c) Sistema de Banco de

Leia mais

Desenvolvimento de uma Etapa

Desenvolvimento de uma Etapa Desenvolvimento de uma Etapa A Fase Evolutiva do desenvolvimento de um sistema compreende uma sucessão de etapas de trabalho. Cada etapa configura-se na forma de um mini-ciclo que abrange as atividades

Leia mais

Projeto ECA na Escola - Plataforma de Educação à Distância

Projeto ECA na Escola - Plataforma de Educação à Distância Página1 Apresentação Projeto ECA na Escola - Plataforma de Educação à Distância Olá Participante do Projeto ECA na Escola, Este tutorial pretende auxiliá-lo na navegação na Plataforma de Educação à Distância

Leia mais

Chaves. Chaves. O modelo relacional implementa dois conhecidos conceitos de chaves, como veremos a seguir:

Chaves. Chaves. O modelo relacional implementa dois conhecidos conceitos de chaves, como veremos a seguir: Chaves 1 Chaves CONCEITO DE CHAVE: determina o conceito de item de busca, ou seja, um dado que será empregado nas consultas à base de dados. É um conceito lógico da aplicação (chave primária e chave estrangeira).

Leia mais

Sistemas Operacionais. Curso Técnico Integrado Profa: Michelle Nery

Sistemas Operacionais. Curso Técnico Integrado Profa: Michelle Nery Sistemas Operacionais Curso Técnico Integrado Profa: Michelle Nery Conteúdo Programático CONTAS DE E GRUPOS DE O Microsoft Management Console - MMC Permissões de Segurança de um Console Contas de Usuários

Leia mais

CUSTOS LOGÍSTICOS - UMA VISÃO GERENCIAL

CUSTOS LOGÍSTICOS - UMA VISÃO GERENCIAL CUSTOS LOGÍSTICOS - UMA VISÃO GERENCIAL Data: 10/12/1998 Maurício Lima INTRODUÇÃO Um dos principais desafios da logística moderna é conseguir gerenciar a relação entre custo e nível de serviço (trade-off).

Leia mais

REQUISITOS DE SISTEMAS

REQUISITOS DE SISTEMAS REQUISITOS DE SISTEMAS MÓDULO 2 PROCESSOS DE NEGÓCIOS CONTEÚDO 1. PROCESSOS DE NEGÓCIO IDENTIFICAÇÃO CONCEITOS MODELAGEM (BPM e UML) PROCESSOS X REQUISITOS 1. PROCESSOS DE NEGÓCIO IDENTIFICAÇÃO CONCEITOS

Leia mais

5 Exemplo de aplicação

5 Exemplo de aplicação 111 5 Exemplo de aplicação Este capítulo apresenta um exemplo de uso da linguagem proposta como forma de validação. Através da implementação da linguagem utilizando o potencial de extensão da ferramenta

Leia mais

Tencologia em Análise e Desenvolvimento de Sistemas Disciplina: WEB I Conteúdo: Arquitetura de Software Aula 03

Tencologia em Análise e Desenvolvimento de Sistemas Disciplina: WEB I Conteúdo: Arquitetura de Software Aula 03 Tencologia em Análise e Desenvolvimento de Sistemas Disciplina: WEB I Conteúdo: Arquitetura de Software Aula 03 Agenda 1. Arquitetura de Software 1.1.Introdução 1.2.Vantagens da Arquitetura de Software

Leia mais