UMA VISÃO GERAL DAS PRINCIPAIS TAREFAS DE MINERAÇÃO DE DADOS. Tauller Augusto de Araújo Matos 1

Tamanho: px
Começar a partir da página:

Download "UMA VISÃO GERAL DAS PRINCIPAIS TAREFAS DE MINERAÇÃO DE DADOS. Tauller Augusto de Araújo Matos 1"

Transcrição

1 UMA VISÃO GERAL DAS PRINCIPAIS TAREFAS DE MINERAÇÃO DE DADOS Tauller Augusto de Araújo Matos 1 Resumo: Este trabalho tem como objetivo conceituar e diferenciar as principais tarefas de mineração de dados, a saber: associação, seqüência, classificação, agrupamento (cluster) e desvio (outlier). Para este fim é utilizado exemplos em uma grande rede de departamentos. Palavra-Chave: Associação. Seqüência. Classificação. Cluster. Outlier. Abstract: This paper aims to conceptualize and distinguish the main tasks of data mining: namely: association, sequence, classification, cluster and outlier. For this purpose we used examples of a large network of departments. Key-Words: Association. Sequence. Classification. Clustering. Outlier. 1 Introdução Sistemas gerenciadores de banco de dados estão presentes na maioria das organizações públicas e empresas de pequeno, médio e grande porte. Estas contem os mais diferentes dados sobre produtos, fornecedores, clientes, empregados. Do ponto de vista comercial, quantidades gigantescas de dados são diariamente coletadas e armazenadas por empresas e corporações. Dados referentes a compras de clientes em lojas de departamento e redes de supermercados, navegação na internet, comércio eletrônico, transações bancárias ou de cartões de crédito. As empresas utilizam os dados para obterem conhecimento sobre seus clientes, a fim de ganhar vantagem e aumentar sua eficiência nesse mundo cada vez mais competitivo e fornecer valiosos serviços aos seus clientes. Em relação ao ponto de vista científico, dados são coletados e armazenados a velocidades enormes. Sensores remotos em satélites, telescópios, microarrays geram dados de expressões de genes. Por exemplo, na área da astronomia, realiza-se análise de imagens, classificação e catalogação de objetos no céu. Na 1 Professor da Fundação Educacional Dom André Arcoverde

2 área da saúde, pode-se citar a análise da eficácia de certos tratamentos e a análise de efeitos colaterais de drogas. Todo esse considerável conjunto de dados contém uma preciosa quantidade de informação, no entanto, sua análise por meio de métodos manuais que utiliza linguagens de consultas tradicionais é inviável. Analistas humanos podem levar semanas para correlacionar e descobrir alguma informação útil dentro de uma grande massa de dados. Quando a escala da manipulação de dados, exploração e inferência desenvolvem-se além das capacidades humanas, faz-se necessário a criação de uma nova geração de teorias computacionais. Surge então, a necessidade de desenvolver ferramentas, que auxiliem o homem na análise e interpretação dessa grande quantidade de dados para extrair conhecimento útil dentro do contexto da aplicação no processo de tomada de decisão. Uma técnica muito utilizada para a descoberta de conhecimento é a Mineração de Dados (Data Mining). Atualmente, encontram-se comercialmente disponíveis diversas ferramentas de mineração de dados que auxiliam cientistas a classificar e segmentar dados, formular hipóteses, realizar diagnósticos. Ajudam analistas a entender e prever necessidades e interesses dos clientes, descobrirem perfis de comportamento, detecção de fraudes, aprovação de crédito e de apólice. A mineração de dados pode ser aplicada a várias áreas e tipos de dados. Portanto, existem diversas tarefas (técnicas) para minerar estes dados que são divididas em heurísticas e estatísticas. Desta forma, torna-se necessário o pré conhecimento destas tarefas de mineração. Este trabalho tem como objetivo apresentar e diferenciar as 5 (cinco) principais tarefas de mineração, a saber: associação, seqüência, classificação, cluster e outlier, por meio de exemplos, em uma grande loja de departamentos. Desta forma, este artigo esta organizado da seguinte forma além desta introdução. Na Seção 2 conceitua-se Mineração de dados enquanto que na Seção 3 são apresentadas as tarefas de mineração de dados e por fim é feita uma conclusão e perspectivas futuras na Seção 4. 2

3 2. Mineração de dados A área denominada Descoberta de Conhecimento em Bases de Dados ou Knowledge Discovery in Databases (KDD) refere-se ao processo completo de descoberta de conhecimento em dados e envolve diversas fases. A Figura 1 apresenta uma visão hierárquica do processo de KDD. O termo KDD foi formalizado em 1989 em referência ao amplo conceito de procurar conhecimento a partir de bases de dados. Uma das definições mais populares foi proposta em 1996 por um grupo de pesquisadores (Fayyad et al., 1996a). KDD é um processo, de várias etapas, não-trivial, interativo e iterativo, para identificação de padrões compreensíveis, válidos, novos, potencialmente úteis a partir de grandes conjuntos de dados. (GOLDSCHMIDT, 2005, p. 3). Figura 1 - Visão hierárquica do processo de KDD (GOLDSCHMIDT, 2005) A mineração de dados é considerada a principal etapa do processo de KDD e o núcleo central do processo de prospecção de conhecimento, sendo composto pelos métodos de mineração de dados responsáveis pela extração de conhecimento explícito e potencialmente útil dos dados. Esse conhecimento deve ser correto, compreensível por usuários humanos e ser novo. Um conhecimento realmente útil é aquele que pode ser aplicado de forma a proporcionar benefícios reais ao contexto da aplicação. Para que se possa realizar o processo de KDD, torna-se necessária algumas fases como pré-processamento (limpeza, seleção e codificação) entre outras conforme ilustra a Figura 1. Estas fases não são foco deste artigo, caso o leitor interesse por este assunto deve-se ver em (GOLDSCHMIDT, 2005). Quando se fala de mineração de dados não se considera apenas consultas complexas elaboradas que visam ratificar uma hipótese gerada por um usuário em função dos relacionamentos existentes entre os dados, e sim a descoberta de novos fatos, regularidades, restrições, padrões e relacionamentos. 3

4 Minerar dados não é realizar uma consulta em algum site de busca na internet sobre Data mining, nem mesmo procurar um nome em uma lista telefônica, estes casos são exemplos de recuperação de informação, ver em (MANNING, 2007). Realizar uma consulta em linguagem estruturada, Structured Query Language (SQL), ver em (DATE, 2000), a um banco de dados, também não é um exemplo de mineração de dados. Mineração de dados é agrupar documentos similares retornados por um sistema de busca de acordo com seu contexto e é descobrir se certos nomes aparecem com mais freqüência em determinadas regiões da cidade. Com isto, Data mining refere-se à garimpagem ou descoberta de novas informações em termos de padrões ou regras oriundas de grandes quantidades de dados. (ELMASRI, 2005, p. 624). Já Date descreve mineração de dados como: A mineração de dados pode ser descrita como análise de dados exploratória. O objetivo é procurar padrões interessantes nos dados, padrões que possam ser usados para definir a estratégia do negócio ou para identificar um comportamento pouco usual. (DATE, 2000, p.621). É nesta etapa onde são aplicados as técnicas e os algoritmos a serem utilizados no problema em questão de forma a extrair modelos de dados. A escolha da técnica a ser utilizada no processo de mineração de dados, depende exclusivamente do tipo de tarefa de KDD a ser efetivamente realizada. Em geral, as técnicas de mineração de dados desempenham as seguintes tarefas: descoberta de associação, descoberta de sequências, classificação, clusterização e outlier. Uma vez escolhido o algoritmo a ser utilizado na aplicação do processo, deve-se executá-lo e adaptá-lo ao problema proposto. Estas técnicas de mineração de dados são descritas na Seção 3. 3 Tarefas de Mineração A técnica de mineração utilizada no processo de KDD está ligada a forma com que os dados foram pré-processados. Determinados algoritmos possuem restrições quanto aos tipos de variáveis envolvidas no problema. O uso de algoritmos 4

5 diferentes para executar a mesma técnica, também pode produzir diferentes resultados. A escolha da técnica a ser utilizada no processo de mineração de dados, depende exclusivamente do tipo de tarefa de KDD a ser efetivamente realizada. O que torna necessário distinguir o que é uma tarefa e o que é uma técnica de mineração. A tarefa consiste na especificação do que se busca nos dados, que tipo de regularidades ou categoria de padrões pode ser interessante encontrar. A técnica de mineração consiste na especificação de métodos que garantam como descobrir os padrões que são interessantes. Neste capítulo são apresentadas as principais tarefas e técnicas de mineração de dados. 3.1 Descoberta de associação As regras de associação representam padrões onde a ocorrência de eventos em um conjunto é alta. Devido a sua grande aplicabilidade esse tipo de técnica é muito utilizada/solicitada pela equipe de marketing das empresas. Suponha que o gerente de uma grande loja de departamentos esteja interessado em conhecer os hábitos de compra de seus clientes, por exemplo, quais os produtos que os clientes costumam comprar ao mesmo tempo, a cada vez que vêm à loja. Conhecer a resposta para esta questão pode ser útil: pode-se planejar melhor os catálogos da loja, os folhetos de promoções de produtos, as campanhas de publicidade, além de organizar melhor a localização dos produtos nas prateleiras da loja ao colocá-los próximos os itens frequentemente comprados juntos a fim de encorajar os clientes a comprar tais produtos conjuntamente. Para isto, você dispõe de uma mina de dados, que é o banco de dados de transações efetuadas pelos clientes. A cada compra de um cliente, são registrados neste banco todos os itens comprados, como mostra a Tabela 1. Para melhorar o processamento dos algoritmos de associação, na fase de pré processamento, são associados números a cada artigo da loja como ilustrado na Tabela 2 para facilitar a representação dos mesmos e atender as especificações dos algoritmos. 5

6 Tabela 1 - Banco de dados com transações de clientes Fonte: Autor TID (Identificador da transação) Itens comprados 101 {1, 3, 5} 102 {2, 1, 3, 7, 5} 103 {4, 9, 2, 1} 104 {5, 2, 1, 3, 9} 105 {1, 8, 6, 4, 3, 5} 106 {9, 2, 8} Tabela 2 - Representação numérica de cada registro da loja Fonte: Autor Artigo (item) Número que o representa Notebook 1 Mouse 2 Headset 3 Mochila para Notebook 4 Pen drives 5 Caixa de som 6 Switches 7 Memória 8 Hard Disk 9 Microfone 10 Repare que o que identifica uma transação é o identificador da transação (TID) e não o identificador do cliente. Assim, um mesmo cliente é contado várias vezes a cada vez que realiza uma compra na loja. É importante lembrar que o que interessa é a transação (a compra), e não o cliente. Na descoberta de associação, o cliente é irrelevante, pois o que interessa na identificação dos padrões são as ocorrências dos produtos comprados e não quem os comprou. Cada conjunto de itens comprados pelo cliente em uma única transação é chamado Itemset. Um itemset com k elementos é chamado de k-itemset. Suponha que o gerente decida que um itemset que apareça em pelo menos 50% de todas as compras registradas seja considerado frequente. Por exemplo, se o banco de dados de que você dispõe é o ilustrado na Tabela 1, então o itemset {1, 3} é considerado frequente, pois aparece em mais de 60% das transações. Porém, se você for muito exigente e decidir que o mínimo para ser considerado frequente é aparecer em pelo menos 70% das transações, então o itemset {1, 3} não é considerado freqüente. 6

7 Formalmente, uma regra de associação é uma implicação da forma X Y, onde X e Y são conjuntos de itens tais que X Y =. Convém destacar que a interseção vazia entre antecedente e conseqüente da regras assegura que não sejam extraídas regras óbvias que indiquem que um item está associado a ele próprio. (GOLDSCHMIDT, 2005, p. 61). A toda regra de associação X Y associa-se um grau de confiança, denotado por conf (X Y). Esse grau de confiança é simplesmente a porcentagem das transações que suportam Y dentre todas as transações que suportam X, a confiança é definida pela Fórmula 3.1. (3.1) Por exemplo, de acordo com a Fórmula 3.1, o grau de confiança da regra {switches} {pen drivers}, isto é, {7} {5}, com relação ao banco de dados da Tabela 1 é 1 (100%). Será que o fato de certa regra de associação ter um grau de confiança relativamente alto é suficiente para considerá-la como sendo uma boa regra? Repare que no banco de dados da Tabela 1, os itens switches, pen drivers aparecem juntos somente em uma transação entre seis, isto é, poucos clientes compram estes dois itens juntos. Entretanto, não se pode avaliar uma regra de associação somente pelo seu grau de confiança, pois como apresentado no exemplo, apesar da regra {switches} {pen drivers} ter tido um grau de confiança de 100%, ela é suportada em poucas transações. A fim de garantir que uma regra X Y seja boa ou interessante, torna-se necessário exigir que seu suporte também seja relativamente alto, além de seu grau de confiança. A toda regra de associação X Y associa-se um suporte, denotado por sup(x Y) definido como sendo o suporte do itemset X Y dividido pelo número de transações (Fórmula 3.2). Por exemplo, o suporte da regra {switches} {pen drivers} com relação ao banco de dados da Tabela 1 é 0,1666%. 7

8 (3.2) A Tabela 3 contabiliza os suportes de diversos itemsets com relação ao banco de dados de transações da Tabela 1. Tabela 3 Suporte de alguns itemsets referente à Tabela 1 Fonte: Autor Itemset Suporte {1, 3} 0,6666 {2, 3} 0,3333 {1, 2, 7} 0,1666 {2, 9} 0,5 Assim sendo em cada aplicação são estabelecidos valores mínimos para o suporte e a confiança, sendo que para o suporte o algoritmo descarta os itemsets com valores menores que o mínimo estabelecido e para a confiança descarta as regras com valor de confiança abaixo da mínima. Dentre os métodos de associação têm-se os algoritmos: o mais clássico é o algoritmo Apriori (AGRAWAL e SRIKANT, 1994). Outros algoritmos são: Apriori TID (SRIKANT e AGRAWALl, 1997) e Direct (SAVASERE et al., 1995). 3.2 Descoberta de Seqüência Esta técnica permite detectar padrões sequenciais entre as transações registradas no bando de dados com certas relações temporais. A descoberta de padrões sequenciais baseia-se no conceito de uma sequência de conjuntos de itens. (ELMASRI, 2005, p. 635). Suponha que o gerente de uma grande loja de departamentos esteja interessado em conhecer a evolução das compras de seus clientes, por exemplo, Que sequência de produtos são comprados por um mesmo cliente em momentos consecutivos?, Se for possível descobrir uma sequência de produtos <P1; P2; P3>, onde P seja qualquer produto da loja, que sejam comprados nesta ordem frequentemente pelos clientes, torna-se útil enviar folhetos promocionais que envolvem os produtos P2 ou P3 para aqueles clientes que compram o produto P1. Como descoberto os clientes têm grandes chances de comprar os produtos P2 e P3 8

9 no futuro e, portanto os recursos gastos em uma campanha de marketing (campanha dirigida a clientes potencialmente dispostos a comprar P2 e P3) tem-se grandes chances de não estarem sendo despendidos em vão. Ao contrário da técnica de associação, apresentada na seção 3.1, para a descoberta de sequências é necessário um banco de dados de transações com a identificação dos clientes que realizaram a compra e a data de cada transação. O que interessa na descoberta de sequências é identificar o que cada cliente compra em uma determinada sequência, conforme Tabela 4. Uma sequência ou padrão sequencial de tamanho k, onde k é o número de itensets da sequência, é uma coleção ordenada de itemsets <P 1 ; P 2 ;... ; P n >. Por exemplo, seja S um padrão sequencial de tamanho k = 3, representada pelos seguintes produtos, S = <{Notebook, Switch}, {Caixa de som}, {Placa mãe}>. Repare que este padrão comportamental se manifesta nos clientes com identificador 2 e 3, conforme Tabela 4. Todos eles compram num primeiro momento, não importando quando, Notebook e Switch (conjuntamente), num segundo momento compram um Caixa de som e tempos depois compram uma Placa mãe. Suponha que o gerente decida que um padrão sequencial que se manifeste em pelo menos 50% dos clientes registrados seja considerado frequente. Neste caso, o padrão S acima é considerado frequente. Caso o gerente seja um pouco mais exigente e decida que o mínimo para ser considerado frequente é que pelo menos 70% dos clientes manifestem tal comportamento então o padrão S acima não é considerado frequente. Para minerar sequências, antes de qualquer coisa é necessário adequar o banco de dados e eliminar as informações não úteis. Seguindo o exemplo da loja de suprimentos representado pelas transações da Tabela 4, não é necessária a data em que os clientes realizam a compra, e sim, a ordem em que foram comprados. Dessa forma, é eliminada a coluna data e incluída a coluna de sequencia de itemsets, que representa a ordem em que os produtos são comprados por cada cliente conforme Tabela 5. Como definido anteriormente, torna-se necessário a codificação dos dados, a serem minerados. Assim, são associados números a cada produto da loja o que resulta o banco de dados de sequencias de clientes da Tabela 6. Tabela 4 - Banco de dados de transações de Clientes 9

10 Fonte: Autor Identificador do Cliente Itemsets Data 1 {Notebook, Mochila para notebook} 10/02/ {Mouse, Switch, Notebook} 01/03/ {Mouse, DVD-RW} 03/03/ {Notebook, Switch, Joystick} 04/03/ {DVD-RW, Caixa de som} 05/03/ {Caixa de som, Hard Disk} 07/03/ {Headset, Monitor} 10/04/ {Placa de vídeo, Processador} 14/04/ {Estabilizador} 21/04/ {Placa mãe, Memória} 23/04/ {Placa mãe, Fonte de alimentação} 28/04/ {Notebook, Caixa de som} 30/04/2009 Tabela 5 - Banco de dados de sequências de Clientes Fonte: Autor Identificador do Sequencias de Itemsets Cliente 1 <{Notebook, Mochila para notebook}, {Mouse, DVD-RW}, {Headset, Monitor}> 2 <{Mouse, Switch, Notebook}, {DVD-RW, Caixa de som}, {Placa mãe, Memória}> 3 <{Notebook, Switch, Joystick}, {Caixa de som, Hard Disk}, {Placa mãe, Fonte de alimentação}> 4 <{Placa de vídeo, Processador}, {Estabilizador}, {Notebook, Caixa de som}> Tabela 6 - Representação numérica de sequências de Clientes Fonte: Autor Identificador do Sequências de Itemsets codificadas Cliente 1 <{1, 2}, {12, 11}, {16, 3}> 2 <{12, 4, 1}, {11, 6}, {5, 7}> 3 <{1, 4, 13}, {6, 15}, {5, 14}> 4 <{9, 10}, {8}, {1, 6}> As sequências que fazem parte do banco de dados são chamadas de sequências do cliente, as sequências que são possíveis padrões que podem aparecer nos dados são chamadas de padrão seqüencial. 10

11 A sequência padrão é dita freqüente se o seu suporte for maior ou igual ao suporte mínimo definido pelo especialista no domínio da aplicação. O suporte de um padrão sequencial em relação a um banco de dados de sequências de cliente é definido pela Fórmula 3.2. Dentre os métodos de descoberta de sequência têm-se os algoritmos: Generalized Seqüencial Pattern (GSP) (AGRAWAL e SRIKANT, 1995), Prefix Span (PEI, et al., 2001) e Algoritmos SPIRIT (GAROFALAKIS et al., 1999). 3.3 Classificação É o processo de aprendizagem de uma função que mapeia (classifica) um dado objeto de interesse em uma das possíveis classes. (ELMASRI, 2005, p. 634). É uma atividade preditiva que consiste na busca por padrões que classifiquem elementos rotulados. É necessário definir previamente as classes, já que o atributo classe é fundamental na tarefa de classificação. Pode ser compreendida como a busca por uma função que permita associar corretamente cada registro X i de um bando de dados a um único rótulo categórico, Y i, denominado classe. (GOLDSCHMIDT, 2005, p. 66). Na definição acima, X i representa qualquer registro do conjunto de dados e Y i qualquer rótulo do conjunto de classes. Nos casos em que ocorrer a inferência de um registro do conjunto de dados em um rótulo do conjunto de classes, essa inferência é denominada classificação. O propósito da tarefa de classificação é descobrir algum tipo de relacionamento entre os atributos preditivos (tuplas do conjunto de dados) e o atributo objetivo (Classes) que permita encontrar um conhecimento que pode ser aplicado a novos registros de forma a prever a classe em que tais registros se encaixam. Suponha que o gerente de uma grande loja de departamentos disponha de um banco de dados de clientes, que contem informações tais como nome, idade, renda mensal, profissão e se comprou ou não produtos eletrônicos na loja. Deseja-se enviar um material de propaganda pelo correio aos clientes, que descreve novos produtos eletrônicos e preços promocionais de alguns destes produtos. Para não fazer despesas inúteis torna-se interessante enviar este material publicitário apenas aos clientes que sejam potenciais compradores de produtos eletrônicos. Outro ponto importante: a partir do banco de dados de clientes é desenvolvido um 11

12 método para permitir quais atributos de um cliente o torna um potencial comprador de produtos eletrônicos. Identificado o método aplicá-lo no futuro para os novos clientes. Isto é, a partir do banco de dados atual, descobrem-se regras que classificam os clientes em duas classes: os que compram produtos eletrônicos e os que não compram. Que tipos de atributos de clientes (idade, renda mensal, profissão) influenciam na colocação de um cliente numa ou noutra classe? Uma vez definida estas regras de classificação de clientes, estas são utilizadas no futuro para classificar novos clientes. Por exemplo, regras que podem ser descobertas: = Sim. - Se idade está entre 30 e 40 e a renda mensal é Alta então ClasseProdEletr - Se idade está entre 60 e 70 então ClasseProdEletr = Não. Quando um novo cliente João, com idade de 25 anos e renda mensal Alta e que tenha comprado discos, é catalogado no banco de dados, o classificador diz que este cliente é um potencial comprador de aparelhos eletrônicos. Este cliente é colocado na classe ClasseProdEletr = Sim, mesmo que ele ainda não tenha comprado nenhum produto eletrônico. Dentre os métodos de classificação têm-se os algoritmos: árvores de decisão (IAN e EIBE, 2000), Back-Propagation redes neurais (LU et al., 1995) e Classificadores Bayesianos (DOMINGOS e PAZZANI, 1996). 3.4 Clusterização/Agrupamento O objetivo do agrupamento é colocar os registros em grupos, de tal forma que os registros de um grupo sejam similares aos demais do mesmo grupo e diferentes daqueles dos demais grupos. (ELMASRI, 2005, p.637). A tarefa de clusterização tem como objetivo o particionamento dos registros do banco de dados em subconjuntos ou clusters. Um cluster é uma coleção de objetos que são similares uns aos outros, ou seja, cada cluster é definido por um grupo, sendo que este grupo contem tuplas onde os valores de seus atributos são semelhantes. 12

13 Análise de clusters é uma tarefa de aprendizado não supervisionado, pelo fato de que os clusters representam classes que não estão definidas no início do processo de aprendizado, sendo assim uma tarefa de aprendizado por observação. Suponha que o gerente de uma grande loja de departamentos disponha de um banco de dados de clientes, que contem informações tais como o endereço de seus clientes. A empresa deseja abrir duas filias na cidade. Portanto, utiliza-se algum dos algortimos de clusterização com objetivo de encontrar grupos de clientes próximos e, além disto, o centro de gravidade destes grupos. A Figura 2 esboça um exemplo deste agrupamento. Figura 2 - Agrupamento por cluster. (fonte: Autor) Os pontos A1, A2, A3, B1, B2, B3, C1 e C2 são os clientes. Os centros de gravidades são representados por X e indicam os locais onde devem ser instaladas as duas novas filiais, pois é o ponto central de cada grupo. Ou seja, o ponto mais próximo de todos os seus clientes. Dentro os métodos de classificação têm-se os algoritmos: K-means (NG e HAN, 1994), CURE (GUHA, et al., 1998), DBSCAN (ESTER, et al., 1996). 3.5 DETECÇÃO DE DESVIOS A tarefa de detecção de desvios ou também chamada outliers, isto é exceções, tem como objetivo a identificação de conhecimento inesperado. Pode ser aplicada em áreas tais como: comércio eletrônico, detecção de fraudes de cartão de crédito e mesmo análise de desempenho de atletas profissionais nos casos de 13

14 dopagem, ou seja, tem como objetivo identificar mudanças em padrões anteriormente percebidos. Pode-se definir outliers como um fato que desvia tanto de outros fatos a ponto de gerar suspeitas de que foi gerado por mecanismo diferente dos demais fatos registrados, outliers se distância dos demais fatos. Em geral, são especificados limiares de tolerância, de tal forma que, sempre que a distância entre o registro em análise e o padrão médio representativo da base de dados excede um destes limiares, tal registro é considerado um desvio. (GOLDSCHMIDT, 2005, p.80). Os parâmetros utilizados na detecção de desvio, isto é, para se decidir que um objeto de um banco de dados é um outliers é tarefa do especialista do domínio da aplicação. Por exemplo, um objeto D, é dito um desvio se pelo menos uma fração definida pelo parâmetro p onde 0 < p < 1 dos objetos do banco de dados D estão a uma distância maior do que o parâmetro d do objeto. A Figura 3 ilustra um banco de dados D, onde mostra que o objeto circulado esta a uma distancia maior dos demais objetos desse banco de dados. Figura 3 - Outlier baseado em distância Como exemplo na loja de departamentos pode-se ter o comportamento de pagamento de um determinado cliente. Supõe que o mesmo sempre tem um padrão de comportamento, que é fazer suas compras parceladas no cartão de crédito. E excepcionalmente decide fazer uma compra de grande valor e a vista. Pode-se suspeitar que provavelmente esta tendo um comportamento fraudulento. Dentre os métodos de detecção de outliers têm-se os algoritmos: Nested Loop (NL), FindAllOuts que podem ser vistos em (KNORR e NG, 1998) 14

15 4. Conclusão e perspectivas futuras Devido ao aumento expressivo dos dados dentro de uma organização tornou-se inviável sua análise por meio de métodos manuais ou que utiliza linguagens de consultas tradicionais. Pequenas empresas ainda sabem o que seus clientes gostam de comprar, mas mesmo assim, podem-se identificar apenas compras óbvias. O objetivo da mineração de dados é detectar tendências e comportamentos raros em bases de dados. Foi mostrado que a mineração de dados pode ser aplicada a várias áreas e a diversos tipos de dados. Com isto, este trabalho abordou as principais técnicas de mineração de dados e os algoritmos utilizados para a busca de padrões no mesmo. As cinco principais tarefas de mineração são: associação, sequencia, classificação, cluster e outlier. Por meio de um exemplo de aplicação em uma grande rede de departamentos diferenciou-se cada uma destas tarefas. Como sugestão de trabalhos pode-se abordar estudos de casos com cada um destes algoritmos citados neste trabalho. Referências Bibliográficas AGRAWAL, R., SRIKANT, R. Fast Algorithms for Mining Association Rules. Proc. 20th Int. Conf. Very Large Data Bases, VLDB, AGRAWAL, R., SRIKANT, R. Mining Sequential Patterns. ICDE 1995, pages 1-14 DATE, C. J. Introdução a Sistemas de Bancos de Dados. Rio de Janeiro: Campos, DOMINGOS, Pedro, PAZZANI, Michael. Beyond Iindependence: Conditions for the optimality of the simple Bayesian classifier. Proc. International Conference on Machine Learning, 1996, pages Morgan Kaufmann. ELMASRI, Ramez; NAVATHE, Shamkant. Sistemas de Banco de Dados. 4ª Ed. São Paulo: Addison-wesley, ESTER, M., KRIEGEL H.-P, SANDER J., XU X.: A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise. In Proc. 2nd Int. Conf. on Knowledge Discovery and Data Mining, pp , GAROFALAKIS, M. RASTOGI R. e SHIM, K. SPIRIT: Sequential Pattern Mining with Regular Expression Constraints. Proc. VLDB,

16 GOLDSCHMIDT, Ronaldo; PASSOS, Emmanuel. Data Mining: um guia prático. Rio de Janeiro: Elsevier, GUHA S., RASTOGI R., SHIM K.: CURE: An Efficient Clustering Algorithm for Large Databases. ACM/SIGMOD IAN H. Witten, EIBE Frank: Data Mining- Practical Machine Learning Tools and Techniques with Java Implementations - Editora Morgan Kaufman, 2000 KNORR Edwin M., NG Raymond T.: Algorithms for Mining Distance-Based Outliers in Large Datasets. In Proc. 24th International Conference on Very Large Databases, VLDB 1998, New York, USA. LU, H., SETIONO R., LIU H.: Neurorule: A connectionist approach to data mining. In Proc Int. Conf. Very Large Data Bases (VLDB'95), pp , Zurich, Switzerland, MANNING, C; RAGHAVAN, P; SCHÜTZE, H. An Introduction to information Retrieval. Cambridge University Press, Cambridge, England, NG R.T., HAN J.: Efficient and Effective Clustering Methods for Spatial Data Mining. Proc. of the International Conference on Very Large Data Bases, (VLDB Conference), PEI Jian, HAN, Jiawei, MORTAZAVI-ASL, Behzad, PINTO Helen, CHEN Qiming, DAYAL, Umeshwar, HSU, Mei-chun: PrefixSpan: Mining sequential patterns efficiently by prefix-projected pattern growth. ICDE 2001, SAVASERE, A., OMIECINSKI, E., NAVATHE, S. B. An Efficient Algorithm for Mining Association Rules in Large Databases. VLDB 1995: SRIKANT, R., VU, Q., AGRAWAL, R.: Mining Association Rules with Item Constraints Proc. of the 3rd Int'l Conference on Knowledge Discovery in Databases and Data Mining, Newport Beach, California, August

Curso de Data Mining

Curso de Data Mining Curso de Data Mining Sandra de Amo Aula 2 - Mineração de Regras de Associação - O algoritmo APRIORI Suponha que você seja gerente de um supermercado e esteja interessado em conhecer os hábitos de compra

Leia mais

MINERAÇÃO DE DADOS APLICADA. Pedro Henrique Bragioni Las Casas pedro.lascasas@dcc.ufmg.br

MINERAÇÃO DE DADOS APLICADA. Pedro Henrique Bragioni Las Casas pedro.lascasas@dcc.ufmg.br MINERAÇÃO DE DADOS APLICADA Pedro Henrique Bragioni Las Casas pedro.lascasas@dcc.ufmg.br Processo Weka uma Ferramenta Livre para Data Mining O que é Weka? Weka é um Software livre do tipo open source para

Leia mais

ADM041 / EPR806 Sistemas de Informação

ADM041 / EPR806 Sistemas de Informação ADM041 / EPR806 Sistemas de Informação UNIFEI Universidade Federal de Itajubá Prof. Dr. Alexandre Ferreira de Pinho 1 Sistemas de Apoio à Decisão (SAD) Tipos de SAD Orientados por modelos: Criação de diferentes

Leia mais

Extração de Árvores de Decisão com a Ferramenta de Data Mining Weka

Extração de Árvores de Decisão com a Ferramenta de Data Mining Weka Extração de Árvores de Decisão com a Ferramenta de Data Mining Weka 1 Introdução A mineração de dados (data mining) pode ser definida como o processo automático de descoberta de conhecimento em bases de

Leia mais

Data Mining. Origem do Data Mining 24/05/2012. Data Mining. Prof Luiz Antonio do Nascimento

Data Mining. Origem do Data Mining 24/05/2012. Data Mining. Prof Luiz Antonio do Nascimento Data Mining Prof Luiz Antonio do Nascimento Data Mining Ferramenta utilizada para análise de dados para gerar, automaticamente, uma hipótese sobre padrões e anomalias identificadas para poder prever um

Leia mais

Administração de dados - Conceitos, técnicas, ferramentas e aplicações de Data Mining para gerar conhecimento a partir de bases de dados

Administração de dados - Conceitos, técnicas, ferramentas e aplicações de Data Mining para gerar conhecimento a partir de bases de dados Universidade Federal de Pernambuco Graduação em Ciência da Computação Centro de Informática 2006.2 Administração de dados - Conceitos, técnicas, ferramentas e aplicações de Data Mining para gerar conhecimento

Leia mais

Microsoft Innovation Center

Microsoft Innovation Center Microsoft Innovation Center Mineração de Dados (Data Mining) André Montevecchi andre@montevecchi.com.br Introdução Objetivo BI e Mineração de Dados Aplicações Exemplos e Cases Algoritmos para Mineração

Leia mais

PLANO DE ESTUDOS PARA DOUTORAMENTO EM ENGENHARIA INFORMÁTICA E DE COMPUTADORES CLÁUDIA M. ANTUNES

PLANO DE ESTUDOS PARA DOUTORAMENTO EM ENGENHARIA INFORMÁTICA E DE COMPUTADORES CLÁUDIA M. ANTUNES UNIVERSIDADE TÉCNICA DE LISBOA INSTITUTO SUPERIOR TÉCNICO PLANO DE ESTUDOS PARA DOUTORAMENTO EM ENGENHARIA INFORMÁTICA E DE COMPUTADORES CLÁUDIA M. ANTUNES Orientação Professor Doutor Arlindo L. Oliveira

Leia mais

Sistema de mineração de dados para descobertas de regras e padrões em dados médicos

Sistema de mineração de dados para descobertas de regras e padrões em dados médicos Sistema de mineração de dados para descobertas de regras e padrões em dados médicos Pollyanna Carolina BARBOSA¹; Thiago MAGELA² 1Aluna do Curso Superior Tecnólogo em Análise e Desenvolvimento de Sistemas

Leia mais

UNIVERSIDADE FEDERAL DE SANTA CATARINA GRADUAÇÃO EM SISTEMAS DE INFORMAÇÃO DEPARTAMENTO DE INFORMÁTICA E ESTATÍSTICA DATA MINING EM VÍDEOS

UNIVERSIDADE FEDERAL DE SANTA CATARINA GRADUAÇÃO EM SISTEMAS DE INFORMAÇÃO DEPARTAMENTO DE INFORMÁTICA E ESTATÍSTICA DATA MINING EM VÍDEOS UNIVERSIDADE FEDERAL DE SANTA CATARINA GRADUAÇÃO EM SISTEMAS DE INFORMAÇÃO DEPARTAMENTO DE INFORMÁTICA E ESTATÍSTICA DATA MINING EM VÍDEOS VINICIUS DA SILVEIRA SEGALIN FLORIANÓPOLIS OUTUBRO/2013 Sumário

Leia mais

No mundo atual, globalizado e competitivo, as organizações têm buscado cada vez mais, meios de se destacar no mercado. Uma estratégia para o

No mundo atual, globalizado e competitivo, as organizações têm buscado cada vez mais, meios de se destacar no mercado. Uma estratégia para o DATABASE MARKETING No mundo atual, globalizado e competitivo, as organizações têm buscado cada vez mais, meios de se destacar no mercado. Uma estratégia para o empresário obter sucesso em seu negócio é

Leia mais

4. Que tipos de padrões podem ser minerados. 5. Critérios de classificação de sistemas de Data Mining. 6. Tópicos importantes de estudo em Data Mining

4. Que tipos de padrões podem ser minerados. 5. Critérios de classificação de sistemas de Data Mining. 6. Tópicos importantes de estudo em Data Mining Curso de Data Mining - Aula 1 1. Como surgiu 2. O que é 3. Em que tipo de dados pode ser aplicado 4. Que tipos de padrões podem ser minerados 5. Critérios de classificação de sistemas de Data Mining 6.

Leia mais

DWARF DATAMINER: UMA FERRAMENTA GENÉRICA PARA MINERAÇÃO DE DADOS

DWARF DATAMINER: UMA FERRAMENTA GENÉRICA PARA MINERAÇÃO DE DADOS DWARF DATAMINER: UMA FERRAMENTA GENÉRICA PARA MINERAÇÃO DE DADOS Tácio Dias Palhão Mendes Bacharelando em Sistemas de Informação Bolsista de Iniciação Científica da FAPEMIG taciomendes@yahoo.com.br Prof.

Leia mais

Orientação a Objetos

Orientação a Objetos 1. Domínio e Aplicação Orientação a Objetos Um domínio é composto pelas entidades, informações e processos relacionados a um determinado contexto. Uma aplicação pode ser desenvolvida para automatizar ou

Leia mais

Banco de Dados Aula 1 Introdução a Banco de Dados Introdução Sistema Gerenciador de Banco de Dados

Banco de Dados Aula 1 Introdução a Banco de Dados Introdução Sistema Gerenciador de Banco de Dados Banco de Dados Aula 1 Introdução a Banco de Dados Introdução Um Sistema Gerenciador de Banco de Dados (SGBD) é constituído por um conjunto de dados associados a um conjunto de programas para acesso a esses

Leia mais

Fases para um Projeto de Data Warehouse. Fases para um Projeto de Data Warehouse. Fases para um Projeto de Data Warehouse

Fases para um Projeto de Data Warehouse. Fases para um Projeto de Data Warehouse. Fases para um Projeto de Data Warehouse Definição escopo do projeto (departamental, empresarial) Grau de redundância dos dados(ods, data staging) Tipo de usuário alvo (executivos, unidades) Definição do ambiente (relatórios e consultas préestruturadas

Leia mais

Módulo 4: Gerenciamento de Dados

Módulo 4: Gerenciamento de Dados Módulo 4: Gerenciamento de Dados 1 1. CONCEITOS Os dados são um recurso organizacional decisivo que precisa ser administrado como outros importantes ativos das empresas. A maioria das organizações não

Leia mais

Data, Text and Web Mining

Data, Text and Web Mining Data, Text and Web Mining Fabrício J. Barth TerraForum Consultores Junho de 2010 Objetivo Apresentar a importância do tema, os conceitos relacionados e alguns exemplos de aplicações. Data, Text and Web

Leia mais

Aprendizagem de Máquina

Aprendizagem de Máquina Aprendizagem de Máquina Professor: Rosalvo Ferreira de Oliveira Neto Disciplina: Inteligência Artificial Tópicos 1. Definições 2. Tipos de aprendizagem 3. Paradigmas de aprendizagem 4. Modos de aprendizagem

Leia mais

Planejamento Estratégico de TI. Prof.: Fernando Ascani

Planejamento Estratégico de TI. Prof.: Fernando Ascani Planejamento Estratégico de TI Prof.: Fernando Ascani Data Mining Os métodos tradicionais de Data Mining são: Classificação Associa ou classifica um item a uma ou várias classes categóricas pré-definidas.

Leia mais

CONCURSO PÚBLICO ANALISTA DE SISTEMA ÊNFASE GOVERNANÇA DE TI ANALISTA DE GESTÃO RESPOSTAS ESPERADAS PRELIMINARES

CONCURSO PÚBLICO ANALISTA DE SISTEMA ÊNFASE GOVERNANÇA DE TI ANALISTA DE GESTÃO RESPOSTAS ESPERADAS PRELIMINARES CELG DISTRIBUIÇÃO S.A EDITAL N. 1/2014 CONCURSO PÚBLICO ANALISTA DE GESTÃO ANALISTA DE SISTEMA ÊNFASE GOVERNANÇA DE TI RESPOSTAS ESPERADAS PRELIMINARES O Centro de Seleção da Universidade Federal de Goiás

Leia mais

Planejamento Estratégico de TI. Prof.: Fernando Ascani

Planejamento Estratégico de TI. Prof.: Fernando Ascani Planejamento Estratégico de TI Prof.: Fernando Ascani Data Warehouse - Conceitos Hoje em dia uma organização precisa utilizar toda informação disponível para criar e manter vantagem competitiva. Sai na

Leia mais

IMPLEMENTAÇÃO DE UM ALGORITMO DE PADRÕES DE SEQUÊNCIA PARA DESCOBERTA DE ASSOCIAÇÕES ENTRE PRODUTOS DE UMA BASE DE DADOS REAL

IMPLEMENTAÇÃO DE UM ALGORITMO DE PADRÕES DE SEQUÊNCIA PARA DESCOBERTA DE ASSOCIAÇÕES ENTRE PRODUTOS DE UMA BASE DE DADOS REAL Universidade Federal de Ouro Preto - UFOP Instituto de Ciências Exatas e Biológicas - ICEB Departamento de Computação - DECOM IMPLEMENTAÇÃO DE UM ALGORITMO DE PADRÕES DE SEQUÊNCIA PARA DESCOBERTA DE ASSOCIAÇÕES

Leia mais

KDD E MINERAÇÃO DE DADOS:

KDD E MINERAÇÃO DE DADOS: KDD E MINERAÇÃO DE DADOS: Introdução e Motivação Prof. Ronaldo R. Goldschmidt ronaldo@de9.ime.eb.br rribeiro@univercidade.br geocities.yahoo.com.br/ronaldo_goldschmidt Fatos: Avanços em TI e o crescimento

Leia mais

APOO Análise e Projeto Orientado a Objetos. Requisitos

APOO Análise e Projeto Orientado a Objetos. Requisitos + APOO Análise e Projeto Orientado a Objetos Requisitos Requisitos 2 n Segundo Larman: n São capacidades e condições às quais o sistema e em termos mais amplos, o projeto deve atender n Não são apenas

Leia mais

Roteiro 2 Conceitos Gerais

Roteiro 2 Conceitos Gerais Roteiro 2 Conceitos Gerais Objetivos: UC Projeto de Banco de Dados Explorar conceitos gerais de bancos de dados; o Arquitetura de bancos de dados: esquemas, categorias de modelos de dados, linguagens e

Leia mais

COMPARAÇÃO DOS MÉTODOS DE SEGMENTAÇÃO DE IMAGENS OTSU, KMEANS E CRESCIMENTO DE REGIÕES NA SEGMENTAÇÃO DE PLACAS AUTOMOTIVAS

COMPARAÇÃO DOS MÉTODOS DE SEGMENTAÇÃO DE IMAGENS OTSU, KMEANS E CRESCIMENTO DE REGIÕES NA SEGMENTAÇÃO DE PLACAS AUTOMOTIVAS COMPARAÇÃO DOS MÉTODOS DE SEGMENTAÇÃO DE IMAGENS OTSU, KMEANS E CRESCIMENTO DE REGIÕES NA SEGMENTAÇÃO DE PLACAS AUTOMOTIVAS Leonardo Meneguzzi 1 ; Marcelo Massoco Cendron 2 ; Manassés Ribeiro 3 INTRODUÇÃO

Leia mais

Gestão da Informação. Gestão da Informação. AULA 3 Data Mining

Gestão da Informação. Gestão da Informação. AULA 3 Data Mining Gestão da Informação AULA 3 Data Mining Prof. Edilberto M. Silva Gestão da Informação Agenda Unidade I - DM (Data Mining) Definição Objetivos Exemplos de Uso Técnicas Tarefas Unidade II DM Prático Exemplo

Leia mais

Professor: Disciplina:

Professor: Disciplina: Professor: Curso: Esp. Marcos Morais de Sousa marcosmoraisdesousa@gmail.com Sistemas de informação Disciplina: Introdução a SI Noções de sistemas de informação Turma: 01º semestre Prof. Esp. Marcos Morais

Leia mais

Após essa disciplina você vai ficar convencido que a estatística tem enorme aplicação em diversas áreas.

Após essa disciplina você vai ficar convencido que a estatística tem enorme aplicação em diversas áreas. UNIVERSIDADE FEDERAL DA PARAÍBA INTRODUÇÃO Departamento de Estatística Luiz Medeiros http://www.de.ufpb.br/~luiz/ CONCEITOS FUNDAMENTAIS DE ESTATÍSTICA O que a Estatística significa para você? Pesquisas

Leia mais

ISO/IEC 12207: Gerência de Configuração

ISO/IEC 12207: Gerência de Configuração ISO/IEC 12207: Gerência de Configuração Durante o processo de desenvolvimento de um software, é produzida uma grande quantidade de itens de informação que podem ser alterados durante o processo Para que

Leia mais

Capítulo 3. Avaliação de Desempenho. 3.1 Definição de Desempenho

Capítulo 3. Avaliação de Desempenho. 3.1 Definição de Desempenho 20 Capítulo 3 Avaliação de Desempenho Este capítulo aborda como medir, informar e documentar aspectos relativos ao desempenho de um computador. Além disso, descreve os principais fatores que influenciam

Leia mais

Web Data mining com R: aprendizagem de máquina

Web Data mining com R: aprendizagem de máquina Web Data mining com R: aprendizagem de máquina Fabrício Jailson Barth Faculdade BandTec e VAGAS Tecnologia Junho de 2013 Sumário O que é Aprendizagem de Máquina? Hierarquia de aprendizado. Exemplos de

Leia mais

Gerenciamento de Incidentes - ITIL. Prof. Rafael Marciano

Gerenciamento de Incidentes - ITIL. Prof. Rafael Marciano Gerenciamento de Incidentes - ITIL Prof. Rafael Marciano Conteúdo Objetivos Conceitos e Definições Atividades Indicadores Chaves de Desempenho Papéis Desafios Um pouco sobre a certificação ITIL Foundations

Leia mais

APLICAÇÃO DE MINERAÇÃO DE DADOS PARA O LEVANTAMENTO DE PERFIS: ESTUDO DE CASO EM UMA INSTITUIÇÃO DE ENSINO SUPERIOR PRIVADA

APLICAÇÃO DE MINERAÇÃO DE DADOS PARA O LEVANTAMENTO DE PERFIS: ESTUDO DE CASO EM UMA INSTITUIÇÃO DE ENSINO SUPERIOR PRIVADA APLICAÇÃO DE MINERAÇÃO DE DADOS PARA O LEVANTAMENTO DE PERFIS: ESTUDO DE CASO EM UMA INSTITUIÇÃO DE ENSINO SUPERIOR PRIVADA Lizianne Priscila Marques SOUTO 1 1 Faculdade de Ciências Sociais e Aplicadas

Leia mais

Engenharia de Software III

Engenharia de Software III Engenharia de Software III Casos de uso http://dl.dropbox.com/u/3025380/es3/aula6.pdf (flavio.ceci@unisul.br) 09/09/2010 O que são casos de uso? Um caso de uso procura documentar as ações necessárias,

Leia mais

Aula 02: Conceitos Fundamentais

Aula 02: Conceitos Fundamentais Aula 02: Conceitos Fundamentais Profa. Ms. Rosângela da Silva Nunes 1 de 26 Roteiro 1. Por que mineração de dados 2. O que é Mineração de dados 3. Processo 4. Que tipo de dados podem ser minerados 5. Que

Leia mais

Hierarquia de modelos e Aprendizagem de Máquina

Hierarquia de modelos e Aprendizagem de Máquina Hierarquia de modelos e Aprendizagem de Máquina Fabrício Jailson Barth BandTec Maio de 2015 Sumário Introdução: hierarquia de modelos e aprendizagem de máquina. O que é Aprendizagem de Máquina? Hierarquia

Leia mais

Roteiro para a escrita do documento de Especificação de Requisitos de Software (ERS)

Roteiro para a escrita do documento de Especificação de Requisitos de Software (ERS) Roteiro para a escrita do documento de Especificação de Requisitos de Software (ERS) Definição Geral: Disciplina de Compiladores Prof. Jorge Bidarra (UNIOESTE) A especificação de requisitos tem como objetivo

Leia mais

A ITIL e o Gerenciamento de Serviços de TI

A ITIL e o Gerenciamento de Serviços de TI A ITIL e o Gerenciamento de Serviços de TI A era da informação Informação, palavra derivada do verbo latim "informare", que significa "disciplinar", "ensinar", "instruir", juntamente com o seu significado

Leia mais

Tarefas e Técnicas de Mineração de Dados TAREFAS E TÉCNICAS DE MINERAÇÃO DE DADOS

Tarefas e Técnicas de Mineração de Dados TAREFAS E TÉCNICAS DE MINERAÇÃO DE DADOS Tarefas e Técnicas de Mineração de Dados TAREFAS E TÉCNICAS DE MINERAÇÃO DE DADOS Sumário Conceitos / Autores chave... 3 1. Introdução... 3 2. Tarefas desempenhadas por Técnicas de 4 Mineração de Dados...

Leia mais

XIII Encontro de Iniciação Científica IX Mostra de Pós-graduação 06 a 11 de outubro de 2008 BIODIVERSIDADE TECNOLOGIA DESENVOLVIMENTO

XIII Encontro de Iniciação Científica IX Mostra de Pós-graduação 06 a 11 de outubro de 2008 BIODIVERSIDADE TECNOLOGIA DESENVOLVIMENTO XIII Encontro de Iniciação Científica IX Mostra de Pós-graduação 06 a 11 de outubro de 2008 BIODIVERSIDADE TECNOLOGIA DESENVOLVIMENTO EPE0147 UTILIZAÇÃO DA MINERAÇÃO DE DADOS EM UMA AVALIAÇÃO INSTITUCIONAL

Leia mais

Prof. Msc. Paulo Muniz de Ávila

Prof. Msc. Paulo Muniz de Ávila Prof. Msc. Paulo Muniz de Ávila O que é Data Mining? Mineração de dados (descoberta de conhecimento em bases de dados): Extração de informação interessante (não-trivial, implícita, previamente desconhecida

Leia mais

Algoritmos Genéticos em Mineração de Dados. Descoberta de Conhecimento. Descoberta do Conhecimento em Bancos de Dados

Algoritmos Genéticos em Mineração de Dados. Descoberta de Conhecimento. Descoberta do Conhecimento em Bancos de Dados Algoritmos Genéticos em Mineração de Dados Descoberta de Conhecimento Descoberta do Conhecimento em Bancos de Dados Processo interativo e iterativo para identificar padrões válidos, novos, potencialmente

Leia mais

Glossário Apresenta a definição dos termos, siglas e abreviações utilizadas no contexto do projeto Citsmart.

Glossário Apresenta a definição dos termos, siglas e abreviações utilizadas no contexto do projeto Citsmart. Apresenta a definição dos termos, siglas e abreviações utilizadas no contexto do projeto Citsmart. Versão 1.6 15/08/2013 Visão Resumida Data Criação 15/08/2013 Versão Documento 1.6 Projeto Responsáveis

Leia mais

Conceitos de Banco de Dados

Conceitos de Banco de Dados Conceitos de Banco de Dados Autor: Luiz Antonio Junior 1 INTRODUÇÃO Objetivos Introduzir conceitos básicos de Modelo de dados Introduzir conceitos básicos de Banco de dados Capacitar o aluno a construir

Leia mais

Planejamento Estratégico de TI. Prof.: Fernando Ascani

Planejamento Estratégico de TI. Prof.: Fernando Ascani Planejamento Estratégico de TI Prof.: Fernando Ascani BI Business Intelligence A inteligência Empresarial, ou Business Intelligence, é um termo do Gartner Group. O conceito surgiu na década de 80 e descreve

Leia mais

¹CPTL/UFMS, Três Lagoas, MS,Brasil, oliveiralimarafael@hotmail.com. ²CPTL/UFMS, Três Lagoas, MS, Brasil.

¹CPTL/UFMS, Três Lagoas, MS,Brasil, oliveiralimarafael@hotmail.com. ²CPTL/UFMS, Três Lagoas, MS, Brasil. Encontro de Ensino, Pesquisa e Extensão, Presidente Prudente, 22 a 25 de outubro, 2012 36 INTRODUÇÃO A CRIPTOGRAFIA RSA Rafael Lima Oliveira¹, Prof. Dr. Fernando Pereira de Souza². ¹CPTL/UFMS, Três Lagoas,

Leia mais

Introdução. Banco de dados. Por que usar BD? Por que estudar BD? Exemplo de um BD. Conceitos básicos

Introdução. Banco de dados. Por que usar BD? Por que estudar BD? Exemplo de um BD. Conceitos básicos Introdução Banco de Dados Por que usar BD? Vitor Valerio de Souza Campos Adaptado de Vania Bogorny 4 Por que estudar BD? Exemplo de um BD Os Bancos de Dados fazem parte do nosso dia-a-dia: operação bancária

Leia mais

Guia de Especificação de Caso de Uso Metodologia CELEPAR

Guia de Especificação de Caso de Uso Metodologia CELEPAR Guia de Especificação de Caso de Uso Metodologia CELEPAR Agosto 2009 Sumário de Informações do Documento Documento: guiaespecificacaocasouso.odt Número de páginas: 10 Versão Data Mudanças Autor 1.0 09/10/2007

Leia mais

Prof. Raul Sidnei Wazlawick UFSC-CTC-INE. Fonte: Análise e Projeto de Sistemas de Informação Orientados a Objetos, 2ª Edição, Elsevier, 2010.

Prof. Raul Sidnei Wazlawick UFSC-CTC-INE. Fonte: Análise e Projeto de Sistemas de Informação Orientados a Objetos, 2ª Edição, Elsevier, 2010. Visão Geral do Sistema Prof. Raul Sidnei Wazlawick UFSC-CTC-INE 2010 Fonte: Análise e Projeto de Sistemas de Informação Orientados a Objetos, 2ª Edição, Elsevier, 2010. A fase de concepção do UP consiste

Leia mais

3 a Lista de Exercícios

3 a Lista de Exercícios Engenharia de Requisitos 3 a Lista de Exercícios (1) Em relação ao levantamento e análise de requisitos, faz-se a seguinte afirmação: Os requisitos de sistema devem ser capturados, documentados e acordados

Leia mais

Sistemas de Banco de Dados Aspectos Gerais de Banco de Dados

Sistemas de Banco de Dados Aspectos Gerais de Banco de Dados Sistemas de Banco de Dados Aspectos Gerais de Banco de Dados 1. Conceitos Básicos No contexto de sistemas de banco de dados as palavras dado e informação possuem o mesmo significado, representando uma

Leia mais

Programa de Atualização de Pontos do Lince GPS

Programa de Atualização de Pontos do Lince GPS Esse programa atualiza os pontos do software Lince GSP em aparelhos portáteis, como navegadores e celulares. A Robotron mantém um serviço de fornecimento de pontos de controle de velocidade aos aparelhos

Leia mais

Introdução Banco de Dados

Introdução Banco de Dados Introdução Banco de Dados Vitor Valerio de Souza Campos Adaptado de Vania Bogorny Por que estudar BD? Os Bancos de Dados fazem parte do nosso dia-a-dia: operação bancária reserva de hotel matrícula em

Leia mais

ADMINISTRAÇÃO DE ATIVOS DE TI GERENCIAMENTO DE CONFIGURAÇÃO

ADMINISTRAÇÃO DE ATIVOS DE TI GERENCIAMENTO DE CONFIGURAÇÃO 1 ADMINISTRAÇÃO DE ATIVOS DE TI GERENCIAMENTO DE CONFIGURAÇÃO 2 INFRAESTRUTURA DE TI Para garantir o atendimento às necessidades do negócio, a área de TI passou a investir na infraestrutura do setor, ampliando-a,

Leia mais

Empreenda! 9ª Edição Roteiro de Apoio ao Plano de Negócios. Preparamos este roteiro para ajudá-lo (a) a desenvolver o seu Plano de Negócios.

Empreenda! 9ª Edição Roteiro de Apoio ao Plano de Negócios. Preparamos este roteiro para ajudá-lo (a) a desenvolver o seu Plano de Negócios. Empreenda! 9ª Edição Roteiro de Apoio ao Plano de Negócios Caro (a) aluno (a), Preparamos este roteiro para ajudá-lo (a) a desenvolver o seu Plano de Negócios. O Plano de Negócios deverá ter no máximo

Leia mais

Banco de Dados. Introdução. João Eduardo Ferreira Osvaldo Kotaro Takai. jef@ime.usp.br DCC-IME-USP

Banco de Dados. Introdução. João Eduardo Ferreira Osvaldo Kotaro Takai. jef@ime.usp.br DCC-IME-USP Banco de Dados Introdução João Eduardo Ferreira Osvaldo Kotaro Takai jef@ime.usp.br DCC-IME-USP Importância dos Bancos de Dados A competitividade das empresas depende de dados precisos e atualizados. Conforme

Leia mais

INSTITUTO TECNOLÓGICO DE AERONÁUTICA DIVISÃO DE ENGENHARIA ELETRÔNICA LABORATÓRIO DE GUERRA ELETRÔNICA

INSTITUTO TECNOLÓGICO DE AERONÁUTICA DIVISÃO DE ENGENHARIA ELETRÔNICA LABORATÓRIO DE GUERRA ELETRÔNICA INSTITUTO TECNOLÓGICO DE AERONÁUTICA DIVISÃO DE ENGENHARIA ELETRÔNICA LABORATÓRIO DE GUERRA ELETRÔNICA CURSO DE ESPECIALIZAÇÃO EM ANÁLISE DE AMBIENTE ELETROMAGNÉTICO CEAAE /2008 DISCIPLINA EE-09: Inteligência

Leia mais

Universidade Federal de Minas Gerais ICEx / DCC

Universidade Federal de Minas Gerais ICEx / DCC Universidade Federal de Minas Gerais ICEx / DCC Belo Horizonte, 15 de dezembro de 2006 Relatório sobre aplicação de Mineração de Dados Mineração de Dados em Bases de Dados de Vestibulares da UFMG Professor:

Leia mais

Extração de Conhecimento & Mineração de Dados

Extração de Conhecimento & Mineração de Dados Extração de Conhecimento & Mineração de Dados Nesta apresentação é dada uma breve introdução à Extração de Conhecimento e Mineração de Dados José Augusto Baranauskas Departamento de Física e Matemática

Leia mais

ESTENDENDO A UML PARA REPRESENTAR RESTRIÇÕES DE INTEGRIDADE

ESTENDENDO A UML PARA REPRESENTAR RESTRIÇÕES DE INTEGRIDADE ESTENDENDO A UML PARA REPRESENTAR RESTRIÇÕES DE INTEGRIDADE Fabiana Gomes Marinho Faculdade Lourenço Filho Resumo: Na UML, a modelagem conceitual dos dados é descrita pelo diagrama de classes, que através

Leia mais

COLETA DE INFORMAÇÕES E PREVISÃO DE DEMANDA

COLETA DE INFORMAÇÕES E PREVISÃO DE DEMANDA COLETA DE INFORMAÇÕES E PREVISÃO DE DEMANDA 1) Quais são os componentes de um moderno sistema de informações de marketing? 2) Como as empresas podem coletar informações de marketing? 3) O que constitui

Leia mais

Upload e Download de Arquivos. Ao programador Morfik, cabe implementar em sua aplicação os mecanismos gerenciem todo o processo acima.

Upload e Download de Arquivos. Ao programador Morfik, cabe implementar em sua aplicação os mecanismos gerenciem todo o processo acima. Upload e Download de Arquivos Considerações gerais. As aplicações Web 2 tem como uma de suas características principais, o fato de permitirem aos usuários, que eles mesmo criem conteúdo, sem depender de

Leia mais

PROCESSO DE DESENVOLVIMENTO DE SOFTWARE. Modelos de Processo de Desenvolvimento de Software

PROCESSO DE DESENVOLVIMENTO DE SOFTWARE. Modelos de Processo de Desenvolvimento de Software PROCESSO DE DESENVOLVIMENTO DE SOFTWARE Introdução Modelos de Processo de Desenvolvimento de Software Os modelos de processos de desenvolvimento de software surgiram pela necessidade de dar resposta às

Leia mais

3 Qualidade de Software

3 Qualidade de Software 3 Qualidade de Software Este capítulo tem como objetivo esclarecer conceitos relacionados à qualidade de software; conceitos estes muito importantes para o entendimento do presente trabalho, cujo objetivo

Leia mais

Gestão do Conhecimento: Extração de Informações do Banco de Dados de um Supermercado

Gestão do Conhecimento: Extração de Informações do Banco de Dados de um Supermercado Gestão do Conhecimento: Extração de Informações do Banco de Dados de um Supermercado Alessandro Ferreira Brito 1, Rodrigo Augusto R. S. Baluz 1, Jean Carlo Galvão Mourão 1, Francisco das Chagas Rocha 2

Leia mais

Perfil de investimentos

Perfil de investimentos Perfil de investimentos O Fundo de Pensão OABPrev-SP é uma entidade comprometida com a satisfação dos participantes, respeitando seus direitos e sempre buscando soluções que atendam aos seus interesses.

Leia mais

04/08/2012 MODELAGEM DE DADOS. PROF. RAFAEL DIAS RIBEIRO, M.Sc. @ribeirord MODELAGEM DE DADOS. Aula 2. Prof. Rafael Dias Ribeiro. M.Sc.

04/08/2012 MODELAGEM DE DADOS. PROF. RAFAEL DIAS RIBEIRO, M.Sc. @ribeirord MODELAGEM DE DADOS. Aula 2. Prof. Rafael Dias Ribeiro. M.Sc. MODELAGEM DE DADOS PROF. RAFAEL DIAS RIBEIRO, M.Sc. @ribeirord MODELAGEM DE DADOS Aula 2 Prof. Rafael Dias Ribeiro. M.Sc. @ribeirord 1 Objetivos: Revisão sobre Banco de Dados e SGBDs Aprender as principais

Leia mais

Casos de teste semânticos. Casos de teste valorados. Determinar resultados esperados. Gerar script de teste automatizado.

Casos de teste semânticos. Casos de teste valorados. Determinar resultados esperados. Gerar script de teste automatizado. 1 Introdução Testes são importantes técnicas de controle da qualidade do software. Entretanto, testes tendem a ser pouco eficazes devido à inadequação das ferramentas de teste existentes [NIST, 2002].

Leia mais

Universidade Federal de Santa Maria Curso de Arquivologia. Disciplina de Banco de Dados Aplicados à Arquivística. Versao 1.

Universidade Federal de Santa Maria Curso de Arquivologia. Disciplina de Banco de Dados Aplicados à Arquivística. Versao 1. Universidade Federal de Santa Maria Curso de Arquivologia Disciplina de Banco de Dados Aplicados à Arquivística Prof. Andre Zanki Cordenonsi Versao 1.0 Março de 2008 Tópicos Abordados Conceitos sobre Banco

Leia mais

Importância da normalização para as Micro e Pequenas Empresas 1. Normas só são importantes para as grandes empresas...

Importância da normalização para as Micro e Pequenas Empresas 1. Normas só são importantes para as grandes empresas... APRESENTAÇÃO O incremento da competitividade é um fator decisivo para a maior inserção das Micro e Pequenas Empresas (MPE), em mercados externos cada vez mais globalizados. Internamente, as MPE estão inseridas

Leia mais

SAV Sistema de Aluguel de Veículos I - DOCUMENTO DE REQUISITOS Versão 1.00

SAV Sistema de Aluguel de Veículos I - DOCUMENTO DE REQUISITOS Versão 1.00 SAV Sistema de Aluguel de Veículos I - DOCUMENTO DE REQUISITOS Versão 1.00 Conteúdo 1. INTRODUÇÃO...3 1.1 CONVENÇÕES, TERMOS E ABREVIAÇÕES... 3 1.1.1 Identificação dos Requisitos... 3 1.1.2 Prioridades

Leia mais

O que é a ciência de dados (data science). Discussão do conceito. Luís Borges Gouveia Universidade Fernando Pessoa Versão 1.

O que é a ciência de dados (data science). Discussão do conceito. Luís Borges Gouveia Universidade Fernando Pessoa Versão 1. O que é a ciência de dados (data science). Discussão do conceito Luís Borges Gouveia Universidade Fernando Pessoa Versão 1.3, Outubro, 2015 Nota prévia Esta apresentação tem por objetivo, proporcionar

Leia mais

Análise e Projeto Orientados a Objetos Aula IV Requisitos. Prof.: Bruno E. G. Gomes IFRN

Análise e Projeto Orientados a Objetos Aula IV Requisitos. Prof.: Bruno E. G. Gomes IFRN Análise e Projeto Orientados a Objetos Aula IV Requisitos Prof.: Bruno E. G. Gomes IFRN 1 Introdução Etapa relacionada a descoberta e descrição das funcionalidades do sistema Parte significativa da fase

Leia mais

QUALIDATA Soluções em Informática. Módulo CIEE com convênio empresas

QUALIDATA Soluções em Informática. Módulo CIEE com convênio empresas FM-0 1/21 ÍNDICE 1. MÓDULO DESKTOP(SISTEMA INSTALADO NO CIEE)... 2 Cadastro de Ofertas de Empregos:... 2 Cadastro de Eventos:... 3 Cadastro de Instituições do Curriculum:... 5 Cadastro de Cursos do Curriculum:...

Leia mais

KDD UMA VISAL GERAL DO PROCESSO

KDD UMA VISAL GERAL DO PROCESSO KDD UMA VISAL GERAL DO PROCESSO por Fernando Sarturi Prass 1 1.Introdução O aumento das transações comerciais por meio eletrônico, em especial as feitas via Internet, possibilitou as empresas armazenar

Leia mais

4 Segmentação. 4.1. Algoritmo proposto

4 Segmentação. 4.1. Algoritmo proposto 4 Segmentação Este capítulo apresenta primeiramente o algoritmo proposto para a segmentação do áudio em detalhes. Em seguida, são analisadas as inovações apresentadas. É importante mencionar que as mudanças

Leia mais

CÓDIGO CRÉDITOS PERÍODO PRÉ-REQUISITO TURMA ANO INTRODUÇÃO

CÓDIGO CRÉDITOS PERÍODO PRÉ-REQUISITO TURMA ANO INTRODUÇÃO PONTIFÍCIA UNIVERSIDADE CATÓLICA DE GOIÁS ESCOLA DE GESTÃO E NEGÓCIOS CURSO DE CIÊNCIAS CONTÁBEIS, ADMINISTRAÇÃO E ECONOMIA DISCIPLINA: ESTRUTURA E ANÁLISE DE CUSTO CÓDIGO CRÉDITOS PERÍODO PRÉ-REQUISITO

Leia mais

Processos Técnicos - Aulas 4 e 5

Processos Técnicos - Aulas 4 e 5 Processos Técnicos - Aulas 4 e 5 Trabalho / PEM Tema: Frameworks Públicos Grupo: equipe do TCC Entrega: versão digital, 1ª semana de Abril (de 31/03 a 04/04), no e-mail do professor (rodrigues.yuri@yahoo.com.br)

Leia mais

Banco de Dados I. Introdução. Fabricio Breve

Banco de Dados I. Introdução. Fabricio Breve Banco de Dados I Introdução Fabricio Breve Introdução SGBD (Sistema Gerenciador de Banco de Dados): coleção de dados interrelacionados e um conjunto de programas para acessar esses dados Coleção de dados

Leia mais

Banco de Dados - Senado

Banco de Dados - Senado Banco de Dados - Senado Exercícios OLAP - CESPE Material preparado: Prof. Marcio Vitorino OLAP Material preparado: Prof. Marcio Vitorino Soluções MOLAP promovem maior independência de fornecedores de SGBDs

Leia mais

INTELIGÊNCIA ARTIFICIAL Data Mining (DM): um pouco de prática. (1) Data Mining Conceitos apresentados por

INTELIGÊNCIA ARTIFICIAL Data Mining (DM): um pouco de prática. (1) Data Mining Conceitos apresentados por INTELIGÊNCIA ARTIFICIAL Data Mining (DM): um pouco de prática (1) Data Mining Conceitos apresentados por 1 2 (2) ANÁLISE DE AGRUPAMENTOS Conceitos apresentados por. 3 LEMBRE-SE que PROBLEMA em IA Uma busca

Leia mais

PARANÁ GOVERNO DO ESTADO

PARANÁ GOVERNO DO ESTADO A COMUNICAÇÃO NA INTERNET PROTOCOLO TCP/IP Para tentar facilitar o entendimento de como se dá a comunicação na Internet, vamos começar contando uma história para fazer uma analogia. Era uma vez, um estrangeiro

Leia mais

Fundamentos de Sistemas de Informação Sistemas de Informação

Fundamentos de Sistemas de Informação Sistemas de Informação Objetivo da Aula Tecnologia e as Organizações, importância dos sistemas de informação e níveis de atuação dos sistemas de informação Organizações & Tecnologia TECNOLOGIA A razão e a capacidade do homem

Leia mais

Gestão da Qualidade Políticas. Elementos chaves da Qualidade 19/04/2009

Gestão da Qualidade Políticas. Elementos chaves da Qualidade 19/04/2009 Gestão da Qualidade Políticas Manutenção (corretiva, preventiva, preditiva). Elementos chaves da Qualidade Total satisfação do cliente Priorizar a qualidade Melhoria contínua Participação e comprometimento

Leia mais

Algoritmos: Lógica para desenvolvimento de programação de computadores. Autor: José Augusto Manzano. Capítulo 1 Abordagem Contextual

Algoritmos: Lógica para desenvolvimento de programação de computadores. Autor: José Augusto Manzano. Capítulo 1 Abordagem Contextual Algoritmos: Lógica para desenvolvimento de programação de computadores Autor: José Augusto Manzano Capítulo 1 Abordagem Contextual 1.1. Definições Básicas Raciocínio lógico depende de vários fatores para

Leia mais

PLANEJAMENTO OPERACIONAL - MARKETING E PRODUÇÃO MÓDULO 3 O QUE É PLANEJAMENTO DE VENDAS E OPERAÇÕES?

PLANEJAMENTO OPERACIONAL - MARKETING E PRODUÇÃO MÓDULO 3 O QUE É PLANEJAMENTO DE VENDAS E OPERAÇÕES? PLANEJAMENTO OPERACIONAL - MARKETING E PRODUÇÃO MÓDULO 3 O QUE É PLANEJAMENTO DE VENDAS E OPERAÇÕES? Índice 1. O que é planejamento de...3 1.1. Resultados do planejamento de vendas e operações (PVO)...

Leia mais

Sistemas de Informação I

Sistemas de Informação I + Sistemas de Informação I Dimensões de análise dos SI Ricardo de Sousa Britto rbritto@ufpi.edu.br + Introdução n Os sistemas de informação são combinações das formas de trabalho, informações, pessoas

Leia mais

Módulo 15 Resumo. Módulo I Cultura da Informação

Módulo 15 Resumo. Módulo I Cultura da Informação Módulo 15 Resumo Neste módulo vamos dar uma explanação geral sobre os pontos que foram trabalhados ao longo desta disciplina. Os pontos abordados nesta disciplina foram: Fundamentos teóricos de sistemas

Leia mais

Programa de Instalação do Lince GPS

Programa de Instalação do Lince GPS Esse programa instala o software Lince GSP em aparelhos portáteis que tenham GPS, como navegadores e celulares. O software Lince GPS é um programa destinado a alertar sobre a aproximação a pontos previamente

Leia mais

Banco de Dados. Uma coleção de dados relacionados [ELMASRI/NAVATHE]

Banco de Dados. Uma coleção de dados relacionados [ELMASRI/NAVATHE] 1/6 Banco de Dados O que é um Banco de Dados? Uma coleção de dados relacionados [ELMASRI/NAVATHE] Conjunto de dados integrados que tem por objetivo atender a uma comunidade específica [HEUSER] Um conjunto

Leia mais

ALESSANDRO RODRIGO FRANCO FERNANDO MARTINS RAFAEL ALMEIDA DE OLIVEIRA

ALESSANDRO RODRIGO FRANCO FERNANDO MARTINS RAFAEL ALMEIDA DE OLIVEIRA ALESSANDRO RODRIGO FRANCO FERNANDO MARTINS RAFAEL ALMEIDA DE OLIVEIRA INTRODUÇÃO O projeto de um banco de dados é realizado sob um processo sistemático denominado metodologia de projeto. O processo do

Leia mais

Roteiro 3 Modelagem relacional

Roteiro 3 Modelagem relacional Roteiro 3 Modelagem relacional Objetivos: Explorar conceitos sobre: o Modelagem de bancos de dados projetos: conceitual, lógico e físico; o Conceitos sobre o modelo relacional: tuplas, atributo, entidades,

Leia mais

PLANEJAMENTO OPERACIONAL - MARKETING E PRODUÇÃO MÓDULO 11 PESQUISA DE MERCADO

PLANEJAMENTO OPERACIONAL - MARKETING E PRODUÇÃO MÓDULO 11 PESQUISA DE MERCADO PLANEJAMENTO OPERACIONAL - MARKETING E PRODUÇÃO MÓDULO 11 PESQUISA DE MERCADO Índice 1. Pesquisa de mercado...3 1.1. Diferenças entre a pesquisa de mercado e a análise de mercado... 3 1.2. Técnicas de

Leia mais

Clustering: K-means and Aglomerative

Clustering: K-means and Aglomerative Universidade Federal de Pernambuco UFPE Centro de Informática Cin Pós-graduação em Ciência da Computação U F P E Clustering: K-means and Aglomerative Equipe: Hugo, Jeandro, Rhudney e Tiago Professores:

Leia mais

Dado: Fatos conhecidos que podem ser registrados e têm um significado implícito. Banco de Dados:

Dado: Fatos conhecidos que podem ser registrados e têm um significado implícito. Banco de Dados: MC536 Introdução Sumário Conceitos preliminares Funcionalidades Características principais Usuários Vantagens do uso de BDs Tendências mais recentes em SGBDs Algumas desvantagens Modelos de dados Classificação

Leia mais

Softwares Aplicativos Banco de Dados

Softwares Aplicativos Banco de Dados Softwares Aplicativos Banco de Dados INTRODUÇÃO À ENGENHARIA DA COMPUTAÇÃO Professor: Rosalvo Ferreira de Oliveira Neto Estrutura 1. Definições 2. Serviços 3. Usuários 4. Evolução 5. Exemplos 03 Banco

Leia mais