UMA VISÃO GERAL DAS PRINCIPAIS TAREFAS DE MINERAÇÃO DE DADOS. Tauller Augusto de Araújo Matos 1
|
|
- Isabela Corte-Real Van Der Vinne
- 8 Há anos
- Visualizações:
Transcrição
1 UMA VISÃO GERAL DAS PRINCIPAIS TAREFAS DE MINERAÇÃO DE DADOS Tauller Augusto de Araújo Matos 1 Resumo: Este trabalho tem como objetivo conceituar e diferenciar as principais tarefas de mineração de dados, a saber: associação, seqüência, classificação, agrupamento (cluster) e desvio (outlier). Para este fim é utilizado exemplos em uma grande rede de departamentos. Palavra-Chave: Associação. Seqüência. Classificação. Cluster. Outlier. Abstract: This paper aims to conceptualize and distinguish the main tasks of data mining: namely: association, sequence, classification, cluster and outlier. For this purpose we used examples of a large network of departments. Key-Words: Association. Sequence. Classification. Clustering. Outlier. 1 Introdução Sistemas gerenciadores de banco de dados estão presentes na maioria das organizações públicas e empresas de pequeno, médio e grande porte. Estas contem os mais diferentes dados sobre produtos, fornecedores, clientes, empregados. Do ponto de vista comercial, quantidades gigantescas de dados são diariamente coletadas e armazenadas por empresas e corporações. Dados referentes a compras de clientes em lojas de departamento e redes de supermercados, navegação na internet, comércio eletrônico, transações bancárias ou de cartões de crédito. As empresas utilizam os dados para obterem conhecimento sobre seus clientes, a fim de ganhar vantagem e aumentar sua eficiência nesse mundo cada vez mais competitivo e fornecer valiosos serviços aos seus clientes. Em relação ao ponto de vista científico, dados são coletados e armazenados a velocidades enormes. Sensores remotos em satélites, telescópios, microarrays geram dados de expressões de genes. Por exemplo, na área da astronomia, realiza-se análise de imagens, classificação e catalogação de objetos no céu. Na 1 Professor da Fundação Educacional Dom André Arcoverde
2 área da saúde, pode-se citar a análise da eficácia de certos tratamentos e a análise de efeitos colaterais de drogas. Todo esse considerável conjunto de dados contém uma preciosa quantidade de informação, no entanto, sua análise por meio de métodos manuais que utiliza linguagens de consultas tradicionais é inviável. Analistas humanos podem levar semanas para correlacionar e descobrir alguma informação útil dentro de uma grande massa de dados. Quando a escala da manipulação de dados, exploração e inferência desenvolvem-se além das capacidades humanas, faz-se necessário a criação de uma nova geração de teorias computacionais. Surge então, a necessidade de desenvolver ferramentas, que auxiliem o homem na análise e interpretação dessa grande quantidade de dados para extrair conhecimento útil dentro do contexto da aplicação no processo de tomada de decisão. Uma técnica muito utilizada para a descoberta de conhecimento é a Mineração de Dados (Data Mining). Atualmente, encontram-se comercialmente disponíveis diversas ferramentas de mineração de dados que auxiliam cientistas a classificar e segmentar dados, formular hipóteses, realizar diagnósticos. Ajudam analistas a entender e prever necessidades e interesses dos clientes, descobrirem perfis de comportamento, detecção de fraudes, aprovação de crédito e de apólice. A mineração de dados pode ser aplicada a várias áreas e tipos de dados. Portanto, existem diversas tarefas (técnicas) para minerar estes dados que são divididas em heurísticas e estatísticas. Desta forma, torna-se necessário o pré conhecimento destas tarefas de mineração. Este trabalho tem como objetivo apresentar e diferenciar as 5 (cinco) principais tarefas de mineração, a saber: associação, seqüência, classificação, cluster e outlier, por meio de exemplos, em uma grande loja de departamentos. Desta forma, este artigo esta organizado da seguinte forma além desta introdução. Na Seção 2 conceitua-se Mineração de dados enquanto que na Seção 3 são apresentadas as tarefas de mineração de dados e por fim é feita uma conclusão e perspectivas futuras na Seção 4. 2
3 2. Mineração de dados A área denominada Descoberta de Conhecimento em Bases de Dados ou Knowledge Discovery in Databases (KDD) refere-se ao processo completo de descoberta de conhecimento em dados e envolve diversas fases. A Figura 1 apresenta uma visão hierárquica do processo de KDD. O termo KDD foi formalizado em 1989 em referência ao amplo conceito de procurar conhecimento a partir de bases de dados. Uma das definições mais populares foi proposta em 1996 por um grupo de pesquisadores (Fayyad et al., 1996a). KDD é um processo, de várias etapas, não-trivial, interativo e iterativo, para identificação de padrões compreensíveis, válidos, novos, potencialmente úteis a partir de grandes conjuntos de dados. (GOLDSCHMIDT, 2005, p. 3). Figura 1 - Visão hierárquica do processo de KDD (GOLDSCHMIDT, 2005) A mineração de dados é considerada a principal etapa do processo de KDD e o núcleo central do processo de prospecção de conhecimento, sendo composto pelos métodos de mineração de dados responsáveis pela extração de conhecimento explícito e potencialmente útil dos dados. Esse conhecimento deve ser correto, compreensível por usuários humanos e ser novo. Um conhecimento realmente útil é aquele que pode ser aplicado de forma a proporcionar benefícios reais ao contexto da aplicação. Para que se possa realizar o processo de KDD, torna-se necessária algumas fases como pré-processamento (limpeza, seleção e codificação) entre outras conforme ilustra a Figura 1. Estas fases não são foco deste artigo, caso o leitor interesse por este assunto deve-se ver em (GOLDSCHMIDT, 2005). Quando se fala de mineração de dados não se considera apenas consultas complexas elaboradas que visam ratificar uma hipótese gerada por um usuário em função dos relacionamentos existentes entre os dados, e sim a descoberta de novos fatos, regularidades, restrições, padrões e relacionamentos. 3
4 Minerar dados não é realizar uma consulta em algum site de busca na internet sobre Data mining, nem mesmo procurar um nome em uma lista telefônica, estes casos são exemplos de recuperação de informação, ver em (MANNING, 2007). Realizar uma consulta em linguagem estruturada, Structured Query Language (SQL), ver em (DATE, 2000), a um banco de dados, também não é um exemplo de mineração de dados. Mineração de dados é agrupar documentos similares retornados por um sistema de busca de acordo com seu contexto e é descobrir se certos nomes aparecem com mais freqüência em determinadas regiões da cidade. Com isto, Data mining refere-se à garimpagem ou descoberta de novas informações em termos de padrões ou regras oriundas de grandes quantidades de dados. (ELMASRI, 2005, p. 624). Já Date descreve mineração de dados como: A mineração de dados pode ser descrita como análise de dados exploratória. O objetivo é procurar padrões interessantes nos dados, padrões que possam ser usados para definir a estratégia do negócio ou para identificar um comportamento pouco usual. (DATE, 2000, p.621). É nesta etapa onde são aplicados as técnicas e os algoritmos a serem utilizados no problema em questão de forma a extrair modelos de dados. A escolha da técnica a ser utilizada no processo de mineração de dados, depende exclusivamente do tipo de tarefa de KDD a ser efetivamente realizada. Em geral, as técnicas de mineração de dados desempenham as seguintes tarefas: descoberta de associação, descoberta de sequências, classificação, clusterização e outlier. Uma vez escolhido o algoritmo a ser utilizado na aplicação do processo, deve-se executá-lo e adaptá-lo ao problema proposto. Estas técnicas de mineração de dados são descritas na Seção 3. 3 Tarefas de Mineração A técnica de mineração utilizada no processo de KDD está ligada a forma com que os dados foram pré-processados. Determinados algoritmos possuem restrições quanto aos tipos de variáveis envolvidas no problema. O uso de algoritmos 4
5 diferentes para executar a mesma técnica, também pode produzir diferentes resultados. A escolha da técnica a ser utilizada no processo de mineração de dados, depende exclusivamente do tipo de tarefa de KDD a ser efetivamente realizada. O que torna necessário distinguir o que é uma tarefa e o que é uma técnica de mineração. A tarefa consiste na especificação do que se busca nos dados, que tipo de regularidades ou categoria de padrões pode ser interessante encontrar. A técnica de mineração consiste na especificação de métodos que garantam como descobrir os padrões que são interessantes. Neste capítulo são apresentadas as principais tarefas e técnicas de mineração de dados. 3.1 Descoberta de associação As regras de associação representam padrões onde a ocorrência de eventos em um conjunto é alta. Devido a sua grande aplicabilidade esse tipo de técnica é muito utilizada/solicitada pela equipe de marketing das empresas. Suponha que o gerente de uma grande loja de departamentos esteja interessado em conhecer os hábitos de compra de seus clientes, por exemplo, quais os produtos que os clientes costumam comprar ao mesmo tempo, a cada vez que vêm à loja. Conhecer a resposta para esta questão pode ser útil: pode-se planejar melhor os catálogos da loja, os folhetos de promoções de produtos, as campanhas de publicidade, além de organizar melhor a localização dos produtos nas prateleiras da loja ao colocá-los próximos os itens frequentemente comprados juntos a fim de encorajar os clientes a comprar tais produtos conjuntamente. Para isto, você dispõe de uma mina de dados, que é o banco de dados de transações efetuadas pelos clientes. A cada compra de um cliente, são registrados neste banco todos os itens comprados, como mostra a Tabela 1. Para melhorar o processamento dos algoritmos de associação, na fase de pré processamento, são associados números a cada artigo da loja como ilustrado na Tabela 2 para facilitar a representação dos mesmos e atender as especificações dos algoritmos. 5
6 Tabela 1 - Banco de dados com transações de clientes Fonte: Autor TID (Identificador da transação) Itens comprados 101 {1, 3, 5} 102 {2, 1, 3, 7, 5} 103 {4, 9, 2, 1} 104 {5, 2, 1, 3, 9} 105 {1, 8, 6, 4, 3, 5} 106 {9, 2, 8} Tabela 2 - Representação numérica de cada registro da loja Fonte: Autor Artigo (item) Número que o representa Notebook 1 Mouse 2 Headset 3 Mochila para Notebook 4 Pen drives 5 Caixa de som 6 Switches 7 Memória 8 Hard Disk 9 Microfone 10 Repare que o que identifica uma transação é o identificador da transação (TID) e não o identificador do cliente. Assim, um mesmo cliente é contado várias vezes a cada vez que realiza uma compra na loja. É importante lembrar que o que interessa é a transação (a compra), e não o cliente. Na descoberta de associação, o cliente é irrelevante, pois o que interessa na identificação dos padrões são as ocorrências dos produtos comprados e não quem os comprou. Cada conjunto de itens comprados pelo cliente em uma única transação é chamado Itemset. Um itemset com k elementos é chamado de k-itemset. Suponha que o gerente decida que um itemset que apareça em pelo menos 50% de todas as compras registradas seja considerado frequente. Por exemplo, se o banco de dados de que você dispõe é o ilustrado na Tabela 1, então o itemset {1, 3} é considerado frequente, pois aparece em mais de 60% das transações. Porém, se você for muito exigente e decidir que o mínimo para ser considerado frequente é aparecer em pelo menos 70% das transações, então o itemset {1, 3} não é considerado freqüente. 6
7 Formalmente, uma regra de associação é uma implicação da forma X Y, onde X e Y são conjuntos de itens tais que X Y =. Convém destacar que a interseção vazia entre antecedente e conseqüente da regras assegura que não sejam extraídas regras óbvias que indiquem que um item está associado a ele próprio. (GOLDSCHMIDT, 2005, p. 61). A toda regra de associação X Y associa-se um grau de confiança, denotado por conf (X Y). Esse grau de confiança é simplesmente a porcentagem das transações que suportam Y dentre todas as transações que suportam X, a confiança é definida pela Fórmula 3.1. (3.1) Por exemplo, de acordo com a Fórmula 3.1, o grau de confiança da regra {switches} {pen drivers}, isto é, {7} {5}, com relação ao banco de dados da Tabela 1 é 1 (100%). Será que o fato de certa regra de associação ter um grau de confiança relativamente alto é suficiente para considerá-la como sendo uma boa regra? Repare que no banco de dados da Tabela 1, os itens switches, pen drivers aparecem juntos somente em uma transação entre seis, isto é, poucos clientes compram estes dois itens juntos. Entretanto, não se pode avaliar uma regra de associação somente pelo seu grau de confiança, pois como apresentado no exemplo, apesar da regra {switches} {pen drivers} ter tido um grau de confiança de 100%, ela é suportada em poucas transações. A fim de garantir que uma regra X Y seja boa ou interessante, torna-se necessário exigir que seu suporte também seja relativamente alto, além de seu grau de confiança. A toda regra de associação X Y associa-se um suporte, denotado por sup(x Y) definido como sendo o suporte do itemset X Y dividido pelo número de transações (Fórmula 3.2). Por exemplo, o suporte da regra {switches} {pen drivers} com relação ao banco de dados da Tabela 1 é 0,1666%. 7
8 (3.2) A Tabela 3 contabiliza os suportes de diversos itemsets com relação ao banco de dados de transações da Tabela 1. Tabela 3 Suporte de alguns itemsets referente à Tabela 1 Fonte: Autor Itemset Suporte {1, 3} 0,6666 {2, 3} 0,3333 {1, 2, 7} 0,1666 {2, 9} 0,5 Assim sendo em cada aplicação são estabelecidos valores mínimos para o suporte e a confiança, sendo que para o suporte o algoritmo descarta os itemsets com valores menores que o mínimo estabelecido e para a confiança descarta as regras com valor de confiança abaixo da mínima. Dentre os métodos de associação têm-se os algoritmos: o mais clássico é o algoritmo Apriori (AGRAWAL e SRIKANT, 1994). Outros algoritmos são: Apriori TID (SRIKANT e AGRAWALl, 1997) e Direct (SAVASERE et al., 1995). 3.2 Descoberta de Seqüência Esta técnica permite detectar padrões sequenciais entre as transações registradas no bando de dados com certas relações temporais. A descoberta de padrões sequenciais baseia-se no conceito de uma sequência de conjuntos de itens. (ELMASRI, 2005, p. 635). Suponha que o gerente de uma grande loja de departamentos esteja interessado em conhecer a evolução das compras de seus clientes, por exemplo, Que sequência de produtos são comprados por um mesmo cliente em momentos consecutivos?, Se for possível descobrir uma sequência de produtos <P1; P2; P3>, onde P seja qualquer produto da loja, que sejam comprados nesta ordem frequentemente pelos clientes, torna-se útil enviar folhetos promocionais que envolvem os produtos P2 ou P3 para aqueles clientes que compram o produto P1. Como descoberto os clientes têm grandes chances de comprar os produtos P2 e P3 8
9 no futuro e, portanto os recursos gastos em uma campanha de marketing (campanha dirigida a clientes potencialmente dispostos a comprar P2 e P3) tem-se grandes chances de não estarem sendo despendidos em vão. Ao contrário da técnica de associação, apresentada na seção 3.1, para a descoberta de sequências é necessário um banco de dados de transações com a identificação dos clientes que realizaram a compra e a data de cada transação. O que interessa na descoberta de sequências é identificar o que cada cliente compra em uma determinada sequência, conforme Tabela 4. Uma sequência ou padrão sequencial de tamanho k, onde k é o número de itensets da sequência, é uma coleção ordenada de itemsets <P 1 ; P 2 ;... ; P n >. Por exemplo, seja S um padrão sequencial de tamanho k = 3, representada pelos seguintes produtos, S = <{Notebook, Switch}, {Caixa de som}, {Placa mãe}>. Repare que este padrão comportamental se manifesta nos clientes com identificador 2 e 3, conforme Tabela 4. Todos eles compram num primeiro momento, não importando quando, Notebook e Switch (conjuntamente), num segundo momento compram um Caixa de som e tempos depois compram uma Placa mãe. Suponha que o gerente decida que um padrão sequencial que se manifeste em pelo menos 50% dos clientes registrados seja considerado frequente. Neste caso, o padrão S acima é considerado frequente. Caso o gerente seja um pouco mais exigente e decida que o mínimo para ser considerado frequente é que pelo menos 70% dos clientes manifestem tal comportamento então o padrão S acima não é considerado frequente. Para minerar sequências, antes de qualquer coisa é necessário adequar o banco de dados e eliminar as informações não úteis. Seguindo o exemplo da loja de suprimentos representado pelas transações da Tabela 4, não é necessária a data em que os clientes realizam a compra, e sim, a ordem em que foram comprados. Dessa forma, é eliminada a coluna data e incluída a coluna de sequencia de itemsets, que representa a ordem em que os produtos são comprados por cada cliente conforme Tabela 5. Como definido anteriormente, torna-se necessário a codificação dos dados, a serem minerados. Assim, são associados números a cada produto da loja o que resulta o banco de dados de sequencias de clientes da Tabela 6. Tabela 4 - Banco de dados de transações de Clientes 9
10 Fonte: Autor Identificador do Cliente Itemsets Data 1 {Notebook, Mochila para notebook} 10/02/ {Mouse, Switch, Notebook} 01/03/ {Mouse, DVD-RW} 03/03/ {Notebook, Switch, Joystick} 04/03/ {DVD-RW, Caixa de som} 05/03/ {Caixa de som, Hard Disk} 07/03/ {Headset, Monitor} 10/04/ {Placa de vídeo, Processador} 14/04/ {Estabilizador} 21/04/ {Placa mãe, Memória} 23/04/ {Placa mãe, Fonte de alimentação} 28/04/ {Notebook, Caixa de som} 30/04/2009 Tabela 5 - Banco de dados de sequências de Clientes Fonte: Autor Identificador do Sequencias de Itemsets Cliente 1 <{Notebook, Mochila para notebook}, {Mouse, DVD-RW}, {Headset, Monitor}> 2 <{Mouse, Switch, Notebook}, {DVD-RW, Caixa de som}, {Placa mãe, Memória}> 3 <{Notebook, Switch, Joystick}, {Caixa de som, Hard Disk}, {Placa mãe, Fonte de alimentação}> 4 <{Placa de vídeo, Processador}, {Estabilizador}, {Notebook, Caixa de som}> Tabela 6 - Representação numérica de sequências de Clientes Fonte: Autor Identificador do Sequências de Itemsets codificadas Cliente 1 <{1, 2}, {12, 11}, {16, 3}> 2 <{12, 4, 1}, {11, 6}, {5, 7}> 3 <{1, 4, 13}, {6, 15}, {5, 14}> 4 <{9, 10}, {8}, {1, 6}> As sequências que fazem parte do banco de dados são chamadas de sequências do cliente, as sequências que são possíveis padrões que podem aparecer nos dados são chamadas de padrão seqüencial. 10
11 A sequência padrão é dita freqüente se o seu suporte for maior ou igual ao suporte mínimo definido pelo especialista no domínio da aplicação. O suporte de um padrão sequencial em relação a um banco de dados de sequências de cliente é definido pela Fórmula 3.2. Dentre os métodos de descoberta de sequência têm-se os algoritmos: Generalized Seqüencial Pattern (GSP) (AGRAWAL e SRIKANT, 1995), Prefix Span (PEI, et al., 2001) e Algoritmos SPIRIT (GAROFALAKIS et al., 1999). 3.3 Classificação É o processo de aprendizagem de uma função que mapeia (classifica) um dado objeto de interesse em uma das possíveis classes. (ELMASRI, 2005, p. 634). É uma atividade preditiva que consiste na busca por padrões que classifiquem elementos rotulados. É necessário definir previamente as classes, já que o atributo classe é fundamental na tarefa de classificação. Pode ser compreendida como a busca por uma função que permita associar corretamente cada registro X i de um bando de dados a um único rótulo categórico, Y i, denominado classe. (GOLDSCHMIDT, 2005, p. 66). Na definição acima, X i representa qualquer registro do conjunto de dados e Y i qualquer rótulo do conjunto de classes. Nos casos em que ocorrer a inferência de um registro do conjunto de dados em um rótulo do conjunto de classes, essa inferência é denominada classificação. O propósito da tarefa de classificação é descobrir algum tipo de relacionamento entre os atributos preditivos (tuplas do conjunto de dados) e o atributo objetivo (Classes) que permita encontrar um conhecimento que pode ser aplicado a novos registros de forma a prever a classe em que tais registros se encaixam. Suponha que o gerente de uma grande loja de departamentos disponha de um banco de dados de clientes, que contem informações tais como nome, idade, renda mensal, profissão e se comprou ou não produtos eletrônicos na loja. Deseja-se enviar um material de propaganda pelo correio aos clientes, que descreve novos produtos eletrônicos e preços promocionais de alguns destes produtos. Para não fazer despesas inúteis torna-se interessante enviar este material publicitário apenas aos clientes que sejam potenciais compradores de produtos eletrônicos. Outro ponto importante: a partir do banco de dados de clientes é desenvolvido um 11
12 método para permitir quais atributos de um cliente o torna um potencial comprador de produtos eletrônicos. Identificado o método aplicá-lo no futuro para os novos clientes. Isto é, a partir do banco de dados atual, descobrem-se regras que classificam os clientes em duas classes: os que compram produtos eletrônicos e os que não compram. Que tipos de atributos de clientes (idade, renda mensal, profissão) influenciam na colocação de um cliente numa ou noutra classe? Uma vez definida estas regras de classificação de clientes, estas são utilizadas no futuro para classificar novos clientes. Por exemplo, regras que podem ser descobertas: = Sim. - Se idade está entre 30 e 40 e a renda mensal é Alta então ClasseProdEletr - Se idade está entre 60 e 70 então ClasseProdEletr = Não. Quando um novo cliente João, com idade de 25 anos e renda mensal Alta e que tenha comprado discos, é catalogado no banco de dados, o classificador diz que este cliente é um potencial comprador de aparelhos eletrônicos. Este cliente é colocado na classe ClasseProdEletr = Sim, mesmo que ele ainda não tenha comprado nenhum produto eletrônico. Dentre os métodos de classificação têm-se os algoritmos: árvores de decisão (IAN e EIBE, 2000), Back-Propagation redes neurais (LU et al., 1995) e Classificadores Bayesianos (DOMINGOS e PAZZANI, 1996). 3.4 Clusterização/Agrupamento O objetivo do agrupamento é colocar os registros em grupos, de tal forma que os registros de um grupo sejam similares aos demais do mesmo grupo e diferentes daqueles dos demais grupos. (ELMASRI, 2005, p.637). A tarefa de clusterização tem como objetivo o particionamento dos registros do banco de dados em subconjuntos ou clusters. Um cluster é uma coleção de objetos que são similares uns aos outros, ou seja, cada cluster é definido por um grupo, sendo que este grupo contem tuplas onde os valores de seus atributos são semelhantes. 12
13 Análise de clusters é uma tarefa de aprendizado não supervisionado, pelo fato de que os clusters representam classes que não estão definidas no início do processo de aprendizado, sendo assim uma tarefa de aprendizado por observação. Suponha que o gerente de uma grande loja de departamentos disponha de um banco de dados de clientes, que contem informações tais como o endereço de seus clientes. A empresa deseja abrir duas filias na cidade. Portanto, utiliza-se algum dos algortimos de clusterização com objetivo de encontrar grupos de clientes próximos e, além disto, o centro de gravidade destes grupos. A Figura 2 esboça um exemplo deste agrupamento. Figura 2 - Agrupamento por cluster. (fonte: Autor) Os pontos A1, A2, A3, B1, B2, B3, C1 e C2 são os clientes. Os centros de gravidades são representados por X e indicam os locais onde devem ser instaladas as duas novas filiais, pois é o ponto central de cada grupo. Ou seja, o ponto mais próximo de todos os seus clientes. Dentro os métodos de classificação têm-se os algoritmos: K-means (NG e HAN, 1994), CURE (GUHA, et al., 1998), DBSCAN (ESTER, et al., 1996). 3.5 DETECÇÃO DE DESVIOS A tarefa de detecção de desvios ou também chamada outliers, isto é exceções, tem como objetivo a identificação de conhecimento inesperado. Pode ser aplicada em áreas tais como: comércio eletrônico, detecção de fraudes de cartão de crédito e mesmo análise de desempenho de atletas profissionais nos casos de 13
14 dopagem, ou seja, tem como objetivo identificar mudanças em padrões anteriormente percebidos. Pode-se definir outliers como um fato que desvia tanto de outros fatos a ponto de gerar suspeitas de que foi gerado por mecanismo diferente dos demais fatos registrados, outliers se distância dos demais fatos. Em geral, são especificados limiares de tolerância, de tal forma que, sempre que a distância entre o registro em análise e o padrão médio representativo da base de dados excede um destes limiares, tal registro é considerado um desvio. (GOLDSCHMIDT, 2005, p.80). Os parâmetros utilizados na detecção de desvio, isto é, para se decidir que um objeto de um banco de dados é um outliers é tarefa do especialista do domínio da aplicação. Por exemplo, um objeto D, é dito um desvio se pelo menos uma fração definida pelo parâmetro p onde 0 < p < 1 dos objetos do banco de dados D estão a uma distância maior do que o parâmetro d do objeto. A Figura 3 ilustra um banco de dados D, onde mostra que o objeto circulado esta a uma distancia maior dos demais objetos desse banco de dados. Figura 3 - Outlier baseado em distância Como exemplo na loja de departamentos pode-se ter o comportamento de pagamento de um determinado cliente. Supõe que o mesmo sempre tem um padrão de comportamento, que é fazer suas compras parceladas no cartão de crédito. E excepcionalmente decide fazer uma compra de grande valor e a vista. Pode-se suspeitar que provavelmente esta tendo um comportamento fraudulento. Dentre os métodos de detecção de outliers têm-se os algoritmos: Nested Loop (NL), FindAllOuts que podem ser vistos em (KNORR e NG, 1998) 14
15 4. Conclusão e perspectivas futuras Devido ao aumento expressivo dos dados dentro de uma organização tornou-se inviável sua análise por meio de métodos manuais ou que utiliza linguagens de consultas tradicionais. Pequenas empresas ainda sabem o que seus clientes gostam de comprar, mas mesmo assim, podem-se identificar apenas compras óbvias. O objetivo da mineração de dados é detectar tendências e comportamentos raros em bases de dados. Foi mostrado que a mineração de dados pode ser aplicada a várias áreas e a diversos tipos de dados. Com isto, este trabalho abordou as principais técnicas de mineração de dados e os algoritmos utilizados para a busca de padrões no mesmo. As cinco principais tarefas de mineração são: associação, sequencia, classificação, cluster e outlier. Por meio de um exemplo de aplicação em uma grande rede de departamentos diferenciou-se cada uma destas tarefas. Como sugestão de trabalhos pode-se abordar estudos de casos com cada um destes algoritmos citados neste trabalho. Referências Bibliográficas AGRAWAL, R., SRIKANT, R. Fast Algorithms for Mining Association Rules. Proc. 20th Int. Conf. Very Large Data Bases, VLDB, AGRAWAL, R., SRIKANT, R. Mining Sequential Patterns. ICDE 1995, pages 1-14 DATE, C. J. Introdução a Sistemas de Bancos de Dados. Rio de Janeiro: Campos, DOMINGOS, Pedro, PAZZANI, Michael. Beyond Iindependence: Conditions for the optimality of the simple Bayesian classifier. Proc. International Conference on Machine Learning, 1996, pages Morgan Kaufmann. ELMASRI, Ramez; NAVATHE, Shamkant. Sistemas de Banco de Dados. 4ª Ed. São Paulo: Addison-wesley, ESTER, M., KRIEGEL H.-P, SANDER J., XU X.: A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise. In Proc. 2nd Int. Conf. on Knowledge Discovery and Data Mining, pp , GAROFALAKIS, M. RASTOGI R. e SHIM, K. SPIRIT: Sequential Pattern Mining with Regular Expression Constraints. Proc. VLDB,
16 GOLDSCHMIDT, Ronaldo; PASSOS, Emmanuel. Data Mining: um guia prático. Rio de Janeiro: Elsevier, GUHA S., RASTOGI R., SHIM K.: CURE: An Efficient Clustering Algorithm for Large Databases. ACM/SIGMOD IAN H. Witten, EIBE Frank: Data Mining- Practical Machine Learning Tools and Techniques with Java Implementations - Editora Morgan Kaufman, 2000 KNORR Edwin M., NG Raymond T.: Algorithms for Mining Distance-Based Outliers in Large Datasets. In Proc. 24th International Conference on Very Large Databases, VLDB 1998, New York, USA. LU, H., SETIONO R., LIU H.: Neurorule: A connectionist approach to data mining. In Proc Int. Conf. Very Large Data Bases (VLDB'95), pp , Zurich, Switzerland, MANNING, C; RAGHAVAN, P; SCHÜTZE, H. An Introduction to information Retrieval. Cambridge University Press, Cambridge, England, NG R.T., HAN J.: Efficient and Effective Clustering Methods for Spatial Data Mining. Proc. of the International Conference on Very Large Data Bases, (VLDB Conference), PEI Jian, HAN, Jiawei, MORTAZAVI-ASL, Behzad, PINTO Helen, CHEN Qiming, DAYAL, Umeshwar, HSU, Mei-chun: PrefixSpan: Mining sequential patterns efficiently by prefix-projected pattern growth. ICDE 2001, SAVASERE, A., OMIECINSKI, E., NAVATHE, S. B. An Efficient Algorithm for Mining Association Rules in Large Databases. VLDB 1995: SRIKANT, R., VU, Q., AGRAWAL, R.: Mining Association Rules with Item Constraints Proc. of the 3rd Int'l Conference on Knowledge Discovery in Databases and Data Mining, Newport Beach, California, August
Curso de Data Mining
Curso de Data Mining Sandra de Amo Aula 2 - Mineração de Regras de Associação - O algoritmo APRIORI Suponha que você seja gerente de um supermercado e esteja interessado em conhecer os hábitos de compra
Leia maisMINERAÇÃO DE DADOS APLICADA. Pedro Henrique Bragioni Las Casas pedro.lascasas@dcc.ufmg.br
MINERAÇÃO DE DADOS APLICADA Pedro Henrique Bragioni Las Casas pedro.lascasas@dcc.ufmg.br Processo Weka uma Ferramenta Livre para Data Mining O que é Weka? Weka é um Software livre do tipo open source para
Leia maisADM041 / EPR806 Sistemas de Informação
ADM041 / EPR806 Sistemas de Informação UNIFEI Universidade Federal de Itajubá Prof. Dr. Alexandre Ferreira de Pinho 1 Sistemas de Apoio à Decisão (SAD) Tipos de SAD Orientados por modelos: Criação de diferentes
Leia maisExtração de Árvores de Decisão com a Ferramenta de Data Mining Weka
Extração de Árvores de Decisão com a Ferramenta de Data Mining Weka 1 Introdução A mineração de dados (data mining) pode ser definida como o processo automático de descoberta de conhecimento em bases de
Leia maisData Mining. Origem do Data Mining 24/05/2012. Data Mining. Prof Luiz Antonio do Nascimento
Data Mining Prof Luiz Antonio do Nascimento Data Mining Ferramenta utilizada para análise de dados para gerar, automaticamente, uma hipótese sobre padrões e anomalias identificadas para poder prever um
Leia maisAdministração de dados - Conceitos, técnicas, ferramentas e aplicações de Data Mining para gerar conhecimento a partir de bases de dados
Universidade Federal de Pernambuco Graduação em Ciência da Computação Centro de Informática 2006.2 Administração de dados - Conceitos, técnicas, ferramentas e aplicações de Data Mining para gerar conhecimento
Leia maisMicrosoft Innovation Center
Microsoft Innovation Center Mineração de Dados (Data Mining) André Montevecchi andre@montevecchi.com.br Introdução Objetivo BI e Mineração de Dados Aplicações Exemplos e Cases Algoritmos para Mineração
Leia maisPLANO DE ESTUDOS PARA DOUTORAMENTO EM ENGENHARIA INFORMÁTICA E DE COMPUTADORES CLÁUDIA M. ANTUNES
UNIVERSIDADE TÉCNICA DE LISBOA INSTITUTO SUPERIOR TÉCNICO PLANO DE ESTUDOS PARA DOUTORAMENTO EM ENGENHARIA INFORMÁTICA E DE COMPUTADORES CLÁUDIA M. ANTUNES Orientação Professor Doutor Arlindo L. Oliveira
Leia maisSistema de mineração de dados para descobertas de regras e padrões em dados médicos
Sistema de mineração de dados para descobertas de regras e padrões em dados médicos Pollyanna Carolina BARBOSA¹; Thiago MAGELA² 1Aluna do Curso Superior Tecnólogo em Análise e Desenvolvimento de Sistemas
Leia maisUNIVERSIDADE FEDERAL DE SANTA CATARINA GRADUAÇÃO EM SISTEMAS DE INFORMAÇÃO DEPARTAMENTO DE INFORMÁTICA E ESTATÍSTICA DATA MINING EM VÍDEOS
UNIVERSIDADE FEDERAL DE SANTA CATARINA GRADUAÇÃO EM SISTEMAS DE INFORMAÇÃO DEPARTAMENTO DE INFORMÁTICA E ESTATÍSTICA DATA MINING EM VÍDEOS VINICIUS DA SILVEIRA SEGALIN FLORIANÓPOLIS OUTUBRO/2013 Sumário
Leia maisNo mundo atual, globalizado e competitivo, as organizações têm buscado cada vez mais, meios de se destacar no mercado. Uma estratégia para o
DATABASE MARKETING No mundo atual, globalizado e competitivo, as organizações têm buscado cada vez mais, meios de se destacar no mercado. Uma estratégia para o empresário obter sucesso em seu negócio é
Leia mais4. Que tipos de padrões podem ser minerados. 5. Critérios de classificação de sistemas de Data Mining. 6. Tópicos importantes de estudo em Data Mining
Curso de Data Mining - Aula 1 1. Como surgiu 2. O que é 3. Em que tipo de dados pode ser aplicado 4. Que tipos de padrões podem ser minerados 5. Critérios de classificação de sistemas de Data Mining 6.
Leia maisDWARF DATAMINER: UMA FERRAMENTA GENÉRICA PARA MINERAÇÃO DE DADOS
DWARF DATAMINER: UMA FERRAMENTA GENÉRICA PARA MINERAÇÃO DE DADOS Tácio Dias Palhão Mendes Bacharelando em Sistemas de Informação Bolsista de Iniciação Científica da FAPEMIG taciomendes@yahoo.com.br Prof.
Leia maisOrientação a Objetos
1. Domínio e Aplicação Orientação a Objetos Um domínio é composto pelas entidades, informações e processos relacionados a um determinado contexto. Uma aplicação pode ser desenvolvida para automatizar ou
Leia maisBanco de Dados Aula 1 Introdução a Banco de Dados Introdução Sistema Gerenciador de Banco de Dados
Banco de Dados Aula 1 Introdução a Banco de Dados Introdução Um Sistema Gerenciador de Banco de Dados (SGBD) é constituído por um conjunto de dados associados a um conjunto de programas para acesso a esses
Leia maisFases para um Projeto de Data Warehouse. Fases para um Projeto de Data Warehouse. Fases para um Projeto de Data Warehouse
Definição escopo do projeto (departamental, empresarial) Grau de redundância dos dados(ods, data staging) Tipo de usuário alvo (executivos, unidades) Definição do ambiente (relatórios e consultas préestruturadas
Leia maisMódulo 4: Gerenciamento de Dados
Módulo 4: Gerenciamento de Dados 1 1. CONCEITOS Os dados são um recurso organizacional decisivo que precisa ser administrado como outros importantes ativos das empresas. A maioria das organizações não
Leia maisData, Text and Web Mining
Data, Text and Web Mining Fabrício J. Barth TerraForum Consultores Junho de 2010 Objetivo Apresentar a importância do tema, os conceitos relacionados e alguns exemplos de aplicações. Data, Text and Web
Leia maisAprendizagem de Máquina
Aprendizagem de Máquina Professor: Rosalvo Ferreira de Oliveira Neto Disciplina: Inteligência Artificial Tópicos 1. Definições 2. Tipos de aprendizagem 3. Paradigmas de aprendizagem 4. Modos de aprendizagem
Leia maisPlanejamento Estratégico de TI. Prof.: Fernando Ascani
Planejamento Estratégico de TI Prof.: Fernando Ascani Data Mining Os métodos tradicionais de Data Mining são: Classificação Associa ou classifica um item a uma ou várias classes categóricas pré-definidas.
Leia maisCONCURSO PÚBLICO ANALISTA DE SISTEMA ÊNFASE GOVERNANÇA DE TI ANALISTA DE GESTÃO RESPOSTAS ESPERADAS PRELIMINARES
CELG DISTRIBUIÇÃO S.A EDITAL N. 1/2014 CONCURSO PÚBLICO ANALISTA DE GESTÃO ANALISTA DE SISTEMA ÊNFASE GOVERNANÇA DE TI RESPOSTAS ESPERADAS PRELIMINARES O Centro de Seleção da Universidade Federal de Goiás
Leia maisPlanejamento Estratégico de TI. Prof.: Fernando Ascani
Planejamento Estratégico de TI Prof.: Fernando Ascani Data Warehouse - Conceitos Hoje em dia uma organização precisa utilizar toda informação disponível para criar e manter vantagem competitiva. Sai na
Leia maisIMPLEMENTAÇÃO DE UM ALGORITMO DE PADRÕES DE SEQUÊNCIA PARA DESCOBERTA DE ASSOCIAÇÕES ENTRE PRODUTOS DE UMA BASE DE DADOS REAL
Universidade Federal de Ouro Preto - UFOP Instituto de Ciências Exatas e Biológicas - ICEB Departamento de Computação - DECOM IMPLEMENTAÇÃO DE UM ALGORITMO DE PADRÕES DE SEQUÊNCIA PARA DESCOBERTA DE ASSOCIAÇÕES
Leia maisKDD E MINERAÇÃO DE DADOS:
KDD E MINERAÇÃO DE DADOS: Introdução e Motivação Prof. Ronaldo R. Goldschmidt ronaldo@de9.ime.eb.br rribeiro@univercidade.br geocities.yahoo.com.br/ronaldo_goldschmidt Fatos: Avanços em TI e o crescimento
Leia maisAPOO Análise e Projeto Orientado a Objetos. Requisitos
+ APOO Análise e Projeto Orientado a Objetos Requisitos Requisitos 2 n Segundo Larman: n São capacidades e condições às quais o sistema e em termos mais amplos, o projeto deve atender n Não são apenas
Leia maisRoteiro 2 Conceitos Gerais
Roteiro 2 Conceitos Gerais Objetivos: UC Projeto de Banco de Dados Explorar conceitos gerais de bancos de dados; o Arquitetura de bancos de dados: esquemas, categorias de modelos de dados, linguagens e
Leia maisCOMPARAÇÃO DOS MÉTODOS DE SEGMENTAÇÃO DE IMAGENS OTSU, KMEANS E CRESCIMENTO DE REGIÕES NA SEGMENTAÇÃO DE PLACAS AUTOMOTIVAS
COMPARAÇÃO DOS MÉTODOS DE SEGMENTAÇÃO DE IMAGENS OTSU, KMEANS E CRESCIMENTO DE REGIÕES NA SEGMENTAÇÃO DE PLACAS AUTOMOTIVAS Leonardo Meneguzzi 1 ; Marcelo Massoco Cendron 2 ; Manassés Ribeiro 3 INTRODUÇÃO
Leia maisGestão da Informação. Gestão da Informação. AULA 3 Data Mining
Gestão da Informação AULA 3 Data Mining Prof. Edilberto M. Silva Gestão da Informação Agenda Unidade I - DM (Data Mining) Definição Objetivos Exemplos de Uso Técnicas Tarefas Unidade II DM Prático Exemplo
Leia maisProfessor: Disciplina:
Professor: Curso: Esp. Marcos Morais de Sousa marcosmoraisdesousa@gmail.com Sistemas de informação Disciplina: Introdução a SI Noções de sistemas de informação Turma: 01º semestre Prof. Esp. Marcos Morais
Leia maisApós essa disciplina você vai ficar convencido que a estatística tem enorme aplicação em diversas áreas.
UNIVERSIDADE FEDERAL DA PARAÍBA INTRODUÇÃO Departamento de Estatística Luiz Medeiros http://www.de.ufpb.br/~luiz/ CONCEITOS FUNDAMENTAIS DE ESTATÍSTICA O que a Estatística significa para você? Pesquisas
Leia maisISO/IEC 12207: Gerência de Configuração
ISO/IEC 12207: Gerência de Configuração Durante o processo de desenvolvimento de um software, é produzida uma grande quantidade de itens de informação que podem ser alterados durante o processo Para que
Leia maisCapítulo 3. Avaliação de Desempenho. 3.1 Definição de Desempenho
20 Capítulo 3 Avaliação de Desempenho Este capítulo aborda como medir, informar e documentar aspectos relativos ao desempenho de um computador. Além disso, descreve os principais fatores que influenciam
Leia maisWeb Data mining com R: aprendizagem de máquina
Web Data mining com R: aprendizagem de máquina Fabrício Jailson Barth Faculdade BandTec e VAGAS Tecnologia Junho de 2013 Sumário O que é Aprendizagem de Máquina? Hierarquia de aprendizado. Exemplos de
Leia maisGerenciamento de Incidentes - ITIL. Prof. Rafael Marciano
Gerenciamento de Incidentes - ITIL Prof. Rafael Marciano Conteúdo Objetivos Conceitos e Definições Atividades Indicadores Chaves de Desempenho Papéis Desafios Um pouco sobre a certificação ITIL Foundations
Leia maisAPLICAÇÃO DE MINERAÇÃO DE DADOS PARA O LEVANTAMENTO DE PERFIS: ESTUDO DE CASO EM UMA INSTITUIÇÃO DE ENSINO SUPERIOR PRIVADA
APLICAÇÃO DE MINERAÇÃO DE DADOS PARA O LEVANTAMENTO DE PERFIS: ESTUDO DE CASO EM UMA INSTITUIÇÃO DE ENSINO SUPERIOR PRIVADA Lizianne Priscila Marques SOUTO 1 1 Faculdade de Ciências Sociais e Aplicadas
Leia maisEngenharia de Software III
Engenharia de Software III Casos de uso http://dl.dropbox.com/u/3025380/es3/aula6.pdf (flavio.ceci@unisul.br) 09/09/2010 O que são casos de uso? Um caso de uso procura documentar as ações necessárias,
Leia maisAula 02: Conceitos Fundamentais
Aula 02: Conceitos Fundamentais Profa. Ms. Rosângela da Silva Nunes 1 de 26 Roteiro 1. Por que mineração de dados 2. O que é Mineração de dados 3. Processo 4. Que tipo de dados podem ser minerados 5. Que
Leia maisHierarquia de modelos e Aprendizagem de Máquina
Hierarquia de modelos e Aprendizagem de Máquina Fabrício Jailson Barth BandTec Maio de 2015 Sumário Introdução: hierarquia de modelos e aprendizagem de máquina. O que é Aprendizagem de Máquina? Hierarquia
Leia maisRoteiro para a escrita do documento de Especificação de Requisitos de Software (ERS)
Roteiro para a escrita do documento de Especificação de Requisitos de Software (ERS) Definição Geral: Disciplina de Compiladores Prof. Jorge Bidarra (UNIOESTE) A especificação de requisitos tem como objetivo
Leia maisA ITIL e o Gerenciamento de Serviços de TI
A ITIL e o Gerenciamento de Serviços de TI A era da informação Informação, palavra derivada do verbo latim "informare", que significa "disciplinar", "ensinar", "instruir", juntamente com o seu significado
Leia maisTarefas e Técnicas de Mineração de Dados TAREFAS E TÉCNICAS DE MINERAÇÃO DE DADOS
Tarefas e Técnicas de Mineração de Dados TAREFAS E TÉCNICAS DE MINERAÇÃO DE DADOS Sumário Conceitos / Autores chave... 3 1. Introdução... 3 2. Tarefas desempenhadas por Técnicas de 4 Mineração de Dados...
Leia maisXIII Encontro de Iniciação Científica IX Mostra de Pós-graduação 06 a 11 de outubro de 2008 BIODIVERSIDADE TECNOLOGIA DESENVOLVIMENTO
XIII Encontro de Iniciação Científica IX Mostra de Pós-graduação 06 a 11 de outubro de 2008 BIODIVERSIDADE TECNOLOGIA DESENVOLVIMENTO EPE0147 UTILIZAÇÃO DA MINERAÇÃO DE DADOS EM UMA AVALIAÇÃO INSTITUCIONAL
Leia maisProf. Msc. Paulo Muniz de Ávila
Prof. Msc. Paulo Muniz de Ávila O que é Data Mining? Mineração de dados (descoberta de conhecimento em bases de dados): Extração de informação interessante (não-trivial, implícita, previamente desconhecida
Leia maisAlgoritmos Genéticos em Mineração de Dados. Descoberta de Conhecimento. Descoberta do Conhecimento em Bancos de Dados
Algoritmos Genéticos em Mineração de Dados Descoberta de Conhecimento Descoberta do Conhecimento em Bancos de Dados Processo interativo e iterativo para identificar padrões válidos, novos, potencialmente
Leia maisGlossário Apresenta a definição dos termos, siglas e abreviações utilizadas no contexto do projeto Citsmart.
Apresenta a definição dos termos, siglas e abreviações utilizadas no contexto do projeto Citsmart. Versão 1.6 15/08/2013 Visão Resumida Data Criação 15/08/2013 Versão Documento 1.6 Projeto Responsáveis
Leia maisConceitos de Banco de Dados
Conceitos de Banco de Dados Autor: Luiz Antonio Junior 1 INTRODUÇÃO Objetivos Introduzir conceitos básicos de Modelo de dados Introduzir conceitos básicos de Banco de dados Capacitar o aluno a construir
Leia maisPlanejamento Estratégico de TI. Prof.: Fernando Ascani
Planejamento Estratégico de TI Prof.: Fernando Ascani BI Business Intelligence A inteligência Empresarial, ou Business Intelligence, é um termo do Gartner Group. O conceito surgiu na década de 80 e descreve
Leia mais¹CPTL/UFMS, Três Lagoas, MS,Brasil, oliveiralimarafael@hotmail.com. ²CPTL/UFMS, Três Lagoas, MS, Brasil.
Encontro de Ensino, Pesquisa e Extensão, Presidente Prudente, 22 a 25 de outubro, 2012 36 INTRODUÇÃO A CRIPTOGRAFIA RSA Rafael Lima Oliveira¹, Prof. Dr. Fernando Pereira de Souza². ¹CPTL/UFMS, Três Lagoas,
Leia maisIntrodução. Banco de dados. Por que usar BD? Por que estudar BD? Exemplo de um BD. Conceitos básicos
Introdução Banco de Dados Por que usar BD? Vitor Valerio de Souza Campos Adaptado de Vania Bogorny 4 Por que estudar BD? Exemplo de um BD Os Bancos de Dados fazem parte do nosso dia-a-dia: operação bancária
Leia maisGuia de Especificação de Caso de Uso Metodologia CELEPAR
Guia de Especificação de Caso de Uso Metodologia CELEPAR Agosto 2009 Sumário de Informações do Documento Documento: guiaespecificacaocasouso.odt Número de páginas: 10 Versão Data Mudanças Autor 1.0 09/10/2007
Leia maisProf. Raul Sidnei Wazlawick UFSC-CTC-INE. Fonte: Análise e Projeto de Sistemas de Informação Orientados a Objetos, 2ª Edição, Elsevier, 2010.
Visão Geral do Sistema Prof. Raul Sidnei Wazlawick UFSC-CTC-INE 2010 Fonte: Análise e Projeto de Sistemas de Informação Orientados a Objetos, 2ª Edição, Elsevier, 2010. A fase de concepção do UP consiste
Leia mais3 a Lista de Exercícios
Engenharia de Requisitos 3 a Lista de Exercícios (1) Em relação ao levantamento e análise de requisitos, faz-se a seguinte afirmação: Os requisitos de sistema devem ser capturados, documentados e acordados
Leia maisSistemas de Banco de Dados Aspectos Gerais de Banco de Dados
Sistemas de Banco de Dados Aspectos Gerais de Banco de Dados 1. Conceitos Básicos No contexto de sistemas de banco de dados as palavras dado e informação possuem o mesmo significado, representando uma
Leia maisPrograma de Atualização de Pontos do Lince GPS
Esse programa atualiza os pontos do software Lince GSP em aparelhos portáteis, como navegadores e celulares. A Robotron mantém um serviço de fornecimento de pontos de controle de velocidade aos aparelhos
Leia maisIntrodução Banco de Dados
Introdução Banco de Dados Vitor Valerio de Souza Campos Adaptado de Vania Bogorny Por que estudar BD? Os Bancos de Dados fazem parte do nosso dia-a-dia: operação bancária reserva de hotel matrícula em
Leia maisADMINISTRAÇÃO DE ATIVOS DE TI GERENCIAMENTO DE CONFIGURAÇÃO
1 ADMINISTRAÇÃO DE ATIVOS DE TI GERENCIAMENTO DE CONFIGURAÇÃO 2 INFRAESTRUTURA DE TI Para garantir o atendimento às necessidades do negócio, a área de TI passou a investir na infraestrutura do setor, ampliando-a,
Leia maisEmpreenda! 9ª Edição Roteiro de Apoio ao Plano de Negócios. Preparamos este roteiro para ajudá-lo (a) a desenvolver o seu Plano de Negócios.
Empreenda! 9ª Edição Roteiro de Apoio ao Plano de Negócios Caro (a) aluno (a), Preparamos este roteiro para ajudá-lo (a) a desenvolver o seu Plano de Negócios. O Plano de Negócios deverá ter no máximo
Leia maisBanco de Dados. Introdução. João Eduardo Ferreira Osvaldo Kotaro Takai. jef@ime.usp.br DCC-IME-USP
Banco de Dados Introdução João Eduardo Ferreira Osvaldo Kotaro Takai jef@ime.usp.br DCC-IME-USP Importância dos Bancos de Dados A competitividade das empresas depende de dados precisos e atualizados. Conforme
Leia maisINSTITUTO TECNOLÓGICO DE AERONÁUTICA DIVISÃO DE ENGENHARIA ELETRÔNICA LABORATÓRIO DE GUERRA ELETRÔNICA
INSTITUTO TECNOLÓGICO DE AERONÁUTICA DIVISÃO DE ENGENHARIA ELETRÔNICA LABORATÓRIO DE GUERRA ELETRÔNICA CURSO DE ESPECIALIZAÇÃO EM ANÁLISE DE AMBIENTE ELETROMAGNÉTICO CEAAE /2008 DISCIPLINA EE-09: Inteligência
Leia maisUniversidade Federal de Minas Gerais ICEx / DCC
Universidade Federal de Minas Gerais ICEx / DCC Belo Horizonte, 15 de dezembro de 2006 Relatório sobre aplicação de Mineração de Dados Mineração de Dados em Bases de Dados de Vestibulares da UFMG Professor:
Leia maisExtração de Conhecimento & Mineração de Dados
Extração de Conhecimento & Mineração de Dados Nesta apresentação é dada uma breve introdução à Extração de Conhecimento e Mineração de Dados José Augusto Baranauskas Departamento de Física e Matemática
Leia maisESTENDENDO A UML PARA REPRESENTAR RESTRIÇÕES DE INTEGRIDADE
ESTENDENDO A UML PARA REPRESENTAR RESTRIÇÕES DE INTEGRIDADE Fabiana Gomes Marinho Faculdade Lourenço Filho Resumo: Na UML, a modelagem conceitual dos dados é descrita pelo diagrama de classes, que através
Leia maisCOLETA DE INFORMAÇÕES E PREVISÃO DE DEMANDA
COLETA DE INFORMAÇÕES E PREVISÃO DE DEMANDA 1) Quais são os componentes de um moderno sistema de informações de marketing? 2) Como as empresas podem coletar informações de marketing? 3) O que constitui
Leia maisUpload e Download de Arquivos. Ao programador Morfik, cabe implementar em sua aplicação os mecanismos gerenciem todo o processo acima.
Upload e Download de Arquivos Considerações gerais. As aplicações Web 2 tem como uma de suas características principais, o fato de permitirem aos usuários, que eles mesmo criem conteúdo, sem depender de
Leia maisPROCESSO DE DESENVOLVIMENTO DE SOFTWARE. Modelos de Processo de Desenvolvimento de Software
PROCESSO DE DESENVOLVIMENTO DE SOFTWARE Introdução Modelos de Processo de Desenvolvimento de Software Os modelos de processos de desenvolvimento de software surgiram pela necessidade de dar resposta às
Leia mais3 Qualidade de Software
3 Qualidade de Software Este capítulo tem como objetivo esclarecer conceitos relacionados à qualidade de software; conceitos estes muito importantes para o entendimento do presente trabalho, cujo objetivo
Leia maisGestão do Conhecimento: Extração de Informações do Banco de Dados de um Supermercado
Gestão do Conhecimento: Extração de Informações do Banco de Dados de um Supermercado Alessandro Ferreira Brito 1, Rodrigo Augusto R. S. Baluz 1, Jean Carlo Galvão Mourão 1, Francisco das Chagas Rocha 2
Leia maisPerfil de investimentos
Perfil de investimentos O Fundo de Pensão OABPrev-SP é uma entidade comprometida com a satisfação dos participantes, respeitando seus direitos e sempre buscando soluções que atendam aos seus interesses.
Leia mais04/08/2012 MODELAGEM DE DADOS. PROF. RAFAEL DIAS RIBEIRO, M.Sc. @ribeirord MODELAGEM DE DADOS. Aula 2. Prof. Rafael Dias Ribeiro. M.Sc.
MODELAGEM DE DADOS PROF. RAFAEL DIAS RIBEIRO, M.Sc. @ribeirord MODELAGEM DE DADOS Aula 2 Prof. Rafael Dias Ribeiro. M.Sc. @ribeirord 1 Objetivos: Revisão sobre Banco de Dados e SGBDs Aprender as principais
Leia maisCasos de teste semânticos. Casos de teste valorados. Determinar resultados esperados. Gerar script de teste automatizado.
1 Introdução Testes são importantes técnicas de controle da qualidade do software. Entretanto, testes tendem a ser pouco eficazes devido à inadequação das ferramentas de teste existentes [NIST, 2002].
Leia maisUniversidade Federal de Santa Maria Curso de Arquivologia. Disciplina de Banco de Dados Aplicados à Arquivística. Versao 1.
Universidade Federal de Santa Maria Curso de Arquivologia Disciplina de Banco de Dados Aplicados à Arquivística Prof. Andre Zanki Cordenonsi Versao 1.0 Março de 2008 Tópicos Abordados Conceitos sobre Banco
Leia maisImportância da normalização para as Micro e Pequenas Empresas 1. Normas só são importantes para as grandes empresas...
APRESENTAÇÃO O incremento da competitividade é um fator decisivo para a maior inserção das Micro e Pequenas Empresas (MPE), em mercados externos cada vez mais globalizados. Internamente, as MPE estão inseridas
Leia maisSAV Sistema de Aluguel de Veículos I - DOCUMENTO DE REQUISITOS Versão 1.00
SAV Sistema de Aluguel de Veículos I - DOCUMENTO DE REQUISITOS Versão 1.00 Conteúdo 1. INTRODUÇÃO...3 1.1 CONVENÇÕES, TERMOS E ABREVIAÇÕES... 3 1.1.1 Identificação dos Requisitos... 3 1.1.2 Prioridades
Leia maisO que é a ciência de dados (data science). Discussão do conceito. Luís Borges Gouveia Universidade Fernando Pessoa Versão 1.
O que é a ciência de dados (data science). Discussão do conceito Luís Borges Gouveia Universidade Fernando Pessoa Versão 1.3, Outubro, 2015 Nota prévia Esta apresentação tem por objetivo, proporcionar
Leia maisAnálise e Projeto Orientados a Objetos Aula IV Requisitos. Prof.: Bruno E. G. Gomes IFRN
Análise e Projeto Orientados a Objetos Aula IV Requisitos Prof.: Bruno E. G. Gomes IFRN 1 Introdução Etapa relacionada a descoberta e descrição das funcionalidades do sistema Parte significativa da fase
Leia maisQUALIDATA Soluções em Informática. Módulo CIEE com convênio empresas
FM-0 1/21 ÍNDICE 1. MÓDULO DESKTOP(SISTEMA INSTALADO NO CIEE)... 2 Cadastro de Ofertas de Empregos:... 2 Cadastro de Eventos:... 3 Cadastro de Instituições do Curriculum:... 5 Cadastro de Cursos do Curriculum:...
Leia maisKDD UMA VISAL GERAL DO PROCESSO
KDD UMA VISAL GERAL DO PROCESSO por Fernando Sarturi Prass 1 1.Introdução O aumento das transações comerciais por meio eletrônico, em especial as feitas via Internet, possibilitou as empresas armazenar
Leia mais4 Segmentação. 4.1. Algoritmo proposto
4 Segmentação Este capítulo apresenta primeiramente o algoritmo proposto para a segmentação do áudio em detalhes. Em seguida, são analisadas as inovações apresentadas. É importante mencionar que as mudanças
Leia maisCÓDIGO CRÉDITOS PERÍODO PRÉ-REQUISITO TURMA ANO INTRODUÇÃO
PONTIFÍCIA UNIVERSIDADE CATÓLICA DE GOIÁS ESCOLA DE GESTÃO E NEGÓCIOS CURSO DE CIÊNCIAS CONTÁBEIS, ADMINISTRAÇÃO E ECONOMIA DISCIPLINA: ESTRUTURA E ANÁLISE DE CUSTO CÓDIGO CRÉDITOS PERÍODO PRÉ-REQUISITO
Leia maisProcessos Técnicos - Aulas 4 e 5
Processos Técnicos - Aulas 4 e 5 Trabalho / PEM Tema: Frameworks Públicos Grupo: equipe do TCC Entrega: versão digital, 1ª semana de Abril (de 31/03 a 04/04), no e-mail do professor (rodrigues.yuri@yahoo.com.br)
Leia maisBanco de Dados I. Introdução. Fabricio Breve
Banco de Dados I Introdução Fabricio Breve Introdução SGBD (Sistema Gerenciador de Banco de Dados): coleção de dados interrelacionados e um conjunto de programas para acessar esses dados Coleção de dados
Leia maisBanco de Dados - Senado
Banco de Dados - Senado Exercícios OLAP - CESPE Material preparado: Prof. Marcio Vitorino OLAP Material preparado: Prof. Marcio Vitorino Soluções MOLAP promovem maior independência de fornecedores de SGBDs
Leia maisINTELIGÊNCIA ARTIFICIAL Data Mining (DM): um pouco de prática. (1) Data Mining Conceitos apresentados por
INTELIGÊNCIA ARTIFICIAL Data Mining (DM): um pouco de prática (1) Data Mining Conceitos apresentados por 1 2 (2) ANÁLISE DE AGRUPAMENTOS Conceitos apresentados por. 3 LEMBRE-SE que PROBLEMA em IA Uma busca
Leia maisPARANÁ GOVERNO DO ESTADO
A COMUNICAÇÃO NA INTERNET PROTOCOLO TCP/IP Para tentar facilitar o entendimento de como se dá a comunicação na Internet, vamos começar contando uma história para fazer uma analogia. Era uma vez, um estrangeiro
Leia maisFundamentos de Sistemas de Informação Sistemas de Informação
Objetivo da Aula Tecnologia e as Organizações, importância dos sistemas de informação e níveis de atuação dos sistemas de informação Organizações & Tecnologia TECNOLOGIA A razão e a capacidade do homem
Leia maisGestão da Qualidade Políticas. Elementos chaves da Qualidade 19/04/2009
Gestão da Qualidade Políticas Manutenção (corretiva, preventiva, preditiva). Elementos chaves da Qualidade Total satisfação do cliente Priorizar a qualidade Melhoria contínua Participação e comprometimento
Leia maisAlgoritmos: Lógica para desenvolvimento de programação de computadores. Autor: José Augusto Manzano. Capítulo 1 Abordagem Contextual
Algoritmos: Lógica para desenvolvimento de programação de computadores Autor: José Augusto Manzano Capítulo 1 Abordagem Contextual 1.1. Definições Básicas Raciocínio lógico depende de vários fatores para
Leia maisPLANEJAMENTO OPERACIONAL - MARKETING E PRODUÇÃO MÓDULO 3 O QUE É PLANEJAMENTO DE VENDAS E OPERAÇÕES?
PLANEJAMENTO OPERACIONAL - MARKETING E PRODUÇÃO MÓDULO 3 O QUE É PLANEJAMENTO DE VENDAS E OPERAÇÕES? Índice 1. O que é planejamento de...3 1.1. Resultados do planejamento de vendas e operações (PVO)...
Leia maisSistemas de Informação I
+ Sistemas de Informação I Dimensões de análise dos SI Ricardo de Sousa Britto rbritto@ufpi.edu.br + Introdução n Os sistemas de informação são combinações das formas de trabalho, informações, pessoas
Leia maisMódulo 15 Resumo. Módulo I Cultura da Informação
Módulo 15 Resumo Neste módulo vamos dar uma explanação geral sobre os pontos que foram trabalhados ao longo desta disciplina. Os pontos abordados nesta disciplina foram: Fundamentos teóricos de sistemas
Leia maisPrograma de Instalação do Lince GPS
Esse programa instala o software Lince GSP em aparelhos portáteis que tenham GPS, como navegadores e celulares. O software Lince GPS é um programa destinado a alertar sobre a aproximação a pontos previamente
Leia maisBanco de Dados. Uma coleção de dados relacionados [ELMASRI/NAVATHE]
1/6 Banco de Dados O que é um Banco de Dados? Uma coleção de dados relacionados [ELMASRI/NAVATHE] Conjunto de dados integrados que tem por objetivo atender a uma comunidade específica [HEUSER] Um conjunto
Leia maisALESSANDRO RODRIGO FRANCO FERNANDO MARTINS RAFAEL ALMEIDA DE OLIVEIRA
ALESSANDRO RODRIGO FRANCO FERNANDO MARTINS RAFAEL ALMEIDA DE OLIVEIRA INTRODUÇÃO O projeto de um banco de dados é realizado sob um processo sistemático denominado metodologia de projeto. O processo do
Leia maisRoteiro 3 Modelagem relacional
Roteiro 3 Modelagem relacional Objetivos: Explorar conceitos sobre: o Modelagem de bancos de dados projetos: conceitual, lógico e físico; o Conceitos sobre o modelo relacional: tuplas, atributo, entidades,
Leia maisPLANEJAMENTO OPERACIONAL - MARKETING E PRODUÇÃO MÓDULO 11 PESQUISA DE MERCADO
PLANEJAMENTO OPERACIONAL - MARKETING E PRODUÇÃO MÓDULO 11 PESQUISA DE MERCADO Índice 1. Pesquisa de mercado...3 1.1. Diferenças entre a pesquisa de mercado e a análise de mercado... 3 1.2. Técnicas de
Leia maisClustering: K-means and Aglomerative
Universidade Federal de Pernambuco UFPE Centro de Informática Cin Pós-graduação em Ciência da Computação U F P E Clustering: K-means and Aglomerative Equipe: Hugo, Jeandro, Rhudney e Tiago Professores:
Leia maisDado: Fatos conhecidos que podem ser registrados e têm um significado implícito. Banco de Dados:
MC536 Introdução Sumário Conceitos preliminares Funcionalidades Características principais Usuários Vantagens do uso de BDs Tendências mais recentes em SGBDs Algumas desvantagens Modelos de dados Classificação
Leia maisSoftwares Aplicativos Banco de Dados
Softwares Aplicativos Banco de Dados INTRODUÇÃO À ENGENHARIA DA COMPUTAÇÃO Professor: Rosalvo Ferreira de Oliveira Neto Estrutura 1. Definições 2. Serviços 3. Usuários 4. Evolução 5. Exemplos 03 Banco
Leia mais