DATA MINING Fabiany Lamboia Luciano Machado Pereira

Tamanho: px
Começar a partir da página:

Download "DATA MINING Fabiany Lamboia Luciano Machado Pereira"

Transcrição

1 Unioeste - Universidade Estadual do Oeste do Paraná CENTRO DE CIÊNCIAS EXATAS E TECNOLÓGICAS Colegiado de Informática Curso de Bacharelado em Informática DATA MINING Fabiany Lamboia Luciano Machado Pereira CASCAVEL 2005

2 Fabiany Lamboia Luciano Machado Pereira DATA MINING Trabalho apresentado como nota parcial da disciplina de Banco de Dados II do Curso de Bacharel em Informática, do Centro de Ciências Exatas e Tecnológicas da Universidade Estadual do Oeste do Paraná - Campus de Cascavel Professor: Carlos José Maria Olguín CASCAVEL 2005

3 Lista de Figuras 2.1 Estratégias e Algoritmos utilizados Exemplo de um conjunto de dados iii

4 Lista de Abreviaturas e Siglas DM IBM KDD OLAP CAD CAM Data Mining International Business Machines Knowledge Discovery in Databases Online Analytical Processing Computer Aided Design Computer Aided Manufacturing iv

5 Sumário Lista de Figuras Lista de Abreviaturas e Siglas Sumário iii iv v 1 Introdução 1 2 Data Mining Principais Tarefas de Data Mining Classificação Estimativa Segmentação Regressão Agregação (clustering) Sumarização Modelo de Dependência Associação Análise de Sequência Predição Técnicas de Data Mining Estatística Métodos Lineares Indução de Regras Regras de Classificação Regras de Associação Apriori v

6 3.3.4 Regras de Caracterização Regras de Discriminação Alguns Algoritmos utilizados em Data Mining Árvores de decisão Cluster Naive Bayes Adaptive Bayes Network Aplicações para Data Mining Marketing Vendas Finanças Manufatura Saúde Energia Tecnologias que Implementam Data Mining Exemplos de Empresas que utilizam Data Mining Conclusão 22 5 Bibliografia 23 vi

7 Capítulo 1 Introdução O grande volume de dados disponíveis cresce a cada dia e desafia a capacidade de armazenamento, seleção e uso dos mesmos. Assim surge a necessidade de uso de tecnologias que permitem a obtenção (mineração) de dados afim de gerar informações e conhecimento a partir dos dados. A tecnologia de Data Mining com suas ferramentas permite a "mineração"destes dados. Esta tecnologia é formada por um conjunto de ferramentas que são capazes de explorar um grande conjunto de dados, extraindo destes conhecimentos na forma de hipóteses e de regras. Diariamente as empresas acumulam diversos dados em seus bancos de dados, tornando-os em informação sobre os vários processos e procedimentos das funções da empresa, inclusive com dados e hábitos de seus clientes, suas histórias de sucesso e fracassos. Todos estes dados podem contribuir com a empresa, sugerindo tendências e particularidades pertinentes a ela e seu meio ambiente interno e externo, visando uma rápida ação de seus gestores. Com a geração de informações e conhecimentos úteis para as empresas, os seus negócios podem se tornar mais lucrativos. Os recursos da Tecnologia da Informação, mais precisamente a capacidade do hardware e software disponíveis podem efetuar atividades em horas o que tradicionalmente as pessoas levariam meses. Os sistemas tradicionais são ferramentas capazes de manipular dados de forma rápida, segura e efetiva em bancos de dados, mas apresentam restrições para gerar informações com análises significativas. Estas restrições são melhores trabalhadas quando as empresas utilizamse da tecnologia de Data Mining aliada a outras tecnologias, tais como, Knowledge Discovery in Databases (KDD). No ambiente comercial atual, data mining está começando a ganhar mais atenção. Como

8 esse recurso trata de exploração e análise, de forma automática ou semi-automática, quantidades de dados podem ajudar a descobrir padrões e regras significativas. Esses padrões e regras ajudam as empresas a aprimorar áreas de marketing, vendas e de operações de suporte ao cliente para entendê-los melhor. 2

9 Capítulo 2 Data Mining Data mining (DM), é o processo de seleção, exploração de dados e criação de modelos que utiliza um grande volume de armazenamento de dados para identificar padrões previamente desconhecidos. Consiste na construção de modelos computacionais para a descoberta automática de novos fatos e relacionamentos entre dados, produzindo novos conhecimentos. Tais conhecimentos são utilizados para informar melhor os tomadores de decisão antes de eles agirem. O DM Pode criar um modelo do mundo real com base nos dados coletados de várias fontes, incluindo transações corporativas, dados históricos e demográficos de clientes, e mesmo de fontes externas, como empresas de análise de crédito. Depois, pode utilizar esse modelo para produzir padrões a partir de informações, os quais podem dar suporte às tomadas de decisão e prever novas oportunidades de negócios. O data mining está presente em vários setores e atividades de negócio, como por exemplo: Empresas de telecomunicações, seguros, cartões de crédito e do mercado de ações utilizam o data mining para detectar fraudes, otimizar campanhas de marketing e identificar as estratégias mais lucrativas. A área médica utiliza o data mining para prever a eficácia de procedimentos cirúrgicos, exames médicos e medicações. O setor de varejo utiliza o data mining para avaliar a eficácia de promoções e eventos especiais, e prever que ofertas são mais apropriadas para os diferentes consumidores. É importante não confundir data mining com complexas estruturas de consulta a bases de dados, onde o usuário já possua alguma hipótese e deseja apenas extrair material para manu-

10 almente verificar e confirmar a validade de sua hipótese. A idéia central em data mining é a de que seus algoritmos atuem como extratores de dados e sejam capazes de automaticamente identificar a existência de padrões e relacionamentos desconhecidos, que ao serem analisados posteriormente, possam mostrar e induzir a geração de hipóteses úteis e relevantes para o usuário. O Data Mining representa uma forma de capitalizar o investimento necessário para o armazenamento de grandes volumes de dados, tentando, por exemplo, descobrir padrões de comportamento de clientes para fins de concessão de crédito, ou identificando estilos de ações fraudulentas em administradoras de cartão de créditos. Um problema nesta abordagem é que além da possibilidade de criar relacionamentos inúteis, o número de correlações possíveis de serem obtidas tende a ser muito grande, o que impede a análise exaustiva de cada uma. A solução é usar algoritmos e técnicas inteligentes que possam identificar e selecionar automaticamente os casos mais relevantes para cada aplicação. O processo de data mining difere das técnicas de OLAP já bastante difundidas na literatura, enquanto estas oferecem meios para consolidar os dados em vários níveis, trabalhando-os em múltiplas dimensões, a técnica de data mining busca mais do que a interpretação dos dados existentes, visa fundamentalmente inferir e generalizar possíveis fatos e correlações não percebidas nem facilmente deduzidas. 2.1 Principais Tarefas de Data Mining O termo minerar pressupõe o garimpo por alguma preciosidade, minerar dados pressupõe o garimpo entre bases de dados por algo que possa trazer algum valor ou vantagem competitiva para a empresa. Em geral este garimpo tem como objetivo descrever ou prever o comportamento futuro de algum fenômeno. Descrever tem como foco encontrar algo que faça sentido e que consiga explicar os resultados ou valores obtidos em determinados dados ou negócios. Prever, por outro lado, tem como foco antecipar o comportamento ou o valor futuro de algum fenômeno ou variável de interesse, com base no conhecimento de valores do passado. Na busca de tais objetivos diferentes estratégias podem ser utilizadas para garimpar as bases de dados disponíveis na busca por indícios que possam relacionar dados ou fatos. As principais estratégias empregadas nesta tarefa incluem a classificação, a agregação, a associa- 4

11 ção, a regressão e a predição. Em todas estratégias, o objetivo maior é o de poder generalizar o conhecimento adquirido para novas ocorrências do fenômeno ou para outros contextos ou situações parecidas com a utilizada na construção do modelo computacional. Em cada uma destas estratégias diferentes técnicas e algoritmos podem ser aplicados Classificação É a estratégia que consiste na busca por uma função que consiga mapear (classificar) uma determinada ocorrência em uma dentre um conjunto finito e pré-definido de classes. A construção do modelo segundo esta estratégia pressupõe o conhecimento prévio das possíveis classes e a correta classificação dos exemplos usados na modelagem. Várias são as aplicações para este tipo de abordagem, em análise de risco, por exemplo, o objetivo pode ser o de classificar um potencial cliente entre as classes de excelente, bom ou mau pagador Estimativa Os algoritmos de estimativa são uma variação do problema de classificação, que determina um valor mais provável para um índice diante dos dados do passado ou de dados de outros índices semelhantes sobre os quais tem-se conhecimento. A classificação lida com valores discretos, já a estimativa trabalha com valores númericos contínuos. Dadas informações de entrada, busca-se estimar um valor númerico para uma variável contínua, ou seja, preencher um valor perdido em um campo em particular de um registro como uma função de outros campos no registro. Redes Neurais, algoritmos genéticos e as técnicas usuais de regressão estatística são algumas ferramentas muito utilizadas para estimar grandezas. Exemplos de tarefas de estimativa incluem estimar a renda total de uma família e estimar o valor de um empréstimo que pode ser concedido a uma empresa Segmentação Busca realizar a separação, em uma grande população, de sub-populações com comportamentos semelhantes. Dentro dessas sub-populações, vários tipos de previsões são possíveis. 5

12 Várias técnicas de detecção de clusters, agrupamento por afinidades e análises de ligações podem ser aplicadas à tarefas de segmentação. Um exemplo de aplicação pode ser a segmentação de clientes através da descoberta de grupos de clientes com características de comportamento semelhantes Regressão Consiste na busca por uma função que represente, de forma aproximada, o comportamento apresentado pelo fenômeno em estudo. A forma mais conhecida de regressão é a linear, por exemplo, uma reta que minimiza o erro médio entre todos os valores considerados, mas também pode ser não linear Agregação (clustering) Consiste na busca de similaridades entre os dados tal que permita definir um conjunto finito de classes ou categorias que os contenha e os descreva. A principal diferença entre esta abordagem e classificação é que em agregação não se tem conhecimento prévio sobre o número de classes possíveis nem a possível pertinência dos exemplos usados na modelagem. Esta tarefa agrupa informações homegêneas de grupos heterogêneos entre os demais e aponta o item que melhor representa cada grupo, também conhecido como clusters. Os grupos identificados podem ser mutuamente exclusivos ou exaustivos ou consistir de uma representação mais rica tais como categorias hierárquicas ou sobrepostas. Assim, todos os elementos de um mesmo grupo são similares segunda uma medida. Os elementos descobertos são as classes ou as hipóteses. Exemplos de tarefas de clusterização incluem agrupar clientes em conjuntos homogêneos de acordo com seus hábitos de consumo e colocar em um mesmo conjunto de bactérias semelhantes. Outro exemplo é o segmentação demográfica que serve de início para uma determinação das características de um grupo social, visando desde hábitos de compras até utilização de meios de transporte Sumarização Envolve métodos que encontram uma descrição compacta para um subconjunto de dados. 6

13 Aplicações podem ser de tabular o resultado e o desvio padrão para todos os atributos de conjunto de dados, descobrir dependência funcional entre as variáveis, realizar a derivação de um sumário de regras, etc. As técnicas de sumarização são frequentemente aplicadas à análise exploratória interativa de dados e geração automatizada de relatórios Modelo de Dependência Encontra um modelo que descreve as dependências significativas entre as variáveis. Os modelos de dependência existem em dois níveis: estruturais, cujas variáveis são localmente dependentes entre si; quantitativos os quais especificam a solidez da dependência usando uma escala númerica. Geralmente um modelo utiliza os dois tipos de dependências, um para encontrar a relação e outra para quantificá-la. Estes modelos são utilizados em áreas como desenvolvimento de probabilidades em sistemas especialistas da área médica, recuperaçaõ de informação e modelagem de genes humanos Associação Consiste em identificar fatos que possam ser direta ou indiretamente associados. Esta estratégia é geralmente usada em aplicações onde se busca identificar itens que possam ser colocados juntos em um mesmo pacote de negociação. Por exemplo, a constatação de que vendas de cerveja e de fraldas descartáveis aumentam às sextas-feiras pode levar à construção de uma hipótese que associe ambos os itens a um tipo especial de cliente. Associação também pode ser usada para avaliar a existência de algum tipo de relação temporal entre os itens constantes de uma base de dados Análise de Sequência Uma variante de problema de regras de associação é a Análise de Sequências, onde as regras encontradas entre as relações podem ser usadas para identificar sequências interessantes, que serão utilizadas para predizer acontecimentos subsequentes. Nesse caso, não apenas a coexistência de itens dentro da cada transação é importante, mas também a ordem em que aparecem e o intervalo entre elas. Sequências podem ser úteis para identificar padrões temporais, utilização 7

14 de cartões de crédito ou ainda tratamentos médicos Predição Envolve uma componente temporal, isto é, representa aquela classe de problemas nos quais estamos interessados em prever o comportamento ou valor futuro de uma determinada variável com base em valores anteriores desta mesma variável (mono-variável) ou em valores anteriores da variável de interesse e de outras variáveis (multi-variável). Existem várias técnicas que podem ser utilizadas na implementação destas estratégias, onde as principais podemos ver na figura 2.1. Figura 2.1: Estratégias e Algoritmos utilizados 8

15 Capítulo 3 Técnicas de Data Mining As técnicas de DM fornecem a estrutura necessária para que se possam acessar os dados e extrair conhecimento a partir dos mesmos. A escolha da técnica mais adequada depende do tipo de aplicação, do tipo dos dados armazenados e da tarefa ou função escolhida. 3.1 Estatística É utilizada em problemas em que o interessa está centrado em uma simples variável de saída y e uma coleção pré-editada. Todos os modelos assumem a viabilidade dos dados treinados e tem como objetivo encontrar um modelo para prever o valor y a partir de x, que seja executado e produza bons resultados a partir de novos dados. Estatísticas envolvem computação matemática e, portanto, requerem uso de dados quantitativos. Testes estatítiscos podem ser usados para comparar valores entres vários grupos amostrados num conjunto de dados. 3.2 Métodos Lineares Métodos Lineares englobam modelos clássicos de elaboração e classificação, sendo estes respectivamente regressões lineares e análise linear de discriminante. O termo linear, nesses modelos, é derivado do fato da superfície de regressão ou classificação ser um plano. A flexibilidade e a computação direta envolvidas na regressão linear são feitas sem o uso de outras técnicas associadas. Exemplificando, as funções radiais básicas de redes neurais são meras regressões lineares de um conjunto de características do núcleo.

16 3.3 Indução de Regras Os sistemas baseados em regras buscam extrair conhecimento por meio de regras do tipo: Se premissa então conclusão. Uma regra indutiva é um processo de percorrer uma série de dados e, a partir destes, gerar padrões. Pelo fato de explorar automaticamente uma série de dados, o sistema indutivo cria hipóteses que conduzem padrões. O processo é em sua essência semelhante aquilo que um especialista humano parece fazer quando em análise exploratória. Por exemplo, dado um banco de dado de informação demográfica, o sistema de indução pode primeiramente examinar como as idades são distribuídas e pode perceber uma interessante variação áquelas pessoas cujas profissões são listadas como atletas profissionais. Os sistemas baseados em regras dividem-se em regras de de classificação, regras de associação, regras de caracterização e regras de discriminação Regras de Classificação São obtidas pelo processo de classificação que consiste em analisar uma base de exemplos e de construir um modelo para cada classe a partir das características dos atributos. Geralmente a descrição dos atributos está em uma base de dados, na forma de registros. Uma regra de classificação tem a seguinte forma: Valor -> Classe onde os valores dos atributos são as premissas e a classe a conclusão. Essas regras podem ser utilizadas para categorizar outros elementos de dados com o objetivo de melhorar a compreensão do conteúdo da base. Alguns exemplos de utilização de regras de classificação: Classificar um lote de pedras preciosas; Classificar solicitações de cartões de crédito como sendo baixo, médio ou alto risco; Discriminar solicitações de cobertura de seguros fraudulentas das não fraudulentas. Em todos esses exemplos existe um número limitado de classes e a cada um dos registros do banco de dados uma determinada classe deve ser atribuída. 10

17 3.3.2 Regras de Associação A tarefa de associação, que envolve a descoberta de regras de associação, é uma das tecnologias predominantes em mineração de dados. O banco de dados é tratado como uma coleção de transações, sendo que cada uma envolve um conjunto de itens. Uma regra de associação é uma expressão da forma X > Y, onde X e Y são conjuntos de itens. O significado de tal regra é que transações da base de dados que contém X tendem a conter Y também. O conjunto de itens que aparece à esquerda da seta (representado por X) é chamado de antecedente da regra. Já o conjunto de itens que aparece à direita da seta (representado por Y ) é o conseqüente da regra. Assim, uma regra de associação tem o seguinte formato: Antecedente > Conseqüente A cada regra são associados dois fatores: suporte e confiança. Para uma regra de associação X > Y, o suporte indica a porcentagem de registros em que aparecem X e Y simultaneamente, sobre o total de registros. Já a confiança indica a porcentagem de registros que contém X e Y, sobre o total de registros que possuem X. Um conjunto de itens é chamado de itemset e seu suporte é a porcentagem das transações que contêm todos os itens do itemset. Um itemset é dito freqüente quando o seu suporte é maior ou igual a um valor de suporte mínimo definido pelo usuário. A tarefa de mineração de regras de associação consiste em duas etapas: 1. Encontrar todos os itemsets freqüentes. 2. Gerar regras de associação a partir dos itemsets freqüentes. Se na base de dados de transações existir m itens diferentes, o número de possíveis itemsets distintos é 2 m. Desta maneira, a maior dificuldade na mineração de regras de associação está em determinar todos os itemsets freqüentes. Seja, por exemplo, I = {1, 2, 3, 4} o conjunto de todos os possíveis itens em uma base de dados. Dessa maneira tem-se 24 = 16 possíveis itemsets. Um dos algoritmos mais utilizados para a extração de regras de associção é o Apriori. 11

18 3.3.3 Apriori Entre os diversos algoritmos para realizar a mineração de dados buscando regras de associação, um dos mais famosos e utilizados é o Apriori. Ele foi proposto pela equipe de pesquisa QUEST da IBM que deu origem ao Software Intelligent Miner. Esse algoritmo faz recursivas buscas no Banco de Dados à procura dos conjuntos frequentes (conjuntos que satisfazem um suporte mínimo estabelecido). Sua criação representou um grande diferencial em relação aos algoritmos anteriores a ele, principalmente no que se refere ao desempenho e à estratégia de solução do problema de mineração de regras de associação. Por esse motivo, o algoritmo Apriori é considerado um algoritmo clássico, e a partir dele muitos algoritmos foram posteriormente criados, formando o que muitos chamam de família Apriori. O objetivo do algoritmo pode ser descrito dessa forma: um conjunto de transações D, D = {T T umconjuntodeitens}; um suporte mínimo minsup; uma confiança mínima minconf. obter todas as regras de associação que possuam confiança minconf; suporte minsup. Assim, a estratégia do Apriori é identificar os conjuntos de itemsets freqüentes (cujo suporte seja maior ou igual a minsup) e construir regras a partir desses conjuntos, que possuam confiança maior ou igual a minconf. A idéia inovadora desse algoritmo é a de que se um conjunto está abaixo do suporte mínimo, pode-se ignorar todos os seus superconjuntos. Com isso, o algoritmo ganha em desempenho, já que não perde tempo analisando esses superconjuntos que não são freqüentes. Essa otimização é possível porque a busca em largura garante que os valores dos suportes de todos os subconjuntos de um candidato são conhecidos antecipadamente. Em uma varredura da base de dados, o Apriori realiza simultaneamente a contagem de todos os candidatos de tamanho k. 12

19 A parte crítica do algoritmo é procurar pelos candidatos em cada transação. Para esse propósito, foi introduzida uma estrutura de dados chamada hash-tree. Os itens em cada transação são utilizados para percorrer a hash-tree. Quando é alcançada uma de suas folhas, é encontrado um conjunto de candidatos que possui um prefixo comum. Esses candidatos são procurados na transação e, se encontrados, o contador deles na hash-tree é incrementado Regras de Caracterização Regras de Caracterização possibilitam generalizar e comparar as características dos dados. Sua forma geral é a seguinte: [Valor] + Classe -> Valor onde [Valor] é opcional. A caracterização de uma cidade, é um exemplo dessa regra: Se nome = Paris e tamanho = grande e população = grande então prédios = antigos No exemplo, a classe é o nome da cidade os valores das premissas são os atributos tamanho e população e o atributo prédio é a conclusão Regras de Discriminação Assemelham-se às regras de caracterização, exceto pelo fato de que a extração pode ser feita a partir da conclusão. Comparam dois conjuntos de objetos e sua forma é: Valor1 = Valor2 -> Classe1 = Classe2 3.4 Alguns Algoritmos utilizados em Data Mining Em data mining existem vários algoritmos que podem ser utilizados para a obtenção de informaçãoes ou criação de hipóteses, tais como, Árvore de decisão, redes neurais, indução de regras, vizinho mais próximo, algoritmos genéticos. Nas seções seguintes é descrito uma breve explanação de alguns desses algoritmos Árvores de decisão O algoritmo de árvores de decisão foi desenvolvido por estatísticos para automatizar a determinação de quais campos eram importantes e se relacionavam com o problema. Este algoritmo 13

20 encontra relacionamentos entre os atributos da previsão, através da classificação. É um dos melhores algoritmos de mineração de dados. Árvore de decisão é um modelo de previsão onde cada ramo da árvore representa um questionamento da classificação e as folhas representam os valores dos atributos alvo da previsão. Se um atributo está relacionado com alguma folha da árvore, então este atributo tem influência na previsão. A seleção dos atributos que compõe a árvore é realizada através de um processo de classificação, neste caso somente os atributos mais importantes são adicionados à árvore. A árvore de decisão é provavelmente a técnica mais popular para a modelagem de prognóstico. Um exemplo explica alguns conceitos básicos do algoritmo de árvore de decisão. A figura 3.1 mostra um conjunto de dados de treinamento que podem ser usados para prever o risco do crédito. Neste exemplo, informações fictícias sobre clientes foram geradas, incluindo o nível de débito, o nível de receita, o tipo de emprego e se há risco de crédito bom ou ruim. Figura 3.1: Exemplo de um conjunto de dados Neste exemplo, o algoritmo de árvore de decisão pode determinar que o atributo mais significante para prever o risco de crédito é o nível de débito. Dessa forma, a primeira divisão na árvore de decisão é feita no nível de débito. Um dos dois novos nós (Débito = Alto) é um nó 14

21 folha, que contém três casos com créditos ruins e nenhum caso com crédito bom. Neste exemplo, um nível de débito alto é um prognóstico perfeito para um risco de crédito ruim. O outro nó (Débito = Baixo) ainda é misturado, tendo três créditos bons e um ruim. O algoritmo de árvore de decisão escolhe o tipo de emprego como o prognóstico mais significante de risco de crédito. A divisão no tipo de emprego tem dois nós de folha que indicam que os autônomos têm uma probabilidade de crédito ruim maior. Isso é, claramente, um pequeno exemplo baseado em dados sintéticos, mas ilustra como a árvore de decisão pode usar atributos conhecidos de pessoas que desejam obter crédito para prever o risco. Na realidade, há normalmente mais atributos para cada candidato ao crédito, e os números de candidatos podem ser muito grande. Quando a escala do problema aumenta, é difícil para uma pessoa extrair manualmente as regras para identificar riscos de crédito bons e ruins. O algoritmo de classificação pode considerar vários atributos e milhões de registros para chegar a uma árvore de decisão que descreva as regras para a previsão do risco de crédito. Há muitas variações de algoritmos que constroem árvores de decisão e que usam diferentes métodos de divisão: formas de árvore, técnicas de remoção e assim por diante Cluster O algoritmo de cluster aqui abordado é baseado no algoritmo de expectativa e maximização (EM). Esse algoritmo se itera entre duas etapas. Na primeira etapa, chamada E ou expectativa, a participação no cluster de cada caso é calculada. Na segunda etapa, chamada M ou maximização, os parâmetros dos modelos são reestimados usando as participações no cluster. EM é semelhante tem as seguintes etapas principais: 1. Atribuir médias iniciais. 2. Atribuir casos para cada média usando alguma medida de distância. 3. Calcular novas médias com base nos participantes de cada cluster. 4. Atribuir novos limites com base nas novas médias. 5. Circular até obter a convergência. 15

22 EM não tem limite restrito entre os clusters. Um caso é atribuído a cada cluster com uma determinada probabilidade. Os dados em cada cluster têm uma distribuição gaussiana. A média de cada cluster é alternada, depois de cada iteração. A maioria dos algoritmos de cluster deve carregar todos os pontos de dados na memória, o que pode acarretar sérios problemas de escalonabilidade quando você estiver processando um conjunto de dados maior. O algoritmo de cluster pode utilizar uma estrutura escalonável, que armazena seletivamente importantes partes do banco de dados e resume outras partes. A idéia básica é carregar os dados nos buffers de memória em blocos, e com base no modelo de data mining atualizado, resumir os casos próximos à distribuição gaussiana, compactando-os Naive Bayes Este algorítmo constroi modelos para predizer a probabilidade de resultados específicos, utilizando dados históricos para encontrar padrões e relacionamentos e então fazer predições. Utiliza o teorema de Bayes que define a fórmula: P (h D) a probabilidade a posteriori da hipótese h, dado que o conjunto D acontece; Sendo: P (h D) = P (D h)p (h) P (D) P (D h) a probabilidade de observar o conjunto de dados D, dada a hipótese h; P (h) a probabilidade a priori da hipótese h; P (D) a probabilidade a priori sobre conjunto de dados D. Calcula explicitamente probabilidades para cada hipótese. É útil para obter uma boa estimativa de qualquer modelo preditivo. Possui uma validação cruzada que permite ao analista testar a acurácia do modelo no mesmo conjunto de dados utilizado para construir o modelo. Pode prever resultados binários ou multi classes. Exemplos: Modelo Binário: -Pergunta: O cliente pode se tornar um investiodor em ações? -Resposta: Sim, com 65% de probabilidade. Modelo de multi classes: 16

23 -Pergunta: Em qual dos cinco grupos: crescimento, estável, rejeição, defeito ou insignificante, o cliente se enquadra? -Resposta: Estável, com 55% de probabilidade Adaptive Bayes Network É um algorítmo proprietário da Oracle para dar suporte a árvores de decisão. O resultado é fornecido na forma de regras de fácil compreensão, como por exemplo: Se salário é R$ e número de dependentes é 3-4, então a possibilidade de comprar o último modelo de Van é SIM. Possui boa performance e escalabilidade, devido a possibilidade do analista informar parâmetros que definem o nível de precisão e o tempo de construção. É utilizado quando existe um volume grande de atributos, o analista precisa de regras que explicam o modelo e definir parâmetros para controlar o tempo de construção do modelo. Considera custos no caso de uma previsão incorreta, baseada em uma matriz de custos informada para modificar o modelo de previsão. 3.5 Aplicações para Data Mining Não há na prática limite ou área específica para aplicação dos conceitos até aqui apresentados, tudo depende da capacidade de modelar o problema para a aplicação de uma das estratégias listadas e da criatividade em analisar e utilizar os resultados alcançados. Dentre as que mais têm explorado o uso de data mining encontramos as áreas de marketing, vendas, finanças, manufatura, saúde e energia Marketing Database marketing é um segmento emergente que vem revolucionando a forma de encarar e fazer a divulgação dos produtos de uma empresa. Quando aliado às técnicas de data mining amplia suas potencialidades abrindo novas e diferentes formas de avaliar e alavancar a relação entre o cliente e o faturamento da empresa. O esforço de marketing geralmente é elevado, nem sempre é efetivo, mas fatalmente influi no preço final de venda. Qualquer tecnologia que seja capaz de tornar mais efetivo o resultado 17

KDD. Fases limpeza etc. Datamining OBJETIVOS PRIMÁRIOS. Conceitos o que é?

KDD. Fases limpeza etc. Datamining OBJETIVOS PRIMÁRIOS. Conceitos o que é? KDD Conceitos o que é? Fases limpeza etc Datamining OBJETIVOS PRIMÁRIOS TAREFAS PRIMÁRIAS Classificação Regressão Clusterização OBJETIVOS PRIMÁRIOS NA PRÁTICA SÃO DESCRIÇÃO E PREDIÇÃO Descrição Wizrule

Leia mais

Gestão da Informação. Gestão da Informação. AULA 3 Data Mining

Gestão da Informação. Gestão da Informação. AULA 3 Data Mining Gestão da Informação AULA 3 Data Mining Prof. Edilberto M. Silva Gestão da Informação Agenda Unidade I - DM (Data Mining) Definição Objetivos Exemplos de Uso Técnicas Tarefas Unidade II DM Prático Exemplo

Leia mais

Planejamento Estratégico de TI. Prof.: Fernando Ascani

Planejamento Estratégico de TI. Prof.: Fernando Ascani Planejamento Estratégico de TI Prof.: Fernando Ascani Data Warehouse - Conceitos Hoje em dia uma organização precisa utilizar toda informação disponível para criar e manter vantagem competitiva. Sai na

Leia mais

Curso Superior de Tecnologia em Banco de Dados Disciplina: Projeto de Banco de Dados Relacional II Prof.: Fernando Hadad Zaidan

Curso Superior de Tecnologia em Banco de Dados Disciplina: Projeto de Banco de Dados Relacional II Prof.: Fernando Hadad Zaidan Faculdade INED Curso Superior de Tecnologia em Banco de Dados Disciplina: Projeto de Banco de Dados Relacional II Prof.: Fernando Hadad Zaidan 1 Unidade 4.5 2 1 BI BUSINESS INTELLIGENCE BI CARLOS BARBIERI

Leia mais

MINERAÇÃO DE DADOS APLICADA. Pedro Henrique Bragioni Las Casas pedro.lascasas@dcc.ufmg.br

MINERAÇÃO DE DADOS APLICADA. Pedro Henrique Bragioni Las Casas pedro.lascasas@dcc.ufmg.br MINERAÇÃO DE DADOS APLICADA Pedro Henrique Bragioni Las Casas pedro.lascasas@dcc.ufmg.br Processo Weka uma Ferramenta Livre para Data Mining O que é Weka? Weka é um Software livre do tipo open source para

Leia mais

Prof. Msc. Paulo Muniz de Ávila

Prof. Msc. Paulo Muniz de Ávila Prof. Msc. Paulo Muniz de Ávila O que é Data Mining? Mineração de dados (descoberta de conhecimento em bases de dados): Extração de informação interessante (não-trivial, implícita, previamente desconhecida

Leia mais

Fases para um Projeto de Data Warehouse. Fases para um Projeto de Data Warehouse. Fases para um Projeto de Data Warehouse

Fases para um Projeto de Data Warehouse. Fases para um Projeto de Data Warehouse. Fases para um Projeto de Data Warehouse Definição escopo do projeto (departamental, empresarial) Grau de redundância dos dados(ods, data staging) Tipo de usuário alvo (executivos, unidades) Definição do ambiente (relatórios e consultas préestruturadas

Leia mais

Pós-Graduação "Lato Sensu" Especialização em Análise de Dados e Data Mining

Pós-Graduação Lato Sensu Especialização em Análise de Dados e Data Mining Pós-Graduação "Lato Sensu" Especialização em Análise de Dados e Data Mining Inscrições Abertas Início das Aulas: 24/03/2015 Dias e horários das aulas: Terça-Feira 19h00 às 22h45 Semanal Quinta-Feira 19h00

Leia mais

Administração de Sistemas de Informação Gerenciais UNIDADE IV: Fundamentos da Inteligência de Negócios: Gestão da Informação e de Banco de Dados Um banco de dados é um conjunto de arquivos relacionados

Leia mais

http://www.publicare.com.br/site/5,1,26,5480.asp

http://www.publicare.com.br/site/5,1,26,5480.asp Página 1 de 7 Terça-feira, 26 de Agosto de 2008 ok Home Direto da redação Última edição Edições anteriores Vitrine Cross-Docking Assine a Tecnologística Anuncie Cadastre-se Agenda Cursos de logística Dicionário

Leia mais

ADM041 / EPR806 Sistemas de Informação

ADM041 / EPR806 Sistemas de Informação ADM041 / EPR806 Sistemas de Informação UNIFEI Universidade Federal de Itajubá Prof. Dr. Alexandre Ferreira de Pinho 1 Sistemas de Apoio à Decisão (SAD) Tipos de SAD Orientados por modelos: Criação de diferentes

Leia mais

Mineração de Dados: Introdução e Aplicações

Mineração de Dados: Introdução e Aplicações Mineração de Dados: Introdução e Aplicações Luiz Henrique de Campos Merschmann Departamento de Computação Universidade Federal de Ouro Preto luizhenrique@iceb.ufop.br Apresentação Luiz Merschmann Engenheiro

Leia mais

BUSINESS INTELLIGENCE, O ELEMENTO CHAVE PARA O SUCESSO DAS ORGANIZAÇÕES.

BUSINESS INTELLIGENCE, O ELEMENTO CHAVE PARA O SUCESSO DAS ORGANIZAÇÕES. Encontro de Ensino, Pesquisa e Extensão, Presidente Prudente, 22 a 25 de outubro, 2012 88 BUSINESS INTELLIGENCE, O ELEMENTO CHAVE PARA O SUCESSO DAS ORGANIZAÇÕES. Andrios Robert Silva Pereira, Renato Zanutto

Leia mais

Curso de Data Mining

Curso de Data Mining Curso de Data Mining Sandra de Amo Aula 2 - Mineração de Regras de Associação - O algoritmo APRIORI Suponha que você seja gerente de um supermercado e esteja interessado em conhecer os hábitos de compra

Leia mais

3 Market Basket Analysis - MBA

3 Market Basket Analysis - MBA 2 Mineração de Dados 3 Market Basket Analysis - MBA Market basket analysis (MBA) ou, em português, análise da cesta de compras, é uma técnica de data mining que faz uso de regras de associação para identificar

Leia mais

KDD UMA VISAL GERAL DO PROCESSO

KDD UMA VISAL GERAL DO PROCESSO KDD UMA VISAL GERAL DO PROCESSO por Fernando Sarturi Prass 1 1.Introdução O aumento das transações comerciais por meio eletrônico, em especial as feitas via Internet, possibilitou as empresas armazenar

Leia mais

FACULDADE DE CIÊNCIAS SOCIAIS E TECNOLÓGICAS FACITEC CURSO:

FACULDADE DE CIÊNCIAS SOCIAIS E TECNOLÓGICAS FACITEC CURSO: FACULDADE DE CIÊNCIAS SOCIAIS E TECNOLÓGICAS FACITEC CURSO: Bacharelado em Sistemas de Informação DISCIPLINA: Fundamentos de Sistemas de Informação PROFESSOR: Paulo de Tarso Costa de Sousa TURMA: BSI 2B

Leia mais

Professor: Disciplina:

Professor: Disciplina: Professor: Curso: Esp. Marcos Morais de Sousa marcosmoraisdesousa@gmail.com Sistemas de informação Disciplina: Introdução a SI Noções de sistemas de informação Turma: 01º semestre Prof. Esp. Marcos Morais

Leia mais

Tarefas e Técnicas de Mineração de Dados TAREFAS E TÉCNICAS DE MINERAÇÃO DE DADOS

Tarefas e Técnicas de Mineração de Dados TAREFAS E TÉCNICAS DE MINERAÇÃO DE DADOS Tarefas e Técnicas de Mineração de Dados TAREFAS E TÉCNICAS DE MINERAÇÃO DE DADOS Sumário Conceitos / Autores chave... 3 1. Introdução... 3 2. Tarefas desempenhadas por Técnicas de 4 Mineração de Dados...

Leia mais

Planejamento Estratégico de TI. Prof.: Fernando Ascani

Planejamento Estratégico de TI. Prof.: Fernando Ascani Planejamento Estratégico de TI Prof.: Fernando Ascani Data Mining Os métodos tradicionais de Data Mining são: Classificação Associa ou classifica um item a uma ou várias classes categóricas pré-definidas.

Leia mais

Microsoft Innovation Center

Microsoft Innovation Center Microsoft Innovation Center Mineração de Dados (Data Mining) André Montevecchi andre@montevecchi.com.br Introdução Objetivo BI e Mineração de Dados Aplicações Exemplos e Cases Algoritmos para Mineração

Leia mais

SISTEMAS DE APOIO À DECISÃO SAD

SISTEMAS DE APOIO À DECISÃO SAD SISTEMAS DE APOIO À DECISÃO SAD Conceitos introdutórios Decisão Escolha feita entre duas ou mais alternativas. Tomada de decisão típica em organizações: Solução de problemas Exploração de oportunidades

Leia mais

FUNDAMENTOS DE SISTEMAS DE INFORMAÇÃO

FUNDAMENTOS DE SISTEMAS DE INFORMAÇÃO @ribeirord FUNDAMENTOS DE SISTEMAS DE INFORMAÇÃO Rafael D. Ribeiro, M.Sc,PMP. rafaeldiasribeiro@gmail.com http://www.rafaeldiasribeiro.com.br Lembrando... Aula 4 1 Lembrando... Aula 4 Sistemas de apoio

Leia mais

Data Mining. Origem do Data Mining 24/05/2012. Data Mining. Prof Luiz Antonio do Nascimento

Data Mining. Origem do Data Mining 24/05/2012. Data Mining. Prof Luiz Antonio do Nascimento Data Mining Prof Luiz Antonio do Nascimento Data Mining Ferramenta utilizada para análise de dados para gerar, automaticamente, uma hipótese sobre padrões e anomalias identificadas para poder prever um

Leia mais

DWARF DATAMINER: UMA FERRAMENTA GENÉRICA PARA MINERAÇÃO DE DADOS

DWARF DATAMINER: UMA FERRAMENTA GENÉRICA PARA MINERAÇÃO DE DADOS DWARF DATAMINER: UMA FERRAMENTA GENÉRICA PARA MINERAÇÃO DE DADOS Tácio Dias Palhão Mendes Bacharelando em Sistemas de Informação Bolsista de Iniciação Científica da FAPEMIG taciomendes@yahoo.com.br Prof.

Leia mais

APLICAÇÃO DE MINERAÇÃO DE DADOS PARA O LEVANTAMENTO DE PERFIS: ESTUDO DE CASO EM UMA INSTITUIÇÃO DE ENSINO SUPERIOR PRIVADA

APLICAÇÃO DE MINERAÇÃO DE DADOS PARA O LEVANTAMENTO DE PERFIS: ESTUDO DE CASO EM UMA INSTITUIÇÃO DE ENSINO SUPERIOR PRIVADA APLICAÇÃO DE MINERAÇÃO DE DADOS PARA O LEVANTAMENTO DE PERFIS: ESTUDO DE CASO EM UMA INSTITUIÇÃO DE ENSINO SUPERIOR PRIVADA Lizianne Priscila Marques SOUTO 1 1 Faculdade de Ciências Sociais e Aplicadas

Leia mais

IMPLEMENTAÇÃO DE UM ALGORITMO DE PADRÕES DE SEQUÊNCIA PARA DESCOBERTA DE ASSOCIAÇÕES ENTRE PRODUTOS DE UMA BASE DE DADOS REAL

IMPLEMENTAÇÃO DE UM ALGORITMO DE PADRÕES DE SEQUÊNCIA PARA DESCOBERTA DE ASSOCIAÇÕES ENTRE PRODUTOS DE UMA BASE DE DADOS REAL Universidade Federal de Ouro Preto - UFOP Instituto de Ciências Exatas e Biológicas - ICEB Departamento de Computação - DECOM IMPLEMENTAÇÃO DE UM ALGORITMO DE PADRÕES DE SEQUÊNCIA PARA DESCOBERTA DE ASSOCIAÇÕES

Leia mais

CAPÍTULO 7. SISTEMAS DE APOIO À DECISÃO (SAD) SISTEMAS DE SUPORTE À DECISÃO (SSD)

CAPÍTULO 7. SISTEMAS DE APOIO À DECISÃO (SAD) SISTEMAS DE SUPORTE À DECISÃO (SSD) 1 CAPÍTULO 7. SISTEMAS DE APOIO À DECISÃO (SAD) SISTEMAS DE SUPORTE À DECISÃO (SSD) A necessidade dos SAD surgiu em decorrência de diversos fatores, como, por exemplo: Competição cada vez maior entre as

Leia mais

4. Que tipos de padrões podem ser minerados. 5. Critérios de classificação de sistemas de Data Mining. 6. Tópicos importantes de estudo em Data Mining

4. Que tipos de padrões podem ser minerados. 5. Critérios de classificação de sistemas de Data Mining. 6. Tópicos importantes de estudo em Data Mining Curso de Data Mining - Aula 1 1. Como surgiu 2. O que é 3. Em que tipo de dados pode ser aplicado 4. Que tipos de padrões podem ser minerados 5. Critérios de classificação de sistemas de Data Mining 6.

Leia mais

Exemplo de Aplicação do DataMinig

Exemplo de Aplicação do DataMinig Exemplo de Aplicação do DataMinig Felipe E. Barletta Mendes 19 de fevereiro de 2008 INTRODUÇÃO AO DATA MINING A mineração de dados (Data Mining) está inserida em um processo maior denominado Descoberta

Leia mais

MATERIAL DIDÁTICO: APLICAÇÕES EMPRESARIAIS SISTEMA DE APOIO À DECISÃO (SAD)

MATERIAL DIDÁTICO: APLICAÇÕES EMPRESARIAIS SISTEMA DE APOIO À DECISÃO (SAD) AULA 07 MATERIAL DIDÁTICO: APLICAÇÕES EMPRESARIAIS SISTEMA DE APOIO À DECISÃO (SAD) JAMES A. O BRIEN MÓDULO 01 Páginas 286 à 294 1 AULA 07 SISTEMAS DE APOIO ÀS DECISÕES 2 Sistemas de Apoio à Decisão (SAD)

Leia mais

Resumo dos principais conceitos. Resumo dos principais conceitos. Business Intelligence. Business Intelligence

Resumo dos principais conceitos. Resumo dos principais conceitos. Business Intelligence. Business Intelligence É um conjunto de conceitos e metodologias que, fazem uso de acontecimentos e sistemas e apoiam a tomada de decisões. Utilização de várias fontes de informação para se definir estratégias de competividade

Leia mais

Extração de Conhecimento a partir dos Sistemas de Informação

Extração de Conhecimento a partir dos Sistemas de Informação Extração de Conhecimento a partir dos Sistemas de Informação Gisele Faffe Pellegrini & Katia Collazos Grupo de Pesquisa em Eng. Biomédica Universidade Federal de Santa Catarina Jorge Muniz Barreto Prof.

Leia mais

2 Descoberta de Conhecimento em Bases de Dados 2.1. Introdução

2 Descoberta de Conhecimento em Bases de Dados 2.1. Introdução 2 Descoberta de Conhecimento em Bases de Dados 2.1. Introdução De acordo com [FAYY96], o conceito de descoberta de conhecimento em bases de dados pode ser resumido como o processo não-trivial de identificar

Leia mais

Inteligência de Negócio. Brian Cowhig

Inteligência de Negócio. Brian Cowhig Inteligência de Negócio Brian Cowhig Inteligência de Negócio O Que é Inteligência de Negócio? Três Níveis de Inteligência de Negócio Database Query OLAP Data Mining Produtos de Inteligência de Negócio

Leia mais

Aplicação A. Aplicação B. Aplicação C. Aplicação D. Aplicação E. Aplicação F. Aplicação A REL 1 REL 2. Aplicação B REL 3.

Aplicação A. Aplicação B. Aplicação C. Aplicação D. Aplicação E. Aplicação F. Aplicação A REL 1 REL 2. Aplicação B REL 3. Sumário Data Warehouse Modelagem Multidimensional. Data Mining BI - Business Inteligence. 1 2 Introdução Aplicações do negócio: constituem as aplicações que dão suporte ao dia a dia do negócio da empresa,

Leia mais

Introdução. Capítulo 1

Introdução. Capítulo 1 Capítulo 1 Introdução Em computação, muitos problemas são resolvidos por meio da escrita de um algoritmo que especifica, passo a passo, como resolver um problema. No entanto, não é fácil escrever um programa

Leia mais

Engenharia de Software-2003

Engenharia de Software-2003 Engenharia de Software-2003 Mestrado em Ciência da Computação Departamento de Informática - UEM Profa. Dra. Elisa H. M. Huzita eng. de software-2003 Elisa Huzita Produto de Software Conceitos Software

Leia mais

Estudar os Sistemas de Processamento de Transação (SPT)

Estudar os Sistemas de Processamento de Transação (SPT) Estudar a Colaboração Empresarial. Objetivos do Capítulo Estudar os Sistemas de Processamento de Transação (SPT) Identificar o papel e alternativas de relatórios dos sistemas de informação gerencial. Estudar

Leia mais

SISTEMAS DE NEGÓCIOS B) INFORMAÇÃO GERENCIAL

SISTEMAS DE NEGÓCIOS B) INFORMAÇÃO GERENCIAL 1 SISTEMAS DE NEGÓCIOS B) INFORMAÇÃO GERENCIAL 1. SISTEMAS DE INFORMAÇÃO GERENCIAL (SIG) Conjunto integrado de pessoas, procedimentos, banco de dados e dispositivos que suprem os gerentes e os tomadores

Leia mais

Programa do Curso de Pós-Graduação Lato Sensu MBA em Business Intelligence (BI)

Programa do Curso de Pós-Graduação Lato Sensu MBA em Business Intelligence (BI) Programa do Curso de Pós-Graduação Lato Sensu MBA em Business Intelligence (BI) Apresentação O programa de Pós-graduação Lato Sensu em Business Intelligence Inteligência Competitiva tem por fornecer conhecimento

Leia mais

Fundamentos da inteligência de negócios: gestão da informação e de bancos de dados

Fundamentos da inteligência de negócios: gestão da informação e de bancos de dados Fundamentos da inteligência de negócios: gestão da informação e de bancos de dados slide 1 1 Copyright 2011 Pearson Education, Inc. publishing as Prentice Hall Objetivos de estudo Como um banco de dados

Leia mais

Sobre o que falaremos nesta aula?

Sobre o que falaremos nesta aula? Business Intelligence - BI Inteligência de Negócios Prof. Ricardo José Pfitscher Elaborado com base no material de: José Luiz Mendes Gerson Volney Lagmman Introdução Sobre o que falaremos nesta aula? Ferramentas

Leia mais

3 Metodologia de Previsão de Padrões de Falha

3 Metodologia de Previsão de Padrões de Falha 3 Metodologia de Previsão de Padrões de Falha Antes da ocorrência de uma falha em um equipamento, ele entra em um regime de operação diferente do regime nominal, como descrito em [8-11]. Para detectar

Leia mais

IC Inteligência Computacional Redes Neurais. Redes Neurais

IC Inteligência Computacional Redes Neurais. Redes Neurais Universidade Federal do Rio de Janeiro PÓS-GRADUAÇÃO / 2008-2 IC Inteligência Computacional Redes Neurais www.labic.nce.ufrj.br Antonio G. Thomé thome@nce.ufrj.br Redes Neurais São modelos computacionais

Leia mais

INTRODUÇÃO A MINERAÇÃO DE DADOS UTILIZANDO O WEKA

INTRODUÇÃO A MINERAÇÃO DE DADOS UTILIZANDO O WEKA INTRODUÇÃO A MINERAÇÃO DE DADOS UTILIZANDO O WEKA Marcelo DAMASCENO(1) (1) Instituto Federal de Educação, Ciência e Tecnologia do Rio Grande do Norte/Campus Macau, Rua das Margaridas, 300, COHAB, Macau-RN,

Leia mais

Introdução à Simulação

Introdução à Simulação Introdução à Simulação O que é simulação? Wikipedia: Simulação é a imitação de alguma coisa real ou processo. O ato de simular algo geralmente consiste em representar certas características e/ou comportamentos

Leia mais

A evolução da tecnologia da informação nos últimos 45 anos

A evolução da tecnologia da informação nos últimos 45 anos A evolução da tecnologia da informação nos últimos 45 anos Denis Alcides Rezende Do processamento de dados a TI Na década de 1960, o tema tecnológico que rondava as organizações era o processamento de

Leia mais

Universidade Tecnológica Federal do Paraná UTFPR Programa de Pós-Graduação em Computação Aplicada Disciplina de Mineração de Dados

Universidade Tecnológica Federal do Paraná UTFPR Programa de Pós-Graduação em Computação Aplicada Disciplina de Mineração de Dados Universidade Tecnológica Federal do Paraná UTFPR Programa de Pós-Graduação em Computação Aplicada Disciplina de Mineração de Dados Prof. Celso Kaestner Poker Hand Data Set Aluno: Joyce Schaidt Versão:

Leia mais

Motivação: inundação de informação. Data warehouse. Inteligência computacional aplicada em finanças, comércio e indústria

Motivação: inundação de informação. Data warehouse. Inteligência computacional aplicada em finanças, comércio e indústria Programa de Especialização em Inteligência Computacional Motivação: inundação de informação Morrendo de sede por conhecimento em um oceano de dados Inteligência computacional aplicada em finanças, comércio

Leia mais

Identificação rápida de gargalos Uma forma mais eficiente de realizar testes de carga. Um artigo técnico da Oracle Junho de 2009

Identificação rápida de gargalos Uma forma mais eficiente de realizar testes de carga. Um artigo técnico da Oracle Junho de 2009 Identificação rápida de gargalos Uma forma mais eficiente de realizar testes de carga Um artigo técnico da Oracle Junho de 2009 Identificação rápida de gargalos Uma forma mais eficiente de realizar testes

Leia mais

Introdução a Datamining (previsão e agrupamento)

Introdução a Datamining (previsão e agrupamento) E o que fazer depois de ter os dados organizados? Introdução a Datamining (previsão e agrupamento) Victor Lobo Mestrado em Estatística e Gestão de Informação Ideias base Aprender com o passado Inferir

Leia mais

Sistema. Atividades. Sistema de informações. Tipos de sistemas de informação. Everson Santos Araujo everson@everson.com.br

Sistema. Atividades. Sistema de informações. Tipos de sistemas de informação. Everson Santos Araujo everson@everson.com.br Sistema Tipos de sistemas de informação Everson Santos Araujo everson@everson.com.br Um sistema pode ser definido como um complexo de elementos em interação (Ludwig Von Bertalanffy) sistema é um conjunto

Leia mais

Unidade III PLANEJAMENTO ESTRATÉGICO DE. Prof. Daniel Arthur Gennari Junior

Unidade III PLANEJAMENTO ESTRATÉGICO DE. Prof. Daniel Arthur Gennari Junior Unidade III PLANEJAMENTO ESTRATÉGICO DE TECNOLOGIA DA INFORMAÇÃO Prof. Daniel Arthur Gennari Junior Sobre esta aula Gestão do conhecimento e inteligência Corporativa Conceitos fundamentais Aplicações do

Leia mais

DATA WAREHOUSE & DATA MINING

DATA WAREHOUSE & DATA MINING UNIVERSIDADE FEDERAL DE SANTA CATARINA UFSC Centro Tecnológico - Departamento de Informática e Estatística - INE Disciplina: EPS 5216 Sistemas de Informações Gerenciais Professora: Aline França de Abreu

Leia mais

Extração de Árvores de Decisão com a Ferramenta de Data Mining Weka

Extração de Árvores de Decisão com a Ferramenta de Data Mining Weka Extração de Árvores de Decisão com a Ferramenta de Data Mining Weka 1 Introdução A mineração de dados (data mining) pode ser definida como o processo automático de descoberta de conhecimento em bases de

Leia mais

Informativo Bimestral da Siqueira Campos Associados agosto de 2013 - ano VII - Número 21. Catálogo de Treinamentos 2013

Informativo Bimestral da Siqueira Campos Associados agosto de 2013 - ano VII - Número 21. Catálogo de Treinamentos 2013 Informativo Bimestral da Siqueira Campos Associados agosto de 2013 - ano VII - Número 21 Nesta edição Lean Office - Dez dicas para economizar tempo no trabalho Estatística Seis Sigma - Estatística não

Leia mais

SUMÁRIO 1. INTRODUÇÃO... 2 2. O QUE É DATA WAREHOUSE?... 2 3. O QUE DATA WAREHOUSE NÃO É... 4 4. IMPORTANTE SABER SOBRE DATA WAREHOUSE... 5 4.

SUMÁRIO 1. INTRODUÇÃO... 2 2. O QUE É DATA WAREHOUSE?... 2 3. O QUE DATA WAREHOUSE NÃO É... 4 4. IMPORTANTE SABER SOBRE DATA WAREHOUSE... 5 4. SUMÁRIO 1. INTRODUÇÃO... 2 2. O QUE É DATA WAREHOUSE?... 2 3. O QUE DATA WAREHOUSE NÃO É... 4 4. IMPORTANTE SABER SOBRE DATA WAREHOUSE... 5 4.1 Armazenamento... 5 4.2 Modelagem... 6 4.3 Metadado... 6 4.4

Leia mais

Introdução a Datamining (previsão e agrupamento)

Introdução a Datamining (previsão e agrupamento) Introdução a Datamining (previsão e agrupamento) Victor Lobo Mestrado em Estatística e Gestão de Informação E o que fazer depois de ter os dados organizados? Ideias base Aprender com o passado Inferir

Leia mais

Módulo 2. Definindo Soluções OLAP

Módulo 2. Definindo Soluções OLAP Módulo 2. Definindo Soluções OLAP Objetivos Ao finalizar este módulo o participante: Recordará os conceitos básicos de um sistema OLTP com seus exemplos. Compreenderá as características de um Data Warehouse

Leia mais

SISTEMAS DE INFORMAÇÃO GERENCIAL

SISTEMAS DE INFORMAÇÃO GERENCIAL SISTEMAS DE INFORMAÇÃO GERENCIAL 2015 Sabemos que as empresas atualmente utilizam uma variedade muito grande de sistemas de informação. Se você analisar qualquer empresa que conheça, constatará que existem

Leia mais

Trata-se de uma estratégia de negócio, em primeira linha, que posteriormente se consubstancia em soluções tecnológicas.

Trata-se de uma estratégia de negócio, em primeira linha, que posteriormente se consubstancia em soluções tecnológicas. CUSTOMER RELATIONSHIP MANAGEMENT Customer Relationship Management CRM ou Gestão de Relacionamento com o Cliente é uma abordagem que coloca o cliente no centro dos processos do negócio, sendo desenhado

Leia mais

2. GESTÃO DA CADEIA DE SUPRIMENTOS

2. GESTÃO DA CADEIA DE SUPRIMENTOS 1. Conceito de cadeia de suprimentos e seus autores: impactos das vendas e dos custos no lucro da cadeia. competição entre cadeias de suprimento. fluxos logísticos (informação, materiais/produtos, financeiro)

Leia mais

Capítulo 1 - A revolução dos dados, da informação e do conhecimento 1 B12 4

Capítulo 1 - A revolução dos dados, da informação e do conhecimento 1 B12 4 Sumário Capítulo 1 - A revolução dos dados, da informação e do conhecimento 1 B12 4 Capítulo 2 - Reputação corporativa e uma nova ordem empresarial 7 Inovação e virtualidade 9 Coopetição 10 Modelos plurais

Leia mais

UTILIZANDO O SOFTWARE WEKA

UTILIZANDO O SOFTWARE WEKA UTILIZANDO O SOFTWARE WEKA O que é 2 Weka: software livre para mineração de dados Desenvolvido por um grupo de pesquisadores Universidade de Waikato, Nova Zelândia Também é um pássaro típico da Nova Zelândia

Leia mais

Data Warehouse Mineração de Dados

Data Warehouse Mineração de Dados Data Warehouse Mineração de Dados Profa. Roberta Macêdo M. Gouveia robertammg@gmail.com 1 18/12/2014 Data Warehouse Data Mining Big Data A mina de ouro debaixo dos bits 2 Data Warehouse: A Memória da Empresa

Leia mais

Aula 15. Tópicos Especiais I Sistemas de Informação. Prof. Dr. Dilermando Piva Jr.

Aula 15. Tópicos Especiais I Sistemas de Informação. Prof. Dr. Dilermando Piva Jr. 15 Aula 15 Tópicos Especiais I Sistemas de Informação Prof. Dr. Dilermando Piva Jr. Site Disciplina: http://fundti.blogspot.com.br/ Conceitos básicos sobre Sistemas de Informação Conceitos sobre Sistemas

Leia mais

Edições Edge do SAP InfiniteInsight Visão geral Viabilizando insights preditivos apenas com cliques de mouse, sem códigos de computador

Edições Edge do SAP InfiniteInsight Visão geral Viabilizando insights preditivos apenas com cliques de mouse, sem códigos de computador Soluções de análise da SAP Edições Edge do SAP InfiniteInsight Visão geral Viabilizando insights preditivos apenas com cliques de mouse, sem códigos de computador Índice 3 Um caso para análise preditiva

Leia mais

Data Mining: Conceitos e Técnicas

Data Mining: Conceitos e Técnicas Data Mining: Conceitos e Técnicas DM, DW e OLAP Data Warehousing e OLAP para Data Mining O que é data warehouse? De data warehousing para data mining Data Warehousing e OLAP para Data Mining Data Warehouse:

Leia mais

Estratégias de Pesquisa

Estratégias de Pesquisa Estratégias de Pesquisa Ricardo de Almeida Falbo Metodologia de Pesquisa Departamento de Informática Universidade Federal do Espírito Santo Agenda Survey Design e Criação Estudo de Caso Pesquisa Ação Experimento

Leia mais

BUSINESS INTELLIGENCE -Inteligência nos Negócios-

BUSINESS INTELLIGENCE -Inteligência nos Negócios- UNIVERSIDADE SÃO FRANCISCO CENTRO DE CIÊNCIAS JURÍDICAS, HUMANAS E SOCIAIS BUSINESS INTELLIGENCE -Inteligência nos Negócios- Curso: Administração Hab. Sistemas de Informações Disciplina: Gestão de Tecnologia

Leia mais

17/10/2012. dados? Processo. Doutorado em Engenharia de Produção Michel J. Anzanello. Doutorado EP - 2. Doutorado EP - 3.

17/10/2012. dados? Processo. Doutorado em Engenharia de Produção Michel J. Anzanello. Doutorado EP - 2. Doutorado EP - 3. Definição de Data Mining (DM) Mineração de Dados (Data Mining) Doutorado em Engenharia de Produção Michel J. Anzanello Processo de explorar grandes quantidades de dados à procura de padrões consistentes

Leia mais

Sistemas de Apoio à Decisão (SAD) - Senado

Sistemas de Apoio à Decisão (SAD) - Senado Sistemas de Apoio à Decisão (SAD) - Senado DW OLAP BI Ilka Kawashita Material preparado :Prof. Marcio Vitorino Sumário OLAP Data Warehouse (DW/ETL) Modelagem Multidimensional Data Mining BI - Business

Leia mais

Data Warehouses. Alunos: Diego Antônio Cotta Silveira Filipe Augusto Rodrigues Nepomuceno Marcos Bastos Silva Roger Rezende Ribeiro Santos

Data Warehouses. Alunos: Diego Antônio Cotta Silveira Filipe Augusto Rodrigues Nepomuceno Marcos Bastos Silva Roger Rezende Ribeiro Santos Data Warehouses Alunos: Diego Antônio Cotta Silveira Filipe Augusto Rodrigues Nepomuceno Marcos Bastos Silva Roger Rezende Ribeiro Santos Conceitos Básicos Data Warehouse(DW) Banco de Dados voltado para

Leia mais

Aula 02: Conceitos Fundamentais

Aula 02: Conceitos Fundamentais Aula 02: Conceitos Fundamentais Profa. Ms. Rosângela da Silva Nunes 1 de 26 Roteiro 1. Por que mineração de dados 2. O que é Mineração de dados 3. Processo 4. Que tipo de dados podem ser minerados 5. Que

Leia mais

Aula 03 CLASSIFICAÇÃO DOS SISTEMAS DE INFORMAÇÃO

Aula 03 CLASSIFICAÇÃO DOS SISTEMAS DE INFORMAÇÃO Aula 03 CLASSIFICAÇÃO DOS SISTEMAS DE INFORMAÇÃO Na prática, não existe uma classificação rígida, permitindo aos autores e principalmente as empresas classificar seus sistemas de diversas maneiras. A ênfase

Leia mais

DESCOBERTA DE CONHECIMENTO EM BASES DE DADOS

DESCOBERTA DE CONHECIMENTO EM BASES DE DADOS DESCOBERTA DE CONHECIMENTO EM BASES DE DADOS Claudio Napolis Costa 1, Jonatas Vieira Coutinho 2, Lúcia Helena de Magalhães 3, Márcio Aarestrup Arbex 4 RESUMO Vários métodos de aprendizado supervisionado

Leia mais

4 Gráficos de controle

4 Gráficos de controle 4 Gráficos de controle O gráfico de controle é uma ferramenta poderosa do Controle Estatístico de Processo (CEP) para examinar a variabilidade em dados orientados no tempo. O CEP é composto por um conjunto

Leia mais

No mundo atual, globalizado e competitivo, as organizações têm buscado cada vez mais, meios de se destacar no mercado. Uma estratégia para o

No mundo atual, globalizado e competitivo, as organizações têm buscado cada vez mais, meios de se destacar no mercado. Uma estratégia para o DATABASE MARKETING No mundo atual, globalizado e competitivo, as organizações têm buscado cada vez mais, meios de se destacar no mercado. Uma estratégia para o empresário obter sucesso em seu negócio é

Leia mais

SISTEMAS DE INFORMAÇÃO GERENCIAIS

SISTEMAS DE INFORMAÇÃO GERENCIAIS SISTEMAS DE INFORMAÇÃO GERENCIAIS O PODER DA INFORMAÇÃO Tem PODER quem toma DECISÃO Toma DECISÃO correta quem tem SABEDORIA Tem SABEDORIA quem usa CONHECIMENTO Tem CONHECIMENTO quem possui INFORMAÇÃO (Sem

Leia mais

Exemplos de aplicação. Mineração de Dados 2013

Exemplos de aplicação. Mineração de Dados 2013 Exemplos de aplicação Mineração de Dados 2013 Luís Rato Universidade de Évora, 2013 Mineração de dados / Data Mining 1 Classificação: Definição Dado uma conjunto de registos (conjunto de treino training

Leia mais

Sistemas de Informação I

Sistemas de Informação I + Sistemas de Informação I Tipos de SI Ricardo de Sousa Britto rbritto@ufpi.edu.br + Introdução 2 n As organizações modernas competem entre si para satisfazer as necessidades dos seus clientes de um modo

Leia mais

TECNOLOGIA E SISTEMAS DE INFORMAÇÃO UM ESTUDO DE CASO NA EMPRESA POSTO DOURADÃO LTDA RESUMO

TECNOLOGIA E SISTEMAS DE INFORMAÇÃO UM ESTUDO DE CASO NA EMPRESA POSTO DOURADÃO LTDA RESUMO TECNOLOGIA E SISTEMAS DE INFORMAÇÃO UM ESTUDO DE CASO NA EMPRESA POSTO DOURADÃO LTDA Hewerton Luis P. Santiago 1 Matheus Rabelo Costa 2 RESUMO Com o constante avanço tecnológico que vem ocorrendo nessa

Leia mais

AULA 01-02-03 SISTEMAS DE GERENCIAMENTO DE BANCO DE DADOS

AULA 01-02-03 SISTEMAS DE GERENCIAMENTO DE BANCO DE DADOS AULA 01-02-03 SISTEMAS DE GERENCIAMENTO DE BANCO DE DADOS Curso: Sistemas de Informação (Subseqüente) Disciplina: Administração de Banco de Dados Prof. Abrahão Lopes abrahao.lopes@ifrn.edu.br História

Leia mais

Unidade III PRINCÍPIOS DE SISTEMAS DE. Prof. Luís Rodolfo

Unidade III PRINCÍPIOS DE SISTEMAS DE. Prof. Luís Rodolfo Unidade III PRINCÍPIOS DE SISTEMAS DE INFORMAÇÃO Prof. Luís Rodolfo Vantagens e desvantagens de uma rede para a organização Maior agilidade com o uso intenso de redes de computadores; Grandes interações

Leia mais

Data Warehouse - DW ADM. MARTÍN GLASS CRA/MT 4742

Data Warehouse - DW ADM. MARTÍN GLASS CRA/MT 4742 Data Warehouse - DW Data Warehouse (Armazém de Dados) é um depósito integrado de informações, disponíveis para análise e para a construção de filtros de busca; Centraliza informações localizadas em diferentes

Leia mais

Aprendizagem de Máquina

Aprendizagem de Máquina Aprendizagem de Máquina Professor: Rosalvo Ferreira de Oliveira Neto Disciplina: Inteligência Artificial Tópicos 1. Definições 2. Tipos de aprendizagem 3. Paradigmas de aprendizagem 4. Modos de aprendizagem

Leia mais

Identificar as mudanças que acontecem na forma e no uso de apoio à decisão em empreendimentos de e-business. Identificar o papel e alternativas de

Identificar as mudanças que acontecem na forma e no uso de apoio à decisão em empreendimentos de e-business. Identificar o papel e alternativas de 1 Identificar as mudanças que acontecem na forma e no uso de apoio à decisão em empreendimentos de e-business. Identificar o papel e alternativas de relatórios dos sistemas de informação gerencial. Descrever

Leia mais

UTILIZAÇÃO DE FERRAMENTAS DE BUSINESS INTELLINGENCE PARA A GESTÃO ESTRATÉGICA E VANTAGEM COMPETITIVA

UTILIZAÇÃO DE FERRAMENTAS DE BUSINESS INTELLINGENCE PARA A GESTÃO ESTRATÉGICA E VANTAGEM COMPETITIVA XXX ENCONTRO NACIONAL DE ENGENHARIA DE PRODUÇÃO Maturidade e desafios da Engenharia de Produção: competitividade das empresas, condições de trabalho, meio ambiente. São Carlos, SP, Brasil, 12 a15 de outubro

Leia mais

Marcio Cataldi 1, Carla da C. Lopes Achão 2, Bruno Goulart de Freitas Machado 1, Simone Borim da Silva 1 e Luiz Guilherme Ferreira Guilhon 1

Marcio Cataldi 1, Carla da C. Lopes Achão 2, Bruno Goulart de Freitas Machado 1, Simone Borim da Silva 1 e Luiz Guilherme Ferreira Guilhon 1 Aplicação das técnicas de Mineração de Dados como complemento às previsões estocásticas univariadas de vazão natural: estudo de caso para a bacia do rio Iguaçu Marcio Cataldi 1, Carla da C. Lopes Achão

Leia mais

UNIVERSIDADE FEDERAL DE MINAS GERAIS BACHARELADO EM SISTEMAS DE INFORMAÇÃO

UNIVERSIDADE FEDERAL DE MINAS GERAIS BACHARELADO EM SISTEMAS DE INFORMAÇÃO UNIVERSIDADE FEDERAL DE MINAS GERAIS BACHARELADO EM SISTEMAS DE INFORMAÇÃO Proposta de Formação Complementar: BUSINESS INTELLIGENCE E SUA APLICAÇÃO À GESTÃO Aluno: Yussif Tadeu de Barcelos Solange Teixeira

Leia mais

O QUE É E COMO FUNCIONA O BEHAVIOR SCORING

O QUE É E COMO FUNCIONA O BEHAVIOR SCORING O QUE É E COMO FUNCIONA O BEHAVIOR! O que é o gerenciamento do crédito através do behavior scoring?! Como construir o behavior scoring?! Como calcular a função discriminante usando o Excel?! Como implantar

Leia mais

Aprendizagem de Máquina

Aprendizagem de Máquina Introdução Aprendizagem de Máquina Alessandro L. Koerich Introdução Desde que os computadores foram inventados temos nos perguntado: Eles são capazes de aprender? Se pudéssemos programá-los para aprender

Leia mais

Inteligência de Dados

Inteligência de Dados Inteligência de Dados Apoio Master Transformando Dados em Vantagem Competitiva Leonardo Couto Sócio e Diretor Comercial leo.couto@wiseminer.com +55 21 9 7295 1422 Big Data Bang e os desafios da gestão

Leia mais

UNIVERSIDADE FEDERAL DE SANTA CATARINA GRADUAÇÃO EM SISTEMAS DE INFORMAÇÃO DEPARTAMENTO DE INFORMÁTICA E ESTATÍSTICA DATA MINING EM VÍDEOS

UNIVERSIDADE FEDERAL DE SANTA CATARINA GRADUAÇÃO EM SISTEMAS DE INFORMAÇÃO DEPARTAMENTO DE INFORMÁTICA E ESTATÍSTICA DATA MINING EM VÍDEOS UNIVERSIDADE FEDERAL DE SANTA CATARINA GRADUAÇÃO EM SISTEMAS DE INFORMAÇÃO DEPARTAMENTO DE INFORMÁTICA E ESTATÍSTICA DATA MINING EM VÍDEOS VINICIUS DA SILVEIRA SEGALIN FLORIANÓPOLIS OUTUBRO/2013 Sumário

Leia mais

Utilização de Técnicas de Mineração de Dados como Auxílio na Detecção de Cartéis em Licitações Carlos Vinícius Sarmento Silva Célia Ghedini Ralha

Utilização de Técnicas de Mineração de Dados como Auxílio na Detecção de Cartéis em Licitações Carlos Vinícius Sarmento Silva Célia Ghedini Ralha WCGE II Workshop de Computação Aplicada em Governo Eletrônico Utilização de Técnicas de Mineração de Dados como Auxílio na Detecção de Cartéis em Licitações Carlos Vinícius Sarmento Silva Célia Ghedini

Leia mais

Prof. Lucas Santiago

Prof. Lucas Santiago Classificação e Tipos de Sistemas de Informação Administração de Sistemas de Informação Prof. Lucas Santiago Classificação e Tipos de Sistemas de Informação Sistemas de Informação são classificados por

Leia mais

Sistemas Empresariais. Capítulo 3: Sistemas de Negócios. Colaboração SPT SIG

Sistemas Empresariais. Capítulo 3: Sistemas de Negócios. Colaboração SPT SIG Capítulo 3: Sistemas de Negócios Colaboração SPT SIG Objetivos do Capítulo Explicar como os SI empresariais podem apoiar as necessidades de informação de executivos, gerentes e profissionais de empresas.

Leia mais

Colaboração nas Empresas SPT SIG Aplicações Empresariais

Colaboração nas Empresas SPT SIG Aplicações Empresariais Capítulo 3: Sistemas de Apoio Gerenciais Colaboração nas Empresas SPT SIG Aplicações Empresariais Objetivos do Capítulo Explicar como os SI empresariais podem apoiar as necessidades de informação de executivos,

Leia mais