Complementação dos Dados no Contexto do Processo de ETL

Tamanho: px
Começar a partir da página:

Download "Complementação dos Dados no Contexto do Processo de ETL"

Transcrição

1 Complementação dos Dados no Contexto do Processo de ETL Lívia de Souza Ribeiro Maria Cláudia Cavalcanti Ronaldo Ribeiro Goldschmidt Mestrado em Sistemas e Computação Departamento de Engenharia de Sistemas do Instituto Militar de Engenharia liviaribeiro14@gmail.com, yoko@ime.eb.br, ronaldo_goldschmidt@yahoo.com.br Ano de Inclusão: Fev/2008 Época esperada de conclusão: Mar/2010 Etapa: Seminário em andamento Resumo: Os dados contidos em um Data Warehouse (DW) típico são provenientes de diversas fontes. É necessário que os valores contidos no DW apresentem boa qualidade para que numa futura análise dos mesmos seja apresentado resultado coerente. Entretanto, dados de algumas fontes podem não estar disponíveis em determinadas datas/períodos. Assim, é comum ocorrer ausência de valores na tabela de fatos do DW. No processo de carga deste ambiente, conhecido como ETL ( Extration, Tranformation, Load ), a etapa de Transformação tem como objetivo principal melhorar a qualidade dos dados, amenizando os problemas existentes na base. Assim sendo, esta etapa também trata dos dados ausentes no ambiente de DW. Uma das abordagens utilizadas na resolução do problema da ausência dos valores nas tabelas é a técnica de imputação de dados. Esta técnica consiste no preenchimento das ausências em uma tabela com novos valores. Entre as técnicas de imputação, a mais utilizada é a observação dos valores presentes na tabela para a geração de um novo valor. No entanto, esta técnica não leva em consideração o enriquecimento da tabela. No contexto do processo ETL os dados das dimensões podem ser utilizados para enriquecimento da tabela de fatos. A proposta deste trabalho, portanto, é o desenvolvimento de uma estratégia para tratar do problema de ausência de valores na tabela de fatos de um DW, durante o processo de ETL, considerando o enriquecimento da mesma, no sentido de obter melhores resultados de imputação. Palavras chave: Imputação de dados, Data Warehouse, proveniência de dados, processo de ETL. 55

2 1. Introdução A necessidade de ferramentas para análises dos dados de uma organização e o crescente poder de processamento dos computadores impulsionaram a geração de sistemas para armazenar dados oriundos de diversas fontes de forma consolidada, que são conhecidos como sistemas de Data Warehouse (DW). Os DW têm como principal objetivo dar suporte às ferramentas de Sistemas de Apoio a Decisões (SAD), as quais auxiliam decisões gerenciais [Kimball, 1998]. Assim, os DW visam à integração de dados de diversas fontes e possibilitam um acesso consolidado ao grande volume de dados resultante. Por abrangerem grandes volumes de dados, os DW requerem investimento volumoso de tempo e recursos. Além disso, como seus dados são a base para decisões estratégicas para uma organização, é um requisito importante que sejam dados de qualidade. Assim, se existem inconsistências, são necessárias transformações nos dados, tornando os consistentes e coerentes. Caso contrário, os dados analisados poderão levar a decisões erradas. O processo de Extração, Transformação e Carga (Extration, Transformation, Load ETL) tem como função a extração dos dados de diversas fontes, transformação dos dados conforme as regras do negócio e a carga dos mesmos dados em um DW [Kimball e Caserta, 2004]. Na etapa de extração, os dados são capturados das múltiplas fontes, sendo necessárias diferentes ferramentas, adaptadas para cada fonte. Ferramentas de extração devem ser periodicamente ativadas para capturar dados ao longo do dia a dia de um sistema fonte. Informações de origem e do momento em que um dado surge no contexto de um sistema fonte (e.g. o total de vendas da loja A na data 26/05/2009) são indicadoras da proveniência daquele dado. A proveniência em base de dados é uma abordagem que permite descrever as informações históricas dos dados [Buneman, Khanna e Tan, 2001]. Assim, tipicamente, os dados de um DW já vêm acompanhados de sua proveniência. A transformação é a etapa que trata da limpeza e integração dos dados. A limpeza de dados compreende é responsável por procurar as inconsistências e os erros que podem ocorrer durante a extração das bases de dados dos sistemas fonte ou na fusão das diversas bases no DW. Esta etapa também detecta e corrige a ausência de valores nos atributos também chamados de variáveis ou colunas oriundos das diversas fontes [Rahm e Do, 2005]. Em um esquema estrela [Kimbal, 1998] típico de DW, a tabela de fatos contém informações sobre alguma ação que as dimensões realizaram em conjunto [Wu e Barbará, 2002]. Isto é, uma combinação de identificadores de dimensão determina um valor de uma medida na tabela de fatos. No entanto, algumas combinações podem não constar nos fatos. Para exemplificar, considere a tabela de fatos de vendas, a qual envolve as dimensões produto, fabricante, tempo. Uma tupla na tabela de fatos representa a venda do produto p, do fabricante f realizada em um dia t, que corresponde a um valor q, indicando a quantidade vendida. O fato da tupla <p,f,t,q> não constar na tabela de fatos não significa que a venda daquele produto/fabricante naquele dia não tenha sido realizada. Pode ser que esta informação não tenha sido capturada por alguma falha na comunicação com o sistema fonte. Para disponibilizar dados de qualidade para o usuário do DW, este problema necessita ser tratado. Com intuito de amenizar os prejuízos que o problema da ausência de dados traz, existem diversas abordagens para a complementação destes valores [Wu e Barbará, 2002] [Farhangfar et al, 2007][Soares, 2007]. A imputação de dados é a principal técnica de complementação, a qual consiste em substituir o valor ausente com um novo dado gerado a partir da análise da base nos registros onde há ausência de valor. No entanto, entre as abordagens citadas, não foram encontradas técnicas de complementação que consideram o enriquecimento das tabelas com dados de proveniência como forma de atingir melhores resultados. No caso do DW, isso se torna possível, pois as tabelas de fatos podem ser enriquecidas a partir dos dados das tabelas dimensão. Além disso, no contexto do que se chama atualmente de DW 2.0 [Inmon, 56

3 2009], onde há uma tendência de integração maior entre os metadados e o modelo de dados, pode se enriquecer ainda mais a tabela de fatos. Este artigo descreve o desenvolvimento de uma estratégia de imputação nas tuplas da tabela de fatos em que os atributos de medida (variáveis) apresentam valores ausentes. Atributos de proveniência, encontrados nas dimensões, serão utilizados para enriquecer a tabela de fatos, possibilitando, desta forma, melhores valores de imputação. Neste trabalho, considera se que as dimensões não apresentam ausência de dados, estando, portanto, focado somente na imputação de uma medida da tabela de fatos. A seção 2 do artigo mostra uma visão geral dos conceitos básicos sobre complementação de dados e na 3 é apresentada a estratégia desenvolvida para tratar o problema da ausência com atributos de enriquecimento. Nas seções 4, 5 e 6 são relatados o estado atual do trabalho, os trabalhos relacionados e os resultados já obtidos, respectivamente. Na última seção, as referências utilizadas no estudo.. 2. Fundamentação Teórica Em qualquer levantamento de dados há possibilidade de erros de ausência de valores de diversas origens, tais como: erros em dados capturados automaticamente, ou dados negados de entrevistados em pesquisas, falhas humanas, erros de sistemas, entre outros [Wu e Barbará, 2002] [Farhangfar et al, 2007][Soares, 2007]. Algumas pesquisas desenvolvidas para o tratamento da ausência dos dados levam em consideração somente valores ausentes em um atributo contido na base, isto é, problema univariado. Já outras pesquisas são desenvolvidas para as bases que apresentam problemas não somente em um atributo, como também em vários atributos contidos na base de dados, conhecidos como ausência multivariada de dados [Castaneda et al, 2008]. Várias técnicas que tratam o problema da ausência dos dados foram desenvolvidas e aplicadas em áreas onde há a necessidade de descoberta de conhecimento contido nas bases dos sistemas. Entre as abordagens disponíveis como solução, se encontram: a eliminação dos registros ou atributos que apresentam dados ausentes, complementação de dados ou soluções híbridas. Complementação é todo tipo de abordagem usada para solucionar o problema de dados ausentes [Soares, 2007]. Uma das abordagens de complementação é a imputação de dados. O método de imputação consiste em oferecer novos valores para todos os valores ausentes de uma base, com intuito de preenchê la completamente. Para cada valor ausente numa base de dados, um novo é inserido, sendo esse valor consequência de algum algoritmo usado na imputação. Existem diversos algoritmos utilizados para imputar dados [Soares, 2007] [Farhangfar et al, 2007]. Diversos trabalhos, como [Farhangfar et al, 2007][Soares, 2007][Castaneda et al, 2008], utilizam o algoritmo k NN (k-nearest Neighbour ou, em português, k Vizinhos mais Próximos), uma abordagem de imputação baseada em instâncias [Goldschmidt e Passos, 2005]. A ideia principal do algoritmo k NN é, ao receber um registro com informação ausente, recuperar os k registros mais similares sem informação ausente e que estejam disponíveis na base de dados, a fim de completar, a partir dos dados destes registros, as lacunas de informação. A similaridade entre registros é expressa por alguma medida de distância entre registros, sendo a distância euclidiana uma opção bastante utilizada. O valor ausente a ser imputado deverá ser calculado com base nos valores presentes nos k vizinhos mais próximos encontrados. A média aritmética entre os valores presentes é um dos métodos mais empregados no cálculo do novo valor. 3. Caracterização da Contribuição Como dito anteriormente, uma vez que os DW são utilizados para a tomada de decisão, é preciso que sejam tratados os problemas de ausência na tabela de fatos. Segundo Hong et al 57

4 [2008], há duas importantes questões decorrentes da ausência de dados: o resultado da mineração de dados seria confuso e pouco confiável, e a falta do valor aumenta significativamente a incerteza dos dados no DW. Este trabalho, portanto, tem como objetivo prover um mecanismo para imputação de valores ausentes que leve em consideração a proveniência dos dados em um ambiente de DW. Neste ambiente, os dados de proveniência que estão nas dimensões do DW podem ser usados para enriquecer a tabela de fatos na busca por um maior grau de semelhança entre os dados, resultando numa imputação com melhores resultados. Para tanto, foi desenvolvida uma estratégia de imputação a ser incorporada nos processos ETL. Figura 3.1 As quatro etapas da estratégia de imputação de dados utilizando atributos de proveniência A figura 3.1 mostra a visão resumida da estratégia de imputação, a qual será incorporada na etapa de transformação dos dados do processo de ETL. A primeira etapa tem como objetivo definir quais atributos de proveniência serão utilizados para o enriquecimento da tabela de fatos. Esses atributos de proveniência, que podem ser vistos como metadados, indicam a origem dos dados e o momento em que eles foram gerados. Os usuários serão responsáveis por selecionar os atributos das dimensões que melhor representam proveniência e, desses atributos, o conjunto de combinações será definido. O conjunto será criado por uma heurística de combinação onde todas as dimensões devem ser representadas por, pelo menos, um atributo. A segunda etapa da estratégia é responsável por separar as tuplas completas, isto é, aquelas que não apresentam ausência no atributo a ser complementado, das tuplas que apresentam ausência no referido atributo. A partir das tuplas completas, a base de treino é criada, onde valores ausentes são aleatoriamente introduzidos. A etapa seguinte realiza uma série de testes com o conjunto de atributos selecionado na primeira etapa. Para cada combinação de atributos, aplica se o processo de imputação na base de treino e são armazenados os resultados para uma análise posterior que definirá qual melhor combinação a ser utilizada na base real. Neste passo, o método de imputação usado na estratégia é o k NN, por ser um método que apresenta bons resultados em trabalhos de imputação de dados [Farhangfar et al, 2007][Soares, 2007]. Ao final do processamento imputação de cada combinação de atributos, calcula se a taxa de erro dos valores imputados, observando cada tupla com valor ausente e comparando com o valor original da base, usando a métrica RAD (Relative Absolute Derivation)[Soares, 2007]. A métrica é calculada da seguinte forma: onde é o valor original na base completa do atributo X da tupla i, é valor imputado nesta tupla i e n é o total de tuplas ausentes no atributo X. A quarta etapa consiste em, a partir deste conjunto de testes e das taxas de erro obtidas, determinar qual combinação de atributos apresenta melhores resultados de imputação. Assim, a combinação que apresente a menor taxa de erro deve ser a escolhida para realizar a efetiva imputação dos dados na base real, isto é, a base inicial que apresenta o problema de ausência. O algoritmo k NN e a combinação de atributos escolhida serão aplicados na base real para a imputação dos dados ausentes. 58

5 4. Estado Atual do Trabalho O trabalho se encontra em fase de desenvolvimento da aplicação que executará a estratégia de imputação, utilizando atributos de proveniência. A aplicação está sendo desenvolvida na linguagem de programação Java, utilizando o sistema gerenciador de banco de dados MySQL. Especificações de testes iniciais já foram realizadas. Uma base de dados sintéticos para os testes também está sendo preparada. O mecanismo para simular ausência de valores está pronto para ser aplicado na estratégia. 5. Trabalhos Relacionados Há na literatura um número razoável de trabalhos que veem a importância da qualidade dos dados de um DW. No entanto, não foram encontrados muitos trabalhos sobre complementação de dados em DW. Wu e Barbará [2002] tratam do problema de ausência em DW. A abordagem consiste na utilização de dois modelos para o processo de imputação. Primeiro a regressão linear, onde são verificadas as medidas ausentes e a melhor combinação de atributos, e após é realizada a efetiva imputação, com o modelo loglinear. O trabalho trata do problema da ausência com abordagens estatísticas. Nos resultados descritos naquele artigo, a abordagem proposta obteve um melhor resultado comparando com uma abordagem estatística comum, a imputação por média. A abordagem de imputação foi adicionada ao framework chamado Quasi-Cube, utilizado para análise dos dados. Entretanto, os autores não abordam o problema no contexto do processo de ETL, mas na etapa de análise dos dados. Além disso, também não consideram o enriquecimento da tabela de fatos, aplicando a técnica de imputação com a tabela de fatos tradicional, isto é, contendo somente as chaves estrangeiras que identificam os registros das dimensões. 6. Avaliação dos Resultados A aplicação da estratégia para realizar um conjunto de experimentos para comprovar que atributos de proveniência melhoram os resultados na tarefa de imputação ainda está em desenvolvimento. Para tal tarefa, foi pesquisada uma base para realização dos testes. O TPC (Transaction Processig Performance Council) [TPCH, 2009] é uma organização que disponibiliza benchmarks de banco de dados, usados na avaliação de sistemas. Dentre os benchmarks disponíveis, existe o TPC H, o qual define uma aplicação de data warehouse e visa o armazenamento de dados históricos relativos a pedidos e vendas de uma organização. Esse benchmark foi escolhido porque sua estrutura apresenta um ambiente típico de DW. Houve, no entanto, necessidade de mudança no esquema do TPCH, para um esquema estrela típico. Uma dimensão, a qual indica o tempo, foi acrescentada ao esquema. Essas mudanças foram realizadas com o uso do PDI (Pentaho Data Integrator) [Pentaho, 2009], também conhecido como Kettle, uma ferramenta que tem como objetivo realizar o processo de ETL em sistemas de DW. A ferramenta faz parte do Pentaho, projeto o qual agrega subprojetos na comunidade de código aberto para a análise de dados. A partir da aplicação da estratégia, alguns testes iniciais serão realizados. Parâmetros desses testes já foram definidos. No primeiro momento, os testes serão realizados em bases com tamanho de 1GB e 5GB e porcentagem de ausência de 10%, 30% e 50% de tuplas na medida em que deve ser imputada. Essas porcentagens são utilizadas, pois bases reais apresentam, em geral, estas mesmas porcentagens de ausência [Soares, 2007]. O mecanismo de geração de valores ausentes na base para os testes foi realizado pelo aplicativo Eraser [Cataneda, 2008], o qual atribui, de forma aleatória, ausência em campos de um atributo. 59

6 Como, até o momento, não foram encontradas estratégias semelhantes à proposta para uma comparação, a avaliação levará em conta o diferencial obtido com a estratégia deste trabalho, se comparado à imputação sem enriquecimento. A métrica com valores ausentes na tabela de fatos será imputada de três formas (observando os parâmetros de tamanho da base e de total de ausência): (i) somente com atributos da tabela de fatos, isto é, as chaves das dimensões; (ii) somente com atributos de enriquecimento oriundos das dimensões, sem considerar os atributos da tabela de fatos; e (iii) considerar tanto atributos da tabela de fatos, quanto os atributos de enriquecimento. Com base nas taxas de erro obtidas será possível observar que (i) obtém resultados inferiores a (ii), confirmando que a tabela com enriquecida traz melhores resultados. O teste (iii) verificará se a junção dos atributos próprios da tabela de fatos e de enriquecimento resulta numa resposta melhor no processo de imputação. 7. Referências Buneman, P.; Khanna, S.; Tan, W. Why And Where: A Characterization of Data Provenance. In: Intern. Conference on Database Theory. London, V. 1973, p , Batista, G. E. A. P. A.; Monard, M. C. An Analysis of Four Missing Data Treatment Methods for Supervised Learning. Applied Artificial Intelligence, V. 17, N. 5 6, p , Inmon, B. DW 2.0 Architecture for the Next Generation of Data Warehouse. Disponível em: < management.com/issues/ / html> Acesso em: Mai/2009. Castaneda, R.; Ferlin, C.; Goldschmidt, R.; Soares, J. A.; Carvalho, L. A. V.; Choren, R. Aprimorando Processo de Imputação Multivariada de Dados com Workflows. XXIII Simpósio Brasileiro de Banco de Dados SBBD, Campinas SP, Castaneda, R. Um Ambiente de Imputação Sequencial Para Cenários Multivariados f. Dissertação (Mestrado) Instituto Militar de Engenharia, Rio De Janeiro, Farhangfar, A.; Kurgan, L.; Pedrycz, W. A Novel Framework for Imputation of Missing Values in Databases. IEEE Trans. Syst., Man, and Cybernetics, V. 37(5), p , Goldschmidt, R.; Passos, E. Data Mining: Um Guia Prático. Rio de Janeiro: Elsevier, p. Kimball, R. The Data Warehouse Toolkit. São Paulo: Makron Books, p. Kimball, R.; Caserta, J. The Data Warehouse ETL Toolkit : Practical Techniques for Extracting, Cleaning, Conforming, and Delivering Data. Indianapolis: Wiley Publishing, p. Pentaho. Pentaho Data Integration. Pentaho. Diponível em: < Acesso em: Fev/2009. Rahm, E.; Do, H. H. Data Cleaning: Problems and Current Approaches. In: IEEE Bulletin Of The Technical Committee On Data Engineering, v. 23, no. 4, Soares, J. A. Pré Processamento em Mineração de Dados: Um Estudo Comparativo em Complementação f. Tese (Doutorado) Universidade Federal Do Rio De Janeiro, Coordenação dos Programas de Pós Graduação de Engenharia, Rio De Janeiro, TPCH. TPC Benchmark H Standard Specification Revision Disponível em: < Acesso em: Fev/2009. Wu, X; Barbará, D. Modeling and Imputation of Large Incomplete Multidimensional Datasets. In: Proc. of the 4th Int. Conf. on Data Warehousing and Knowledge Discovery, p ,

SBC - Sistemas Baseados em Conhecimento

SBC - Sistemas Baseados em Conhecimento Siglas, Símbolos, Abreviaturas DW - Data Warehouse KDD Knowledge Discovery in Database MD Mineração de Dados OLAP - On-line analytical processing SBC - Sistemas Baseados em Conhecimento 1. INTRODUÇÃO O

Leia mais

Arquitetura de um Ambiente de Data Warehousing

Arquitetura de um Ambiente de Data Warehousing Arquitetura de um Ambiente de Data Warehousing Processamento Analítico de Dados Profa. Dra. Cristina Dutra de Aguiar Ciferri Prof. Dr. Ricardo Rodrigues Ciferri Arquitetura Típica usuário usuário... usuário

Leia mais

Ambiente de Data Warehouse Para Imagens Médicas Baseado Em Similaridade

Ambiente de Data Warehouse Para Imagens Médicas Baseado Em Similaridade Universidade de São Paulo - USP Instituto de Ciências Matemáticas e de Computação - ICMC Programa de Pós-Graduação em Ciências da Computação e Matemática Computacional Ambiente de Data Warehouse Para Imagens

Leia mais

Material Complementar - BI. Grinaldo Lopes de Oliveira Curso Superior de Tecnologia em Análise e Desenvolvimento de Sistemas

Material Complementar - BI. Grinaldo Lopes de Oliveira Curso Superior de Tecnologia em Análise e Desenvolvimento de Sistemas Material Complementar - BI Grinaldo Lopes de Oliveira (grinaldo@gmail.com) Curso Superior de Tecnologia em Análise e Desenvolvimento de Sistemas Business Intelligence - Conceito Coleta de dados a partir

Leia mais

GESTÃO DE DADOS NAS ORGANIZAÇÕES. Prof. Robson Almeida

GESTÃO DE DADOS NAS ORGANIZAÇÕES. Prof. Robson Almeida GESTÃO DE DADOS NAS ORGANIZAÇÕES Prof. Robson Almeida INFRA-ESTRUTURA DE SISTEMAS DE INFORMAÇÃO 3 CONCEITOS Bit: Menor unidade de dados; dígito binário (0,1) Byte: Grupo de bits que representa um único

Leia mais

Arquitetura de um Ambiente de Data Warehousing

Arquitetura de um Ambiente de Data Warehousing Arquitetura de um Ambiente de Data Warehousing Processamento Analítico de Dados Profa. Dra. Cristina Dutra de Aguiar Ciferri Prof. Dr. Ricardo Rodrigues Ciferri Arquitetura Típica usuário usuário... usuário

Leia mais

Arquitetura de um Ambiente de Data Warehousing

Arquitetura de um Ambiente de Data Warehousing Arquitetura de um Ambiente de Data Warehousing Processamento Analítico de Dados Profa. Dra. Cristina Dutra de Aguiar Ciferri Prof. Dr. Ricardo Rodrigues Ciferri OLAP: Fonte: Arquitetura Vaisman, A., Zimányi,

Leia mais

Bancos de Dados IV. Data Warehouse Conceitos. Rogério Costa

Bancos de Dados IV. Data Warehouse Conceitos. Rogério Costa Bancos de Dados IV Data Warehouse Conceitos Rogério Costa rogcosta@inf.puc-rio.br 1 Data Warehouse - O que é? Conjunto de dados orientados por assunto, integrado, variável com o tempo e nãovolátil Orientado

Leia mais

Um Estudo Sobre a Efetividade do Método de Imputação Baseado no Algoritmo k-vizinhos Mais Próximos

Um Estudo Sobre a Efetividade do Método de Imputação Baseado no Algoritmo k-vizinhos Mais Próximos Um Estudo Sobre a Efetividade do Método de Imputação Baseado no Algoritmo k-vizinhos Mais Próximos Gustavo Enrique de Almeida Prado Alves Batista Maria Carolina Monard Laboratório de Inteligência Computacional

Leia mais

Extração de Conhecimento & Mineração de Dados

Extração de Conhecimento & Mineração de Dados Extração de Conhecimento & Mineração de Dados Nesta apresentação é dada uma breve introdução à Extração de Conhecimento e Mineração de Dados José Augusto Baranauskas Departamento de Física e Matemática

Leia mais

APLICAÇÃO DE ALGORITMO DE APRENDIZAGEM DE MÁQUINA NÃO-SUPERVISIONADO PARA CLASSIFICAÇÃO DE USUÁRIOS NA REDE SOCIAL ACADÊMICA SCIENTIA.

APLICAÇÃO DE ALGORITMO DE APRENDIZAGEM DE MÁQUINA NÃO-SUPERVISIONADO PARA CLASSIFICAÇÃO DE USUÁRIOS NA REDE SOCIAL ACADÊMICA SCIENTIA. APLICAÇÃO DE ALGORITMO DE APRENDIZAGEM DE MÁQUINA NÃO-SUPERVISIONADO PARA CLASSIFICAÇÃO DE USUÁRIOS NA REDE SOCIAL ACADÊMICA SCIENTIA.NET Heloína Alves Arnaldo (bolsista do PIBIC/UFPI), Vinicius Ponte

Leia mais

Prof. Daniela Barreiro Claro

Prof. Daniela Barreiro Claro O volume de dados está crescendo sem parar Gigabytes, Petabytes, etc. Dificuldade na descoberta do conhecimento Dados disponíveis x Análise dos Dados Dados disponíveis Analisar e compreender os dados 2

Leia mais

Descoberta de Conhecimento em Bancos de Dados - KDD

Descoberta de Conhecimento em Bancos de Dados - KDD Descoberta de Conhecimento em Bancos de Dados - KDD Professor: Rosalvo Ferreira de Oliveira Neto Disciplina: Inteligência Artificial Tópicos 1. Definições 2. Fases do processo 3. Exemplo do DMC 4. Avaliação

Leia mais

Tópicos Especiais em Informática Fatec Indaiatuba

Tópicos Especiais em Informática Fatec Indaiatuba Inteligência de Negócios Fatec Indaiatuba Prof. Piva Compreender as definições e conceitos básicos do Data Warehouse (DW) Entender as arquiteturas do DW Descrever os processos utilizados no desenvolvimento

Leia mais

ANALYTICINT FERRAMENTA WEB PARA AVALIAR O PERFIL ACADÊMICO DOS CURSOS TÉCNICOS INTEGRADO DO IFC-VIDEIRA

ANALYTICINT FERRAMENTA WEB PARA AVALIAR O PERFIL ACADÊMICO DOS CURSOS TÉCNICOS INTEGRADO DO IFC-VIDEIRA ANALYTICINT FERRAMENTA WEB PARA AVALIAR O PERFIL ACADÊMICO DOS CURSOS TÉCNICOS INTEGRADO DO IFC-VIDEIRA Autores : Autor 1, Autor 2, Autor 3, Autor 4 1 Autor 2 Autor 3 Autor 4 Autor Introdução Com o objetivo

Leia mais

Joana Simon Orientador: Prof. Oscar Dalfovo, Doutor

Joana Simon Orientador: Prof. Oscar Dalfovo, Doutor Joana Simon Orientador: Prof. Oscar Dalfovo, Doutor Introdução Objetivos Fundamentação teórica Especificações da ferramenta Desenvolvimento da ferramenta Operacionalidade da ferramenta Resultados e discussões

Leia mais

Ferramenta para Geração de Modelo Dimensional para Data Warehouses

Ferramenta para Geração de Modelo Dimensional para Data Warehouses Ferramenta para Geração de Modelo Dimensional para Data Warehouses Evelin Giuliana Lima, Marina Teresa Pires Vieira Faculdade de Ciências Exatas e da Natureza Universidade Metodista de Piracicaba UNIMEP

Leia mais

Implementação de um Modelo para Previsão de Evasão Escolar no IFSULDEMINAS

Implementação de um Modelo para Previsão de Evasão Escolar no IFSULDEMINAS 6ª Jornada Científica e Tecnológica e 3º Simpósio de Pós-Graduação do IFSULDEMINAS 04 e 05 de novembro de 2014, Pouso Alegre/MG Implementação de um Modelo para Previsão de Evasão Escolar no IFSULDEMINAS

Leia mais

Data Warehousing: Conceitos Básicos e Arquitetura

Data Warehousing: Conceitos Básicos e Arquitetura Data Warehousing: Conceitos Básicos e Arquitetura Profa. Dra. Cristina Dutra de Aguiar Ciferri Prof. Dr. Ricardo Rodrigues Ciferri Visão do Mercado Crescimento explosivo do uso da tecnologia de data warehousing

Leia mais

7 Congresso de Pós-Graduação MODELAGEM DE BASE DE CONHECIMENTO PARA TAREFA DE CLASSIFICAÇÃO EM MINERAÇÃO DE DADOS

7 Congresso de Pós-Graduação MODELAGEM DE BASE DE CONHECIMENTO PARA TAREFA DE CLASSIFICAÇÃO EM MINERAÇÃO DE DADOS 7 Congresso de Pós-Graduação MODELAGEM DE BASE DE CONHECIMENTO PARA TAREFA DE CLASSIFICAÇÃO EM MINERAÇÃO DE DADOS Autor(es) LIDIA MARTINS DA SILVA Orientador(es) ANA ESTELA ANTUNES DA SILVA 1. Introdução

Leia mais

4 Processo de Transformação

4 Processo de Transformação Tecnologias Relacionadas 43 4 Processo de Transformação Com a constante mudança nos requisitos (funcionais e não funcionais) do domínio da aplicação, há uma grande necessidade de que os sistemas estejam

Leia mais

Mineração de Dados - Contextualização. Fonte: Prof. Fabrício J. Barth -

Mineração de Dados - Contextualização. Fonte: Prof. Fabrício J. Barth - Mineração de Dados - Contextualização Fonte: Prof. Fabrício J. Barth - http://fbarth.net.br/ Mineração de Dados - Contextualização Uso da informação Síntese do conhecimento; Manter, disseminar, organizar,

Leia mais

KDD E MINERAÇÃO DE DADOS

KDD E MINERAÇÃO DE DADOS KDD E MINERAÇÃO DE DADOS Etapas do Processo de KDD Livro: Data Mining Conceitos, técnicas, algoritmos, Orientações e aplicações Ronaldo Goldschmidt, Eduardo Bezerra, Emmanuel Passos KDD Knowledge Discovery

Leia mais

Roteiro. PCC142 / BCC444 - Mineração de Dados. Cenário

Roteiro. PCC142 / BCC444 - Mineração de Dados. Cenário Roteiro PCC142 / BCC444 - Mineração de Luiz Henrique de Campos Merschmann Departamento de Computação Universidade Federal de Ouro Preto luizhenrique@iceb.ufop.br www.decom.ufop.br/luiz Introdução Tarefas

Leia mais

6º Congresso de Pós-Graduação AUTOMATIZAÇÃO DO PROCESSO DE CRIAÇÃO DE VISÕES PARA MODELAGEM DE DW

6º Congresso de Pós-Graduação AUTOMATIZAÇÃO DO PROCESSO DE CRIAÇÃO DE VISÕES PARA MODELAGEM DE DW 6º Congresso de Pós-Graduação AUTOMATIZAÇÃO DO PROCESSO DE CRIAÇÃO DE VISÕES PARA MODELAGEM DE DW Autor(es) RICARDO ALEXANDRE NEVES Orientador(es) MARINA TERESA PIRES VIEIRA 1. Introdução Um data warehouse

Leia mais

Mineração de Dados. Arthur Emanuel de O. Carosia Cristina Dutra de Aguiar Ciferri

Mineração de Dados. Arthur Emanuel de O. Carosia Cristina Dutra de Aguiar Ciferri Mineração de Dados Arthur Emanuel de O. Carosia Cristina Dutra de Aguiar Ciferri 1 Motivação Aumento da capacidade de processamento e de armazenamento de dados; Baixo custo; Grande quantidade de dados

Leia mais

KDD E MINERAÇÃO DE DADOS

KDD E MINERAÇÃO DE DADOS KDD E MINERAÇÃO DE DADOS O Processo de KDD: Visão Geral Prof. Ronaldo R. Goldschmidt ronaldo@de9.ime.eb.br rribeiro@univercidade.br geocities.yahoo.com.br/ronaldo_goldschmidt CARACTERIZAÇÃO ÁREAS DE ORIGEM

Leia mais

RESUMO UMA ARQUITETURA PARA DISTRIBUIÇÃO DE COMPONENTES ECNOLÓGICOS DE SISTEMAS DE INFORMAÇÕES BASEADOS EM DATA WAREHOUSE. Denilson Sell 2001

RESUMO UMA ARQUITETURA PARA DISTRIBUIÇÃO DE COMPONENTES ECNOLÓGICOS DE SISTEMAS DE INFORMAÇÕES BASEADOS EM DATA WAREHOUSE. Denilson Sell 2001 Universidade Federal de Santa Catarina Departamento de Informática e Estatística Sistemas de Informação RESUMO UMA ARQUITETURA PARA DISTRIBUIÇÃO DE COMPONENTES ECNOLÓGICOS DE SISTEMAS DE INFORMAÇÕES BASEADOS

Leia mais

PÓS-GRADUAÇÃO LATO SENSU. Curso: Banco de Dados. Disciplina: Data Warehouse e Business Intelligence; Laboratório Professor: Fernando Zaidan

PÓS-GRADUAÇÃO LATO SENSU. Curso: Banco de Dados. Disciplina: Data Warehouse e Business Intelligence; Laboratório Professor: Fernando Zaidan PÓS-GRADUAÇÃO LATO SENSU Curso: Banco de Dados Disciplina: Data Warehouse e Business Intelligence; Laboratório Professor: Fernando Zaidan Apresentação da disciplina 2016 Apresentações e perfil da turma

Leia mais

Proposta de um Cubo de Dados para Imagens Médicas Baseado em Similaridade

Proposta de um Cubo de Dados para Imagens Médicas Baseado em Similaridade Proposta de um Cubo de Dados para Imagens Médicas Baseado em Similaridade Luana Peixoto Annibal 1 Orientador: Prof. Dr. Ricardo Rodrigues Ciferri 1 Co-orientador: Prof. Dr. Joaquim Cezar Felipe 2 Colaboradora:

Leia mais

Universidade Federal da Paraíba CCEN Departamento de Informática Disciplina: Banco de Dados. Aula 1 Introdução a Banco de Dados

Universidade Federal da Paraíba CCEN Departamento de Informática Disciplina: Banco de Dados. Aula 1 Introdução a Banco de Dados Universidade Federal da Paraíba CCEN Departamento de Informática Disciplina: Banco de Dados Aula 1 Introdução a Banco de Dados 1. Introdução Um Sistema Gerenciador de Banco de Dados (SGBD) é constituído

Leia mais

KDD E MINERAÇÃO DE DADOS

KDD E MINERAÇÃO DE DADOS KDD E MINERAÇÃO DE DADOS O Processo de KDD: Visão Geral Prof. Ronaldo R. Goldschmidt Instituto Militar de Engenharia Seção de Engenharia de Computação (SE/8) ronaldo.rgold@ime.eb.br / ronaldo.rgold@gmail.com

Leia mais

Desenvolvido pelo Software Engineering Institute-SEI em 1992 Possui representação por estágios (5 níveis)e contínua (6 níveis)

Desenvolvido pelo Software Engineering Institute-SEI em 1992 Possui representação por estágios (5 níveis)e contínua (6 níveis) CMMI / MPS.BR Modelos de Maturidade de Qualidade de Software Aplicações criteriosas de conceitos de gerenciamento de processos e de melhoria da qualidade ao desenvolvimento e manutenção de software CMMI

Leia mais

Campus Capivari Análise e Desenvolvimento de Sistemas (ADS) Prof. André Luís Belini /

Campus Capivari Análise e Desenvolvimento de Sistemas (ADS) Prof. André Luís Belini   / Campus Capivari Análise e Desenvolvimento de Sistemas (ADS) Prof. André Luís Belini E-mail: prof.andre.luis.belini@gmail.com / andre.belini@ifsp.edu.br MATÉRIA: SIG Aula N : 06 Tema: Fundamentos da inteligência

Leia mais

Aula 02. Evandro Deliberal

Aula 02. Evandro Deliberal Aula 02 Evandro Deliberal evandro@deljoe.com.br https://www.linkedin.com/in/evandrodeliberal Data Warehouse; Ambiente de Data Warehouse; Processos e ferramentas envolvidas; Arquiteturas de DW; Granularidade;

Leia mais

18º Congresso de Iniciação Científica INCORPORAÇÃO DA TAREFA DE CLASSIFICAÇÃO NA FERRAMENTA DE MINERAÇÃO DE DADOS KIRA

18º Congresso de Iniciação Científica INCORPORAÇÃO DA TAREFA DE CLASSIFICAÇÃO NA FERRAMENTA DE MINERAÇÃO DE DADOS KIRA 18º Congresso de Iniciação Científica INCORPORAÇÃO DA TAREFA DE CLASSIFICAÇÃO NA FERRAMENTA DE MINERAÇÃO DE DADOS KIRA Autor(es) MIRELA TEIXEIRA CAZZOLATO Orientador(es) MARINA TERESA PIRES VIEIRA Apoio

Leia mais

PÓS-GRADUAÇÃO LATO SENSU. Curso: Banco de Dados. Disciplina: Laboratório de Data Warehouse e Business Intelligence Professor: Fernando Zaidan

PÓS-GRADUAÇÃO LATO SENSU. Curso: Banco de Dados. Disciplina: Laboratório de Data Warehouse e Business Intelligence Professor: Fernando Zaidan PÓS-GRADUAÇÃO LATO SENSU Curso: Banco de Dados Disciplina: Laboratório de Data Warehouse e Business Intelligence Professor: Fernando Zaidan Unidade 31 2016 Crédito dos Slides: Clever Junior 2 História

Leia mais

Resolução de Conflitos em Documentos XML

Resolução de Conflitos em Documentos XML Resolução de Conflitos em Documentos XML Frantchesco Cecchin 1 Orientadora: Carmem Satie Hara PPGInf - Programa de Pós-Graduação em Informática Departamento de Informática Universidade Federal do Paraná

Leia mais

TÓPICOS AVANÇADOS EM ENGENHARIA DE SOFTWARE

TÓPICOS AVANÇADOS EM ENGENHARIA DE SOFTWARE TÓPICOS AVANÇADOS EM ENGENHARIA DE SOFTWARE Engenharia de Computação Professor: Rosalvo Ferreira de Oliveira Neto O processo de descoberta do conhecimento - KDD Roteiro Introdução Definição Etapas Desafios

Leia mais

Data Warehousing: Conceitos Básicos e Arquitetura

Data Warehousing: Conceitos Básicos e Arquitetura Data Warehousing: Conceitos Básicos e Arquitetura Profa. Dra. Cristina Dutra de Aguiar Ciferri Prof. Dr. Ricardo Rodrigues Ciferri Visão do Mercado Crescimento explosivo do uso da tecnologia de data warehousing

Leia mais

Metamodelos para Banco de Dados. Carlos Julian Menezes Araújo Prof. Dr. Robson do Nascimento Fidalgo

Metamodelos para Banco de Dados. Carlos Julian Menezes Araújo Prof. Dr. Robson do Nascimento Fidalgo Metamodelos para Banco de Dados Carlos Julian Menezes Araújo cjma@cin.ufpe.br Prof. Dr. Robson do Nascimento Fidalgo 1 Agenda Metadados MDA MOF Metamodelos CWM Pacote Relacional Referências 2 Metadados

Leia mais

EAD-0750 INTELIGÊNCIA DE NEGÓCIOS. Prof. Sérgio Luiz de Oliveira Assis

EAD-0750 INTELIGÊNCIA DE NEGÓCIOS. Prof. Sérgio Luiz de Oliveira Assis H3 EAD-0750 INTELIGÊNCIA DE NEGÓCIOS Prof. Sérgio Luiz de Oliveira Assis sergioassis@usp.br 07 Agenda 1. Visão Geral do Processo ETL 2. Características da área staging 3. A fase 1 do ETL Carga do DW 4.

Leia mais

B A N C O D E D A D O S G E O G R Á F I C O S M A R C O N I D E A R R U D A P E R E I R A

B A N C O D E D A D O S G E O G R Á F I C O S M A R C O N I D E A R R U D A P E R E I R A Mineração de Dados Espaciais B A N C O D E D A D O S G E O G R Á F I C O S M A R C O N I D E A R R U D A P E R E I R A Roteiro 2 Introdução Mineração de Dados Estado da Arte Artigo apresentado Conclusão

Leia mais

MINERAÇÃO DE DADOS EM ARQUIVOS DE LOG GERADOS POR SERVIDORES DE PÁGINAS WEB

MINERAÇÃO DE DADOS EM ARQUIVOS DE LOG GERADOS POR SERVIDORES DE PÁGINAS WEB MINERAÇÃO DE DADOS EM ARQUIVOS DE LOG GERADOS POR SERVIDORES DE PÁGINAS WEB Acadêmico: Leonardo José Correia Orientador: Prof. Ricardo Alencar Azambuja Blumenau, Julho/2004 1 Roteiro Introdução Objetivo

Leia mais

Autor(es) HARLEI MIGUEL DE ARRUDA LEITE. Orientador(es) MARINA TERESA PIRES VIEIRA. Apoio Financeiro PIBIC/CNPQ. 1. Introdução

Autor(es) HARLEI MIGUEL DE ARRUDA LEITE. Orientador(es) MARINA TERESA PIRES VIEIRA. Apoio Financeiro PIBIC/CNPQ. 1. Introdução 19 Congresso de Iniciação Científica IMPLEMENTAÇÃO DE GUIAS E ALGORITMOS PARA REGRAS DE ASSOCIAÇÃO MULTIRELACIONAL NA FERRAMENTA DE MINERAÇÃO DE DADOS KIRA Autor(es) HARLEI MIGUEL DE ARRUDA LEITE Orientador(es)

Leia mais

Sistemas da Informação. Banco de Dados I. Edson Thizon

Sistemas da Informação. Banco de Dados I. Edson Thizon Sistemas da Informação Banco de Dados I Edson Thizon (edson@esucri.com.br) 2008 Apresentação (mini-currículo) Formação Acadêmica Mestrando em Ciência da Computação (UFSC/ ) Créditos Concluídos. Bacharel

Leia mais

Data Mining: Conceitos e Técnicas

Data Mining: Conceitos e Técnicas Data Mining: Conceitos e Técnicas DM, DW e OLAP Data Warehousing e OLAP para Data Mining O que é data warehouse? De data warehousing para data mining Data Warehousing e OLAP para Data Mining Data Warehouse:

Leia mais

GERENCIAMENTO DE DADOS Exercícios

GERENCIAMENTO DE DADOS Exercícios GERENCIAMENTO DE DADOS Exercícios EXERCÍCIO 1 Marque a opção correta: 1. O conceito de administração de recursos de dados envolve o gerenciamento dos: a. Recursos de dados de uma organização e do seu pessoal.

Leia mais

Roteiro da apresentação

Roteiro da apresentação Alexandre Schlöttgen Data Warehouse Curso de Pós Graduação em Ciência da Computação Tópicos Avançados em Modelos de Banco de Dados Profs: Clésio Santos e Nina Edelweiss Junho de 2003 Roteiro da apresentação

Leia mais

Data Quality Services (DQS)

Data Quality Services (DQS) Data Quality Services (DQS) Integração de Dados e Warehousing Pedro Henrique de Queiroz Lima Roteiro Motivação Qualidade de dados O que é? Aspectos Data Quality Services Workflow Limpeza de dados Correspondência

Leia mais

132 6 Conclusão 6.1. Contribuições da Tese

132 6 Conclusão 6.1. Contribuições da Tese 132 6 Conclusão Esta tese teve como objetivo principal o estudo da aplicação de transformações para manter a rastreabilidade de um sistema de software. Esta abordagem permite a captura automática das informações

Leia mais

6.2 Análise da Viabilidade do Lançamento de um Produto 27

6.2 Análise da Viabilidade do Lançamento de um Produto 27 159 6.2 Análise da Viabilidade do Lançamento de um Produto 27 Neste caso, o MAB será aplicado em um problema com o qual, constantemente, se deparam os profissionais de marketing: estudar a viabilidade

Leia mais

Organização. 1. Introdução 2. Medidas de Similaridade. hierárquicos, de partição) 4. Critérios numéricos para definir o número de clusters

Organização. 1. Introdução 2. Medidas de Similaridade. hierárquicos, de partição) 4. Critérios numéricos para definir o número de clusters Organização. Introdução 2. Medidas de Similaridade 3. Métodos de Agrupamento (métodos hierárquicos, de partição) 4. Critérios numéricos para definir o número de clusters Métodos de Partição Cada exemplo

Leia mais

Fundamentos da Inteligência de Negócios: Gerenciamento da Informação e de Bancos de Dados by Prentice Hall

Fundamentos da Inteligência de Negócios: Gerenciamento da Informação e de Bancos de Dados by Prentice Hall Fundamentos da Inteligência de Negócios: Gerenciamento da Informação e de Bancos de Dados 5.1 2007 by Prentice Hall A Abordagem de Banco de Dados para Gerenciamento de Dados Banco de dados: conjunto de

Leia mais

5º Congresso de Pós-Graduação

5º Congresso de Pós-Graduação 5º Congresso de Pós-Graduação UMA FERRAMENTA PARA GERAÇÃO AUTOMÁTICA DE DIAGRAMA DE CLASSES A PARTIR DA ESPECIFICAÇÃO DE REQUISITOS EM LINGUAGEM NATURAL Autor(es) Orientador(es) LUIZ EDUARDO GALVÃO MARTINS

Leia mais

Um Método para Melhoria de Dados Estruturados de Imóveis

Um Método para Melhoria de Dados Estruturados de Imóveis Universidade Federal de Pernambuco Centro de Informática Graduação em Ciência da Computação Um Método para Melhoria de Dados Estruturados de Imóveis Lucas Nunes de Souza Proposta de Trabalho de Graduação

Leia mais

Avanços e Perspectivas do Projeto Integrade na UFMA

Avanços e Perspectivas do Projeto Integrade na UFMA Avanços e Perspectivas do Projeto Integrade na UFMA Francisco José da Silva e Silva Universidade Federal do Maranhão - UFMA Departamento de Informática Laboratório de Sistemas Distribuídos - LSD Agosto

Leia mais

Banco de Dados Data Mining Data Warehouse Big Data

Banco de Dados Data Mining Data Warehouse Big Data Universidade Estadual de Mato Grosso do Sul Curso de Computação, Licenciatura Banco de Dados Data Mining Data Warehouse Big Data Prof. José Gonçalves Dias Neto profneto_ti@hotmail.com Data Mining: Introdução

Leia mais

Engenharia Software. Ení Berbert Camilo Contaiffer

Engenharia Software. Ení Berbert Camilo Contaiffer Engenharia Software Ení Berbert Camilo Contaiffer Características do Software Software não é um elemento físico, é um elemento lógico; Software é desenvolvido ou projetado por engenharia, não manufaturado

Leia mais

FACULDADE CAMPO LIMPO PAULISTA (FACCAMP) COORDENADORIA DE EXTENSÃO E PESQUISA CURSO DE PÓS-GRADUAÇÃO LATO SENSU EM MINERAÇÃO E CIÊNCIA DOS DADOS

FACULDADE CAMPO LIMPO PAULISTA (FACCAMP) COORDENADORIA DE EXTENSÃO E PESQUISA CURSO DE PÓS-GRADUAÇÃO LATO SENSU EM MINERAÇÃO E CIÊNCIA DOS DADOS FACULDADE CAMPO LIMPO PAULISTA (FACCAMP) COORDENADORIA DE EXTENSÃO E PESQUISA CURSO DE PÓS-GRADUAÇÃO LATO SENSU EM MINERAÇÃO E CIÊNCIA DOS DADOS PROJETO PEDAGÓGICO CAMPO LIMPO PAULISTA 2015 1. Público

Leia mais

Procedência de Dados. Disciplina de Procedência de Dados e Data Warehousing. Profa. Dra. Cristina Dutra de Aguiar Ciferri

Procedência de Dados. Disciplina de Procedência de Dados e Data Warehousing. Profa. Dra. Cristina Dutra de Aguiar Ciferri Disciplina de e Data Warehousing Profa. Dra. Cristina Dutra de Aguiar Ciferri cdac@icmc.usp.br Tópicos n Definição n Desafios de um modelo de procedência q quais dados armazenar q como coletar os dados

Leia mais

4 Framework Proposto para Construção de Mediadores

4 Framework Proposto para Construção de Mediadores 41 4 Framework Proposto para Construção de Mediadores Neste capitulo apresentamos um framework que implementa a estratégia para enriquecimento de dados a partir de informações da Deep Web, descrita no

Leia mais

Aula 16. Tópicos Especiais II Banco de Dados. Prof. Dr. Dilermando Piva Jr.

Aula 16. Tópicos Especiais II Banco de Dados. Prof. Dr. Dilermando Piva Jr. 16 Aula 16 Tópicos Especiais II Banco de Dados Prof. Dr. Dilermando Piva Jr. Site Disciplina: http://fundti.blogspot.com.br/ Sistemas de Arquivos O computador tem facilitado bastante a vida dos seres

Leia mais

Ontologias Como Apoio Ao Mapeamento De Laudos Médicos De Endoscopia Digestiva Alta Para Bases De Dados Estruturadas

Ontologias Como Apoio Ao Mapeamento De Laudos Médicos De Endoscopia Digestiva Alta Para Bases De Dados Estruturadas Ontologias Como Apoio Ao Mapeamento De Laudos Médicos De Endoscopia Digestiva Alta Para Bases De Dados Estruturadas Luiz Henrique Dutra da Costa (PIBIC/Unioeste), Carlos Andres Ferrero, Cláudio Saddy Rodrigues

Leia mais

BANCO DE DADOS - MODELAGEM DE DADOS

BANCO DE DADOS - MODELAGEM DE DADOS Colégio Estadual João Manoel Mondrone Ensino Fundamental, Médio, Profissional e Normal Técnico em Informática BANCO DE DADOS - MODELAGEM DE DADOS Profª Ana Paula Mandelli O QUE É MODELAGEM DE DADOS? Significa

Leia mais

Data Mining. O Processo de KDD. Mauricio Reis

Data Mining. O Processo de KDD. Mauricio Reis 1 Data Mining O Processo de KDD Mauricio Reis prof_uva@mreis.info http://mreis.info/uva-2016-9-datamining 2 ROTEIRO 1. Definição 2. Aplicação KDD problema recursos resultados 3. Área de origem 4. Histórico

Leia mais

Consultas por Similaridade em Domínios de Dados Complexos

Consultas por Similaridade em Domínios de Dados Complexos Consultas por Similaridade em Domínios de Dados Complexos Guilherme Felipe Zabot Orientador: Profº Dr Caetano Traina Jr Roteiro Objetivo Introdução Dados Complexos Representação de Dados Complexos Extração

Leia mais

Figura 1: Metodologia de Reconhecimentos de Padrões desenvolvida na UFC

Figura 1: Metodologia de Reconhecimentos de Padrões desenvolvida na UFC Uma Solução para o GISSA: Análise Comparativa entre Algoritmos de Aprendizagem de Máquina Aplicados em um Dataset Relacionado ao Óbito Infantil Joyce Quintino Alves (1) ; Cristiano Lima da Silva (2); Antônio

Leia mais

MODELAGEM DE DADOS COM DATA WAREHOUSE E OLAP: UM ESTUDO DE CASO. Maycon Henrique Trindade¹; Francy Helder Silva de Almeida²; Everton Castelão Tetila³

MODELAGEM DE DADOS COM DATA WAREHOUSE E OLAP: UM ESTUDO DE CASO. Maycon Henrique Trindade¹; Francy Helder Silva de Almeida²; Everton Castelão Tetila³ MODELAGEM DE DADOS COM DATA WAREHOUSE E OLAP: UM ESTUDO DE CASO Maycon Henrique Trindade¹; Francy Helder Silva de Almeida²; Everton Castelão Tetila³ UFGD/FACET Caixa Postal 364, 79.804-970 Dourados MS,

Leia mais

XFusion: Uma Ferramenta para Fusão e Limpeza de Dados XML

XFusion: Uma Ferramenta para Fusão e Limpeza de Dados XML XFusion: Uma Ferramenta para Fusão e Limpeza de Dados XML Carlo Marcello, Cristian Stroparo, Elisângela de Assis da Silva, Carmem Satie Hara Departamento de Informática Universidade Federal do Paraná (UFPR)

Leia mais

19 Congresso de Iniciação Científica INCLUSÃO DE UM NOVO ALGORITMO DE CLASSIFICAÇÃO NA FERRAMENTA KIRA

19 Congresso de Iniciação Científica INCLUSÃO DE UM NOVO ALGORITMO DE CLASSIFICAÇÃO NA FERRAMENTA KIRA 19 Congresso de Iniciação Científica INCLUSÃO DE UM NOVO ALGORITMO DE CLASSIFICAÇÃO NA FERRAMENTA KIRA Autor(es) MIRELA TEIXEIRA CAZZOLATO Orientador(es) MARINA TERESA PIRES VIEIRA Apoio Financeiro PIBIC/CNPQ

Leia mais

Abrindo os dado públicos da Universidade Federal do Maranhão Um breve estudo

Abrindo os dado públicos da Universidade Federal do Maranhão Um breve estudo Abrindo os dado públicos da Universidade Federal do Maranhão Um breve estudo Sérgio Souza Costa 1, João Baluz André Caminha 1 1 Coordenação do Curso em Ciência e Tecnologia Universidade Federal do Maranhão

Leia mais

Governança e Big Data. Celso Poderoso

Governança e Big Data. Celso Poderoso Governança e Big Data Celso Poderoso cpoderoso@microstrategy.com Celso Poderoso Formação Acadêmica: Economista Especialista em Sistemas de Informação Mestre em Tecnologia (Grid Computing/Cloud Computing)

Leia mais

Metodologia Aplicada a Computação.

Metodologia Aplicada a Computação. Metodologia Aplicada a Computação gaudenciothais@gmail.com Pré-processamento de dados Técnicas utilizadas para melhorar a qualidade dos dados; Eliminam ou minimizam os problemas como ruídos, valores incorretos,

Leia mais

Mineração de Textos na Web

Mineração de Textos na Web Mineração de Textos na Web Luciano Antonio Digiampietri Escola de Artes Ciências e Humanidades da Universidade de São Paulo digiampietri@usp.br Resumo: Com o crescimento das informações disponíveis na

Leia mais

Identificação de Pontos Perceptualmente Importantes (PIP) em séries temporais de tópicos extraídos de dados textuais

Identificação de Pontos Perceptualmente Importantes (PIP) em séries temporais de tópicos extraídos de dados textuais Universidade de São Paulo Biblioteca Digital da Produção Intelectual - BDPI Departamento de Ciências de Computação - ICMC/SCC Comunicações em Eventos - ICMC/SCC 2015 Identificação de Pontos Perceptualmente

Leia mais

Integração de Dados e ETL

Integração de Dados e ETL Tópicos Avançados de Banco de Dados (Business Intelligence) http://www.uniriotec.br/~tanaka/sain tanaka@uniriotec.br Integração de Dados e ETL Licença Creative Commons Atribuição Uso Não Comercial Compartilhamento

Leia mais

Conceitos Básicos. Profa. Dra. Cristina Dutra de Aguiar Ciferri. Algoritmos e Estruturas de Dados II: Projeto

Conceitos Básicos. Profa. Dra. Cristina Dutra de Aguiar Ciferri. Algoritmos e Estruturas de Dados II: Projeto Conceitos Básicos Profa. Dra. Cristina Dutra de Aguiar Ciferri Data Warehousing Engloba arquiteturas, algoritmos e ferramentas que possibilitam que dados selecionados de provedores de informação autônomos,

Leia mais

Motivação. Pouco conhecimento. Muitos dados e informações. Problemas para tomada de decisão

Motivação. Pouco conhecimento. Muitos dados e informações. Problemas para tomada de decisão Motivação Problemas para tomada de decisão Muitos dados e informações Pouco conhecimento Motivação Uso amigável Sistemas computacionais que integram dados oriundos de diversas fontes Grande poder analítico

Leia mais

2 Mineração de Dados Processo de Busca de Conhecimento (KDD) 2 Mineração de Dados

2 Mineração de Dados Processo de Busca de Conhecimento (KDD) 2 Mineração de Dados 2 Mineração de Dados 2 Mineração de Dados A mineração de dados, ou data mining, é uma das principais etapas do processo de busca de conhecimento. Este conceito é utilizado para identificar técnicas avançadas

Leia mais

Requisitos de Software

Requisitos de Software Requisitos de Software Engenharia de requisitos Estabelece os serviços que o cliente requer de um sistema e as restrições sob as quais tal sistema operará e será desenvolvido. Tais serviços e restrições

Leia mais

Mineração de Grafos e Predição de Links. Antonio Pecli Ronaldo Goldschmidt

Mineração de Grafos e Predição de Links. Antonio Pecli Ronaldo Goldschmidt Mineração de Grafos e Predição de Links Antonio Pecli Ronaldo Goldschmidt CONTEXTO Crescimento de aplicações de modelos de grafos para resolução de problemas do mundo real (biologia, economia, sistemas

Leia mais

18º Congresso de Iniciação Científica TRATAMENTO DE REGRAS DA ASSOCIAÇÃO MULTIRELACIONAL NA FERRAMENTA DE MINERAÇÃO DE DADOS KIRA

18º Congresso de Iniciação Científica TRATAMENTO DE REGRAS DA ASSOCIAÇÃO MULTIRELACIONAL NA FERRAMENTA DE MINERAÇÃO DE DADOS KIRA 18º Congresso de Iniciação Científica TRATAMENTO DE REGRAS DA ASSOCIAÇÃO MULTIRELACIONAL NA FERRAMENTA DE MINERAÇÃO DE DADOS KIRA Autor(es) JONAS RAFAEL ONOFRE Orientador(es) MARINA TERESA PIRES VIEIRA

Leia mais

Victor Hugo Andrade Soares monitor João Vitor dos Santos Tristão Primeiro Trabalho Prático

Victor Hugo Andrade Soares monitor João Vitor dos Santos Tristão Primeiro Trabalho Prático Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação Departamento de Ciências de Computação Disciplina de Algoritmos e Estruturas de Dados II docente Profa. Dra. Cristina Dutra de

Leia mais

MouseCam: aplicação de controle do mouse via câmera

MouseCam: aplicação de controle do mouse via câmera MouseCam: aplicação de controle do mouse via câmera Introdução ao Processamento de Imagens COS756 PESC/COPPE/UFRJ 2013 1 Renan Garrot garrot@cos.ufrj.br 1. Introdução O processo de tracking por vídeo consiste

Leia mais

3 Extensões dos modelos matemáticos

3 Extensões dos modelos matemáticos 3 Extensões dos modelos matemáticos Os modelos matemáticos definidos por (2-1) (2-6) e (2-7) (2-13), propostos por Achuthan e Caccetta e apresentados no Capítulo 2, são reforçados neste trabalho através

Leia mais

Aprendizado de Máquina (Machine Learning)

Aprendizado de Máquina (Machine Learning) Ciência da Computação (Machine Learning) Aula 02 Representação dos dados Pré-processamento Max Pereira Tipo de Dados Os atributos usados para descrever objetos de dados podem ser de diferentes tipos: Quantitativos

Leia mais

Modelagem Multidimensional - Nível Lógico -

Modelagem Multidimensional - Nível Lógico - Modelagem Multidimensional - Nível Lógico - Processamento Analítico de Dados Profa. Dra. Cristina Dutra de Aguiar Ciferri Prof. Dr. Ricardo Rodrigues Ciferri Arquitetura de 3 Camadas esquema operações

Leia mais

RECONHECIMENTO FACIAL 2D

RECONHECIMENTO FACIAL 2D RECONHECIMENTO FACIAL 2D PARA SISTEMAS DE AUTENTICAÇÃO EM DISPOSITIVOS MÓVEIS Luciano Pamplona Sobrinho Orientador: Paulo César Rodacki Gomes ROTEIRO Introdução Objetivos Fundamentação Teórica Conceitos

Leia mais

Programação Estruturada Aula - Introdução a Linguagem de Programação

Programação Estruturada Aula - Introdução a Linguagem de Programação Programação Estruturada Aula - Introdução a Linguagem de Programação Prof. Flávio Barros flavioifma@gmail.com www.flaviobarros.com.br ORGANIZAÇÃO BÁSICA DE UM COMPUTADOR 2 ORGANIZAÇÃO BÁSICA DE UM COMPUTADOR

Leia mais

Sistemas de Informações Gerenciais Prof. Esp. André Luís Belini Bacharel em Sistemas de Informações MBA em Gestão Estratégica de Negócios

Sistemas de Informações Gerenciais Prof. Esp. André Luís Belini Bacharel em Sistemas de Informações MBA em Gestão Estratégica de Negócios Sistemas de Informações Gerenciais Prof. Esp. André Luís Belini Bacharel em Sistemas de Informações MBA em Gestão Estratégica de Negócios Capítulo 5 (pág. 136 - PLT) Fundamentos da Inteligência de Negócios:

Leia mais

Computação e Programação

Computação e Programação Computação e Programação MEMec - LEAN 1º Semestre 2010-2011 Aula Teórica 4 Instituto Superior Técnico, Dep. de Engenharia Mecânica - ACCAII Alinhamento da AT 4 Construção de programas Actividades de teste

Leia mais

Projecto e Desenvolvimento de Programas

Projecto e Desenvolvimento de Programas Projecto e Desenvolvimento de Programas Projecto de programas Metodologia de desenvolvimento Construção de algoritmos Instituto Superior Técnico, Dep. de Engenharia Mecânica - ACCAII Programa de Computador

Leia mais

Classificação de Sistemas de Informação

Classificação de Sistemas de Informação Classificação de Sistemas de Informação Adriano J. Holanda 14 e 21/3/2017 Classificação de Sistemas de Informação Classificação quanto à abrangência: Departamental: atendem às demandas exclusivas de um

Leia mais

Banco de Dados Profa. Dra. Cristina Dutra de Aguiar Ciferri. Banco de Dados Processamento e Otimização de Consultas

Banco de Dados Profa. Dra. Cristina Dutra de Aguiar Ciferri. Banco de Dados Processamento e Otimização de Consultas Processamento e Otimização de Consultas Banco de Dados Motivação Consulta pode ter sua resposta computada por uma variedade de métodos (geralmente) Usuário (programador) sugere uma estratégia para achar

Leia mais

Descoberta de Conhecimento em Bancos de Dados - KDD. NeuroTech Ltda.

Descoberta de Conhecimento em Bancos de Dados - KDD. NeuroTech Ltda. Descoberta de Conhecimento em Bancos de Dados - KDD NeuroTech Ltda. www.neurotech.com.br Descoberta de Conhecimento em Bancos de Dados (KDD) A descoberta de conhecimento em bancos de dados (Knowledge Discovery

Leia mais

Integração de Dados. Disciplina de Procedência de Dados e Data Warehousing. Profa. Dra. Cristina Dutra de Aguiar Ciferri

Integração de Dados. Disciplina de Procedência de Dados e Data Warehousing. Profa. Dra. Cristina Dutra de Aguiar Ciferri Disciplina de Procedência de Dados e Data Warehousing Profa. Dra. Cristina Dutra de Aguiar Ciferri cdac@icmc.usp.br Tópicos n Trabalho desenvolvido q ferramenta Reconciliador v.1 q ferramenta Reconciliador

Leia mais

Seleção de Atributos 1

Seleção de Atributos 1 Seleção de Atributos 1 Tópicos Por que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Seleção de atributos antes do aprendizado Benefícios Abordagens automáticas

Leia mais

BUSINESS INTELLIGENCE BI FERNANDO ESCOBAR, PMP, MSC.

BUSINESS INTELLIGENCE BI FERNANDO ESCOBAR, PMP, MSC. BUSINESS INTELLIGENCE BI FERNANDO ESCOBAR, PMP, MSC. Estrutura dos Módulos Conceitos; Componentes; ETL; Data Warehouse; Modelo Multidimensional; Mineração de Dados; Visualização e Análise Exploratória

Leia mais