USO DE TÉCNICAS DE DATA MINING PARA DETECÇÃO DE FRAUDES EM ENERGIA ELÉTRICA

Tamanho: px
Começar a partir da página:

Download "USO DE TÉCNICAS DE DATA MINING PARA DETECÇÃO DE FRAUDES EM ENERGIA ELÉTRICA"

Transcrição

1 UNIVERSIDADE FEDERAL DO ESPÍRITO SANTO CENTRO TECNOLÓGICO PROGRAMA DE PÓS-GRADUAÇÃO EM INFORMÁTICA USO DE TÉCNICAS DE DATA MINING PARA DETECÇÃO DE FRAUDES EM ENERGIA ELÉTRICA RODRIGO MENDONÇA QUEIROGA DISSERTAÇÃO DE MESTRADO EM INFORMÁTICA Vitória 2005

2 BANCA EXAMINADORA: PROF. DR. FLÁVIO MIGUEL VAREJÃO PROF. DR. BERILHES BORGES GARCIA PROF. DR. FERNANDO MARTINELLI

3 Dados Internacionais de Catalogação-na-publicação (CIP) (Biblioteca Central da Universidade Federal do Espírito Santo, ES, Brasil) Q3u Queiroga, Rodrigo Mendonça, Uso de técnicas de data mining para detecção de fraudes em energia elétrica / Rodrigo Mendonça Queiroga f. : il. Orientador: Flávio Miguel Varejão. Dissertação (mestrado) Universidade Federal do Espírito Santo,

4 Centro Tecnológico. 1. Mineração de Dados (Computação). 2. Reconhecimento de padrões. 3. Análise de séries temporais - Processamento de dados. 4. Aquisição de conhecimento (Sistemas especialistas). I. Varejão, Flávio Miguel. II. Universidade Federal do Espírito Santo. Centro Tecnológico. III. Título. CDU: 004

5 DEDICATÓRIA Dedico este trabalho a minha esposa Renata, cujo amor e dedicação integrais a mim, a Brida e a nossa casa, tornam todos os sonhos possíveis e a vontade de vencer inabalável.

6 AGRADECIMENTOS Gostaria de agradecer à ESCELSA e a UFES pela oportunidade de crescimento pessoal, intelectual e profissional, e, em especial, aos colegas de trabalho Luiz Fernando, Valéria, Rogério Candelária, Rogério Guimarães, Jacó e Alexandre, equipe que me proporcionou estrutura, apoio e dedicação durante estes anos juntos. Este trabalho não seria possível sem uma equipe de projeto tão dedicada e comprometida com resultados. Não seria correto deixar de mencionar os nomes das pessoas que estiveram e estão envolvidas com este projeto. Assim, gostaria de agradecer inicialmente à Cláudia, Patrícia, Suelen, Letícia, Gabriela, Idilio, Pedro, Luiz Felipe e Bruno, que afinal carregaram o piano na maior parte do trabalho; e, também, o apoio, ajuda e a atenção dos meus colegas mestrandos Helder, Tatiana e Rodrigo Binda, pois sempre que pudemos, trocamos informações valiosas e que contribuíram para alcançarmos nossos objetivos. Aos professores Berilhes, Thomas, Sérgio e Raul, agradeço por acreditarem no nosso esforço em aprender e fazer diferença. E, certamente, não poderia deixar de agradecer ao meu amigo e orientador Flávio, pelos devaneios e elocubrações nas caminhadas pelo calçadão que culminaram com a visão deste projeto, pelo apoio, incentivo e real orientação na construção deste trabalho.

7 SUMÁRIO LISTA DE TABELAS LISTA DE FIGURAS E ILUSTRAÇÕES RESUMO ABSTRACT INTRODUÇÃO AO PROBLEMA DE DETECÇÃO DE FRAUDES DETECÇÃO DE FRAUDES EM ENERGIA ELÉTRICA USO DE TÉCNICAS DE DATA MINING PARA DETECÇÃO DE FRAUDES OBJETIVO DO TRABALHO: USO DE TÉCNICAS DE DATA MINING PARA DETECÇÃO DE FRAUDES EM ENERGIA ELÉTRICA PRINCIPAIS CONTRIBUIÇÕES METODOLOGIA UTILIZADA ORGANIZAÇÃO DO TRABALHO... 2 DATA MINING E A DETECÇÃO DE FRAUDES O PROCESSO DA DM Seleção de dados Pré-processamento de dados Limpeza de Dados Integração dos dados Transformação dos dados Redução do Volume de Dados Aplicação de Técnicas de Identificação e Reconhecimento de Padrões: Conceitos Básicos Técnicas de Classificação Redes Neurais Indução de Árvores de Decisão (AD) e Regras de Produção Modelos Probabilísticos Bayesianos Considerações sobre as técnicas de idenficação e reconhecimento de padrões Análise de Séries Temporais Características Ferramentas de análise Técnicas de Validação Interpretação e utilização dos resultados: DETECÇÃO DE FRAUDES COM DATA MINING Fraude, Prevenção e Detecção Domínios de Fraudes e suas Características Telecomunicações Cartões de Crédito e Instituições Financeiras Intrusão em sistemas computacionais Energia Elétrica e Abastecimento de Água Considerações sobre o aprendizado Supervisionado x Não supervisionado Considerações sobre Falsos Normais O PROBLEMA DE IDENTIFICAÇÃO DE PERDAS COMERCIAIS NA DISTRIBUIÇÃO DE ENERGIA ELÉTRICA CLASSIFICAÇÃO DAS PERDAS DESCRIÇÃO DO PROBLEMA DE PERDAS COMERCIAIS COMBATE A PERDAS COMERCIAIS NA ESCELSA TIPOS DE INSPEÇÃO: PROCEDIMENTOS DE INSPEÇÃO: IDENTIFICAÇÃO DA REGIÃO COM MAIOR PERDA...

8 MOBILIZAÇÃO DE FORÇA TAREFA PARA REALIZAR INSPEÇÕES EM CAMPO REALIZAÇÃO DE INSPEÇÕES E AUTUAÇÃO DE INFRATORES DETERMINAÇÃO DA EFETIVIDADE DA OPERAÇÃO RESULTADOS ATUAIS RESUMO DOS PRINCIPAIS RESULTADOS DE MARÇO A OUTUBRO DE PROBLEMAS ENCONTRADOS NOS REGISTROS DAS BASES DE DADOS DESCRIÇÃO DOS DADOS DISPONÍVEIS Dados de Inspeção Dados de Consumo PROBLEMAS DECORRENTES... 4 PROCESSO DE DATA MINING PARA IDENTIFICAÇÃO DE PERDAS SELEÇÃO CRITÉRIOS USADOS PARA A SELEÇÃO E PROBLEMAS ENCONTRADOS PRÉ-PROCESSAMENTO E TRANSFORMAÇÃO ATRIBUTOS DERIVADOS DO CONSUMO NULOS FALSOS NORMAIS DISCRETIZAÇÃO SELEÇÃO DE CARACTERÍSTICAS PROBLEMAS ENCONTRADOS NAS BASES DE DADOS MINERAÇÃO DE DADOS CRITÉRIOS DE SELEÇÃO E AVALIAÇÃO DO DESEMPENHO DE CLASSIFICADORES TÉCNICAS UTILIZADAS INTERPRETAÇÃO E APLICAÇÃO... 5 DESCRIÇÃO DOS EXPERIMENTOS E ANÁLISE DOS RESULTADOS EXPERIMENTOS DO CICLO OBJETIVOS DESCRIÇÃO RESULTADOS OBTIDOS ANÁLISE DOS RESULTADOS DOS EXPERIMENTOS CONCLUSÕES NO CICLO EXPERIMENTOS DO CICLO OBJETIVOS DESCRIÇÃO APLICAÇÃO DE RESULTADOS DO CICLO 1 NO CICLO ANÁLISE DOS RESULTADOS DOS EXPERIMENTOS RESULTADOS ALCANÇADOS COM PERCENTAGE SPLIT EM CAMPO GRANDE RESULTADOS ALCANÇADOS COM CROSS VALIDATION EM CAMPO GRANDE RESULTADOS ALCANÇADOS NO TESTE EM PRÍNCIPE COMPARAÇÃO DOS RESULTADOS DO CROSS VALIDATION EM CAMPO GRANDE COM O TESTE EM PRÍNCIPE RESULTADOS ALCANÇADOS EXCLUINDO FALSOS NORMAIS NO TESTE EM PRÍNCIPE COMPARAÇÃO DOS RESULTADOS DO CROSS VALIDATION EM CAMPO GRANDE COM O TESTE EM PRÍNCIPE SEM FALSOS NORMAIS CONCLUSÕES DO CICLO EXPERIMENTOS DO CICLO OBJETIVOS DESCRIÇÃO ANÁLISE DOS RESULTADOS DOS EXPERIMENTOS CONCLUSÕES DO CICLO EXPERIMENTOS DO CICLO OBJETIVOS DESCRIÇÃO ANÁLISE DOS RESULTADOS DOS EXPERIMENTOS CONCLUSÕES DO CICLO EXPERIMENTOS DO CICLO 5...

9 5.5.1 OBJETIVOS DESCRIÇÃO ANÁLISE DOS RESULTADOS DOS EXPERIMENTOS CONCLUSÕES DO CICLO CONCLUSÕES E TRABALHOS FUTUROS CONCLUSÕES SOBRE OS DADOS PARA PESQUISA CONCLUSÕES SOBRE OS RESULTADOS DA PESQUISA TRABALHOS FUTUROS BIBLIOGRAFIA

10 Lista de Tabelas Tabela 3.1 Perda em MWh na Escelsa segundo a metodologia atual [MCPT, 2004]...62 Tabela 3.2 Estimativa de perdas média e média por segmento em 2003 [CCB, 2004]...63 Tabela 3.3 Distribuição percentual do índice de sucesso por tipo de inspeção e percentual de sucesso em relação ao total de UC s inspecionadas em Tabela 3.4 Distribuição percentual do índice de sucesso por tipo de inspeção e percentual de sucesso em relação ao total de UC s inspecionadas em Tabela Resultados de Inspeções a partir de denúncia, em Abril / Tabela Resultados de Inspeções em Março a Outubro / Tabela 3.7 Resultados a partir de denúncias de consumidores Tabela 5.1 Matriz de Confusão modelo Tabela 5.2 Matrizes de Confusão para a base de experimento sem dados de consumo Tabela 5.3 Matrizes de Confusão para a base de experimento com dados de consumo Tabela 5.4 Matriz de Confusão e resultados em Campo Grande usando Percentage Split Tabela 5.5 Matriz de Confusão e resultados em Campo Grande usando cross validation Tabela 5.6 Matriz de Confusão e resultados dos testes com Príncipe Tabela 5.7 Comparação de Resultados cross validation Campo Grande e Testes Príncipe Tabela 5.8 Resultados de testes em Príncipe sem falsos normais Tabela 5.9 Comparação cross validation Campo Grande e Testes Príncipe sem falsos normais Tabela 5.10 Resultados dos melhores classificadores aplicados na SE Ceasa com nulos e falsos normais Tabela 5.11 Resultados dos melhores classificadores aplicados na SE Ceasa sem nulos e falsos normais Tabela 5.12 Resultados dos experimentos com Redes Neurais sem falsos normais e nulos Tabela 5.13 Resultados dos experimentos com Redes Neurais com falso Tabela 5.14 Resultados da combinação das SE s sem falsos normais Tabela 5.15 Resultados com redes neurais e o método dos quadrados mínimos Tabela 5.16 Resultados com redes neurais e o método de média móvel Tabela 5.17 Resultados apresentados no tratamento de nulos

11 Lista de Figuras e Ilustrações Figura 2.1 Processo de DM (Extraída de Fayyad [1996]) Figura 2.2 Agrupamento para identificação de outliers Figura Regressão Linear para identificação de outliers...22 Figura Redução de dados com Uso de Árvore de Decisão Figura 2.5 Redução de dados por Amostragem Estratificada Figura 2.6 Construção de um correlograma [Pyle, Figuras 2.7 Incidentes na Internet reportados ao Computer Emergency Response Team/ Coordination Center (CERT/CC) [Dokas, 2002] Figura 3.1 Origens das perdas de energia [MCPT, 2004] Figura 3.2 Ilustração de ligações clandestinas Figura 3.3 Distribuição de perdas comerciais 2003 [CCP, 2004] Figura 3.4 Representação simplificada de um sistema de distribuição Figura 3.5 Índice de Sucesso por Tipo de Inspeção, Fonte: Superintendência Comercial da Escelsa (CGC)...74 Figura 3.6 Índice de Sucesso por Tipo de Inspeção, Fonte: CGC Figura 3.7 Custo x Benefício em 2003 por tipo de inspeção. Fonte: CGC Figura 3.8 Custo x Benefício em 2003 por tipo de inspeção (retirando-se as inspeções por UC Inativas). Fonte: CGC Figura 3.9 Custo x Benefício em 2004 por tipo de inspeção. Fonte: CGC Figura 4.1 Ciclo de DM utilizado Figura 5.1 Ciclos de DM em modelo espiral evolutivo (de baixo para cima Ciclos I, II e III) Figura 5.2 Estratégia de particionamento e reagrupamento das bases para treinamento e teste

12 Resumo Um dos maiores problemas enfrentados pelas empresas de distribuição de energia elétrica no Brasil é o roubo de energia. Esta pesquisa é apresenta o uso de Data Mining no melhoramento da seleção de consumidores suspeitos de fraude. O objetivo foi aplicar um conjunto de técnicas de mineração de dados para buscar a descoberta de conhecimento e aumentar as chances de inspeção em campo bem sucedidas na detecção do uso ilícito de energia, fraudes e instalações irregulares. Abstract One of the biggest problems faced by Power Distribution Companies in Brazil is the energy robbery. This research is shows the use of Data Mining to enhance the selection of suspicious customers of fraud. The goal was to apply a set of DATA MINING techniques to discover knowledge and enhance the chances of successful field inspections to detect illicit use of energy, frauds and irregular installations.

13 1 Introdução ao Problema de Detecção de Fraudes A grande maioria das atividades e serviços praticados para um grande público hoje corre o risco de ser de alguma maneira fraudada. Esta condição, muitas vezes imposta pelo contexto sócio-cultural e pela conjuntura econômica altamente competitiva e dinâmica, faz com que muitas das empresas e serviços públicos sejam motivo de investigações e estejam de alguma forma sujeitos a procedimentos de auditoria na busca por algum tipo de irregularidade. Esta condição se dá em áreas do serviço público, como relacionamento do público em geral com o fisco, áreas de utilidade pública como a distribuição de energia, água, serviços de telefonia, ou em áreas de serviço privado, como operadoras de cartões de crédito, distribuidoras de sinal de TV a cabo, dentre outras. O interesse desta pesquisa é a investigação da suspeita de fraude na distribuição de energia elétrica. 1.1 Detecção de Fraudes em Energia Elétrica Um dos grandes problemas enfrentados pelas empresas distribuidoras de energia elétrica são as perdas comerciais provocadas intencionalmente por consumidores ou por falhas nos medidores. Estima-se que o montante de perdas chegue a 5,5 % do faturamento destas empresas. Este problema tem sido enfrentado através da realização de inspeções técnicas no local de consumo. Contudo, não é possível inspecionar todos os consumidores atendidos pela empresa. Para se ter uma idéia, uma empresa do estado possui cerca de 900 mil consumidores e suas equipes de inspeção são capazes de realizar na ordem de 120 mil operações de inspeção por ano. Isto sem levar em consideração que pode ser necessário realizar várias inspeções em um mesmo consumidor no período de um ano. O montante de perda comercial calculada em 2003 foi de MWh, representando um valor estimado em R$ 100 milhões de reais. Aumentar o número de equipes de inspeção não é economicamente viável e não tende a promover melhorias significativas neste quadro dobrando-se as equipes, seriam feitas 240 mil inspeções por ano, o que ainda é um número pequeno perante o número de consumidores. A

14 chave para a minoração das perdas está na seleção dos consumidores que devem ser inspecionados. Atualmente, o processo de inspeção pode ser feito através de inspeções de consumidores individuais selecionados por técnicos especializados nesta tarefa ou através de varredura, na qual uma área é escolhida e uma equipe de fiscais a percorre ponto por ponto tentando identificar possíveis perdas. No ano de 2001 aproximadamente clientes foram visitados. Tipicamente, a seleção dos consumidores a serem inspecionados é baseada nos dados cadastrais do consumidor e no seu perfil de consumo. Com base na sua experiência, o técnico realiza consultas à base de dados e posteriormente seleciona manualmente alguns ou todos os resultados da consulta para identificar os consumidores que devem ser submetidos à inspeção. A operação de varredura apresenta resultados proporcionalmente inferiores aos de seleção de candidatos na base e produz efeitos colaterais indesejados que detalharemos no trabalho. O processo de identificação dos consumidores baseado no cadastro e nos dados de perfil de consumo, na prática, é artesanal, o que acaba impedindo que os técnicos tenham como avaliar detalhadamente um grande número de consumidores candidatos. Como resultado, o índice de sucesso é baixo, ficando na faixa de 5 a 10% do total de serviços de inspeção. O presente contexto sinaliza para a necessidade de se investigar alternativas que permitam selecionar melhor os candidatos a serem inspecionados. Este trabalho teve como propósito investigar a utilização de técnicas de data mining para analisar computacionalmente as bases de dados e selecionar os candidatos a serem inspecionados, e, possivelmente, melhorar os resultados, otimizar os recursos e recuperar divisas. 1.2 Uso de Técnicas de Data Mining para Detecção de Fraudes Existem hoje inúmeras iniciativas de utilização de Data Mining na detecção de fraudes. Estas iniciativas estão em todos os segmentos citados: cartões de crédito, água, telefonia, evasão fiscal, distribuição de energia, segurança de informações, dentre outros. Neste contexto, as técnicas de Data Mining têm um papel preponderante por estarem aptas a lidar com grandes

15 volumes de dados, que, sem a ajuda da inteligência computacional, seriam inviáveis se fossem investigados por pessoas, por maior que fosse a equipe disponível. Por esta razão, estamos iniciando este trabalho. Trata-se de um trabalho investigativo sobre um volume de dados considerável, e cujo manuseio seria impraticável. Daí a necessidade de técnicas de Data Mining. 1.3 Objetivo do Trabalho: Uso de Técnicas de Data Mining para Detecção de Fraudes em Energia Elétrica O objetivo deste trabalho foi a melhoria na identificação de perdas comerciais através do uso de Data Mining na investigação das características das unidades consumidoras (UC s) na busca por padrões que indiquem a possibilidade de fraude. As técnicas de Data Mining foram usadas para identificar padrões nos dados cadastrais e de consumo dos candidatos que revelem a existência de perdas. Embora esse tipo de conhecimento exista nas bases de dados (os técnicos os utilizam), ele não tem sido amplamente utilizado por conta da limitação cognitiva do ser humano em avaliar uma grande quantidade de dados. Um programa de computador que detenha esse conhecimento poderá utilizá-lo de maneira muito mais efetiva. Além disto, este programa pode identificar novos padrões que permitam identificar candidatos potenciais à inspeção. Tipicamente, estes padrões não foram observados pelos técnicos, mas uma análise baseada em técnicas de Data Mining pode revelá-los. 1.4 Principais Contribuições As principais contribuições que buscamos com esta pesquisa foram: o aprimoramento das técnicas hoje usadas na detecção de fraudes em energia elétrica e a exploração científica do Data Mining como ferramenta para descoberta de conhecimento no domínio de distribuição de energia.

16 1.5 Metodologia Utilizada A metodologia utilizada nesta pesquisa foi composta por uma análise da bibliografia pertinente ao tema, seguida de coleta de dados junto aos especialistas no domínio. Na seqüência, foram iniciados os experimentos e a análise dos resultados de maneira cíclica e evolutiva. 1.6 Organização do trabalho No próximo capítulo, foi feita uma revisão sobre Data Mining, conhecido também como knowledge discovery in databases (KDD), nome mais geral, embora menos divulgado fora do meio de TI, na qual serão apresentados os processos de KDD e sua contextualização na questão da identificação de perdas comerciais. No capítulo 3, discorreremos sobre o problema de identificação de perdas comercias detalhadamente. O capítulo 4 foi dedicado ao detalhamento do processo adotado nos nossos experimentos para a identificação de perdas. No capítulo 5, analisamos os experimentos e seus resultados. O capítulo 6 é dedicado às conclusões e apresenta os futuros trabalhos que poderão ser derivados desta iniciativa.

17 2 Data Mining e a Detecção de Fraudes Identificar novo conhecimento, a partir de grandes quantidades de informações dispersas, ainda que recuperáveis, é o grande objetivo de Data Mining (DM). Este termo é muitas vezes usado para designar uma etapa na Descoberta de Conhecimento em Bancos de Dados - Knowledge Discovery in Database (KDD). No entanto, provavelmente pelo fato de ser uma das principais etapas da Descoberta de Conhecimento, sua utilização tornou-se comum para a designação de todo o processo. Utilizaremos neste trabalho o termo Data Mining como sendo o processo de Descoberta de Conhecimento em Bancos de Dados. De modo geral, DM se refere às técnicas de se extrair conhecimento de grandes bases de informação não refinadas, através de técnicas de reconhecimento e identificação de padrões. O entendimento destas regras e padrões gera o conhecimento. Desta forma, a DM é um instrumento de grande auxílio à tomada de decisões. Exemplos clássicos são a estratégia de marketing baseada em padrões de consumo dos clientes, ou o reconhecimento de fraudes em áreas de telefonia ou de cartão de crédito, baseado em perfis de consumidores e também em seus padrões de consumo. Neste capítulo, examinaremos o processo da DM, suas características principais e aspectos mais significativos. Em seguida, abordaremos o uso de técnicas específicas de reconhecimento de padrões e, em especial, sobre séries temporais. Encerraremos o capítulo com uma seção dedicada a mineração de dados voltada para o problema da detecção de fraudes O Processo da DM DM costuma ser definido como um processo não-trivial de identificação de padrões válidos, até então desconhecidos, potencialmente úteis e de possível entendimento em grandes bases de dados [Fayyad, 1996]. Analisando esta sentença minuciosamente, podemos ter uma visão mais clara da DM. O termo processo implica na existência de várias etapas (entendimento do domínio do problema, preparação de dados, procura por padrões, avaliação do conhecimento, uso do

18 conhecimento). Além disto, estas etapas podem e devem ser repetidas em forma de iteração. Por não-trivial se indica que o DM busca por um modelo, padrões ou estruturas não facilmente identificáveis por seres humanos ou sistemas de programação convencionais. O termo válido significa que os padrões encontrados devem ser válidos para novos dados com um grau previsto de certeza. A expressão até então desconhecidos significa que para o conhecimento ter valor, é preciso que ele acrescente algo, que seja novo. A expressão: potencialmente úteis significa que importa encontrar conhecimentos com algum grau de relevância para resolver algum problema. Por fim, a expressão possível entendimento informa que os conhecimentos devem ser entendidos pelos profissionais envolvidos na tomada de decisões. O processo de DM é dividido por Fayyad [1996] nas seguintes etapas: A) Seleção de dados: o domínio e os objetivos do problema devem ser bem entendidos para que seja possível a seleção das bases de dados alvo, ou seja, as bases de dados nas quais possivelmente existem informações que podem gerar o conhecimento requerido. B) Pré-processamento dos dados: os dados selecionados na fase anterior necessitam passar por um processo de limpeza. O pré-processamento dos dados objetiva, de um modo geral, a eliminação de ruídos e de registros duplicados, a solução de problemas de campos com dados faltantes e campos com dados errados, a correção de erros de digitação, etc. Além disto, como os dados podem vir de várias tabelas distintas, com modelos distintos, é necessária uma integração dos dados, visando uma maior confiança nos valores dos mesmos. C) Transformação dos dados: os dados pré-processados precisam passar por um processo de redução, pois geralmente, nesta fase, a base ainda é muito grande para ser trabalhada com eficiência. Isto pode ser feito através de mecanismos de representação eficiente dos dados, redução da quantidade de atributos (só restando os realmente necessários), redução do conjunto de dados usado para treinamento por amostragem (sampling) ou outras técnicas. Ao final do processo de redução da base, pode ser necessária ainda uma adaptação dos dados ao algoritmo utilizado na próxima fase. D) Aplicação de técnicas de identificação e reconhecimento de padrões: A partir deste momento, pode-se pensar na execução das técnicas propriamente ditas de identificação e reconhecimento de padrões. É essencial que sejam escolhidas técnicas que mais se adeqüem

19 ao problema em questão, mesmo que este processo de escolha exija um longo processo de testes. Além disto, pode-se pensar no caso de integração de duas ou mais técnicas de forma a aumentar a confiabilidade do método. Exemplos de técnicas utilizadas neste ponto são redes neurais, regras de indução, árvores de decisão, sistemas especialistas (ou baseados em conhecimento), redes probabilísticas. E) Interpretação dos resultados: Com o término da etapa anterior, podemos analisar o resultado obtido, para identificar se ele é satisfatório ou se há necessidade de retornar a etapas anteriores para reformulá-las. F) Utilização: Neste ponto, podemos utilizar o conhecimento obtido pelo método nas tomadas de decisões gerenciais. A figura 2.1, extraída de Fayyad [1996] ilustra as etapas do processo de DM. Figura 2.1 Processo de DM (Extraída de Fayyad [1996]). O processo de preparação dos dados, no qual englobamos as etapas de seleção / extração, préprocessamento e transformação dos dados, é descrito e agrupado de maneiras distintas por vários autores. Diferentemente de Fayyad [1996] que separa as etapas de limpeza e préprocessamento da etapa de redução e transformação de dados, para Han [2001] o préprocessamento engloba a limpeza, a integração, a transformação e a redução. Neste trabalho, adotaremos as etapas propostas por Fayyad [1996].

20 Analisaremos mais detalhadamente algumas destas etapas do processo, procurando ressaltar aspectos mais relevantes para este trabalho Seleção de dados A primeira etapa da descoberta de conhecimento, segundo Fayyad [1996], chamado de seleção de dados, requer o conhecimento do domínio do problema e a seleção dos dados que servirão de base para esta descoberta. Este processo iterativo é sempre revisto ao longo de todo o descobrimento e é extremamente importante para o início dos trabalhos. A seleção adequada significa a utilização mais objetiva das informações disponíveis e a eliminação daquelas informações que, sabidamente, não irão ajudar na descoberta dos conhecimentos que são focados como objetivo do processo. Contudo, a seleção também poderá significar uma redução no alcance da DM, já que estará limitando a atuação das técnicas por limitar seu campo de atuação. Em determinados casos, isto poderá significar uma restrição precoce no processo de se descobrir novos conhecimento. Mesmo com este risco, é necessária uma seleção prévia das informações que serão analisadas, pois atualmente a quantidade e a diversidade de informações disponíveis para estes tipos de processos tornam impossível a sua total utilização de maneira efetiva. Como mencionado anteriormente, o conhecimento do domínio do problema é fundamental nesta etapa, e o envolvimento de especialistas no domínio é fortemente recomendado. Este envolvimento costuma ser um dos maiores obstáculos no desenvolvimento da DM, pois invariavelmente, os especialistas de domínio são pessoas altamente requisitadas nas organizações e o seu tempo de dedicação torna-se fator preponderante de sucesso Pré-processamento de dados Uma vez selecionadas as informações consideradas mais relevantes, é necessário extrair tais informações dos seus repositórios e tratá-las adequadamente de maneira a prepará-las para serem analisadas.

21 Os dados usados pelo DM são geralmente extraídos de bases de dados não construídas para este objetivo [Williams, 1996]. Desta forma, os dados devem ser limpos e modelados para tornar possível a execução de um eficiente processo de DM. Depois, devem ser transformados para um formato específico para o tipo de algoritmo que se pretende utilizar. Muitas experiências têm mostrado que mais de 75% do tempo gasto em um processo completo de DM vem sendo usado em pré-processamento e transformação de dados e que esta etapa tem uma significativa influência no resultado final do processo [Engels, 1998]. A qualidade da preparação dos dados pode levar o DM para mais perto ou para mais longe da solução ideal. Definimos, a seguir, as características de cada uma das tarefas desta etapa do processo Limpeza de Dados Em aplicações reais, os dados podem ser incorretos, tornando as informações inconsistentes, incompletas e com ruído. Estes erros podem ser gerados por instrumentos coletores de dados incorretos, falhas humanas nas entradas de dados, problemas de transmissão de dados, dentre outros. Por causa destes problemas, surgem campos com valores desconhecidos (missing values) ou com valores discrepantes (outliers). A) Valores desconhecidos Campos com valores desconhecidos são campos que, por alguma razão, não estão preenchidos para um determinado registro. Ignorar este problema pode gerar resultados errados ou conclusões incompletas, enquanto que substituir estes campos por valores pode introduzir inconsistências na base de dados. Desta forma, a substituição de valores desconhecidos deve ser feita de forma criteriosa para não alterar os padrões da base de dados. O método mais simples para resolver este problema é descartar os registros que apresentem um ou mais campos com valores desconhecidos. Isto é possível se a massa de dados for extremamente confiável e abundante. Mesmo neste caso, corre-se o risco de eliminar registros importantes para a mineração.

22 Um método que tenta melhorar isto é o de eliminar registros que contenham mais do que determinado percentual (20%, por exemplo) dos campos com valores desconhecidos e tratar os outros registros. Apesar de ser também muito simples, esta técnica vem sendo bastante utilizada e tem retornado resultados confiáveis. De qualquer forma, o risco de eliminação de registros importantes também existe neste método. Um outro método para atacar o problema seria ignorar estes campos com valores desconhecidos, substituindo o valor inexistente por uma constante global, como NULL ou desconhecido (unknown). A partir desta técnica surgem duas situações. Na primeira, o algoritmo de mineração pode identificar estes valores especiais (NULL ou unknown) como outros quaisquer e tratar todos os registros com estes valores especiais como se fossem de um mesmo grupo, mesmo que eles pertençam a grupos completamente distintos. Isto torna claramente inadequada a mineração de dados. Em uma segunda situação, mais promissora, o algoritmo pode estar preparado para funcionar com estes valores especiais e tratá-los de forma adequada, até mesmo adquirindo conhecimento a partir da inexistência de informações. Porém, um problema que surge é a possibilidade destes registros com campos desconhecidos serem fruto de um erro. Nesta última situação, mesmo os algoritmos preparados podem retornar conclusões erradas. Um método mais aprimorado é o de inferir valores para estes campos. Uma estratégia poderia ser o uso da média dos valores daquele atributo para substituir os valores desconhecidos. Uma outra estratégia seria usar a média dos valores de exemplos pertencentes à mesma classe do registro analisado. Outra variante destas regras seria a de se obter o valor mais provável para o valor desconhecido [Han, 2001]. Pode-se também usar regras para inferir os valores de alguns campos a partir de outros. Mesmo nesse caso é possível ocorrer inferências incorretas. B) Valores discrepantes Valores discrepantes (outliers) podem ser descritos como informações que diferem em um grau tão elevado das informações normais que despertam suspeitas a respeito de sua correção. Um exemplo seria um campo que, geralmente, contém valores no intervalo de 0 a 10, apresentar o valor para um registro em especial.

KDD UMA VISAL GERAL DO PROCESSO

KDD UMA VISAL GERAL DO PROCESSO KDD UMA VISAL GERAL DO PROCESSO por Fernando Sarturi Prass 1 1.Introdução O aumento das transações comerciais por meio eletrônico, em especial as feitas via Internet, possibilitou as empresas armazenar

Leia mais

Prof. Msc. Paulo Muniz de Ávila

Prof. Msc. Paulo Muniz de Ávila Prof. Msc. Paulo Muniz de Ávila O que é Data Mining? Mineração de dados (descoberta de conhecimento em bases de dados): Extração de informação interessante (não-trivial, implícita, previamente desconhecida

Leia mais

KDD. Fases limpeza etc. Datamining OBJETIVOS PRIMÁRIOS. Conceitos o que é?

KDD. Fases limpeza etc. Datamining OBJETIVOS PRIMÁRIOS. Conceitos o que é? KDD Conceitos o que é? Fases limpeza etc Datamining OBJETIVOS PRIMÁRIOS TAREFAS PRIMÁRIAS Classificação Regressão Clusterização OBJETIVOS PRIMÁRIOS NA PRÁTICA SÃO DESCRIÇÃO E PREDIÇÃO Descrição Wizrule

Leia mais

Introdução. Capítulo 1

Introdução. Capítulo 1 Capítulo 1 Introdução Em computação, muitos problemas são resolvidos por meio da escrita de um algoritmo que especifica, passo a passo, como resolver um problema. No entanto, não é fácil escrever um programa

Leia mais

A Preparação dos Dados

A Preparação dos Dados A Preparação dos Dados Escolhas Básicas Objetos, casos, instâncias Objetos do mundo real: carros, arvores, etc Ponto de vista da mineração: um objeto é descrito por uma coleção de características sobre

Leia mais

APLICAÇÃO DE MINERAÇÃO DE DADOS PARA O LEVANTAMENTO DE PERFIS: ESTUDO DE CASO EM UMA INSTITUIÇÃO DE ENSINO SUPERIOR PRIVADA

APLICAÇÃO DE MINERAÇÃO DE DADOS PARA O LEVANTAMENTO DE PERFIS: ESTUDO DE CASO EM UMA INSTITUIÇÃO DE ENSINO SUPERIOR PRIVADA APLICAÇÃO DE MINERAÇÃO DE DADOS PARA O LEVANTAMENTO DE PERFIS: ESTUDO DE CASO EM UMA INSTITUIÇÃO DE ENSINO SUPERIOR PRIVADA Lizianne Priscila Marques SOUTO 1 1 Faculdade de Ciências Sociais e Aplicadas

Leia mais

Complemento II Noções Introdutória em Redes Neurais

Complemento II Noções Introdutória em Redes Neurais Complemento II Noções Introdutória em Redes Neurais Esse documento é parte integrante do material fornecido pela WEB para a 2ª edição do livro Data Mining: Conceitos, técnicas, algoritmos, orientações

Leia mais

3 Metodologia de Previsão de Padrões de Falha

3 Metodologia de Previsão de Padrões de Falha 3 Metodologia de Previsão de Padrões de Falha Antes da ocorrência de uma falha em um equipamento, ele entra em um regime de operação diferente do regime nominal, como descrito em [8-11]. Para detectar

Leia mais

MLP (Multi Layer Perceptron)

MLP (Multi Layer Perceptron) MLP (Multi Layer Perceptron) André Tavares da Silva andre.silva@udesc.br Roteiro Rede neural com mais de uma camada Codificação de entradas e saídas Decorar x generalizar Perceptron Multi-Camada (MLP -

Leia mais

Projeto de Redes Neurais e MATLAB

Projeto de Redes Neurais e MATLAB Projeto de Redes Neurais e MATLAB Centro de Informática Universidade Federal de Pernambuco Sistemas Inteligentes IF684 Arley Ristar arrr2@cin.ufpe.br Thiago Miotto tma@cin.ufpe.br Baseado na apresentação

Leia mais

Tarefas e Técnicas de Mineração de Dados TAREFAS E TÉCNICAS DE MINERAÇÃO DE DADOS

Tarefas e Técnicas de Mineração de Dados TAREFAS E TÉCNICAS DE MINERAÇÃO DE DADOS Tarefas e Técnicas de Mineração de Dados TAREFAS E TÉCNICAS DE MINERAÇÃO DE DADOS Sumário Conceitos / Autores chave... 3 1. Introdução... 3 2. Tarefas desempenhadas por Técnicas de 4 Mineração de Dados...

Leia mais

Data Mining: Conceitos e Técnicas

Data Mining: Conceitos e Técnicas Data Mining: Conceitos e Técnicas DM, DW e OLAP Data Warehousing e OLAP para Data Mining O que é data warehouse? De data warehousing para data mining Data Warehousing e OLAP para Data Mining Data Warehouse:

Leia mais

Microsoft Innovation Center

Microsoft Innovation Center Microsoft Innovation Center Mineração de Dados (Data Mining) André Montevecchi andre@montevecchi.com.br Introdução Objetivo BI e Mineração de Dados Aplicações Exemplos e Cases Algoritmos para Mineração

Leia mais

Aprendizagem de Máquina

Aprendizagem de Máquina Aprendizagem de Máquina Professor: Rosalvo Ferreira de Oliveira Neto Disciplina: Inteligência Artificial Tópicos 1. Definições 2. Tipos de aprendizagem 3. Paradigmas de aprendizagem 4. Modos de aprendizagem

Leia mais

Introdução a Datamining (previsão e agrupamento)

Introdução a Datamining (previsão e agrupamento) Introdução a Datamining (previsão e agrupamento) Victor Lobo Mestrado em Estatística e Gestão de Informação E o que fazer depois de ter os dados organizados? Ideias base Aprender com o passado Inferir

Leia mais

IC Inteligência Computacional Redes Neurais. Redes Neurais

IC Inteligência Computacional Redes Neurais. Redes Neurais Universidade Federal do Rio de Janeiro PÓS-GRADUAÇÃO / 2008-2 IC Inteligência Computacional Redes Neurais www.labic.nce.ufrj.br Antonio G. Thomé thome@nce.ufrj.br Redes Neurais São modelos computacionais

Leia mais

SISTEMAS DE APRENDIZADO PARA A IDENTIFICAÇÃO DO NÚMERO DE CAROÇOS DO FRUTO PEQUI LEARNING SYSTEMS FOR IDENTIFICATION OF PEQUI FRUIT SEEDS NUMBER

SISTEMAS DE APRENDIZADO PARA A IDENTIFICAÇÃO DO NÚMERO DE CAROÇOS DO FRUTO PEQUI LEARNING SYSTEMS FOR IDENTIFICATION OF PEQUI FRUIT SEEDS NUMBER SISTEMAS DE APRENDIZADO PARA A IDENTIFICAÇÃO DO NÚMERO DE CAROÇOS DO FRUTO PEQUI Fernando Luiz de Oliveira 1 Thereza Patrícia. P. Padilha 1 Conceição A. Previero 2 Leandro Maciel Almeida 1 RESUMO O processo

Leia mais

MINERAÇÃO DE DADOS APLICADA. Pedro Henrique Bragioni Las Casas pedro.lascasas@dcc.ufmg.br

MINERAÇÃO DE DADOS APLICADA. Pedro Henrique Bragioni Las Casas pedro.lascasas@dcc.ufmg.br MINERAÇÃO DE DADOS APLICADA Pedro Henrique Bragioni Las Casas pedro.lascasas@dcc.ufmg.br Processo Weka uma Ferramenta Livre para Data Mining O que é Weka? Weka é um Software livre do tipo open source para

Leia mais

Introdução a Datamining (previsão e agrupamento)

Introdução a Datamining (previsão e agrupamento) E o que fazer depois de ter os dados organizados? Introdução a Datamining (previsão e agrupamento) Victor Lobo Mestrado em Estatística e Gestão de Informação Ideias base Aprender com o passado Inferir

Leia mais

Extração de Conhecimento & Mineração de Dados

Extração de Conhecimento & Mineração de Dados Extração de Conhecimento & Mineração de Dados Nesta apresentação é dada uma breve introdução à Extração de Conhecimento e Mineração de Dados José Augusto Baranauskas Departamento de Física e Matemática

Leia mais

Inferência Estatística. Amostragem Estatística. Características das Amostragens Estatísticas. Tipos de Amostragens Estatísticas

Inferência Estatística. Amostragem Estatística. Características das Amostragens Estatísticas. Tipos de Amostragens Estatísticas Fenômenos Estatísticos Classificam-se em: Fenômenos Coletivos ou de Massa - Não podem ser definidos por uma simples observação (natalidade, mortalidade, preço médio de veículos usados em Curitiba, etc.).

Leia mais

AVALIAÇÃO COMPARATIVA DE ALGORITMOS PARA SISTEMAS DE RECOMENDAÇÃO EM MÚLTIPLOS DOMÍNIOS: MODELOS INTERPRETÁVEIS APLICADOS A DADOS EDUCACIONAIS

AVALIAÇÃO COMPARATIVA DE ALGORITMOS PARA SISTEMAS DE RECOMENDAÇÃO EM MÚLTIPLOS DOMÍNIOS: MODELOS INTERPRETÁVEIS APLICADOS A DADOS EDUCACIONAIS AVALIAÇÃO COMPARATIVA DE ALGORITMOS PARA SISTEMAS DE RECOMENDAÇÃO EM MÚLTIPLOS DOMÍNIOS: MODELOS INTERPRETÁVEIS APLICADOS A DADOS EDUCACIONAIS Hugo Marques Casarini Faculdade de Engenharia de Computação

Leia mais

Curso Superior de Tecnologia em Banco de Dados Disciplina: Projeto de Banco de Dados Relacional II Prof.: Fernando Hadad Zaidan

Curso Superior de Tecnologia em Banco de Dados Disciplina: Projeto de Banco de Dados Relacional II Prof.: Fernando Hadad Zaidan Faculdade INED Curso Superior de Tecnologia em Banco de Dados Disciplina: Projeto de Banco de Dados Relacional II Prof.: Fernando Hadad Zaidan 1 Unidade 4.5 2 1 BI BUSINESS INTELLIGENCE BI CARLOS BARBIERI

Leia mais

O Processo de KDD. Data Mining SUMÁRIO - AULA1. O processo de KDD. Interpretação e Avaliação. Seleção e Pré-processamento. Consolidação de dados

O Processo de KDD. Data Mining SUMÁRIO - AULA1. O processo de KDD. Interpretação e Avaliação. Seleção e Pré-processamento. Consolidação de dados SUMÁRIO - AULA1 O Processo de KDD O processo de KDD Interpretação e Avaliação Consolidação de dados Seleção e Pré-processamento Warehouse Data Mining Dados Preparados p(x)=0.02 Padrões & Modelos Conhecimento

Leia mais

Marcio Cataldi 1, Carla da C. Lopes Achão 2, Bruno Goulart de Freitas Machado 1, Simone Borim da Silva 1 e Luiz Guilherme Ferreira Guilhon 1

Marcio Cataldi 1, Carla da C. Lopes Achão 2, Bruno Goulart de Freitas Machado 1, Simone Borim da Silva 1 e Luiz Guilherme Ferreira Guilhon 1 Aplicação das técnicas de Mineração de Dados como complemento às previsões estocásticas univariadas de vazão natural: estudo de caso para a bacia do rio Iguaçu Marcio Cataldi 1, Carla da C. Lopes Achão

Leia mais

Planejamento Estratégico de TI. Prof.: Fernando Ascani

Planejamento Estratégico de TI. Prof.: Fernando Ascani Planejamento Estratégico de TI Prof.: Fernando Ascani Data Warehouse - Conceitos Hoje em dia uma organização precisa utilizar toda informação disponível para criar e manter vantagem competitiva. Sai na

Leia mais

Técnicas de Mineração de Dados Aplicadas a Reservatórios visando à Gestão Ambiental na Geração de Energia

Técnicas de Mineração de Dados Aplicadas a Reservatórios visando à Gestão Ambiental na Geração de Energia Técnicas de Mineração de Dados Aplicadas a Reservatórios visando à Gestão Ambiental na Geração de Energia Aluno: Gabriel Leite Mariante Orientador: Marley Maria Bernardes Rebuzzi Vellasco Introdução e

Leia mais

Fases para um Projeto de Data Warehouse. Fases para um Projeto de Data Warehouse. Fases para um Projeto de Data Warehouse

Fases para um Projeto de Data Warehouse. Fases para um Projeto de Data Warehouse. Fases para um Projeto de Data Warehouse Definição escopo do projeto (departamental, empresarial) Grau de redundância dos dados(ods, data staging) Tipo de usuário alvo (executivos, unidades) Definição do ambiente (relatórios e consultas préestruturadas

Leia mais

BUSINESS INTELLIGENCE, O ELEMENTO CHAVE PARA O SUCESSO DAS ORGANIZAÇÕES.

BUSINESS INTELLIGENCE, O ELEMENTO CHAVE PARA O SUCESSO DAS ORGANIZAÇÕES. Encontro de Ensino, Pesquisa e Extensão, Presidente Prudente, 22 a 25 de outubro, 2012 88 BUSINESS INTELLIGENCE, O ELEMENTO CHAVE PARA O SUCESSO DAS ORGANIZAÇÕES. Andrios Robert Silva Pereira, Renato Zanutto

Leia mais

Aprendizagem de Máquina

Aprendizagem de Máquina Introdução Aprendizagem de Máquina Alessandro L. Koerich Introdução Desde que os computadores foram inventados temos nos perguntado: Eles são capazes de aprender? Se pudéssemos programá-los para aprender

Leia mais

FACULDADE DE TECNOLOGIA DE SÃO PAULO LUCIANA MENDES. Data Mining Estudo de Técnicas e Aplicações na Área Bancária

FACULDADE DE TECNOLOGIA DE SÃO PAULO LUCIANA MENDES. Data Mining Estudo de Técnicas e Aplicações na Área Bancária FACULDADE DE TECNOLOGIA DE SÃO PAULO LUCIANA MENDES Data Mining Estudo de Técnicas e Aplicações na Área Bancária São Paulo 2011 FACULDADE DE TECNOLOGIA DE SÃO PAULO LUCIANA MENDES Data Mining Estudo de

Leia mais

2.1.2 Definição Matemática de Imagem

2.1.2 Definição Matemática de Imagem Capítulo 2 Fundamentação Teórica Este capítulo descreve os fundamentos e as etapas do processamento digital de imagens. 2.1 Fundamentos para Processamento Digital de Imagens Esta seção apresenta as propriedades

Leia mais

Avaliando o que foi Aprendido

Avaliando o que foi Aprendido Avaliando o que foi Aprendido Treinamento, teste, validação Predição da performance: Limites de confiança Holdout, cross-validation, bootstrap Comparando algoritmos: o teste-t Predecindo probabilidades:função

Leia mais

Exemplo de Aplicação do DataMinig

Exemplo de Aplicação do DataMinig Exemplo de Aplicação do DataMinig Felipe E. Barletta Mendes 19 de fevereiro de 2008 INTRODUÇÃO AO DATA MINING A mineração de dados (Data Mining) está inserida em um processo maior denominado Descoberta

Leia mais

Mineração de Dados: Introdução e Aplicações

Mineração de Dados: Introdução e Aplicações Mineração de Dados: Introdução e Aplicações Luiz Henrique de Campos Merschmann Departamento de Computação Universidade Federal de Ouro Preto luizhenrique@iceb.ufop.br Apresentação Luiz Merschmann Engenheiro

Leia mais

Pesquisa Operacional

Pesquisa Operacional GOVERNO DO ESTADO DO PARÁ UNIVERSIDADE DO ESTADO DO PARÁ CENTRO DE CIÊNCIAS NATURAIS E TECNOLOGIA DEPARTAMENTO DE ENGENHARIA Pesquisa Operacional Tópico 4 Simulação Rosana Cavalcante de Oliveira, Msc rosanacavalcante@gmail.com

Leia mais

UNISINOS - UNIVERSIDADE DO VALE DO RIO DOS SINOS

UNISINOS - UNIVERSIDADE DO VALE DO RIO DOS SINOS UNISINOS - UNIVERSIDADE DO VALE DO RIO DOS SINOS Curso: Informática Disciplina: Redes Neurais Prof. Fernando Osório E-mail: osorio@exatas.unisinos.br EXEMPLO DE QUESTÕES DE PROVAS ANTIGAS 1. Supondo que

Leia mais

Classificação: Definição. Classificação: conceitos básicos e árvores de decisão. Exemplos de Tarefas de Classificação

Classificação: Definição. Classificação: conceitos básicos e árvores de decisão. Exemplos de Tarefas de Classificação Classificação: Definição Mineração de dados Classificação: conceitos básicos e árvores de decisão Apresentação adaptada do material de apoio do livro: Introduction to Data Mining Tan, Steinbach, Kumar

Leia mais

Administração de dados - Conceitos, técnicas, ferramentas e aplicações de Data Mining para gerar conhecimento a partir de bases de dados

Administração de dados - Conceitos, técnicas, ferramentas e aplicações de Data Mining para gerar conhecimento a partir de bases de dados Universidade Federal de Pernambuco Graduação em Ciência da Computação Centro de Informática 2006.2 Administração de dados - Conceitos, técnicas, ferramentas e aplicações de Data Mining para gerar conhecimento

Leia mais

Gerenciamento de Qualidade

Gerenciamento de Qualidade UNIVERSIDADE ESTADUAL PAULISTA INSTITUTO DE BIOCIÊNCIAS, LETRAS E CIÊNCIAS EXATAS DEPARTAMENTO DE CIÊNCIAS DE COMPUTAÇÃO E ESTATÍSTICA Gerenciamento de Qualidade Engenharia de Software 2o. Semestre de

Leia mais

Estatística Análise de Dados de Observação. Inferência Estatística. Inferência Estatística. Inferência Estatística. Inferência Estatística

Estatística Análise de Dados de Observação. Inferência Estatística. Inferência Estatística. Inferência Estatística. Inferência Estatística Estatística Análise de Dados de Observação Descrição dos Fenômenos = Estatística Descritiva. Conclusões acerca dos Fenômenos = Estatística Indutiva ou Inferência Estatística. Inferência Estatística É processo

Leia mais

Doenças cardiovasculares constituem um dos maiores problemas que afligem a

Doenças cardiovasculares constituem um dos maiores problemas que afligem a 18 1 INTRODUÇÃO Doenças cardiovasculares constituem um dos maiores problemas que afligem a população dos países industrializados. Essas doenças são responsáveis por mais de cinco milhões de pessoas hospitalizadas

Leia mais

Pós-Graduação "Lato Sensu" Especialização em Análise de Dados e Data Mining

Pós-Graduação Lato Sensu Especialização em Análise de Dados e Data Mining Pós-Graduação "Lato Sensu" Especialização em Análise de Dados e Data Mining Inscrições Abertas Início das Aulas: 24/03/2015 Dias e horários das aulas: Terça-Feira 19h00 às 22h45 Semanal Quinta-Feira 19h00

Leia mais

Extensão do WEKA para Métodos de Agrupamento com Restrição de Contigüidade

Extensão do WEKA para Métodos de Agrupamento com Restrição de Contigüidade Extensão do WEKA para Métodos de Agrupamento com Restrição de Contigüidade Carlos Eduardo R. de Mello, Geraldo Zimbrão da Silva, Jano M. de Souza Programa de Engenharia de Sistemas e Computação Universidade

Leia mais

17/10/2012. dados? Processo. Doutorado em Engenharia de Produção Michel J. Anzanello. Doutorado EP - 2. Doutorado EP - 3.

17/10/2012. dados? Processo. Doutorado em Engenharia de Produção Michel J. Anzanello. Doutorado EP - 2. Doutorado EP - 3. Definição de Data Mining (DM) Mineração de Dados (Data Mining) Doutorado em Engenharia de Produção Michel J. Anzanello Processo de explorar grandes quantidades de dados à procura de padrões consistentes

Leia mais

Radar de Penetração no Solo e Meio- Ambiente

Radar de Penetração no Solo e Meio- Ambiente UNIVERSIDADE DE SÃO PAULO INSTITUTO DE ASTRONOMIA, GEOFÍSICA E CIÊNCIAS ATMOSFÉRICAS DEPARTAMENTO DE GEOFÍSICA Curso 3ª Idade Radar de Penetração no Solo e Meio- Ambiente Vinicius Rafael Neris dos Santos

Leia mais

Gestão da Informação. Gestão da Informação. AULA 3 Data Mining

Gestão da Informação. Gestão da Informação. AULA 3 Data Mining Gestão da Informação AULA 3 Data Mining Prof. Edilberto M. Silva Gestão da Informação Agenda Unidade I - DM (Data Mining) Definição Objetivos Exemplos de Uso Técnicas Tarefas Unidade II DM Prático Exemplo

Leia mais

UNIVERSIDADE FEDERAL DE SANTA CATARINA GRADUAÇÃO EM SISTEMAS DE INFORMAÇÃO DEPARTAMENTO DE INFORMÁTICA E ESTATÍSTICA DATA MINING EM VÍDEOS

UNIVERSIDADE FEDERAL DE SANTA CATARINA GRADUAÇÃO EM SISTEMAS DE INFORMAÇÃO DEPARTAMENTO DE INFORMÁTICA E ESTATÍSTICA DATA MINING EM VÍDEOS UNIVERSIDADE FEDERAL DE SANTA CATARINA GRADUAÇÃO EM SISTEMAS DE INFORMAÇÃO DEPARTAMENTO DE INFORMÁTICA E ESTATÍSTICA DATA MINING EM VÍDEOS VINICIUS DA SILVEIRA SEGALIN FLORIANÓPOLIS OUTUBRO/2013 Sumário

Leia mais

http://www.publicare.com.br/site/5,1,26,5480.asp

http://www.publicare.com.br/site/5,1,26,5480.asp Página 1 de 7 Terça-feira, 26 de Agosto de 2008 ok Home Direto da redação Última edição Edições anteriores Vitrine Cross-Docking Assine a Tecnologística Anuncie Cadastre-se Agenda Cursos de logística Dicionário

Leia mais

A Computação e as Classificações da Ciência

A Computação e as Classificações da Ciência A Computação e as Classificações da Ciência Ricardo de Almeida Falbo Metodologia de Pesquisa Departamento de Informática Universidade Federal do Espírito Santo Agenda Classificações da Ciência A Computação

Leia mais

ADM041 / EPR806 Sistemas de Informação

ADM041 / EPR806 Sistemas de Informação ADM041 / EPR806 Sistemas de Informação UNIFEI Universidade Federal de Itajubá Prof. Dr. Alexandre Ferreira de Pinho 1 Sistemas de Apoio à Decisão (SAD) Tipos de SAD Orientados por modelos: Criação de diferentes

Leia mais

Aula 2 RNA Arquiteturas e Treinamento

Aula 2 RNA Arquiteturas e Treinamento 2COP229 Aula 2 RNA Arquiteturas e Treinamento 2COP229 Sumário 1- Arquiteturas de Redes Neurais Artificiais; 2- Processos de Treinamento; 2COP229 1- Arquiteturas de Redes Neurais Artificiais -Arquitetura:

Leia mais

Introdução à Simulação

Introdução à Simulação Introdução à Simulação O que é simulação? Wikipedia: Simulação é a imitação de alguma coisa real ou processo. O ato de simular algo geralmente consiste em representar certas características e/ou comportamentos

Leia mais

IMPLEMENTAÇÃO DE UM ALGORITMO DE PADRÕES DE SEQUÊNCIA PARA DESCOBERTA DE ASSOCIAÇÕES ENTRE PRODUTOS DE UMA BASE DE DADOS REAL

IMPLEMENTAÇÃO DE UM ALGORITMO DE PADRÕES DE SEQUÊNCIA PARA DESCOBERTA DE ASSOCIAÇÕES ENTRE PRODUTOS DE UMA BASE DE DADOS REAL Universidade Federal de Ouro Preto - UFOP Instituto de Ciências Exatas e Biológicas - ICEB Departamento de Computação - DECOM IMPLEMENTAÇÃO DE UM ALGORITMO DE PADRÕES DE SEQUÊNCIA PARA DESCOBERTA DE ASSOCIAÇÕES

Leia mais

Aprendizagem de Máquina

Aprendizagem de Máquina Aprendizagem de Máquina Professor: Rosalvo Ferreira de Oliveira Neto Disciplina: Inteligência Artificial Tópicos 1. Definições 2. Tipos de aprendizagem 3. Paradigmas de aprendizagem 4. Modos de aprendizagem

Leia mais

Extração de Conhecimento a partir dos Sistemas de Informação

Extração de Conhecimento a partir dos Sistemas de Informação Extração de Conhecimento a partir dos Sistemas de Informação Gisele Faffe Pellegrini & Katia Collazos Grupo de Pesquisa em Eng. Biomédica Universidade Federal de Santa Catarina Jorge Muniz Barreto Prof.

Leia mais

O objetivo da Mineração de Dados é extrair ou minerar conhecimento de grandes volumes de

O objetivo da Mineração de Dados é extrair ou minerar conhecimento de grandes volumes de MINERAÇÃO DE DADOS MINERAÇÃO DE DADOS O objetivo da Mineração de Dados é extrair ou minerar conhecimento de grandes volumes de dados. A mineração de dados é formada por um conjunto de ferramentas e técnicas

Leia mais

Conceitos de Mineração de Dados na Web

Conceitos de Mineração de Dados na Web Capítulo 2 Conceitos de Mineração de Dados na Web Rafael Santos Resumo Já não é mais possível apresentar a Web como uma novidade, comentando sobre suas características básicas sua pervasividade e ubiqüidade

Leia mais

Aprendizagem de Máquina. Ivan Medeiros Monteiro

Aprendizagem de Máquina. Ivan Medeiros Monteiro Aprendizagem de Máquina Ivan Medeiros Monteiro Definindo aprendizagem Dizemos que um sistema aprende se o mesmo é capaz de melhorar o seu desempenho a partir de suas experiências anteriores. O aprendizado

Leia mais

18. Qualidade de Dados em Data Warehouse - Objetivos e Sucesso

18. Qualidade de Dados em Data Warehouse - Objetivos e Sucesso 18. Qualidade de Dados em Data Warehouse - Objetivos e Sucesso Uma das características das Ciências Exatas é a precisão das informações obtidas; a segurança dos dados extraídos nos processos usados. Cálculos

Leia mais

Expanda suas Capacidades Analíticas

Expanda suas Capacidades Analíticas Módulos IBM SPSS Statistics Expanda suas Capacidades Analíticas Um guia resumido dos módulos para o IBM SPSS Statistics Base Destaques Existem vários produtos IBM SPSS para te ajudar em cada fase do projeto

Leia mais

Complexidade de Algoritmos. Edson Prestes

Complexidade de Algoritmos. Edson Prestes Edson Prestes Caminhos de custo mínimo em grafo orientado Este problema consiste em determinar um caminho de custo mínimo a partir de um vértice fonte a cada vértice do grafo. Considere um grafo orientado

Leia mais

O Processo de KDD Knowledge Discovery in Database para Aplicações na Medicina

O Processo de KDD Knowledge Discovery in Database para Aplicações na Medicina SEMINC 2001 57 O Processo de KDD Knowledge Discovery in Database para Aplicações na Medicina MARIZA FERRO HUEI DIANA LEE UNIOESTE - Universidade Estadual do Oeste do Paraná CECE Centro de Engenharias e

Leia mais

Professor: Disciplina:

Professor: Disciplina: Professor: Curso: Esp. Marcos Morais de Sousa marcosmoraisdesousa@gmail.com Sistemas de informação Disciplina: Introdução a SI Noções de sistemas de informação Turma: 01º semestre Prof. Esp. Marcos Morais

Leia mais

MINERAÇÃO DE DADOS PARA DETECÇÃO DE SPAMs EM REDES DE COMPUTADORES

MINERAÇÃO DE DADOS PARA DETECÇÃO DE SPAMs EM REDES DE COMPUTADORES MINERAÇÃO DE DADOS PARA DETECÇÃO DE SPAMs EM REDES DE COMPUTADORES Kelton Costa; Patricia Ribeiro; Atair Camargo; Victor Rossi; Henrique Martins; Miguel Neves; Ricardo Fontes. kelton.costa@gmail.com; patriciabellin@yahoo.com.br;

Leia mais

tipos de métodos, técnicas de inteligência artificial e técnicas de otimização. Por fim, concluise com as considerações finais.

tipos de métodos, técnicas de inteligência artificial e técnicas de otimização. Por fim, concluise com as considerações finais. 1. Introdução A previsão de vendas é fundamental para as organizações uma vez que permite melhorar o planejamento e a tomada de decisão sobre o futuro da empresa. Contudo toda previsão carrega consigo

Leia mais

1 Introdução 1.1. Segurança em Redes de Computadores

1 Introdução 1.1. Segurança em Redes de Computadores 1 Introdução 1.1. Segurança em Redes de Computadores A crescente dependência das empresas e organizações modernas a sistemas computacionais interligados em redes e a Internet tornou a proteção adequada

Leia mais

AULAS 13, 14 E 15 Correlação e Regressão

AULAS 13, 14 E 15 Correlação e Regressão 1 AULAS 13, 14 E 15 Correlação e Regressão Ernesto F. L. Amaral 23, 28 e 30 de setembro de 2010 Metodologia de Pesquisa (DCP 854B) Fonte: Triola, Mario F. 2008. Introdução à estatística. 10 ª ed. Rio de

Leia mais

Taxonomia da aprendizagem

Taxonomia da aprendizagem Taxonomia da aprendizagem Taxonomia de Bloom Desde 1948, um grupo de educadores assumiu a tarefa de classificar metas e objetivos educacionais. Eles propuseram-se a desenvolver um sistema de classificação

Leia mais

2 Descoberta de Conhecimento em Bases de Dados 2.1. Introdução

2 Descoberta de Conhecimento em Bases de Dados 2.1. Introdução 2 Descoberta de Conhecimento em Bases de Dados 2.1. Introdução De acordo com [FAYY96], o conceito de descoberta de conhecimento em bases de dados pode ser resumido como o processo não-trivial de identificar

Leia mais

Técnicas de Seleção de Atributos utilizando Paradigmas de Algoritmos Disciplina de Projeto e Análise de Algoritmos

Técnicas de Seleção de Atributos utilizando Paradigmas de Algoritmos Disciplina de Projeto e Análise de Algoritmos Técnicas de Seleção de Atributos utilizando Paradigmas de Algoritmos Disciplina de Projeto e Análise de Algoritmos Theo Silva Lins, Luiz Henrique de Campos Merschmann PPGCC - Programa de Pós-Graduação

Leia mais

DWARF DATAMINER: UMA FERRAMENTA GENÉRICA PARA MINERAÇÃO DE DADOS

DWARF DATAMINER: UMA FERRAMENTA GENÉRICA PARA MINERAÇÃO DE DADOS DWARF DATAMINER: UMA FERRAMENTA GENÉRICA PARA MINERAÇÃO DE DADOS Tácio Dias Palhão Mendes Bacharelando em Sistemas de Informação Bolsista de Iniciação Científica da FAPEMIG taciomendes@yahoo.com.br Prof.

Leia mais

Data Mining. Origem do Data Mining 24/05/2012. Data Mining. Prof Luiz Antonio do Nascimento

Data Mining. Origem do Data Mining 24/05/2012. Data Mining. Prof Luiz Antonio do Nascimento Data Mining Prof Luiz Antonio do Nascimento Data Mining Ferramenta utilizada para análise de dados para gerar, automaticamente, uma hipótese sobre padrões e anomalias identificadas para poder prever um

Leia mais

4. Que tipos de padrões podem ser minerados. 5. Critérios de classificação de sistemas de Data Mining. 6. Tópicos importantes de estudo em Data Mining

4. Que tipos de padrões podem ser minerados. 5. Critérios de classificação de sistemas de Data Mining. 6. Tópicos importantes de estudo em Data Mining Curso de Data Mining - Aula 1 1. Como surgiu 2. O que é 3. Em que tipo de dados pode ser aplicado 4. Que tipos de padrões podem ser minerados 5. Critérios de classificação de sistemas de Data Mining 6.

Leia mais

Sumário. Mineração de Dados aplicada à Gestão de Negócios. 1) Mineração de Dados

Sumário. Mineração de Dados aplicada à Gestão de Negócios. 1) Mineração de Dados Aula 1 Introdução -Mineração de Dados Prof. Dr. Sylvio Barbon Junior barbon@uel.br Sumário 1) Mineração de Dados 1) Atividades Relacionadas; 2) Desafios; 3) Exemplos de aplicativos; 4) Últimos assuntos;

Leia mais

UTILIZANDO O SOFTWARE WEKA

UTILIZANDO O SOFTWARE WEKA UTILIZANDO O SOFTWARE WEKA O que é 2 Weka: software livre para mineração de dados Desenvolvido por um grupo de pesquisadores Universidade de Waikato, Nova Zelândia Também é um pássaro típico da Nova Zelândia

Leia mais

Análise de Tendências de Mercado por Redes Neurais Artificiais

Análise de Tendências de Mercado por Redes Neurais Artificiais Análise de Tendências de Mercado por Redes Neurais Artificiais Carlos E. Thomaz 1 e Marley M.B.R. Vellasco 2 1 Departamento de Engenharia Elétrica (IAAA), FEI, São Paulo, Brasil 2 Departamento de Engenharia

Leia mais

Engenharia de Software-2003

Engenharia de Software-2003 Engenharia de Software-2003 Mestrado em Ciência da Computação Departamento de Informática - UEM Profa. Dra. Elisa H. M. Huzita eng. de software-2003 Elisa Huzita Produto de Software Conceitos Software

Leia mais

Aula 02: Conceitos Fundamentais

Aula 02: Conceitos Fundamentais Aula 02: Conceitos Fundamentais Profa. Ms. Rosângela da Silva Nunes 1 de 26 Roteiro 1. Por que mineração de dados 2. O que é Mineração de dados 3. Processo 4. Que tipo de dados podem ser minerados 5. Que

Leia mais

Pós-Graduação em Engenharia Elétrica Inteligência Artificial

Pós-Graduação em Engenharia Elétrica Inteligência Artificial Pós-Graduação em Engenharia Elétrica Inteligência Artificial João Marques Salomão Rodrigo Varejão Andreão Inteligência Artificial Definição (Fonte: AAAI ): "the scientific understanding of the mechanisms

Leia mais

INF 1771 Inteligência Artificial

INF 1771 Inteligência Artificial Edirlei Soares de Lima INF 1771 Inteligência Artificial Aula 12 Aprendizado de Máquina Agentes Vistos Anteriormente Agentes baseados em busca: Busca cega Busca heurística Busca local

Leia mais

Unidade 5 Armazenamento e Indexação

Unidade 5 Armazenamento e Indexação Unidade 5 Armazenamento e Indexação Engenharia de Computação / Engenharia de Produção Banco de Dados Prof. Maria das Graças da Silva Teixeira Material base: Banco de Dados, 2009.2, prof. Otacílio José

Leia mais

Nathalie Portugal Vargas

Nathalie Portugal Vargas Nathalie Portugal Vargas 1 Introdução Trabalhos Relacionados Recuperação da Informação com redes ART1 Mineração de Dados com Redes SOM RNA na extração da Informação Filtragem de Informação com Redes Hopfield

Leia mais

1 Tipos de dados em Análise de Clusters

1 Tipos de dados em Análise de Clusters Curso de Data Mining Sandra de Amo Aula 13 - Análise de Clusters - Introdução Análise de Clusters é o processo de agrupar um conjunto de objetos físicos ou abstratos em classes de objetos similares Um

Leia mais

Teste de software. Definição

Teste de software. Definição Definição O teste é destinado a mostrar que um programa faz o que é proposto a fazer e para descobrir os defeitos do programa antes do uso. Quando se testa o software, o programa é executado usando dados

Leia mais

Redes Neurais. A IA clássica segue o paradigma da computação simbólica

Redes Neurais. A IA clássica segue o paradigma da computação simbólica Abordagens não simbólicas A IA clássica segue o paradigma da computação simbólica Redes Neurais As redes neurais deram origem a chamada IA conexionista, pertencendo também a grande área da Inteligência

Leia mais

Universidade de Caxias do Sul Centro de Ciências Exatas e Tecnologia Departamento de Informática Curso de Bacharelado em Ciência da Computação

Universidade de Caxias do Sul Centro de Ciências Exatas e Tecnologia Departamento de Informática Curso de Bacharelado em Ciência da Computação Universidade de Caxias do Sul Centro de Ciências Exatas e Tecnologia Departamento de Informática Curso de Bacharelado em Ciência da Computação APLICAÇÃO DE REDES NEURAIS ARTIFICIAIS À MINERAÇÃO DE DADOS

Leia mais

6 Construção de Cenários

6 Construção de Cenários 6 Construção de Cenários Neste capítulo será mostrada a metodologia utilizada para mensuração dos parâmetros estocásticos (ou incertos) e construção dos cenários com respectivas probabilidades de ocorrência.

Leia mais

Tradução livre do PMBOK 2000, V 1.0, disponibilizada através da Internet pelo PMI MG em abril de 2001

Tradução livre do PMBOK 2000, V 1.0, disponibilizada através da Internet pelo PMI MG em abril de 2001 Capítulo 8 Gerenciamento da Qualidade do Projeto O Gerenciamento da Qualidade do Projeto inclui os processos necessários para garantir que o projeto irá satisfazer as necessidades para as quais ele foi

Leia mais

Etapa Descrição Atividades

Etapa Descrição Atividades 1 Introdução A auditoria e o monitoramento contínuo visam melhorar a eficiência das operações na empresa, identificando e avaliando riscos de maneira tempestiva e provendo rapidamente informações críticas

Leia mais

Revisão Inteligência Artificial ENADE. Prof a Fabiana Lorenzi Outubro/2011

Revisão Inteligência Artificial ENADE. Prof a Fabiana Lorenzi Outubro/2011 Revisão Inteligência Artificial ENADE Prof a Fabiana Lorenzi Outubro/2011 Representação conhecimento É uma forma sistemática de estruturar e codificar o que se sabe sobre uma determinada aplicação (Rezende,

Leia mais

FUNDAMENTOS DE SISTEMAS DE INFORMAÇÃO

FUNDAMENTOS DE SISTEMAS DE INFORMAÇÃO @ribeirord FUNDAMENTOS DE SISTEMAS DE INFORMAÇÃO Rafael D. Ribeiro, M.Sc,PMP. rafaeldiasribeiro@gmail.com http://www.rafaeldiasribeiro.com.br Lembrando... Aula 4 1 Lembrando... Aula 4 Sistemas de apoio

Leia mais

Engenharia de Software

Engenharia de Software CENTRO UNIVERSITÁRIO NOVE DE JULHO Profº. Edson T. França edson.franca@uninove.br Software Sistemas Conjunto de elementos, entre os quais haja alguma relação Disposição das partes ou dos elementos de um

Leia mais

AULAS 04 E 05 Estatísticas Descritivas

AULAS 04 E 05 Estatísticas Descritivas 1 AULAS 04 E 05 Estatísticas Descritivas Ernesto F. L. Amaral 19 e 28 de agosto de 2010 Metodologia de Pesquisa (DCP 854B) Fonte: Triola, Mario F. 2008. Introdução à estatística. 10 ª ed. Rio de Janeiro:

Leia mais

INSTITUTO TECNOLÓGICO DE AERONÁUTICA DIVISÃO DE ENGENHARIA ELETRÔNICA LABORATÓRIO DE GUERRA ELETRÔNICA

INSTITUTO TECNOLÓGICO DE AERONÁUTICA DIVISÃO DE ENGENHARIA ELETRÔNICA LABORATÓRIO DE GUERRA ELETRÔNICA INSTITUTO TECNOLÓGICO DE AERONÁUTICA DIVISÃO DE ENGENHARIA ELETRÔNICA LABORATÓRIO DE GUERRA ELETRÔNICA CURSO DE ESPECIALIZAÇÃO EM ANÁLISE DE AMBIENTE ELETROMAGNÉTICO CEAAE /2008 DISCIPLINA EE-09: Inteligência

Leia mais

CAMADA DE REDES. Fabrício de Sousa Pinto

CAMADA DE REDES. Fabrício de Sousa Pinto CAMADA DE REDES Fabrício de Sousa Pinto Introdução 2 Está relacionada a transferência de pacotes da origem para o destino. Pode passar por vários roteadores ao longo do percurso Transmissão fim a fim Para

Leia mais

Universidade Federal do Rio de Janeiro - IM/DCC & NCE

Universidade Federal do Rio de Janeiro - IM/DCC & NCE Universidade Federal do Rio de Janeiro - IM/DCC & NCE Processamento de Imagens Tratamento da Imagem - Filtros Antonio G. Thomé thome@nce.ufrj.br Sala AEP/033 Sumário 2 Conceito de de Filtragem Filtros

Leia mais

TÓPICOS AVANÇADOS EM ENGENHARIA DE SOFTWARE

TÓPICOS AVANÇADOS EM ENGENHARIA DE SOFTWARE TÓPICOS AVANÇADOS EM ENGENHARIA DE SOFTWARE Engenharia de Computação Professor: Rosalvo Ferreira de Oliveira Neto Estudos Comparativos Recentes - Behavior Scoring Roteiro Objetivo Critérios de Avaliação

Leia mais

Sistema de mineração de dados para descobertas de regras e padrões em dados médicos

Sistema de mineração de dados para descobertas de regras e padrões em dados médicos Sistema de mineração de dados para descobertas de regras e padrões em dados médicos Pollyanna Carolina BARBOSA¹; Thiago MAGELA² 1Aluna do Curso Superior Tecnólogo em Análise e Desenvolvimento de Sistemas

Leia mais

3 OOHDM e SHDM 3.1. OOHDM

3 OOHDM e SHDM 3.1. OOHDM 32 3 OOHDM e SHDM Com a disseminação em massa, desde a década de 80, de ambientes hipertexto e hipermídia, principalmente a Web, foi identificada a necessidade de elaborar métodos que estruturassem de

Leia mais