USO DE TÉCNICAS DE DATA MINING PARA DETECÇÃO DE FRAUDES EM ENERGIA ELÉTRICA

Save this PDF as:
 WORD  PNG  TXT  JPG

Tamanho: px
Começar a partir da página:

Download "USO DE TÉCNICAS DE DATA MINING PARA DETECÇÃO DE FRAUDES EM ENERGIA ELÉTRICA"

Transcrição

1 UNIVERSIDADE FEDERAL DO ESPÍRITO SANTO CENTRO TECNOLÓGICO PROGRAMA DE PÓS-GRADUAÇÃO EM INFORMÁTICA USO DE TÉCNICAS DE DATA MINING PARA DETECÇÃO DE FRAUDES EM ENERGIA ELÉTRICA RODRIGO MENDONÇA QUEIROGA DISSERTAÇÃO DE MESTRADO EM INFORMÁTICA Vitória 2005

2 BANCA EXAMINADORA: PROF. DR. FLÁVIO MIGUEL VAREJÃO PROF. DR. BERILHES BORGES GARCIA PROF. DR. FERNANDO MARTINELLI

3 Dados Internacionais de Catalogação-na-publicação (CIP) (Biblioteca Central da Universidade Federal do Espírito Santo, ES, Brasil) Q3u Queiroga, Rodrigo Mendonça, Uso de técnicas de data mining para detecção de fraudes em energia elétrica / Rodrigo Mendonça Queiroga f. : il. Orientador: Flávio Miguel Varejão. Dissertação (mestrado) Universidade Federal do Espírito Santo,

4 Centro Tecnológico. 1. Mineração de Dados (Computação). 2. Reconhecimento de padrões. 3. Análise de séries temporais - Processamento de dados. 4. Aquisição de conhecimento (Sistemas especialistas). I. Varejão, Flávio Miguel. II. Universidade Federal do Espírito Santo. Centro Tecnológico. III. Título. CDU: 004

5 DEDICATÓRIA Dedico este trabalho a minha esposa Renata, cujo amor e dedicação integrais a mim, a Brida e a nossa casa, tornam todos os sonhos possíveis e a vontade de vencer inabalável.

6 AGRADECIMENTOS Gostaria de agradecer à ESCELSA e a UFES pela oportunidade de crescimento pessoal, intelectual e profissional, e, em especial, aos colegas de trabalho Luiz Fernando, Valéria, Rogério Candelária, Rogério Guimarães, Jacó e Alexandre, equipe que me proporcionou estrutura, apoio e dedicação durante estes anos juntos. Este trabalho não seria possível sem uma equipe de projeto tão dedicada e comprometida com resultados. Não seria correto deixar de mencionar os nomes das pessoas que estiveram e estão envolvidas com este projeto. Assim, gostaria de agradecer inicialmente à Cláudia, Patrícia, Suelen, Letícia, Gabriela, Idilio, Pedro, Luiz Felipe e Bruno, que afinal carregaram o piano na maior parte do trabalho; e, também, o apoio, ajuda e a atenção dos meus colegas mestrandos Helder, Tatiana e Rodrigo Binda, pois sempre que pudemos, trocamos informações valiosas e que contribuíram para alcançarmos nossos objetivos. Aos professores Berilhes, Thomas, Sérgio e Raul, agradeço por acreditarem no nosso esforço em aprender e fazer diferença. E, certamente, não poderia deixar de agradecer ao meu amigo e orientador Flávio, pelos devaneios e elocubrações nas caminhadas pelo calçadão que culminaram com a visão deste projeto, pelo apoio, incentivo e real orientação na construção deste trabalho.

7 SUMÁRIO LISTA DE TABELAS LISTA DE FIGURAS E ILUSTRAÇÕES RESUMO ABSTRACT INTRODUÇÃO AO PROBLEMA DE DETECÇÃO DE FRAUDES DETECÇÃO DE FRAUDES EM ENERGIA ELÉTRICA USO DE TÉCNICAS DE DATA MINING PARA DETECÇÃO DE FRAUDES OBJETIVO DO TRABALHO: USO DE TÉCNICAS DE DATA MINING PARA DETECÇÃO DE FRAUDES EM ENERGIA ELÉTRICA PRINCIPAIS CONTRIBUIÇÕES METODOLOGIA UTILIZADA ORGANIZAÇÃO DO TRABALHO... 2 DATA MINING E A DETECÇÃO DE FRAUDES O PROCESSO DA DM Seleção de dados Pré-processamento de dados Limpeza de Dados Integração dos dados Transformação dos dados Redução do Volume de Dados Aplicação de Técnicas de Identificação e Reconhecimento de Padrões: Conceitos Básicos Técnicas de Classificação Redes Neurais Indução de Árvores de Decisão (AD) e Regras de Produção Modelos Probabilísticos Bayesianos Considerações sobre as técnicas de idenficação e reconhecimento de padrões Análise de Séries Temporais Características Ferramentas de análise Técnicas de Validação Interpretação e utilização dos resultados: DETECÇÃO DE FRAUDES COM DATA MINING Fraude, Prevenção e Detecção Domínios de Fraudes e suas Características Telecomunicações Cartões de Crédito e Instituições Financeiras Intrusão em sistemas computacionais Energia Elétrica e Abastecimento de Água Considerações sobre o aprendizado Supervisionado x Não supervisionado Considerações sobre Falsos Normais O PROBLEMA DE IDENTIFICAÇÃO DE PERDAS COMERCIAIS NA DISTRIBUIÇÃO DE ENERGIA ELÉTRICA CLASSIFICAÇÃO DAS PERDAS DESCRIÇÃO DO PROBLEMA DE PERDAS COMERCIAIS COMBATE A PERDAS COMERCIAIS NA ESCELSA TIPOS DE INSPEÇÃO: PROCEDIMENTOS DE INSPEÇÃO: IDENTIFICAÇÃO DA REGIÃO COM MAIOR PERDA...

8 MOBILIZAÇÃO DE FORÇA TAREFA PARA REALIZAR INSPEÇÕES EM CAMPO REALIZAÇÃO DE INSPEÇÕES E AUTUAÇÃO DE INFRATORES DETERMINAÇÃO DA EFETIVIDADE DA OPERAÇÃO RESULTADOS ATUAIS RESUMO DOS PRINCIPAIS RESULTADOS DE MARÇO A OUTUBRO DE PROBLEMAS ENCONTRADOS NOS REGISTROS DAS BASES DE DADOS DESCRIÇÃO DOS DADOS DISPONÍVEIS Dados de Inspeção Dados de Consumo PROBLEMAS DECORRENTES... 4 PROCESSO DE DATA MINING PARA IDENTIFICAÇÃO DE PERDAS SELEÇÃO CRITÉRIOS USADOS PARA A SELEÇÃO E PROBLEMAS ENCONTRADOS PRÉ-PROCESSAMENTO E TRANSFORMAÇÃO ATRIBUTOS DERIVADOS DO CONSUMO NULOS FALSOS NORMAIS DISCRETIZAÇÃO SELEÇÃO DE CARACTERÍSTICAS PROBLEMAS ENCONTRADOS NAS BASES DE DADOS MINERAÇÃO DE DADOS CRITÉRIOS DE SELEÇÃO E AVALIAÇÃO DO DESEMPENHO DE CLASSIFICADORES TÉCNICAS UTILIZADAS INTERPRETAÇÃO E APLICAÇÃO... 5 DESCRIÇÃO DOS EXPERIMENTOS E ANÁLISE DOS RESULTADOS EXPERIMENTOS DO CICLO OBJETIVOS DESCRIÇÃO RESULTADOS OBTIDOS ANÁLISE DOS RESULTADOS DOS EXPERIMENTOS CONCLUSÕES NO CICLO EXPERIMENTOS DO CICLO OBJETIVOS DESCRIÇÃO APLICAÇÃO DE RESULTADOS DO CICLO 1 NO CICLO ANÁLISE DOS RESULTADOS DOS EXPERIMENTOS RESULTADOS ALCANÇADOS COM PERCENTAGE SPLIT EM CAMPO GRANDE RESULTADOS ALCANÇADOS COM CROSS VALIDATION EM CAMPO GRANDE RESULTADOS ALCANÇADOS NO TESTE EM PRÍNCIPE COMPARAÇÃO DOS RESULTADOS DO CROSS VALIDATION EM CAMPO GRANDE COM O TESTE EM PRÍNCIPE RESULTADOS ALCANÇADOS EXCLUINDO FALSOS NORMAIS NO TESTE EM PRÍNCIPE COMPARAÇÃO DOS RESULTADOS DO CROSS VALIDATION EM CAMPO GRANDE COM O TESTE EM PRÍNCIPE SEM FALSOS NORMAIS CONCLUSÕES DO CICLO EXPERIMENTOS DO CICLO OBJETIVOS DESCRIÇÃO ANÁLISE DOS RESULTADOS DOS EXPERIMENTOS CONCLUSÕES DO CICLO EXPERIMENTOS DO CICLO OBJETIVOS DESCRIÇÃO ANÁLISE DOS RESULTADOS DOS EXPERIMENTOS CONCLUSÕES DO CICLO EXPERIMENTOS DO CICLO 5...

9 5.5.1 OBJETIVOS DESCRIÇÃO ANÁLISE DOS RESULTADOS DOS EXPERIMENTOS CONCLUSÕES DO CICLO CONCLUSÕES E TRABALHOS FUTUROS CONCLUSÕES SOBRE OS DADOS PARA PESQUISA CONCLUSÕES SOBRE OS RESULTADOS DA PESQUISA TRABALHOS FUTUROS BIBLIOGRAFIA

10 Lista de Tabelas Tabela 3.1 Perda em MWh na Escelsa segundo a metodologia atual [MCPT, 2004]...62 Tabela 3.2 Estimativa de perdas média e média por segmento em 2003 [CCB, 2004]...63 Tabela 3.3 Distribuição percentual do índice de sucesso por tipo de inspeção e percentual de sucesso em relação ao total de UC s inspecionadas em Tabela 3.4 Distribuição percentual do índice de sucesso por tipo de inspeção e percentual de sucesso em relação ao total de UC s inspecionadas em Tabela Resultados de Inspeções a partir de denúncia, em Abril / Tabela Resultados de Inspeções em Março a Outubro / Tabela 3.7 Resultados a partir de denúncias de consumidores Tabela 5.1 Matriz de Confusão modelo Tabela 5.2 Matrizes de Confusão para a base de experimento sem dados de consumo Tabela 5.3 Matrizes de Confusão para a base de experimento com dados de consumo Tabela 5.4 Matriz de Confusão e resultados em Campo Grande usando Percentage Split Tabela 5.5 Matriz de Confusão e resultados em Campo Grande usando cross validation Tabela 5.6 Matriz de Confusão e resultados dos testes com Príncipe Tabela 5.7 Comparação de Resultados cross validation Campo Grande e Testes Príncipe Tabela 5.8 Resultados de testes em Príncipe sem falsos normais Tabela 5.9 Comparação cross validation Campo Grande e Testes Príncipe sem falsos normais Tabela 5.10 Resultados dos melhores classificadores aplicados na SE Ceasa com nulos e falsos normais Tabela 5.11 Resultados dos melhores classificadores aplicados na SE Ceasa sem nulos e falsos normais Tabela 5.12 Resultados dos experimentos com Redes Neurais sem falsos normais e nulos Tabela 5.13 Resultados dos experimentos com Redes Neurais com falso Tabela 5.14 Resultados da combinação das SE s sem falsos normais Tabela 5.15 Resultados com redes neurais e o método dos quadrados mínimos Tabela 5.16 Resultados com redes neurais e o método de média móvel Tabela 5.17 Resultados apresentados no tratamento de nulos

11 Lista de Figuras e Ilustrações Figura 2.1 Processo de DM (Extraída de Fayyad [1996]) Figura 2.2 Agrupamento para identificação de outliers Figura Regressão Linear para identificação de outliers...22 Figura Redução de dados com Uso de Árvore de Decisão Figura 2.5 Redução de dados por Amostragem Estratificada Figura 2.6 Construção de um correlograma [Pyle, Figuras 2.7 Incidentes na Internet reportados ao Computer Emergency Response Team/ Coordination Center (CERT/CC) [Dokas, 2002] Figura 3.1 Origens das perdas de energia [MCPT, 2004] Figura 3.2 Ilustração de ligações clandestinas Figura 3.3 Distribuição de perdas comerciais 2003 [CCP, 2004] Figura 3.4 Representação simplificada de um sistema de distribuição Figura 3.5 Índice de Sucesso por Tipo de Inspeção, Fonte: Superintendência Comercial da Escelsa (CGC)...74 Figura 3.6 Índice de Sucesso por Tipo de Inspeção, Fonte: CGC Figura 3.7 Custo x Benefício em 2003 por tipo de inspeção. Fonte: CGC Figura 3.8 Custo x Benefício em 2003 por tipo de inspeção (retirando-se as inspeções por UC Inativas). Fonte: CGC Figura 3.9 Custo x Benefício em 2004 por tipo de inspeção. Fonte: CGC Figura 4.1 Ciclo de DM utilizado Figura 5.1 Ciclos de DM em modelo espiral evolutivo (de baixo para cima Ciclos I, II e III) Figura 5.2 Estratégia de particionamento e reagrupamento das bases para treinamento e teste

12 Resumo Um dos maiores problemas enfrentados pelas empresas de distribuição de energia elétrica no Brasil é o roubo de energia. Esta pesquisa é apresenta o uso de Data Mining no melhoramento da seleção de consumidores suspeitos de fraude. O objetivo foi aplicar um conjunto de técnicas de mineração de dados para buscar a descoberta de conhecimento e aumentar as chances de inspeção em campo bem sucedidas na detecção do uso ilícito de energia, fraudes e instalações irregulares. Abstract One of the biggest problems faced by Power Distribution Companies in Brazil is the energy robbery. This research is shows the use of Data Mining to enhance the selection of suspicious customers of fraud. The goal was to apply a set of DATA MINING techniques to discover knowledge and enhance the chances of successful field inspections to detect illicit use of energy, frauds and irregular installations.

13 1 Introdução ao Problema de Detecção de Fraudes A grande maioria das atividades e serviços praticados para um grande público hoje corre o risco de ser de alguma maneira fraudada. Esta condição, muitas vezes imposta pelo contexto sócio-cultural e pela conjuntura econômica altamente competitiva e dinâmica, faz com que muitas das empresas e serviços públicos sejam motivo de investigações e estejam de alguma forma sujeitos a procedimentos de auditoria na busca por algum tipo de irregularidade. Esta condição se dá em áreas do serviço público, como relacionamento do público em geral com o fisco, áreas de utilidade pública como a distribuição de energia, água, serviços de telefonia, ou em áreas de serviço privado, como operadoras de cartões de crédito, distribuidoras de sinal de TV a cabo, dentre outras. O interesse desta pesquisa é a investigação da suspeita de fraude na distribuição de energia elétrica. 1.1 Detecção de Fraudes em Energia Elétrica Um dos grandes problemas enfrentados pelas empresas distribuidoras de energia elétrica são as perdas comerciais provocadas intencionalmente por consumidores ou por falhas nos medidores. Estima-se que o montante de perdas chegue a 5,5 % do faturamento destas empresas. Este problema tem sido enfrentado através da realização de inspeções técnicas no local de consumo. Contudo, não é possível inspecionar todos os consumidores atendidos pela empresa. Para se ter uma idéia, uma empresa do estado possui cerca de 900 mil consumidores e suas equipes de inspeção são capazes de realizar na ordem de 120 mil operações de inspeção por ano. Isto sem levar em consideração que pode ser necessário realizar várias inspeções em um mesmo consumidor no período de um ano. O montante de perda comercial calculada em 2003 foi de MWh, representando um valor estimado em R$ 100 milhões de reais. Aumentar o número de equipes de inspeção não é economicamente viável e não tende a promover melhorias significativas neste quadro dobrando-se as equipes, seriam feitas 240 mil inspeções por ano, o que ainda é um número pequeno perante o número de consumidores. A

14 chave para a minoração das perdas está na seleção dos consumidores que devem ser inspecionados. Atualmente, o processo de inspeção pode ser feito através de inspeções de consumidores individuais selecionados por técnicos especializados nesta tarefa ou através de varredura, na qual uma área é escolhida e uma equipe de fiscais a percorre ponto por ponto tentando identificar possíveis perdas. No ano de 2001 aproximadamente clientes foram visitados. Tipicamente, a seleção dos consumidores a serem inspecionados é baseada nos dados cadastrais do consumidor e no seu perfil de consumo. Com base na sua experiência, o técnico realiza consultas à base de dados e posteriormente seleciona manualmente alguns ou todos os resultados da consulta para identificar os consumidores que devem ser submetidos à inspeção. A operação de varredura apresenta resultados proporcionalmente inferiores aos de seleção de candidatos na base e produz efeitos colaterais indesejados que detalharemos no trabalho. O processo de identificação dos consumidores baseado no cadastro e nos dados de perfil de consumo, na prática, é artesanal, o que acaba impedindo que os técnicos tenham como avaliar detalhadamente um grande número de consumidores candidatos. Como resultado, o índice de sucesso é baixo, ficando na faixa de 5 a 10% do total de serviços de inspeção. O presente contexto sinaliza para a necessidade de se investigar alternativas que permitam selecionar melhor os candidatos a serem inspecionados. Este trabalho teve como propósito investigar a utilização de técnicas de data mining para analisar computacionalmente as bases de dados e selecionar os candidatos a serem inspecionados, e, possivelmente, melhorar os resultados, otimizar os recursos e recuperar divisas. 1.2 Uso de Técnicas de Data Mining para Detecção de Fraudes Existem hoje inúmeras iniciativas de utilização de Data Mining na detecção de fraudes. Estas iniciativas estão em todos os segmentos citados: cartões de crédito, água, telefonia, evasão fiscal, distribuição de energia, segurança de informações, dentre outros. Neste contexto, as técnicas de Data Mining têm um papel preponderante por estarem aptas a lidar com grandes

15 volumes de dados, que, sem a ajuda da inteligência computacional, seriam inviáveis se fossem investigados por pessoas, por maior que fosse a equipe disponível. Por esta razão, estamos iniciando este trabalho. Trata-se de um trabalho investigativo sobre um volume de dados considerável, e cujo manuseio seria impraticável. Daí a necessidade de técnicas de Data Mining. 1.3 Objetivo do Trabalho: Uso de Técnicas de Data Mining para Detecção de Fraudes em Energia Elétrica O objetivo deste trabalho foi a melhoria na identificação de perdas comerciais através do uso de Data Mining na investigação das características das unidades consumidoras (UC s) na busca por padrões que indiquem a possibilidade de fraude. As técnicas de Data Mining foram usadas para identificar padrões nos dados cadastrais e de consumo dos candidatos que revelem a existência de perdas. Embora esse tipo de conhecimento exista nas bases de dados (os técnicos os utilizam), ele não tem sido amplamente utilizado por conta da limitação cognitiva do ser humano em avaliar uma grande quantidade de dados. Um programa de computador que detenha esse conhecimento poderá utilizá-lo de maneira muito mais efetiva. Além disto, este programa pode identificar novos padrões que permitam identificar candidatos potenciais à inspeção. Tipicamente, estes padrões não foram observados pelos técnicos, mas uma análise baseada em técnicas de Data Mining pode revelá-los. 1.4 Principais Contribuições As principais contribuições que buscamos com esta pesquisa foram: o aprimoramento das técnicas hoje usadas na detecção de fraudes em energia elétrica e a exploração científica do Data Mining como ferramenta para descoberta de conhecimento no domínio de distribuição de energia.

16 1.5 Metodologia Utilizada A metodologia utilizada nesta pesquisa foi composta por uma análise da bibliografia pertinente ao tema, seguida de coleta de dados junto aos especialistas no domínio. Na seqüência, foram iniciados os experimentos e a análise dos resultados de maneira cíclica e evolutiva. 1.6 Organização do trabalho No próximo capítulo, foi feita uma revisão sobre Data Mining, conhecido também como knowledge discovery in databases (KDD), nome mais geral, embora menos divulgado fora do meio de TI, na qual serão apresentados os processos de KDD e sua contextualização na questão da identificação de perdas comerciais. No capítulo 3, discorreremos sobre o problema de identificação de perdas comercias detalhadamente. O capítulo 4 foi dedicado ao detalhamento do processo adotado nos nossos experimentos para a identificação de perdas. No capítulo 5, analisamos os experimentos e seus resultados. O capítulo 6 é dedicado às conclusões e apresenta os futuros trabalhos que poderão ser derivados desta iniciativa.

17 2 Data Mining e a Detecção de Fraudes Identificar novo conhecimento, a partir de grandes quantidades de informações dispersas, ainda que recuperáveis, é o grande objetivo de Data Mining (DM). Este termo é muitas vezes usado para designar uma etapa na Descoberta de Conhecimento em Bancos de Dados - Knowledge Discovery in Database (KDD). No entanto, provavelmente pelo fato de ser uma das principais etapas da Descoberta de Conhecimento, sua utilização tornou-se comum para a designação de todo o processo. Utilizaremos neste trabalho o termo Data Mining como sendo o processo de Descoberta de Conhecimento em Bancos de Dados. De modo geral, DM se refere às técnicas de se extrair conhecimento de grandes bases de informação não refinadas, através de técnicas de reconhecimento e identificação de padrões. O entendimento destas regras e padrões gera o conhecimento. Desta forma, a DM é um instrumento de grande auxílio à tomada de decisões. Exemplos clássicos são a estratégia de marketing baseada em padrões de consumo dos clientes, ou o reconhecimento de fraudes em áreas de telefonia ou de cartão de crédito, baseado em perfis de consumidores e também em seus padrões de consumo. Neste capítulo, examinaremos o processo da DM, suas características principais e aspectos mais significativos. Em seguida, abordaremos o uso de técnicas específicas de reconhecimento de padrões e, em especial, sobre séries temporais. Encerraremos o capítulo com uma seção dedicada a mineração de dados voltada para o problema da detecção de fraudes O Processo da DM DM costuma ser definido como um processo não-trivial de identificação de padrões válidos, até então desconhecidos, potencialmente úteis e de possível entendimento em grandes bases de dados [Fayyad, 1996]. Analisando esta sentença minuciosamente, podemos ter uma visão mais clara da DM. O termo processo implica na existência de várias etapas (entendimento do domínio do problema, preparação de dados, procura por padrões, avaliação do conhecimento, uso do

18 conhecimento). Além disto, estas etapas podem e devem ser repetidas em forma de iteração. Por não-trivial se indica que o DM busca por um modelo, padrões ou estruturas não facilmente identificáveis por seres humanos ou sistemas de programação convencionais. O termo válido significa que os padrões encontrados devem ser válidos para novos dados com um grau previsto de certeza. A expressão até então desconhecidos significa que para o conhecimento ter valor, é preciso que ele acrescente algo, que seja novo. A expressão: potencialmente úteis significa que importa encontrar conhecimentos com algum grau de relevância para resolver algum problema. Por fim, a expressão possível entendimento informa que os conhecimentos devem ser entendidos pelos profissionais envolvidos na tomada de decisões. O processo de DM é dividido por Fayyad [1996] nas seguintes etapas: A) Seleção de dados: o domínio e os objetivos do problema devem ser bem entendidos para que seja possível a seleção das bases de dados alvo, ou seja, as bases de dados nas quais possivelmente existem informações que podem gerar o conhecimento requerido. B) Pré-processamento dos dados: os dados selecionados na fase anterior necessitam passar por um processo de limpeza. O pré-processamento dos dados objetiva, de um modo geral, a eliminação de ruídos e de registros duplicados, a solução de problemas de campos com dados faltantes e campos com dados errados, a correção de erros de digitação, etc. Além disto, como os dados podem vir de várias tabelas distintas, com modelos distintos, é necessária uma integração dos dados, visando uma maior confiança nos valores dos mesmos. C) Transformação dos dados: os dados pré-processados precisam passar por um processo de redução, pois geralmente, nesta fase, a base ainda é muito grande para ser trabalhada com eficiência. Isto pode ser feito através de mecanismos de representação eficiente dos dados, redução da quantidade de atributos (só restando os realmente necessários), redução do conjunto de dados usado para treinamento por amostragem (sampling) ou outras técnicas. Ao final do processo de redução da base, pode ser necessária ainda uma adaptação dos dados ao algoritmo utilizado na próxima fase. D) Aplicação de técnicas de identificação e reconhecimento de padrões: A partir deste momento, pode-se pensar na execução das técnicas propriamente ditas de identificação e reconhecimento de padrões. É essencial que sejam escolhidas técnicas que mais se adeqüem

19 ao problema em questão, mesmo que este processo de escolha exija um longo processo de testes. Além disto, pode-se pensar no caso de integração de duas ou mais técnicas de forma a aumentar a confiabilidade do método. Exemplos de técnicas utilizadas neste ponto são redes neurais, regras de indução, árvores de decisão, sistemas especialistas (ou baseados em conhecimento), redes probabilísticas. E) Interpretação dos resultados: Com o término da etapa anterior, podemos analisar o resultado obtido, para identificar se ele é satisfatório ou se há necessidade de retornar a etapas anteriores para reformulá-las. F) Utilização: Neste ponto, podemos utilizar o conhecimento obtido pelo método nas tomadas de decisões gerenciais. A figura 2.1, extraída de Fayyad [1996] ilustra as etapas do processo de DM. Figura 2.1 Processo de DM (Extraída de Fayyad [1996]). O processo de preparação dos dados, no qual englobamos as etapas de seleção / extração, préprocessamento e transformação dos dados, é descrito e agrupado de maneiras distintas por vários autores. Diferentemente de Fayyad [1996] que separa as etapas de limpeza e préprocessamento da etapa de redução e transformação de dados, para Han [2001] o préprocessamento engloba a limpeza, a integração, a transformação e a redução. Neste trabalho, adotaremos as etapas propostas por Fayyad [1996].

20 Analisaremos mais detalhadamente algumas destas etapas do processo, procurando ressaltar aspectos mais relevantes para este trabalho Seleção de dados A primeira etapa da descoberta de conhecimento, segundo Fayyad [1996], chamado de seleção de dados, requer o conhecimento do domínio do problema e a seleção dos dados que servirão de base para esta descoberta. Este processo iterativo é sempre revisto ao longo de todo o descobrimento e é extremamente importante para o início dos trabalhos. A seleção adequada significa a utilização mais objetiva das informações disponíveis e a eliminação daquelas informações que, sabidamente, não irão ajudar na descoberta dos conhecimentos que são focados como objetivo do processo. Contudo, a seleção também poderá significar uma redução no alcance da DM, já que estará limitando a atuação das técnicas por limitar seu campo de atuação. Em determinados casos, isto poderá significar uma restrição precoce no processo de se descobrir novos conhecimento. Mesmo com este risco, é necessária uma seleção prévia das informações que serão analisadas, pois atualmente a quantidade e a diversidade de informações disponíveis para estes tipos de processos tornam impossível a sua total utilização de maneira efetiva. Como mencionado anteriormente, o conhecimento do domínio do problema é fundamental nesta etapa, e o envolvimento de especialistas no domínio é fortemente recomendado. Este envolvimento costuma ser um dos maiores obstáculos no desenvolvimento da DM, pois invariavelmente, os especialistas de domínio são pessoas altamente requisitadas nas organizações e o seu tempo de dedicação torna-se fator preponderante de sucesso Pré-processamento de dados Uma vez selecionadas as informações consideradas mais relevantes, é necessário extrair tais informações dos seus repositórios e tratá-las adequadamente de maneira a prepará-las para serem analisadas.

21 Os dados usados pelo DM são geralmente extraídos de bases de dados não construídas para este objetivo [Williams, 1996]. Desta forma, os dados devem ser limpos e modelados para tornar possível a execução de um eficiente processo de DM. Depois, devem ser transformados para um formato específico para o tipo de algoritmo que se pretende utilizar. Muitas experiências têm mostrado que mais de 75% do tempo gasto em um processo completo de DM vem sendo usado em pré-processamento e transformação de dados e que esta etapa tem uma significativa influência no resultado final do processo [Engels, 1998]. A qualidade da preparação dos dados pode levar o DM para mais perto ou para mais longe da solução ideal. Definimos, a seguir, as características de cada uma das tarefas desta etapa do processo Limpeza de Dados Em aplicações reais, os dados podem ser incorretos, tornando as informações inconsistentes, incompletas e com ruído. Estes erros podem ser gerados por instrumentos coletores de dados incorretos, falhas humanas nas entradas de dados, problemas de transmissão de dados, dentre outros. Por causa destes problemas, surgem campos com valores desconhecidos (missing values) ou com valores discrepantes (outliers). A) Valores desconhecidos Campos com valores desconhecidos são campos que, por alguma razão, não estão preenchidos para um determinado registro. Ignorar este problema pode gerar resultados errados ou conclusões incompletas, enquanto que substituir estes campos por valores pode introduzir inconsistências na base de dados. Desta forma, a substituição de valores desconhecidos deve ser feita de forma criteriosa para não alterar os padrões da base de dados. O método mais simples para resolver este problema é descartar os registros que apresentem um ou mais campos com valores desconhecidos. Isto é possível se a massa de dados for extremamente confiável e abundante. Mesmo neste caso, corre-se o risco de eliminar registros importantes para a mineração.

22 Um método que tenta melhorar isto é o de eliminar registros que contenham mais do que determinado percentual (20%, por exemplo) dos campos com valores desconhecidos e tratar os outros registros. Apesar de ser também muito simples, esta técnica vem sendo bastante utilizada e tem retornado resultados confiáveis. De qualquer forma, o risco de eliminação de registros importantes também existe neste método. Um outro método para atacar o problema seria ignorar estes campos com valores desconhecidos, substituindo o valor inexistente por uma constante global, como NULL ou desconhecido (unknown). A partir desta técnica surgem duas situações. Na primeira, o algoritmo de mineração pode identificar estes valores especiais (NULL ou unknown) como outros quaisquer e tratar todos os registros com estes valores especiais como se fossem de um mesmo grupo, mesmo que eles pertençam a grupos completamente distintos. Isto torna claramente inadequada a mineração de dados. Em uma segunda situação, mais promissora, o algoritmo pode estar preparado para funcionar com estes valores especiais e tratá-los de forma adequada, até mesmo adquirindo conhecimento a partir da inexistência de informações. Porém, um problema que surge é a possibilidade destes registros com campos desconhecidos serem fruto de um erro. Nesta última situação, mesmo os algoritmos preparados podem retornar conclusões erradas. Um método mais aprimorado é o de inferir valores para estes campos. Uma estratégia poderia ser o uso da média dos valores daquele atributo para substituir os valores desconhecidos. Uma outra estratégia seria usar a média dos valores de exemplos pertencentes à mesma classe do registro analisado. Outra variante destas regras seria a de se obter o valor mais provável para o valor desconhecido [Han, 2001]. Pode-se também usar regras para inferir os valores de alguns campos a partir de outros. Mesmo nesse caso é possível ocorrer inferências incorretas. B) Valores discrepantes Valores discrepantes (outliers) podem ser descritos como informações que diferem em um grau tão elevado das informações normais que despertam suspeitas a respeito de sua correção. Um exemplo seria um campo que, geralmente, contém valores no intervalo de 0 a 10, apresentar o valor para um registro em especial.

Complemento II Noções Introdutória em Redes Neurais

Complemento II Noções Introdutória em Redes Neurais Complemento II Noções Introdutória em Redes Neurais Esse documento é parte integrante do material fornecido pela WEB para a 2ª edição do livro Data Mining: Conceitos, técnicas, algoritmos, orientações

Leia mais

MLP (Multi Layer Perceptron)

MLP (Multi Layer Perceptron) MLP (Multi Layer Perceptron) André Tavares da Silva andre.silva@udesc.br Roteiro Rede neural com mais de uma camada Codificação de entradas e saídas Decorar x generalizar Perceptron Multi-Camada (MLP -

Leia mais

KDD UMA VISAL GERAL DO PROCESSO

KDD UMA VISAL GERAL DO PROCESSO KDD UMA VISAL GERAL DO PROCESSO por Fernando Sarturi Prass 1 1.Introdução O aumento das transações comerciais por meio eletrônico, em especial as feitas via Internet, possibilitou as empresas armazenar

Leia mais

3 Metodologia de Previsão de Padrões de Falha

3 Metodologia de Previsão de Padrões de Falha 3 Metodologia de Previsão de Padrões de Falha Antes da ocorrência de uma falha em um equipamento, ele entra em um regime de operação diferente do regime nominal, como descrito em [8-11]. Para detectar

Leia mais

Projeto de Redes Neurais e MATLAB

Projeto de Redes Neurais e MATLAB Projeto de Redes Neurais e MATLAB Centro de Informática Universidade Federal de Pernambuco Sistemas Inteligentes IF684 Arley Ristar arrr2@cin.ufpe.br Thiago Miotto tma@cin.ufpe.br Baseado na apresentação

Leia mais

Planejamento Estratégico de TI. Prof.: Fernando Ascani

Planejamento Estratégico de TI. Prof.: Fernando Ascani Planejamento Estratégico de TI Prof.: Fernando Ascani Data Warehouse - Conceitos Hoje em dia uma organização precisa utilizar toda informação disponível para criar e manter vantagem competitiva. Sai na

Leia mais

KDD. Fases limpeza etc. Datamining OBJETIVOS PRIMÁRIOS. Conceitos o que é?

KDD. Fases limpeza etc. Datamining OBJETIVOS PRIMÁRIOS. Conceitos o que é? KDD Conceitos o que é? Fases limpeza etc Datamining OBJETIVOS PRIMÁRIOS TAREFAS PRIMÁRIAS Classificação Regressão Clusterização OBJETIVOS PRIMÁRIOS NA PRÁTICA SÃO DESCRIÇÃO E PREDIÇÃO Descrição Wizrule

Leia mais

Administração de dados - Conceitos, técnicas, ferramentas e aplicações de Data Mining para gerar conhecimento a partir de bases de dados

Administração de dados - Conceitos, técnicas, ferramentas e aplicações de Data Mining para gerar conhecimento a partir de bases de dados Universidade Federal de Pernambuco Graduação em Ciência da Computação Centro de Informática 2006.2 Administração de dados - Conceitos, técnicas, ferramentas e aplicações de Data Mining para gerar conhecimento

Leia mais

APLICAÇÃO DE MINERAÇÃO DE DADOS PARA O LEVANTAMENTO DE PERFIS: ESTUDO DE CASO EM UMA INSTITUIÇÃO DE ENSINO SUPERIOR PRIVADA

APLICAÇÃO DE MINERAÇÃO DE DADOS PARA O LEVANTAMENTO DE PERFIS: ESTUDO DE CASO EM UMA INSTITUIÇÃO DE ENSINO SUPERIOR PRIVADA APLICAÇÃO DE MINERAÇÃO DE DADOS PARA O LEVANTAMENTO DE PERFIS: ESTUDO DE CASO EM UMA INSTITUIÇÃO DE ENSINO SUPERIOR PRIVADA Lizianne Priscila Marques SOUTO 1 1 Faculdade de Ciências Sociais e Aplicadas

Leia mais

Aprendizagem de Máquina

Aprendizagem de Máquina Aprendizagem de Máquina Professor: Rosalvo Ferreira de Oliveira Neto Disciplina: Inteligência Artificial Tópicos 1. Definições 2. Tipos de aprendizagem 3. Paradigmas de aprendizagem 4. Modos de aprendizagem

Leia mais

Estratégias de Pesquisa

Estratégias de Pesquisa Estratégias de Pesquisa Ricardo de Almeida Falbo Metodologia de Pesquisa Departamento de Informática Universidade Federal do Espírito Santo Agenda Survey Design e Criação Estudo de Caso Pesquisa Ação Experimento

Leia mais

MINERAÇÃO DE DADOS APLICADA. Pedro Henrique Bragioni Las Casas pedro.lascasas@dcc.ufmg.br

MINERAÇÃO DE DADOS APLICADA. Pedro Henrique Bragioni Las Casas pedro.lascasas@dcc.ufmg.br MINERAÇÃO DE DADOS APLICADA Pedro Henrique Bragioni Las Casas pedro.lascasas@dcc.ufmg.br Processo Weka uma Ferramenta Livre para Data Mining O que é Weka? Weka é um Software livre do tipo open source para

Leia mais

Fases para um Projeto de Data Warehouse. Fases para um Projeto de Data Warehouse. Fases para um Projeto de Data Warehouse

Fases para um Projeto de Data Warehouse. Fases para um Projeto de Data Warehouse. Fases para um Projeto de Data Warehouse Definição escopo do projeto (departamental, empresarial) Grau de redundância dos dados(ods, data staging) Tipo de usuário alvo (executivos, unidades) Definição do ambiente (relatórios e consultas préestruturadas

Leia mais

4 Arquitetura básica de um analisador de elementos de redes

4 Arquitetura básica de um analisador de elementos de redes 4 Arquitetura básica de um analisador de elementos de redes Neste capítulo é apresentado o desenvolvimento de um dispositivo analisador de redes e de elementos de redes, utilizando tecnologia FPGA. Conforme

Leia mais

Objetivos. Engenharia de Software. O Estudo de Viabilidade. Fase do Estudo de Viabilidade. Idéias chave. O que Estudar? O que concluir?

Objetivos. Engenharia de Software. O Estudo de Viabilidade. Fase do Estudo de Viabilidade. Idéias chave. O que Estudar? O que concluir? Engenharia de Software O Estudo de Viabilidade Objetivos O que é um estudo de viabilidade? O que estudar e concluir? Benefícios e custos Análise de Custo/Benefício Alternativas de comparação 1 2 Idéias

Leia mais

A Preparação dos Dados

A Preparação dos Dados A Preparação dos Dados Escolhas Básicas Objetos, casos, instâncias Objetos do mundo real: carros, arvores, etc Ponto de vista da mineração: um objeto é descrito por uma coleção de características sobre

Leia mais

XIII Encontro de Iniciação Científica IX Mostra de Pós-graduação 06 a 11 de outubro de 2008 BIODIVERSIDADE TECNOLOGIA DESENVOLVIMENTO

XIII Encontro de Iniciação Científica IX Mostra de Pós-graduação 06 a 11 de outubro de 2008 BIODIVERSIDADE TECNOLOGIA DESENVOLVIMENTO XIII Encontro de Iniciação Científica IX Mostra de Pós-graduação 06 a 11 de outubro de 2008 BIODIVERSIDADE TECNOLOGIA DESENVOLVIMENTO EPE0147 UTILIZAÇÃO DA MINERAÇÃO DE DADOS EM UMA AVALIAÇÃO INSTITUCIONAL

Leia mais

Introdução. Capítulo 1

Introdução. Capítulo 1 Capítulo 1 Introdução Em computação, muitos problemas são resolvidos por meio da escrita de um algoritmo que especifica, passo a passo, como resolver um problema. No entanto, não é fácil escrever um programa

Leia mais

Extração de Conhecimento & Mineração de Dados

Extração de Conhecimento & Mineração de Dados Extração de Conhecimento & Mineração de Dados Nesta apresentação é dada uma breve introdução à Extração de Conhecimento e Mineração de Dados José Augusto Baranauskas Departamento de Física e Matemática

Leia mais

Prof. Msc. Paulo Muniz de Ávila

Prof. Msc. Paulo Muniz de Ávila Prof. Msc. Paulo Muniz de Ávila O que é Data Mining? Mineração de dados (descoberta de conhecimento em bases de dados): Extração de informação interessante (não-trivial, implícita, previamente desconhecida

Leia mais

Microsoft Innovation Center

Microsoft Innovation Center Microsoft Innovation Center Mineração de Dados (Data Mining) André Montevecchi andre@montevecchi.com.br Introdução Objetivo BI e Mineração de Dados Aplicações Exemplos e Cases Algoritmos para Mineração

Leia mais

PROCESSO DE DESENVOLVIMENTO DE SOFTWARE. Modelos de Processo de Desenvolvimento de Software

PROCESSO DE DESENVOLVIMENTO DE SOFTWARE. Modelos de Processo de Desenvolvimento de Software PROCESSO DE DESENVOLVIMENTO DE SOFTWARE Introdução Modelos de Processo de Desenvolvimento de Software Os modelos de processos de desenvolvimento de software surgiram pela necessidade de dar resposta às

Leia mais

Data Mining: Conceitos e Técnicas

Data Mining: Conceitos e Técnicas Data Mining: Conceitos e Técnicas DM, DW e OLAP Data Warehousing e OLAP para Data Mining O que é data warehouse? De data warehousing para data mining Data Warehousing e OLAP para Data Mining Data Warehouse:

Leia mais

Sistemas Distribuídos: Conceitos e Projeto Introdução a Tolerância a Falhas

Sistemas Distribuídos: Conceitos e Projeto Introdução a Tolerância a Falhas Sistemas Distribuídos: Conceitos e Projeto Introdução a Tolerância a Falhas Francisco José da Silva e Silva Laboratório de Sistemas Distribuídos (LSD) Departamento de Informática / UFMA http://www.lsd.ufma.br

Leia mais

UNISINOS - UNIVERSIDADE DO VALE DO RIO DOS SINOS

UNISINOS - UNIVERSIDADE DO VALE DO RIO DOS SINOS UNISINOS - UNIVERSIDADE DO VALE DO RIO DOS SINOS Curso: Informática Disciplina: Redes Neurais Prof. Fernando Osório E-mail: osorio@exatas.unisinos.br EXEMPLO DE QUESTÕES DE PROVAS ANTIGAS 1. Supondo que

Leia mais

Como os Modelos Atuais Podem Combater Novas Formas de Fraude?

Como os Modelos Atuais Podem Combater Novas Formas de Fraude? Como os Modelos Atuais Podem Combater Novas Formas de Fraude? Uma camada adaptativa, que aprende novos padrões de fraude, pode ser adicionada ao modelo para melhorar a sua capacidade de detecção Número

Leia mais

Exemplo de Aplicação do DataMinig

Exemplo de Aplicação do DataMinig Exemplo de Aplicação do DataMinig Felipe E. Barletta Mendes 19 de fevereiro de 2008 INTRODUÇÃO AO DATA MINING A mineração de dados (Data Mining) está inserida em um processo maior denominado Descoberta

Leia mais

Grande parte dos planejadores

Grande parte dos planejadores ARTIGO Fotos: Divulgação Decidindo com o apoio integrado de simulação e otimização Oscar Porto e Marcelo Moretti Fioroni O processo de tomada de decisão Grande parte dos planejadores das empresas ainda

Leia mais

Professor: Disciplina:

Professor: Disciplina: Professor: Curso: Esp. Marcos Morais de Sousa marcosmoraisdesousa@gmail.com Sistemas de informação Disciplina: Introdução a SI Noções de sistemas de informação Turma: 01º semestre Prof. Esp. Marcos Morais

Leia mais

ADM041 / EPR806 Sistemas de Informação

ADM041 / EPR806 Sistemas de Informação ADM041 / EPR806 Sistemas de Informação UNIFEI Universidade Federal de Itajubá Prof. Dr. Alexandre Ferreira de Pinho 1 Sistemas de Apoio à Decisão (SAD) Tipos de SAD Orientados por modelos: Criação de diferentes

Leia mais

5 Mecanismo de seleção de componentes

5 Mecanismo de seleção de componentes Mecanismo de seleção de componentes 50 5 Mecanismo de seleção de componentes O Kaluana Original, apresentado em detalhes no capítulo 3 deste trabalho, é um middleware que facilita a construção de aplicações

Leia mais

Complemento IV Introdução aos Algoritmos Genéticos

Complemento IV Introdução aos Algoritmos Genéticos Complemento IV Introdução aos Algoritmos Genéticos Esse documento é parte integrante do material fornecido pela WEB para a 2ª edição do livro Data Mining: Conceitos, técnicas, algoritmos, orientações e

Leia mais

Aprendizagem de Máquina. Ivan Medeiros Monteiro

Aprendizagem de Máquina. Ivan Medeiros Monteiro Aprendizagem de Máquina Ivan Medeiros Monteiro Definindo aprendizagem Dizemos que um sistema aprende se o mesmo é capaz de melhorar o seu desempenho a partir de suas experiências anteriores. O aprendizado

Leia mais

Data Mining. Origem do Data Mining 24/05/2012. Data Mining. Prof Luiz Antonio do Nascimento

Data Mining. Origem do Data Mining 24/05/2012. Data Mining. Prof Luiz Antonio do Nascimento Data Mining Prof Luiz Antonio do Nascimento Data Mining Ferramenta utilizada para análise de dados para gerar, automaticamente, uma hipótese sobre padrões e anomalias identificadas para poder prever um

Leia mais

Área de Distribuição e Comercialização Identificação do Trabalho: BR-34 Maceió, Brasil, Agosto de 2005

Área de Distribuição e Comercialização Identificação do Trabalho: BR-34 Maceió, Brasil, Agosto de 2005 COMISSÃO DE INTEGRAÇÃO ENERGÉTICA REGIONAL COMITÊ NACIONAL BRASILEIRO V CIERTEC - SEMINÁRIO INTERNACIONAL SOBRE GESTÃO DE PERDAS, EFICIENTIZAÇÃO ENERGÉTICA E PROTEÇÃO DA RECEITA NO SETOR ELÉTRICO Área

Leia mais

IC Inteligência Computacional Redes Neurais. Redes Neurais

IC Inteligência Computacional Redes Neurais. Redes Neurais Universidade Federal do Rio de Janeiro PÓS-GRADUAÇÃO / 2008-2 IC Inteligência Computacional Redes Neurais www.labic.nce.ufrj.br Antonio G. Thomé thome@nce.ufrj.br Redes Neurais São modelos computacionais

Leia mais

MODELAGEM E SIMULAÇÃO

MODELAGEM E SIMULAÇÃO MODELAGEM E SIMULAÇÃO Professor: Dr. Edwin B. Mitacc Meza edwin@engenharia-puro.com.br www.engenharia-puro.com.br/edwin Como Funciona a Simulação Introdução Assim como qualquer programa de computador,

Leia mais

Introdução à Simulação

Introdução à Simulação Introdução à Simulação O que é simulação? Wikipedia: Simulação é a imitação de alguma coisa real ou processo. O ato de simular algo geralmente consiste em representar certas características e/ou comportamentos

Leia mais

Gerenciamento inteligente de dados

Gerenciamento inteligente de dados Gerenciamento inteligente de dados Sanjeet Singh Grupo de produtos de armazenamento de dados da Dell ÍNDICE Índice RESUMO EXECUTIVO... 3 O GERENCIAMENTO DE DADOS DE HOJE... 3 VISÃO DA DELL: IDM... 4 OBJETIVOS

Leia mais

Engenharia de Software II

Engenharia de Software II Engenharia de Software II Aula 28 Revisão para a Prova 2 http://www.ic.uff.br/~bianca/engsoft2/ Aula 28-28/07/2006 1 Matéria para a Prova 2 Gestão de projetos de software Conceitos (Cap. 21) Métricas (Cap.

Leia mais

Pós-Graduação "Lato Sensu" Especialização em Análise de Dados e Data Mining

Pós-Graduação Lato Sensu Especialização em Análise de Dados e Data Mining Pós-Graduação "Lato Sensu" Especialização em Análise de Dados e Data Mining Inscrições Abertas Início das Aulas: 24/03/2015 Dias e horários das aulas: Terça-Feira 19h00 às 22h45 Semanal Quinta-Feira 19h00

Leia mais

Balanceamento de Carga

Balanceamento de Carga 40 4. Balanceamento de Carga Pode-se entender por balanceamento de carga uma política a ser adotada para minimizar tanto a ociosidade de utilização de alguns equipamentos quanto a super utilização de outros,

Leia mais

Figura 5.1.Modelo não linear de um neurônio j da camada k+1. Fonte: HAYKIN, 2001

Figura 5.1.Modelo não linear de um neurônio j da camada k+1. Fonte: HAYKIN, 2001 47 5 Redes Neurais O trabalho em redes neurais artificiais, usualmente denominadas redes neurais ou RNA, tem sido motivado desde o começo pelo reconhecimento de que o cérebro humano processa informações

Leia mais

Redes Neurais Construtivas. Germano Crispim Vasconcelos Centro de Informática - UFPE

Redes Neurais Construtivas. Germano Crispim Vasconcelos Centro de Informática - UFPE Redes Neurais Construtivas Germano Crispim Vasconcelos Centro de Informática - UFPE Motivações Redes Feedforward têm sido bastante utilizadas em aplicações de Reconhecimento de Padrões Problemas apresentados

Leia mais

UNIVERSIDADE FEDERAL DE SANTA CATARINA GRADUAÇÃO EM SISTEMAS DE INFORMAÇÃO DEPARTAMENTO DE INFORMÁTICA E ESTATÍSTICA DATA MINING EM VÍDEOS

UNIVERSIDADE FEDERAL DE SANTA CATARINA GRADUAÇÃO EM SISTEMAS DE INFORMAÇÃO DEPARTAMENTO DE INFORMÁTICA E ESTATÍSTICA DATA MINING EM VÍDEOS UNIVERSIDADE FEDERAL DE SANTA CATARINA GRADUAÇÃO EM SISTEMAS DE INFORMAÇÃO DEPARTAMENTO DE INFORMÁTICA E ESTATÍSTICA DATA MINING EM VÍDEOS VINICIUS DA SILVEIRA SEGALIN FLORIANÓPOLIS OUTUBRO/2013 Sumário

Leia mais

Engenharia de Software

Engenharia de Software Engenharia de Software Roteiro Inspeção Defeitos dos Software Classificação dos Erros Técnica de Leitura Ad-hoc Checklist Exercício Inspeção Inspeção de Software Definição É um método de análise estática

Leia mais

Avaliando o que foi Aprendido

Avaliando o que foi Aprendido Avaliando o que foi Aprendido Treinamento, teste, validação Predição da performance: Limites de confiança Holdout, cross-validation, bootstrap Comparando algoritmos: o teste-t Predecindo probabilidades:função

Leia mais

O Processo de KDD. Data Mining SUMÁRIO - AULA1. O processo de KDD. Interpretação e Avaliação. Seleção e Pré-processamento. Consolidação de dados

O Processo de KDD. Data Mining SUMÁRIO - AULA1. O processo de KDD. Interpretação e Avaliação. Seleção e Pré-processamento. Consolidação de dados SUMÁRIO - AULA1 O Processo de KDD O processo de KDD Interpretação e Avaliação Consolidação de dados Seleção e Pré-processamento Warehouse Data Mining Dados Preparados p(x)=0.02 Padrões & Modelos Conhecimento

Leia mais

AULAS 04 E 05 Estatísticas Descritivas

AULAS 04 E 05 Estatísticas Descritivas 1 AULAS 04 E 05 Estatísticas Descritivas Ernesto F. L. Amaral 19 e 28 de agosto de 2010 Metodologia de Pesquisa (DCP 854B) Fonte: Triola, Mario F. 2008. Introdução à estatística. 10 ª ed. Rio de Janeiro:

Leia mais

SERVIÇO DE ANÁLISE DE REDES DE TELECOMUNICAÇÕES APLICABILIDADE PARA CALL-CENTERS VISÃO DA EMPRESA

SERVIÇO DE ANÁLISE DE REDES DE TELECOMUNICAÇÕES APLICABILIDADE PARA CALL-CENTERS VISÃO DA EMPRESA SERVIÇO DE ANÁLISE DE REDES DE TELECOMUNICAÇÕES APLICABILIDADE PARA CALL-CENTERS VISÃO DA EMPRESA Muitas organizações terceirizam o transporte das chamadas em seus call-centers, dependendo inteiramente

Leia mais

6 Construção de Cenários

6 Construção de Cenários 6 Construção de Cenários Neste capítulo será mostrada a metodologia utilizada para mensuração dos parâmetros estocásticos (ou incertos) e construção dos cenários com respectivas probabilidades de ocorrência.

Leia mais

Modelo de dados do Data Warehouse

Modelo de dados do Data Warehouse Modelo de dados do Data Warehouse Ricardo Andreatto O modelo de dados tem um papel fundamental para o desenvolvimento interativo do data warehouse. Quando os esforços de desenvolvimentos são baseados em

Leia mais

SISTEMAS DE APRENDIZADO PARA A IDENTIFICAÇÃO DO NÚMERO DE CAROÇOS DO FRUTO PEQUI LEARNING SYSTEMS FOR IDENTIFICATION OF PEQUI FRUIT SEEDS NUMBER

SISTEMAS DE APRENDIZADO PARA A IDENTIFICAÇÃO DO NÚMERO DE CAROÇOS DO FRUTO PEQUI LEARNING SYSTEMS FOR IDENTIFICATION OF PEQUI FRUIT SEEDS NUMBER SISTEMAS DE APRENDIZADO PARA A IDENTIFICAÇÃO DO NÚMERO DE CAROÇOS DO FRUTO PEQUI Fernando Luiz de Oliveira 1 Thereza Patrícia. P. Padilha 1 Conceição A. Previero 2 Leandro Maciel Almeida 1 RESUMO O processo

Leia mais

A Computação e as Classificações da Ciência

A Computação e as Classificações da Ciência A Computação e as Classificações da Ciência Ricardo de Almeida Falbo Metodologia de Pesquisa Departamento de Informática Universidade Federal do Espírito Santo Agenda Classificações da Ciência A Computação

Leia mais

Nathalie Portugal Vargas

Nathalie Portugal Vargas Nathalie Portugal Vargas 1 Introdução Trabalhos Relacionados Recuperação da Informação com redes ART1 Mineração de Dados com Redes SOM RNA na extração da Informação Filtragem de Informação com Redes Hopfield

Leia mais

SISTEMA DA GESTÃO AMBIENTAL SGA MANUAL CESBE S.A. ENGENHARIA E EMPREENDIMENTOS

SISTEMA DA GESTÃO AMBIENTAL SGA MANUAL CESBE S.A. ENGENHARIA E EMPREENDIMENTOS CESBE S.A. ENGENHARIA E EMPREENDIMENTOS SISTEMA DA GESTÃO AMBIENTAL MANUAL Elaborado por Comitê de Gestão de Aprovado por Paulo Fernando G.Habitzreuter Código: MA..01 Pag.: 2/12 Sumário Pag. 1. Objetivo...

Leia mais

BUSINESS INTELLIGENCE, O ELEMENTO CHAVE PARA O SUCESSO DAS ORGANIZAÇÕES.

BUSINESS INTELLIGENCE, O ELEMENTO CHAVE PARA O SUCESSO DAS ORGANIZAÇÕES. Encontro de Ensino, Pesquisa e Extensão, Presidente Prudente, 22 a 25 de outubro, 2012 88 BUSINESS INTELLIGENCE, O ELEMENTO CHAVE PARA O SUCESSO DAS ORGANIZAÇÕES. Andrios Robert Silva Pereira, Renato Zanutto

Leia mais

Unidade III FINANÇAS EM PROJETO DE TI. Prof. Fernando Rodrigues

Unidade III FINANÇAS EM PROJETO DE TI. Prof. Fernando Rodrigues Unidade III FINANÇAS EM PROJETO DE TI Prof. Fernando Rodrigues Quando se trabalha com projetos, é necessária a utilização de técnicas e ferramentas que nos auxiliem a estudálos, entendê-los e controlá-los.

Leia mais

Curso Superior de Tecnologia em Banco de Dados Disciplina: Projeto de Banco de Dados Relacional II Prof.: Fernando Hadad Zaidan

Curso Superior de Tecnologia em Banco de Dados Disciplina: Projeto de Banco de Dados Relacional II Prof.: Fernando Hadad Zaidan Faculdade INED Curso Superior de Tecnologia em Banco de Dados Disciplina: Projeto de Banco de Dados Relacional II Prof.: Fernando Hadad Zaidan 1 Unidade 4.5 2 1 BI BUSINESS INTELLIGENCE BI CARLOS BARBIERI

Leia mais

Redes Neurais. A IA clássica segue o paradigma da computação simbólica

Redes Neurais. A IA clássica segue o paradigma da computação simbólica Abordagens não simbólicas A IA clássica segue o paradigma da computação simbólica Redes Neurais As redes neurais deram origem a chamada IA conexionista, pertencendo também a grande área da Inteligência

Leia mais

Doenças cardiovasculares constituem um dos maiores problemas que afligem a

Doenças cardiovasculares constituem um dos maiores problemas que afligem a 18 1 INTRODUÇÃO Doenças cardiovasculares constituem um dos maiores problemas que afligem a população dos países industrializados. Essas doenças são responsáveis por mais de cinco milhões de pessoas hospitalizadas

Leia mais

Na medida em que se cria um produto, o sistema de software, que será usado e mantido, nos aproximamos da engenharia.

Na medida em que se cria um produto, o sistema de software, que será usado e mantido, nos aproximamos da engenharia. 1 Introdução aos Sistemas de Informação 2002 Aula 4 - Desenvolvimento de software e seus paradigmas Paradigmas de Desenvolvimento de Software Pode-se considerar 3 tipos de paradigmas que norteiam a atividade

Leia mais

UTILIZANDO O SOFTWARE WEKA

UTILIZANDO O SOFTWARE WEKA UTILIZANDO O SOFTWARE WEKA O que é 2 Weka: software livre para mineração de dados Desenvolvido por um grupo de pesquisadores Universidade de Waikato, Nova Zelândia Também é um pássaro típico da Nova Zelândia

Leia mais

4 Metodologia. 4.1. Tipo de pesquisa

4 Metodologia. 4.1. Tipo de pesquisa 4 Metodologia Este capítulo descreve a metodologia adotada na execução do trabalho de pesquisa: definição da variável alvo, delimitação da população, processo de seleção da amostra, técnicas e procedimentos

Leia mais

Técnicas de Mineração de Dados Aplicadas a Reservatórios visando à Gestão Ambiental na Geração de Energia

Técnicas de Mineração de Dados Aplicadas a Reservatórios visando à Gestão Ambiental na Geração de Energia Técnicas de Mineração de Dados Aplicadas a Reservatórios visando à Gestão Ambiental na Geração de Energia Aluno: Gabriel Leite Mariante Orientador: Marley Maria Bernardes Rebuzzi Vellasco Introdução e

Leia mais

Tarefas e Técnicas de Mineração de Dados TAREFAS E TÉCNICAS DE MINERAÇÃO DE DADOS

Tarefas e Técnicas de Mineração de Dados TAREFAS E TÉCNICAS DE MINERAÇÃO DE DADOS Tarefas e Técnicas de Mineração de Dados TAREFAS E TÉCNICAS DE MINERAÇÃO DE DADOS Sumário Conceitos / Autores chave... 3 1. Introdução... 3 2. Tarefas desempenhadas por Técnicas de 4 Mineração de Dados...

Leia mais

Modelagem e Simulação Material 02 Projeto de Simulação

Modelagem e Simulação Material 02 Projeto de Simulação Modelagem e Simulação Material 02 Projeto de Simulação Prof. Simão Sirineo Toscani Projeto de Simulação Revisão de conceitos básicos Processo de simulação Etapas de projeto Cuidados nos projetos de simulação

Leia mais

Redes Neurais. Profa. Flavia Cristina Bernardini

Redes Neurais. Profa. Flavia Cristina Bernardini Redes Neurais Profa. Flavia Cristina Bernardini Introdução Cérebro & Computador Modelos Cognitivos Diferentes Cérebro Computador Seqüência de Comandos Reconhecimento de Padrão Lento Rápido Rápido Lento

Leia mais

2 Avaliação de desempenho de uma rede de telecomunicações

2 Avaliação de desempenho de uma rede de telecomunicações 2 Avaliação de desempenho de uma rede de telecomunicações Ao longo do presente capítulo são introduzidos os principais elementos qualitativos e quantitativos capazes de permitir a avaliação do desempenho

Leia mais

15 Computador, projeto e manufatura

15 Computador, projeto e manufatura A U A UL LA Computador, projeto e manufatura Um problema Depois de pronto o desenho de uma peça ou objeto, de que maneira ele é utilizado na fabricação? Parte da resposta está na Aula 2, que aborda as

Leia mais

Sistema de mineração de dados para descobertas de regras e padrões em dados médicos

Sistema de mineração de dados para descobertas de regras e padrões em dados médicos Sistema de mineração de dados para descobertas de regras e padrões em dados médicos Pollyanna Carolina BARBOSA¹; Thiago MAGELA² 1Aluna do Curso Superior Tecnólogo em Análise e Desenvolvimento de Sistemas

Leia mais

SAD orientado a MODELO

SAD orientado a MODELO Universidade do Contestado Campus Concórdia Curso de Sistemas de Informação Prof.: Maico Petry SAD orientado a MODELO DISCIPLINA: Sistemas de Apoio a Decisão SAD Orientado a Modelo De acordo com ALTER

Leia mais

Figura 1.1: Exemplo de links patrocinados no Google

Figura 1.1: Exemplo de links patrocinados no Google 1 Links Patrocinados 1.1 Introdução Links patrocinados são aqueles que aparecem em destaque nos resultados de uma pesquisa na Internet; em geral, no alto ou à direita da página, como na Figura 1.1. Figura

Leia mais

Introdução a Datamining (previsão e agrupamento)

Introdução a Datamining (previsão e agrupamento) Introdução a Datamining (previsão e agrupamento) Victor Lobo Mestrado em Estatística e Gestão de Informação E o que fazer depois de ter os dados organizados? Ideias base Aprender com o passado Inferir

Leia mais

SAM GERENCIAMENTO DE ATIVOS DE SOFTWARE

SAM GERENCIAMENTO DE ATIVOS DE SOFTWARE SAM GERENCIAMENTO DE ATIVOS DE SOFTWARE Modelo de Otimização de SAM Controle, otimize, cresça Em um mercado internacional em constante mudança, as empresas buscam oportunidades de ganhar vantagem competitiva

Leia mais

AVALIAÇÃO DE IMPACTO NA PRÁTICA GLOSSÁRIO

AVALIAÇÃO DE IMPACTO NA PRÁTICA GLOSSÁRIO 1 AVALIAÇÃO DE IMPACTO NA PRÁTICA GLOSSÁRIO Amostra aleatória. Também conhecida como amostra probabilística. A melhor maneira de evitar uma amostra enviesada ou não-representativa é selecionar uma amostra

Leia mais

Carga dos alimentadores

Carga dos alimentadores 50 Análise de consumo de energia e aplicações Capítulo V Carga dos alimentadores Por Manuel Luís Barreira Martinez* Em continuidade ao capítulo anterior, Locação de cargas métodos para a locação de carga

Leia mais

CONCURSO PÚBLICO ANALISTA DE SISTEMA ÊNFASE GOVERNANÇA DE TI ANALISTA DE GESTÃO RESPOSTAS ESPERADAS PRELIMINARES

CONCURSO PÚBLICO ANALISTA DE SISTEMA ÊNFASE GOVERNANÇA DE TI ANALISTA DE GESTÃO RESPOSTAS ESPERADAS PRELIMINARES CELG DISTRIBUIÇÃO S.A EDITAL N. 1/2014 CONCURSO PÚBLICO ANALISTA DE GESTÃO ANALISTA DE SISTEMA ÊNFASE GOVERNANÇA DE TI RESPOSTAS ESPERADAS PRELIMINARES O Centro de Seleção da Universidade Federal de Goiás

Leia mais

ANÁLISE DOS REQUISITOS NORMATIVOS PARA A GESTÃO DE MEDIÇÃO EM ORGANIZAÇÕES

ANÁLISE DOS REQUISITOS NORMATIVOS PARA A GESTÃO DE MEDIÇÃO EM ORGANIZAÇÕES V CONGRESSO BRASILEIRO DE METROLOGIA Metrologia para a competitividade em áreas estratégicas 9 a 13 de novembro de 2009. Salvador, Bahia Brasil. ANÁLISE DOS REQUISITOS NORMATIVOS PARA A GESTÃO DE MEDIÇÃO

Leia mais

MINERAÇÃO DE DADOS EDUCACIONAIS: UM ESTUDO DE CASO APLICADO AO PROCESSO SELETIVO DO IFSULDEMINAS CÂMPUS MUZAMBINHO

MINERAÇÃO DE DADOS EDUCACIONAIS: UM ESTUDO DE CASO APLICADO AO PROCESSO SELETIVO DO IFSULDEMINAS CÂMPUS MUZAMBINHO MINERAÇÃO DE DADOS EDUCACIONAIS: UM ESTUDO DE CASO APLICADO AO PROCESSO SELETIVO DO IFSULDEMINAS CÂMPUS MUZAMBINHO Fernanda Delizete Madeira 1 ; Aracele Garcia de Oliveira Fassbinder 2 INTRODUÇÃO Data

Leia mais

INF 1771 Inteligência Artificial

INF 1771 Inteligência Artificial Edirlei Soares de Lima INF 1771 Inteligência Artificial Aula 12 Aprendizado de Máquina Agentes Vistos Anteriormente Agentes baseados em busca: Busca cega Busca heurística Busca local

Leia mais

Aula 5 Metodologias de avaliação de impacto

Aula 5 Metodologias de avaliação de impacto Aula 5 Metodologias de avaliação de impacto Metodologias de Avaliação de Impacto Objetiva quantificar as mudanças que o projeto causou na vida dos beneficiários. Plano de Aula Método experimental: regressão

Leia mais

Revisão de Estatística Básica:

Revisão de Estatística Básica: Revisão de Estatística Básica: Estatística: Um número é denominado uma estatística (singular). Ex.: As vendas de uma empresa no mês constituem uma estatística. Estatísticas: Uma coleção de números ou fatos

Leia mais

INTELIGÊNCIA ARTIFICIAL Data Mining (DM): um pouco de prática. (1) Data Mining Conceitos apresentados por

INTELIGÊNCIA ARTIFICIAL Data Mining (DM): um pouco de prática. (1) Data Mining Conceitos apresentados por INTELIGÊNCIA ARTIFICIAL Data Mining (DM): um pouco de prática (1) Data Mining Conceitos apresentados por 1 2 (2) ANÁLISE DE AGRUPAMENTOS Conceitos apresentados por. 3 LEMBRE-SE que PROBLEMA em IA Uma busca

Leia mais

Sistemas Gerenciadores de Bancos de Dados. / NT Editora. -- Brasília: 2013. 94p. : il. ; 21,0 X 29,7 cm.

Sistemas Gerenciadores de Bancos de Dados. / NT Editora. -- Brasília: 2013. 94p. : il. ; 21,0 X 29,7 cm. Autor Ismael Sousa Araujo Pós-graduado em Gerência de Projetos PMBOK UNICESP. Graduado em Tecnologia em Segurança da Informação UNICESP. Professor de concurso da área de informática e consultor em EAD.

Leia mais

Módulo 3 Procedimento e processo de gerenciamento de riscos, PDCA e MASP

Módulo 3 Procedimento e processo de gerenciamento de riscos, PDCA e MASP Módulo 3 Procedimento e processo de gerenciamento de riscos, PDCA e MASP 6. Procedimento de gerenciamento de risco O fabricante ou prestador de serviço deve estabelecer e manter um processo para identificar

Leia mais

Metodologias de Desenvolvimento de Sistemas. Analise de Sistemas I UNIPAC Rodrigo Videschi

Metodologias de Desenvolvimento de Sistemas. Analise de Sistemas I UNIPAC Rodrigo Videschi Metodologias de Desenvolvimento de Sistemas Analise de Sistemas I UNIPAC Rodrigo Videschi Histórico Uso de Metodologias Histórico Uso de Metodologias Era da Pré-Metodologia 1960-1970 Era da Metodologia

Leia mais

Notas da Aula 17 - Fundamentos de Sistemas Operacionais

Notas da Aula 17 - Fundamentos de Sistemas Operacionais Notas da Aula 17 - Fundamentos de Sistemas Operacionais 1. Gerenciamento de Memória: Introdução O gerenciamento de memória é provavelmente a tarefa mais complexa de um sistema operacional multiprogramado.

Leia mais

Introdução a Datamining (previsão e agrupamento)

Introdução a Datamining (previsão e agrupamento) E o que fazer depois de ter os dados organizados? Introdução a Datamining (previsão e agrupamento) Victor Lobo Mestrado em Estatística e Gestão de Informação Ideias base Aprender com o passado Inferir

Leia mais

Teste de software. Definição

Teste de software. Definição Definição O teste é destinado a mostrar que um programa faz o que é proposto a fazer e para descobrir os defeitos do programa antes do uso. Quando se testa o software, o programa é executado usando dados

Leia mais

Apostila de Gerenciamento e Administração de Redes

Apostila de Gerenciamento e Administração de Redes Apostila de Gerenciamento e Administração de Redes 1. Necessidades de Gerenciamento Por menor e mais simples que seja uma rede de computadores, precisa ser gerenciada, a fim de garantir, aos seus usuários,

Leia mais

O PROJETO DE PESQUISA. Prof. Angelo Augusto Frozza, M.Sc. http://about.me/tilfrozza

O PROJETO DE PESQUISA. Prof. Angelo Augusto Frozza, M.Sc. http://about.me/tilfrozza O PROJETO DE PESQUISA Prof. Angelo Augusto Frozza, M.Sc. http://about.me/tilfrozza ROTEIRO Escolher um tema de pesquisa Por onde começar? Ler para aprender Estrutura do Projeto de Pesquisa A Definição

Leia mais

XX Seminário Nacional de Distribuição de Energia Elétrica SENDI 2012-22 a 26 de outubro Rio de Janeiro - RJ - Brasil

XX Seminário Nacional de Distribuição de Energia Elétrica SENDI 2012-22 a 26 de outubro Rio de Janeiro - RJ - Brasil XX Seminário Nacional de Distribuição de Energia Elétrica SENDI 2012-22 a 26 de outubro Rio de Janeiro - RJ - Brasil Patricia Viero Minussi Aes Sul Distribuidora Gaúcha de Energia patricia.minussi@aes.com

Leia mais

CHECK - LIST - ISO 9001:2000

CHECK - LIST - ISO 9001:2000 REQUISITOS ISO 9001: 2000 SIM NÃO 1.2 APLICAÇÃO A organização identificou as exclusões de itens da norma no seu manual da qualidade? As exclusões são relacionadas somente aos requisitos da sessão 7 da

Leia mais

Aprendizagem de Máquina

Aprendizagem de Máquina Aprendizagem de Máquina Professor: Rosalvo Ferreira de Oliveira Neto Disciplina: Inteligência Artificial Tópicos 1. Definições 2. Tipos de aprendizagem 3. Paradigmas de aprendizagem 4. Modos de aprendizagem

Leia mais

4 Segmentação. 4.1. Algoritmo proposto

4 Segmentação. 4.1. Algoritmo proposto 4 Segmentação Este capítulo apresenta primeiramente o algoritmo proposto para a segmentação do áudio em detalhes. Em seguida, são analisadas as inovações apresentadas. É importante mencionar que as mudanças

Leia mais

3 Classificação. 3.1. Resumo do algoritmo proposto

3 Classificação. 3.1. Resumo do algoritmo proposto 3 Classificação Este capítulo apresenta primeiramente o algoritmo proposto para a classificação de áudio codificado em MPEG-1 Layer 2 em detalhes. Em seguida, são analisadas as inovações apresentadas.

Leia mais

Pesquisa Operacional

Pesquisa Operacional GOVERNO DO ESTADO DO PARÁ UNIVERSIDADE DO ESTADO DO PARÁ CENTRO DE CIÊNCIAS NATURAIS E TECNOLOGIA DEPARTAMENTO DE ENGENHARIA Pesquisa Operacional Tópico 4 Simulação Rosana Cavalcante de Oliveira, Msc rosanacavalcante@gmail.com

Leia mais

3 Market Basket Analysis - MBA

3 Market Basket Analysis - MBA 2 Mineração de Dados 3 Market Basket Analysis - MBA Market basket analysis (MBA) ou, em português, análise da cesta de compras, é uma técnica de data mining que faz uso de regras de associação para identificar

Leia mais

17/10/2012. dados? Processo. Doutorado em Engenharia de Produção Michel J. Anzanello. Doutorado EP - 2. Doutorado EP - 3.

17/10/2012. dados? Processo. Doutorado em Engenharia de Produção Michel J. Anzanello. Doutorado EP - 2. Doutorado EP - 3. Definição de Data Mining (DM) Mineração de Dados (Data Mining) Doutorado em Engenharia de Produção Michel J. Anzanello Processo de explorar grandes quantidades de dados à procura de padrões consistentes

Leia mais