UNIVERSIDADE FEDERAL FLUMINENSE LUIZ HENRIQUE DE CAMPOS MERSCHMANN CLASSIFICAÇÃO PROBABILÍSTICA BASEADA EM ANÁLISE DE PADRÕES
|
|
- Melissa Lemos Festas
- 8 Há anos
- Visualizações:
Transcrição
1 UNIVERSIDADE FEDERAL FLUMINENSE LUIZ HENRIQUE DE CAMPOS MERSCHMANN CLASSIFICAÇÃO PROBABILÍSTICA BASEADA EM ANÁLISE DE PADRÕES NITERÓI 2007
2 UNIVERSIDADE FEDERAL FLUMINENSE LUIZ HENRIQUE DE CAMPOS MERSCHMANN CLASSIFICAÇÃO PROBABILÍSTICA BASEADA EM ANÁLISE DE PADRÕES Tese de Doutorado submetida ao Programa de Pós-Graduação em Computação da Universidade Federal Fluminense como requisito parcial para a obtenção do título de Doutor. Área de concentração: Otimização Combinatória. Orientador: Alexandre Plastino de Carvalho NITERÓI 2007
3 CLASSIFICAÇÃO PROBABILÍSTICA BASEADA EM ANÁLISE DE PADRÕES Luiz Henrique de Campos Merschmann Tese de Doutorado submetida ao Programa de Pós-Graduação em Computação da Universidade Federal Fluminense como requisito parcial para a obtenção do título de Doutor. Aprovada por: Alexandre Plastino de Carvalho, D.Sc. / IC-UFF (Presidente) Nelson Francisco Favilla Ebecken, D.Sc. / COPPE-UFRJ Andre Carlos Ponce de Leon Ferreira de Carvalho, Ph.D. / ICMC-USP Ana Cristina Bicharra Garcia, Ph.D. / IC-UFF Bianca Zadrozny, Ph.D. / IC-UFF Niterói, 28 de agosto de 2007.
4 Dedico este trabalho à minha mãe, que perdeu noites de sono para que eu dormisse tranqüilo e sonhasse, que acreditou em mim, dando-me conança para que eu lutasse pelos meus sonhos, e que chorou de saudade quando a realização desses sonhos implicou em car longe de mim.
5 Agradecimentos Muitas pessoas contribuíram para que eu concluísse com êxito esta tese de doutorado. Por isso, seguem os meus sinceros agradecimentos a todos que, direta ou indiretamente, me auxiliaram nessa conquista. Inicialmente, agradeço aos meus pais, que não pouparam esforços para que eu pudesse alcançar os meus objetivos. Agradeço especialmente por terem me ensinado que, mesmo nos momentos mais difíceis, não devemos desistir de nossos sonhos. À minha amada Michelle, que com amor, carinho e paciência, compartilhou comigo todas as alegrias e tristezas vividas durante o doutorado. A sua presença iluminou cada instante de nossas vidas durante essa jornada. Ao professor Alexandre Plastino, orientador deste trabalho, por ter aceitado me orientar, pela amizade, paciência e apoio em todos os momentos necessários. Certamente, o seu entusiasmo como pesquisador e a sua postura prossional servirão como exemplo para mim por toda a vida. Aos professores e funcionários da UFF, que muito contribuíram para a minha formação acadêmica. Agradeço de forma especial ao professor Luiz Satoru Ochi, pelo auxílio nos primeiros anos do doutorado, e aos professores que participaram da banca de avaliação desta tese. A todos os amigos que conviveram comigo no Laboratório de Computação da Pós- Graduação, pelo incentivo e companheirismo. Aos amigos Haroldo Gambini Santos e Euler Horta Marinho, que com sábias palavras, muito me ajudaram na vida acadêmica e pessoal. Aos meus familiares, pelo inestimável apoio, incentivo e carinho.
6 Resumo Classicação é uma das tarefas de Mineração de Dados que tem se mostrado útil em diversas áreas de aplicação, em particular, na área de Bioinformática. A revolução genômica resultou em um crescimento exponencial da quantidade de dados biológicos gerados pela comunidade cientíca. Com a nalidade de armazenar toda essa informação biológica gerada, foram criados os bancos de dados biológicos. A necessidade por ferramentas computacionais capazes de realizar análises nesses dados tornou-se cada vez mais evidente, fazendo com que técnicas de mineração de dados começassem a ser empregadas. O trabalho desta tese concentra-se na tarefa de classicação e, inicialmente, na sua aplicação em bioinformática. O objetivo inicial é apresentar um método de classicação de proteínas computacionalmente eciente e capaz de alcançar altas taxas de acurácia, superando resultados apresentados anteriormente na literatura. Os bons resultados, em termos de acurácia preditiva e tempo computacional, obtidos a partir do método proposto nesta tese, demonstram o seu potencial para o problema de classicação de proteínas. Além disso, visando a construção de um classicador adequado para diversos tipos de aplicação, o método proposto inicialmente para o problema de classicação de proteínas foi estendido e mostrou-se eciente também quando utilizado com diferentes tipos de bases de dados pertencentes a aplicações distintas. Palavras-chave: mineração de dados, classicação, bioinformática.
7 Abstract Classication is a data mining task that has been useful in several application areas, particularly, in bioinformatics. The genomic revolution has resulted in an explosive growth of biological data generated by the scientic community. With the aim of storing all of these biological information, biological databases were created. The need for computational tools for analysing biological data becomes evident, resulting in the application of data mining methods in this eld. The work developed in this thesis is related to classication task and, initially, to its application to bioinformatics. The initial goal is to present a computationally ecient method for protein classication capable of yielding highly accurate results, outperforming the results obtained by previous works. The good results in terms of accuracy and time performance obtained by the proposed method show its potential for the protein classication problem. In addition, aiming to construct a suitable classier for several kinds of applications, the method proposed for the protein classication problem was extended, becoming appropriate and ecient for several databases associated with dierent applications. Keywords: data mining, classication, bioinformatics.
8 Glossário ARCS : Association Rule Clustering System; CAEP : Classication by Aggregating Emerging Patterns; CARs : Class Association Rules; CATH : Class/Architecture/Topology/Homology; CBA : Classication Based on Association; CFS : Correlation-based Feature Selection; GI : Ganho de Informação; EM : Expectation Maximization; EPs : Emerging Patterns; GPCR : G-Protein Coupled Receptors; HiSP : Highest Subset Probability; HiSP-Prot : Highest Subset Probability - for Protein Classication Problem; IC : Instituto de Computação; JEP : Jumping Emerging Pattern; KDD : Knowledge Discovery in Database; k-nn : k-nearest Neighbor; MEME : Multiple Expectation Maximization for Motif Elicitation; MS SQL : Microsoft Structured Query Language; NB : NaiveBayes; PCP : Protein Classication Problem; PDB : Protein Data Bank; PIR : Protein Identication Resource; RNA : Redes Neural Articial; SCOP : Structural Classication of Proteins; SVM : Support Vector Machines; UCI : University of California, Irvine; UFF : Universidade Federal Fluminense;
9 Sumário Lista de Figuras Lista de Tabelas x xi 1 Introdução 1 2 Técnicas e Algoritmos de Classicação Introdução O Processo de Classicação Estimativa da Acurácia dos Modelos de Classicação Avaliação dos Métodos de Classicação Pré-Processamento dos Dados Discretização de Atributos Valores Desconhecidos de Atributos Seleção de Atributos Métodos e Algoritmos de Classicação Classicação por Indução de Árvores de Decisão Indução de Árvores de Decisão Extração de Regras de Classicação Considerações Adicionais sobre Árvores de Decisão Classicação Bayesiana Teorema de Bayes Classicação Bayesiana Simples
10 Sumário viii Redes Bayesianas Considerações Adicionais sobre Classicadores Bayesianos Classicação Baseada em Conceitos de Regras de Associação ARCS Classicação Associativa CAEP Outros Classicadores Baseados em Conceitos de Regras de Associação Outros Métodos de Classicação k-nn Máquinas de Vetor de Suporte Classicação por Redes Neurais Classicação de Proteínas Considerações Iniciais O Problema de Classicação de Proteínas Bancos de Dados de Proteínas Trabalhos Relacionados O Método Proposto Avaliação do Método Proposto Avaliação Comparativa Avaliação do Impacto do Desbalanceamento de Classes das Bases de Dados na Classicação HiSP-Prot com Seleção de Motivos Generalização do HiSP-Prot Introdução Características do Método
11 Sumário ix 4.3 O Método Proposto Considerações Adicionais Resultados Experimentais Introdução Avaliação Comparativa Tempo Computacional e Escalabilidade Conclusões 92 Referências 97
12 Lista de Figuras 2.1 Espaço de soluções para um problema contendo quatro atributos [52] Árvore de decisão simples para avaliação de comportamento de consumidores Pseudocódigo do ID Etapa inicial da construção de uma árvore de decisão (a) Exemplo de uma rede Bayesiana e (b) Tabela de probabilidades condicionais da variável X Matriz bidimensional representando as características dos consumidores que compram computadores Hiperplano ótimo para classes linearmente separáveis Exemplo de uma rede neural. A instância de treinamento X = {x 1, x 2,..., x i } está alimentando a rede. Os pesos estão representados por w ji e w kj Exemplo de base de dados de proteína Pseudocódigo do HiSP-Prot Pseudocódigo do pré-processador do HiSP-Prot Comportamento do valor do limite mínimo Pseudocódigo do HiSP Escalabilidade segundo o número de instâncias
13 Lista de Tabelas 2.1 Base de dados de treinamento (*) Cálculo de entropia Base de dados de treinamento Resultados da avaliação comparativa Resultados de desempenho do HiSP-Prot Distribuição das proteínas entre as classes Resultados experimentais do HiSP-Prot com e sem seleção de motivos Resultados de acurácia para as bases de dados do Grupo Comparação do HiSP com as outras técnicas Número de atributos selecionados Resultados de acurácia para as bases de dados do Grupo 2 (todos os métodos utilizaram as bases reduzidas a partir da técnica Correlation-based Feature Selection) Resultados de acurácia para as bases de dados do Grupo 2 (somente o HiSP utilizou as bases reduzidas a partir da técnica Correlation-based Feature Selection) Comparação do HiSP com as outras técnicas Resultados de acurácia para as bases de dados do Grupo 2 (todos os métodos utilizaram as bases reduzidas a partir da técnica Consistency-based Feature Selection) Resultados de acurácia para as bases de dados do Grupo 2 (somente o HiSP utilizou as bases reduzidas a partir da técnica Consistency-based Feature Selection) Comparação do HiSP com as outras técnicas
14 Lista de Tabelas xii 5.10 Resultados de acurácia para as bases de dados do Grupo 2 (todos os métodos utilizaram as bases reduzidas a partir da técnica Information Gain Attribute Ranking) Resultados de acurácia para as bases de dados do Grupo 2 (somente o HiSP utilizou as bases reduzidas a partir da técnica Information Gain Attribute Ranking) Comparação do HiSP com as outras técnicas Tempo de CPU do HiSP para as bases de dados do Grupo Tempo de CPU do HiSP para as bases de dados do Grupo
15 Capítulo 1 Introdução A quantidade de dados disponível no mundo, em ambientes computacionais, tem aumentado consideravelmente a cada dia. A necessidade por ferramentas computacionais capazes de analisar esses dados motivou o surgimento da área de pesquisa e aplicação em ciência da computação conhecida como mineração de dados [29]. Processos de mineração de dados permitem a transformação de dados, uma matéria bruta, em informação e conhecimento úteis em diversas áreas de aplicação, tais como administração, nanças, saúde, educação, marketing, entre outras. O progresso vericado na tecnologia de hardware de computadores e nas técnicas de processamento, armazenamento e transmissão de informações digitais propiciou o acúmulo de grandes quantidades de dados históricos nas últimas décadas, motivando, a partir de 1990, o desenvolvimento de técnicas e ferramentas especícas de mineração de dados. Tais ferramentas realizam análises em dados com o objetivo de extrair informações novas e úteis. De forma simples, tarefas em mineração de dados podem ser denidas como processos automatizados de descoberta de novas informações a partir de grandes massas de dados armazenadas em bancos de dados, arquivos de texto, data warehouses, ou em algum outro repositório de dados. Sendo uma área de estudo extensa e interdisciplinar, a mineração de dados envolve a integração de conceitos e técnicas de diversas áreas, tais como: banco de dados, estatística, inteligência articial, visualização de dados e otimização. Apesar de alguns autores utilizarem o termo mineração de dados como sinônimo de KDD (Knowledge Discovery in Database) [29] processo de descoberta de conhecimento em bases de dados, outros consideram que a mineração de dados representa a etapa central desse processo maior denominado KDD. As outras etapas tratam, basicamente,
16 1 Introdução 2 do pré-processamento dos dados (seleção, limpeza e transformação) e pós-processamento da informação minerada (visualização e análise). Os problemas tratados em mineração de dados são resolvidos por dois grandes grupos de soluções ou tarefas: Tarefas descritivas: têm como objetivo encontrar padrões que descrevam os dados, permitindo sua análise. As principais tarefas descritivas são: Extração de Regras de Associação e Agrupamento (Clustering). Tarefas preditivas: realizam inferências sobre os dados existentes para predizer o comportamento de novos dados. As principais tarefas preditivas são: Classicação e Regressão. Classicação é uma das tarefas mais importantes em mineração de dados, sendo portanto objeto de inúmeras pesquisas. Os resultados apresentados nesta tese concentram-se nessa tarefa e na sua aplicação na área de bioinformática. Dentre as diversas áreas de aplicação das técnicas de mineração de dados, a bioinformática vem se destacando nas últimas décadas. Essa nova área de estudo, também surgida recentemente, trata do armazenamento, organização, análise, interpretação e utilização de informações provenientes de dados biológicos [92]. A revolução genômica resultou num crescimento exponencial da quantidade de dados biológicos gerados pela comunidade cientíca. Com a nalidade de armazenar toda essa informação biológica gerada, foram criados os bancos de dados biológicos [10]. A necessidade por ferramentas capazes de realizar análises nesses dados tornou-se evidente, fazendo com que técnicas de mineração de dados começassem a ser empregadas nesse contexto. Desse modo, diversas técnicas de mineração de dados vêm sendo propostas por pesquisadores para solucionar problemas biológicos [92], tais como: descobrir associações e correlações entre genes, localizar genes especícos em uma seqüência, predizer a estrutura ou a função de uma proteína, agrupar proteínas em famílias de seqüências relacionadas entre si, entre outros. Motivação e Objetivos do Trabalho A construção de classicadores precisos e computacionalmente ecientes para bases de dados grandes, em termos de volume e dimensão, é um importante desao da área de
17 1 Introdução 3 mineração de dados. O intenso interesse por esse tema fez com que diversas técnicas para construção de classicadores fossem propostas, tais como: árvores de decisão [71], k-nn (k-nearest Neighbor) [20], classicadores Bayesianos [26], redes neurais [39], máquinas de vetor de suporte (Support Vector Machines SVM) [89], entre outras. O problema de classicação de proteínas (Protein Classication Problem PCP) vem sendo objeto de vários trabalhos de pesquisa na área de bioinformática. Trata-se de uma importante tarefa para a biologia molecular, uma vez que, através da identicação da classe de uma proteína, é possível inferir quais são as suas funções. Algumas técnicas de classicação têm sido utilizadas com o intuito de predizer a função de proteínas a partir de suas composições de motivos (motifs) [38, 70, 91, 93]. Uma ferramenta computacional de pré-processamento e análise de dados genéticos, denominada GenMiner, foi apresentada em [38]. Nesse trabalho, árvores de decisão foram utilizadas para a classicação das proteínas. No trabalho proposto em [70], desenvolveu-se um algoritmo de indução de regras de classicação a partir de autômatos nitos. As propostas apresentadas em [91, 93] também exploraram a técnica de extração de árvores de decisão com o objetivo de extrair regras para classicar as proteínas. Apesar de esses trabalhos apresentarem resultados promissores para a tarefa de classicação de proteínas, evidenciando que as técnicas utilizadas foram adequadas para resolução do problema em questão, somente em [70] realizaramse experimentos englobando um grande conjunto de proteínas (aproximadamente 40000) armazenado no banco de dados biológico adotado o Prosite [45]. E para esse caso, o método proposto atingiu uma acurácia de somente 41,4%. Esse fato motivou a proposta inicial deste trabalho, cujo objetivo é apresentar um método de classicação de proteínas computacionalmente eciente e capaz de alcançar altas taxas de acurácia, superando resultados apresentados anteriormente, mesmo para bases de dados contendo um grande número de proteínas. Por realizar a classicação tomando como base probabilidades associadas a subconjuntos de valores de atributos que caracterizam as proteínas, o primeiro método proposto nesta tese foi denominado HiSP-Prot (Highest Subset Probability - for Protein Classication Problem). No HiSP-Prot, a classicação de instâncias é baseada em análise de padrões. Considerando que cada instância é descrita por um conjunto de atributos, um padrão corresponde a uma combinação de valores desses atributos que caracteriza uma determinada classe. A idéia central do método é classicar uma instância descobrindo-se quais subconjuntos dos seus valores de atributos melhor caracterizam alguma classe. Desse modo, o classicador
18 1 Introdução 4 atribui a uma nova instância a classe que melhor é descrita pelos seus subconjuntos de valores de atributos. As técnicas apresentadas em [38] e [70] para resolver o PCP foram escolhidas para uma avaliação comparativa com o HiSP-Prot, uma vez que essas abordagens apresentaram os melhores resultados experimentais. Os bons resultados obtidos na avaliação realizada nesta tese mostraram o potencial do método proposto para a resolução do PCP e motivaram a proposta de uma generalização do mesmo. Portanto, o segundo objetivo desta tese é estender o método proposto inicialmente para o PCP (HiSP-Prot), tornando-o adequado e eciente para diferentes tipos de bases de dados pertencentes a aplicações distintas. A generalização do HiSP-Prot foi denominada simplesmente HiSP (Highest Subset Probability). Para avaliar e validar o método HiSP a partir de bases de dados com características distintas e pertencentes a diferentes aplicações, 40 bases de dados de domínio público, freqüentemente utilizadas em experimentos de mineração de dados, foram selecionadas no repositório de dados UCI Machine Learning Repository [12]. A partir dessas bases, resultados que conrmam a eciência do HiSP são obtidos ao compará-lo com importantes técnicas de classicação, tais como: árvores de decisão, k-nn, classicação Bayesiana simples e classicação associativa. O restante desta tese está organizado como especicado a seguir. O Capítulo 2 contém uma denição do processo de classicação e uma revisão bibliográca sobre o tema. O Capítulo 3 apresenta o problema de classicação de proteínas, os trabalhos relacionados, o método proposto para solucionar esse problema, os experimentos computacionais realizados e a análise dos resultados obtidos. A generalização do método proposto para o problema de classicação de proteínas, com o objetivo de torná-lo adequado e eciente para outras aplicações, é descrita no Capítulo 4. O Capítulo 5 relata os resultados obtidos com o método generalizado para experimentos realizados com as 40 bases de dados utilizadas. Por m, o Capítulo 6 apresenta as conclusões deste trabalho e propostas de trabalhos futuros.
19 Capítulo 2 Técnicas e Algoritmos de Classicação 2.1 Introdução Tradicionalmente, a literatura da área de mineração de dados apresenta o processo de KDD (Knowledge Discovery in Database) dividido em seis etapas, as quais englobam duas grandes fases: a preparação dos dados e a sua mineração. O processo de KDD começa com a compreensão do domínio da aplicação e o estabelecimento de objetivos a serem alcançados. A próxima etapa corresponde a uma preparação dos dados. Nessa fase, os dados são pré-processados, ou seja, passam por transformações com o objetivo de carem adequados ao uso pelas técnicas de mineração de dados. Posteriormente, chega-se à fase de mineração dos dados. Uma das tarefas mais importantes em mineração de dados, que tem se mostrado útil em diversas áreas de aplicação, é a classicação. Ela corresponde a uma forma de análise de dados cujo objetivo é construir modelos, a partir de um conjunto de instâncias com características e classes conhecidas, capazes de classicar novas instâncias a partir de suas características. Essa tarefa é considerada preditiva, uma vez que são realizadas inferências sobre dados para se predizer a classe de uma nova instância. Vários métodos de classicação vêm sendo propostos por pesquisadores das áreas de aprendizado de máquina, estatística e mineração de dados. Neste capítulo, uma visão geral do processo de classicação é apresentada na Seção 2.2. As Seções 2.3 e 2.4 discutem técnicas relacionadas com a avaliação dos métodos de classicação. Em seguida, algumas questões relacionadas com o pré-processamento dos dados são abordadas na Seção 2.5. Por m, na Seção 2.6, são apresentados métodos e algoritmos comumente utilizados pela comunidade cientíca para a tarefa de classicação.
20 2.2 O Processo de Classicação O Processo de Classicação O processo de classicação pode ser dividido em duas etapas. Na primeira etapa, conhecida como treinamento, o objetivo é construir modelos que caracterizem as classes a partir dos valores dos atributos das instâncias da base de dados, ou seja, modelos capazes de realizar o mapeamento entre valores de atributos de uma instância e uma determinada classe. A construção desse modelo é realizada por meio de análise de instâncias contidas numa base de dados, as quais são representadas pelos seus atributos. Cada instância pertence a uma classe, denida por um dos atributos, denominado atributo classe. As instâncias analisadas para a construção do modelo constituem uma base de dados conhecida como base de dados de treinamento. Na segunda etapa, o modelo construído é avaliado quanto à sua acurácia preditiva. Se esse teste de acurácia produzir resultados aceitáveis, o modelo poderá ser utilizado na classicação de novas instâncias, ou seja, instâncias cujas classes são desconhecidas. A estimativa da acurácia preditiva do modelo é realizada utilizando-se um conjunto de instâncias cujas classes são conhecidas. Desse modo, por meio de análise comparativa, pode-se calcular o percentual de instâncias corretamente classicadas, ou seja, a precisão (ou acurácia) do modelo para o conjunto de instâncias em questão. Se a acurácia do modelo for estimada a partir das mesmas instâncias utilizadas para sua construção, provavelmente, uma estimativa otimista será obtida. Sendo assim, o mais indicado é utilizar instâncias que não zeram parte do conjunto de treinamento. Essas instâncias constituem a base de dados de teste. Portanto, um procedimento comum antes do início do processo de classicação é a divisão da base de dados inicial (que contém instâncias cujas classes são conhecidas) em base de dados de treinamento e de teste. A Seção 2.3 descreve dois métodos comumente utilizados na estimativa da acurácia de modelos de classicação. 2.3 Estimativa da Acurácia dos Modelos de Classicação A avaliação da acurácia dos modelos de classicação é importante por permitir uma estimativa da precisão do modelo ao classicar dados futuros, ou seja, dados que não foram utilizados no processo de construção do modelo. Além disso, essa estimativa permite a comparação de desempenho entre diferentes classicadores sobre um mesma base de dados de teste.
21 2.3 Estimativa da Acurácia dos Modelos de Classicação 7 Segundo [37], holdout e validação cruzada (cross validation) são dois métodos comumente utilizados na avaliação da acurácia de um classicador. Nos dois métodos, a base de dados inicial é particionada para gerar as bases de dados de treinamento e de teste. No método holdout a base de dados inicial é aleatoriamente dividida nas bases de treinamento e de teste. Geralmente, dois terços dos dados da base inicial são utilizados como base de dados de treinamento, e o restante, como base de dados de teste [51]. Para evitar que a estimativa da acurácia seja inuenciada por uma possível particularidade da partição que compõe a base de dados de teste, na prática, é comum aplicar o método holdout k vezes, gerando assim k pares (treinamento e teste) de bases de dados distintos. Desse modo, a acurácia é obtida a partir da média dos percentuais de acerto obtidos a partir de cada um dos k testes. Na k-validação cruzada (k-fold cross validation) [51], a base de dados inicial é aleatoriamente dividida em k partições de mesmo tamanho (ou aproximadamente do mesmo tamanho). A acurácia corresponde à média dos percentuais de acerto de k iterações. Em cada iteração, cada uma das k partições geradas forma a base de dados de teste e as k 1 partições restantes, a base de dados de treinamento. Segundo [95], uma grande quantidade de testes sobre diversas bases de dados têm mostrado que o valor de k igual a dez é o mais adequado para se obter uma boa estimativa da precisão do classicador. Portanto, na prática, a validação cruzada com k igual a dez vem sendo o método mais utilizado. No entanto, uma única realização da 10-validação cruzada pode não ser suciente para obtenção de uma boa estimativa da acurácia do modelo. Isso pode acontecer devido à aleatoriedade existente na escolha das k partições. Sendo assim, um procedimento geralmente realizado para tentar melhorar a estimativa da acurácia é a repetição da 10-validação cruzada dez vezes. A acurácia será o resultado médio dessas dez execuções. Apesar de o método 10-validação cruzada ser o mais comumente utilizado, outros dois métodos são freqüentemente citados na literatura, o leave-one-out [85] e o bootstrap [28]. O leave-one-out é simplesmente uma n-validação cruzada, onde n é o número de instâncias da base de dados. Já o bootstrap corresponde a um procedimento estatístico de amostragem com reposição. Nesse caso, a base de dados de treinamento é formada por meio de amostragem com reposição na base de dados inicial, e a base de teste, pelos elementos não selecionados para a composição da base de dados de treinamento.
22 2.4 Avaliação dos Métodos de Classicação Avaliação dos Métodos de Classicação Tanto na avaliação de um método de classicação especíco quanto na comparação entre diferentes métodos, os seguintes critérios podem ser levados em consideração [37]: Acurácia preditiva: é a habilidade que o modelo possui de predizer corretamente a classe de uma instância desconhecida. Desempenho: corresponde aos custos computacionais envolvidos na geração e aplicação do modelo. Robustez: é a habilidade do modelo de classicar corretamente instâncias a partir de dados com ruídos e com valores de atributos desconhecidos. Escalabilidade: refere-se à construção eciente de modelos a partir de grandes quantidades de dados. Interpretabilidade: diz respeito ao grau de compreensibilidade proporcionado pelo modelo ao usuário da aplicação. 2.5 Pré-Processamento dos Dados Atualmente, é muito comum existirem bases de dados contendo ruídos, dados inconsistentes e instâncias com valores de atributos desconhecidos. Desse modo, uma fase de preparação dos dados pode ser utilizada com o intuito de melhorar a qualidade dos mesmos. Além disso, transformações podem ser necessárias para adequar os dados ao uso por alguma técnica de mineração de dados especíca. Diversas técnicas de pré-processamento podem ser utilizadas na fase de preparação dos dados. Na Seção 2.5.1, são apresentados alguns métodos de discretização de atributos. Em seguida, na Seção 2.5.2, são mostradas algumas alternativas propostas para lidar com os valores desconhecidos de atributos. Por m, o problema de seleção de atributos é discutido na Seção Discretização de Atributos Diversos algoritmos de mineração de dados trabalham com bases de dados contendo somente atributos discretos. No entanto, na prática, algumas bases de dados possuem
Técnicas de Seleção de Atributos utilizando Paradigmas de Algoritmos Disciplina de Projeto e Análise de Algoritmos
Técnicas de Seleção de Atributos utilizando Paradigmas de Algoritmos Disciplina de Projeto e Análise de Algoritmos Theo Silva Lins, Luiz Henrique de Campos Merschmann PPGCC - Programa de Pós-Graduação
Leia maisExtração de Conhecimento & Mineração de Dados
Extração de Conhecimento & Mineração de Dados Nesta apresentação é dada uma breve introdução à Extração de Conhecimento e Mineração de Dados José Augusto Baranauskas Departamento de Física e Matemática
Leia maisMINERAÇÃO DE DADOS APLICADA. Pedro Henrique Bragioni Las Casas pedro.lascasas@dcc.ufmg.br
MINERAÇÃO DE DADOS APLICADA Pedro Henrique Bragioni Las Casas pedro.lascasas@dcc.ufmg.br Processo Weka uma Ferramenta Livre para Data Mining O que é Weka? Weka é um Software livre do tipo open source para
Leia maisAvaliando o que foi Aprendido
Avaliando o que foi Aprendido Treinamento, teste, validação Predição da performance: Limites de confiança Holdout, cross-validation, bootstrap Comparando algoritmos: o teste-t Predecindo probabilidades:função
Leia maisExtração de Árvores de Decisão com a Ferramenta de Data Mining Weka
Extração de Árvores de Decisão com a Ferramenta de Data Mining Weka 1 Introdução A mineração de dados (data mining) pode ser definida como o processo automático de descoberta de conhecimento em bases de
Leia maisADM041 / EPR806 Sistemas de Informação
ADM041 / EPR806 Sistemas de Informação UNIFEI Universidade Federal de Itajubá Prof. Dr. Alexandre Ferreira de Pinho 1 Sistemas de Apoio à Decisão (SAD) Tipos de SAD Orientados por modelos: Criação de diferentes
Leia mais6 Construção de Cenários
6 Construção de Cenários Neste capítulo será mostrada a metodologia utilizada para mensuração dos parâmetros estocásticos (ou incertos) e construção dos cenários com respectivas probabilidades de ocorrência.
Leia maisXIII Encontro de Iniciação Científica IX Mostra de Pós-graduação 06 a 11 de outubro de 2008 BIODIVERSIDADE TECNOLOGIA DESENVOLVIMENTO
XIII Encontro de Iniciação Científica IX Mostra de Pós-graduação 06 a 11 de outubro de 2008 BIODIVERSIDADE TECNOLOGIA DESENVOLVIMENTO EPE0147 UTILIZAÇÃO DA MINERAÇÃO DE DADOS EM UMA AVALIAÇÃO INSTITUCIONAL
Leia maisTÓPICOS AVANÇADOS EM ENGENHARIA DE SOFTWARE
TÓPICOS AVANÇADOS EM ENGENHARIA DE SOFTWARE Engenharia de Computação Professor: Rosalvo Ferreira de Oliveira Neto Estudos Comparativos Recentes - Behavior Scoring Roteiro Objetivo Critérios de Avaliação
Leia maisSistema de mineração de dados para descobertas de regras e padrões em dados médicos
Sistema de mineração de dados para descobertas de regras e padrões em dados médicos Pollyanna Carolina BARBOSA¹; Thiago MAGELA² 1Aluna do Curso Superior Tecnólogo em Análise e Desenvolvimento de Sistemas
Leia maisAprendizagem de Máquina
Aprendizagem de Máquina Professor: Rosalvo Ferreira de Oliveira Neto Disciplina: Inteligência Artificial Tópicos 1. Definições 2. Tipos de aprendizagem 3. Paradigmas de aprendizagem 4. Modos de aprendizagem
Leia mais3 Classificação. 3.1. Resumo do algoritmo proposto
3 Classificação Este capítulo apresenta primeiramente o algoritmo proposto para a classificação de áudio codificado em MPEG-1 Layer 2 em detalhes. Em seguida, são analisadas as inovações apresentadas.
Leia maisMultiplexador. Permitem que vários equipamentos compartilhem um único canal de comunicação
Multiplexadores Permitem que vários equipamentos compartilhem um único canal de comunicação Transmissor 1 Receptor 1 Transmissor 2 Multiplexador Multiplexador Receptor 2 Transmissor 3 Receptor 3 Economia
Leia maisDATA WAREHOUSE. Introdução
DATA WAREHOUSE Introdução O grande crescimento do ambiente de negócios, médias e grandes empresas armazenam também um alto volume de informações, onde que juntamente com a tecnologia da informação, a correta
Leia mais3 Metodologia de Previsão de Padrões de Falha
3 Metodologia de Previsão de Padrões de Falha Antes da ocorrência de uma falha em um equipamento, ele entra em um regime de operação diferente do regime nominal, como descrito em [8-11]. Para detectar
Leia maisUNIVERSIDADE FEDERAL DE SANTA CATARINA GRADUAÇÃO EM SISTEMAS DE INFORMAÇÃO DEPARTAMENTO DE INFORMÁTICA E ESTATÍSTICA DATA MINING EM VÍDEOS
UNIVERSIDADE FEDERAL DE SANTA CATARINA GRADUAÇÃO EM SISTEMAS DE INFORMAÇÃO DEPARTAMENTO DE INFORMÁTICA E ESTATÍSTICA DATA MINING EM VÍDEOS VINICIUS DA SILVEIRA SEGALIN FLORIANÓPOLIS OUTUBRO/2013 Sumário
Leia mais2 Atualidade de uma base de dados
2 Atualidade de uma base de dados Manter a atualidade de uma base de dados é um problema que pode ser abordado de diferentes maneiras. Cho e Garcia-Molina [CHO] definem esse problema da seguinte forma:
Leia maisAprendizagem de Máquina. Ivan Medeiros Monteiro
Aprendizagem de Máquina Ivan Medeiros Monteiro Definindo aprendizagem Dizemos que um sistema aprende se o mesmo é capaz de melhorar o seu desempenho a partir de suas experiências anteriores. O aprendizado
Leia maisProjeto e Análise de Algoritmos Projeto de Algoritmos Tentativa e Erro. Prof. Humberto Brandão humberto@bcc.unifal-mg.edu.br
Projeto e Análise de Algoritmos Projeto de Algoritmos Tentativa e Erro Prof. Humberto Brandão humberto@bcc.unifal-mg.edu.br Laboratório de Pesquisa e Desenvolvimento Universidade Federal de Alfenas versão
Leia maisUniversidade Tecnológica Federal do Paraná UTFPR Programa de Pós-Graduação em Computação Aplicada Disciplina de Mineração de Dados
Universidade Tecnológica Federal do Paraná UTFPR Programa de Pós-Graduação em Computação Aplicada Disciplina de Mineração de Dados Prof. Celso Kaestner Poker Hand Data Set Aluno: Joyce Schaidt Versão:
Leia maisO que é a estatística?
Elementos de Estatística Prof. Dr. Clécio da Silva Ferreira Departamento de Estatística - UFJF O que é a estatística? Para muitos, a estatística não passa de conjuntos de tabelas de dados numéricos. Os
Leia mais4 Segmentação. 4.1. Algoritmo proposto
4 Segmentação Este capítulo apresenta primeiramente o algoritmo proposto para a segmentação do áudio em detalhes. Em seguida, são analisadas as inovações apresentadas. É importante mencionar que as mudanças
Leia maisCapítulo 3. Avaliação de Desempenho. 3.1 Definição de Desempenho
20 Capítulo 3 Avaliação de Desempenho Este capítulo aborda como medir, informar e documentar aspectos relativos ao desempenho de um computador. Além disso, descreve os principais fatores que influenciam
Leia maisCláudio Tadeu Cristino 1. Julho, 2014
Inferência Estatística Estimação Cláudio Tadeu Cristino 1 1 Universidade Federal de Pernambuco, Recife, Brasil Mestrado em Nutrição, Atividade Física e Plasticidade Fenotípica Julho, 2014 C.T.Cristino
Leia maisPlanejamento Estratégico de TI. Prof.: Fernando Ascani
Planejamento Estratégico de TI Prof.: Fernando Ascani BI Business Intelligence A inteligência Empresarial, ou Business Intelligence, é um termo do Gartner Group. O conceito surgiu na década de 80 e descreve
Leia maisCONCURSO PÚBLICO ANALISTA DE SISTEMA ÊNFASE GOVERNANÇA DE TI ANALISTA DE GESTÃO RESPOSTAS ESPERADAS PRELIMINARES
CELG DISTRIBUIÇÃO S.A EDITAL N. 1/2014 CONCURSO PÚBLICO ANALISTA DE GESTÃO ANALISTA DE SISTEMA ÊNFASE GOVERNANÇA DE TI RESPOSTAS ESPERADAS PRELIMINARES O Centro de Seleção da Universidade Federal de Goiás
Leia maisOrganizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU
Organizaçãoe Recuperaçãode Informação GSI521 Prof. Dr. Rodrigo Sanches Miani FACOM/UFU Aula anterior Organização e Recuperação de Informação(GSI521) Modelo vetorial- Definição Para o modelo vetorial, o
Leia maisISO/IEC 12207: Gerência de Configuração
ISO/IEC 12207: Gerência de Configuração Durante o processo de desenvolvimento de um software, é produzida uma grande quantidade de itens de informação que podem ser alterados durante o processo Para que
Leia maisBARRAMENTO DO SISTEMA
BARRAMENTO DO SISTEMA Memória Principal Processador Barramento local Memória cachê/ ponte Barramento de sistema SCSI FireWire Dispositivo gráfico Controlador de vídeo Rede Local Barramento de alta velocidade
Leia maisData Mining. Origem do Data Mining 24/05/2012. Data Mining. Prof Luiz Antonio do Nascimento
Data Mining Prof Luiz Antonio do Nascimento Data Mining Ferramenta utilizada para análise de dados para gerar, automaticamente, uma hipótese sobre padrões e anomalias identificadas para poder prever um
Leia mais17/10/2012. dados? Processo. Doutorado em Engenharia de Produção Michel J. Anzanello. Doutorado EP - 2. Doutorado EP - 3.
Definição de Data Mining (DM) Mineração de Dados (Data Mining) Doutorado em Engenharia de Produção Michel J. Anzanello Processo de explorar grandes quantidades de dados à procura de padrões consistentes
Leia maisO ESPAÇO NULO DE A: RESOLVENDO AX = 0 3.2
3.2 O Espaço Nulo de A: Resolvendo Ax = 0 11 O ESPAÇO NULO DE A: RESOLVENDO AX = 0 3.2 Esta seção trata do espaço de soluções para Ax = 0. A matriz A pode ser quadrada ou retangular. Uma solução imediata
Leia maisEste capítulo é divido em duas seções, a primeira seção descreve a base de
30 3. Metodologia Este capítulo é divido em duas seções, a primeira seção descreve a base de dados utilizada, identificando a origem das fontes de informação, apresentando de forma detalhada as informações
Leia maisAlgoritmos Genéticos em Mineração de Dados. Descoberta de Conhecimento. Descoberta do Conhecimento em Bancos de Dados
Algoritmos Genéticos em Mineração de Dados Descoberta de Conhecimento Descoberta do Conhecimento em Bancos de Dados Processo interativo e iterativo para identificar padrões válidos, novos, potencialmente
Leia maisO Processo de KDD. Data Mining SUMÁRIO - AULA1. O processo de KDD. Interpretação e Avaliação. Seleção e Pré-processamento. Consolidação de dados
SUMÁRIO - AULA1 O Processo de KDD O processo de KDD Interpretação e Avaliação Consolidação de dados Seleção e Pré-processamento Warehouse Data Mining Dados Preparados p(x)=0.02 Padrões & Modelos Conhecimento
Leia maisFeature-Driven Development
FDD Feature-Driven Development Descrição dos Processos Requisitos Concepção e Planejamento Mais forma que conteúdo Desenvolver um Modelo Abrangente Construir a Lista de Features Planejar por
Leia maisPrograma de Pós-Graduação em Comunicação e Cultura Contemporâneas. Grupo de Pesquisa em Interação, Tecnologias Digitais e Sociedade - GITS
Universidade Federal da Bahia Programa de Pós-Graduação em Comunicação e Cultura Contemporâneas Grupo de Pesquisa em Interação, Tecnologias Digitais e Sociedade - GITS Reunião de 18 de junho de 2010 Resumo
Leia maisTécnicas para Programação Inteira e Aplicações em Problemas de Roteamento de Veículos 14
1 Introdução O termo "roteamento de veículos" está relacionado a um grande conjunto de problemas de fundamental importância para a área de logística de transportes, em especial no que diz respeito ao uso
Leia maisDadas a base e a altura de um triangulo, determinar sua área.
Disciplina Lógica de Programação Visual Ana Rita Dutra dos Santos Especialista em Novas Tecnologias aplicadas a Educação Mestranda em Informática aplicada a Educação ana.santos@qi.edu.br Conceitos Preliminares
Leia maisNa medida em que se cria um produto, o sistema de software, que será usado e mantido, nos aproximamos da engenharia.
1 Introdução aos Sistemas de Informação 2002 Aula 4 - Desenvolvimento de software e seus paradigmas Paradigmas de Desenvolvimento de Software Pode-se considerar 3 tipos de paradigmas que norteiam a atividade
Leia maisExtração de Requisitos
Extração de Requisitos Extração de requisitos é o processo de transformação das idéias que estão na mente dos usuários (a entrada) em um documento formal (saída). Pode se entender também como o processo
Leia maisOrganizaçãoe Recuperação de Informação GSI521. Prof. Rodrigo Sanches Miani FACOM/UFU
Organizaçãoe Recuperação de Informação GSI521 Prof. Rodrigo Sanches Miani FACOM/UFU Introdução Organização e Recuperação de Informação(GSI521) Tópicos Recuperação de informação (RI); Breve histórico; O
Leia maisDESENVOLVIMENTO DE UM SOFTWARE NA LINGUAGEM R PARA CÁLCULO DE TAMANHOS DE AMOSTRAS NA ÁREA DE SAÚDE
DESENVOLVIMENTO DE UM SOFTWARE NA LINGUAGEM R PARA CÁLCULO DE TAMANHOS DE AMOSTRAS NA ÁREA DE SAÚDE Mariane Alves Gomes da Silva Eliana Zandonade 1. INTRODUÇÃO Um aspecto fundamental de um levantamento
Leia maisSistemas Operacionais
Sistemas Operacionais Aula 13 Gerência de Memória Prof.: Edilberto M. Silva http://www.edilms.eti.br Baseado no material disponibilizado por: SO - Prof. Edilberto Silva Prof. José Juan Espantoso Sumário
Leia mais4 Arquitetura básica de um analisador de elementos de redes
4 Arquitetura básica de um analisador de elementos de redes Neste capítulo é apresentado o desenvolvimento de um dispositivo analisador de redes e de elementos de redes, utilizando tecnologia FPGA. Conforme
Leia maisECO039 Linguagens Formais
Prof a.dra.thatyana de Faria Piola Seraphim Universidade Federal de Itajubá thatyana@unifei.edu.br Introdução ˆ As três principais áreas da teoria da computação (Autômatos, Computabilidade e Complexidade)
Leia maisMetodologias de Desenvolvimento de Sistemas. Analise de Sistemas I UNIPAC Rodrigo Videschi
Metodologias de Desenvolvimento de Sistemas Analise de Sistemas I UNIPAC Rodrigo Videschi Histórico Uso de Metodologias Histórico Uso de Metodologias Era da Pré-Metodologia 1960-1970 Era da Metodologia
Leia maisExercícios Teóricos Resolvidos
Universidade Federal de Minas Gerais Instituto de Ciências Exatas Departamento de Matemática Exercícios Teóricos Resolvidos O propósito deste texto é tentar mostrar aos alunos várias maneiras de raciocinar
Leia maisUniversidade Federal de Minas Gerais ICEx / DCC
Universidade Federal de Minas Gerais ICEx / DCC Belo Horizonte, 15 de dezembro de 2006 Relatório sobre aplicação de Mineração de Dados Mineração de Dados em Bases de Dados de Vestibulares da UFMG Professor:
Leia maisAMBIENTE PARA AUXILIAR O DESENVOLVIMENTO DE PROGRAMAS MONOLÍTICOS
UNIVERSIDADE REGIONAL DE BLUMENAU CENTRO DE CIÊNCIAS EXATAS E NATURAIS CURSO DE CIÊNCIAS DA COMPUTAÇÃO BACHARELADO AMBIENTE PARA AUXILIAR O DESENVOLVIMENTO DE PROGRAMAS MONOLÍTICOS Orientando: Oliver Mário
Leia maisOrganização e Arquitetura de Computadores I
Organização e Arquitetura de Computadores I Aritmética Computacional Slide 1 Sumário Unidade Lógica e Aritmética Representação de Números Inteiros Aritmética de Números Inteiros Representação de Números
Leia maisEspaço Amostral ( ): conjunto de todos os
PROBABILIDADE Espaço Amostral (): conjunto de todos os resultados possíveis de um experimento aleatório. Exemplos: 1. Lançamento de um dado. = {1,, 3, 4,, 6}. Doador de sangue (tipo sangüíneo). = {A, B,
Leia maisUTILIZANDO O SOFTWARE WEKA
UTILIZANDO O SOFTWARE WEKA O que é 2 Weka: software livre para mineração de dados Desenvolvido por um grupo de pesquisadores Universidade de Waikato, Nova Zelândia Também é um pássaro típico da Nova Zelândia
Leia maisAnálise e Complexidade de Algoritmos
Análise e Complexidade de Algoritmos Uma visão de Intratabilidade, Classes P e NP - redução polinomial - NP-completos e NP-difíceis Prof. Rodrigo Rocha prof.rodrigorocha@yahoo.com http://www.bolinhabolinha.com
Leia maisExemplo de Aplicação do DataMinig
Exemplo de Aplicação do DataMinig Felipe E. Barletta Mendes 19 de fevereiro de 2008 INTRODUÇÃO AO DATA MINING A mineração de dados (Data Mining) está inserida em um processo maior denominado Descoberta
Leia maisFATEC Cruzeiro José da Silva. Ferramenta CRM como estratégia de negócios
FATEC Cruzeiro José da Silva Ferramenta CRM como estratégia de negócios Cruzeiro SP 2008 FATEC Cruzeiro José da Silva Ferramenta CRM como estratégia de negócios Projeto de trabalho de formatura como requisito
Leia maisQFD: Quality Function Deployment QFD: CASA DA QUALIDADE - PASSO A PASSO
QFD: CASA DA QUALIDADE - PASSO A PASSO 1 - INTRODUÇÃO Segundo Akao (1990), QFD é a conversão dos requisitos do consumidor em características de qualidade do produto e o desenvolvimento da qualidade de
Leia maisPONTIFÍCIA UNIVERSIDADE CATÓLICA DE GOIÁS Curso Superior de Tecnologia em Análise e Desenvolvimento de Sistemas
PONTIFÍCIA UNIVERSIDADE CATÓLICA DE GOIÁS Curso Superior de Tecnologia em Análise e Desenvolvimento de Sistemas CMP1132 Processo e qualidade de software II Prof. Me. Elias Ferreira Sala: 402 E Quarta-Feira:
Leia maisADMINISTRAÇÃO DOS RECURSOS DE DADOS
Capítulo 7 ADMINISTRAÇÃO DOS RECURSOS DE DADOS 7.1 2003 by Prentice Hall OBJETIVOS Por que as empresas sentem dificuldades para descobrir que tipo de informação precisam ter em seus sistemas de informação?
Leia maisClassificação - avaliação de resultados - 1. Mineração de Dados 2013
Classificação - avaliação de resultados - 1 Mineração de Dados 2013 Luís Rato (Capítulo 4 do livro Introduction to Data Mining ) Universidade de Évora, Mineração de dados / Data Mining 1 Desempenho Desempenho
Leia maisMLP (Multi Layer Perceptron)
MLP (Multi Layer Perceptron) André Tavares da Silva andre.silva@udesc.br Roteiro Rede neural com mais de uma camada Codificação de entradas e saídas Decorar x generalizar Perceptron Multi-Camada (MLP -
Leia maisA Preparação dos Dados
A Preparação dos Dados Escolhas Básicas Objetos, casos, instâncias Objetos do mundo real: carros, arvores, etc Ponto de vista da mineração: um objeto é descrito por uma coleção de características sobre
Leia maisIMPLEMENTAÇÃO DE UM ALGORITMO DE PADRÕES DE SEQUÊNCIA PARA DESCOBERTA DE ASSOCIAÇÕES ENTRE PRODUTOS DE UMA BASE DE DADOS REAL
Universidade Federal de Ouro Preto - UFOP Instituto de Ciências Exatas e Biológicas - ICEB Departamento de Computação - DECOM IMPLEMENTAÇÃO DE UM ALGORITMO DE PADRÕES DE SEQUÊNCIA PARA DESCOBERTA DE ASSOCIAÇÕES
Leia maisPré processamento de dados II. Mineração de Dados 2012
Pré processamento de dados II Mineração de Dados 2012 Luís Rato Universidade de Évora, 2012 Mineração de dados / Data Mining 1 Redução de dimensionalidade Objetivo: Evitar excesso de dimensionalidade Reduzir
Leia mais)HUUDPHQWDV &RPSXWDFLRQDLV SDUD 6LPXODomR
6LPXODomR GH6LVWHPDV )HUUDPHQWDV &RPSXWDFLRQDLV SDUD 6LPXODomR #5,6. Simulador voltado para análise de risco financeiro 3RQWRV IRUWHV Fácil de usar. Funciona integrado a ferramentas já bastante conhecidas,
Leia maisProcessos de gerenciamento de projetos em um projeto
Processos de gerenciamento de projetos em um projeto O gerenciamento de projetos é a aplicação de conhecimentos, habilidades, ferramentas e técnicas às atividades do projeto a fim de cumprir seus requisitos.
Leia maisProjeto de Redes Neurais e MATLAB
Projeto de Redes Neurais e MATLAB Centro de Informática Universidade Federal de Pernambuco Sistemas Inteligentes IF684 Arley Ristar arrr2@cin.ufpe.br Thiago Miotto tma@cin.ufpe.br Baseado na apresentação
Leia maisO QUE É E COMO FUNCIONA O CREDIT SCORING PARTE I
O QUE É E COMO FUNCIONA O CREDIT SCORING PARTE I! A utilização de escores na avaliação de crédito! Como montar um plano de amostragem para o credit scoring?! Como escolher as variáveis no modelo de credit
Leia maisFigura 5.1.Modelo não linear de um neurônio j da camada k+1. Fonte: HAYKIN, 2001
47 5 Redes Neurais O trabalho em redes neurais artificiais, usualmente denominadas redes neurais ou RNA, tem sido motivado desde o começo pelo reconhecimento de que o cérebro humano processa informações
Leia maisPós-Graduação em Gerenciamento de Projetos práticas do PMI
Pós-Graduação em Gerenciamento de Projetos práticas do PMI Planejamento do Gerenciamento das Comunicações (10) e das Partes Interessadas (13) PLANEJAMENTO 2 PLANEJAMENTO Sem 1 Sem 2 Sem 3 Sem 4 Sem 5 ABRIL
Leia mais4 Avaliação Econômica
4 Avaliação Econômica Este capítulo tem o objetivo de descrever a segunda etapa da metodologia, correspondente a avaliação econômica das entidades de reservas. A avaliação econômica é realizada a partir
Leia maisI.3 Indução de Árvores de Decisão
I.3 Indução de Árvores de Decisão Nesta seção serão apresentados alguns conceitos básicos da técnica de indução de árvores de decisão a partir de um exemplo sobre o efeito dos raios solares sobre algumas
Leia mais5 Extraindo listas de produtos em sites de comércio eletrônico
5 Extraindo listas de produtos em sites de comércio eletrônico Existem diversos trabalhos direcionadas à detecção de listas e tabelas na literatura como (Liu et. al., 2003, Tengli et. al., 2004, Krüpl
Leia maisPlanejamento - 7. Planejamento do Gerenciamento do Risco Identificação dos riscos. Mauricio Lyra, PMP
Planejamento - 7 Planejamento do Gerenciamento do Risco Identificação dos riscos 1 O que é risco? Evento que representa uma ameaça ou uma oportunidade em potencial Plano de gerenciamento do risco Especifica
Leia maisMÓDULO 6 INTRODUÇÃO À PROBABILIDADE
MÓDULO 6 INTRODUÇÃO À PROBBILIDDE Quando estudamos algum fenômeno através do método estatístico, na maior parte das vezes é preciso estabelecer uma distinção entre o modelo matemático que construímos para
Leia mais3 Método de Monte Carlo
25 3 Método de Monte Carlo 3.1 Definição Em 1946 o matemático Stanislaw Ulam durante um jogo de paciência tentou calcular as probabilidades de sucesso de uma determinada jogada utilizando a tradicional
Leia mais1. Avaliação de impacto de programas sociais: por que, para que e quando fazer? (Cap. 1 do livro) 2. Estatística e Planilhas Eletrônicas 3.
1 1. Avaliação de impacto de programas sociais: por que, para que e quando fazer? (Cap. 1 do livro) 2. Estatística e Planilhas Eletrônicas 3. Modelo de Resultados Potenciais e Aleatorização (Cap. 2 e 3
Leia maisMódulo 4. Construindo uma solução OLAP
Módulo 4. Construindo uma solução OLAP Objetivos Diferenciar as diversas formas de armazenamento Compreender o que é e como definir a porcentagem de agregação Conhecer a possibilidade da utilização de
Leia maisDISTRIBUIÇÃO DE WEIBULL CONCEITOS BÁSICOS APLICAÇÕES
LUIZ CLAUDIO BENCK KEVIN WONG TAMARA CANDIDO DISTRIBUIÇÃO DE WEIBULL CONCEITOS BÁSICOS APLICAÇÕES Trabalho apresentado para avaliação na disciplina de Estatística e Métodos Numéricos do Curso de Administração
Leia maisAdministração de dados - Conceitos, técnicas, ferramentas e aplicações de Data Mining para gerar conhecimento a partir de bases de dados
Universidade Federal de Pernambuco Graduação em Ciência da Computação Centro de Informática 2006.2 Administração de dados - Conceitos, técnicas, ferramentas e aplicações de Data Mining para gerar conhecimento
Leia maisdissertação. 2 Credibilidade total, em linhas gerais, seria a capacidade de representar o comportamento
13 1 Introdução Esta dissertação é o estudo de um problema estatístico de classificação que diz respeito à precificação de seguros de automóveis. Devido às particularidades deste ramo, a formação dos contratos,
Leia mais4 Implementação e Resultados Experimentais
4 Implementação e Resultados Experimentais Com o objetivo de fazer a criação automática de visões materializadas, ou seja, prover uma solução on-the-fly para o problema de seleção de visões materializadas,
Leia maisKDD. Fases limpeza etc. Datamining OBJETIVOS PRIMÁRIOS. Conceitos o que é?
KDD Conceitos o que é? Fases limpeza etc Datamining OBJETIVOS PRIMÁRIOS TAREFAS PRIMÁRIAS Classificação Regressão Clusterização OBJETIVOS PRIMÁRIOS NA PRÁTICA SÃO DESCRIÇÃO E PREDIÇÃO Descrição Wizrule
Leia maisProcessamento de Imagem. Prof. MSc. André Yoshimi Kusumoto andrekusumoto.unip@gmail.com
Processamento de Imagem Prof. MSc. André Yoshimi Kusumoto andrekusumoto.unip@gmail.com Visão Computacional Não existe um consenso entre os autores sobre o correto escopo do processamento de imagens, a
Leia maisRELATÓRIO TREINAMENTO ADP 2013 ETAPA 01: PLANEJAMENTO
RELATÓRIO TREINAMENTO ADP 2013 ETAPA 01: PLANEJAMENTO 1. Apresentação geral Entre os dias 15 e 18 de Abril de 2013 foram realizados encontros de quatro horas com os servidores e supervisores da Faculdade
Leia maisANÁLISE DA CONSERVAÇÃO PÓS-COLHEITA DA ALFACE (Lactuca Sativa, L) UTILIZANDO O SISTEMA DE APOIO À TOMADA DE DECISÃO BKD
ANÁLISE DA CONSERVAÇÃO PÓS-COLHEITA DA ALFACE (Lactuca Sativa, L) UTILIZANDO O SISTEMA DE APOIO À TOMADA DE DECISÃO BKD RESUMO Thereza P. P. Padilha Fabiano Fagundes Conceição Previero Laboratório de Solos
Leia maisBalanceamento de Carga
40 4. Balanceamento de Carga Pode-se entender por balanceamento de carga uma política a ser adotada para minimizar tanto a ociosidade de utilização de alguns equipamentos quanto a super utilização de outros,
Leia maisFases para um Projeto de Data Warehouse. Fases para um Projeto de Data Warehouse. Fases para um Projeto de Data Warehouse
Definição escopo do projeto (departamental, empresarial) Grau de redundância dos dados(ods, data staging) Tipo de usuário alvo (executivos, unidades) Definição do ambiente (relatórios e consultas préestruturadas
Leia maisAjuda ao SciEn-Produção 1. 1. O Artigo Científico da Pesquisa Experimental
Ajuda ao SciEn-Produção 1 Este texto de ajuda contém três partes: a parte 1 indica em linhas gerais o que deve ser esclarecido em cada uma das seções da estrutura de um artigo cientifico relatando uma
Leia maisUM TEOREMA QUE PODE SER USADO NA
UM TEOREMA QUE PODE SER USADO NA PERCOLAÇÃO Hemílio Fernandes Campos Coêlho Andrei Toom PIBIC-UFPE-CNPq A percolação é uma parte importante da teoria da probabilidade moderna que tem atraído muita atenção
Leia maisAPLICACAÇÃO DE METRICAS E INDICADORES NO MODELO DE REFERENCIA CMMI-Dev NIVEL 2
APLICACAÇÃO DE METRICAS E INDICADORES NO MODELO DE REFERENCIA CMMI-Dev NIVEL 2 Renan J. Borges 1, Késsia R. C. Marchi 1 1 Universidade Paranaense (UNIPAR) Paranavaí, PR Brasil renanjborges@gmail.com, kessia@unipar.br
Leia maisAlgoritmos e Estrutura de Dados III. Árvores
Algoritmos e Estrutura de Dados III Árvores Uma das mais importantes classes de estruturas de dados em computação são as árvores. Aproveitando-se de sua organização hierárquica, muitas aplicações são realizadas
Leia maisRelatório Trabalho Prático 2 : Colônia de Formigas para Otimização e Agrupamento
Relatório Trabalho Prático 2 : Colônia de Formigas para Otimização e Agrupamento Ramon Pereira Lopes Rangel Silva Oliveira 31 de outubro de 2011 1 Introdução O presente documento refere-se ao relatório
Leia maisCAP 254 CAP 254. Otimização Combinatória. Professor: Dr. L.A.N. Lorena. Assunto: Metaheurísticas Antonio Augusto Chaves
CAP 254 CAP 254 Otimização Combinatória Professor: Dr. L.A.N. Lorena Assunto: Metaheurísticas Antonio Augusto Chaves Conteúdo C01 Simulated Annealing (20/11/07). C02 Busca Tabu (22/11/07). C03 Colônia
Leia maisAula 02: Conceitos Fundamentais
Aula 02: Conceitos Fundamentais Profa. Ms. Rosângela da Silva Nunes 1 de 26 Roteiro 1. Por que mineração de dados 2. O que é Mineração de dados 3. Processo 4. Que tipo de dados podem ser minerados 5. Que
Leia maisManejo Florestal Sustentável: Dificuldade Computacional e Otimização de Processos
Manejo Florestal Sustentável: Dificuldade Computacional e Otimização de Processos Daniella Rodrigues Bezerra 1, Rosiane de Freitas Rodrigues 12, Ulisses Silva da Cunha 3, Raimundo da Silva Barreto 12 Universidade
Leia maisManual Geral do OASIS
Manual Geral do OASIS SISTEMA DE GESTÃO DE DEMANDA, PROJETO E SERVIÇO DE TECNOLOGIA DA INFORMAÇÃO OASIS Introdução Esse manual tem como objetivo auxiliar aos usuários nos procedimentos de execução do sistema
Leia maisPÓS GRADUAÇÃO EM CIÊNCIAS DE FLORESTAS TROPICAIS-PG-CFT INSTITUTO NACIONAL DE PESQUISAS DA AMAZÔNIA-INPA. 09/abril de 2014
PÓS GRADUAÇÃO EM CIÊNCIAS DE FLORESTAS TROPICAIS-PG-CFT INSTITUTO NACIONAL DE PESQUISAS DA AMAZÔNIA-INPA 09/abril de 2014 Considerações Estatísticas para Planejamento e Publicação 1 Circularidade do Método
Leia mais