UM ESTUDO DAS TÉCNICAS DE SELECÇÃO DE ATRIBUTOS EM BIOINFORMÁTICA
|
|
- Amália Santana Furtado
- 5 Há anos
- Visualizações:
Transcrição
1 UM ESTUDO DAS TÉCNICAS DE SELECÇÃO DE ATRIBUTOS EM BIOINFORMÁTICA Artigo dos Yvan Saeys, Inãki Inza e Pedro Larrañaga A review of feature selection techniques in bioinformatics Vol. 23 no , páginas RELATÓRIO Gabriel de Jesus Bioinformática MCC DCC 11/12
2 Índice Índice Resumo Inovação Técnica de Filtragem Técnica Wrapper Técnica Incorporada Aplicação na Bioinformática Análise de sequências Análise de Microarrays Análise dos espectros de massa Abordagens dos algoritmos Conclusões e ideias críticas Conclusões Ideias críticas... 8 Página 1
3 1. Resumo Um estudo das técnicas de selecção de atributos em Bioinformática foca em aplicação das técnicas de selecção de atributos. Estas técnicas não alteram as representações das variáves originais mas apenas utilizam os seus subconjuntos, assim, elas preservam a simântica originais das variáveis, portanto, oferecendo a vantagem de interpretabilidade. Existem vários objectivos das técnicas de selecção de atributos, os mais importantes são: 1) Evitar o overfitting e melhora o desempenho do modelo, isto é, desempenho da previsão no caso de classificação supervisionada e detecção do melhor agrupamento do caso de clustering; 2) Fornecer modelos rápidos com custo efectivo; 3) Adquirir uma melhor compreensão dos processos subjacentes que geram os dados. Selecção de atributos pode aplicar estudos de supervisionado ou não supervisionado. No caso de supervisionado ou classificação, as técnicas selecção de atributos foram dividas em 3 partes de métodos: 1) Filtragem, que consiste por univariada e multivariada. 2) Wrapper, que consiste por deterministico e aleatório. 3) Incorporado. A aplicação de selecção de atributos na bioinformática consiste por: 1) Análise de sequências. 2) Análise de microarrays. 3) Análise dos espectros de massa. Selecção de atributos para análise de Microarrays, colocam dados de microarrays como um grande desafio para as técnicas computacionais, porque: 1) Grande dimensão de dados 2) Pequeno tamanho de amostra 3) Dados ruídos 4) Renderização de variabilidade Para resolver esta questão, precisa uma técnica de redução da dimensão, e assim aplica as paradigmas de selecção de atributo. Página 2
4 No caso de análise espectro de massa, foi notado o algoritmo SVM como a técnica mais sucesso, por outro lado considera o Random Forest e outra árvore de decisão como as estrategias alternativas. Para lidar com a especificidade do domínio da amostra pequena, foi surgido a estivativa de erro reforçado. Podem ser utlizados de forma ensembles os métodos baseados em colecção da árvore de decisão como Random Forest da selecção de atributos para avaliar a importância de cada atributo nos domínios de espectrometria de massa e microarrays. A análise do polimosfismo dum único nucleotídeo e mineração de textos e literaturas são considerados como a selecção de atributos do próximo domínio. Finalmente, oferece uma visão geral das diferentes técnicas selecção de atributos para a classificação que ilustrá-los, analisando os campos da aplicação mais importante no domínio de bioinformática, destacando os esforços feito pela comunidade de bioinformática no desenvolvimento de novos procedimentos adaptados. Também apontam algum Data Mining útil e interessado e os pacotes de software de bioinformática que podem ser utilizados para selecção de atributos. 2. Inovação Existem três principais técnicas selecção de atributos que podem orientar a escolha de uma técnica adequada para os seus objetivos: 2.1 Técnica de Filtragem Esta técnica avalia a relevância dos atributos olhando somente para as propriedades intrínsecas dos dados. Na maioria dos casos, um ponto relevância de atributo é calculado, e atributos de baixa pontuação são removidos. Depois, este subconjunto de atributos é apresentado como entrada para o algoritmo de classificação Univariada As vantagens da técnica de Filtragem Univariada são: 1) Facilmente escalar os conjuntos de dados para muito alto dimensional; 2) Computacionalmente simples e rápidos; 3) Independentes do algoritmo de classificação. Página 3
5 As suas desvantagens são: 1) Ingorar a interacção com os classificadores, isto é, a pesquisa do espaço no subconjunto de atributo é separado a partir da pesquisa no espaço de hipótese. 2) Cada atributo é considerado separado, assim ignora a dependência dos atributos que pode levar para um pior resultado da classificação quando compara com outras técnicas Multivariada Para resolver o problema de ignorar a depedência dos recursos, foi intruduzida técnica de filtragem multivariada com objectivo incorpora a dependência dos recursos para algum grau. 2.2 Técnica Wrapper Enquanto que a técnica filtragem tratasse o problema de encontrar o bom subconjunto independentemente do passo de selecção do modelo, o método wrapper incorpora busca da hipótese do modelo dentro da busca do subconjunto de recurso, isto é: 1) Um procedimento de busca no espaço de possível subconjuntos dos recursos é definido e vários subconjuntos de recursos são gerados e avaliados; 2) A avaliação de subconjuntos específicos dos recursos é obtida por treinar e testar um modelo de classificação específica; 3) Para pesquisar o espaço de todos os subconjuntos de recursos, um algoritmo de busca é então "wrapped" em volta do modelo de classificação. Como o espaço de todos os subconjuntos dos atributos são aumentados exponencialmente com o número de recursos, utilizou-se busca heurística para um subconjunto ideal. As vantagens de abordagens do Wrapper são: 1) Interacções entre a busca de subconjuntos dos recursos e selecção do modelo; 2) A capacidade de levar em contas as dependências de recursos. As desvantagens de abordagens do Wrapper são: 1) Havia risco alto de overfitting compara com a técnica de filtragem; 2) Computacionalmente é intensivo. Página 4
6 2.3 Técnica Incorporada Nesta técnica busca de um subconjunto óptima de atributos é incorporada na construção do classificador, e pode ser visto como uma busca no espaço combinado de subconjuntos de atributos e hipóteses. É mesma como o Wrapper mas com vantagens de: 1) Incluir a interacção com modelo de classificador; 2) Computacionalmente menos intensivo. 3. Aplicação na Bioinformática Como muitos atributos serão irrelevantes ou redundantes, as técnicas de selecção de atributos são então aplicados a concentrar-se no subconjunto de variáveis relevantes. A aplicação de selecção de atributos na bioinformática consiste por: 3.1 Análise de sequências Selecção de atributos para análise de sequências constituída pelas duas partes: 1) Análise de conteúdo, que concentra-se sobre as características gerais de uma sequência, tal como a tendência para codificar proteínas ou realização de um certo função biológica; e previsão da função da proteína a partir da sequência. 2) Análise de sinal, que concentra-se relativa à identificação de motivos importantes na sequência, tais como elementos de genes estruturais ou elementos reguladores. Alguns exemplos das técnicas de selecção atributos em análise de conteúdo são: 1) Modelo de Markov Interpolado: a. Usou interpolação entre diferentes ordens do modelo de Markov para lidar com pequenos tamanhos de amostra; b. Usou um método de filtragem para selecionar apenas os atributos relevantes. 2) Kernel selectivo para SVM: a. Utliza o seu dimensionamento como uma forma de acesso aos pesos de recursos; b. Em seguida remover recursos com baixo peso. Página 5
7 3.2 Análise de Microarrays No domínio de microarrays, devido a alta dimensão de dados em análise de microarrays, a paradigma do filtragem univariada que é rápida e eficiente tinha atraida muita atenção com seguintes razões: 1) A saída fornecida pelos rankings atributos univariadas é intuitiva e fácil de entender; 2) A saída do ranking de gene poderia cumprir os objectivos e expectativas que as especialistas do bio-domínio tinham esperados depois de validar o resultado por técnicas laboratoriais ou por explorar pesquisas bibliográficas. Os peritos não sentiam a necessidade de técnicas de selecção que levam em conta interacções entre genes; 3) A falta de conhecimento possível de subgrupos da expressão gênica de domínio peritos sobre a existência de técnicas de análise dos dados para selecionar genes de uma forma multivariada; 4) O tempo de computação adicional necessário por meio de técnicas de selecção genética multivariadas. A técnica de filtragem univariada foi dividida em duas partes: 1) Método Paramétrico a. Assumem uma dada distribuição a partir do qual as amostras(observações) foram gerados. b. Os dois amostras t-test e ANOVA são as técnicas mais utilizados em estudos de microarrays. 2) Método modelos livre (não paramétrico) a. Tinham sidos propostos como uma alternativa atraente para fazer menos rigorosos pressupostos. b. Tinham demonstrados as suas utilidades de muitas expressão em estudos de genes. Método de filtragem univariada tem as suas certas restrições e pode conduzir a classificadores menos fiáveis, por exemplo não tendo em conta as interações gene-gene, neste caso, aplicouse método de filtragem multivariados para soluções mais avançadas explorando interações de ordem superior, tais como a correlação com base em seleção de atributos. Exemplos de alguns algoritmos para classificador dos genes: 1) Random Forest: usa de uma forma integrada para calcular a importância de cada gene. Página 6
8 2) SVM: usa os pesos de cada característica em classificadores lineares. Estes pesos são usados para reflectir a relevância de cada gene de uma forma multivariada, e assim, permitir a remoção de genes com pesos muito pequenas. 3.3 Análise dos espectros de massa Tecnologia de espectometria de massa: 1) Está surgindo como um quadro novo e atraente para o diagnóstico da doença e a base de proteínas de perfil biomarcador. 2) Uma amostra de espectro de massa é caracterizada por milhares de diferentes massa / carga (m / z) rácios sobre o eixo x, cada um com a sua valor de intensidade correspondente do sinal no eixo y. 3) Um típico MALDI-TOF perfil proteômico de baixa resolução pode conter até pontos de dados no espectro de entre 500 e m / z. 4) O número de pontos mesmo cresceu tilizando instrumentos de alta resolução. 5) Para fins de data mining e bioinformática, pode inicialmente ser assumido que cada rácio m / z representa uma variável distinta cujo valor é a intensidade. 6) Abordagens wrapper demonstraram a sua utilidade dos seus estudos por um grupo de obras influentes. 4. Abordagens dos algoritmos Conforme os objectivos das técnicas selecção de recursos mencionados no artigo onde cujos objectivos para evitar overfitting e melhora o desempenho do modelo, existem alguns algoritmos e estrategias mencionados que vão ser abordados nos seguintes: 1) Para evitar o overfitting utiliza-se: a. O método Principal Component Analisys (PCA) para reduzir o número das variáveis, isto é, substitui o conjunto de variáveis por um novo conjunto com tamanho mais pequeno onde a maioria da "informação" sobre o problema ainda está expresso. b. O método Incremental Sampling para reduzir o número de casos onde compara o information gain do desempenho de cada subconjunto dos casos começando por 10% dos casos, aumentando incrementalmente para 20%,... Página 7
9 assim sucessivamento até 100% dos casos depois escolher os subconjuntos com bom desempenho. 2) Para detectar o melhor agrupamento no caso de Clustering, utiliza-se a distância de Euclidiana, isto é, identifica a semelhança dos objectos e agrupa com o grupo mais próximo cujo a dintância mínima do objecto ao este grupo. 3) Para melhor desempenho da classificação utiliza-se: a. Support Vector Machine (SVM) onde mapeia-se os dados originais dentro dum novo espaço das variáveis com alta dimensão e utiliza uma aproximação linear para separar as duas classes. b. Árvore de decisão onde fornece o resultado do modelo baseia-se dos testes lógicas das variáveis entradas. 5. Conclusões e ideias críticas 5.1 Conclusões Duas questões principais emergem como problemas comuns no domínio bioinformática são: 1) A dimensionalidade de entrada grande; 2) Os pequenos tamanhos de amostra. Para lidar com esses problemas, uma riqueza de técnicas de selecção de atributos foi concebida por pesquisadores em bioinformática, Machine Learning e Data Mining. Entre as as técnicas de selecção de atributos, apesar da técnica filtragem univariada tem as certas restrições, contudo, na implementação prática da bioinformática ainda contínua a ser uma técnica mais utilizada devido às suas escabilidade, interpretabilidade e rapidez. Não só ela, como também há necessidades de utilizar as técnicas de wrapper e incorporado. Ou seja, geralmente as técnicas de selecção de atributos continuarão a ser prática comum na análise de dados em Bioinformática. Os métodos de análise do polimorfismo um único nucleotídeo, mineração de textos e literaturas são considerados como o domínio das técnicas de selecção de atributos futuras. 5.2 Ideias críticas Está de acordo com as estrategias como Principal Component Analisys (PCA) e Information Gain que são utilizados como as técnicas de filtragem de dados para resolver a dimensão de Página 8
10 dados e desempenho porque também são as estratégias recomendadas na área de data mining. O domínio das técnicas de selecção futuras como mineração de textos e literaturas é um domínio aceitável porque as genes são representadas em textos e com estas técnicas seriam fáceis de classificá-las. Os algoritmos recomendados no artigo como SVM, random forest e árvore de classificação são os algoritmos que normalmente utilizam para estudo supervisionado ou classificação porque resultam os bons resultados. Finalmente, o artigo é muito útil e especialmente também para os pesquisadores de data mining que têm a contribuição na área de bioinformática. Página 9
Análise de técnicas de selecção de atributos em Bioinformática
Análise de técnicas de selecção de atributos em Bioinformática Rui Mendes 100378011 Bioinformática 10/11 DCC Artigo Base Yvan Saeys, Inaki Inza and Pedro Larranaga. A review of feature selection techniques
Leia maisAprendizado de Máquina (Machine Learning)
Ciência da Computação (Machine Learning) Aula 01 Motivação, áreas de aplicação e fundamentos Max Pereira Nem todo conhecimento tem o mesmo valor. O que torna determinado conhecimento mais importante que
Leia maisINF 1771 Inteligência Artificial
INF 1771 Inteligência Artificial Aula 14 Support Vector Machines (SVM) 2016.1 Prof. Augusto Baffa Formas de Aprendizado Aprendizado Supervisionado Árvores de Decisão. K-Nearest
Leia maisUNIVERSIDADE DO ESTADO DE MATO GROSSO - UNEMAT. Faculdade de Ciências Exatas e Tecnológicas FACET / Sinop Curso de Bacharelado em Engenharia Elétrica
REDES NEURAIS ARTIFICIAIS MÁQUINA DE VETOR DE SUPORTE (SUPPORT VECTOR MACHINES) Prof. Dr. André A. P. Biscaro 1º Semestre de 2017 Introdução Poderosa metodologia para resolver problemas de aprendizagem
Leia maisHP UFCG Analytics Abril-Maio Um curso sobre Reconhecimento de Padrões e Redes Neurais. Por Herman Martins Gomes.
HP UFCG Analytics Abril-Maio 2012 Um curso sobre Reconhecimento de Padrões e Redes Neurais Por Herman Martins Gomes hmg@dsc.ufcg.edu.br Programa Visão Geral (2H) Reconhecimento Estatístico de Padrões (3H)
Leia maisPor que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Abordagens automáticas
Por que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Abordagens automáticas Wrapper Filtros Muitos algoritmos de AM são projetados de modo a selecionar os
Leia maisTÓPICOS AVANÇADOS EM ENGENHARIA DE SOFTWARE
TÓPICOS AVANÇADOS EM ENGENHARIA DE SOFTWARE Engenharia de Computação Professor: Rosalvo Ferreira de Oliveira Neto O processo de descoberta do conhecimento - KDD Roteiro Introdução Definição Etapas Desafios
Leia maisSeleção de Atributos 1
Seleção de Atributos 1 Tópicos Por que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Seleção de atributos antes do aprendizado Benefícios Abordagens automáticas
Leia maisAula 6 Mineração Streams Representação dos Dados. Profa. Elaine Faria UFU
Aula 6 Mineração Streams Representação dos Dados Profa. Elaine Faria UFU - 2017 Agradecimentos Este material é baseado No livro Tan et al, 2006 Nos slides do prof. Andre C. P. L. F. Carvalho Agradecimentos
Leia maisAprendizado de Máquinas. Seleção de Características
Universidade Federal do Paraná (UFPR) Departamento de Informática (DInf) Seleção de Características David Menotti, Ph.D. web.inf.ufpr.br/menotti Introdução Um dos principais aspectos na construção de um
Leia maisSUPPORT VECTOR MACHINE - SVM
SUPPORT VECTOR MACHINE - SVM Definição 2 Máquinas de Vetores Suporte (Support Vector Machines - SVMs) Proposto em 79 por Vladimir Vapnik Um dos mais importantes acontecimentos na área de reconhecimento
Leia maisFundamentos de Mineração de Dados
Fundamentos de Mineração de Dados Prof. Ricardo Fernandes ricardo.asf@ufscar.br O que é Mineração de Dados? Uso de ferramentas matemáticas, clássicas ou inteligentes, no processo de descoberta de conhecimento
Leia maisInteligência Artificial
Universidade Federal de Campina Grande Departamento de Sistemas e Computação Pós-Graduação em Ciência da Computação Inteligência Artificial Aprendizagem Outras Técnicas Prof. a Joseana Macêdo Fechine Régis
Leia mais10 FORMAS ESTATÍSTICA MODELAGEM PARA USAR
10 FORMAS PARA USAR MODELAGEM ESTATÍSTICA Introdução Conheça um pouco mais sobre algumas modelagens estatísticas e como você pode implantar dentro da sua organização A análise preditiva é capaz de descobrir
Leia maisINF 1771 Inteligência Artificial
Edirlei Soares de Lima INF 1771 Inteligência Artificial Aula 17 Support Vector Machines (SVM) Formas de Aprendizado Aprendizado Supervisionado Árvores de decisão. K-Nearest Neighbor
Leia maisMineração de Dados - II
Tópicos Especiais: INTELIGÊNCIA DE NEGÓCIOS II Mineração de Dados - II Sylvio Barbon Junior barbon@uel.br 10 de julho de 2015 DC-UEL Sylvio Barbon Jr 1 Sumário Etapa II Algoritmos Básicos Weka: Framework
Leia maisUniversidade de São Paulo Instituto de Ciências Matemáticas e de Computação
Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação Francisco A. Rodrigues Departamento de Matemática Aplicada e Estatística - SME Tópicos 1. Seleção de atributos 2. Redução de
Leia maisCC-226 Introdução à Análise de Padrões
CC-226 Introdução à Análise de Padrões Apresentação do Curso Carlos Henrique Q. Forster 1 1 Divisão de Ciência da Computação Instituto Tecnológico de Aeronáutica 25 de fevereiro de 2008 C. H. Q. Forster
Leia maisAprendizagem de Máquina
Plano de Aula Aprendizagem de Máquina Bagging,, Support Vector Machines e Combinação de Classificadores Alessandro L. Koerich Uma visão geral de diversos tópicos relacionados à Aprendizagem de Máquina:
Leia maisRedes Neurais (Inteligência Artificial)
Redes Neurais (Inteligência Artificial) Aula 13 Support Vector Machines (SVM) Edirlei Soares de Lima Formas de Aprendizado Aprendizado Supervisionado Árvores de Decisão. K-Nearest
Leia maisAprendizado de Máquina (Machine Learning)
Ciência da Computação (Machine Learning) Aula 02 Representação dos dados Pré-processamento Max Pereira Tipo de Dados Os atributos usados para descrever objetos de dados podem ser de diferentes tipos: Quantitativos
Leia maisCréditos. Sumário. Introdução. Parte do material a seguir consiste de adaptações e extensões dos originais cedidos gentilmente por:
Créditos SELEÇÃO DE ATRIBUTOS Parte do material a seguir consiste de adaptações e extensões dos originais cedidos gentilmente por: Prof. Dr. André C. P. L. F. Carvalho Prof. Dr. Eduardo R. Hruschka Tan
Leia maisSeleção de Atributos FSS. Relevância de Atributos. Relevância de Atributos. Seleção de Atributos - FSS. FSS como Busca no Espaço de Estados
Seleção FSS Alguns indutores geralmente degradam seu desempenho quando são fornecidos muitos atributos irrelevantes para o conceito a ser aprendido Feature Subset Selection (FSS) é o processo de selecionar
Leia maisReconhecimento de Padrões
Reconhecimento de Padrões André Tavares da Silva andre.silva@udesc.br Roteiro da aula Conceitos básicos sobre reconhecimento de padrões Visão geral sobre aprendizado no projeto de classificadores Seleção
Leia maisMúltiplos Classificadores
Universidade Federal do Paraná (UFPR) Bacharelado em Informátia Biomédica Múltiplos Classificadores David Menotti www.inf.ufpr.br/menotti/ci171-182 Hoje Múltiplos classificadores Combinação de classificadores
Leia maisProfessor: Eduardo R. Hruschka Estagiário PAE: Luiz F. S. Coletta
Professor: Eduardo R Hruschka Estagiário PAE: Luiz F S Coletta (luizfsc@icmcuspbr) Sumário Definição do projeto 1 Desenvolvimento de algoritmo de Aprendizado de Máquina (AM); 2 Pré-processamento dos dados;
Leia maisAprendizado de Máquina. Combinando Classificadores
Universidade Federal do Paraná (UFPR) Departamento de Informática (DInf) Aprendizado de Máquina Combinando Classificadores David Menotti, Ph.D. web.inf.ufpr.br/menotti Introdução O uso de vários classificadores
Leia maisTécnicas de recuperação de informação: filtragem, agrupamento
Técnicas de recuperação de informação: filtragem, agrupamento 1 Nome usado para descrever uma variedade de processos envolvendo a entrega de informação para pessoas que precisam dela; Compreende um método
Leia maisIntegração de Mineração de Dados com SGBD Detecção de Agrupamentos
Integração de Mineração de Dados com SGBD Detecção de Agrupamentos Centro de Matemática Computação e Cognição-UFABC Jéssica Andressa de Souza Pós-Graduação em Ciência da Computação Sistemas de Banco de
Leia maisFundamentos de Inteligência Artificial [5COP099]
Fundamentos de Inteligência Artificial [5COP099] Dr. Sylvio Barbon Junior Departamento de Computação - UEL 1 o Semestre Assunto Aula 10 Modelos Preditivos - Árvore de Decisão 2 de 20 Aula 10 - Árvore de
Leia maisRedes Neurais (Inteligência Artificial)
Redes Neurais (Inteligência Artificial) Aula 16 Aprendizado Não-Supervisionado Edirlei Soares de Lima Formas de Aprendizado Aprendizado Supervisionado Árvores de Decisão. K-Nearest
Leia maisAnálise de Clusters. Aplicações da formação de Grupos (Clustering)
Análise de Clusters Aplicações da formação de Grupos (Clustering) Ver e analisar vastas quantidades de dados biológicos como um todo pode ser difícil É mais fácil interpretar os dados se forem divididos
Leia maisSCC0173 Mineração de Dados Biológicos
SCC0173 Mineração de Dados Biológicos Classificação I: Algoritmos 1Rule e KNN Prof. Ricardo J. G. B. Campello SCC / ICMC / USP 1 Créditos O material a seguir consiste de adaptações e extensões dos originais:
Leia maisTeoria do aprendizado
Teoria do aprendizado Marcelo K. Albertini 7 de Agosto de 2014 2/37 Teoria do aprendizado Teoremas não existe almoço grátis Viés e variância Aprendizado PAC Dimensão VC Máquinas de vetores suporte 3/37
Leia maisDescritores de Imagens
Descritores de Imagens André Tavares da Silva PPGCA/UDESC Outubro de 2017 André Tavares da Silva (PPGCA/UDESC) Descritores de Imagens Outubro de 2017 1 / 18 Descritores Locais e Frameworks SIFT SURF Viola-Jones
Leia maisPrediction of Secondary Structure of Protein using Support Vector Machine / 11
Prediction of Secondary Structure of Protein using Support Vector Machine Pankaj Agarwal, Shivani Agarwal e Deepali Mendiratta IMS Engineering College, Ghaziabad - India 2014 Prediction of Secondary Structure
Leia maisUniversidade de São Paulo Instituto de Ciências Matemáticas e de Computação
Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação Francisco A. Rodrigues Departamento de Matemática Aplicada e Estatística - SME Conceitos básicos Classificação não-supervisionada:
Leia maisCLASSIFICADORES ELEMENTARES
CLASSIFICADORES ELEMENTARES Classificação 2 Consiste em tentar discriminar em diferentes classes um conjunto de objetos com características mensuráveis Exemplo: classificação de frutas Forma, cor, sabor,
Leia maisMáquinas de Vetores de Suporte - Support Vector Machines (SVM) Germano Vasconcelos
Máquinas de Vetores de Suporte - Support Vector Machines (SVM) Germano Vasconcelos Introdução * Método supervisionado de aprendizagem de máquina * Empregado em classificação de dados Classificação binária
Leia maisCaracterização Automática dos Agentes Causadores de Lesões em Folíolos de Cultivares do Brasil. Suellen Silva de Almeida David Menotti
Caracterização Automática dos Agentes Causadores de Lesões em Folíolos de Cultivares do Brasil Suellen Silva de Almeida David Menotti 1 Introdução Grande ocorrência de ataques de pragas nos cultivares
Leia maisExame de Aprendizagem Automática
Exame de Aprendizagem Automática 2 páginas com 11 perguntas e 3 folhas de resposta. Duração: 2 horas e 30 minutos DI, FCT/UNL, 5 de Janeiro de 2016 Nota: O exame está cotado para 40 valores. Os 20 valores
Leia maisTrilha Learning Machine Cluster Analysis em 4 passos Marco Siqueira Campos
Trilha Learning Machine Cluster Analysis em 4 passos Marco Siqueira Campos Marco Siqueira Campos Sócio fundador Siqueira Campos Associados e sos-stat Estatístico UFRGS Certificado Data Science Specialization
Leia maisColeta e Análise de Características de Fluxo para Classificação de Tráfego em Redes Definidas por Software
Coleta e Análise de Características de Fluxo para Classificação de Tráfego em Redes Definidas por Software Rodolfo Vebber Bisol, Anderson Santos da Silva, Cristian Cleder Machado, Lisandro Zambenedetti
Leia maisINF 1771 Inteligência Artificial
Edirlei Soares de Lima INF 1771 Inteligência Artificial Aula 18 Aprendizado Não-Supervisionado Formas de Aprendizado Aprendizado Supervisionado Árvores de Decisão. K-Nearest Neighbor
Leia mais4 Construção dos Classificadores
4 Construção dos Classificadores 4.1. Modelagem O aprendizado supervisionado contém a etapa de modelagem, nessa etapa definimos quais serão as características encaminhadas ao classificador para o treinamento.
Leia maisIntrodução à Mineração de Dados com Aplicações em Ciências Espaciais
Introdução à Mineração de Dados com Aplicações em Ciências Espaciais Escola de Verão do Laboratório Associado de Computação e Matemática Aplicada Rafael Santos Dia 2: 1 /59 Programa Dia 1: Apresentação
Leia maisObjetivos. 1. O método desenvolvido usa características de pares de pixeis para fazer estatísticas e formar
Introdução Comidas podem apresentar deformações e variações em sua forma, além de conter muitos ingredientes, nem todos visíveis; Métodos tradicionais de reconhecimento requerem a detecção de características
Leia mais2 Sentiment Analysis 2.1
2 Sentiment Analysis 2.1 Definição do Problema Sentiment Analysis é um problema de categorização de texto no qual deseja-se detectar opiniões favoráveis e desfavoráveis com relação a um determinado tópico
Leia maisscikit-learn: Aprendizado de máquina 101 com Python
scikit-learn: Aprendizado de máquina 101 com Python Luciana Fujii Campus Party BH 2016 1 / 30 Introdução Aprendizado de máquina Aprendizado de máquina é o campo da ciência da computação que dá aos computadores
Leia maisRede RBF (Radial Basis Function)
Rede RBF (Radial Basis Function) André Tavares da Silva andre.silva@udesc.br Roteiro Introdução à rede neural artificial RBF Teorema de Cover da separabilidade de padrões RBF x MLP RBF Função de ativação
Leia maisINF 1771 Inteligência Artificial
INF 1771 Inteligência Artificial Aula 13 K-Nearest Neighbor (KNN) 2016.1 Prof. Augusto Baffa Formas de Aprendizado Aprendizado Supervisionado Árvores de Decisão. K-Nearest Neighbor
Leia mais2. Seleção de atributos
2. Seleção de atributos 5 À medida que se dissemina o uso das TI no mundo empresarial, nas instituições oficiais e no dia a dia das pessoas, aumenta, de forma exponencial, a disponibilização de informação
Leia maisThiago Marzagão 1. 1 Thiago Marzagão (Universidade de Brasília) MINERAÇÃO DE DADOS 1 / 21
MINERAÇÃO DE DADOS Thiago Marzagão 1 1 marzagao.1@osu.edu ÁRVORE DE DECISÃO & VALIDAÇÃO Thiago Marzagão (Universidade de Brasília) MINERAÇÃO DE DADOS 1 / 21 árvore de decisão Aulas passadas: queríamos
Leia maisMaldição da dimensionalidade
EXTRAÇÃO E SELEÇÃO DE ATRIBUTOS Maldição da dimensionalidade 2 Maldição da dimensionalidade (ou Curse of dimensionality) Termo que se refere a vários fenômenos que surgem na análise de dados em espaços
Leia mais2 Seleção de características
2 Seleção de características 2. Introdução Na maioria das aplicações reais de classificação, previsão, aproximação e otimização, as bases de dados contêm um grande número de caraterísticas, muitas delas
Leia maisSEMINÁRIO DOS ARTIGOS:
SEMINÁRIO DOS ARTIGOS: Text Detection and Character Recognition in Scene Images with Unsupervised Feature Learning End-to-End Text Recognition with Convolutional Neural Networks Fernanda Maria Sirlene
Leia maisÁrvores de decisão. Marcelo K. Albertini. 17 de Agosto de 2015
Árvores de decisão Marcelo K. Albertini 17 de Agosto de 2015 2/31 Árvores de Decisão Nós internos testam o valor de um atributo individual ramificam de acordo com os resultados do teste Nós folhas especificam
Leia maisAgrupamento. Algoritmos e aplicações
Agrupamento Algoritmos e aplicações Equipe Bertha Andaluz (bmca) Deborah Mesquita (dhsm) Lucas Lima (lapl) Lucas Tenório (lvt) Roteiro Motivação Métodos de clustering Modelos de clustering Fuzzy clustering
Leia maisAgregação de Algoritmos de Aprendizado de Máquina (AM) Professor: Eduardo R. Hruschka Estagiário PAE: Luiz F. S. Coletta
Agregação de Algoritmos de Aprendizado de Máquina (AM) Professor: Eduardo R. Hruschka Estagiário PAE: Luiz F. S. Coletta (luizfsc@icmc.usp.br) Sumário 1. Motivação 2. Bagging 3. Random Forest 4. Boosting
Leia maisINTRODUÇÃO À CALIBRAÇÃO MULTIVARIADA
INTRODUÇÃO À CALIBRAÇÃO MULTIVARIADA APLICAÇÃO NO CONTROLE DE QUALIDADE DE FÁRMACOS MÓDULO 05 Unidade Universitária de Ciências Exatas e Tecnológicas UnUCET Anápolis 1 2 MÓDULO 05 CALIBRAÇÃO MULTIVARIADA
Leia maisAprendizagem de Máquina
Aprendizagem de Máquina Alessandro L. Koerich Programa de Pós-Graduação em Informática Pontifícia Universidade Católica do Paraná (PUCPR) Horários Aulas Sala 3 CCET [quinta-feira, 8:20 12:00] Atendimento
Leia maisMÉTODOS MULTIVARIADOS. Rodrigo A. Scarpel
MÉTODOS MULTIVARIADOS Rodrigo A. Scarpel rodrigo@ita.br www.mec.ita.br/~rodrigo INTRODUÇÃO Semana Conteúdo Introdução aos métodos multivariados 1 Análise de componentes principais 2 Aplicações de análise
Leia maisMineração de Dados. Análise e Seleção de Variáveis
Mineração de Dados Análise e Seleção de Variáveis 1 Análise e Seleção de Variáveis Parte da uma área chamada de Redução de Dados Obtenção de uma representação reduzida em volume mas que produz resultados
Leia maisProf. Daniela Barreiro Claro
O volume de dados está crescendo sem parar Gigabytes, Petabytes, etc. Dificuldade na descoberta do conhecimento Dados disponíveis x Análise dos Dados Dados disponíveis Analisar e compreender os dados 2
Leia maisT6.1 Reconhecimento de Padrões
T6.1 Reconhecimento de Padrões Proc. Sinal e Imagem Mestrado em Informática Médica Miguel Tavares Coimbra Resumo 1. Introdução ao reconhecimento de padrões 2. Representação do conhecimento 3. Reconhecimento
Leia maisProfs.: Eduardo Vargas Ferreira Walmes Marques Zeviani
Universidade Federal do Paraná Laboratório de Estatística e Geoinformação - LEG Introdução Profs.: Eduardo Vargas Ferreira Walmes Marques Zeviani O que é Machine Learning? Estatística Machine Learning
Leia maisIntrodução ao Datamining 4ºAno M, AN,FZ,EN-MEC,EN-AEL V 1.3, V.Lobo, EN 2008
4ºAno, A,FZ,E-EC,E-AEL V.3, V.Lobo, E 28 Introdução a Datamining (previsão e agrupamento) Victor Lobo E o que fazer depois de ter os dados organizados? 4º ano dos cursos tradicionais da Escola aval Ideias
Leia maisRickson Guidolini Orientador: Nivio Ziviani Co-orientador: Adriano Veloso
Detecção de Réplicas de Sítios Web em Máquinas de Busca Usando Aprendizado de Máquina Rickson Guidolini Orientador: Nivio Ziviani Co-orientador: Adriano Veloso Universidade Federal de Minas Gerais LATIN
Leia maisAprendizagem de Máquina
Aprendizagem de Máquina Árvores de Decisão Poda e extensões Prof. Paulo Martins Engel UFRGS 2 Questões sobre Árvores de Decisão Questões práticas do aprendizado de AD incluem: Determinar até quando se
Leia maisCréditos. SCC0173 Mineração de Dados Biológicos. Aula de Hoje. Introdução. Classificação III: Árvores de Decisão
SCC073 Mineração de Dados Biológicos Classificação III: Árvores de Decisão Créditos O material a seguir consiste de adaptações e extensões dos originais: gentilmente cedidos pelo Prof. André C. P. L. F.
Leia maisÁrvore de Decisão. George Darmiton da Cunha Cavalcanti Tsang Ing Ren CIn/UFPE
Árvore de Decisão George Darmiton da Cunha Cavalcanti Tsang Ing Ren CIn/UFPE Tópicos Introdução Representando Árvores de Decisão O algoritmo ID3 Definições Entropia Ganho de Informação Overfitting Objetivo
Leia maisAprendizado de Máquina
Aprendizado de Máquina Aula #8.1 EBS 564 IA Prof. Luiz Fernando S. Coletta luizfsc@tupa.unesp.br Campus de Tupã Conhecimento: abstração (modelo) das relações existentes entre as informações contidas nos
Leia mais2284-ELE/5, 3316-IE/3
INTELIGÊNCIA ARTIFICIAL 2284-ELE/5, 3316-IE/3 Universidade da Beira Interior, Departamento de Informática Hugo Pedro Proença, 2007/2008 Aprendizagem Supervisionada 2 Os vários algoritmos de Aprendizagem
Leia maisDeterminação de vícios refrativos oculares utilizando Support Vector Machines
Determinação de vícios refrativos oculares utilizando Support Vector Machines Giampaolo Luiz Libralão, André Ponce de Leon F. de Carvalho, Antonio Valerio Netto, Maria Cristina Ferreira de Oliveira Instituto
Leia maisAprendizado de Máquina (Machine Learning)
Ciência da Computação Aprendizado de Máquina (Machine Learning) Aula 07 Classificação com o algoritmo knn Max Pereira Classificação com o algoritmo (knn) Um algoritmo supervisionado usado para classificar
Leia maisRealimentação de Relevância
Wendel Melo Faculdade de Computação Universidade Federal de Uberlândia Recuperação da Informação Ciclo de realimentação onde uma consulta q recebida do usuário é transformada em uma consulta modificada
Leia maisAndré Alexandre Sebastião Marques. Métodos de Biclustering no Problema da Selecção de Genes. Universidade de Aveiro Departamento de Matemática
Universidade de Aveiro Departamento de Matemática Ano 009 André Alexandre Sebastião Marques Métodos de Biclustering no Problema da Selecção de Genes Dissertação apresentada à Universidade de Aveiro para
Leia maisMétodos de pesquisa e Optimização
Métodos de pesquisa e Optimização Victor Lobo Importância para os SAD Definir o caminho a tomar depois de se ter trabalhado os dados 1ª Fase: Analisar os dados disponíveis Visualização OLAP, relatórios
Leia maisAPRENDIZAGEM DE MÁQUINA
APRENDIZAGEM DE MÁQUINA (usando Python) Thiago Marzagão ÁRVORE DE DECISÃO & VALIDAÇÃO Thiago Marzagão APRENDIZAGEM DE MÁQUINA 1 / 20 árvore de decisão Aulas passadas: queríamos prever variáveis quantitativas.
Leia maisAlgoritmos 3/17/ Algoritmos como área de estudo e investigação
Algoritmos e Complexidade Ana Teresa Freitas INESC-ID/IST ID/IST 3/17/2005 1 O que é um algoritmo? Algoritmos: Sequência de instruções necessárias para a resolução de um problema bem formulado [passíveis
Leia maisAprendizado indutivo. Marcelo K. Albertini. 17 de Abril de 2014
Aprendizado indutivo Marcelo K. Albertini 17 de Abril de 2014 2/22 Aprendizado indutivo O que é? Porque é difícil? Como podemos resolver problemas de indução? 3/22 Aprendizado supervisionado Temos: exemplos
Leia maisAlgoritmos Randomizados: Geometria Computacional
Algoritmos Randomizados: Geometria Computacional Celina Figueiredo Guilherme Fonseca Manoel Lemos Vinicius de Sá 26º Colóquio Brasileiro de Matemática IMPA Rio de Janeiro Brasil 2007 Resumo Introdução
Leia mais2 Mineração de Dados Processo de Busca de Conhecimento (KDD) 2 Mineração de Dados
2 Mineração de Dados 2 Mineração de Dados A mineração de dados, ou data mining, é uma das principais etapas do processo de busca de conhecimento. Este conceito é utilizado para identificar técnicas avançadas
Leia maisInformática Parte 19 Prof. Márcio Hunecke
Escriturário Informática Parte 19 Prof. Márcio Hunecke Informática NOÇÕES DE ALGORITMOS DE APRENDIZADO O aprendizado automático, aprendizado de máquina (em inglês: "machine learning") ou aprendizagem
Leia maisO QUE É O BIG DATA? Big Data é o termo que descreve uma quantidade enorme de informações (volume de dados). BIG DATA ALGORITMOS 2
O QUE É O BIG DATA? Big Data é o termo que descreve uma quantidade enorme de informações (volume de dados). BIG DATA ALGORITMOS 2 O QUE É O BIG DATA? Os dados são o novo petróleo O Big Data, tal como o
Leia maisReconhecimento de Padrões. Reconhecimento de Padrões
Reconhecimento de Padrões 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 Escola Superior de Tecnologia Engenharia Informática Reconhecimento de Padrões Prof. João Ascenso Sumário:
Leia maisTabelas de Hash MBB. Novembro de Algoritmos e Complexidade LEI-LCC
Tabelas de Hash Algoritmos e Complexidade LEI-LCC 2010-2011 MBB Novembro de 2010 Tabelas e Acesso a Informação As estruturas de dados apresentadas anteriormente têm como objectivo o armazenamento de informação,
Leia maisAprendizado de Máquina
Aprendizado de Máquina Árvores de Decisão Luiz Eduardo S. Oliveira Universidade Federal do Paraná Departamento de Informática http://lesoliveira.net Luiz S. Oliveira (UFPR) Aprendizado de Máquina 1 / 28
Leia maisMétodos para Classificação: - Naïve Bayes.
Métodos para Classificação: - 1R; - Naïve Bayes. Visão Geral: Simplicidade em primeiro lugar: 1R; Naïve Bayes. 2 Classificação: Tarefa: Dado um conjunto de exemplos préclassificados, construir um modelo
Leia mais1.1 Descrição do problema A programação genética (PG) é uma meta-heurística utilizada para gerar programas de computadores, de modo que o computador
1 Introdução 1.1 Descrição do problema A programação genética (PG) é uma meta-heurística utilizada para gerar programas de computadores, de modo que o computador possa resolver problemas de forma automática
Leia maisClassificação de Padrões. Abordagem prática com Redes Neurais Artificiais
Classificação de Padrões Abordagem prática com Redes Neurais Artificiais Agenda Parte I - Introdução ao aprendizado de máquina Parte II - Teoria RNA Parte III - Prática RNA Parte IV - Lições aprendidas
Leia maisUm Tutorial em processamento de sinais para EEG
Um Tutorial em processamento de sinais para EEG Técnicas para reconhecimento de estados mentais em Interfaces Cérebro-Computador Grupo de Pesquisa em Computação Musical - IME/USP March 14, 2016 Interfaces
Leia maisMetodologias para a Seleção de Atributos Relevantes
Metodologias para a Seleção de Atributos Relevantes José Augusto Baranauskas e Maria Carolina Monard Departamento de Computação e Estatística Instituto de Ciências Matemáticas e de Computação - Universidade
Leia maisCréditos. Introdução. Sumário. Agradecimento. Introdução. Análise de Expressão Gênica. Tecnologia de Microarray
Créditos Biológicos: Expressão Gênica Estagiário PAE: Pablo Andretta Jaskowiak Professor: Ricardo J. G. B. Campello Partes destes slides são baseadas em materiais de Ivan Gesteira Costa Filho http://www.cin.ufpe.br/~igcf/
Leia maisRedes Neurais e Sistemas Fuzzy
1. Inteligência Computacional Redes Neurais e Sistemas Fuzzy Apresentação da disciplina Conceitos básicos A chamada Inteligência Computacional (IC) reúne uma série de abordagens e técnicas que tentam modelar
Leia maisInformática. Aprendizado de Máquina. Professor Márcio Hunecke.
Informática Aprendizado de Máquina Professor Márcio Hunecke www.acasadoconcurseiro.com.br Informática Aula XX NOÇÕES DE ALGORITMOS DE APRENDIZADO O aprendizado automático, aprendizado de máquina (em inglês:
Leia maisClustering: k-means e Agglomerative
Tópicos Avançados em Avaliação de Desempenho de Sistemas Jackson Nunes Marco Eugênio Araújo Outubro de 2014 1 Sumário Contextualização Classificação Agrupamento (Clustering) Cenários de Aplicação Clustering
Leia mais