Análise de Clusters. Aplicações da formação de Grupos (Clustering)

Documentos relacionados
Prof. Daniela Barreiro Claro

Álgebra Linear Aplicada à Compressão de Imagens. Universidade de Lisboa Instituto Superior Técnico. Mestrado em Engenharia Aeroespacial

Sistemática dos seres vivos

Andrés Eduardo Coca Salazar Tutor: Prof. Dr. Zhao Liang

MINERAÇÃO DE DADOS. Thiago Marzagão MINERAÇÃO DE TEXTOS. Thiago Marzagão (UnB) MINERAÇÃO DE DADOS 1/ / 25

Índice Geral. O Problema do Caminho Mais Curto com um só Objectivo

ARQUITETURA DE COMPUTADORES. Professor: Clayton Rodrigues da Siva

UNIVERSIDADE FEDERAL DA BAHIA ESCOLA POLITÉCNICA DEPARTAMENTO DE ENGENHARIA QUÍMICA ENG 008 Fenômenos de Transporte I A Profª Fátima Lopes

Redes de Computadores

Software PHC com MapPoint 2007

epucc.com.br SAIBA COMO INCLUIR INFORMAÇÕES DE COLABORADORES, CENTROS DE CUSTO E RATEIO DE DESPESAS

TESTES SOCIOMÉTRICOS

Inteligência Artificial

Gestão de Actas Escolares. Manual Utilizador. (Versão 4)

Olimpíada Brasileira de Raciocínio Lógico Nível III Fase II 2014

5838 Maquinação Introdução ao CNC

Probabilidade. Luiz Carlos Terra

Métodos Quantitativos Aplicados

CRIAÇÃO DE TABELAS NO ACCESS. Criação de Tabelas no Access

EGEA ESAPL - IPVC. Resolução de Problemas de Programação Linear, com recurso ao Excel

Ondas EM no Espaço Livre (Vácuo)

12 26, 62, 34, , , 65

Comandos de Eletropneumática Exercícios Comentados para Elaboração, Montagem e Ensaios

Curso de Formação de Oficiais Conhecimentos Específicos ENGENHARIA DE COMPUTAÇÃO CADERNO DE QUESTÕES

Teoria dos Grafos. Valeriano A. de Oliveira Socorro Rangel Departamento de Matemática Aplicada.

1 Visão Geral. 2 Instalação e Primeira Utilização. Manual de Instalação do Gold Pedido

Problema da Árvore Geradora Mínima

Árvores. ! utilizada em muitas aplicações. ! modela uma hierarquia entre elementos. ! O conceito de árvores está diretamente ligado à recursão

Seu pé direito nas melhores Faculdades

Criar e formatar relatórios

INFORMÁTICA PARA GESTÃO II Curso Superior de Gestão de Marketing

ENGENHARIA DE SOFTWARE

Gestão Documental. Gestão Documental

2 Segmentação de imagens e Componentes conexas

Fundamentos de Programação. Diagrama de blocos

Flávia Rodrigues. Silves, 26 de Abril de 2010

Lógica de Programação. Profas. Simone Campos Camargo e Janete Ferreira Biazotto

Breve enquadramento no Sistema Estatístico Nacional. - O INE, Serviços disponíveis, Ligações, Contacte-nos

é 4. Portanto, o desvio padrão é 2. Neste caso 100% dos valores da população estão a um desvio padrão da média.

LINEARIZAÇÃO DE GRÁFICOS

Universidade Federal do Paraná - Setor de Ciências da Terra

Engenharia de Software II

Obtenção Experimental de Modelos Matemáticos Através da Reposta ao Degrau

Modelo Entidade Relacionamento (MER) Professor : Esp. Hiarly Alves

IFRN. Conexidade e Distância. Prof. Edmilson Campos

PESQUISA OPERACIONAL -PROGRAMAÇÃO LINEAR. Prof. Angelo Augusto Frozza, M.Sc.

Computação Gráfica - 12

Cadeira de Tecnologias de Informação. Ano lectivo 2009/2010. Sites dinâmicos. Com Expression Web TI2009/10 EWD_1. Filipa Pires da Silva (2009)

Fundamentos de Bancos de Dados 3 a Prova Caderno de Questões

MÓDULO 2 Topologias de Redes

Análise espacial do prêmio médio do seguro de automóvel em Minas Gerais

LOGO DO WEBSITE DA FUTURA APP

Jorge Figueiredo, DSC/UFCG. Análise e Técnicas de Algoritmos Jorge Figueiredo, DSC/UFCG. Análise e Técnicas de Algoritmos 2005.


BEM VINDOS ALUNOS DA GRADUAÇÃ ÇÃO. GESTÃO INTEGRADA PESSOAS E SISTEMAS DE INFORMAÇÃ ÇÃO O QUE O MUNDO TEM A VER COM MARKETING?

Prof. José Maurício S. Pinheiro - UGB

Tipos de problemas de programação inteira (PI) Programação Inteira. Abordagem para solução de problemas de PI. Programação inteira

Fundamentos de Teste de Software

SISTEMAS DISTRIBUÍDOS

Motantagem de Contigs de sequências de genomas e Transcriptomas. Introdução

MANUAL DO INSTALADOR XD EM AMBIENTES MICROSOFT WINDOWS

FOLHA DE CÁLCULO VAMOS APRENDER

Disciplina: Unidade III: Prof.: Período:

PROPOSTA DE FORNECIMENTO DE SERVIÇOS APOIO REMOTO À EXECUÇÃO DA CONTABILIDADE POC-EDUCAÇÃO

Gerenciamento do Escopo do Projeto (PMBoK 5ª ed.)

Pressuposições à ANOVA

Introdução ao Teste de Software

Tabelas Hash. Aleardo Manacero Jr.

Treinamento de e-commerce

Unidade 1: O Computador

Árvores UFES. Teoria dos Grafos. CC/EC/Mestrado

7. A importância do aterramento na Qualidade da Energia.

Teoria dos Grafos. Edson Prestes

Manutenção volante. A DDS SERVIÇOS possui muita experiência com este modelo de manutenção com resultados altamente satisfatórios.

Sistemas Distribuídos

Erros de Estado Estacionário. Carlos Alexandre Mello. Carlos Alexandre Mello 1

Instruções para utilização dos Fóruns pelo Grupo dos Consensos Psiquiátricos para Clínicos Gerais 2005

Objetivo do Portal da Gestão Escolar

5.4 Evolução pós-sp: estrelas pequena massa

UNIVERSIDADE DO VALE DO RIO DOS SINOS - UNISINOS CENTRO DE CIÊNCIAS EXATAS E TECNOLÓGICAS - CENTRO 06. Funções, variáveis, parâmetros formais

HAVE A SILCA COPY COPY HAVE A SILCA COPY. Duplicadoras Electrónicas HAVE A SILCA COPY HAVE A SILCA COPY HAVE A SILCA COPY HAVE A COPY

CONTROLE DA QUALIDADE TOTAL (TQC)

AULA 07 Distribuições Discretas de Probabilidade

Dicas de Segurança sobre Virus

TOM, SEMITOM, SUSTENIDO, BEMOL.

Bem-vindo ao tópico sobre conceitos de determinação de preços.

Manual de Utilização. Ao acessar o endereço chegaremos a seguinte página de entrada: Tela de Abertura do Sistema

1-Eletricidade básica

Modelo Lógico: Tabelas, Chaves Primárias e Estrangeiras

ARTIGO. Sobre monitoramento a Distancia e aplicação automática de medicamentos. Sistema de monitoração a distancia e aplicação de medicamentos.

ENG1000 Introdução à Engenharia

ASPECTOS CONSTRUTIVOS DE ROBÔS

GEOMETRIA DO TAXISTA. (a -b )² + (a -b )²

Matemática Discreta - 08

Introdução de XML. Dados da Web. Gerência de Dados da Web. A Web representa, nos dias de hoje, um repositório universal de dados, onde:

3 Metodologia de pesquisa

Prof. Dr. Heros Ferreira Plataforma EAD. Encontro Multiesportivo de Técnicos Formadores Solidariedade Olímpica / COI

CATÁLOGO DE APLICAÇÕES Rateio CC Contas a Pagar

Sejam P1(x1,y1) e P2(x2,y2) pontos pertencentes ao plano. A equação da reta pode ser expressa como: ou

Transcrição:

Análise de Clusters Aplicações da formação de Grupos (Clustering) Ver e analisar vastas quantidades de dados biológicos como um todo pode ser difícil É mais fácil interpretar os dados se forem divididos em grupos (clusters) que combinam dados similares. Análise de Clusters 2

Inferindo sobre a funcionalidade dos Genes Os investigadores pretendem conhecer as funções de novos genes sequenciados Comparando as novas sequências de genes com sequências de DNA conhecidas não é, frequentemente, suficiente para a descoberta da funcionalidade do gene Microarrays permitem analisar em larga escala a abundância relativa dos genes e a partir da correlação da abundância inferir sobre as sua funções Análise de Clusters 3 Análise de expressão genética por Microarrays Microarrays medem a actividade (nível de expressão) dos genes sobre diferentes condições/pontos no tempo O nível de expressão é estimado através da medição da quantidade de mrna para aquele gene particular Um gene é activo se foi transcrito Maior abundância de mrna indica maior actividade do gene Análise de Clusters 4

Dados dos Microarrays Dados dos Microarrays são usualmente transformados numa matriz de intensidade ou expressão A matriz de intensidade permite aos biólogos efectuar correlações entre diferentes genes (mesmo que não sejam semelhantes) e perceber como as funções dos genes podem ser relacionadas Intensidade (nível de expressão) do gene medida no tempo Tempo: Gene 1 Gene 2 Gene 3 Gene 4 Tempo X 10 10 4 7 Tempo Y 8 0 8.6 8 Tempo Z 10 9 3 3 Gene 5 1 2 3 Análise de Clusters 5 Formação de clusters de dados de Microarrays Represente cada dado como um ponto no espaço m- dimensional Calcule uma matriz de distâncias entre cada dois genes no espaço m-dimensional Genes com uma distância pequena partilham as mesmas características e podem ser funcionalmente relacionados ou similares A formação de clusters revela grupos de genes funcionalmente relacionados Análise de Clusters 6

Formação de clusters de dados de Microarrays (cont.) Clusters Análise de Clusters 7 Princípios Homogeneidade e Separação Homogeneidade: Elementos num mesmo cluster são próximos Separação: Elementos em clusters diferentes estão mais afastados entre si. Dado este conjunto de pontos um algoritmo de formação de clusters pode criar dois clusters como se segue Análise de Clusters 8

Mau Clustering Estes grupos (clusters) violam os princípios de Homogeneidade e Separação Distâncias próximas entre pontos de clusters distintos Distâncias longas entre pontos do mesmo cluster Análise de Clusters 9 Bom Clustering Estes grupos (clusters) satisfazem os princípios de Homogeneidade e Separação Análise de Clusters 10

Técnicas de Clustering Aglomerativo: Comece com cada elemento no seu próprio cluster e interactivamente agrupe os clusters. Divisivo: Comece com um único cluster e interactivamente divide-o em clusters mais pequenos. Hierárquico: Organize os elementos numa árvore, onde as folhas representam os genes e o comprimento entre os nós representa a distância entre os genes. Genes similares encontram-se nas mesmas subárvores. Análise de Clusters 11 Clustering Hierárquico Análise de Clusters 12

Clustering Hierárquico: Um exemplo Análise de Clusters 13 Clustering Hierárquico: Um exemplo Análise de Clusters 14

Clustering Hierárquico: Um exemplo Análise de Clusters 15 Clustering Hierárquico: Um exemplo Análise de Clusters 16

Clustering Hierárquico: Um exemplo Análise de Clusters 17 Clustering Hierárquico (cont.) O Clustering Hierárquico é muitas vezes utilizado para revelar a história evolutiva Análise de Clusters 18

Algoritmo de Clustering Hierárquico Clustering Hierárquico(d, n) 1. Forme n clusters cada um com um elemento 2. Construa um grafo T atribuindo um vértice a cada cluster 3. Enquanto existir mais do que um cluster 4. Encontre os dois clusters mais próximos C 1 e C 2 5. Agrupe C 1 e C 2 num novo cluster C com #C 1 +#C 2 elementos 6. Calcule a distância de C a todos os outros clusters 7. Adicione um novo vértice C a T e conecte-o aos vértices C 1 e C 2 8. Remova as linhas e colunas de d correspondentes a C 1 e C 2 9. Adicione uma linha e coluna a d correspondente ao novo cluster C 10. retorne T O algoritmo recebe como input uma matriz de distâncias nxn Análise de Clusters 19 Clustering Hierárquico: Recalculo das distâncias Maneiras diferentes de definir distâncias entre clusters podem conduzir à formação de clusters distintos d min (C, C * ) = min d(x,y) para todos os elementos x de C e y em C * Distância entre dois clusters é a menor distância entre qualquer par dos seus elementos d avg (C, C * ) = 1 / (#C * #C) d(x,y) para todos os elementos x de C e y em C * Distância entre dois clusters é a distância média entre qualquer par dos seus elementos Análise de Clusters 20

Erro quadrático de distorção Dado um ponto v e um conjunto de pontos X={x 1, x 2, x k } define- -se a distância de v a X d(v, X) como a distância (Euclidiana) de v ao ponto mais próximo de X, ou seja, d(v, X)=min 1 i k d(v,x i ) Dado um conjunto de n pontos V={v 1 v n } e um conjunto de k pontos X, define-se o Erro quadrático de Distorção (Squared Error Distortion) como d(v,x) = d(v i, X) 2 / n 1 < i < n Análise de Clusters 21 K-Means Clustering: Formulação Input: Um conjunto, V, consistindo em n pontos e um parâmetro k Output: Um conjunto X consistindo em k pontoscentróides (cluster centers) que minimizam o erro quadrático de distorção d(v,x) para todas as possíveis escolhas de X Análise de Clusters 22

1-Means Clustering: Um caso simples Input: Um conjunto, V, consistindo em n pontos Output: Um único ponto x (cluster center) que minimiza the squared error distortion d(v,x) para todas as escolhas possíveis de x 1-Means Clustering é fácil. No entanto, torna-se bastante difícil para mais de um centróide. Um método heurístico eficiente para o K-Means clustering é o algoritmo de Lloyd. Análise de Clusters 23 K-Means Clustering: Algoritmo de Lloyd Lloyd Algorithm 1. Escolha arbitrariamente os k centróides (cluster centers) 2. Enquanto os centróides continuarem a mudar 3. Atribua cada ponto ao cluster C i correspondente ao mais próximo representante do cluster (centróide) (1 i k) 4. Após a atribuição de todos os pontos, calcule os novos representantes dos clusters de acordo com o centro de gravidade de cada cluster, isto é, o novo representante do cluster é v / #C *Este algoritmo pode apenas localizar um óptimo local. Análise de Clusters 24

5 4 x 1 3 x 2 2 1 x 3 0 0 1 2 3 4 5 Análise de Clusters 25 5 4 x 1 3 x 2 2 1 x 3 0 0 1 2 3 4 5 Análise de Clusters 26

5 4 x 1 3 2 x 2 x 3 1 0 0 1 2 3 4 5 Análise de Clusters 27 5 4 x 1 3 2 x 2 x 3 1 0 0 1 2 3 4 5 Análise de Clusters 28

Algoritmo K-Means Conservativo O algoritmo de Lloyd é rápido, mas em cada iteração move muitos pontos, não causando necessariamente melhor convergência Um método mais conservativo será aquele que move apenas um determinado ponto apenas se melhorar o custo global de clustering Quanto mais baixo for o custo global da partição dos dados melhor é o clustering Diferentes métodos (ex. o erro quadrático de distorção) podem ser usados para medir o custo global de clustering Análise de Clusters 29 Algoritmo K-Means Greedy ProgressiveGreedyK-Means(k) 1. Seleccione uma partição arbitrária P com k clusters 2. Enquanto verdade 3. bestchange 0 4. Para todo o cluster C 5. Para todo o elemento i que não pertence a C 6. Se mover i para o cluster C reduz o custo de clustering 7. Se (cost(p) cost(p i C ) > bestchange 8. bestchange cost(p) cost(p i C ) 9. i * I 10. C * C 11. Se bestchange > 0 12. Altere a partição P movendo i * para C * 13. senão 14. devolva P Análise de Clusters 30

Grafos Clique Um clique é um grafo com cada vértice conectado a todos os outros Um grafo clique é um grafo onde cada componente conectada é um clique Análise de Clusters 31 Transformando um grafo arbitrário num grafo clique Um grafo pode ser transformado num grafo clique através da colocação e remoção de arestas Análise de Clusters 32

Problema dos Cliques Corruptos Input: Um grafo G Output: O menor número de colocação e remoção de arestas para transformar G num grafo clique Análise de Clusters 33 Grafos de Distâncias Transformar uma matriz de distâncias num grafo de distâncias Genes são representados como vértices do grafo Escolher um limiar θ (distance threshold) Se a distância entre dois vértices for inferior a θ então desenhase uma aresta entre os vértices O grafo resultante pode conter cliques Estes cliques representam clusters de pontos muito próximos Análise de Clusters 34

Transformando grafos de distâncias em grafos clique O grafo de distâncias (θ=7) é transformado num grafo clique após a remoção de duas arestas Após a transformação do grafo de distâncias num grafo clique o conjunto de dados está agrupado em três clusters Análise de Clusters 35 Heurísticas para o Problema dos Cliques Corruptos Este problema é NP-Difícil, pelo que existem algumas heurísticas para o resolver aproximadamente: CAST (Cluster Affinity Search Technique): um algoritmo prático e rápido: CAST é baseado na noção de gene próximo do cluster C ou distante do cluster C Distância entre gene i e cluster C: d(i,c) = distância média entre o i e todos os genes em C O gene i está próximo do cluster C se d(i,c)< θ e distante caso contrário Análise de Clusters 36

Algoritmo CAST CAST(S, G, θ) 1. P Ø 2. Enquanto S Ø 3. v vértice de grau máximo no grafo de distâncias G 4. C {v} 5. Enquanto existir um gene próximo i C ou um gene distante i C 6. Encontre o gene mais próximo i C e adicione-o a C 7. Encontre o gene mais distante i C e remova-o de C 8. Adicione o cluster C à partição P 9. S S \ C 10. Remova os vértices do cluster C do grafo de distâncias G 11. devolva P S conjunto de elementos, G grafo de distância, θ limiar da distância Análise de Clusters 37 Referências Estes acetatos foram adaptados de: http://www.bioalgorithms.info/presentations/ch10_clustering.ppt Análise de Clusters 38