Emparelhamento de Cromossomas



Documentos relacionados
Unidade 13 Noções de Matemática Financeira. Taxas equivalentes Descontos simples e compostos Desconto racional ou real Desconto comercial ou bancário

ARITMÉTICA DE PONTO FLUTUANTE/ERROS EM OPERAÇÕES NUMÉRICAS

Aplicação da Lei Gauss: Algumas distribuições simétricas de cargas

PARTE IV COORDENADAS POLARES

Relatório Interno. Método de Calibração de Câmaras Proposto por Zhang

Escola Secundária com 3º Ciclo do E. B. de Pinhal Novo Física e Química A 10ºAno MEDIÇÃO EM QUÍMICA

MESTRADO EM MACROECONOMIA e FINANÇAS Disciplina de Computação. Aula 05. Prof. Dr. Marco Antonio Leonel Caetano

GEOMETRIA ESPACIAL. a) Encher a leiteira até a metade, pois ela tem um volume 20 vezes maior que o volume do copo.

2.6 RETRODISPERSÃO DE RUTHERFORD Introdução

Interbits SuperPro Web

De Kepler a Newton. (através da algebra geométrica) 2008 DEEC IST Prof. Carlos R. Paiva

- B - - Esse ponto fica à esquerda das cargas nos esquemas a) I e II b) I e III c) I e IV d) II e III e) III e IV. b. F. a. F

ELETRÔNICA II. Engenharia Elétrica Campus Pelotas. Revisão Modelo CA dos transistores BJT e MOSFET

Vedação. Fig.1 Estrutura do comando linear modelo ST

PRINCÍPIOS DA DINÂMICA LEIS DE NEWTON

Termodinâmica 1 - FMT 159 Noturno, segundo semestre de 2009

digitar cuidados computador internet contas Assistir vídeos. Digitar trabalhos escolares. Brincar com jogos. Entre outras... ATIVIDADES - CAPÍTULO 1

Questão 1. Questão 2. Questão 3. alternativa C. alternativa E

Engenharia Electrotécnica e de Computadores Exercícios de Electromagnetismo Ficha 1

Objetivo Estudo do efeito de sistemas de forças não concorrentes.

Análise de Correlação e medidas de associação

Resistência dos Materiais IV Lista de Exercícios Capítulo 2 Critérios de Resistência

I~~~~~~~~~~~~~~-~-~ krrrrrrrrrrrrrrrrrr. \fy --~--.. Ação de Flexão

Fig Essas linhas partem do pólo norte para o pólo sul na parte externa do material, e do pólo sul para o pólo norte na região do material.

ANÁLISE DA FIABILIDADE DA REDE DE TRANSPORTE E DISTRIBUIÇÃO

Informação Geográfica em Engenharia Civil

75$%$/+2(327(1&,$/ (/(75267È7,&2

Renato Frade Eliane Scheid Gazire

SEGUNDA LEI DE NEWTON PARA FORÇA GRAVITACIONAL, PESO E NORMAL

3. Elementos de Sistemas Elétricos de Potência

Caro cursista, Todas as dúvidas deste curso podem ser esclarecidas através do nosso plantão de atendimento ao cursista.

DETERMINAÇÃO DE ROTAS PARA EMPRESAS DE ENTREGA EXPRESSA

CAMPOS MAGNETOSTÁTICOS PRODUZIDOS POR CORRENTE ELÉTRICA

Fenômenos de Transporte I. Aula 10. Prof. Dr. Gilberto Garcia Cortez

EM423A Resistência dos Materiais

Movimentos de satélites geoestacionários: características e aplicações destes satélites

Divulgação completa e detalhada de cookies técnicos

RESOLUÇÃO DA AVALIAÇÃO DE MATEMÁTICA 2 o ANO DO ENSINO MÉDIO DATA: 10/08/13 PROFESSOR: MALTEZ

/(,'(%,276$9$57()/8;2 0$*1e7,&2

IV SEMEAD TÍTULO SINTÉTICO REPRESENTATIVO DE UM FUNDO DE INVESTIMENTOS. José Roberto Securato 1 RESUMO

Densidade de Fluxo Elétrico. Prof Daniel Silveira

Capítulo III Lei de Gauss

física eletrodinâmica GERADORES

PRÊMIO ABF-AFRAS DESTAQUE RESPONSABILIDADE SOCIAL 2011 Categoria Franqueado

x p - O Valor do total das actividades consideradas, na região padrão p.

UNIVERSIDADE DE TAUBATÉ FACULDADE DE ENGENHARIA CIVIL CÁLCULO VETORIAL

Módulo 5: Conteúdo programático Eq da continuidade em Regime Permanente. Escoamento dos Fluidos - Equações Fundamentais

PRÊMIO ABF-AFRAS DESTAQUE RESPONSABILIDADE SOCIAL 2011 Categoria Franqueador Sênior

Física Geral I - F 128 Aula 8: Energia Potencial e Conservação de Energia. 2 o Semestre 2012

UNIVERSIDADE EDUARDO MONDLANE

PRÊMIO ABF-AFRAS DESTAQUE RESPONSABILIDADE SOCIAL 2011 Categoria Franqueado

A Disposição a Pagar pelo Uso da Água na Bacia Hidrográfica do Rio Pardinho

FÍSICA 3 Fontes de Campo Magnético. Prof. Alexandre A. P. Pohl, DAELN, Câmpus Curitiba

DISCIPLINA ELETRICIDADE E MAGNETISMO LEI DE AMPÈRE

DESENVOLVIMENTO DE APLICATIVO PARA MONITORAMENTO EM LINHA E CONTROLE DE REATORES DE POLIMERIZAÇÃO

LISTA de GRAVITAÇÃO PROFESSOR ANDRÉ

4 Modelo para Extração de Regras Fuzzy a partir de Máquinas de Vetores Suporte FREx_SVM 4.1 Introdução

Professor: Newton Sure Soeiro, Dr. Eng.

)25d$0$*1e7,&$62%5( &21'8725(6

PRÊMIO ABF-AFRAS DESTAQUE RESPONSABILIDADE SOCIAL 2011 Categoria Franqueado

Dimensionamento de uma placa de orifício

Ivan Correr (UNIMEP) Ronaldo de Oliveira Martins (UNIMEP) Milton Vieira Junior (UNIMEP)

Rolamentos rígidos de esferas

PRÊMIO ABF-AFRAS DESTAQUE RESPONSABILIDADE SOCIAL 2011 Categoria Franqueador Sênior

ATIVIDADE DE FÉRIAS PRÉ

TRIBUNAL DE CONTAS DA UNIÃO. Índice:

Os Fundamentos da Física

REGIMENTO INTERNO DO FUNDO PATRIMONIAL DE APOIO AO JORNALISMO INVESTIGATIVO (F/ABRAJI) Aprovado pela Assembleia Geral de Associados realizada em.

2. Projetos de Investimento como Opções Reais

PRÊMIO ABF-AFRAS DESTAQUE RESPONSABILIDADE SOCIAL 2011 Categoria Fornecedor

Utilização do SOLVER do EXCEL

Simulador de Transmissões Digitais

PRÊMIO ABF-AFRAS DESTAQUE RESPONSABILIDADE SOCIAL 2011 Categoria Franqueador Sênior

João Eduardo de Souza Grossi

Antenas. Antena = transição entre propagação guiada (circuitos) e propagação não-guiada (espaço). Antena Isotrópica

Equações Básicas na Forma Integral - I. Prof. M. Sc. Lúcio P. Patrocínio

HISTOGRAM RATIO FEATURES FOR COLOR TEXTURE CLASSIFICATION

PRÊMIO ABF-AFRAS DESTAQUE RESPONSABILIDADE SOCIAL 2011 Categoria Franqueador Sênior

Análise do Perfil de Temperaturas no Gás de Exaustão de um Motor pelo Método das Diferenças Finitas

Sejam todos bem-vindos! Física II. Prof. Dr. Cesar Vanderlei Deimling

TEORIA DA GRAVITAÇÃO UNIVERSAL

EXPERIÊNCIA 5 - RESPOSTA EM FREQUENCIA EM UM CIRCUITO RLC - RESSONÂNCIA

O QUE É? A LEUCEMIA MIELOBLÁSTICA AGUDA

e A Formação do Circuito Equivalente

Prova Escrita de Matemática B

Dinâmica Trabalho e Energia

'CRYSTAL :FASHION EVENTO! alimentares ' BULIMIA e ~'... C;;ritiba b~ distúrbios. os mais caro! e veloze! do mundc. MARIAlpU ,-- UTOMÓVEI!

2. A INVESTIGAÇÃO EXPERIMENTAL DE ESTRUTURAS. 2.1 Aplicação da Análise Experimental de Estruturas

Transformador de Corrente com Núcleo Toroidal de Liga Nanocristalina

1 - Nome do projeto ou do programa de responsabilidade social: Programa SOS na Escola

PR I. Teoria das Linhas de Transmissão. Carlos Alberto Barreiro Mendes Henrique José da Silva

GERÊNCIA DE TECNOLOGIA DA INFORMAÇÃO

Capítulo 12. Gravitação. Recursos com copyright incluídos nesta apresentação:

Transformações geométricas

FORÇA ENTRE CARGAS ELÉTRICAS E O CAMPO ELETROSTÁTICO

FAÇA AS ATIVIDADES NAS DATAS SUGERIDAS PARA RELEMBRAR O QUE JÁ APRENDEMOS.

APROG - Civil. Excel. Técnicas de pesquisa de informação em tabelas. Instituto Superior de Engenharia do Porto

MODELAGEM E ANÁLISE DE GERADORES SÍNCRONOS UTILIZANDO O MÉTODO DE RECONSTRUÇÃO DO CAMPO MARCIO LUIZ MAGRI KIMPARA

PRÊMIO ABF-AFRAS DESTAQUE RESPONSABILIDADE SOCIAL 2011 Categoria Franqueado

Transcrição:

Empaelhamento de Comossomas Paa Popósitos de Caiotipágem Atem Khmelinskii Dissetação paa obtenção do Gau de Meste em Engenhaia Biomédica Júi Pesidente: Oientadoes: Vogais: Pofª. Teesa Peña Pof. João Miguel Raposo Sanches Pofª. Maia do Camo Fonseca Pof. Victo Hugo Novembo 2007

IST Novembo 2007 2/62

à mê pai e mnha mãe e à minha mãe e ao mê pai, òs mês imãos IST Novembo 2007 3/62

IST Novembo 2007 4/62

Agadecimentos Mãe Pai Resto da Família Po Tudo Gupo D.N.A. Amigos Pelo Resto de Tudo João Sanches Pelo empenho inteesse motivação que demonstou sobe o pojecto e toda a ajuda cítica enegia conhecimento e motivação indispensáveis que me tansmitiu ao longo destes meses um Enome Obigado Rodigo Ventua Um Muito Obigado pelas ideias de empaelhamento pelo a* pelo algoitmo de votação e pela paciência e disponibilidade paa comigo Maia do Camo Fonseca Pelas popostas váias de tabalho que nos apesentou pelo inteesse sinceidade seiedade e disponibilidade demonstados Técnicas do Laboatóio de Citogenética/Viologia da GenoMed SA do IMM Sónia Santos Cala Souza Paula Costa Pela paciência amabilidade e total disponibilidade que tiveam paa connosco e especialmente paa comigo aquando de peguntas e espostas e na selecção das imagens paa a constução de um data set IST Novembo 2007 5/62

IST Novembo 2007 6/62

Resumo Um dos passos mais impotantes na citogenética convencional é a caiotipágem em que um caiogama é uma epesentação fotogáfica onde os comossomas estão dispostos em odem decescente do compimento e que pemite a visualização do catiótipo, i.,e. das caacteísticas dos comossomas. Os caiótipos são usados paa estuda as anomalias comossómicas e podem se usados paa detemina outos aspectos macoscopicamente visíveis do genótipo de um indivíduo como po exemplo o sexo. Leucemia é um canco dos ógãos hematopoiéticos caacteizado pelo ápido cescimento dos leucócitos anomais e faz pate de um gupo mais vasto de doenças chamado neoplasmas hematológicos. Dento das pincipais categoias da leucemia (limfocítica aguda, limfocítica cónica, mielóide aguda e mielóide cónica) há divesas subcategoias que são caacteizadas pelas váias anomalias comossómicas existentes. Apesa de existiem váios exames que pemitem diagnostica a doença: hemogama, mielogama, punção lomba e citometia de fluxo, os mesmos não pemitem a classificação exacta da leucemia em causa. Assim é necessáio uma análise complementa que o pemita faze e é aí que enta a citogenética. Sendo todo o pocesso que vai desde a ecolha da amosta até a análise do caiogama pelos técnicos do Instituto de Medicina Molecula (IMM) de Lisboa paticamente 00 % manual e mooso, foi nosso objectivo neste tabalho taze alguma contibuição paa a esolução do complicado poblema de empaelhamento de comossomas no contexto do pocesso de caiotipágem, nomeadamente no estudo de novas caacteísticas e de classificadoes, utilizando paa isso imagens captadas a pati do Micoscópio Óptico Leica DM 2500 e pe-pocessadas (bilho, contaste e alguma emoção de uído) com o softwae Leica CW 4000 Kayo. Novas caacteísticas como diectional chain code na caacteização de foma e a mutual infomation na caacteização da textua foam intoduzidas e 4 classificadoes (2 não supevisionados e 2 supevisionado) foam implementados e testados. Resultados pomissoes foam obtidos nesta fase inicial do tabalho. Contudo melhoias tanto a nível de pe-pocessamento de imagem (desconvolução adaptativa, coecção geomética), como a nível do espaço das caacteísticas e classificadoes paa melhoa a pefomance do empaelhado, têm de se implementadas. Palavas-Chave: Empaelhamento, Caiotipágem, Comossomas, Leucemia, Micoscópio Óptico, Caacteísticas, Classificadoes, Supevisionados, Não-Supevisionados IST Novembo 2007 7/62

IST Novembo 2007 8/62

Abstact One of the main steps of the conventional cytogenetics is kayotyping, whee a kayotype is the obseved chaacteistics of the chomosomes. Kayotypes ae used to study chomosomal abnomalities, and may be used to detemine othe macoscopically visible aspects of an individual's genotype, such as sex. Leukemia is a cance of blood-foming ogans chaacteized by apid gowth of abnomal leukocytes and is a pat of the boad goup of diseases called hematological neoplasms. Within the main categoies of leukemia (acute lymphocytic, chonic lymphocityc, acute myeloid and chonic myeloid) thee ae many sub-types that can be descibed by the vaious existent chomosomic abnomalities. Although thee ae vaious exams (hemogam, mielogam, lumba punctue and flow cytomety) that ae suitable fo the disease diagnosis, those ae not enough fo the exact classification of the type of leukemia pesent. A complementay analysis is equied in ode to do it, and that is the ole pefomed by cytogenetics. Because all the pocess, stating fom the sample collection till the actual kayogam analysis, pefomed by the technical stuff of the IMM is pactically 00% manual and vey time consuming, it was ou goal in this wok to bing some new contibutions to impove the automatic paiing pocess in the kayotyping scope fom the images obtained fom the Optical Micoscope Leica DM 2500 and pepocessed (bightness, contast and some noise emoval) with the Leica CW 4000 Kayo softwae. New featues like diectional chain code fo the shape and mutual infomation fo the textue chaacteization wee intoduced and 4 classifies (2 unsupevised and 2 supevised) wee implemented and tested. Pomising esults wee obtained duing this initial stage of the wok. Howeve, impovements in pe-pocessing of the chomosome image (adaptative deconvolution, geometic coection), featue space and classifies have to be implemented to incease the pefomance level of the algoithms. Key-Wods: Paiing, Kayotyping, Chomosomes, Leukemia, Optical Micoscope, Featues, Classifies, Supevised, Unsupevised IST Novembo 2007 9/62

IST Novembo 2007 0/62

Conteúdo. INTRODUÇÃO... 7.. MOTIVAÇÃO... 9.2. LEUCEMIA... 20.3. DIAGNÓSTICO E CLASSIFICAÇÃO DE LEUCEMIA... 22.3.. Citogenética Caiotipagem... 22.4. MÉTODOS E MATERIAIS... 24.5. STATE OF THE ART... 26.6. OBJECTIVOS... 27.7. ORGANIZAÇÃO DO RELATÓRIO... 27 2. FORMULAÇÃO DO PROBLEMA... 29 2.. DADOS... 29 2.2. EXTRACÇÃO DE CARACTERÍSTICAS... 30 2.2.. Caacteísticas de Dimensão... 30 2.2.2. Caacteísticas de Foma... 3 2.2.3. Caacteísticas de Textua... 33 2.2.4. Matiz de Caacteísticas F... 36 2.3. ALGORITMOS DE EMPARELHAMENTO... 37 2.3.. Soma de Distâncias... 38 2.3.2. Combinação Linea Supevisionada Bináia... 38 2.3.3. Combinação Linea Supevisionada de Máxima Sepaação... 40 2.3.4. Algoitmo Não Supevisionado de Votação... 4 2.3.5. A*... 44 3. RESULTADOS E DISCUSSÃO... 47 4. CONCLUSÃO... 5 5. TRABALHO FUTURO... 53 6. REFERÊNCIAS... 55 7. ANEXOS... 59 IST Novembo 2007 /62

IST Novembo 2007 2/62

Lista de Figuas Capítulo. Placa metafásica 2. Repesentação esquemática de um comossoma na sua foma condensada 3. Caiogama de um indivíduo de sexo masculino nomal 4. Micoscópio óptico Leica DM 2500 Capítulo 2 5. Repesentação dos comossomas utilizados no teino 6. Pa de comossomas, individualizados pela Bounding Box coespondente 7. Repesentação binaizada de um comossoma do pa 8. Contono de um dos comossomas do pa 9. As 8 diecções possíveis efeentes a vizinhança de um píxel 0. Comossomas escalados à mesma dimensão. Repesentação dos passos do cálculo do eixo medial do comossoma 2. Repesentação do pefil de bandas do comossoma 3. Ilustação maticial da estimação dos vectoes de pesos 4. Ilustação maticial dos váios passos da aplicação do algoitmo de votação Capítulo 3 5. Ilustação dos váios conjuntos de teste elaboados Anexos 6. Repesentação de um caiogama "bom" 7. Repesentação de um caiogama "intemédio" 8. Repesentação de um caiogama "mau" 9. Repesentação esquemática de alguns comossomas e das suas caacteísticas IST Novembo 2007 3/62

Lista de Tabelas Capítulo. Divesas categoias da leucemia mieloblástica aguda 2. Anomalias citogenéticas associadas à leucemia mieloblástica aguda Capítulo 2 3. Pate da matiz de Caacteísticas Capítulo 3 4. Resultados paa o algoitmo de Soma de Distâncias 5. Resultados paa o algoitmo de Combinação Linea Supevisionada Bináia 6. Resultados paa o algoitmo Combinação Linea Supevisionada de Máxima Sepaação 7. Resultados paa o algoitmo Não Supevisionado de Votação IST Novembo 2007 4/62

Lista de Abeviatuas ADN ARN IMM MI FAB FISH A T G C Ácido desoxiibonucleico Ácido RiboNucleico Instituto de Medicina Molecula Mutual Infomation the Fench Ameican Bitish classification Fluoescent In Situ Hybidization Adenina Timina Guanina Citosina IST Novembo 2007 5/62

IST Novembo 2007 6/62

. Intodução A análise mofológica dos comossomas duante a metáfase da divisão celula (mitose) é hoje em dia uma feamenta fundamental em divesas áeas tais como a investigação foense, testes de patenidade ou a detecção e despiste de anomalias e doenças genéticas. Um dos pocessos envolvidos neste pocedimento é o do empaelhamento dos 46 comossomas que constituem o genótipo humano. Este empaelhamento é feito atavés de citéios mofológicos e de textua. É um poblema difícil, objecto de intensa investigação há muitas décadas, que não se enconta ainda esolvido. Nesta tese o poblema do empaelhamento dos comossomas é abodado numa pespectiva de econhecimento de padões, com o objectivo de popo novos métodos paa melhoa os pocessos de empaelhamento automático existentes, que são na sua genealidade pouco eficazes. As células nomais humanas têm 23 paes de comossomas lineaes, pefazendo um total de 46 po célula em que cada comossoma é constituído po uma única gande macomolécula de ácido desoxiibonucleico (ADN) contendo a infomação genética que coodena o desenvolvimento e o funcionamento do oganismo. Os comossomas, duante a maio pate da vida da célula, encontam-se distibuídos po todo o núcleo da célula e são de muito difícil visualização. É nesta foma não condensada que o ADN está envolvido nos mecanismos de tanscição, egulação e eplicação que pemitem a egulação e podução de poteínas e o pópio pocesso de divisão e apoptose (mote celula pogamada). Na sua foma não condensada, o ADN comossómico vêm a sofe mecanismos de tanscição, egulação e eplicação, po isso o único contexto natual em que os comossomas são visíveis num micoscópio óptico é na fase metafásica da divisão celula. Nas fases iniciais do ciclo celula os comossomas vão ficando mais condensados, pedendo as suas funcionalidades na egulação da actividade celula, não pemitindo designadamente opeações de tanscição necessáias à podução de poteínas. A metáfase é a fase da mitose em que os comossomas condensados são alinhados no cento das células, fomando a placa metafásica, sendo po isso a fase ideal paa a visualização dos comossomas na sua estutua clássica dos quato baços e apaecem claamente definidos em imagens de micoscopia de campo clao (bight field micoscopy). Figua IST Novembo 2007 7/62

Figua : Placa metafásica captada com o micoscópio óptico Leica DM 2500 Potanto, assumiemos daqui paa a fente, quando nos efeimos aos comossomas, que estes de encontam condensados. Neste estado é bem visível que cada comossoma possui um centómeo de onde são pojectados 4 baços, dois cutos, designados p e dois compidos, designados q, tal como se pode obseva na Figua 2. O tipo de células usadas paa o pocesso de análise mofológica e textual dos comossomas, chamado caiotipágem, depende da finalidade petendida. No caso pesente estamos inteessados no despiste de cetos tipos de leucemia que é feito analisando os comossomas obtidos na metáfase da em células antecessoas dos leucócitos (ou glóbulos bancos do sangue). As imagens neste tipo de células são de baixa qualidade e os comossomas apaecem muitas vezes distocidos o que dificulta a taefa do seu econhecimento e potanto do seu empaelhamento. p Centómeo q a). b). Figua 2: Repesentação esquemáticas de um comossoma na sua foma condensada e o espectivo pefil de bandas. a). Comossoma 6, com apenas 2 baços visíveis [3] b). Comossoma com os 4 baços visíveis [26]. IST Novembo 2007 8/62

.. Motivação A motivação paa este tabalho sugiu após a constatação de que o poblema do empaelhamento comossómico no pocesso de caiotipágem consome tempo significativo aos técnicos Instituto de Medicina Molecula (IMM) da Faculdade de Medicina de Lisboa / GenoMed po se paticamente manual. De facto, o empaelhamento automático ealizado pelo softwae Leica CW 4000 Kayo, utilizado na empesa GenoMed, e pelos outos pacotes comeciais disponíveis no mecado, é manifestamente insuficiente pois são cometidos eos de empaelhamento sistemáticos que têm que se coigidos manualmente pelo técnicos A deficiente pefomance destes pacotes no pocesso de empaelhamento esulta do facto deste poblema se de muito difícil esolução e se actualmente ainda um poblema técnico e científico ainda em abeto. Esta tese não petende apesenta uma solução definitiva paa o poblema mas, antes pelo contáio, contibui paa a sua solução atavés da apesentação de popostas paa melhoa os métodos já existentes. Não tão longe como 20 anos atás, os esultados devolvidos pelos estudos citogenéticos eam consideados de pouco inteesse pelos clínicos. Contudo em todos os tumoes estudados até hoje a pesença ou a ausência de muitas das anomalias genéticas encontadas tem sido associada com difeentes espostas ao tatamento. Assim, os estudos genéticos e citogenéticos têm sido econhecidos como essenciais na escolha do melho tatamento paa o doente. Como consequência desses avanços, espea-se agoa que análise citogenética tumoal povidencie esultados ápidos, pecisos e específicos que ajudem na escolha do tatamento e na gestão de doentes [3],[32]. Ao longo dos anos a caiotipágem evoluiu bastante desde a técnica do papel e tesoua. Contudo as análises citogenéticas continuam a se caas devido a falta de automatização do pocessamento das amostas e no tempo dispendido na análise de cada divisão e po causa disso só algumas das metáfases pesentes numa mesma cultua são analisadas. De um ponto de vista técnico o poblema do empaelhamento pode se classificado como um poblema complexo de econhecimento de padões e de classificação o que tona a sua solução um desafio muito inteessante. Os pacotes mais evoluídos destinados à caiotipágem existentes no mecado, das empesas Metasystems e Cytovision, são sistemas de "chave na mão" que incluem o pópio micoscópio. Estes sistemas são bastante dispendiosos e apesentam gandes facilidades na detecção automática das placas metafásicas, e na contagem de pontos fluoescentes no que toca a técnica de FISH. Contudo em elação ao empaelhamento de comossomas continuam a se pouco eficazes, não alcançando pemitindo substitui o opeado humano. Os esultados do empaelhamento em imagens de boa qualidade é bastante aceitável mas o mesmo não acontece em imagens de média e má qualidade, que são as mais fequentes no tipo de metáfases utilizadas neste tabalho e que se destinam ao despiste da leucemia. IST Novembo 2007 9/62

.2. Leucemia Leucemia é um canco dos ógãos hematopoiéticos (medula óssea e baço) caacteizado pelo ápido cescimento dos leucócitos anomais (células bancas do sangue ou glóbulos bancos) e faz pate de um gupo mais vasto de doenças chamado neoplasmas hematológicos. Como paa qualque tipo de canco não há um único facto conhecido que seja a causa dos difeentes tipos de leucemia. As difeentes leucemias teão causas difeentes, sendo essas pouco conhecidas. A leucemia tal como os outos cancos esulta de mutações somáticas no ADN que activam oncogénes ou desactivam os genes supessoes do tumo, desegulando designadamente os pocessos de apoptose, difeenciação ou divisão celula. Essas mutações podem ocoe espontaneamente ou devido a factoes extenos tais como exposição à adiação ionizante natual ou atificial, a substâncias cacinogénicas ou mesmo a ceto tipo de víus. Além das influências extenas também pode existi uma pedisposição genética do indivíduo ao apaecimento de cetos tipos de leucemia. Clínica e patologicamente, a leucemia pode se dividida em leucemia aguda e leucemia cónica. A leucemia aguda é caacteizada pela ápida polifeação de células imatuas do sangue, cuja população excessiva inviabiliza a podução de células saudáveis de sangue pela medula óssea. Este tipo de leucemia pode ocoe em cianças e em jovens adultos (sendo po exemplo a causa de mote mais comum de cianças nos EUA). Um tatamento o mais ápido possível é fundamental devido à ápida pogessão e acumulação de células malignas, que acabam po invadi o fluxo sanguíneo contaminando outos ógãos do copo (metastização). A leucemia cónica po sua vez caacteiza-se po um aumento excessivo de células de sangue elativamente matuas, mas ainda assim anomais que não moem no fim do ciclo de vida nomal destas células desegulação da apoptose. Tipicamente leva meses ou anos a pogedi, sendo as células anomais poduzidas a taxas mais elevadas, esultando numa gande acumulação das mesmas no sangue pessionando as estantes células nomais: glóbulos vemelhos, bancos e plaquetas sanguíneas. Ao contáio da aguda, esta ocoe na sua maioia em pessoas mais velhas, podendo contudo ocoe em qualque gupo etáio. Se po um lado a leucemia aguda pode se tatada de imediato, as fomas cónicas da doença são nomalmente monitoizadas duante algum tempo paa assegua a máxima eficácia teapêutica. Além destas classificações a doença também é classificada de acodo com a linhagem das células anomais em maio quantidade no sangue ou na medula sanguínea. Assim, temos: - Leucemia limfocítica: estes tumoes são compostos po células que estão bloqueadas em fases paticulaes de difeenciação de limfócitos - Leucemia mielóide: estes neoplasmas têm a sua oigem nas células estaminais que dão oigem aos ganulócitos, glóbulos vemelhos e plaquetas sanguíneas. IST Novembo 2007 20/62

Dento destas quato categoias de leucemia (limfocítica aguda, limfocítica cónica, mielóide aguda e mielóide cónica) há ainda divesas subcategoias. A Tabela mosta um exemplo de classificação em subcategoias da leucemia mieloblástica aguda de acodo com a classificação FAB. Tipo FAB Descição Incidência (%) M Mieloblástica sem matuação 5-20 M2 Mieloblástica com matuação 30 M3 Pomielocítica (hipeganula) 5-0 M3V (vaiante) Pomielocítica (hipo-ou-micoganula) 5-0 M4 Mielomonocítica 5-20 M4Eo M4 com eosinofilia 5-20 M5a Monoblástica 5 M5b Pomonocítica ou monocítica 5 M6 Eitoblástica 3-4 M7 Megacaioblástica 2-4 M0 Mieloblástica com difeenciação mínima < Tabela : Divesas categoias da leucemia mieloblástica aguda, segundo a classificação FAB [3] FAB-The Fench Ameican Bitish classification IST Novembo 2007 2/62

.3. Diagnóstico e Classificação de Leucemia Há um conjunto de manifestações clínicas da leucemia tais como a tendência ao sangamento devido a diminuição na podução de plaquetas (esponsáveis pelo pocesso de coagulação), anemia, que é povocada pela edução da podução de eitócitos pela medula óssea, eacções auto-imunes dos glóbulos bancos que se tonam supimidos ou disfuncionais, ente outas que caacteizam a anemia. Contudo estes sintomas também podem se atibuídos a outas doenças, po isso é necessáio a ealização de um diagnóstico, em que são ealizados os exames específicos ao sangue e à medula óssea. Há pelo menos 4 exames que pemitem diagnostica a leucemia: hemogama, mielogama, punção lomba e citometia de fluxo. Contudo esses exames não pemitem a classificação exacta da leucemia em causa (sendo somente possível a detecção de quantidades e fomas anomais de células sanguíneas). É neste contexto que a citogenética tem um papel fundamental, pois pemite a identificação exacta do tipo de leucemia em causa, necessáia paa a escolha do melho tatamento a utiliza..3.. Citogenética Caiotipagem O conhecimento exacto do tipo de leucemia pesente é cucial aquando da escolha do melho tatamento paa o doente. Poque há um vasto conjunto de anomalias comossómicas que ocoem em células canceosas de um indivíduo geneticamente nomal, essas são o caminho ideal a toma na caacteização dos difeentes tipos e subtipos de leucemias, sendo a citogenética a feamenta ideal paa o faze. As anomalias comossómicas sugem nomalmente como esultado de eos que podem ocoe na divisão celula (meiose ou mitose) e podem dividi-se em dois gupos: a. Anomalias numéicas tais como monossomias (falta um comossoma num pa) ou tissomias (tês comossomas num pa). b. Anomalias estutuais tais como i). Delecção: Uma poção do comossoma é apagada ii). Duplicação: Uma poção do comossoma é duplicada iii). Tanslocação: Uma poção do comossoma é tansfeida paa um outo comossoma. Temos tanslocação ecípoca, em que os comossomas tocam segmentos e tanslocação de Robetson, em que um comossoma inteio se liga ao centómeo de um outo comossoma. iv). Invesão: Uma poção do comossoma é viada ao contáio v). Anel: Uma poção ou o comossoma na sua totalidade foma um cículo ou um anel. IST Novembo 2007 22/62

Cada tipo de leucemia apesenta um conjunto pópio de anomalias. Na Tabela 2 é apesentado um conjunto de categoias de leucemia mieloblástica aguda, com as espectivas anomalias citogenéticas especificamente associadas. Categoia FAB Anomalia citogenética Alteação molecula M0, M OU M2 t(9;22)(q34;q) fusão BCR/ABL M2 t(8;2)(q22;q22) fusão AML/ETO/ M4 t(;)(q2;q23) fusão MLL/AFI q t(0;)(p3;q22) fusão CALM/AFI 0/ Tabela 2: Algumas categoias de leucemia mieloblástica aguda, com as espectivas anomalias citogenéticas especificamente associadas [3] Os 46 comossomas lineaes contêm ceca de 30,000 genes além de longas sequências de ADN não-codificante. A análise do mateial genético pode envolve a análise do comossoma inteio (análise citogenética convencional), como no caso pesente; a análise de egiões comossómicas específicas usando uma sonda de ADN (FISH) ou sequencias específicas de ADN (análise molecula). As pincipais aplicações dos estudos citogenéticos de anomalias adquiidas em cancos são: i). Estabelece a pesença de clones malignos ii). Claifica o diagnóstico iii). Indica um pognóstico iv). Assisti na escolha de uma estatégia de tatamento v). Monitoização da esposta ao tatamento vi). Confei um supote a investigação Um dos passos mais impotantes na citogenética convencional é a Caiotipágem que é o objecto desta tese. Um caiogama é uma epesentação fotogáfica dos comossomas duante a metáfase, em que os mesmos se encontam condensados e estão odenados em paes homólogos e dispostos em odem decescente do compimento pemitindo a visualização do catiótipo, i.,e. das caacteísticas dos comossomas (Figua 3). Um caiótipo humano nomal é constituído po 22 paes (classes) de comossomas autosómicos e pelos comossomas sexuais, X e Y (XX no caso feminino e XY no caso masculino). Cada pa apesenta um padão de bandas [3,32], posição do centómeo e compimento dos baços caacteísticos (ve Figua 2 e 9 (Anexos)). Os caiótipos são utilizados em divesos contextos tais como a investigação foense, testes de patenidade, no estudo de anomalias comossómicas e podem se usados paa detemina outos aspectos macoscopicamente visíveis do genótipo de um indivíduo como po exemplo o sexo [3], [32]. IST Novembo 2007 23/62

Figua 3: Caiogama de um indivíduo de sexo masculino nomal, obtido po um técnico especializado, utilizando paa isso o micoscópio óptico Leica DM 2500 na captação da imagem e o softwae Leica CW 4000 Kayo na segmentação e pepocessamento dos comossomas.4. Métodos e Mateiais Em temos geais todo o pocesso que vai desde a ecolha da amosta até a análise do caiogama pelos técnicos especializados, é ealizado em 9 passos: i). Recolha da amosta de células antecessoas do sangue da medula óssea (ou po vezes do baço e mesmo do sangue) ii). Indução da divisão celula atavés de um ambiente e factoes favoáveis de cultua iii). Congelamento da amosta na fase metafásica do ciclo celula iv). G-Banding coesponde a uma macação química dos comossomas com o coante Giemsa que pemite evidencia o padão de bandas do comossoma. As bandas escuas são as mais icas em Adenina e Timina (A,T) e as claas icas em Guanina e Citosina (G,C) (Figuas 2, 3 e Figua 9 (Anexos)) v). Pepaação das amostas em lâminas paa visualização e análise micoscópica vi). Detecção das metáfases na lâmina vii). Captua das imagens viii). Pe-pocessamento da imagem (bilho, contaste, algum uído) ix). Empaelhamento dos comossomas Finalmente é ealizada a análise e detecção de anomalias comossómicas po técnicos especializados. IST Novembo 2007 24/62

A pepaação da cultua e a aquisição das imagens são feitas no laboatóio de viologia/citogenética do IMM atavés de um micoscópio óptico Leica DM 2500, epesentado na Figua 4. O softwae paa o pocessamento das imagens e apoio à segmentação e empaelhamento manual é o Leica CW 4000 Kayo. Figua 4: Micoscópio óptico Leica DM 2500 utilizado pelo laboatóio de viologia/citogenética do IMM Toda a pogamação equeida na elaboação deste tabalho foi elaboada com o pacote de pocessamento científico MATLAB. Um facto impotante no esultado final é a qualidade das metáfases e consequentemente das imagens dos comossomas. Nas Figuas 6, 7 e 8 dos Anexos está a epesentação de tês qualidades típicas. A escolha das metáfases utilizadas na caiotipágem e a sua classificação quanto à qualidade é feita pelos técnicos do laboatóio de viologia/citogenética do IMM com base na sua vasta expeiência. Assim, no que espeita à facilidade de disciminação de comossomas na imagem oiginal da metáfase e a título de exemplo, as Figuas 6, 7 e 8, apesentadas nos anexos, podem se classificadas como boas, intemédias e más espectivamente IST Novembo 2007 25/62

.5. State of the At A classificação automática e empaelhamento dos comossomas é um poblema de econhecimento de padões que tem sido activamente investigado duante as últimas décadas, em que a definição das caacteísticas a analisa é o pimeio poblema com que se tem que lida. Este poblema é de difícil esolução e está longe de esta esolvido. Neste contexto a caacteização de cada comossoma atavés do seu padão de bandas, G-banding [3], desenvolvido no início do século XX tem-se mostado a chave fundamental paa a classificação e empaelhamento dos comossomas. Assim, tipicamente, as caacteísticas que têm sido utilizadas podem se oganizadas nas seguintes classes: i) dimensões (áea, compimento e peímeto do convex hull) [,2,4-6,7]; ii) o padão de bandas atavés de descitoes (decomposição de Fouie ou de Gauss da intensidade do pefil de um comossoma [6,24]) ou iii) caacteísticas globais baseadas no histogama de níveis de cinzento ou nas componentes da tansfomada de Fouie 2D [6]. Ente as caacteísticas comossómicas mais disciminativas temos duas geométicas paticulamente impotantes : o compimento [,2,4-6,8,9,20-23], e o índice centoméico (que é o ácio ente o compimento do baço cuto e o compimento do compimento total do comossoma) [,2,4-6,8,9,-3,7,20-23]. As outas caacteísticas mais disciminativas elacionam-se com a textua e com os pefis de densidade, que são integais ou médias de intensidade ao longo das secções pependiculaes ao eixo médio do comossoma. De facto os valoes das funções WDD (weighted density distibutions) de pefis de densidade e de foma têm-se mostado paticulamente eficazes na classificação de comossomas. Os classificadoes baseados no padão de bandas e em análise multiesolução atavés de wavelets continuam no entanto a se o que conduzem a classificadoes com menoes eos de classificação [0,6,8], e são po isso os que têm sido adoptados pelos sistemas comeciais [,2,4-6,8,9,4,20-23]. As caacteísticas associadas ao padão de bandas são nomalmente obtidas atavés da técnica MAT (Medial Axis Tansfom). [6,7,30]. A outa componente mais impotante no pocesso de classificação automática é o desenho do classificado ele pópio. Ao longo dos anos muitos classificadoes tem sido popostos, testados e expeimentados, ente os quais se destacam os classificadoes estatísticos e de distância [7-7], do vizinho mais póximo [7], de edes neuonais e peceptão multicamada [3-6,9,6,20,23], bayes piecewise classifie [3], classificadoes baseados em modelos de Makov escondidos [5], classificadoes de combinação com o template [23], classificadoes baseados em wavelets [0,8], classificadoes de lógica difusa [8,2,23]. Os esultados obtidos com classificadoes automáticos estão, no entanto, ainda bastante longe da pefomance alcançada pelo opeado humano, 70-80 % conta os 99.7 % paa o opeado humano [7]). As pincipais azões paa esta difeença de pefomance ente o método automático e manual são a não incopoação nos classificadoes do conhecimento dos técnicos e um númeo eduzido ou ielevante de caacteísticas paa caacteiza os comossomas. Convém também efei que quase todos os tabalhos na áea encontados na liteatua utilizam como datasets os conhecidos conjuntos comossómicos de Copenhaga [2], Philadelphia [5] IST Novembo 2007 26/62

ou de Edinbugo [2], em que a dimensão do espaço das caacteísticas pode vaia, de 0 até mais de 60 [3]..6. Objectivos Neste tabalho, foi nosso objectivo taze alguma contibuição paa a esolução do complicado poblema de empaelhamento de comossomas no contexto do pocesso de caiotipágem, designadamente no estudo de novas caacteísticas e de classificadoes. Em conceto, paa além das caacteísticas clássicas descitas acima, foi utilizado o diectional chain code na caacteização de foma e a mutual infomation (MI) [25] na caacteização da textua. São também popostos 4 classificadoes, dois supevisionados que utilizam funções disciminantes lineaes, e outos dois não supevisionados paa gea uma matiz de distâncias a pati da qual se ealiza o empaelhamento. Todos os classificadoes utilizam o algoitmo A* [28], que pemite calcula a matiz de pemutação que empaelha os comossomas e que coesponde ao mínimo global da matiz de distâncias, multiplicada, ponto a ponto, pela matiz de pemutação..7. Oganização do Relatóio O elatóio está dividido em 4 pates. No pimeio capítulo, a Intodução, faz-se o enquadamento do tabalho ealizado no âmbito da engenhaia biomédica, do pocessamento da imagem médica e da sua elevância de um ponto de vista clínico. No segundo capítulo, Fomulação do Poblema, é descita a fomulação do poblema, o tipo de dados utilizados, as dificuldades e as soluções popostas. Nos últimos capítulos, 3, 4 e 5, apesentam-se os esultados, é feita a sua análise cítica e são apesentadas as pespectivas paa um tabalho futuo na áea. IST Novembo 2007 27/62

IST Novembo 2007 28/62

2. Fomulação do Poblema O pocesso da caiotipágem é muito complexo e composto po muitos passos, desde a aquisição até à detecção das anomalias genéticas popiamente ditas. Este tabalho centa-se numa pate muito especifica de toda a cadeia de pocessamento e que é a do empaelhamento. Admite-se potanto que as metáfases foam peviamente adquiidas com a qualidade mínima equeida, que as imagens já foam pocessadas paa emoção de uído e que os técnicos já segmentaam semimanualmente os váios comossomas pesentes na placa metafásica. Isto é, este tabalho pate de um conjunto de imagens de 46 comossomas individuais, sobe um fundo banco que é necessáio empaelha. Assim o poblema tatado nesta tese pode-se dividi em duas pates: extacção de caacteísticas e implementação de um classificado. Na pimeia pate deste capítulo é feita a descição dos dados a pocessa; e de seguida são descitos os pocessos de extacção de caacteísticas. Finalmente descevem-se os 4 classificadoes implementados. 2.. Dados Os dados utilizados na ealização deste tabalho, consistem em imagens individualizadas de 44 comossomas extaídas de uma imagem com todos os comossomas obtida com um micoscópio óptico Leica DM 2500. As imagens captuadas foam pe-pocessadas pelo softwae Leica CW 4000 Kayo de foma a compensa o bilho e o contaste. Este softwae também possui as funcionalidades específicas paa esta taefa de foma a facilita a taefa de segmentação que o técnico ealiza ao sepaa os váios comossomas que se encontam sobepostos na placa metafásica. Neste tabalho optámos po exclui os comossomas sexuais, X e Y, po exigiem um tatamento difeente do que é utilizado paa empaelha os outos comossomas. Numa pimeia fase apenas imagens metafásicas de "boa" qualidade foam utilizadas paa testa os algoitmos, i.e., imagens em que os comossomas estejam o mais dieitos possível, onde esteja consevada a popoção de tamanho ente os váios comossomas e onde não haja 4 baços comossómicos amificados. Po outas palavas, imagem de comossomas, que um leigo no que toca a caiotipágem possa empaelha po inspecção visual. Numa fase mais avançada do tabalho ião se utilizadas imagens de qualidade decescente paa testa a obustez dos classificadoes. Nas Figuas 2, 5 e 6 (Anexos) estão epesentadas as imagens típicas com os paes de comossomas paa cada classe, usada paa testa e teina os váios classificadoes. IST Novembo 2007 29/62

Figua 5: Repesentação de uma imagem com os paes de comossomas de cada classe utilizados no teino do classificado 2.2. Extacção de Caacteísticas Paa além das caacteísticas clássicas que foam efeidas no state of the at foam utilizadas neste tabalho mais duas novas caacteísticas: i) a mutual infomation paa a textua e ii) o diectional chain code paa a foma. No seu conjunto, as caacteísticas utilizadas neste tabalho têm po objectivo caacteiza i) a dimensão, ii) a foma e a iii) textua dos comossomas. Seguidamente seão descitos os pocedimentos paa as estima. O pimeio passo na extacção das caacteísticas é a individualização dos comossomas em Bounding Boxes a pati das imagens metafásicas. Esta individualização é ealizada atavés do cálculo do mínimo ectângulo/caixa que englobe um único comossoma tal como se mosta na Figua 6. Figua 6: Pa de comossomas, cada um individualizado pela Bounding Box coespondente 2.2.. Caacteísticas de Dimensão Esta classe de caacteísticas tem po objectivo caacteiza de foma tão igoosa quanto possível as dimensões de cada comossomas pemitindo obte medidas de semelhança ente os tamanhos de dois comossomas, paa efeitos de empaelhamento. IST Novembo 2007 30/62

a) Áea: coesponde ao númeo de píxeis da egião que contém o comossoma (ve Figua 7). b) Peímeto: calcula-se somando as distâncias ente cada pa de píxeis adjacentes ao longo do contono/fonteia da egião comossómica (ve Figua 8). c) Altua: assume-se que a altua do comossoma é igual à altua da Bounding Box coespondente. d) Compimento dos eixos da meno elipse que envolve o comossoma: são dois escalaes que coespondem aos compimentos (em píxeis) dos eixos maio e meno da elipse, que têm o mesmo 2º momento cental nomalizado que a egião. e) Popoção de tamanho: os comossomas, independentemente da qualidade da placa metafásica, consevam a popoção do tamanho, i.e., o seu compimento decesce do º até ao 22º, com excepção do pa 22, que é maio que o 2. Assim, calcula-se paa cada comossoma o ácio do seu compimento com o compimento do maio comossoma pesente, que idealmente seá o coespondente ao comossoma. Figua 7: Repesentação binaizada de um comossoma do pa 2.2.2. Caacteísticas de Foma Este conjunto de caacteísticas tem po objectivo caacteiza a foma de cada comossoma. Duas medidas são calculadas: a) Áea Nomalizada: a áea nomalizada neste caso coesponde ao ácio ente a áea de cada comossoma e o espectivo peímeto. b) Diectional Chain Code (DCC): o DCC é um descito da foma do contono (Figua 8) pemitindo a compaação das fomas dos contonos dos comossomas. Esta técnica pemite epesenta o contono de uma imagem bináia numa gelha de uma maneia eficiente. Começa-se po selecciona o píxel inicial, que neste tabalho é o º píxel esquedo que intesecta uma linha hoizontal que passa pelo cento de massa do comossoma. Depois segue-se pelo contono no sentido dos ponteios de elógio se atingi a posição inicial. Em cada passo egistam-se as mudanças de diecção que ocoem em pontos do contono consecutivos. Sendo o númeo de diecções admissíveis apenas None, N, NE, E, SE, S, SW, W e NW, o DCC é descito po uma lista de númeos inteios ente 0 e 8 tal como se pode obseva na Figua 9. IST Novembo 2007 3/62

Figua 8: Contono de um dos comossomas do pa 2 3 4 0 5 6 7 8 Figua 9: As 8 diecções possíveis efeentes a vizinhança de um píxel IST Novembo 2007 32/62

2.2.3. Caacteísticas de Textua A extacção das caacteísticas de textua é feita após o escalamento geomético de todos os comossomas ao mesmo tamanho (que neste caso é o tamanho da maio Bounding Box dos 44 comossomas) de foma a possibilita o cálculo da mutual infomation ente dois comossomas. Na Figua 0 estão epesentados dois comossomas de classes difeentes escalados paa o mesmo tamanho. Figua 0: Um dos Comossomas do Pa, e um outo do Pa 0, escalados à mesma dimensão Paa caacteiza a textua utilizam-se duas medidas, a mutual infomation e o pefil de bandas. a) Mutual Infomation: intuitivamente a mutual infomation mede a infomação que duas vaiáveis (neste caso imagens), X e Y, patilham, i.e., mede de que foma o conhecimento de uma dessas vaiáveis eduz a nossa inceteza aceca da outa. Se X e Y são independentes, conhece X, não taz infomação adicional aceca de Y e vice-vesa e a mutual infomation neste caso é zeo. Se po outo lado X e Y são idênticas, então toda a infomação aceca de X é patilhada com Y, i.e., conhece X detemina Y e vice-vesa; a mutual infomation, neste caso, é máxima. Uma das maneias de defini a mutual infomation é I ( X, Y ) = H ( X ) + H ( Y ) H ( X, Y ) () em que H (X ) define a entopia de Shannon da imagem X, calculada a pati da distibuição de pobabilidade dos níveis cinzentos. O temo H ( X, Y ) significa que a maximização de mutual infomation está elacionada com a minimização da entopia conjunta de X com Y. A entopia de Shannon mede a dispesão da distibuição de pobabilidade de uma imagem e pode se escita como H = pi log = i p i i p log p i i IST Novembo 2007 33/62

(2) em que p i é uma pobabilidade. O temo log significa que a quantidade de infomação ganha p i dum evento com pobabilidade p i é invesamente elacionado com a pobabilidade desse evento ocoe. A entopia conjunta de duas imagens pode se definida po H = i, j p( i, j) log p( i, j) (3) em que p ( i, j) coesponde à pobabilidade conjunta das duas imagens, e i, j são os índices do histogama conjunto ente duas imagens No que toca a implementação, as entopias de Shannon, tanto paa cada imagem como a conjunta, podem se estimadas calculando os histogamas espectivos, dividindo de seguida cada entada da matiz que epesenta o histogama, pela soma de todas as entadas da matiz [25] de foma a nomalizá-lo. De nota que a mutual infomation é sempe não negativa e simética, i.e., I ( X, Y) 0 e I ( X, Y ) = I( Y, X ). b) Pefil de Bandas: esta caacteística pemite faze uma apoximação aquando da compaação dos pefis de bandas que caacteizam cada classe de comossomas (Figua 2, 5 e 9 (Anexos)). Neste tabalho apenas implementamos um tipo de pefil de bandas e que coesponde ao cálculo do valo médio da intensidade dos píxeis ao longo de uma linha tansvesal ao eixo medial do comossoma, onde o passo do cálculo do eixo medial pode se dividi em 3 etapas: i) Enconta o ponto médio de cada linha hoizontal que atavessa o comossoma (Figua a). ii) Usa somente cada 3º ponto dos pontos médios calculados paa elimina algum uído (Figua b) iii) Elimina as pontas que muitas vezes tomam uma diecção eada (Figua c) e intesecta as ectas que fomam os dois baços p e q com as fonteias supeioes e infeioes espectiva da Bounding Box (Figua d) IST Novembo 2007 34/62

Esta técnica é uma vaiação da técnica PMS ( poo man s skeleton ) descita em [2], po Pipe J. e Ganum E. a b c d e Figua : Repesentação dos passos do cálculo do eixo medial do comossoma. a: pontos médios. b: usando cada 3º ponto. c: etiando as pontas mal-dieccionadas. d: depois da intesecção. e: epesentação de d com linha Depois de calculado o eixo medial, obtém-se o pefil como explicado acima. O esultado está epesentado na Figua 2. Figua 2: Repesentação do pefil de bandas do comossoma. Quanto maio o valo da intensidade, mais claa é a imagem. IST Novembo 2007 35/62

2.2.4. Matiz de Caacteísticas F Depois de calculadas as caacteísticas paa cada comossoma, é constuída uma matiz de caacteísticas F. O seu tamanho é N 2 L, em que N é o númeo de comossomas a seem empaelhados e L é o númeo de caacteísticas que são utilizadas no empaelhamento. Cada linha da matiz coesponde a compaação de um comossoma com um outo em elação a todas as caacteísticas utilizadas. 2 Isto é, cada elemento da matiz é fi, j = dk ( i, j) onde k =,..., L, i =,..., N, j =,..., L e d k ( i, j) epesenta a função de mética usada paa compaa a ésima k caacteística ente dois comossomas i e j. Com a excepção da caacteística efeente a mutual infomation os valoes devolvidos paa cada uma delas são escalaes (áea, peímeto, eixos da elipse, áea nomalizada, altua, popoção de tamanho) ou vectoes (pefil de bandas e chain code) e utilizam a mética Euclidiana, i.e., k i k 2 d ( i, j) = ( f ( ) f ( )) k j (4) onde k f i é ésima componente da caacteística k. Quanto à mutual infomation, MI ( i, j), os seus valoes já se efeem a cada pa. Na Tabela 3 enconta-se a epesentação esquemática de uma pate da matiz F paa 0 comossomas (5 paes). f () f (2) f (3) f (4) f (5) f (6) f (7) f 2 () f 2 (2) f 2 (3) f 2 (4) f 2 (5) f 2 (6) f 2 (7) f 3 () f 3 (2) f 3 (3) f 3 (4) f 3 (5) f 3 (6) f 3 (7)..................... f 0 () f 0 (2) f 0 (3) f 0 (4) f 0 (5) f 0 (6) f 0 (7) f 2 () f 2 (2) f 2 (3) f 2 (4) f 2 (5) f 2 (6) f 2 (7) f 22 () f 22 (2) f 22 (3) f 22 (4) f 22 (5) f 22 (6) f 22 (7)..................... f 20 () f 20 (2) f 20 (3) f 20 (4) f 20 (5) f 20 (6) f 20 (7)..................... f 0 () f 0 (2) f 0 (3) f 0 (4) f 0 (5) f 0 (6) f 0 (7)..................... f 00 () f 00 (2) f 00 (3) f 00 (4) f 00 (5) f 00 (6) f 00 (7) Tabela 3: Pate da matiz de featues F, tamanho 0 2 x7, em que 0 é o númeo de comossomas a seem empaelhados e 7 é o númeo de featues que estão a se utilizados IST Novembo 2007 36/62

2.3. Algoitmos de Empaelhamento O objectivo do algoitmo de empaelhamento é o de enconta uma matiz de pemutação, C = { c( i, j) } cujos elementos ( i, j) { 0,} c definam o empaelhamento ente comossomas tal que 0 se i e j fomam um pa c( i, j) =. caso contáio Esta matiz de pemutação é obtida a pati de uma matiz de distâncias D = { d( i, j) } em que d ( i, j) é a distância ente os comossomas i e j de acodo com as méticas definidas em (4), aplicando-lhe o algoitmo A* [28]. A matiz C tem dimensões N N em que N é o númeo de comossomas a seem empaelhados, é simética e o mínimo em cada linha coespondeia ao empaelhamento coecto. No entanto a aplicação do citéio de empaelhamento simplista de escolhe o pa que apesenta a distância mínima na linha coespondente pode conduzi ao apaecimento de mais do que um empaelhamento numa dada coluna, o que não é admissível, já que em cada linha e em cada coluna, apenas uma coespondência é possível. Assim, a solução do poblema tem que se global, isto é, elaxa-se o citéio de escolhe o mínimo da linha ou da coluna mas escolhe-se a matiz de pemutação que minimiza a soma das distâncias de todos os empaelhamentos que constituem a solução. Esta estatégia pode conduzi ao empaelhamento de comossomas cuja distância não é a mínima nas linhas e colunas espectivas mas gaante que globalmente se escolheu a configuação de enegia mínima. O pocesso de optimização combinatóia que pemite obte a matiz de empaelhamento/pemutação C é ealizado atavés do algoitmo A* (descito com pomeno na secção 2.3.5.), que pemite calcula a matiz de pemutação que empaelha os comossomas e que coesponde ao mínimo global da matiz de distâncias, multiplicada, ponto a ponto, pela matiz de pemutação, isto é, em que c ( i, j) { 0,} Cˆ = ag min C i, j c( i, j) d ( i, j). Este é um poblema de optimização combinatóia de gande complexidade. (5) Foam implementadas quato métodos difeentes paa calcula a matiz D(i, j) : i) soma de distâncias, ii) combinação linea supevisionado bináia, iii) combinação linea supevisionado de máxima sepaação e iv) votação não supevisionado. IST Novembo 2007 37/62

2.3.. Soma de Distâncias Neste método a distância ente dois comossomas é simplesmente a soma das méticas associadas às difeentes caacteísticas, d ( i, j) = d ( i, j). Neste caso não existem factoes de nomalização e todas as caacteísticas têm o mesmo peso independentemente da sua amplitude média. 2.3.2. Combinação Linea Supevisionado Bináia A distância ente comossomas é obtida po combinação linea das méticas associadas a ésimo cada caacteística (funções disciminantes lineaes) d ( i, j) = wk dk ( i, j) em que w k é o k elemento do vecto coluna w. Os vectoes w são obtidos a pati de um conjunto de teino (classificado supevisionado) de foma a minimiza a função k k k E( w ( d (i, j)w c ( i, j) ) ) = i, j 2 (6) em que d (i, j) é uma das linhas da matiz F coespondente a um pa da classe, ( i, j) Ω c ( i, j) = e Ω é o conjunto dos paes petencentes à classe. O vecto 0 caso contáio coluna w é estimado de foma a apoxima de zeo as distâncias associadas aos paes e todas as outas de um. Paa um pa genéico de comossomas a distância ente eles é a meno de todas as distâncias obtidas usando os vectoes w obtidos no pocesso de apendizagem, isto é, d ( i, j) = min w ( d(i, j)w ) (7) Note-se que d( i, j) é um escala que caacteiza a distância ente dois comossomas enquanto j) = [ ( i, j) ] d(i, é uma das linhas da matiz F contendo as distâncias associadas às L d k caacteísticas usadas paa calcula as distâncias ente comossomas i e j. A estimação das dos vectoes w pode se ealizada esolvendo a seguinte equação wˆ = ag min w E ( w) (8) T em que E ( w) = ( Fw c ) ( Fw c ) é uma função de enegia, F é a matiz de caacteísticas de dimensões 2 ( N n) L, N é o númeo de comossomas a seem empaelhados, L o númeo de c = c (,)... c ( N n, N n) 2 2 caacteísticas utilizadas, n o númeo de imagens de teino e [ ] T IST Novembo 2007 38/62

2 um vecto coluna de dimensões ( n) N cujos elementos c ( i, j) { 0,} tal como foi definido anteiomente (ve exemplo ilustativo, Figua 3). A minimização E (w) faz-se deteminando o seu ponto de estacionaidade, isto é, E ( w) = 0, o que implica wˆ = F + c (9) em que F ( F F) F + T T = é designada pseudo invesa de F. + F é calculada uma única vez e utilizada paa calcula todos os vectoes classes. w utilizando os difeentes vectoes c paa cada uma das Exemplo ilustativo Neste exemplo o númeo de comossomas é N = 4,po isso vamos te 2 vectoes de pesos: 2 w ; o númeo de caacteísticas a utiliza é L = 3. Somente há imagem de teino. w e f () f (2) f (3) f 2 () f 2 (2) f 2 (3) f 3 () f 3 (2) f 3 (3) f 4 () f 4 (2) f 4 (3) f 2 () f 2 (2) f 2 (3) f 22 () f 22 (2) f 22 (3) f 23 () f 23 (2) f 23 (3) f 24 () f 24 (2) f 24 (3) f 3 () f 3 (2) f 3 (3) f 32 () f 32 (2) f 32 (3) f 33 () f 33 (2) f 33 (3) f 34 () f 34 (2) f 34 (3) f 4 () f 4 (2) f 4 (3) f 42 () f 42 (2) f 42 (3) f 43 () f 43 (2) f 43 (3) f 44 () f 44 (2) f 44 (3) 2 0. w f () f (2) f (3). w = = 0 f 2 () f 2 (2) f 2 (3) I). w 2 w 3 II). 0 0 IV). f 3 () f 3 (2) f 3 (3) f 4 () f 4 (2) f 4 (3) f 2 () f 2 (2) f 2 (3) f 22 () f 22 (2) f 22 (3) f 23 () f 23 (2) f 23 (3) f 24 () f 24 (2) f 24 (3) f 3 () f 3 (2) f 3 (3) f 32 () f 32 (2) f 32 (3) f 33 () f 33 (2) f 33 (3) f 34 () f 34 (2) f 34 (3) f 4 () f 4 (2) f 4 (3) f 42 () f 42 (2) f 42 (3) f 43 () f 43 (2) f 43 (3) f 44 () f 44 (2) f 44 (3) I). 2 w 2 2 w 3 III). 0 0 0 0 V). Figua 3: Ilustação maticial da estimação dos vectoes de pesos paa um conjunto de teino com 2 paes de comossomas, onde são utilizadas 3 caacteísticas I). Matiz de caacteísticas II). Vecto de pesos paa o pa III). Vecto de pesos paa o pa 2 IV). Vecto c paa o pa V). Vecto c 2 paa o pa 2 IST Novembo 2007 39/62

2.3.3. Combinação Linea Supevisionado de Máxima Sepaação Este método é semelhante ao anteio, também é supevisionado mas a função de enegia a minimiza é a seguinte: em que c E( w ) 2 = ( c ( i, j) ( d(i, j)w ) ) i, j ( i, j) Ω ( i, j) =. Neste caso, o vecto caso contáio (0) w é estimado de foma a minimiza as distâncias associadas a paes homólogos da classe e a maximiza todas as outas distâncias. Enquanto no método anteio se estimam os vectoes w de foma a foça distâncias zeo paa paes da mesma classe e distâncias unitáias paa paes não petencentes à mesma classe, nesta vesão, foça-se a minimização das distâncias ente comossomas homólogos e a maximização ente comossomas não homólogos. Tal como no caso anteio, a distância ente dois comossomas é a distância mínima obtida de ente os váios vectoes w, isto é, ( i, j) = min [ d(i, j)w ] 2 w d. O teino do classificado e a estimação é um poblema de optimização com estições já que se impõe noma unitáia aos vectoes estimados, isto é, ( w ) T w =. A utilização do método dos multiplicadoes de Lagange conduz à seguinte função a minimiza ~ ~ T T T T E ( w ) = ( F w ) ( F w ) ( w F ) ( F w ) + λ ( w ) w = ( w ) Φ w + λ( w ) T w () em que Φ F F ~ F ~ F T T = ( ) ( ), λ é o multiplicado de Lagange a detemina. F é a matiz de caacteísticas contendo apenas os comossomas do conjunto de teino que petencem à classe e F ~ é a matiz de caacteísticas, também do conjunto de teino, contendo as outas, ambas extaídas de F. A minimização da função de enegia () faz-se, tal como anteiomente, deteminando o seu ponto de estacionaidade, Ω = ( Φ T E ) w + αw = 0 (2) o que significa Φ T ( ) w = λw em que λ = α é um valo pópio de ( Φ ) T. Potanto a equação (2) tem tantas soluções quantos os vectoes pópios de T Φ ), ( u = eig(( Φ i ) T ) (3) IST Novembo 2007 40/62

em que u i é um dos L vectoes pópios de potanto obtida atavés de ( T Φ ) de noma unitáia. A minimização de () é wˆ = ag min { u,...,u } ui i L u T i (Φ ) T u i (4) 2.3.4. Algoitmo Não Supevisionado de Votação Neste caso o empaelhamento é feito po votação, isto é, consideam-se as váias méticas associadas às difeentes caacteísticas isoladamente e fazem-se L empaelhamentos tendo em conta apenas uma das caacteísticas em cada um dos empaelhamentos. Neste caso os dados continuam a se matizes de distâncias só que em vez de se utiliza uma única matiz que esulta da combinação de váias distâncias, utilizam-se L matizes, contendo cada uma delas, as distâncias associadas a uma única caacteística. O algoitmo pode se descito da seguinte maneia: i). Cada coluna da matiz F que se efee à compaação de uma deteminada caacteística ente os comossoma é etiada e tansfomada numa matiz de distâncias N N. Isto é, obtemos L matizes N N, onde L coesponde ao númeo de caacteísticas que estão a se utilizadas e N ao númeo de comossomas que estão a se empaelhados. Vamos denomina estas matizes de Feat k, onde k =,..., L. ii). Utilizando o algoitmo A* descito acima e cumpindo a estição de um mínimo po linha e coluna, a pati de cada matiz Feat k obtém-se uma matiz de pemutação P k (com k =,..., L ) onde vamos te nas posições coespondentes aos mínimos e zeos na estantes posições iii). Assim vamos obte L matizes de pemutação que são nada mais nada menos que matizes de votação, em que o voto (atibuição do algaismo ) no empaelhamento é feito com base na minimização da função de custo C(P) pelo algoitmo A* (ve secção 2.3.5.) iv). Depois de calculadas as matizes de votação paa cada caacteísticas, é calculada a matiz total de votação e que coesponde à soma de todas as matizes de votação L v(i, j) = Pk (i, j). v). A pati da matiz total de votação, é constuída uma nova matiz com as suas entadas siméticas, i.e., d(i, j) = v(i, j), paa pemiti a aplicação à mesma do algoitmo A* (que funciona com distâncias mínimas) e enconta assim o empaelhamento, gaantindo a estição de um mínimo po linha e po coluna k= IST Novembo 2007 4/62