EDWIN RAFAEL VILLANUEVA TALAVERA MÉTODOS BAYESIANOS APLICADOS EM TAXONOMIA MOLECULAR ORIENTADOR: Prof. Dr. Carlos Dias Maciel

Tamanho: px
Começar a partir da página:

Download "EDWIN RAFAEL VILLANUEVA TALAVERA MÉTODOS BAYESIANOS APLICADOS EM TAXONOMIA MOLECULAR ORIENTADOR: Prof. Dr. Carlos Dias Maciel"

Transcrição

1 EDWIN RAFAEL VILLANUEVA TALAVERA MÉTODOS BAYESIANOS APLICADOS EM TAXONOMIA MOLECULAR Dssertação apresentada à Escola de Engenhara de São Carlos da Unversdade de São Paulo, como parte dos requstos para a obtenção do título de Mestre em Engenhara Elétrca. Área de concentração: Processamento de Snas e Instrumentação. ORIENTADOR: Prof. Dr. Carlos Das Macel São Carlos 2007

2 Lvros Gráts Mlhares de lvros gráts para download.

3

4 Dedco A mnha esposa por seu amor ncondconal, Aos meus pas por terem educado no camnho do bem.

5 v v

6 AGRADEÇO: Ao meu orentador Prof. Dr. Carlos Das Macel pela oportundade e apoo dado no desenvolvmento do presente trabalho; Aos Professores, Dra. Vlma Alves de Olvera e Dr. Estevam Rafael Hruschka, pela partcpação na banca examnadora e revsão crítca do trabalho; À CAPES (Coordenação de Aperfeçoamento de Pessoal de Nível Superor) pelo apoo fnancero; Ao pessoal do laboratóro LIM pela amzade; A todos que dreta ou ndretamente contrbuíram com este trabalho; v

7 v v

8 Todo lo que vvamente magnamos, ardentemente deseamos, snceramente creamos, y entusastamente emprendamos nevtablemente sucederá" Paul J. Meyer v

9 v v

10 RESUMO x VILLANUEVA, Edwn R. (2007). Métodos Bayesanos aplcados em taxonoma molecular. 07f. Dssertação (Mestrado). Escola de Engenhara de São Carlos, Unversdade de São Paulo, São Carlos. Resumo Neste trabalho são apresentados dos métodos de agrupamento de dados vsados para aplcações em taxonoma molecular. Estes métodos estão baseados em modelos probablístcos, o que permte superar alguns problemas apresentados nos métodos não probablístcos exstentes, como a dfculdade na escolha da métrca de dstânca e a falta de tratamento e aprovetamento do conhecmento a pror dsponível. Os métodos apresentados combnam por meo do teorema de Bayes a nformação extraída dos dados com o conhecmento a pror que se dspõe, razão pela qual são denomnados métodos Bayesanos. O prmero método, método de agrupamento herárquco Bayesano, está baseado no algortmo HBC (Herarchcal Bayesan Clusterng). Este método constró uma herarqua de partções (dendrograma) baseado no crtéro da máxma probabldade a posteror de cada partção. O segundo método é baseado em um tpo de Modelo Gráfco Probablístco conhecdo como Redes Gaussanas Condconas, o qual fo adaptado para problemas de agrupamento. Ambos métodos foram avalados em três bancos de dados donde se conhece a rótulo da classe. Os métodos foram usados também em um problema de aplcação real: a taxonoma de uma coleção braslera de estrpes de bactéras do gênero Bradyrhzobum. (conhecdas por sua capacdade de fxar o N 2 do ar no solo). Este banco de dados é composto por dados genotípcos resultantes da análse do RNA rbossômco. Os resultados mostraram que o método herárquco Bayesano gera dendrogramas de boa qualdade, em alguns casos superor que o melhor dos algortmos herárqucos analsados. O método baseado em redes gaussanas condconas também apresentou resultados acetáves, mostrando um adequado aprovetamento do conhecmento a pror sobre as classes tanto na determnação do número ótmo de grupos, quanto no melhoramento da qualdade dos agrupamentos. Palavras-Chave: agrupamento, agrupamento herárquco, modelos probablístcos, modelos gráfcos probablístcos, taxonoma molecular. x

11 x ABSTRACT VILLANUEVA, Edwn R. (2007). Bayesan Methods appled n molecular taxonomy 07f. M.Sc. (Dssertaton) - School of Engneerng - Unversty of São Paulo., São Carlos, Abstract In ths work are presented two clusterng methods thought to be appled n Molecular Taxonomy. These methods are based n probablstc models whch overcome some problems observed n tradtonal clusterng methods such as the dffculty to know whch dstance metrc must be used or the lack of treatment of avalable pror nformaton. The proposed methods use the Bayes theorem to combne the nformaton of the data wth the avalable pror nformaton, reason why they are called Bayesan methods. The frst method mplemented n ths work was the Herarchcal Bayesan Clusterng, whch s an agglomeratve herarchcal method that constructs a herarchy of parttons (dendogram) guded by the crteron of maxmum Bayesan posteror probablty of the partton. The second method s based n a type of Probablstc Graphcal Model knows as Condtonal Gaussan Network, whch was adapted for data clusterng. Both methods were valdated n 3 datasets where the labels are known. The methods were used too n a real problem: the clusterng of a Brazlan collecton of bacteral strans belongng to the genus Bradyrhzobum, known by.ther capacty to transform the ntrogen (N 2 ) of the atmosphere nto ntrogen compounds useful for the host plants. Ths dataset s formed by genetc data resultng of the analyss of the rbosomal RNA. The results shown that the Herarchcal Bayesan Clusterng method bult dendrograms wth good qualty, n some cases, better than the other herarchcal methods. In the method based n condtonal Gaussan network was observed acceptable results, showng an adequate utlzaton of the pror nformaton (about the clusters) to determne the optmal number of clusters and to mprove the qualty of the groups Keywords: Clusterng, herarchcal clusterng, probablstc models, probablstc graphcal models, molecular taxonomy. x

12 LISTA DE FIGURAS x LISTA DE FIGURAS Fgura 2.: Exemplo de representação em dendrograma, na qual cada retângulo representa um grupo resultante da aglomeração ou dvsão do método herárquco respectvo... 6 Fgura 2.2: Algortmo padrão dos métodos de agrupamento herárqucos aglomeratvos tradconas Fgura 2.3: Pseudocódgo do algortmo de agrupamento herárquco Bayesano (HBC)... 5 Fgura 2.4: Exemplo de estrutura de modelo e dstrbuções de probabldades locas (parâmetros) para um MGP de 4 varáves aleatóras dscretas bnáras.8 Fgura 2.5: Exemplo de estrutura de modelo e dstrbuções de probabldades locas para uma CGN. X e X 2 são VA bnáras, e X 3 e X 4 são VA contínuas Fgura 2.6: Exemplo de um modelo CGN para agrupamento de dados Fgura 2.7: Estrutura do modelo para um classfcador NB com 3 varáves aleatóras predtvas Fgura 2.8: Estrutura do modelo para um classfcador ENB com 6 varáves predtvas agrupados em 3 super-nós e seu correspondente modelo NB Fgura 2.9: Estrutura do modelo para um classfcador TANB com 6 varáves predtvas Fgura 2.0: Estrutura do modelo de um sstema fctíco de ncneração de lxo (LAURITZEN, 992) para explcar o procedmento de construção da árvore de unção Fgura 2.: Grafo moralzado do sstema de sstema de ncneração de lxo Fgura 2.2: Grafo marcado decomponível do sstema de ncneração de lxo Fgura 2.3: Alguns clques dentfcados no grafo marcado decomponível do sstema de ncneração de lxo Fgura 2.4: árvore de unção do sstema de ncneração de lxo x

13 x LISTA DE FIGURAS Fgura 3.: Dstrbução dos pontos do banco de dados Synthetc-2000 consderando as 3 prmeras coordenadas. Cada cor ndca um componente...46 Fgura 3.2: Dstrbução dos pontos do banco de dados Synthetc-000. Cada ponto fo pntado de acordo com o componente que o gerou Fgura 3.3: Pontos do banco de dados Írs consderando os 3 prmeros atrbutos. Cada ponto fo pntado de acordo a sua classe Fgura 3.4: Exemplo de foto resultante do processo de eletroforese em gel, na qual foram analsadas 6 amostras produzndo 6 canaletas Fgura 3.5: Subconunto de canaletas do banco de estrpes de Bradyrhzobum usadas para a avalação expermental dos métodos. Estas canaletas correspondem a todas as estrpes da coleção (28), analsadas na regão rbossomal rrna 6S e fragmentadas com a enzma de restrção Cfo I..53 Fgura 3.6: Exemplo de pré-processamento de uma magem de canaleta de eletroforese de gel...56 Fgura 3.7: Análse de autovalores da matrz de vetores resultantes de MDS...63 Fgura 3.8: Estrutura de modelo NB para fazer análse de agrupamentos do banco de dados Irs...64 Fgura 3.9: Etapas do método de agrupamento usando modelos NB. As funções ndcadas estão mplementadas em BNT...65 Fgura 3.0: Matrz de adacênca do modelo NB para o banco de dados Irs Fgura 3.: Árvore de unção para o modelo NB do banco de dados Írs...68 Fgura 4.: Evolução da pureza dos dendrogramas gerados em Synthetc-2000 com patções ncas K-means e ART2 e comparados com dendrogramas gerados pelos métodos Sngle Lnkage, Complete Lnkage e Average Lnkage...76 Fgura 4.2: Pureza méda de dendrogramas gerados em Synthetc-2000 pelo método herárquco Bayesano e os métodos herárqucos tradconas...76 Fgura 4.3: Evolução do crtéro BIC no processo de aglomeração do dendrograma HBC-Kmeans no banco de dados Synthetc x

14 LISTA DE FIGURAS x Fgura 4.4: Pureza da partção ótma do método herárquco Bayesano contra partções de 4 grupos gerados por outros métodos partconas no banco de dados Synthetc Fgura 4.5: Pureza das partções fetas pelo modelo NB em Synthetc Fgura 4.6: Crtéro AIC para dferentes valores de TAE como função do número de grupos no modelo NB - Synthetc Fgura 4.7: Crtéro BIC para dferentes valores de TAE como função do número de grupos no modelo NB - Synthetc Fgura 4.8: Evolução da pureza dos dendrogramas gerados em Synthetc-000 pelo método herárquco Bayesano e métodos herárqucos tradconas Fgura 4.9: Pureza méda de dendrogramas gerados em Synthetc-000 pelo método herárquco Bayesano e métodos herárqucos tradconas Fgura 4.0: Evolução do crtéro BIC no processo de aglomeração do dendrograma HBC-Kmeans no banco de dados Synthetc Fgura 4.: Pureza da partção ótma do método herárquco Bayesano contra partções de 5 grupos gerados por outros métodos partconas no banco de dados Synthetc Fgura 4.2: Pureza das partções fetas pelo modelo NB em Synthetc Fgura 4.3: Crtéro AIC para dferentes valores de TAE como função do número de grupos no modelo NB - Synthetc Fgura 4.4: Crtéro BIC para dferentes valores de TAE como função do número de grupos no modelo NB - Synthetc Fgura 4.5: Evolução da pureza dos dendrogramas gerados em Irs pelo método herárquco Bayesano e métodos herárqucos tradconas Fgura 4.6: Pureza méda de dendrogramas gerados em Irs pelo método herárquco Bayesano e métodos herárqucos tradconas Fgura 4.7: Evolução do crtéro BIC no processo de aglomeração do dendrograma HBC-Kmeans no banco de dados Irs Fgura 4.8: Pureza da partção ótma do método herárquco Bayesano contra x

15 xv LISTA DE FIGURAS partções de 3 grupos gerados por outros métodos partconas no banco de dados Irs...87 Fgura 4.9: Pureza das partções fetas pelo modelo NB em Irs...88 Fgura 4.20: Crtéro AIC para dferentes valores de TAE como função do número de grupos no modelo NB - Irs...89 Fgura 4.2: Crtéro BIC para dferentes valores de TAE como função do número de grupos no modelo NB - Irs...89 Fgura 4.22: Dendrograma das estrpes de Bradyrhzobum construído pelo método herárquco Bayesano tendo como dados de entrada os eletroferogramas resultantes do pré-processamento das canaletas...9 Fgura 4.23: Evolução da verossmlhança e dos crtéros BIC e AIC calculados nas 30 últmas partções do dendrograma construído pelo método herárquco Bayesano no banco de estrpes de Bradyrhzobum...92 Fgura 4.24: Pontos resultantes da transformação MDS dos eletroferogramas tomando as 3 prmeras coordenadas, representando o 50% da varânca dos dados...93 Fgura 4.25: Crtéro AIC para dferentes valores de TAE como função do número de grupos no modelo NB banco de estrpes de Bradyrhzobum...95 Fgura 4.26: Crtéro BIC para dferentes valores de TAE como função do número de grupos no modelo NB banco de estrpes de Bradyrhzobum...96 Fgura 4.27: Agrupamento ótmo de 4 grupos gerado pelo método baseado no modelo NB no banco de estrpes de Bradyrhzobum...96 xv

16 LISTA DE TABELAS xv LISTA DE TABELAS Tabela 3. Parâmetros das 4 dstrbuções gaussanas usadas para gerar os 2000 pontos de Synthetc Tabela 3.2 Parâmetros das 5 dstrbuções normas usadas para gerar os 000 pontos de Synthetc Tabela Relação de enzmas de restrção utlzadas e regões rbossomas analsadas na obtenção do banco de dados de estrpes de Bradyrhzobum Tabela Atrbução de nós em clques na árvore de unção do modelo NB para o banco de dados Írs Tabela 4.: Dados ntegrantes dos grupos que compõem a partção BIC ótma do dendrograma construído pelo método herárquco Bayesano no banco de estrpes de Bradyrhzobum Tabela 4.2: Probabldades de pertnênca resultantes do modelo NB ótmo de 4 classes construído no banco de estrpes de Bradyrhzobum Tabela 4.3: Atrbução dos dados aos dversos grupos da partção ótma de 4 grupos gerada pelo modelo NB no banco de estrpes de Bradyrhzobum Tabela 4.4: Parâmetros dos grupos ntegrantes da partção ótma de 4 grupos gerada pelo modelo NB no banco de estrpes de Bradyrhzobum.. 99 xv

17 xv LISTA DE SÍMBOLOS LISTA DE SÍMBOLOS n - Número de elementos ou amostras. N - Número de varáves. - Matrz de dstânca. d uv - Dstânca entre os grupos u e v. u - Cardnaldade do grupo u D - Conunto de elementos, amostras, nstâncas, casos ou dados. C - Partção (conunto de classes). C - -ésma partção. C Número de classes da partção C. p ( C D) - Probabldade da partção C dados os dados D. X - Varável aleatóra, conunto de varáves. X - Varável aleatóra com posção, X X. x - Uma nstânca ou estado da varável aleatóra X. s - Grafo ou estrutura de modelo de um MGP. h s - Uma estrutura de modelo hpotétca. Pa (s) - Conunto de varáves aleatóras pas da varável X na estrutura de modelo s. θ - Conunto de parâmetros de um MGP. θ - Conunto de parâmetros da varável X num MGP. Cc (s) - Conunto de nós que formam um componente conectado nduzdo pela estrutura do modelo s. CcPa ) ( s - Conunto de nós dscretos pas dos nós contdos no componente conectado Cc ( s). xv

18 LISTA DE SÍMBOLOS xv k θ - Probabldade condconal de que toma seu -ésmo valor X toma seu k -ésmo valor dado que Pa (s) (, X ) s Y - Sub-grafo nduzdo no grafo s pelo conunto de nós correspondentes às varáves aleatóras ( Y, X ). φ - CG-potencal de crença. g - Característcas canôncas de um CG-potencal. (, h, K ) p - Característcas de momentos de um CG-potencal. {, µ, Σ} V - Clque ou unverso de crença. S - Separador de clques. φ V - CG-potencal de clque. φ S - CG-potencal de separador. φ U - Sstema de crença conunta

19 xv SUMÁRIO SUMÁRIO RESUMO... IX ABSTRACT... X LISTA DE FIGURAS... XI LISTA DE TABELAS...XV LISTA DE SÍMBOLOS...XVI. INTRODUÇÃO FUNDAMENTOS TEÓRICOS Agrupamento Herárquco Métodos aglomeratvos tradconas Métodos aglomeratvos probablístcos Agrupamento com Modelos Gráfcos Probablístcos Modelos Gráfcos Probablístcos Redes Gaussanas Condconas Redes Gaussanas Condconas para agrupamento de dados Inferênca em Redes Gaussanas Condconas Aprendzagem de Redes Gaussanas Condconas MATERIAIS E MÉTODOS Bancos de dados Bancos de dados de valdação Banco de dados de aplcação: Estrpes de Bradyrhzobum Método de Agrupamento Herárquco Bayesano Método de agrupamento de dados baseado em Redes Gaussanas Condconas Transformação dos eletroferogramas em vetores de coordenadas Agrupamento com Nave-Bayes Expermentos RESULTADOS E DISCUSSÕES Resultados nos bancos de dados de valdação...75 xv

20 SUMÁRIO xx 4... Synthetc Synthetc Irs Resultados nos banco de estrpes de Bradyrhzobum CONCLUSÕES E SUGESTÕES REFERÊNCIAS BIBLIOGRÁFICAS... 03

21

22 INTRODUÇÃO Capítulo. INTRODUÇÃO Agrupamento de dados, ou data clusterng em nglês, é um conunto de técncas usadas numa grande varedade de campos nclundo reconhecmento de padrões, aprendzado de máquna, mneração de dados, estatístca, análse de magens, bonformátca entre outras. Bascamente estas técncas têm por fnaldade encontrar grupos ou clusters dentro de um conunto dado de elementos, tal que os elementos dentro de cada grupo compartlhem certas característcas em comum (EVERITT et. al., 200). É mportante entender a dferença entre agrupamento de dados e classfcação de dados. Nesta últma, tem-se dsponível um conunto de elementos préclassfcados (a etqueta da classe de cada elemento é conhecda) o qual é usado para aprender as estruturas das classes. Com estas estruturas aprenddas é possível classfcar novos elementos com etquetas desconhecdas (EVERITT et. al., 200). No caso das técncas de agrupamento, os dados não possuem etquetas e o problema é ustamente encontrar essa nformação com base nos atrbutos dos dados. Em alguns problemas de agrupamento se dspõe, além dos dados, certo conhecmento a pror deles, como o número de classes e característcas geras das classes, o qual faclta a classfcação. Em outros problemas não se tem nenhum conhecmento a pror sobre os dados e freqüentemente tem-se que fazer algumas

23 2 CAPÍTULO consderações para poder classfcá-los. A demanda por métodos de agrupamento de dados vem de mutos campos de aplcação. Em bologa, por exemplo, exste um grande nteresse em métodos efcentes para avalar a bodversdade e posção taxonômca de organsmos vvos. Isto é devdo à cada vez maor dsponbldade de dados bomoleculares como conseqüênca dos avanços nas técncas de bologa molecular que ocorreram prncpalmente nas duas últmas décadas. Esta fo a prncpal motvação do presente trabalho, o qual tem por obetvo prncpal desenvolver métodos de agrupamento aplcados em taxonoma de organsmos com base nas suas característcas genotípcas. Exste uma grande quantdade de métodos de agrupamento encontrados na lteratura, os quas podem ser classfcados de dstntas formas. A classfcação apresentada em (JAIN; DUBES, 988) é bastante aceta, na qual se dstnguem dos grandes grupos: os métodos herárqucos e os métodos partconas. Os métodos herárqucos geram sucessvos agrupamentos baseados em agrupamentos prevamente crados formando uma herarqua de grupos chamada dendrograma, enquanto os métodos partconas determnam todos os grupos em uma vez. Exstem váras lmtações e nconvenentes nos algortmos herárqucos e partconas tradconas (não probablístcos) (EVERITT et al., 200). Uma delas é a escolha da métrca adequada para medr a smlardade ou dssmlardade (dstânca) entre os elementos. Em mutas aplcações, especalmente com dados estruturados como magens ou seqüêncas, essa escolha é uma tarefa dfícl de cumprr devdo ao fato de que freqüentemente dstntas métrcas geram dstntos agrupamentos (HELLER; GHAHRAMANI, 2005). Um outro problema observado é que estes 2

24 INTRODUÇÃO 3 algortmos não constroem modelos para descrever os grupos encontrados, sendo dfícl comparar dstntos agrupamentos e também atrbur rótulos de classe a novos elementos após do agrupamento (HELLER; GHAHRAMANI, 2005). Uma outra lmtação nos algortmos não probablístcos é que estes não determnam o grau de ncerteza com que os dados estão sendo agrupados. Fnalmente, estes algortmos não consderam o conhecmento a pror que se dspõe acerca dos dados, o qual pode ter nfluênca na determnação fnal dos grupos. Os métodos de agrupamento baseados em modelos probablístcos foram propostos para superar as lmtações menconadas acma (BERKHIN, 2002). No caso dos algortmos partconas probablístcos, os dados são modelados como sendo gerados por uma mstura de dstrbuções de probabldades (EVERITT et al., 200). No caso dos algortmos herárqucos probablístcos, a herarqua de grupos é construída com base em algum crtéro probablístco (IWAYAMA; TOKUNAGA, 995; FRALEY; RAFTERY, 998; HELLER; GHAHRAMANI, 2005). Em ambos casos é possível avalar as classfcações resultantes medante a comparação dos modelos aprenddos com algum crtéro estatístco. No presente trabalho foram mplementados dos métodos de agrupamento baseados em modelos probablístcos voltados para aplcações em taxonoma molecular. Estes métodos podem consderar (se dsponível) o conhecmento a pror dos dados. A forma como combnam esse conhecmento com o conhecmento extraído dos dados é por meo do teorema de Bayes, por tal razão são denomnados métodos Bayesanos. O prmero método é o método de agrupamento herárquco Bayesano - HBC (do nglês, Herarchcal Bayesan Clusterng). Este método pertence ao grupo dos métodos herárqucos aglomeratvos. Bascamente este método ordena os dados numa herarqua de grupos procurando a maxmzação da

25 4 CAPÍTULO probabldade a posteror de cada agrupamento. O segundo método mplementado corresponde a um método partconal probablístco baseado em um tpo de Modelo Gráfco Probablístco (PEARL, 988) conhecdo como Redes Gaussanas Condconas (PEÑA, 200) o qual fo adaptado para realzar agrupamento de dados. Este tpo de modelo fo escolhdo porque além de agrupar pode dar uma déa do relaconamento entre os atrbutos dos dados e também por sua capacdade para ldar com conhecmento a pror dsponível e com dados ncompletos como é o caso de problemas de agrupamento. O presente trabalho está organzado em 5 capítulos. No capítulo 2, segundo esta ntrodução, descrevem-se os fundamentos teórcos mplcados nos métodos mplementados. No Capítulo 3 são descrtos os materas e métodos utlzados no presente trabalho. No Capítulo 4 são apresentados e dscutdos os resultados obtdos. Fnalmente, no Capítulo 5 são apresentadas as conclusões e tópcos para trabalhos futuros. 4

26 FUNDAMENTOS TEÓRICOS 5 Capítulo 2 2. FUNDAMENTOS TEÓRICOS Este capítulo apresenta os fundamentos teórcos necessáros para o desenvolvmento do trabalho. O capítulo é dvddo em duas partes. Na prmera parte é apresentada a teora subacente aos métodos de agrupamento herárquco tanto probablístcos e não probablístcos. Na segunda parte é ntroduzda a teora dos Modelos Gráfcos Probablístcos (MGP) com prncpal ênfase nas redes Gaussanas Condconas como tpos de MGP usados em problemas de agrupamento de dados. 2.. AGRUPAMENTO HIERÁRQUICO No agrupamento herárquco, os dados são organzados em uma sére de agrupamentos ou partções, os quas podem varar desde agrupamentos com todos os elementos em um únco grupo até agrupamentos com n grupos untáros. Os métodos de agrupamento herárquco podem ser dvddos em aglomeratvos e dvsvos. Os métodos aglomeratvos começam formando grupos untáros e vão fundndo-os sucessvamente formando grupos maores. Entretanto, os métodos dvsvos começam com um únco grupo formado por todos os elementos e vão dvdndo-os sucessvamente em grupos menores.

27 6 CAPÍTULO 2 A saída produzda por ambos os métodos é uma herarqua de grupos freqüentemente representada por uma árvore bnára chamada dendrograma, a qual mostra as fusões ou dvsões realzadas em cada passo do processo. Um exemplo de dendrograma é mostrado na Fgura 2., na qual os números acma e abaxo ndcam um determnado passo no processo de aglomeração ou dvsão respectvamente. Este tpo de representação é bastante usado em aplcações de bologa para representar flogenas e taxonomas. Outras áreas onde o agrupamento herárquco é aproprado são em museologa, sstemas socas, bbloteconoma, e outros (EVERITT et al., 200). O agrupamento herárquco também tem sdo aplcado em áreas onde não exste necessaramente uma estrutura herárquca natural, mas tem mostrado sua utldade para organzar os dados e prover um ponto de partda para outros métodos de agrupamento (EVERITT et al., 200). Aglomeração: a b a,b a,b,c,d c d c,d Dvsão: Fgura 2.: Exemplo de representação em dendrograma, na qual cada retângulo representa um grupo resultante da aglomeração ou dvsão do método herárquco respectvo. Os métodos aglomeratvos atualmente são mas amplamente usados que os 6

28 FUNDAMENTOS TEÓRICOS 7 dvsvos devdo a que estes últmos são computaconalmente exgentes pela enorme quantdade de possíves dvsões ncas, razão pela qual não são estudados no presente trabalho. A segur são descrtos os métodos aglomeratvos não probablístcos comumente usados, os quas são chamados no resto do texto como métodos aglomeratvos tradconas. Logo são apresentados os métodos probablístcos para agrupamento herárquco aglomeratvo MÉTODOS AGLOMERATIVOS TRADICIONAIS Os métodos aglomeratvos tradconas produzem uma sére de partções. No começo são ncados n grupos ( n = número de elementos) com cada elemento em um grupo dstnto. À cada passo do processo de aglomeração um par de grupos é funddo de acordo com algum crtéro de smlardade. O processo fnalza quando todos os elementos são untados em um únco grupo. Exste uma varedade de métodos aglomeratvos, que são caracterzados de acordo com o crtéro utlzado para defnr as dstâncas entre grupos. Entretanto, a maora dos métodos parecem ser formulações alternatvas de três grandes métodos de agrupamento aglomeratvo (ANDERBERG, 973): ) Métodos de lgação (sngle lnkage, complete lnkage, average lnkage); 2) Métodos de centróde; 3) Métodos de soma de erros quadrátcos ou varânca (método de Ward).

29 8 CAPÍTULO 2 Entrada: Banco de dados { d, d 2,..., d n} D= com n elementos. Função de dstânca entre elementos f : ( d, d ) R + Função de dstânca entre grupos Saída: Uma herarqua de grupos. g : ( v, w) R.Incar n grupos, contendo um elemento em cada grupo 2.Calcular a matrz de dstânca = ( ) 3.Repetr; δ, onde δ = f d, d ),, [, n] + ( 4. Localzar os grupos u e v com menor dstânca δ uv em ( v u ); 5. Construr um novo grupo (uv) pela fusão desse par de grupos de dstânca mínma 6 Atualzar a matrz, suprmndo as lnhas e as colunas correspondentes aos grupos fusonados u e v ; 7. Atualzar a matrz, adconando uma lnha e uma coluna correspondente às dstâncas δ (uv) w entre o novo grupo (uv) e cada grupo exstente w, onde ( uv ) w = g( uv, w) δ ; 8. Até n, quando todos elementos estarão em um únco grupo. Fgura 2.2: Algortmo padrão dos métodos de agrupamento herárqucos aglomeratvos tradconas. Os métodos aglomeratvos seguem, de modo geral, o algortmo padrão descrto na Fgura 2.2. A matrz de dstânca ncal = δ ) no passo 2 do algortmo é formada aplcando a função de dstânca f (.) a cada par de elementos d, d do banco de dados D, sto é, δ = f d, d ). A escolha da função de dstânca entre ( elementos é depende do tpo de dado e do problema abordado. Algumas funções de dstâncas conhecdas são (EVERITT, 200): dstânca Eucldana, dstânca Cty Block, dstânca Mnkowsk, correlação de Pearson, dstânca co-seno. A dferença entre os métodos ocorre no passo 7, onde a função de dstânca entre grupos g (.) é usada para calcular as dstâncas ( δ (uv) w entre o novo grupo (uv) e cada grupo 8

30 FUNDAMENTOS TEÓRICOS 9 exstente w, sto é, δ g(( uv), ) (JOHNSON, 992). Estas funções são ( uv ) w = w mostradas a segur para cada método unto com algumas propredades mportantes deles. Método de lgação por vznho mas próxmo (Sngle Lnkage): Neste método, a dstânca δ (uv) w entre o grupo funddo (uv) e qualquer outro grupo exstente w é calculada com a menor dstânca entre os elementos ntegrantes de ambos grupos: δ = mn( δ, δ ). (2.) ( uv) w uw vw Algumas característcas mportantes deste método são (ANDERBERG, 973): - Permte detectar grupos de formas não-elíptcas; - Grupos muto próxmos podem não ser dentfcados; - Pouca tolerânca a ruído; - Tendênca a formar longas cadeas (encadeamento). Método de lgação por vznho mas dstante (Complete Lnkage): Neste método, a dstânca δ (uv) w entre o grupo funddo (uv) e qualquer outro grupo w é calculada com a maor dstânca entre os elementos ntegrantes de ambos grupos: δ = max( δ, δ ). (2.2) ( uv) w uw vw Algumas característcas mportantes são (KAUFMANN, 990): - Tendênca a formar grupos compactos; - Os ruídos demoram a serem ncorporados ao grupo; - Apresenta bons resultados tanto para dstâncas Eucldanas quanto para outras. Método de lgação méda (Average Lnkage): Neste método, a dstânca entre o grupo funddo (uv) e qualquer outro grupo w é calculada com a dstânca méda de u e v com respeto a w :

31 0 CAPÍTULO 2 u δ uw + v δ vw ( uv w = (2.3) u + v δ ) em que, u e v é a cardnaldade dos conuntos u e v respectvamente. Algumas característcas mportantes são (KAUFMANN, 990): - Menor sensbldade a ruídos que os outros métodos de lgação; - Apresenta bons resultados tanto para dstâncas eucldanas quanto para outras; - Tendênca a formar grupos com número de elementos smlares. Método de lgação por centróde (Centrod Lnkage) : Neste método, a dstânca entre o grupo funddo (uv) e qualquer outro grupo exstente w é atualza como: u δ uw + v δ vw u v δ uv δ ( uv) w =. (2.4) 2 u + v ( u + v ) Algumas característcas mportantes são: - Tolerânca à presença de ruído; - Fenômeno da reversão, sto é, novos grupos podem-se formar a um nível nferor dos grupos exstentes, tornando o dendrograma confuso. Método de lgação de Ward: Neste método, a dstânca entre o grupo funddo (uv) e qualquer outro grupo exstente w é atualza como: Algumas característcas mportantes são: ( w + u ) duw + ( w + v ) δ vw w δ uv δ ( uv) w =. (2.5) u + v + w - Apresenta bons resultados tanto para dstâncas eucldanas quanto para outras dstâncas; - Pode apresentar resultados nsatsfatóros quando o número de elementos em cada grupo é sgnfcatvamente dferente; 0

32 FUNDAMENTOS TEÓRICOS - Tendênca a combnar grupos com poucos elementos; - Sensível à presença de outlers MÉTODOS AGLOMERATIVOS PROBABILÍSTICOS A prncpal lmtação dos métodos aglomeratvos tradconas é que estes não proporconam nenhum gua para seleconar o agrupamento ótmo ou natural dos dados, sto é, o nível do dendrograma onde deve ser cortado. Outra lmtação dos métodos tradconas é a dfculdade na escolha da métrca de dstânca adequada, especalmente para dados estruturados como magens ou seqüêncas (HELLER; GHAHRAMANI, 2005). Métodos herárqucos aglomeratvos probablístcos são o híbrdo entre métodos herárqucos aglomeratvos e modelos probablístcos. A característca prncpal destes métodos é que modelam os grupos com dstrbuções de probabldades e realzam o processo de aglomeração guados por algum crtéro probablístco. Em (HELLER;GHAHRAMANI, 2005) é apresentada uma revsão do estado da arte de tas algortmos. As dferenças encontradas nestes algortmos estão prncpalmente: - No modelo probablístco usado para descrever os dados, entre eles se encontram: mstura de gaussanas, mstura de exponencas, entre outras; - No crtéro usado para guar o processo de aglomeração, podendo ser: máxma verossmlhança, verossmlhança margnal, máxma probabldade a posteror. Entre estes algortmos encontra-se o Herarchcal Bayesan Clusterng - HBC exposto em (IWAYAMA; TOKUNAGA, 995), o qual é descrto a segur pos consttu a base do método de agrupamento herárquco mplementado neste trabalho. Observações que são numercamente dstantes do resto do banco de dados

33 2 CAPÍTULO 2 Algortmo de agrupamento HBC Este algortmo fo ncalmente proposto para classfcação de documentos de texto, onde apresentou bons resultados (IWAYAMA; TOKUNAGA, 995). Bascamente, o algortmo constró uma herarqua de grupos (dendrograma) fundndo em cada nteração o par de grupos que produzem o agrupamento com a maor probabldade a posteror. Os agrupamentos produzdos em cada nteração são chamados partções. No nco é formada uma partção com n grupos untáros. A cada nteração o algortmo calcula para cada par de grupos a probabldade da partção resultante de untá-los, seleconando assm o par de grupos que ao serem funddos apresentem a maor probabldade da partção resultante. O par de grupos encontrados são logo substtuídos por um novo grupo, o qual contêm os elementos de ambos grupos. O algortmo toma n terações até untar os n grupos ncas em um únco grupo. Consdere-se D= d, d,..., d } o conunto de dados a agrupar. No nco é { 2 n formada a partção ncal C = c, c,..., c } na qual cada grupo é formado por um 0 { 2 n únco elemento, c = { d }. Após k nterações tem-se a partção C k formada pelo conunto de grupos c, c,..., }, onde k n. Sea p( Ck D) a probabldade { 2 c n k a posteror de agrupar os dados D no conunto de grupos C k. O par de grupos escolhdo para ser funddo na teração k é aquele que apresenta o máxmo valor da probabldade p( Ck D) sobre o espaço de todos os pares de grupos possíves a fundr. Consderando ndependênca condconal entre os dados dentro dos grupos, a probabldade de agrupar os dados na partção C k pode ser calculada como: c C p ( C D) = p( c d ) (2.6) k k d c 2

34 FUNDAMENTOS TEÓRICOS 3 aplcando o teorema de Bayes e desenvolvendo a equação anteror, tem-se: p( C k D) = c C k d c p( d c ) p( c ) p( d ) = c C k p( c ) p( D) c c C k d c p( d c ) = p( C ) k p( D) c C k SC( c ) (2.7) onde (IWAYAMA; TOKUNAGA, 995): - p (D) é a probabldade margnal dos dados, a qual é constante para qualquer partção. - p ( Ck ) é a probabldade a pror de agrupar os n dados na partção C k : p ( C ) = p( ) (2.8) k c c C em que p ( c ) é a probabldade a pror do grupo c e c sua cardnaldade. - SC ( c ) é a verossmlhança do grupo c, sto é, a probabldade do grupo c de agrupar todos seus elementos k d, calculada como: d c c SC ( c ) = p( d c ) (2.9) - SC ( c ) é defndo como a verossmlhança da partção C k, a qual mede quão c C k prováves são os dados se a partção fosse certa. É calculado como a produtóra das verossmlhanças de cada grupo ntegrante. Para determnar os dos grupos que devem ser funddos na nteração k

35 4 CAPÍTULO 2 consdera-se o par de grupos canddatos c x e c y. O grupo resultante da fusão é c z = c c e a partção é atualzada da segunte forma: x y C k = C + c c c (2.0) k z x y Usando (2.7) para expressar a probabldade posteror da partção C k, tem-se: p( Ck ) p ( Ck D) = SC( c ) (2.) p( D) c C k Dvdndo (2.) e (2.7) pode-se solar a probabldade a posteror da partção C k em termos da probabldade da partção anteror C k : p p( Ck ) SC( cz ) D) = p( Ck D). (2.2) p( C ) SC( c ) SC( c ) ( Ck k x y Note-se que esta atualzação é local e pode ser feta efcentemente desde que tudo o que se precsa calcular é a verossmlhança do novo grupo SC c ). O ( z p( C k termo p( C ) ) k é o fator no qual a probabldade a pror da partção muda a cada passo. Usando o prncpo Mnmum Descrpton Length - MDL (RISSANEN, 989): A probabldade a pror de um modelo (neste caso, um grupo) é uma função decrescente do seu tamanho. Pode-se defnr essa função como p( c) ( A) c (IWAYAMA; TOKUNAGA, 995), onde A >. De acordo com este prncpo, (2.8) pode ser reescrta como: c C k p ( C ) = p( c) A= A. (2.3) k k c c C k C Cada partção C k decresce de uma undade a cada passo, conseqüentemente PC( C k ) PC( C k ) se reduz à constante A. A maxmzação é então feta sobre o quocente 4

36 FUNDAMENTOS TEÓRICOS 5 dos termos SC em (2.2), o qual é denotado como U c x, c ) : ( y U ( c x, c y SC( cx c y ) ) = (2.4) SC( c ) SC( c ) x y portanto, os grupos a serem funddos serão os que maxmzem (2.4), sto é: ( x y c x, c y x y c, c ) = arg max ( U ( c, c )). (2.5) A probabldade elementar p d c ) necessára para calcular SC c ) em (2.9) ( ( é a probabldade do grupo c de agrupar o seu dado membro d. Esta probabldade é determnada de acordo com o modelo probablístco usado para modelar os grupos, o qual é dependente da aplcação em questão. Na Fgura 2.3 é apresentado um sumáro do algortmo descrto na presente seção. Entrada : D= d, d,..., d }, conunto de dados Saída : { 2 n C k C n Uma herarqua de partções { 0,...,,... } Incar: c = { d }, para =... n C = c, c,... c }, Partção ncal 0 { 2 n Repetr: U SC( c c ) { } SC( c ) SC( c ) =, c, c C k, c c ( c, c ) arg max, ( U ) x y c c C c z c x c y Fgura 2.3: Pseudocódgo do algortmo de agrupamento herárquco Bayesano (HBC). C k Ck + c z c x c y Até n vezes, quando todos elementos estarão em um únco grupo.

37 6 CAPÍTULO AGRUPAMENTO COM MODELOS GRÁFICOS PROBABILÍSTICOS Nesta seção é apresentada uma breve ntrodução aos modelos gráfcos probablístcos (MGP) em geral e redes gaussanas condconas - CGN (do nglês, Condtonal Gaussan Networks) em partcular, como um tpo de MGP que pode ldar com dados tanto dscretos como contínuos. Esta seção nca com uma breve ntrodução aos MGP para logo apresentar as CGNs e sua forma como são adaptadas para serem usadas em problemas de agrupamento; são apresentados também os algortmos de nferênca e aprendzado neste tpo de modelos MODELOS GRÁFICOS PROBABILÍSTICOS Os modelos gráfcos probablístcos são ferramentas poderosas para modelar e fazer nferênca em domínos complexos e com ncerteza. Estes têm apresentado um nteresse crescente nos últmos anos, devdo bascamente a sua flexbldade e fácl nterpretação. Especfcamente estas ferramentas provêem uma forma modular de codfcar a dstrbução de probabldade conunta de um problema com uma quantdade estrtamente necessára de parâmetros, denomnados parâmetros do modelo. Os MGP também codfcam os relaconamentos entre as varáves do problema medante uma estrutura de grafo denomnada estrutura do modelo. Estas vantagens são oferecdas pelos MGP por explorarem as asserções de ndependênca condconal exstentes entre as varáves do problema (PEÑA, 200). Sea X = X,..., X ) uma varável aleatóra (VA) N-dmensonal. Um modelo ( N gráfco probablístco (MGP) para X é uma fatoração gráfca da dstrbução de probabldade conunta para X, p (x) (PEARL, 988). Um MGP para X consste de dos componentes: um grafo s (estrutura do modelo) que determna as 6

38 FUNDAMENTOS TEÓRICOS 7 ndependêncas condconas entre as varáves aleatóras de X, e um conunto de dstrbuções de probabldades locas para a estrutura do modelo. Cada nó da estrutura do modelo representa uma varável aleatóra undmensonal X, para todo. Assm, cada nó no grafo s será chamado ndstntamente varável aleatóra ou nó na contnuação do texto. O presente trabalho está focalzado em MGPs com parte estrutural lmtada a grafos acíclcos drgdos (DAGs). Aplcando a regra da cadea, tem-se que a dstrbução da probabldade conunta codfcada por um MGP para X pode ser fatorada como: N,..., xn ) = p( x x,... x ) = p( x) = p( x. (2.6) Pode-se assumr sem perda de generaldade (PEÑA, 200), que as varáves de X seguem uma ordem ancestral, sto é, a varável X não tem descendentes (representados no grafo s ) no conunto de varáves X,..., ). ( X Conseqüentemente, a estrutura do modelo s codfca um conunto de ndependêncas condconas da forma CI X,( X,... X ) \ Pa( s) Pa( s) ) (, onde Pa (s) são os nós pas de X no grafo s. Logo, (2.6) pode ser reescrta como: N,..., xn ) = p( x ( s) ) = p( x) = p( x pa. (2.7) As dstrbuções de probabldades locas do MGP são aquelas nduzdas pelos produtos que aparecem em (2.7). É assumdo que estas são especfcadas com um conunto de parâmetros θ = θ,..., θ ). Denotando s ( N h s como a hpótese de que a verdadera dstrbução da probabldade conunta para X é fatorada de acordo com o conunto de ndependêncas condconas codfcadas no grafo s, então (2.7) pode ser escrta como:

39 8 CAPÍTULO 2 p N h h h ( x s, s ) = p( x,..., xn θs, s ) = p( x pa( s), θ, s ) = θ. (2.8) Estes resultados foram apresentados no trabalho de (PEARL,988) e posterormente por outros pesqusadores (BOUCKAERT,995; CASTILLO et al.,997; PEÑA, 200). Resumndo, para defnr um MGP, é necessáro especfcar: um grafo acíclco drgdo (DAG), o qual codfca o conunto de ndependêncas condconas entre as varáves aleatóras do problema em questão e um conunto de dstrbuções de probabldades condconas, uma para cada nó. Estas dstrbuções correspondem aos termos do produtóro em (2.8). Fgura 2.4: Exemplo de estrutura de modelo e dstrbuções de probabldades locas (parâmetros) para um MGP de 4 varáves aleatóras dscretas bnáras. Na Fgura 2.4 é mostrado um exemplo de MGP para 4 varáves aleatóras dscretas bnáras X = X, X, X, ), na qual pode ser vsto a estrutura do modelo ( 2 3 X 4 e as dstrbuções de probabldades locas em forma de tabelas de probabldades. A 8

40 FUNDAMENTOS TEÓRICOS 9 fatoração gráfca da probabldade conunta para X é obtda segundo (2.8): p( x, x2, x3, x4 ) = p( x) p( x2 x) p( x3 x ) p( x4 x2, x3 ). As ndependêncas condconas nduzdas pela estrutura de modelo deste exemplo são: CI X, X X, 3) e CI X, X ). ( 4 2 X ( 3 2 X REDES GAUSSIANAS CONDICIONAIS As redes gaussanas condconas - CGNs são uma classe de MGP que pode ldar com dados de natureza msta (dscretos e contínuos). Sea X = X,..., X ) uma varável aleatóra composta por 2 subconuntos de ( N varáves: Y = Y,..., Y ) e Z = Z,..., ), tal que: () X = Y Z e Y Z =, () Y ( R ( Z N R representa uma varável dscreta R -dmensonal e Z representa uma varável contínua ( N R) -dmensonal. Dz-se que X segue uma dstrbução gaussana condconal (LAURITZEN; WERMUTH, 989; LAURITZEN, 992; LAURITZEN, 996; COWEL et al., 999) se a densdade de probabldade condconal conunta para Z, dados os estados de Y, é uma dstrbução normal ( N R) -dmensonal: f ( z y) ~ Ν( z; µ ( y), Σ( y)) (2.9) para todo Y = y tal que p ( y) > 0, µ ( y) é o vetor de médas, Σ ( y) é a matrz de covarânca defnda postva. Consdere-se um MGP para a varável msta X = (Y, Z), onde Y = Y,..., Y ) = ( X,..., X ) e Z =,..., Z ) ( X,..., X ) ( R R ( Z N R = R+ N. Um componente conectado da estrutura s do MGP é defndo como o maor subconunto de Z, tal que qualquer par de nós no componente conectado está conectado por um camnho que não nclu nós dscretos no grafo s. Sea Cc ( s),..., Cc( s) a partção de Z, tal g que cada Cc ) ( s é um componente conectado de s. Sea CcPa s) ( o conunto de nós

41 20 CAPÍTULO 2 dscretos pas dos nós contdos no componente conectado Cc ( s). Uma rede gaussana condconal é um MGP para X onde: Os nós dscretos não têm nós pas contínuos em s, O conunto de pas para cada nó no componente conectado Cc ( s) é exatamente CcPa ( s) para todo, e CcPa ( s), Cc( s) ) segue uma dstrbução gaussana condconal. ( Este tpo de MGP fo ntroduzdo por prmera vez em (LAURITZEN; WERMUTH, 989) e desenvolvdo posterormente nos trabalhos de (LAURITZEN,992; GEIGER; HECKERMAN, 994; LAURITZEN,996; COWEL et al.,999). Recentemente, as CGNs têm sdo aplcadas satsfatoramente em problemas de agrupamento de dados (PEÑA, 200). A fatoração gráfca da dstrbução de probabldade conunta para X codfcada por uma CGN adqure a segunte forma: p( x θ, s s h ) = p( x,..., x N θ, s s h ) = R = p( x pa( s), θ, s h ) N = R+ f ( x pa( s), θ, s h ). (2.20) A Equação (2.20) é um caso partcular de (2.8), na qual fo consderada a natureza msta da varável X. Tpcamente a dstrbução de probabldade local para cada varável dscreta X Y é consderada como uma dstrbução multnomal, uma para cada valor de Pa (s). Assumndo que X ( X Y ) aceta r valores dstntos denotados por ( r x x,..., ), e que Pa (s) pode ser algum dos q estados dstntos denotados por q pa ( s ),..., pa( s), sendo = X q r Pa( s) e, para todo tal que R e. Portanto, a dstrbução multnomal para X no prmero produtóro de (2.20) consste no 20

42 FUNDAMENTOS TEÓRICOS 2 conunto de probabldades da forma: p k ( x ( s), θ h k pa, s ) = θ (2.2) onde dado que k θ representa a probabldade condconal de que X toma seu k -ésmo valor Pa (s) toma seu -ésmo valor, para todo k. Além dsso, cumpre-se que r k = θ =, para todo e tal que R. k Para codfcar uma dstrbução Gaussana condconal para X, a função de densdade de probabldade para cada varável contínua X ( X Z ) deve ser um modelo de regressão lnear condconado em cada estado do conunto de pas dscretos de X, sto é, Pa (Y, X ) (s ), onde (, X ) s Y é o sub-grafo nduzdo de s pelo conunto de nós correspondentes às varáves aleatóras Y, X ), para todo > R. ( Sea q o número de estados que pode tomar Pa (Y, X ) (s ), os quas são denotados como: ( s ),..., ( s ) (, X ) ( Y, X ) pa Y pa, na qual X e q q = (Y, Pa s X ) r ( ) e, para todo > R. Sea também Pa o conunto de pas contínuos de ( s Z ) X, então o modelo de regressão lnear para X segue a forma: f ( x k Z X Pa( s ) ( Z h k k Y, X ) pa ( s ), pa( s ),θ, s ) ~ Ν( x ; m + b ( x m ), v ) (2.22) k onde os parâmetros das funções de densdade de probabldade para cada varável X são dados por θ q θ = ( ) = sendo = ( m, b, v ) para todo, na qual: θ m é a méda ncondconal de (Y, X ) X quando (s ) Pa toma seu -ésmo estado; ( b = b,..., b ) é um vetor, na qual, se X k Pa( s Z ) então b k é o coefcente lnear que reflete a força da relação entre k X k e X, em outro caso b = 0, quando (Y, X ) Pa (s ) toma seu -ésmo estado; v é a varânca condconal de X dado

43 22 CAPÍTULO 2 ( s Z (Y, X ) Pa ), quando Pa (s ) toma seu -ésmo estado. Desta forma, para defnr uma CGN, é necessáro especfcar: - Um DAG, o qual codfca o conunto de ndependêncas condconas entre as varáves aleatóras do problema em questão. O DAG segue as restrções mpostas dadas anterormente para modelos CGN. - Um conunto de dstrbuções de probabldades, uma para cada varável dscreta k do modelo gráfco, sto é, θ em (2.2), para R. - Um conunto de funções de densdade de probabldade para as varáves contínuas do modelo gráfco, sto é, médas ncondconas m, vetores de coefcentes lneares > R. b, e varâncas condconas v, para todos e, tal que Fgura 2.5: Exemplo de estrutura de modelo e dstrbuções de probabldades locas para uma CGN. X e X 2 são VA bnáras, e X 3 e X 4 são VA contínuas. A Fgura 2.5 mostra um exemplo de estrutura e dstrbuções de probabldades locas para uma CGN com 4 varáves aleatóras X = ( X, X 2, X 3, X 4 ), na qual, X e X 2 são varáves dscretas bnáras, e X 3 e X 4 são varáves contínuas. A fatoração 22

44 FUNDAMENTOS TEÓRICOS 23 gráfca da probabldade conunta para X é obtda segundo (2.20): h h h p( x θs, s ) = p( x θ, s ) p( x2 θ2, s ) f ( x3 x, x2, θ3, s ) f ( x4 x, x2, x3, θ4, s h h ). Note-se a nexstênca de ndependêncas condconas nduzdas pela estrutura do modelo de tpo CI X,( X,... X ) \ Pa( s) Pa( s) ) ( REDES GAUSSIANAS CONDICIONAIS PARA AGRUPAMENTO DE DADOS As redes Gaussanas condconas são usadas no presente trabalho com o obetvo de realzar agrupamento de dados, para sso, são fetas as seguntes suposções: ) o banco de dados consste de n casos D = { x,... x n }, cada caso x é um vetor x = x,..., xn+ ) = ( c, y,..., y ), no qual c ndca a classe que gerou o ( N caso, a qual é desconhecda e se tenta descobrr em problemas de agrupamentos. y = y,..., y ) representa o vetor de N característcas observadas, chamados ( N atrbutos predtvos; ) É assumdo que exstem K classes em D, as quas correspondem a dferentes processos físcos. A varável aleatóra que descreve estes processos é denotada com X X,..., X ), a qual pode ser dvdda como = ( N+ X = ( C, Y ), sto é, a varável aleatóra dscreta da classe C, e uma varável aleatóra contínua N-dmensonal Y = Y,..., Y ), a qual chama-se varável aleatóra predtva. ( N É assumdo que o mecansmo que gera cada caso em D trabalha em duas etapas: prmero, um processo físco assocado a uma classe é seleconado de acordo a uma dstrbução de probabldade, e segundo, uma nstânca é, de alguma forma, gerada de acordo à dstrbução da probabldade conunta para Y do processo seleconado. Uma CGN para agrupamento de dados é defnda como na seção anteror (estrutura do modelo e conunto de dstrbuções de probabldade para essa estrutura) com a restrção adconal no grafo de que cada nó, que representa a

45 24 CAPÍTULO 2 varável aleatóra predtva Y, depende (é flho) da varável aleatóra dscreta da classe C. Este requermento é exgdo pelas consderações fetas sobre o mecansmo que gera os dados. A fatoração gráfca da dstrbução da probabldade conunta para X codfcada por uma CGN com a restrção mposta para agrupamento de dados adqure a segunte forma (reescrta da Equação 2.20): p( x θ, s s h ) = p( c θ, s s h ) f ( y c, θ, s s h ) = p( c θ C, s h ) N = f ( y c, pa( s Y ), θ, s h ). (2.23) Os parâmetros que defnem a CGN são θ = θ,θ,..., θ ) s ( C N, onde θ C são os parâmetros da dstrbução de probabldade (multnomal) para a varável aleatóra da classe C, e θ representa os parâmetros da função de densdade de probabldade (modelo de regressão lnear) para a varável aleatóra contínua Y. A varável aleatóra da classe pode tomar K valores denotados como K c,...,c, então, a dstrbução multnomal consste de um conunto de probabldades da forma: p g ( c C h g θ, s ) = θ (2.24) g na qual, θ > 0, é a probabldade de C tomar seu g -ésmo estado. Cumpre-se K g g também que = θ =, conseqüentemente, os parâmetros para C são θ = θ,..., θ ). Por outro lado, f ( y c, pa ( s ), θ, s ) segue a segunte forma para C ( K g Y h todo, g e Y pa (s ) : f ( y c g Y h g g k Z Yk Pa( s ), pa ( s ),, s ) ~ Ν( y ; m + b ( y m ), v ) (2.25) θ k g k g em que os parâmetros das funções de densdade de probabldade local para cada Y são dados por g K = ( θ ) g = g θ, sendo = ( m, b, v ) para todo g, na qual θ g g g g m 24

46 FUNDAMENTOS TEÓRICOS 25 representa as médas ncondconas, g b os vetores de coefcentes lneares, e g v as varâncas condconas, para todos e g quando Y (s ) Pa toma seu ésmo g estado. Parâmetros do modelo Parâmetros Dstrbuções de probabldades ), ( θ 2 θ = C θ ), ( h s c p C θ ), ( 2 θ θ θ = ),, ( v m = θ ),, ( 2 2 v m = 2 θ ), ; ( ~ ),, ( v m y Ν s c y f h θ ), ; ( ~ ),, ( v m y Ν s c y f h θ ), ( θ θ θ = ),0, ( 2 m 2 v = θ 2 ),0, ( m 2 v = 2 θ 2 ), ; ( ~ ),, ( v m y Ν s c y f h θ 2 ), ; ( ~ ),, ( v m y Ν s c y f h θ 2 Estrutura do modelo ), ( θ θ θ = ),, ( v m b θ 3 = ),, ( v m b θ 2 3 = = ),,,, ( 2 3 h s y y c y f 3 θ ) ), ( ) ( ; ( v m y b m y b m y Ν + + = ),,,, ( h s y y c y f 3 θ ) ), ( ) ( ; ( v m y b m y b m y Ν + + Fgura 2.6: Exemplo de um modelo CGN para agrupamento de dados. Na Fgura 2.6 é mostrado um exemplo de CGN para classfcação não supervsonada (PEÑA, 200). Pode-se observar que o grafo segue a restrção mposta para classfcação não supervsonada de que cada varável predtva Y é flha da varável dscreta da classe C. Embora qualquer CGN com a restrção dada anterormente pode ser usada para classfcação não supervsonada, exstem 3 tpos de especal nteresse no presente trabalho: a Nave Bayes - NB (DUDA; HART,973), a Extended Nave Bayes - ENB (PAZZANI,996a; PAZZANI,996b) e a Tree Augmented Nave Bayes - C Y 2 Y 3 Y

47 26 CAPÍTULO 2 TANB (FRIEDMAN; GOLDSZMIDT,996). Estas CGNs apresentam um bom compromsso entre efcênca e efetvdade no processo de aprendzado da estrutura do modelo. Outra vantagem é que a nferênca nestas redes é relatvamente mas fácl do que em redes densamente conectadas, onde a dfculdade é anda mas agravada quando o número de casos ou atrbutos é grande. A segur são apresentados brevemente estes três tpos de CGN. Nave Bayes (NB) Este tpo de CGN é freqüentemente usado em problemas de classfcação e de agrupamento de dados. Seu nome vem da consderação ngênua (nave) de que todas as varáves aleatóras predtvas são condconalmente ndependentes dada a varável da classe C. Conseqüentemente, a dstrbução de probabldade conunta para X = ( C, Y ) que um modelo NB codfca, pode ser fatorada como: p( x θ, s s h ) = p( c θ, s s h ) f ( y c, θ, s s h ) = p( c θ C, s h ) N = f ( y c, θ, s h ). (2.26) Embora as consderações fetas na NB seam freqüentemente rreas, pos as varáves predtvas normalmente apresentam certas dependêncas, a NB apresenta resultados surpreendentemente bons em mutos domínos de aplcação (MICHIE et al.,994). Na Fgura 2.7 é mostrado um exemplo de estrutura do modelo para um classfcador NB com 3 varáves aleatóras predtvas: Y, Y 2, Y 3, as quas, como pode ser observado, são uncamente flhas da varável da classe C. 26

48 FUNDAMENTOS TEÓRICOS 27 C Fgura 2.7: Estrutura do modelo para um classfcador NB com 3 varáves aleatóras predtvas. Y Y 2 Y 3 Extended Nave Bayes (ENB) Este modelo é muto smlar à NB, a dferença é que o número de nós na ENB pode ser menor que o número de varáves predtvas, sto porque algumas varáves predtvas podem ser agrupadas como um únco nó, chamado de super-nó. Para que um super-nó possa ser formado, cada varável no super-nó deve ter relaconamentos (arcos) com o resto das varáves no super-nó e não possur relaconamentos com as varáves fora do super-nó, dada a varável da classe C. A dstrbução de probabldade conunta para X = ( C, Y ) que um modelo ENB codfca, pode ser fatorado como: p ( x θ, s ) = p( c θ, s ) f ( y c, θ, s ) = p( c θ, s ) f ( z c, θ, s ) (2.27) s h s h s h C h r = h na qual r é o número de super-nós denotados como Z onde se cumpre que: Z Y, r Z = = Y e Z Z = para todo. θ é o conunto de parâmetros das dstrbuções de probabldade para as varáves agrupadas baxo o super-nó Um exemplo de um ENB para agrupamento de dados com 6 varáves predtvas é mostrado na Fgura 2.8. Como pode ser observado, foram encontrados 3 super-nós Z, Z 2, Z 3. O novo modelo construído com estes super-nós é um modelo NB smples, com cada nó representando uma estrutura local para as varáves Z.

49 28 CAPÍTULO 2 aleatóras agrupadas, as quas não nduzem nenhuma ndependênca condconal entre estas dada a varável classe C. C C Y Y 2 Y 3 Y Y 4 5 Y 6 Z Z 2 Z 3 Z Z 2 Z 3 Fgura 2.8: Estrutura do modelo para um classfcador ENB com 6 varáves predtvas agrupados em 3 super-nós e seu correspondente modelo NB. Os modelos ENB para agrupamento de dados podem ser colocados em um lugar ntermédaro entre modelos NB e modelos com todas as varáves predtvas totalmente relaconadas, mantendo assm a smplcdade dos prmeros e a efetvdade e expressvdade dos últmos. Uma outra vantagem é encontrada na etapa de aprendzado estrutural pos a busca da estrutura de modelo ótma é realzada sobre o espaço de estruturas de modelo de tpo ENB, evtando assm a busca sobre o grande espaço de estruturas rrestrtas e conseqüentemente reduzndo o esforço computaconal desta etapa (PEÑA, 200). Tree Augmented Nave Bayes (TANB) Este tpo de CGN é defndo da segunte forma: ) cada varável predtva tem a varável classe C como pa, e ) cada varável predtva tem no máxmo outra varável predtva como pa. Um exemplo de um modelo TANB é mostrado na Fgura 2.9. onde pode ser 28

50 FUNDAMENTOS TEÓRICOS 29 verfcada a propredade de que cada varável predtva tem no máxmo outra varável predtva como pa. C Y Y 2 Y 3 Y 4 Y 5 Y 6 Fgura 2.9: Estrutura do modelo para um classfcador TANB com 6 varáves predtvas. Ao gual que os modelos ENB, os modelos TANB mplcam vantagens computaconas no aprendzado da estrutura do modelo comparado com aprendzado de estruturas de modelos rrestrtos. Também os modelos TANB apresentam uma maor expressvdade quando comparados com modelos NB, mantendo a smplcdade destes últmos. Uma outra vantagem deste tpo de modelos é a facldade de nterpretação do modelo aprenddo devdo a que cada varável predtva uncamente pode estar conectada a outra varável predtva, sendo fácl encontrar as (n)dependêncas entre as varáves, o que pode ser uma tarefa complcada em modelos densamente conectados (PEÑA, 200). Deve ser notado que não todas as ndependêncas condconas codfcadas por um modelo ENB podem ser representadas por um modelo TANB e vce-versa. Por exemplo, as ndependêncas condconas codfcadas num modelo TANB dado podem ser completamente representadas por um modelo ENB equvalente somente quando a longtude de cada camnho entre os nós das varáves predtvas do modelo TANB é no máxmo um. Por outro lado, todas as ndependêncas condconas codfcadas num modelo ENB dado podem ser representadas por um modelo TANB equvalente somente quando cada super-nó no modelo ENB agrupa

51 30 CAPÍTULO 2 no máxmo dos varáves predtvas. Assm, a dferente expressvdade dos modelos TANB e ENB pode mplcar que os prmeros seam mas adequados em certos problemas enquanto os segundos podem ser adequados em alguns outros problemas (PEÑA, 200) INFERÊNCIA EM REDES GAUSSIANAS CONDICIONAIS Uma vez construída uma representação probablístca através de um modelo CGN, uma das tarefas mas mportantes consste em obter estmatvas de probabldades de eventos relaconados aos dados à medda que novas nformações ou evdêncas seam conhecdas. Esse processo é denomnado nferênca. A nferênca em MGP em geral e em CGN em partcular permte, medante o cálculo das probabldades a posteror, responder a uma sére de consultas sobre um domíno de dados, a partr de nova nformação (evdênca) conhecda. As probabldades de nteresse que se tenta determnar no presente trabalho correspondem aos graus de crença das hpóteses fetas sobre um dado de ter sdo gerado por dversas hpotétcas classes (processos físcos) dados os valores dos atrbutos predtvos (evdênca). A mportânca da nferênca no presente trabalho não fca restrta ao cálculo de probabldades de pertnênca dos dados aos grupos, sua funconaldade é aprovetada também no processo da estmatva de parâmetros do modelo, onde a nferênca é utlzada para estmar os valores desconhecdos da varável classe C para assm austar os parâmetros do modelo num processo teratvo. Exstem bascamente dos tpos de métodos de nferênca: os métodos exatos e os métodos aproxmados. Nos métodos exatos, as probabldades dos nós são calculadas sem outro erro senão o de arredondamento, nerente às lmtações de 30

52 FUNDAMENTOS TEÓRICOS 3 cálculos computaconas. Já os métodos aproxmados utlzam dversas técncas de smulação para obter valores aproxmados das probabldades, e são utlzados em casos em que os algortmos exatos não são aplcáves, ou o custo computaconal é elevado. No presente trabalho é utlzado o algortmo de nferênca exata árvore de unção, proposto orgnalmente em (JENSEN et al.,990) e posterormente adaptado para modelos CGN em (LAURITZEN, 992). Este algortmo fo escolhdo devdo a sua efcênca computaconal comparado com os outros algortmos exatos (PASKIN, 2003). Algortmo de árvore de unção Ao se obter uma evdênca, ou sea, quando é conhecdo um subconunto de varáves E X com valores assocados X = e para X E, é precso consderar se exste mas de um camnho entre o nó (nós) com a evdênca e aquele cua probabldade deve ser atualzada pela nferênca no modelo CGN. Para sso é necessára uma estrutura de controle que determne qual estratéga usar para propagar crenças ou probabldades. O algortmo de árvore de unção é um método geral de propagação de crenças em MGP, a qual utlza uma estrutura de controle chamada árvore de unção, na qual os nós são determnados por subconuntos de varáves da estrutura do modelo orgnal chamados clques. Medante esta estrutura, o método propaga as evdêncas, calculando probabldades locas (com pequeno número de varáves), evtando assm expressões globas (grande número de varáves). Um procedmento bastante usado na construção da árvore de unção para modelos CGN fo desenvolvdo em (LAURITZEN, 992). Nesse procedmento são

53 32 CAPÍTULO 2 necessáras umas séres de transformações a partr do modelo CGN orgnal para a obtenção da árvore de unção. Para uma melhor explcação do procedmento, é usado um exemplo fctíco de um sstema ncnerador de lxo tomado de (LAURITZEN, 992). A Fgura 2.0 mostra a estrutura do modelo extraída deste problema, onde os nós pretos ndcam varáves dscretas, sendo F: estado do fltro {ntacto, defetuoso}, W: tpo de lxo {ndustral, casero} e B: regme de ncneração {estável, nstável}. Os nós brancos ndcam varáves contínuas, onde M n : quantdade de metal no lxo, M out : quantdade de metas pesados emtdos, D: quantdade de poera emtda, C: quantdade de CO 2 emtdo, e L: penetrabldade da luz na poera. Fgura 2.0: Estrutura do modelo de um sstema fctíco de ncneração de lxo (LAURITZEN, 992) para explcar o procedmento de construção da árvore de unção. Os passos para a construção da árvore de unção podem ser resumdos na construção das seguntes estruturas ntermedaras (LAURITZEN, 992): a. Construção do grafo moralzado. Para construr o grafo moralzado prmero se elmna a orentação dos arcos da estrutura orgnal e logo se adcona um arco não orentado (se nexstente) entre pares de nós pas comuns. Na Fgura 2. é mostrado o grafo moralzado resultante para o exemplo de sstema de ncneração 32

54 FUNDAMENTOS TEÓRICOS 33 de lxo, onde os arcos em vermelho são os arcos adconados. Fgura 2.: Grafo moralzado do sstema de sstema de ncneração de lxo. b. Formação de um grafo trangular. Consste na ntrodução de arcos no grafo moralzado com a fnaldade de evtar cclos (camnhos fechados) com mas de três nós. Os arcos são denomnados cordas e o grafo resultante, grafo trangular ou cordal. Exstem dversas maneras de se trangularzar um grafo, sendo ótma a que utlza o mínmo possível de cordas. Um algortmo ótmo é apresentado em (KJAERUL, 990). No caso do sstema ncnerador de lxo, o grafo moralzado (Fgura 2.) á é um grafo trangular, razão pela qual não é adconado nenhum arco. c. Formação de um grafo marcado decomponível. Grafos marcados são aqueles que possuem nós mstos que podem ser separados em nós dscretos (Y ) e nós contínuos ( Z ) como no caso das CGN. Para defnr um grafo marcado decomponível é necessáro ntroduzr a noção de decomposção em grafos marcados. Uma decomposção de um grafo marcado não orentado G é uma partção ( A, B, C) do seu conunto de nós V, tal que: ) C separa A de B, ) C é um subconunto completo de V, sto é, cada par de nós em C é conectado por um arco ) C Y B Z. Quando uma decomposção ( A, B, C) é encontrada em G dz-se que ( A, B, C) decompõe G em componentes G A C e GB C.

55 34 CAPÍTULO 2 Um grafo marcado G é dto decomponível se este é completo, ou se exste uma decomposção ( A, B, C) que decompõe G em sub-grafos G A C e G que B C são também decomponíves. Para que um grafo marcado sea decomponível, este tem que ser trangularzado (passo prévo), e não possur camnhos entre dos nós dscretos passando uncamente por nós contínuos, não sendo vznhos os nós dscretos. Para sso é necessáro adconar arcos entre aqueles nós dscretos não vznhos que possuem os camnhos menconados. Na Fgura 2.2 é mostrado o grafo marcado decomponível do exemplo de sstema de ncneração de lxo, onde fo adconado o arco entre B e F para elmnar o camnho probdo (B,E,F) e tornar o grafo marcado em decomponível. Fgura 2.2: Grafo marcado decomponível do sstema de ncneração de lxo. d. Cração da árvore de unção. Uma árvore de unção é uma organzação em forma de árvore de grupos de nós seleconados do grafo marcado decomponível chamados clques. Um clque em um grafo não drgdo G é um subconunto de nós de G que é completo e máxmo. Completo sgnfca que cada par de nós é conectado por um arco. Máxmo sgnfca que cada clque não está contdo em um subconunto completo maor. A Fgura 2.3 mostra alguns clques dentfcados no grafo marcado decomponível do sstema de ncneração de lxo. 34

56 FUNDAMENTOS TEÓRICOS 35 Fgura 2.3: Alguns clques dentfcados no grafo marcado decomponível do sstema de ncneração de lxo. A árvore de unção é formada por clques do grafo marcado decomponível, na qual se cumpre a propredade de que para cada par de clques V e V k, todos os clques no camnho entre eles contêm V V. Os arcos entre clques vznhos são k rotulados com as varáves comuns que os une, este conunto de varáves comuns é chamado separador. No caso específco de modelos CGN, devdo à assmetra entre as varáves dscretas (Y ) e as contínuas ( Z ), é necessáro uma condção adconal para que o esquema de propagação trabalhe apropradamente. Esta condção dentfca um clque V r como raz (raz forte) na árvore de unção, s se cumpre que para qualquer par de clques vznhos V, V na árvore com V mas próxmo a V r do que V, se satsfaz que ( V \ V ) Z ( V V ) Y. Isto sgnfca que quando um separador entre dos clques vznhos não é só dscreto, o clque mas longe da raz possu somente varáves contínuas além do separador. Na Fgura 2.4 é mostrada a árvore de unção para o exemplo de sstema ncnerador de lxo. Onde os retângulos ndcam os separadores. O clque {W,E,B,F} pode ser usado como raz da árvore. Por exemplo, {W,M n,d} tem uncamente a varável contínua M n além do separador {W,D}.

57 36 CAPÍTULO 2 Fgura 2.4: árvore de unção do sstema de ncneração de lxo. Inferênca com árvores de unção em modelos CGN Para descrever o processo de nferênca consdera-se que tanto a estrutura do modelo, quanto os parâmetros do modelo CGN á foram defndos prevamente. A forma de se encontrar estes parâmetros é descrta posterormente na parte de aprendzagem de redes gaussanas condconas. A nferênca em uma árvore de unção é descrta utlzando a noção de potencal, que para o caso de modelos CGN é chamado CG-potencal. Um CGpotencal é defndo sobre um clque ou separador da árvore de unção, mapeando cada nstancação dos valores das varáves que o formam em um número real. Um CG-potencal é qualquer função φ da segunte forma: T φ ( x) = φ(, y) = X ( ) exp{ g( ) + h( ) y 0.5 y K ( ) y} (2.28) em que, denota o estado das varáves dscretas no CG-potencal, y o valor das varáves contínuas e X ( ) = {0, }. A forma da função de um CG-potencal lembra uma dstrbução gaussana condconada (na sua forma canônca), a dferença é que a matrz K () é consderada smétrca, mas não necessaramente postva defnda. Um CG-potencal é defndo por suas característcas canôncas ( g, h, K ). Se K () é postva defnda, então o CG-potencal é uma dstrbução gaussana condconal que pode ser defnda também por suas característcas de momentos ( µ ( ), Σ( ) ), onde: T 36

58 FUNDAMENTOS TEÓRICOS 37 µ ( ) = K ( ) h( ), Σ ( ) = K ( ). Em um CG-potencal podem ser defndas as seguntes operações: - Extensão: se ( g, h, K ) são as característcas de um CG-potencal φ defndo nas varáves (, y), algumas vezes é necessáro estender o CG-potencal para um maor espaço de varáves (,, y, z), este novo CG-potencal é denotado como φ, sendo as suas característcas canôncas ( g( ), h ( ), K ( )), com g ( ) = g( ), h( ) K ( ) 0 h( ) = e K ( ) = Multplcação e dvsão: estas operações são defndas uma vez que os potencas têm sdo estenddos ao mesmo espaço de varáves. A multplcação é a soma das suas característcas canôncas: g, h, K ) *( g, h, K ) = ( g + g, h + h, K + ) ( K 2 A dvsão é smlarmente defnda como a subtração das característcas canôncas, - Margnalzação: Dependendo do tpo de varável que se quer margnalzar exstem város casos. Prmero, margnalzar varáves contínuas corresponde à ntegração, sea y h K K 2 y =, h =, K =, onde y é de dmensão p e y 2 de y2 h2 K 2 K 22 dmensão q. A ntegral sobre y : φ (, y, y2 ) dy é fnta e gual ao CG-potencal ~ φ com as seguntes característcas canôncas: ~ ( T g ) g( ) + { p log(2π } log(det K ( )) + h ( ) K ( ) h ( )}/ 2, ~ 2 2 h = ~ h( ) = h ( ) K ( ) K ( ) ( ), K ( ) = K ( ) K ( ) K ( ) K ( ). Segundo, margnalzar varáves dscretas, onde K não depende de, sto é h(, ) h( ) e K (, ) K ( ), resulta em um CG-potencal margnal com característcas canôncas: g~ ( ) = log : X (, ) = exp g(, ~ ~ ), h ( ) = h( ) e K ( ) = K ( ).

59 38 CAPÍTULO 2 Tercero, margnalzar varáves dscretas, onde K depende em, não resulta em um CG-potencal. A margnalzação é somente defnda para K (, ) postva defnda, portanto é melhor defn-lo em termos das característcas de momentos. O margnal resultante é ~ φ com característcas de momentos { p, µ, Σ}, na qual = ~ p ( ) p(, ), µ ~ ( ) = µ (, ) p(, ) / ~ p ( ) e ~ Σ( ) = ~ Σ(, ) p(, ) / p ( ) + ( µ (, ) µ ( )) T ( µ (, ) µ ( )) p(, ) / ~ p ( ). Quarto, no caso de varáves mstas, prmero são margnalzadas as varáves contínuas para logo margnalzar as dscretas. Cada clque na árvore de unção é chamado unverso de crença. O conunto de todas as varáves é chamado unverso total. A coleção de todos os unversos de crença é denotado por C e a coleção dos separadores por S. Cada clque está assocado com um CG-potencal φ V e cada separador V C S S está assocado com um CG-potencal φ S. Estes CG-potencas são denomnados potencas de crença. O sstema de crença conunta φ U do unverso total é defndo como: φ V C V φ U = (2.29) φ S S na qual, φ U é proporconal à densdade de probabldade conunta de todas as varáves. No nco, a árvore de unção tem que ser ncada de acordo com os parâmetros especfcados no modelo CGN, sso é necessáro para assegurar que o S sstema de crença conunta φ U sea a dstrbução de probabldade conunta codfcada pela CGN. Uma das formas de ncar a árvore de unção é atrbur cada nó A do DAG orgnal a um dos clques V da árvore de unção, tal que 38

60 FUNDAMENTOS TEÓRICOS 39 ( A Pa( A)) V. Assm, o CG-potencal φ V de cada clque V é ncado com o produto dos CG-potencas (dstrbuções condconas) dos nós atrbuídos ao clque, fazendo a operação de extensão se necessáro. Os CG-potencas dos separadores são ncados com valor, assm como os clques sem nós atrbuídos. Depos de ncada a árvore de unção, são necessáros os seguntes passos para realzar o processo de nferênca (LAURITZEN, 992): - Introdução da evdênca em todos os clques e separadores da árvore de unção. Isto mplca na modfcação dos potencas de crença ncas. - Execução da operação de coleção de evdênca desde a raz da árvore de unção. Esta operação é chamada CollectEvdence. As mensagens são formadas margnalzando prmero as varáves redundantes contínuas, e logo sumarzando as varáves dscretas. - Uma vez que a raz tenha absorvdo toda a nformação dsponível, esta deve ser dstrbuída aos restantes unversos de crença na árvore de unção, esta operação de dstrbução é chamada DstrbuteEvdence. Uma vez realzados os passos anterores, pode ser calculada a dstrbução de probabldade atualzada de qualquer varável de nteresse. Smplesmente se tem que margnalzar a varável em qualquer unverso de crença que a contenha APRENDIZAGEM DE REDES GAUSSIANAS CONDICIONAIS Em algumas stuações é possível construr toda a rede a partr do conhecmento de um especalsta, porém, dependendo do domíno a ser modelado, este pode ser um processo dfícl e demorado, sobretudo se o número de varáves é grande. Consderando sso e o fato que os dados são cada vez mas acessíves e baratos, é que atualmente há um grande nteresse no desenvolvmento e

61 40 CAPÍTULO 2 aperfeçoamento de métodos que aprendam as estruturas e os parâmetros a partr dos dados. No presente trabalho assume-se que a estrutura do modelo á fo especfcada por algum especalsta ou escolhdo arbtraramente, como os modelos apresentados na Seção Portanto, o foco desta seção é apresentar um método de aprendzado de parâmetros em redes CGN com estrutura de modelo á defnda. Partcularmente o presente trabalho é focado em aprendzado de parâmetros com dados ncompletos, sto é, algumas das varáves não são observadas ou estão ocultas em algumas nstâncas dos dados. Este nteresse se deve ao fato de que agrupamento de dados é um caso partcular de aprendzado com dados ncompletos, em que somente uma varável (classe) é desconhecda em todas as nstâncas. O algortmo Expectaton Maxmzaton - EM (DEMPSTER et al.,977) é um método para estmar funções de máxma verossmlhança a partr de dados ncompletos. Quando os dados são ncompletos utlzam-se os casos em que foram observadas as varáves para aprender a predzer seus valores quando não observados. Também pode ser utlzado para varáves cuos valores nunca foram observados, fazendo certas consderações sobre a forma geral da dstrbução de probabldade dessas varáves. As característcas deste algortmo permtem usá-lo em problemas de aprendzagem de CGN a partr de dados ncompletos, como no caso do presente trabalho. EM para aprendzagem de parâmetros em CGN O algortmo EM para aprendzagem de parâmetros em MGP quando a estrutura é conhecda e todas as varáves são dscretas fo proposto em 40

62 FUNDAMENTOS TEÓRICOS 4 (LAURITZEN, 995). Posterormente em (MCMICHAEL et al., 999) estenderam este algortmo para aprendzado de paramétros em modelos CGN. A segur é detalhado este algortmo. Consdere-se D= d,..., d,..., d } o conunto de dados ncompletos { e n (evdêncas), onde cada dado é o vetor d N e de ) = ( =, sendo d e o valor da -ésma varável do dado d e. Assumndo dados condconalmente ndependentes, a função de verossmlhança de uma rede CGN com N varáves e estrutura de modelo s é: N n + = e e θ = e= L log p( d d, ) (2.30) na qual, + e d são os valores das varáves pas Pa (s) da -ésma varável do dado d e, θ são os parâmetros locas da -ésma varável na rede. Por outro lado denotemos a k w e como uma varável ndcadora que vale no caso que a -ésma varável do dado d e tenha valor k e o estado das varáves pas contráro vale 0. + d e sea, caso Se o -ésmo termo de (2.30) corresponde a uma varável dscreta, então a função de verossmlhança para esta varável é: n e= q r = L = w = k e k logθ (2.3) da Seção 2.2.2, r é o número de valores dstntos da varável X, q é o número de estados dstntos das varáves pas Pa (s) k, e cada parâmetro θ representa a probabldade condconal de que k X tome seu k -ésmo valor dado que k Pa (s) toma seu -ésmo valor, sto é, θ = p( x pa( s), θ, s). O valor esperado do ndcador k e w é a probabldade condconal p( x, pa ( s) d, θ', s) k e, onde θ' ndca os

63 42 CAPÍTULO 2 parâmetros estmados na teração EM preva. O valor esperado k N do número de casos em que a varável X toma seu valor k, e Pa (s) toma seu valor, também chamado como estatístcas sufcentes, é dado por: N k = n e= q r = = k p( x, pa ( s) d, θ', s) (2.32) e No caso de dados dscretos faltosos ou ocultos, p( x, pa ( s) d, θ', s) pode ser calculada usando o algortmo de árvore de unção. Um resultado comum em dstrbuções normas é que a estmatva de máxma verossmlhança pode ser encontrada gualando as mínmas estatístcas sufcentes com seus valores esperados, assm o passo de maxmzação (M) para varáves dscretas é sumarzado por: k e ˆ k N θ = (2.33) k N r k = k No caso que o -ésmo termo em (2.30) corresponda a uma varável contínua X, as varáves pas podem ser dvddas em varáves contínuas denotados por e varáves dscretas Y. O valor da varável contínua como z e Z Z no dado d e é denotado. A função de densdade de probabldade para esta varável contínua é Ν( x e ; m + b ( z m ), v ) (2.22), re-escrevendo de outra forma, esta dstrbução Z k e k pode ser expressada como ~ Ν ( x ; B z, v ), na qual e e ~ T T z e = [ z e,], T B = [( A ),( m ) ], sendo T A a matrz de regressão formada pelos coefcentes de regressão lnear b k. Então a função de verossmlhança para esta varável X é: L n k T = 0.5 w (log 2π v + ( x B ~ z ) ( v ) ( x B ~ z )) (2.34) e= q = e e e e e 42

64 FUNDAMENTOS TEÓRICOS 43 pode ser mostrado que o segundo termo desta equação fatorza como: L q = 0.5( N log 2π v = + Tr{( v ) [( B S x, ~ z ( S ~ z, ~ z ) ) (, ~ T ~, ~ ~, ~,, ~ z z x z z z x x x z ~ z, ~ z x, ~ z S B S ( S ) ) + S S ( S ) S ]}) (2.35) na qual, N w = n e= e = n T, eae be ) e=, e Sa b w (, sendo a e e b e varáves smuladas. A estmatva de máxma verossmlhança para B é: ˆ B = S (2.36) x, ~ z ( S~ z, ~ z ) por outro lado, a matrz de covarânca é estmada dervando com respeto a ( v ), obtendo-se: ( vˆ ) x, x x, ~ z ~ z, ~ z x, ~ z S S ( S ) ( S ) =. (2.37) N Sumarzando, no passo Expectaton é usado o algortmo árvore de unção para estmar as varáves faltosas ou ocultas. Na etapa Maxmzaton são calculadas as estmatvas dos parâmetros de máxma verossmlhança dadas em (2.33), (2.36) e (2.37) de acordo com o tpo de varável. O processo é repetdo até chegar a um número máxmo de terações ou até que o logartmo da verossmlhança entre duas terações sucessvas sea menor que um lmar. T

65 44 CAPÍTULO 3 Capítulo 3 3. MATERIAIS E MÉTODOS Neste capítulo são descrtos os métodos de agrupamento mplementados, os bancos de dados onde foram testados e os expermentos realzados no presente trabalho. Na Seção 3. são descrtos os bancos de dados usados, os quas são dvddos em: bancos de dados de valdação, e um banco de dados genotípcos, o qual consttu o problema de aplcação deste trabalho. Na Seção 3.2 é descrto o método de agrupamento herárquco Bayesano. Na Seção 3.3 é descrto o segundo método mplementado: o método de agrupamento baseado em redes gaussanas condconas. O planeamento dos expermentos é descrto na Seção BANCOS DE DADOS Nesta seção são descrtos os bancos de dados usados para testar os métodos de agrupamento mplementados. Com o obetvo de valdar os métodos e obter uma déa do desempenho dos mesmos, realzou-se prmero uma análse de agrupamentos sobre 3 bancos de dados á classfcados, os quas são chamados bancos de dados de valdação. Nestes bancos de dados é conhecda a nformação da classe porém esta não é usada para realzar o agrupamento, somente é usada para avalar a proxmdade dos grupos encontrados com respeto às classes 44

66 MATERIAIS E MÉTODOS 45 verdaderas. Após desta valdação ncal, os métodos foram usados em um problema de aplcação real: a taxonoma de uma coleção braslera de estrpes de bactéras fxadoras de ntrogêno pertencentes ao gênero Bradyrhzobum. Este banco de dados é composto por dados genotípcos resultantes da análse de certas regões do RNA rbossômco (abrevado por rrna) extraído das estrpes BANCOS DE DADOS DE VALIDAÇÃO Synthetc-2000 Este banco de dados fo construído artfcalmente com 2000 pontos de 4 dmensões gerados aleatoramente de uma mstura de 4 dstrbuções de probabldade normas (componentes), as quas são as classes a serem encontradas. Os parâmetros destas dstrbuções são mostrados na Tabela 3. para cada uma das componentes G,...,G 4. Tabela 3. Parâmetros das 4 dstrbuções gaussanas usadas para gerar os 2000 pontos de Synthetc Parâmetros Componentes G G2 G3 G4 Proporção Méda X Méda X 2 Méda X Méda X Varânca Na Fgura 3. é mostrado o gráfco dos 2000 pontos usando as 3 prmeras coordenadas, onde cada ponto fo pntado de acordo com o componente que o

67 46 CAPÍTULO 3 gerou. Como pode ser observado, os 4 componentes, que consttuem as 4 classes a serem descobertas, estão vsualmente bem separadas. Este banco é usado para testar o comportamento dos métodos de agrupamento em dados com classes claramente separadas. Fgura 3.: Dstrbução dos pontos do banco de dados Synthetc-2000 consderando as 3 prmeras coordenadas. Cada cor ndca um componente. Synthetc-000 Este banco de dados fo construído artfcalmente com 000 pontos em 3 dmensões gerados de uma mstura de 5 componentes. Os parâmetros destes componentes são mostrados na Tabela 3.2. Na Fgura 3.2 é mostrado o gráfco dos 000 pontos ntegrantes, onde cada ponto fo pntado de acordo com o componente que o gerou. Como pode ser observado, exstem alguns componentes que estão medanamente sobrepostos. Este banco é usado para avalar os métodos em dados com classes sobrepostas. 46

68 MATERIAIS E MÉTODOS 47 Tabela 3.2 Parâmetros das 5 dstrbuções normas usadas para gerar os 000 pontos de Synthetc-000. Parâmetros Componentes G G2 G2 G4 G5 Proporção Méda X Meda X Meda X Varânca Fgura 3.2: Dstrbução dos pontos do banco de dados Synthetc-000. Cada ponto fo pntado de acordo com o componente que o gerou. Irs Este banco de dados é amplamente conhecdo na área de mneração de dados e aprendzado de máquna (DASARATHY, 980). É composto por 50 regstros dvddos gualmente em 3 classes: vrgínca, verscolor e setosa (esta lnearmente separável das outras duas), as quas são tpos da flor conhecda por Irs. Os regstros são defndos em termos de quatro atrbutos numércos que trazem as nformações

69 48 CAPÍTULO 3 de comprmento e largura de sépala e comprmento e largura de pétala. A Fgura 3.3 mostra o gráfco dos 50 pontos usando os 3 prmeros atrbutos, onde pode ser observado que duas classes estão sobrepostas. Ao contráro dos bancos de dados anterores, este é um banco real, onde as classes podem não segur necessaramente dstrbuções de probabldades normas. Com este banco de dados se tenta avalar o comportamento dos métodos de agrupamento em dados reas com classes sobrepostas e que não seguem necessaramente dstrbuções normas. Fgura 3.3: Pontos do banco de dados Írs consderando os 3 prmeros atrbutos. Cada ponto fo pntado de acordo a sua classe BANCO DE DADOS DE APLICAÇÃO: ESTIRPES DE BRADYRHIZOBIUM Para um melhor entendmento deste banco de dados, é apresentado prmero o contexto do problema no qual este banco de dados está envolvdo para logo descrever o banco de dados. O ntrogêno (N) é um dos elementos mas mportante para os seres vvos, formando parte das moléculas orgâncas vtas. Este elemento exste em abundânca na atmosfera terrestre (80% do ar) na forma de N 2, porém, é um dos elementos 48

70 MATERIAIS E MÉTODOS 49 mas escassos do solo, nterferndo no crescmento das plantas (HUNGRIA et al., 997). No Brasl os teores de ntrogênos do solo não são elevados (entre 0.03% a 0.05%) o que leva à necessdade de enrquecer o solo com fontes alternatvas como fertlzação e fxação bológca. A fertlzação é um processo dspendoso á que requer muta energa na produção de fertlzantes, tornando-os caros. Por outro lado, a fxação bológca é o sstema natural de transformação do N 2 em formas assmláves pelas plantas através de bactéras que assmlam o ntrogêno dretamente do ar (HUNGRIA et al., 997). Os rzóbos são um tpo de bactéra que assmla o ntrogêno somente quando em smbose com plantas hospederas (legumnosas). A smbose consste em que a planta cra um lugar especal para os rzóbos vverem, formando os chamamos nódulos radculares e fornecendo carbodratos que os rzóbos usam para obter energa e assm poder reduzr o N 2 do ar em compostos ntrogenados que são transferdos para a planta hospedera e o solo. O Bradyrhzobum (do grego: bradus=lento; logo, bactéras de crescmento lento) é um gênero de rzóbos, cuas espéces Bradyrhzobum aponcum e Bradyrhzobum elkan nodulam a soa. Essas espéces são dvddas em estrpes, varando entre elas a quantdade de ntrogêno fxado. Algumas estrpes fxam todo o ntrogêno necessáro para a produção normal da planta e outras não fxam pratcamente nenhum ntrogêno (HUNGRIA et al., 997). A taxonoma das bactéras pertencentes ao gênero Bradyrhzobum é anda pouco refnada. Tradconalmente foram classfcadas com base na habldade de nodular uma espéce específca de planta hospedera (JORDAM, 938 apud JORDAM, D. C. (938). Rhzobaceae Conn.

71 50 CAPÍTULO 3 KRIEG; HOLT,984). Posterormente a análse dos genes rbossomas mostrou que váras espéces eram completamente dferentes tendo mas parentesco com bactéras não fxadoras de N 2 (GARRITY; HOLT, 200). Devdo a estes resultados confltantes é que se escolheu o banco de dados de estrpes de Bradyrhzobum como problema de aplcação dos métodos mplementados no presente trabalho. O banco de dados de estrpes de Bradyrhzobum consste em dados genétcos de uma coleção braslera de 28 estrpes que exbem característcas fenotípcas de espéces aponcum e elkan. Estas estrpes foram soladas de 33 espéces de legumnosas tropcas. Os dados foram obtdos pelo laboratóro de Botecnologa do Solo da Empresa Braslera de Pesqusa Agropecuára Centro Naconal de Pesqusa de Soa (Embrapa Soa), em Warta, dstrto de Londrna, Paraná. Para maores detalhes do procedmento de obtenção deste banco de dados, revsar (GERMANO et al., 2006). Neste banco de dados, cada estrpe é descrta por 9 magens de eletroforese de Gel, as quas correspondem ao resultado da análse do rrna pela técnca RFLP- PCR (Restrcton Fragment Length Polymorphsm - Polymerase Chan Reacton) (DAVISON, 2006). A segur descrevem-se brevemente os passos envolvdos nesta técnca: - Extração de DNA: Aqu se utlzam processos de rompmento de células, centrfugação e substâncas que são capazes de desnaturar e retrar as proteínas que estão acopladas ao DNA ou RNA. - Reação em cadea de DNA Polmerase (PCR): Neste passo, uma seqüênca específca de DNA é amplfcada em cclos repetdos de desnaturação, hbrdação e extensão. A quantdade de DNA é dobrada em cada cclo. - Polmorfsmo de tamanho de fragmentos de DNA: Aqu se faz o tratamento do 50

72 MATERIAIS E MÉTODOS 5 DNA com enzmas de restrção, as quas são proteínas que reconhecem uma seqüênca de nucleotídeos específca (sítos de restrção) e a dgerem, cortando o DNA em dferentes fragmentos. O número e tamanho dos fragmentos são estabelecdos pelo número de sítos de restrção reconhecdos pela enzma no DNA. - Eletroforese: Aqu os fragmentos do DNA são separados com base em seus tamanhos. A eletroforese usa o prncpo que cada fragmento possu carga elétrca negatva devdo ao grupo fosfato. O processo de eletroforese consste em colocar a amostra de fragmentos de DNA sobre um gel feto de agarose ou polacrlamda e aplcar um campo elétrco ao longo do gel. Cada fragmento se move na dreção do lado postvo do campo. Este movmento produz uma sére de bandas, as quas são aglomerações de fragmentos com smlar tamanho. A posção das bandas é nversamente proporconal ao tamanho dos fragmentos. Isto sgnfca que as bandas mas longe da orgem estão compostas por fragmentos de menor tamanho. Normalmente em um mesmo gel são colocadas varas amostras de DNA de organsmos dstntos, produzndo uma sére de canaletas, que são as dstrbuções de bandas dos organsmos examnados numa determnada regão do DNA cortado por alguma enzma de restrção. Ao fnal do processo de eletroforese é aplcado um corante para vsualzar as bandas no gel. Estes corantes apresentam fluorescênca quando exctados com luz ultravoleta (UV). O produto fnal é uma fotografa do gel sob radação UV que serve para análses posterores. A Fgura 3.4 mostra uma foto exemplo resultante do processo de eletroforese.

73 52 CAPÍTULO 3 Fgura 3.4: Exemplo de foto resultante do processo de eletroforese em gel, na qual foram analsadas 6 amostras produzndo 6 canaletas. No banco de dados de estrpes de Bradyrhzobum, cada estrpe fo analsada em 3 regões rbossomas: 6S, 23S e IGS. Para cada uma dessas regões foram usadas três enzmas de restrção, portanto, cada estrpe é descrta por nove magens de canaletas de eletroforese segundo a Tabela 3.3. Tabela Relação de enzmas de restrção utlzadas e regões rbossomas analsadas na obtenção do banco de dados de estrpes de Bradyrhzobum Canaleta Enzma de restrção Regão Rbossomal Cfo I 6S 2 Dde I 6S 3 Msp I 6S 4 Hae III 23S 5 Hha I 23S 6 Hnf I 23S 7 Dde I IGS 8 Hae III IGS 9 Msp I IGS As magens das canaletas, as quas serão chamadas smplesmente canaletas, foram extraídas das fotografas de gel medante um processo manual usando um programa de edção de magens. Estas magens encontram-se em formato tff em escala de cnza com 8 bts por pxel. 52

74 MATERIAIS E MÉTODOS 53 Fgura 3.5: Subconunto de canaletas do banco de estrpes de Bradyrhzobum usadas para a avalação expermental dos métodos. Estas canaletas correspondem a todas as estrpes da coleção (28), analsadas na regão rbossomal rrna 6S e fragmentadas com a enzma de restrção Cfo I.

75 54 CAPÍTULO 3 No presente trabalho fo usado somente um subconunto de dados do banco de estrpes de Bradyrhzobum pos o foco prncpal era avalar os métodos mplementados e nterpretar os resultados sem muta dfculdade. Este subconunto é composto pelas canaletas de todas as estrpes correspondentes à regão rbossomal 6S fragmentadas com a enzma de restrção Cfo I. A escolha da regão rbossomal 6S fo porque ela tem sdo a regão recomendada para traçar flogenas e fazer taxonomas (WANG et al., 999) vsto que apresenta varabldade sufcente para dstngur entre espéces e nferr progressões evoluconáras. Na Fgura 3.5 são mostradas as canaletas compreenddas neste subconunto de dados Pré-processamento das canaletas Cada canaleta fo pré-processada com o obetvo de facltar o processo de agrupamento e melhorar os resultados. A nformação relevante das magens de gel se encontra na dstrbução das suas bandas, as quas são regões da magem onde a ntensdade é notavelmente mas forte do que a ntensdade do resto da magem (ntensdade de fundo). Estas bandas ndcam a concentração de fragmentos de DNA de tamanho parecdo. Mutas vezes o processo de dentfcação das bandas torna-se complcado devdo à exstênca de uma sére de nfluêncas físcas mersas no processo de eletroforese que causam perturbações na magem resultante, entre elas se encontram: - Presença de pequenas manchas na magem devdo a uma dstrbução não unforme do gel no processo de eletroforese; - Deformações e falta de defnção das bandas; - Varabldade da lumnação ao longo da magem. 54

76 MATERIAIS E MÉTODOS 55 O obetvo do pré-processamento é mnmzar estes nconvenentes e dentfcar as bandas de forma clara. O resultado do pré-processamento é o eletroferograma, o qual é uma seqüênca ou snal dscreto que representa a ntensdade dos pxels da canaleta ao longo do seu comprmento (posção), onde os pcos desta seqüênca ndcam a presença de bandas. Denotando R como a matrz de tons de cnza de uma determnada canaleta, formada por elementos ( r ) que representam a ntensdade do pxel na lnha e coluna. As dmensões de R são denotadas com h e w, sendo h o número de lnhas e w o número de colunas. O eletroferograma pode ser obtdo de acordo com o segunte procedmento:. Calcula-se a seqüênca s correspondente à méda das colunas de R : s[ ] = r (3.) w 2. Desloca-se a seqüênca anteror para abaxo em uma quantdade th, sto é t[ ] = s[ ] th, sendo th um lmar calculado emprcamente como th = µ σ, na qual µ e σ são a méda e o desvo padrão da e s. 3. Estma-se a seqüênca de eletroferograma d como: t[ ], t[ ] > 0 d [ ] = Max ( t ) 0, t[ ] 0 (3.2) O passo tem sentdo desde que a nformação relevante encontra-se no comprmento da magem, este passo também reduz o efeto das pequenas manchas tornando-se nsgnfcante na méda da largura da magem. O passo 2 desloca o snal de tal forma que os pcos (bandas) fquem no lado postvo. Esta nformação relevante é controlada por um lmar, o qual é dependente do prmero e segundo

77 56 CAPÍTULO 3 momento do snal (µ e σ ). Encontrou-se emprcamente que todo o que está acma de µ σ representa as bandas. O passo 3 encontra o eletroferograma consderando somente a parte postva da seqüênca preva, normalzando-a com respeto a seu máxmo valor. A parte negatva do snal é anulada devdo a que é consderada como ruído de fundo da magem. Na Fgura 3.6 é mostrado um exemplo de pré-processamento para uma canaleta. Canaleta Méda das colunas de pxels da canaleta (Passo ) Seqüênca deslocada (Passo 2) Eletroferograma (Passo 3) Fgura 3.6: Exemplo de pré-processamento de uma magem de canaleta de eletroforese de gel MÉTODO DE AGRUPAMENTO HIERÁRQUICO BAYESIANO Na Seção 2..2 fo apresentado o algortmo de agrupamento HBC. Este algortmo consttu a base do prmero método de agrupamento mplementado neste trabalho, o qual é descrto nesta seção. O método bascamente segue os passos do 56

78 MATERIAIS E MÉTODOS 57 HBC mostrados no pseudocódgo da Fgura 2.3. Lembrando brevemente, HBC começa formando uma partção ncal com grupos untáros, em cada nteração são funddos dos grupos, aqueles que apresentem a maor probabldade de estarem funddos. Fo mostrado que esses grupos são aqueles que maxmzam o fator SC( c SC( c x x c y ) SC( c ) y ) (denotado como U c x, c ) ) sobre o espaço de pares de grupos ( y exstentes c x e c y. Para calcular este fator é necessáro calcular as verossmlhanças dos grupos canddatos ( SC c ) e SC c ) ) e do hpotétco grupo ( x ( y funddo ( SC c x c ) ). ( y A verossmlhança de um grupo c é calculada como o produtóro das probabldades de pertnênca de cada elemento do grupo: p d c ) (probabldade ( do elemento d ser agrupado no grupo c ). O cálculo desta probabldade elementar é dependente da forma como são modelados os dados e os grupos, e consttu a dferenca prncpal do método mplementado neste trabalho com respeto ao método HBC orgnal, o qual fo especfcado para agrupar dados de tpo documentos de texto. A segur é mostrada a forma como são modelados os dados e os grupos e como são calculadas as probabldades de pertnênca elementares para cada um dos bancos de dados analsados. Cálculo das probabldades de pertnênca elementares nos bancos de dados de valdação: Synthetc-2000, Synthetc-000 e Írs. Aqu é usado o procedmento apresentado em (VILLANUEVA; CHRIST; MACIEL, 2007; CHRIST; VILLANUEVA; MACIEL, 2007). A característca comum dos

79 58 CAPÍTULO 3 bancos de valdação é que eles são dados vetoras, sto é, cada dado d é um vetor que representa os atrbutos do elemento. Para calcular as probabldades elementares de pertnênca assume-se que os elementos dentro de cada grupo foram produzdos por uma dstrbução normal multvarada (Gaussana). A escolha de modelos gaussanos é ustfcada pela smplcdade na estmatva dos parâmetros e pelo sucesso em váras aplcações, nclusve com dados não necessaramente gaussanos (MURTAGH; RAFTERY, 984; BANFIELD; RAFTERY, 993; DASGUPTA; RAFTERY, 998). Com esta consderação, a probabldade de cada dado d de ser agrupado no grupo c é calculada como: p( d c ) = Ν( d ; µ, Σ ) (3.3) c c onde µ c é o vetor méda e Σ c a matrz de covarânca do grupo c. Estes parâmetros são computados como parâmetros de máxma verossmlhança: µ c = d d c c, T Σ c = ( d µ c )( d µ c ) (3.4) c c = Para estmar os parâmetros do modelo Gaussano, cada grupo deve ter um número mínmo de elementos (maor que a dmensonaldade dos dados) para evtar matrzes de covarânca sngulares. Portanto, o processo de aglomeração não pode ser ncado com grupos untáros. Assm, para ncar a aglomeração é necessáro fornecer uma partção ncal com grupos granulares (pequenos, mas não untáros) e homogêneos. A homogenedade é exgda devdo a que a qualdade do dendrograma resultante é nfluencada pela homogenedade dos grupos ncas, uma vez que o método somente funde grupos. Para crar as partções ncas sugere-se o uso de algortmos de agrupamentos como K-Means (DUDA et al., 200), ou ART2 (CARPENTER; GROSSBERG, 987) devdo a seu conhecdo desempenho, sua 58

80 MATERIAIS E MÉTODOS 59 smplcdade e por permtr o controle da homogenedade dos grupos medante o auste do parâmetro de vglânca ρ na ART2 ou o número de grupos em K-Means. Cálculo das probabldades de pertnênca elementares no banco de estrpes de Bradyrhzobum. Contraramente aos bancos de dados de valdação, o banco de estrpes de Bradyrhzobum não se encontra na forma de vetores de característcas ou coordenadas, razão pela qual, o cálculo das probabldades de pertnênca elementares é dferente do descrto para os bancos de dados de valdação. Os eletroferogramas resultantes do pré-processamento das canaletas (Seção 3..2.) consttuem os dados de entrada a serem agrupados medante o presente método. Consdere-se a canaleta com eletroferograma d, para calcular a sua probabldade de pertencer ao grupo c, sto é p ( d c ), é assumdo que a canaleta é resultado de um processo aleatóro, onde a varável aleatóra é a posção P na canaleta em que é observado materal genétco (bandas). A probabldade de se encontrar materal genétco numa posção partcular k da canaleta dado seu eletroferograma, p P= k d ), pode ser calculada como a fração de materal ( encontrado nessa posção, ndcado pelo k-ésmo valor do eletroferograma ( d [k]), com respeto ao total de materal representado no eletroferograma, assm : d [ k] p( P= k d ) = (3.5) d [ ] O conunto de probabldades obtdas por (3.5) para todas as posções k é a dstrbução de probabldades de P, a qual é consderada como o modelo probablístco do dado. O cálculo desta dstrbução de probabldades pode ser

81 60 CAPÍTULO 3 nterpretado como uma normalzação do eletroferograma com respeto a sua área, a qual representa a quantdade total de materal genétco na canaleta. O modelo probablístco de um grupo c é determnado como a méda dos modelos probablístcos dos seus dados ntegrantes, calculado como: d c p( P= k c ) = (3.6) d [ ] d c d [ k] Para calcular a probabldade elementar p d c ) (, consdera-se todos os eventos P= k (encontrar materal genétco na posção k ). Condconando sobre estes eventos e aplcando a le de probabldade total, tem-se: p ( d c ) = p( d c, P= k) p( P= k c ) (3.7) k consderando que exste ndependênca condconal entre os dados e o grupo dado o evento P= k e aplcando o teorema de Bayes, tem-se: p( P= k d ) p( P= k c ) p( d c ) = p( d ) (3.8) p( P= k) k desta últma equação, o termo p d ) é a probabldade margnal do dado e é ( desconsderada no cálculo, á que para propóstos de maxmzação ela é sempre constante para qualquer partção. Os outros termos correspondem aos modelos probablístcos do dado qual é calculada com (3.6) fazendo d (3.5), do grupo c (3.6) e do banco de dados ntero, a c = D. Ao nvés dos bancos de dados de valdação, o processo de aglomeração no banco de estrpes de Bradyrhzobum é ncado desde uma partção ncal com grupos untáros. Isto devdo à forma como se encontram representados os dados 60

82 MATERIAIS E MÉTODOS 6 (seqüêncas), podendo-se formular um modelo probablístco para cada dado ou grupo untáro. O algortmo HBC unta em cada teração os dos grupos c x, c y com maor valor do fator U c x, c ), a dstânca representada no dendrograma (altura) em ( y que são undos esses dos grupos é log( U ( c x, c )). O logartmo é usado para uma y melhor vsualzação do dendograma acentuando mas as deferêncas entre pequenas e grandes dstâncas, facltando assm a dentfcação de grupos. O método de agrupamento Herárquco Bayesano - HBC fo mplementado no software MATLAB 3.3. MÉTODO DE AGRUPAMENTO DE DADOS BASEADO EM REDES GAUSSIANAS CONDICIONAIS Como fo vsto no Capítulo 2, as CGN são uma classe de MGP que pode ldar com dados dscretos e contínuos. A adequação destes modelos para classfcação não supervsonada é feta ntroduzndo uma varável aleatóra dscreta chamada varável classe, sendo as varáves predtvas dependentes da varável classe. Para poder aprender e fazer nferênca com este tpo de modelo é necessáro que os dados, também chamados evdêncas, se encontrem na forma de vetores de característcas ou coordenadas. Como fo vsto anterormente, os bancos de dados de valdação á se encontram no formato tabular requerdo, entretanto, o banco de dados de estrpes de Bradyrhzobum é dado na forma de seqüêncas dscretas (eletroferogramas), os quas claramente, não são da forma requerda pelas CGN. Conseqüentemente, para fazer análse de agrupamentos do banco de estrpes de Bradyrhzobum com o método baseado em modelos CGN, é necessáro prmero

83 62 CAPÍTULO 3 transformar os eletroferogramas dsponíves na forma de vetores de coordenadas que os modelos CGNs possam entender TRANSFORMAÇÃO DOS ELETROFEROGRAMAS EM VETORES DE COORDENADAS Os eletroferogramas obtdos na etapa de pré-processamento são transformados em vetores de coordenadas medante a técnca de escalamento multdmensonal - MDS (Multdmensonal Scalng) (KRUSKAL; WISH, 978). Esta técnca encontra uma representação na forma de vetores de coordenadas a partr de uma matrz de dstânca calculada entre os dados. Bascamente a técnca realza sucessvas manpulações da matrz de dstânca com o obetvo de encontrar um conunto de pontos em um espaço eucldano cua matrz de dstânca calculada neles sea próxma da matrz de dstânca orgnal. Para calcular a matrz de dstânca entre os eletroferogramas fo escolhdo o coefcente de correlação de Pearson (OOYEN, 200), o qual mede a assocação lnear entre duas seqüêncas sem depender da undade de medda. Quanto maor o valor do coefcente, maor a smlardade entre as seqüêncas. Para dos eletroferogramas d e d, o coefcente de correlação é defndo: δ d [ k] d d [ k] d = ( )( ) T σ σ. (3.9) k d onde T é o tamanho dos eletroferogramas, d e σ são a méda e o desvo padrão dos eletroferogramas respectvamente. Os elementos da matrz de dstânca R são formados a partr dos coefcentes de correlação calculados entre todos os pares de eletroferogramas, sto é R= r ), onde r = δ. d ( 62

84 MATERIAIS E MÉTODOS 63 A mplementação de MDS usada neste trabalho fo a que se encontra dsponível no toolbox estatístco de MATLAB medante a função cmdscale, a qual devolve uma matrz de vetores cuas coordenadas estão ordenadas em forma decrescente de acordo a sua mportânca, ou sea, as prmeras coordenadas representam a maor varânca dos dados. Fgura 3.7: Análse de autovalores da matrz de vetores resultantes de MDS. Para seleconar o número adequado de coordenadas a serem consderadas no agrupamento, fo realzada uma análse de autovalores da matrz de vetores resultantes. A Fgura 3.7 mostra a fração da varânca que representa cada autovalor, onde os prmeros autovalores correspondem às prmeras coordenadas. Com este análse foram escolhdas as 0 prmeras coordenadas, as quas representam acma do 75 % da varânca dos dados AGRUPAMENTO COM NAIVE-BAYES Para realzar o agrupamento fo escolhdo o modelo Nave-Bayes (NB) estudado no Capítulo 2. Embora as consderações fetas neste tpo de modelo são rrealstas, este tem apresentado bons resultados em mutos domínos de aplcação

85 64 CAPÍTULO 3 (MICHIE et al.,994) apesar de sua smplcdade. Essa fo a prncpal razão para sua utlzação no presente trabalho. O número de nós flhos da varável classe é gual ao número de atrbutos ou coordenadas dos bancos de dados. No caso dos bancos de valdação foram usados todos os atrbutos para construr os modelos. Já no banco de estrpes de Bradyrhzobum e com base no resultado da análse de autovalores, foram usadas somente as 0 prmeras coordenadas dos vetores resultantes da transformação MDS dos eletroferogramas. O motvo pelo qual não são usadas todas as coordenadas é porque o modelo resultara excessvamente complexo sem um ganho mportante nos resultados. Na Fgura 3.8 é mostrada a estrutura do modelo para o banco de dados Írs. Os modelos para os outros bancos de dados são parecdos, varando uncamente o número de nós flhos. Em todos os bancos de dados, as varáves predtvas são de natureza contínua e a varável classe é de natureza dscreta, ração pela qual é ustfcado o uso de modelos CGN. C Fgura 3.8: Estrutura de modelo NB para fazer análse de agrupamentos do banco de dados Irs. Y Y 2 Y 3 Y 4 Para a mplementação dos modelos NB fo usado o software Bayes Net Toolbox - BNT, um toolbox de códgo aberto escrto para MATLAB por Kevn Murphy. Para uma boa documentação sobre este software consultar (MURPHY, 200). Este software tem mostrado uma ampla acetação na comundade acadêmca 64

86 MATERIAIS E MÉTODOS 65 e fo base de novas mplementações como o Probablstc Networks Lbrary - PNL de Intel (ERUHIMOV et. al.,2003). Especfcação da estrutura do modelo mk_bnet() Especfcação dos parâmetros ncas (CPDs) tabular_cpd(), gaussan_cpd() Construção do motor de nferênca Árvore de Junção tree_nf_engne() Auste dos parâmetros com o método EM learn_params_em() Estmatva das probabldades de pertnênca dos dados margnal_nodes () Fgura 3.9: Etapas do método de agrupamento usando modelos NB. As funções ndcadas estão mplementadas em BNT. Na Fgura 3.9 é mostrado um dagrama de blocos ndcando as etapas do método de agrupamento com modelos NB. São ndcadas também as funções prncpas de cada etapa, as quas se encontram mplementadas no toolbox BNT. A segur é descrta cada uma das etapas ntegrantes do método. Especfcação da estrutura do modelo: Aqu é especfcada a estrutura do modelo da CGN. Esta estrutura é fornecda na forma de matrz de adacênca, a qual codfca o grafo da estrutura. Adconalmente é necessáro especfcar o tamanho e tpo de cada nó. Para o nó dscreto da classe, o tamanho representa a quantdade de

87 66 CAPÍTULO 3 estados possíves que pode tomar, ou sea, o número de grupos. Para nós contínuos, o tamanho representa o número de varáves agrupadas no nó. No caso dos modelos NB mplementados neste trabalho, todos os nós contínuos representam uncamente um atrbuto ou varável predtva, portanto seu tamanho sempre é. Nos expermentos, o tamanho da varável classe é varado sstematcamente para descobrr o número ótmo de grupos. Na Fgura 3.0 é mostrada a matrz de adacênca do modelo NB para o banco de dados Irs, onde o valor do elemento da lnha e coluna ndca se exste um arco entre os nós e. As matrzes de adacênca para os outros modelos NB são construídas da mesma manera Fgura 3.0: Matrz de adacênca do modelo NB para o banco de dados Irs Especfcação dos parâmetros ncas (CPDs): No toolbox BNT, os parâmetros são representados por obetos CPDs (Condtonal Probablty Dstrbuton), os quas defnem a dstrbução de probabldade de um nó, dados seus pas. Em nós dscretos, o CPD é uma tabela armazenada em forma de array multdmensonal. Se um nó dscreto não possu pas, o CPD é um vetor que armazena suas probabldades a pror. É possível também especfcar a dstrbução a pror dos parâmetros de nós dscretos, os tpos suportados são drchlet e entropc. Em nós contínuos (Gaussanos) com pas dscretos (como o NB), os parâmetros são a méda e a matrz de covarânca por cada valor das varáves dscretas, portanto o CPD fca A dstrbução de Drchlet é a famíla conugada da dstrbução multnomal, a qual assume-se seguem as varáves dscretas. 66

88 MATERIAIS E MÉTODOS 67 defndo com o vetor de médas e as matrzes de covarânca armazenadas em uma array multdmensonal. BNT não suporta dstrbuções a pror para os parâmetros de nós contínuos. Especfcamente nos modelos NB do presente trabalho, o nó classe C não tem pas, portanto seu CPD é um vetor que ndca a dstrbução das probabldades a pror de cada classe. O valor destas probabldades é ncalmente assumdo com valores unformes e segundo uma dstrbução paramétrca a pror de tpo Drchlet. À medda que o modelo va aprendendo dos dados (etapa de aprendzado) estas probabldades vão fugndo da dstrbução unforme para uma dstrbução que representa melhor os dados. A força com que a dstrbução ncal unforme dos parâmetros prevalece na etapa de aprendzado é controlada pelo parâmetro TAE (tamanho de amostra equvalente) da dstrbução de Drchlet. Por exemplo um valor TAE = 0 sgnfca que o conhecmento a pror que as classes são unformemente dstrbuídas é baseado na observação equvalente de 0 amostras. Nos expermentos o valor de TAE é varado de acordo com o expermento executado (seção segunte). No caso das varáves contínuas (varáves predtvas), o vetor de médas tem o mesmo tamanho que o nó classe (nó pa) o qual é dependente do teste executado. Igualmente cada matrz de covarânca é em realdade um escalar desde que todas as varáves predtvas são undmensonas, portanto estes escalares representam as varâncas de cada varável para cada estado da varável classe. Tanto o vetor de médas e as varâncas são ncados em valores aleatóros para logo serem austados com base aos dados na etapa de aprendzado. Construção do motor de nferênca árvore de unção: A construção do motor de nferênca é realzada aqu devdo a que na segunte etapa (aprendzado dos

89 68 CAPÍTULO 3 parâmetros) este é requerdo para completar os valores da varável classe. O pacote BNT tem mplementado uma varedade de algortmos para realzar nferênca, entre esses se destaca o algortmo árvore de unção, o qual fo escolhdo neste trabalho devdo a sua efcênca computaconal quando comparado com outros algortmos exatos (PASKIN, 2003). O algortmo mplementado em BNT segue os mesmos passos descrtos na Seção Na Fgura 3. é mostrada a árvore de unção resultante para o modelo NB do banco de dados Írs, na qual podem ser observados 4 clques V,..., } e 3 separadores S,..., }. Smlarmente, as árvores de unção { V4 { S3 para os outros modelos NB foram construídas produzndo estruturas smlares à mostrada na Fgura 3., com a únca varação do número de clques e separadores conectados ao clque V 2. A quantdade destes clques e separadores é função do número de varáves predtvas que descrevem o banco de dados. Todos os clques contêm a varável classe e uma varável predtva, entretanto, os separadores contêm uncamente a varável classe. O clque raz V é aquele que contém a últma varável predtva. Clque raz C,Y 4 V C 3,Y 2 C C V 3 S V S 2 V C,Y S C C,Y Fgura 3.: Árvore de unção para o modelo NB do banco de dados Írs. Após da construção da árvore de unção são defndos os CG-potencas em cada clque e cada separador, para sso cada nó é atrbuído a um clque onde ele e 68

90 MATERIAIS E MÉTODOS 69 seus pas são membros (Seção 2.2.4). Os CG-potencas dos clques são defndos como os produtos dos CG-potencas dos seus nós atrbuídos. O CG-potencal de cada nó é calculado com os parâmetros do seu CPD prevamente ncado (passo anteror). Os CG-potencas dos separadores são ncados com valor devdo a que não possuem nós atrbuídos. A Tabela 3.4 mostra a atrbução de nós em clques para o modelo NB do banco de dados Írs. A atrbução de nós em clques nos outros modelos NB é smlar, varando somente em número de nós e clques. Tabela Atrbução de nós em clques na árvore de unção do modelo NB para o banco de dados Írs. Nó C Y Y 2 Y 3 Y 4 Clque V V V 2 V 3 V 4 Auste dos parâmetros com o método EM: Neste passo são atualzados os parâmetros em base aos dados dsponíves ou evdêncas. O aprendzado é feto usando a mplementação do algortmo EM dsponível no BNT. Este algortmo fo descrto no Capítulo 2 o qual usa a árvore de unção para estmar o estado da varável oculta classe em cada dado. Na etapa E (Expectaton) são ntroduzdos na árvore de unção os valores das varáves predtvas (evdênca) de cada dado para assm calcular as probabldades margnas sobre a varável classe (probabldades de pertnêncas às classes) e com essas probabldades calcular as estatístcas sufcentes (Seção 2.2.5). Na etapa M (Maxmzaton) são calculadas as estmatvas de parâmetros de máxma verossmlhança dadas por (2.33), (2.36) e (2.37). Os coefcentes de regressão lnear não são calculados devdo a que no modelo NB não exste relaconamento entre varáves predtvas. O processo é repetdo até atngr um número máxmo de terações ou até que o logartmo da verossmlhança entre duas terações sucessvas sea menor que um lmar. Nos expermentos, o número

91 70 CAPÍTULO 3 máxmo de terações fo colocado em 00 e o lmar de verossmlhança em Estmatva das probabldades de pertnênca dos dados: Uma vez que os parâmetros foram austados, o modelo fo usado para estmar as probabldades de pertnênca dos dados com respeto a cada grupo, representado pela varável classe. Ao gual que o passo de auste de parâmetros, as probabldades de pertnênca são obtdas calculando as probabldades margnas sobre o nó classe, após de ntroduzr os valores dos atrbutos do dado nas respectvas varáves predtvas da árvore de unção. Para poder comparar os resultados do modelo NB com os resultados de outros métodos de agrupamento, os dados são atrbuídos ao grupo com a maor probabldade de pertnênca, gerando assm uma partção ou agrupamento. É mportante ressaltar que a nformação dos graus de pertnênca com que um dado está sendo lgado aos dversos grupos é perdda no momento de atrbur o dado ao grupo de maor probabldade. Portanto as probabldades de pertnênca consttuem uma nformação mas completa que a smples partção dos dados, sendo esta uma das prncpas vantagens dos modelos probablístcos EXPERIMENTOS Os expermentos foram dvddos em duas partes, prmeramente foram planeados expermentos sobre os bancos de dados de valdação com o obetvo de avalar os métodos mplementados, realzando uma comparação do desempenho dos mesmos com respeto a outros métodos de agrupamentos conhecdos. Após esta valdação ncal, os métodos mplementados foram utlzados para realzar análse de agrupamentos sobre o banco de dados de estrpes de Bradyrhzobum com o obetvo de encontrar uma taxonoma das estrpes. A segur são detalhados os dos tpos de expermentos realzados. 70

92 MATERIAIS E MÉTODOS 7 Expermentos nos bancos de dados de valdação Como fo descrto anterormente, nestes bancos de dados é conhecdo o rótulo da classe de cada dado. Esta nformação é usada aqu com a fnaldade de testar a qualdade dos agrupamentos realzados pelos métodos mplementados. Consderando que o banco de dados tem m classes verdaderas e que pode ser expressado na forma de pares d, l ) (, onde l ndca a etqueta verdadera do dado d que pode tomar valores cl, cl,..., cl }, a qualdade de um agrupamento ou { 2 m partção C= c, c,... c } com k grupos é medda com o índce de pureza, o qual é defndo como: { 2 k pureza= c C max( N ( cl ), N ( cl2 ),..., N c c n c ( cl m )) (3.0) na qual, N c ( cl ) denota o número de elementos com etqueta cl dentro do grupo c. O índce de pureza ndca a percentagem de elementos de uma partção que possuem a etqueta maortára em cada grupo. No caso do método de agrupamento herárquco Bayesano, foram geradas 2 partções ncas para cada banco de dados com os métodos K-Means e ART2. Ambas partções ncas consstram de 40 grupos para o banco de dados Synthetc- 2000, 30 grupos para o banco de dados Synthetc-000 e 6 grupos homogêneos para o banco de dados Írs. O método herárquco fo avalado em 3 aspectos: - Qualdade do dendrograma gerado, sto fo realzado observando a pureza méda, ou sea, a méda das purezas calculadas em cada partção do dendrograma. Foram também computadas e comparadas as purezas de dendrogramas gerados por outros métodos herárqucos não probablístcos como o: Sngle Lnkage, Complete Lnkage e Average Lnkage.

93 72 CAPÍTULO 3 - Número de grupos ótmos, aqu se usou o crtéro BIC (Bayesan Informaton Crteron) (SCHWARZ,978). Este crtéro é usado para avalar a expressvdade de cada partção do dendrograma e assm escolher o agrupamento ótmo dos dados (a partção com o maor BIC). O BIC para uma partção C k é defndo como: BIC Ck = 2L m log( n) Ck Ck (3.) na qual, L C k é o logartmo da verossmlhança da partção C k, parâmetros ndependentes da partção e n é o número de dados. m C k é o número de - Qualdade da partção ótma, aqu a partção ótma fo comparada contra partções geradas por outros algortmos partconas como o K-Means e o EM. A comparação se realzou usando o índce de pureza defndo anterormente. No caso do método de agrupamento baseado em redes gaussanas condconas, a avalação consstu em 2 aspectos: - Aprovetamento do conhecmento a pror. Isto fo realzado com o obetvo de determnar quanto é melhorado o agrupamento dos dados com este tpo de modelo à medda que é ntroduzda a nformação a pror dsponível. Nos bancos de dados de valdação é conhecdo que os elementos estão unformemente dstrbuídos nas classes exstentes. Isto se traduz em uma dstrbução ncal da varável classe de tpo unforme. A força com que este conhecmento a pror prevalece quando os dados são ntroduzdos no modelo é controlado pelo parâmetro TAE. Quanto maor TAE, maor é a confança no conhecmento a pror. O banco de dados Synthetc-2000 fo testado com valores de TAE={0,,00,2000,20000}, o banco de dados Synthetc-000 fo testado com valores de TAE={0,,00,000,0000} e o banco de dados Írs fo testado com valores de TAE={0,,0,00,000,0000}. A avalação aqu consstu na 72

94 MATERIAIS E MÉTODOS 73 observação dos índces de pureza para os dstntos valores de TAE. - Determnação do partconamento ótmo. Isto se realzou com dos crtéros estatístcos: o BIC defndo em (3.) e o AIC (Akake Informaton Crteron) (AKAIKE,974), o qual é defndo para um agrupamento C k como: AIC = 2L 2m Ck Ck Ck (3.2) em que L C k é o logartmo da verossmlhança da partção C k e m C k é o número de parâmetros ndependentes da partção. O número de grupos (número de estados que pode tomar a varável classe) fo varado nos dferentes testes tomando valores entre 2 e 7 para os bancos Synthetc-2000 e Synthetc-000 e entre 2 e 6 para o banco de dados Írs. Cada expermento consstu em estabelecer um valor para o TAE e para o número de grupos segudo pela execução de 0 testes, sto é, a execução de todas as etapas do método (Fgura 3.9). O resultado de cada expermento é o agrupamento realzado pelo melhor teste, ou sea, o teste que corresponde ao modelo aprenddo com a maor verossmlhança. A ustfcatva de realzar város testes por expermento se basea na tentatva de aprender modelos com parâmetros ótmos globas, o qual não é garantdo no método de aprendzado EM. Os expermentos foram realzados de tal forma que o TAE só muda de valor uma vez realzados os expermentos para todos os valores do número de grupos. Expermentos no banco de estrpes de Bradyrhzobum Neste banco de dados não se dspõe da nformação da classe, razão pela qual não é possível avalar a pureza dos agrupamentos gerados. Os expermentos realzados aqu têm por fnaldade encontrar agrupamentos de bactéras consderando que os métodos terão um desempenho smlar ao apresentado nos

95 74 CAPÍTULO 3 bancos de dados de valdação. No caso do método herárquco Bayesano, foram utlzados os crtéros BIC e AIC descrtos anterormente para encontrar o partconamento ótmo ou mas natural do dendrograma gerado. No método de agrupamento baseado no modelo NB, foram executados expermentos com o obetvo de encontrar a partção ótma dos dados e testar a establdade dos agrupamentos varando a força do conhecmento a pror. Este conhecmento a pror corresponde à hpótese de que as classes são unformemente dstrbuídas. Embora esta hpótese pode não ser certa, é usada aqu para avalar a establdade dos agrupamentos baxo dversos níves de confança (TAE) neste smulado conhecmento a pror. A estratéga de testes fo smlar à seguda nos bancos de dados de valdação, com o TAE tomando valores {0,,0,00,000,0000} e o número de grupos varando entre 2 e 0. Igualmente, por cada valor de TAE foram realzados expermentos para todos os valores do número de grupos, sendo o resultado de cada expermento o melhor de 0 testes realzados. Os crtéros BIC e AIC foram usados smlarmente para determnar o número ótmo de grupos. 74

96 RESULTADOS E DISCUSSÕES 75 Capítulo 4 4. RESULTADOS E DISCUSSÕES Este capítulo está estruturado em duas partes. Na prmera parte são apresentados e dscutdos os resultados dos expermentos realzados nos bancos de dados de valdação. Na segunda parte são apresentados e dscutdos os resultados da análse de agrupamentos realzado no banco de estrpes de Bradyrhzobum com os métodos mplementados. 4.. RESULTADOS NOS BANCOS DE DADOS DE VALIDAÇÃO 4... SYNTHETIC-2000 Resultados do método herárquco Bayesano. Com este método de agrupamento foram crados dos dendrogramas: o prmero, a partr de uma partção ncal de 40 grupos gerado pelo algortmo K- Means com 99.8% de pureza (3.0), o qual fo chamado HBC-Kmeans, e o segundo, com uma partção ncal também de 40 grupos gerada pelo algortmo ART2 com 98.5% de pureza, chamado HBC-ART2. Na Fgura 4. é mostrada a evolução da pureza nas 40 partções de ambos dendrogramas unto com a pureza das 40 últmas

97 76 CAPÍTULO 4 partções de dendrogramas gerados pelos algortmos Sngle Lnkage, Complete Lnkage e Average Lnkage. Uma comparação das purezas médas dos dendrogramas é mostrada na Fgura 4.2, onde é observado que quase todos os métodos apresentaram purezas smlares exceto o método Sngle Lnkage que apresentou uma pureza méda sgnfcatvamente nferor. Estes resultados são concordantes com o fato de que os grupos em Synthetc-2000 estão bem separados. 00% 90% 80% 70% pureza 60% 50% 40% 30% 20% # grupos Sngle Lnkage Complete Lnkage Average Lnkage HBC - ART2 HBC - Kmeans Fgura 4.: Evolução da pureza dos dendrogramas gerados em Synthetc-2000 com patções ncas K-means e ART2 e comparados com dendrogramas gerados pelos métodos Sngle Lnkage, Complete Lnkage e Average Lnkage 00% 94.8% 96.0% 95.7% 96.% 80% 74.2% pureza méda 60% 40% 20% 0% HBC - ART HBC - Kmeans Sngle Lnkage Complete Lnkage Average Lnkage Fgura 4.2: Pureza méda de dendrogramas gerados em Synthetc-2000 pelo método herárquco Bayesano e os métodos herárqucos tradconas. 76

98 RESULTADOS E DISCUSSÕES 77 Observando a Fgura 4.2 fo encontrado que a pureza do dendrograma gerado com a partção ncal ART2 é levemente nferor do que o gerado com a partção ncal K-Means. Para encontrar o número ótmo de grupos fo escolhdo este últmo dendrograma e calculado o crtéro BIC em cada partção. A Fgura 4.3 mostra a curva do BIC resultante onde pode ser observado que a partção ótma corresponde ao agrupamento de 4 grupos. Fgura 4.3: Evolução do crtéro BIC no processo de aglomeração do dendrograma HBC-Kmeans no banco de dados Synthetc Na Fgura 4.4 é comparada a pureza da partção ótma obtda com o crtéro BIC contra outras partções de 4 grupos realzados pelos algortmos partconas K- Means e EM. Aqu é observado que todos os métodos geraram agrupamentos com purezas smlares e muto próxmas de 00%, sendo este resultando concordante com o esperado, pos o banco de dados Synthetc-2000 tem grupos claramente separados.

99 78 CAPÍTULO 4 00% 99.8% 99.9% 99.9% 90% pureza 80% 70% 60% HBC-Kmeans K-Means EM Fgura 4.4: Pureza da partção ótma do método herárquco Bayesano contra partções de 4 grupos gerados por outros métodos partconas no banco de dados Synthetc Resultados do método baseado no modelo NB. Na Fgura 4.5 é mostrada a pureza dos agrupamentos realzados pelo modelo NB (atrbundo os dados ao grupo com maor probabldade de pertnênca). É observado que as curvas de pureza para os dferentes valores de TAE estão sobrepostas, o que sgnfca que a pureza dos agrupamentos é ndependente do valor de TAE, ou também, que o conhecmento a pror (que as classes são unformes) não tem nfluênca na formação dos grupos. Isto pode ser devdo a que as classes estão bem separadas e que nclusve com um pobre conhecmento a pror das classes se podem obter agrupamentos comparáves com os obtdos com um forte conhecmento a pror. Nas Fguras 4.6 e 4.7 são mostradas as curvas dos crtéros AIC e BIC respectvamente para dferentes valores de TAE como função do número de grupos. É observado que nos dos crtéros e em todas as curvas de TAE o número ótmo de grupos é 4, o qual é o número certo de grupos. Este resultado é anda mas claro para valores altos de TAE, o que sgnfca que o conhecmento a pror dsponível auda na determnação da partção ótma. 78

100 RESULTADOS E DISCUSSÕES 79 00% 90% Pureza 80% 70% 60% 50% # grupos TAE=0 TAE= TAE=00 TAE=2000 TAE=20000 Fgura 4.5: Pureza das partções fetas pelo modelo NB em Synthetc AIC # grupos TAE=0 TAE= TAE=00 TAE=2000 TAE=20000 Fgura 4.6: Crtéro AIC para dferentes valores de TAE como função do número de grupos no modelo NB - Synthetc BIC # grupos TAE=0 TAE= TAE=00 TAE=2000 TAE=20000 Fgura 4.7: Crtéro BIC para dferentes valores de TAE como função do número de grupos no modelo NB - Synthetc-2000.

101 80 CAPÍTULO SYNTHETIC-000 Resultados do método herárquco Bayesano. Assm como em Synthetc-2000, foram crados dos dendrogramas a partr de duas partções ncas, a prmera com 30 grupos gerados pelo algortmo K-Means com 94% de pureza e cuo dendrograma resultante fo chamado HBC-Kmeans, e a segunda, também com 30 grupos crados pelo algortmo ART2 com 85% de pureza e cuo dendrograma resultante fo chamado HBC-ART2. Na Fgura 4.8 é mostrada a evolução da pureza nas 30 partções de cada dendrograma unto com as purezas das 30 últmas partções de dendrogramas gerados pelos algortmos Sngle Lnkage, Complete Lnkage e Average Lnkage. Uma comparação das purezas médas dos dendrogramas é mostrada na Fgura 4.9, onde é observado que o dendrograma HBC-Kmeans tem maor pureza méda que o HBC-ART2, sto devdo a que sua partção ncal também fo melhor. O HBC-Kmeans também apresentou uma pureza smlar ao melhor dos outros algortmos herárqucos analsados (Average Lnkage), mas observando as partções com o número certo de grupos (5 grupos) o HBC- Kmeans apresenta a maor pureza de todos os métodos. A análse do número ótmo de grupos fo realzada sobre o dendrograma HBC-Kmeans, para sso fo calculado o crtéro BIC em cada uma das suas partções. A Fgura 4.0 mostra a curva do BIC resultante, onde pode ser observado que o máxmo valor do BIC corresponde à partção de 5 grupos, não obstante, a partção de 4 grupos apresenta um BIC próxmo do máxmo. Este resultado pode ser explcado pela exstênca de 2 grupos medanamente sobrepostos no banco de dados (azul e rosa na Fgura 3.2) que podem estar favorecendo de certa forma a hpótese da exstênca de 4 grupos. 80

102 RESULTADOS E DISCUSSÕES 8 pureza 00% 90% 80% 70% 60% 50% 40% 30% 20% # grupos Sngle Lnkage Complete Lnkage Average Lnkage HBC - ART2 HBC - Kmeans Fgura 4.8: Evolução da pureza dos dendrogramas gerados em Synthetc-000 pelo método herárquco Bayesano e métodos herárqucos tradconas. 00% 80% 78.5% 87.3% 86.3% 87.4% pureza méda 60% 40% 20% 32.5% 0% HBC - ART HBC - Kmeans Sngle Lnkage Complete Lnkage Average Lnkage Fgura 4.9: Pureza méda de dendrogramas gerados em Synthetc-000 pelo método herárquco Bayesano e métodos herárqucos tradconas. Fgura 4.0: Evolução do crtéro BIC no processo de aglomeração do dendrograma HBC-Kmeans no banco de dados Synthetc-000.

103 82 CAPÍTULO 4 Na Fgura 4. é comparada a pureza da partção ótma de 5 grupos contra outras partções de 5 grupos obtdos pelos algortmos partconas K-Means e EM. Aqu é observado que os métodos partconas analsados geraram agrupamentos com purezas smlares e lgeramente superores à partção ótma, mas a desvantagem destes métodos é que eles precsam da especfcação do número de grupos para efetuar o agrupamento. 90% 93.3% 96.6% 96.6% pureza 80% 70% 60% HBC-Kmeans K-Means EM Fgura 4.: Pureza da partção ótma do método herárquco Bayesano contra partções de 5 grupos gerados por outros métodos partconas no banco de dados Synthetc-000. Resultados do método baseado no modelo NB. Na Fgura 4.2 é mostrada a pureza dos agrupamentos realzados pelo modelo NB (atrbundo os dados ao grupo com maor probabldade de pertnênca). Ao contráro dos resultados em Synthetc-2000, as purezas das dstntas partções ncrementam com valores altos de TAE (000 e 0000), o que sgnfca que quanto mas confança se tem no conhecmento a pror (que as classes são unformes) melhores são os agrupamentos resultantes. Isto pode ser devdo a que as classes não estão bem separadas neste banco de dados e conseqüentemente a ntrodução de conhecmento a pror acerca das classes auda na obtenção de melhores agrupamentos. 82

104 RESULTADOS E DISCUSSÕES 83 00% 90% 80% Pureza 70% 60% 50% 40% # grupos TAE=0 TAE= TAE=00 TAE=000 TAE=0000 Fgura 4.2: Pureza das partções fetas pelo modelo NB em Synthetc-000. Nas Fguras 4.3 e 4.4 são mostradas as curvas dos crtéros AIC e BIC para dferentes valores de TAE como função do número de grupos. É observado que em ambos crtéros o número ótmo de grupos é 4 para valores baxos de TAE (0,, 00) e 5 para valores altos de TAE (000, 0000). Esta dscordânca pode ser explcada pela natureza fuzzy das classes, sendo que um pobre conhecmento a pror gera partções ótmas com número errado de grupos. Este resultado comprova o aprovetamento do conhecmento a pror no modelo NB na determnação do numero certo de grupos.

105 84 CAPÍTULO 4 AIC # grupos TAE=0 TAE= TAE=00 TAE=000 TAE=0000 Fgura 4.3: Crtéro AIC para dferentes valores de TAE como função do número de grupos no modelo NB - Synthetc-000. BIC # grupos TAE=0 TAE= TAE=00 TAE=000 TAE=0000 Fgura 4.4: Crtéro BIC para dferentes valores de TAE como função do número de grupos no modelo NB - Synthetc

106 RESULTADOS E DISCUSSÕES IRIS Resultados do método herárquco Bayesano. Smlar aos bancos de dados anterores, o método herárquco Bayesano fo usado para crar dos dendrogramas a partr de duas partções ncas, a prmera, com 6 grupos gerados pelo algortmo K-Means com 95.3% de pureza e cuo dendrograma resultante fo chamado HBC-Kmeans, e a segunda, também com 6 grupos crados pelo algortmo ART2 com 96% de pureza e cuo dendrograma resultante fo chamado HBC-ART2. Na Fgura 4.5 é mostrada a evolução da pureza nas 6 partções ntegrantes de cada dendrograma unto com as purezas das 6 últmas partções dos dendrogramas gerados pelos algortmos Sngle Lnkage, Complete Lnkage e Average Lnkage. Uma comparação das purezas médas dos dendrogramas é mostrada na Fgura 4.6, onde é observado que os dendrogramas HBC-Kmeans e HBC-ART2 têm purezas médas smlares e sgnfcatvamente maores que os outros dendrogramas. A análse do número ótmo de grupos fo realzada sobre o dendrograma HBC- Kmeans, para sso fo calculado o crtéro BIC em cada uma das suas partções. A Fgura 4.7 mostra a curva do BIC resultante, onde é observado que o máxmo valor do BIC corresponde à partção de 3 grupos, o qual é o número certo de grupos. É observado também que a partção de 2 grupos apresenta o segundo maor valor do BIC, o qual está próxmo do máxmo. Isto é explcado pela conhecda exstênca de 2 grupos sobrepostos em Írs (vrgínca e verscolor) que favorecem a hpótese da exstênca de somente 2 grupos no banco de dados.

107 86 CAPÍTULO 4 pureza 00% 90% 80% 70% 60% 50% 40% 30% 20% # grupos Sngle Lnkage Complete Lnkage Average Lnkage GHBC - ART2 GHBC - Kmeans Fgura 4.5: Evolução da pureza dos dendrogramas gerados em Irs pelo método herárquco Bayesano e métodos herárqucos tradconas. 00% pureza méda 80% 60% 40% 20% 80.7% 80.2% 62.6% 73.4% 77.% 0% HBC - ART HBC - Kmeans Sngle Lnkage Complete Lnkage Average Lnkage Fgura 4.6: Pureza méda de dendrogramas gerados em Irs pelo método herárquco Bayesano e métodos herárqucos tradconas. Fgura 4.7: Evolução do crtéro BIC no processo de aglomeração do dendrograma HBC-Kmeans no banco de dados Irs. 86

108 RESULTADOS E DISCUSSÕES 87 Na Fgura 4.8 é comparada a pureza da partção ótma contra outras partções de 3 grupos obtdos pelos algortmos partconas K-Means e EM. Aqu é observado que a pureza da partção ótma é sgnfcatvamente maor que os dendrogramas dos outros métodos analsados. Este resultado mostra a convenênca do método herárquco Bayesano em dados reas e que não necessaramente seguem uma dstrbução gaussana. 00% 90% 95.3% 89.3% 89.3% pureza 80% 70% 60% HBC-Kmeans K-Means EM Fgura 4.8: Pureza da partção ótma do método herárquco Bayesano contra partções de 3 grupos gerados por outros métodos partconas no banco de dados Irs. Resultados do método baseado no modelo NB. Na Fgura 4.9 é mostrada a pureza dos agrupamentos realzados pelo modelo NB (atrbundo os dados ao grupo com maor probabldade de pertnênca). Smlar aos resultados em Synthetc-000, as purezas das dstntas partções ncrementam com o valor de TAE, o que sgnfca que quanto mas confança se tem no conhecmento a pror (que as classes são unformes) melhores são os agrupamentos resultantes. Desta forma é mostrado o aprovetamento do conhecmento a pror exstente no modelo NB para a obtenção de melhores agrupamentos (com grupos mas homogêneos).

109 88 CAPÍTULO 4 95% 90% 85% PUREZA 80% 75% 70% 65% 60% # grupos TAE=0 TAE= TAE=0 TAE=00 TAE=000 TAE=0000 Fgura 4.9: Pureza das partções fetas pelo modelo NB em Irs. Nas Fguras 4.20 e 4.2 são mostradas as curvas dos crtéros AIC e BIC para dferentes valores de TAE como função do número de grupos. É observado que no crtéro AIC, a partção ótma tem 2 grupos para valores baxos de TAE (0-00) e 3 grupos para valores altos de TAE (000, 0000), á no crtéro BIC, todas as partções ótmas contêm 2 grupos ndependentemente do valor de TAE. Esta dscordânca é explcada pela alta sobreposção de duas classes em Írs, sendo esta sobreposção o sufcentemente grande para que nclusve com um forte conhecmento a pror acerca da dstrbução das classes não sea possível determnar o número certo de grupos com o crtéro BIC. Já com o crtéro AIC é possível determnar o número certo de grupos para altos valores de TAE devdo ao fato que o crtéro AIC penalza menos a formação de partções com uma alta quantdade de grupos. 88

110 RESULTADOS E DISCUSSÕES AIC # grupos TAE=0 TAE= TAE=0 TAE=00 TAE=000 TAE=0000 Fgura 4.20: Crtéro AIC para dferentes valores de TAE como função do número de grupos no modelo NB - Irs BIC # grupos TAE=0 TAE= TAE=0 TAE=00 TAE=000 TAE=0000 Fgura 4.2: Crtéro BIC para dferentes valores de TAE como função do número de grupos no modelo NB - Irs RESULTADOS NOS BANCO DE ESTIRPES DE BRADYRHIZOBIUM Resultados do método herárquco Bayesano. O método herárquco Bayesano fo usado aqu para construr uma

111 90 CAPÍTULO 4 representação em dendrograma das estrpes de Bradyrhzobum e encontrar o melhor agrupamento destas. Para sso foram usados como dados de entrada os eletroferogramas resultantes do pré-processamento das canaletas (Fgura 3.5). O dendrograma resultante é mostrado na Fgura 4.22, o qual, devdo a seu tamanho. fo dvddo em 4 partes: um dendrograma prncpal e 3 sub-dendrogramas. A escala de dstâncas mostrada corresponde ao logartmo do fator U (Seção 3.2). 90

112 RESULTADOS E DISCUSSÕES 9 Fgura 4.22: Dendrograma das estrpes de Bradyrhzobum construído pelo método herárquco Bayesano tendo como dados de entrada os eletroferogramas resultantes do pré-processamento das canaletas. Na Fgura 4.23 é mostrada a evolução da verossmlhança e dos crtéros BIC e AIC calculados nas 30 últmas partções do dendrograma resultante. Como pode ser observada, a verossmlhança decresce à medda que se vão fundndo grupos, este

113 92 CAPÍTULO 4 fato era esperado á que uma propredade da verossmlhança é que esta sempre favorece partções com maor número de grupos (propredade de overfttng), motvo pelo qual não pode ser usada para encontrar o número ótmo de grupos. É observado também que no crtéro AIC, a partção com o maor valor é a de 4 grupos, não obstante, exste uma alta proxmdade entre o AIC desta partção e o AIC da partção de 9 grupos, pelo que não é muto clara a escolha da partção ótma. Já no crtéro BIC esta ambgüdade fca esclarecda a favor da partção de 4 grupos, sto devdo a que o crtéro BIC tem uma maor penaldade para partções com alto número de grupos. Na Tabela 4. são mostrados os dados ntegrantes de cada grupo desta partção ótma. Fgura 4.23: Evolução da verossmlhança e dos crtéros BIC e AIC calculados nas 30 últmas partções do dendrograma construído pelo método herárquco Bayesano no banco de estrpes de Bradyrhzobum 92

114 RESULTADOS E DISCUSSÕES 93 Tabela 4.: Dados ntegrantes dos grupos que compõem a partção BIC ótma do dendrograma construído pelo método herárquco Bayesano no banco de estrpes de Bradyrhzobum. G G G G Fgura 4.24: Pontos resultantes da transformação MDS dos eletroferogramas tomando as 3 prmeras coordenadas, representando o 50% da varânca dos dados.

115 94 CAPÍTULO 4 Resultados do método baseado no modelo NB. Na Fgura 4.24 são representadas as 3 prmeras coordenadas das 0 que compõem o banco de dados resultante da transformação dos eletroferogramas por MDS. De acordo com a análse de autovalores (Seção 3.3.) aproxmadamente o 50% da varânca dos dados está contdo nestas 3 prmeras coordenadas, o que sgnfca que a representação em 3D perde mutos detalhes dos dados e é usada somente para dar uma déa da dstrbução dos mesmos. O modelo NB fo mplementado para agrupar o banco de dados transformado. Foram realzados város expermentos segundo a estratéga de testes descrta no capítulo anteror (Seção 3.4). As Fguras 4.25 e 4.26 mostram as curvas dos crtéros estatístcos BIC e AIC para dferentes valores de TAE como função do número de grupos. Pode ser observado que no caso do crtéro AIC, exste uma alta ambgüdade na determnação do número ótmo de grupos, podendo ser seleconada qualquer das partções entre 7 e 0 grupos como a partção ótma, sendo a partção com 9 grupos a que destaca levemente com respeto às outras partções. É observado também que em partções com alto número de grupos (5-0) as curvas com valores grandes de TAE estão por embaxo das curvas com TAEs menores, sendo o contráro para partções com baxo número de grupos (2-4). Isto sgnfca que quanto mas confança se dá à hpótese que as classes são unformes, menor é a acetação de partções com alto número de grupos. Já com o crtéro BIC (Fgura 4.26), a ncerteza na determnação da partção ótma desaparece, sendo dentfcada claramente a partção de 4 grupos como a partção ótma em todas as curvas de TAE. Este resultado é anda mas claro para valores altos de TAE (000 e 0000). A dscordânca de ambos crtéros na determnação da partção ótma é devda a que o crtéro BIC dá uma maor penaldade que o crtéro AIC para partções com um alto 94

116 RESULTADOS E DISCUSSÕES 95 número de grupos. A dscussão de qual crtéro deve ser usado está fora do alcance deste trabalho. No caso do banco de estrpes de Bradyrhzobum e baseados em trabalhos prévos (GERMANO et. al., 2006), não se tem motvos fortes para escolher partções com alto número de grupos (>7), razão pela qual fo escolhda como partção ótma a de 4 grupos ndcada pelo crtéro BIC. Na Tabela 4.2 são mostradas as probabldades de pertnênca dos dados nos dstntos grupos para o modelo NB ótmo de 4 grupos e TAE = 00. Fo verfcado que estas probabldades são muto smlares para os outros valores de TAE. Conseqüentemente, nos modelos NB ótmos de 4 grupos, as partções resultantes de atrbur os dados ao grupo de maor probabldade são smlares sem mportar o valor de TAE. Na Fgura 4.27 são mostrados os dados em 3D da partção ótma de 4 grupos para o TAE=00, onde cada cor ndca um grupo, sendo os mesmos agrupamentos observados para os outros valores de TAE AIC # grupos TAE=0 TAE= TAE=0 TAE=00 TAE=000 TAE=0000 Fgura 4.25: Crtéro AIC para dferentes valores de TAE como função do número de grupos no modelo NB banco de estrpes de Bradyrhzobum.

117 96 CAPÍTULO BIC # grupos TAE=0 TAE= TAE=0 TAE=00 TAE=000 TAE=0000 Fgura 4.26: Crtéro BIC para dferentes valores de TAE como função do número de grupos no modelo NB banco de estrpes de Bradyrhzobum. Fgura 4.27: Agrupamento ótmo de 4 grupos gerado pelo método baseado no modelo NB no banco de estrpes de Bradyrhzobum 96

118 RESULTADOS E DISCUSSÕES 97 A Tabela 4.3 mostra a partção ótma de 4 grupos como resultado da atrbução dos dados aos grupos com maor probabldade de pertnênca (Tabela 4.2). Na Tabela 4.4 são mostradas as médas e as varâncas de cada grupo calculadas com base a seus dados atrbuídos. Analsando estes resultados fo encontrado que os grupos G (vermelho), G2 (roxo) e G3 (azul) são bastante compactos e bem separados, apresentando uma covarânca méda gual a 0.032, e respectvamente. Já o grupo G4 (cor negro) apresenta uma varânca méda de 0.67, a qual é sgnfcatvamente maor que os anterores, o que é comprovado na Fgura 4.27 com seus elementos bastante espalhados. Esta dspersão dos dados pode sgnfcar que as estrpes deste grupo não estão compartndo muta nformação genétca em comum, tal como os outros grupos, e portanto este grupo não representa nenhuma sub-espéce. Ou também pode sgnfcar que não exstem dados sufcentes para se nferr novas sub-espéces. Comparando a partção ótma obtda pelo método herárquco Bayesano (Tabela 4.) com a partção ótma gerada pelo método baseado no modelo NB (Tabela 4.3) é possível observar uma alta concordânca em ambos agrupamentos. Os grupos G2 e G3 são exatamente guas, entretanto, no grupo G do método herárquco, exstem 7 dados mas que o grupo G do método NB (35, 37, 42, 97,04,06,2). Isto sgnfca uma dscrepânca de somente 5.4% entre ambos partconamentos. Estes resultados ndcam uma alta probabldade de que os grupos G2 e G3 representem alguma sub-espéce de estrpes de Bradyrhzobum com característcas comuns. No entanto, esta probabldade é menor no grupo G devdo à dscrepânca observada no agrupamento de 7 elementos por cada um dos métodos mplementados.

119 98 CAPÍTULO 4 Tabela 4.2: Probabldades de pertnênca resultantes do modelo NB ótmo de 4 classes construído no banco de estrpes de Bradyrhzobum. 98

4 Critérios para Avaliação dos Cenários

4 Critérios para Avaliação dos Cenários Crtéros para Avalação dos Cenáros É desejável que um modelo de geração de séres sntétcas preserve as prncpas característcas da sére hstórca. Isto quer dzer que a utldade de um modelo pode ser verfcada

Leia mais

3 Algoritmos propostos

3 Algoritmos propostos Algortmos propostos 3 Algortmos propostos Nesse trabalho foram desenvolvdos dos algortmos que permtem classfcar documentos em categoras de forma automátca, com trenamento feto por usuáros Tas algortmos

Leia mais

Programa do Curso. Sistemas Inteligentes Aplicados. Análise e Seleção de Variáveis. Análise e Seleção de Variáveis. Carlos Hall

Programa do Curso. Sistemas Inteligentes Aplicados. Análise e Seleção de Variáveis. Análise e Seleção de Variáveis. Carlos Hall Sstemas Intelgentes Aplcados Carlos Hall Programa do Curso Lmpeza/Integração de Dados Transformação de Dados Dscretzação de Varáves Contínuas Transformação de Varáves Dscretas em Contínuas Transformação

Leia mais

Universidade Federal do Paraná Departamento de Informática. Reconhecimento de Padrões. Classificadores Lineares. Luiz Eduardo S. Oliveira, Ph.D.

Universidade Federal do Paraná Departamento de Informática. Reconhecimento de Padrões. Classificadores Lineares. Luiz Eduardo S. Oliveira, Ph.D. Unversdade Federal do Paraná Departamento de Informátca Reconhecmento de Padrões Classfcadores Lneares Luz Eduardo S. Olvera, Ph.D. http://lesolvera.net Objetvos Introduzr os o conceto de classfcação lnear.

Leia mais

3 Metodologia de Avaliação da Relação entre o Custo Operacional e o Preço do Óleo

3 Metodologia de Avaliação da Relação entre o Custo Operacional e o Preço do Óleo 3 Metodologa de Avalação da Relação entre o Custo Operaconal e o Preço do Óleo Este capítulo tem como objetvo apresentar a metodologa que será empregada nesta pesqusa para avalar a dependênca entre duas

Leia mais

Reconhecimento Estatístico de Padrões

Reconhecimento Estatístico de Padrões Reconhecmento Estatístco de Padrões X 3 O paradgma pode ser sumarzado da segunte forma: Cada padrão é representado por um vector de característcas x = x1 x2 x N (,,, ) x x1 x... x d 2 = X 1 X 2 Espaço

Leia mais

É o grau de associação entre duas ou mais variáveis. Pode ser: correlacional ou experimental.

É o grau de associação entre duas ou mais variáveis. Pode ser: correlacional ou experimental. Prof. Lorí Val, Dr. val@mat.ufrgs.br http://www.mat.ufrgs.br/~val/ É o grau de assocação entre duas ou mas varáves. Pode ser: correlaconal ou expermental. Numa relação expermental os valores de uma das

Leia mais

6 Modelo Proposto Introdução

6 Modelo Proposto Introdução 6 Modelo Proposto 6.1. Introdução Neste capítulo serão apresentados detalhes do modelo proposto nesta dssertação de mestrado, onde será utlzado um modelo híbrdo para se obter prevsão de carga curto prazo

Leia mais

Os modelos de regressão paramétricos vistos anteriormente exigem que se suponha uma distribuição estatística para o tempo de sobrevivência.

Os modelos de regressão paramétricos vistos anteriormente exigem que se suponha uma distribuição estatística para o tempo de sobrevivência. MODELO DE REGRESSÃO DE COX Os modelos de regressão paramétrcos vstos anterormente exgem que se suponha uma dstrbução estatístca para o tempo de sobrevvênca. Contudo esta suposção, caso não sea adequada,

Leia mais

7 - Distribuição de Freqüências

7 - Distribuição de Freqüências 7 - Dstrbução de Freqüêncas 7.1 Introdução Em mutas áreas há uma grande quantdade de nformações numércas que precsam ser dvulgadas de forma resumda. O método mas comum de resumr estes dados numércos consste

Leia mais

1. ANÁLISE EXPLORATÓRIA E ESTATÍSTICA DESCRITIVA

1. ANÁLISE EXPLORATÓRIA E ESTATÍSTICA DESCRITIVA 1. ANÁLISE EXPLORATÓRIA E ESTATÍSTICA DESCRITIVA 014 Estatístca Descrtva e Análse Exploratóra Etapas ncas. Utlzadas para descrever e resumr os dados. A dsponbldade de uma grande quantdade de dados e de

Leia mais

3 A técnica de computação intensiva Bootstrap

3 A técnica de computação intensiva Bootstrap A técnca de computação ntensva ootstrap O termo ootstrap tem orgem na expressão de língua nglesa lft oneself by pullng hs/her bootstrap, ou seja, alguém levantar-se puxando seu própro cadarço de bota.

Leia mais

Aprendizagem de Máquina

Aprendizagem de Máquina Plano de Aula Aprendzagem de Máquna Aprendzagem Baseada em Instâncas Alessandro L. Koerch Introdução Espaço Eucldano Aprendzagem Baseada em Instâncas (ou Modelos Baseados em Dstânca) Regra knn (k vznhos

Leia mais

MODELOS DE REGRESSÃO PARAMÉTRICOS

MODELOS DE REGRESSÃO PARAMÉTRICOS MODELOS DE REGRESSÃO PARAMÉTRICOS Às vezes é de nteresse nclur na análse, característcas dos ndvíduos que podem estar relaconadas com o tempo de vda. Estudo de nsufcênca renal: verfcar qual o efeto da

Leia mais

Prof. Lorí Viali, Dr.

Prof. Lorí Viali, Dr. Prof. Lorí Val, Dr. val@mat.ufrgs.br http://www.mat.ufrgs.br/~val/ É o grau de assocação entre duas ou mas varáves. Pode ser: correlaconal ou expermental. Prof. Lorí Val, Dr. UFRG Insttuto de Matemátca

Leia mais

Prof. Lorí Viali, Dr.

Prof. Lorí Viali, Dr. Prof. Lorí Val, Dr. val@mat.ufrgs.br http://www.mat.ufrgs.br/~val/ 1 É o grau de assocação entre duas ou mas varáves. Pode ser: correlaconal ou expermental. Numa relação expermental os valores de uma das

Leia mais

5 Implementação Procedimento de segmentação

5 Implementação Procedimento de segmentação 5 Implementação O capítulo segunte apresenta uma batera de expermentos prátcos realzados com o objetvo de valdar o método proposto neste trabalho. O método envolve, contudo, alguns passos que podem ser

Leia mais

R X. X(s) Y Y(s) Variáveis aleatórias discretas bidimensionais

R X. X(s) Y Y(s) Variáveis aleatórias discretas bidimensionais 30 Varáves aleatóras bdmensonas Sea ε uma experênca aleatóra e S um espaço amostral assocado a essa experênca. Seam X X(s) e Y Y(s) duas funções cada uma assocando um número real a cada resultado s S.

Leia mais

Estatística II Antonio Roque Aula 18. Regressão Linear

Estatística II Antonio Roque Aula 18. Regressão Linear Estatístca II Antono Roque Aula 18 Regressão Lnear Quando se consderam duas varáves aleatóras ao mesmo tempo, X e Y, as técncas estatístcas aplcadas são as de regressão e correlação. As duas técncas estão

Leia mais

O problema da superdispersão na análise de dados de contagens

O problema da superdispersão na análise de dados de contagens O problema da superdspersão na análse de dados de contagens 1 Uma das restrções mpostas pelas dstrbuções bnomal e Posson, aplcadas usualmente na análse de dados dscretos, é que o parâmetro de dspersão

Leia mais

O problema da superdispersão na análise de dados de contagens

O problema da superdispersão na análise de dados de contagens O problema da superdspersão na análse de dados de contagens 1 Uma das restrções mpostas pelas dstrbuções bnomal e Posson, aplcadas usualmente na análse de dados dscretos, é que o parâmetro de dspersão

Leia mais

DEFINIÇÃO - MODELO LINEAR GENERALIZADO

DEFINIÇÃO - MODELO LINEAR GENERALIZADO DEFINIÇÃO - MODELO LINEAR GENERALIZADO 1 Um modelo lnear generalzado é defndo pelos seguntes três componentes: Componente aleatóro; Componente sstemátco; Função de lgação; Componente aleatóro: Um conjunto

Leia mais

Classificação de Padrões

Classificação de Padrões Classfcação de Padrões Introdução Classfcadores Paramétrcos Classfcadores Sem-paramétrcos Redução da Dmensonaldade Teste de Sgnfcânca 6.345 Sstema de Reconhecmento de Voz Teora Acústca da Produção de Voz

Leia mais

Curso de extensão, MMQ IFUSP, fevereiro/2014. Alguns exercício básicos

Curso de extensão, MMQ IFUSP, fevereiro/2014. Alguns exercício básicos Curso de extensão, MMQ IFUSP, feverero/4 Alguns exercíco báscos I Exercícos (MMQ) Uma grandeza cujo valor verdadero x é desconhecdo, fo medda três vezes, com procedmentos expermentas dêntcos e, portanto,

Leia mais

CORRELAÇÃO E REGRESSÃO

CORRELAÇÃO E REGRESSÃO CORRELAÇÃO E REGRESSÃO Constata-se, freqüentemente, a estênca de uma relação entre duas (ou mas) varáves. Se tal relação é de natureza quanttatva, a correlação é o nstrumento adequado para descobrr e medr

Leia mais

Cap. 5 Classificação Temática

Cap. 5 Classificação Temática Prncípos e Aplcações da Deteção Remota Cap. 5 Classfcação Temátca 5.1 O Processo de Classfcação 5. Classfcação de Máxma Verosmlhança (supervsonada paramétrca) 5..1 Classes multvaradas normas 5.. Lmtes

Leia mais

3 Elementos de modelagem para o problema de controle de potência

3 Elementos de modelagem para o problema de controle de potência 3 Elementos de modelagem para o problema de controle de potênca Neste trabalho assume-se que a rede de comuncações é composta por uma coleção de enlaces consttuídos por um par de undades-rádo ndvdualmente

Leia mais

UNIDADE IV DELINEAMENTO INTEIRAMENTE CASUALIZADO (DIC)

UNIDADE IV DELINEAMENTO INTEIRAMENTE CASUALIZADO (DIC) UNDADE V DELNEAMENTO NTERAMENTE CASUALZADO (DC) CUABÁ, MT 015/ PROF.: RÔMULO MÔRA romulomora.webnode.com 1. NTRODUÇÃO Este delneamento apresenta como característca prncpal a necessdade de homogenedade

Leia mais

Aprendizagem de Máquina

Aprendizagem de Máquina Plano de Aula Aprendzagem de Máquna Aprendzagem Não Supervsonada Alessandro L. Koerch Aprendzagem não supervsonada Algortmos de agrupamento (Clusterng) Seqüencas Herárqucos Baseados na otmzação de funções

Leia mais

Créditos. SCC0173 Mineração de Dados Biológicos. Conteúdo. Métodos Particionais (Sem Sobreposição)

Créditos. SCC0173 Mineração de Dados Biológicos. Conteúdo. Métodos Particionais (Sem Sobreposição) SCC7 Mneração de Dados Bológcos Agrupamento de Dados Partes III & IV: Métodos Partconas e Valdação Crédtos O materal a segur consste de adaptações e etensões dos orgnas: gentlmente ceddos pelo Prof. Eduardo

Leia mais

5 Relação entre Análise Limite e Programação Linear 5.1. Modelo Matemático para Análise Limite

5 Relação entre Análise Limite e Programação Linear 5.1. Modelo Matemático para Análise Limite 5 Relação entre Análse Lmte e Programação Lnear 5.. Modelo Matemátco para Análse Lmte Como fo explcado anterormente, a análse lmte oferece a facldade para o cálculo da carga de ruptura pelo fato de utlzar

Leia mais

Prof. Lorí Viali, Dr.

Prof. Lorí Viali, Dr. Prof. Lorí Val, Dr. vall@mat.ufrgs.br http://www.mat.ufrgs.br/~val/ Em mutas stuações duas ou mas varáves estão relaconadas e surge então a necessdade de determnar a natureza deste relaconamento. A análse

Leia mais

Regressão Múltipla. Parte I: Modelo Geral e Estimação

Regressão Múltipla. Parte I: Modelo Geral e Estimação Regressão Múltpla Parte I: Modelo Geral e Estmação Regressão lnear múltpla Exemplos: Num estudo sobre a produtvdade de trabalhadores ( em aeronave, navos) o pesqusador deseja controlar o número desses

Leia mais

REGRESSÃO NÃO LINEAR 27/06/2017

REGRESSÃO NÃO LINEAR 27/06/2017 7/06/07 REGRESSÃO NÃO LINEAR CUIABÁ, MT 07/ Os modelos de regressão não lnear dferencam-se dos modelos lneares, tanto smples como múltplos, pelo fato de suas varáves ndependentes não estarem separados

Leia mais

DELINEAMENTOS EXPERIMENTAIS

DELINEAMENTOS EXPERIMENTAIS SUMÁRIO 1 Delneamentos Expermentas 2 1.1 Delneamento Interamente Casualzado..................... 2 1.2 Delneamento Blocos Casualzados (DBC).................... 3 1.3 Delneamento Quadrado Latno (DQL)......................

Leia mais

RISCO. Investimento inicial $ $ Taxa de retorno anual Pessimista 13% 7% Mais provável 15% 15% Otimista 17% 23% Faixa 4% 16%

RISCO. Investimento inicial $ $ Taxa de retorno anual Pessimista 13% 7% Mais provável 15% 15% Otimista 17% 23% Faixa 4% 16% Análse de Rsco 1 RISCO Rsco possbldade de perda. Quanto maor a possbldade, maor o rsco. Exemplo: Empresa X va receber $ 1.000 de uros em 30 das com títulos do governo. A empresa Y pode receber entre $

Leia mais

Implementação Bayesiana

Implementação Bayesiana Implementação Bayesana Defnção 1 O perfl de estratégas s.) = s 1.),..., s I.)) é um equlíbro Nash-Bayesano do mecansmo Γ = S 1,..., S I, g.)) se, para todo e todo θ Θ, u gs θ ), s θ )), θ ) θ Eθ u gŝ,

Leia mais

Algarismos Significativos Propagação de Erros ou Desvios

Algarismos Significativos Propagação de Erros ou Desvios Algarsmos Sgnfcatvos Propagação de Erros ou Desvos L1 = 1,35 cm; L = 1,3 cm; L3 = 1,30 cm L4 = 1,4 cm; L5 = 1,7 cm. Qual destas meddas está correta? Qual apresenta algarsmos com sgnfcado? O nstrumento

Leia mais

Testes não-paramétricos

Testes não-paramétricos Testes não-paramétrcos Prof. Lorí Val, Dr. http://www.mat.ufrgs.br/val/ val@mat.ufrgs.br Um teste não paramétrco testa outras stuações que não parâmetros populaconas. Estas stuações podem ser relaconamentos,

Leia mais

Elementos de Estatística e Probabilidades II

Elementos de Estatística e Probabilidades II Elementos de Estatístca e Probabldades II Varáves e Vetores Aleatóros dscretos Inês Das 203 O prncpal objetvo da deste documento é fornecer conhecmentos báscos de varáves aleatóras dscretas e pares aleatóros

Leia mais

Representação e Descrição de Regiões

Representação e Descrição de Regiões Depos de uma magem ter sdo segmentada em regões é necessáro representar e descrever cada regão para posteror processamento A escolha da representação de uma regão envolve a escolha dos elementos que são

Leia mais

X = 1, se ocorre : VB ou BV (vermelha e branca ou branca e vermelha)

X = 1, se ocorre : VB ou BV (vermelha e branca ou branca e vermelha) Estatístca p/ Admnstração II - Profª Ana Cláuda Melo Undade : Probabldade Aula: 3 Varável Aleatóra. Varáves Aleatóras Ao descrever um espaço amostral de um expermento, não especfcamos que um resultado

Leia mais

Capítulo 2. APROXIMAÇÕES NUMÉRICAS 1D EM MALHAS UNIFORMES

Capítulo 2. APROXIMAÇÕES NUMÉRICAS 1D EM MALHAS UNIFORMES Capítulo. Aproxmações numércas 1D em malhas unformes 9 Capítulo. AROXIMAÇÕS NUMÉRICAS 1D M MALHAS UNIFORMS O prncípo fundamental do método das dferenças fntas (MDF é aproxmar através de expressões algébrcas

Leia mais

3 Subtração de Fundo Segmentação por Subtração de Fundo

3 Subtração de Fundo Segmentação por Subtração de Fundo 3 Subtração de Fundo Este capítulo apresenta um estudo sobre algortmos para a detecção de objetos em movmento em uma cena com fundo estátco. Normalmente, estas cenas estão sob a nfluênca de mudanças na

Leia mais

5 Métodos de cálculo do limite de retenção em função da ruína e do capital inicial

5 Métodos de cálculo do limite de retenção em função da ruína e do capital inicial 5 Métodos de cálculo do lmte de retenção em função da ruína e do captal ncal Nesta dssertação serão utlzados dos métodos comparatvos de cálculo de lmte de retenção, onde ambos consderam a necessdade de

Leia mais

Figura 8.1: Distribuição uniforme de pontos em uma malha uni-dimensional. A notação empregada neste capítulo para avaliação da derivada de uma

Figura 8.1: Distribuição uniforme de pontos em uma malha uni-dimensional. A notação empregada neste capítulo para avaliação da derivada de uma Capítulo 8 Dferencação Numérca Quase todos os métodos numércos utlzados atualmente para obtenção de soluções de equações erencas ordnáras e parcas utlzam algum tpo de aproxmação para as dervadas contínuas

Leia mais

2 Aproximação por curvas impĺıcitas e partição da unidade

2 Aproximação por curvas impĺıcitas e partição da unidade Aproxmação por curvas mpĺıctas e partção da undade Este capítulo expõe alguns concetos báscos necessáros para o entendmento deste trabalho 1 Curvas Algébrcas Um subconjunto O R é chamado de uma curva mplícta

Leia mais

2 Análise de Campos Modais em Guias de Onda Arbitrários

2 Análise de Campos Modais em Guias de Onda Arbitrários Análse de Campos Modas em Guas de Onda Arbtráros Neste capítulo serão analsados os campos modas em guas de onda de seção arbtrára. A seção transversal do gua é apromada por um polígono conveo descrto por

Leia mais

PUCPR- Pontifícia Universidade Católica Do Paraná PPGIA- Programa de Pós-Graduação Em Informática Aplicada PROF. DR. JACQUES FACON

PUCPR- Pontifícia Universidade Católica Do Paraná PPGIA- Programa de Pós-Graduação Em Informática Aplicada PROF. DR. JACQUES FACON 1 PUCPR- Pontfíca Unversdade Católca Do Paraná PPGIA- Programa de Pós-Graduação Em Informátca Aplcada PROF. DR. JACQUES FACON LIMIARIZAÇÃO ITERATIVA DE LAM E LEUNG Resumo: A proposta para essa sére de

Leia mais

2 Metodologia de Medição de Riscos para Projetos

2 Metodologia de Medição de Riscos para Projetos 2 Metodologa de Medção de Rscos para Projetos Neste capítulo remos aplcar os concetos apresentados na seção 1.1 ao ambente de projetos. Um projeto, por defnção, é um empreendmento com metas de prazo, margem

Leia mais

DIAGNÓSTICO EM MODELOS LINEARES GENERALIZADOS

DIAGNÓSTICO EM MODELOS LINEARES GENERALIZADOS DIAGNÓSTICO EM MODELOS LINEARES GENERALIZADOS 1 A análse de dagnóstco (ou dagnóstco do ajuste) confgura uma etapa fundamental no ajuste de modelos de regressão. O objetvo prncpal da análse de dagnóstco

Leia mais

Diferença entre a classificação do PIB per capita e a classificação do IDH

Diferença entre a classificação do PIB per capita e a classificação do IDH Curso Bem Estar Socal Marcelo Ner - www.fgv.br/cps Metas Socas Entre as mutas questões decorrentes da déa de se mplementar uma proposta de metas socas temos: Qual a justfcatva econômca para a exstênca

Leia mais

Variação ao acaso. É toda variação devida a fatores não controláveis, denominadas erro.

Variação ao acaso. É toda variação devida a fatores não controláveis, denominadas erro. Aplcação Por exemplo, se prepararmos uma área expermental com todo cudado possível e fzermos, manualmente, o planto de 100 sementes seleconadas de um mlho híbrdo, cudando para que as sementes fquem na

Leia mais

Modelo Logístico. Modelagem multivariável com variáveis quantitativas e qualitativas, com resposta binária.

Modelo Logístico. Modelagem multivariável com variáveis quantitativas e qualitativas, com resposta binária. Modelagem multvarável com varáves quanttatvas e qualtatvas, com resposta bnára. O modelo de regressão não lnear logístco ou modelo logístco é utlzado quando a varável resposta é qualtatva com dos resultados

Leia mais

2 Incerteza de medição

2 Incerteza de medição 2 Incerteza de medção Toda medção envolve ensaos, ajustes, condconamentos e a observação de ndcações em um nstrumento. Este conhecmento é utlzado para obter o valor de uma grandeza (mensurando) a partr

Leia mais

3.6. Análise descritiva com dados agrupados Dados agrupados com variáveis discretas

3.6. Análise descritiva com dados agrupados Dados agrupados com variáveis discretas 3.6. Análse descrtva com dados agrupados Em algumas stuações, os dados podem ser apresentados dretamente nas tabelas de frequêncas. Netas stuações devemos utlzar estratégas específcas para obter as meddas

Leia mais

Aprendizagem de Máquina

Aprendizagem de Máquina Introdução Aprendzagem de Máquna Alessandro L. Koerch Redes Bayesanas A suposção Naïve Bayes da ndependênca condconal (a 1,...a n são condconalmente ndependentes dado o valor alvo v): Reduz a complexdade

Leia mais

7 Tratamento dos Dados

7 Tratamento dos Dados 7 Tratamento dos Dados 7.. Coefcentes de Troca de Calor O úmero de usselt local é dado por h( r )d u ( r ) (7-) k onde h(r), o coefcente local de troca de calor é h( r ) q''- perdas T q''- perdas (T( r

Leia mais

ANÁLISE EXPLORATÓRIA E ESTATÍSTICA DESCRITIVA

ANÁLISE EXPLORATÓRIA E ESTATÍSTICA DESCRITIVA ANÁLISE EXPLORATÓRIA E ESTATÍSTICA DESCRITIVA 014 Estatístca Descrtva e Análse Exploratóra Etapas ncas. Utlzadas para descrever e resumr os dados. A dsponbldade de uma grande quantdade de dados e de métodos

Leia mais

IMPLEMENTAÇÃO DO MÉTODO DE FATORAÇÃO DE INTEIROS CRIVO QUADRÁTICO

IMPLEMENTAÇÃO DO MÉTODO DE FATORAÇÃO DE INTEIROS CRIVO QUADRÁTICO IMPLEMENTAÇÃO DO MÉTODO DE FATORAÇÃO DE INTEIROS CRIVO QUADRÁTICO Alne de Paula Sanches 1 ; Adrana Betâna de Paula Molgora 1 Estudante do Curso de Cênca da Computação da UEMS, Undade Unverstára de Dourados;

Leia mais

CURSO A DISTÂNCIA DE GEOESTATÍSTICA

CURSO A DISTÂNCIA DE GEOESTATÍSTICA CURSO A DISTÂNCIA DE GEOESTATÍSTICA Aula 6: Estaconardade e Semvarânca: Estaconardade de a. ordem, Hpótese ntríseca, Hpótese de krgagem unversal, Crtéros para escolha, Verfcação, Representatvdade espacal,

Leia mais

Eventos coletivamente exaustivos: A união dos eventos é o espaço amostral.

Eventos coletivamente exaustivos: A união dos eventos é o espaço amostral. DEFINIÇÕES ADICIONAIS: PROBABILIDADE Espaço amostral (Ω) é o conjunto de todos os possíves resultados de um expermento. Evento é qualquer subconjunto do espaço amostral. Evento combnado: Possu duas ou

Leia mais

Gráficos de Controle para Processos Autocorrelacionados

Gráficos de Controle para Processos Autocorrelacionados Gráfcos de Controle para Processos Autocorrelaconados Gráfco de controle de Shewhart: observações ndependentes e normalmente dstrbuídas. Shewhart ao crar os gráfcos de controle não exgu que os dados fossem

Leia mais

1. CORRELAÇÃO E REGRESSÃO LINEAR

1. CORRELAÇÃO E REGRESSÃO LINEAR 1 CORRELAÇÃO E REGREÃO LINEAR Quando deseja-se estudar se exste relação entre duas varáves quanttatvas, pode-se utlzar a ferramenta estatístca da Correlação Lnear mples de Pearson Quando essa correlação

Leia mais

Aula Características dos sistemas de medição

Aula Características dos sistemas de medição Aula - Característcas dos sstemas de medção O comportamento funconal de um sstema de medção é descrto pelas suas característcas (parâmetros) operaconas e metrológcas. Aqu é defnda e analsada uma sére destes

Leia mais

Teoria Elementar da Probabilidade

Teoria Elementar da Probabilidade 10 Teora Elementar da Probabldade MODELOS MATEMÁTICOS DETERMINÍSTICOS PROBABILÍSTICOS PROCESSO (FENÓMENO) ALEATÓRIO - Quando o acaso nterfere na ocorrênca de um ou mas dos resultados nos quas tal processo

Leia mais

CAPÍTULO 2 DESCRIÇÃO DE DADOS ESTATÍSTICA DESCRITIVA

CAPÍTULO 2 DESCRIÇÃO DE DADOS ESTATÍSTICA DESCRITIVA CAPÍTULO DESCRIÇÃO DE DADOS ESTATÍSTICA DESCRITIVA. A MÉDIA ARITMÉTICA OU PROMÉDIO Defnção: é gual a soma dos valores do grupo de dados dvdda pelo número de valores. X x Soma dos valores de x número de

Leia mais

RAD1507 Estatística Aplicada à Administração I Prof. Dr. Evandro Marcos Saidel Ribeiro

RAD1507 Estatística Aplicada à Administração I Prof. Dr. Evandro Marcos Saidel Ribeiro UNIVERIDADE DE ÃO PAULO FACULDADE DE ECONOMIA, ADMINITRAÇÃO E CONTABILIDADE DE RIBEIRÃO PRETO DEPARTAMENTO DE ADMINITRAÇÃO RAD1507 Estatístca Aplcada à Admnstração I Prof. Dr. Evandro Marcos adel Rbero

Leia mais

4 Discretização e Linearização

4 Discretização e Linearização 4 Dscretzação e Lnearzação Uma vez defndas as equações dferencas do problema, o passo segunte consste no processo de dscretzação e lnearzação das mesmas para que seja montado um sstema de equações algébrcas

Leia mais

2 Principio do Trabalho Virtual (PTV)

2 Principio do Trabalho Virtual (PTV) Prncpo do Trabalho rtual (PT)..Contnuo com mcroestrutura Na teora que leva em consderação a mcroestrutura do materal, cada partícula anda é representada por um ponto P, conforme Fgura. Porém suas propredades

Leia mais

UNIVERSIDADE DE PERNAMBUCO. Física Experimental. Prof o José Wilson Vieira

UNIVERSIDADE DE PERNAMBUCO. Física Experimental. Prof o José Wilson Vieira UNIVERSIDADE DE PERNAMBUCO ESCOLA POLITÉCNICA DE PERNAMBUCO Físca Expermental Prof o José Wlson Vera wlson.vera@upe.br AULA 01: PROCESSOS DE ANÁLISE GRÁFICA E NUMÉRICA MODELO LINEAR Recfe, agosto de 2015

Leia mais

4.1 Modelagem dos Resultados Considerando Sazonalização

4.1 Modelagem dos Resultados Considerando Sazonalização 30 4 METODOLOGIA 4.1 Modelagem dos Resultados Consderando Sazonalzação A sazonalzação da quantdade de energa assegurada versus a quantdade contratada unforme, em contratos de fornecmento de energa elétrca,

Leia mais

Associação entre duas variáveis quantitativas

Associação entre duas variáveis quantitativas Exemplo O departamento de RH de uma empresa deseja avalar a efcáca dos testes aplcados para a seleção de funconáros. Para tanto, fo sorteada uma amostra aleatóra de 50 funconáros que fazem parte da empresa

Leia mais

Modelo linear normal com erros heterocedásticos. O método de mínimos quadrados ponderados

Modelo linear normal com erros heterocedásticos. O método de mínimos quadrados ponderados Modelo lnear normal com erros heterocedástcos O método de mínmos quadrados ponderados Varâncas homogêneas Varâncas heterogêneas y y x x Fgura 1 Ilustração da dstrbução de uma varável aleatóra y (condconal

Leia mais

Reconhecimento de Padrões

Reconhecimento de Padrões Capítulo 2 Reconhecmento de Padrões 2.1 O que é reconhecmento de padrões? Há duas maneras de se reconhecer e/ou classfcar um padrão [CONNEL, S. D. & JAIN, A. K. (2001)]: () classfcação supervsonada: o

Leia mais

INTRODUÇÃO À PROBABILIDADE. A probabilidade é uma medida da incerteza dos fenômenos. Traduz-se por um número real compreendido de 0 ( zero) e 1 ( um).

INTRODUÇÃO À PROBABILIDADE. A probabilidade é uma medida da incerteza dos fenômenos. Traduz-se por um número real compreendido de 0 ( zero) e 1 ( um). INTRODUÇÃO À PROILIDDE teora das probabldade nada mas é do que o bom senso transformado em cálculo probabldade é o suporte para os estudos de estatístca e expermentação. Exemplos: O problema da concdênca

Leia mais

3. Estatística descritiva bidimensional

3. Estatística descritiva bidimensional 3. Estatístca descrtva bdmensonal (Tabelas, Gráfcos e números) Análse bvarada (ou bdmensonal): avala o comportamento de uma varável em função da outra, por exemplo: Quantas TV Phlps são venddas na regão

Leia mais

Notas Processos estocásticos. Nestor Caticha 23 de abril de 2012

Notas Processos estocásticos. Nestor Caticha 23 de abril de 2012 Notas Processos estocástcos Nestor Catcha 23 de abrl de 2012 notas processos estocástcos 2 O Teorema de Perron Frobenus para matrzes de Markov Consdere um processo estocástco representado por um conunto

Leia mais

5 Formulação para Problemas de Potencial

5 Formulação para Problemas de Potencial 48 Formulação para Problemas de Potencal O prncpal objetvo do presente capítulo é valdar a função de tensão do tpo Westergaard obtda para uma trnca com abertura polnomal (como mostrado na Fgura 9a) quando

Leia mais

Aprendizagem de Máquina

Aprendizagem de Máquina Plano de Aula Aprendzagem de Máquna Aula 4 Alessandro L. Koerch Aprendzagem Bayesana Introdução Teorema de Bayes e Aprendzagem Concetual Classfcador Ótmo de Bayes Algortmo de Gbbs Classfcador Naïe Bayes

Leia mais

NOÇÕES SOBRE CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES

NOÇÕES SOBRE CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES NOÇÕES SOBRE CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES 1 O nosso objetvo é estudar a relação entre duas varáves quanttatvas. Eemplos:. Idade e altura das cranças.. v. Tempo de prátca de esportes e rtmo cardíaco

Leia mais

1. ANÁLISE EXPLORATÓRIA E ESTATÍSTICA DESCRITIVA

1. ANÁLISE EXPLORATÓRIA E ESTATÍSTICA DESCRITIVA 1. ANÁLISE EXPLORATÓRIA E ESTATÍSTICA DESCRITIVA 011 Estatístca Descrtva e Análse Exploratóra Etapas ncas. Utlzadas para descrever e resumr os dados. A dsponbldade de uma grande quantdade de dados e de

Leia mais

ANÁLISE DA VARIÂNCIA DA REGRESSÃO

ANÁLISE DA VARIÂNCIA DA REGRESSÃO ANÁLISE DA VARIÂNCIA DA REGRESSÃO PROCEDIMENTO GERAL DE REGRESSÃO Em um modelo de análse de varânca, como no DIA, o fator em estudo pode ser quanttatvo ou qualtatvo. FATOR QUANTITATIVO: é aquele cujos

Leia mais

UM PROBLEMA ECONOMÉTRICO NO USO DE VARIÁVEIS CLIMÁTICAS EM FUNÇÕES DE PRODUÇÃO AJUSTADAS A DADOS EXPERIMENTAIS

UM PROBLEMA ECONOMÉTRICO NO USO DE VARIÁVEIS CLIMÁTICAS EM FUNÇÕES DE PRODUÇÃO AJUSTADAS A DADOS EXPERIMENTAIS UM PROBLEMA ECONOMÉTRICO NO USO DE VARIÁVEIS CLIMÁTICAS EM FUNÇÕES DE PRODUÇÃO AJUSTADAS A DADOS EXPERIMENTAIS Rodolfo Hoffmann * Vctor Hugo da Fonseca Porto ** SINOPSE Neste trabalho deduz-se qual é o

Leia mais

2 Redes Neurais Auto-Organizáveis

2 Redes Neurais Auto-Organizáveis 2 Redes Neuras Auto-Organzáves 2.1 Introdução Problemas de clusterng estão presentes nos mas varados contetos, como por eemplo: classfcação de padrões, mneração de dados e recuperação de nformações de

Leia mais

CONTROLADORES FUZZY. Um sistema de controle típico é representado pelo diagrama de blocos abaixo:

CONTROLADORES FUZZY. Um sistema de controle típico é representado pelo diagrama de blocos abaixo: CONTROLADORES FUZZY Um sstema de controle típco é representado pelo dagrama de blocos abaxo: entrada ou referênca - erro CONTROLADOR snal de controle PLANTA saída A entrada ou referênca expressa a saída

Leia mais

Cap. IV Análise estatística de incertezas aleatórias

Cap. IV Análise estatística de incertezas aleatórias TLF 010/11 Cap. IV Análse estatístca de ncertezas aleatóras Capítulo IV Análse estatístca de ncertezas aleatóras 4.1. Méda 43 4.. Desvo padrão 44 4.3. Sgnfcado do desvo padrão 46 4.4. Desvo padrão da méda

Leia mais

Estudo e Previsão da Demanda de Energia Elétrica. Parte II

Estudo e Previsão da Demanda de Energia Elétrica. Parte II Unversdade Federal de Paraná Setor de Tecnologa Departamento de Engenhara Elétrca Estudo e Prevsão da Demanda de Energa Elétrca Parte II Prof: Clodomro Unshuay-Vla Etapas de um Modelo de Prevsão Objetvo

Leia mais

Variáveis Aleatórias

Variáveis Aleatórias Unversdade Federal do Pará Insttuto de Tecnologa Estatístca Aplcada I Prof. Dr. Jorge Teóflo de Barros Lopes Campus de Belém Curso de Engenhara Mecânca /08/06 7:39 ESTATÍSTICA APLICADA I - Teora das Probabldades

Leia mais

DIFERENCIANDO SÉRIES TEMPORAIS CAÓTICAS DE ALEATÓRIAS ATRAVÉS DAS TREND STRIPS

DIFERENCIANDO SÉRIES TEMPORAIS CAÓTICAS DE ALEATÓRIAS ATRAVÉS DAS TREND STRIPS 177 DIFERENCIANDO SÉRIES TEMPORAIS CAÓTICAS DE ALEATÓRIAS ATRAVÉS DAS TREND STRIPS Antôno Carlos da Slva Flho Un-FACEF Introdução Trend Strps (TS) são uma nova técnca de análse da dnâmca de um sstema,

Leia mais

3 Método Numérico. 3.1 Discretização da Equação Diferencial

3 Método Numérico. 3.1 Discretização da Equação Diferencial 3 Método Numérco O presente capítulo apresenta a dscretação da equação dferencal para o campo de pressão e a ntegração numérca da expressão obtda anterormente para a Vscosdade Newtonana Equvalente possbltando

Leia mais

Universidade de São Paulo Escola Superior de Agricultura Luiz de Queiroz Departamento de Ciências Exatas

Universidade de São Paulo Escola Superior de Agricultura Luiz de Queiroz Departamento de Ciências Exatas Unversdade de São Paulo Escola Superor de Agrcultura Luz de Queroz Departamento de Cêncas Exatas Prova escrta de seleção para DOUTORADO em Estatístca e Expermentação Agronômca Nome do canddato (a): Questão

Leia mais

2 Fundamentos Teóricos

2 Fundamentos Teóricos Fundamentos Teórcos 2 Fundamentos Teórcos 2. Aprendzado de Máquna Aprendzado de Máquna é uma área de Intelgênca Artfcal cuo obetvo é o desenvolvmento de técncas computaconas sobre o aprendzado bem como

Leia mais

Introdução. Uma lâmpada nova é ligada e observa-se o tempo gasto até queimar. Resultados possíveis

Introdução. Uma lâmpada nova é ligada e observa-se o tempo gasto até queimar. Resultados possíveis Introdução A teora das probabldades é um ramo da matemátca que lda modelos de fenômenos aleatóros. Intmamente relaconado com a teora de probabldade está a Estatístca, que se preocupa com a cração de prncípos,

Leia mais

Q 1-1,5(Q3-Q1) < X i < Q 3 + 1,5(Q 3 -Q 1 ) Q 3 +1,5(Q 3 -Q 1 ) < X i < Q 3 +3(Q 3 -Q 1 ) Q 1 3(Q 3 -Q 1 ) < X i < Q 1 1,5(Q 3 -Q 1 )

Q 1-1,5(Q3-Q1) < X i < Q 3 + 1,5(Q 3 -Q 1 ) Q 3 +1,5(Q 3 -Q 1 ) < X i < Q 3 +3(Q 3 -Q 1 ) Q 1 3(Q 3 -Q 1 ) < X i < Q 1 1,5(Q 3 -Q 1 ) DIGRM OX-PLOT E CRCTERIZÇÃO DE OUTLIERS E VLORES EXTREMOS Outlers e valores extremos são aqueles que estão muto afastados do centro da dstrbução. Uma forma de caracterzá-los é através do desenho esquemátco

Leia mais

Estatística I Licenciatura MAEG 2006/07

Estatística I Licenciatura MAEG 2006/07 Estatístca I Lcencatura MAEG 006/07 AMOSTRAGEM. DISTRIBUIÇÕES POR AMOSTRAGEM.. Em determnada unversdade verfca-se que 30% dos alunos têm carro. Seleccona-se uma amostra casual smples de 0 alunos. a) Qual

Leia mais

Aprendizagem de Máquina

Aprendizagem de Máquina Aprendzagem de Máquna Aprendzado baseado em nstâncas Aprendzado não-paramétrco Quando as suposções fetas por métodos paramétrcos não são váldas para todo o espaço de entrada, provocando erros predtvos

Leia mais

EXERCÍCIO: VIA EXPRESSA CONTROLADA

EXERCÍCIO: VIA EXPRESSA CONTROLADA EXERCÍCIO: VIA EXPRESSA CONTROLADA Engenhara de Tráfego Consdere o segmento de va expressa esquematzado abaxo, que apresenta problemas de congestonamento no pco, e os dados a segur apresentados: Trechos

Leia mais