REI - Revisa Elerôica de isemas de Iformação, Edição 9, N o 3, 6 Aálise Esaísica o Diagósico de Doeças s Paulo Parício da ilva, Kahya ilvia Collazos Liares, Crisia Mara M. M. Parício 3 Agêcia Esadual de Regulação de erviços Públicos de Mao Grosso do ul (AGEPAN), Rua Barão do Rio Braco 9 - CEP: 79-75 - Campo Grade M Brasil paulosilva@agepa.ms.gov.br Laboraório de Ieligêcia Arificial, Elerôica de Poêcia e Elerôica Digial - DEL/CCET/UFM Cidade Uiversiária - CEP 797-9 - Campo Grade M - Brasil,, 3 kay@balab.ufms.br crisia@balab.ufms.br Resumo Na área da saúde, precisa-se de méodos maemáicos que permiam afirmar ou egar, a parir de dados clíicos, a ifluêcia ou ão de deermiado sioma o desevolvimeo ou aparecimeo de uma doeça. O Tese de hipóese é um méodo esaísico que permie avaliar amosras ou comparar amosras de populações idepedees. Nese rabalho apresea-se a aálise de um baco de dados sobre diagósico de doeças do coração uilizado o ese de hipóese visado deermiar quais siomas iflueciam o perceual de esreiameo da aréria pricipal. Para al uiliza-se a base de dados de doeças do coração dispoibilizados pelo reposiório de dados da UCI Machie Learig Reposiory. Palavras-chave: Aálise esaísica, Tese de hipóese, Doeças do coração. Absrac I healh area are eeded mahemaical mehods ha allow o affirm or o dey, sarig from cliical daa, he ifluece or o of cerai sympom i he developme or emergece of a disease. The hypohesis Tes is a saisical mehod ha allows o evaluae samples or o compare samples of idepede populaios. I his work is preseed he aalysis of a daabase o hear diseases diagosis usig he hypohesis es seekig o deermie which sympoms ifluece i he perceage of arery arrowig. For ha, he daabase of hear diseases, available i he reposiory of daa of UCI Machie Learig Reposiory, is used. Key-words: aisical aalysis, Hypohesis es, Hearh disease. Irodução A eoria epidemiológica em de levar em cosideração odos os faores de ermiaes de codições que possibiliem a ocorrêcia dos feômeos que dizem respeio à saúde coleiva. E al realidade, ao pode ser objeiva como subjeiva, a realidade deverá ser a combiação dos dois cohecimeos. Assim sedo, a meodologia de esudo obedecerá a orieação que em sido diada pela experiêcia, propiciado resposas úeis para a solução de imporaes problemas de saúde pública [5]. A epidemiologia em dois ramos a descriiva e a aalíica, esa úlima egloba os esudos de associação ere faos observáveis, mediaa ou imediaamee relacioáveis as doeças, e esas, visas sob o poo de visa de sua icidêcia sobre grupos populacioais. eu objeivo maior, que preside e dá seido ao pesameo desevolvido sob sua coberura, é o cohecimeo das causas deermiaes das doeças, que afeam grupos sigificaivos de pessoas [, ]. Esudos epidemiológicos de doeças cardíacas dizem respeio a faores progósicos e sobrevida [3, 6, 4] ere ouros. Ereao, a aálise de dados de paciees diagosicados aida ão é defiiivo, uma das dificuldades reside a diversidade geéica. Há populações ode uma regra é válida e ouras ode ão o é. Um exemplo diso é a icerícia eoaal, quado o sioma apresea-se cojuamee com escurecimeo da uria e clareameo das fezes idica uma colesase eoaal. edo ecessário um diagósico precoce para eviar o desevolvimeo de cirrose e isuficiêcia
REI - Revisa Elerôica de isemas de Iformação, Edição 9, N o 3, 6 hepáica [3]. Ereao a raça asiáica a icerícia eoaal é freqüee e ão ecessariamee esa associada à colesase eoaal, equao que em ouras raças somee o fao de apresear icerícia já seria um idicador suficiee para o diagósico precoce. O Tese de hipóese é um méodo esaísico que permie provar se uma afirmação dada é válida ou ão dero de um cojuo de dados. Durae a avaliação clíica de um paciee coleam-se dados que permiem ao clíico chegar a um diagósico. Ereao muias vezes, ão é uma arefa simples deermiar as similaridades ere paciees com um mesmo diagósico. A aálise esaísica de um cojuo de paciees pode permiir avaliar quais aribuos poderiam ser os deermiaes em um diagósico clíico [7]. O presee arigo realiza uma avaliação esaísica dos dados clíicos dispoibilizados pela UCI Machie Learig Reposiory []. Tais dados foram coleados e orgaizados o Isiuo Húgaro de Cardiologia, Budapese, resposável Adras Jaosi; Hospial Uiversiário de Zurique, uíça, resposável William eibru, M.D.; Hospial Uiversiário de Basiléia, uíça, resposável Mahias Pfiserer, M.D.; V.A. Medical Ceer, Log Beach, Califória e Fudação Clíica de Clevelad, resposável Rober Derao, M.D. eles publicaram o uso de um modelo de fução discrimiae para calcular probabilidades de doeça coroária agiográfica edo sucesso o diagósico dos paciees com sídromes de dor de órax e prevalêcia de doeça iermediária [4]. Trabalhos, abordado a eficiêcia de algorimos de apredizado a preseça de aribuos irrelevaes ambém uilizaram esas bases de dados []. A deermiação da relevâcia de aribuos em uma base de dados pode ser realizada uilizado méodos esaísicos. Nese arigo uiliza-se o Tese F para deermiar variâcias iguais e poseriormee aplica-se o ese -ude para deermiar se as médias das amosras são iguais. Comparam-se amosras do mesmo baco de dados, caracerizadas por er esreiameo maior ou meor do que o 5% da aréria pricipal, com o objeivo de deermiar quais dos aribuos iflueciam essa caracerísica. Fudameação Teórica A aálise de uma população é feia ravés do esudo de uma amosra da população devido muias vezes à complexidade ou impossibilidade de se aalisar a população complea. A aálise feia uilizado méodos esaísicos iicia a amosragem da população, para poseriormee realizar o cálculo das esaísicas e iferêcia de parâmeros. Muias vezes é ecessário decidir se uma afirmação feia acerca de um parâmero deve-se aceiar ou rejeiar. Esa afirmação é deomiada de hipóese, e, o procedimeo para a omada de decisão sobre a hipóese é deomiado Tese de hipóese. Ese é um dos aspecos mais úeis da iferêcia esaísica, dado que em diversas áreas e em paricular a área da saúde podem ser formulados algus problemas como eses de hipóeses [, 8, 9]. Quado se deseja realizar iferêcia esaísica para duas populações idepedees, a siuação geral é mosrada a Figura. Ode, a população em média µ e variâcia σ, equao que a população em média µ e variâcia σ. Iferêcias serão baseadas em duas amosras de amahos e respecivamee. Ou seja, x, x,..., x é uma amosra aleaória de observações proveiees da população e x, x,..., x é uma amosra aleaória de observações proveiees da população. Os eses de hipóeses que podem ser usados para aalisar os parâmeros são os eses: -ude e o ese F. Nesses dois eses devem se er como suposições que: x, x,..., x, é uma amosra aleaória proveiee da população ; x, x,..., x, é uma amosra aleaória proveiee da população ; As duas populações represeadas por X e X são idepedees; Ambas as populações são ormais ou se elas ão forem ormais, as codições do eorema ceral do limie se aplicam. Figura - Duas populações idepedees. Tese de hipóese para a difereça as médias com variâcias descohecidas Variâcias iguais, σ = σ = σ : o ese -ude é uilizado para esar a hipóese da difereça ere as médias de duas populações. upodo que se êm duas populações, com médias cohecidas µ e µ, e variâcias descohecidas e iguais, em-se: Hipóese ula: H : µ = µ, Hipóese aleraiva: H : µ µ Tese esaísico: ( X X) = () a Ode: = amaho da amosra ; = amaho da amosra ; X = média da amosra ; X = média da amosra ; = variâcia da amosra ;
REI - Revisa Elerôica de isemas de Iformação, Edição 9, N o 3, 6 3 = variâcia da amosra ; a = variâcia agregada das duas amosras, calculada por: ( ) s ( ) s a = () O grau de liberdade esa dado por: gl = O criério de rejeição, para o ese bilaeral, esa dado por: > α /, ou > α /,, como mosrado a Figura. e aceia a hipóese H quado a área ecorada o ese for maior que α /, ocorredo o corário a evidêcia esaísica apoa para a hipóese H. Figura - Disribuição para o ese -ude Bilaeral Variâcias diferees, σ σ : quado ão podemos assumir que as variâcias descohecidas são iguais para esar a hipóese H :µ =µ, uiliza-se o seguie ese esaísico: ( X X) * = (3) O úmero de graus de liberdade dado por: ν = ( ) ( ) eguem-se os mesmos criérios de rejeição e aceiação da hipóese ula H que o caso aerior, exceo pelo fao de que * é usada como esaísica de ese e é subsiuído por v a deermiação do grau de liberdade para o ese. (4) população ormal com média µ e variâcia σ. upõe-se que ambas as populações são idepedees. ejam razão: e as variâcias das amosras. Eão a σ F = (5) σ Têm uma disribuição F, com graus de liberdade o umerador e graus de liberdade o deomiador. Esse resulado é baseado o fao de que ( ) σ é uma variável aleaória qui-quadrado com graus de liberdade, que ( ) σ é uma variável aleaória qui-quadrado com graus de liberdade e que as duas populações ormais sejam idepedees. Iso sujeia à hipóese ula de H : σ = σ à razão F = com uma disribuição F. O procedimeo de ese é como segue: Hipóese ula: H : σ = σ Hipóese aleraiva: H: σ σ Tese esaísico: f = (6) Ode: = variâcia da amosra de elemeos; = variâcia da amosra elemeos; O grau de liberdade esa dado por: u= = grau de liberdade o umerador; v= = grau de liberdade o deomiador. O criério de rejeição para o ese bilaeral esa dado por: f > f α,, ou f < f α /,,. Ode: f = f α /, uv, = f (7) α /, vu, f = fα /, uv, (8) ão os poos perceuais α / superior e iferior, respecivamee, da disribuição F, como mosrado a Figura 3.. Tese de hipóese para a razão de duas variâcias O procedimeo para ese de hipóese da igualdade de duas variâcias baseia-se o seguie resulado: eja x, x,..., x uma amosra aleaória de uma população ormal com média µ e variâcia σ, e seja x, x,..., x, uma amosra aleaória de uma seguda Figura 3 - Disribuição F para o ese bilaeral
REI - Revisa Elerôica de isemas de Iformação, Edição 9, N o 3, 6 4 3 Meodologia Os bacos de dados uilizados ese esudo foram: da Fudação Clíica de Clevelad com 33 paciees, do Isiuo Húgaro de Cardiologia, Budapese com 94 paciees e do V. A. Medical Ceer, Log Beach, Califória com paciees [UCI]. Cada arquivo coém 76 aribuos, mas apeas 4 foram uilizados as pricipais pesquisas publicadas. O aribuo cosiderado para a decisão é o aribuo Diagósico que se refere à preseça da doeça de coração o paciee. Ese dado é um campo de valor ieiro que assume valores o iervalo de [-4]. As aálises compleas dos paciees levaram os médicos a disiguir, para cada um deles a preseça de doeça em íveis,, 3 e 4 da ausêcia valor. A seguir dealham-se a descrição complea dos 4 aribuos mais ciados as publicações: Idade em aos; exo: = fêmea, = macho; Tipo de doeça: = agia ípica, = agia aípica, 3 = sem agia, 4 = assiomáico; Pressão do ague em repouso (mmhg a admissão ao hospial); Coleserol- (mg/dl); Açúcar o sague: > (mg/dl) (=verdadeiro; =falso); Resulado do elerocardiograma em repouso: =ormal; =aomalia da oda do segmeo T-T (iversão da oda T e/ou elevação do segmeo T ou depressão maior que,5 mv); = mosrado hiperrofia vericular esquerda (provável ou defiiiva) aravés do criério ETE; Taxa máxima de baimeos cardíacos alcaçada; Agia iduzida pelo exercício: = ão, = sim; T depressão, iduzida pelo exercício em relação ao repouso; Icliação da rampa o exercício T: = icliado para cima, = sem icliação, 3 = icliado para baixo; Número de arérias pricipais (-3) coloridas pela fluoroscopia; aus do coração: 3= ormal; 6 = problema permaee; 7 = problema reversível; Diagósico da doeça de coração (agiographic disease saus): =esreiameo < 5%, = esreiameo > 5%. A Tabela apresea o resumo para diagósico dos paciees avaliados para cada Baco de Dados. Para ese esudo foram escolhidos quaro aribuos: Idade; Pressão agüíea em Repouso; Coleserol- e Taxa Máxima de Baimeos Cardíacos. Opou-se por descarar o baco de dados uíço por er apeas 8 paciees com esreiameo meor que 5% e o baco de dados de Log Beach por er apeas 3 paciees com esreiameo < 5% cora 79 > 5%. Também foram descaradas dos ouros bacos de dados, as lihas de arquivo com fala de dados ou com valor igual à zero para algum dos aribuos escolhidos. Esabeleceu-se assim para cada baco, duas amosras de paciees: uma com maior probabilidade de aaque cardíaco e oura com meor probabilidade. Tabela Diagósico dos paciees após complea avaliação médica Baco de Dados Diagósico dos paciees com esreiameo da aréria pricipal Toal 3 4 Clevelad 64 55 36 35 3 33 Húgaro 88 37 6 8 5 94 uíço 8 48 3 3 5 3 Log Beach 5 56 4 4 A abela mosra a ova cofiguração dos dados. Tabela Cofiguração das Bases após a Limpeza de dados Baco de Dados Diagósico dos Paciees com Esreiameo da Aréria Pricipal Toal < 5% > 5% Clevelad 64 39 33 Húgaro 69 7 4 Resulados Para o baco de dados Clevelad calcularam-se as médias e dispersões dos aribuos de aálise, como mosrado a Tabela 3. Tabela 3 Média e dispersão para o baco de dados Clevelad Diagósico dos Paciees com Aribuo Esreiameo da Aréria Pricipal < 5% > 5% Idade 5.59 ± 9.5 56.63 ± 7.94 Pressão do ague 9.5 ± 6. 34.57 ± 8.77 Coleserol- 4.64 ± 53.45 5.47 ± 49.49 Freqüêcia 58.38 ± 9. 39.6 ±.59 Logo, foi aplicado o ese F com ível de sigificâcia de 5% ( α =,5 ) esado a variâcia das duas amosras, uilizaram-se as equações (6), (7) e (8), os resulados mosram-se a Tabela 4. Tabela 4 Tese F os dados de Clevelad Pressão Coleserol- Freqüêcia Idade do ague f.4357.345.669.3848 P.44.356.75.8 Após a cofirmação da hipóese ula para as variâcias ( H : σ = σ ); aplicou-se o ese -ude
REI - Revisa Elerôica de isemas de Iformação, Edição 9, N o 3, 6 5 com ível de sigificâcia de 5% para esar a difereça ere as médias ( H : µ = µ ). Para Pressão do ague e Coleserol-, cosiderou-se variâcias iguais ( σ = σ ) ver Tabela 5. Tabela 5 Tese -ude para variâcias iguais Pressão do ague Coleserol- -.647 -.489 P.85.39 Para Idade e Freqüêcia cardíaca, as evidêcias esaísicas rejeiaram a hipóese ula, porao, uilizouse o ese -ude para variâcias diferees ( σ ) ver Tabela 6. σ Tabela 6 Tese -ude para variâcias diferees Idade Freqüêcia * 3.9838 7.599 P.. Para o iervalo de cofiaça de 95% adoado, o ese bilaeral mosrou que as evidêcias esaísicas ão rejeiaram a hipóese ula apeas para o aribuo Coleserol-, ou seja, há uma difereça real ere as médias das amosras dos demais aribuos. Para o baco de dados Húgaro obeve-se a média e dispersão dos aribuos de aálise, como mosrado a Tabela 7, poseriormee fez-se o ese F para verificar se as amosras iham variâcias iguais, os resulados do ese mosram-se a Tabela 8. Tabela 7 Média e dispersão para o baco de dados Húgaro Diagósico dos Paciees com Aribuo esreiameo da Aréria Pricipal < 5% > 5% Idade 46.89 ± 7.96 49.7 ± 7.33 Pressão do ague 3.54 ± 6.6 35.74 ± 8.69 Coleserol- 39.55 ± 56.6 69.9 ± 79.9 Freqüêcia 45.8 ±.83 9.6 ±.78 Tabela 8 Tese F o baco de dados Húgaro Pressão Freqüêcia Idade do Coleserol- ague f.8.656.99.884 P.8.897..38 Como mosrado a Tabela 8 para o aribuo Coleserol rejeia-se a hipóese de variâcias iguais. Realizou-se o ese -ude de forma similar ao caso aerior, os resulados mosram-se a Tabela 9 e. O ese de hipóese comparaivo para as médias de ambas as amosras esudadas (Tabelas 9 e ), resulou a rejeição da hipóese ula para odos os aribuos, ou seja, há uma difereça real ere as médias das amosras de Idade, Pressão aguíea, Coleserol- e Freqüêcia. Tabela 9 Tese -ude para variâcias iguais Idade Pressão do ague Freqüêcia -.4469 -.3734 5.7739 P.5.83. Tabela Tese -ude para variâcias diferees Coleserol- * -.766 P.64 5 Discussão e Coclusões O uso da aálise esaísica permiiu iferir a ifluêcia do aribuo Coleserol- para o baco de dados Clevelad. Observa-se que equao o ese F assialava dispersões iguais para os aribuos Coleserol- e Freqüêcia cardíaca, somee o aribuo Coleserol- passou o ese -ude. Já para o baco de dados Húgaro o ese F assialou o Coleserol- como um aribuo com dispersões diferees, e o ese -ude ehum aribuo passou o ese. Descarou-se a ifluêcia dos aribuos em aálise o maior ou meor perceual de esreiameo da aréria pricipal. É possível que a disribuição das amosras ão seja ormal, cosiderado que exise uma classificação para diagósicos cofirmados em quaro graus [-4]. Assim, uma ova aálise uilizado eses ão-paraméricos e cosiderado as amosras por grau de diagósico deverá ser feia. Agradecimeos Ese rabalho foi parcialmee fiaciado pela CAPE. Referêcias [] AHA, D. W.; KIBLER, D.; ALBERT, M. K.: Isace-Based learig algorihms. Machie Learig 6, 99, 37-66. [] BARBETTA, P. A.: Esaísica Aplicada às Ciêcias ociais. Floriaópolis: UFC, 5ª edição, 3. [3] DALY, C.; NORRIE J.; MURDOCH, D.L.; FORD, I.; DARGIE, H.J.; FOX, K. E TIBET sudy group: The value of rouie o-ivasive ess o predic cliical oucome i sable agia. Europea Hear Joural 4, 6, 3, 53-54. [4] DETRANO, R.; JANOI, A.; TEINBRUNN, W.; PFITERER, M.; CHMID, JJ.; ANDHU,.; GUPPY, K. H.; LEE,.; FROELICHER, V.: Ieraioal applicaio of a ew probabiliy algorihm for he diagosis of coroary arery disease. America Joural of Cardiology 64, 5,
REI - Revisa Elerôica de isemas de Iformação, Edição 9, N o 3, 6 6 989, 34-3. [5] FORATTINI, O. P.: Epidemiologia Geral. ão Paulo: Ares Médicas, ª edição, 996. [6] GULATI, M.; PANDEY, D. K.; ARNDORF, M. F.; LAUDERDALE, D..; THITED, R. A.; WICKLUND, R. H.; AL-HANI, A. J.; BLACK, H. R.: Exercise Capaciy ad he Risk of Deah i Wome: The James Wome Take Hear Projec. Circulaio Joural of he America Hear Associaio 8, 3, 3, 554 559. [7] MAAD, E.; MENEZE, R. X.; ILVEIRA, P.. P.; ORTEGA, N. R..: Méodos Quaiaivos em Medicia. ão Paulo: Maole, 4. [8] MONTGOMERY, C. D. e RUNGER, G. C.: Esaísica Aplicada e Probabilidade para Egeheiros. Rio de Jaeiro: LTC, ª edição, 3. [9] MOYA, R.; ARAVIA, G.: Probabilidad e Iferecia Esadísica. Lima-Perú: Ediorial a Marcos, ª Edição, 988. [] NAAR,. M.: isema Esaísico Ieligee para Apoio a Pesquisas Médicas, Tese de Douorado em Egeharia Elérica, UFC, 995. [] ROUQUAYROL, M. Z.: Epidemiologia & aúde. Ediado com auxilio do CNPq. Foraleza: Impresso a Uiversidade de Foraleza, 983. [] UCI Machie Learig Reposiory: Daabases i hear-disease. hp://www.ics.uci.edu/~mlear/daabases/heardise ase/ (/ou./6) [3] WIKIPEDIA: Icerícia Neoaal. hp://p.wikipedia.org/wiki/icerícia (/ou./6) [4] WYN, W.; MUCHAERT-BEAUTHIER, E.; VAN DOMBURG, R.; LUBEN, J.; ROUEAU, M. F.; COYN, J.; DETRY, J. M. R.: Progosic value of sympom limied exercise esig i me wih a high prevalece of coroary arery disease. Europea Hear Joural 6,, 985, 939-945.