O PARADOXO DE SIMPSON Valmir R. Silva Adre Toom PIBIC-UFPE-CNPq Itrodução A aálise cietífica de dados através da modelagem matemática é uma atividade idispesável a Teoria de Decisão. O mesmo coceito é utilizado a Física Estatística para fazer decisões sobre o comportameto de sistemas complexos com muitas partes iteragetes, etre os quais o exemplo muito utilizado é com autômatos celulares. Para tato, é ecessário que os métodos empregados sejam cosistetes com a realidade e possam explicar com clareza qual coclusão sobre um determiado feômeo é verdadeira. Mas, possíveis problemas dessa aálise surgiram ao se estudar uma população por completo e em partes separadas. Verificou-se a existêcia de dualidade a iterpretação dos dados, idepedetemete do tamaho da amostra, o que recebeu o ome de Paradoxo de Simpso. Uma defiição é dada por David Moore s: O paradoxo de Simpso cosulta à reversão do setido de uma comparação ou de uma associação quado os dados de diversos grupos são combiados para dar forma a um úico grupo. Uma importate cotextualização é feita aalisado-se os dados do quadro seguite que correspode ao efeito de m ovo remédio. Residetes a cidade Não residetes a cidade Tratados Não tratados Tratados Não tratados Vivos 110 9 73 688 Mortos 982 171 4 670 É de iteresse etão poder afimar sobre a eficácia do ovo medicameto. O procedimeto seguite é usual e aceito por especialistas. 1
Seja X e Y 2 fatores. Y Sobrevivêcia X Tratameto com um remédio Tratados Não Tratados Y = 1 a b Vivos Y = 0 c d Mortos X = 0 X = 1 Defii-se o coeficiete de correlação ρ X,Y etre os fatores da seguite forma ρ X,Y = bc ad (a + b)(a + c)(b + d)(c + d) Se ρ X,Y < 0 cocluimos que o remédio é bom; Se ρ X,Y > 0 cocluimos que o remédio é mal. Aplica-se etão este coceito aos dados do quadro de tratameto. Agrupase os residetes e ão residetes a cidade de acordo com as características em comum com ambos. Tratados Não tratados Vivos 183 697 Mortos 986 841 Iterpretado pelo coeficiete de correlação podemos cocluir que o remédio é mal. Pois ρ X,Y > 0. O iteressate destes dados de que dispomos é que se X 1 e Y 1 represetam os residetes a cidade, e X 2 com Y 2 os fora da cidade, algo especial acotece: ρ X1,Y 1 < 0 e ρ X2,Y 2 < 0. Ou seja, podemos cocluir que o remédio é bom!!! Etão temos um paradoxo. Os mesmos dados permitem coclusões opostas se aplicamos procedimetos diferetes, aida que todos estes procedimetos são aceitos a Estatística. Neste poto é importate termos uma opiião resposável sobre o tratameto 2
com o remédio. Deverá ser realizado com mais pacietes ou iterrompido? Estamos diate de uma impossibilidade para decidir, o que é o Paradoxo de Simpso. 1 Estudo umérico do Paradoxo de Simpso 1.1 Apresetação probabilística do Paradoxo Seja (X, Y ) variável aleatória bi-dimesioal, ode X {0, 1} e Y {0, 1}. Y = 1 X = 0, Y = 1 X = 1, Y = 1 Y = 0 X = 0, Y = 0 X = 1, Y = 0 X = 0 X = 1 O espaço amostral de (X, Y ) é : {(0, 0), (0, 1), (1, 0), (1, 1)} Cosidere o quadro seguite formado por (X 1, Y 1 ), que represeta os residetes a cidade, e (X 2, Y 2 ), para os fora da cidade. Ambas variáveis aleatórias bi-dimesioais com o mesmo espaço amostral de (X, Y ). Residetes a cidade Não residetes a cidade Tratados Não tratados Tratados Não tratados Vivos a 1 b 1 a 2 b 2 Mortos c 1 d 1 c 2 d 2 Ode a 1, a 2, b 1, b 2, c 1, c 2, d 1, d 2 R +. Descrevemos abaixo as distribuições de probabilidades de (X 1, Y 1 ) e (X 2, Y 2 ), tedo com argumetos os valores do quadro aterior. 3
P (X 1 = x, Y 1 = y) = P (X 2 = x, Y 2 = y) = (0, 0) com prob (0, 1) com prob (1, 0) com prob (1, 1) com prob (0, 0) com prob (0, 1) com prob (1, 0) com prob (1, 1) com prob c 1 a 1 +b 1 +c 1 +d 1 a 1 a 1 +b 1 +c 1 +d 1 d 1 a 1 +b 1 +c 1 +d 1 b 1 a 1 +b 1 +c 1 +d 1 c 2 a 2 +b 2 +c 2 +d 2 a 2 a 2 +b 2 +c 2 +d 2 d 2 a 2 +b 2 +c 2 +d 2 b 1 a 2 +b 2 +c 2 +d 2 Um fato importate este estudo é que aparece aturalmete uma ova operação aplicada para duas variáveis aleatórias, a qual produz uma ova variável aleatória. Em osso caso todas estas variáveis aleatórias são bidimesioais, mas a mesma operação pode ser aplicada para variáveis aleatórias de todas as dimesões. Como ão ecotramos os livros didáticos esta operação vamos os referir a ela como sedo a Mistura etre as variáveis aleatória. Defiimos a Mistura (X 3, Y 3 ) de (X 1, Y 1 ) e (X 2, Y 2 ), ambas com o mesmo espaço amostral, da seguite forma Escolhe-se (X 1, Y 1 ) com probabilidade p Escolhe-se (X 2, Y 2 ) com probabilidade 1 p 4
a Ode p é dado por 1 +b 1 +c 1 +d 1 a 1 +b 1 +c 1 +d 1 +a 2 +b 2 +c 2 +d 2. Logo, obtemos uma ova variável aleatória com o espaço amostral igual ao iicial. 1.2 Defiição do Paradoxo Seja (X 1, Y 1 ), (X 2, Y 2 ) e (X 3, Y 3 ) variáveis aleatórias bi-dimesioais, ode (X 3, Y 3 ) é mistura de (X 1, Y 1 ) e (X 2, Y 2 ). Dizemos que o Paradoxo acotece quado as três codições seguites são satisfeitas Para (X 1, Y 1 ) temos ρ X1,Y 1 < 0 Para (X 2, Y 2 ) temos ρ X2,Y 2 < 0 Para (X 3, Y 3 ) temos ρ X3,Y 3 > 0 1.3 Números iguais de residetes e ão residetes com a preseça do Paradoxo Algumas pessoas que ivestigavam o paradoxo achava que seria impossível a sua ocorrêcia quado o múmero de residetes e ão residetes cosiderados fossem iguais. Um cotra-exemplo para esta suposição é apresetado abaixo. Seja S 1 o total de residetes a cidades: S 1 = a 1 + b 1 + c 1 + d 1 Seja S 2 o total de ão residetes: S 2 = a 2 + b 2 + c 2 + d 2 Para tato é suficiete atribuírmos os seguites valores as variáveis. (a 1 = 1; b 1 = 4; c 1 = 1; d 1 = 5; ) S 1 = 11 (a 2 = 1; b 2 = 1; c 2 = 4; d 2 = 5; ) S 2 = 11 Neste caso S 1 = S 2. No etato, o paradoxo está presete. Observe Em (X 1, Y 1 ) temos ρ X1,Y 1 = 0.04 Em (X 2, Y 2 ) temos ρ X2,Y 2 = 0.04 Em (X 3, Y 3 ) temos ρ X3,Y 3 = 0.13 5
1.4 Maximizado o coeficiete de correlação O máximo valor absoluto etre os coeficietes de correlação das variáveis (X 1, Y 1 ), (X 2, Y 2 ) e (X 3, Y 3 ), max( ρ X1,Y 1, ρ X2,Y 2, ρ X1,Y 1 ), é obtido as seguites codições + δ 1 + 2 = 2 + δ 2 + 1 2 1 + δ 2 + 1 2 + δ Quado,ρ V1 0, ρ V2 0, ρ V3 1. 1.5 Lemas Lema 1 Quado metade das pessoas são submetidas ao tratameto, tato para a cidade como fora dela, o Paradoxo de Simpso ão ocorre. Prova Sob suposição do Lema 1 os dados podem ser apresetados como o quadro abaixo. Residetes a cidade Não residetes a cidade Tratados Não tratados Tratados Não tratados Vivos p 1 q 1 r 1 s 1 Mortos p 1 q 1 r 1 s 1 Dividimos tudo por e itroduzimos p,q,r e s defiidos assim: p 1 = p q 1 = q r 1 = r s 1 = s 0 p, q, r, s 1 p 1 = 1 p q 1 = 1 q + q = p 1 = q p 1 r 1 = (1 p) + (1 r) (1 q) + (1 s) p + r q + s = 1 r s 1 = 1 s r 1 s = r 1 = s 6
Na preseça do paradoxo temos: q(1 p) p(1 q) > 0 q p > 0 s(1 r) r(1 s) > 0 s r > 0 Dessas duas iequações podemos cocluir que (q + s) (p + r) > 0 Na seguda parte temos: [(1 p) + (1 r)](q + s) [(1 q) + (1 s)](p + r) < 0 [2 (p + r)](q + s) [2 (q + s)](p + r) < 0 Fazedo a = p + r e b = q + s (2 a)b (2 b)a < 0 b a < 0 Substituido a e b chegamos a uma cotradição com o primeiro resultado. (q + s) (p + r) < 0. Logo o paradoxo ão pode acotecer este caso. Lema 1 está provado. Lema 2 O Paradoxo de Simpso ão ocorre quado a quatidade de vivos e mortos são iguais a cidade e fora dela. Prova Através da suposição do paradoxo e as codições estabelecidas o Lema 2 podemos represetar os dados o quadro abaixo. Residetes a cidade Não residetes a cidade Tratados Não tratados Tratados Não tratados Vivos p 1 p 1 r 1 r 1 Mortos q 1 q 1 s 1 s 1 Dividido cada úmero por e itroduzido p, q, r e s defiidos por p 1 = p p 1 q 1 = q r 1 = r = 1 p p 1 = p + = 1 q q 1 = q q 1 s 1 = s 0 p, q, r, s 1 r 1 = (1 p) + (1 r) p + r (1 q) + (1 s) q + s 7 = 1 r r 1 = r s 1 = 1 s s 1 = s
Aplicado a defiição do paradoxo ao primeiro membro da igualdade (1 p)q (1 q)p > 0 q p > 0 (1) (1 r)s (1 s)r > 0 s r > 0 Repetido o procedimeto para o segudo membro [(1 q) + (1 s)](p + r) [(1 p) + (1 r)](q + s) > 0 [2 (q + s)](p + r) [2 (p + r)](q + s) > 0 p + r q s > 0 (q p) (s r) > 0 (2) De acordo com (1) os úmeros etre parêteses devem ser positivos, porém em (2) para que a soma seja positiva eles devem ser egativos. Temos assim uma cotradição. O Lema 2 está provado. 1.6 Aálise da estrutura do Paradoxo de Simpso Para o diagrama abaixo o Paradoxo de Simpso está presete. Assim a combiação dos quadros faz com que haja uma mudaça a correlação do quadro resultate. a 1 b 1 + a 2 b 2 = a 1 + a 2 b 1 + b 2 c 1 d 1 c 2 d 2 c 1 + c 2 d 1 + d 2 Aplicado a defiição do paradoxo temos a 1 d 1 b 1 c 1 > 0 a 2 d 2 b 2 c 2 > 0 (b 1 + b 2 )(c 1 + c 2 ) (a 1 + a 2 )(d 1 + d 2 ) > 0 a 1 b 1 c 1 d 1 8
Referêcias [1] Coli R. Blyth, O Simpso s Paradox ad the sure-thig priciple ; Theory & Methods Sectio, Joural of America Satistical Associatio, Vol.67(1972)pp.364-366. [2] Wager B. Adriola, Descrição dos Pricipais Métodos para Detectar o Fucioameto Diferecial dos Ites (DIF), Psicologia: Reflexão e Crítica,2001,14(3), pp.643-652. [3] Chug, Kai Lai, Elemetary Probability Theory with Stochastic Processes. Spriger-Verlag. [4] DeGroot, Morris H., Probability ad Statistics. Addiso-Wesley Series i Statistics. [5] Ricardo B. A. e Silva, Descoberta de Cohecimeto em Bases de Dados e Mieração de Dados ; Material dispoibilizado a págia do autor; e-mail rbas@di.ufpe.br. [6] Alex Alves Freitas, Notas de aula da disciplia Data Miig ; Programa de Pós-Graduação em Iformática Aplicada PUC-PR,2000. [7] Iglesias, C.L.; López, M.E.; Sáchez, P., Dimesioalidade da capacidade ecoômica as comarcas Galegas ; Revista Galega de Ecoomia, Vol.9, 2(2000), pp.67-90. 9