O PARADOXO DE SIMPSON

Documentos relacionados
Número-índice: Conceito, amostragem e construção de estimadores

Prova Escrita de MATEMÁTICA A - 12o Ano a Fase

Capítulo VII: Soluções Numéricas de Equações Diferenciais Ordinárias

DERIVADAS DE FUNÇÕES11

2. COMBINAÇÃO LINEAR E DEPENDÊNCIA LINEAR DE VETORES

Capítulo II - Sucessões e Séries de Números Reais

Material Teórico - Módulo Binômio de Newton e Triangulo de Pascal. Soma de Elementos em Linhas, Colunas e Diagonais. Segundo Ano do Ensino Médio

Material Teórico - Módulo Binômio de Newton e Triangulo de Pascal. Soma de Elementos em Linhas, Colunas e Diagonais. Segundo Ano do Ensino Médio

Virgílio Mendonça da Costa e Silva

MATEMÁTICA II. Profa. Dra. Amanda Liz Pacífico Manfrim Perticarrari

Cap. VI Histogramas e Curvas de Distribuição

Fundamentos de Análise Matemática Profª Ana Paula. Números reais

Cap. 4 - Estimação por Intervalo

Capítulo 5- Introdução à Inferência estatística.

2.2. Séries de potências

DESIGUALDADES, LEIS LIMITE E TEOREMA DO LIMITE CENTRAL. todas as repetições). Então, para todo o número positivo ξ, teremos:

ESTIMAÇÃO DA PROPORÇÃO POPULACIONAL p

1 Distribuições Amostrais

CINÉTICA QUÍMICA FATORES DE INFLUÊNCIA - TEORIA

CONCEITOS BÁSICOS E PRINCÍPIOS DE ESTATÍSTICA

Secção 1. Introdução às equações diferenciais

PROJETO E ANÁLISES DE EXPERIMENTOS (PAE) PROJETO FATORIAL 2 k COMPLETO E REPLICADO. Dr. Sivaldo Leite Correia

Parte 3: Gráfico de Gestão de Estoque. Gráficos e Cálculos Fundamentais

Estimação de parâmetros da distribuição beta-binomial: uso do programa SAS e uma aplicação a dados obtidos da Escala P-DUREL

O teste de McNemar. A tabela 2x2. Depois - Antes

FICHA de AVALIAÇÃO de MATEMÁTICA A 11.º Ano Versão 4

FICHA de AVALIAÇÃO de MATEMÁTICA A 11.º Ano Versão 2

Capítulo I Séries Numéricas

Taxas e Índices. Ana Maria Lima de Farias Dirce Uesu Pesco

Teste de Hipóteses Paramétricos

1.1. Ordem e Precedência dos Cálculos 1) = Capítulo 1

b) Fabrico de peças cilíndricas Capítulo 5 - Distribuições conjuntas de probabilidades e complementos X - comprimento da peça Y - diâmetro da peça

Séquências e Séries Infinitas de Termos Constantes

CONHECIMENTOS ESPECÍFICOS

Provas de Matemática Elementar - EAD. Período

Sumário. 2 Índice Remissivo 19

Comparação de testes paramétricos e não paramétricos aplicados em delineamentos experimentais

A finalidade de uma equação de regressão seria estimar valores de uma variável, com base em valores conhecidos da outra.

Problemas Sobre Correlacionamento

Exame MACS- Inferência-Intervalos.

Cálculo Diferencial e Integral I Resolução do 2 ō Teste - LEIC

FICHA de AVALIAÇÃO de MATEMÁTICA A 11.º Ano Versão 1

Representação em espaço de estado de sistemas de enésima ordem. Função de perturbação não envolve termos derivativos.

Uma relação entre sincronização no mapa do círculo e os números racionais

Universidade Federal de Lavras Departamento de Estatística Prof. Daniel Furtado Ferreira 1 a Aula Prática Técnicas de somatório

Mas o que deixou de ser abordado na grande generalidade desses cursos foi o estudo dos produtos infinitos, mesmo que só no caso numérico real.

ESTATÍSTICA. PROF. RANILDO LOPES U.E PROF EDGAR TITO

3. Seja C o conjunto dos números complexos. Defina a soma em C por

Introdução. Exemplos. Comparar três lojas quanto ao volume médio de vendas. ...

Exercícios de Aprofundamento Matemática Progressão Aritmética e Geométrica

SEEC UNIVERSIDADE DO ESTADO DO RIO GRANDE DO NORTE UERN FACULDADE DE CIÊNCIAS EXATAS E NATURAIS FANAT DEPARTAMENTO DE CIÊNCIAS BIOLÓGICAS DECB

Séries e aplicações15

DETERMINANDO A SIGNIFICÂNCIA ESTATÍSTICA PARA AS DIFERENÇAS ENTRE MÉDIAS

Stela Adami Vayego DEST/UFPR

AULA 17 A TRANSFORMADA Z - DEFINIÇÃO

S E Q U Ê N C I A S E L I M I T E S. Prof. Benito Frazão Pires. Uma sequência é uma lista ordenada de números

Critérios de Avaliação e Cotação

Introdução a Complexidade de Algoritmos

Função Logarítmica 2 = 2

lim Px ( ) 35 x 5 ), teremos Px ( ) cada vez mais próximo de 35 (denotaremos isso da forma Px ( ) 35 ). UNIVERSIDADE FEDERAL DA PARAÍBA CAMPUS IV-CCAE

DISTRIBUIÇÃO AMOSTRAL E ESTIMAÇÃO PONTUAL INTRODUÇÃO ROTEIRO POPULAÇÃO E AMOSTRA. Estatística Aplicada à Engenharia

Sucessões. , ou, apenas, u n. ,u n n. Casos Particulares: 1. Progressão aritmética de razão r e primeiro termo a: o seu termo geral é u n a n1r.

CPV O cursinho que mais aprova na fgv

Distribuições de Estatísticas Amostrais e Teorema Central do Limite

Métodos de Amostragem

( 1,2,4,8,16,32,... ) PG de razão 2 ( 5,5,5,5,5,5,5,... ) PG de razão 1 ( 100,50,25,... ) PG de razão ½ ( 2, 6,18, 54,162,...

Transcrição:

O PARADOXO DE SIMPSON Valmir R. Silva Adre Toom PIBIC-UFPE-CNPq Itrodução A aálise cietífica de dados através da modelagem matemática é uma atividade idispesável a Teoria de Decisão. O mesmo coceito é utilizado a Física Estatística para fazer decisões sobre o comportameto de sistemas complexos com muitas partes iteragetes, etre os quais o exemplo muito utilizado é com autômatos celulares. Para tato, é ecessário que os métodos empregados sejam cosistetes com a realidade e possam explicar com clareza qual coclusão sobre um determiado feômeo é verdadeira. Mas, possíveis problemas dessa aálise surgiram ao se estudar uma população por completo e em partes separadas. Verificou-se a existêcia de dualidade a iterpretação dos dados, idepedetemete do tamaho da amostra, o que recebeu o ome de Paradoxo de Simpso. Uma defiição é dada por David Moore s: O paradoxo de Simpso cosulta à reversão do setido de uma comparação ou de uma associação quado os dados de diversos grupos são combiados para dar forma a um úico grupo. Uma importate cotextualização é feita aalisado-se os dados do quadro seguite que correspode ao efeito de m ovo remédio. Residetes a cidade Não residetes a cidade Tratados Não tratados Tratados Não tratados Vivos 110 9 73 688 Mortos 982 171 4 670 É de iteresse etão poder afimar sobre a eficácia do ovo medicameto. O procedimeto seguite é usual e aceito por especialistas. 1

Seja X e Y 2 fatores. Y Sobrevivêcia X Tratameto com um remédio Tratados Não Tratados Y = 1 a b Vivos Y = 0 c d Mortos X = 0 X = 1 Defii-se o coeficiete de correlação ρ X,Y etre os fatores da seguite forma ρ X,Y = bc ad (a + b)(a + c)(b + d)(c + d) Se ρ X,Y < 0 cocluimos que o remédio é bom; Se ρ X,Y > 0 cocluimos que o remédio é mal. Aplica-se etão este coceito aos dados do quadro de tratameto. Agrupase os residetes e ão residetes a cidade de acordo com as características em comum com ambos. Tratados Não tratados Vivos 183 697 Mortos 986 841 Iterpretado pelo coeficiete de correlação podemos cocluir que o remédio é mal. Pois ρ X,Y > 0. O iteressate destes dados de que dispomos é que se X 1 e Y 1 represetam os residetes a cidade, e X 2 com Y 2 os fora da cidade, algo especial acotece: ρ X1,Y 1 < 0 e ρ X2,Y 2 < 0. Ou seja, podemos cocluir que o remédio é bom!!! Etão temos um paradoxo. Os mesmos dados permitem coclusões opostas se aplicamos procedimetos diferetes, aida que todos estes procedimetos são aceitos a Estatística. Neste poto é importate termos uma opiião resposável sobre o tratameto 2

com o remédio. Deverá ser realizado com mais pacietes ou iterrompido? Estamos diate de uma impossibilidade para decidir, o que é o Paradoxo de Simpso. 1 Estudo umérico do Paradoxo de Simpso 1.1 Apresetação probabilística do Paradoxo Seja (X, Y ) variável aleatória bi-dimesioal, ode X {0, 1} e Y {0, 1}. Y = 1 X = 0, Y = 1 X = 1, Y = 1 Y = 0 X = 0, Y = 0 X = 1, Y = 0 X = 0 X = 1 O espaço amostral de (X, Y ) é : {(0, 0), (0, 1), (1, 0), (1, 1)} Cosidere o quadro seguite formado por (X 1, Y 1 ), que represeta os residetes a cidade, e (X 2, Y 2 ), para os fora da cidade. Ambas variáveis aleatórias bi-dimesioais com o mesmo espaço amostral de (X, Y ). Residetes a cidade Não residetes a cidade Tratados Não tratados Tratados Não tratados Vivos a 1 b 1 a 2 b 2 Mortos c 1 d 1 c 2 d 2 Ode a 1, a 2, b 1, b 2, c 1, c 2, d 1, d 2 R +. Descrevemos abaixo as distribuições de probabilidades de (X 1, Y 1 ) e (X 2, Y 2 ), tedo com argumetos os valores do quadro aterior. 3

P (X 1 = x, Y 1 = y) = P (X 2 = x, Y 2 = y) = (0, 0) com prob (0, 1) com prob (1, 0) com prob (1, 1) com prob (0, 0) com prob (0, 1) com prob (1, 0) com prob (1, 1) com prob c 1 a 1 +b 1 +c 1 +d 1 a 1 a 1 +b 1 +c 1 +d 1 d 1 a 1 +b 1 +c 1 +d 1 b 1 a 1 +b 1 +c 1 +d 1 c 2 a 2 +b 2 +c 2 +d 2 a 2 a 2 +b 2 +c 2 +d 2 d 2 a 2 +b 2 +c 2 +d 2 b 1 a 2 +b 2 +c 2 +d 2 Um fato importate este estudo é que aparece aturalmete uma ova operação aplicada para duas variáveis aleatórias, a qual produz uma ova variável aleatória. Em osso caso todas estas variáveis aleatórias são bidimesioais, mas a mesma operação pode ser aplicada para variáveis aleatórias de todas as dimesões. Como ão ecotramos os livros didáticos esta operação vamos os referir a ela como sedo a Mistura etre as variáveis aleatória. Defiimos a Mistura (X 3, Y 3 ) de (X 1, Y 1 ) e (X 2, Y 2 ), ambas com o mesmo espaço amostral, da seguite forma Escolhe-se (X 1, Y 1 ) com probabilidade p Escolhe-se (X 2, Y 2 ) com probabilidade 1 p 4

a Ode p é dado por 1 +b 1 +c 1 +d 1 a 1 +b 1 +c 1 +d 1 +a 2 +b 2 +c 2 +d 2. Logo, obtemos uma ova variável aleatória com o espaço amostral igual ao iicial. 1.2 Defiição do Paradoxo Seja (X 1, Y 1 ), (X 2, Y 2 ) e (X 3, Y 3 ) variáveis aleatórias bi-dimesioais, ode (X 3, Y 3 ) é mistura de (X 1, Y 1 ) e (X 2, Y 2 ). Dizemos que o Paradoxo acotece quado as três codições seguites são satisfeitas Para (X 1, Y 1 ) temos ρ X1,Y 1 < 0 Para (X 2, Y 2 ) temos ρ X2,Y 2 < 0 Para (X 3, Y 3 ) temos ρ X3,Y 3 > 0 1.3 Números iguais de residetes e ão residetes com a preseça do Paradoxo Algumas pessoas que ivestigavam o paradoxo achava que seria impossível a sua ocorrêcia quado o múmero de residetes e ão residetes cosiderados fossem iguais. Um cotra-exemplo para esta suposição é apresetado abaixo. Seja S 1 o total de residetes a cidades: S 1 = a 1 + b 1 + c 1 + d 1 Seja S 2 o total de ão residetes: S 2 = a 2 + b 2 + c 2 + d 2 Para tato é suficiete atribuírmos os seguites valores as variáveis. (a 1 = 1; b 1 = 4; c 1 = 1; d 1 = 5; ) S 1 = 11 (a 2 = 1; b 2 = 1; c 2 = 4; d 2 = 5; ) S 2 = 11 Neste caso S 1 = S 2. No etato, o paradoxo está presete. Observe Em (X 1, Y 1 ) temos ρ X1,Y 1 = 0.04 Em (X 2, Y 2 ) temos ρ X2,Y 2 = 0.04 Em (X 3, Y 3 ) temos ρ X3,Y 3 = 0.13 5

1.4 Maximizado o coeficiete de correlação O máximo valor absoluto etre os coeficietes de correlação das variáveis (X 1, Y 1 ), (X 2, Y 2 ) e (X 3, Y 3 ), max( ρ X1,Y 1, ρ X2,Y 2, ρ X1,Y 1 ), é obtido as seguites codições + δ 1 + 2 = 2 + δ 2 + 1 2 1 + δ 2 + 1 2 + δ Quado,ρ V1 0, ρ V2 0, ρ V3 1. 1.5 Lemas Lema 1 Quado metade das pessoas são submetidas ao tratameto, tato para a cidade como fora dela, o Paradoxo de Simpso ão ocorre. Prova Sob suposição do Lema 1 os dados podem ser apresetados como o quadro abaixo. Residetes a cidade Não residetes a cidade Tratados Não tratados Tratados Não tratados Vivos p 1 q 1 r 1 s 1 Mortos p 1 q 1 r 1 s 1 Dividimos tudo por e itroduzimos p,q,r e s defiidos assim: p 1 = p q 1 = q r 1 = r s 1 = s 0 p, q, r, s 1 p 1 = 1 p q 1 = 1 q + q = p 1 = q p 1 r 1 = (1 p) + (1 r) (1 q) + (1 s) p + r q + s = 1 r s 1 = 1 s r 1 s = r 1 = s 6

Na preseça do paradoxo temos: q(1 p) p(1 q) > 0 q p > 0 s(1 r) r(1 s) > 0 s r > 0 Dessas duas iequações podemos cocluir que (q + s) (p + r) > 0 Na seguda parte temos: [(1 p) + (1 r)](q + s) [(1 q) + (1 s)](p + r) < 0 [2 (p + r)](q + s) [2 (q + s)](p + r) < 0 Fazedo a = p + r e b = q + s (2 a)b (2 b)a < 0 b a < 0 Substituido a e b chegamos a uma cotradição com o primeiro resultado. (q + s) (p + r) < 0. Logo o paradoxo ão pode acotecer este caso. Lema 1 está provado. Lema 2 O Paradoxo de Simpso ão ocorre quado a quatidade de vivos e mortos são iguais a cidade e fora dela. Prova Através da suposição do paradoxo e as codições estabelecidas o Lema 2 podemos represetar os dados o quadro abaixo. Residetes a cidade Não residetes a cidade Tratados Não tratados Tratados Não tratados Vivos p 1 p 1 r 1 r 1 Mortos q 1 q 1 s 1 s 1 Dividido cada úmero por e itroduzido p, q, r e s defiidos por p 1 = p p 1 q 1 = q r 1 = r = 1 p p 1 = p + = 1 q q 1 = q q 1 s 1 = s 0 p, q, r, s 1 r 1 = (1 p) + (1 r) p + r (1 q) + (1 s) q + s 7 = 1 r r 1 = r s 1 = 1 s s 1 = s

Aplicado a defiição do paradoxo ao primeiro membro da igualdade (1 p)q (1 q)p > 0 q p > 0 (1) (1 r)s (1 s)r > 0 s r > 0 Repetido o procedimeto para o segudo membro [(1 q) + (1 s)](p + r) [(1 p) + (1 r)](q + s) > 0 [2 (q + s)](p + r) [2 (p + r)](q + s) > 0 p + r q s > 0 (q p) (s r) > 0 (2) De acordo com (1) os úmeros etre parêteses devem ser positivos, porém em (2) para que a soma seja positiva eles devem ser egativos. Temos assim uma cotradição. O Lema 2 está provado. 1.6 Aálise da estrutura do Paradoxo de Simpso Para o diagrama abaixo o Paradoxo de Simpso está presete. Assim a combiação dos quadros faz com que haja uma mudaça a correlação do quadro resultate. a 1 b 1 + a 2 b 2 = a 1 + a 2 b 1 + b 2 c 1 d 1 c 2 d 2 c 1 + c 2 d 1 + d 2 Aplicado a defiição do paradoxo temos a 1 d 1 b 1 c 1 > 0 a 2 d 2 b 2 c 2 > 0 (b 1 + b 2 )(c 1 + c 2 ) (a 1 + a 2 )(d 1 + d 2 ) > 0 a 1 b 1 c 1 d 1 8

Referêcias [1] Coli R. Blyth, O Simpso s Paradox ad the sure-thig priciple ; Theory & Methods Sectio, Joural of America Satistical Associatio, Vol.67(1972)pp.364-366. [2] Wager B. Adriola, Descrição dos Pricipais Métodos para Detectar o Fucioameto Diferecial dos Ites (DIF), Psicologia: Reflexão e Crítica,2001,14(3), pp.643-652. [3] Chug, Kai Lai, Elemetary Probability Theory with Stochastic Processes. Spriger-Verlag. [4] DeGroot, Morris H., Probability ad Statistics. Addiso-Wesley Series i Statistics. [5] Ricardo B. A. e Silva, Descoberta de Cohecimeto em Bases de Dados e Mieração de Dados ; Material dispoibilizado a págia do autor; e-mail rbas@di.ufpe.br. [6] Alex Alves Freitas, Notas de aula da disciplia Data Miig ; Programa de Pós-Graduação em Iformática Aplicada PUC-PR,2000. [7] Iglesias, C.L.; López, M.E.; Sáchez, P., Dimesioalidade da capacidade ecoômica as comarcas Galegas ; Revista Galega de Ecoomia, Vol.9, 2(2000), pp.67-90. 9