Exemplos de Aplicações da Teoria das Probabilidades em Biologia. Qual a probabilidade de que o próximo nucleotídeo na seqüência seja A, C, G ou T?

Documentos relacionados
Probabilidade e Estatística Probabilidade Condicional

Noções sobre Probabilidade

Estatística e Modelos Probabilísticos - COE241

BIO-103 Biologia evolutiva

GET00189 Probabilidade I Gabarito da lista de exercícios - Capítulo 1 Profa. Ana Maria Lima de Farias

CAPÍTULO 4 PROBABILIDADE PROBABILIDADE PPGEP Espaço Amostral e Eventos Espaço Amostral e Eventos UFRGS. Probabilidade.

Teoria das Probabilidades

Probabilidade - aula II

Estatística Empresarial. Fundamentos de Probabilidade

TÓPICO. Fundamentos da Matemática II INTRODUÇÃO ÀS PROBABILIDADES14. Licenciatura em Ciências USP/ Univesp. Vanderlei S. Bagnato

Probabilidade - aula II

Uma estatística é uma característica da amostra. Ou seja, se

Probabilidades. Wagner H. Bonat Elias T. Krainski Fernando P. Mayer

INTRODUÇÃO ÀS PROBABILIDADES15

Aula - Introdução a Teoria da Probabilidade

Probabilidade. Ricardo Ehlers Departamento de Matemática Aplicada e Estatística Universidade de São Paulo

Estatística e Modelos Probabilísticos - COE241

Escola de Engenharia de Lorena - USP ESTATÍSTICA

Estatística. Probabilidade. Conteúdo. Objetivos. Definições. Probabilidade: regras e aplicações. Distribuição Discreta e Distribuição Normal.

Teoria das Probabilidades

P(A i ) (n 1) i=1. Sorteia-se um homem desse grupo. Qual é a probabilidade de que seja paulista recém-formado, mas não pediatra?

ELEMENTOS DE PROBABILIDADE. Prof. Paulo Rafael Bösing 25/11/2015

Estatística. Aula : Probabilidade. Prof. Ademar

Estatística Aplicada. Árvore de Decisão. Prof. Carlos Alberto Stechhahn PARTE II. Administração. p(a/b) = n(a B)/ n(b)

Probabilidade. Ricardo Ehlers Departamento de Matemática Aplicada e Estatística Universidade de São Paulo

47 = 1349 (ou multiplicando por 100 para converter para porcentagem: 3,5%).

CE Estatística I

Distribuições Amostrais

Teoria das Probabilidades

1 Noções de Probabilidade

Sumário. 2 Índice Remissivo 12

Probabilidade. Objetivos de Aprendizagem. UFMG-ICEx-EST. Cap. 2 - Probabilidade Espaços Amostrais e Eventos. 2.1.

Universidade Federal de Goiás Instituto de Matemática e Estatística

Teoria das Probabilidades

Introdução à Estatística

BIOMETRIA. Profa. Dra. Mõnica Trindade Abreu de Gusmão

PROBABILIDADE. ENEM 2016 Prof. Marcela Naves

Lista de exercícios Defina o espaço amostral para cada um dos seguintes experimentos aleatórios:

Solução da prova da 1.ª Fase. b) Queremos os números interessantes do tipo ABC6. Isso implica que A x B x C = 6. Temos dois casos a considerar:

Estatística e Modelos Probabilísticos - COE241

2 Conceitos Básicos de Probabilidade

AULA 5 - Independência, Combinatória e

Unidade I ESTATÍSTICA APLICADA. Prof. Mauricio Fanno

Aula 07. Modelos Probabilísticos. Stela Adami Vayego - DEST/UFPR 1

Estatística Aplicada. Prof. Carlos Alberto Stechhahn PARTE I ESPAÇO AMOSTRAL - EVENTOS PROBABILIDADE PROBABILIDADE CONDICIONAL.

Prof.Letícia Garcia Polac. 26 de setembro de 2017

Princípios básicos de probabilidade e aplicação à genética

Probabilidade Condicional

Probabilidade ESQUEMA DO CAPÍTULO. UFMG-ICEx-EST Cap. 2- Probabilidade 1

MA12 - Unidade 18 Probabilidade Condicional

2 a Lista de PE Solução

PROBABILIDADE E ESTATÍSTICA UNIDADE V - INTRODUÇÃO À TEORIA DAS PROBABILIDADES

Se a bola retirada da urna 1 for branca temos, pelo princípio da multiplicação:

Planejamento de Experimentos

EST029 Cálculo de Probabilidade I Cap. 3: Probabilidade Condicional e Independência

Matemática & Raciocínio Lógico

Estatística e Modelos Probabilísticos - COE241

Métodos Estatísticos Básicos

2. INTRODUÇÃO À PROBABILIDADE

Estatística Descritiva. Objetivos de Aprendizagem. 6.1 Sumário de Dados. Cap. 6 - Estatística Descritiva 1. UFMG-ICEx-EST. Média da amostra: Exemplo:

Regras de probabilidades

Estimando probabilidades

REGRAS PARA CÁLCULO DE PROBABILIDADES

Av. Higienópolis, 769 Sobre Loja Centro Londrina PR. CEP: Fones: / site:

Exemplo do Uso da Integração: O valor médio de uma função contínua

Bioestatística: Probabilidade. Prof: Paulo Cerqueira Jr.

AULA 4 -Probabilidade Condicional e Regra de Bayes

VETORES Motivação AULA 19

Probabilidade. É o conjunto de todos os possíveis resultados de um experimento aleatório.

Márcio Nascimento. 19 de fevereiro de 2018

Estatística Descritiva

Universidade Federal de Ouro Preto. Probabilidade e avaliação de testes diagnósticos

2. INTRODUÇÃO À PROBABILIDADE

Universidade Federal de Lavras

Les Estatística Aplicada II AMOSTRA E POPULAÇÃO

Estatística e Probabilidade Aula 04 Probabilidades. Prof. Gabriel Bádue

Estatística e Modelos Probabilísticos - COE241

Aula de hoje. administração. São Paulo: Ática, 2007, Cap. 3. ! Tópicos. ! Referências. ! Distribuição de probabilidades! Variáveis aleatórias

Introdução à Inferência Estatística

Testes de Hipóteses. Ricardo Ehlers Departamento de Matemática Aplicada e Estatística Universidade de São Paulo

2. Probabilidade. Aula 3

Os experimentos que repetidos sob as mesmas condições produzem resultados geralmente diferentes serão chamados experimentos aleatórios.

BIOESTATISTICA. Unidade IV - Probabilidades

Métodos Quantitativos para Ciência da Computação Experimental. Jussara Almeida DCC-UFMG 2013

INTRODUÇÃO À PROBABILIDADE

GABARITO DAS ATIVIDADES

PROBABILIDADE CONDICIONAL E TEOREMA DE BAYES

REGRAS DE PROBABILIDADE

Distribuições Estatísticas

1 Probabilidade: Axiomas e Propriedades

Tipos de estudos epidemiológicos

Modelos Probabilísticos Teóricos Discretos e Contínuos. Bernoulli, Binomial, Poisson, Uniforme, Exponencial, Normal

Resumo. Parte 2 Introdução à Teoria da Probabilidade. Ramiro Brito Willmersdorf Introdução.

Probabilidade - aula III

3. Considere uma amostra aleatória de tamanho 7 de uma normal com média 18. Sejam X e S 2, a média e a variância amostral, respectivamente.

Introdução ao Cálculo de probabilidades

Transcrição:

Exemplos de Aplicações da Teoria das Probabilidades em Biologia Exemplo 1. Suponha que se conheça a seguinte seqüência de nucleotídeos em uma molécula de DNA: AGCTTCCGATCCGCTATAATCGTTAGTTGTTACACCTCTG Qual a probabilidade de que o próximo nucleotídeo na seqüência seja A, C, G ou T? Se não temos a menor idéia sobre a função desse DNA, a melhor hipótese a fazer é a de que as bases são escolhidas aleatoriamente. Podemos tratar a escolha de uma base em cada posição como um experimento em que cada uma das quatro bases pode ocorrer com uma dada probabilidade. Portanto, o espaço amostral de cada experimento neste caso é {C, G, A, T}. Para determinar as probabilidades p(c), p(g), p(a) e p(t) devemos estimá-las a partir dos dados disponíveis que no caso são os resultados dos experimentos realizados previamente (obviamente, esses não são experimentos realizados por nós ou outra pessoa, mas estamos mantendo o termo experimento num abuso de linguagem). Observando a seqüência, vemos que há 8 As, 7 Gs, 11 Cs e 14 Ts. Portanto, estimamos, 8 7 11 14 p ( A) 0,200, p( G) 0,175, p( C) 0,275, p( T) 0,350. Esta é a melhor estimativa que podemos fazer, com base nos resultados dos experimentos prévios. Assim como no caso de se lançar uma moeda ou um dado, quanto mais lançamentos fizermos melhor será nossa estimativa da probabilidade do próximo evento. Neste caso, como só temos a nossa disposição os resultados de experimentos o que foi feito acima é o melhor que se pode fazer. As probabilidades dadas acima são nossas estimativas para as probabilidades de que a 41 a base seja A, ou G, ou C ou T. 1

Exemplo 2. Usando o exemplo da seqüência de bases dado acima, estime as probabilidades de que: a) a próxima base seja uma purina (A ou G); b) a próxima base seja uma pirimidina (C ou T); c) a próxima base não seja uma adenina. Respostas: 15 a) p ( purina) 0,375; 25 b) p ( pirimidina) 0,625; 32 c) p ( não A) 0,800. Essas respostas poderiam ter sido dadas de outras maneiras. Por exemplo, como os eventos A, C, G e T são mutuamente exclusivos (assim que os eventos purina e pirimidina): a) b) p ( purina) p(a ou G) p( A) G) 0,200 + 0,175 0,375; p ( pirimidina ) p(c ou T) p( C) T) 0,275 + 0,350 0,625 1 p( purina) 1 0,375; c) p ( não A) p(c ou G ou T) p( C) G) T) 1 p( A) 1 0,2 0,8. Exemplo 3. Suponha que estamos interessados em estudar mutações no DNA de uma geração para outra. Suponha também que o nosso interesse não seja pelo valor exato da base em uma dada posição da seqüência da molécula, mas pelo tipo da base, se ela é uma purina ou uma pirimidina. Quando, de uma geração para outra, ocorre uma mutação em uma base em uma dada posição da seqüência de DNA que leva uma purina em uma pirimidina ou uma pirimidina em uma purina, chama-se a essa mutação de transversão (quando a mutação apenas troca base sem trocar o seu tipo, ela é chamada de transição). 2

Suponha que se saiba que a cada geração existe 1,5% de chance de que uma base em um determinado sítio numa seqüência de DNA sofra uma transversão. Isso implica que a probabilidade de que não haja qualquer mudança ou de que haja uma transição é de 98,5%. Como o único tipo de mutação que nos interessa aqui é a transversão, podemos escrever: p ( mutação) 0,015, p(não mutação) 0,985. Suponha que queiramos saber o que pode acontecer com aquele sítio particular após duas gerações. As situações possíveis estão ilustradas abaixo: Estime as probabilidades de cada uma das situações possíveis. Na primeira geração, temos 2 possibilidades (mutação ou não mutação). Na segunda geração, temos novamente as duas possibilidades. Sendo assim, o número de possibilidades após duas gerações é, 2 x 2 4. O espaço amostral é: {mutação e mutação, mutação e não mutação, não mutação e mutação, não mutação e não mutação}. As mutações são eventos aleatórios, sem que o DNA tenha memória de quantas mutações ocorreram no passado. Portanto, as mutações que ocorrem em uma geração são independentes das que ocorreram nas gerações anteriores. Lembrando da regra da multiplicação para eventos independentes, p ( A e B) p( A B). p( B) p( A). p( B), 3

podemos estimar as probabilidades de cada uma das quatro possibilidades acima como: p(mutação e mutação) 0,015 x 0,015 0,000225; p(mutação e não mutação) 0,015 x 0,985 0,014775; p(não mutação e mutação) 0,985 x 0,015 0,014775; p(não mutação e não mutação) 0,985 x 0,985 0,970225. Exemplo 4. No exemplo anterior, qual a probabilidade de que não se observe uma mutação (transversão apenas) da base original na geração 0 para a base final na geração 2? Note que o evento não se observar uma mutação é, no fundo, composto de dois casos: (1) não ocorre mutação da geração 0 para a geração 1 e também não ocorre mutação da geração 1 para a geração 2; (2) ocorre mutação da geração 0 para a geração 1 e ocorre mutação da geração 1 para a 2. Note que no segundo caso, o efeito líquido das duas mutação é preservar o tipo original da base (se ela era uma purina, continua sendo, e se era uma pirimidina, também continua sendo). Num caso assim, diz-se que as mutações estão escondidas. Como os eventos (1) e (2) acima são mutuamente excluisivos, a probabilidade de que não se observe mutação é, p(não mutação e não mutação) mutação e mutação) 0,970225 + 0,000225 0,97045. Note que a probabilidade de não se observar uma mutação quando se compara uma base em uma dada posição ao longo de duas gerações é ligeiramente maior do que a probabilidade de que de fato não tenha havido qualquer mutação. 4

O exemplo anterior ilustra o poder da aplicação da teoria das probabilidades à genética e à evolução, pois o resultado obtido não teria sido possível sem o uso das noções de probabilidades vistas nas aulas anteriores. Exemplo 5. Suponha que conheçamos as seguintes seqüências (alinhadas) dos DNAs de um pai (geração 0) e de um filho (geração 1): S 0 : AGCTTCCGATCCGCTATAATCGTTAGTTGTTACACCTCTG S 1 : AGCTTCTGATACGCTATAATCGTGAGTTGTTACATCTCCG Estime p(s 1 T S 0 C) e p(s 1 T e S 0 C). Elas são iguais ou diferentes? Explique o porquê. Para estimar p(s 1 T e S 0 C), vemos que dos sítios (que podemos interpretar como experimentos) existem 2 em que há um T em S 1 e um C em S 0. Portanto, p 2 T e S C) ( S1 0 Para estimar p(s 1 T S 0 C), vemos que há 11 sítios em que ocorre um C em S 0. Desses 11 casos, somente em dois o sítio correspondente em S 1 é um T. Logo, p 2 T S C) 11 ( S1 0 0,05. 0,182. Os dois valores não são iguais e o motivo para isso é que p(s 1 T S 0 C) é uma probabilidade condicional, isto é, deve-se dividir apenas pelo número de casos que satisfazem a condição dada (S 0 C). Exemplo 6. Seja as seguintes seqüências alinhadas de bases de um DNA ancestral e do seu descendente, S 0 : ACTTGTCGGATGATCAGCGGTCCATGCACCTGACAACGGT S 1 : ACATGTTGCTTGACGACAGGTCCATGCGCCTGAGAACGGC 5

Estime os valores das 16 probabilidades condicionais descrevendo todas as possibilidades de substituições (ou não) das bases alinhadas, p ( S1 i S0 j), i, j A, G, C, T. Uma maneira de fazer o que se pede é montando uma matriz com as freqü6encias de ocorrência de cada uma das 16 possibilidades. S 1 \S 0 A G C T A 7 0 1 1 G 1 9 2 0 C 0 2 7 2 T 1 0 1 6 Note que a soma de todos os valores nessa matriz é (um bom teste para verificar se foi cometido algum erro ou não). Note que as somas dos valores em cada coluna dá o número de sítios de S 0 com uma dada base. Portanto, em S 0 há 9 sítios com A, 11 sítios com G, 11 sítios com C e 9 sítios com T. Para calcular as probabilidades condicionais pedidas, basta dividir cada elemento da matriz acima pela soma dos valores na sua coluna. Por exemplo, p 7 A S A) 9 ( S1 0 0,778. Repetindo essa operação para todos os casos, temos (também em forma matricial): S 1 \S 0 A G C T A 0,778 0 0,091 0,111 G 0,111 0,818 0,182 0 C 0 0,182 0,636 0,222 T 0,111 0 0,091 0,667 6

Exemplo 7. As somas dos elementos de cada coluna na matriz do exemplo anterior é 1. Explique o porquê disso. Tomemos como exemplo a primeira coluna, que dá os valores de p(s 1 i S 0 A), i A, G, C, T. A soma dos seus 4 elementos é, p ( S A S0 A) S1 G S0 A) S1 C S0 A) S1 T S0 1 A ). Esta é a soma das probabilidades de todos os resultados possíveis para S 1 dado que S 0 A. Ela cobre todos os eventos do espaço amostral da condição S 0 A. Portanto, sua soma tem que ser 1. O mesmo vale para as outras colunas, partindo, respectivamente, das condições S 0 G, S 0 C e S 0 T. Exemplo 8. Vamos mudar um pouco o tipo de exemplos que estamos usando nesta aula. Imagine uma região rochosa na qual podemos encontrar populações de painade-seda (Asclepias physocarpa) e de lagartas herbívoras. Vamos supor que há dois tipos de paina-de-seda presentes: aquelas que evoluíram substâncias químicas secundárias que as tornam resistentes às lagartas e aquelas que não são resistentes. Vamos chamar as do primeiro grupo de R e as do segundo de não R. Vamos supor que foi feito um levantamento estatístico em um trabalho de campo na região que determinou que, p(r) 0,20 e p(não R) 0,80 1 p(r). Vamos também supor que o mesmo trabalho de campo determinou que a probabilidade de que uma lagarta (L) ocorra em uma área (de um dado tamanho padrão) é de 0,7, ou seja: p(l) 0,70 e p(não L) 0,30 1 p(l). Vamos supor que o seguinte modelo ecológico para as lagartas e as painas-de-seda é válido: as lagartas e as painas-de-seda podem se dispersar por toda a região rochosa (que vamos supor como dividida em áreas com o tamanho padrão). 7

Uma população de paina-de-seda pode sempre persistir quando está em uma área onde não há lagartas, mas onde há lagartas apenas as do tipo resistente podem persistir. Inicialmente, as painas-de-seda e as lagartas colonizam áreas da região rochosa independentemente umas das outras 1. A partir dessas hipóteses, construa uma tabela dando as probabilidades de todas as possibilidades envolvendo presença conjunta ou não de painas-de-seda e lagartas em uma área. A partir da tabela, estime a probabilidade de encontrar uma população de paina-de-seda em uma área. Supondo que a paina-de-seda se espalhe por toda a região rochosa, temos duas possibilidades para uma dada área: ou ela contém uma população resistente (R), ou não resistente (não R). Com relação às lagartas, ou uma dada área contém lagartas (L), ou não contém (não L). Portanto, podemos montar a tabela 2x2 mostrada abaixo. Nos cruzamentos entre as linhas e colunas são colocadas as respectivas probabilidades de cada possibilidade conjunta. Como os eventos são supostamente independentes, essas probabilidades são calculadas como o produto das probabilidades individuais. Paina-de-seda\Lagarta L Não L R p(r) x p(l) 0,2 x 0,7 0,14 p(r) x p(não L) 0,2 x 0,3 0,06 Não R p(não R) x p(l) 0,8 x 0,7 0,56 p(não R) x p(não L) 0,8 x 0,3 0,24 1 Esta é uma hipótese que não é verdadeira em muitos casos. Na realidade, muita biologia interessante acontece quando se viola a hipótese de independência. Por exemplo, muitas espécies de borboletas e mariposas adultas são bastante seletivas e procuram áreas contendo plantas hospedeiras apropriadas para depositar seus ovos. Conseqüentemente, a ocorrência de lagartas pode não ser independente do tipo de planta em uma área. Num outro exemplo, a presença de herbívoros aumenta a pressão seletiva para a evolução de plantas resistentes. Além do mais, muitas espécies de plantas possuem as chamadas defesas químicas facultativas, que são acionadas apenas quando herbívoros aparecem. Conseqüentemente, a ocorrência de populações resistentes pode não ser independente da presença de herbívoros. Nesses casos, faz-se necessário o uso de probabilidades condicionais. 8

A conseqüência de termos uma área com paina-de-seda não resistente e com lagartas é que não haverá paina-de-seda naquela área. Por outro lado, se houver paina-de-seda resistente e lagartas, haverá paina-de-seda na área. Igualmente, áreas sem lagartas e com paina-de-seda (resistentes ou não) terão paina-de-seda. Isso pode ser resumido na tabela abaixo. Paina-de-seda\Lagarta L Não L R Com paina-de-seda e lagartas p 0,14 Com paina-de-seda e sem lagartas p 0,06 Não R Sem paina-de-seda e com lagartas p 0,56 Com paina-de-seda e sem lagartas p 0,24 Note que a soma das quatro probabilidades é 1, como deve ser. A probabilidade de se encontrar paina-de-seda em uma dada área é a soma das probabilidades dos casos em que há paina-de-seda na área: p(presença de paina-de-seda) 0,14 + 0,06 + 0,24 0,44. Portanto, apesar de a probabilidade de resistência ser de apenas 20%, esperamos encontrar paina-de-seda em 44% das áreas da região rochosa. O motivo disso é que nem todas as áreas com paina-de-seda não resistente são atingidas por lagartas. 9