Resumo - capítulo 3 - Alinhamento de pares de sequências

Tamanho: px
Começar a partir da página:

Download "Resumo - capítulo 3 - Alinhamento de pares de sequências"

Transcrição

1 Resumo - capítulo 3 - Alinhamento de pares de sequências Pedro Ivo Gomes de Faria Sumário 1 Introdução Definição de alinhamento de sequências Alinhamento global Alinhamento local Significância do alinhamento de sequências Visão geral dos métodos para alinhamento de sequências Alinhamento de pares de sequências Alinhamento múltiplo de sequências Métodos Comparação de sequências por matrizes de pontos Comparação de sequências duas a duas Repetições de sequências Repetições de um único símbolo da sequência Algoritmo de programação dinâmica para o alinhamento de sequências Descrição do algoritmo Descrição formal do algoritmo de programação dinâmica Programação dinâmica pode prover alinhamentos de sequências locais ou globais Um programa de alinhamento local sempre produz um alinhamento local e um programa de alinhamento global sempre produz um alinhamento global? Desenvolvimento adicional e uso do algoritmo de programação dinâmica para alinhamentos de sequências Uso de matrizes de pontuação e penalidades para lacunas em alinhamentos de sequências Matrizes de substituição de aminoácidos

2 2.3.2 Matrizes de pontuação de ácidos nucleicos PAM Penalidades para lacunas Combinações ótimas de matrizes de pontuação e penalidades para lacunas na descoberta de proteínas relacionadas Avaliando a significância de alinhamentos de sequência Significância de alinhamentos globais Modelando um alinhamento de sequências de DNA aleatórias Alinhamentos com lacunas A distribuição do valor extremo de Gumbel Determinação da significância da pontuação de um alinhamento A importância do tipo de matriz de pontuação para análises estatísticas Significância de alinhamentos locais com lacunas Métodos para calcular os parâmetros da distribuição do valor extremo A significância estatística de pontuações de alinhamentos individuais entre sequências e a significância de pontuações encontradas em uma busca em um banco de dados são calculados de forma diferente Alinhamento de sequências e estimação da distância evolutiva por métodos estatísticos bayesianos Introdução à estatística bayesiana Aplicação da estatística bayesiana à análise de sequências Distância evolutiva bayesiana Algoritmos bayesianos para alinhamento de sequências 25 2

3 1 Introdução 1.1 Definição de alinhamento de sequências O alinhamento de sequências é a comparação de duas ou mais sequências buscando uma série de caracteres individuais ou padrões de caracteres que estejam na mesma ordem nas duas sequências. Caracteres idênticos ou similares são dispostos na mesma coluna, enquanto os não idênticos podem ser colocados na mesma coluna (casamento sem êxito) ou opostos a uma lacuna na outra sequência Alinhamento global No alinhamento global é feita uma tentativa de alinhar toda a sequência, usando quantos caracteres forem possíveis, até ambos os terminais de cada sequência. Sequências similares e aproximadamente do mesmo tamanho são candidatas apropriadas para o alinhamento global Alinhamento local No alinhamento local, regiões das sequências com a maior densidade de casamentos são alinhadas, gerando uma ou mais ilhas de casamentos ou subalinhamentos. O alinhamento para nas extremidades dessas regiões, e sua descoberta possui maior prioridade do que a extensão do alinhamento para incluir pares de aminoácidos vizinhos. É apropriado para sequências com regiões de similaridade descontínuas, que difiram em tamanho ou que compartilhem um domínio ou região conservada. 1.2 Significância do alinhamento de sequências O alinhamento de sequências é útil para descobrir informação funcional, estrutural e evolucionária em sequências biológicas. Para tanto, é necessário descobrir o alinhamento ótimo. Sequências muito parecidas (similares) provavelmente têm a mesma função e, se forem de organismos diferentes, são definidas como homólogas caso tenha existido uma sequência que seja ancestral de ambas. A similaridade de sequências pode ser um indício de várias possíveis relações de ancestralidade, inclusive a ausência de uma origem comum. Por exemplo, pensa-se que a evolução gênica ocorra após a duplicação em tandem de um mesmo gene, seguida por mutações nas cópias e evolução por vias separadas (especiação). 3

4 Outra complicação no rastreamento da origem de sequências similares é a de que genes individuais podem não compartilhar a mesma origem do resto do genoma em que estão. Eventos genéticos como simbioses e transduções induzidas por vírus podem causar transferência horizontal de material genético entre organismos não-relacionados (em tais casos, as histórias evolutivas do organismo e da sequência transferida serão diferentes). 1.3 Visão geral dos métodos para alinhamento de sequências Alinhamento de pares de sequências O alinhamento de duas sequências pode ser feito por análise de matrizes de pontos, programação dinâmica ou métodos de palavras ou de k-tuplas. A análise de matrizes de pontos mostra possíveis alinhamentos como diagonais na matriz, e pode facilmente revelar a presença de inserções, deleções ou repetições que são mais difíceis de encontrar por outros métodos mais automatizados. Sua principal limitação é a de não mostrar um alinhamento de fato. Na programação dinâmica, um alinhamento é gerado começando nos terminais das duas sequências e é estendido tentando casar todos os pares possíveis de caracteres entre as sequências (de acordo com algum esquema de pontuação). Isso gera uma matriz numérica, cujo maior conjunto de pontuações em sequência define um alinhamento ótimo. O método sempre encontra um alinhamento ótimo (algo provado matematicamente) para um dado conjunto de variáveis definidas pelo usuário (incluindo a matriz de pontuação e as penalidades para as lacunas). Os métodos de palavras ou de k-tuplas (usados pelo BLAST ou pelo FASTA) procuram por pequenas regiões idênticas das sequências (palavras ou k-tuplas) e as unem em um alinhamento pelo método de programação dinâmica. Esses métodos são rápidos o suficiente para fazer uma busca num banco de dados inteiro pela sequência que melhor se alinhe com a consulta Alinhamento múltiplo de sequências A partir de um alinhamento múltiplo de três ou mais sequências proteicas, os resíduos altamente conservados que definem domínios estruturais e funcionais em famílias de proteínas podem ser identificados. Apesar do grande valor de um alinhamento múltiplo, a sua obtenção é um problema difícil computacionalmente. 4

5 2 Métodos 2.1 Comparação de sequências por matrizes de pontos Uma análise de uma matriz de pontos é basicamente um método de comparação de duas sequências para procurar por possíveis alinhamentos entre as mesmas. O método também é usado para encontrar repetições diretas ou inversas (por exemplo, 5 -GACTGC... GCAGTC-3 ) em sequências de proteínas e de DNA, além de predizer regiões no RNA que são autocomplementares (e, portanto, possuem o potencial para formar uma estrutura secundária) Comparação de sequências duas a duas No método de matrizes de pontos para comparação de sequências, uma sequência (A) é listada acima da primeira linha da matriz e a outra sequência (B) é listada ao lado da primeira coluna. Começando com o primeiro caractere de B, move-se pela primeira linha colocando um ponto nas colunas cujo caractere correspondente em A seja igual ao caractere de B analisado (nesse caso, o primeiro). Faz-se o procedimento análogo com segundo caractere de B (colocando os pontos na segunda linha da matriz) e assim por diante. Regiões de similaridade são indicadas por segmentos diagonais, enquanto pontos isolados representam casamentos aleatórios que provavelmente não são significativos. A detecção das regiões de casamentos pode ser melhorada filtrando os casamentos aleatórios, utilizando uma janela deslizante (de tamanho prédefinido). A janela compara posições adjacentes nas duas sequências ao mesmo tempo, imprimindo um ponto na página apenas se um número mínimo de casamentos (a estringência) ocorrer. Para sequências de DNA deve-se usar janelas extensas (de comprimento 7 ou 11) e estringência elevada (igual a 11 ou 15), pois como existem apenas 4 nucleotídeos é alto o número de casamentos aleatórios. Por outro lado, para proteínas costuma-se utilizar janelas curtas (de comprimento 1) e baixa estringência (igual a 1), pois existem basicamente 20 aminoácidos diferentes (o que reduz bastante os casamentos aleatórios) Repetições de sequências A análise de matrizes de pontos também pode servir para encontrar repetições diretas e inversas em sequências (incluindo as de cromossomos inteiros), analisando uma determinada sequência em oposição a ela mesma. Repetições 5

6 diretas também podem ser achadas fazendo alinhamento de sequências por métodos de programação dinâmica Repetições de um único símbolo da sequência A análise de matrizes de pontos também pode revelar a presença de repetições de um único caractere, que são responsáveis por criar alinhamentos com pontuações artificialmente altas (um problema similar acontece nas regiões com baixa alternância de caracteres, chamadas regiões de baixa complexidade). Essas repetições ficam aparentes na matriz de pontos de uma proteína em oposição a ela mesma através de segmentos verticais de pontos que se fundem a padrões retangulares ou quadriculares. 2.2 Algoritmo de programação dinâmica para o alinhamento de sequências O método de programação dinâmica compara todos os pares de caracteres de duas sequências e gera um alinhamento ótimo (com o maior número possível casamentos entre caracteres idênticos ou relacionados), que provê informações úteis aos biólogos para predições funcionais, estruturais e evolutivas. Programas de alinhamentos globais são baseados no algoritmo de Needleman- Wunsch, enquanto os de alinhamentos locais são baseados no de Smith- Waterman. O alinhamento receberá uma pontuação, e existem métodos para calcular se ele é ou não estatisticamente significante. Na hora de fazer um alinhamento de sequências, é importante ter em mente o objetivo da análise, pois esse irá influenciá-la. Várias decisões devem ser feitas, incluindo o tipo de programa, de alinhamento (local ou global), a matriz de pontuação e as penalidades para as lacunas Descrição do algoritmo O alinhamento de duas sequências sem lacunas requer um algoritmo que faz um número de comparações proporcional ao quadrado do comprimento médio das sequências. Para alinhamentos que permitem lacunas em posições arbitrárias, métodos de comparação direta exigem um número astronômico de comparações (enquanto algoritmos de programação dinâmica ainda exigem proporcional ao produto do comprimento das sequências). A qualidade do alinhamento entre duas sequências é calculada por um sistema de pontuação que favorece o casamento de caracteres idênticos ou relacionados e penaliza lacunas ou caracteres pouco relacionados. Essas pontuações são determinadas a partir das seguintes probabilidades: 6

7 1. de que um particular caractere seja encontrado em alinhamentos de sequências relacionadas; 2. de que um mesmo par esteja alinhado ao acaso nas sequências (pois alguns resíduos podem ser abundantes nas sequências e outros raros); 3. de que a inserção de uma lacuna de um ou mais resíduos em uma das sequências (forçando o alinhamento de cada componente do par com outro caractere) seria uma melhor escolha. A proporção das duas primeiras probabilidades é comumente fornecida por uma matriz de substituição (como a BLOSUM e a PAM), em que cada entrada dá a taxa (pontuação das chances) da frequência observada de substituição de pares de resíduos de sequências relacionadas em relação à esperada por acaso. Essas taxas são transformadas em seus logaritmos (pontuação do logaritmo das chances), de modo que pontuações de pares diferentes possam ser adicionadas para representar a chance global de um alinhamento ter acontecido ao acaso ou não Descrição formal do algoritmo de programação dinâmica Sejam a = a 1 a 2... a n e b = b 1 b 2... b n duas sequências, S ij = S(a 1 a 2... a i, b 1 b 2... b j ) a pontuação do alinhamento ótimo entre a 1 a 2... a i e b 1 b 2... b j, s(a i b j ) a pontuação por alinhar a i com b j, w x a penalidade para uma lacuna de comprimento x na sequência a e w y a penalidade para uma lacuna de comprimento y na sequência b. Logo, temos que S ij = max S i 1,j 1 + s(a i b j ); max (S i x,j w x ); x 1 max (S i,j y w y ) y 1 Notando que S 11 = s(a 1 b 1 ), temos uma descrição quase completa do algoritmo. Quando todas as posições da matriz (todos os S ij ) forem calculados, a pontuação do alinhamento ótimo entre a e b estará em S nn. Para determinar qual é o alinhamento ótimo a partir da matriz S, uma segunda matriz T (a de rastreamento reverso) é usada. Cada entrada T ij da matriz armazena qual entrada da matriz S contribuiu para a pontuação ótima armazenada em S ij Programação dinâmica pode prover alinhamentos de sequências locais ou globais Alinhamento global: algoritmo de Needleman-Wunsch 7

8 O método de programação dinâmica descrito acima fornece um alinhamento global de sequências, como descrito por Needleman e Wunsch (1970). O algoritmo irá maximizar o número de casamentos entre as sequências por toda a extensão das duas. Alinhamento local: algoritmo de Smith-Waterman Uma modificação do algoritmo de Needleman-Wunsch pode encontrar alinhamentos locais de sequências, que normalmente são mais significativos do que os globais por incluir padrões que estão conservados nas sequências. Sendo H ij = H(a 1 a 2... a i, b 1 b 2... b j ) a pontuação do alinhamento ótimo entre a 1 a 2... a i e b 1 b 2... b j, temos que H ij = max H i 1,j 1 + s(a i b j ); max (H i x,j w x ); x 1 max (H i,j y w y ); y 1 0 As principais diferenças para o cálculo da matriz de pontuação são: 1. o sistema deve incluir pontuações negativas para casamentos sem sucesso 2. quando um valor da matriz tornar-se negativo ele deve receber 0, o que tem o efeito de terminar qualquer alinhamento até aquele ponto Um programa de alinhamento local sempre produz um alinhamento local e um programa de alinhamento global sempre produz um alinhamento global? Tanto o algoritmo de Smith-Waterman pode devolver um alinhamento global quanto o algoritmo de Needleman-Wunsch pode devolver um alinhamento local, dependendo do esquema de pontuação utilizado. Se usarmos uma matriz que atribua (em média) uma pontuação positiva para cada posição alinhada, combinada com uma penalidade para lacunas pequena o suficiente para permitir a extensão do alinhamento por regiões com poucos casamentos, teremos um alinhamento global. Inversamente, com uma pontuação (em média) negativa para casamentos sem sucesso e uma penalidade para lacunas grande o suficiente para prevenir a extensão do alinhamento por regiões com poucos casamentos, teremos um alinhamento local. Para alinhamentos de sequências aleatórias, a pontuação de um alinhamento global cresce proporcionalmente ao tamanho das sequências, en- 8

9 quanto a pontuação de um alinhamento local cresce proporcionalmente ao logaritmo do produto dos tamanhos da sequências Desenvolvimento adicional e uso do algoritmo de programação dinâmica para alinhamentos de sequências Uso de pontuações de distância para o alinhamento de sequências Um método alternativo para a pontuação de alinhamentos baseia-se em quantas mudanças são necessárias para transformar uma sequência em outra. Usando essa medida, quanto maior for a distância entre as sequências, maior o tempo evolutivo passado desde que as sequências divergiram de seu ancestral comum. Portanto, pontuações de distância fornecem um método mais natural biologicamente do que as pontuações de similaridade. Melhora na complexidade de tempo e de espaço do algoritmo de programação dinâmica Apesar de os algoritmos originais exigirem algo como número de passos entre n m e n m 2 (onde n é o tamanho da sequência menor) e alocação de matrizes de tamanho n m, várias melhorias já foram propostas. Algumas delas são: 1. decréscimo no número de passos do algoritmo 2. redução da complexidade de memória para uma função linear no comprimento das sequências 3. habilidade para encontrar alinhamentos quase ótimos e alinhar sequências longas 4. habilidade para encontrar os alinhamentos alternativos de melhor pontuação que não alinhem as mesmas posições das sequências 2.3 Uso de matrizes de pontuação e penalidades para lacunas em alinhamentos de sequências Matrizes de substituição de aminoácidos Saber quais são os tipos de substituição de aminoácidos e com que frequência ocorrem em um grande número de proteínas pode ajudar na predição de alinhamentos para qualquer conjunto de sequências proteicas. Se sequências proteicas relacionadas são similares, elas são fáceis de alinhar e, portanto, é possível determinar prontamente as mudanças ocorridas nos aminoácidos. 9

10 Em matrizes de substituição de aminoácidos, cada elemento possui uma pontuação que reflete com que frequência o aminoácido na linha estaria pareado com o da coluna num alinhamento de sequências proteicas relacionadas. Supõe-se que a probabilidade de transformar A em B é mesma de transformar B em A, pois o aminoácido ancestral na árvore filogenética normalmente não é conhecido. Matrizes de substituição de aminoácidos de Dayhoff (ou matrizes PAM) Essa família de matrizes lista a probabilidade de mudança de um aminoácido pra outro em sequências proteicas homólogas durante a evolução. Até o momento não existe outro tipo de matriz de pontuação baseada em princípios evolutivos sólidos como as matrizes PAM são. Apesar de serem originalmente construídas a partir de um conjunto de dados relativamente pequeno, as matrizes PAM ainda são ferramentas úteis para o alinhamento de sequências. A matriz P AM 1, por exemplo, fornece a probabilidade de substituição de um aminoácido por outro após um intervalo evolutivo de 1 PAM ( 10 milhões de anos). Na construção das matrizes PAM, é feita a suposição de que a mudança de um aminoácido em um sítio particular é independente dos eventos mutacionais que ocorreram anteriormente no mesmo sítio. Portanto, substituições de aminoácidos numa sequência proteica são vistos como uma cadeia de Markov, em que mudanças de um estado para outro não dependem do histórico do estado. Devido a isso, a matriz PAM1 pode ser multiplicada por ela mesma N vezes (notação: P AMN = (P AM1) N para N 1) para obtermos matrizes de transição que permitam comparar sequências com níveis cada vez mais baixos de similaridade. Por exemplo, as matrizes P AM120, P AM80 e P AM60 devem ser usadas para alinhar sequências que são 40%, 50% e 60% similares, respectivamente. Matrizes PAM normalmente são convertidas para outra forma, chamada de matriz do logaritmo das chances. A pontuação das chances é a razão entre a probabilidade de que a mudança represente uma variação evolutiva autêntica naquele sítio e a probabilidade de que a mudança tenha ocorrido devido à variação aleatória (sem significado biológico), sendo o logaritmo das chances igual ao logaritmo desse valor. Escolhendo a melhor matriz PAM para detecção de similaridade entre sequências Cada matriz PAM é apropriada para comparar proteínas que tenham certo grau de similaridade mas, inicialmente, a similaridade entre as sequên- 10

11 cias pode não ser conhecida. Apesar disso, a pontuação de um alinhamento local sem lacunas é máxima quando a matriz PAM correta (que corresponde ao grau de similaridade entre as sequências) é utilizada. Além disso, a habilidade das matrizes PAM de discriminar alinhamentos locais reais (biologicamente significantes) de alinhamentos ao acaso (a entropia relativa H) também varia (em geral - mantendo constantes os outros fatores -, quanto maior o valor de H, maior a capacidade de discriminação). Para efetuar o seu cálculo, a pontuação para cada par de aminoácidos s ij (em unidades de log 2, chamadas bits) é multiplicada pela probabilidade de ocorrência do par no conjunto de dados original (q ij ). Essa pontuação, somada sobre todos os aminoácidos, produz o valor de H: 20 i H = q ij s ij i=1 j=1 Análise do modelo de evolução proteica de Dayhoff Várias ressalvas já foram feitas em relação às suposições que fundamentam as matrizes PAM. Apesar de supor que todas as posições são igualmente mutáveis, é bem conhecido da genética molecular que existem sítios quentes de mutação, assim como variações na mutabilidade de diferentes sítios de aminoácidos nas proteínas. Além disso, quanto mais conservado é um aminoácido de proteínas similares em diferentes espécies, maior é a sua importância para a estrutura e função da proteína. Portanto, vários fatores influenciam tanto a localização quanto os tipo de mudança que ocorrem em aminoácidos. Outra crítica é a análise circular que envolve a sua construção, já que os alinhamentos são usados para pontuar mudanças nos aminoácidos (registradas na matriz), que por sua vez são usados para produzir novos alinhamentos. Apesar disso, nenhum método para contornar completamente o problema foi desenvolvido, considerando qualquer tipo de análise de sequências. Uma última crítica baseia-se no fato de as matrizes terem sido construídas a partir de um conjunto relativamente pequeno de proteínas intimamente relacionadas. Em resposta a isso, o conjunto de dados de Dayhoff foi aumentado para incluir o banco de dados de proteínas de Matrizes de substituição de aminoácidos por blocos (BLOSUM) As matrizes de substituição BLOSUM (em particular a BLOSU M 62) são amplamente utilizadas para pontuar alinhamentos de sequências proteicas. Os valores da matriz são baseados em substituições de aminoácidos observadas num conjunto de 2000 padrões de aminoácidos conservados, 11

12 chamados de blocos. Esses blocos foram encontrados num banco de dados de sequências proteicas que representa mais de 500 famílias de proteínas, e agem como assinaturas dessas. A contagem de mudanças nos aminoácidos por blocos pode, porém, levar a uma super-representação das substituições que ocorrem nos membros mais intimamente relacionados de cada família. Para reduzir essa contribuição das sequências mais parecidas, elas foram agrupadas como uma sequência só antes da atribuição da pontuação aos blocos alinhados. Em seguida, foi tirada a média das substituições nessas sequências agrupadas. Padrões que eram 60% idênticos foram agrupados para fazer uma matriz de substituição chamada BLOSUM60, os que eram 80% idênticos fundamentaram a BLO- SUM 80, e assim por diante. Como ocorre nas matrizes PAM, as BLOSUMs diferem no modo com que os pares de aminoácidos mais comuns são pontuados em relação aos menos comuns (e também diferem na habilidade de distinguir alinhamentos reais dos que ocorrem ao acaso). Comparação das matrizes PAM e BLOSUM O modelo PAM foi projetado para rastrear a origem evolutiva das proteínas, assumindo que as mutações ocorram por um processo de Markov. Ele foi baseado na predição das primeiras mudanças que ocorrem quando as proteínas divergem a partir de um ancestral comum. Já o modelo BLOSUM foi projetado para encontrar domínios conservados das proteínas, e não é baseado em um modelo evolutivo explícito. Ele foi construído a partir de famílias de proteínas relacionadas bioquimicamente, independentemente do grau de similaridade entre suas sequências. Outras matrizes de pontuação para aminoácidos Além das matrizes PAM e BLOSUM, várias outras matrizes de substituição de aminoácidos foram produzidas, variando de uma comparação simples de propriedades químicas de aminoácidos até uma análise complexa de substituições que ocorrem em domínios secundários de proteínas. Como a maioria delas alinha proteínas de acordo com características dos aminoácidos (e não de acordo com um modelo evolutivo), elas são mais apropriadas para descobrir relações funcionais e estruturais (e não para análise evolutiva) Matrizes de pontuação de ácidos nucleicos PAM Do mesmo modo como existem matrizes de pontuação para alinhamentos de proteínas, matrizes de pontuação para alinhamentos de sequências de DNA também foram desenvolvidas. Ela pode incorporar símbolos de DNA ambíguos (como S - de strong - para denominar as bases C ou G, que fazem 12

13 3 ligações de hidrogênio entre si) e informações de análises mutacionais, que revelam que transições (substituições entre as purinas A e G ou entre as pirimidinas C e T) são mais prováveis que transversões (substituições entre purinas e pirimidinas). Como ocorre com as matrizes de aminoácidos, são produzidas matrizes do logaritmo das chances que representam a frequência de substituições esperada com distâncias evolutivas crescentes. Num alinhamento, a probabilidade s ij de obter um casamento entre os nucleotídeos i e j, dividida pela probabilidade de alinhar i e j ao acaso é dada por s ij = log(p i M ij /p i p j ) Onde M ij é o valor na matriz de mutação e p i e p j são as frequências de cada nucleotídeo (supostamente iguais a 0, 25). De modo análogo, matrizes que representem a distância evolutiva de n PAMs são deduzidas multiplicando a matriz PAM1 por si mesma n vezes. A entropia relativa (capacidade de distinguir alinhamentos reais dos aleatórios) para cada matriz (em unidades de bit) pode ser calculada a partir da equação (onde os s ij também são expressos em unidades de bit) H = i,j p i p j s ij 2 s ij Como ocorre com as matrizes de pontuação para aminoácidos, a matriz usada deve ser a correspondente à porcentagem de similaridade entre as sequências. Por exemplo, para sequências que são 21% diferentes, a matriz da distância de 25 PAMs deve ser usada. Já que não é possível saber qual a porcentagem de similaridade entre duas sequências antes de fazer um alinhamento, é necessário fazer alguns alinhamentos como tentativas Penalidades para lacunas As penalidades para lacunas são necessárias para obter o melhor alinhamento possível entre duas sequências. Uma penalidade para a abertura de qualquer lacuna (g) e uma penalidade para cada elemento da lacuna (r) são comumente utilizada, sendo a pontuação total w x dada pela função de penalidade afim (onde x é o tamanho da lacuna) w x = g + rx Se a penalidade usada for muito grande em relação às pontuações da matriz de substituição, as lacunas nunca irão aparecer no alinhamento. Inversamente, se a penalidade for muito pequena em relação às pontuações da matriz, as lacunas irão aparecer em quase todo o alinhamento para maximizar o 13

14 número de casamentos. Felizmente, a maioria dos programas de alinhamento sugere penalidades apropriadas para uma dada matriz de pontuação na maioria das situações. Ainda, se um alinhamento for formulado em termos de distâncias em vez de similaridades, uma melhor interpretação biológica das lacunas é possível. Nesse caso, a distância é o número de mudanças necessárias para converter uma sequência em outra, e representa o número de mutações que ocorreu desde a separação dos genes durante a evolução (com uma substituição fornecendo uma pontuação +1, sendo a soma da distância com a pontuação de similaridade sempre igual a 1). Essa formulação satisfaz a desigualdade triangular, no sentido de que se d(x, y) é a distância entre x e y e a, b e c são três sequências quaisquer então d(a, b) + d(b, c) d(a, c) Penalidades para lacunas nos terminais dos alinhamentos Lacunas nos terminais de um alinhamento podem receber a mesma pontuação das lacunas internas ou, de modo alternativo, não receber penalidades (para sequências de homologia desconhecida ou tamanhos diferentes). Se as lacunas terminais não receberem penalidades, elas podem utilizadas de modo excessivo pelo algoritmo para aumentar o número de casamentos de caracteres internos. Efeitos da variação de penalidades para lacunas divergentes em pontuações de alinhamentos locais Vários efeitos podem ser observados a partir da variação e parâmetros para o alinhamento de sequências aleatórias de DNA e proteínas. Os principais são: 1. o uso de penalidades (para lacunas ou casamentos sem sucesso) que são maiores do que a pontuação para casamentos irá produzir alinhamentos locais; 2. quando a penalidade para um casamento sem sucesso for maior ou igual ao dobro da pontuação para um casamento, a penalidade da lacuna torna-se o parâmetro decisivo para o alinhamento; 3. quando a penalidade para um casamento sem sucesso for menor que o dobro da pontuação para uma lacuna, muitos alinhamentos irão depender das pontuações para as penalidades (para lacunas e casamentos sem sucesso). 14

15 2.3.4 Combinações ótimas de matrizes de pontuação e penalidades para lacunas na descoberta de proteínas relacionadas Os principais pontos sobre combinações de parâmetros para a busca de proteínas homólogas são os seguintes: 1. algumas matrizes (como a BLOSUM62, construída a partir de famílias de proteínas relacionadas) são superiores às outras (como a PAM250, construída por extrapolação) na busca de proteínas relacionadas; 2. penalidades para as lacunas ajustadas para produzir alinhamentos locais são mais apropriadas; 3. para identificar sequências relacionadas, a significância do alinhamento deve ser estimada. 2.4 Avaliando a significância de alinhamentos de sequência Um dos mais importantes avanços na análise de sequências foi o desenvolvimento de métodos para estimar a significância de um alinhamento de sequência. Uma das principais aplicações dos testes de significância é ajudar a decidir se um dado alinhamento seria realmente esperado entre sequências relacionadas ou se seria achado com igual probabilidade entre sequências não relacionadas. Inicialmente, a significância era estimada sob a suposição de que as pontuações dos alinhamentos seguiam uma distribuição normal. Porém, gerando sequências aleatoriamente por métodos Monte Carlo ou por embaralhamento de sequências, chegou-se à conclusão de que as pontuações dos alinhamentos seguiam a distribuição do valor extremo de Gumbel. Além disso, a análise estatística das pontuações de alinhamentos locais avançou bem mais do que a de alinhamentos globais. Alinhamentos locais servem para revelar regiões com alta similaridade, que praticamente não existem em sequências não relacionadas ou aleatórias. Por outro lado, é possível achar sequências dessa natureza que possuam uma pontuação muito alta se alinhadas globalmente (isso dificulta a estimação da significância de alinhamentos globais) Significância de alinhamentos globais Em geral, programas de alinhamento global usam o algoritmo de Needleman- Wunsch e utilizam uma pontuação (em média) positiva para um par de nu- 15

16 cleotídeos ou aminoácidos alinhados. Consequentemente, a pontuação do alinhamento de sequências aleatórias ou não relacionadas cresce proporcionalmente ao tamanho das sequências. Como pequenas mudanças no sistema de pontuação usado produzem um alinhamento diferente, estimar a significância de um alinhamento global não é uma tarefa fácil. Dayhoff (1978) e Dayhoff et al. (1983) avaliaram pontuações de alinhamentos dados pelo algoritmo de Needleman-Wunsch para sequências proteicas aleatórias e não relacionadas, utilizando a matriz PAM250 e penalidade constante para as lacunas. A distribuição das pontuações resultantes foi compatível com uma normal. A partir disso, a significância do alinhamento entre duas sequências aparentemente relacionadas A e B foi determinada pela obtenção da média e do desvio padrão da pontuação de 100 alinhamentos de permutações de A com permutações de B. Se a pontuação entre A e B for significante, então a pontuação real deve ser pelo menos 3 a 5 desvios padrão maior do que a média das pontuações aleatórias. Várias outras abordagens para o assunto foram tentadas por Waterman (1989), Chvátal e Sankoff (1975) e Lipman et al. (1984), e uma das conclusões foi de que a presença de padrões locais conservados pode influenciar a pontuação em testes estatísticos, fazendo com que um alinhamento pareça ser mais significante do que é. Finalmente, um dos principais problemas com os métodos acima foi a utilização do modelo estatístico incorreto Modelando um alinhamento de sequências de DNA aleatórias Para estimar o número de casamentos consecutivos entre sequências aleatórias, podemos modelar um alinhamento como lançamentos de moeda. Seja P (H) = p a probabilidade do lançamento de uma moeda resultar em cara (H) e P (T ) = 1 p a probabilidade do lançamento da mesma moeda resultar em coroa (T ). O comprimento esperado da maior sequência de caras consecutivas (R) em n lançamentos é dado pela seguinte equação (demonstrada por Erdös e Rényi) R = log 1/p (n) Para usar o modelo, um alinhamento de duas sequências aleatórias a = a 1 a 2... a n e b = b 1 b 2... b n é convertido para uma série de caras e coroas. Se a i = b i o lançamento resultante é cara (H), caso contrário é coroa (T ). Com isso, o maior número de casamentos consecutivos (para sequências de mesmo tamanho n) é equivalente ao maior número de caras consecutivas em n lançamentos. Se duas sequências de tamanhos n e m forem alinhadas do mesmo modo, esse número passa a ser log 1/p (mn). Seja M uma variável aleatória que indique qual o comprimento da maior sequência de casamentos 16

17 consecutivos entre as sequências de tamanhos n e m. Logo, fórmulas mais precisas para a esperança e variância de M são: E(M) log 1/p (mn) + log 1/p (q) + γ log(e) 1/2 [log e (Kmn)]/λ V (M) [πlog 1/p (e)] 2 /6 + 1/12 onde γ 0, 577 é a constante de Euler-Mascheroni, q = 1 p, K é uma constante que depende da composição das bases na sequência e λ = log e (1/p). A estimativa para E(M) é fundamentalmente importante para o cálculo da significância estatística da pontuação de alinhamentos. Basicamente, ela afirma que conforme os comprimentos de sequências aleatórias ou não relacionadas aumentam, a média das maiores pontuações possíveis para alinhamentos locais será proporcional ao logaritmo do produto dos comprimentos das sequências A estimativa para V(M) prediz variância constante para a pontuação desse tipo de alinhamento, algo confirmado por experimentos. Utilizando alguns métodos de normalização, também é possível usar as equações acima para predizer o valor esperado E(S) da pontuação do alinhamento entre duas sequências aleatórias de tamanhos m e n: E(S) = [log e (Kmn)]/λ Assim, estimar a significância estatística se reduz a calcular a probabilidade de que a pontuação de um alinhamento entre sequências aleatórias ou não relacionadas seja maior que E(S). Para isso é necessário prever qual o número de regiões de casamentos cujas pontuações excedem E(S), algo que pode ser feito pela distribuição de Poisson (cuja média x é dada por E(S)), dada por P n = e x x n /n! para n 0. Para um grande número de ensaios cuja probabilidade de sucesso é pequena, P n é uma aproximação da probabilidade de obter n sucessos. Portanto, a probabilidade de que nenhum alinhamento (de um número grande de alinhamentos) tenha pontuação maior que x é P 0 = e x, e a probabilidade de que pelo menos um deles tenha pontuação maior que x é P (S > x) = 1 P 0 = 1 e x = 1 e E(S) = 1 exp( Kmne λx ) A aproximação de Poisson fornece um modo conveniente de estimar os parâmetros K e λ a partir de pontuações de muitos alinhamentos entre sequências aleatórias ou não relacionadas, a partir da fração de alinhamentos que tiverem uma pontuação menor que x. 17

18 2.4.3 Alinhamentos com lacunas Um tipo similar de análise vale para alinhamentos de sequências que incluem lacunas. Smith et al. (1985) alinharam um grande número de sequências de DNA não relacionadas (DNA de vertebrados e DNA viral) de tamanhos diferentes (n e m), plotando um gráfico S (pontuação do alinhamento) log 1/p (nm). O resultado foi uma reta da forma S médio = 2, 55(log 1/p (mn)) 8, 99 e desvio padrão constante σ = 1, 78. Esse resultado foi então usado para calcular quantos desvios padrão estavam entre a média prevista e a variância da pontuação dos alinhamentos locais para sequências não relacionadas. Se a pontuação real do alinhamento excedesse o S médio previsto por vários desvios padrão, então a pontuação deveria ser significante A distribuição do valor extremo de Gumbel Quando duas sequências são alinhadas localmente de modo ótimo, a significância da pontuação pode ser testada com base na distribuição esperada das pontuações de alinhamentos de duas sequências aleatórias de iguais tamanhos e mesma composição das sequências alvo. As pontuações dos alinhamentos dessas sequências aleatórias seguem uma distribuição chamada distribuição do valor extremo (ou de Gumbel), e não uma normal (como se pensava). Essa distribuição aparece porque é obtida a partir das maiores pontuações (valores extremos) de um grande número de alinhamentos. A meta é avaliar qual a probabilidade de que uma pontuação entre sequências aleatórias ou não relacionadas alcance a pontuação entre duas sequências reais de interesse. Se essa probabilidade for baixa, o alinhamento é significante. A função densidade de probabilidade da distribuição do valor extremo é dada a seguir: Y ev = exp[ x e x ] Ela possui média µ = γ 0, 577 (a constante de Euler-Mascheroni) e variância σ 2 = π 2 /6 1, 6. A probabilidade de que uma pontuação S seja menor que y é dada por P (S < y) = y Y ev dx 18

19 = y exp[ x e x ] dx = exp( e x ) y = exp( e y ) lim t exp( e t ) = exp( e y ) 0 = exp( e y ) e portanto temos P (S y) = 1 P (S < y) = 1 exp( e y ) Alterando a equação acima para acomodar valores extremos como sendo pontuações de alinhamentos de sequências, obtemos P (S x) = 1 exp( e λ(x u) ) onde u é a moda da distribuição e λ é um parâmetro de escala. Esses parâmetros podem ser estimados a partir da média e do desvio padrão da distribuição de Gumbel (método dos momentos), como segue: λ = π/(σ 6) 1, 2828/σ U = x γ/λ x 0, 45σ Pontuações z podem ser calculadas para cada valor extremo x, onde z = (x m)/σ é o número de desvios padrão a partir da média. A equação para P (S x) pode ser reescrita para usá-las: P (Z > z) = 1 exp( e 1,2858z 0,5772 ) Para alinhamentos que não incluem lacunas, u e λ podem ser calculados a partir da matriz de pontuação, utilizando as equações pi p j e s ijλ = 1 u = (ln Kmn)/λ onde p i e p j são as representações relativas dos resíduos i e j nas sequências, s ij é a pontuação para o casamento de i com j, m e n são os tamanhos das sequências e K é uma constante que pode ser calculada a partir de p i e s ij. Atualizando a equação para P (S x), obtemos P (S x) = 1 exp( e λ(x u) ) = 1 exp( e λ(x (ln Kmn)/λ) ) = 1 exp( Kmne λx ) 19

20 Para facilitar alguns cálculos, adotemos a normalização S = λs ln Kmn, correspondente a u = 0 e λ = 1. Assim, temos que P (S x) = 1 exp( e x ) Para x > 2, podem ser usadas as aproximações P (S x) Kmne λx P (S x) e x Determinação da significância da pontuação de um alinhamento Suponhamos que duas sequências proteicas de aproximadamente 250 aminoácidos cada tenham sido alinhadas localmente usando a matriz PAM250 e uma penalidade alta para lacunas (para omiti-las do alinhamento), e o alinhamento resultante (com pontuação de 75) é FWLEVEGNSMTAPTG FWLDVQGDSMTAPAG Altschul e Gish (1996) deram estimativas de K = 0, 09 e λ = 0, 229 para a matriz PAM250, uma distribuição típica para aminoácidos e alta penalidade para as lacunas. Daí, temos S = λs ln Kmn = 0, ln(0, ) = 8, 55 bits P (S 8, 55) = 1 exp( e 8,55 ) = 1, Portanto, a probabilidade de que um alinhamento entre duas sequências aleatórias (utilizando os mesmos parâmetros) consiga uma pontuação maior ou igual a 75 é 1, , o que faz o alinhamento ser significante A importância do tipo de matriz de pontuação para análises estatísticas Usar uma matriz do logaritmo das chances (com as PAMs ou BLOSUMs) em unidades de bit simplifica a estimação da significância de um alinhamento. Tais matrizes também são úteis para encontrar alinhamentos locais porque ela inclui valores positivos e negativos. Outra importante característica é que essa é a forma ótima para avaliar a significância estatística das pontuações de alinhamentos. 20

21 Um dos parâmetros importantes das matrizes de pontuação é o valor esperado de um par médio de aminoácidos, dado pela seguinte equação: 20 i E = p i p j s ij i=1 j=1 onde s ij é a pontuação do par de aminoácidos i e j e p i e p j são suas taxas de ocorrência. Esse valor deve ser negativo se a pontuação do alinhamento que use a matriz for usada para testes estatísticos, pois caso contrário (para qualquer par de sequências alinhadas) as pontuações irão aumentar (com o aumento do tamanho das sequências) mais rápido do que o logaritmo do tamanho das sequências. Os valores esperados das matrizes do logaritmo das chances como PAM, BLOSUM, JTT, JO93 e PET91 satisfazem esse requisito estatístico Significância de alinhamentos locais com lacunas Para duas sequências aleatórias ou não relacionadas de tamanhos n e m, prediz-se que a pontuação (x) do alinhamento ótimo seja proporcional ao logaritmo do produto de seus tamanhos (x log 2 (nm)). Na comparação de uma sequência (a consulta) de tamanho m a uma sequência de um banco de dados de tamanho n, m é constante e a pontuação prevista deve crescer linearmente com log(n). Essa relação foi encontrada em vários estudos sobre a distribuição da pontuação de alinhamentos locais ótimas que incluíam penalidades para as lacunas. Portanto, os mesmos métodos estatísticos descritos para avaliar a significância de alinhamentos sem lacunas pode também ser usada para alinhamentos com lacunas Métodos para calcular os parâmetros da distribuição do valor extremo Na análise de Altschul e Gish (1996), sequências aleatórias de aminoácidos de tamanhos variáveis foram alinhadas usando o algoritmo de Smith- Waterman e combinações apropriadas de matrizes de pontuação e penalidades para as lacunas. As pontuações encontradas seguiram a mesma distribuição do valor extremo previsto pela teoria estatística subjacente. Os valores de K e λ foram estimados para cada combinação pelo ajuste dos dados à distribuição prevista do valor extremo. Porém, deve-se ter cuidado no uso desses parâmetros. Em primeiro lugar, eles foram gerados pelo alinhamento de sequências aleatórias supondo uma distribuição de aminoácidos em particular, o que pode não ser um modelo apropriado para algumas proteínas. Sem segundo lugar, a precisão de λ e 21

22 de K não pode ser estimada facilmente. Por último, para custos nas lacunas que resultam numa entropia H < 0, 15 o tamanho esperado do alinhamento ótimo é uma fração significante do tamanho das sequências, o que produz uma fonte de erros chamada de efeito terminal. Quando esse efeito ocorre, alinhamentos que começaram perto dos terminais das sequências podem não ser completados. Se o tamanho esperado não for subtraído do tamanho da sequência antes da estimação de λ, o parâmetro poderá ser superestimado. Um dos programas comumente usados para busca por similaridade em banco de dados é o BLAST. Ele calcula a significância estatística das maiores pontuações entre sequências similares, mas de um modo um tanto quanto diferente. O BLAST usa os valores de K e λ encontrados a partir do alinhamento de sequências aleatórias e a equação já apresentada P (S x) = 1 exp( Kmne λx ), onde n e m são encurtados para compensar a incapacidade de alinhar os terminais das sequências A significância estatística de pontuações de alinhamentos individuais entre sequências e a significância de pontuações encontradas em uma busca em um banco de dados são calculados de forma diferente Numa busca em um banco de dados utilizando uma sequência de consulta, uma nova comparação é feita para cada sequência no banco. Como exemplo, o BLAST calcula os parâmetros estatísticos baseados na matriz de pontuação e na composição das sequências. Os parâmetros são então usados para calcular a probabilidade de encontrar padrões conservados por alinhamento casual de sequências não relacionadas. A probabilidade de não observar (num banco de dados de D sequências) alinhamentos com pontuações maiores do que s (sendo s a média das maiores pontuações possíveis para alinhamentos locais) é e Ds, e a de observar pelo menos um com pontuação s é P 1 e Ds. Para os valores P de interesse (P < 0, 1), temos P Ds. Portanto, quanto maiores forem o banco de dados e a média das maiores pontuações possíveis, menor será a significância do alinhamento. 22

23 2.5 Alinhamento de sequências e estimação da distância evolutiva por métodos estatísticos bayesianos Introdução à estatística bayesiana Métodos estatísticos bayesianos diferem dos outros devido ao uso de probabilidades condicionais. Suponhamos que o evento A seja composto apenas pelos eventos disjuntos A1 e A2, ocorrendo algo análogo para o evento B e seus subeventos B1 e B2. Esses subeventos podem (por exemplo) corresponder aos estados alélicos dos genes A e B. Temos então que P (B) = P (B1) + P (B2) = 1 e P (A) = P (A1) + P (A2) = 1. Suponhamos que P (B1) = 0, 3 (o que implica P (B2) = 1 P (B1) = 0, 7), P (A1 B1) = 0, 8, P (A2 B2) = 0, 7, e desejamos saber as probabilidades conjuntas de todas as combinações de subeventos de A com subeventos de B. Primeiro notemos que P (A1 B1) + P (A2 B1) = 1 (pois B1 = (A1 B1) (A2 B1) e os eventos A1 B1 e A2 B1 são disjuntos) e portanto P (A2 B1) = 1 0, 8 = 0, 2. Analogamente, P (A1 B2) = 1 0, 7 = 0, 3. As probabilidades restantes podem ser calculadas pelo teorema de Bayes (válido para quaisquer eventos A1 e B1), dado a seguir: P (A1 B1) = P (B1 A1)P (A1) = P (A1 B1)P (B1) Pelo teorema, temos que P (A1 B1) = P (B1)P (A1 B1) = 0, 3.0, 8 = 0, 24 e P (A2 B2) = P (B2)P (A2 B2) = 0, 7.0, 7 = 0, 49. As outras duas probabilidades conjuntas podem ser calculadas por subtração, ou seja: P (A2 B1) = P (B1) P (A1 B1) = 0, 3 0, 24 = 0, 06 e P (A1 B2) = P (B2) P (A2 B2) = 0, 7 0, 49 = 0, 21. O resultado final está na tabela em seguida. A1 A2 B1 0,24 0,06 0,3 B ,49 0,7 0,45 0,55 1 Tabela 1: Tabela de probabilidades marginais e conjuntas para A e B. Podemos desenvolver a fórmula da probabilidade condicional usando o teorema de Bayes para encontrar a probabilidade posteriores P(B2 A1) e o fato de que A1 = (A1 B1) (A1 B2) da seguinte forma: P (B2 A1) = P (A1 B2)/P (A1) 23

24 = P (B2)P (A1 B2)/P (A1) = P (B2)P (A1 B2)/[P (B1)P (A1 B1) + P (B2)P (A1 B2)] Portanto, temos P (B2 A1) = 0, 7.0, 3/[0, 3.0, 8 + 0, 7.0, 3] = 0, 467 e portanto P (B1 A1) = 1 0, 467 = 0, 533. Assim, baseado nas probabilidades a priori e na informação adicional, o teorema de Bayes permite o cálculo de probabilidades a posteriori (não disponíveis inicialmente) Aplicação da estatística bayesiana à análise de sequências Na análise de sequências, a pontuação de um alinhamento local (s) entre duas sequências varia com a escolha da matriz de pontuação e do sistema de penalidades para lacunas. Até então, esses parâmetros foram escolhidos com base no desempenho de identificação de sequências relacionadas. A aplicação da estatística bayesiana ao problema permite que o efeito de informação a priori (como a matriz de substituição escolhida) na probabilidade de que duas sequências sejam homólogas possa ser examinado. O método fornece uma distribuição de probabilidades posteriores de todos os alinhamentos levando em conta todos os sistemas de pontuação. Dessa forma, os alinhamentos mais prováveis e suas probabilidades podem ser determinados. Esse método contorna a necessidade de escolher uma matriz de pontuação e uma penalidade para lacunas em particular porque uma faixa de escolhas disponíveis pode ser testada Distância evolutiva bayesiana Agarwal e States (1996) aplicaram métodos bayesianos para obter a melhor estimativa para a distância evolutiva entre duas sequências de DNA. Os exemplos usados foram de sequências de mesmo comprimento que contém certo número de casamentos sem sucesso. Uma abordagem descrita previamente foi avaliar as pontuações de alinhamentos usando várias matrizes diferentes e então identificar qual a matriz que resultava na maior pontuação. A abordagem bayesiana continua essa análise para descobrir a probabilidade do alinhamento em função de cada distância evolutiva representada por uma matriz PAM diferente. Sejam x a distância evolutiva representada pela matriz PAMN dividida por 100, k o número de casamentos sem sucesso numa sequência de comprimento n, P (x k) a probabilidade de que uma sequência com k casamentos sem sucesso esteja a uma distância x, P (k x) o logaritmo da pontuação das chances para a sequência com k casamentos sem sucesso na matriz PAM100x de DNA e P (x) a probabilidade a priori da distância x (normalmente igual a 1 dividido pelo número de matrizes). Logo, pelo teorema de Bayes obtemos 24

25 P (x k) = P (k x)p (x)/p (k) = P (k x)p (x)/ x P (k x)p (x) O denominador é a soma é a soma da pontuação das chances sobre x (que varia de 0, 01 a 4, representando as distâncias de P AM1 a P AM milhões a 4 bilhões de anos) vezes a probabilidade a priori de cada valor de x. Essa soma representa a área sob a curva de probabilidade e tem o efeito de normalizá-la para cada matriz de pontuação usada. O formato da curva de probabilidade indica como P (x k) varia com x. Uma das dificuldades com tais estimações é que a estimativa depende da suposição de que a taxa de mutação em sequências é constante com o tempo (a hipótese do relógio molecular) e é a mesma para todos os nucleotídeos. Outra dificuldade está em decidir qual o comprimento da sequência que foi duplicada. Em genomas, a presença de repetições pode ser revelada por extensas de posições que casam dispersas entre regiões que ao casam. Porém, conforme a frequência dos casamentos sem sucesso aumenta, fica mais difícil determinar a extensão da região de repetição. Uma desvantagem da abordagem bayesiana é o requisito de um modelo mutacional específico, enquanto outros métodos (como o da máxima verossimilhança) podem estimar tanto a distância quanto o melhor modelo mutacional (embora o método bayesiano seja computacionalmente mais eficiente) Algoritmos bayesianos para alinhamento de sequências Zhu et al. (1998) desenvolveram um programa chamado alinhador de blocos de Bayes, no qual duas sequências são comparadas para achar os blocos (regiões sem lacunas com as maiores pontuações possíveis). Em seguida, esses blocos são unidos de várias formas para produzir alinhamentos. Em vez de usar uma dada matriz de substituição e um sistema de pontuação para lacunas, uma abordagem bayesiana é utilizada. Dado um conjunto de matrizes de substituição e número esperado de blocos no alinhamento como informação a priori, o método fornece distribuições de probabilidades posteriores de alinhamentos. Outro tipo de análise que pode ser feita com o alinhador de blocos de Bayes é sobre a probabilidade de alinhamentos. Nesse método, todos os alinhamentos possíveis são considerados para um número razoável de blocos e um conjunto de matrizes de substituição, e são devolvidas as probabilidades de vários alinhamentos. 25

26 Uma das principais críticas ao método é a predição de falsos negativos em alinhamentos estruturais, provavelmente por causa das condições relaxadas para a pontuação de alinhamentos no uso de informação a priori irrestrita. Portanto, a escolha prudente é usar o alinhador de Bayes como uma ferramenta entre várias para alinhar sequências. 26

Resumo - capítulo 5 - Predição da estrutura secundária do RNA

Resumo - capítulo 5 - Predição da estrutura secundária do RNA Resumo - capítulo 5 - Predição da estrutura secundária do RNA Pedro Ivo Gomes de Faria Sumário 1 Introdução 2 1.1 Fundamentos da predição da estrutura do RNA........ 2 1.2 Características da estrutura

Leia mais

Alinhamento de seqüências

Alinhamento de seqüências Alinhamento de seqüências Qual a importância do alinhamento de seqüências Permite estabelecer identidades entre sequências Permite a dedução de função de proteínas baseado em similaridade Permite a definição

Leia mais

PAULO EDUARDO BRANDÃO, PhD DEPARTAMENTO DE MEDICINA VETERINÁRIA PREVENTIVA E SAÚDE ANIMAL FACULDADE DE MEDICINA VETERINÁRIA E ZOOTECNIA UNIVERSIDADE

PAULO EDUARDO BRANDÃO, PhD DEPARTAMENTO DE MEDICINA VETERINÁRIA PREVENTIVA E SAÚDE ANIMAL FACULDADE DE MEDICINA VETERINÁRIA E ZOOTECNIA UNIVERSIDADE CONCEITOS EM EPIDEMIOLOGIA E FILOGENIA MOLECULARES PAULO EDUARDO BRANDÃO, PhD DEPARTAMENTO DE MEDICINA VETERINÁRIA PREVENTIVA E SAÚDE ANIMAL FACULDADE DE MEDICINA VETERINÁRIA E ZOOTECNIA UNIVERSIDADE DE

Leia mais

alinhamento global-alinhamento múltiplo de seqüências

alinhamento global-alinhamento múltiplo de seqüências alinhamento global-alinhamento múltiplo de seqüências Alinhamento múltiplos de seqüências Qual a importância de se realizar alinhamentos múltiplos em oposição a alinhamentos em pares? Alinhamento múltiplos

Leia mais

Capítulo 2. Distribuições de Probabilidade Estimativas de parâmetros e tempos-atéfalha. Flávio Fogliatto

Capítulo 2. Distribuições de Probabilidade Estimativas de parâmetros e tempos-atéfalha. Flávio Fogliatto Capítulo 2 Distribuições de Probabilidade Estimativas de parâmetros e tempos-atéfalha Flávio Fogliatto 1 Ajustes de distribuições Em estudos de confiabilidade, dados são amostrados a partir de uma população

Leia mais

Inteligência Artificial. Algoritmos Genéticos. Aula I Introdução

Inteligência Artificial. Algoritmos Genéticos. Aula I Introdução Universidade Estadual do Oeste do Paraná Curso de Bacharelado em Ciência da Computação Inteligência Artificial Algoritmos Genéticos Aula I Introdução Roteiro Introdução Computação Evolutiva Algoritmos

Leia mais

AULA 02 Distribuição de Probabilidade Normal

AULA 02 Distribuição de Probabilidade Normal 1 AULA 02 Distribuição de Probabilidade Normal Ernesto F. L. Amaral 20 de agosto de 2012 Faculdade de Filosofia e Ciências Humanas (FAFICH) Universidade Federal de Minas Gerais (UFMG) Fonte: Triola, Mario

Leia mais

Evolução Molecular. "Nothing in Biology Makes Sense Except in the Light of Evolution. Theodosius Dobzhansky

Evolução Molecular. Nothing in Biology Makes Sense Except in the Light of Evolution. Theodosius Dobzhansky "Nothing in Biology Makes Sense Except in the Light of Evolution Theodosius Dobzhansky Evolução Evolução Evolução Genótipo + Ambiente = Fenótipo Parental F1 F2 Evolução Evolução = mudança (características

Leia mais

3 Estimação e Compensação de movimento na codificação de vídeo

3 Estimação e Compensação de movimento na codificação de vídeo Estimação e Compensação de movimento na codificação de vídeo 36 3 Estimação e Compensação de movimento na codificação de vídeo O objetivo do modelo temporal (que engloba as fases de estimação e compensação

Leia mais

AULA 07 Inferência a Partir de Duas Amostras

AULA 07 Inferência a Partir de Duas Amostras 1 AULA 07 Inferência a Partir de Duas Amostras Ernesto F. L. Amaral 10 de setembro de 2012 Faculdade de Filosofia e Ciências Humanas (FAFICH) Universidade Federal de Minas Gerais (UFMG) Fonte: Triola,

Leia mais

PROBABILIDADE E ESTATÍSTICA. Profa. Dra. Yara de Souza Tadano

PROBABILIDADE E ESTATÍSTICA. Profa. Dra. Yara de Souza Tadano PROBABILIDADE E ESTATÍSTICA Profa. Dra. Yara de Souza Tadano [email protected] Aula 7 11/2014 Variáveis Aleatórias Variáveis Aleatórias Probabilidade e Estatística 3/41 Variáveis Aleatórias Colete

Leia mais

Alinhamentos e Busca de Similaridade. Ariane Machado Lima

Alinhamentos e Busca de Similaridade. Ariane Machado Lima Alinhamentos e Busca de Similaridade Ariane Machado Lima Busca de identidade Identificar o que é determinada seqüência Ex.acabou de seqüenciar, seria contaminante? Outras fases de um projeto de seqüenciamento

Leia mais

PROVAS Ciência da Computação. 2 a Prova: 13/02/2014 (Quinta) Reavaliação: 20/02/2014 (Quinta)

PROVAS Ciência da Computação. 2 a Prova: 13/02/2014 (Quinta) Reavaliação: 20/02/2014 (Quinta) PROVAS Ciência da Computação 2 a Prova: 13/02/2014 (Quinta) Reavaliação: 20/02/2014 (Quinta) Ajuste de Curvas Objetivo Ajustar curvas pelo método dos mínimos quadrados 1 - INTRODUÇÃO Em geral, experimentos

Leia mais

Alinhamento de sequências

Alinhamento de sequências Pontifícia Universidade Católica de Goiás Departamento de Biologia Alinhamento de sequências Prof. Macks Wendhell Gonçalves, Msc [email protected] Definição O alinhamento de sequências consiste no

Leia mais

CÁLCULO NUMÉRICO. Profa. Dra. Yara de Souza Tadano

CÁLCULO NUMÉRICO. Profa. Dra. Yara de Souza Tadano CÁLCULO NUMÉRICO Profa. Dra. Yara de Souza Tadano [email protected] Aula 4 Ajuste de Curvas AJUSTE DE CURVAS Cálculo Numérico 3/55 Introdução Em geral, experimentos geram uma gama de dados que devem

Leia mais

étodos uméricos SISTEMAS DE EQUAÇÕES LINEARES (Continuação) Prof. Erivelton Geraldo Nepomuceno PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA

étodos uméricos SISTEMAS DE EQUAÇÕES LINEARES (Continuação) Prof. Erivelton Geraldo Nepomuceno PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA étodos uméricos SISTEMAS DE EQUAÇÕES LINEARES (Continuação) Prof. Erivelton Geraldo Nepomuceno PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA UNIVERSIDADE DE JOÃO DEL-REI PRÓ-REITORIA DE PESQUISA CENTRO

Leia mais

7 Teste de Hipóteses

7 Teste de Hipóteses 7 Teste de Hipóteses 7-1 Aspectos Gerais 7-2 Fundamentos do Teste de Hipóteses 7-3 Teste de uma Afirmação sobre a Média: Grandes Amostras 7-4 Teste de uma Afirmação sobre a Média : Pequenas Amostras 7-5

Leia mais

Planejamento e Otimização de Experimentos

Planejamento e Otimização de Experimentos Planejamento e Otimização de Experimentos Um Pouco de Estatística Prof. Dr. Anselmo E de Oliveira anselmo.quimica.ufg.br [email protected] Populações, Amostras e Distribuições População Amostra

Leia mais

AULA 05 Teste de Hipótese

AULA 05 Teste de Hipótese 1 AULA 05 Teste de Hipótese Ernesto F. L. Amaral 03 de setembro de 2012 Faculdade de Filosofia e Ciências Humanas (FAFICH) Universidade Federal de Minas Gerais (UFMG) Fonte: Triola, Mario F. 2008. Introdução

Leia mais

Inferência Estatistica

Inferência Estatistica Inferência Estatistica Ricardo Ehlers [email protected] Departamento de Matemática Aplicada e Estatística Universidade de São Paulo Modelos e Inferência Um modelo é uma simplificação da realidade (e alguns

Leia mais

Métodos de alinhamento de sequências biológicas. Marcelo Falsarella Carazzolle

Métodos de alinhamento de sequências biológicas. Marcelo Falsarella Carazzolle Métodos de alinhamento de sequências biológicas Marcelo Falsarella Carazzolle Resumo - Introdução - Alinhamentos ótimos - Global - Local (Smith-Waterman) - Semi global - Matrizes de alinhamento (BLOSUM)

Leia mais

)XQGDPHQWRVGHSUREDELOLGDGHHHVWDWtVWLFD

)XQGDPHQWRVGHSUREDELOLGDGHHHVWDWtVWLFD )XQGDPHQWRVGHUREDELOLGDGHHHVWDWtVWLFD,QWURGXomR A história da estatística pode ser dividida em três fases. De acordo com PEANHA (00), a estatística inicialmente não mantinha nenhuma relação com a probabilidade,

Leia mais

Estatística I Aula 8. Prof.: Patricia Maria Bortolon, D. Sc.

Estatística I Aula 8. Prof.: Patricia Maria Bortolon, D. Sc. Estatística I Aula 8 Prof.: Patricia Maria Bortolon, D. Sc. MODELOS PROBABILÍSTICOS MAIS COMUNS VARIÁVEIS ALEATÓRIAS CONTÍNUAS Lembram o que vimos sobre V.A. contínua na Aula 6? Definição: uma variável

Leia mais

Distribuições Amostrais e Estimação Pontual de Parâmetros

Distribuições Amostrais e Estimação Pontual de Parâmetros Distribuições Amostrais e Estimação Pontual de Parâmetros ESQUEMA DO CAPÍTULO 7.1 INTRODUÇÃO 7.2 DISTRIBUIÇÕES AMOSTRAIS E TEOREMA DO LIMITE CENTRAL 7.3 CONCEITOS GERAIS DE ESTIMAÇÃO PONTUAL 7.3.1 Estimadores

Leia mais

Exemplos de Aplicações da Teoria das Probabilidades em Biologia. Qual a probabilidade de que o próximo nucleotídeo na seqüência seja A, C, G ou T?

Exemplos de Aplicações da Teoria das Probabilidades em Biologia. Qual a probabilidade de que o próximo nucleotídeo na seqüência seja A, C, G ou T? Exemplos de Aplicações da Teoria das Probabilidades em Biologia Exemplo 1. Suponha que se conheça a seguinte seqüência de nucleotídeos em uma molécula de DNA: AGCTTCCGATCCGCTATAATCGTTAGTTGTTACACCTCTG Qual

Leia mais

Técnicas computacionais em probabilidade e estatística II

Técnicas computacionais em probabilidade e estatística II Técnicas computacionais em probabilidade e estatística II Universidade de São Paulo Instituto de Matemática e Estatística http:www.ime.usp.br/ mbranco AULA 1: Problemas Computacionais em Inferência Estatística.

Leia mais

PERT PERT PERT PERT PERT PERT. O CPM assume que as estimativas de tempo para um projeto são certas (determinísticas);

PERT PERT PERT PERT PERT PERT. O CPM assume que as estimativas de tempo para um projeto são certas (determinísticas); O CPM assume que as estimativas de tempo para um projeto são certas (determinísticas); A duração de cada atividade na prática, contudo, pode ser diferente daquela prevista no projeto; Existem muitos fatores

Leia mais

Sequências e Séries Infinitas. Copyright Cengage Learning. Todos os direitos reservados.

Sequências e Séries Infinitas. Copyright Cengage Learning. Todos os direitos reservados. 11 Sequências e Séries Infinitas Copyright Cengage Learning. Todos os direitos reservados. 11.3 O Teste da Integral e Estimativas de Somas Copyright Cengage Learning. Todos os direitos reservados. O Teste

Leia mais

Planejamento e Otimização de Experimentos

Planejamento e Otimização de Experimentos Planejamento e Otimização de Experimentos Um Pouco de Estatística Descritiva Prof. Dr. Anselmo E de Oliveira anselmo.quimica.ufg.br [email protected] Populações, Amostras e Distribuições População

Leia mais

AULA 04 Teste de hipótese

AULA 04 Teste de hipótese 1 AULA 04 Teste de hipótese Ernesto F. L. Amaral 03 de outubro de 2013 Centro de Pesquisas Quantitativas em Ciências Sociais (CPEQS) Faculdade de Filosofia e Ciências Humanas (FAFICH) Universidade Federal

Leia mais

Parte 1 - Matrizes e Sistemas Lineares

Parte 1 - Matrizes e Sistemas Lineares Parte 1 - Matrizes e Sistemas Lineares Matrizes: Uma matriz de tipo m n é uma tabela com mn elementos, denominados entradas, e formada por m linhas e n colunas. A matriz identidade de ordem 2, por exemplo,

Leia mais

INTRODUÇÃO AOS MÉTODOS NUMÉRICOS. Solução de Sistemas Lineares

INTRODUÇÃO AOS MÉTODOS NUMÉRICOS. Solução de Sistemas Lineares INTRODUÇÃO AOS MÉTODOS NUMÉRICOS Solução de Sistemas Lineares Introdução Uma variedade de problemas de engenharia pode ser resolvido através da análise linear; entre eles podemos citar: determinação do

Leia mais

Teoria das Filas aplicadas a Sistemas Computacionais. Aula 08

Teoria das Filas aplicadas a Sistemas Computacionais. Aula 08 Teoria das Filas aplicadas a Sistemas Computacionais Aula 08 Universidade Federal do Espírito Santo - Departamento de Informática - DI Laboratório de Pesquisas em Redes Multimidia - LPRM Teoria das Filas

Leia mais

MAT 461 Tópicos de Matemática II Aula 8: Resumo de Probabilidade

MAT 461 Tópicos de Matemática II Aula 8: Resumo de Probabilidade MAT 461 Tópicos de Matemática II Aula 8: Resumo de Probabilidade Edson de Faria Departamento de Matemática IME-USP 28 de Agosto, 2013 Probabilidade: uma Introdução / Aula 8 1 Desigualdades de Markov e

Leia mais

DEFINIÇÕES EM EPIDEMIOLOGIA MOLECULAR E CONCEITOS BÁSICOS EM BIOLOGIA MOLECULAR

DEFINIÇÕES EM EPIDEMIOLOGIA MOLECULAR E CONCEITOS BÁSICOS EM BIOLOGIA MOLECULAR DEFINIÇÕES EM E DEFINIÇÕES EM E CONCEITOS BÁSICOS EM BIOLOGIA PARA QUE SERVE ESTA AULA 1. DEFINIÇÕES EM CONCEITUAÇÃO DE DIFERENCIAÇÃO ENTRE, TAXONOMIA E FILOGENIA 2. CONCEITOS EM BIOLOGIA APRESENTAR (REVER)

Leia mais

Biologia Molecular Computacional Homologia

Biologia Molecular Computacional Homologia Biologia Molecular Computacional Homologia Luiz Thibério Rangel O que é homologia? Conceito básico para estudos de genômica comparativa; Passo inicial para estudos de filogenia(omica); Importante para

Leia mais

Análise de Regressão Linear Simples e

Análise de Regressão Linear Simples e Análise de Regressão Linear Simples e Múltipla Carla Henriques Departamento de Matemática Escola Superior de Tecnologia de Viseu Introdução A análise de regressão estuda o relacionamento entre uma variável

Leia mais

Definição. Os valores assumidos pelos estimadores denomina-se estimativas pontuais ou simplesmente estimativas.

Definição. Os valores assumidos pelos estimadores denomina-se estimativas pontuais ou simplesmente estimativas. 1. Inferência Estatística Inferência Estatística é o uso da informção (ou experiência ou história) para a redução da incerteza sobre o objeto em estudo. A informação pode ou não ser proveniente de um experimento

Leia mais

Disciplina de Modelos Lineares Professora Ariane Ferreira

Disciplina de Modelos Lineares Professora Ariane Ferreira Disciplina de Modelos Lineares 2012-2 Regressão Logística Professora Ariane Ferreira O modelo de regressão logístico é semelhante ao modelo de regressão linear. No entanto, no modelo logístico a variável

Leia mais

Cap. 9 Comparação entre tratamentos

Cap. 9 Comparação entre tratamentos Estatística para Cursos de Engenharia e Informática Pedro Alberto Barbetta / Marcelo Menezes Reis / Antonio Cezar Bornia São Paulo: Atlas, 004 Cap. 9 Comparação entre tratamentos APOIO: Fundação de Apoio

Leia mais

( x) = a. f X. = para x I. Algumas Distribuições de Probabilidade Contínuas

( x) = a. f X. = para x I. Algumas Distribuições de Probabilidade Contínuas Probabilidade e Estatística I Antonio Roque Aula Algumas Distribuições de Probabilidade Contínuas Vamos agora estudar algumas importantes distribuições de probabilidades para variáveis contínuas. Distribuição

Leia mais

Sexta Lista: Geração de Números Pseudo-Aleatórios e Método de Monte Carlo

Sexta Lista: Geração de Números Pseudo-Aleatórios e Método de Monte Carlo Sexta Lista: Geração de Números Pseudo-Aleatórios e Método de Monte Carlo Antônio Carlos Roque da Silva Filho e Cristiano R. F. Granzotti 26 de junho de 2017 Os exercícios desta lista devem ser resolvidos

Leia mais

θ depende de um parâmetro desconhecido θ.

θ depende de um parâmetro desconhecido θ. 73 Método de Máxima Verosimilhança (Maximum Likelihood) Seja uma variável aleatória (v. a.) cuja densidade de probabilidade depende de um parâmetro desconhecido. Admite-se conhecida a forma de Exemplo

Leia mais

Estimação parâmetros e teste de hipóteses. Prof. Dr. Alberto Franke (48)

Estimação parâmetros e teste de hipóteses. Prof. Dr. Alberto Franke (48) Estimação parâmetros e teste de hipóteses Prof. Dr. Alberto Franke (48) 91471041 Intervalo de confiança para média É um intervalo em que haja probabilidade do verdadeiro valor desconhecido do parâmetro

Leia mais

AULA 09 Regressão. Ernesto F. L. Amaral. 17 de setembro de 2012

AULA 09 Regressão. Ernesto F. L. Amaral. 17 de setembro de 2012 1 AULA 09 Regressão Ernesto F. L. Amaral 17 de setembro de 2012 Faculdade de Filosofia e Ciências Humanas (FAFICH) Universidade Federal de Minas Gerais (UFMG) Fonte: Triola, Mario F. 2008. Introdução à

Leia mais

O Teorema de Bayes Mario F. Triola

O Teorema de Bayes Mario F. Triola 1 O Teorema de Bayes Mario F. Triola O conceito de probabilidade condicional é apresentado em Introdução à Estatística. Observamos que a probabilidade condicional de um evento é a probabilidade obtida

Leia mais

CC-226 Aula 05 - Teoria da Decisão Bayesiana

CC-226 Aula 05 - Teoria da Decisão Bayesiana CC-226 Aula 05 - Teoria da Decisão Bayesiana Carlos Henrique Q. Forster - Instituto Tecnológico de Aeronáutica 2008 Classificador Bayesiano Considerando M classes C 1... C M. N observações x j. L atributos

Leia mais

Modelos Lineares Generalizados - Modelos log-lineares para tabelas de contingência

Modelos Lineares Generalizados - Modelos log-lineares para tabelas de contingência Modelos Lineares Generalizados - Modelos log-lineares para tabelas de contingência Erica Castilho Rodrigues 12 de Agosto 3 Vimos como usar Poisson para testar independência em uma Tabela 2x2. Veremos

Leia mais

Modelos Lineares Generalizados - Modelos log-lineares para tabelas de contingência

Modelos Lineares Generalizados - Modelos log-lineares para tabelas de contingência Modelos Lineares Generalizados - Modelos log-lineares para tabelas de contingência Erica Castilho Rodrigues 12 de Agosto Introdução 3 Vimos como usar Poisson para testar independência em uma Tabela 2x2.

Leia mais

Sistemas de Controle 2

Sistemas de Controle 2 Pontifícia Universidade Católica de Goiás Escola de Engenharia Sistemas de Controle 2 Cap.10 Técnicas de Resposta em Frequência Prof. Dr. Marcos Lajovic Carneiro 10. Técnicas de Resposta de Frequência

Leia mais

Principais distribuições discretas Distribuição de Bernoulli sucesso fracasso X = 1, se sucesso X = 0, se fracasso P(X) TOTAL 1 Exemplo 5:

Principais distribuições discretas Distribuição de Bernoulli sucesso fracasso X = 1, se sucesso X = 0, se fracasso P(X) TOTAL 1 Exemplo 5: Principais distribuições discretas Na prática, sempre se procura associar um fenômeno aleatório a ser estudado, a uma forma já conhecida de distribuição de probabilidade (distribuição teórica) e, a partir

Leia mais

Resumo - capítulo 4 - Alinhamento múltiplo de sequências

Resumo - capítulo 4 - Alinhamento múltiplo de sequências Resumo - capítulo 4 - Alinhamento múltiplo de sequências Pedro Ivo Gomes de Faria Sumário 1 Introdução 3 1.1 Sequenciamento de genomas................... 3 1.2 Usos de alinhamentos múltiplos de sequências.........

Leia mais

Métodos de Ordenação Parte I

Métodos de Ordenação Parte I Estrutura de Dados II Métodos de Ordenação Parte I Prof a Márcio Bueno [email protected] / [email protected] Material baseado nos materiais da Prof a Ana Eliza e Prof. Robson Lins Rearranjar

Leia mais

Matriz de referência de MATEMÁTICA - SAERJINHO 5 ANO ENSINO FUNDAMENTAL

Matriz de referência de MATEMÁTICA - SAERJINHO 5 ANO ENSINO FUNDAMENTAL 17 5 ANO ENSINO FUNDAMENTAL Tópico Habilidade B1 B2 B3 ESPAÇO E FORMA GRANDEZAS E MEDIDAS TRATAMENTO DA INFORMAÇÃO H01 H03 H04 H06 Identificar a localização/movimentação de objeto em mapas, croquis e outras

Leia mais

ESTATÍSTICA BAYESIANA

ESTATÍSTICA BAYESIANA UNIVERSIDADE FEDERAL DE MINAS GERAIS INSTITUTO DE CIÊNCIAS EXATAS PET MATEMÁTICA Orientadora: Rosângela Helena Loschi ESTATÍSTICA BAYESIANA Marina Muniz de Queiroz INTRODUÇÃO A estatística clássica associa

Leia mais

Disciplina: Processamento Estatístico de Sinais (ENGA83) - Aula 03 / Detecção de Sinais

Disciplina: Processamento Estatístico de Sinais (ENGA83) - Aula 03 / Detecção de Sinais Disciplina: Processamento Estatístico de Sinais (ENGA83) - Aula 03 / Detecção de Sinais Prof. Eduardo Simas ([email protected]) Programa de Pós-Graduação em Engenharia Elétrica/PPGEE Universidade Federal

Leia mais

MÉTODOS QUANTITATIVOS PARA CIÊNCIA DA COMPUTAÇÃO EXPERIMENTAL

MÉTODOS QUANTITATIVOS PARA CIÊNCIA DA COMPUTAÇÃO EXPERIMENTAL MÉTODOS QUANTITATIVOS PARA CIÊNCIA DA COMPUTAÇÃO EXPERIMENTAL Pedro Henrique Bragioni Las Casas [email protected] Apresentação baseada nos slides originais de Jussara Almeida e Virgílio Almeida

Leia mais

Métodos de Amostragem. Métodos de Amostragem e Avaliação de Algoritmos. Métodos de Amostragem. Métodos de Amostragem. Métodos de Amostragem

Métodos de Amostragem. Métodos de Amostragem e Avaliação de Algoritmos. Métodos de Amostragem. Métodos de Amostragem. Métodos de Amostragem e Avaliação de s José Augusto Baranauskas Departamento de Física e Matemática FFCLRP-USP AM é uma ferramenta poderosa, mas não existe um único algoritmo que apresente o melhor desempenho para todos os

Leia mais

PLANIFICAÇÃO ANUAL MATEMÁTICA 4º ANO

PLANIFICAÇÃO ANUAL MATEMÁTICA 4º ANO PLANIFICAÇÃO ANUAL MATEMÁTICA 4º ANO Domínios Subdomínios Objetivos Descritores/ Metas de Aprendizagem ORGANIZAÇÃO E TRATAMENTO DE DADOS Tratamento dados de Representar e interpretar dados e situações

Leia mais

AULA 03 Estimativas e tamanhos amostrais

AULA 03 Estimativas e tamanhos amostrais 1 AULA 03 Estimativas e tamanhos amostrais Ernesto F. L. Amaral 03 de outubro de 2013 Centro de Pesquisas Quantitativas em Ciências Sociais (CPEQS) Faculdade de Filosofia e Ciências Humanas (FAFICH) Universidade

Leia mais

Disciplina de Modelos Lineares

Disciplina de Modelos Lineares Disciplina de Modelos Lineares 2012-2 Seleção de Variáveis Professora Ariane Ferreira Em modelos de regressão múltipla é necessário determinar um subconjunto de variáveis independentes que melhor explique

Leia mais

CONHECIMENTOS ESPECÍFICOS

CONHECIMENTOS ESPECÍFICOS CONHECIMENTOS ESPECÍFICOS As variáveis aleatórias X e Y seguem uma distribuição de Bernoulli com probabilidade de sucesso igual a 0,4. Considerando S = X + Y e que os eventos aleatórios A = [X = 1] e B

Leia mais

CIRCULAR TÉCNICA N o 176 JANEIRO UM ENSAIO FATORIAL DE ESPÉCIES E ADUBAÇÕES DE Eucalyptus

CIRCULAR TÉCNICA N o 176 JANEIRO UM ENSAIO FATORIAL DE ESPÉCIES E ADUBAÇÕES DE Eucalyptus ISSN -45 CIRCULAR TÉCNICA N o 76 JANEIRO 99 UM ENSAIO FATORIAL DE ESPÉCIES E ADUBAÇÕES DE Eucalyptus Introdução Frederico Pimentel Gomes * Carlos Henrique Garcia ** Os ensaios fatoriais apresentam, em

Leia mais

VARIÁVEIS ALEATÓRIAS E DISTRIBUIÇÕES DE PROBABILIDADE

VARIÁVEIS ALEATÓRIAS E DISTRIBUIÇÕES DE PROBABILIDADE VARIÁVEIS ALEATÓRIAS E DISTRIBUIÇÕES DE PROBABILIDADE.1 INTRODUÇÃO Admita que, de um lote de 10 peças, 3 das quais são defeituosas, peças são etraídas ao acaso, juntas (ou uma a uma, sem reposição). Estamos

Leia mais

Processamento digital de imagens

Processamento digital de imagens Processamento digital de imagens Agostinho Brito Departamento de Engenharia da Computação e Automação Universidade Federal do Rio Grande do Norte 6 de outubro de 2016 Segmentação de imagens A segmentação

Leia mais

Aula 2 Uma breve revisão sobre modelos lineares

Aula 2 Uma breve revisão sobre modelos lineares Aula Uma breve revisão sobre modelos lineares Processo de ajuste de um modelo de regressão O ajuste de modelos de regressão tem como principais objetivos descrever relações entre variáveis, estimar e testar

Leia mais

Tipos de gráficos disponíveis

Tipos de gráficos disponíveis Página 1 de 18 Excel > Gráficos > Criando gráficos Tipos de gráficos disponíveis Mostrar tudo O Microsoft Excel dá suporte a vários tipos de gráficos para ajudar a exibir dados de maneiras que sejam significativas

Leia mais

i j i i Y X X X i j i i i

i j i i Y X X X i j i i i Mario de Andrade Lira Junior lira.pro.br\wordpress lira.pro.br\wordpress Diferença Regressão - equação ligando duas ou mais variáveis Correlação medida do grau de ligação entre duas variáveis Usos Regressão

Leia mais

Distribuições Discretas

Distribuições Discretas META: Estudar o comportamento das Variáveis Aleatórias Discretas, bem como das Distribuições Binomial e Poisson e suas aplicações. Entender o comportamento de uma Variável aleatória Contínua. OBJETIVOS:

Leia mais

Nada em Biologia faz sentido senão à luz da evolução.

Nada em Biologia faz sentido senão à luz da evolução. Marcos T. Geraldo ADAPTABILIDADE Nada em Biologia faz sentido senão à luz da evolução. Theodosius Dobzhansky (1973) 1 Processo de evolução em moléculas de DNA, RNA e proteínas Reconstrução das relações

Leia mais

6 Estudo de Casos: Valor da Opção de Investimento em Informação por Aproximação com Números Fuzzy 6.1. Introdução

6 Estudo de Casos: Valor da Opção de Investimento em Informação por Aproximação com Números Fuzzy 6.1. Introdução 6 Estudo de Casos: Valor da Opção de Investimento em Informação por Aproximação com Números Fuzzy 6.1. Introdução Este capítulo apresenta o segundo estudo de casos, no qual também são empregados números

Leia mais

CONHECIMENTOS ESPECÍFICOS

CONHECIMENTOS ESPECÍFICOS CONHECIMENTOS ESPECÍFICOS 2003 2004 2005 2006 2007 2008 2009 2010 X 39,0 39,5 39,5 39,0 39,5 41,5 42,0 42,0 Y 46,5 65,5 86,0 100,0 121,0 150,5 174,0 203,0 A tabela acima mostra as quantidades, em milhões

Leia mais

Alinhamento local- Utilização do BLAST

Alinhamento local- Utilização do BLAST Alinhamento local- Utilização do BLAST BLAST Tipos de BLAST (blastn) Compara nucleotídeos (blastp) Compara proteínas Utiliza nucleotídeo como query, este é traduzido nos seus 6 quadros de leitura e é comparado

Leia mais