OTIMIZANDO A MIGRAÇÃO POR MÍNIMOS QUADRADOS ATRAVÉS DE OPERADORES ADJUNTOS

Transcrição

1 UNIVERSIDADE FEDERAL DA BAHIA INSTITUTO DE GEOCIÊNCIAS CURSO DE GRADUAÇÃO EM GEOFÍSICA GEO213 TRABALHO DE GRADUAÇÃO OTIMIZANDO A MIGRAÇÃO POR MÍNIMOS QUADRADOS ATRAVÉS DE OPERADORES ADJUNTOS BRENO FIGUEIREDO BAHIA SALVADOR BAHIA Maio 2016

2 Otimizando a migração por mínimos quadrados através de operadores adjuntos por Breno Figueiredo Bahia Orientador: Prof. Dr. Reynam da Cruz Pestana GEO213 TRABALHO DE GRADUAÇÃO Departamento de Geologia e Geofísica Aplicada do Instituto de Geociências da Universidade Federal da Bahia Comissão Examinadora Dr. Reynam da Cruz Pestana Dr. Oscar Fabian Mojica Ladino MSc. Antônio Edson Lima de Oliveira Data da aprovação: 25/05/2016

3 Não ao golpe!

4 RESUMO Devido a limitações como, por exemplo, dados incompletos, operadores de migração convencional inserem artefatos na seção sísmica final. A técnica chamada de migração por mínimos quadrados (LSM 1 ) visa aproximar o operador inverso de modo a atenuar os artefatos de migração, otimizando o resultado final. A técnica dos mínimos quadrados utiliza métodos iterativos para resolver o sistema de equações normais, e requer o conhecimento dos operadores de modelagem direta e seu adjunto (migração). Estes métodos utilizam o gradiente da função objetivo para estimar direções de busca e atualizar o modelo em subsuperfície, visando a predição do dado observado. O gradiente da função objetivo é obtido através da migração dos resíduos entre o dado observado e o dado estimado a cada iteração. A migração de dados sísmicos é operação adjunta à modelagem de dados. Entretanto, apenas os operadores de migração que passam no teste do produto interno são operadores adjuntos exatos. Estes operadores estimam direções de busca mais precisas, incrementando as taxas de convergência dos métodos iterativos. Este trabalho visa estudar o efeito de se utilizar operadores de migração convencional (adjuntos inexatos) e adjuntos exatos nas taxas de convergência da LSM. Para tanto, duas versões do operador de migração reversa no tempo (RTM 2 ) pós-empilhamento são utilizadas; uma que passa no teste do produto interno, e outra que não passa no teste. Estes operadores são testados em três diferentes métodos iterativos, visando analisar o quão sensíveis estes métodos podem ser aos operadores. Também, pode-se comparar os três métodos a fim de verificar qual deles oferece melhores taxas de convergência. Desta forma, pode-se formular uma melhor estratégia na migração por mínimos quadrados, à qual se garante melhores taxas de convergência. Os métodos iterativos utilizados são o método do gradiente (STD 3 ), o método dos gradientes conjugados (CG 4 ) e o L-BFGS 5. 1 Do inglês Least-squares Migration 2 Do inglês Reverse Time Migration 3 Do inglês Steepest Descent 4 Do inglês Conjugate Gradients 5 Do nome limited-memory Broyden-Fletcher-Goldfarb-Shanno iii

5 ABSTRACT Least-squares migration is often used to attenuate migration artifacts that arise in conventional migration due to, for instance, data incompletness and limited recording aperture. It uses iterative methods to obtain a model that best fits the data, and it requires a forward/adjoint operator pair to do so. These methods use the gradient of the cost function to estimate search directions and update the current model. The gradient is obtained by migrating the residuals between estimated and observed data at each iteration. Migration operators are regarded as adjoint of forward operators but only those which pass the dotproduct test are exact adjoints. These operators estimate more accurate search directions, enhancing the convergence rates of iterative methods. This work intends to analyse the effects of applying conventional migration operators (pseudo-adjoint) and exact adjoint operators for the LSM convergence rates. To do so, two versions of a RTM post-stack operator are being used; one that passes the dot product test, and other that does not pass the test. These operators are being tested with three different iterative methods, aiming to analyse how sensitive they might be to these operators. Also, a comparison can be made using these three methods to verify which one of them offers better convergence rates. By doing so, a better strategy for the LSM can be formulated, where a better convergence rate is guaranteed. The iterative methods being tested are the steepest descent, the conjugate gradients and the L-BFGS. iv

6 ÍNDICE RESUMO iii ABSTRACT iv ÍNDICE v ÍNDICE DE FIGURAS vii INTRODUÇÃO CAPÍTULO 1 Bases Teóricas A etapa de migração dos dados sísmicos A migração reversa no tempo A migração como um problema inverso A migração dos mínimos quadrados Regularização e pré-condicionamento dos modelos O teste do produto interno e operadores adjuntos CAPÍTULO 2 Métodos Iterativos para Solução de Sistemas Lineares Método do Gradiente (STD) Método dos Gradientes Conjugados (CG) Limited-memory BFGS Condições de Wolfe CAPÍTULO 3 Resultados Metodologia para obtenção dos resultados Exemplo ilustrativo Exemplos na migração por mínimos quadrados Modelo Simples Método do gradiente Método dos gradientes conjugados L-BFGS Modelo de Sal SEG-EAGE Método do Gradiente Método dos Gradientes Conjugados L-BFGS v

7 3.6 Sobre a influência dos operadores Análise comparativa dos métodos iterativos CAPÍTULO 4 CONCLUSÃO Agradecimentos Referências Bibliográficas vi

8 ÍNDICE DE FIGURAS 1.1 Ilustração de aquisição para (a) camadas planas e (b) camada inclinada, onde v 1 e ρ 1 são a velocidade e a densidade do meio 1, e v 2 e ρ 2 são a velocidade e a densidade do meio 2. Adaptado de Onajite (2014) Estratégia de migração em função da complexidade geológica e da variação de velocidades sísmicas em subsuperfície. Adaptado de Mousa e Al-Shuhail (2011) Convergência do método do gradiente para o caso bidimensional. Adaptado de Nocedal e Wright (2006) Convergência do método dos gradientes conjugados para o caso bidimensional. Adaptado de Nocedal e Wright (2006) Solução do exemplo ilustrativo com o método do gradiente. (a) Soluções obtidas a cada iteração convergindo à solução analítica e (b) curva de convergência do STD Solução do exemplo ilustrativo com o método dos gradientes conjugados. (a) Soluções obtidas a cada iteração convergindo à solução analítica e (b) curva de convergência do CG Solução do exemplo ilustrativo com o método L-BFGS. (a) Soluções obtidas a cada iteração convergindo à solução analítica e (b) curva de convergência do L-BFGS (a) Modelo de refletividade verdadeira e (b) Campo de velocidades Dado Observado Modelo de refletividade obtido com o (a) operador RTM convencional e (b) operador RTM adjunto Dado calculado a partir do modelo de refletividade obtido com o operador adjunto exato Modelo de refletividade obtido com o operador RTM convencional após (a) 2 e (b)10 iterações do STD Modelo de refletividade obtido com o operador RTM adjunto após (a) 2 e (b) 10 iterações do STD Comparativo entre o (a) dado observado e os dados calculados a partir do modelo otimizado na iteração de número 20 com o (b) operador RTM convencional e (c) operador adjunto vii

9 3.11 Curvas de convergência (a) dos resíduos e do (b) erro do modelo para a LSM utilizando o operador adjunto (linha azul) e o operador convencional (linha vermelha) no STD Modelo de refletividade obtido com o operador RTM convencional após (a) 2 e (b)10 iterações do CG Modelo de refletividade obtido com o operador adjunto após (a) 2 e (b)10 iterações do CG (a) Dado observado (b) Dado calculado a partir do modelo otimizado na iteração de número 10 utilizando o operador convencional no CG Curvas de convergência (a) dos resíduos e (b) do erro do modelo para a LSM utilizando o operador adjunto (linha azul) e o operador convencional (linha vermelha) no CG Modelo de refletividade obtido com o operador RTM convencional exato após (a) 2 e (b)10 iterações do L-BFGS Modelo de refletividade obtido com o operador RTM convencional após (a) 2 e (b) 10 iterações do L-BFGS Comparativo entre o (a) dado observado e os dados calculados a partir do modelo otimizado na iteração de número 10 com o (b) operador RTM convencional e (c) operador adjunto no L-BFGS Curvas de convergência (a) dos resíduos e (b) do erro do modelo para a LSM utilizando o operador adjunto (linha azul) e o operador convencional (linha vermelha) no L-BFGS Curvas de convergência com intervalos limitados para (a) resíduo do dado e (b) modelo Campo de velocidades verdadeiro do modelo SEG-EAGE Refletividade verdadeira do modelo SEG-EAGE Campo de velocidades suavizado do modelo SEG-EAGE Dado observado Modelo de subsuperfície obtido a partir da migração do dado observado (Figura 3.24) com o operador RTM convencional sem aplicação do filtro Laplaciano Modelo de subsuperfície obtido a partir da migração do dado observado (Figura 3.24) com o operador adjunto sem aplicação do filtro Laplaciano Modelo de subsuperfície obtido a partir da migração do dado observado (Figura 3.24) com o operador RTM convencional e aplicação do filtro Laplaciano Modelo de subsuperfície obtido a partir da migração do dado observado (Figura 3.24) com o operador adjunto e aplicação do filtro Laplaciano Modelo otimizado na iteração de número 2 com a LSM baseada no método do gradiente utilizando o operador RTM convencional viii

10 3.30 Modelo otimizado na iteração de número 10 com a LSM baseada no método do gradiente utilizando o operador RTM convencional Modelo otimizado na iteração de número 2 com a LSM baseada no método do gradiente utilizando o operador adjunto Modelo otimizado na iteração de número 10 com a LSM baseada no método do gradiente utilizando o operador adjunto Dado predito a partir do modelo invertido na iteração de número 10 com o operador convencional na LSM Dado predito a partir do modelo invertido na iteração de número 10 com o operador adjunto na LSM Curvas de convergência (a) dos resíduos e (b) do erro do modelo para a LSM utilizando o operador adjunto (linha azul) e o operador convencional (linha vermelha) no método do gradiente Modelo otimizado na iteração de número 2 com a LSM baseada no método dos gradientes conjugados utilizando o operador RTM convencional Modelo otimizado na iteração de número 10 com a LSM baseada no método dos gradientes conjugados utilizando o operador RTM convencional Modelo otimizado na iteração de número 2 com a LSM baseada no método dos gradientes conjugados utilizando o operador adjunto Modelo otimizado na iteração de número 10 com a LSM baseada no método do gradiente utilizando o operador adjunto Dado predito a partir do modelo invertido na iteração de número 10 com o operador convencional na LSM utilizando o CG Dado predito a partir do modelo invertido na iteração de número 10 com o operador adjunto na LSM utilizando o CG Curvas de convergência (a) dos resíduos e (b) do erro do modelo para a LSM utilizando o operador adjunto (linha azul) e o operador convencional (linha vermelha) no CG Modelo otimizado na iteração de número 2 com a LSM baseada no L-BFGS utilizando o operador RTM convencional Modelo otimizado na iteração de número 10 com a LSM baseada no L-BFGS utilizando o operador RTM convencional Modelo otimizado na iteração de número 4 com a LSM baseada no L-BFGS utilizando o operador adjunto Modelo otimizado na iteração de número 10 com a LSM baseada no L-BFGS utilizando o operador adjunto Dado predito a partir do modelo invertido na iteração de número 10 com o operador convencional na LSM utilizando o L-BFGS ix

11 3.48 Dado predito a partir do modelo invertido na iteração de número 10 com o operador adjunto na LSM utilizando o L-BFGS Curvas de convergência (a) dos resíduos e (b) do erro do modelo para a LSM utilizando o operador adjunto (linha azul) e o operador convencional (linha vermelha) no L-BFGS Gradientes obtidos com o operador RTM convencional após (a) 2 e (b) 10 iterações Gradientes obtidos com o operador RTM adjunto exato após (a) 2 e (b) 10 iterações (a) Modelo de refletividade obtido com o operador RTM convencional. (b) Gradiente obtido na iteração de número 2 do STD com o mesmo operador (a) Modelo de refletividade obtido com o operador adjunto. (b) Gradiente obtido na iteração de número 2 do STD com o mesmo operador (a) Comparativo das curvas de convergência dos resíduos com o método do gradiente (linha azul), gradientes conjugados (linha vermelha) e L-BFGS (linha preta) na otimização do modelo simples. (b) Zoom no intervalo [0 : ] Comparativo das curvas de convergência do resíduo com o método do gradiente (linha azul), gradientes conjugados (linha vermelha) e L-BFGS (linha preta) na otimização do modelo de sal SEG-EAGE x

12 INTRODUÇÃO A migração sísmica é uma das principais etapas do processamento sísmico. Através da migração, visa-se imagear pontos refletores em sua posição verdadeira, gerando assim uma imagem confiável da subsuperfície para, por exemplo, localização de alvos exploratórios. Existem vários métodos de migração, baseados em diferentes formulações matemáticas, como por exemplo a migração reversa no tempo. Este tipo de migração se baseia na solução completa da equação da onda. Por isso, consegue imagear bem regiões onde outros métodos, como o Kirchhoff, não conseguem. Entretanto, a migração reversa no tempo requer um alto esforço computacional. O foco principal deste trabalho está relacionado ao fato de que um operador de migração pode ser entendido como o operador adjunto de um operador direto de modelagem sísmica (Claerbout e Green, 2008). Diante disto, pode-se escrever a etapa de migração como um processo de inversão, no qual se busca um modelo que consegue predizer os dados observados com bom grau de precisão. Idealmente, o operador inverso ao operador de modelagem seria necessário. Entretanto, como não se possui o operador inverso, procuram-se formas de aproximá-lo. Dito isto, começa-se com o operador adjunto como uma aproximação ao operador inverso. O operador adjunto, apesar de ser uma boa aproximação ao operador inverso, falha ao imagear a subsuperfície de maneira eficaz por causa da não-ortogonalidade do operador de migração, inserindo artefatos nas imagens finais. Portanto, estratégias para uma melhor aproximação do operador inverso se fazem necessárias para a atenuação destes artefatos. Uma dessas estratégias é a técnica dos Mínimos Quadrados, na qual se deseja minimizar o soma quadrática dos erros entre o dado observado e dado calculado com o modelo otimizado. A otimização da imagem migrada por meio dos mínimos quadrados é chamada de Migração por Mínimos Quadrados. Esta técnica requer que se conheça o operador direto (modelagem) e seu adjunto (migração). Infelizmente, em problemas como imageamento, os operadores de modelagem e migração, normalmente, não são explicitamente calculados. Em outras palavras, estas matrizes não são computadas. Ao invés disto, utilizam rotinas de computador para avaliar a aplicação desses operadores. Deve-se, então, se certificar de que estes códigos fazem papel de adjunto um ao outro. Para isto, utiliza-se o teste do produto interno. A técnica dos mínimos quadrados requer a inversão da matriz Hessiana. Esta matriz é muito grande para ser armazenada e invertida. Portanto, utilizam-se de métodos iterativos para resolver o problema dos mínimos quadrados. Existem vários métodos que podem ser 1

13 2 utilizados, como por exemplo o método do gradiente, o método dos gradientes conjugados e o limited-memory BFGS, ou apenas L-BFGS. Um dos pontos negativos da técnica dos mínimos quadrados é seu alto custo computacional. Isto ocorre porque a cada iteração da LSM, os operadores de modelagem e migração são utilizados pelo menos uma vez. O objetivo principal deste trabalho é, portanto, estudar a influência do operador de migração na técnica dos mínimos quadrados. Operadores de migração são considerados adjuntos aos operadores de modelagem, mas só se pode certificar isto por meio do teste do produto interno. Utilizou-se, então, a LSM empregando o operador RTM convencional, que não passa no teste do produto interno, e também o operador na sua versão adjunta, que passa no teste, para comparar a efetividade de ambos. Outro objetivo é o de comparar a efetividade dos diferentes métodos iterativos. Depois de se definir qual operador de migração é o mais adequado a ser utilizado, os resultados dos métodos iterativos serão comparados para este operador. Desta forma, será possível definir uma estratégia mais efetiva para minimizar os altos custos da migração por mínimos quadrados. Este trabalho começa pelas bases teóricas da migração. Discute-se a necessidade da migração e como pode-se aplicá-la. Aborda-se, então, a migração reversa no tempo. Depois, escreve-se a migração como um problema inverso, de onde se introduz o problema dos mínimos quadrados e técnicas de regularização ao mesmo. Em seguida, o teste do produto interno é apresentado como forma de se definir um operador adjunto exato. No capítulo seguinte, os métodos iterativos são abordados. A teoria de cada método e alguns pontos positivos e negativos são discutidos. Para finalizar o trabalho, os resultados são apresentados. Primeiro se explica a metodologia utilizada para obtenção dos resultados. Cada método iterativo é utilizado duas vezes empregando distintos operadores, e seus resultados são comparados. Por fim, discutese a influência do operador utilizado. Chega-se, então, à análise comparativa dos métodos iterativos. Segue-se com as conclusões obtidas neste trabalho.

14 CAPÍTULO 1 Bases Teóricas 1.1 A etapa de migração dos dados sísmicos Na exploração de hidrocarbonetos, a chave para o sucesso está relacionada à capacidade de se gerar imagens representativas da geologia em subsuperfície (Bording e Lines, 2000). Neste contexto, a sísmica de reflexão é o método geofísico mais utilizado. Neste método, excita-se a subsuperfície com fontes (e.g., dinamite, air-guns), as quais geram ondas que se propagam no meio até que encontrem descontinuidades geológicas. As descontinuidades geram as reflexões, e aquelas que retornam à superfície são registrados por uma série de receptores (e.g., geofones ou hidrofones). Estes sinais carregam informações sobre as estruturas geológicas em subsuperfície (Bording e Lines, 2000) e são, portanto, processados de maneira a gerar as imagens que serão utilizadas na etapa de interpretação dos dados sísmicos. A etapa que trata dos sinais sísmicos registrados é chamada de processamento de dados. O processamento de dados sísmicos é composto por outras etapas, as quais utilizam aproximações e considerações sobre as condições da geologia local. Por exemplo, no processamento convencional se assume que as camadas em subsuperfície são horizontais. Com isto, para um par fonte-receptor com afastamento não nulo, o ponto refletor estaria diretamente abaixo do ponto médio entre a fonte e o receptor, como mostrado na Figura 1.1a. Pode-se organizar, então, todo o dado em famílias de ponto médio comum para realização da etapa de correção NMO e subsequente empilhamento. Com o empilhamento obtém-se a seção empilhada, que é uma aproximação à uma seção de afastamento nulo (ou seção zero-offset). Esta seção já pode ser considerada uma aproximação da imagem da subsuperfície. Na seção zero-offset, fonte e receptor estão localizados na mesma posição e, assumindo que as camadas em subsuperfície são horizontais, o ponto refletor estará posicionado diretamente abaixo destes. Para o caso de camadas inclinadas, entretanto, o ponto refletor não estará posicionado diretamente abaixo do ponto médio entre fonte e receptor (Figura 1.1b). Apesar de se ter uma ideia da geologia na região estudada, não se sabe exatamente como se comporta a geologia local em subsuperfície. Então, é comum assumir que o ponto refletor está, aparentemente, no ponto médio entre fonte e receptor. A seção zero-offset obtida a partir do 3

15 4 empilhamento dos dados adquiridos em condição similar à representada na Figura 1.1b posicionará a refletividade do ponto refletor verdadeiro como se estivesse diretamente abaixo do par fonte-receptor (Claerbout e Green, 2008), o que não é verdade. Este deslocamento lateral não é a única forma de mal-posicionamento dos pontos refletores; o ponto refletor aparente é também mais profundo do que o ponto refletor verdadeiro. Conclui-se, então, que as posições aparentes das reflexões em seções não migradas não são, geralmente, as posições verdadeiras dos refletores em subsuperfície (Claerbout e Green, 2008). Caso esta seção seja utilizada na interpretação sísmica, a posição de possíveis alvos exploratórios, bem como qualquer decisão tomada com base neste dado, estará comprometida. Portanto, faz-se necessária a correção do posicionamento dos pontos refletores em subsuperfície para suas posições verdadeiras. Isto é realizado pela etapa do processamento sísmico conhecida como Migração Sísmica. (a) (b) Figura 1.1: Ilustração de aquisição para (a) camadas planas e (b) camada inclinada, onde v 1 e ρ 1 são a velocidade e a densidade do meio 1, e v 2 e ρ 2 são a velocidade e a densidade do meio 2. Adaptado de Onajite (2014). O objetivo da migração sísmica é fazer com que a seção sísmica final corresponda a uma seção geológica da região estudada (Yilmaz, 2001). Esta etapa pode ser definida como

16 5 o processo de reconstrução da seção sísmica, onde os pontos refletores aparentes são reposicionados para os pontos refletores verdadeiros em profundidade (Onajite, 2014). Este reposicionamento é feito através da movimentação - ou migração, daí o nome - das coordenadas aparentes para suas coordenadas espaciais verdadeiras. Não apenas uma correção de coordenadas espaciais, a migração dos dados sísmicos também aplica correções para efeitos de propagação da onda (e.g., espalhamento geométrico e atenuação), e ainda colapsa difrações para seus pontos de origem (Rosa, 2010) dando maior credibilidade ao resultado final do processamento sísmico, a imagem de subsuperfície. O requisito básico para uma boa migração dos dados é a obtenção de um campo de velocidades confiável durante a etapa de análise de velocidades. Yilmaz (2001) explica que existem alguns aspectos práticos da etapa migração que requerem a tomada de decisões no que diz respeito à estratégia de migração. As estratégias de migração incluem: (1) migração 2-D e 3-D; (2) migração pós- e pré-empilhamento; e (3) migração em tempo ou em profundidade (Yilmaz, 2001). A variedade na escolha da estratégia de migração varia desde a migração 2-D pós-empilhamento em tempo até a migração 3-D pré-empilhamento em profundidade e, a depender da geologia esperada da subsuperfície, qualquer combinação pode ser selecionada (Yilmaz, 2001; Mousa e Al-Shuhail, 2011). Os aspectos da estratégia de migração podem ser definidos da seguinte maneira: (1) a migração pode ser 2-D ou 3-D; em duas dimensões o dado é migrado ao longo de um perfil (Mousa e Al-Shuhail, 2011). (2) A migração pode ser realizada em tempo ou em profundidade; de maneira simplória, a mais aparente diferença entre estes tipos de migração é relacionado ao resultado final, que pode ser dado em tempo (migração em tempo) ou em profundidade (migração em profundidade). Na verdade, a principal diferença entre migração em tempo e profundidade está relacionada a como os algoritmos tratam o campo de velocidades (Gray et al., 2001). A migração em tempo utiliza um campo de velocidades constante para cada ponto do modelo, onde o valor da velocidade muda, de um ponto para o outro, dentro do modelo. Desta forma, não se considera a curvatura dos raios sísmicos em descontinuidades geológicas, o que torna a migração em tempo menos precisa (Gray et al., 2001). Já a migração em profundidade utiliza campos de velocidade intervalares e considera a curvatura dos raios sísmicos em subsuperfície, representando o comportamento da onda sísmica de maneira mais realista do que a migração em tempo (Gray et al., 2001). Pode-se concluir, portanto, que a escolha da migração em tempo ou em profundidade depende da confiabilidade do campo de velocidades e da complexidade da geologia em subsuperfície. Por exemplo, regiões de geologia complexa, como aquelas afetadas por tectônica de sal, apresentam uma grande e forte variação lateral de velocidade, o que desfavorece a utilização de operadores de migração em tempo. Por outro lado, a não confiabilidade do campo de velocidade favorece à migração em tempo, já que não se leva em consideração a curvatura dos raios sísmicos nos contatos geológicos. (3) Finalmente, o último aspecto da migração é quando aplicála dentro do fluxo do processamento de dados sísmicos. A migração pós-empilhamento é

17 6 aplicada após a etapa de empilhamento dos dados, como o nome já indica. O dado passa por todas as etapas do processamento sísmico antes de ser migrado: geometria, ganhos, filtragens, organização em família CMP, análise de velocidade, correção NMO e, finalmente, o empilhamento. Esta estratégia se mostra eficiente para casos onde a geologia não apresenta forte complexidade, uma vez que coopera com as condições assumidas no processamento de dados em famílias CMP. Para casos em que a geologia apresenta maior complexidade, a migração pré-empilhamento é a mais indicada. Em outras palavras, dados adquiridos em regiões de geologia complexa geralmente não geram uma boa seção de afastamento nulo, o que resulta numa seção migrada de má qualidade, para o caso pós-empilhamento. Diante disto, a migração pré-empilhamento é mais indicada em casos de alta complexidade estrutural. Nesta, as etapas de correção NMO e empilhamento são realizadas de forma implícita durante a migração. A Figura 1.2 mostra como a tomada de decisões relacionadas à estratégia de migração, teoricamente, funciona em função da complexidade da geologia local e do contraste de velocidades de propagação, e resume o que foi dito anteriormente. Figura 1.2: Estratégia de migração em função da complexidade geológica e da variação de velocidades sísmicas em subsuperfície. Adaptado de Mousa e Al-Shuhail (2011). Para finalizar, deve-se utilizar um algoritmo compatível com a estratégia de migração escolhida. Para os fins deste trabalho, apesar da migração pré-empilhamento ser a mais indicada, a migração 2-D pós-empilhamento em profundidade será utilizada para comparar os operadores, os quais serão definidos nas seções seguintes.

18 7 1.2 A migração reversa no tempo Existem vários métodos que podem ser utilizados na etapa de migração sísmica, cada qual com suas vantagens e desvantagens. Cada um destes métodos constitui um operador de migração que é, de algum modo, oriundo de alguma equação da onda e requer o conhecimento prévio do campo de velocidades. Basicamente, a etapa de migração sísmica é constituída de duas etapas comuns: (1) extrapolação do campo de ondas; e (2) aplicação de uma condição de imagem (Araújo, 2009). De acordo com Araújo (2009), o que diferencia cada método é, justamente, a metodologia utilizada para resolução da equação da onda para extrapolação dos campos e a condição de imagem aplicada. A extrapolação do campo de ondas pode ser definida, segundo Schuster (2010), como a utilização de valores de contorno de um campo de ondas que se propaga em um certo meio para predizer o campo de ondas em pontos distantes a este contorno. Em uma outra abordagem, Araújo (2009) explica que a extrapolação do campo de ondas é uma técnica matemática, a qual permite atrasar ou avançar o campo de ondas. Para o caso da extrapolação do campo de ondas no tempo, se a predição é feita para um tempo anterior (atrasar o campo), pode-se chamar a extrapolação de propagação reversa; se a extrapolação prediz o campo de ondas em um tempo posterior (avançar o campo) esta recebe o nome de propagação direta (Schuster, 2010). A extrapolação do campo de ondas é realizada a partir da solução da equação da onda, a qual pode ser vista como uma maneira de se explicitar a propagação do campo, seja de forma direta ou reversa, a partir de medidas feitas em uma dada posição (Araújo, 2009). Como dito anteriormente, a extrapolação do campo de ondas é uma das etapas que diferencia cada método de migração. Por exemplo, operadores do tipo Kirchhoff baseiam-se na solução integral da equação da onda (Schneider, 1978), já os operadores de migração reversa no tempo utilizam a solução completa da equação da onda por meio de operadores de diferenças finitas. Já a condição de imagem, segundo Araújo (2009), é o critério aplicado ao campo extrapolado para se obter a imagem de subsuperfície evidenciando os pontos refletores da energia sísmica através do posicionamento correto das amplitudes na seção migrada. Uma descrição mais simples é dada por Oliveira (2014), onde o autor afirma sucintamente que a condição de imagem é... o critério definido para que a imagem seja formada. A condição de imagem é o segundo ponto que diferencia os métodos de migração. Um bom exemplo a ser dado referese à migração reversa no tempo nos tipos pós- e pré-empilhamento. No caso da migração pós-empilhamento, como afirma Araújo (2009), a condição de imagem está ligada ao modelo do refletor explosivo. Segundo este modelo, o campo de ondas no tempo t = 0 corresponde ao modelo real em profundidade (Faria, 1986). Em outras palavras, a seção estará migrada quando o campo de ondas registrado na superfície, em um tempo t = t max, seja propagado de forma reversa (depropagado) até o tempo t = 0. Já no caso pré-empilhamento, utiliza-se a

19 8 condição de imagem de correlação cruzada (Jiang et al., 2010). Esta condição de imagem foi proposta por Claerbout (1971) e diz que o refletor existirá nos pontos da subsuperfície onde o campo de ondas da fonte coincide no tempo e no espaço com o campo de ondas refletido (Araújo, 2009). Neste caso, propaga-se o campo de ondas da fonte, depropaga-se o campo de ondas dos receptores e se calcula a correlação-cruzada entre estes campos. Nos pontos em que os campos coincidem, a condição de imagem será diferente de zero indicando a presença de um refletor naquela posição. O método utilizado neste trabalho é o da migração reversa no tempo. Este método baseia-se na solução completa da equação da onda acústica, sendo caracterizado por Stolt e Weglein (2012) como o método mais direto e caro de continuação para baixo. Como dito anteriormente, a equação da onda governa o avanço do campo de pressão, P, no espaço e no tempo (Araújo, 2009). Obter soluções para a equação da onda acaba sendo a chave para se obter imagens representativas da subsuperfície, visto que é a habilidade de se computar soluções para a Equação 1.1 que permite modelar e imagear as ondas sísmicas (Bording e Lines, 2000). A maneira mais simples para realizar a migração reversa no tempo, segundo Stolt e Weglein (2012), é a conversão da equação da onda em uma equação de diferenças 1 utilizando operadores de diferenças finitas no espaço e no tempo. Para tanto, começa-se com a equação da onda acústica onde: 2 P = 1 c 2 2 P t 2, (1.1) P P (x, y, z, t) é o campo de pressões; c c(x, y, z) é a velocidade de propagação da onda acústica; (x, y, z) são as variáveis espaciais e t é o tempo; 2 = 2 x y + 2 é o operador Laplaciano. 2 z2 Para o caso 2-D, assume-se que não há variação no eixo y, daí ( 2 x z 2 )P = 1 c 2 2 P t 2, (1.2) a qual pode ser reescrita com o auxílio de operadores de diferenças finitas de segunda ordem. O operador de diferenças finitas utiliza discretizações temporais e espaciais. Então, o campo de pressão poderá ser representado por: P (x, z, t) = P (l x, m z, n t). (1.3) 1 Uma equação de diferenças é uma relação de recorrência para estimar o valor de uma função em um certo ponto a partir dos valores desta função em outros pontos da vizinhança

20 9 A discretização espacial representa a criação de uma malha especificada por suas coordenadas genéricas (l x, m z), onde x e z são os espaçamentos nas direções x e z, respectivamente, e t é o incremento de tempo utilizado. Como os incrementos espaciais e temporal são constantes durante o processo de extrapolação do campo, pode-se utilizar a seguinte notação para o campo de pressão na forma discretizada: P (x, z, t) = P (l x, m z, n t) = P n l,m, (1.4) e então se faz possível reescrever a equação da onda 1.2, utilizando operadores de diferenças finitas de segunda ordem, da seguinte maneira: (Pl 1,m n 2P l,m n + P l+1,m n ) + (P l,m 1 n 2P l,m n + P l,m+1 n ) = x 2 z 2 (P n+1 l,m Utilizando-se espaçamentos iguais em x e z ( x = z), tem-se que 1 x 2 (P n l 1,m + P n l+1,m + P n l,m 1 + P n l,m+1 4P n l,m) = 1 t 2 c 2 l,m (P n+1 l,m 2P l,m n + P n 1 t 2 c 2 l,m l,m ). (1.5) 2P l,m n + P n 1 ). (1.6) A partir da equação 1.6, o campo P n+1 l,m pode ser obtido em um ponto da malha no tempo (n + 1) t, a partir do campo no mesmo ponto nos instantes n t e (n 1) t e o campo em pontos vizinhos no instante n t, da seguinte forma: P n+1 l,m Fazendo: = t2 c 2 l,m (P n x 2 l 1,m + Pl+1,m n + Pl,m 1 n + Pl,m+1 n 4Pl,m) n + 2Pl,m n P n 1 l,m. (1.7) α l,m = t2 c 2 l,m x 2, (1.8) chega-se à equação de extrapolação direta no tempo: P n+1 l,m = 2(1 2α l,m)p n l,m + α l,m (P n l 1,m + P n l+1,m + P n l,m 1 + P n l,m+1) P n 1 l,m. (1.9) É a partir da equação acima que se realiza a propagação direta do campo de ondas no tempo, o que permite, então, a realização de modelagens diretas para a obtenção de sismogramas sintéticos (Lima, 2007), ou seções de afastamento nulo para o caso pós-empilhamento. De maneira similar, pode-se chegar à equação que realiza a propagação reversa do campo. Para tanto, basta isolar P n 1 l,m da equação 1.9: P n 1 l,m = 2(1 2α l,m)p n l,m + α l,m (P n l 1,m + P n l+1,m + P n l,m 1 + P n l,m+1) P n+1 l,m. (1.10) l,m A conclusão é a mesma que para a propagação direta: o campo P n 1 l,m pode ser obtido em um ponto da malha no tempo (n 1) t a partir do campo no mesmo ponto nos instantes n t e (n + 1) t e o campo em pontos vizinhos no instante n t (Araújo, 2009). Outra conclusão é que a RTM realiza a migração através da propagação reversa do campo de ondas. Stolt e Weglein (2012) oferecem um passo-a-passo para a RTM pós-empilhamento:

21 10 O campo de ondas na profundidade zero, P tmax (l,0), é o dado empilhado; Inicia-se o algoritmo a partir do maior tempo presente no dado, t max, e com o auxílio da equação 1.10 se depropaga o campo de ondas para tempos anteriores à t max, até que se chegue em t = 0. O campo P 0 (l,m) é, então, a imagem migrada. Em suma, entende-se que a RTM utiliza os dados adquiridos na superfície como condição de contorno e realiza a migração calculando, a partir do tempo final da seção, o campo de ondas para cada tempo até o tempo zero (Faria, 1986). Entretanto, como explica Stolt e Weglein (2012), o algoritmo pede por mais informações do que as disponíveis. Por exemplo, o algoritmo de depropagação do campo de ondas pediria o campo de ondas em m = 1 e m = nz + 1 (assumindo que nz seja o número máximo de amostras em z); pediria, também, o campo de ondas em n = t max + 1 e, se nx é o número máximo de amostras em x, o algoritmo pediria pelo campo de ondas em l = 1 e nx + 1. Entretanto, os valores do campo de ondas para estas posições não são conhecidos devido à impossibilidade dos seus registros. Então, estes valores de contorno desconhecidos são igualados a zero, apesar de serem nãonulos caso pudessem ser registrados (Stolt e Weglein, 2012). A consequência de se fazer estes valores do campo iguais a zero é a criação de reflexões artificiais nos contornos do modelo, contaminando os resultados finais. Isto também é reflexo das condições computacionais atuais, visto que as dimensões espaciais dos modelos são limitadas devido ao tempo e memória gastos na computação das extrapolações do campo de ondas (Lima, 2007). Em outras palavras, enquanto que, em subsuperfície, as dimensões espaciais laterais são ditas infinitas, estas dimensões são limitadas em termos de computação e não podem ser extremamente grandes devido ao tempo de computação. Utilizam-se as bordas laterais, as quais criam as reflexões artificiais indesejáveis. Estas reflexões podem ser atenuadas com o emprego do que se chama de bordas de absorção, que podem ser entendidas como condições de contorno não-refletoras, as quais deixam passar as ondas que se propagam para fora do modelo mas atenuam aquelas que se propagam de volta para dentro do modelo (Stolt e Weglein, 2012). É importante mencionar que o uso de operadores de diferenças finitas na solução da equação da onda é estável dentro de certos limites. Isso ocorre porque estes operadores apresentam problemas de estabilidade e dispersão numérica. As condições de estabilidade para os operadores de diferenças finitas são bem discutidas por Araújo (2009) e não serão abordadas neste trabalho. Uma consequência das condições de estabilidade impostas pelos operadores de diferenças finitas é a limitação ao t utilizado na RTM. Também é importante citar que não apenas os operadores de diferenças finitas são utilizados para implementar a migração reversa no tempo. Como mostra Araújo (2009), outra estratégia é a utilização do método pseudo-espectral Fourier para calcular o Laplaciano do campo. Neste, o operador

22 11 de diferenças finitas de segunda ordem é utilizado para a derivada temporal, e as derivadas espaciais são calculadas com o auxílio da transformada de Fourier. A RTM tem algumas vantagens sobre os outros métodos de migração em profundidade. Por utilizar a solução completa da equação da onda, a RTM leva em conta todos os eventos no dado, incluindo múltiplas, difrações e ondas convertidas (Schuster, 2010). De maneira prática, isto culmina em um método que consegue imagear camadas sem limitações de mergulho, bem como uma melhor habilidade de ver eventos provenientes de regiões abaixo de corpos com grandes contrastes de velocidade, como lentes de sal (Schuster, 2010). Estas vantagens vem com o alto custo computacional da RTM devido à utilização da solução completa da equação da onda sem utilizar nenhuma aproximação (Bording e Lines, 2000). 1.3 A migração como um problema inverso Um importante aspecto da geofísica é o de se fazer inferências sobre as propriedades físicas da subsuperfície a partir de dados sistematicamente adquiridos. Esta inferência de propriedades do sistema físico é normalmente referida como teoria inversa (Meju, 1994). O objetivo da inversão geofísica é resolver problemas do tipo: d = L(m), (1.11) onde d é o dado observado, m é o modelo desconhecido e L é um operador que descreve a relação entre o dado e o modelo em subsuperfície. A equação acima faz referência a problemas não-lineares, os quais são mais complicados de se resolver. Entretanto, os problemas não-lineares representam a maior parte dos problemas geofísicos (Oliveira, 2014). Diante disto, procuram-se maneiras mais simples de se resolver os problemas inversos não-lineares a partir de transformações ou aproximações destes para versões lineares (Oliveira, 2014). Este procedimento é chamado de linearização (Meju, 1994) e, quando utilizado, o problema inverso é então dado por: d = Lm (1.12) onde d é o vetor N 1 dos dados, m é o vetor M 1 dos parâmetros do modelo e, finalmente, L é o operador linear que mapeia o espaço do modelo no espaço do dado, sendo representado por uma matriz N M. Utilizar a equação 1.12 para calcular dados a partir de conhecidos parâmetros do modelo m constitui o que se chama de problema direto. Por exemplo, utilizar a equação 1.9 para sintetizar sismogramas constitui um problema direto. Oliveira (2014) mostra como se obter o operador de modelagem Born para estimar os dados de reflexão. A aproximação de Born, segundo Wards et al. (2011), pode ser utilizada para criar os sismogramas sintéticos ou como base para inversões linearizadas. Já Ji (2009), em seu trabalho, afirma que há uma relação linear entre o dado pós-empilhamento e a imagem

23 12 migrada graças à condição de imagem utilizada na RTM pós-empilhamento. Isto possibilita, então, representar a equação 1.9 pela equação 1.12 para o caso da RTM pós-empilhamento. A migração sísmica é um processo inverso, e não é errado se referir à migração sísmica como inversão sísmica (Stolt e Weglein, 2012). O problema, entretanto, é que o termo inversão é usualmente reservado para o processo de predição quantitativa das propriedades físicas a partir, por exemplo, da imagem de um refletor de preferência já migrado (Stolt e Weglein, 2012). Ainda assim, a migração pode ser entendida como um processo de inversão já que seu resultado final é um mapa da distribuição da refletividade em subsuperfície. Segundo Claerbout (1992), a migração sísmica pode ser entendida como o operador adjunto ao operador de modelagem direta (equação 1.9). Então, a representação linear do operador de migração (equação 1.10) é dada por: m = L T d. (1.13) Esta equação representa a projeção dos dados no espaço do modelo, onde L T inverso ao operador de modelagem. faz o papel 1.4 A migração dos mínimos quadrados Discutiu-se anteriormente que o operador direto de modelagem pode ser representado pela seguinte equação 1.12, onde d é o vetor N 1 dos dados, L é o operador linear direto, que mapeia o espaço do modelo no espaço do dado, sendo representado por uma matriz N M e, finalmente, m é o vetor M 1 da refletividade, o modelo. Assumindo que o modelo de refletividade verdadeira é conhecido, pode-se formular uma equação para o dado observado como sendo (Nemeth et al., 1999) d obs = Lm verd. (1.14) O principal objetivo, agora, é recuperar o modelo m verd ou uma boa aproximação para tal, a partir do conjunto de dados observados. Uma maneira de se recuperar o modelo de refletividade verdadeiro seria pela inversão do operador L m verd = L 1 d obs. (1.15) Entretanto, o operador direto, ou de modelagem, L apresenta características não favoráveis ao cálculo da sua inversa: Se L for uma matriz explícita, provavelmente será não quadrada; Se L for uma matriz explícita e quadrada, provavelmente será grande demais para ser armazenada pelos computadores atuais;

24 13 L pode ser mal-condicionada. Diante disto, procuram-se outras maneiras de se aproximar o operador inverso (Claerbout e Green, 2008). Como primeira aproximação, utiliza-se o operador adjunto à L: m adj = L T d obs. (1.16) Justifica-se o uso desta aproximação já que, para dados completos, a matriz L T L possui, dominantemente, elementos na diagonal principal (Nemeth et al., 1999), o que nos permite aproximá-la à matriz identidade (Bancroft, 2002): L T L I, (1.17) daí: L T L 1. (1.18) Então, com o operador adjunto se espera calcular uma boa aproximação para o modelo de refletividade em subsuperfície. Substituindo a equação 1.14 em 1.16: m adj = L T Lm verd, (1.19) onde a matriz L T L é a matriz Hessiana e o modelo de refletividade, calculado a partir da aplicação do operador adjunto, é uma versão L T L filtrada do modelo de refletividade verdadeira (Nemeth et al., 1999). Em adição, o operador de migração seria capaz de reconstruir o modelo de refletividade verdadeiro caso a Hessiana se aproximasse da matriz identidade (Nemeth et al., 1999), como já citado anteriormente. Infelizmente, devido a dados incompletos e operadores de migração não precisos (Ji, 2009), L T L tem elementos não-unitários na diagonal principal, bem como elementos fora desta (Nemeth et al., 1999), o que inviabiliza sua aproximação à matriz identidade. A primeira conclusão que se pode tirar é: L T L 1. (1.20) Em outras palavras, os operadores de migração tendem a ser não-ortogonais (Stanton, 2014), o que inviabiliza a aplicação do operador adjunto como única aproximação ao operador inverso. Uma consequência à não-ortogonalidade dos operadores adjuntos é a inserção de artefatos de migração à imagem final. Uma boa estratégia de aproximação do operador inverso é formular o problema da migração sísmica como um problema dos mínimos quadrados (Oliveira, 2014). No problema dos mínimos quadrados, visa-se estimar um modelo cujo dado calculado a partir deste minimiza a energia do vetor de resíduos em relação ao dado observado. Mais especificamente, procura-se um modelo com o qual se possa prever o dado observado, em que, espera-se que

25 14 este dado seja uma resposta fiel ao modelo em subsuperfície. Nada mais justo, então, que o modelo estimado ao final do processo de inversão consiga estimar dados cuja diferença entre estes e o dado observado seja mínima. A utilização do método dos mínimos quadrados em rotinas de migração já se mostra bastante útil como evidenciado por Nemeth et al. (1999), Nogueira Santos et al. (2013) e Oliveira (2014). A esta técnica se dá o nome de Migração por Mínimos Quadrados ou Least-squares Migration (LSM). Com esta técnica, espera-se atenuar os artefatos inseridos pelos operadores de migração, de modo a aumentar a qualidade da imagem final. Para tanto, procura-se o modelo de refletividade que minimiza a função objetivo dada por: J = d obs Lm 2 2, (1.21) que é uma forma quadrática (Porsani, 2008). A forma quadrática fica mais clara da seguinte forma: J = (d obs Lm) T (d obs Lm). (1.22) Isto é: J = m T L T Lm m T L T d obs d T obslm + d T obsd obs. (1.23) Derivando-se a equação 1.23 em relação aos parâmetros m: J = 2L T Lm 2L T d obs. (1.24) Pode-se reescrever o gradiente de J da seguinte forma: J = 2L T (Lm d obs ). (1.25) Observe que Lm d obs é o resíduo (r) entre o dado estimado com o modelo m e o dado observado. Daí define-se: r = Lm d obs (1.26) e o gradiente será dado por: J = 2L T r. (1.27) Esta expressão será útil para os métodos iterativos, os quais fazem uso direto do gradiente da função objetivo. Iguala-se o gradiente da função objetivo a zero para se obter uma expressão de m que minimiza A solução é dada por: m MQ = (L T L) 1 L T d obs. (1.28) Os primeiros benefícios da migração dos mínimos quadrados já podem ser observados a partir da equação Como dito por Yousefzadeh e Bancroft (2012), esta solução conta com o operador de deconvolução dos mínimos quadrados, (L T L) 1, o que explica o ganho em resolução espacial observado nas imagens finais. O grande impasse no cálculo da solução dos mínimos quadrados dado por 1.28 é a inversão da matriz Hessiana, devido à

26 15 sua dimensão e densidade (Yousefzadeh e Bancroft, 2012). Em outras palavras, calcular e armazenar a inversa da matriz Hessiana requer muito esforço computacional. Entretanto, técnicas para avaliação desta matriz já tem sido desenvolvidas, e tem se mostrado muito eficazes. Por exemplo, Shaojiang et al. (2015) utilizam a técnica iterativa chamada limitedmemory BFGS para usar uma aproximação da matriz Hessiana na técnica da migração dos mínimos quadrados. A utilização de outras técnicas iterativas, como o método do gradiente e dos gradientes conjugados, também são formas alternativas já utilizadas na migração dos mínimos quadrados. Nestes, em geral, procura-se uma solução do tipo: m k+1 = m k + αd k (1.29) onde D k varia de acordo com o método e α é o comprimento do passo na busca de m k+1. A teoria de cada método, bem como suas vantagens e desvantagens, serão discutidas nos próximos capítulos. 1.5 Regularização e pré-condicionamento dos modelos Com o intuito de obter melhor atenuação dos artefatos de migração, pode-se adicionar à função objetivo um termo de regularização. Não apenas para atenuação destes artefatos, o termo de regularização serve para evitar a completa predição de dados ruidosos, caso o dado observado não seja preciso. Neste caso, minimiza-se a seguinte função objetivo: J = d obs Lm 2 2 +µ 2 m 2 2. (1.30) Interpreta-se a minimização desta função objetivo como uma troca entre os objetivos de predição do dado observado e de estabilidade do modelo invertido. Mais claramente, Hansen (2010) explica que o primeiro termo do lado direito da equação 1.30 corresponde ao desajuste ou misfit, o qual representa uma medida de quão bem o dado observado consegue ser predito pelo modelo invertido. Já o segundo termo é a norma ou energia do modelo, a qual deseja-se controlar para impor estabilidade ao modelo invertido. Ao parâmetro µ dáse o nome de parâmetro de regularização, ou ainda parâmetro trade-off, por controlar a importância dada entre o misfit e a norma do modelo (Hansen, 2010). Por exemplo: Se µ 0, então, J = d obs Lm 2 2 e nenhuma importância é dada à minimização da energia do modelo, reduzindo-se ao método dos mínimos quadrados clássico. As implicações desta escolha para o valor de µ culminam em modelos instáveis e predição de dados ruidosos, não sendo a melhor alternativa à inversão. Se µ + então J = m 2 2 e nenhuma importância é dada à predição do dado observado. Esta alternativa também não é a melhor, já que o dado observado deve ser previsto, até certo ponto, pelo modelo invertido.

27 16 A esta técnica também se dá o nome de Método dos Mínimos Quadrados Amortecido (Damped Least-squares), onde µ é o chamado fator de amortecimento. A solução para este caso é encontrada da mesma maneira que o anterior, calculando-se a derivada de J com respeito aos parâmetros do modelo, m, e igualando-a a zero. O resultado será: m mqa = (L T L + µ 2 I) 1 L T d obs. (1.31) A solução dos mínimos quadrados amortecido é mais estável e suave que a solução dos mínimos quadrados convencionais. A suavidade e estabilidade da solução dos mínimos quadrados amortecido se deve ao fato de que a matriz Hessiana a ser invertida na equação 1.31 tem seus autovalores aumentados pelo fator de amortecimento, o que reduz o número de condição da matriz, dado pela razão entre o maior e o menor autovalor dela. Matrizes de pré-condicionamento podem ser aplicadas ao espaço do modelo tendo em vista a redução de possíveis soluções ao nosso sistema (Stanton, 2014). Vários autores têm utilizado diferentes matrizes como pré-condicionadores do modelo a fim de atenuar, ou até mesmo dar ênfase a certas características do modelo, bem como conseguir melhores taxas de convergência no processo de inversão (Nemeth et al., 1999). Por exemplo, Stanton (2014) utiliza filtros triangulares em conjunto a filtros passa-banda para atenuar artefatos de migração inseridos pelo operador do tipo Kirchhoff. Guitton et al. (2006) utilizam filtros de predição para atenuar artefatos da migração RTM pré-empilhamento. A função objetivo a ser minimizada seria: e a solução que a minimiza é dada por: J = d obs Lm 2 2 +µ 2 Dm 2 2, (1.32) m mqp = (L T L + µ 2 D T D) 1 L T d obs. (1.33) Observa-se que a utilização de D como a matriz identidade reduz o caso dos mínimos quadrados pré-condicionado e amortecido ao caso apenas amortecido. Além disso, igualando o parâmetro de amortecimento µ a zero, reduz o problema ao caso dos mínimos quadrados clássico. Tendo em vista aspectos como eficiência computacional e estabilidade numérica, Hansen (2010) afirma que algoritmos utilizados para calcular soluções de problemas amortecidos, précondicionados ou não, deveriam ser baseados no sistema aumentado de equações, como o que se segue: Tomando-se ( ) ( ) d obs L J = m 0 µd L = ( ) L µd 2 2. (1.34)

28 17 e obtém-se que: ( ) d obs d =, 0 J = d Lm 2 2. (1.35) É possível mostrar que minimizando a equação 1.35 resulta na solução dada em O teste do produto interno e operadores adjuntos Utilizar o método dos mínimos quadrados para otimizar a imagem migrada é uma técnica de inversão linearizada (Shaojiang et al., 2015). A LSM requer um operador de modelagem direta (L) e seu adjunto (L T ) para cálculo, por exemplo, do gradiente da função objetivo (equação 2.13). Um dos objetivos deste trabalho é mostrar que utilizar operadores adjuntos exatos, ao invés dos operadores convencionais de migração, fornece melhores resultados ao final do processo de otimização da LSM. Operadores de migração convencionais são normalmente entendidos como adjuntos aos operadores de modelagem direta (Claerbout, 1992), mas isto não é necessariamente verdade, apesar de ambos realizarem a mesma operação. Em outras palavras, não é garantido que o operador de migração seja adjunto ao operador de modelagem direta. Verifica-se que um operador é adjunto a outro através do teste do produto interno (Claerbout, 2008). Em problemas de imageamento é comum se trabalhar com rotinas que exercem o papel de uma matriz. Em outras palavras, o produto Lm não acontece explicitamente, já que a matriz L não é explicitamente montada. De maneira similar, o produto L T d também não é explicitamente efetuado. Adquiriu-se o costume de chamar L de operador direto e L T de operador adjunto, mas não necessariamente os códigos utilizados para o cálculo destes produtos fazem papel de adjunto um ao outro. Para testar se dois códigos realmente são adjuntos um ao outro, efetua-se o teste do produto interno (Claerbout, 2008). O teste pode ser descrito da seguinte maneira: dois vetores são preenchidos com números aleatórios. Um deles tem as dimensões do dado, chamado de d 1, o outro tem as dimensões do modelo, chamado de m 1. Aplica-se o operador direto ao vetor m 1, gerando um dado d 2. De maneira semelhante, aplica-se o candidato a operador adjunto ao vetor d 1, gerando um modelo m 2. Desta forma: m 2 = L T d 1, (1.36) d 2 = Lm 1. (1.37) O produto interno entre d 1 e d 2 : < d 1, d 2 >= d T 1 d 2. (1.38)

29 18 De 1.37 em 1.38: < d 1, d 2 >= d T 1 Lm 1 (1.39) A qual pode ser entendida como: < d 1, d 2 >= (L T d 1 ) T m 1. (1.40) Então, utilizando 1.36: < d 1, d 2 >= m T 2 m 1, (1.41) de onde se pode concluir que: < d 1, d 2 >=< m 2, m 1 >. (1.42) A equação 1.42 é a principal conclusão do teste, na qual os valores dos produtos internos, tanto para os dados quanto para os modelos, devem ser iguais dentro da precisão computacional. Satisfeita esta condição, pode-se então afirmar que os códigos em estudo são adjuntos um ao outro. Sistemas de equações aumentados (equação 1.35) fazem uso de operadores modificados, os quais são gerados da concatenação das matrizes L e D. Já foi discutido que o operador L não é explicitamente montado, e não necessariamente a matriz pré-condicionadora do modelo (D) precisa ser também. Entretanto, a utilização destes operadores em um esquema que utiliza o método dos gradientes conjugados também requer que o operador modificado passe no teste do produto interno. Alguns autores têm estudado a importância da utilização dos operadores adjuntos exatos ao invés de aproximações para estes (e.g., Fomel, 1996; Crawley, 1997; Ji, 2009). Todos eles se baseiam no teste do produto interno para definir os operadores adjuntos a seus operadores diretos. Infelizmente, o teste do produto interno não dá nenhuma ideia de como se obter operadores adjuntos, apenas confirma se um operador é adjunto ao outro ou não (Claerbout, 2008). Matematicamente, o operador adjunto é representado pela transposta da matriz que representa o operador direto. Enquanto transpor uma matriz é relativamente fácil, escrever um código que avalie o produto da matriz transposta com um dado vetor é uma tarefa um pouco mais desafiadora (Claerbout, 2008). Claerbout (2008) dá vários exemplos de operadores lineares e seus adjuntos, e também chama a atenção que nem sempre é simples formular os processos estudados na forma de multiplicação entre matrizes e vetores. Para obter operadores adjuntos, formula-se o problema na forma matricial e se transpõe o operador direto em questão. Neste aspecto, Ji (2009) deriva o operador adjunto à equação 1.9 formulando a seguinte expressão: [ ] [ ] P n+1 P n 1 = I T (1.43) P n

30 19 onde P n+1, P n e P n 1 são as representações em forma de vetor dos campos de onda nos instantes n + 1, n e n 1, respectivamente. Utilizando as mesmas dimensões que Ji (2009), (nx, nz, nt) = (6, 5, 4), a matriz I é a matriz identidade de tamanho ((nz nx) (nz nx)), e T é uma matriz tridiagonal de forma (Ji, 2009): R 0 A A 1 R 1 A T = 0 A 2 R 2 A A 3 R 3 A 3 0 (1.44) A 4 R 4 A A 5 R 5 onde as matrizes 0 são nulas e do mesmo tamanho que a matriz identidade definida anteriormente. Já A l é uma matriz diagonal contendo os coeficientes α l,m da equação 1.8: α 0,l α 1,l A l = 0 0 α 2,l 0 0, (1.45) α 3,l α 4,l e R l é uma matriz tridiagonal da forma: 2(1 2α 0,l ) α 0,l α 1,l 2(1 2α 1,l ) α 1,l 0 0 R l = 0 α 2,l 2(1 2α 2,l ) α 2,l α 3,l 2(1 2α 3,l ) α 3,l α 4,l 2(1 2α 4,l ) (1.46) estas matrizes compõem o operador direto. Ji (2009) escreve todo o operador de modelagem para as dimensões usadas acima da seguinte maneira: I I I I [ ] 0 I I 0 0 T [ ] [ S 0 S 1 S 2 S 3 m = 0 0 I 0 I T I T (1.47) onde a primeira matriz multiplicando o modelo m o coloca na posição temporal t = 0. As seguintes matrizes, contendo as submatrizes I e T, representam a extrapolação do campo de ondas para os instantes de tempo t = t, 2 t, e 3 t sequencialmente, segundo a equação de propagação direta 1.9. A última matriz contém os operadores de amostragem do campo d ]

31 20 S n, o qual amostra o campo de ondas na superfície a cada instante de tempo n t e tem a seguinte forma: e assim por diante (Ji, 2009) S 0 = , S = (1.48) Agora, pode-se formular o operador RTM na sua forma matricial para o caso anterior apenas se valendo do fato de que o operador de migração pode ser entendido como o operador adjunto do operador direto, ou seja, transpondo-o: I T T 0 0 I 0 I 0 I [ ] I T T 0 0 I 0 I m adj = I I T T S T 0 S T 1 S T 2 S T 3 [ d (1.49) ] É necessário deixar claro que as matrizes das equações não são explicitamente montadas. Ji (2009) as utiliza como uma maneira de obter o operador adjunto exato ao operador de propagação direta, já que o operador RTM convencional não corresponde ao adjunto exato (Ji, 2009). O teste do produto interno confirma que o operador RTM definido desta maneira é adjunto ao operador de propagação direta. Em adição, Ji (2009) chama atenção para as bordas do modelo que, como já citado anteriormente, devem contar com as condições de bordas de absorção. As bordas utilizadas nos códigos de Ji (2009) correspondem a uma malha N-pontos espessa onde, em cada instante de tempo da propagação direta, o campo de ondas dentro desta região é multiplicado por uma função Gaussina amortecedora da seguinte forma: G = e (N i)2 (1.50) onde i é a distância da borda. Esta condição de bordas absorvedoras foi escolhida por Ji (2009) por ser simples, e seu adjunto também é simples de ser obtido.

32 CAPÍTULO 2 Métodos Iterativos para Solução de Sistemas Lineares Um dos objetivos deste trabalho é melhorar a qualidade da imagem migrada por meios de atenuação de artefatos de migração, o que aumenta a resolução espacial das imagens finais, possibilitando um melhor dado para interpretação sísmica. A melhoria da qualidade das imagens, então, caracteriza um processo de otimização. Algoritmos de otimização são iterativos, a exemplo dos métodos do gradiente, gradientes conjugados e o limited-memory BFGS (L-BFGS). Estes métodos são largamente utilizados na solução de problemas lineares, especialmente problemas mal-condicionados e de grande escala, a exemplo dos problemas geofísicos. Os algoritmos podem ser modificados para convergir à solução dos mínimos quadrados. Neste trabalho, aplicam-se os três métodos iterativos citados anteriormente para a obtenção da solução otimizada a fim de analisar a eficácia de cada método por meio de comparações das suas curvas de convergência, resultados finais e, finalmente, a preditividade do dado observado a partir de dados estimados com os resultados finais. Neste capítulo, explica-se a teoria de cada método, começando com uma breve motivação e descrição geral de métodos iterativos; depois se descreve o método do gradiente, bastante conhecido na literatura por ser robusto, porém em desuso devido às suas lentas taxas de convergência; apresenta-se, na seção seguinte, o método dos gradientes conjugados que é uma ótima alternativa ao método do gradiente, apresentando boas taxas de convergência baseando-se no conceito de conjugação; por fim, trata-se do método L-BFGS, uma adaptação do BFGS para evitar o problema de memória limitada dos computadores atuais, o qual se destaca como atual melhor alternativa para problemas de otimização de larga escala. Em todas seções uma breve definição matemática do método é discutida, e ao final de cada seção o pseudo-código referente ao método é apresentado. Como dito anteriormente, algoritmos de otimização são iterativos. Ou seja, dado um modelo inicial conhecido e arbitrário, m 0, uma sequência de modelos otimizados, {m k } k=0, é gerada até que se chegue em uma solução ótima. Entende-se que se chega à solução ótima quando não se obtém mais progresso na geração dos modelos otimizados, ou quando uma certa condição de convergência é satisfeita. O que diferencia um método do outro é em qual direção se mover, partindo de um modelo m k, para obter o próximo modelo otimizado m k+1. 21

33 22 No cálculo desta direção, os algoritmos podem utilizar informações da função objetivo no ponto m k (e possivelmente dos modelos otimizados nas iterações passadas) e também das derivadas primeira e segunda desta função, se existirem, para encontrar um novo modelo m k+1, no qual a função em questão apresenta menor valor. Nocedal e Wright (2006) afirmam que bons algoritmos devem possuir as seguintes características: Ser robusto: Ter boa performance em uma variedade de problemas em sua classe, para qualquer valor de modelo inicial que seja razoável; Ser eficiente: Ter boa eficiência computacional no que se refere ao tempo e armazenamento; Ser preciso: Devem ser capazes de identificar uma solução com boa precisão. Não obstante, Nocedal e Wright (2006) esclarecem que estas características podem ser conflituosas. Como um exemplo, citam que métodos robustos podem ser os mais lentos. A principal conclusão é que trade-offs entre, por exemplo, taxas de convergência e requerimentos de armazenamento são problemas centrais em otimização numérica (Nocedal e Wright, 2006). Luenberger e Ye (2010) citam outro ponto que deve ser levado em conta na análise dos métodos iterativos. Além de eficiência e precisão, focam no aspecto da criação dos algoritmos, o qual deve ser de fácil implementação baseando-se na criativa análise do problema de programação, estrutura intrínseca e também eficiência dos computadores atuais. Na discussão dos métodos iterativos, estuda-se a capacidade dos métodos de resolver sistemas de equações e também de minimizar funções, como as dadas em 1.30 e Há uma relação direta entre minimizar uma função e resolver um sistema de equações, como mostram vários autores (e.g., Scales et al., 1997; Nocedal e Wright, 2006; Bonnans, 2006; Press, 2007). O argumento utilizado aqui segue Hestenes (1980) e corresponde ao seguinte: comece com uma função quadrática f, num ponto x, a qual se deseja minimizar: f(x) = 1 2 xt Ax h T x + c. (2.1) Para encontrar o ponto x tal que f(x ) é o menor valor que f pode obter, deriva-se 2.1 em relação a x e iguala-se o resultado a zero. Obtém-se: f(x) = Ax h = 0 (2.2) e então: Ax = h, (2.3) de onde se conclui que x será um ponto crítico de f, se e somente se x for a solução do sistema de equações dado acima (Hestenes, 1980). Ou seja: x = A 1 h (2.4)

34 23 é o ponto crítico da função f, que pode ou não existir a depender das características da matriz A. Se x é um ponto de máximo ou mínimo, depende também das condições da matriz A. Sabe-se, entretanto, que se A for positiva definida, então, x será um ponto mínimo (Shewchuk, 1994). Neste trabalho, as formas quadráticas são dadas pela equação 1.23 que é similar à forma dada na equação 2.1, a menos de um fator de escala. Deve-se notar que a matriz A corresponde à Hessiana L T L, o vetor h corresponde ao produto L T d obs, a constante c é o produto interno do dado observado com ele mesmo, e a variável em questão não é x, e sim m. Dito isto, e como já se sabe que minimizar esta função corresponde a resolver o associado sistema de equações dado em 2.3, têm-se: L T Lm = L T d obs, (2.5) que é o sistema de equações normais. A principal conclusão é que os métodos iterativos podem ser utilizados em problemas dos mínimos quadrados através da solução do sistema de equações normais. Para melhor entendimento, pode-se demonstrar que, a partir de um modelo inicial, pode-se estimar a solução dos mínimos quadrados em um único passo. Apesar de existirem formulações matemáticas mais restritas, pode-se generalizar a expressão para o passo a ser dado por algoritmos iterativos seguindo a abordagem de Porsani (2008). Novamente, lembre-se que métodos iterativos sempre começam com um modelo inicial, aqui denotado de m 0, do qual se calcula uma sequência de modelos que convergem para alguma solução, que deveria aproximar a solução exata. Por exemplo, um modelo inicial, normalmente utilizado, é o vetor nulo (m 0 0). Então, de posse do modelo inicial, m 0, e do operador direto L, tem-se que: d 0 = Lm 0. (2.6) Calcula-se o resíduo entre o dado modelado em 2.6 e o dado observado: d obs d 0 = L(m m 0 ). (2.7) A pré-multiplicação de 2.7 pelo operador adjunto resulta no sistema de equações normais: L T L(m m 0 ) = L T (d obs d 0 ). (2.8) Para simplificar as notações acima, faça L T L = H e δm = m m 0. Invertendo-se a matriz Hessiana, H, obtém-se a solução dos mínimos quadrados (equação 1.28) para o vetor δm: δm = H 1 L T (d obs d 0 ). (2.9) Reescrevendo 2.9 como: δm = H 1 L T d obs H 1 L T d 0, tem-se que o primeiro termo do lado direito da equação acima corresponde à solução dos mínimos quadrados (Eq. 1.28) e o segundo termo é o próprio modelo inicial m 0, daí: δm = m MQ m 0.

35 24 Ou seja: m m 0 = m MQ m 0, de onde se conclui que o vetor δm conecta o ponto associado ao modelo inicial e arbitrário m 0 com a solução dos mínimos quadrados m MQ, já que: m = m MQ. (2.10) δm: A expressão geral para a solução m parte da equação 2.9 com a substituição do vetor m m 0 = H 1 L T (d obs d 0 ), e então m é dado por: m = m 0 + H 1 L T (d obs d 0 ). (2.11) O termo L T (d obs d 0 ) na equação 2.11 refere-se ao vetor gradiente da função objetivo no ponto m 0, porém no sentido oposto (Porsani, 2008): L T (d obs d 0 ) = J(m 0 ). (2.12) Daí define-se o vetor g no ponto m 0 : g 0 = L T (d obs d 0 ). (2.13) De 2.13 em 2.11: m = m 0 + H 1 g 0. (2.14) Como afirma Porsani (2008), a equação acima é o caso mais simples dos métodos iterativos, o qual convergiria para a solução dos mínimos quadrados em uma única iteração. Entretanto, como o próprio autor ressalva, a convergência em uma única iteração seria alcançada graças ao conhecimento da inversa da matriz Hessiana a qual, se conhecida, poderia ser utilizada para resolver o problema dos mínimos quadrados diretamente pela equação 2.9 (Porsani, 2008). Existem, porém, alguns problemas relacionados à matriz Hessiana, como já abordado no Capítulo 1, a exemplo do seu tamanho, número de condição e, também, montagem. Como afirma Hansen (2010), é comum em problemas reais que a matriz Hessiana seja grande demais para que computadores consigam armazená-la e fatorizá-la, o que iria requerer muita memória e tempo de computação. Também, apesar de quadradas, inverter a matriz Hessiana pode ser problemático devido ao seu número de condição, o qual pode ser muito alto. Por exemplo, dados ruidosos tendem a ter este problema, o que pode requerer regularização no processo de inversão (Sacchi, 2015). Além disso, a matriz Hessiana é calculada como sendo o produto L T L. A complicação surge, como explica Hansen (2010), quando a matriz L não é explicitamente armazenada. Nestes casos, utilizam-se sub-rotinas - que Hansen (2010)

36 25 chama de black-boxes - que computam os produtos matriz-vetor com L e L T, inviabilizando o cálculo da Hessiana. Portanto, não montar a matriz Hessiana explicitamente dificulta as etapas de cálculo e análise da sua inversa. Faz-se necessário, então, o emprego de métodos iterativos para buscar a solução otimizada quando se desconhece a matriz Hessiana, ou métodos para estimar a matriz Hessiana (ou sua inversa) viabilizando seu uso em problemas de otimização e solução de sistemas. Aproximações da inversa da matriz Hessiana são utilizadas para facilitar e garantir estabilidade aos processos de inversão. Segundo Pengliang et al. (2015), a matriz Hessiana pode ser substituída por uma aproximação da matriz identidade, a menos de um fator de escala. Bancroft (2002) também se utiliza desta aproximação quando justifica o uso de operadores adjuntos como aproximação de operadores inversos. Utilizar-se desta aproximação na equação 2.14 resulta na expressão para o passo dado pelo método do gradiente, que será discutido na seção seguinte. Entretanto, antes disto, generaliza-se o passo dado por métodos iterativos, dado pela equação 2.14, para a seguinte expressão (Métivier e Brossier, 2016): m k+1 = m k + α k D k (2.15) onde D k é a direção em que o algoritmo buscará o próximo modelo, que deve ter um menor valor na função objetivo. O termo α k é o tamanho do passo a ser dado pelo algoritmo na direção D k. Os algoritmos iterativos que serão descritos a seguir utilizam a estratégia de busca em linha, onde os algoritmos começam por fixar uma certa direção de busca, D k, estimam uma certa distância, α k, a qual devem se mover para estimar o novo modelo com base em É válido relembrar que o que distingue um algoritmo do outro é a direção de busca, a qual será o foco das próximas seções. Apesar de diferentes, todas as direções de busca utilizadas pelos métodos iterativos adotados neste trabalho são descendentes, i.e. D k g k < 0 1, para garantir que a função objetivo seja minimizada a cada iteração (Nocedal e Wright, 2006). O sucesso destes métodos depende tanto da direção D k e do tamanho do passo α k utilizados a cada iteração. O tamanho do passo é crucial, já que informa quão longe o algoritmo deve se mover na direção D k. Como explica Nocedal e Wright (2006), há um trade-off no cálculo do tamanho do passo já que espera-se obter uma redução substâncial na função objetivo sem que se perca muito tempo estimando o mesmo. Estratégias para escolha do tamanho do passo, geralmente, requerem múltiplas avaliações da funçao objetivo, e até mesmo do gradiente desta, a cada iteração e podem aumentar consideravelmente o custo computacional da inversão. Dos três métodos iterativos estudados neste trabalho, dois (gradiente e gradientes conjugados) utilizam tamanho de passo dito ótimo obtidos analiticamente a partir da minimização da forma quadrática escrita em função do tamanho do passo propriamente dito, como discutido nas seções seguintes. O L-BFGS, por sua vez, não define 1 D k g k < 0 é utilizado como condição de segurança para evitar direções ascendentes.

37 26 um tamanho de passo ótimo e requer estratégias para seleção apropriada deste, de modo a certificar que exista a redução da função objetivo. Para o L-BFGS, então, discute-se as condições de Wolfe, mais especificamente a condição de decréscimo suficiente, como estratégia utilizada para obtenção dos tamanhos do passo. 2.1 Método do Gradiente (STD) O STD é bastante conhecido por ser eficiente na solução de sistemas de equações lineares (Oliveira, 2014), sendo caracterizado como um dos mais simples e mais conhecidos métodos utilizados em problemas de minimização de funções (Meza, 2010). Entretanto, o método também é bastante conhecido por ter taxas de convergência muito baixas (Scales et al., 1997), requerendo um grande número de iterações para se alcançar uma solução com precisão aceitável. Há quem diga, até, que o método deveria ter seu uso proibido (Bonnans, 2006) devido às suas características de pobre convergência! Uma afirmação meio exagerada do Bonnans (2006) pois, como afirma Luenberger e Ye (2010), o método permanece como a primeira técnica a ser utilizada em problemas novos e também como referência padrão utilizada na comparação de outros métodos de otimização. Em adição, algoritmos mais avançados são obtidos através da modificação do método do gradiente, normalmente motivadas pelo desejo de se melhorar as taxas de convergência do método. Vários autores utilizam o STD em processos de otimização de imagens migradas, como por exemplo Nogueira Santos et al. (2013) que aplicou a técnica de migração dos mínimos quadrados utilizando operadores do tipo Kirchhoff pós-empilhamento para otimização da imagem migrada com o STD; e Oliveira (2014), que aplicou a mesma técnica, desta vez utilizando operadores RTM no domínio do tiro, para reduzir os artefatos de migração provenientes de dados com amostragem irregular também com o STD. Neste método, a direção D k escolhida coincide com a direção oposta ao gradiente da função objetivo no ponto m k, sendo caracterizada por Nocedal e Wright (2006) como a escolha de busca mais óbvia, já que é nesta direção em que a função decresce mais rapidamente, ou seja: D k = g k, (2.16) onde g k é definida pela equação Então, a equação 2.15 se torna: m k+1 = m k + α k g k, (2.17) onde α k é o tamanho do passo a ser dado na direção g k. Porsani (2008) apresenta uma expressão ainda mais geral do que a mostrada em Nesta, ele pré-condiciona a direção de busca g k com o auxílio de uma matriz Ã 1. Este precondicionador, na verdade, deveria corresponder à matriz Hessiana, como mostrado na equação 2.14, e o quão melhor Ã 1 representar H 1, melhor será a direção de busca da

38 27 solução dos mínimos quadrados (Porsani, 2008). Não foi utilizado, neste trabalho, nenhum tipo de matriz pré-condicionante da direção g k, i.e., Ã 1 = I. O método do gradiente é um dos métodos mais simples para se resolver problemas de otimização (Hansen, 2010). Neste, como mostra a equação 2.17, a solução do problema proposto é aproximada iterativamente, onde cada passo é dado proporcionalmente ao oposto do gradiente da função objetivo, ou da aproximação deste, no ponto atual. De acordo com Meza (2010), algumas vantagens do método do gradiente são: É um algoritmo de fácil programação; Apenas o cálculo do gradiente é requerido a cada iteração, e não da derivada segunda da função objetivo; Aplicável em problemas de grande escala devido a seus baixos requerimentos de memória computacional. O tamanho do passo α k pode ser estimado de diferentes maneiras, o qual, juntamente ao cálculo do gradiente da função objetivo, é a principal tarefa do método (Meza, 2010). Por exemplo, o método do gradiente pode ser combinado com uma busca em linha, desta vez buscando o tamanho do passo ótimo a cada iteração (Claerbout, 2008). Entretanto, também de acordo com Claerbout (2008), o cálculo do tamanho do passo pode demandar muito tempo de computação. Outra alternativa é utilizar o α constante e igual a 1 (Santos, 2014), o que corrobora com a equação Nota-se, entretanto, que os valores da função objetivo começam a oscilar quando se aproximam do ponto mínimo, ou seja, começam a não decrescer monotonicamente. Liu (2009) associa este comportamento oscilatório ao tamanho do passo ser constante, o que faz com que o algoritmo dê um passo muito grande na direção proposta, sendo maior que o necessário. Isto faz com que os valores da função objetivo ora cresçam, ora decresçam, causando o comportamento oscilatório. Liu (2009) afirma que, à medida em que se aproxima do mínimo, um tamanho de passo menor deve ser utilizado a fim de evitar as oscilações observadas com α constante. De fato, é senso comum entre os usuários de algoritmos iterativos que o tamanho do passo deve ser estimado por métodos de otimização, como mostra Porsani (2008). Deve-se manter em mente que o tamanho do passo a ser dado pelo algoritmo é muito importante, visto que a garantia de convergência do método depende não somente do gradiente estimado a cada iteração, mas também do tamanho do passo adotado (Nocedal e Wright, 2006). Neste trabalho, calcula-se o tamanho do passo da maneira similar à sugerida por Porsani (2008): que pode ser modificada para: α k = gt k g j g T k LT Lg k (2.18) α k = g T k g k (Lg k ) T (Lg k ). (2.19)

39 28 Definindo-se qk = Lgk, tem-se: αk = gtk gk. qtk qk (2.20) Calcular α da maneira descrita acima impõe que a direção a ser seguida na iteração corrente deve ser perpendicular à direção passada. Com isto, o método apresenta um padrão de zig-zag em direção ao mínimo (Figura 2.1), o que prejudica suas taxas de convergência. Figura 2.1: Convergência do método do gradiente para o caso bidimensional. Adaptado de Nocedal e Wright (2006). Sabendo-se a expressão para cálculo do tamanho de passo ótimo, pode-se escrever os passos do método do gradiente para minimização de funções objetivo dadas por 1.21, dado no Algoritmo 1. Algorithm 1 Método do Gradiente - Minimiza a função objetivo J =k dobs Lm k22 m0 Modelo inicial r = dobs Lm0 for k = 1 até kmax do gk = LT rk qk = Lgk αk = hgk, gk i/hqk, qk i mk+1 = mk + αk gk dcalc = Lmk+1 rk+1 = dobs dcalc end for Retorna m Este algoritmo pode ser otimizado para utilizar o operador direto apenas uma vez ao

40 29 invés de duas. Observe que o resíduo r na iteração k é dado por: r k = d obs d calc (2.21) e que o dado calculado é dado por: d calc = Lm k. (2.22) Substituindo 2.22 em 2.21: r k = d obs Lm k. (2.23) Como o modelo m k é escrito em função do modelo da iteração passada (k 1) seguindo a equação 2.17, têm-se que: r k = d obs L(m k 1 + α k 1 g k 1 ), daí: r k = d obs Lm k 1 α k 1 Lg k 1. Pela definição de q e com o auxílio da equação 2.22: r k = d obs d k 1 calc α k 1q k 1. Pode-se reconhecer o resíduo da iteração k 1, e então se chega à expressão para atualização do resíduo que dispensa um produto matriz-vetor no método do gradiente: r k = r k 1 α k 1 q k 1. De acordo com Meza (2010) apesar de utilizar direções e tamanhos de passo ditos ótimos, o método do gradiente converge muito lentamente, especialmente para problemas mal-condicionados, sendo raramente empregado na solução de equações lineares (Bonnans, 2006). Ainda assim, entender as propriedades deste método coopera para o melhor entendimento de outros métodos de otimização mais sofisticados (Meza, 2010). Uma alternativa à lenta convergência do método do gradiente é o método dos gradientes conjugados, o qual será descrito a seguir. 2.2 Método dos Gradientes Conjugados (CG) O método dos gradientes conjugados foi primeiramente apresentado por Hestenes e Stiefel (1952), sendo largamente utilizado em várias classes de problemas devido às suas características de rápida convergência e baixo custo computacional. Este algoritmo pode ser aplicado na solução de sistemas lineares, incluindo o sistema de equações normais. Vários autores fazem uso deste algoritmo na literatura geofísica. Por exemplo, Scales (1987) estudou

41 30 a técnica de inversão tomográfica utilizando o CG; Ji (2009) utiliza o CG para testar a aplicação de operadores adjuntos exatos na técnica de migração por mínimos quadrados; e Stanton (2014) que utiliza uma versão adaptada do CG, também na técnica dos mínimos quadrados, para minimizar funções objetivo com regularização e pré-condicionamento no espaço do modelo. Na verdade, o método dos gradientes conjugados é um caso específico do método das direções conjugadas, no qual a direção a se conjugar é o gradiente da função a ser minimizada. Faz sentido, então, descrever o método das direções conjugadas, que é a base principal para o algoritmo dos gradientes conjugados. No método das direções conjugadas, como explica Claerbout (2008), um plano de busca é utilizado ao invés de uma linha. Este plano de busca contém vetores, os quais conjugam mutuamente em relação à matriz em questão (Scales et al., 1997). Matematicamente, um vetor p i conjuga mutuamente em relação a uma matriz A se: p i, Ap j = 0, (2.24) para i j. A equação 2.24 traduz a propriedade de A-ortogonalidade, onde os vetores p i são perpendiculares entre si em relação a A. Vale relembrar que em problemas dos mínimos quadrados, a matriz A corresponde à matriz Hessiana, L T L. A principal diferença entre o método do gradiente e o método das direções conjugadas é que, ao invés de buscar a solução na direção oposta ao gradiente, busca-se a solução do problema na direção de p k que satisfaz Então, a direção D k é substituída por p k e o passo a ser dado pelo algoritmo é: m k+1 = m k + α k p k, (2.25) onde a direção p k ainda será definida. O tamanho do passo é calculado, bem como no método do gradiente, pela minimização da forma quadrática dada em função de α: que pode ser representada por: J(m k+1 ) = d obs L(m k + α k p k ) 2 2, (2.26) J(m k+1 ) = m T k L T Lm k + α k m T k L T Lp k m T L T d obs + α k p T k L T Lm k + α 2 kp T k L T Lp k α k p T k L T d obs d T obslm k α k d T obslp k + d T obsd obs. (2.27) Derivando-se a equação 2.27 com relação a α k, e igualando o resultado a zero se obtém: α k p T k L T Lp k = p T k L T (d obs Lm k ) (2.28) e como o dado observado é obtido por: d obs = Lm verd,

42 31 tem-se que: α k p T k L T Lp k = p T k L T L(m verd m k ). (2.29) Então, α k é dado por: α k = pt k LT L(m verd m k ) = p k, L T L(m verd m k ). (2.30) p T k LT Lp k p k, L T Lp k Em adição, a propriedade de conjugação implica que os vetores de busca são linearmente independentes (Scales et al., 1997). Portanto, qualquer vetor contido no mesmo espaço (R n ) que a base constituída pelos vetores de busca pode ser escrito como uma combinação linear destes. Por exemplo, a desconhecida solução, m verd, pode ser escrita como a combinação linear de n vetores de busca: m verd = γ 0 p γ n 1 p n 1. (2.31) Deve-se, agora, estimar os coeficientes γ k para poder escrever a combinação linear acima. Para tanto, faz-se o produto interno dos vetores p k e m verd em relação à matriz L T L. Utilizando-se da propriedade de conjugação, tem-se que: p k, L T Lm verd = p k, γ k L T Lp k, (2.32) de onde pode-se estimar o coeficiente γ k da seguinte maneira: γ k = p k, L T Lm verd p k, L T Lp k. (2.33) De acordo com Scales et al. (1997), seriam necessários n vetores p k para escrever a combinação linear dada na equação 2.31, onde os coeficientes γ k seriam dados pela equação Scales et al. (1997) afirmam que a ideia, então, é provar que os coeficientes γ k são, precisamente, os coeficientes do método de direções conjugadas dado em Para tanto, deve-se escrever a solução m verd com base na expressão dada em 2.25: n 1 m verd = m 0 + λ i p i, (2.34) e então o vetor que liga a solução inicial m 0 e a solução de interesse é dado pela combinação linear dos n vetores p k : onde o passo λ i é dado por 2.33: i=0 n 1 m verd m 0 = λ i p i, (2.35) i=0 λ i = p i, L T L(m verd m 0 ). (2.36) p i, L T Lp i

43 32 De maneira similar, uma solução k (k < n) pode ser escrita também de acordo com 2.25: m k = m 0 + α 1 p α k 1 p k 1. (2.37) Então, o vetor (m k m 0 ) é uma combinação linear dos k disponíveis vetores de busca p k, dado pela seguinte forma: m k m 0 = α 1 p α k 1 p k 1. (2.38) Observe que p k não é utilizado na expressão deste vetor. Então, utilizando-se da propriedade de conjugação, o produto interno dos vetores p k e (m k m 0 ) em relação à matriz L T L será nulo: p k, L T L(m k m 0 ) = 0. (2.39) Como isto, a seguinte subtração λ i = p i, L T L(m verd m 0 ) p i, L T Lp i p k, L T L(m k m 0 ) p i, L T Lp i (2.40) não altera o resultado em 2.36, que é reescrita como: λ i = p i, L T L(m verd m i ). (2.41) p i, L T Lp i Este é precisamente o tamanho passo dado pelo algoritmo das direções conjugadas, mostrado em Desta forma, prova-se que são necessários n passos para se chegar à solução do sistema de equações, dado que os vetores de busca satisfaçam à condição dada em 2.24, e que o tamanho do passo seja dado por A Figura 2.2 ilustra o funcionamento do CG para um problema bidimensional, onde o método converge para a solução do problema com apenas duas iterações. O problema, agora, é encontrar a base de vetores que satisfaçam a equação Hestenes (1980) explica que existem duas maneiras de se construir a base de vetores que conjugam mutuamente, sendo uma delas o método dos gradientes conjugados e a outra a conjugação de Gram-Schimdt, a qual não será abordada neste trabalho. O método dos gradientes conjugados, como posto por Hestenes (1980), talvez seja a mais simples adaptação das direções conjugadas. Hestenes (1980) a classifica como a modificação do método do gradiente, no qual direções conjugadas, chamadas gradientes conjugados, são obtidos sucessivamente a partir do vetor gradiente, ao fim de cada procedimento de minimização linear. Ou, como aponta Scales et al. (1997), faz sentido utilizar a direção oposta ao gradiente, já que o método se mostrou eficaz no próprio método do gradiente. Então, escolhe-se a primeira direção como a oposta ao gradiente, e conjugam-se todas as outras a partir dela. Ou seja: p 0 = g 0 (2.42)

44 33 Figura 2.2: Convergência do método dos gradientes conjugados para o caso bidimensional. Adaptado de Nocedal e Wright (2006). e também: pk+1 = gk+1 + βk+1 pk, (2.43) onde os coeficientes β são escolhidos de maneira a garantir A-ortogonalidade entre os vetores p. Para tanto, faz-se o produto interno, em relação a LT L, de pk+1 e pk : hpk, LT Lpk+1 i = hpk, LT Lgk+1 i + βk+1 hpk, LT Lpk i, (2.44) e iguala-se a expressão anterior a zero para garantir a propriedade de A-ortogonalidade, obtendo: hp, LT Lgk+1 i βk+1 = k. (2.45) hpk, LT Lpk i Em relação ao tamanho do passo αk, seu cálculo parte da equação 2.30: hpk, LT L(mverd mk )i αk =. hpk, LT Lpk i (2.46) Como L(mverd mk ) corresponde ao resíduo entre o dado observado e o dado calculado na iteração k, LT L(mverd mk ) corresponde ao gradiente da função objetivo neste ponto. Então: hpk, gk i αk =, (2.47) hpk, LT Lpk i

45 34 e o denominador pode ser modificado da mesma maneira realizada no método do gradiente, resultando em: α k = p k, g k q k, q k, (2.48) onde q k = Lp k. Como o gradiente estimado é ortogonal às direções de busca e aos gradientes estimados nas iterações anteriores, os produtos internos p j, g k e g j, g k são nulos para j k (Shewchuk, 1994). Então, o produto p k, g k pode ser reescrito como (Hestenes, 1980) p k, g k = g k, g k. (2.49) Hestenes (1980) se vale do fato de que o gradiente pode ser escrito como g k+1 = g k α k L T Lp k para calcular o coeficiente β de maneira mais simples. Ele começa do produto interno g k+1, g k+1 : g k+1, g k+1 = (g k α k L T Lp k ) T g k+1, (2.50) que pode ser reescrito como: g k+1, g k+1 = g T k g k+1 α k p T k L T Lg k+1. (2.51) Utilizando-se do fato que cada gradiente estimado é ortogonal aos gradientes estimados nas iterações anteriores, a equação 2.51 se reduz para: g k+1, g k+1 = α k p T k L T Lg k+1. (2.52) Escrevendo g k+1 a partir da equação 2.43, pode-se chegar a: g k+1, g k+1 = α k p T k L T L(p k+1 β k+1 p k ), (2.53) de onde o primeiro termo do lado direito também é nulo, devido à conjugação dos vetores p k+1 e p k. Chega-se, então, à seguinte equação: g k+1, g k+1 = α k β k+1 p T k L T Lp k, (2.54) de onde se reconhece o produto α k q k, q k, que pode ser igualado ao produto interno g k, g k a partir da equação Isto resulta em uma forma mais simples de se calcular o coeficiente β k+1 : β k+1 = g k+1, g k+1 g k, g k (2.55) Pode-se, agora, escrever os passos do método dos gradientes conjugados adaptado à solução do sistema de equações normais, dado no Algoritmo 2.

46 35 Algorithm 2 Método dos Gradientes Conjugados - Minimiza a função objetivo J = d obs Lm 2 2 m 0 Modelo inicial r 0 = d Lm 0 g = L T r ; p = g for k = 1 até k max do q k = Lp k α k = g k, g k / q k, q k m k+1 = m k + α k p k r k+1 = r k α k q k g k+1 = L T r k+1 β k+1 = g k+1, g k+1 / g k, g k p k+1 = g k+1 + β k+1 p k end for Retorna m 2.3 Limited-memory BFGS Os métodos quasi-newton são, até então, os métodos mais eficazes em se computar direções descendentes a cada iteração em um algoritmo de otimização (Bonnans, 2006). Estes métodos, como o nome indica, são baseados no método de Newton. Um exemplo de um método quasi-newton é o último método utilizado neste trabalho, o limited-memory BFGS, que é uma adaptação do BFGS, nomeado por seus desenvolvedores Broyden, Fletcher,Goldfarb, e Shanno. A base teórica do L-BFGS é a mesma do BFGS, contando apenas com uma adaptação para funcionar dentro das presentes limitações de memória computacional. Portanto, uma breve introdução ao método de Newton será feita, o que contextualiza a necessidade de métodos quasi-newton. Segue-se com a descrição do método BFGS, e sua versão de memória limitada. A explicação do método de Newton pode ser feita de maneira bem sucinta, uma vez que já se foi dito que o conhecimento da matriz Hessiana seria crucial para estimar a solução dos mínimos quadrados em apenas um passo. Relembrando-se que o passo genérico dado por métodos iterativos é dado por 2.15, o método de Newton busca a solução do problema na direção definida por: D k = H 1 k g k (2.56) onde H 1 k é a inversa da matriz Hessiana verdadeira e g k é o gradiente da função a ser minimizada. Então, a atualização do modelo baseada no método de Newton é: m k+1 = m k + H 1 k g k (2.57)

47 36 que é o mesmo passo definido anteriormente como o caso mais simples dos métodos iterativos. De fato, se deve ter em mente que, existindo uma maneira fácil de se montar a matriz Hessiana e/ou a sua inversa, o método de Newton é bastante atraente. Bonnans (2006) explica que o método de Newton não só define uma direção de busca, mas também um tamanho de passo a ser utilizado. Como já citado anteriormente, este tamanho de passo é unitário e deveria ser, supostamente, o melhor passo a ser utilizado; seria ideal, pelo menos, ter o tamanho do passo constante e igual a 1 para um número grande de iterações. Portanto, utiliza-se o passo unitário, sujeito à alterações devido às condições de decréscimo suficiente, nas inversões realizadas neste trabalho. Resumidamente, o método de Newton utiliza informações das derivadas primeira e segunda da função objetivo para encontrar os pontos extremos da mesma (Fletcher, 2008). A característica mais marcante do método é a utilização da inversa da matriz Hessiana, o que pode ser uma barreira à utilização do método devido ao alto custo computacional da resolução do sistema dado em 2.56 por iteração. A grande vantagem no método de Newton é a sua rápida convergência (Bonnans, 2006). Por outro lado, algumas das desvantagens do método de Newton segundo Press (2007) são: Pode divergir de maneira drástica Requer o cálculo da Hessiana e resolução do sistema em 2.56 a cada iteração A consequência para a primeira desvantagem citada é que não se garante a propriedade J(m k+1 ) < J(m k ). Já para a segunda, o problema é maior. O cálculo da matriz Hessiana, por si só, já é susceptível a erros. Ainda mais, a solução do sistema dado em 2.56 é custoso, especialmente se realizado a cada iteração. Essas duas desvantagens já são suficientes para justificar e motivar a procura de métodos mais eficazes para problemas de otimização. Os métodos quasi-newton são adaptações do método de Newton que visam solucionar as limitações citadas anteriormente. A diferença entre o método de Newton e os métodos quasi-newton é que o primeiro, como já dito, utiliza a Hessiana verdadeira na busca da solução do problema. Já os métodos quasi-newton não calculam a Hessiana verdadeira e nem a invertem (Nocedal e Wright, 2006), mas estimam a inversa da matriz Hessiana diretamente. Utilizando-se das palavras de Bonnans (2006), ao invés de calcular H explicitamente e invertê-la, outra ideia é aproximar H 1 a uma matriz B que será calculada a cada iteração. Então, juntamente com o processo descendente, um processo de identificação da Hessiana (ou da sua inversa) é efetuado (Bonnans, 2006). Existem vários métodos quasi-newton, e a principal diferença entre eles é como se constrói a aproximação da inversa da matriz Hessiana. Entretanto, Press (2007) diz que o que há de comum entre os métodos quasi-newton é a ideia de construir, iterativamente, uma boa aproximação para a inversa da Hessiana, ou seja:

48 37 lim B k = H 1 (2.58) k + E o passo a ser dado pelos métodos quasi-newton, como esperado, é bem semelhante ao método de Newton sendo dado por: m k+1 = m k + B k g k (2.59) Boa parte do interesse nos métodos quasi-newton é referente à fórmula de atualização que permite construir B k+1 a partir de B k. Isto representa uma tentativa de suprir B k com informações de segunda ordem obtidas na iteração corrente (Bonnans, 2006). Entre os métodos para se aproximar a inversa da Hessiana, o BFGS é o que se mostra mais efetivo. Entretanto, outras formulações para essa aproximação foram publicadas por outros autores, como por exemplo Davidon, Fletcher e Powel (DFP), que possui algumas propriedades relacionadas ao BFGS (Fletcher, 2008). O método DFP não será abordado aqui. A ideia por trás dos métodos quasi-newton é de se iniciar com uma matriz positiva definida e simétrica B 0 como aproximação para a inversa da matriz Hessiana e construir os sucessivos B k s de uma maneira que a atualização B k+1 se mantenha positiva definida e simétrica (Press, 2007). A matriz inicial, B 0, deve ser escolhida com muito cuidado apesar de não ser muito crucial ao fim do processo de atualização da matriz. Como explica Bonnans (2006), tendo em vista as sucessivas atualizações da matriz, a influência da matriz inicial diminui ao longo das iterações. Ainda assim, o mesmo autor chama atenção para o fato de que matrizes iniciais ruins vão resultar em ruins aproximações para a inversa da matriz Hessiana por muitas iterações. Normalmente a aproximação inicial é a matriz identidade, que possui as propriedades de ser positiva definida e também simétrica. Infelizmente, as imposições de que as matrizes atualizadas devem manter essas propriedades não são suficientes para a definição concreta de nenhuma matriz. Entretanto, pode-se definir um sistema de equações baseado na equação 2.14 para as iterações k e k + 1: m = m k + H 1 g k (2.60) e m = m k+1 + H 1 g k+1 (2.61) Subtraindo-se 2.60 de 2.61 obtém-se que: m k+1 m k = H 1 (g k+1 g k ) (2.62) Usando s k = m k+1 m k e y k = g k+1 g k tem-se a equação que é o centro do desenvolvimento dos métodos quasi-newton, a ponto de receber o nome de equação quasi-newton - ou também equação da secante (Nocedal, 1980) : s k = H 1 y k (2.63)

49 38 O lado esquerdo da equação 2.64 é o passo finito que deve ser dado para se encontrar o mínimo exato da função objetivo; o lado direito será conhecido uma vez que se possa estimar uma boa aproximação da inversa da matriz Hessiana B H 1 (Press, 2007). Portanto, uma das imposições feitas para se determinar a inversa da matriz Hessiana é que a matriz estimada na iteração corrente satisfaça a seguinte condição: s k = B k+1 y k, (2.64) chamada de condição quasi-newton. De acordo com Bonnans (2006), existem várias maneiras de se satisfazer a condição quasi-newton. O que se procura, então, é uma maneira simples e que envolva pouco esforço computacional, mas que seja ao mesmo tempo efetiva, para o cálculo aproximações. Defende-se que se deve escolher B k+1 como a mais próxima possível de B k em algum sentido, preservando-se a condição dada em O motivo, segundo Fletcher (2008), é que se alguma informação de segunda ordem foi construída em B k deseja-se preservar esta informação. Então, procura-se evitar grandes mudanças entre uma aproximação e outra para evitar a corrupção destas possíveis informações de segunda ordem (Fletcher, 2008). Portanto, sugere-se uma atualização do tipo: B k+1 = B k + E k (2.65) onde E k é a correção a ser aplicada na matriz B k. Como não se deseja que essa correção seja muito grande, minimiza-se: J = E k 2 2 (2.66) sujeito a B k+1 = B T k+1 e s k = B k+1 y k. Vale notar que a norma utilizada em 2.66 é a norma Euclidiana para matrizes, também chamada de norma de Frobenius (Dennis e More, 1977). Fletcher (2008) mostra como minimizar a J dado em 2.66 com o auxílio de multiplicadores de Lagrange. Existem outras maneiras de se chegar à expressão da atualização da inversa da matriz Hessiana. Por exemplo, Nocedal (1980) trabalha com duas fórmulas de atualização BFGS da inversa da matriz Hessiana. A metodologia descrita anteriormente resulta na atualização na forma de produto do método BFGS (Nocedal, 1980): B k+1 = T T k B k T k + ρ k s k s T k (2.67) onde T k = (I + ρ k y k s T k ) e ρ k = 1 y T k s. Observa-se em 2.67 que cada atualização depende k da matriz estimada e dos vetores auxiliares das iterações passadas. Ou seja, o cálculo das atualizações das matrizes é recursivo. Por indução, pode-se chegar à conclusão de que a última atualização B k+1 depende de todos os pares de vetores {s, y} disponíveis, e também da aproximação inicial, B 0. Isso é importante porque, como aponta Bonnans (2006), pelo

50 39 menos 2k vetores terão que ser armazenados e propagados a cada iteração, fora os elementos de B 0. Isso pode exceder as habilidades de armazenamento dos computadores atuais, mas também motiva a busca por alternativas que demandem menos memória (Mokhtari e Ribeiro, 2015). A melhor alternativa para os problemas de disponibilidade de memória são os métodos quasi-newton com memória limitada, a exemplo do L-BFGS (Nocedal, 1980). O L-BFGS consegue manter as características de convergência do BFGS usando uma quantidade de memória pré-definida pelo usuário. Essa memória é utilizada para armazenar os últimos m gradientes e modelos gerados no processo iterativo. Portanto, ao invés de usar todas as informações anteriores como no BFGS, o L-BFGS descarta as informações mais antigas, utilizando apenas as m mais atuais (Nocedal, 1980). Espera-se que este descarte pouco afete a performance do método, já que as iterações pretéritas provavelmente carregam menos informações de segunda ordem para a iteração corrente (Mokhtari e Ribeiro, 2015). Nocedal (1980) descreve um algoritmo que usa a ideia de limitação de memória onde a inversa da matriz Hessiana é atualizada continuamente. O autor parte da equação 2.67 e considera que descartar as informações de uma certa iteração consiste em definir T = I e ρss T = 0. Utilizando-se do exemplo dado por Nocedal (1980), para m = 2, ou seja, utilizando os dois últimos gradientes e modelos para atualização da matriz B. Começa-se com uma matriz B 0 simétrica e positiva definida, da qual se estima B 1 por meios de 2.67: B 1 = T T 0 B 0 T 0 + ρ 0 s 0 s T 0 (2.68) A atualização na próxima iteração nos dará B 2 : B 2 = T T 1 B 1 T 1 + ρ 1 s 1 s T 1 (2.69) Substituindo-se 2.68 em 2.69: B 2 = T T 1 (T T 0 B 0 T 0 + ρ 0 s 0 s T 0 )T 1 + ρ 1 s 1 s T 1 (2.70) que pode ser escrito como: B 2 = T T 1 T T 0 B 0 T 0 T 1 + ρ 0 T T 1 s 0 s T 0 T 1 + ρ 1 s 1 s T 1 (2.71) Se uma nova aproximação for necessária, descarta-se as informações mais antigas fazendo T 0 = I e ρ 0 s 0 s T 0 = 0. Daí: B 2 = T T 1 B 0 T 1 + ρ 1 s 1 s T 1 (2.72) Então, computa-se B 3 de maneira similar aos passos anteriormente mostrados, o que resulta em: B 3 = T T 2 T T 1 B 0 T 1 T 2 + ρ 1 T T 2 s 1 s T 1 T 2 + ρ 2 s 2 s T 2 (2.73) E assim se prossegue até o final das iterações. Atente-se para o fato de que as primeiras m iterações não disponibilizam m pares {s, y}. Neste caso, m será igual ao número de iterações

51 40 já efetuadas até este ponto, e utilizam-se os pares {s, y} disponíveis. Outro aspecto a se mencionar é o número de pares a ser armazenado. É intuitivo pensar que quanto maior ele seja, melhor será a convergência do método; entretanto, deve-se manter em mente que o tempo de computação é diretamente proporcional a m (Bonnans, 2006). Em adição, a matriz inicial será definida por B 0 = yt k 1 s k 1 y T k 1 y I (Nocedal e Wright, 2006). k 1 Observe, também, que o procedimento descrito anteriormente culmina com a definição da aproximação da inversa da matriz Hessiana, e que ainda é necessário efetuar o produto da atualização obtida com o vetor gradiente da iteração atual para se obter a direção na qual se deseja seguir. Este produto, dado em 2.56, pode ser computado de maneira recursiva, como mostrou Nocedal (1980), dispensando cálculo e armazenamento das matrizes B de todas iterações. Ao invés disso, é suficiente armazenar os m mais recentes pares {s, y}, o que reduz a demanda por memória para utilização do método. Em adição, como o produto matriz-vetor é calculado recursivamente, o custo computacional também é reduzido (Mokhtari e Ribeiro, 2015). Conclui-se que o L-BFGS reduz os requerimentos de memória e custo computacional do BFGS. Até então, as equações utilizadas pelo método do L-BFGS tem sido úteis conceitualmente, mas não práticas para implementação. Por exemplo, em seu artigo, Nocedal (1980) propõe um algoritmo que computa este produto por meio de uma recursão em dois loops, mas a equivalência entre a recursão em dois loops e as equações definidas para o método não é tão clara. Indica-se a leitura do apêndice A no trabalho de Mokhtari e Ribeiro (2015) para uma prova completa da relação entre as equações do método e o algoritmo que é implementado em prática. É importante apontar que o Algoritmo (3) é utilizado para calcular a direção de busca D k. Utiliza-se a recursão em dois loops para se calcular esta direção, a qual é utilizada no passo dado por O algoritmo (4) mostra como o L-BFGS foi utilizado neste trabalho. Uma desvantagem do método é que, depois de um certo número de iterações, a aproximação da inversa da Hessiana é descartada, e o algoritmo é reiniciado utilizando a aproximação B 0 (Nocedal, 1980). Por outro lado, algumas das vantagens do L-BFGS são: Não necessita inverter a matriz Hessiana; Reduz o custo computacional do BFGS; Reduz a demanda por memória do BFGS; Converge rapidamente;

52 41 Algorithm 3 Método L-BFGS - Calcula a direção D k = B k g k Inicie uma matriz B 0 q = g k for i = k 1,..., k m do α i = ρ i s T i q q = q α i y i end for D 0 = B 0 q for i = k m, k m + 1,..., k 1 do β = ρ i y T i r i D i+1 = D i + (α i β)s i end for Algorithm 4 Método L-BFGS - Minimiza a função objetivo J = d obs Lm 2 2 m 0 Modelo inicial r = d Lm 0 g = L T r for k = 1 até k max do s m i=1 = m k i=k m+1 mk 1 i=k m y m i=1 = g k i=k m+1 gk 1 i=k m Cálculo de D k utilizando o Algoritmo (3) m k+1 = m k + D k r k+1 = d obs Lm k+1 g k+1 = L T r k+1 Troca os pares {s i, y i } por {s i+1, y i+1 } end for Retorna m 2.4 Condições de Wolfe Como dito anteriormente, técnicas iterativas de busca em linha utilizam um tamanho de passo (α) para obter uma redução efetiva da função objetivo (aqui escrito como J(m k+1 ) < J(m k )). Ao contrário do STD e do CG, não se calcula um tamanho de passo ótimo para o L-BFGS; neste método, a ideia é testar uma sequência de possíveis valores para o tamanho de passo α, até que se encontre aquele que satisfaça a condição de decréscimo suficiente para garantir que a função objetivo seja minimizada. A seguir, a condição de decréscimo suficente será discutida. Entretanto, é necessário alertar o leitor para o fato de que esta condição não é suficiente para garantir um progresso razoável no processo de inversão. Faz-se necessário, também, o uso da condição de curvatura (Nocedal e Wright, 2006). Coletivamente, as

53 42 condições de decréscimo suficiente e curvatura são conhecidas como as condições de Wolfe. Porém, é rotina não se utilizar a condição de curvatura, como foi feito neste trabalho, pelo fato de que esta pode requerer sucessivas avaliações da função objetivo, o que reduz a eficiência computacional do experimento (Nocedal e Wright, 2006). A condição de decréscimo suficiente foi utilizada apenas para o método L-BFGS. Os métodos quasi-newton definem não apenas uma direção de busca a ser seguida, mas também um tamanho de passo constante e igual a um (Bonnans, 2006), o qual foi utilizado como tamanho de passo inicial nas inversões baseadas no L-BFGS. Adotou-se, então, uma estratégia de backtracking onde o tamanho do passo inicial (α = 1) é reduzido à metade até que a condição de decréscimo suficiente, dada por J(m k + α k D k ) J(m k ) + c 1 α k J T k D k, (2.74) para uma constante c 1 (0, 1) (Nocedal e Wright, 2006), seja satisfeita. A constante c 1 é normalmente um valor muito pequeno, e.g. c 1 = 10 4, e explica o motivo pelo qual esta condição não é suficiente para se obter um decréscimo efetivo da função objetivo a cada iteração. Como explica Nocedal e Wright (2006), o lado direito da equação 2.74 é uma função linear com inclinação negativa dada por c 1 α k J T k D k, e estabelece as regiões aceitáveis na minimização da função objetivo. Mais informações sobre a condição de curvatura podem ser obtidas em Nocedal e Wright (2006). Mais uma vez, justifica-se a não aplicação da condição de curvatura devido aos custos computacionais que a mesma pode adicionar ao problema. Entretanto, Nocedal e Wright (2006) afirma que esta condição pode ser dispensada caso o tamanho do passo seja apropriadamente estimado por um esquema de backtracking. A estratégia de backtracking utilizada no L-BFGS é simples (Algoritmo 5); o tamanho de passo inicial (α = 1 para os métodos de Newton ou quasi-newton) é reduzido por um fator de contração ρ até que a condição de decréscimo suficiente seja satisfeita. O fator de contração foi fixado em ρ = 0.5, mas pode variar de iteração para iteração como discutido em Nocedal e Wright (2006). Algorithm 5 Busca em linha utilizando Backtracking α 0 = 1 (Tamanho de passo inicial); ρ = 0.5; c = 10 4 α = α 0 repeat α = ρα until J(m k + αd k ) J(m k ) + cα J T k D k Retorna α

54 CAPÍTULO 3 Resultados 3.1 Metodologia para obtenção dos resultados O principal objetivo deste trabalho é mostrar que utilizar operadores adjuntos exatos aos operadores de modelagem na LSM tem implicação direta nas taxas de convergência do processo de inversão. Entretanto, o tema aqui abordado não se limita às aplicações de imageamento sísmico. Na verdade, a utilização de sub-rotinas que fazem o papel de matrizes e suas operações adjuntas é comum em tópicos de inversão geofísica. Também, a solução do sistema de equações normais não se limita ao campo de imageamento sísmico, sendo possível formular o problema dos mínimos quadrados para diversas aplicações, como a deconvolução de dados sísmicos por meio de filtros tipo Wiener-Levinson (Porsani, 2008). A metodologia utilizada para obtenção dos resultados neste trabalho baseia-se na solução do sistema de equações normais utilizando os métodos iterativos descritos no capítulo anterior (STD, CG e L-BFGS) empregando-se operadores convencionais e adjuntos. Três exemplos serão abordados: um sistema de equações simples é utilizado para ilustrar como operadores que não passam no teste do produto interno afetam as direções de busca, e consequente convergência, dos métodos iterativos; e dois modelos de subsuperfície são utilizados para ilustrar os efeitos dos operadores de migração na LSM. A ideia de utilizar diferentes métodos iterativos visa investigar o quão sensíveis estes podem ser em relação à exatidão do operador adjunto. Além disto, esta análise pode ser utilizada para comparar a eficiência de cada método em relação às taxas de convergência no processo de inversão. Todos os códigos utilizados neste trabalho estão escritos em linguagem FORTRAN 90, e as imagens foram geradas com o auxílio do software MATLAB e do pacote SeismicLAB. 3.2 Exemplo ilustrativo Com o propósito de ilustrar as diferenças na solução do sistema de equações normais utilizando operadores convencionais e adjuntos exatos, um exemplo simples, adaptado de 43

55 44 Shewchuk (1994), foi utilizado. Um sistema de equações do tipo Ax = b foi formulado, onde [ ] [ ] A = e b =. (3.1) Shewchuk (1994) usa este sistema de equações para clarificar o método dos gradientes conjugados. Este sistema assume solução analítica em x sol = [2; 2] T, já que a matriz A é quadrada e assume inversa. Entretanto, a fim de ilustrar os efeitos dos operadores adjuntos, assume-se que a inversa da matriz A não pode ser calculada e tenta-se resolver o sistema através do método dos mínimos quadrados por meio dos métodos iterativos descritos anteriormente. Para se obter a solução do sistema através do método dos mínimos quadrados é necessário resolver o sistema de equações normais (Equação 2.8). Os métodos iterativos, por sua vez, requerem o conhecimento das matrizes A e A T (aqui referidas como operadores direto e adjunto, respectivamente) para resolver o referido sistema de equações. Para simular os operadores que não passam no teste do produto interno uma pequena modificação foi aplicada à diagonal principal de A T de forma que [ ] Ã T =. (3.2) A matriz que representa operadores adjuntos é a transposta da matriz A que, por ser simétrica, é dada pela matriz A propriamente dita (A = A T ). A ideia explorada neste exemplo refere-se ao fato de que operadores convencionais realizam, aproximadamente, a mesma operação que operadores adjuntos. Então, a modificação aplicada à transposta da matriz A visa a obtenção de uma matriz que se aproxima, mas não é, da matriz transposta original (i.e., Ã T A T ), tal qual esta em 3.2. Na solução iterativa do sistema de equações normais para este problema, adotou-se como solução inicial o ponto nulo x 0 = [0; 0] T. Os resultados obtidos com este exemplo são ilustrados com os passos dados por cada algoritmo em relação às curvas de nível formadas pela forma quadrática a ser minimizada (Equação 1.23) a partir da matriz transposta verdadeira 1 e com as curvas de convergência para cada método (Figuras 3.1, 3.2 e 3.3). 1 Note que utilizar a matriz transposta modificada, dada em 3.2, altera a forma quadrática a ser minimizada

56 45 (a) (b) Figura 3.1: Solução do exemplo ilustrativo com o método do gradiente. (a) Soluções obtidas a cada iteração convergindo à solução analítica e (b) curva de convergência do STD. (a) (b) Figura 3.2: Solução do exemplo ilustrativo com o método dos gradientes conjugados. (a) Soluções obtidas a cada iteração convergindo à solução analítica e (b) curva de convergência do CG. Este exemplo é eficiente em ilustrar como operadores adjuntos são superiores aos convencionais. Para todas técnicas iterativas aplicadas, o operador adjunto (matriz transposta original) obteve melhores taxas de convergência do que o operador convencional (matriz transposta modificada). Com a análise das figuras (a), pode-se observar que as direções de busca obtidas com os operadores convencionais, por não apontarem na direção de maior decrescimento da função objetivo, requerem menores passos e, portanto, um maior número de iterações para convergir à solução do problema. Este comportamento é melhor observado no método do gradiente (Figura 3.1) já que não aplica nenhuma correção (e.g., ortogonalização ou aproximação da inversa da matriz Hessiana) na direção de busca a ser seguida. O método dos gradientes conjugados converge em apenas duas iterações quando

57 46 (a) (b) Figura 3.3: Solução do exemplo ilustrativo com o método L-BFGS. (a) Soluções obtidas a cada iteração convergindo à solução analítica e (b) curva de convergência do L-BFGS. aplicado com a matriz transposta original (operador adjunto). Não se observa, entretanto, mesmo comportamento para a matriz transposta modificada (operador convencional), que apenas converge a partir da terceira iteração. O método L-BFGS, por sua vez, não aplica condições às direções de busca e, portanto, não mostra ortogonalidade entre estas, o que explica o comportamento diferenciado em relação aos métodos STD e CG. Ainda assim, o dito operador adjunto foi capaz de convergir mais rapidamente que o operador convencional, porém com taxas de convergência mais semelhantes que os demais. 3.3 Exemplos na migração por mínimos quadrados Nos exemplos utilizados para demonstrar os efeitos dos operadores de migração na LSM utiliza-se a migração reversa no tempo 2-D pós-empilhamento. Os códigos de modelagem, migração convencional e adjunto utilizados neste trabalho são de autoria de Ji (2009), os quais estão disponíveis em A LSM é uma técnica de inversão linearizada que utiliza métodos iterativos devido à dificuldade imposta pela inversão da matriz Hessiana em esquemas explícitos de inversão. Nesta, independente do método a ser utilizado, o operador direto e seu adjunto são requeridos (Ji, 2009). A LSM busca pelo modelo de refletividade o qual melhor se ajusta ao dado observado. Os dados utilizados neste trabalho são sintéticos, ou seja, um modelo de refletividade conhecido, m verd, foi utilizado para gerar o dado observado por meio da aplicação do operador direto d obs = Lm verd. (3.3) Em primeira instância, o modelo em subsuperfície utilizado é o mesmo que o de Ji

58 47 (2009), sendo composto por três camadas horizontais e um ponto difrator (Figura 3.4a). As velocidades sísmicas são iguais a 2000, 2600 e 3200 m/s da superfície para baixo, como mostra a Figura 3.4b. (a) (b) Figura 3.4: (a) Modelo de refletividade verdadeira e (b) Campo de velocidades O dado observado (Figura 3.5) é computado utilizando os modelos mostrados nas Figuras 3.4a e 3.4b, juntamente aos parâmetros da Tabela 3.1, como argumentos de entrada para o algoritmo de propagação direta baseado na equação Por sua vez, juntamente ao campo de velocidades e os mesmos parâmetros da Tabela 3.1, o dado observado é utilizado como argumento de entrada nos operadores de migração, tanto para o RTM convencional quanto para o RTM adjunto. Tabela 3.1: Parâmetros de modelagem e migração Parâmetro Número de amostras no tempo 1250 Número amostras em profundidade 512 Número amostras laterais 800 Amostragem temporal (s) 0, 001 Amostragem vertical (m) 5, 0 Amostragem lateral (m) 5, 0

59 48 Figura 3.5: Dado Observado Para fins de visualização, a Figura 3.6 mostra os resultados para a migração utilizando o operador RTM convencional (Figura 3.6a) e o operador adjunto (Figura 3.6b). É possível observar a semelhança entre ambos, a não ser por uma diferença de amplitude, indicando que os dois operadores realizam a mesma tarefa. Na verdade, ambos operadores fazem um bom trabalho em recuperar uma aproximação à refletividade verdadeira, exceto pelos artefatos de migração inseridos no modelo devido à não ortogonalidade dos operadores. Estes artefatos serão atenuados pela migração por mínimos quadrados. (a) (b) Figura 3.6: Modelo de refletividade obtido com o (a) operador RTM convencional e (b) operador RTM adjunto

60 49 Resumindo, o dado utilizado como dado observado (Figura 3.5) neste trabalho é calculado a partir de um modelo de refletividade conhecido (Figura 3.4a). Então, procura-se um modelo em subsuperfície que melhor se ajuste aos dados observados, ou seja, que o dado calculado a partir deste modelo deve ser o mais próximo possível do dado observado. Um exemplo é mostrado na Figura 3.7, que corresponde ao dado calculado a partir do modelo de refletividade obtido com o operador RTM adjunto. Observe que este dado não se assemelha ao dado mostrado na Figura 3.5. Figura 3.7: Dado calculado a partir do modelo de refletividade obtido com o operador adjunto exato. Isto ocorre porque o operador utilizado na inversão do modelo não é o operador inverso, apenas uma aproximação para tal. Desta forma, utiliza-se a LSM como uma maneira de aproximar o operador inverso e obter uma melhor imagem da subsuperfície. A LSM conta com algumas etapas que são independentes do método iterativo a ser utilizado. Na verdade, o único ponto que diferencia um esquema LSM de outro é como se calcula a direção de busca do modelo otimizado. Todos os métodos iterativos utilizados neste trabalho utilizam o modelo nulo como modelo inicial, e baseiam-se no cálculo do gradiente da função objetivo podendo, ou não, calcular um tamanho de passo ótimo no processo de inversão. De maneira geral, a LSM pode ser descrita da seguinte forma (Santos, 2013) Para um modelo m k : Cálculo do dado associado à m k ; Cálculo do resíduo entre o dado calculado e o observado; Cálculo do gradiente g k

61 50 Cálculo da direção a ser utilizada a depender do método (Algoritmos 1,2 ou 4); Atualização do modelo m k+1. Teste de condição de convergência; Se a condição de convergência for satisfeita, m k+1 é a solução final do processo de inversão; Se a condição de convergência não for satisfeita, m k+1 passa a ser a solução corrente e o processo se repete. As condições de convergência utilizadas neste trabalho fazem referência ao erro relativo e ao número de iterações utilizadas. Enquanto que o número máximo de iterações permitidas foi 10, a condição de parada do erro relativo é dada por: ɛ = r k 1 r k 2 2 r k 2 2 (3.4) e se ɛ for menor que um certo valor de tolerância, o algoritmo é interrompido porque não se há mais progresso na atualização dos modelos. O valor de tolerância utilizado foi de tol = 10 8, cujo nenhum método foi capaz de alcançar. Observe que, se r k r k 1, entende-se que não houve progresso da iteração k 1 para a iteração k, interpretando-se a convergência do método. O vetor r k é a medida dos resíduos, e sua norma L2 corresponde à sua energia. É justamente essa medida que se tenta minimizar a cada iteração. Uma forma de se analisar a eficiência de cada método é por meio da sua curva de convergência. Esta curva corresponde a um gráfico do erro quadrático versus iteração, o qual é comumente utilizado para quantificar as taxas de convergência de cada método. Esta curva mostra o comportamento da energia do resíduo a cada iteração. Na análise de cada curva de convergência, os valores dos erros quadráticos são normalizados com o maior valor de erro encontrado durante as iterações. Como o modelo inicial utilizado neste trabalho é nulo (m 0 = 0), o maior valor do erro quadrático é o mesmo para todos os métodos, correspondendo à energia do dado observado. Além da curva de convergência dos resíduos dos dados, outra maneira de se quantificar os resultados é por meio do erro do modelo invertido em relação ao modelo verdadeiro (Crawley, 1997). Este erro é dado por κ k = m verd m k 2 2, (3.5) e só pode ser avaliado em problemas que utilizam dados sintéticos, uma vez que m verd seria desconhecido em situações reais. Utilizar esta curva pode ser útil para quantificar o quão bem a refletividade verdadeira está sendo invertida. Adicionalmente, esta curva poderá ser utilizada para comparar a habilidade dos operadores convencionais e adjuntos exatos em inverter o modelo verdadeiro.

62 51 Neste trabalho, os métodos iterativos foram utilizados em duas subrotinas de migração por mínimos quadrados. Uma delas utilizava o operador RTM convencional, que não passa no teste do produto interno, representando L T. Na outra, o operador RTM adjunto, que passa no teste do produto interno, foi utilizado como L T. As etapas descritas anteriormente são as mesmas para ambas metodologias, variando apenas o operador de migração. A seguir, discutem-se os resultados da LSM utilizando o método do gradiente, seguindo da análise dos resultados obtidos com o método dos gradientes conjugados, e então os resultados do L- BFGS são discutidos. Vale adiantar que os resultados da LSM são os mesmos para todos os métodos, variando a taxa de convergência entre cada um deles. Serão apresentados, para todos os métodos iterativos, os resultados obtidos nas inversões utilizando o operador RTM convencional e o adjunto exato para as iterações de número 2 e 10. Utiliza-se o melhor modelo invertido por cada operador para predizer o dado observado. Como se espera que estes resultados sejam muito semelhantes, a melhor comparação dos métodos se dará através das suas curvas de convergência. Duas curvas são geradas para cada metodologia; a primeira é a convergência dos resíduos, que mostra a minimização da função objetivo a cada iteração. A segunda é a convergência do erro do modelo (κ k vs. iteração), a qual mostra a proximidade do modelo invertido ao modelo verdadeiro a cada iteração. Com a comparação destas curvas, espera-se que seja possível discernir qual operador obteve melhores taxas de convergência quando utilizado na LSM. Ao final, pode-se comparar os métodos iterativos entre si. Esta comparação também é feita através das curvas de convergência de cada método para um mesmo operador. Com esta análise, espera-se concluir qual o operador mais apropriado a se utilizar na LSM, bem como qual método iterativo que oferece as melhores taxas de convergência. 3.4 Modelo Simples Método do gradiente O primeiro algoritmo a ser testado é o método do gradiente por ser um método robusto, de fácil implementação e uso. A utilização do método do gradiente foi feita de maneira similar a Oliveira (2014). As Figuras 3.8 e 3.9 mostram os resultados para as iterações de número 2 e 10 utilizando os operadores RTM convencional e adjunto, respectivamente. É possível observar que a LSM atenua os artefatos inseridos pelo operador de migração. Esta atenuação está mais óbvia para a iteração de número 10 nos resultados obtidos com o operador RTM convencional, onde reflexões artificiais da borda, bem como as franjas devido ao ponto difrator abaixo do segundo refletor, ainda estão presentes no modelo. O operador adjunto, por sua vez, obteve melhores resultados para a iteração de número 10 (Figura 3.9b) que o operador RTM

63 52 convencional para iteração de mesmo número (Figura 3.8b). Isto indica que o operador adjunto foi superior ao operador convencional em otimizar a imagem de subsuperfície. (a) (b) Figura 3.8: Modelo de refletividade obtido com o operador RTM convencional após (a) 2 e (b)10 iterações do STD. (a) (b) Figura 3.9: Modelo de refletividade obtido com o operador RTM adjunto após (a) 2 e (b) 10 iterações do STD.

64 53 Para ilustrar o sucesso da inversão, a Figura 3.10 mostra o dado observado (Figura 3.10a) e os dados calculados a partir dos modelos invertidos na iteração de número 10 (Figura 3.10b e 3.10c), confirmando a predição do dado observado com um bom grau de precisão para ambos operadores. (a) (b) (c) Figura 3.10: Comparativo entre o (a) dado observado e os dados calculados a partir do modelo otimizado na iteração de número 20 com o (b) operador RTM convencional e (c) operador adjunto. As curvas de convergência dos resíduos são dadas pela Figura 3.11a. Estas curvas mostram que o dado calculado a partir do modelo otimizado a cada iteração se aproxima, cada vez mais, ao dado observado até que se chega num ponto onde não se observa mais decaimento da curva. Pode-se observar que o objetivo de predição do dado observado foi mais rapidamente alcançado com uso do operador adjunto no esquema de migração por mínimos quadrados utilizando o método do gradiente. A Figura 3.11a indica que, apesar de ambos operadores predizerem o dado observado cada vez melhor a cada iteração, o operador adjunto consegue chegar a uma solução satisfatória mais rapidamente do que o operador convencional. A partir dessa mesma figura, pode-se estimar que as iterações da LSM poderiam ter sido interrompidas na iteração de número 5 com o operador adjunto, enquanto apenas na iteração de número 10 para as iterações LSM com o operador convencional. Isto significa uma economia no tempo de computação, visto que cada iteração da LSM com o método do gradiente utiliza os operadores de modelagem e de migração uma vez. Já a curva de convergência do erro do modelo é dada na Figura 3.11b. Esta curva mostra que a diferença entre os modelos verdadeiro e calculado também é minimizada a cada

65 54 iteração. Também, este resultado corrobora na conclusão de que o operador adjunto foi mais eficiente em inverter modelos otimizados de subsuperfície do que o operador convencional. Portanto, não apenas o objetivo de se predizer o dado observado, mas também melhores aproximações do modelo de refletividade verdadeiro são mais rapidamente calculadas com o operador adjunto na rotina da LSM. (a) (b) Figura 3.11: Curvas de convergência (a) dos resíduos e do (b) erro do modelo para a LSM utilizando o operador adjunto (linha azul) e o operador convencional (linha vermelha) no STD. Não necessariamente as curvas de convergência do resíduo e do erro do modelo são iguais. Por exemplo, a convergência dos modelos invertidos parece ser alcançada próximo à iteração de número 6 para o operador RTM adjunto, diferentemente dos resíduos dos dados, o qual aparenta convergir na iteração de número 5. Isto indica que o dado estimado a partir dos modelos invertidos nas iterações de número 5 em diante conseguem predizer o dado observado, apesar de não corresponderem à melhor estimativa modelo de refletividade verdadeiro que o método pôde obter. É interessante notar que isto pode ser interpretado como um aspecto da ambiguidade geofísica, onde um único dado observado pode ser explicado por diferentes modelos de subsuperfície. Não obstante, estes modelos são melhores aproximações ao modelo de subsuperfície do que aquele mostrado na Figura 3.6a, obtido através da migração do dado observado.

66 Método dos gradientes conjugados O segundo método testado foi o método dos gradientes conjugados (CG). Este método também é de fácil implementação e uso, e diferencia-se do método do gradiente apenas por conjugar as direções a seguir de um passo para outro. Desta forma, o CG evita revisitar direções já utilizadas na busca pelo mínimo, e cria uma base de vetores linearmente independentes a qual é utilizada para escrever uma combinação linear da solução do problema em um número finito de iterações. As Figuras 3.12 e 3.13 mostram os modelos invertidos para as iterações de número 2 e 10 na LSM utilizando o operador RTM convencional e o adjunto, respectivamente. A atenuação dos artefatos de migração é clara. Ainda mais, o CG foi capaz de convergir mais rápido que o método do gradiente. Por exemplo, o modelo invertido na iteração de número 10 é superior aos modelos de refletividade invertidos pelo método do gradiente, para ambos operadores, na iteração de mesmo número. Isto ilustra a superioridade do método dos gradientes conjugados em relação ao método do gradiente. (a) (b) Figura 3.12: Modelo de refletividade obtido com o operador RTM convencional após (a) 2 e (b)10 iterações do CG.

67 56 (a) (b) Figura 3.13: Modelo de refletividade obtido com o operador adjunto após (a) 2 e (b)10 iterações do CG. Além disso, o dado observado pode ser previsto a partir dos modelos invertidos pelo CG. A predição dos dados pode ser observada na Figura 3.14, onde os dados foram estimados com o modelo de subsuperfície obtido na iteração de número 10. (a) (b) (c) Figura 3.14: (a) Dado observado (b) Dado calculado a partir do modelo otimizado na iteração de número 10 utilizando o operador convencional no CG. A curva de convergência dos resíduos quantifica as boas taxas de convergência do CG, o qual necessitou um menor número de iterações para convergir, como mostra a Figura 3.15.

68 57 (a) (b) Figura 3.15: Curvas de convergência (a) dos resíduos e (b) do erro do modelo para a LSM utilizando o operador adjunto (linha azul) e o operador convencional (linha vermelha) no CG L-BFGS Finalmente, o método L-BFGS foi testado. Este método tem implementação mais complexa, porém promete melhores taxas de convergência devido ao uso de uma direção mais apropriada no processo de inversão. Como já explicado, esta direção é o produto do vetor gradiente e da aproximação da inversa da matriz Hessiana. Foram utilizados os 10 últimos modelos e gradientes gerados nas iterações anteriores para estimativa da matriz Hessiana. As Figuras 3.16 e 3.17 mostram os resultados para as iterações 2 e 10 para a LSM utilizando o operador RTM convencional e adjunto, respectivamente. Pode-se observar que a LSM baseada no L-BFGS foi capaz de atenuar os artefatos de migração, a julgar pelas imagens mais nítidas nas iterações de número 10.

69 58 (a) (b) Figura 3.16: Modelo de refletividade obtido com o operador RTM convencional exato após (a) 2 e (b)10 iterações do L-BFGS. (a) (b) Figura 3.17: Modelo de refletividade obtido com o operador RTM convencional após (a) 2 e (b) 10 iterações do L-BFGS. Os modelos com melhor resolução conseguem predizer o dado observado (Figura 3.18) e o método tem boas taxas de convergência, como mostra a Figura 3.19a, para ambos operadores. As taxas de convergência do erro do modelo (Figura 3.19b) também são boas para ambos operadores.

70 59 (a) (b) (c) Figura 3.18: Comparativo entre o (a) dado observado e os dados calculados a partir do modelo otimizado na iteração de número 10 com o (b) operador RTM convencional e (c) operador adjunto no L-BFGS. (a) (b) Figura 3.19: Curvas de convergência (a) dos resíduos e (b) do erro do modelo para a LSM utilizando o operador adjunto (linha azul) e o operador convencional (linha vermelha) no L-BFGS. As taxas de convergência da LSM utilizando o L-BFGS são muito parecidas para os dois operadores. Entretanto, apenas com uma análise minuciosa foi possível observar que, na verdade, o operador adjunto obteve melhores taxas de convergência que o operador RTM convencional. Não apenas convergiu melhor em termos de predição do dado observado, mas também obteve melhores taxas de convergência em obter um modelo de subsuperfície mais próximo ao modelo verdadeiro. Contudo, a diferença entre as taxas de convergência da LSM,

71 60 tanto para o resíduo do dado quanto para o resíduo do modelo, é muito pequena. Portanto, as curvas se sobrepõem para a maioria das iterações com os intervalos utilizados nos gráficos das Figuras 3.19a e 3.19b. A alternativa que se encontrou para explicitar a diferença existente entre as curvas foi limitar os valores do eixo do erro normalizado ao intervalo [0 : ] para a curva de convergência do resíduo (Figura 3.20a), e [0 : ] para a do erro do modelo (3.20b). Com o auxílio destas duas figuras conclui-se que o operador adjunto conseguiu obter melhores taxas de convergência que o operador RTM convencional, apesar da diferença entre os dois métodos ser muito pequena, ao contrário dos métodos do gradiente e gradientes conjugados. O motivo desta similaridade pode estar relacionado à simplicidade do modelo utilizado, o qual está sendo otimizado com facilidade por ambos operadores. Espera-se que a utilização de um modelo com geologia mais complexa poderá ilustrar a superioridade do operador adjunto de forma mais clara. (a) (b) Figura 3.20: Curvas de convergência com intervalos limitados para (a) resíduo do dado e (b) modelo.

72 Modelo de Sal SEG-EAGE O modelo de sal SEG-EAGE (Figura 3.21) é utilizado para testar técnicas de imageamento por representar bem uma região de geologia complexa, baseado em estruturas encontradas no Golfo do México. Este modelo foi proposto por O Brien e Gray (1996) e corresponde a uma região afetada por tectônica salífera, contendo falhamentos de ângulos e magnitudes variadas, bem como refletores acima e abaixo do corpo de sal. Como controle de qualidade, um refletor plano existe na região mais profunda do modelo. Existem também dois pontos de superpressurização, onde a velocidade de propagação das ondas sísmicas decresce rapidamente. Há, então, forte contrastes de velocidades sísmicas devido ao corpo de sal presente no modelo, as quais variam entre 1500 e 4500 m/s, com gradientes laterais e horizontais. O modelo tem dimensões de 16 km 3.7 km. Figura 3.21: Campo de velocidades verdadeiro do modelo SEG-EAGE Devido às características apresentadas anteriormente, o modelo de sal SEG-EAGE é muito utilizado para, por exemplo, sintetizar dados de afastamento nulo, baseando-se no modelo do refletor explosivo, viabilizando o estudo de técnicas de migração pós-empilhamento (O Brien e Gray, 1996). Utilizou-se o modelo de refletividade verdadeiro (Figura 3.22), o campo de velocidades suavizado (Figura 3.23) e os parâmetros da Tabela 3.2 para se gerar o dado observado (Figura 3.24).

73 62 Tabela 3.2: Parâmetros de modelagem e migração Parâmetro Número de amostras no tempo 5008 Número amostras em profundidade 798 Número amostras laterais 3438 Amostragem temporal (s) 0, 001 Amostragem vertical (m) 4, 5 Amostragem lateral (m) 4, 5 Figura 3.22: Refletividade verdadeira do modelo SEG-EAGE Figura 3.23: Campo de velocidades suavizado do modelo SEG-EAGE

74 63 Figura 3.24: Dado observado Utilizou-se o dado observado e o modelo de velocidades suavizado para cálculo das primeiras imagens de subsuperfície. Novamente, utilizam-se os operadores RTM convencional e adjunto, seguidos da aplicação de um filtro passa-alta (Laplaciano) para filtragem de ruídos de baixa frequências inseridos pela migração reversa no tempo, para obtenção das seções migradas. As figuras 3.25 e 3.26 são os resultados das migrações, antes da aplicação do filtro Laplaciano, com o operador convencional e adjunto, respectivamente. Figura 3.25: Modelo de subsuperfície obtido a partir da migração do dado observado (Figura 3.24) com o operador RTM convencional sem aplicação do filtro Laplaciano.

75 64 Figura 3.26: Modelo de subsuperfície obtido a partir da migração do dado observado (Figura 3.24) com o operador adjunto sem aplicação do filtro Laplaciano. Após filtragem, os modelos de subsuperfície obtidos com a migração RTM convencional (Figura 3.27) e com o operador adjunto (Figura 3.28), mostram mais detalhes que as versões não filtradas, especialmente na região abaixo do sal. De fato, os resultados são semelhantes já que ambos operadores realizam a mesma tarefa, como já esperado, mas ainda possuem os artefatos de migração. O resultado obtido com o operador convencional é o mais afetado por estes artefatos. Figura 3.27: Modelo de subsuperfície obtido a partir da migração do dado observado (Figura 3.24) com o operador RTM convencional e aplicação do filtro Laplaciano.

76 65 Figura 3.28: Modelo de subsuperfície obtido a partir da migração do dado observado (Figura 3.24) com o operador adjunto e aplicação do filtro Laplaciano. A seguir, discutem-se os resultados obtidos na LSM utilizando os operadores RTM convencional e adjunto para os mesmos métodos iterativos anteriores. A análise segue da mesma forma que àquela feita com o modelo simples, baseando-se na qualidade da imagem final, preditividade do dado observado e nas curvas de convergência de cada método. Os modelos invertidos nas iterações de número 2 e 10 serão utilizados na análise dos métodos iterativos. Os resultados obtidos na iteração de número 10 foram utilizados para predição do dado observado. Todos os modelos de subsuperfície obtidos no processo de inversão foram filtrados com um filtro Laplaciano a fim de remover ruídos de baixa frequência inseridos pela migração reversa no tempo. As curvas geradas são as mesmas que aquelas geradas para os testes do modelo simples, fazendo referência à minimização do resíduo e do erro do modelo (κ k ).

77 Método do Gradiente As Figuras 3.29 e 3.30 mostram os resultados obtidos na LSM utilizando o método do gradiente com o operador RTM convencional. Nestas, ainda se observam os artefatos de migração na parte mais rasa do modelo, indicando pouca atenuação destes, mesmo depois de 10 iterações. Há, entretanto, um ganho relativo à resolução espacial dos refletores e, também, a melhor definição dos refletores abaixo do corpo de sal. Figura 3.29: Modelo otimizado na iteração de número 2 com a LSM baseada no método do gradiente utilizando o operador RTM convencional. Figura 3.30: Modelo otimizado na iteração de número 10 com a LSM baseada no método do gradiente utilizando o operador RTM convencional.

78 67 Os resultados obtidos com o operador adjunto são de melhor qualidade que os obtidos com o uso do operador RTM convencional. Como mostram as Figuras 3.31 e 3.32, os artefatos de migração foram atenuados com as iterações da LSM. Por exemplo, a parte rasa do modelo obtido pela iteração de número 10 é menos contaminada pelos artefatos de migração, melhorando a definição dos refletores e falhas nesta região. Figura 3.31: Modelo otimizado na iteração de número 2 com a LSM baseada no método do gradiente utilizando o operador adjunto. Figura 3.32: Modelo otimizado na iteração de número 10 com a LSM baseada no método do gradiente utilizando o operador adjunto.

79 68 Os dados cálculados a partir dos modelos invertidos na iteração de número 10 para o operador convencional e adjunto (Figuras 3.33 e 3.34, respectivamente), em comparação com o dado observado (Figura 3.24), indicam a vantagem de se utilizar operadores adjuntos na LSM. Este comportamento é refletido nas curvas de convergência (Figura 3.35), mostrando que o operador adjunto foi superior ao operador RTM convencional em inverter um modelo capaz de predizer o dado observado utilizando um menor número de iterações. Figura 3.33: Dado predito a partir do modelo invertido na iteração de número 10 com o operador convencional na LSM. Figura 3.34: Dado predito a partir do modelo invertido na iteração de número 10 com o operador adjunto na LSM.

80 69 (a) (b) Figura 3.35: Curvas de convergência (a) dos resíduos e (b) do erro do modelo para a LSM utilizando o operador adjunto (linha azul) e o operador convencional (linha vermelha) no método do gradiente Método dos Gradientes Conjugados O método dos gradientes conjugados, quando utilizado em conjunto ao operador RTM convencional na LSM, obteve resultados inferiores ao método do gradiente nas mesmas condições. Os resultados das iterações 2 e 10 estão nas Figuras 3.36 e 3.37, respectivamente. É possível observar a atenuação dos artefatos de migração no modelo, bem como um ganho da resolução sísmica, devido ao processo deconvolucional implícito à LSM (Yousefzadeh e Bancroft, 2012). Entretanto, artefatos de migração persistem na iteração de número 10. Figura 3.36: Modelo otimizado na iteração de número 2 com a LSM baseada no método dos gradientes conjugados utilizando o operador RTM convencional.

81 70 Figura 3.37: Modelo otimizado na iteração de número 10 com a LSM baseada no método dos gradientes conjugados utilizando o operador RTM convencional. Os resultados obtidos com o operador adjunto são animadores. As Figuras 3.38 e 3.39 mostram os resultados obtidos para as iterações de número 2 e 10, respectivamente. Observam-se artefatos de migração presentes na parte rasa do modelo na iteração de número 2, os quais já estão bastante atenuados na iteração de número 10. Novamente, o processo deconvolucional da LSM incrementa a resolução da seção sísmica. Figura 3.38: Modelo otimizado na iteração de número 2 com a LSM baseada no método dos gradientes conjugados utilizando o operador adjunto.

82 71 Figura 3.39: Modelo otimizado na iteração de número 10 com a LSM baseada no método do gradiente utilizando o operador adjunto. As figuras 3.40 e 3.41 mostram os dados preditos a partir dos modelos de melhor resolução (iteração de número 10) para o operador convencional e adjunto, respectivamente. Novamente, pela comparação com o dado observado (Figura 3.24), observa-se a vantagem de se utilizar operadores adjuntos na LSM. As curvas de convergência, mais uma vez, confirmam o melhor desempenho da LSM com o emprego do operador adjunto (Figura 3.42). Figura 3.40: Dado predito a partir do modelo invertido na iteração de número 10 com o operador convencional na LSM utilizando o CG.

83 72 Figura 3.41: Dado predito a partir do modelo invertido na iteração de número 10 com o operador adjunto na LSM utilizando o CG. (a) (b) Figura 3.42: Curvas de convergência (a) dos resíduos e (b) do erro do modelo para a LSM utilizando o operador adjunto (linha azul) e o operador convencional (linha vermelha) no CG L-BFGS Os resultados obtidos com o L-BFGS na LSM com o operador RTM convencional são mostrados nas Figuras 3.43 e A iteração de número 2 ainda possui os artefatos de migração a serem atenuados. Já a iteração de número 10, apesar de delimitar refletores, algumas falhas e o corpo de sal, ainda contém os artefatos de migração normalmente atenuados pela LSM. Quando aplicada em conjunto ao operador adjunto, a LSM baseada no L-BFGS consegue melhores resultados que aqueles obtidos com o operador RTM convencional, como

84 73 Figura 3.43: Modelo otimizado na iteração de número 2 com a LSM baseada no L-BFGS utilizando o operador RTM convencional. Figura 3.44: Modelo otimizado na iteração de número 10 com a LSM baseada no L-BFGS utilizando o operador RTM convencional. mostram as Figuras 3.45 e Entretanto, a iteração de número 2 (Figura 3.45) sofre dos mesmos problemas que o modelo invertido na iteração de mesmo número na LSM utilizando o operador RTM convencional, ainda contendo os artefatos de migração a serem atenuados. Por outro lado, a iteração de número 10 fez um bom trabalho em atenuar os artefatos de migração, aumentando a resolução sísmica. Desta forma, é possível identificar as falhas geológicas presentes no modelo, especialmente na região acima do sal.

85 74 Figura 3.45: Modelo otimizado na iteração de número 4 com a LSM baseada no L-BFGS utilizando o operador adjunto. Figura 3.46: Modelo otimizado na iteração de número 10 com a LSM baseada no L-BFGS utilizando o operador adjunto. Os dados preditos a partir dos modelos invertidos na iteração de número 10 com o operador convencional e adjunto são mostradas, respectivamente, nas figuras 3.47 e Novamente, pela comparação com o dado observado (Figura 3.24), observa-se a vantagem de se utilizar operadores adjuntos na LSM. Ao contrário do observado com o modelo simples, as curvas de convergência não se sobrepuseram, mostrando uma grande diferença entre as duas metodologias aplicadas quando o L-BFGS é utilizado (Figura 3.49). Isto confirma a influência do modelo utilizado nos testes efetuados, onde o operador RTM convencional teve convergência marcadamente inferior ao operador adjunto.

86 75 Figura 3.47: Dado predito a partir do modelo invertido na iteração de número 10 com o operador convencional na LSM utilizando o L-BFGS. Figura 3.48: Dado predito a partir do modelo invertido na iteração de número 10 com o operador adjunto na LSM utilizando o L-BFGS. Observa-se, também, que as taxas de convergência para o operador convencional estagnase em volta de 0.25% de redução do erro quadrático. Isto ocorre devido à condição de decrescimento suficiente imposta ao comprimento do passo para o método L-BFGS. Para satisfazer as condições de decrescimento suficiente, os comprimentos de passo utilizados na LSM com o operador convencional foram reduzidos até α = 0.25, afetando a eficiência do L-BFGS. O tamanho do passo, como dito anteriormente, é tão importante quanto a qualidade do gradiente estimado e da direção a ser utilizada na inversão. Utilizar o comprimento de passo constante e igual a 1, apesar de ideal, resultaria na divergência do processo de inversão. Espera-se que a imposição das condições de Wolfe completas (decrescimento suficiente e condição de

87 76 curvatura), normalmente utilizadas em problemas não lineares, melhorem as taxas de convergência observadas. Isto implica em mudanças no custo computacional do método, o qual potencialmente se tornará mais lento. (a) (b) Figura 3.49: Curvas de convergência (a) dos resíduos e (b) do erro do modelo para a LSM utilizando o operador adjunto (linha azul) e o operador convencional (linha vermelha) no L-BFGS. 3.6 Sobre a influência dos operadores A migração por mínimos quadrados requer que se conheça a atuação do operador direto (L) e do operador adjunto (L T ) sobre vetores (Hansen, 2010). Comprova-se que uma subrotina é adjunta à outra sub-rotina por meio do teste do produto interno (Claerbout e Green, 2008). Conhecer o operador adjunto ao operador direto é importante para, por exemplo, o cálculo do gradiente da função objetivo, que é dado pela equação 2.13, ou seja J = L T r, sendo interpretada como a migração dos resíduos entre os dados observado e calculado. Esta interpretação é baseada na definição de que um operador de migração pode ser entendido como adjunto a um operador de modelagem (Claerbout, 1992). Outra interpretação é que o operador L T projeta os resíduos no espaço do modelo (Claerbout, 2008). Desta forma, o gradiente seria a correção necessária ao modelo para que os resíduos calculados entre os dados observado e calculado sejam atenuados. Em termos de imageamento, a migração dos resíduos resulta nos artefatos de migração, os quais se deseja remover. Entretanto, precisa-se garantir que a projeção dos resíduos no espaço do modelo seja feita da maneira mais precisa possível. Em outras palavras, a sub-rotina que realiza o produto L T r deve, realmente, realizar este produto. Caso a subrotina utilizada não passe no teste do produto interno, não se pode

88 77 garantir que a mesma represente o produto L T r, mas talvez uma aproximação para este. Desta forma, uma subrotina que não passa no teste produto interno deve calcular Gr L T r, (3.6) indicando que G L T, onde G representa a subrotina que não passa no teste do produto interno. O gradiente estimado através do produto Gr é, portanto, uma aproximação do gradiente estimado pela equação Então, a correção a ser aplicada ao modelo não será tão precisa o quanto poderia ser, para o caso de subrotinas que não passam no teste do produto interno. Portanto, mais correções serão necessárias para que um bom nível de precisão seja alcançado, prejudicando a eficiência dos métodos de inversão baseados no cálculo do gradiente, como os utilizados neste trabalho. Uma análise dos gradientes estimados pelos operadores convencional e adjunto pode ilustrar esta diferença. Utilizaram-se os gradientes calculados com o método do gradiente aplicado ao modelo simples. Escolhe-se o método do gradiente por este não aplicar nenhuma forma de correção ao gradiente utilizado na otimização das soluções, como fazem os métodos dos gradientes conjugados e o L-BFGS. Em relação ao modelo, escolhe-se aquele mais simples para a melhor visualização dos resutlados. As Figuras 3.50 e 3.51 mostram os gradientes obtidos na LSM com os operadores RTM convencional e adjunto exato, respectivamente, no método do gradiente para as iterações de número 2 e 10. (a) (b) Figura 3.50: Gradientes obtidos com o operador RTM convencional após (a) 2 e (b) 10 iterações

89 78 (a) (b) Figura 3.51: Gradientes obtidos com o operador RTM adjunto exato após (a) 2 e (b) 10 iterações. As diferenças entre imagens são claras. Por exemplo, o gradiente obtido com o operador RTM convencional na iteração de número 2 mais se assemelha à seção migrada com o operador convencional, como mostra o comparativo na Figura Em contra-partida, o gradiente obtido com o operador adjunto contém os artefatos de migração inseridos pelo operador (Figura 3.53). Isto significa que subtrair estas estruturas da seção migrada resulta em uma seção mais limpa, ou seja, otimizada. Seguindo a mesma linha de raciocínio, subtratir o gradiente obtido com o operador convencional também resulta na atenuação de artefatos de migração. Entretanto, esta atenuação não é tão efetiva quanto aquela obtida com o operador adjunto. Já que todos os métodos iterativos estudados neste trabalho fazem uso das informações de primeira ordem da função objetivo, obtê-las com boa precisão se torna ponto fundamental ao bom funcionamento da migração por mínimos quadrados. Em especial, o L-BFGS utiliza as informações dos gradientes obtidos nas iterações anteriores para construir informações de segunda ordem. Portanto, a confiabilidade da aproximação da inversa da matriz Hessiana utilizada no L-BFGS depende dos gradientes estimados anteriormente. Uma vez que os gradientes não são computados de maneira precisa, o cálculo da aproximação da matriz Hessiana também estará comprometido. Desta forma, a direção a ser seguida a cada iteração, apesar de descendente, deve apontar para pontos errôneos, o que pode causar a divergência do método. Evita-se a divergência do L-BFGS com o emprego das condições de Wolfe. Portanto, para melhor convergir à solução do problema, indica-se a utilização do operador adjunto na técnica LSM.

Exibir mais