Notas de Aula. Álgebra Linear Numérica
|
|
|
- João Henrique Brandt Aveiro
- 9 Há anos
- Visualizações:
Transcrição
1 Notas de Aula Álgebra Linear Numérica Rodney Josué Biezuner 1 Departamento de Matemática Instituto de Ciências Exatas ICEx) Universidade Federal de Minas Gerais UFMG) Notas de aula da disciplina Álgebra Linear Numérica do Curso de Graduação em Matemática Computacional, ministrado durante o segundo semestre do ano de de novembro de rodney@matufmgbr; homepage: rodney
2 Sumário 0 Introdução: Representação de Números Reais no Computador 3 01 Ponto Flutuante 3 02 Erros de Arredondamento 5 03 O Padrão de Ponto Flutuante IEEE Números normalizados Números denormalizados Outros valores numéricos 6 1 Matrizes Esparsas 7 11 Problema Modelo Problema de Poisson Unidimensional Problema de Poisson Bidimensional 8 12 Matrizes Esparsas Implementação Computacional de Matrizes Esparsas 11 2 Invertibilidade de Matrizes Esparsas Normas Matriciais Matrizes Diagonalmente Dominantes Teorema dos Discos de Gershgorin Propriedade FC Matrizes Irredutíveis Exercícios 29 3 Métodos Iterativos Lineares Método Iterativos Básicos Método de Jacobi Método de Gauss-Seidel Método SOR Comparação da Velocidade de Convergência dos Três Métodos no Problema Modelo Método de Jacobi Amortecido Análise de Convergência dos Métodos Iterativos Lineares Convergência dos Métodos Iterativos Lineares Velocidade de Convergência dos Métodos Iterativos Lineares Convergência para Matrizes Simétricas Positivas Definidas Convergência dos Métodos Iterativos Lineares para Matrizes de Discretização Convergência do Método de Jacobi Convergência do Método de Gauss-Seidel Convergência do Método SOR Convergência do Método de Jacobi Amortecido Resumo 61 1
3 Rodney Josué Biezuner 2 34 Exercícios 61 4 Métodos de Projeção Teoria Geral Representação Matricial Minimização de Funcionais Estimativa do Erro em Métodos de Projeção Caso Unidimensional: Métodos de Descida Métodos de Descida Método da Descida Mais Acentuada Exercícios 72 5 Métodos de Subespaços de Krylov Motivação Subespaços de Krylov Algoritmo de Arnoldi Implementação Prática: Métodos de Ortogonalização Estáveis Método de Gram-Schmidt Modificado MGS) Método de Gram-Schmidt Modificado com Reortogonalização MGSR) Método de Arnoldi para Sistemas Lineares Decomposição QR via MGS Algoritmo de Lanczos e Método do Gradiente Conjugado Método do Gradiente Conjugado como um Método de Descida Convergência do Método do Gradiente Conjugado em Aritmética Exata Velocidade de Convergência do Método do Gradiente Conjugado Polinômios de Chebyshev Velocidade de Convergência do CG Exercícios O Problema do Autovalor Caracterização Variacional dos Autovalores de uma Matriz Simétrica: Quociente de Rayleigh Método das Potências Método das Potências Inverso Método das Potências com Deslocamento Iteração do Quociente de Rayleigh Algoritmo QR Redução de uma matriz a sua forma de Hessenberg Aceleração do algoritmo QR Implementação prática do algoritmo QR Iteração de subespaços e iteração simultânea Equivalência entre o Algoritmo QR e Iteração Simultânea Convergência do Algoritmo QR Método de Arnoldi e Algoritmo de Lanczos O Problema de Autovalor Simétrico Exercícios 121
4 Capítulo 0 Introdução: Representação de Números Reais no Computador Computadores digitais usam um número finito de bits para representar um número real, portanto eles podem representar apenas um subconjunto finito dos números reais, o que leva a dois tipos diferentes de limitações: 1) números representados não podem ser arbitrariamente grandes ou arbitrariamente pequenos; 2) existem lacunas entre os numéros representados Estas limitações físicas levam respectivamente aos erros de overflow e underflow e aos erros de arredondamento Para discutir estes erros de maneira inteligente, introduzimos alguma terminologia 01 Definição Definimos o erro absoluto causado por uma computação por Erro absoluto = valor calculado) valor exato) O erro relativo causado por uma computação é definido por Erro relativo = erro absoluto valor exato O erro relativo permite comparar entre os erros cometidos de maneira significativa Por exemplo, o erro absoluto entre 1 valor exato) e 2 valor calculado) e o erro absoluto entre valor exato) e valor calculado) são os mesmos No entanto, o erro relativo no primeiro caso é 1, enquanto que o erro relativo no segundo caso é 10 6, expressando o fato intuitivo que o erro cometido no primeiro caso é muito maior que o erro cometido no segundo caso Às vezes o erro relativo é expresso como uma porcentagem: Erro percentual = [erro relativo) 100] % Assim, o erro percentual no primeiro caso é 100%, enquanto que o erro percentual no segundo caso é 10 4 = 0, 0001% 01 Ponto Flutuante Na Matemática Pura, os números reais são infinitos, infinitamente grandes e infinitamente pequenos Não existe um número maior ou um número menor Além disso, eles também são continuamente distribuídos: não existem espaços entre números reais, pois entre quaisquer dois números reais sempre existe outro número real Mais que isso, eles são distribuídos uniformemente na reta real Um número real é infinitamente preciso: 3
5 Rodney Josué Biezuner 4 os números depois do ponto decimal são infinitos incluindo o 0) Em outras palavras, usando a base 10, números reais correspondem a séries da forma a = a 0 + onde a 0 Z e a n {0, 1, 2, 3, 4, 5, 6, 7, 8, 9} O padrão para representar números reais em Matemática Computacional é o número de ponto flutuante Números de ponto flutuante não são infinitos: existe um número de ponto flutuante máximo e um número de ponto flutuante mínimo Existe um número fixado de pontos flutuantes, logo existem espaços entre eles Números de ponto flutuante de precisão simples tipo float) tem aproximadamente 8 dígitos decimais significantes, enquanto que números de ponto flutuante de precisão dupla tipo double) tem aproximadamente 17 dígitos decimais significantes O qualificativo aproximadamente se refere ao fato que os números de ponto flutuante são armazenados no computador na base binária, logo a conversão da base binária para a base decimal introduz alguma imprecisão Um número de ponto flutuante é armazenado internamente em duas partes: um significando e um expoente, semelhante à notação científica Esta escolha de representação garante que a distribuição dos valores representados em ponto flutuante não será uniforme Para entender isso, vamos assumir que o significando é limitado a um único dígito decimal e que o expoente é restrito aos valores 1, 0, 1 A tabela abaixo registra todos os números reais positivos que podemos representar: n=1 a n 10 n = 0, = = = 0, = = = 0, = = = 0, = = = 0, = = = 0, = = = 0, = = = 0, = = = 0, = = 90 O fato do espaço entre os valores em ponto flutuante aumentar em proporção ao tamanho dos números é que justifica o nome ponto flutuante Uma representação em que os espaços entre os valores representados tem um tamanho fixo é chamada uma representação em ponto fixo 02 Definição Definimos a precisão de um ponto flutuante como sendo o número de dígitos significativos que ele possui em seu significando A exatidão de um ponto flutuante é a sua aproximação do valor exato Quanto mais dígitos significativos um ponto flutuante possui, mais preciso ele é: o double é uma representação mais precisa do número real 1/3 do que o float Por outro lado, o float é uma representação mais exata de 1/3 do que o double , apesar deste ser um ponto flutuante mais preciso, porque a maioria dos seus dígitos significativos estão errados Os erros computacionais tais como os erros de cancelamento e arredondamento afetam a exatidão de um valor em ponto flutuante Aumentar a precisão de float para double tem o potencial de aumentar a exatidão, mas não a garante
6 Rodney Josué Biezuner 5 02 Erros de Arredondamento Quando um valor computado está entre dois valores representáveis, ele será substituído pelo valor representado mais próximo Esta é a origem dos erros de arredondamento 03 Definição Definimos o erro de arredondamento por Erro de arredondamento = valor representado) valor exato) 04 Definição Um erro de cancelamento é um erro de arredondamento que ocorre quando a maioria dos dígitos significativos são perdidos durante a subtração de dois valores aproximadamente iguais 03 O Padrão de Ponto Flutuante IEEE 754 Antes do padrão IEEE 754 ser publicado em 1985, existiam muitos formatos de ponto flutuante implementados em hardware e software, o que dificultava a portabilidade dos programas Os resultados obtidos variavam de uma máquina para outra Atualmente, a maioria dos fabricadores aderem ao padrão IEEE 754, fruto de uma cooperação histórica entre cientistas de computação e desenhistas de chips de microprocessadores A sigla IEEE significa Institute of Electrical and Electronics Engineers Os formatos de precisão aritmética simples float e dupla double são armazenados em 32 bits e 64 bits, respectivamente Cada formato divide um número em três partes: sinal um bit), expoente e fração Os dois formatos diferem quanto ao número de bits alocados para o expoente e para a fração No formato float 8 bits são alocados para o expoente e 23 para a fração, enquanto que no formato double 11 bits são alocados para o expoente e 52 para a fração O bit de sinal representa o sinal do número: 0 para positivo e 1 para negativo O expoente não possui sinal: para representar expoentes negativos, o padrão adiciona um viés positivo; para obter o valor verdadeiro do expoente sem viés), é necessário subtrair o viés No formato de precisão simples, o expoente com 8 bits pode armazenar valores com viés) entre 0 e 255, mas 0 e 255 são reservados; o viés é 127, de modo que os valores verdadeiros sem viés) do expoente variam entre 126 e +127 No formato de precisão dupla, o expoente com 11 bits pode armazenar valores com viés) entre 0 e 2047, com 0 e 2047 são reservados; o viés é 1023, de modo que os valores verdadeiros sem viés) do expoente variam entre 1022 e Números normalizados Representemos por s o sinal, e o expoente e f a fração Quando e não é um valor reservado isto é, 1 e 254 no formato float e 1 e 2047 no formato double) existe um algarismo 1 e um ponto binário implícitos à esquerda do primeiro bit de f, de modo que o número representado por s, e, f é o número n = 1) s 1f) 2 E onde E = e 127 float) ou E = e 1023 double), chamado um número normalizado O algarismo 1 e o ponto binário implícitos, juntamente com a parte fracionária f, constituem o significando do número, de modo que um número de precisão simples possui 24 bits no seu significando, enquanto que um número de precisão dupla possui 53 bits no seu significando Assim, o maior valor possível em módulo para float corresponde a s = 1, e = 254 e f = , ou seja, 23 i=0 1 2 i , ,
7 Rodney Josué Biezuner 6 enquanto que o maior valor possível em módulo para double corresponde a s = 0, e = 2047 e f = , ou seja, 52 i=0 1 2 i , Números denormalizados Se e = 0 um dos valores reservados) e f 0, nós temos o que se chama um número denormalizado ou subnormal) Existe um algarismo 0 e um ponto binário implícitos à esquerda do primeiro bit de f, de modo que o número representado por s, e, f é o número n = 1) s 0f) 2 E onde E = 126 float) ou E = 1022 double) Assim, o menor valor possível em módulo para float corresponde a s = 0, e = 0 e f = , ou seja, , , um pouco menor do que o menor valor possível = 1, para um float normalizado, correspondente a s = 0, e = 1 e f = O menor valor possível em módulo para double corresponde a s = 0, e = 0 e f = , ou seja, , um pouco menor do que o menor valor possível , para um double normalizado, correspondente a s = 0, e = 1 e f = A existência dos números denormalizados permitem uma convergência para zero menos abrupta Quando os valores computados vão se tornando menores e menores, atingindo o menor valor possível para um float ou double normalizado, ao invés de caírem abruptamente para zero na próxima iteração, eles são convertidos em números denormalizados No entanto, o espaço entre números representados no intervalo [1, 2] é igual a ; em geral, no intervalo [ 2 j, 2 j+1] o espaço é 2 j 2 52, de modo que o espaço relativo nunca excede Outros valores numéricos Se e = f = 0, o valor numérico é 0 ou +0, dependendo de s Se f = 0 e e = 255 para float ou se e = 2047 para double, então o valor numérico é Infinity ou +Infinity Se f 0 e e = 255 para float ou se e = 2047 para double, então independentemente do valor de 0 nós temos NaN Not a Number) Por exemplo, dividindo 0 por 0 resulta em NaN Em geral, no padrão IEEE 754 uma operação inválida produz NaN, divisão por zero produz ±Infinity, overflow produz o maior número normalizado possível ou ±Infinity e underflow produz ±0, o menor número normalizado possível ou um número denormalizado
8 Capítulo 1 Matrizes Esparsas Matrizes esparsas são matrizes onde a imensa maioria das entradas são nulas Esta é uma definição vaga Não existe um limite inferior para o número de zeros em uma matriz, em relação ao tamanho desta, a partir do qual podemos declarar uma matriz com sendo esparsa Isto é, não existe um limite preciso a partir do qual uma matriz deixa de ser esparsa e se torna uma matriz densa isto é, uma matriz em que o número de zeros é irrelevante) Em geral, matrizes esparsas são definidas operacionalmente, no sentido de que uma matriz pode ser chamada esparsa, sempre que técnicas especiais podem ser usadas para tirar vantagem do grande número de zeros e sua localização Equações diferenciais parciais são a maior fonte de problemas de álgebra linear numérica envolvendo matrizes esparsas Engenheiros elétricos lidando com redes elétricas nos anos 1960s foram os primeiros a explorar a esparcidade das matrizes de coeficientes associadas aos problemas tratados para resolver sistemas lineares Como os computadores tinham pouca capacidade de armazenamento e poder de processamento, e os problemas envolviam um número enorme de variáveis, métodos de solução direta que tiram vantagem da existência de um número muito grande de zeros tiveram que ser desenvolvidos 11 Problema Modelo Como fonte de matrizes esparsas, consideraremos o problema de resolver a equação de Poisson com condição de Dirichlet discretizada através de diferenças finitas em uma e duas dimensões, que fornece uma matriz esparsa simétrica 111 Problema de Poisson Unidimensional Considere o problema de Dirichlet para a equação de Poisson no intervalo unitário I = 0, 1): { u = f x) se 0 < x < 1, u 0) = a, u 1) = b Seja h > 0 As expansões de Taylor para uma função u à direita e à esquerda de um ponto x 0 são dadas respectivamente por e Se somarmos estas duas equações, obtemos ux 0 + h) = ux 0 ) + u x 0 )h + 1 2! u x 0 )h ! u x 0 )h 3 +, ux 0 h) = ux 0 ) u x 0 )h + 1 2! u x 0 )h 2 1 3! u x 0 )h 3 + u x 0 ) = ux 0 h) 2ux 0 ) + ux 0 + h) h 2 2 4! u4) x 0 )h 2 2 5! u6) x 0 )h 4, 7 11)
9 Rodney Josué Biezuner 8 o que fornece uma aproximação para a derivada segunda u x 0 ) de u em x 0 : com erro u x 0 ) ux 0 h) 2ux 0 ) + ux 0 + h) h 2 ɛ = 1 12 u4) ξ)h 2 = Oh 2 ), onde x 0 h ξ x 0 + h Esta aproximação é chamada uma diferença centrada para a derivada segunda Divida o intervalo [0, 1] em n subintervalos de comprimento h = 1/n através de n 1 pontos interiores uniformemente espaçados: x 0 = 0, x 1 = h, x 2 = 2h,, x n 1 = n 1) h, x n = nh = 1, de modo que [0, 1] = [x 0, x 1 ] [x 1, x 2 ] [x n 1, x n ] Introduzimos a notação: u i = ux i ), f i = f x i ) Esta é uma discretização uniforme do intervalo [0, 1] Uma vez discretizado o domínio da equação diferencial parcial, procedemos à discretização desta última Usando diferenças centradas para cada ponto interior x i, 1 i n 1, temos u i 1 + 2u i u i+1 h 2 = f i 12) Esta discretização em diferenças finitas para a equação de Poisson é chamada fórmula dos três pontos Portanto, para encontrar a solução discretizada temos que resolver o sistema linear com n 1 equações a n 1 incógnitas: h 2 2u 1 u 2 ) = f 1 + ah 2 h 2 u 1 + 2u 2 u 3 ) = f 2, ou seja, 1 h 2 h 2 u n 3 + 2u n 2 u n 1 ) = f n 2 h 2 u n 2 + 2u n 1 ) = f n 1 + bh Esta é uma matriz tridiagonal, simétrica e esparsa 112 Problema de Poisson Bidimensional u 1 u 2 u n 2 u n 1 = f 1 + ah 2 f 2 f n 2 f n 1 + bh 2 Considere o problema de Dirichlet homogêneo para a equação de Poisson no quadrado unitário Ω = 0, 1) 0, 1) { u = f x, y) em Ω, 13) u = 0 sobre Ω Discretizamos o quadrado Ω através dos pontos x i, y j ) = ih, jh), 0 i, j n,
10 Rodney Josué Biezuner 9 onde h = 1 n, produzindo a malha ou gride) uniforme Ω d = { x, y) Ω : x = i x, y = j y, 0 i, j n } A malha dos pontos interiores é dada por Ω d = {x, y) Ω : x = i x, y = j y, 1 i, j n 1}, enquanto que a fronteira discretizada é o conjunto Ω d = {x, y) Ω : x = i x, y = j y, 0 i n, 0 j m} A equação de Poisson pode ser agora discretizada Denotamos u xx u yy = f x, y) u i,j = u x i, y j ), f i,j = f x i, y j ) Aproximamos cada derivada parcial de segunda ordem pela sua diferença centrada, obtendo u xx u i 1,j + 2u i,j u i+1,j x 2, u yy u i,j 1 + 2u i,j u i,j+1 y 2 Portanto, a equação de Poisson discretizada toma a forma u i 1,j u i,j 1 + 4u i,j u i+1,j u i,j+1 h 2 = f i,j 14) Como a função u é calculada em cinco pontos, esta discretização em diferenças finitas para a equação de Poisson é chamada a fórmula dos cinco pontos Para cada ponto interior da malha obtemos uma equação, logo temos um sistema linear de n 1) 2 equações com o mesmo número de incógnitas Diferente do caso unidimensional, no entanto, não existe uma maneira natural de ordenar os pontos da malha, logo não podemos obter imediatamente uma representação matricial para o problema discretizado Precisamos antes escolher uma ordenação para os pontos da malha, e como existem várias ordenações possíveis, existem várias matrizes associadas Talvez a mais simples ordenação é a ordem lexicográfica Nesta ordem, os pontos da malha são percorridos linha por linha, da esquerda para a direita, de baixo para cima: u 1,1, u 2,1,, u n 1,1, u 1,2, u 2,2,, u n 1,2,, u 1,m 1, u 2,m 1,, u n 1,m 1 Neste caso, a matriz associada ao sistema linear é uma matriz n 1) 2 n 1) 2 que pode ser escrita como uma matriz de n 1) 2 blocos de dimensão n 1) n 1) na forma B I I B I A = 1 I h 2 I I B I I B n 1) n 1)
11 Rodney Josué Biezuner 10 onde I é a matriz identidade n 1) n 1) e B é a matriz n 1) n 1) dada por Observe que B = para todo 1 i n 1) 2, enquanto que a ii = 4 a ij = 1 n 1) n 1) se o ponto j é vizinho à esquerda ou à direita do ponto i, ou se o ponto j é vizinho acima ou abaixo do ponto i Por exemplo, se n = 4, temos A = h Observe que a matriz A é uma matriz simétrica, pentadiagonal e esparsa 12 Matrizes Esparsas Outros problemas de EDPs, especialmente aqueles envolvendo derivadas primeiras tais como problemas de convecção-difusão), em geral levam a matrizes não-simétricas Discretizações de outros tipos, tais como as encontradas em elementos finitos, levam a matrizes esparsas com outro tipo de estrutura De qualquer modo, todos possuem em comum o fato de a matriz de discretização ser uma matriz esparsa Existem essencialmente dois tipos de matrizes esparsas: estruturadas e não-estruturadas Uma matriz estruturada é uma em que as entradas não-nulas formam um padrão regular, frequentemente ao longo de um número pequeno de diagonais tais como as matrizes que vimos no problema modelo na seção anterior) Os elementos não-nulos podem também estar organizados em blocos submatrizes densas) de mesmo tamanho, organizadas ao longo de um número pequeno de blocos diagonais Discretizações através de diferenças finitas tipicamente dão origem a matrizes esparsas com estruturas regulares Uma matriz esparsa em que as entradas não-nulas são irregularmente localizadas é uma matriz esparsa irregularmente estruturada Os métodos de volumes finitos ou elementos finitos aplicados a domínios com geometria complexa em geral levam matrizes irregularmente estruturadas Esta distinção não afeta em geral métodos de solução direta mas é muito importante para os métodos de solução iterativos Neste últimos, uma das operações básicas essenciais é a do produto de uma matriz por um vetor
12 Rodney Josué Biezuner Implementação Computacional de Matrizes Esparsas Para tirar vantagem do grande número de elementos nulos, esquemas especiais são necessários para armazenar matrizes esparsas na memória do computador O principal objetivo é representar apenas os elementos nãonulos O esquema mais simples de armazenamento é o chamado formato de coordenadas A estrutura de dados consiste de três vetores arrays): um vetor real contendo os valores e dois vetores inteiros, um deles contendo os índices das linhas, enquanto que o outro contém os índices das colunas 11 Exemplo A matriz pode ser representada por A = valuearray = , rowindexarray = , columnindexarray = Cada vetor tem comprimento igual ao número de elementos não-nulos da matriz elementos são listados em ordem arbitrária Observe que os Provavelmente, o formato mais popular para armazenar matrizes esparsas gerais é o formato compressed row storage CRS) Neste esquema, as linhas da matriz são armazenadas uma a uma em um vetor real, da primeira até a última, preservando a ordem Um segundo vetor inteiro contendo os índices das colunas é usado Um terceiro vetor inteiro contém a posição no vetor de valores reais ou no vetor de índices de coluna onde cada linha começa, mais um elemento para indicar a primeira posição vazia dos dois vetores 12 Exemplo A matriz A = pode ser representada no formato CSR por valuearray = , columindexarray = , rowpointerarray = Enquanto o comprimento dos dois primeiros vetores é igual ao número de elementos não-nulos da matriz, o comprimento do terceiro vetor é igual ao número de linhas da matriz mais um Dentro de cada linha os elementos ainda podem ser armazenados em ordem arbitrária, o que pode ser muito conveniente Este esquema é o preferido pois é o mais útil para realizar as computações típicas, tais como multiplicação da matriz por vetores Em CRS, a multiplicação matriz-vetor pode ser implementada da seguinte forma em
13 Rodney Josué Biezuner 12 C/C++ ou Java): for int i = 0; i < n; i++ ) { lowerindex = rowpointerarray[i]; upperindex = rowpointerarray[i+1]; //loop over row i for int j = lowerindex; j < upperindex; j++ ) Av[i] += valuearray[j]* v[columarray[j]]; } Um esquema correspondente, armazenando colunas ao invés de linhas é o compressed column storage CCS), usado no Octave Os esquemas considerados acima são chamados estáticos Esquemas dinâmicos, envolvendo listas encadeadas, em geral economizam ainda mais memória e tem acesso ainda mais rápido à memória Cada linha da matriz pode ser representada por uma lista encadeada A matriz toda é representada por uma lista de listas encadeadas, seguindo a ordem de linhas da matriz Desta forma, o início de cada linha não precisa ser representado O índice da coluna de cada elemento da linha ainda precisa ser representado, é claro, e isso pode ser feito através de um ponteiro específico Outras esquemas podem ser utilizados, tirando vantagem da estrutura da matriz esparsa Por exemplo, em matrizes diagonais as diagonais não-nulas podem ser armazenadas separadamente Em matrizes simétricas, é necessário armazenar apenas os elementos da diagonal principal e da parte triangular superior ou inferior) da matriz, mas isso em geral implica em algoritmos mais complicados para fazer operações com a matriz
14 Capítulo 2 Invertibilidade de Matrizes Esparsas Neste capítulo desenvolveremos métodos gerais e fáceis de aplicar para determinar a invertibilidade de matrizes esparsas, principalmente aquelas que surgem através da discretização de equações diferenciais parciais através de diferenças finitas Em particular, isso implicará a existência e unicidade de soluções para sistemas lineares envolvendo tais matrizes Uma vez que isso esteja estabelecido, poderemos nos dedicar nos próximos capítulos a estudar métodos iterativos para encontrar estas soluções 21 Normas Matriciais Lembramos o conceito de norma vetorial: 21 Definição Seja V um espaço vetorial real ou complexo Uma norma vetorial em V é uma função : V R que satisfaz as seguintes propriedades: i) x > 0 para todo x 0 e x = 0 se x = 0; ii) αx = α x para todo x V e para todo α R; iii) Desigualdade Triangular) x + y x + y para todos x, y V Denotaremos por M n R) o espaço vetorial das matrizes complexas n n e por M n C) o espaço vetorial das matrizes complexas n n Quando estivermos nos referindo a qualquer um destes espaços ou seja, quando a afirmação que fizermos valer para qualquer um deles), usaremos a notação M n simplesmente 22 Definição Uma norma matricial no espaço vetorial M n é uma norma vetorial : M n R que satisfaz a propriedade submultiplicativa para todas as matrizes A, B M n AB A B 21) A seguir, veremos alguns exemplos das normas matriciais mais importantes em M n A verificação de que as normas apresentadas constituem normas vetoriais é deixada como exercício Exercício 21) 23 Exemplo Norma l 1 norma da soma): A 1 = a ij 22) i,j=1 13
15 Rodney Josué Biezuner 14 De fato, AB 1 = a ik b kj i,j=1 k=1 i,j,k=1 24 Exemplo Norma l 2 norma euclidiana): Com efeito, AB 2 2 = n i,j=1 2 a ik b kj k=1 a ik b kj A 2 = i,j,k,l=1 a ij 2 i,j=1 a ik b lj = 1/2 n ) n ) a ik 2 b lj 2 = i,j=1 k=1 l=1 a ik i,k=1 b lj = A 1 B 1 j,l=1 23) a ik 2 i,k=1 b lj 2 = A 2 2 B 2 2 A norma l 2 também é chamada mais raramente e somente para matrizes) norma de Schur, norma de Frobenius ou norma de Hilbert-Schmidt 25 Exemplo Normas l p : De modo geral, dado p 1, definimos a norma matricial A p = a ij p i,j=1 26 Exemplo Norma l modificada norma do máximo modificada): A norma l norma do máximo) A = 1/p max 1 i,j n a ij é uma norma vetorial em M n mas não é uma norma matricial: por exemplo, se [ ] 1 1 A =, 1 1 então A 2 = [ e portanto A 2 = 2 > 1 = A A ] j,l=1 24) No entanto, um múltiplo escalar desta norma vetorial é uma norma matricial: A n = n max a ij 25) 1 i,j n Com efeito, AB n = n max 1 i,j n a ik b kj n k=1 max 1 i,j n k=1 a ik b kj n max = n n A B ) = n A n B = AB n 1 i,j n k=1 A B
16 Rodney Josué Biezuner Exemplo Norma do operador: Dada uma norma vetorial em R n ou C n, ela induz uma norma matricial através da definição Ax A = max Ax = max Ax = sup x =1 x 1 x 0 x 26) Aqui vemos A como um operador linear em R n ou C n, portanto contínuo, de modo que o máximo de A é atingido na esfera e na bola fechada Para ver que a primeira e a terceira definições coincidem de modo que o sup na terceira definição é de fato um máximo), use o fato que Agora observe que Ax x ) = x A x max Ax max Ax, x =1 x 1 já que a bola fechada contém a esfera Por outro lado, se x = ε < 1, segue que ) x A = Ax = Ax > Ax, x x ε de modo que o máximo de Ax não é atingido no interior da bola, logo max Ax max Ax x =1 x 1 e portanto a primeira e a segunda definições coincidem Finalmente, para ver que a norma do operador é uma norma matricial, escreva ) ABx ABx Bx ABx Bx Ay Bx AB = max = max max max max max = A B x 0 x x 0 Bx x Bx 0 Bx x 0 x y 0 y x 0 x A norma do operador satisfaz a propriedade extremamente útil para todo vetor x R n ou C n 28 Exemplo Norma do máximo das somas das linhas: Ax A x 27) A L = max 1 i n j=1 a ij 28) Esta norma é a norma do operador induzida pela norma vetorial l De fato, se x = x 1,, x n ), temos Ax = max 1 i n a ij x j max a ij x j max a ij x 1 i n 1 i n = A L x, de modo que j=1 j=1 max Ax A L x =1 Supondo que a i-ésima linha de A é não-nula, definimos o vetor y = y 1,, y n ) C n por a ij se a ij 0, y i = a ij, 1 se a ij = 0 j=1
17 Rodney Josué Biezuner 16 o que implica y = 1, a ij y j = a ij e max Ax Ay = max x =1 1 i n a ij y j = max 29 Exemplo Norma do máximo das somas das colunas: j=1 A C = max 1 j n 1 i n j=1 a ij = A L a ij 29) Esta norma é a norma do operador induzida pela norma vetorial l 1 De fato, escrevendo A em termos de suas colunas A = [A 1 A n ] segue que Se x = x 1,, x n ), segue que donde Ax 1 = x 1 A x n A n 1 A C = max 1 j n A j 1 x i A i 1 = n = A C x i = A C x 1, x i A i 1 max Ax 1 A C x 1 =1 Agora, se escolhermos y j = e j, temos que y j 1 = 1 e x i max 1 j n A j 1 Ay 1 = A j 1 para todo k, logo max Ax 1 max Ay j x 1 =1 1 j n 1 = max A j 1 j n 1 = A C 210 Exemplo p-normas: Este é o nome geral para as normas do operador induzidas pela norma vetorial l p em R n ou C n Para distingui-las das normas matriciais l p no próprio espaço vetorial M n, vamos denotá-las por Ax p A p = sup x 0 x p O caso especial da norma do operador induzida pela norma vetorial l 2 a norma vetorial euclidiana) é também chamada a norma espectral e satisfaz A 2 = { } λ max = max λ : λ é um autovalor de A A
18 Rodney Josué Biezuner 17 De fato, A A é uma matriz hermitiana logo todos os seus autovalores são não-negativos Pela caracterização variacional dos autovalores de uma matriz hermitiana temos λ max = max x 0 A Ax, x 2 x 2 2 = max x 0 Ax 2 2 x 2 2 Observe que a 2-norma é diferente da norma matricial l 2 Exercício 23) Note também que se A é uma matriz hermitiana, então A A = A 2 e A 2 é portanto o módulo do maior autovalor de A, isto é, a norma espectral de A é o raio espectral de A, definido como sendo o maior valor absoluto dos autovalores λ 1,, λ n de A: ρ A) = max λ i,,,n 211 Exemplo Norma induzida por uma matriz invertível: Se é uma norma matricial qualquer e se S é uma matriz invertível, então define uma norma matricial Com efeito, A S = S 1 AS 210) AB S = S 1 ABS = S 1 ASS 1 BS S 1 AS S 1 BS = A S B S Lembramos que todas as normas em um espaço vetorial de dimensão finita são equivalentes, e isso vale em particular para normas matriciais: 212 Teorema Seja V um espaço vetorial real ou complexo de dimensão finita Então todas as normas vetoriais em V são equivalentes, isto é, se 1 e 2 são duas normas vetoriais quaisquer em V, então existem constantes C 1, C 2 > 0 tais que e x 1 C 1 x 2 para todo x V x 2 C 2 x 1 Prova: Para mostrar a equivalência entre todas as normas de um espaço vetorial, por transitividade basta fixar uma norma 1 e mostrar que qualquer norma arbitrária 2 é equivalente a 1 Seja B = {e 1,, e n } uma base para V, de modo que todo vetor x V se escreve na forma x = x i e i e defina 1 como sendo a norma l 1 em relação a esta base: x 1 = x i
19 Rodney Josué Biezuner 18 Então, se 2 é uma norma qualquer em V, segue da desigualdade triangular que x 2 x i e i 2 = x i e i 2 ) max e n i,,n 2 x i = C 2 x 1, onde denotamos C 2 = max e i,,n 2 Para provar a desigualdade reversa, considere a esfera unitária na norma da soma S = {x V : x 1 = 1} A desigualdade anterior garante que a função x x 2 é contínua na topologia definida pela norma 1 e portanto assume um valor mínimo m no conjunto fechado e limitado compacto) S Necessariamente m > 0: se existisse e = n x i e i S tal que e 2 = 0, teríamos e = n x i e i = 0, contrariando o fato que {e 1,, e n } é um conjunto linearmente independente Portanto, x x m 1 2 para todo x V, x 0 Tomando C 1 = 1/m, segue que x 1 C 1 x 2 para todo x V 22 Matrizes Diagonalmente Dominantes 213 Definição Dizemos que uma matriz A n n é diagonalmente dominante se a ii a ij para todo i = 1,, n j=1 j i e estritamente diagonalmente dominante se a ii > a ij para todo i = 1,, n j=1 j i 214 Lema Seja A M n Se existe alguma norma matricial tal que I A < 1, então A é invertível Prova De fato, sob esta condição, afirmamos que a inversa é dada explicitamente pela série Para todo N N podemos escrever k=0 k=0 A 1 = I A) k 211) k=0 N N N N+1 A I A) k = [I I A)] I A) k = I A) k I A) k = I I A) N+1 Como é uma norma matricial, temos que I A) k I A k k=0 k=1
20 Rodney Josué Biezuner 19 Logo, de I A < 1 segue que lim I N A)N+1 = 0 Portanto, tomando o limite quando N, concluímos 211) 215 Corolário Se A M n é uma matriz singular e é uma norma matricial, então I A 1 Em particular, se é uma norma matricial, então I 1 Prova Para provar a segunda afirmação do enunciado, basta tomar A = Proposição Se A é uma matriz estritamente diagonalmente dominante, então A é invertível Prova Denote por D a matriz diagonal cujas entradas diagonais são as entradas diagonais de A Uma matriz estritamente diagonalmente dominante possui, por definição, entradas diagonais não-nulas, logo D é uma matriz invertível A matriz D 1 A tem apenas 1 s na diagonal principal e se mostramos que D 1 A é invertível, isto implicará que A é invertível Para provar isso, considere a matriz I D 1 A Temos I D 1 A ) ij = { 0 se i = j, a ij /a ii se i j Usemos a norma do máximo das somas das linhas Para cada 1 i n temos I D 1 A ) = a ij ij = 1 a ij < 1, a ii j=1 j=1 j i logo I D 1 A < 1 e o resultado segue do Lema 214 Às vezes, exigir dominância diagonal estrita em todas as linhas é pedir demais Para certas matrizes, dominância diagonal junto com dominância diagonal estrita em apenas uma linha é suficiente para garantir a sua invertibilidade As matrizes de discretização obtidas no capítulo anterior satisfazem esta condição nas linhas correspondentes à pontos adjacentes à fronteira), e nenhuma delas é estritamente diagonalmente dominante Por outro lado, vale a pena ressaltar que esta condição não é suficiente para estabelecer a invertibilidade de uma matriz em geral, como o exemplo demonstra 23 Teorema dos Discos de Gershgorin A primeira ferramenta teórica é o importante Teorema dos Discos de Gershgorin Ele decorre da seguinte observação: se A é uma matriz complexa n n, podemos sempre escrever A = D + B, onde D = diag a 11,, a nn ) é a matriz diagonal formada pela diagonal principal de A e B consiste dos elementos restantes de A, possuindo uma diagonal principal nula Se definirmos A ε = D + εb, então A 0 = D e A 1 = A Os autovalores de D são a 11,, a nn, enquanto que os autovalores de A ε devem estar localizados em vizinhanças dos pontos a 11,, a nn, desde que ε seja suficientemente pequeno O mesmo deve valer para os autovalores da matriz A: eles devem estar contidos em discos centrados nos elementos a 11,, a nn da diagonal principal se os discos são suficientemente grandes O Teorema de Gershgorin dá uma estimativa precisa e simples de calcular para os raios destes discos em função das entradas restantes da matriz A Denote o disco complexo fechado de centro em a e raio R por a ii j=1 j i D R a) = {z C : z a R}
21 Rodney Josué Biezuner Teorema Teorema dos Discos de Gershgorin) Se A M n C) e R i A) = a ij 212) denota a soma dos valores absolutos dos elementos da linha i de A excetuando o elemento da diagonal principal, então todos os autovalores de A estão contidos na união dos n discos de Gershgorin G A) = j=1 j i n D Ri A) a ii ) 213) Além disso, se uma união de k destes discos forma uma região que é disjunta dos n k discos restantes, então existem exatamente k autovalores de A nesta região Prova Seja λ um autovalor de A e x = x 1,, x n ) 0 um autovetor associado Seja k um índice tal que x k x j para j = 1,, n, isto é, x k é a coordenada de x de maior valor absoluto Denotando por Ax) k a k-ésima coordenada do vetor Ax = λx, temos λx k = Ax) k = a kj x j que é equivalente a Daí, ou seja, x k λ a kk a kj x j = j=1 j k x k λ a kk ) = j=1 j k j=1 a kj x j j=1 j k a kj x j x k a kj = x k R k A), λ a kk R k A) Isso prova o resultado principal do Teorema de Gershgorin como não sabemos qual k é apropriado para cada autovalor λ, e um mesmo k pode servir para vários autovalores λ, tudo o que podemos afirmar é que os autovalores estão na união dos discos) Para provar a segunda afirmação, escreva A = D + B, onde D = diag a 11,, a nn ) e defina para 0 t 1 Note que A t = D + tb j=1 j k R i A t ) = R i tb) = tr i A) Para simplificar a notação, assuma que a união dos primeiros k discos de Gershgorin satisfaz G k A) [G A) \G k A)] = Temos G k A) = k D RiA) a ii ) D RiA t) a ii ) = {z C : z a ii R i A t )} = {z C : z a ii tr i A)} D RiA) a ii ),
22 Rodney Josué Biezuner 21 logo, e G k A t ) G k A) G k A) [G A t ) \G k A t )] = para 0 t 1 Porque os autovalores são funções contínuas das entradas de uma matriz, o caminho λ i t) = λ i A t ) é um caminho contínuo que liga λ i A 0 ) = λ i D) = a ii a λ i A 1 ) = λ i A) Seja 1 i k Como λ i A t ) G k A t ) G k A), concluímos que para cada 0 t 1 existem k autovalores de A t em G k A); em particular, fazendo t = 1, obtemos que G k A) possui pelo menos k autovalores de A Da mesma forma, não pode haver mais que k autovalores de A em G k A), pois os n k autovalores restantes de A 0 = D começam fora do conjunto G k A) e seguem caminhos contínuos que permanecem fora de G k A) A união G A) dos discos de Gershgorin é conhecida como a região de Gershgorin Observe que enquanto não podemos em geral afirmar com certeza que cada disco de Gershgorin possui um autovalor, a segunda afirmação do teorema permite-nos fazer tal conclusão desde que os discos de Gershgorin sejam dois a dois disjuntos O Teorema dos Discos de Gershgorin permite entender o resultado da Proposição 216: se uma matriz A é estritamente diagonalmente dominante, então os discos de Gershgorin D RiA) a ii ) não interceptam a origem, logo 0 não pode ser um autovalor para a matriz A, o que implica que A é invertível Além disso, se todos os elementos da diagonal principal de A são reais e positivos, então os autovalores de A estão localizados no semiplano direito de C, de modo que se A é também simétrica, concluímos que todos os autovalores de A são positivos A aplicação mais óbvia do Teorema dos Discos de Gershgorin é na estimativa dos autovalores de uma matriz Usos mais refinados do Teorema de Gershgorin permitem obter conhecimento mais preciso sobre onde os autovalores da matriz se encontram e correspondentemente melhores estimativas para o raio espectral de uma matriz Por exemplo, como A e A t possuem os mesmos autovalores, existe um teorema dos discos de Gershgorin equivalente para as colunas de uma matriz Em particular, todos os autovalores de A estão localizados na interseção destas duas regiões: G A) G A t ) Isso implica a seguinte estimativa simples para o raio espectral de uma matriz complexa: 218 Corolário Se A M n C), então ρ A) min max,,n j=1 a ij, max j=1,,n a ij = min A L, A C ) Prova O ponto no i-ésimo disco de Gershgorin que é mais distante da origem tem módulo a ii + R i A) = a ij e um resultado semelhante vale para as colunas de A O resultado do Corolário 218 não é surpreendente em vista do raio espectral de uma matriz ser menor que qualquer norma matricial veja o próximo capítulo) Um resultado melhor pode ser obtido uma vez que se observa que A e S 1 AS também possuem os mesmos autovalores, qualquer que seja a matriz invertível S Em particular, quando S = D = diag p 1,, p n ) é uma matriz diagonal com todos os seus elementos positivos, isto é, p i > 0 para todo i, aplicando o Teorema de Gershgorin à matriz ) D 1 pj AD = a ij p i e à sua transposta, obtemos o seguinte resultado que permite obter uma estimativa arbitrariamente boa dos autovalores de A: j=1
23 Rodney Josué Biezuner Corolário Se A M n C) e p 1,, p n > 0, então todos os autovalores de A estão contidos em G D 1 AD ) G DA t D 1) = n n z C : z a ii 1 p i z C : z a ii p j n p j a ij j=1 j i 1 a ij p i i j 214) Em particular, ρ A) min p 1,,p n>0 max,,n 1 p i j=1 p j a ij, max p j j=1,,n 1 a ij 215) p i 24 Propriedade FC Na nossa busca por propriedades para matrizes diagonalmente dominantes que garantirão a sua invertibilidade, uma observação fundamental é a de que se A é uma matriz diagonalmente dominante, então 0 não pode ser um ponto interior de nenhum disco de Gershgorin De fato, se λ é um autovalor de A interior a algum disco de Gershgorin então devemos ter desigualdade estrita λ a ii < R i A) = a ij para algum i Se 0 é um autovalor de A interior a algum disco de Gershgorin, então a ii < a ij j=1 j i para algum i e A não pode ser diagonalmente dominante na linha i Uma condição equivalente para que um autovalor λ de A não seja um ponto interior de nenhum disco de Gershgorin é que λ a ii R i A) = a ij para todo i = 1,, n j=1 j i Tais pontos λ na região de Gershgorin G A) não necessariamente autovalores de A) constituem precisamente a fronteira G A) da região de Gershgorin Chamaremos a fronteira de um disco de Gershgorin {z C : z a ii = R i A)} um círculo de Gershgorin 220 Lema Seja A M n C) e λ um autovalor de A que não é um ponto interior de nenhum disco de Gershgorin Seja x = x 1,, x n ) 0 um autovetor associado a λ e k um índice tal que j=1 j i x k x j para j = 1,, n Se i é qualquer índice tal que x i = x k
24 Rodney Josué Biezuner 23 então o i-ésimo círculo de Gershgorin passa por λ Se, além disso, então a ij 0, x j = x k e o j-ésimo círculo de Gershgorin também passa por λ Prova Como na demonstração do Teorema de Gershgorin, temos x i λ a ii a ij x j = j=1 j i para todo índice i Logo, se x i = x k, temos Como por hipótese para todo índice i, segue que a ij x j x k a ij = x k R i A) 216) j=1 j i λ a ii R i A) λ a ii R i A) λ a ii = R i A) Em geral, x i = x k implica que as desigualdades em 216) são identidades; em particular, donde a ij x j = x i a ij j=1 j i j=1 j i a ij x i x j ) = 0 j=1 j i Esta é uma soma de termos não-negativos, pois x i x j, logo se a ij 0 necessariamente devemos ter x j = x i = x k Este lema técnico tem as seguintes conseqüências úteis: 221 Teorema Seja A M n C) uma matriz cujas entradas são todas não-nulas e seja λ um autovalor de A que não é um ponto interior de nenhum disco de Gershgorin Então todo círculo de Gershgorin de A passa por λ isto é, λ está na interseção de todos os círculos de Gershgorin de A) e se x = x 1,, x n ) 0 é um autovetor associado a λ então Prova Decorre diretamente do lema anterior j=1 j i x i = x j para todos i, j = 1,, n 222 Corolário Se A M n C) é uma matriz cujas entradas são todas não-nulas e diagonalmente dominante tal que a ii > n a ij para pelo menos alguma linha i, então A é invertível j=1 j i
25 Rodney Josué Biezuner 24 Prova Pois, como A é diagonalmente dominante, se 0 é um autovalor de A então 0 não pode ser um ponto interior de nenhum disco de Gershgorin Por outro lado, pelo teorema anterior, segue que todo círculo de Gershgorin passa por 0 Entretanto, o i-ésimo círculo de Gershgorin centrado em a ii e com raio R i < a ii não pode passar por 0 Concluímos que 0 não é um autovalor de A, logo A é invertível As matrizes do Corolário 222 são as antíteses das matrizes esparsas que nos interessam Usando com maior cuidado a informação dada pelo Lema 220 podemos obter resultados que se aplicam a matrizes esparsas 223 Definição Dizemos que uma matriz A = a ij ) M n C) satisfaz a propriedade FC se para todo par de inteiros distintos i, j existe uma seqüência de inteiros distintos i 1 = i, i 2, i 3,, i m 1, i m = j, com 1 m n, tais que todas as entradas matriciais são não-nulas a i1 i 2, a i2 i 3,, a im 1 i m Por exemplo, a matriz diagonalmente dominante não-invertível , já vista anteriormente, não satisfaz a propriedade FC porque o par 2, 1 não admite tal seqüência a única seqüência possível é a 23, a 31 ) Já qualquer par de inteiros distintos i, j tal que a ij 0 admite a seqüência trivial não-nula a ij, de modo que uma matriz cujas entradas não-diagonais são todas não-nulas satisfaz a propriedade FC O significado da abreviatura FC, ou fortemente conexo, ficará claro mais adiante 224 Teorema Seja A M n C) uma matriz que satisfaz a propriedade FC e seja λ um autovalor de A que não é um ponto interior de nenhum disco de Gershgorin Então todo círculo de Gershgorin de A passa por λ isto é, λ está na interseção de todos os círculos de Gershgorin de A) e se x = x 1,, x n ) 0 é um autovetor associado a λ então x i = x j para todos i, j = 1,, n Prova Seja x = x 1,, x n ) 0 um autovetor associado a λ e i um índice tal que Pelo Lema 220, x i x k para k = 1,, n λ a ii = R i A) Seja j i qualquer outro índice e i 1 = i, i 2, i 3,, i m 1, i m = j, com 1 m n, índices tais que todas as entradas matriciais a ii2, a i2 i 3,, a im 1 j 0 Como a ii2 0, segue da segunda afirmativa do Lema 220 que x i2 = x i Mas então a i2i 3 0 e portanto x i3 = x i2 = x i Prosseguindo desta forma, concluímos que x i = x i2 = x im 1 = x j Em particular, segue novamente do Lema 220 que o j-ésimo círculo de Gershgorin passa por λ Como j é arbitrário, isso prova o teorema 225 Corolário Se A M n C) é uma matriz que satisfaz a propriedade FC e diagonalmente dominante tal que a ii > n a ij para pelo menos alguma linha i, então A é invertível j=1 j i
26 Rodney Josué Biezuner 25 Prova Segue do teorema anterior da mesma forma que o Corolário 222 segue do Teorema 221 Vamos tentar entender melhor o significado da propriedade FC Note que ela se refere apenas à localização dos elementos não-nulos de A fora da diagonal principal os elementos da diagonal principal e os valores específicos dos elementos fora da diagonal principal são irrelevantes Isso motiva as seguintes definições: 226 Definição Dada uma matriz A = a ij ) M n C) definimos o módulo da matriz A como sendo a matriz A = a ij ) cujos elementos são os módulos dos elementos da matriz A e a matriz indicadora de A como sendo a matriz M A) = µ ij ), onde µ ij = { 1 se aij 0, 0 se a ij = 0 O conceito de uma seqüência de entradas não-nulas da matriz A que aparece na definição da propriedade FC pode ser visualizado em termos de caminhos em um grafo associado a A: 227 Definição Dada uma matriz A M n C), o grafo direcionado de A é o grafo direcionado Γ A) com n nodos P 1,, P n tais que existe um arco direcionado em Γ A) de P i a P j se e somente se a ij 0 Um caminho direcionado γ em um grafo Γ é uma seqüência de arcos P i1 P i2, P i2 P i3, em Γ O comprimento de um caminho direcionado é o número de arcos sucessivos no caminho direcionado Um ciclo é um caminho direcionado que começa e termina no mesmo nó Dizemos que um grafo direcionado é fortemente conexo se entre qualquer par de nodos distintos P i, P j Γ existir um caminho direcionado de comprimento finito que começa em P i e termina em P j Observe que quando Γ é um grafo direcionado com n nodos, se existe um caminho direcionado entre dois nodos de Γ, então sempre existe um caminho direcionado entre estes dois nodos de comprimento menor que ou igual a n 1 Exercício 27) 228 Teorema A M n C) satisfaz a propriedade FC se e somente se Γ A) é fortemente conexo Agora estamos em condições de verificar a invertibilidade das matrizes esparsas oriundas da discretização de EDPs através de diferenças finitas: 229 Teorema As matrizes de discretização do problema modelo são invertíveis Prova É fácil ver que as matrizes de discretização obtidas no capítulo anterior para o intervalo e para o quadrado são matrizes diagonalmente dominantes com dominância diagonal estrita nas linhas correspondentes a pontos interiores adjacentes à fronteira Além disso, elas satisfazem a propriedade FC De fato, cada índice i da matriz corresponde a um ponto interior P i da malha e a ij 0 sempre que P i e P j são pontos vizinhos naqueles esquemas Então, dados dois pontos distintos P i, P j é fácil encontrar uma seqüência de índices i 1 = i, i 2, i 3,, i m 1, i m = j, com 1 m n, tais que todas as entradas matriciais a i1i 2, a i2i 3,, a im 1i m são não-nulas: no caso unidimensional, basta percorrer a malha diretamente de P i até P j andando a partir de P i sempre para a direita ou sempre para a esquerda, conforme o caso, até encontrar P j ), e no caso bidimensional basta usar qualquer caminho interior de P i até P j pode-se usar a ordem lexicográfica para percorrer a malha, ou a ordem lexicográfica inversa, dependendo das posições relativas de P i e P j ; no entanto, estes caminhos são mais longos que o necessário) Em outras palavras, identificando as malhas de pontos internos com os grafos direcionados da matriz de discretização, de modo que existe um arco direcionado entre
27 Rodney Josué Biezuner 26 dois pontos da malha se e somente se eles são vizinhos, os esquemas de discretização considerados garantem que estes grafos são fortemente conexos Verificar a propriedade FC a partir do grafo direcionado de A pode ser impraticável se o tamanho da matriz for muito grande ou se a matriz não tiver origem na discretização de um problema de EDPs Existe um método computacional mais explícito para fazê-lo: 230 Teorema Sejam A M n C) e P i, P j nodos de Γ A) Existe um caminho direcionado de comprimento m em Γ A) de P i para P j se e somente se A m ) ij 0 ou, equivalentemente, se e somente se [M A) m ] ij 0 Prova Provaremos o teorema por indução Para m = 1 a afirmativa é trivial Para m = 2, temos A 2) ij = A ) ik A ) kj = k=1 a ik a kj, de modo que A 2) 0 se e somente se a ik, a kj são ambos não-nulos para algum índice k Mas isso é ij equivalente a dizer que existe um caminho direcionado de comprimento 2 em Γ A) de P i para P j Em geral, supondo a afirmativa provada para m, temos A m+1) ij = A m ) ik A ) kj = k=1 k=1 A m ) ik a kj = 0 se e somente se A m ) ik, a kj são ambos não-nulos para algum índice k Por hipótese de indução, isso é equivalente a existir um caminho direcionado de comprimento m em Γ A) de P i para P k e um caminho direcionado de comprimento 1 em Γ A) de P k para P j, isto é, um caminho direcionado de comprimento m + 1 em Γ A) de P i para P j O mesmo argumento vale para M A) 231 Definição Seja A = a ij ) M n C) Dizemos que A 0 se a ij 0 para todos 1 i, j n e que A > 0 se a ij > 0 para todos 1 i, j n 232 Corolário Seja A M n C) Existe um caminho direcionado de comprimento m em Γ A) de cada nodo P i para cada nodo P j se e somente se A m > 0 k=1 ou, equivalentemente, se e somente se M A) m > Corolário Seja A M n C) A satisfaz a propriedade FC se e somente se I + A ) n 1 > 0 ou, equivalentemente, se e somente se [I + M A)] n 1 > 0
28 Rodney Josué Biezuner 27 Prova Temos I + A ) n 1 n 1 = I + n 1) A + 2 ) A ) n 1 A n 1 + A n 1 > 0 n 3 se e somente se para cada par de índices i, j com i j pelo menos um dos termos A, A 2,, A n 1 tem uma entrada positiva em i, j) Pelo Teorema 230, isso ocorre se e somente se existe algum caminho direcionado em Γ A) de P i para P j com comprimento n 1 Isto é equivalente a A satisfazer a propriedade FC O mesmo argumento vale para M A) Em geral, a maneira como uma matriz foi obtida como as nossas matrizes de discretização; veja a última seção do capítulo) torna clara se elas são matrizes que satisfazem a propriedade FC ou não Se isso não é possível, e pretende-se verificar a propriedade FC através do Corolário 233, é preferível calcular [I + M A)] n 1, já que M A) é uma matriz composta apenas de 0 s e 1 s 25 Matrizes Irredutíveis Às vezes, os resultados da seção anterior são formulados em termos de matrizes irredutíveis Neste seção examinaremos esta formulação equivalente Lembre-se que uma matriz de permutação P é uma matriz quadrada cujas entradas são todas 0 ou 1 e, além disso, em cada linha e em cada coluna de P existe exatamente um 1 Em particular, P é uma matriz ortogonal, de modo que P 1 = P t, isto é, a inversa de P também é uma matriz de permutação Um caso especial de uma matriz de permutação é uma matriz de transposição, que é uma matriz de permutação T igual à matriz identidade exceto em duas posições, isto é, para algum par de índices fixado k, l temos T ij = δ ij se i, j) k, l), l, k), k, k) ou l, l), 1 e i, j) = k, l) ou se i, j) = l, k), 0 se i, j) = k, k) ou se i, j) = l, l) Matrizes de transposição são simétricas O efeito de multiplicar uma matriz A por uma matriz de transposição à esquerda é trocar a posição de duas linhas da matriz A no caso acima, as linhas k e l), enquanto que a multiplicação de A por uma matriz de transposição à direita muda a posição de duas colunas de A no caso acima, as colunas k e l) T A = AT = a 11 a 12 a 13 a 14 a 21 a 22 a 23 a 24 a 31 a 32 a 33 a 34 a 41 a 42 a 43 a 44 a 11 a 12 a 13 a 14 a 21 a 22 a 23 a 24 a 31 a 32 a 33 a 34 a 41 a 42 a 43 a = = a 11 a 12 a 13 a 14 a 31 a 32 a 33 a 34 a 21 a 22 a 23 a 24 a 41 a 42 a 43 a 44 a 11 a 13 a 12 a 14 a 21 a 23 a 22 a 24 a 31 a 33 a 32 a 34 a 41 a 43 a 42 a 44 Pode-se provar que toda matriz de permutação P é o produto de matrizes de transposição P = T 1 T m ; em particular, P t = T m T 1 A matriz P t AP = T m T 1 AT 1 T m é portanto obtida através da permutação de linhas e colunas de A, de modo que nenhum novo elemento é criado ou algum elemento existente de A destruído 234 Definição Dizemos que uma matriz A M n C) é redutível se existe alguma matriz de permutação P e algum inteiro 1 m n 1 tal que [ ] P t B C AP = 0 D,
29 Rodney Josué Biezuner 28 onde B é uma matriz m m, D é uma matriz n m) n m), C é uma matriz m n m) e 0 é a matriz nula n m) m Caso contrário, dizemos que A é irredutível Da definição vemos que se A > 0, então A é irredutível, e para que A seja redutível, ela precisa ter pelo menos n 1 zeros caso m = 1) A motivação para este nome é a seguinte Suponha que queiramos resolver o sistema Ax = b e que A seja redutível Então, se escrevermos A = P t AP = [ B C 0 D teremos Ax = P AP t x = b ou AP t x = P t b; denotando x = P t x e b = P t b, resolver o sistema Ax = b é então equivalente a resolver o sistema Ax = b Escrevendo [ y x = z ], ] [ ] b1, b = b 2 onde y, b 1 C m e z, b 2 C n m, este sistema é por sua vez equivalente ao sistema { By + Cz = b1 Dz = b 2 Se resolvermos primeiro Dz = b 2 e utilizarmos o valor de z encontrado na primeira equação resolvendo By = b 1 Cz, teremos reduzido o problema original a dois problemas menores, mais fáceis de resolver 235 Teorema Uma matriz A M n C) é irredutível se e somente se ou, equivalentemente, se e somente se I + A ) n 1 > 0 [I + M A)] n 1 > 0 Prova Para provar o resultado, mostraremos que A é redutível se e somente se I + A ) n 1 possui pelo menos uma entrada nula Assuma primeiramente que A é redutível, de modo que para alguma matriz de permutação P tenhamos Observe que A = P [ B C 0 D ] P t =: P AP t A = P AP t = P A P t, já que o efeito de P é apenas trocar linhas e colunas Além disso, note que [ ] A k B k C = k 0 D k para alguma matriz C k Logo, como I + A ) n 1 = I + P A P t ) n 1 ) = P I + A n 1 P t [ ) ) ] n 1 = P I + n 1) A + A 2 n A n 1 + A n 1 P t 2 n 3
30 Rodney Josué Biezuner 29 e todos os termos dentro dos colchetes são matrizes que tem um bloco n m) m nulo no canto esquerdo inferior, segue que I + A ) n 1 é redutível, logo possui entradas nulas e não pode ser positiva Reciprocamente, suponha que I + A ) n 1 possui pelo menos uma entrada nula Como I + A ) n 1 = I + n 1 m=1 n 1 m ) A m, I + A ) n 1 não possui entradas diagonais nulas, logo podemos assumir que para algum par i j temos [ I + A ) n 1] ij = 0, o que implica [ A m ] ij = 0 para todo 1 m n 1 Pelo Teorema 230 e observação imediatamente posterior à definição de grafo direcionado), não existe um caminho direcionado em Γ A) de comprimento finito entre P i e P j Defina os conjuntos de nodos S 1 := {P k : P k = P j ou existe um caminho direcionado em Γ A) entre P k e P j }, S 2 = [ nodos de Γ A)] \S 1 Por definição destes conjuntos, não pode existir nenhum caminho de algum nodo de S 2 para algum nodo de S 1, logo [ A m ] lk = 0 se P l S 2 e P k S 1 E ambos os conjuntos são não-vazios, pois P j S 1 e P i S 2 Renomeando os nodos de modo que { S 1 = P1,, P } m, { S 2 = Pm+1,, P } n, segue que existe uma matriz de permutação P tal que [ P t B C AP = 0 D De fato, P é justamente a matriz de permutação que troca as colunas de tal forma que as variáveis anteriores correspondentes aos nodos P 1,, P m no sistema Ax = b são as novas m primeiras variáveis do sistema linear Ax = b; como não existe nenhum caminho direcionado entre nenhum dos nodos P m+1,, P n e qualquer um dos nodos P 1,, P m, temos a ij = 0 para m + 1 i n e 1 j m pelo Teorema Corolário Uma matriz A M n C) é irredutível se e somente se ela satisfaz a propriedade FC 237 Proposição Se A é uma matriz irredutível, diagonalmente dominante tal que a ii > n a ij para pelo menos alguma linha i, então A é invertível Além disso, se A é hermitiana e todos os elementos da diagonal principal de A são positivos, então todos os autovalores de A são positivos Prova O resultado segue do Teorema 234, do Corolário 225 e do Teorema dos Discos de Gershgorin veja comentários após o Teorema 218) 238 Corolário Os autovalores das matrizes de discretização do problema modelo são positivos 26 Exercícios 21 Mostre que as normas matriciais introduzidas na primeira seção deste capítulo Exemplos 23 até 211) são de fato normas vetoriais ] j=1 j i
31 Rodney Josué Biezuner Mostre que a norma l p Exemplo 25) é uma norma matricial 23 Mostre que a norma l 2 é diferente da 2-norma em M n veja Exemplo 210) 24 Seja V um espaço vetorial de dimensão finita e 1, 2 normas vetoriais quaisquer Prove que existe uma constante C > 0 tal que 1 C x 1 x 2 C x 1 para todo vetor x V 25 Seja uma norma matricial Prove diretamente das propriedades de uma norma matricial que I 1 26 a) Seja uma norma vetorial Prove que se α > 0, então α é também uma norma vetorial b) Seja uma norma matricial Conclua do Lema 214 que se α < 1, então α não é uma norma matricial c) Seja uma norma matricial Se α > 1, podemos concluir que α não é uma norma matricial? 27 Mostre que se Γ é um grafo direcionado com n nodos, se existe um caminho direcionado entre dois nodos de Γ, então sempre existe um caminho direcionado entre estes dois nodos de comprimento menor que ou igual a n 1
32 Capítulo 3 Métodos Iterativos Lineares Neste capítulo investigaremos os métodos iterativos básicos para a resolução de sistemas lineares Ax = b Embora a matriz A que temos em mente é em geral uma matriz grande e esparsa, do tipo que aparece em esquemas de diferenças finitas para equações diferenciais parciais, os métodos considerados aqui requerem em princípio apenas que A seja uma matriz invertível com todas as entradas diagonais a ii não-nulas embora a matriz A deva satisfazer critérios adicionais, de acordo com cada método, para assegurar a convergência para a solução exata) Métodos iterativos requerem um chute inicial x 0, ou seja, um vetor inicial que aproxima a solução exata x se não há nenhuma informação disponível sobre a solução exata, de modo que não temos como construir o chute inicial de forma inteligente, x 0 pode ser uma aproximação muito ruim de x) Uma vez que x 0 é dado, o método iterativo gera a partir de x 0 uma nova aproximação x 1, que esperamos deve aproximar melhor a solução exata Em seguida, x 1 é usada para gerar uma nova melhor aproximação x 2 e assim por diante Desta forma, gera-se uma seqüência de vetores x k) que espera-se convergir para x Como na prática não podemos iterar para sempre, algum critério de parada deve ser estabelecido a priori Uma vez que x k esteja suficientemente próximo da solução exata quanto se precise, de acordo com uma margem de tolerância previamente fixada, pára-se o processo de iteração e aceita-se x k como a solução aproximada adequada para o problema Por exemplo, o critério de parada pode ser estabelecido através de uma cota de tolerância τ: quando b Ax k < τ ou quando x k+1 x k < τ as iterações são interrompidas e o último valor aproximado obtido é aceito como a melhor aproximação da solução dentro das circunstâncias Os métodos discutidos neste capítulo não necessitam de um bom chute inicial embora, é claro, quanto melhor o chute inicial, menor o número de iterações necessárias para se chegar à solução aproximada com a exatidão especificada) Embora os métodos iterativos lineares são muitos lentos em relação a outros métodos iterativos desenvolvidos mais recentemente, sendo portanto raramente utilizados isoladamente, eles são frequentemente usados hoje em dia como componentes de certos métodos iterativos ultra-rápidos, tais como o método multigrid 31
33 Rodney Josué Biezuner Método Iterativos Básicos 311 Método de Jacobi O método iterativo linear mais simples que já foi descrito também como o mais lento para convergir, embora isso realmente depende da matriz A do sistema) é o método de Jacobi 1845) Escrevendo o sistema Ax = b na forma a 1j x j = b 1 j=1, a nj x j = b n se a ii 0 para todo i, cada x i pode ser isolado na i-ésima equação e escrito na forma x i = 1 a ii b i a ij x j j=1 Isso sugere definir um método iterativo da seguinte forma: suposto x k = x k 1,, xn) k obtido no passo anterior, obtemos x k+1 = x k+1 ) 1,, x k+1 n por x k+1 i = 1 a ii b i a ij x k j 31) No caso da fórmula de cinco pontos para o problema de Poisson, como a equação para cada ponto i, j) é dada por u i,j 1 u i,j+1 + 4u i,j u i 1,j u i+1,j = h 2 f i,j o método de Jacobi é u k+1 i,j = 1 u k 4 i,j 1 + u k i 1,j + u k i+1,j + u k i,j+1 + h 2 ) f i,j 32) No caso especial da equação de Laplace f = 0) com condição de fronteira de Dirichlet não-nula, o método de Jacobi é simplesmente a propriedade do valor médio discreta j=1 j i j=1 j i u k+1 i,j = 1 u k 4 i,j 1 + u k i 1,j + u k i+1,j + u k ) i,j+1 33) Em outras palavras, calculados os valores de u em todos os pontos da malha na iteração anterior, o novo valor de u em um ponto interior da malha nesta iteração é calculado através da média dos seus quatro pontos vizinhos Os valores iniciais de u nos pontos interiores da malha para a primeira iteração isto é, o chute inicial) podem ser atribuidos arbitrariamente ou através de algum argumento razoável; por exemplo, podemos utilizar uma média ponderada dos valores de fronteira para o valor inicial em cada ponto interior da malha, de acordo com a posição do ponto em relação aos pontos das quatro fronteiras discretizadas Em forma matricial, o algoritmo de Jacobi pode ser descrito da seguinte forma Denotando por D = diag a 11,, a nn ) a matriz diagonal cujas entradas são as entradas diagonais de A, temos que ou x k+1 = D 1 [ D A) x k + b ] 34) x k+1 = D 1 Cx k + b ) 35) onde C = D A é a matriz consistindo dos elementos restantes de A fora da diagonal principal
34 Rodney Josué Biezuner Método de Gauss-Seidel Um método iterativo que converge cerca de duas vezes mais rápido que o método de Jacobi na maioria das aplicações) é o método de Gauss-Seidel desenvolvido inicialmente por Gauss em 1819 para resolver sistemas de equações lineares que apareciam no seu método de quadrados mínimos e obtendo sua forma final em 1874 por Seidel), onde os valores de x são atualizados dentro de cada iteração, sem esperar pela próxima Em outras palavras, obtido o valor de x k+1 i este é usado no lugar de x k i no cálculo seguinte de x k+1 i+1 No sistema Ax = b em que a ii 0 para todo i, como antes isolamos cada x i na i-ésima equação mas desta vez escrevemos x i = 1 i 1 b i a ij x j a ij x j a ii Então definimos x k+1 i = 1 b i a ii j=1 i 1 j=1 a ij x k+1 j j=i+1 j=i+1 a ij x k j 36) pois os valores x k+1 1,, x k+1 i 1 já foram computados nesta iteração, enquanto que os valores xk i+1,, xk n são fornecidos pela iteração anterior Por exemplo, no caso da equação de Laplace, poderíamos utilizar a fórmula u k+1 i,j = 1 u k+1 i,j uk+1 i 1,j + uk i+1,j + u k ) i,j+1 assumindo que os pontos da malha são percorridos na ordem lexicográfica, de modo que quando vamos calcular o valor de u no ponto i, j na iteração k + 1, nesta mesma iteração já calculamos os valores de u em i 1, j e em i, j 1, e usamos estes valores para calcular u k+1 i,j ao invés dos valores u k i,j 1 e uk i 1,j obtidos na iteração anterior Em forma matricial, o algoritmo de Gauss-Seidel pode ser descrito da seguinte forma Dada uma matriz A, existe uma única decomposição A = D L U 38) onde D é uma matriz diagonal, L é uma matriz estritamente triangular inferior e U é uma matriz estritamente triangular superior; de fato, D = diag a 11,, a nn ) é a parte diagonal de A, L é a parte estritamente triangular inferior de A e U é a parte estritamente triangular superior de A Então o algoritmo de Gauss- Seidel pode ser definido por x k+1 = D 1 Lx k+1 + Ux k + b ) 39) ou donde D L) x k+1 = Ux k + b, 37) x k+1 = D L) 1 Ux k + b ) 310) 31 Exemplo Existem matrizes para as quais o método de Jacobi converge e o método de Gauss-Seidel diverge, e vice-versa Veja o Exercício Método SOR O processo de corrigir uma equação através da modificação de uma variável é às vezes chamado de relaxamento Antes da correção, a equação não é verdadeira; como um conjunto de partes que não se ajustam, ela está em estado de tensão A correção de uma variável relaxa a tensão O método de Gauss-Seidel efetua relaxamento sucessivo, ou seja, passa de equação para equação, relaxando uma depois da outra [Watkins] Por este motivo, os métodos de Jacobi e de Gauss-Seidel são também chamados métodos de relaxamento Em muitos casos, a convergência pode ser substancialmente acelerada através de sobrerelaxamento Isso
35 Rodney Josué Biezuner 34 significa que ao invés de fazer uma correção para a qual a equação é satisfeita exatamente, nós fazemos uma correção maior No caso mais simples, escolhe-se um fator de relaxamento ω > 1 que sobrecorrige por aquele fator em cada passo se mover um passo na direção de x k para x k+1 é bom, mover naquela direção ω > 1 passos é melhor) Este é o chamado método de sobrerelaxamento sucessivo SOR, successive overrelaxation; desenvolvido em 1950 por Young): usando o método de Gauss-Seidel obtemos daí tomamos Isso pode ser resumido em x k+1 i x k+1 i = 1 a ii = x k i + ω i 1 b i j=1 a ij x k+1 j j=i+1 x k+1 i = x k k+1 i + ω x i x k ) i 1 a ii i 1 b i j=1 a ij x k+1 j j=i+1 a ij x k j ; a ij x k j x k i 311) Quando ω = 1, o método SOR é exatamente o método de Gauss-Seidel Um fator ω < 1 subrelaxamento) normalmente diminui a velocidade de convergência Para a maioria dos problemas, o melhor valor para o fator de relaxamento é desconhecido Para a matriz de discretização obtida a partir da fórmula de cinco pontos, é sabido que o valor ótimo de ω é, como veremos na próxima seção, 2 ω = 1 + sen πh) 312) Em forma matricial, o método SOR pode ser descrito da seguinte forma Como antes, dada uma matriz A escrevemos A = D L U 313) onde D é uma matriz diagonal, L é uma matriz estritamente triangular inferior e U é uma matriz estritamente triangular superior Então, escrevendo o algoritmo SOR na forma i 1 a ii x k+1 i = a ii x k i + ω b i a ij x k+1 j a ij x k j, j=1 j=i temos Dx k+1 = Dx k + ω [ Lx k+1 + U D) x k + b ] 314) ou ) ) 1 1 ω ω D L x k+1 = ω D + U x k + b, donde x k+1 = ) 1 [ ) ] 1 1 ω ω D L ω D + U x k + b 315) 314 Comparação da Velocidade de Convergência dos Três Métodos no Problema Modelo A tabela a seguir foi extraída de [Watkins], págs 533 e 542 Os métodos introduzidos acima foram usados para resolver o sistema linear Ax = b onde A é a matriz de discretização obtida a partir da fórmula dos
36 Rodney Josué Biezuner 35 cinco pontos do laplaciano no quadrado unitário Ω = 0, 1) 2 e b é estabelecido pela condição de fronteira de Dirichlet dada por 0 se x = 0, y se x = 1, g x, y) = x 1) sen x se y = 0, x 2 x) se y = 1, ou seja, para resolver o problema discretizado { d u d = 0 em Ω d, u d = g d sobre Ω d As iterações foram interrompidas quando u k+1 u k 2 u k+1 2 < 10 8 O número de iterações necessárias para convergir de acordo com esta margem de tolerância, para três refinamentos possíveis da malha correspondentes a matrizes de dimensões n = 81, 361 e 1521, respectivamente), de acordo com cada método e para diferentes valores de ω no caso do método SOR é apresentado na tabela abaixo h = 01 h = 005 h = 0025 Jacobi SOR ω = 08) Gauss-Seidel SOR ω = 14) SOR ω = 16) SOR ω = 17) SOR ω = 18) SOR ω = 19) SOR ω = 20) Vemos que o método de Gauss-Seidel é cerca de duas vezes mais rápido para convergir que o método de Jacobi e que dependendo da escolha de ω, o método SOR pode ser até dez vezes mais rápido que o método de Gauss-Seidel para a malha mais refinada Subrelaxamento não ajuda e para ω = 2 o método SOR é divergente 315 Método de Jacobi Amortecido O método de Gauss-Seidel pode ser sobrerelaxado através de um parâmetro ω > 1 para obter um método que converge mais rápido Já o método de Jacobi não pode em geral ser sobrerelaxado, porque o método obtido não converge Ele pode no entanto ser subrelaxado através de um parâmetro ω < 1 para obter um método convergente, se bem que mais vagaroso A vantagem de se utilizar um tal método é que para certos valores de ω ele é um ótimo suavizador de erro em um sentido que será explicado mais tarde), enquanto que o método de Jacobi usual não possui esta propriedade Assim, o método de Jacobi amortecido pode ser usado em métodos multigrid, como veremos mais tarde Pelo método de Jacobi usual obtemos x k+1 i = 1 a ii b i a ij x k j, j=1 j i
37 Rodney Josué Biezuner 36 e tomamos ou seja, x k+1 i x k+1 i = x k k+1 i + ω x i x k ) i, = x k i + ω 1 a ii b i a ij x k j xk i 316) Este método é conhecido como método de Jacobi amortecido, método de Jacobi ponderado ou ainda método de relaxamento simultâneo diferente do método de relaxamento sucessivo, baseado no método de Gauss-Seidel, em que cada variável é substituída sucessivamente dentro da mesma iteração à medida que ela é atualizada; no método de Jacobi, as variáveis são todas substituídas simultameamente na próxima iteração) Em forma matricial, o método de Jacobi amortecido pode ser descrito da seguinte forma Denotando por D a parte diagonal de A, temos temos a ii x k+1 i j=1 j i = a ii x k i + ω b i a ij x k j, ou ) ) 1 1 ω D x k+1 = ω D A x k + ωb, donde x k+1 = j=1 Dx k+1 = Dx k + ω [ b Ax k] 317) ) 1 [ ) ] 1 1 ω D ω D A x k + b 318) Em contraste com o método SOR, que converge em geral para 0 < ω < 2, o método de Jacobi amortecido converge para 0 < ω 1 veja a próxima seção) 32 Análise de Convergência dos Métodos Iterativos Lineares Os métodos iterativos básicos são casos especiais de uma classe geral de métodos chamados métodos iterativos lineares: 32 Definição Um método iterativo linear para resolver o sistema Ax = b é um método da forma x k+1 = Rx k + Nb onde R e N são matrizes dadas A matriz R é chamada a matriz de iteração do método Em geral, um método iterativo linear para resolver o sistema linear envolve a decomposição da matriz A na forma Ax = b A = B C, 319) onde B é necessariamente uma matriz invertível, e em seguida a resolução iterativa do sistema de equações Bx k+1 = Cx k + b 320)
38 Rodney Josué Biezuner 37 ou, mais explicitamente, x k+1 = B 1 Cx k + b ) Na notação da definição, temos que a matriz de iteração é e R = B 1 C = B 1 B A) = I B 1 A 321) N = B 1 322) Se x k x, então Bx = Cx + b, donde Ax = b Do ponto de vista prático, é importante que a matriz B seja fácil de resolver mesmo que a inversa de B não seja efetivamente calculada), como nos exemplos da seção anterior: B C R Jacobi D D A D 1 D A) Jacobi amortecido 1 ω D 1 ω D A 1 ) 1 1 ) ω D ω D A Gauss-Seidel D L U D L) 1 U 1 SOR ω D L 1 ω ) 1 ) 1 1 ω ω D + U ω D L ω D + U Para obter uma convergência rápida também gostaríamos que B A e C 0 Deste ponto de vista, o ideal seria B = A e C = 0 convergência em uma iteração), mas isso viola em geral o critério que B seja fácil de resolver Um compromisso é necessário: B deve aproximar A o melhor possível sem se tornar muito complicada 321 Convergência dos Métodos Iterativos Lineares 33 Definição Para métodos iterativos em geral, o erro algébrico é definido por enquanto que o erro residual é dado por e k = x x k, 323) r k = b Ax k 324) O erro algébrico tem interesse puramente teórico para provar que determinado método iterativo converge, precisamos mostrar que o erro algébrico tende a zero), já que ele só pode ser calculado uma vez que se conhece a solução exata, e se este for o caso obviamente não há necessidade de resolver o sistema Já o erro residual pode ser usado como critério de parada para o método iterativo O erro algébrico e o erro residual estão relacionados através da expressão: Ae k = r k, 325) pois Ae k = Ax Ax k = b Ax k = r k Para os métodos iterativos lineares, como Be k+1 = Bx Bx k+1 = Ax + Cx Cx k b = C x x k) = Ce k, segue que e k+1 = B 1 C ) e k
39 Rodney Josué Biezuner 38 ou e k+1 = Re k 326) Por este motivo, a matriz de iteração também é chamada de matriz de propagação do erro Segue de 326) que e k = R k e 0, 327) de modo que o erro converge para 0, independentemente do chute inicial x 0, se e somente se R k 0 Isso ocorre se e somente se existe alguma norma matricial tal que R < 1 Obter uma norma matricial que satisfaz esta propriedade, no entanto, é difícil Vamos obter uma condição necessária e suficiente para R k 0 em termos do raio espectral da matriz de iteração, que é em geral um pouco mais fácil de calcular Antes, para motivar o resultado, suponha que R seja uma matriz diagonalizável com λ 1,, λ n os seus autovalores e {v 1,, v n } uma correspondente base de autovetores Escrevendo o erro inicial como uma combinação linear dos autovetores, temos e 0 = a i v i Logo, de modo que e k = R k e 0 = e k a i λ k i v i, a i λ i k v i Como λ i k 0 se e somente se λ i < 1, concluímos que e k 0 qualquer que seja o erro inicial isto é, qualquer que seja o chute inicial), se e somente se ρ R) = max 1 i n λ i < 1 34 Lema Se A M n C) e é qualquer norma matricial, então ρ A) A Prova Seja λ um autovalor qualquer de A e x um autovetor não-nulo associado a λ, de modo que Ax = λx Considere a matriz X M n C) cujas colunas são todas iguais ao vetor x Temos também de modo que donde AX = λx λ X = AX A X, λ A para todo autovalor λ de A Como existe um autovalor λ de A tal que ρ A) = λ, isso prova o resultado 35 Lema Seja A M n C) e ε > 0 dado Então existe uma norma matricial tal que ρ A) A ρ A) + ε 328)
40 Rodney Josué Biezuner 39 Prova Toda matriz complexa A é triangularizável através de uma matriz unitária U isto é, isto é, existe uma matriz triangular T e uma matriz U que satisfaz U U = UU = I veja [Hoffman-Kunze]) tais que A = U T U; T é chamada a forma triangular ou forma normal de Schur de A Seja então λ 1 a 12 a 22 a 1n λ 2 a 23 a 2n T = λ 3 a 3n λ n a forma triangular de A Para t R arbitrário, considere a matriz diagonal t t 2 D t = Temos D t T D 1 t = λ 1 a 12 t 1 a 22 t 2 a 1n t n+1 λ 2 a 23 t 1 a 2n t n+2 λ 3 a 3n t n+3 λ n 1 a n 1,n t 1 λ n Logo, para t > 0 suficientemente grande, a matriz D t T Dt 1 tem a propriedade que a soma dos valores absolutos de elementos fora da diagonal principal é menor que ε Em particular, se L denota a norma do máximo das somas das linhas, podemos garantir que D t T Dt 1 L ρ A) + ε para t suficientemente grande Portanto, fixado um tal t, se definirmos uma norma por A := D t UAU Dt 1 L = U Dt 1 ) 1 AU Dt 1, L teremos Pelo lema anterior, ρ A) A A = Dt UAU Dt 1 L = Dt T Dt 1 L ρ A) + ε 36 Lema Seja A M n C) Se existe alguma norma matricial tal que A < 1, então A k 0 t n Prova Se A < 1, então A k A k 0
41 Rodney Josué Biezuner Proposição Seja A M n C) Então se e somente se A k 0 ρ A) < 1 Prova Se existe algum autovalor λ de A tal que λ 1 e x é um autovetor não-nulo correspondente, então A k x = λ k x não converge para 0 Reciprocamente, se ρ A) < 1, então pelo Lema 35 existe uma norma matricial tal que A < 1, logo A k 0 pelo lema anterior Finalmente obtemos uma condição necessária e suficiente para um método iterativo linear convergir: 38 Corolário Seja R a matriz de iteração de um método iterativo linear Então se e somente se e k 0 ρ R) < 1 Em outras palavras, um método iterativo linear é convergente independentemente da escolha do chute inicial se e somente se todos os autovalores da matriz de iteração têm valor absoluto menor que 1 Portanto, a análise da convergência de um determinado método iterativo linear passa pela análise dos autovalores de sua matriz de iteração R Como esta última depende da matriz de coeficientes A do sistema linear, a convergência ou não de qualquer um dos métodos iterativos lineares vai depender da matriz A 322 Velocidade de Convergência dos Métodos Iterativos Lineares O raio espectral também dá informação sobre a velocidade de convergência Se nós tivermos dois métodos iterativos lineares diferentes, isto é, duas maneiras diferentes de decompor a matriz A: A = B 1 C 1 = B 2 C 2, então o segundo método convergirá mais rápido se e somente se ρ R 2 ) < ρ R 1 ) Em particular, a velocidade de convergência relativa dos métodos iterativos lineares também vai depender da matriz A: para certas matrizes um determinado método é superior ao outro, enquanto que para outras matrizes o contrário é verdadeiro Vamos analisar a velocidade de convergência dos métodos iterativos com maior precisão Novamente à título de motivação, suponha que R é uma matriz diagonalizável com seu maior autovalor sendo um autovalor simples Ordene os autovalores de R na forma λ 1 > λ 2 λ n e seja {v 1,, v n } uma correspondente base de autovetores Escrevendo de novo donde e 0 = a i v i, e k = R k e 0 = a i λ k i v i,
42 Rodney Josué Biezuner 41 segue que Como e k = λ k 1 [ a 1 v 1 + λi i=2 ) k 0, ) ] k λi a i v i λ 1 a taxa de convergência é determinada por λ 1 k Para k grande, temos Portanto, λ 1 e k λ k 1a 1 v 1 e k+1 e k = λ 1 = ρ R) 329) Em outras palavras, a convergência é linear com taxa de convergência igual ao raio espectral Se a 1 = 0 a convergência será mais rápida, pois dependerá do módulo do segundo autovalor, mas é obviamente extremamente raro que o erro inicial satisfaça esta condição, isto é, que ele não tenha nenhuma componente na direção do primeiro autovetor Para o caso geral, precisamos do seguinte resultado: 39 Proposição Seja A M n C) e uma norma matricial Então ρ A) = lim A k 1/k Prova Como os autovalores da matriz A k são as k-ésimas potências dos autovalores de A este resultado pode ser mais facilmente visto a partir da forma triangular de A), temos que donde Por outro lado, dado ε > 0, a matriz ρ A) k = ρ A k) A k, ρ A) A k 1/k B = 1 ρ A) + ε A tem raio espectral menor que 1, logo B k 0 Portanto, existe algum N = N ε, A) tal que B k < 1, para todo k > N Logo, A k < ρ A) + ε) k, donde A k 1/k < ρ A) + ε para todo k > N 310 Definição A taxa média de convergência de um método iterativo linear com matriz de iteração R é definida como sendo R k R) = log 10 R k 1/k = 1 k log 10 R k 330) e a taxa assintótica de convergência é dada por R R) = lim k R k R) 331)
43 Rodney Josué Biezuner Corolário Seja R a matriz de iteração de um método iterativo linear Então a taxa assintótica de convergência do método é dada por Prova Pois R R) = lim k log 10 R R) = log 10 ρ R) 332) R k 1/k = log 10 lim R k 1/k = log 10 ρ R) A taxa assintótica de convergência mede o aumento no número de casas decimais corretas na solução por iteração De fato, usando a norma matricial do Lema 35 e medindo as normas dos vetores de acordo, temos e k+1 e k = R k+1 e 0 R k e 0 k R = ρ R) + ε, donde ou Assim, se log 10 e k+1 e k = log 10 ρ R) + O ε) log 10 e k log 10 e k+1 = R R) + O ε) 333) e k = O 10 p), e k+1 = O 10 q), teremos q p R R), isto é, reduzimos R R) q p casas decimais no erro Visto de outra forma, como e k+m R k+m e 0 e k = R k e 0 R m = ρ R) m + O ε), donde ou log 10 e k+m e k m log 10 ρ R), m = log 10 e k+m / e k ) log 10 ρ R) é o número de iterações necessárias para diminuir o erro de um número prescrito de casas decimais 334) 323 Convergência para Matrizes Simétricas Positivas Definidas Para matrizes reais simétricas positivas definidas é mais fácil provar a convergência dos métodos iterativos lineares Temos o seguinte resultado básico a seguir Antes precisamos da seguinte definição: 312 Definição Introduzimos uma ordenação parcial em M n definindo A B se para todo x C n Ax, x Bx, x
44 Rodney Josué Biezuner 43 Em particular, se A é uma matriz positiva definida, segue que A εi para algum ε o menor autovalor de A) e denotamos este fato por A > 0 Lembramos que se A é uma matriz simétrica positiva definida e P é uma matriz invertível, então B = P t AP também é uma matriz simétrica positiva definida, pois B t = P t AP ) t = P t A t P t) t = P t AP = B e Bx, x = P t AP x, x = AP x, P x 313 Teorema Seja A uma matriz simétrica positiva definida e seja A = B C com B invertível Então o método iterativo linear com matriz de iteração R = B 1 C converge se e somente se a matriz simétrica B t + C é positiva definida Prova Para ver que B t + C é simétrica, escreva B t + C = B t + B A e note que B t + C ) t = B t + B A ) t = B + B t A = B t + B A = B t + C Medimos a norma do erro através da norma induzida por A x A := Ax, x 1/2 e consideraremos a norma matricial A induzida por esta norma Se provarmos que o método convergirá Temos R 2 A = B 1 C 2 A = sup x 0 B 1 Cx 2 A x 2 A = sup x 0 R A < 1, AB 1 Cx, B 1 Cx Ax, x = sup x 0 Observe que C t B t AB 1 C é uma matriz simétrica positiva definida, pois C t B t AB 1 Cx, x Ax, x C t B t AB 1 C = B t A ) B t AB 1 B A) = I AB t) A I B 1 A ) = I B 1 A ) t A I B 1 A ) Portanto, para provar que R A < 1, basta mostrar que Continuando o desenvolvimento da expressão em outra direção, temos C t B t AB 1 C = I AB t) A I B 1 A ) 335) C t B t AB 1 C < A 336) = A AB t A + AB 1 A AB t AB 1 A ) = A AB t B + B t A ) B 1 A = A B 1 A ) t B t + C ) B 1 A de modo que 336) vale se e somente se B t + C é positiva definida
45 Rodney Josué Biezuner Convergência dos Métodos Iterativos Lineares para Matrizes de Discretização 331 Convergência do Método de Jacobi 314 Teorema Se A é uma matriz irredutível, diagonalmente dominante tal que a ii > n a ij para pelo menos alguma linha i, então o método de Jacobi converge Prova Seja D a parte diagonal da matriz A e R = D 1 D A) = I D 1 A a matriz de iteração do método de Jacobi para A Suponha por absurdo que exista um autovalor λ de R tal que λ 1 Como λ det λ 1 R I ) = det R λi) = 0, temos det I λ 1 R ) = 0 Por outro lado, observe que I λ 1 R também é irredutível, pois R ij = I D 1 A ) ij = { 0 se i = j, a ij a ii se i j, I λ 1 R ) ij = { 1 se i = j, λ 1 a ij a ii se i j, de modo que, onde A se anula, I λ 1 R também se anula Além disso, I λ 1 R é diagonalmente dominante e estritamente dominante nas linhas onde A é, pois λ 1 1, I λ 1 R ) ii = 1 e I λ 1 R ) = λ 1 ij a ii j=1 j i j=1 j i a ij 1 a ii a ij Mas, pela Proposição 236, isso implica que I λ 1 R é invertível, uma contradição O Teorema 314 mostra que o método de Jacobi converge para as matrizes de discretização obtidas através dos esquemas de diferenças finitas do Capítulo 1 Através do Teorema 314, fomos capazes de provar a convergência do método de Jacobi para as matrizes de discretização sem calcular explicitamente os seus raios espectrais Para analizar a velocidade de convergência do método de Jacobi, no entanto, é necessário obter os raios espectrais destas matrizes Vamos fazer isso para as matrizes de discretização obtidas a partir da fórmula de três pontos unidimensional e a partir da fórmula de cinco pontos bidimensional Para isso, precisaremos obter os autovalores destas matrizes de discretização No caso da fórmula de três pontos unidimensional, lembrando que as autofunções para o problema de Dirichlet do laplaciano no intervalo [0, 1] são as funções trigonométricas U j x) = sen jπx, isso sugere que os autovetores u j da matriz A sejam os vetores de coordenadas U j x 1 ), U j x 2 ),, U j x n 2 ), U j x n 1 ) = U j h), U j 2h),, U j n 2) h), U j n 1) h), ou seja, como h = 1/n, os vetores u j = sen jπ n, sen 2jπ n n 2) jπ,, sen, sen n j=1 j i ) n 1) jπ n Usando identidades trigonométricas, vamos verificar que isso de fato acontece: j=1 j i
46 Rodney Josué Biezuner Lema Os n 1 autovalores da matriz de discretização A da fórmula dos três pontos unidimensional são λ j = 2 h 2 1 cos jπ ) = 4 jπ sen2 337) n h2 2n e os autovetores correspondentes são u j = sen jπ n j = 1,, n 1, sen 2jπ n n 2) jπ,, sen, sen n ) n 1) jπ n 338) Prova Temos pois 2 sen jπ n sen jπ n sen 2jπ n n 2) jπ sen n n 1) jπ sen n = 2 sen jπ 2jπ sen n n sen jπ 2jπ 3jπ + 2 sen sen n n n n 3) jπ n 2) jπ n 1) jπ sen + 2 sen sen n n n n 2) jπ n 1) jπ sen + 2 sen n n sen jπ n sen 2jπ n, = 2 1 cos jπ n ) n 2) jπ sen n n 1) jπ sen n 2jπ sen n = 2 sen jπ n 2 sen jπ n cos jπ n = 2 1 cos jπ ) sen jπ n n, n k 1) jπ n k) jπ n k + 1) jπ sen + 2 sen sen [ n n n n k) jπ = sen jπ ] [ n k) jπ n k) jπ + 2 sen sen + jπ ] n n n n n n k) jπ = sen cos jπ n k) jπ + cos sen jπ n k) jπ + 2 sen n n n n n n k) jπ sen cos jπ n k) jπ cos sen jπ n n n n = 2 1 cos jπ ) n k) jπ sen, n n
47 Rodney Josué Biezuner 46 e n 2) jπ n 1) jπ sen + 2 sen [ n n n 1) jπ = sen jπ ] n 1) jπ + 2 sen n n n n 1) jπ = sen cos jπ n 1) jπ + cos sen jπ n n n n n 1) jπ = sen cos jπ n 1) jπ sen cos jπ n n n n = 2 1 cos jπ ) n 1) jπ sen, n n n 1) jπ + 2 sen n n 1) jπ + 2 sen n onde na penúltima identidade usamos o fato que porque cos n 1) jπ n sen jπ n = sen n 1) jπ n [ n 1) jπ 0 = sen jπ = sen + jπ ] n 1) jπ = sen cos jπ n n n n cos jπ n + cos n 1) jπ n sen jπ n No caso da fórmula de cinco pontos bidimensional, lembrando que as autofunções de Dirichlet do laplaciano no quadrado unitário [0, 1] [0, 1] são as funções U kl x, y) = sen kπx sen lπy, isso sugere que os autovetores u kl da matriz A na ordem lexicográfica são os vetores de coordenadas ou seja, U kl x 1, y 1 ), U kl x 2, y 1 ),, U kl x n 1, y 1 ), U kl x 1, y 2 ), U kl x 2, y 2 ),, U kl x n 1, y 2 ), U kl x 1, y n 1 ), U kl x 2, y n 1 ),, U kl x n 1, y n 1 ) U kl h, h), U kl 2h, h),, U kl n 1) h, h), U kl h, 2h), U kl 2h, 2h),, U kl n 1) h, 2h), U kl h, n 1) h), U kl 2h, n 1) h),, U kl n 1) h, n 1) h), ou seja, como h = 1/n, os vetores u kl = sen kπ n sen lπ 2kπ, sen m n sen lπ n 1) kπ,, sen sen lπ n n n, sen kπ 2lπ 2kπ sen, sen n n n sen 2lπ n 1) kπ,, sen sen 2lπ n n n,, sen kπ n n 1) lπ sen, sen 2kπ n n sen n 1) lπ,, sen n n 1) kπ n sen ) n 1) lπ n
48 Rodney Josué Biezuner Lema Os n 1) 2 autovalores da matriz de discretização A da fórmula dos cinco pontos bidimensional são λ kl = 2 h 2 2 cos kπ n cos lπ ) = 4h n 2 sen 2 kπ ) lπ + sen2 339) 2n 2n e os autovetores correspondentes são u kl = sen kπ n sen lπ 2kπ, sen n n sen lπ n 1) kπ,, sen sen lπ n n n, sen kπ 2lπ 2kπ sen, sen n n n sen 2lπ n 1) kπ,, sen sen 2lπ n n n, 340), sen kπ n 1) lπ sen, sen 2kπ n n n sen n 1) lπ ) n 1) kπ n 1) lπ,, sen sen, n n n k = 1,, n 1, l = 1,, m 1 Prova Embora a demonstração deste lema possa ser feita de maneira análoga à do lema anterior, usando identidades trigonométricas, daremos uma demonstração diferente Lembrando que as autofunções e os autovalores de Dirichlet do laplaciano no retângulo são facilmente obtidos através do método de separação de variáveis, encontraremos os autovalores da matriz A usando um método de separação de variáveis discreto para achar os autovalores do laplaciano discreto dado pela fórmula dos cinco pontos: u i,j 1 + u i 1,j 4u i,j + u i+1,j + u i,j+1 h 2 = λu i,j 341) Em particular, este método não depende da maneira como os pontos da malha são ordenados não depende da matriz A usada para representar o laplaciano discreto) Como no método de separação de variáveis contínuo, assumimos que as soluções da equação discreta acima são produtos da forma u i,j = F i) G j), 342) onde F e G são funções de uma variável inteira discreta, obtemos Substituindo esta expressão na equação de Helmholtz F i) G j 1) + F i 1) G j) 4F i) G j) + F i + 1) G j) + F i) G j + 1) = λh 2 F i) G j) Dividindo esta equação por F i) G j), segue que F i 1) 2F i) + F i + 1) F i) + G j 1) 2G j) + G j + 1) G j) = λh 2 Separando as variáveis, concluímos que cada um dos quocientes acima é independente de i ou de j, isto é, eles são constantes: onde as constantes α, β estão relacionadas pela identidade F i 1) 2F i) + F i + 1) = A, F i) 343) G j 1) 2G j) + G j + 1) = B, G j) 344) A + B = λh 2 345)
49 Rodney Josué Biezuner 48 Estas equações podem ser escritas como fórmulas de recorrência análogas às equações diferenciais ordinárias obtidas no método de separação de variáveis contínuo) F i + 1) A + 2) F i) + F i 1) = 0, G j 1) B + 2) G j) + G j + 1) = 0 Para resolvê-las, é mais conveniente trabalhar com as constantes Desta forma, as equações para F e G tornam-se 2α = A + 2, 2β = B + 2 F i 1) 2αF i) + F i + 1) = 0, 346) G j 1) 2βG j) + G j + 1) = 0 347) Vamos resolver a equação para F, já que a equação para G é idêntica Substituindo em 346) uma solução da forma F i) = z i 348) obtemos z i 1 2αz i + z i+1 = 0, donde, dividindo por z i 1 extraímos a equação quadrática análoga à equação indicial) As duas raízes são z 2 2αz + 1 = 0 349) z ± = α ± α 2 1, com z + + z = 2α e z + z = 1 Portanto, a solução geral para a equação 346) é F i) = c 1 z i + + c 2 z i para algumas constantes c 1, c 2 Para determinarmos estas constantes e também α, aplicamos as condições de fronteira, que implicam F 0) = F n) = 0 A primeira destas por sua vez implica que c 1 = c 2, logo F i) = c z i + z i ) 350) Como a equação para F é homogênea, a constante c é arbitrária Aplicando a segunda, segue que ou, como z + z = 1, z n + = z n, z 2n + = 1 Conseqüentemente, z + é uma 2n-ésima raiz complexa de 1: z + = e ijπ/n 351) para algum inteiro 1 k 2n 1, onde i = 1 Como z = 1/z +, podemos restringir 0 k n 1 e 350) produz todas as soluções não-triviais F de 346)
50 Rodney Josué Biezuner 49 Portanto, e, escolhendo c = 1/2, Analogamente, e Segue que os autovalores são α = z + + z 2 = eiπk/n + e iπk/n 2 = cos kπ n, 0 k n 1, F k i) = e iπki/n e iπki/n = sen ikπ n β = cos lπ n, 0 l n 1, G l j) = sen jlπ n λ kl = 2 [ h 2 2 cos kπ n cos lπ ] n e as coordenadas das autofunções associadas são dadas por u kl ) i,j = F k i) G l j) = sen ikπ n sen jlπ m 317 Teorema Seja A a matriz de discretização obtida a partir da fórmula de três pontos unidimensional ou a partir da fórmula de cinco pontos bidimensional Seja R = D 1 D A) a matriz de iteração do método de Jacobi Então ρ R) = cos π n 352) Prova Vamos provar para a fórmula de cinco pontos bidimensional; o argumento para a fórmula de três pontos unidimensional é análogo e fica deixado como exercício Para o método de Jacobi, a matriz de discretização x k+1 = Rx k + D 1 b é obtida através da fórmula: Já vimos no Lema 316 que u k+1 i,j = 1 u k 4 i,j 1 + u k i,j+1 + u k i 1,j + u k ) i+1,j com Daí segue que Logo para u kl i 1,j u kl i+1,j + 4u kl i,j u kl i,j 1 u kl i,j+1 = λ kl h 2) u kl i,j λ kl = 2 h 2 2 cos kπ n cos lπ ) n u kl i,j 1 + u kl i,j+1 + u kl i 1,j + u kl i+1,j = 4 λ kl h 2) u kl i,j 1 u kl i,j 1 + u kl i,j+1 + u kl i 1,j + u kl ) i+1,j = µlk u kl i,j 4 µ lk = λ klh 2 = cos kπ 2 n cos lπ ) = 1 cos kπ n 2 n + cos lπ ) n Estes são os autovalores da matriz de iteração de Jacobi para a matriz de discretização obtida a partir da fórmula de cinco pontos observe que elas possuem os mesmos autovetores; no entanto R possui autovalores nulos) Segue que o máximo autovalor ocorre quando k = l = 1, logo ρ R) = cos π n
51 Rodney Josué Biezuner 50 Para o quadrado unitário temos ρ R) = cos πh) 353) Vemos em particular que ρ R) 1 quando h 0, de modo que a velocidade de convergência do método de Jacobi vai ficando cada vez menor para malhas mais refinadas Podemos dizer mais usando a expansão da função cosseno em torno da origem se h é pequeno podemos aproximar cos x = x2 + O x 4) ; cos πh) 1 π2 2 h2, de modo que ρ R) 1 quadraticamente quando h 0 Em outras palavras, para uma malha duas vezes mais refinada isto é, h reduzido pela metade), o método de Jacobi é cerca de quatro vezes mais vagaroso em média consulte novamente a tabela no final da seção anterior) A tabela abaixo mostra os valores do raio espectral para alguns valores de h: h ρ R) Para h = 0025 correspondente a uma matriz de tamanho n = = 1521), temos R R) = log ) = , de modo que para reduzir o erro pelo fator de uma casa decimal precisamos de iterações m = log log 10 ρ R) = 1 log 10 ρ R) = Convergência do Método de Gauss-Seidel 318 Teorema Se A é uma matriz irredutível, diagonalmente dominante tal que a ii > n a ij para pelo menos alguma linha i, então o método de Gauss-Seidel converge Prova Sejam D a parte diagonal, L a parte triangular inferior estrita e U a parte triangular superior estrita da matriz A, e seja R = D L) 1 U a matriz de iteração do método de Gauss-Seidel para A Escrevemos R = D L) 1 U = [ D I D 1 L )] 1 U ou j=1 j i R = I D 1 L ) 1 D 1 U 354) Suponha por absurdo que exista um autovalor λ de R tal que λ 1; como na demonstração do Teorema 39, temos det I λ 1 R ) [ = det I λ 1 I D 1 L ) ]) 1 D 1 U = 0 Agora, observando que det I D 1 L ) = 1
52 Rodney Josué Biezuner 51 porque I D 1 L é uma matriz triangular inferior com apenas 1 s na diagonal principal, escrevemos [ 0 = det I λ 1 I D 1 L ) ]) 1 D 1 U = det I D 1 L ) [ det I λ 1 I D 1 L ) ]) 1 D 1 U { I = det D 1 L ) [ I λ 1 I D 1 L ) ])} 1 D 1 U Por outro lado, = det I D 1 L λ 1 D 1 U ) D 1 A = I D 1 L D 1 U é irredutível, diagonalmente dominante e estritamente dominante nas linhas onde A é porque D 1 A ) ij = { 1 se i = j, a ij a ii se i j Logo, a matriz I D 1 L λ 1 D 1 U também satisfaz estas propriedades, pois I, D 1 L e D 1 U são respectivamente a parte diagonal, a parte triangular inferior estrita e a parte triangular superior estrita da matriz D 1 A, e multiplicar a parte triangular inferior estrita pelo número λ 1 cujo módulo é menor que ou igual a 1 não alterará a dominância diagonal na verdade só tende a melhorá-la) nem acrescentará zeros à matriz A Proposição 216 implica então que I D 1 L λ 1 D 1 U é invertível, um absurdo Usando o Teorema 318, concluímos que o método de Gauss-Seidel converge para as matrizes de discretização obtidas através dos esquemas de diferenças finitas do Capítulo 1 Para analizar a velocidade de convergência do método de Gauss-Seidel, vamos obter os raios espectrais para as matrizes de discretização obtidas a partir da fórmula de três pontos unidimensional e a partir da fórmula de cinco pontos bidimensional 319 Teorema Seja A a matriz de discretização obtida a partir da fórmula de três pontos unidimensional ou a partir da fórmula de cinco pontos bidimensional Seja R = D L) 1 U a matriz de iteração do método de Gauss-Seidel Então ρ R) = cos 2 π n 355) Prova Para obter o raio espectral da matriz de iteração R, queremos encontrar os autovalores µ de R: ou seja, Ru = D L) 1 Uu = µu, Uu = µ D L) u um problema de autovalor generalizado) No caso da matriz de discretização da fórmula de cinco pontos, isso significa encontrar µ tal que Para os autovalores não-nulos, podemos fazer a substituição u i,j+1 + u i+1,j = µ 4u i,j u i,j 1 u i 1,j ) 356) u i,j = µ i+j 2 vi,j 357) para transformar a equação de autovalor naquela que aparece no método de Jacobi Temos ) µ i+j+1 2 v i,j + µ i+j+1 2 v i+1,j = µ 4µ i+j 2 vi,j µ i+j 1 2 v i,j 1 µ i+j 1 2 v i 1,j = 4µ i+j+2 2 v i,j µ i+j+1 2 v i,j 1 µ i+j+1 2 v i 1,j,
53 Rodney Josué Biezuner 52 de modo que, dividindo por µ i+j+1 2, obtemos v i 1,j + v i+1,j + v i,j 1 + v i,j+1 = µ 1/2 4v i,j Portanto os autovalores da matriz de iteração de Gauss-Seidel para esta matriz são exatamente os quadrados dos autovalores da matriz de iteração de Jacobi e os autovetores são os mesmos): µ lk = 1 4 Portanto, o máximo autovalor ocorre quando k = l = 1 e cos kπ n + cos lπ n ) 2 ρ R) = cos 2 π n O argumento para a fórmula de três pontos é análogo Para o quadrado unitário temos ρ R) = cos 2 πh), e usando se h é pequeno podemos aproximar cos 2 x = [1 12 x2 + O x 4)] 2 = 1 x 2 + O x 4), cos 2 πh) 1 π 2 h 2 No método de Gauss-Seidel ainda temos ρ R) 1 quadraticamente quando h 0, mas a sua velocidade de convergência para a matriz de discretização de cinco pontos do quadrado unitário é duas vezes maior que a do método de Jacobi Para ver isso, faça a expansão do logaritmo em torno do ponto x = 1: Segue que 333 Convergência do Método SOR 320 Teorema Se o método SOR converge, então log 1 + x) = x + O h 2) R R Jacobi ) = π2 2 h2 + O h 4), 358) R R Gauss-Seidel ) = π 2 h 2 + O h 4) 359) 0 < ω < 2 Prova A matriz de iteração do método SOR é ) 1 ) [ 1 1 ω 1 R = ω D L ω D + U = ω D I ωd 1 L ) = I ωd 1 L ) ) 1 ωd 1 1 ω ω D + U ou Se λ 1,, λ n são os autovalores de R, então ] 1 1 ω ω ) D + U R = I ωd 1 L ) 1 [ 1 ω) I + ωd 1 U ] 360) det R = λ 1 λ n
54 Rodney Josué Biezuner 53 Mas, { I det R = det ωd 1 L ) 1 [ 1 ω) I + ωd 1 U ]} = det I ωd 1 L ) 1 [ det 1 ω) I + ωd 1 U ] = 1 ω) n, já que I ωd 1 L é uma matriz triangular inferior com apenas 1 na diagonal principal e 1 ω) I + ωd 1 U é uma matriz triangular superior com apenas 1 ω na diagonal principal Logo λ 1 λ n = 1 ω) n Em particular, pelo menos um dos autovalores λ j de R deve satisfazer λ j 1 ω Mas, se o método SOR converge, devemos ter também λ < 1 para todo autovalor λ de R Logo donde 1 ω < 1, 0 < ω < Corolário Se R é a matriz de iteração n n para o método SOR, então det R = 1 ω) n Em particular, diferente das matrizes de iteração dos métodos de Jacobi e de Gauss-Seidel para a matriz de discretização de cinco pontos), zero não é um autovalor para a matriz de iteração do método SOR se ω 1 para nenhuma matriz) 322 Teorema Se A é uma matriz irredutível, diagonalmente dominante tal que a ii > n a ij para pelo menos alguma linha i, então o método SOR converge se 0 < ω 1 Prova A demonstração é análoga à do Teorema 318 A matriz de iteração do método SOR é R = I ωd 1 L ) 1 [ 1 ω) I + ωd 1 U ] Suponha por absurdo que exista um autovalor λ de R tal que λ 1; temos det I λ 1 R ) { = det I λ 1 I ωd 1 L ) 1 [ 1 ω) I + ωd 1 U ]}) = 0 Agora, observando que det I ωd 1 L ) = 1 porque I ωd 1 L é uma matriz triangular inferior com apenas 1 s na diagonal principal, escrevemos 0 = det I { λ 1 I ωd 1 L ) 1 [ 1 ω) I + ωd 1 U ]}) = det I ωd 1 L ) det I { λ 1 I ωd 1 L ) 1 [ 1 ω) I + ωd 1 U ]}) [ I = det ωd 1 L ) { I λ 1 I ωd 1 L ) 1 [ 1 ω) I + ωd 1 U ]})] = det I ωd 1 L λ 1 [ 1 ω) I + ωd 1 U ]) = det {[ 1 λ 1 1 ω) ] I ωd 1 L λ 1 ωd 1 U } j=1 j i
55 Rodney Josué Biezuner 54 Por outro lado, como vimos na demonstração do Teorema 318, a matriz D 1 A = I D 1 L D 1 U é irredutível, diagonalmente dominante e estritamente dominante nas linhas onde A é, logo a matriz S = [ 1 λ 1 1 ω) ] I ωd 1 L λ 1 ωd 1 U também satisfaz estas propriedades De fato, S tem zeros nas mesmas posições que I D 1 L D 1 U, logo a sua irredutibilidade não é afetada Além disso, pela dominância diagonal de D 1 A, sabemos que se então b ij = D 1 L ) ij, c ij = D 1 U ) ij i 1 1 b ij + j=1 Para provar a dominância diagonal de S, observamos que os valores que S possui na diagonal principal são de modo que precisamos provar que j=i+1 1 λ 1 1 ω) = 1 1 ω λ j=1 c ij i 1 λ + ω 1 λ ω b ij + ω λ = λ + ω 1, λ j=i+1 c ij se 0 < ω 1 e λ 1 Provaremos que λ + ω 1 λ λ + ω 1 λ ω, ω λ Para isso, observe que como λ 1 basta provar a primeira desigualdade, a qual por sua vez é equivalente a λ + ω 1 λ ω É fácil ver que esta desigualdade é válida quando λ R, pois λ + ω 1 = λ + ω 1 λω porque λ 1 λω ω = ω λ 1) Para o caso geral em que λ C, fazemos cair no caso real escrevendo λ + ω 1 2 = λ 1 ω) 2 = λ 2 2 Re λ) 1 ω) + 1 ω) 2 λ 2 2 λ 1 ω) + 1 ω) 2 = [ λ 1 ω)] 2 = [ λ + ω 1] 2 λ 2 ω 2 O resultado acima continua valendo com desigualdade estrita nas linhas onde a desigualdade é estrita A Proposição 236 implica então que S é invertível, contradizendo det S = Teorema Seja A uma matriz simétrica positiva definida Então o método SOR converge se 0 < ω < 2
56 Rodney Josué Biezuner 55 Prova Usaremos o Teorema 313 Escrevendo A = D L U, temos L t = U porque A é simétrica e as entradas diagonais de D positivas porque A é positiva definida Para o método SOR temos logo B = 1 ω D L e C = 1 ω ω D + U, B t + C = 1 ω D Lt + 1 ω ω D + U = 2 ω ω D é uma matriz simétrica positiva definida se 0 < ω < 2 Na verdade, se as entradas diagonais de uma matriz simétrica são positivas, a condição de ser definida positiva é equivalente à convergência do método SOR para 0 < ω < 2, como o próximo resultado mostra 324 Teorema Seja A uma matriz simétrica com entradas diagonais positivas Então o método SOR converge se e somente se A é positiva definida e 0 < ω < 2 Prova Assuma que A é positiva definida e que 0 < ω < 2 Seja R = I ωd 1 L ) 1 [ 1 ω) I + ωd 1 U ] a matriz de iteração do método SOR Se λ é um autovalor de R e x um autovetor associado, temos Rx = λx, donde [ 1 ω) I + ωd 1 U ] x = λ I ωd 1 L ) x Fazendo o produto interno canônico hermitiano) de C n de ambos os lados com o vetor x, segue que 1 ω) x, x + ω x, D 1 Ux = λ x, x ω x, D 1 Lx ) Isolando λ, λ = 1 ω) x, x + ω x, D 1 Ux x, x ω x, D 1 361) Lx Como A é simétrica, o produto de matrizes simétricas D 1 A = I D 1 U D 1 L também é; como D 1 U, D 1 L são respectivamente a parte estritamente triangular superior e estritamente triangular inferior de uma matriz simétrica, temos D 1 U ) t = D 1 L Logo x, D 1 Ux D = 1 U ) t x, x = D 1 L ) x, x = x, D 1 L) x, e definindo podemos escrever z = λ = x, D 1 L ) x x, x, 1 ω) + ωz 362) 1 ωz Os argumentos acima assumem que o denominador é não-nulo E, de fato, temos x, D 1 L ) x x, D 1 U ) x ) x, D 1 L + D 1 U ) x Re z = 1 2 z + z) = 1 2 x, x x, I D 1 A ) x = 1 2 x, x = x, x x, D 1 A ) x ) x, x = 1 2 x, x
57 Como 0 < ω < 2 e Re z < 1 2, temos ω 2 ω) 1 2 Re z) > 0, Rodney Josué Biezuner 56 e como A é positiva definida, D 1 A também é, o que implica x, D 1 A ) x x, x > 0 donde Re z < 1 2 de modo que a parte real do denominador 1 ωz de λ é não-nula para 0 < ω < 2 Segue que λ 2 = λλ = [1 ω) + ωz] [1 ω) + ωz] 1 ωz) 1 ωz) = ω2 2ω 2 Re z 2ω + 4ω Re z + 1 2ω Re z + ω 2 z 2 1 2ω Re z + ω 2 z 2 = 1 ω 2 ω) 1 2 Re z) 1 2ω Re z + ω 2 z 2 = 1 ω)2 + 2ω 1 ω) Re z + ω 2 z 2 1 2ω Re z + ω 2 z 2 e concluímos que λ < 1 para todo autovalor λ de R, logo o método SOR converge A demonstração da recíproca assim como uma demonstração alternativa, variacional, deste teorema) pode ser vista em [Young] Usando o Teorema 322, concluímos que o método SOR converge para as matrizes de discretização obtidas através dos esquemas de diferenças finitas do Capítulo 1 se 0 < ω 1 Isso permite apenas subrelaxamento do método de Gauss-Seidel, o que em geral reduz a velocidade de convergência Por outro lado, usando o Teorema 323 ou o Teorema 324, concluímos que o método SOR converge para as matrizes de discretização obtidas a partir da fórmula de três pontos unidimensional e a partir da fórmula de cinco pontos bidimensional se 0 < ω < 2, já que estas são matrizes simétricas, positivas definidas já as matrizes de discretização obtidas através de coordenadas polares ou pelo esquema de Shortley-Weller não são simétricas, em geral, como vimos) Em seguida fazemos uma análise da velocidade de convergência do método SOR para a matriz de discretização da fórmula de cinco pontos, bem como obtemos o melhor valor do fator de relaxamento ω para este caso 325 Lema Seja A a matriz de discretização obtida a partir da fórmula de três pontos unidimensional ou a partir da fórmula de cinco pontos bidimensional Se λ 0 é um autovalor de R SOR, então existe um autovalor λ J de R J tal que λ J = 1 ω λ λ 1/2 ω 363) 2 Reciprocamente, se λ J é um autovalor de R J e λ C satisfaz a equação acima, então λ é um autovalor de R SOR Prova Argumentamos como na demonstração do Teorema 313 Para obter o raio espectral da matriz de iteração R SOR, queremos encontrar os autovalores λ de R SOR : R SOR u = I ωd 1 L ) 1 [ 1 ω) I + ωd 1 U ] u = λu, ou seja, [ 1 ω) I + ωd 1 U ] u = λ I ωd 1 L ) u
58 Rodney Josué Biezuner 57 No caso da matriz de discretização da fórmula de cinco pontos, isso significa encontrar λ tal que 1 ω) u i,j + ω 4 u i,j+1 + ω 4 u i+1,j = λ u i,j ω 4 u i,j 1 ω ) 4 u i 1,j ou Fazendo a substituição e dividindo por µ i+j+1 2, segue que 1 ω λ u i,j = 1 ω 4 u i,j+1 + u i+1,j + λu i,j 1 + λu i 1,j ) 364) u i,j = λ i+j 2 vi,j v i 1,j + v i+1,j + v i,j 1 + v i,j+1 = 1 ω λ λ 1/2 ω 4v i,j e daí o resultado Resolvendo a equação 363) como uma equação quadrática em λ, vemos que as duas raízes λ ± = ) 2 λ ± podem ser escritas na forma λ ± = 1 [ ] 2 ωλ J ± ω 4 2 λ 2 J 4 ω 1) 365) Denotaremos e por λ J = ρ R J ) o maior autovalor do método de Jacobi Λ ω,λj = max λ +, λ ) 366) 326 Proposição Seja A a matriz de discretização obtida a partir da fórmula de três pontos unidimensional ou a partir da fórmula de cinco pontos bidimensional Então ρ R SOR,ω ) = Λ ω,λj 367) Prova Por definição, De 365) segue que ρ R SOR,ω ) = max λ J Λ ω,λj Λ ω,λj = 1 4 ωλ J + ω 2 λ 2 2 J 4 ω 1) Se 0 < ω 1, ω 2 λ 2 J 4 ω 1) 0 e Λ ω,λj é uma função crescente de λ J, logo o máximo é atingido em λ J Se ω > 1, defina 4 ω 1) λ c = ω 2 Se λ J > λ c, ω 2 λ 2 J 4 ω 1) > 0 e segue a conclusão como no caso anterior Se λ J λ c, então ω 2 λ 2 J 4 ω 1) 0 e ω 2 λ 2 J 4 ω 1) = 4 ω 1) ω 2 λ 2 Ji, onde i = 1, logo Λ ω,λj = ωλ J + ω 2 λ 2 J 4 ω 1) = ω 1, e novamente Λ ω,λj é uma função crescente de λ J 2 [ ] = ω 2 2 λ 2J + 4 ω 1) ω 2 λ 2 J
59 Rodney Josué Biezuner 58 Defina ωótimo = 2 368) λ 2 J Note que 1 < ωótimo < 2 Mostraremos que ωótimo é de fato o melhor valor para o fator de relaxamento no método SOR Antes precisamos do seguinte resultado: 327 Proposição Seja A a matriz de discretização obtida a partir da fórmula de três pontos unidimensional ou a partir da fórmula de cinco pontos bidimensional Então 2 1 ρ R SOR,ω ) = ωλ J + ω 4 2 λ 2 J 4 ω 1)) se 0 < ω ωótimo, 369) ω 1 se ωótimo ω < 2 Prova Temos ω 2 λ 2 J 4 ω 1) 0 para 0 < ω < 2 se e somente se ω ωótimo De fato, as raízes de f ω) = ω 2 λ 2 J 4ω + 4 são ω ± = 4 ± 4 1 λ 2 J 2λ 2 = 2 ) J λ 2 1 ± 1 λ 2 J J de modo que a raiz positiva de f é maior que 2, logo para que f ω) 0 se 0 < ω < 2, devemos ter ) ω 2 ) λ λ 2 J = λ 2 J 2 J λ 2 = J λ 2 J λ 2 J O resultado segue então como na demonstração da proposição anterior 328 Teorema Seja A a matriz de discretização obtida a partir da fórmula de três pontos unidimensional ou a partir da fórmula de cinco pontos bidimensional Então o fator de relaxamento ótimo para o método SOR é dado por 2 ωótimo = 1 + sen π 370) n é o fator de relaxamento ótimo para o método SOR Prova Se 0 < ω ωótimo, então ω 2 λ 2 J 4 ω 1) 0 e ) d ωλ J + ω dω 2 λ 2 J 4 ω 1) = λ J Temos ωλ 2 J 2 < 0, porque 0 < ω < 2 e λ J < 1, e ωλ 2 J 2 > λ J ω 2 λ 2 J 4 ω 1), ω 2 λ 2 J 4 ω 1) + ωλ 2 J 2 ω 2 λ 2 J 4 ω 1) pois ωλ 2 J 2 2 = ω 2 λ 4 J 4λ 2 Jω + 4 > ω 2 λ 4 J 4λ 2 Jω + 4λ 2 J > ω 2 λ 4 J 4λ 2 J ω 1) 2 = [λ J ω 2 λ 2 J 4 ω 1)]
60 Rodney Josué Biezuner 59 Isso implica ) d ωλ J + ω dω 2 λ 2 J 4 ω 1) < 0, logo ρ R SOR,ω ) é decrescente de 0 até ωótimo Para ωótimo ω < 2, ρ R SOR,ω ) = ω 1 é claramente crescente Portanto, ρ R SOR,ω ) atinge o seu mínimo em ωótimo Pelo Teorema 315, temos λ J = cos π n, logo ωótimo = 2 = λ 2 J cos 2 π n 2 = 1 + sen π n Para o quadrado unitário temos e conseqüentemente e usando se h é pequeno podemos aproximar ρ R SOR,ω ) = ωótimo = sen πh) 2 1 sen πh) 1 = 1 + sen πh) 1 + sen πh) 1 x 1 + x = 1 2x + O x 2), sen x = x + O x 3), 1 sen πh) 1 + sen πh) 1 2πh + O h 2) Portanto, usando o valor ótimo de ω no método SOR, temos ρ R) 1 linearmente quando h 0, um resultado muito melhor que o obtido nos métodos de Jacobi e de Gauss-Seidel Para uma comparação mais precisa, usando log 1 + x) = x + O h 2) temos que Segue que R R SOR ) = 2πh + O h 2) 371) R R SOR ) R R Gauss-Seidel ) 2πh π 2 h 2 = 2 πh Em particular, se h = 0025, temos ωótimo = e R R SOR ) /R R Gauss-Seidel ) = 255, isto é, o método SOR é 25 vezes mais rápido que o método de Gauss-Seidel Quanto mais refinada a malha, maior é a diferença na velocidade de convergência entre os dois métodos 334 Convergência do Método de Jacobi Amortecido 329 Teorema Se o método de Jacobi converge, então o método de Jacobi amortecido converge para 0 < ω 1
61 Rodney Josué Biezuner 60 Prova Vamos escrever a matriz de iteração R J,ω do método de Jacobi amortecido em função da matriz de iteração do método de Jacobi R J Temos R J = D 1 D A) de modo que ) 1 ) ) ) 1 1 1ω 1ω R J,ω = ω D ω D A = ωd 1 D D + D A = ωd 1 D D + ωd 1 D A) donde Em particular, se e somente se Portanto, λ J é um autovalor de R J se e somente se R J,ω = 1 ω) I + ωr J 372) R J v = λv [R J,ω 1 ω) I] v = ωλv λ J,ω = ωλ J + 1 ω 373) é um autovalor de R J,ω Logo, se todo autovalor de R J satisfaz λ J < 1 isto é, ρ R J ) < 1 equivalente ao método de Jacobi convergir) e ω < 1, então λ J,ω 2 = ωλ J + 1 ω) ωλ J + 1 ω ) = ω 2 λ J Re λ J ω 1 ω) + 1 ω) 2 ω 2 λ J λ J ω 1 ω) + 1 ω) 2 = ω λ J + 1 ω) 2 < 1 Segue do Teorema 313 que o método de Jacobi amortecido converge para as matrizes de discretização do Capítulo 1 se 0 < ω Corolário Para o quadrado unitário temos Usando ρ R J,ω ) = ω [ρ R J ) 1] ) ρ R J,ω ) = ω [cos πh) 1] ) cos x = x2 + O x 4), log 1 + x) = x + O h 2), se h é pequeno podemos aproximar ρ R J,ω ) 1 ω π2 2 h2 + O h 4), R R J,ω ) ω π2 2 h2 Vemos que a velocidade de convergência do método de Jacobi amortecido é da mesma ordem que a do método de Jacobi, um pouco pior para valores de ω próximos de 1 e muito pior para valores de ω próximos de 0
62 Rodney Josué Biezuner Resumo Método ρ R) R R) Jacobi cos πh) π 2 2 h2 + O h 4) Gauss-Seidel cos 2 πh) π 2 h 2 + O h 4) SOR ótimo 1 2πh + O h 2) 2πh + O h 2) Jacobi amortecido 1 ω π2 2 h2 + O h 4) ω π2 2 h2 + O h 4) 34 Exercícios 31 Os métodos de Jacobi e Gauss-Seidel não são sempre comparáveis: existem sistemas lineares para as quais o método de Jacobi converge, enquanto que o método de Gauss-Seidel não converge ou até mesmo diverge, e vice-versa a) Verifique no computador que o método de Jacobi converge para o sistema linear x + z = 2 x + y = 0 x + 2y 3z = 0 enquanto que o método de Gauss-Seidel não converge observe que a solução exata deste sistema é 1, 1, 1)) b) Verifique no computador que o método de Gauss-Seidel converge se 2x + y + z = 4 x + 2y + z = 4 x + y + 2z = 4 enquanto que o método de Jacobi não converge, usando o vetor 0, 0, 0) como chute inicial observe que a solução exata deste sistema é 1, 1, 1)) c) Justifique matematicamente o resultado de cada um dos ítens anteriores
63 Capítulo 4 Métodos de Projeção A maioria dos métodos iterativos práticos para a resolução de sistemas lineares grandes usa um processo de projeção de uma forma ou outra Um processo de projeção é uma maneira canônica de obter uma aproximação para a solução do sistema linear dentro de um subespaço especificado Neste capítulo veremos a técnica descrita de maneira geral e uma aplicação detalhada para o caso unidimensional 41 Teoria Geral A idéia básica de uma técnica de projeção é extrair uma solução aproximada para a solução do sistema Ax = b de um subespaço especificado K R n, chamado o subespaço de busca Se m = dim K, então em geral são necessárias m restrições para obter esta aproximação Uma maneira típica de descrever estas restrições é impor m condições de ortogonalidade; um exemplo é exigir que o vetor residual r = b Ax seja ortogonal a m vetores linearmente independentes que geram um subespaço L, chamado o subespaço de restrições Muitos métodos matemáticos são baseados neste tipo de descrição, conhecida como as condições de Petrov- Galerkin Existem duas classes gerais de métodos de projeção: os métodos de projeção ortogonal, quando L = K e neste caso as condições de Petrov-Galerkin são chamadas simplesmente condições de Galerkin), e os métodos de projeção oblíqua, quando L K 41 Definição Seja A M n C) uma matriz invertível e K, L R n dois subespaços vetoriais m-dimensionais Um método de projeção sobre o subespaço K ortogonal ao subespaço L é um processo que encontra uma solução aproximada x em K para o sistema Ax = b tal que o vetor residual r = b A x é ortogonal a L, ou seja, encontrar x K tal que r = b A x L 41) Se queremos explorar o conhecimento de um bom chute inicial x 0 para a solução, então a aproximação é buscada no espaço afim x 0 + K Neste caso, a técnica é redefinida como Denotando e o vetor resíduo inicial encontrar x x 0 + K tal que r = b A x L 42) x = x 0 + p r 0 = b Ax 0, de modo que r = b A x = b A x 0 + p ) = r 0 Ap, a solução aproximada pode ser descrita como x = x 0 + p, p K, r 0 Ap, w = 0 para todo w L 43) O vetor p que está no subespaço de busca é chamado o vetor de busca 62
64 Rodney Josué Biezuner Representação Matricial Sejam B K = {v 1,, v m } e B L = {w 1,, w m } bases para K e L, respectivamente Construímos as matrizes n m V = [v 1 v m ], 44) W = [w 1 w m ], que tem estes vetores como colunas Então a solução aproximada pode ser escrita na forma x = x 0 + V y 45) para algum vetor y R m, ou seja, p = V y A condição de ortogonalidade r 0 AV y, w = 0 para todo w L também pode ser representada matricialmente na forma para todo z R m, ou seja, ou W z) T r 0 AV y ) = z T W T r 0 AV y ) = 0 W T r 0 AV y ) = 0 W T AV y = W T r 0 46) A partir daí, se assumirmos que a matriz m m W T AV é invertível o que não é garantido mesmo quando A é invertível; veja Exercício 41), obtemos a seguinte expressão matricial para a solução aproximada: x = x 0 + V W T AV ) 1 W T r 0 47) Desta forma, um algoritmo típico para um método de projeção tem a forma Algoritmo para um Método de Projeção do until stop criterion Selecione um par de subespaços K e L Escolha bases B K = {v 1,, v n } e B L = {w 1,, w n } para K e L r b Ax; y W T AV ) 1 W T r; x x + V y; end do Em muitos algoritmos, a matriz W T AV não precisa ser formada, e muito menos sua inversa calculada, da mesma forma que a matriz de iteração não precisava ser explicitamente calculada nos métodos iterativos lineares A matriz W T AV é invertível se e somente se nenhum vetor do subespaço AK é ortogonal ao subespaço L Exercício 42) Duas condições independentes que garantem a invertibilidade de W T AV são dadas pela proposição seguinte: 42 Proposição Se A M n C) e os subespaços K, L R n satisfazem qualquer uma das duas condições a seguir i) A é positiva definida e L = K, ou ii) A é invertível e L = AK Ax = b então a matriz W T AV é invertível quaisquer que sejam as bases V, W de K, L, respectivamente
65 Rodney Josué Biezuner 64 Prova: i) Como L = K, podemos escrever W = V P para alguma matriz m m invertível P Exercício 43) Então W T AV = P T V T AV Como A é positiva definida, segue que V T AV também é Exercício 44); em particular, a matriz m m V T AV é invertível Logo, sendo o produto de duas matrizes invertíveis, W T AV é invertível ii) Neste caso, como L = AK, podemos escrever W = AV P para alguma matriz m m invertível P Daí, W T AV = P T AV ) T AV Como A é invertível, a matriz n m AV possui posto máximo, logo a matriz m m AV ) T AV é invertível Exercício 45) Novamente, sendo o produto de duas matrizes invertíveis, W T AV é invertível Em particular, se A é uma matriz simétrica e um método de projeção ortogonal é utilizado, podemos tomar V = W e a matriz projetada V T AV também é simétrica; da mesma forma, se além disso A for positiva definida, V T AV também será 412 Minimização de Funcionais A solução aproximada x do sistema Ax = b através de um método de projeção pode ser obtida como o ponto de mínimo de um funcional quadrático associado à matriz A Consideremos primeiro o caso em que A é uma matriz simétrica positiva definida Neste caso, a própria solução do sistema Ax = b é o minimizante de um funcional quadrático associado à matriz A: 43 Teorema Método Variacional para a Resolução de Sistemas Lineares) Seja A M n R) uma matriz simétrica positiva definida e b R n Então a solução do sistema Ax = b é o único ponto x que minimiza o funcional quadrático f y) = 1 Ay, y b, y 48) 2 Prova: Uma matriz simétrica positiva definida é em particular invertível, logo existe uma única solução x para o sistema Ax = b Temos Como A é positiva definida, segue que f y) f x) = 1 2 Ay, y b, y 1 Ax, x + b, x 2 = 1 2 Ay, y Ax, y 1 Ax, x + Ax, x 2 = 1 2 Ay, y Ax, y + 1 Ax, x 2 = 1 2 Ay, y 1 2 Ax, y 1 2 Ax, y + 1 Ax, x 2 = 1 2 A y x), y 1 A y x), x 2 = 1 A y x), y x 2 A y x), y x 0 e se e somente se y = x Portanto, A y x), y x = 0 f y) > f x)
66 Rodney Josué Biezuner 65 para todo y x e o mínimo de f ocorre em x Em muitos problemas, o funcional f tem um significado físico, correspondendo a um funcional de energia; o minimizante deste funcional de energia corresponde a um estado de equilíbrio do sistema Observe que, definindo um produto interno a partir da matriz simétrica positiva definida A da maneira usual por v, w A = Av, w e considerando a norma vetorial induzida v A = v, v 1/2 A, chamada A-norma, o funcional f pode ser escrito na forma substituindo b = Ax) f y) = 1 2 y 2 A x, y A 49) O vetor de aproximação x de um método de projeção ortogonal sobre K a partir de um vetor inicial x 0 é exatamente o minimizante da primeira parte deste funcional sobre o subespaço afim x 0 + K: 44 Proposição Sejam A M n R) uma matriz simétrica positiva definida e L = K Então x é o vetor de aproximação de um método de projeção ortogonal sobre K a partir de um vetor inicial x 0 se e somente se ele minimiza a A-norma do erro sobre x 0 + K, isto é, se e somente se E x) = min E y) y x 0 +K Prova: Seja x a solução exata do sistema Ax = b Então a A-norma do erro é dada por E y) = x y A Segue do lema da projeção ortogonal ou lema da melhor aproximação) que x é um minimizante de E y) sobre o subespaço afim x 0 + K se e somente se x x é A-ortogonal a K, ou seja, se e somente se ou, equivalentemente, A x x), v = 0 para todo v K, b A x, v = 0 para todo v K Esta é a condição de Galerkin que define o vetor de aproximação de um método de projeção ortogonal veja 42)) Vamos considerar agora o caso de um método de projeção oblíqua em que L = AK 45 Proposição Sejam A M n C) uma matriz qualquer e L = AK Então x é o vetor de aproximação de um método de projeção oblíqua sobre K ortogonal a L a partir de um vetor inicial x 0 se e somente se ele minimiza a 2-norma do resíduo sobre x 0 + K, isto é, se e somente se R x) = min R y) y x 0 +K Prova: Considere o sistema Ax = b Então a 2-norma do resíduo é dada por R y) = b Ay 2 Segue do lema da projeção ortogonal ou lema da melhor aproximação) que x é um minimizante de R y) sobre o subespaço afim x 0 + K se e somente se b A x é ortogonal a AK = L, ou seja, se e somente se b A x, w = 0 para todo w L Esta é a condição de Petrov-Galerkin que define o vetor de aproximação de um método de projeção oblíqua veja 42))
67 Rodney Josué Biezuner Estimativa do Erro em Métodos de Projeção Se nenhum vetor do subespaço K está próximo da solução exata x, então é impossível encontrar uma boa aproximação x para x em K Por outro lado, se existir algum vetor em K que está a uma pequena distância ε de x, então podemos perguntar qual a melhor aproximação a x podemos encontrar em K No que se segue assumiremos x 0 = 0; em particular, o subespaço afim x 0 + K é o subespaço vetorial K Seja P K a projeção ortogonal sobre K, definida por e Q L K a projeção oblíqua sobre K e ortogonalmente a L, definida por P K x K, x P K x K, 410) Q L Kx K, x Q L Kx L 411) Observe que se K = L isto é, projeção ortogonal), temos Q K K = P K) Então o problema de aproximação da Definição 41 pode ser expresso na linguagem destes operadores como Equivalentemente, definindo o operator A m : K K por ele pode ser expresso na forma encontrar x K tal que Q L K b A x) = 0 412) A m = Q L KAP K, encontrar x K tal que A m x = Q L Kb, 413) de modo que um problema n-dimensional é aproximado por um problema m-dimensional 46 Proposição Assuma x 0 = 0 Suponha que K é invariante por A e que b K Então o vetor de aproximação x de um método de projeção ortogonal ou oblíqua) sobre K a partir do vetor inicial x 0 é a solução exata x Prova: Temos Q L K b A x) = 0 Como por hipótese A x, b K, segue que QL K A x = A x e QL Kb = b, logo b A x = 0 e portanto x = x O mesmo resultado vale se x 0 0 sob a hipótese adicional que o resíduo inicial r 0 = b Ax 0 K A distância da solução exata x ao subespaço K, que pode ser escrita como I P K ) x, desempenha um papel fundamental na estimativa do erro da solução aproximada x K, já que a distância desta à solução exata obviamente não pode ser menor que a distância de x a K O próximo resultado fornece uma estimativa superior para a norma do resíduo da solução exata com respeito ao operador aproximado A m 47 Teorema Assuma x 0 = 0 e b K Denote Então a solução exata x satisfaz a estimativa isto é, Prova: Como b K, segue que γ = Q L KA I P K ) b A m x γ I P K ) x, dist A m x, b) γ dist x, K) b A m x = Q L K b AP K x) = Q L KA x P K x) = Q L KA I P K ) x Daí, já que I P K é uma projeção e portanto satisfaz I P K ) 2 = I P K ), podemos escrever b A m x = Q L K A I P K ) I P K ) x γ I PK ) x
68 Rodney Josué Biezuner Caso Unidimensional: Métodos de Descida Nesta seção, A será sempre uma matriz real simétrica positiva definida Outra maneira de enxergar o resultado do Teorema 43 é observar que o gradiente do funcional f é Se x é um ponto de mínimo temos f x) = 0, ou seja, f y) = Ay b 414) Ax = b O método variacional sugerido pelo Teorema 43 é a base dos métodos iterativos de descida em geral, e do método do gradiente conjugado em particular A idéia é usar as idéias do cálculo diferencial para encontrar o mínimo do funcional quadrático f 421 Métodos de Descida A filosofia dos métodos de descida é começar com um chute inicial x 0 e gerar uma seqüência de iterados x 1, x 2,, x k, que satisfazem f x k+1) f x k) ou, melhor ainda, f x k+1) < f x k) de tal modo que x k convirja para o minimizador de f Em outras palavras, em um método de descida buscamos encontrar uma seqüência minimizante x k) que convirja para a solução do sistema O passo de x k para x k+1 envolve dois ingredientes: 1) uma direção de busca e 2) um avanço de comprimento especificado na direção de busca Uma direção de busca significa a escolha de um vetor p k que indicará a direção que avançaremos de x k para x k+1 O comprimento do avanço é equivalente à escolha de um escalar α k multiplicando o vetor p k Assim, x k+1 = x k + α k p k A escolha de α k é também chamada uma busca na reta, já que queremos escolher um ponto na reta { x k + αp k : α R } tal que f x k + αp k) f x k) Idealmente, gostaríamos de escolher α k de tal modo que f x k+1) = f x k + α k p k) = min α R f x k + αp k) Esta é chamada uma busca exata na reta Para funcionais quadráticos, a busca exata na reta é trivial e obtemos uma fórmula para o valor de α k, como veremos a seguir Denotaremos o resíduo em cada iteração por r k = b Ax k 415) 47 Proposição Seja α k R tal que f x k + α k p k) = min α R f x k + αp k) Então p k, r k α k = p k, Ap k 416)
69 Rodney Josué Biezuner 68 Prova: Considere o funcional g é um polinômio quadrático em α, pois g α) = f x k + αp k) g α) = 1 A x k + αp k), x k + αp k b, x k + αp k 2 = 1 Ax k, x k b, x k + α Ap k, x k + α Ax k, p k + α2 Ap k, p k α b, p k = f x k) + α [ Ax k, p k b, p k ] + α2 Ap k, p k 2 = f x k) α r k, p k + α2 Ap k, p k, 2 portanto o mínimo de g é atingido no vértice B/2A da parábola Y = AX 2 + BX + C Observe que α k = 0 se e somente se p k, r k = 0, isto é, a direção de busca é ortogonal ao resíduo Como gostaríamos sempre que possível de ter x k+1 x k, devemos sempre escolher a direção de busca de forma a não ser ortogonal a r k Se esta escolha é feita, então teremos sempre f x k+1) < f x k) 48 Exemplo Método de Gauss-Seidel) Considere o método de descida em que as primeiras n direções de busca p 1,, p n são os vetores e 1,, e n da base canônica de R n, e isso é repetido a cada n iterações, de modo que p k+n = e k para todo k = 1,, n, com uma busca na reta exata executada em cada iteração Então cada grupo de n iterações corresponde a uma iteração do método de Gauss-Seidel 49 Exemplo Método SOR) Usando as mesmas direções de busca do exemplo anterior, mas com x k+1 = x k + ωα k p k, ω 1, obtemos um método de descida em que as buscas nas retas são inexatas Cada grupo de n iterações corresponde a uma iteração do método SOR Observe que o método de descida é um método de projeção em que L e K são subespaços unidimensionais, com K = p k e L um subespaço não ortogonal a K, em cada iteração k Se o método de descida será um método de projeção ortogonal ou oblíquo dependerá da escolha do vetor de direção de busca p k 422 Método da Descida Mais Acentuada Do Cálculo Diferencial, sabemos que a direção em que a função cresce a uma taxa mais rápida a partir de um ponto é a direção do gradiente neste ponto Esta observação é a base da escolha da direção de busca no método da descida mais acentuada também chamado método do gradiente) Em outras palavras, escolhemos ou p k = f x k) = b Ax k p k = r k 417) Como neste caso K = L = p k, o método da descida mais acentuada será um método de projeção ortogonal Buscar na direção da descida mais acentuada é uma idéia natural, mas que na prática não funciona sem modificações De fato, em alguns casos o método é de velocidade comparável à do método de Jacobi, como na matriz de discretização da fórmula de cinco pontos aplicada ao problema descrito na primeira seção deste capítulo [Watkins]: x = 01 x = 005 x = 0025 Jacobi Descida Mais Acentuada De fato, como as iterações do método de descida mais acentuada são bem mais custosas que as do método de Jacobi, o primeiro é muito pior que este último
70 Rodney Josué Biezuner 69 Para entender melhor o método da descida mais acentuada, porque ele pode ser lento e as modificações que vamos fazer para torná-lo mais rápido levando ao método do gradiente conjugado a ser visto no próximo capítulo, vamos entender o processo do ponto de vista geométrico Como vimos na demonstração do Teorema 43, o funcional quadrático f é da forma f y) = 1 A y x), y x) + c 418) 2 onde c = f x) é uma constante Já que A é uma matriz simétrica, existe uma matriz ortogonal P tal que P t AP é uma matriz diagonal D, cujos valores na diagonal principal são exatamente os autovalores positivos de A Nas coordenadas z = P t y x), o funcional f tem a forma f z) = 1 2 Dz, z + c = 1 2 λ i zi 2 + c 419) As curvas de nível do funcional f neste sistema de coordenadas são elipses em R 2, elipsóides em R 3 e hiperelipsóides em R n ) centradas na origem com eixos paralelos aos eixos coordenados e f 0) = c é nível mínimo de f; elipses correspondentes a menores valores de f estão dentro de elipses correspondentes a maiores valores de f Como P é uma aplicação ortogonal, as curvas de nível de f no sistema de coordenadas original também são elipses, centradas em x, e uma reta de um ponto y até o ponto x corta elipses de níveis cada vez menores até chegar ao mínimo da função f em x, centro de todas as elipses O vetor gradiente é perpendicular às curvas de nível, logo é perpendicular às elipses Seguir a direção de descida mais acentuada equivale a cortar a elipse que contém x k ortogonalmente na direção do interior da elipse até encontrar um ponto x k+1 situado em uma elipse que a reta tangencie, pois a partir daí a reta irá na direção de elipses com níveis maiores, portanto este é o ponto da reta onde f atinge o seu mínimo Em particular, vemos que a próxima direção p k+1 é ortogonal à direção anterior p k, tangente a esta elipse veja também o Corolário 412) Em geral, a direção de descida mais acentuada não é a direção de x quando bastaria uma iteração para atingir a solução exata) a não ser que A seja um múltiplo escalar da identidade, de modo que todos os autovalores de A são iguais e as elipses são círculos Por outro lado, se os autovalores de A têm valores muito diferentes uns dos outros, com alguns muito pequenos e alguns muito grandes, as elipses serão bastante excêntricas e, dependendo do chute inicial, a convergência pode ser muito lenta Matrizes com estas propriedades são chamadas mal-condicionadas; para que o método de descida acentuada seja lento, a matriz A não precisa ser muito mal-condicionada veja a Definição 414 e a discussão que se segue) Como vimos na seção anterior, os algoritmos de Gauss-Seidel e SOR podem ser encarados como algoritmos de descida A discussão no parágrafo anterior também pode ser usada para entender a relativa lentidão destes algoritmos A seguir, provaremos a convergência do método da descida mais acentuada 410 Lema Desigualdade de Kantorovich) Sejam A M n R) uma matriz simétrica positiva definida e denote por λ max e λ min seu menor autovalor e seu maior autovalor, respectivamente Então Ax, x A 1 x, x x, x 2 λ 2 min + λ max ) 4λ min λ max para todo x 0 Prova: Denote os autovalores de A por λ 1 λ n, de modo que λ min = λ 1 e λ max = λ n Como o quociente à esquerda da desigualdade é homogêneo, basta provar a desigualdade para vetores x unitários Como A é simétrica, existem uma matriz diagonal D e uma matriz ortogonal P tais que A = P T DP Segue que Ax, x A 1 x, x = P T DP x, x P T D 1 P x, x = DP x, P x D 1 P x, P x
71 Rodney Josué Biezuner 70 Denote y = P x = y 1,, y n ) e β i = yi 2 Então y também é um vetor unitário e λ := Dy, y = β i λ i é uma combinação convexa dos autovalores λ i de A, ao passo que é uma combinação convexa dos autovalores λ 1 i µ := D 1 y, y = β i λ i de A 1 Consequentemente, µ λ 420) λ 1 λ n λ 1 λ n De fato, a função ϕ t) = 1/t é convexa, logo o ponto λ, µ), que é a combinação convexa de pontos localizados no gráfico de ϕ, está localizado na região plana convexa limitada pelo gráfico de ϕ e o segmento de reta que une os pontos extremos do gráfico λ 1, 1/λ 1 ) e λ n, 1/λ n ), ou seja, o segmento de reta t 1 λ 1 λ n t + 1 λ λ n, λ 1 t λ n Em particular, o ponto λ, µ) está abaixo do ponto do segmento correspondente a t = λ Portanto, Ax, x A 1 x, x 1 = λµ λ + 1 λ ) λ 1 λ n λ 1 λ n O máximo da função quadrática é atingido para t = a + b) /2 Concluímos que Ax, x A 1 x, x λ 1 + λ n 2 1 t t a + 1 b t ) ab λ ) 1 + λ n = λ 1 + λ n ) 2 λ 1 λ n 2λ 1 λ n 4λ 1 λ n 411 Lema Seja x k+1 = x k + α k p k obtido através de uma busca exata na reta Então r k+1 p k e e k+1 A p k Prova: Temos b Ax k+1 = b Ax k α k Ap k, de modo que a seqüência dos resíduos é dada pela fórmula r k+1 = r k α k Ap k 421) Logo, r k+1, p k = r k+1, p k α k Ap k, p k = r k, p k p k, r k Ap k p k, Ap k, p k = 0
72 Rodney Josué Biezuner 71 A segunda relação de A-ortogonalidade segue diretamente da primeira relação de ortogonalidade; de fato, lembrando que Ae k+1 = r k+1, temos e k+1, p k A = Ae k+1, p k = r k+1, p k = 0 O significado geométrico deste resultado é que o mínimo do funcional f na reta x k + α k p k ocorre quando a derivada direcional de f na direção de busca é zero, ou seja, 0 = f p k x k+1 ) = f x k+1), p k = r k+1, p k 412 Corolário No método da descida mais acentuada vale e r k+1 r k e k+1 A r k 413 Teorema Sejam A M n R) uma matriz simétrica positiva definida e denote por λ max e λ min seu menor autovalor e seu maior autovalor, respectivamente Então o erro algébrico do método da descida mais acentuada satisfaz a estimativa e k+1 A λ max λ min λ max + λ min e k A Em particular, e k A λmax λ min λ max + λ min ) k e 0 A e portanto o método da descida mais acentuada converge qualquer que seja o chute inicial x 0 Prova: Temos e k+1 = x x k+1 = x x k + α k r k) = e k α k r k Logo, pelo Corolário 412, e k+1 2 = e k+1, e k+1 = e k+1, e k α A A A k e k+1, r k = e k+1, e k A A = e k+1, Ae k = e k+1, r k Daí, usando a desigualdade de Kantorovich, e k+1 2 A = e k α k r k, r k = e k, r k α k r k, r k = e k, r k r k, r k r k, r k ) 1 r k, Ar k e k, r k = e k, Ae k r k, r k r k, r k ) 1 r k, Ar k A 1 r k, r k = e k 2 r k, r k r k, r k ) 1 A r k, Ar k r k, A 1 r k ) e k 2 1 4λ minλ max A λ min + λ max ) 2 ) 2 λmax λ min = e k 2 A λ max + λ min
73 Rodney Josué Biezuner 72 Observamos que o fator de convergência obtido no Teorema 413 é ótimo veja Exercício 46) Introduzimos o número de condição de uma matriz, que é uma medida do quão mal-comportada ela é 414 Definição Seja A M n R) uma matriz simétrica positiva definida O número de condição de A é definido por κ A) = λ max λ min Quanto menor o número de condição de A, isto é, quanto mais próximo de 1, mais próximos a esferas são os elipsóides de nível do funcional f; reciprocamente, quando maior o número de condição de A, mais excêntricos são estes A constante do Teorema 413 pode ser mais convenientemente expressa em termos do número de condição da matriz: 415 Corolário Sejam A M n R) uma matriz simétrica positiva definida e denote por λ max e λ min seu menor autovalor e seu maior autovalor, respectivamente Então o erro algébrico do método da descida mais acentuada satisfaz a estimativa e k+1 A κ A) 1 e k κ A) + 1 A Desta forma, vemos que quanto mais κ A) é próximo de 1 maior é a velocidade de convergência do método da descida acentuada; reciprocamente, quando maior κ A), mais lento ele é Reunindo as informações obtidas, um algoritmo para o método da descida mais acentuada pode ser apresentado da seguinte forma: initialize x; set b; r b Ax; do until stop criterion 43 Exercícios 41 Considere a matriz invertível compute Ar; α r, r / r, Ar ; x x + αr; r r αar; [ 0 I A = I I onde I é a matriz identidade m m, e seja V = W = {e 1,, e m } Verifique que W T AV é singular 42 Verifique que a matriz W T AV é invertível se e somente se nenhum vetor do subespaço AK é ortogonal ao subespaço L 43 Sejam B 1 = {v 1,, v m } e B 2 = {w 1,, w m } duas bases para o subespaço K R n e considere as matrizes n m V = [v 1 v m ] e W = [w 1 w m ] Mostre que existe uma matriz m m invertível P tal que V = W P 44 Mostre que se A é uma matriz positiva definida n n e V é uma matriz n m cujas colunas são linearmente independentes, então a matriz m m V T AV também é uma matriz positiva definida 45 Mostre que se A é uma matriz n m cujas colunas são linearmente independentes, então a matriz m m B T B é invertível ],
74 Rodney Josué Biezuner Verifique que a taxa de convergência para o método da descida mais acentuada obtida no Teorema 412 é ótima da seguinte maneira: se v 1 e v n são os autovetores associados a λ min e λ max, respectivamente, mostre que se e 0 = v 1 + v 2, então e k+1 A = λ max λ min λ max + λ min e k A 47 O número de condição para uma matriz invertível A M n C) qualquer é definido por κ A) = A 2 A 1 2 a) Mostre que se A é uma matriz simétrica positiva definida esta definição coincide com a Definição 414 b) Verifique que κ A) 1 para toda matriz A c) Considere o sistema Ax = b Se y é uma aproximação de x com erro algébrico e = x y e erro residual r = b Ay, mostre que 1 f 2 e κ A) x 2 r 2 κ A) f 2 e 2 x 2 2 Esta desigualdade é ótima, no sentido de que a igualdade é atingida para certos valores de y Ela mostra que para uma matriz mal-condicionada isto é, com um número de condição relativamente alto), o erro residual pode ser muito pequeno ao mesmo tempo em que o erro algébrico pode ser muito grande e vice-versa
75 Capítulo 5 Métodos de Subespaços de Krylov Os métodos de projeção deste capítulo estão entre os mais importantes e populares disponíveis Eles estão baseados na projeção sobre subespaços de Krylov, que são subespaços gerados por vetores da forma p A) v onde p é um polinômio 51 Motivação Como vimos ao estudar os métodos iterativos lineares para a resolução do sistema Ax = b, estes métodos consistem em obter uma decomposição apropriada A = B C da matriz do sistema, onde B é uma matriz próxima da matriz original A mas fácil de resolver Então o método iterativo pode ser descrito pela relação de recorrência x m+1 = I B 1 A ) x m + B 1 b, onde R = I B 1 A é a matriz de iteração A matriz mais fácil de resolver é B = I, exceto que esta matriz em geral está muito longe de A Quando esta escolha é feita, obtemos a chamada iteração de Richardson: x m+1 = I A) x m + b = x m + b Ax m ou, simplesmente, x m+1 = x m + r m 51) Assim, o método da iteração de Richardson consiste simplesmente em somar o resíduo da aproximação à própria aproximação para obter a próxima aproximação Na verdade, o método de iteração de Richardson desempenha papel importante na teoria de convergência dos métodos iterativos: por exemplo, todo método iterativo linear com decomposição A = B C pode ser visto como a iteração de Richardson aplicada ao sistema equivalente precondicionado) B 1 Ax = B 1 b A partir de 51) obtemos sua correspondente equação residual: Através da iteração para trás desta equação obtemos r m+1 = I A) r m 52) r m = I A) m r 0 53) = p m A) r 0, 54) 74
76 Rodney Josué Biezuner 75 ou seja, o m-ésimo resíduo é da forma p m A) r 0 onde p m é um polinômio de grau m Além disso, como x m+1 = x m + r m = x m 1 + r m 1) + r m = = = m I A) j r 0, j=0 segue que as aproximação também são da forma q m A) r 0 onde q m é um polinômio de grau igual a m Portanto, tanto os resíduos r 0,, r m como as aproximações x 0,, x m pertencem ao subespaço K m+1 A, r 0 ) = { p A) r 0 : p é um polinômio de grau menor que ou igual a m } = r 0, Ar 0,, A m r 0 52 Subespaços de Krylov 51 Definição Dada uma matriz A M n C) e um vetor v C n, definimos o subespaço de Krylov K m A, v) = v, Av,, A m 1 v 55) Em outras palavras, K m A, v) é o subespaço de todos os vetores que podem ser escritos na forma w = p A) v, onde p é um polinômio de grau menor que ou igual a m 1 Se não houver motivo para confusão denotaremos o subespaço de Krylov K m A, v) simplesmente por K m Como vimos no capítulo anterior, um método de projeção geral para resolver o sistema linear Ax = b extrai uma solução aproximada x m de um subespaço afim x 0 + K m de dimensão m através da imposição da condição de Petrov-Galerkin r m = b Ax m L m Um método de subespaço de Krylov é um método de projeção para o qual o subespaço K m é o subespaço de Krylov K m A, r 0 ) = r 0, Ar 0,, A m 1 r 0 56) As diferentes versões de métodos de subespaço de Krylov decorrem principalmente das diferentes escolhas de L m Lembramos alguns fatos de Álgebra Linear 52 Definição O polinômio mínimo de um vetor v com respeito à matriz A também chamado o A- anulador de v) é o polinômio mônico de menor grau p que anula v, isto é, tal que p A) v = 0 O grau do polinômio mínimo é chamado o grau de v com respeito a A É uma consequência do Teorema de Cayley-Hamilton que grau v n 53 Proposição Seja d = grau v Então K d é invariante por A e K d = K m para todo m d Além disso, se e somente se m d Portanto, dim K m = m dim K m = min {m, d} m j=0 r j
77 Rodney Josué Biezuner 76 Prova: Os vetores v, Av,, A m 1 v formam uma base para K m se e somente se o único polinômio de grau menor ou igual a m 1 que anula v é o polinômio nulo Apesar dos vetores v, Av,, A m 1 v formarem uma base para o subespaço de Krylov K m quando m grau v), esta é uma base mal-condicionada, no sentido que à medida que k aumenta o vetor A k v fica cada vez mais próximo do autovetor associado ao maior autovalor de A, como veremos em detalhe quando estudarmos o método de potências para obter autovalores de matrizes Assim, para m grande os vetores v, Av,, A m 1 v tornam-se aproximadamente linearmente dependentes, o que torna-se um problema em aritmética de precisão finita Para obter uma base bem condicionada para o subespaço de Krylov é necessário usar um método de ortogonalização, como veremos a seguir 53 Algoritmo de Arnoldi O método de Arnoldi é um método de projeção ortogonal em subespaços de Krylov, ou seja, L m = K m = K m A, r 0 ), aplicável para matrizes gerais, não necessariamente hermitianas O procedimento foi introduzido pela primeira vez em 1951 como uma maneira de calcular a forma de Hessenberg de matrizes densas Arnoldi sugeriu que os autovalores da forma de Hessenberg, obtida através de menos que n passos, eram boas aproximações para alguns dos autovalores da matriz original Posteriormente, verificou-se que isso conduz a uma técnica eficiente para a aproximação dos autovalores de matrizes esparsas grandes, como veremos em detalhes quando formos estudar métodos para a obtenção de autovalores de matrizes Posteriormente o método foi estendido para a solução de sistemas lineares esparsos grandes O algoritmo de Arnoldi, propriamente dito, é um procedimento para a construção de uma base ortonormal para o subespaço de Krylov K m, já que, como observado antes, a base natural { v, Av,, A m 1 v } não é bem condicionada Simplesmente ortogonalizar esta base mal-condicionada também não é uma boa opção numérica No algoritmo de Arnoldi, o processo de ortogonalização de Gram-Schmidt é usado da seguinte maneira Inicialmente obtém-se o primeiro vetor unitário através da normalização do vetor v: v 1 = Em seguida, calcula-se o vetor Av 1 ao invés de Av) e ortogonaliza-se este vetor com relação ao vetor v 1 através do método de Gram-Schmidt: v v w 1 = Av 1 proj Av 1 = Av 1 Av 1, v 1 v 1, v 1 v 2 = w 1 w 1 Tendo sido obtido o vetor v 2, calcula-se Av 2 ao invés de A 2 v = A Av)) e ortogonaliza-se este vetor com relação aos vetores v 1, v 2 através do método de Gram-Schmidt: w 2 = Av 2 proj Av 2 = Av 2 Av 2, v 1 v 1 Av 2, v 2 v 2, v 1,v 2 v 3 = w 2 w 2 No passo geral, tendo sido obtido o vetor v j no passo anterior, calcula-se e ortogonaliza-se este vetor com relação aos vetores v 1,, v j obtidos nos passos anteriores através do método de Gram-Schmidt: w j = Av j v j+1 = proj v 1,,v j Av j = Av j j Av j, v i v i, 57) w j w j 58)
78 Rodney Josué Biezuner 77 Podemos resumir este procedimento no seguinte algoritmo: Algoritmo de Arnoldi Atribua v; v 1 v/ v 2 ; Para j = 1,, m faça: Calcule h ij = Av j, v i para i = 1,, j; Calcule w j = Av j j h ij v i ; h j+1,j = w j 2 ; Se h j+1,j = 0 então pare; v j+1 w j /h j+1,j ; fim do laço O algoritmo sofre um colapso se o vetor w j é nulo e o vetor v j+1 não pode mais ser calculado 54 Proposição Assuma que o algoritmo de Arnoldi não pára antes do m-ésimo passo Então os vetores v 1,, v m formam uma base ortonormal para o subespaço de Krylov K m A, v 1 ) = v 1, Av 1,, A m 1 v 1 Prova: Os vetores v 1,, v m são ortonormais por construção, logo são linearmente independentes Basta então mostrar que v 1,, v m K m A, v 1 ) para concluir que eles formam uma base para K m A, v 1 ) Para isso, basta mostrar que cada vetor v j é da forma q j 1 A) v 1 para algum polinômio q j 1 de grau j 1 Isso pode ser visto por indução Se j = 1, temos q 0 t) 1 Assumindo o resultado verdadeiro para todos os inteiros até j, considere v j+1 Temos h j+1,j v j+1 = w j = Av j j h ij v i = Aq j 1 A) v 1 de modo que v j+1 = q j A) v 1 para q j = 1/h j+1,j ) [ tq j 1 t) j j h ij q i 1 A) v 1, ] h ij q i 1 t), que é um polinômio de grau j O significado do colapso do algoritmo de Arnoldi, quando o vetor v j+1 não pode ser mais calculado é dado a seguir: 55 Proposição O algoritmo de Arnoldi sofre um colapso no passo j, isto é h j+1,j = 0, se e somente se o polinômio mínimo de v tem grau j Além disso, neste caso o subespaço K j é invariante por A e portanto a solução obtida pelo método de projeção associado é exata Prova: Se o grau de v é j, então h j+1,j = 0, caso contrário v j+1 poderia ser definido e pela Proposição 54 K j+1 teria dimensão j + 1 maior que o grau de v, contrariando a Proposição 53 Reciprocamente, assuma h j+1,j = 0 Então pelas Proposições 53 e 54 o grau de v é d j Mas pela primeira parte desta demonstração, não podemos ter d < j, pois isso implicaria h d+1,d = 0 e o algoritmo já teria entrado em colapso no passo d O restante do enunciado segue diretamente da Proposição 53 e da Proposição 46 Por isso, tais colapsos são chamados colapsos sortudos Infelizmente eles raramente ocorrem na prática, mas mesmo quando isso não ocorre as iteradas obtidas aproximam a solução exata em um número relativamente pequeno de iterações se comparado com os métodos lineares básicos Vamos agora representar o algoritmo de Arnoldi em uma forma matricial 56 Definição Dizemos que A = a ij ) é uma matriz de Hessenberg se a ij = 0 para todo i > j + 1 matriz de Hessenberg superior) ou se a ij = 0 para todo i < j 1 matriz de Hessenberg inferior)
79 Rodney Josué Biezuner 78 Assim, uma típica matriz de Hessenberg superior quadrada m m é da forma H = h 11 h 12 h 13 h 14 h 1m h 21 h 22 h 23 h 24 h 2m 0 h 32 h 33 h 34 h 3m 0 0 h 43 h 44 h 4m hm 1,m h m,m 1 h mm, 59) ou seja, é uma matriz obtida a partir de uma matriz triangular superior em que a subdiagonal inferior é preenchida Similarmente, uma matriz de Hessenberg inferior quadrada é uma matriz obtida a partir de uma matriz triangular inferior em que a subdiagonal superior é preenchida Uma típica matriz de Hessenberg superior m + 1) m é da forma H = h 11 h 12 h 13 h 14 h 1m h 21 h 22 h 23 h 24 h 2m 0 h 32 h 33 h 34 h 3m 0 0 h 43 h 44 h4m ) h m 1,m h m,m 1 h mm h m+1,m A partir daí, em uma matriz de Hessenberg superior n m com n > m+1 todas as linhas i tais que i > m+1 são nulas 57 Proposição Denote por V m a matriz n m cujas colunas são os vetores v 1,, v m, por H m a matriz de Hessenberg m + 1) m cujas entradas não-nulas são os elementos h ij definidos pelo algoritmo de Arnoldi e por H m a matriz m m obtida de através da eliminação da última linha de H m Então valem as seguintes relações: AV m = V m H m + w m e T m = V m+1 Hm, 511) V T m AV m = H m 512) Prova: Se M é uma matriz, denotemos por M) j a sua j-ésima coluna Do algoritmo de Arnoldi temos, para j = 1,, m, AV m ) j = Av j = j h ij v i + w j = j j+1 h ij v i + h j+1,j v j+1 = h ij v i 513) Por outro lado, V m+1 Hm ) kj = m+1 j+1 h ij v i = h ij v i,
80 Rodney Josué Biezuner 79 de modo que segue de 513) que V m+1 Hm ) j j+1 = h ij v i = AV m ) j, logo AV m = V m+1 Hm Da mesma forma, para j = 1,, m 1, de modo que j+1 V m H m ) j = h ij v i, wm e T m) Vm H m + w m e T m) j = 0, h ij v i = AV m ) j j = j+1 para j = 1,, m 1, enquanto que para j = m temos de modo que V m H m ) m = wm e T m) Vm H m + w m e T m) m h im v i, m = w m = h j+1,j v m+1, m = m+1 h ij v i = AV m ) m Portanto, AV m = V m H m + w m e T m Finalmente, multiplicando ambos os lados desta última relação por Vm T e usando o fato) que os vetores ) v 1,, v m são ortonormais e w m é ortogonal a todos eles, segue que Vm T V m = I e Vm T wm e T m = V T m w m e T m = 0, donde obtemos a última relação do enunciado desta proposição 54 Implementação Prática: Métodos de Ortogonalização Estáveis O algoritmo de Gram-Schmidt é numericamente instável: pequenos erros de arredondamento podem dar origem a vetores muito longe de serem ortogonais veja Exercício 51) Na implementação prática do algoritmo de Arnoldi é necessário considerar métodos de ortogonalização numericamente estáveis 541 Método de Gram-Schmidt Modificado MGS) O método de Gram-Schmidt modificado MGS) é uma modificação pequena do método de Gram- Schmidt que produz um algoritmo de ortogonalização estável Na ausência de erros de arredondamento, eles produzem os mesmos vetores No algoritmo de Gram-Schmidt clássico, dada uma base {u 1,, u m } de um subespaço vetorial, uma vez calculados os vetores ortonormais v 1,, v j 1 correspondentes, os escalares h ij = u j, v i, i = 1,, j 1 são todos calculados simultaneamente para produzir o próximo vetor ortogonal unitário v j j 1 w j = u j h ij v i, 514) v j = w j w j 515)
81 Rodney Josué Biezuner 80 No método modificado, assim que o primeiro vetor ortogonal v 1 = u 1 é obtido, todos os vetores u 2,, u m são atualizados através do escalar h 1i = u i, v 1 : vi 1 = u i h 1i v 1, i = 2,, m Assim, os vetores v2, 1, vm 1 já são ortogonais a v 1 Em particular, podemos tomar v 2 = v2/ 1 v Uma vez obtido v 2, todos os vetores v3, 1, vm 1 são atualizados através dos escalares h 2i = vi 1, v 2 : vi 2 = vi 1 h 2i v 2, i = 3,, m Assim, os vetores v3, 2, vm 2 são ortogonais a v 1 e v 2 Em particular, tomamos v 3 = v3/ 2 v 3 2 e continuamos o processo até o fim Em geral, no passo j, uma vez obtido o vetor unitário v j, ortogonal aos vetores ortonormais v 1,, v j 1, os vetores v j 1 j+1,, vj 1 m que já eram ortogonais aos vetores v 1,, v j 1, são atualizados através dos escalares h ji = v j 1 j, v j para produzir vetores v j j+1,, vj m ortogonais a v 1,, v j 1, v j : e tomamos v j i = vj 1 i h ji v j, i = j + 1,, m, 516) v j+1 = vj j+1 v j 517) j+1 Em aritmética exata, os algoritmos de Gram-Schmidt e de Gram-Schmidt modificado são equivalentes; além disso, eles têm o mesmo custo computacional 2m 2 n flops) e de armazenamento m + 1) n) Para entender porque o MGS é mais estável, observe que os dois métodos são idênticos no cálculo de v 1 e v 2 A primeira diferença surge no cálculo de v 3 No método de Gram-Schmidt clássico GS) temos com w GS 3 = v 3 h 13 v 1 h 23 v 2 h 13 = u 3, v 1 e h 23 = u 3, v 2 O termo h 23 v 2 é a componente de u 3 na direção de v 2 Quando este componente é removido de u 3, obtemos um vetor ortogonal a v 2, desde que o escalar h 23 seja calculado com exatidão No método MGS primeiro calculamos v 1 3 = u 3 h 13 v 1 e depois com Daí, v 2 3 = v 1 3 h 23 v 2, h13 = u 3, v 1 = h 13 e h 23 = v 1 3, v 2 w MGS 3 = v 2 3 = u 3 h 13 v 1 h 23 v 2 = u 3 h 13 v 1 h 23 v 2 Em princípio, u 3 e v 1 3 = u 3 h 13 v 1 têm as mesmas componentes na direção de v 2, já que v 1 é ortogonal a v 2, e não faria diferença usar h 23 ou h 23 Na prática, os vetores v 1 e v 2 não são exatamente ortogonais, por causa de erros de arredondamento, portanto o termo h 13 v 1 tem uma pequena componente na direção de v 2 Além disso, erros de arredondamento também ocorrem na subtração de h 13 v 1 de u 3, portanto este vetor diferença também tem uma componente na direção de v 2 O método de Gram-Schmidt clássico ignora estes erros, enquanto que o método modificado, trabalhando com o vetor v 1 3 ao invés de u 3, leva estes erros em conta e os corrige no cálculo de h 23
82 Rodney Josué Biezuner 81 Para obter um algoritmo computacionalmente implementável para o MGS, observe que enquanto que no método de Gram-Schmidt clássico, uma vez obtidos os vetores ortonormais v 1,, v j 1 obtemos o próximo vetor ortogonal unitário v j fazendo w j = u j v j = no método de Gram-Schmidt modificado fazemos v j 2 j v j 1 j w j w j, j proj vi u j, v 1 j = u j proj v1 u j, v 2 j = v 1 j proj v2 v 1 j, v 3 j = v 2 j proj v3 v 2 j, 518) = v j 3 j = v j 2 j v j = vj 1 j v j 1 j proj vj 2 v j 3 j, proj vj 1 v j 2 j, Usando o MGS, o algoritmo de Arnoldi tem o seguinte aspecto através da normalização do vetor v: v 1 = v v Em seguida, calcula-se o vetor Av 1 e ortogonaliza-se este vetor com relação ao vetor v 1 : v 1 2 = Av 1 proj v1 Av 1 = Av 1 Av 1, v 1 v 1, v 2 = v1 2 v 1 2 Obtém-se o primeiro vetor unitário Como já observado anteriormente, até aqui o MGS é idêntico ao método de Gram-Schmidt clássico Tendo sido obtido o vetor v 2, calcula-se Av 2 e ortogonaliza-se este vetor primeiro com relação ao vetor v 1 e depois o vetor resultante é ortogonalizado com relação ao vetor v 2 : v 1 3 = Av 2 proj v1 Av 2 = Av 2 Av 2, v 1 v 1, v 2 3 = v 1 3 proj v2 v 1 3 = v 1 3 v 1 3, v 2 v2, v 3 = v2 3 v 2 3 No passo geral, tendo sido obtido o vetor v j no passo anterior, calcula-se Av j e ortogonaliza-se este vetor com relação ao primeiro vetor v 1 ; em seguida o vetor resultante é ortogonalizado com relação ao vetor v 2, e
83 Rodney Josué Biezuner 82 assim por diante, até que o vetor resultante do passo anterior seja ortogonalizado com relação ao vetor v j : v j 1 j v 1 j = Av j proj v1 Av j = Av j Av j, v 1 v 1, v 2 j = v 1 j proj v2 v 1 j = v 1 j v 1 j, v 2 v2, = v j 2 j v j j = vj 1 j v j+1 = vj j v j j proj vj 1 v j 2 j proj vj v j 1 j = v j 2 j = v j 1 j Podemos resumir este procedimento no seguinte algoritmo: Algoritmo de Arnoldi MGS Atribua v; v 1 v/ v 2 ; Para j = 1,, m faça Calcule w j = Av j ; Para [ i = 1,, j faça hij w j, v i ; w j w j h ij v i fim do laço h j+1,j = w j 2 ; Se h j+1,j = 0 então pare; v j+1 w j /h j+1,j ; fim do laço v j 2 j, v j 1 v j 1, 519) v j 1 j, v j v j, Embora o MGS seja mais estável, em situações onde os erros de cancelamento podem ser muito severos nos passos de ortogonalização é necessário considerar métodos ainda mais estáveis 542 Método de Gram-Schmidt Modificado com Reortogonalização MGSR) Uma melhoria simples é recorrer à ortogonalização dupla Ou seja, no passo j obtemos o vetor v j 1) j que deve ser ortogonal aos vetores w 1,, w j 1 Isso pode ser verificado diretamente, calculando os produtos internos v j 1) j, w i e verificando se eles são próximos de 0 dentro de uma margem de tolerância pre-estabelecida Se temos que nos dar a este trabalho, é melhor aproveitar os cálculos destes produtos internos e fazer logo uma segunda ortogonalização Assim no primeiro loop do algoritmo MGS anterior acrescentamos um segundo loop: Calcule w j = Av j ; Para [ i = 1,, j faça hij w j, v i ; w j w j h ij v i Para i = 1,, j faça γ w j, v i ; w j w j γv i ; h ij h ij + γ; fim do laço h j+1,j = w j 2 ; Se h j+1,j = 0 então pare; v j+1 w j /h j+1,j ;
84 Rodney Josué Biezuner 83 Ortogonalizações adicionais são supérfluas: duas ortogonalizações são suficientes para fazer o vetor w j ortogonal aos vetores w 1,, w j 1 na precisão de máquina veja [Watkins], p 233, ou [Saad], p 156) GS MGS MGSR Flops 2m 2 n 2m 2 n 4m 2 n Armazenagem m + 1) n m + 1) n m + 1) n 55 Método de Arnoldi para Sistemas Lineares Dado um chute inicial x 0 para a solução do sistema linear Ax = b, o método de Arnoldi para sistemas lineares é um método de projeção ortogonal em que K = L = K m A, r 0 ) = r 0, Ar 0, A 2 r 0,, A m 1 r 0 em que r 0 = b Ax 0 Portanto, o método busca uma solução aproximada x m x 0 +K m impondo a condição de Galerkin r m = b Ax m K m De acordo com o capítulo anterior, se V m = [v 1 v m ] é uma matriz cujas colunas formam uma base ortonormal para K m, obtidas através do algoritmo de Arnoldi, temos com x m = x 0 + V m y m y m = Vm T ) 1 AV m V T m r 0 = Hm 1 Vm T r 0 = Hm 1 Vm T r 0 ) v 1 = r 0 Hm 1 Vm T v 1 ) = r 0 Hm 1 e 1 ) Baseados nestas observações, temos então o seguinte método de Arnoldi para sistemas lineares, chamado método da ortogonalização completa ou FOM de full orthogonalization method): Algoritmo de Arnoldi para Sistemas Lineares FOM Inicialize x 0 ; Calcule r 0 = b Ax 0 ; Calcule β = r 0 2 ; v 1 r 0 /β; Inicialize a matriz H m = h ij ) m m = 0; Para j = 1,, m faça Calcule w j = Av j ; Para [ i = 1,, j faça hij w j, v i ; w j w j h ij v i fim do laço h j+1,j = w j 2 ; Se h j+1,j = 0 tome m := j e saia do laço; v j+1 w j /h j+1,j ; fim do laço Calcule y m = βhm 1 Calcule x m = x 0 + V m y m e 1 ) ; //não é necessário encontrar H 1 m Este algoritmo pode ser também obtido diretamente A condição de Galerkin r m K m A, r 0 ) é equivalente a V T m b Ax m ) = 0
85 Rodney Josué Biezuner 84 ou V T m Ax m = V T m b Escolhendo o chute inicial x 0 = 0 para simplificar, temos que b = r 0 = r 0 v 1, donde V T m Ax m = r 0 V T m v 1 = r 0 e 1 Como x m K m A, r 0 ), podemos escrever x m = V m y m para algum vetor y m R m Logo V T m AV m y m = r 0 e 1, que pode ser interpretado como o sistema Ax = b projetado no subespaço K m A, r 0 ) Usando o fato que V T m AV m = H m, segue que H m y m = r 0 e1 520) Resolvendo este sistema obtemos y m e daí a aproximação x m = V m y m 521) Como em geral m n, este sistema é bem mais fácil de resolver que o sistema original, possibilitando o uso de métodos diretos De fato, embora a matriz de Hessenberg seja uma matriz densa, como ela é quase triangular uma decomposição QR passa a ser competitiva com a decomposição LU e é indicada para matrizes gerais, o custo da decomposição LU é a metade do custo da decomposição QR) Maiores detalhes serão fornecidos na próxima seção O algoritmo depende do parâmetro m que em geral deve ser selecionado dinamicamente Em geral, m é progressivamente aumentado até que o resíduo r m é menor que alguma tolerância previamente estabelecida Ao invés de calcular o resíduo diretamente, podemos obter a norma do resíduo de maneira menos custosa através do seguinte resultado: 58 Proposição O resíduo calculado através do método de Arnoldi FOM satisfaz logo Em particular, os resíduos são ortogonais Prova: Temos, pela Proposição 57, r m = h m+1,m e m, y m v m+1, r m 2 = h m+1,m e T my m 522) r m = b Ax m = b A x 0 + V m y m) = r 0 AV m y m = r 0 v 1 V m H m + w m e T ) m y m = r 0 v 1 V m H m y m w m e T ) m y m = r 0 v 1 V m r 0 e 1 h m+1,m v m+1 e T my m) = h m+1,m e m, y m v m+1
86 Rodney Josué Biezuner Decomposição QR via MGS Lembramos que uma decomposição QR de uma matriz A é uma fatorização A = QR 523) onde Q é uma matriz ortogonal no caso real, unitária no caso complexo) e R é uma matriz triangular superior Usando esta decomposição, podemos resolver o sistema linear Ax = b da seguinte maneira Multiplicando ambos os lados da equação por Q T obtemos Q T Ax = Q T b, de modo que o sistema original é equivalente ao sistema Rx = Q T b 524) cuja matriz de coeficientes é uma matriz triangular superior, logo pode ser resolvido por substituição Para calcular a decomposição QR de uma matriz, um dos métodos que podem ser usados é o próprio MGS Outros métodos serão vistos no capítulo sobre autovalores Para facilitar a compreensão, veremos primeiro como fazer a decomposição QR usando o método de Gram-Schmidt modificado No que se segue assumiremos que A é uma matriz n m cujas m colunas são linearmente independentes Escrevendo a matriz A em colunas A = [ A 1 A 2 A m ], 525) aplicamos o método de Gram-Schmidt às colunas de A, obtendo j 1 w j = A j A j, v i v i, 526) v j = Resolvendo em termos de A j, podemos escrever w j w j 527) com j 1 j A j = r ij v i + w j v j = r ij v i 528) r ij = A j, v i, 529) r jj = w j 530) Assim, tomando Q = [ v 1 v 2 v m ] 531) e R = r 11 r 12 r 13 r 1m 0 r 22 r 23 r 2m 0 0 r 33 r 3m ) r mm
87 Rodney Josué Biezuner 86 segue que [ ] [ ] A1 A 2 A m = v1 v 2 v m r 11 r 12 r 13 r 1m 0 r 22 r 23 r 2m 0 0 r 33 r 3m r mm, 533) ou seja, A = QR Devido aos problemas da instabilidade do método de Gram-Schmidt clássico, é melhor usar o método de Gram-Schmidt modificado para fazer a decomposição QR de uma matriz Resolvendo o j-ésimo passo do MGS v j 2 j v j 1 j v 1 j = A j A j, v 1 v 1, v 2 j = v 1 j v 1 j, v 2 v2, v 3 j = v 2 j v 2 j, v 3 v3, = v j 3 j = v j 2 j v j = vj 1 j v j 1 j v j 3 j, v j 2 v j 2, v j 2 j, v j 1 v j 1,, em termos de A j, denotando segue que v 0 j = A j, 534) A j = v 1 j + A j, v 1 v 1 = v 2 j + v 1 j, v 2 v2 + A j, v 1 v 1 onde definimos = v 3 j + v 2 j, v 3 v3 + v 1 j, v 2 v2 + A j, v 1 v 1 j 1 j + = v j 1 = = v j 1 j j r ij v i, j 1 v j + v i 1 j, v i vi 535) v i 1 j, v i vi r ij = v i 1 j, v i se i = 1,, j 1, 536) r jj = v j 1 537) j Assim, se Q e R são definidas como em 531) e 532), novamente nós temos A = QR
88 Rodney Josué Biezuner Algoritmo de Lanczos e Método do Gradiente Conjugado O algoritmo de Lanczos pode ser visto como uma simplificação do método de Arnoldi para matrizes simétricas Quando a matriz A é simétrica, a matriz de Hessenberg H m torna-se uma matriz tridiagonal simétrica, pois H m = V T m AV m e uma matriz de Hessenberg simétrica é necessariamente tridiagonal Isso leva a uma recorrência de três termos no processo de Arnoldi e a recorrências curtas para algoritmos de solução tais como o FOM A notação padrão para descrever o algoritmo de Lanczos é obtida tomando α j = h jj, β j = h j 1,j de modo que a matriz de Hessenberg H m resultante tem a forma α 1 β 2 β 2 α 2 β 3 T m = β m 1 α m 1 β m β m α m na notação padrão do algoritmo de Lanczos, a matriz de Hessenberg H m é denotada por T m, para enfatizar a sua tridiagonalidade) Isto leva à seguinte variação MGS do método de Arnoldi FOM): Algoritmo de Lanczos com MGS Inicialize x 0 ; Calcule r 0 = b Ax 0 ; Calcule β = r 0 2 ; v 1 r 0 /β; Inicialize β 1 = 0, v 0 0; Para j = 1,, m faça w j Av j β j v j 1 ; α j w j, v i ; w j w j α j v j ; β j+1 w j ; Se β j+1 = 0 então pare; v j+1 w j / β j+1 ; fim do laço Atribua a matriz T m = tridiag β i, α i, β i+1 ); Atribua a matriz V m = [v 1 v m ] ; Calcule y m = Tm 1 Calcule x m = x 0 + V m y m βe 1 ) ; //não é necessário encontrar T 1 m Este algoritmo pode ser consideravelmente simplificado, através da obtenção de uma fórmula de recorrência de três termos, levando ao método do gradiente conjugado Primeiro, fazemos uma decomposição LU da matriz tridiagonal T m = L m U m sem pivôs: T m = 1 µ 2 1 µ 3 1 L m µ m 1 η 1 β 2 η 2 β 3 η 3 βm U m η m 538)
89 Rodney Josué Biezuner 88 onde os coeficientes das matrizes bidiagonais L m e U m podem ser obtidas através da seguinte fórmula de recorrência: isto é, η 1 = α 1, µ 2 = β 2 η 1 1, η 2 = α 2 µ 2 β 2, µ 3 = β 3 η 1 2, µ m = β m η 1 m 1, η m = α m µ m β m, µ j = β j η 1 j 1, 539) η j = α j µ j β j 540) Observe que η j 0 para todo j porque T m é simétrica, positiva definida) A solução aproximada é dada então por x m = x 0 + V m Um 1 L 1 m βe 1 ) 541) Definindo segue que P m = V m Um 1, 542) z m = L 1 m βe 1 ), 543) x m = x 0 + P m z m 544) Por causa da estrutura triangular superior bidiagonal de U m, P m pode ser atualizada facilmente De fato, escreva P m em colunas: P m = [ p 1 p 2 p m ] Da relação P m U m = V m segue que donde β m p m 1 + η m p m = v m, p m = η 1 m v m β m p m 1 ) 545) Além disso, por causa da estrutura triangular inferior bidiagonal com diagonal unitária de U m, da relação L m z m = βe 1 segue que µ m z m j 1 + z m j = 0 para j > 1, e portanto podemos escrever lembrando que z m é um vetor de R m assim como y m ) [ ] z m z m 1 = ζ m com Assim, 546) ζ m = µ m ζ m 1 547) x m = x 0 + [ P m 1 p m ] [ z m 1 ζ m ] = x 0 + P m 1 z m 1 + ζ m p m,
90 Rodney Josué Biezuner 89 donde x m = x m 1 + ζ m p m 548) Isso dá a seguinte versão direta para o algoritmo de Lanczos para sistemas lineares: Algoritmo de Lanczos Direto Inicialize x 0 ; Calcule r 0 = b Ax 0 ; Calcule ζ 1 = β = r 0 2 ; v 1 r 0 /β; Inicialize β 1 = µ 1 0; Inicialize p 0 0; Para m = 1, 2,, até limite de tolerância faça w Av m β m v m 1 ; α m w, v m ; Se [ m > 1 então µm β m /η m 1 ; ζ m µ m ζ m 1 ; η m α m µ m β m ; p m v m β m p m 1 ) /η m ; x m x m 1 + ζ m p m ; w w α m v m ; β m+1 w ; Se β m+1 = 0 então pare; v m+1 w/ β m+1 ; fim do laço Este algoritmo ainda pode ser consideravelmente simplificado O resultado, uma fórmula tripla de recorrência, extremamente simples e que não envolve o cálculo da base ortonormal {v 1,, v m }, é o chamado método do gradiente conjugado CG) Para obtê-lo, observamos primeiramente que os vetores p m são A-conjugados isto é, A-ortogonais): 59 Proposição para todos i j Prova: Para provar isso, basta mostrar que é uma matriz diagonal Isso segue de p i, p j A = Ap i, p j = 0 549) P T map m PmAP T m = Um T Vm T AV m Um 1 = Um T T m Um 1 = Um T L m e do fato que Um T L m é uma matriz triangular inferior a inversa de uma matriz triangular superior é uma matriz triangular superior e o produto de duas matrizes triangulares inferiores é uma matriz triangular inferior) que é simétrica Usando a notação padrão do método do gradiente conjugado ou seja, agora os escalares α m, β m terão um significado completamente diferente do anterior), reescrevemos 548) na forma x m+1 = x m + α m p m, 550)
91 Rodney Josué Biezuner 90 de modo que os resíduos satisfazem r m+1 = r m α m Ap m 551) Como os resíduos são ortogonais Proposição 58), segue que r m α m Ap m, r m = 0, donde Reescrevemos também 545) na forma α m = rm, r m Ap m, r m 552) p m+1 = r m+1 + β m p m ; 553) para isso usamos a Proposição 58 e fazemos uma mudança de escala nos vetores p m isso não altera a validade de 550), em que assumimos os vetores p m tomados já com a mudança de escala; assim os vetores p m do algoritmo do gradiente conjugado considerado aqui também são diferentes dos vetores considerados acima no algoritmo de Lanczos, sendo múltiplos adequados destes) Daí, como r m+1 + β m p m, Ap m = p m+1, Ap m = 0, segue que Observe porém que β m = Ap m, r m+1 Ap m, p m Ap m, r m = Ap m, p m β m p m 1 = Ap m, p m, 554) enquanto que de 551) temos Ap m = αm 1 r m+1 r m) Portanto, usando a ortogonalidade dos resíduos, podemos escrever Ap m, r m+1 r m+1, r m+1 β m = Ap m, r m = r m, r m 555) Além disso, usando 554) também podemos reescrever 552) na forma α m = rm, r m Ap m, p m 556) Estas últimas fórmulas para α m e β m são muito mais convenientes para o algoritmo do gradiente conjugado: Algoritmo do Gradiente Conjugado Inicialize x 0 ; Atribua b; r b Ax 0 ; p r; current r, r r 0, r 0 ; Atribua o limite de tolerância e o número máximo de iterações; N = 0; //número de iterações Faça até que o limite de tolerância seja atingido ou até o número máximo de iterações Calcule Ap; α current r, r / p, Ap ; x x + αp; r r αap; β r, r /current r, r ; p r + βp; current r, r r, r ; N + +; fim do laço
92 Rodney Josué Biezuner Método do Gradiente Conjugado como um Método de Descida O método do gradiente conjugado é uma das mais conhecidas e usadas técnicas iterativas para resolver sistemas lineares envolvendo matrizes simétricas esparsas, dada sua eficiência e simplicidade de implementação Como vimos na seção anterior, ele é matematicamente equivalente ao FOM No que se segue, veremos uma descrição alternativa do método CG, em que ele é visto como uma modificação do método de descida mais acentuada método do gradiente) Os métodos iterativos lineares básicos e os métodos de descida que vimos anteriormente são limitados pela sua falta de memória, no sentido de que apenas informação sobre x k é usada para obter x k+1 Toda a informação sobre as iterações anteriores é perdida O método do gradiente conjugado é uma variação simples do método da descida mais acentuada que funciona melhor porque a informação obtida através das iterações anteriores é utilizada Para entender como isso funciona, observe que depois de m iterações x k+1 = x k + α k p k de um método de descida temos x m = x 0 + α 0 p 0 + α 1 p α m 1 p m 1, de modo que x m está no subespaço afim gerado pelo chute inicial x 0 e pelos vetores { p 0, p 1,, p m 1} Enquanto o método da descida mais acentuada minimiza o funcional quadrático de energia f associado ao sistema Ax = b apenas ao longo das m retas x k +α k p k, cuja união constitui apenas um pequeno subconjunto do subespaço afim m-dimensional x 0 + p 0, p 1,, p m 1, o método do gradiente conjugado minimiza f sobre todo o subespaço afim x 0 + p 0, p 1,, p m 1 Para definir as direções de busca do método do gradiente conjugado que é, antes de mais nada, um método de descida), começamos dando uma prova mais simples da Proposição 44 que não utiliza a linguagem de métodos de projeção: 510 Teorema Seja A M n R) uma matriz simétrica positiva definida e b R n Então, o funcional quadrático de energia associado ao sistema Ax = b pode ser escrito na forma f y) = 1 2 e 2 A 1 2 x 2 A 557) onde e = x y é o erro algébrico Em particular, minimizar o funcional quadrático f é equivalente a minimizar a A-norma do erro Prova: Pela regra do paralelogramo, temos donde ou Logo, x + y 2 A + x y 2 A = 2 x 2 A + 2 y 2 A, 2 y 2 A = x y 2 A + x 2 A + 2 y, x A + y 2 A 2 x 2 A = x y 2 A + 2 y, x A x 2 A + y 2 A, y 2 A 2 y, x A = x y 2 A x 2 A Em um método de descida, depois de m iterações temos: f y) = 1 2 y 2 A y, x A = 1 2 e 2 A 1 2 x 2 A 558) e m = x x m = x x 0 α 0 p 0 + α 1 p α m 1 p m 1) m 1 = e 0 α i p i i=0
93 Rodney Josué Biezuner 92 Minimizar e m A é portanto equivalente a minimizar e0 m 1 i=0 α i p i A, o que por sua vez é equivalente a encontrar a melhor aproximação do vetor e 0 no subespaço W m = p 0, p 1,, p m 1 Esta é dada pelo lema da melhor aproximação, que enunciamos em detalhe por comodidade: 511 Proposição Lema da Melhor Aproximação) Sejam A M n R) uma matriz simétrica positiva definida, v R n e W um subsespaço de R n Então existe um único w W tal que v w A = min z W v z A O vetor w é caracterizado pela condição v w A W Segue deste resultado que e m A é minimizado quando escolhemos p = m 1 satisfaz i=0 α i p i W m tal que e m = e 0 p e m A p i para i = 1,, m 1 559) Nosso objetivo então é desenvolver um método em que o erro a cada passo é conjugado com todas as direções de busca anteriores Como fazer isso? Pelo Lema 411, cujo enunciado repetimos a seguir como Proposição 512 para facilitar a consulta, sabemos que em qualquer método de descida em que a busca na reta é exata satisfaz automaticamente e m A p m 1, isto é, 559) é válido para a última iteração o erro da iteração presente é A-ortogonal à direção de busca da iteração anterior): 512 Proposição Seja x m+1 = x m + α m p m obtido através de uma busca na reta exata Então r m+1 p m e e m+1 A p m Fazendo uma busca exata na reta x 0 + tp 0 obtemos o escalar α 0 e Pela Proposição 512 segue que e 1 A p 0 Como x 1 = x 0 + α 0 p 0 e 2 = x x 2 = x x 1 α 1 p 1 = e 1 α 1 p 1, para que tenhamos e 2 A p 0 é necessário escolher p 1 conjugado a p 0 Se isso foi feito, fazendo em seguida uma busca exata na reta x 1 + tp 1 obtemos o escalar α 1, x 1 = x 0 + α 0 p 0 e, pela Proposição 512, e 2 A p 1 No m-ésimo passo, como ou seja, e m = x x m = x x m 1 α m 1 p m 1 e m = e m 1 α m 1 p m 1, 560) para que o erro e m seja conjugado aos vetores p 0,, p m 2 basta escolher a direção de busca p m conjugada a p 0,, p m 1 ; para assegurar que e m também seja conjugado ao vetor p m 1, basta fazer uma busca exata
94 Rodney Josué Biezuner 93 na reta x m 1 + tp m 1 Assim, uma condição necessária para obter 559) é escolher as direções de busca de tal forma que p i A p j para todos i j 561) Um método com estas características é chamado um método de direções conjugadas Estes resultados são resumidos na proposição a seguir: 513 Teorema Se um método emprega direções de busca conjugadas e performa buscas na reta exatas, então e m A p i para i = 1,, m 1, para todo m Conseqüentemente onde W m = p 0, p 1,, p m 1 e m A = min p W m e 0 p A, Prova: A demonstração é por indução Para m = 1, temos e 1 A p 0 pela Proposição 512 porque a busca na reta é exata Em seguida, assuma e m A p i para i = 1,, m 1; queremos mostrar que e m+1 A p i para i = 1,, m Como e m+1 = e m α m p m, para i = 1,, m 1 temos e m+1, p i = e m α A m p m, p i = e m, p i α A A m p m, p i = 0 0 = 0 A porque as direções de busca são conjugadas e m+1 A p m segue novamente da Proposição 512 Quando a direção inicial é dada pelo vetor gradiente de f, como na primeira iteração do método da descida mais acentuada, obtemos o método do gradiente conjugado As direções subseqüentes são escolhidas através de A-ortogonalizar o resíduo ou vetor gradiente de f, que é a direção de busca em cada iteração do método da descida mais acentuada) com todas as direções de busca anteriores, o que pode ser feito simplesmente utilizando-se o algoritmo de Gram-Schmidt que no método do gradiente conjugado produz o mesmo resultado que um método mais estável como o MGS, como veremos Dado um chute inicial p 0, a primeira direção é ou seja, a direção inicial é o primeiro resíduo: p 0 = f x 0) = b Ax 0 = r 0 Depois de m passos com direções de busca conjugadas p 0,, p m, escolhemos p m+1 = r m+1 p 0 = r 0 562) m c mi p i 563) onde os c mi são dados pelo algoritmo de Gram-Schmidt: r m+1, p i A c mi = p i, p i 564) A de forma que p m+1 A p i para todos i = 1,, m Felizmente, como veremos a seguir depois de algum trabalho preliminar Corolário 517), c mi = 0 para todo i exceto i = m, o que torna necessário que apenas a direção de busca mais recente p m seja armazenada na memória do computador, o que garante que a implementação do gradiente conjugado é eficiente: r m+1 p m+1 = r m+1, p m A r p m, p m p m = r m+1 m+1, Ap m A p m, Ap m pm 565) i=0
95 Rodney Josué Biezuner 94 ou, definindo temos que β m = r m+1, Ap m p m, Ap m, 566) p m+1 = r m+1 + β m p m 567) Esta é a modificação do método do gradiente conjugado em relação ao método da descida mais acentuada, no qual tomamos p m+1 = r m+1 Podemos obter uma expressão mais simples para o escalar β m, em função apenas dos resíduos Com efeito, temos r m+1, r m+1 = r m+1, r m α m r m+1, Ap m = α m r m+1, Ap m porque os resíduos obtidos através do método do gradiente conjugado são mutualmente ortogonais veja Corolário 516), logo r m+1, Ap m r m+1, r m+1 β = p m, Ap m = α m p m, Ap m Temos porque p m 1, r m = 0 pela Proposição 512, logo Portanto α m = pm, r m r m p m, Ap m = + βp m 1, r m p m, Ap m = rm, r m p m, Ap m, α m = rm, r m p m, Ap m 568) r m+1, r m+1 β = r m, r m 569) Podemos obter um algoritmo ainda mais eficiente para o método do gradiente conjugado se observarmos que para calcular o resíduo r m+1 = b Ax m+1 em cada iteração não é necessário calcular Ax m+1 explicitamente; de fato, como vimos na demonstração da Proposição 512, temos r m+1 = r m α m Ap m Desta forma, obtemos o mesmo algoritmo do gradiente conjugado obtido na seção anterior a partir do algoritmo de Lanczos 581 Convergência do Método do Gradiente Conjugado em Aritmética Exata Vamos agora provar uma série de resultados com o objetivo principal de demonstrar o fato mencionado acima que c mi = 0 para todo i = 1,, m 1 e também que o método do gradiente conjugado converge em aritmética exata em precisas n iterações se a matriz A tem tamanho n 514 Teorema Depois de j iterações do algoritmo do gradiente conjugado com r m 0 em cada iteração), temos p 0, p 1,, p j 1 = r 0, r 1,, r j 1 = K j A, r 0 ) Prova: A demonstração é por indução O resultado é trivial para j = 0, pois p 0 = r 0 Assuma o resultado válido para j 1 Em primeiro lugar, mostraremos que r 0, r 1,, r j K j+1 A, r 0 ) 570) Em vista da hipótese de indução, basta mostrar que r j K j+1 A, r 0 ) Como r j = r j 1 α j 1 Ap j 1 e r j 1 K j A, r 0 ) K j+1 A, r 0 ) por hipótese de indução, basta provar que Ap j 1 K j+1 A, r 0 ) Mas, também por hipótese de indução, p j 1 K j+1 A, r 0 ), logo Ap j 1 K j A, Ar 0 ) = Ar 0, A 2 r 0,, A j r 0 r 0, Ar 0, A 2 r 0,, A j r 0 = K j+1 A, r 0 )
96 Rodney Josué Biezuner 95 Em seguida, mostraremos que p 0, p 1,, p j r 0, r 1,, r j 571) Por hipótese de indução, basta provar que p j r 0, r 1,, r j Isso segue de 563) e da hipótese de indução Até aqui provamos que p 0, p 1,, p j r 0, r 1,, r j K j+1 A, r 0 ) 572) Para provar que eles são iguais, basta mostrar que eles têm a mesma dimensão Isso decorre de e dim r 0, r 1,, r j j + 1, dim K j+1 A, r 0 ) j + 1 dim p 0, p 1,, p j = j + 1, o último porque os vetores p 0, p 1,, p j são vetores não-nulos A-ortogonais 515 Corolário Depois de j iterações do algoritmo do gradiente conjugado, temos e j A K j A, r 0 ) para todo j Prova: Segue imediatamente do teorema anterior e do Teorema Corolário Depois de j iterações do algoritmo do gradiente conjugado, temos r j K j A, r 0 ) para todo j Prova: Em vista do Teorema 514, basta provar que r j p 0, p 1,, p j 1 para todo j Como Ae j+1 = r j+1, r j+1, p i = Ae j+1, p i = e j+1, p i A = 0 para todo i = 1,, j 1, como vimos na demonstração do Teorema Corolário c mi = 0 para todo i = 1,, m 1 Prova: Temos que provar que r m+1, p i A = r m+1, Ap i = 0 para todos i = 1,, m 1 Pelo Teorema 514, p i p 0, p 1,, p i = r 0, Ar 0,, A i r = K i+1 A, r 0 ), logo Ap i Ar 0, A 2 r 0,, A i+1 r K i+2 A, r 0 ) K m+1 A, r 0 ) e o resultado segue do corolário anterior 518 Teorema Seja A M n R) uma matriz simétrica positiva definida Então o método do gradiente conjugado converge em n iterações Prova: Se fizemos n 1 iterações para obter x, pelo Corolário 516 os vetores r 0, r 1,, r n 1 formam uma base ortogonal para R n Depois de mais uma iteração, de acordo com este mesmo corolário o resíduo r n satisfaz r n r 0, r 1,, r n 1 = R n, logo r n = 0
97 Rodney Josué Biezuner Velocidade de Convergência do Método do Gradiente Conjugado Na maioria das aplicações o método do gradiente conjugado converge ainda mais rápido do que as n iterações previstas pelo Teorema 518, se apenas uma boa aproximação é requerida Para obter uma estimativa da velocidade de convergência do método do gradiente conjugado, precisamos desenvolver algumas ferramentas teóricas antes 591 Polinômios de Chebyshev Polinômios de Chebyshev são provavelmente os mais úteis polinômios na Teoria de Aproximação, a área que se ocupa em determinar como melhor aproximar funções através de funções mais simples tais como polinômios) Os polinômios de Chebyshev do primeiro tipo surgiram inicialmente como soluções da equação de Chebyshev: 1 x 2 ) y xy + n 2 y = Definição O polinômio de Chebyshev do primeiro tipo de grau k é o polinômio de grau k C k : [ 1, 1] R definido por C k t) = cos [ k cos 1 t ] Que C k é de fato um polinômio de grau k pode ser visto através da seguinte fórmula de recorrência: 520 Proposição Vale a seguinte fórmula de recorrência de três termos para os polinômios de Chebyshev C 0 t) = 1, C 1 t) = t, C k+1 t) = 2tC k t) C k 1 t) 573) Em particular, C k t) é um polinômio real de grau k, C k t) é uma função par se k é par e uma função ímpar se k é ímpar Prova: Usando a identidade trigonométrica segue que cos [k + 1) θ] + cos [k 1) θ] = 2 cos θ cos kθ, C k+1 t) + C k 1 t) = cos [k + 1) arccos t] + cos [k 1) arccos t] = 2 cos arccos t) cos [k arccos t] = 2tC k t) A fórmula de recorrência da Proposição 520 permite estender naturalmente o domínio dos polinômios de Chebyshev à reta toda Isso também pode ser feito estendendo a definição trigonométrica: C k t) = { cosh [ k cosh 1 t ] se t 1, 1) k cosh [ k cosh 1 t ] se t 1 574) De fato, usando a identidade trigonométrica hiperbólica cosh [k + 1) θ] + cosh [k 1) θ] = 2 cosh θ cosh kθ,
98 Rodney Josué Biezuner 97 vemos que vale a mesma fórmula de recorrência da Definição 519 O polinômio de Chebyshev C k t) possui k raízes simples, todas localizadas no intervalo [ 1, 1] dadas por ) 2j 1 t j = cos 2k π, j = 1,, k, como pode ser verificado diretamente da definição Em particular, os polinômios de Chebyshev não se anulam fora deste intervalo Observe também que C k t) 1 para t [ 1, 1] À título de informação, eles formam uma base ortogonal no espaço de funções apropriado no sentido que Proposição Se t 1, vale C k t) C l t) C k t) = 1 2 dt 1 t 2 = 0 se k l, π se k = l = 0, π/2 se k = l 0 [ t + k t 2 1) + t + ) ] k t 2 1 Prova: Como resultado de 574), segue que [e k cosh 1 t + e k cosh 1 t ] C k t) = cosh [ k cosh 1 t ] = 1 2 = 1 [ ) k ) ] k e cosh 1 t + e cosh 1 t 2 Por outro lado, e logo e x = cosh x + sinh x cosh 2 x sinh 2 x = 1, e cosh 1 t = cosh cosh 1 t ) + sinh cosh 1 t ) = t + cosh 2 cosh 1 t ) 1 = t + t 2 1, donde segue o resultado Em particular, para valores grandes de k pode-se usar a aproximação C k t) 1 t + k t 2 2 1) para t 1 No que se segue denotaremos o subespaço de todos os polinômios reais de grau menor ou igual a k por P k [x] O seguinte teorema é um importante resultado em Teoria da Aproximação: 522 Teorema Seja [a, b] R um intervalo não vazio e c / [a, b] Então o mínimo é atingido pelo polinômio µ k = min Ĉ k x) := p P k [x] pc)=1 max x [a,b] p x) C k x b ) b a C k c b ) b a
99 Rodney Josué Biezuner 98 Consequentemente, Prova: Denote por o ponto médio do intervalo [a, b] Então Assim, se c / [a, b] então µ k = C k c b b a m := a + b x b b a + 2x 2b 2x a + b) = = b a b a b a = 2 x m b a 2c m b a > 1 ) 575) de modo que o denominador na expressão de Ĉk x) nunca se anula Por outro lado, se x [a, b] então 2x m b a 1 Como max C k t) = 1, t [ 1,1] segue 575) Portanto, para provar que o mínimo é atingido pelo polinômio Ĉk, precisamos mostrar que se p k P k [x] é tal que p c) = 1 e max x [a,b] p x) µ k, então p k = Ĉk De fato, pela definição trigonométrica dos polinômios de Chebyshev, C k t) atinge os valores ±1 alternadamente nos pontos ) j t j = cos k π, j = 0, 1,, k Correspondentemente, Ĉk x) atinge os valores ±µ k nos pontos x j = 1 [ )] j a + b + b a) cos 2 k π, j = 0, 1,, k dentro do intervalo [a, b] Como p k x j ) µ k = Ĉk x j ), concluímos que o polinômio diferença r k = Ĉk p k de grau menor ou igual a k satisfaz r k x j ) 0 r k x j ) 0 se j é par, se j é ímpar Pelo teorema do valor intermediário, r k possui pelo menos uma raiz em cada subintervalo [x j, x j+1 ] Mesmo quando as raízes de r k em [x j 1, x j ] e [x j, x j+1 ] coincidem, ou seja, x j é uma raiz de r k, esta é uma raiz de multiplicidade 2 pois r k x j) = 0, isto é, x j também é uma raiz da derivada de r k ) Consequentemente, o polinômio r k tem pelo menos k raízes em [a, b] Mas, como r k c) = Ĉk c) p k c) = 1 1 = 0, c / [a, b] é a k + 1)-ésima raiz de r k Isso constitui uma contradição, a menos que r k 0, o que implica p k = Ĉk
100 Rodney Josué Biezuner Velocidade de Convergência do CG 523 Lema Seja A M n R) uma matriz simétrica positiva definida Então o erro algébrico do método do gradiente conjugado satisfaz e k A = min p A) e 0 A p P k [x] p0)=1 Prova: Pelos Teoremas 513 e 514, o método do gradiente conjugado minimiza a A-norma do erro no subespaço afim e 0 + K ) k A, r 0 Mas K ) k A, r 0 é o conjunto de todos os vetores da forma q A) r 0 onde q é um polinômio de grau menor ou igual a k 1, enquanto que r 0 = Ae 0 Portanto, o subespaço afim e 0 + K ) k A, r 0 consiste de todos os vetores da forma e 0 + q A) Ae 0, ou seja, de todos os vetores na forma p A) e 0 onde p é um polinômio de grau menor ou igual a k tal que p 0) = Teorema Seja A M n R) uma matriz simétrica positiva definida Então o erro algébrico do método do gradiente conjugado satisfaz ) k e k κ A) 1 A 2 e 0 κ A) + 1 A 576) Prova: Denote por λ 1 λ n os autovalores de A e por v 1,, v n uma base A-ortonormal de autovetores correspondentes Escrevendo e 0 = a i v i, segue que Assim, p A) e 0 2 A = n a 2 i p λ i ) 2 p A) e 0 = donde, pelo lema anterior, e k A min Segue agora do Lema 522 que a i p λ i ) v i max p λ i) 2 1 i n p P k [x] p0)=1 ) e 0 2 A max p x) e 0 x [λ A 1,λ n] e k A µ e 0 A max p x [λ 1,λ n ] x)2 ) e 0 2 A, onde 1 1 µ = ) C λ n = k 1 2 λ n λ 1 C k λ n + λ 1 λ n λ 1 1 = ), κ A) + 1 C k κ A) 1 ) = 1 ) λn + λ 1 C k λ n λ 1 para obter a última igualdade usamos a simetria dos polinômios de Chebyshev, como visto na Proposição 520, e a sua positividade no intervalo [1, + ) que decorre diretamente da fórmula da Proposição 521) Pela Proposição 521 e o comentário que se segue, temos ) κ A) + 1 C k 1 κ A) 1 2 κ A) + 1 κ A) 1 + κ A) + 1 κ A) 1 k ) 2 1,
101 Rodney Josué Biezuner 100 donde e k A 2 κ A) + 1 κ A) 1 + κ A) + 1 κ A) 1 ) 2 1 k e 0 A = 2 κ A) κ A) + 1) 2 κ A) 1) 2 κ A) 1 κ A) ) k κ A) = 2 e 0 κ A) 1 A κ ) 2 A) + 1 = 2 κ ) κ ) A) + 1 A) 1 k e 0 A k e 0 A = 2 κ A) 1 κ A) + 1 ) k e 0 A Esta estimativa é bem melhor que a estimativa do método da descida mais acentuada o número de condição é subtituido aqui pela sua raiz quadrada), mostrando que o método do gradiente conjugado é bem mais rápido Por outro lado, como naquele método, a velocidade de convergência do método CG dependerá fortemente da boa ou má condicionalidade da matriz A Uma comparação entre a velocidade de convergência dos métodos de gradiente para a matriz de discretização da fórmula de cinco pontos aplicada ao mesmo problema do Capítulo 3 Seção 314) é dada na tabela a seguir [Watkins] O tamanho das matrizes usadas é indicado na linha superior da tabela e o número de iterações necessárias para obter um erro algébrico menor normalizado menor que igual a 10 8 é dado para cada método n = 81 n = 361 n = 1521 Descida Mais Acentuada Gradiente Conjugado No caso desta matriz de discretização temos κ A) = 2 n 1) π sen 2n sen 2 π 2n = cot 2 π 2n = cot2 π x 2 4 π 2 x 2 de modo que κ A) 1 κ A) π x/2 1 + π x/2 1 π x, o que dá uma velocidade de convergência para o método do gradiente conjugado duas vezes maior que a do método SOR com o fator de relaxamento ótimo No entanto, deve-se ter em mente que enquanto que a taxa de covergência que obtivemos para o método SOR é precisa, a estimativa de erro 576) do Teorema 524 para o método do gradiente conjugado é apenas um limitante superior grosseiro e pode ser melhorada veja [Watkins] para algumas estimativas melhoradas) De fato, embora a taxa de convergência assintótica 576) dependa apenas do número de condição, e portanto apenas dos autovalores extremais, a convergência do método do gradiente conjugado é influenciada pelo espectro inteiro, como o próximo resultado ilustra:
102 Rodney Josué Biezuner Teorema Seja A M n R) uma matriz simétrica positiva definida com apenas m autovalores distintos Então o método do gradiente conjugado converge em m iterações Prova: Sejam λ 1,, λ m os m autovalores distintos de A Seja p x) = a x λ 1 ) x λ m ) um polinômio de grau m onde a é escolhido de tal forma a produzir p 0) = 1 Como p λ i ) = 0 para todo i, pela demonstração do Teorema 524 e usando a mesma notação de lá) segue que p A) e 0 = a i p λ i ) v i = 0 Logo, pelo Lema 523, temos que e m = 0 Mesmo se isso não ocorre, se os autovalores de A não estão distribuídos uniformemente em [λ min, λ max ] mas se acumulam em subintervalos de [λ min, λ max ], pode-se obter melhores taxas de convergência do que 576) veja [Hackbusch] e [Watkins]) 510 Exercícios 51 Considere os vetores v 1 = 1 ε 0 0, v 2 = 1 0 ε 0 e v 3 = onde ε 1 Estes vetores são aproximadamente linearmente independentes a) Use o método de Gram-Schmidt clássico para ortogonalizar estes vetores, usando a aproximação 1 + ε 2 = 1 um computador faria erros de arredondamento adicionais) Verifique que w 2, w 3 = 1/2 e portanto estes vetores estão muito longe de serem ortogonais b) Use o método de Gram-Schmidt modificado para ortogonalizar estes vetores, também usando a aproximação 1 + ε 2 = 1 Verifique que w 2, w 3 = 0 e que w 1, w 2 = ε/ 2, w 1, w 3 = ε/ 6; portanto estes vetores estão muito próximos de serem ortogonais 52 Mostre que os algoritmos de Gram-Schmidt clássico e modificado são matematicamente equivalentes em aritmética exata, isto é, produzem os mesmos vetores 53 Prove que os vetores v 1,, v m gerados pelo algoritmo de Arnoldi com MGS formam uma base ortonormal para o subespaço de Krylov K m A, v) 54 Prove que o inversa de uma matriz triangular superior é uma matriz triangular superior Prove a afirmativa equivalente para matrizes triangulares inferiores 55 Prove que o produto de matrizes triangulares superiores é uma matriz triangular superior Prove a afirmativa equivalente para matrizes triangulares inferiores ε,
103 Capítulo 6 O Problema do Autovalor Por causa do teorema de Abel com respeito à inexistência de uma fórmula para calcular as raízes de um polinômio de grau maior ou igual a 5, não existem métodos diretos para calcular autovalores Todo método para calcular autovalores é necessariamente um método iterativo De fato, dado um polinômio mônico p z) = z n + a n 1 z n a 1 z + a 0, seu determinante é igual a 1) n vezes o determinante da matriz z a 0 1 z a 1 1 z a 2 1 z an 1, 1 z a n 1 logo as raízes de p são os autovalores da matriz 0 a a a a n 1 1 a n 1 Portanto, o problema de encontrar as raízes de um polinômio é equivalente ao problema de encontrar os autovalores de uma matriz 61 Caracterização Variacional dos Autovalores de uma Matriz Simétrica: Quociente de Rayleigh Os autovalores de uma matriz simétrica podem ser caracterizados variacionalmente 61 Definição Seja A M n R) uma matriz simétrica Dado x R n, o quociente r x) = 102 Ax, x x 2
104 Rodney Josué Biezuner 103 é chamado o quociente de Rayleigh de x A função r : R n R é chamada o funcional de Rayleigh ou também o quociente de Rayleigh) 62 Teorema Princípio de Rayleigh) Seja A M n R) uma matriz simétrica Se x é um ponto crítico do funcional de Rayleigh, então x é um autovetor de A e r x) é o autovalor correspondente Prova: Escrevendo Temos de modo que Portanto, r x) = a ij x i x j i,j=1 x 2 i i,j=1 2 x 2 a ik x i 2x k a ij x i x j r i,j=1 x) = x k x 4 = 2 x 2 [Ax) k r x) x k], r x) = 2 2 [Ax r x) x] x r x) = 0 se e somente se Ax = r x) x 63 Corolário O quociente de Rayleigh é uma aproximação de segunda ordem para os autovalores de A, ou seja, se v é um autovetor de A, segue que r x) r v) = O x v 2) quando x v Prova: Segue da fórmula de Taylor, já que r v) = 0 Podemos obter uma descrição geométrica mais precisa dos pontos críticos do funcional de Rayleigh: 64 Teorema Princípio de Rayleigh) Seja A M n R) uma matriz simétrica Sejam λ 1 λ n os autovalores de A, de modo que λ 1 é o menor autovalor de A e λ n é o maior autovalor de A Então e Ax, x λ 1 = min x R n x 2 61) x 0 Ax, x λ n = max x R n x 2 62) x 0 Prova: Seja B = {v 1,, v n } uma base ortonormal de autovetores de A correspondentes aos autovalores λ 1,, λ n Então, para todo x = n x i v i temos λ 1 x 2 = λ 1 x 2 i λ i x 2 i = λ i x i x j v i, v j = i,j=1 j=1 λ i x i v i, x j v j i,j=1 n n n ) = λ i x i v i, x j v j = x i Av i, x j v j = A x i v i, x j v j = Ax, x j=1 j=1
105 Rodney Josué Biezuner 104 Portanto, para todo x R n, x 0, vale λ 1 Ax, x x 2 O mínimo é atingido em x = v 1 ou em qualquer outro autovetor de A associado a λ 1 Da mesma forma, obtemos λ n x 2 = λ n x 2 i λ i x 2 i = Ax, x Os outros autovalores de A, λ 2,, λ n 1, são pontos de sela e podem ser encontrado através de um princípio de minimax: 65 Teorema Princípio de Minimax para Autovalores) Seja A M n R) uma matriz simétrica Sejam λ 1 λ n os autovalores de A Então λ j = min W R n subespaço dim W =j max x W x =1 Prova: Seja W R n um subespaço de dimensão j Primeiro mostraremos que max Ax, x λ j x W x =1 Ax, x 63) Seja B = {v 1,, v n } uma base ortonormal de autovetores de A correspondentes aos autovalores λ 1,, λ n Seja Z = v 1,, v j 1 Como Z = v j,, v n, temos de modo que n dim W + Z ) = dim W + dim Z dim W Z ) = j + n j 1) dim W Z ), dim W Z ) 1 e existe um vetor x W Z tal que x = 1 Escrevendo x = n x k v k, temos x = n x k 2 = 1, donde k=j l=j k=j k=j n n Ax, x = x k Av k, x l v l = x k λ k v k, x l v l = = λ k x k 2 λ j k=j n k=j x k 2 = λ j l=j k=j λ k x k x l v k, v l k,l=j Para completar a demonstração, devemos encontrar um subespaço W R n Ax, x λ j para todo x W com x = 1 Tomemos W = v 1,, v j Temos de dimensão j tal que j j j j j Ax, x = x k Av k, x l v l = x k λ k v k, x l v l = λ k x k x l v k, v l O minimax é atingido em v j k=1 l=1 k=1 l=1 k,l=1 j j = λ k x k 2 λ j x k 2 = λ j k=1 k=1
106 Rodney Josué Biezuner Método das Potências O método das potências ou método das iterações é o algoritmo mais simples para o cálculo de autovalores de matrizes, mas ele pode encontrar apenas o maior autovalor em módulo) de uma matriz A M n C), chamado o autovalor dominante de A, desde que haja apenas um Para simplificar a exposição, suponha que A é uma matriz diagonalizável cujo maior autovalor em módulo) é um autovalor simples isto é, seu autoespaço associado tem dimensão 1) Ordene os autovalores de A na forma λ 1 > λ 2 λ n e seja {v 1,, v n } uma base correspondente de autovetores Assim, λ 1 é o autovalor dominante de A e v 1 um autovetor dominante Quando A tem um autovalor dominante, este e um correspondente autovetor dominante podem ser encontrados através do método das potências, que consiste essencialmente em tomar um vetor v 0 arbitrário e considerar as potências v 0, Av 0, A 2 v 0,, A k v 0, 64) É essencial que o vetor v 0 possua uma componente na direção do autovetor dominante v 1 Este não é a priori conhecido, mas se a escolha é arbitrária há grande probabilidade que isso ocorra na prática De fato, para quase todas as escolhas de v 0 devemos ter v 0 = a i v i com a 1 0; raramente uma escolha aleatória de v 0 produzirá um vetor no subespaço v 2,, v n Temos então A k v 0 = a i λv i, donde escrevemos A k v 0 = λ k 1 [ a 1 v 1 + Embora A k v 0 se λ 1 > 1 e A k v 0 0 se λ 1 < 1, como i=2 ) ] k λi a i v i λ 1 λi ) k 0, para todo i = 2,, n, segue que a sequência reescalada λ 1 A k v 0 λ k 1 a 1 v 1 converge para um autovetor dominante No entanto, como o autovalor λ 1 não é conhecido a priori, é impossível trabalhar com esta sequência Portanto, trabalhamos ao invés com a sequência normalizada w k = Ak v 0 A k v 0 65) onde é uma norma qualquer por exemplo, a norma do máximo), que converge para um autovetor dominante unitário
107 Rodney Josué Biezuner Proposição Seja A M n C) uma matriz diagonalizável e assuma que o seu autovalor dominante λ 1 é simples Dado um vetor arbitrário v 0 C n que possui uma componente não-nula no autoespaço associado a λ 1, defina a sequência w 0 = v 0, onde Então w k+1 = Aw k α k α k = Aw k w k v 1, α k λ 1, onde v 1 é um autovetor dominante unitário Além disso, a taxa assintótica de convergência é ) λ 2 O Se A é uma matriz simétrica real e definirmos µ k = Aw k, w k, λ 1 então com taxa assintótica de convergência µ k λ 1 O λ 2 λ 1 2) Prova: Temos w k = Ak v 0 α k, onde α k = α 1 α k é simplesmente o escalar apropriado que normaliza o vetor A k v 0, isto é, α k = A k v 0 Escrevendo v 0 = a i v i, segue que Como w k = λk 1 α k a 1 v 1 + [ a 1 v 1 + i=2 i=2 ) ] k λi a i v i λ 1 ) k λi a i v i a 1 v 1 λ 1 e w k sendo uma sequência unitária possui uma subsequência convergente, concluímos que w k converge para um vetor unitário na direção de v 1 Como Aw k = α k w k, tomando o limite em ambos os lados concluímos que Av 1 = lim α k ) v 1,
108 Rodney Josué Biezuner 107 logo lim α k = λ 1 Finalmente, a taxa assintótica de convergência segue de ) k λi n a i v i λ 1 k a i λ i n λ 1 v i a i v i ) i=2 i=2 i=2 k λ 2 λ 1 C v 0 ) k λ 2 λ 1 O caso A simétrico segue do Corolário 63 Vemos que a velocidade de convergência do método das potências pode ser muito lenta se a diferença entre o maior e o segundo maior autovalores não for muito grande, uma situação frequentemente encontrada na prática O método das potências funciona mesmo quando o autovalor dominante não é simples, desde que não existam outros autovalores de A diferentes do autovalor dominante que tenham o mesmo valor em módulo, isto é quando existe apenas um autovalor dominante Exercício 61) É claro que o método não vai produzir uma base para o autoespaço dominante, apenas um autovetor deste autoespaço, correspondente ao vetor unitário na direção da componente do vetor inicial Quando existem vários autovalores dominantes, o método não pode ser aplicado Em particular, o método não pode ser aplicado a matrizes reais que possuem um autovalor dominante complexo, já que neste caso o seu conjugado também é um autovalor dominante Esta situação ocorre também com matrizes ortogonais, já que todos os autovalores de uma matriz ortogonal tem norma 1 Se A não é diagonalizável, o autovalor dominante de A ainda pode ser encontrado pelo método das potências desde que não haja mais de um autovalor dominante, como observado no parágrafo anterior), como discutido no Exercício Método das Potências Inverso O método das potência permite apenas encontrar o autovalor dominante Para obter o menor autovalor de A, podemos aplicar o método das potências à matriz inversa A 1, pois se λ é o menor autovalor de A, 1/λ será o maior autovalor de A 1 Este método é chamado método das potências inverso ou iteração inversa quando o método das potências é chamado iteração direta) 622 Método das Potências com Deslocamento Teoricamente, o método das potências poderia ser aplicado diretamente para encontrar todos os autovalores de A Por exemplo, para encontrar λ 2 e um autovetor associado, uma vez encontrado o autovetor associado ao primeiro autovalor, bastaria tomar um novo vetor inicial que não tivesse componentes na direção do autovetor dominante ou autoespaço dominante; veja Exercício 61), mas apenas na direção de v 2 Isso seria fácil de conseguir se os autovetores de A fosse ortogonais por exemplo, se A é simétrica): bastaria tomar um vetor inicial aleatório v 0, com componentes na direção de todos os autovetores de A, e subtrair dele a sua componente ortogonal na direção do autovetor dominante Na notação da seção anterior, bastaria tomar ṽ 0 = v 0 a 1 v 1 = a i v i, e proceder desta maneira até encontrar todos os autovalores de A desde que não haja autovalores distintos mas iguais em módulo) Na prática isso não funciona, porque erros de arredondamento apareceriam imediatamente: Aṽ 0 = ελ 1 v 1 + a i λ i v i ; ao invés de obter λ 2 e um autovetor associado, voltaríamos a obter λ 1 e um autovetor dominante Para encontrar os demais autovalores da matriz A, observe que se A tem autovalores λ 1,, λ n, então A σi tem autovalores λ 1 σ,, λ n σ O escalar σ é chamado um deslocamento Podemos então aplicar i=2 i=2
109 Rodney Josué Biezuner 108 o método das potências à matriz A σi) 1, pois os autovalores de A são de modo que o autovalor dominante de A σi) 1 é 1 λ 1 σ,, 1 λ n σ, 1 λ i σ 66) onde λ i é o autovalor de A mais próximo de σ Assim, podemos encontrar todos os autovalores de A variando o deslocamento σ Este método é chamado método das potências com deslocamento ou iteração com deslocamento Ele é particularmente eficiente quando possuímos boas estimativas para os autovalores de A estimativas grosseiras podem ser obtidas através do teorema dos discos de Gershgorin) Como já observado anteriormente, a convergência do método das potências direto será lenta quando λ 1 e λ 2 forem muito próximos No caso do método das potências com deslocamento, uma escolha cuidadosa do deslocamento σ pode aumentar substancialmente a velocidade de convergência Com efeito, observe que neste caso temos para simplificar a compreensão, novamente supomos A diagonalizável e, adicionalmente, que todos os autovalores são simples): [ A σi) 1] ) k k 1 ) k v0 = λ i σ a λi σ iv i + a i v j λ j σ j=1 j i donde [ A σi) 1] k v0 ) k 1 a i v i λ i σ n j=1 j i a i λ i σ λ j σ k v j a i v j λ i σ λei σ j=1 j i k de modo que a taxa assintótica de convergência é dada por λ i σ λei σ onde λei é o autovalor mais próximo a λ i Tomando o deslocamento σ significantemente mais próximo de λ i do que de λei, podemos obter λ i σ λei σ 1, acelerando a convergência do método É importante observar que tanto na iteração inversa, quanto na iteração com deslocamento, em nenhum momento é necessário calcular a inversa A 1 explicitamente, o que consumiria muito tempo e recursos Embora as iteradas satisfazem w k+1 = 1 σ k+1 A σi) 1 w k, basta resolver o sistema A σi) w k+1 = w k
110 Rodney Josué Biezuner 109 e então tomar w k+1 = 1 σ k+1 w k+1 Além disso, apesar de A λi ser uma matriz singular quando λ é um autovalor de A, e portanto tomar um deslocamento σ muito próximo a λ produz uma matriz A σi muito mal condicionada, isso não atrapalha a eficência da iteração com deslocamento em nada veja [Parlett]) Finalmente, notamos que se os autovalores de uma matriz já são conhecidos, o método padrão para encontrar os autovetores de A é o método das potências com deslocamento, já que os deslocamentos podem ser escolhido arbitrariamente próximos dos autovalores, tornando a convergência muito rápida 623 Iteração do Quociente de Rayleigh Quando a matriz A é simétrica, combinando a iteração inversa e o quociente de Rayleigh é possível obter um método extremamente rápido, de tal forma que depois de 2 ou 3 passos o número de dígitos corretos no autovalor triplica a cada iteração A idéia é não manter o valor de deslocamento constante, mas atualizá-lo a cada iteração com uma aproximação melhor do autovalor dada pelo quociente de Rayleigh O algoritmo para a iteração do quociente de Rayleigh é o seguinte: Iteração do Quociente de Rayleigh Atribua v 0 ; v 0 v 0 / v 0 ; λ 0 = Av 0, v 0 ; Para k = 0, 1, 2,, até limite de tolerância Resolva A λ k I ) w = v k ; v k+1 w/ w ; λ k+1 Av k+1, v k+1 ; fim do laço Vamos verificar que a convergência da iteração de Rayleigh é cúbica: 67 Proposição Seja A M n R) uma matriz simétrica e assuma que o autovalor λ i é simples Dado um vetor arbitrário v 0 R n que possui uma componente não-nula no autoespaço associado a λ i, tome λ 0 = Av 0, v 0 e defina a sequência A λ v k+1 k I ) 1 v k = A λ k I) 1, v k λ k+1 = Av k+1, v k+1 Então v k converge para um autovetor unitário v i associado a λ i e λ k λ i com uma taxa de convergência que satisfaz v v k+1 v i = O k ±v i ) 3) e ) λ k+1 λ i = O λ k λ i 3 Prova: Pelo Corolário 63, λ k λ i = O v k v i 2 ) Pelas estimativas para a iteração inversa com deslocamento obtidas na subseção anterior, temos v k+1 v i C λ i λ k v k v i λei λk
111 Rodney Josué Biezuner 110 Como λ k está próximo de λ i, podemos substituir λei λk por λei λ i no denominador, de modo que v k+1 v i = O λ k λ i v k v i ) = O v k+1 v i 3 ) As constantes implícitas no símbolo O são uniformes para vizinhanças suficientemente pequenas de λ i e v i Para obter a taxa de convergência para os autovalores, use o resultado obtido e o Corolário 63 duas vezes escrevendo ) λ k+1 λ i = O v k+1 v i 2 ) = O v k v i 6 ) = O λ k λ i 3 Este resultado vale mesmo quando o autovalor não é simples Exercício 63) No caso em que A não é simétrica, a iteração do quociente de Rayleigh ainda pode ser usada, mas a convergência é apenas quadrática veja [Watkins]) Para uma análise mais rigorosa da convergência do método das potências e todas as suas variações, inclusive a iteração do quociente de Rayleigh, veja [Parlett] 63 Algoritmo QR O algoritmo QR não confundir com a decomposição QR) é o algoritmo preferido para encontrar todos os autovalores de uma matriz não-simétrica densa O algoritmo básico QR pode ser descrito da seguinte forma Seja A M n C) uma matriz cujos autovalores queremos calcular Começando com A 0 = A, 67) definimos iterativamente uma sequência de matrizes A 1, A 2,, recursivamente da seguinte maneira Primeiro fazemos a decomposição QR da matriz obtida no passo anterior: Em seguida definimos Observe que, como A k 1 = Q k R k 68) A k = R k Q k 69) A k = Q ka k 1 Q k, 610) todas as matrizes da sequência, que denominaremos sequência QR, possuem os mesmos autovalores Veremos mais tarde que o algortimo QR é simplesmente uma implementação de um procedimento conhecido como iteração simultânea, o qual é uma extensão natural do método das potências Consequentemente, pode ser mostrado que a sequência QR converge, sob certas condições, para uma matriz triangular superior na forma λ 1 λ 2 λ n onde os autovalores da diagonal principal aparecem em ordem descrescente de magnitude Em particular, como as matrizes da sequência QR são semelhantes, se A é hermitiana então a sequência converge para uma matriz diagonal O algoritmo básico QR é ineficiente para uso prático Cada decomposição QR custa 4 3 n3 flops e cada multiplicação matricial custa O n 3) flops Além disso, a convergência para a forma triangular é muito vagarosa, de forma que um número muito grande de passos é necessário antes que se atinja um limite de tolerância razoável No que se segue, veremos procedimentos para diminuir os custos das decomposições QR e aumentar a velocidade de convergência do método O primeiro procedimento, reduzir a matriz à sua
112 Rodney Josué Biezuner 111 forma de Hessenberg, reduz cada passo no algoritmo QR a um custo de O n 2) flops para uma matriz geral e O n) para uma matriz hermitiana O segundo procedimento, deflação e deslocamento usando o quociente de Rayleigh, reduz o número de iterações necessárias para produzir convergência na precisão da máquina a O n) iterações Assim o custo total do algoritmo QR na sua implementação mais eficiente será O n 3) flops para matrizes gerais e O n 2) flops para matrizes hermitianas 631 Redução de uma matriz a sua forma de Hessenberg O custo das decomposições QR é reduzido drasticamente se reduzirmos a matriz A à sua forma de Hessenberg antes de começar as iterações QR, já que o custo de uma decomposição QR para matrizes de Hessenberg é O n 2) ; se além disso a matriz for Hermitiana, ou seja, tridiagonal, o custo é apenas O n) Também o custo da multiplicação, de uma matriz de Hessenberg superior por uma matriz triangular, é reduzido para O n 2) Essa redução funciona porque o algoritmo QR preserva a forma de Hessenberg, de modo que todas as matrizes da sequência QR são de Hessenberg assim como os fatores Q: 68 Proposição Seja H M n C) uma matriz de Hessenberg superior Então toda matriz da sequência QR é também uma matriz de Hessenberg superior Além disso, os fatores Q k da decomposição A k 1 = Q k R k também são Hessenberg superiores Prova: Assuma A invertível, de modo que todas as matrizes da sequência QR são invertíveis; em particular, os fatores Q k, R k também são invertíveis Suponha por indução que A k 1 é uma matriz de Hessenberg superior Seja A k 1 = Q k R k uma decomposição QR de A k 1 Afirmamos que Q k = A k 1 R 1 k é uma matriz de Hessenberg superior De fato, como a inversa de uma matriz triangular superior é uma matriz triangular superior, Q k é o produto de uma matriz de Hessenberg superior e de uma matriz triangular superior, logo também é uma matriz de Hessenberg superior Segue que A k = R k Q k é o produto de uma matriz triangular superior e uma matriz de Hessenberg superior, logo também é uma matriz de Hessenberg superior O caso geral, em que A é singular, é um pouco mais difícil De fato, não é verdade que toda decomposição QR de uma matriz de Hessenberg superior vai produzir um fator Q Hessenberg superior Mas é possível provar que é sempre possível escolher a decomposição QR de tal forma que o fator Q produzido é Hessenberg superior veja [Watkins]) Antes de descrever o algoritmo que transforma uma matriz geral em uma matriz de Hessenberg superior o custo da transformação será de 10 3 n3 flops) vamos introduzir o conceito de refletores de Householder que são usados para introduzir zeros abaixo da subdiagonal inferior No que se segue assumiremos sempre a norma vetorial como sendo a norma euclidiana 69 Definição Seja u R n um vetor unitário Então o operador Q : R n R n definido por Q = I 2uu T 611) é chamado um refletor de Householder ou simplesmente um refletor) A proposição a seguir resume as propriedades que caracterizam uma reflexão: 610 Proposição Sejam u R n um vetor unitário e Q = I 2uu T um refletor Então i) Qu = u ii) Qv = v para todo v u iii) Q = Q T Q é simétrico)
113 Rodney Josué Biezuner 112 iv) Q T = Q 1 Q é ortogonal) v) Q 1 = Q Q é uma involução) Prova: i) Usando o fato que u T u = u, u = 1, temos ii) Usando o fato que u T v = u, v = 0, temos iii) iv),v) Usando iii) segue que Qu = u 2 uu T ) u = u 2u u T u ) = u 2u = u Qv = v 2 uu T ) v = u 2u u T v ) = u 0 = u Q T = I 2uu T ) T = I 2 u T ) T u T = I 2uu T = Q QQ T = QQ = I 2uu T ) I 2uu T ) = I 4uu T + 4uu T uu T = I 4uu T + 4u u T u ) u T = I 4uu T + 4uu T = I Em outras palavras Q = I 2uu T leva cada vetor x R n em sua reflexão com relação ao hiperplano H = {v : u, v = 0} ortogonal a u A possibilidade do uso de refletores para criar zeros em matrizes segue do seguinte resultado: 611 Teorema Sejam x, y R n tais que x y mas x = y Então existe um único refletor tal que Qx = y Prova: Existência) Para encontrar um vetor u tal que I 2uu ) T x = y, primeiro notamos que o hiperplano de reflexão bisecta o ângulo entre x e y, de modo que o vetor x y deve ser perpendicular a este plano Portanto, nosso candidato é u = x y x y 612) De fato, de i) e ii) da proposição anterior, temos Q x y) = y x, Q x + y) = x + y, pois Logo, x y, x + y = x, x + x, y y, x y, y = x 2 y 2 = 0 Qx = 1 2 [Q x y) + Q x + y)] = 1 [y x + x + y] = y Corolário Seja x R n um vetor não nulo Então existe um refletor Q tal que x 1 x 2 Q = 0 0 x n
114 Rodney Josué Biezuner 113 Prova: Escolha y = ± x, 0,, 0) no teorema anterior, com o sinal escolhido de tal forma a garantir que x y No caso complexo, basta tomar Q = I 2uu 613) e temos resultados análogos, bastando substituir simétrico ortogonal por hermitiano unitário Vamos agora descrever o algoritmo para reduzir uma matriz geral A à forma de Hessenberg Cada passo introduz os zeros nas posições desejadas de cada coluna, da primeira até a última, em um total de n 2 passos já que evidentemente não há necessidade de transformar as últimas 2 colunas da matriz para colocá-la na forma de Hessenberg) Primeiro faça uma partição por blocos de A na forma [ a11 c T ] A = b  Seja Q 1 : F n 1 F n 1 um refletor onde F = R ou C) tal que τ 1 0 Q 1 b = 0 onde τ 1 = b e τ 1 b 1 < 0 Defina o refletor Q 1 : F n F n [ 1 0 T Q 1 = 0 Q1 ] e tome A 1/2 = Q 1 A = a 11 τ c T Q 1  Então A 1 = Q 1 AQ 1 1 = Q 1 AQ 1 = A 1/2 Q 1 = a 11 τ c T Q1 Q 1  Q 1 = a 11 τ  1 Este é o fim do primeiro passo: a matriz A 1, semelhante à matriz A através de uma matriz ortogonal, tem zeros na primeira coluna abaixo do primeiro elemento da subdiagonal O segundo passo cria zeros na segunda coluna de A 1, isto é, na primeira coluna de Â1, nas posições desejadas Assim, usamos um refletor Q 2 : F n 2 F n 2 exatamente como no primeiro passo, exceto que usamos Â1 ao invés de A, e definimos Q 2 = Q 2
115 Rodney Josué Biezuner 114 e Daí, A 3/2 = Q 2 A 1 = A 2 = Q 2 A 1 Q 1 2 = Q 2 A 1 Q 2 = A 3/2 Q 2 = a 11 τ τ 2 0 Q 2 Â 1 a 11 τ τ 2 0 Q 2 Â 1 Q2 Procedemos desta forma em n 2 passos até encontrar uma matriz de Hessenberg A n 2 semelhante à matriz original A através de uma matriz ortogonal Q = Q n 2 Q 2 Q Aceleração do algoritmo QR Ordene os autovalores de A na forma λ 1 λ 2 λ n Considere uma sequência A k ) de iteradas do algoritmo QR tal que cada matriz A k é de Hessenberg superior Denote a k 11 a k 12 a k 13 a k 14 a k 1n a k 21 a k 22 a k 23 a k 24 a k 2n 0 a k 32 a k 33 a k 34 a k 3n 0 0 a k 43 a k 44 a k 4n A k = a k n 1,n a k n,n 1 a k nn No algoritmo QR as entradas subdiagonais ou a maioria delas) convergem para 0 quando n Mais precisamente, como veremos mais tarde, se então a k i+1,i 0 λ i > λ i+1, com taxa de convergência λ i+1 λ i, i = 1,, n 1 Portanto, uma maneira de acelerar a convergência do algoritmo é decrescer os quocientes λ i+1 /λ i Um modo de fazer isso é através do uso de um deslocamento, como no método das potências A matriz deslocada A σi tem autovalores λ 1 σ λ 2 σ λ n σ e as taxas de convergência associadas são λ i+1 σ λ i σ, i = 1,, n 1
116 Rodney Josué Biezuner 115 Assim, se escolhermos σ suficientemente próximo de um autovalor arbitrário que chamaremos λ n após reordenar os índices e assumindo λ n 1 λ n ), aplicando o algoritmo QR a A σi observaremos que a A σi) k n,n 1 converge para 0 rapidamente Uma vez que A σi)k n,n 1 seja suficientemente pequeno, esta entrada pode ser considerado 0 na prática e, adicionando σi à iterada A σi) k do algoritmo QR, obtemos A k = Â k a k nn com a k nn uma boa aproximação para λ n Os autovalores restantes de A k são os autovalores de Âk Podemos então aplicar o algoritmo QR à matriz Âk, que tem ordem um a menos que a ordem de A Continuando desta forma, usaremos o algoritmo QR em matrizes cada vez menores até obter todos os autovalores de A Este processo, em que o tamanho da matriz é reduzido cada vez que um autovalor é encontrado, é chamado deflação O próprio algoritmo QR pode ser usado para obter os valores para os deslocamentos σ, já que depois de algumas iterações a matriz está próxima da forma triangular e os valores na diagonal principal estão próximos aos autovalores de A De fato, as entradas na diagonal principal são quocientes de Rayleigh, já que a k ii = e T i A k e i = A k e i, e i Assim, o deslocamento pode ser modificado em cada iteração, como no método da iteração do quociente de Rayleigh, usando-se σ k = a k nn de modo que λ i+1 σ k λ i σ k 0 quando k e obtemos uma taxa de convergência melhor que linear De fato, veremos que, como no método da iteração do quociente de Rayleigh, este algoritmo QR com deslocamento dado pelo quociente de Rayleigh possui convergência quadrática em geral e cúbica para matrizes hermitianas Na prática, depois de apenas uma iteração QR já é seguro usar σ 1 = a 1 nn O único efeito dessa escolha é que a ordem dos autovalores obtidos no processo não é necessariamente crescente O deslocamento dado pelo quociente de Rayleigh pode falhar às vezes, por exemplo quando o deslocamento obtido está a mesma distância de dois autovalores distintos, fazendo com que o método tenha dificuldade de decidir qual autovalor aproximar Para evitar esta situação, é preferível usar o deslocamento de Wilkinson, que é definido como sendo o autovalor da submatriz 2 2 [ ] a k n 1,n 1 a k n 1,n a k n,n 1 a k nn que está mais próximo de a k nn Ele é fácil de calcular porque é a raiz de um polinômio do segundo grau É possível provar para matrizes simétricas tridiagonais o algoritmo QR com deslocamento de Wilkinson sempre converge Além disso, como estamos usando maior informação para obter o deslocamento, a taxa convergência no mínimo igual à do algoritmo QR usando o deslocamento dado pelo quociente de Rayleigh e muitas vezes melhor Em geral, existem apenas casos muito especiais de matrizes para as quais o deslocamento de Wilkinson falha A experiência tem mostrado que são necessárias apenas 5 ou 9 iterações do algoritmo QR para obter uma aproximação satisfatória para o primeiro autovalor e de 3 a 5 iterações em média para os autovalores restantes às vezes menos); para matrizes hermitianas, 2 ou 3 iterações em média bastam O deslocamento de Wilkinson tem a vantagem inicial de que pode ser usado para aproximar autovalores complexos de matrizes reais, já que ele pode ser um número complexo, enquanto que o quociente de Rayleigh
117 Rodney Josué Biezuner 116 de uma matriz real sempre é um valor real Para maiores detalhes sobre as informações contidas este parágrafo veja [Watkins] Por fim, às vezes ocorre durante as iterações do algoritmo QR que um elemento da subdiagonal inferior localizado próximo ao meio da matriz é suficientemente próximo de 0 Neste caso a matriz A k tem a forma em blocos [ B11 B 12 ] 0 B 22 e o problema pode ser quebrado em dois, aplicando o algoritmo QR aos blocos B 11 e B 22 separadamente Como o custo de uma iteração QR de Hessenberg é O n 2), dividindo o tamanho da matriz pela metade implica numa diminuição do custo por um fator de Implementação prática do algoritmo QR Veja [Watkins] 64 Iteração de subespaços e iteração simultânea No método das potências ou iteração direta, ao invés de iterarmos apenas um vetor, podemos considerar a iteração de um subespaço inteiro: se S F n onde F = R ou C), consideramos as iteradas S, AS, A 2 S, Cada iterada A k S é um subespaço de F n que pode ser caracterizado por A k S = { A k x : x S } Como no método da iteração direta as iteradas convergem para o autovetor dominante, esperamos que estes subespaços iterados convirjam para um autoespaço Para verificar isso, precisamos definir uma noção de distância entre subespaços vetoriais 613 Definição Dados dois subespaços S, T F n, a distância entre eles é definida por dist S, T ) = sen θ onde θ é o maior ângulo principal entre S e T Dizemos que uma sequência de subespaços {S k } converge para S se dist S k, S) 0 e denotamos este fato por S k S 614 Teorema Seja A M n F) diagonalizável com autovalores λ 1 λ 2 λ n e uma correspondente base de autovetores {v 1,, v n } Suponha que λ m > λ m+1 para algum m Sejam T m = v 1,, v m, U m = v m+1,, v n Seja S um subespaço vetorial de dimensão m tal que S U m = {0} Então existe uma constante C tal que dist A k ) λ m+1 S, T m C λ m Em particular, A k S T m linearmente com taxa de convergência λ m+1 /λ m
118 Rodney Josué Biezuner 117 Prova: Uma demonstração rigorosa deste teorema está além dos propósitos deste curso Daremos apenas algumas idéias para justificar o resultado Em primeiro lugar, observe que dim A k S = m para todo k De fato, temos ker A k U m 614) Isso pode ser facilmente visto escrevendo os vetores em coordenadas: dado um vetor v = n a iv i, temos A k v = a i λ k i v i, de modo que A k v = 0 implica a 1 = = a m = 0 pois v 1,, v n são linearmente independentes e λ 1,, λ m são não nulos, já que λ 1 λ m > λ m+1 0 Daí, 614) juntamente com dim S = m e S U m = {0} implicam imediatamente que dim A k S = m para todo k Agora, seja v S um vetor não nulo Escrevendo v = a i v i segue de S U m = {0} que pelo menos um dos escalares a 1,, a m é não nulo assim, a condição S U m = {0} é equivalente a exigir no método das potências que o vetor inicial tenha uma componente na direção do autovetor dominante; aqui exigimos que cada vetor do subespaço tenha uma componente no autoespaço dominante) Temos A k v m ) k λi ) k λi λ k = a i v i + a i v i m λ m λ m i=m+1 As componentes do vetor normalizado A k v/λ k m no subespaço U m tendem a zero quando k aumenta com taxa de convergência λ m+1 /λ m ou melhor dependendo dos valores de a m+1,, a n ), consequentemente o vetor limite está no subespaço T m Como cada subsespaço A k S tem dimensão m, o limite dos subespaços não pode ser um subespaço próprio de T m Observe que a condição S U m = {0} ocorre quase sempre para uma escolha aleatória do subespaço m- dimensional S por exemplo, no caso de R 3 a escolha aleatória de uma reta e um plano quase sempre resultará que o único ponto em que eles se interceptam é a origem) Para fazer a iteração de subespaços na prática, deve-se escolher uma base para S e iterar todos os vetores desta base simultaneamente No processo de iterar o subespaço, devemos obviamente ortonormalizar a base do subespaço A k S em cada passo da iteração, usando um algoritmo robusto tal como o MGS com reortogonalização Este processo todo é chamado iteração simultânea Em notação matricial, a iteração simultânea pode ser descrita da seguinte maneira Seja S um subespaço de dimensão m com base v 1,, v m Utilizando um algoritmo robusto, encontramos uma base ortonormal q 1,, q m Formamos então uma matriz inicial n m com colunas ortonormais: Q 0 = [ q 0 1 q 0 m ] Em cada passo k da iteração, calculamos B k = AQ k e fazemos a decomposição QR de B k para obter uma base ortonormal para o subespaço A k S: se B k = Q k+1 R k+1, então as colunas ortonormais de Q k+1 formam uma base ortonormal para A k S No limite, teremos que as colunas das matrizes Q k convergem para os m autovetores dominantes nas condições do teorema anterior)
119 Rodney Josué Biezuner Equivalência entre o Algoritmo QR e Iteração Simultânea O algoritmo QR puro é equivalente à iteração simultânea aplicada à matriz identidade, isto é, tomando Q 0 = I Ou seja, se na iteração simultânea Q 0 = I, B k 1 = AQ k 1, 615) B k 1 = Q k R k, definirmos A k = Q kaq k, 616) R k = R k R 1 617) e, reciprocamente, no algoritmo QR definirmos A 0 = A, A k 1 = Q k R k, A k = R k Q k, 618) Q k = Q 1 Q k, 619) R k = R k R 1 620) segue que A k = A k, 621) Q k = Q k, 622) R k = R k 623) De fato, afirmamos que as matrizes Q k, R k e as matrizes Q k, R k são ambas caracterizadas como sendo a decomposição QR portanto única) da matriz A k, a k-ésima potência de A: A k = Q k R k = Q k Rk 624) A verificação de todos estes fatos segue por indução O caso k = 0 é imediato, já que B 0 = A Como hipótese de indução, assumimos donde Daí, no caso da iteração simultânea temos enquanto que no algoritmo QR temos A k 1 = A k 1, A k 1 = Q k 1 Rk 1 = Q k 1 R k 1, Q k 1 = Q k 1, R k 1 = R k 1 A k = AA k 1 = AQ k 1 R k 1 = Q k R k R k 1 = Q k R k, A k = AA k 1 = A Q k 1 Rk 1 = Q k 1 A k 1 Rk 1 = Q k 1 Q k R k Rk 1 = Q k Rk
120 Rodney Josué Biezuner 119 Portanto, donde A k = Q k R k = Q k Rk Q k = Q k, R k = R k Finalmente, pelo algoritmo QR podemos escrever como em 610)) A k = Q ka k 1 Q k, donde, pela hipótese de indução, A k = Q ka k 1 Q k = Q kq k 1AQ k 1 Q k = Q k Q k 1A Q k 1 Q k = Q kq k 1 Q 1AQ 1 Q k 1 Q k = Q ka Q k = A k 642 Convergência do Algoritmo QR Por simplicidade considere A simétrica A relação A k = Q k Rk = Q 1 Q k ) R k R 1 ) explica porque o algoritmo QR encontra os autovetores de A: ele constrói bases ortonormais para o espaço coluna das potências sucessivas A k e as colunas de A k são A k e 1,, A k e n ) A relação A k = Q t ka Q k explica porque o algoritmo QR encontra os autovalores de A: os elementos da diagonal de A k são os quocientes de Rayleigh correspondentes às colunas de Q k, isto é, aos autovetores de A Como os autovetores de A são ortogonais e A-ortogonais, os elementos fora da diagonal principal também convergem para 0 65 Método de Arnoldi e Algoritmo de Lanczos Para matrizes esparsas, não simétricas, o método de Arnoldi é o método mais usado para encontrar os autovalores e autovetores, e para matrizes simétricas esparsas o método escolhido é o algoritmo de Lanczos Na Proposição 57 vimos que no método de Arnoldi obtemos onde AQ m = Q m+1 Hm 625) Q m = [ q 1 q m ], Q m+1 = [ q 1 q m q m+1 ], são matrizes com colunas ortonormais e H m é uma matriz de Hessenberg superior m + 1) m na notação daquela proposição, a matriz Q m é denotada por V m ) Como naquela proposição, denote por H m a matriz de Hessenberg superior quadrada obtida através de H m quando suprimimos a última linha desta Segue que AQ m = Q m H m + q m+1 [ 0 0 hm+1,m ]
121 Rodney Josué Biezuner 120 ou AQ m = Q m H m + q m+1 h m+1,m e t m 626) Como vimos no capítulo anterior, se q, Aq,, A m q são linearmente independentes, então h m+1,m 0 Se eles são linearmente dependentes, então h m+1,m = 0 e AQ m = Q m H m 627) 615 Proposição Sejam A M n F) e q 1,, q m F n linearmente independentes Sejam S = q 1,, q m e considere a matriz n m Q = [ q 1 q m ] Então S é invariante sob A se e somente se existe algum B M m F) tal que AQ = QB Além disso, todo autovalor de B é um autovalor de A com autovetor correspondente em S Prova Se existe tal B, então Aq j = m q i b ij S Reciprocamente, se S é invariante sob A, então para cada índice j = 1,, m existem escalares b ij tais que Aq j = m b ij q i Defina B = b ij ) Se w é um autovetor de B com autovalor λ, então v = Qw S é um autovetor de A com autovalor λ Portanto, os autovalores da matriz de Hessenberg H m são também autovalores de A Se m não é muito grande, podemos então usar o algoritmo QR para encontrar os autovalores de H m Na prática, dificilmente obteremos h m+1,m = 0 exatamente, mas se h m+1,m é próximo de zero podemos esperar que estamos próximos de um subespaço invariante e, portanto, que os autovalores de H m estão próximos aos autovalores de A: 616 Teorema Sejam Q m, H m e h m+1,m gerados pelo método de Arnoldi Seja λ um autovalor de H m com autovetor unitário x Seja v = Q m x Então onde x m denota a última componente de x Av λv = h m+1,m x m O método de Arnoldi em geral obtém os autovalores periféricos Os autovalores interiores podem ser encontradas através da estratégia do deslocamento Quando A é simétrica, como vimos no capítulo anterior H m é uma matriz tridiagonal T m que pode ser obtida através de uma fórmula de recorrência Veja [Watkins] para detalhes sobre implementações eficientes do método de Arnoldi e algoritmo de Lanczos para encontrar autovalores e autovetores de matrizes esparsas 66 O Problema de Autovalor Simétrico Para matrizes simétricas, existem algoritmos bem mais eficiente que o algoritmo QR [Trefethen-Bau], entre outros Veja [Parlett],
122 Rodney Josué Biezuner Exercícios 61 Suponha que A M n C) é uma matriz diagonalizável tal que nenhum autovalor de A diferente do autovalor dominante λ 1 tem módulo igual a A Em outras palavras, se r é a dimensão do autoespaço associado a λ 1, ou autovalores de A satisfazem com λ 1 = = λ r > λ 2 λ n λ 1 = = λ r Mostre que o método das potências pode ser aplicado a A para encontrar λ 1 e um autovetor unitário no autoespaço associado a λ 1 62 Usando a forma canônica de Jordan, mostre que a hipótese de A ser diagonalizável pode ser removida da hipótese do exercício anterior decompondo o vetor inicial v 0 como a soma de um vetor na direção do autovetor dominante v 1 e de vetores principais nos subespaços de Jordan da matriz 63 Prove a Proposição 67 sem assumir que o autovalor é simples 64 Prove que o produto de uma matriz triangular superior e uma matriz de Hessenberg superior é uma matriz de Hessenberg superior O que se pode dizer sobre o produto de duas matrizes de Hessenberg superiores? 65 Prove a unicidade do refletor na Proposição 611
123 Referências Bibliográficas [BHM] William L BRIGGS, Van Emden HENSON e Steve F McCORMICK, A Multigrid Tutorial, 2nd Ed, SIAM, 2000 [Demmel] James W DEMMEL, Applied Numerical Linear Algebra, SIAM, 1997 [Hackbusch] W HACKBUSCH, Iterative Solutions of Large Sparse Systems of Equations, Applied Mathematical Sciences 95, Springer-Verlag, 1994 [Hoffman-Kunze] K HOFFMAN e R KUNZE, Linear Algebra, 2nd Ed, Prentice Hall, 1971 [Horn-Johnson] Roger A HORN e Charles R JOHNSON, Matrix Analysis, Cambridge University Press, 1985 [Komzsik] Louis KOMZSIK, The Lanczos Method: evolution and application, SIAM, 2003 [Kreyszig] [Mak] [Meurant] KREYSZIG, E, Introductory Functional Analysis with Applications, John Wiley & Sons, 1978 Ronald MAK, Java Number Cruncher: the Java Programmer s Guide to Numerical Computing, Prentice Hall, 2003 Gérard MEURANT, The Lanczos and Conjugate Gradient Algorithms: from theory to finite precision computations, SIAM, 2006 [Parlett] Beresford N PARLETT, The Symmetric Eigenvalue Problem, SIAM, 1998 [Saad] Yousef SAAD, Iterative Methods for Sparse Linear Systems, 2nd Ed, SIAM, 2003 [Stoer-Bulirsch] [Strang] Josef STOER e Roland BULIRSCH, Introduction to Numerical Analysis, 3rd Ed, Springer, 2002 Gilbert STRANG, Linear Algebra and its Applications, 3rd Ed, Harcourt Brace Jovanovich, 1988 [Trefethen-Bau] Lloyd N TREFETHEN e David BAU, Numerical Linear Algebra, SIAM, 1997 [van der Vorst] [Watkins] [Young] Henk A van der VORST, Iterative Krylov Methods for Large Linear Systems, Cambridge University Press, 2003 David S WATKINS, Fundamentals of Matrix Computations, 2nd Ed, John Wiley & Sons, 2002 David M YOUNG, Iterative Solutions of Large Linear Systems, Academic Press,
Análise de Arredondamento em Ponto Flutuante
Capítulo 2 Análise de Arredondamento em Ponto Flutuante 2.1 Introdução Neste capítulo, chamamos atenção para o fato de que o conjunto dos números representáveis em qualquer máquina é finito, e portanto
Exercícios Teóricos Resolvidos
Universidade Federal de Minas Gerais Instituto de Ciências Exatas Departamento de Matemática Exercícios Teóricos Resolvidos O propósito deste texto é tentar mostrar aos alunos várias maneiras de raciocinar
Notas de Cálculo Numérico
Notas de Cálculo Numérico Túlio Carvalho 6 de novembro de 2002 2 Cálculo Numérico Capítulo 1 Elementos sobre erros numéricos Neste primeiro capítulo, vamos falar de uma limitação importante do cálculo
Universidade Federal de São João Del Rei - UFSJ
Universidade Federal de São João Del Rei - UFSJ Instituída pela Lei 0.45, de 9/04/00 - D.O.U. de /04/00 Pró-Reitoria de Ensino de Graduação - PROEN Disciplina: Cálculo Numérico Ano: 03 Prof: Natã Goulart
Capítulo SETE Números em Ponto Fixo e Ponto Flutuante
Capítulo SETE Números em Ponto Fixo e Ponto Flutuante 7.1 Números em ponto fixo Observação inicial: os termos ponto fixo e ponto flutuante são traduções diretas dos termos ingleses fixed point e floating
Representação de números em máquinas
Capítulo 1 Representação de números em máquinas 1.1. Sistema de numeração Um sistema de numeração é formado por uma coleção de símbolos e regras para representar conjuntos de números de maneira consistente.
Introdução. A Informação e sua Representação (Parte II) Universidade Federal de Campina Grande. Unidade Acadêmica de Sistemas e Computação
Universidade Federal de Campina Grande Unidade Acadêmica de Sistemas e Computação Introdução à Computação A Informação e sua Representação (Parte II) Prof. a Joseana Macêdo Fechine Régis de Araújo [email protected]
Unidade 5: Sistemas de Representação
Arquitetura e Organização de Computadores Atualização: 9/8/ Unidade 5: Sistemas de Representação Números de Ponto Flutuante IEEE 754/8 e Caracteres ASCII Prof. Daniel Caetano Objetivo: Compreender a representação
Estudaremos métodos numéricos para resolução de sistemas lineares com n equações e n incógnitas. Estes podem ser:
1 UNIVERSIDADE FEDERAL DE VIÇOSA Departamento de Matemática - CCE Cálculo Numérico - MAT 271 Prof.: Valéria Mattos da Rosa As notas de aula que se seguem são uma compilação dos textos relacionados na bibliografia
Cálculo Numérico Faculdade de Engenharia, Arquiteturas e Urbanismo FEAU
Cálculo Numérico Faculdade de Engenharia, Arquiteturas e Urbanismo FEAU Prof. Dr. Sergio Pilling (IPD/ Física e Astronomia) III Resolução de sistemas lineares por métodos numéricos. Objetivos: Veremos
Eduardo Camponogara. DAS-5103: Cálculo Numérico para Controle e Automação. Departamento de Automação e Sistemas Universidade Federal de Santa Catarina
Eduardo Camponogara Departamento de Automação e Sistemas Universidade Federal de Santa Catarina DAS-5103: Cálculo Numérico para Controle e Automação 1/48 Sumário Arredondamentos Erros 2/48 Sumário Arredondamentos
Resolução de sistemas lineares
Resolução de sistemas lineares J M Martínez A Friedlander 1 Alguns exemplos Comecemos mostrando alguns exemplos de sistemas lineares: 3x + 2y = 5 x 2y = 1 (1) 045x 1 2x 2 + 6x 3 x 4 = 10 x 2 x 5 = 0 (2)
Aritmética de Ponto Flutuante
Aritmética de Ponto Flutuante Entre 1970 e 1980 um grupo formado por cientistas e engenheiros de diferentes empresas de computação realizou um trabalho intenso na tentativa de encontrar um padrão de representação
Problemas de Valor Inicial para Equações Diferenciais Ordinárias
Problemas de Valor Inicial para Equações Diferenciais Ordinárias Carlos Balsa [email protected] Departamento de Matemática Escola Superior de Tecnologia e Gestão de Bragança Matemática Aplicada - Mestrados
Notas sobre a Fórmula de Taylor e o estudo de extremos
Notas sobre a Fórmula de Taylor e o estudo de etremos O Teorema de Taylor estabelece que sob certas condições) uma função pode ser aproimada na proimidade de algum ponto dado) por um polinómio, de modo
Potenciação no Conjunto dos Números Inteiros - Z
Rua Oto de Alencar nº 5-9, Maracanã/RJ - tel. 04-98/4-98 Potenciação no Conjunto dos Números Inteiros - Z Podemos epressar o produto de quatro fatores iguais a.... por meio de uma potência de base e epoente
CAPÍTULO 2. Grafos e Redes
CAPÍTULO 2 1. Introdução Um grafo é uma representação visual de um determinado conjunto de dados e da ligação existente entre alguns dos elementos desse conjunto. Desta forma, em muitos dos problemas que
Lista 1 para a P2. Operações com subespaços
Lista 1 para a P2 Observação 1: Estes exercícios são um complemento àqueles apresentados no livro. Eles foram elaborados com o objetivo de oferecer aos alunos exercícios de cunho mais teórico. Nós sugerimos
REPRESENTAÇÃO DE DADOS EM SISTEMAS DE COMPUTAÇÃO AULA 03 Arquitetura de Computadores Gil Eduardo de Andrade
REPRESENTAÇÃO DE DADOS EM SISTEMAS DE COMPUTAÇÃO AULA 03 Arquitetura de Computadores Gil Eduardo de Andrade O conteúdo deste documento é baseado no livro Princípios Básicos de Arquitetura e Organização
1 Propagação de Onda Livre ao Longo de um Guia de Ondas Estreito.
1 I-projeto do campus Programa Sobre Mecânica dos Fluidos Módulos Sobre Ondas em Fluidos T. R. Akylas & C. C. Mei CAPÍTULO SEIS ONDAS DISPERSIVAS FORÇADAS AO LONGO DE UM CANAL ESTREITO As ondas de gravidade
Capítulo 5: Aplicações da Derivada
Instituto de Ciências Exatas - Departamento de Matemática Cálculo I Profª Maria Julieta Ventura Carvalho de Araujo Capítulo 5: Aplicações da Derivada 5- Acréscimos e Diferenciais - Acréscimos Seja y f
Campos Vetoriais e Integrais de Linha
Cálculo III Departamento de Matemática - ICEx - UFMG Marcelo Terra Cunha Campos Vetoriais e Integrais de Linha Um segundo objeto de interesse do Cálculo Vetorial são os campos de vetores, que surgem principalmente
Exercícios Adicionais
Exercícios Adicionais Observação: Estes exercícios são um complemento àqueles apresentados no livro. Eles foram elaborados com o objetivo de oferecer aos alunos exercícios de cunho mais teórico. Nós recomendamos
Aula 2 - Cálculo Numérico
Aula 2 - Cálculo Numérico Erros Prof. Phelipe Fabres Anhanguera Prof. Phelipe Fabres (Anhanguera) Aula 2 - Cálculo Numérico 1 / 41 Sumário Sumário 1 Sumário 2 Erros Modelagem Truncamento Representação
Retas e Planos. Equação Paramétrica da Reta no Espaço
Retas e lanos Equações de Retas Equação aramétrica da Reta no Espaço Considere o espaço ambiente como o espaço tridimensional Um vetor v = (a, b, c) determina uma direção no espaço Dado um ponto 0 = (x
Organização e Arquitetura de Computadores I
Organização e Arquitetura de Computadores I Aritmética Computacional Slide 1 Sumário Unidade Lógica e Aritmética Representação de Números Inteiros Aritmética de Números Inteiros Representação de Números
7 - Análise de redes Pesquisa Operacional CAPÍTULO 7 ANÁLISE DE REDES. 4 c. Figura 7.1 - Exemplo de um grafo linear.
CAPÍTULO 7 7 ANÁLISE DE REDES 7.1 Conceitos Básicos em Teoria dos Grafos Diversos problemas de programação linear, inclusive os problemas de transporte, podem ser modelados como problemas de fluxo de redes.
INSTITUTO TECNOLÓGICO
PAC - PROGRAMA DE APRIMORAMENTO DE CONTEÚDOS. ATIVIDADES DE NIVELAMENTO BÁSICO. DISCIPLINAS: MATEMÁTICA & ESTATÍSTICA. PROFº.: PROF. DR. AUSTER RUZANTE 1ª SEMANA DE ATIVIDADES DOS CURSOS DE TECNOLOGIA
Prova de Admissão para o Mestrado em Matemática IME-USP - 23.11.2007
Prova de Admissão para o Mestrado em Matemática IME-USP - 23.11.2007 A Nome: RG: Assinatura: Instruções A duração da prova é de duas horas. Assinale as alternativas corretas na folha de respostas que está
ESPAÇOS MUNIDOS DE PRODUTO INTERNO
ESPAÇOS MUNIDOS DE PRODUTO INTERNO Angelo Fernando Fiori 1 Bruna Larissa Cecco 2 Grazielli Vassoler 3 Resumo: O presente trabalho apresenta um estudo sobre os espaços vetoriais munidos de produto interno.
Álgebra. SeM MiSTéRio
Álgebra SeM MiSTéRio Série SeM MiSTéRio Alemão Sem Mistério Álgebra Sem Mistério Cálculo Sem Mistério Conversação em Alemão Sem Mistério Conversação em Espanhol Sem Mistério Conversação em Francês Sem
Universidade Federal de São Carlos Departamento de Matemática 083020 - Curso de Cálculo Numérico - Turma E Resolução da Primeira Prova - 16/04/2008
Universidade Federal de São Carlos Departamento de Matemática 08300 - Curso de Cálculo Numérico - Turma E Resolução da Primeira Prova - 16/0/008 1. (0 pts.) Considere o sistema de ponto flutuante normalizado
por séries de potências
Seção 23: Resolução de equações diferenciais por séries de potências Até este ponto, quando resolvemos equações diferenciais ordinárias, nosso objetivo foi sempre encontrar as soluções expressas por meio
ARQUITETURA E ORGANIZAÇÃO DE COMPUTADORES SISTEMAS DE NUMERAÇÃO: REPRESENTAÇÃO EM PONTO FLUTUANTE. Prof. Dr. Daniel Caetano 2012-1
ARQUITETURA E ORGANIZAÇÃO DE COMPUTADORES SISTEMAS DE NUMERAÇÃO: REPRESENTAÇÃO EM PONTO FLUTUANTE Prof. Dr. Daniel Caetano 2012-1 Objetivos Compreender o que é notação em ponto flutuante Compreender a
Representando Instruções no Computador
Representando Instruções no Computador Humanos aprenderam a pensar na base 10 Números podem ser representados em qualquer base Números mantidos no hardware como série de sinais eletrônicos altos e baixos
Testedegeradoresde. Parte X. 38 Testes de Ajuste à Distribuição. 38.1 Teste Chi-Quadrado
Parte X Testedegeradoresde números aleatórios Os usuários de uma simulação devem se certificar de que os números fornecidos pelo gerador de números aleatórios são suficientemente aleatórios. O primeiro
Equações Diferenciais Ordinárias
Capítulo 8 Equações Diferenciais Ordinárias Vários modelos utilizados nas ciências naturais e exatas envolvem equações diferenciais. Essas equações descrevem a relação entre uma função, o seu argumento
Capítulo 7. Topologia Digital. 7.1 Conexidade
Capítulo 7 Topologia Digital A Topologia Digital estuda a aplicação das noções definidas em Topologia sobre imagens binárias. Neste capítulo vamos introduzir algumas noções básicas de Topologia Digital,
2. Representação Numérica
2. Representação Numérica 2.1 Introdução A fim se realizarmos de maneira prática qualquer operação com números, nós precisamos representa-los em uma determinada base numérica. O que isso significa? Vamos
CCI-22 CCI-22. 2) Erros de arredondamento. Matemática Computacional
Matemática Computacional 2) Erros de arredondamento Carlos Alberto Alonso Sanches Erros de representação e de cálculo Tipos de erros Erro inerente: sempre presente na incerteza das medidas experimentais
Métodos Numéricos. Turma CI-202-X. Josiney de Souza. [email protected]
Métodos Numéricos Turma CI-202-X Josiney de Souza [email protected] Agenda do Dia Aula 3 (10/08/15) Aritmética de ponto flutuante Representação de ponto flutuante Normalização Binária Decimal Situações
Material Teórico - Módulo de Métodos sofisticados de contagem. Princípio das Casas dos Pombos. Segundo Ano do Ensino Médio
Material Teórico - Módulo de Métodos sofisticados de contagem Princípio das Casas dos Pombos Segundo Ano do Ensino Médio Prof. Cícero Thiago Bernardino Magalhães Prof. Antonio Caminha Muniz Neto Em Combinatória,
36 a Olimpíada Brasileira de Matemática Nível Universitário Primeira Fase
36 a Olimpíada Brasileira de Matemática Nível Universitário Primeira Fase Problema 1 Turbo, o caracol, está participando de uma corrida Nos últimos 1000 mm, Turbo, que está a 1 mm por hora, se motiva e
Um estudo sobre funções contínuas que não são diferenciáveis em nenhum ponto
Um estudo sobre funções contínuas que não são diferenciáveis em nenhum ponto Maria Angélica Araújo Universidade Federal de Uberlândia - Faculdade de Matemática Graduanda em Matemática - Programa de Educação
Cálculo Numérico Aula 1: Computação numérica. Tipos de Erros. Aritmética de ponto flutuante
Cálculo Numérico Aula : Computação numérica. Tipos de Erros. Aritmética de ponto flutuante Computação Numérica - O que é Cálculo Numérico? Cálculo numérico é uma metodologia para resolver problemas matemáticos
Truques e Dicas. = 7 30 Para multiplicar fracções basta multiplicar os numeradores e os denominadores: 2 30 = 12 5
Truques e Dicas O que se segue serve para esclarecer alguma questão que possa surgir ao resolver um exercício de matemática. Espero que lhe seja útil! Cap. I Fracções. Soma e Produto de Fracções Para somar
Aula 4 Estatística Conceitos básicos
Aula 4 Estatística Conceitos básicos Plano de Aula Amostra e universo Média Variância / desvio-padrão / erro-padrão Intervalo de confiança Teste de hipótese Amostra e Universo A estatística nos ajuda a
Capítulo 1 - Erros e Aritmética Computacional
Capítulo 1 - Erros e Carlos Balsa [email protected] Departamento de Matemática Escola Superior de Tecnologia e Gestão de Bragança 2 o Ano - Eng. Civil, Electrotécnica e Mecânica Carlos Balsa Métodos Numéricos
Aula 4 Conceitos Básicos de Estatística. Aula 4 Conceitos básicos de estatística
Aula 4 Conceitos Básicos de Estatística Aula 4 Conceitos básicos de estatística A Estatística é a ciência de aprendizagem a partir de dados. Trata-se de uma disciplina estratégica, que coleta, analisa
Álgebra Linear. André Arbex Hallack Frederico Sercio Feitosa
Álgebra Linear André Arbex Hallack Frederico Sercio Feitosa Janeiro/2006 Índice 1 Sistemas Lineares 1 11 Corpos 1 12 Sistemas de Equações Lineares 3 13 Sistemas equivalentes 4 14 Operações elementares
Curvas de nível homotópicas a um ponto
Curvas de nível homotópicas a um ponto Praciano-Pereira, T Sobral Matemática 6 de agosto de 2011 [email protected] pré-prints da Sobral Matemática no. 2011.03 Editor Tarcisio Praciano-Pereira, [email protected]
Aula 9 Plano tangente, diferencial e gradiente
MÓDULO 1 AULA 9 Aula 9 Plano tangente, diferencial e gradiente Objetivos Aprender o conceito de plano tangente ao gráfico de uma função diferenciável de duas variáveis. Conhecer a notação clássica para
0,999... OU COMO COLOCAR UM BLOCO QUADRADO EM UM BURACO REDONDO Pablo Emanuel
Nível Intermediário 0,999... OU COMO COLOCAR UM BLOCO QUADRADO EM UM BURACO REDONDO Pablo Emanuel Quando um jovem estudante de matemática começa a estudar os números reais, é difícil não sentir certo desconforto
O ESPAÇO NULO DE A: RESOLVENDO AX = 0 3.2
3.2 O Espaço Nulo de A: Resolvendo Ax = 0 11 O ESPAÇO NULO DE A: RESOLVENDO AX = 0 3.2 Esta seção trata do espaço de soluções para Ax = 0. A matriz A pode ser quadrada ou retangular. Uma solução imediata
Aula 2 Sistemas de Numeração (Revisão)
Aula 2 Sistemas de Numeração (Revisão) Anderson L. S. Moreira [email protected] http://dase.ifpe.edu.br/~alsm 1 O que fazer com essa apresentação 2 Agenda Breve revisão da aula anterior
Exercícios 1. Determinar x de modo que a matriz
setor 08 080509 080509-SP Aula 35 MATRIZ INVERSA Uma matriz quadrada A de ordem n diz-se invertível, ou não singular, se, e somente se, existir uma matriz que indicamos por A, tal que: A A = A A = I n
Somatórias e produtórias
Capítulo 8 Somatórias e produtórias 8. Introdução Muitas quantidades importantes em matemática são definidas como a soma de uma quantidade variável de parcelas também variáveis, por exemplo a soma + +
MD Sequências e Indução Matemática 1
Sequências Indução Matemática Renato Martins Assunção [email protected] Antonio Alfredo Ferreira Loureiro [email protected] MD Sequências e Indução Matemática 1 Introdução Uma das tarefas mais importantes
AV1 - MA 12-2012. (b) Se o comprador preferir efetuar o pagamento à vista, qual deverá ser o valor desse pagamento único? 1 1, 02 1 1 0, 788 1 0, 980
Questão 1. Uma venda imobiliária envolve o pagamento de 12 prestações mensais iguais a R$ 10.000,00, a primeira no ato da venda, acrescidas de uma parcela final de R$ 100.000,00, 12 meses após a venda.
Karine Nayara F. Valle. Métodos Numéricos de Euler e Runge-Kutta
Karine Nayara F. Valle Métodos Numéricos de Euler e Runge-Kutta Professor Orientador: Alberto Berly Sarmiento Vera Belo Horizonte 2012 Karine Nayara F. Valle Métodos Numéricos de Euler e Runge-Kutta Monografia
Métodos Numéricos. A. Ismael F. Vaz. Departamento de Produção e Sistemas Escola de Engenharia Universidade do Minho [email protected].
Métodos Numéricos A. Ismael F. Vaz Departamento de Produção e Sistemas Escola de Engenharia Universidade do Minho [email protected] Mestrado Integrado em Engenharia Mecânica Ano lectivo 2007/2008 A.
Cálculo em Computadores - 2007 - trajectórias 1. Trajectórias Planas. 1 Trajectórias. 4.3 exercícios... 6. 4 Coordenadas polares 5
Cálculo em Computadores - 2007 - trajectórias Trajectórias Planas Índice Trajectórias. exercícios............................................... 2 2 Velocidade, pontos regulares e singulares 2 2. exercícios...............................................
Faculdade de Computação
UNIVERSIDADE FEDERAL DE UBERLÂNDIA Faculdade de Computação Disciplina : Teoria da Computação Professora : Sandra Aparecida de Amo Lista de Exercícios n o 2 Exercícios sobre Modelos de Máquinas de Turing
Curvas em coordenadas polares
1 Curvas em coordenadas polares As coordenadas polares nos dão uma maneira alternativa de localizar pontos no plano e são especialmente adequadas para expressar certas situações, como veremos a seguir.
a 1 x 1 +... + a n x n = b,
Sistemas Lineares Equações Lineares Vários problemas nas áreas científica, tecnológica e econômica são modelados por sistemas de equações lineares e requerem a solução destes no menor tempo possível Definição
Material Teórico - Aplicações das Técnicas Desenvolvidas. Exercícios e Tópicos Relacionados a Combinatória. Segundo Ano do Ensino Médio
Material Teórico - Aplicações das Técnicas Desenvolvidas Exercícios e Tópicos Relacionados a Combinatória Segundo Ano do Ensino Médio Prof Cícero Thiago Bernardino Magalhães Prof Antonio Caminha Muniz
Introdução. A Informação e sua Representação (Parte III) Universidade Federal de Campina Grande Departamento de Sistemas e Computação
Universidade Federal de Campina Grande Departamento de Sistemas e Computação Introdução à Computação A Informação e sua Representação (Parte III) Prof.a Joseana Macêdo Fechine Régis de Araújo [email protected]
CADERNO DE ATIVIDADES UMA PROPOSTA METODOLÓGICA PARA O ESTUDO DAS EQUAÇÕES DIFERENCIAIS ORDINÁRIAS POR MÉTODOS NUMÉRICOS.
1 CADERNO DE ATIVIDADES UMA PROPOSTA METODOLÓGICA PARA O ESTUDO DAS EQUAÇÕES DIFERENCIAIS ORDINÁRIAS POR MÉTODOS NUMÉRICOS. PONTIFÍCIA UNIVERSIDADE CATÓLICA DE MINAS GERAIS MESTRADO EM ENSINO DE CIÊNCIAS
TÉCNICAS DE PROGRAMAÇÃO
TÉCNICAS DE PROGRAMAÇÃO (Adaptado do texto do prof. Adair Santa Catarina) ALGORITMOS COM QUALIDADE MÁXIMAS DE PROGRAMAÇÃO 1) Algoritmos devem ser feitos para serem lidos por seres humanos: Tenha em mente
A otimização é o processo de
A otimização é o processo de encontrar a melhor solução (ou solução ótima) para um problema. Eiste um conjunto particular de problemas nos quais é decisivo a aplicação de um procedimento de otimização.
Fração como porcentagem. Sexto Ano do Ensino Fundamental. Autor: Prof. Francisco Bruno Holanda Revisor: Prof. Antonio Caminha M.
Material Teórico - Módulo de FRAÇÕES COMO PORCENTAGEM E PROBABILIDADE Fração como porcentagem Sexto Ano do Ensino Fundamental Autor: Prof. Francisco Bruno Holanda Revisor: Prof. Antonio Caminha M. Neto
Texto 07 - Sistemas de Partículas. A figura ao lado mostra uma bola lançada por um malabarista, descrevendo uma trajetória parabólica.
Texto 07 - Sistemas de Partículas Um ponto especial A figura ao lado mostra uma bola lançada por um malabarista, descrevendo uma trajetória parabólica. Porém objetos que apresentam uma geometria, diferenciada,
Discussão de Sistemas Teorema de Rouché Capelli
Material by: Caio Guimarães (Equipe Rumoaoita.com) Discussão de Sistemas Teorema de Rouché Capelli Introdução: Apresentamos esse artigo para mostrar como utilizar a técnica desenvolvida a partir do Teorema
x0 = 1 x n = 3x n 1 x k x k 1 Quantas são as sequências com n letras, cada uma igual a a, b ou c, de modo que não há duas letras a seguidas?
Recorrências Muitas vezes não é possível resolver problemas de contagem diretamente combinando os princípios aditivo e multiplicativo. Para resolver esses problemas recorremos a outros recursos: as recursões
FACULDADE DE CIÊNCIA E TECNOLOGIA. Cursos de Engenharia. Prof. Álvaro Fernandes Serafim
FACULDADE DE CIÊNCIA E TECNOLOGIA Cursos de Engenharia Prof. Álvaro Fernandes Serafim Última atualização: //7. Esta apostila de Álgebra Linear foi elaborada pela Professora Ilka Rebouças Freire. A formatação
CURSO E COLÉGIO APOIO. Professor: Ronaldo Correa
CURSO E COLÉGIO APOIO Professor: Ronaldo Correa Holiday - Christmas.mpg medidas 1-Medidas Grandeza tudo aquilo que pode ser medido. Medir comparar com um padrão. No Brasil e na maioria dos países as unidades
Universidade Federal Fluminense ICEx Volta Redonda Introdução a Matemática Superior Professora: Marina Sequeiros
. Conjuntos numéricos Objetivo: aprender sobre conjuntos numéricos, suas operações e propriedades..1 Conjunto dos números naturais (IN) O conjunto dos números naturais é representado por IN e IΝ{0;1;;;...}.
UNIVERSIDADE FEDERAL DO ESPÍRITO SANTO PROGRAMA DE EDUCAÇÃO TUTORIAL - MATEMÁTICA PROJETO FUNDAMENTOS DE MATEMÁTICA ELEMENTAR
UNIVERSIDADE FEDERAL DO ESPÍRITO SANTO PROGRAMA DE EDUCAÇÃO TUTORIAL - MATEMÁTICA PROJETO FUNDAMENTOS DE MATEMÁTICA ELEMENTAR Assuntos: Matrizes; Matrizes Especiais; Operações com Matrizes; Operações Elementares
QUESTÕES COMENTADAS E RESOLVIDAS
LENIMAR NUNES DE ANDRADE INTRODUÇÃO À ÁLGEBRA: QUESTÕES COMENTADAS E RESOLVIDAS 1 a edição ISBN 978-85-917238-0-5 João Pessoa Edição do Autor 2014 Prefácio Este texto foi elaborado para a disciplina Introdução
Organização e Arquitetura de Computadores. Aula 10 Ponto Flutuante Parte I. 2002 Juliana F. Camapum Wanderley
Organização e Arquitetura de Computadores Aula 10 Ponto Flutuante Parte I 2002 Juliana F. Camapum Wanderley http://www.cic.unb.br/docentes/juliana/cursos/oac OAC Ponto Flutuante Parte I - 1 Panorama Números
Capítulo 3 - Sistemas de Equações Lineares
Capítulo 3 - Sistemas de Equações Lineares Carlos Balsa [email protected] Departamento de Matemática Escola Superior de Tecnologia e Gestão de Bragança Matemática I - 1 o Semestre 2011/2012 Matemática I 1/
Capítulo 3 - Sistemas de Equações Lineares
Capítulo 3 - Sistemas de Equações Lineares Carlos Balsa [email protected] Departamento de Matemática Escola Superior de Tecnologia e Gestão de Bragança Matemática I - 1 o Semestre 2011/2012 Matemática I 1/
Sistema de equações lineares
Sistema de equações lineares Sistema de m equações lineares em n incógnitas sobre um corpo ( S) a x + a x + + a x = b a x + a x + + a x = b a x + a x + + a x = b 11 1 12 2 1n n 1 21 1 22 2 2n n 2 m1 1
7 AULA. Curvas Polares LIVRO. META Estudar as curvas planas em coordenadas polares (Curvas Polares).
1 LIVRO Curvas Polares 7 AULA META Estudar as curvas planas em coordenadas polares (Curvas Polares). OBJETIVOS Estudar movimentos de partículas no plano. Cálculos com curvas planas em coordenadas polares.
ANÁLISE NUMÉRICA DEC - 1996/97
ANÁLISE NUMÉRICA DEC - 996/97 Teoria de Erros A Teoria de Erros fornece técnicas para quantificar erros nos dados e nos resultados de cálculos com números aproximados. Nos cálculos aproximados deve-se
Linguagem e Técnicas de Programação I Tipos de dados, variáveis e constantes. Prof. MSc. Hugo Souza Material desenvolvido por: Profa.
Linguagem e Técnicas de Programação I Tipos de dados, variáveis e constantes Prof. MSc. Hugo Souza Material desenvolvido por: Profa. Ameliara Freire Tipos de dados Os programas manipulam dados, armazenando-os
Gráficos de funções em calculadoras e com lápis e papel (*)
Rafael Domingos G Luís Universidade da Madeira/Escola Básica /3 São Roque Departamento de Matemática Gráficos de funções em calculadoras e com lápis e papel (*) A difusão de calculadoras gráficas tem levado
Um jogo de preencher casas
Um jogo de preencher casas 12 de Janeiro de 2015 Resumo Objetivos principais da aula de hoje: resolver um jogo com a ajuda de problemas de divisibilidade. Descrevemos nestas notas um jogo que estudamos
Computadores XII: Aprendendo a Somar A4 Texto 3
Computadores XII: Aprendendo a Somar A4 Texto 3 http://www.bpiropo.com.br/fpc20051017.htm Sítio Fórum PCs /Colunas Coluna: B. Piropo Publicada em 17/10/2005 Autor: B.Piropo Na coluna anterior, < http://www.forumpcs.com.br/viewtopic.php?t=131250
Notas Para um Curso de Cálculo. Daniel V. Tausk
Notas Para um Curso de Cálculo Avançado Daniel V. Tausk Sumário Capítulo 1. Diferenciação... 1 1.1. Notação em Cálculo Diferencial... 1 1.2. Funções Diferenciáveis... 8 Exercícios para o Capítulo 1...
IBM1018 Física Básica II FFCLRP USP Prof. Antônio Roque Aula 6. O trabalho feito pela força para deslocar o corpo de a para b é dado por: = =
Energia Potencial Elétrica Física I revisitada 1 Seja um corpo de massa m que se move em linha reta sob ação de uma força F que atua ao longo da linha. O trabalho feito pela força para deslocar o corpo
As fases na resolução de um problema real podem, de modo geral, ser colocadas na seguinte ordem:
1 As notas de aula que se seguem são uma compilação dos textos relacionados na bibliografia e não têm a intenção de substituir o livro-texto, nem qualquer outra bibliografia. Introdução O Cálculo Numérico
Exercícios resolvidos P2
Exercícios resolvidos P Questão 1 Dena as funções seno hiperbólico e cosseno hiperbólico, respectivamente, por sinh(t) = et e t e cosh(t) = et + e t. (1) 1. Verique que estas funções satisfazem a seguinte
Vetores. Definição geométrica de vetores
Vetores Várias grandezas físicas, tais como por exemplo comprimento, área, olume, tempo, massa e temperatura são completamente descritas uma ez que a magnitude (intensidade) é dada. Tais grandezas são
DICAS PARA CÁLCULOS MAIS RÁPIDOS ARTIGO 06
DICAS PARA CÁLCULOS MAIS RÁPIDOS ARTIGO 06 Este é o 6º artigo da série de dicas para facilitar / agilizar os cálculos matemáticos envolvidos em questões de Raciocínio Lógico, Matemática, Matemática Financeira
Aula 3 OS TRANSITÒRIOS DAS REDES ELÉTRICAS
Aula 3 OS TRANSITÒRIOS DAS REDES ELÉTRICAS Prof. José Roberto Marques (direitos reservados) A ENERGIA DAS REDES ELÉTRICAS A transformação da energia de um sistema de uma forma para outra, dificilmente
Introdução ao estudo de equações diferenciais
Matemática (AP) - 2008/09 - Introdução ao estudo de equações diferenciais 77 Introdução ao estudo de equações diferenciais Introdução e de nição de equação diferencial Existe uma grande variedade de situações
Dinâmica de um Sistema de Partículas Faculdade de Engenharia, Arquiteturas e Urbanismo FEAU
Dinâmica de um Sistema de Partículas Faculdade de Engenharia, Arquiteturas e Urbanismo FEAU Profa. Dra. Diana Andrade & Prof. Dr. Sergio Pilling Parte 1 - Movimento Retilíneo Coordenada de posição, trajetória,
Aritmética de Ponto Flutuante e Noções de Erro. Ana Paula
Aritmética de Ponto Flutuante e Noções de Erro Sumário 1 Introdução 2 Sistemas de Numeração 3 Representação de Números Inteiros no Computador 4 Representação de Números Reais no Computador 5 Operações
