Capítulo 2. Computação Numérica

Capítulo 2. Neste capítulo serão considerados alguns aspetos básicos relativos ao cálculo numérico, como as representações de números inteiros e reais em código binário, e análise e representação dos erros que podem ocorrer em consequência do uso das referidas representações de números. 1. Cálculo numérico O Cálculo Numérico é uma metodologia para resolver problemas matemáticos através do computador, muito utilizada por engenheiros e cientistas. Uma solução obtida via Cálculo Numérico é sempre numérica, enquanto que os métodos analíticos fornecem normalmente o resultado em termos de funções matemáticas. Muito embora uma solução numérica seja uma aproximação do resultado exato, ela pode ser obtida com um elevado grau de exatidão. Uma solução numérica é calculada para problemas que não possuem solução analítica (comum nas equações diferenciais), embora os métodos analíticos forneçam, na maioria os casos, a resposta em termos de funções matemáticas. Mas, mesmo nestes casos, e quando o seu cálculo é muito caro (em tempo e recursos) pode-se obter uma solução numérica para o problema. Para computar (calcular por meio de um computador) uma solução numérica, são necessárias operações aritméticas (adição, subtração, multiplicação e divisão) e lógicas (comparação, conjunção, disjunção e negação). Considerando que estas são as únicas operações matemáticas que os computadores são capazes de realizar, então os computadores e o Cálculo Numérico formam uma combinação perfeita. Refira-se que o primeiro computador de grande porte totalmente eletrónico, o ENIAC (Electronic Numerical Integrator And Calculator), foi projetado para realizar cálculos balísticos, e os maiores supercomputadores atuais estão dedicados a realizar cálculos numéricos. 2. Representação de números 2.1. Representação de números em diferentes bases Nesta secção serão discutidos alguns métodos para a mudança de base na representação de números inteiros e reais. É comum, para grande parte dos computadores atuais utilizados na implementação computacional, o uso de uma base numérica distinta da base decimal. Em geral, os Computação Científica 21

Representação de números números são armazenados na base 2 (binária), existindo ainda plataformas que os armazenam na base 8 (octal) ou na base 16 (hexadecimal). A representação de números inteiros é ligeiramente distinta da representação de números reais. 2.1.1. Representação de números inteiros De uma forma geral, um número inteiro N é representado, na base b, por um conjunto de dígitos a i, em que a i = 0,1,, b-1 e i assume um intervalo de valores que depende da base em uso. A tabela seguinte indica estes valores para as bases mais utilizadas (onde se inclui a base decimal). b a i 2 0,1 8 0, 1, 2, 3, 4, 5, 6, 7 10 0, 1, 2, 3, 4, 5, 6, 7, 8, 9 16 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, A, B, C, D, E, F Há pelo menos duas maneiras de se representar um número inteiro N: no sistema posicional e na forma polinomial. No sistema posicional os dígitos são agrupados na forma de uma sequência, na qual a magnitude da contribuição de cada dígito no número depende da posição relativa que ocupa no número. Neste sistema, um número N é escrito com o seguinte formato: N = (a n a n-1... a 1 a 0 ) b Na forma polinomial fica claramente explicitada a contribuição de cada dígito para o valor de um número. Nesta forma, um número N é escrito com o seguinte formato: N = a n b n + a n-1 b n-1 +... + a 1 b + a 0 Até aqui, N tem sido tratado de uma forma abstrata. No entanto, por uma questão evolutiva, N tende a ser visto como um número na base 10 (decimal), N = (a n a n-1... a 1 a 0 ) a n a n-1... a 1 a 0 Caso se passe a representar N sempre na base decimal, então deve-se abordar as outras representações do ponto de vista de conversões "de" ou "para" a base 10. 2.1.2. Representação de números reais É importante conhecer como os números reais podem ser armazenados num computador. Um número real pode ser representado usando dois formatos: com ponto fixo (por exemplo, 12.34); com ponto flutuante ou vírgula flutuante (por exemplo, 0.1234x10 2 ). 2.1.2.1. No formato com ponto fixo Na representação de um número real X no formato com ponto fixo, X é composto por uma parte inteira X i e uma fracionaria X f, tal que X f = X X i. Por exemplo: para X = 12.34, X i = 12 e X f = 0.34. 22 Computação Científica

Representação de números 2.1.2.2. No formato com ponto flutuante A forma geral de representação de um número real no formato com ponto flutuante é semelhante à notação científica:.d 1 d 2 d 3... d p b e, em que d k (k = 1, 2,..., p) são os dígitos da parte fracionária (com d k { 0,..., b-1 } e d 1 0 (normalizado), b é o valor da base (geralmente 2, 8, 10 ou 16), p é o número de dígitos e e é um expoente inteiro. Deste modo, um número no formato com ponto flutuante é composto por três partes: o sinal, a parte fracionária (denominada também de significando ou mantissa) e o expoente. Estas três partes têm um comprimento total fixo que depende do computador e do tipo de número: precisão simples, dupla ou estendida. Note-se que, como a forma de representação de um número em formato com ponto flutuante pode ser diferente entre os fabricantes de computadores, um mesmo programa implementado em computadores que utilizam formatos diferentes pode fornecer resultados diferentes. O formato utilizado pela maioria dos computadores é o proposto pelo Institute of Electrical and Electronics Engineers (IEEE), com o padrão IEEE 754 (tabela que se segue, para a base binária). Propriedade Precisão Simples Dupla Estendida Comprimento total 32 64 80 bits na mantissa 23 52 64 bits no expoente 8 11 15 sinal 1 1 1 expoente máximo 127 1023 16383 expoente mínimo -126-1022 -16382 maior número 3.40 x 10 38 1.80 x 10 308 1.19 x 10 4932 menor número 1.18 x 10-38 2.123 x 10-308 3.36 x 10-4932 dígitos decimais (precisão) 7 16 19 2.1.3. Conversão de números inteiros Considere-se a conversão de um inteiro da base decimal (b = 10) para a base binária (b = 2), uma vez que esta será a representação mais provável num computador. Para se realizar esta conversão de uma maneira prática, pode-se usar o método das divisões sucessivas, no qual N (na base decimal) e os sucessivos quocientes q i são divididos por 2 (base binária), sendo guardados os restos r i { 0, 1 } até que o último quociente seja q n = 1: N = 2 q 1 + r 0 ; q 1 = 2 q 2 + r 1 ; q 2 = 2 q 3 + r 2 ;... ; q n-1 = 2 q n + r n-1 O último quociente somente será 0 se N = 0 (q n = 0 N = 0). Então, N = (q n r n-1... r 1 r 0 ) 2 (sistema posicional) Computação Científica 23

Representação de números N = q n 2 n + r n-1 2 n-1 + r n-2 2 n-2 +... + r 1 2 1 + r 0 2 0 (forma polinomial) O mesmo método pode também ser utilizado para converter um número inteiro em decimal N para qualquer base b; divide-se N e os sucessivos quocientes q i por b, guardando-se os restos r i { 0,..., b-1 } até que o último quociente seja um inteiro q n { 1,..., b-1 }: N = b q 1 + r 0 ; q 1 = b q 2 + r 1 ; q 2 = b q 3 + r 2 ;... ; q n-1 = b q n + r n-1 O último quociente somente será 0 se N = 0 (q n = 0 N = 0). Então, N = (q n r n-1... r 1 r 0 ) b (sistema posicional) N = q n b n + r n-1 b n-1 + r n-2 b n-2 +... + r 1 b 1 + r 0 b 0 (forma polinomial) 2.1.4. Conversão de números reais 2.1.4.1. No formato com ponto fixo Para o estudo desta caso, considere-se a conversão de um real da base decimal para a base binária, sendo depois facilmente extensível para uma qualquer base. Dado um número real X, este possui uma parte inteira X i e uma parte fracionaria X f. Para se converter este número X na base binária utiliza-se o método das divisões sucessivas, para converter X i (ver secção 2.1.3), enquanto que para converter X f usa-se o método das multiplicações sucessivas. O método das multiplicações sucessivas consiste em multiplicar-se X f por 2, extraindo-se a parte inteira do resultado (que pode ser 0); o restante é novamente multiplicado por 2, repetindo-se o processo até que o resto fracionário seja 0 ou que se obtenha um padrão repetitivo, em cujo caso o número fracionário será periódico. Este método será ilustrado com dois exemplos. Exemplo 1: Seja X f = 0.8125; então 0.8125 x 2 = 1.6250; 0.6250 x 2 = 1.2500; 0.2500 x 2 = 0.5000; 0.5000 x 2 = 1.0000 Ou seja, 0.8125 = (0.1101) 2. Exemplo 2: Seja X f = 0.1; então 0.1 x 2 = 0.2; 0.2 x 2 = 0.4; 0.4 x 2 = 0.8; 0.8 x 2 = 1.6; 0.6 x 2 = 1.2; 0.2 x 2 = 0.4;... e o processo de multiplicações sucessivas repete a sequência infinita de dígitos 0011. Portanto, 0.1 = (0.0001100110011...) 2. Este caso mostra a dificuldade em se obter a representação de um número fracionário noutra base. Estes exemplos mostram que num computador, onde o espaço para representação de um número é finito, estes números terão que ser arredondados. 24 Computação Científica

Representação de números A forma polinomial de um número fracionário na base 2 é dada por: X f = 1 2-1 + 2 2-2 + 3 2-3 +... Portanto, um número real X = X i + X f pode ser representado na base 2 por X = a n 2 n + a n-1 2 n-1 + a n-2 2 n-2 +... + a 1 2 1 + a 0 2 0 + 1 2-1 + 2 2-2 + 3 2-3 +... X = (a n a n-1... a 1 a 0. 1 2 3...) 2. 2.1.4.2. No formato com ponto flutuante Considere-se um hipotético computador com dois dígitos da parte fracionária (p = 2), base b = 2 e expoente e { -1, 0, 1, 2 }. Como os números reais são normalizados, isto é, d 1 0, todos eles são representados por:.10 2 2 e ou.11 2 2 e, e { 1, 0,1, 2}. Considerando a conversão de binário para decimal de um número positivo menor do que 1,.10 2 = 1 2 1 + 0 2 2 = 1/ 2 + 0 = 1/2, e.11 2 = 1 2 1 + 1 2 2 = 1/ 2 + 1/ 4 = 3/ 4, então, os únicos números positivos representáveis neste computador são:.10 2 2 1 = 1/ 2 1/2 = 1/4.11 2 2 1 = 3/ 4 1/2 = 3/8.10 2 2 0 = 1/ 2 1 = 1/ 2.11 2 2 0 = 3/ 4 1 = 3/4.10 2 2 1 = 1/2 2 = 1.11 2 2 1 = 3/ 4 2 = 3/ 2.10 2 2 2 = 1/2 4 = 2.11 2 2 2 = 3/4 4 = 3 O zero é representado de uma forma especial: todos os dígitos d k da mantissa e do expoente são nulos (.00 2 x 2 0 ). O mais importante a reter relativamente aos números em formato com ponto flutuante é que eles são discretos e não contínuos (como um número real definido na Matemática). O conceito de existir sempre um número real entre dois números reais quaisquer não é válido para os números em formato com ponto flutuante. As consequências da falha deste conceito podem ser desastrosas, como se poderá verificar no exemplo que se segue. Considere-se as seguintes representações em binário: 0.6 10 = 0.100110011001... 2 e 0.7 10 = 0.1011001100110... 2. Se estes dois números forem armazenados naquele hipotético computador (com dois dígitos para a mantissa), eles serão igualmente representados por:.10 2 x 2 0. Isto significa que tanto 0.6 10 como 0.7 10 são vistos como 0.5 10 por aquele computador. Esta é uma das grandes causas da ocorrência de erros de arredondamento nos processos numéricos. Computação Científica 25

Representação de números 2.1.5. Aritmética de ponto flutuante Se uma operação aritmética resultar num número que seja maior, em valor absoluto, que o maior número representável, ocorrerá overflow. Se resultar num número que seja menor, em valor absoluto, que o menor número representável diferente de zero, ocorrerá underflow. O modo de tratar overflow e underflow dependerá do compilador utilizado para gerar o programa executável. Para se analisar a precisão das operações numéricas envolvendo números em formato com ponto flutuante, considere-se um hipotético computador com dois dígitos (p = 2), base b = 10 e expoente e {-5,, 5}:.d 1 d 2 x 10 e. Quando dois números são somados ou subtraídos, os dígitos do número de menor expoente são deslocados de modo a alinhar as casas decimais. O resultado é depois normalizado (o expoente é ajustado de forma que d 1 0) e arredondado para dois dígitos (o tamanho da mantissa é p = 2). Exemplo 1: 4.32 + 0.064 Os números são armazenados no formato especificado, as casas decimais são alinhadas e a operação de adição é efetuada; o resultado é então normalizado e arredondado para dois dígitos: 4.32 + 0.064 =.43 x 10 1 +.64 x 10-1 =.43 x 10 1 +.0064 x 10 1 =.4364 x 10 1.44 x 10 1. O resultado da adição é 4.4 em vez de 4.384. Exemplo 2: 372-371 Os números são armazenados no formato especificado, as casas decimais são alinhadas e a operação de adição é efetuada; o resultado é então normalizado e arredondado para dois dígitos: 372-371 =.37 x 10 3 -.37 x 10 3 =.37 x 10 3 -.37 x 10 3 =.00 x 10 3.00 x 10 0. O resultado da subtração é 0 em vez de 1. A perda de precisão quando dois números aproximadamente iguais são subtraídos é das maiores fontes de erro nas operações de ponto flutuante. Exemplo 3: 691 + 2.71 Os números são armazenados no formato especificado, as casas decimais são alinhadas e a operação de adição é efetuada; o resultado é então normalizado e arredondado para dois dígitos: 691 + 2.71 =.69 x 10 3 +.27 x 10 1 =.69 x 10 3 +.0027 x 10 3 =.6927 x 10 3.69 x 10 3. 26 Computação Científica

Representação de números O resultado da adição é 690 em vez de 693.71. O deslocamento das casas decimais de 2.71 causou uma perda total dos seus dígitos durante a operação. Exemplo 4: 1234 x 0.016 Os números são armazenados no formato especificado e a multiplicação é efetuada utilizando 2p = 4 dígitos na mantissa; o resultado é então normalizado e arredondado para dois dígitos: 1234 x 0.016 =.12 x 10 4 x.16 x 10-1 =.12 x 10 4 x.16 x 10-1 =.0192 x 10 3.19 x 10 2. O resultado da multiplicação é 19 em vez de 19.744. Exemplo 5: 875 x 3172 Os números são armazenados no formato especificado e a multiplicação é efetuada utilizando 2p = 4 dígitos na mantissa. O resultado é então normalizado e arredondado; e = 7 > 5 overflow: 875 x 3172 =.88 x 10 3 x.32 x 10 4 =.88 x 10 3 x.32 x 10 4 =.2816 x 10 7 overflow (e {-5,, 5}). O resultado é superior ao maior número representável por este computador (e {-5,, 5}). Exemplo 6: 0.00183 492 Os números são armazenados no formato especificado e a divisão é efetuada utilizando 2p = 4 dígitos na mantissa, o resultado é então normalizado e arredondado para dois dígitos: 0.00183 492 =.18 x 10-2.49 x 10 3 =.18 x 10-2.49 x 10 3 =.3673 x 10-5.37 x 10-5. Exemplo 7: 0.0064 7312 Os números são armazenados no formato especificado e a divisão é efetuada utilizando 2p = 4 dígitos na mantissa. O resultado é então normalizado e arredondado; e = -6 < -5 underflow: 0.0064 7312 =.64 x 10-2.73 x 10 4 =.64 x 10-2.73 x 10 4 =.8767 x 10-6 underflow (e {-5,, 5}). O resultado obtido pela divisão é inferior ao menor número representável por este comutador (e {-5,, 5}), sem considerar o zero (que tem uma representação especial). Computação Científica 27

Representação de números Uma das causas de ocorrência de erros quando se usam computadores deve-se à conversão de base. Geralmente um número é fornecido ao computador na base 10, mas é armazenado na base 2. Para os números inteiros, a representação é exata, como por exemplo, 44 10 = 101100 2. Para um número real com parte fracionária pode resultar num número binário com infinitos dígitos (0.4 10 = 0.01100110... 2 ) que tem de ser arredondado para ser armazenado em formato com ponto flutuante. 2.2. Conversão de números na base b para a base decimal 2.2.1. Conversão de números inteiros Para introduzir a conversão para a base decimal, será usada novamente a base binária como primeiro exemplo. Seja o número N, representado na base binária por N = (a m a m-1... a 1 a 0 ) 2 a sua representação na base decimal pode ser obtida simplesmente pela soma do polinómio N = a m 2 m + a m-1 2 m-1 +... + a 1 2 + a 0 A operacionalização desta soma pode ser obtida pelo Algoritmo de Horner e pela Divisão de Ruffini. 2.2.1.1. Algoritmo de Horner O número N pode ser obtido na base decimal através do cálculo da sequência: b m = a m b m-1 = a m-1 + 2 x b m b m-2 = a m-2 + 2 x b m-1...... b 1 = a 1 + 2 x b 2 b 0 = a 0 + 2 x b 1 e então, N = b 0 Exemplo: seja o número (11101) 2. Aplicando o algoritmo de Horner: b 4 = a 4 = 1 b 3 = a 3 + 2 x b 4 = 1 + 2 x 1 = 3 b 2 = a 2 + 2 x b 3 = 1 + 2 x 3 = 7 b 1 = a 1 + 2 x b 2 = 0 + 2 x 7 = 14 b 0 = a 0 + 2 x b 1 = 1 + 2 x 14 = 29 e então, (11101) 2 = 29 10 28 Computação Científica

Representação de números Esta metodologia pode ser generalizada para converter qualquer número inteiro na base b para a base decimal. Considere o número N = (a m a m-1... a 1 a 0 ) b a sua representação na base decimal pode ser obtida da seguinte forma: c m = a m c m-1 = a m-1 + b x c m c m-2 = a m-2 + b x c m-1...... c 1 = a 1 + b x c 2 c 0 = a 0 + b x c 1 e então, N = c 0 2.2.1.2. Divisão de Ruffini É equivalente ao método anterior, diferindo apenas na disposição dos coeficientes a i e b i : a m a m-1... a 2 a 1 a 0 2 2 x b m... 2 x b 3 2 x b 2 2 x b 1 b m b m-1... b 2 b 1 b 0 e então, N = b 0 Exemplo: seja o número (11101) 2. Aplicando a Divisão de Ruffini: a 4 a 3 a 2 a 1 a 0 1 1 1 0 1 2 2 x b 4 2 x b 3 2 x b 2 2 x b 1 2 x 1 2 x 3 2 x 7 2 x 14 b 4 b 3 b 2 b 1 b 0 1 1 + 2 1 + 6 0 + 14 1 + 28 e então, (11101) 2 = 29 10 Esta metodologia pode ser generalizada para converter qualquer número inteiro na base b para a base decimal. Considere o número N = (a m a m-1... a 1 a 0 ) b Computação Científica 29

Representação de números a sua representação na base decimal pode ser obtida da seguinte forma: a m a m-1... a 2 a 1 a 0 b b x c m... b x c 3 b x c 2 b x c 1 c m c m-1... c 2 c 1 c 0 e então, N = c 0 2.2.2. Conversão de números reais fracionários Considere um número fracionário com representação finita na base binária: X f = (0.a 1 a 2 a n ) 2. O seu valor na base decimal será dado por X f = 1 2-1 + 2 2-2 + + n 2 -n Esta soma pode ser calculada diretamente ou utilizando qualquer um dos dois métodos enunciados na secção anterior (Algoritmo de Horner e Divisão de Ruffini) com algumas modificações. 2.2.2.1. Algoritmo de Horner No caso de um número fracionário na base 2, o algoritmo fica b n = a n b n-1 = a n-1 + (1/2) x b n b n-2 = a n-2 + (1/2) x b n-1...... b 1 = a 1 + (1/2) x b 2 b 0 = (1/2) x b 1 e então, N = b 0 Exemplo: converter o número (0.10111) 2. b 5 = a 5 = 1 b 4 = a 4 + (1/2) x b 5 = 1 + (1/2) x 1 = 3/2 b 3 = a 3 + (1/2) x b 4 = 1 + (1/2) x (3/2) = 7/4 b 2 = a 2 + (1/2) x b 3 = 0 + (1/2) x (7/4) = 7/8 b 1 = a 1 + (1/2) x b 2 = 1 + (1/2) x (7/8) = 23/16 b 0 = (1/2) x b 1 = (1/2) x (23/16) = 23/32 e então, (0.10111) 2 = 23/32 = 0.71875 30 Computação Científica

Representação de números 2.2.2.2. Divisão de Ruffini No caso de um número fracionário na base 2, o algoritmo fica a n a n-1... a 2 a 1 1/2 (1/2) x b m... (1/2) x b 3 (1/2) x b 2 (1/2) x b 1 E então, b n b n-1... b 2 b 1 b 0 N = b 0 Exemplo: Converter o número (0.10111) 2. Aplicando o algoritmo, fica: a 5 a 4 a 3 a 2 a 1 1 1 1 0 1 1/2 (1/2) x b 5 (1/2) x b 4 (1/2) x b 3 (1/2) x b 2 (1/2) x b 1 (1/2) x 1 (1/2) x (3/2) (1/2) x (3/4) (1/2) x (7/8) (1/2) x (23/16) E então, b 5 b 4 b 3 b 2 b 1 b 0 1 1 + 1/2 1 + 3/4 0 + 7/8 1 + 7/16 23/32 1 3/2 7/4 7/8 23/16 23/32 (0.10111) 2 = 23/32 = 0.71875 2.2.3. Número binário infinito Uma outra situação que pode ocorrer é quando o número binário for infinito; por exemplo, através de uma sequência de dígitos periódicos: X f = ( 0,α 1 α 2... α n β 1 β 2...β m) 2 em que β 1 β 2...β m indica que a sequência de dígitos β 1 β 2...β m se repete infinitamente. Na base decimal, tal número é representado por X f = 1 2-1 + 2 2-2 + + n 2 -n + b 1 2 -n-1 + b 2 2 -n-2 + + b m 2 -n-m + + b 1 2 -n-m-1 + b 2 2 -n-m-2 + + b m 2 -n-2m + + b 1 2 -n-2m-1 + b 2 2 -n-2m-2 + + b m 2 -n-3m + +... Note-se que este número pode ser escrito como X f = 1 2-1 + 2 2-2 + + n 2 -n + ( b 1 2-1 + b 2 2-2 + + b m 2 -m ) 2 -n + + ( b 1 2-1 + b 2 2-2 + + b m 2 -m ) 2 -n-m + + ( b 1 2-1 + b 2 2-2 + + b m 2 -m ) 2 -n-2m + +... Computação Científica 31

Representação de números Ou seja, X f = 1 2-1 + 2 2-2 + + n 2 -n + ( b 1 2-1 + b 2 2-2 + + b m 2 -m ) 2 -n ( 1 + 2 -m + 2-2m + ) Usando agora a identidade, tem-se obtendo-se 1 / (1 x) = 1 + x + x 2 + x 3 +... (para x < 1) 1 + 2 m + 2 2m + 2 3m +... = 1/(1 2 m ) = 2m 2 m 1 (fazendo x = 2-m ), X f = ( α 1 2 1 + α 2 2 2 +... + α n 2 n ) + ( β 1 2 1 + β 2 2 2 +... + β m 2 m ) 2m n 2 m 1. As duas expressões entre parênteses têm a mesma forma e podem ser calculadas diretamente ou usando qualquer um dos métodos descritos anteriormente. Em geral, um número fracionário tem representação infinita periódica na base b da seguinte forma: X f = ( α 1 b 1 + α 2 b 2 +... + α n b n ) + ( β 1 b 1 + β 2 b 2 +... + β m b m ) bm n b m 1 onde as expressões entre parênteses podem ser calculadas diretamente ou utilizando qualquer um dos métodos descritos anteriormente. 2.3. Operações com números em binário Como a maioria dos computadores usa a base b = 2, então estes executam operações aritméticas com números que estão na representação binária. Para executar estas operações, as tabelas de operações que se seguem são automaticamente satisfeitas. 2.3.1. Adição binária Uma adição no sistema binário é realizada da mesma forma que a adição no sistema decimal, lembrando que, no sistema binário, há apenas 2 dígitos. Esta operação é realizada de acordo com as seguintes regras (considerando os dois operandos positivos): 0 + 0 = 0 0 + 1 = 1 1 + 0 = 1 1 + 1 = 0 (e vai 1 para o dígito de ordem superior) 1 + 1 + 1 = 1 (e vai 1 para o dígito de ordem superior) Para somar números com mais de 2 algarismos, utiliza-se o mesmo processo de transporte para a coluna posterior, usado na adição decimal. Ter, no entanto, atenção aos limites das palavras. 32 Computação Científica

Representação de números Exemplo 1: 101 2 + 011 2 = 1000 2 (5 10 + 3 10 = 8 10 ) [1] [1] [1] 1 0 1 + 0 1 1 1 0 0 0 Exemplo 2: 01 2 + 11 2 = 100 2 (1 10 + 3 10 = 4 10 ) [1] [1] 0 1 + 1 1 1 0 0 Exemplo 3: 1010 2 + 1111 2 = 11001 2 (10 10 + 15 10 = 25 10 ) [1] [1] [1] 1 0 1 0 + 1 1 1 1 1 1 0 0 1 Quando um dos operandos são números binários negativos, o processo a aplicar é o seguinte: dois operandos negativos: adicionam-se os dois números considerando o valor absoluto de cada um deles e atribui-se o sinal de negativo; um deles é negativo: verifica-se qual dos dois números tem maior valor absoluto, subtraí-se o menor valor absoluto ao maior e, atribui-se o sinal do maior em valor absoluto. 2.3.2. Subtração binária A subtração é análoga à adição, sendo realizada de acordo com as seguintes regras: 0-0 = 0 0-1 = 1 (e pede emprestado 1 para o dígito de ordem superior) 1-0 = 1 1-1 = 0 Desta forma, a operação 0-1 resulta em 1, mas com o transporte de 1 para a coluna à esquerda, que deve ser acumulado ao subtraendo e, por consequência, subtraído do minuendo (em a-b, a o minuendo e b é o subtraendo). Exemplo 1: 101 2-011 2 = 010 2 (5 10-3 10 = 2 10 ) [1] 1 0 1-0 1 1 0 1 0 Computação Científica 33

Representação de números Exemplo 2: 111 2-100 2 = 011 2 (7 10-4 10 = 3 10 ) 1 1 1-1 0 0 0 1 1 Exemplo 3: 1010 2-1001 2 = 0010 2 (10 10-9 10 = 1 10 ) 2.3.3. Multiplicação binária [1] 1 0 1 0-1 0 0 1 0 0 0 1 Procede-se como numa multiplicação no sistema decimal, de acordo com as seguintes regras: 0 x 0 = 0 0 x 1 = 0 1 x 0 = 0 1 x 1 = 1 Utiliza-se o mesmo método que a multiplicação decimal: deslocamentos e adições. O número maior deve ser colocado por cima do menor. Exemplo 1: 101 2 x 011 2 = 010 2 (5 10 x 3 10 = 15 10 ) 1 0 1 x 0 1 1 1 0 1 1 0 1 + 0 0 0 0 1 1 1 1 Exemplo 2: 11010 2 x 010 2 = 110100 2 (26 10 x 2 10 = 52 10 ) 1 1 0 1 0 x 0 1 0 0 0 0 0 0 1 1 0 1 0 + 0 0 0 0 0 0 1 1 0 1 0 0 34 Computação Científica

Representação de números Exemplo 3: 1010 2 x 1000 2 = 1010 2 (10 10 x 8 10 = 80 10 ) 2.3.4. Divisão binária 1 0 1 0 x 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 + 1 0 1 0 1 0 1 0 0 0 0 A divisão binária usa o mesmo método que a divisão decimal: deslocamento e subtrações. Exemplo 1: 101010 2 110 2 = 111 2 (44 10 4 10 = 11 10 ) [1] [1] [1] 1 0 1 0 1 0 1 1 0-1 1 0 1 1 1 0 1 0 0 1-1 1 0 0 0 1 1 0-1 1 0 0 0 0 2.4. Representação de números em computadores digitais Nesta secção serão apresentadas algumas das representações usadas para armazenar números inteiros e reais na memória de um computador. As representações de números inteiros e reais apresentadas na secção anterior não são suficientes, pois é necessário distinguir-se, por exemplo, o sinal do número. Como não existe a representação de um sinal '+' ou '-' na memória de um computador, o recurso utilizado é acrescentar um bit, para computadores binários, ao número para representar o sinal; este bit é denominado bit de sinal. 2.4.1. Representação de números inteiros Para representar um número inteiro num computador digital, existem várias formas, tais como a representação em Sinal-Módulo e em Complemento à base. A representação em complemento pode ser de dois tipos: em complemento a (b-1) e em complemento a b (em que b é a base). 2.4.1.1. Representação em Sinal-Módulo A representação mais direta de números inteiros é a denominada Sinal-Módulo (também denominada por Sinal-Magnitude). Nesta representação, o valor absoluto do número inteiro é obtido diretamente a partir dos algoritmos discutidos na secção anterior, enquanto que o sinal é representado por um dígito adicional colocado à esquerda do número. Computação Científica 35

Representação de números Quando a representação é binária, o bit de sinal ocupa a posição do bit mais significativo. Supondo que a memória do computador dispõe de q dígitos para a representação, um número inteiro na base b será representado no computador através da seguinte sequência de dígitos: a q-1 a q-2...a 1 a 0 em que { a 0, a 1,, a q-2 } { 0, 1,, b-2, b-1 } e a q-1 { 0, 1 } representa o sinal do número. Esta sequência de dígitos é denominada palavra. Por exemplo, no sistema binário convenciona-se usar a q-1 = 0 para + e a q-1 = 1 para -. A conversão do número internamente representado por a q-1 a q-2...a 1 a 0 para o sistema decimal é realizado através de uma fórmula semelhante à forma polinomial: em que, q 2 N = ( 1) a q 1 k=0 ( a k bk ), N o número inteiro na base decimal q-2 é o índice do dígito mais à esquerda que representa o valor absoluto de N b a base, às vezes denominada de radix (um inteiro maior que 1) a k um dígito válido na representação (a k { 0,..., b-1 }), k = 0, 1,, q-2 a q-1 { 0, 1 } e representa o bit de sinal Os valores em questão para as quantidades expressas na fórmula anterior dependem da arquitetura e do compilador utilizado. Por exemplo, um dado compilador possui 4 modelos de representação de inteiros com 1, 2, 4 e 8 bytes, também denominados de espécies. Sendo para todos os casos b = 2, o valor absoluto do maior número inteiro que pode ser representado internamente para cada p espécie N max, (p = 1, 2, 4, 8) é, a partir da fórmula anterior, p N max 8p 2 = 2 k = 2 0 + 2 1 + 2 2 +... + 2 8p 2 = 2 8p 1 1 = k=0 {127 (p=1) 32767 (p=2) 2147483647 (p=4) 9223372036854775807 (p=8) 2.4.1.2. Representação em complemento a b-1 A representação de números inteiros positivos em complemento a b-1 é idêntica à representação em Sinal-Módulo. A representação dos números inteiros negativos é obtida efetuando-se: (b - 1) menos cada algarismo do número. Por exemplo, para calcular o complemento a b-1 do número -297 10 (como b = 10, então o complemento a b-1 será complemento a 9); como 999-297 = 702, o complemento a 9 do número -297 é 702. Para se obter o complemento a b 1 de um número binário, deve-se subtrair cada algarismo de 1 (b - 1 = 1); no entanto, como se trata de números binários, para efetuar esta operação basta 36 Computação Científica

Representação de números inverter todos os bits. Por exemplo, o complemento a 1 (C1) do número 0011 2 (usando 4 dígitos) é 1100 2, pois 1111 2 0011 2 = 1100 2. A quantidade de números inteiros diferentes que se podem representar usando n posições num sistema de base b é b n. Por exemplo, na base 2, podem-se representar os seguintes números: 2 1 = 2 números com um dígito (0, 1), 2 2 = 4 números com dois dígitos (00, 01, 10, 11), 2 3 = 8 números com três dígitos (000, 001, 010, 011, 100, 101, 110, 111), A tabela seguinte apresenta a representação em C1 dos números binários de 4 dígitos. Repare como o espaço de representação da base 2 com 4 dígitos está sendo usado na representação em C1 (note que há 2 representações para o zero). Decimal (positivo) Binário em C1 (igual a sinal-módulo) Decimal (negativo) Binário em C1 0 0000 0 1111 1 0001-1 1110 2 0010-2 1101 3 0011-3 1100 4 0100-4 1011 5 0101-5 1010 6 0110-6 1001 7 0111-7 1000 A representação na base b = 10 com 3 dígitos varia de 000 a 999 (10 3 = 1000 representações), representando os números de -499 a -1 (faixa negativa que está compreendida entre 500 e 998) e de +1 a +499 (faixa positiva que está compreendida entre 1 e 499). O zero tanto pode ser representado por 000 como por 999. A faixa de representação em C1 dos números binários com n dígitos é a seguinte: menor inteiro negativo: -(2 n-1 1), maior inteiro positivo: 2 n-1 1. Na aritmética em complemento a b-1, basta somar os números, sendo que um número negativo será representado por seu complemento a b 1. Por exemplo, a soma decimal de 123 com -418 é: Sinal-Módulo -418 + 123 = -295 Complemento a 9 (b-1) -418 é representado por 999-418 = 581 581 + 123 = 704 999-704 = 295, em que 704 é o C9 de -295 (704 está na faixa negativa). De notar que nesta representação, a subtração (ou soma de um número positivo com um número negativo) transforma-se numa soma em complemento; isto é, a soma dos complementos do número Computação Científica 37

Representação de números positivo com o número negativo. Portanto, uma subtração pode ser realizada simplesmente através da soma dos números complementados : manter o número se é positivo e complementar o número se é negativo; depois, é só somar. Desta forma, pode-se constatar que o algoritmo da soma em complemento é muito mais simples que o da soma em Sinal-Módulo, uma vez que não requer nenhum teste. No entanto, continua-se com duas representações para o zero. 2.4.1.3. Representação em complemento a b A representação de números inteiros positivos em complemento a b é idêntica às representações em Complemento a b-1 e à em Sinal-Módulo. A representação dos números inteiros negativos em complemento a b é obtida subtraindo-se da base b cada algarismo do número. Por exemplo, na base b = 10 com 3 dígitos: 1000 x. Uma forma alternativa é subtrair cada algarismo de (b 1), isto é, calcular o complemento a (b -1), e depois somar 1 ao resultado. Ou seja, encontramos o complemento a (b - 1) do número (o que facilita muito no caso dos números binários) e depois soma-se 1 ao resultado. Por exemplo, calcular o complemento a 10 (base = 10) do número 297 10 com 3 dígitos: usando C10: 1000 297 = 703; representar o número em C9 e somar 1 ao resultado: 999 297 = 702 702 + 1 = 703. Por exemplo, calcular o complemento a 2 (base = 2) do número 0011 2 com 4 dígitos: usando C2: 10000 0011 = 1101; representar o número em C1 e somar 1: 1111 0011 = 1100 1100 + 0001 = 1101. Desta forma, para representar um número binário negativo em complemento a 2 (C2) consiste em subtrair cada algarismo de 1 (C1) e depois somar 1 ao resultado. A tabela seguinte apresenta a representação em C2 dos números binários com 4 dígitos. Decimal (positivo) Binário em C2 (igual a sinal-módulo) Decimal (negativo) Binário em C2 0 0000-1 1111 1 0001-2 1110 2 0010-3 1101 3 0011-4 1100 4 0100-5 1011 5 0101-6 1010 6 0110-7 1001 7 0111-8 1000 Comparando com a tabela anterior (para C1), nota-se que os números positivos têm a mesma representação de C1 e que o zero passou a ter apenas uma representação, o que permitiu representar mais um número (neste caso, mais um negativo pode ser representado). 38 Computação Científica

Representação de números A faixa de representação em C2 dos números binários com n dígitos é a seguinte: menor inteiro negativo: -2 n-1, maior inteiro positivo: 2 n-1 1. Na aritmética em complemento a base, basta somar os números, sendo que um número negativo será representado pelo complemento a base. Deve-se ter, no entanto, cuidado com a possibilidade de acontecer overflow. Em qualquer sistema em C2, existe sempre um limite para o tamanho dos números a serem representados. Por exemplo, quando se usam palavras de 4 bits (um para o sinal), o valor 9 não tem associado qualquer palavra; por isso não se consegue uma resposta certa para a soma de 5 com 4 (0101 + 0100 = 1001 que é -7). A adição de dois números no sistema de representação em C2 segue duas regras: 1. Somar os dois números e observar se ocorre transbordo (vai 1) sobre o bit de sinal e se ocorre o transbordo após o bit de sinal. 2. Se ocorrer um e somente um dos dois transbordos, então houve overflow; caso contrário o resultado da soma está dentro do campo de definição. As vantagens do uso do complemento de 2 é que existe apenas um zero e que as regras para soma e subtração são as mesmas. A desvantagem é o fato de ser um código assimétrico: o número de representações negativas é maior que o número de representações positivas. Por exemplo, com 8 bits podem-se representar, em complemento de 2, os números decimais entre -128 e +127. A representação de um número inteiro num computador é exata. As operações aritméticas entre números inteiros também é exata, sob as seguintes condições: a) o resultado não pode estar fora do intervalo de números inteiros que se podem representar; b) a divisão somente pode ser realizada entre números exatamente divisíveis (isto é, a parte fracionária deve ser nula). 2.4.2. Representação de números reais A representação de números reais em computadores denomina-se por representação de ponto flutuante normalizado, na qual um número é representado internamente através de uma notação científica: um bit de sinal s (interpretado como positivo ou negativo), um expoente inteiro exato e e uma mantissa inteira positiva M, sendo que apenas um número limitado de dígitos é permitido para e e M. Tomando todas estas quantidades juntas, estas representam o número x = s (0.d 1 d 2... d n ) b e o qual está escrito numa forma legível para os seres humanos. Além das quantidades já definidas na fórmula anterior, os dígitos d 1, d 2,, d n são limitados pela base b (0 d i b-1, i = 1,, n e d1 0) e o expoente é limitado ao intervalo e { e min,..., e max }. Para além disso, n 1 é denominado de número de dígitos do sistema e define o tamanho da mantissa M = 0.d 1 d 2...d n. Computação Científica 39

Representação de números O valor zero não pode ser normalizado e tem representação especial, com mantissa nula (todos dígitos iguais a zero) e expoente o menor possível (m 1). O conjunto formado pelo zero e por todos os números em notação de ponto flutuante é chamado Sistema de Ponto Flutuante na base b com n algarismos significativos, e denota-se por F(b, n, e min, e max ). Contudo, um computador apenas pode representar os valores de e e M através de dígitos na base b. Um computador digital (b = 2), por exemplo, dispõe sempre de um tamanho de palavra finito, isto é, o número total de bits que podem ser utilizados para representar o sinal s (1 bit), o expoente e a mantissa é sempre fixo, para um dado tipo de números reais. Um número real de precisão simples, por exemplo, é normalmente representado por uma palavra de 4 bytes (32 bits), sendo que 1 bit é utilizado para representar o sinal, 8 bits são utilizados para representar o expoente e os restantes 23 bits para representar a mantissa. Desta forma, tal número será representado na memória do computador como x = s e 7 e 6... e 1 e 0 d 1 d 2...d 22 d 23, em que s,e 0,...,e 7,d 1,...,d 23 { 0, 1 }. Exemplo: Considere-se dois números binários com 8 algarismos significativos em F(2, 8, -4, 5): n 1 = 0 010 11100110 2 => (-1) 0 x 2 2 x (0.11100110) = 3.59375 10 n 2 = 0 010 11100111 2 => (-1) 0 x 2 2 x (0.11100111) = 3.609375 10. Observe-se que, no sistema de representação utilizado, n 1 e n 2 são dois números consecutivos, ou seja, não podemos representar nenhum outro número que tenha valor intermédio. Portanto, por exemplo, a quantidade 3.60000 não tem representação exata neste sistema, sendo representada por n 1 ou n 2, o que gerará um erro, denominado Erro de Arredondamento. Assim, enquanto os números reais podem ser representados por uma reta contínua, em notação de ponto flutuante apenas se podem representar pontos discretos da reta real. A tabela que se segue ilustra representações de ponto flutuante para alguns números numa palavra típica de 32 bits (4 bytes), em F(2, 23, -128, 127). número decimal (base 10) binário (base 2) s expoente de 8 bits Mantissa de 23 bits 1/2 0 00000000 (0) 10000000000000000000000 1/4 0 11111111 (-1) 10000000000000000000000 1 0 00000001 (1) 10000000000000000000000 3 0 00000010 (2) 11000000000000000000000 40 Computação Científica

Representação de números A conversão de um número x representado na base b para a base decimal pode ser realizada pela seguinte fórmula polinomial: x = ( 1) s b e n k=1 ( d k b k ). No padrão IEEE 754, a sequência de 8 bits armazena o número E = e + 127. Desta forma, evita se o teste sobre o valor do bit para saber se o número é positivo ou negativo e, para recuperar o expoente, é realizada a operação e = E 127. Para se obter a forma como o expoente será armazenado pode-se também trabalhar na base 10 e converter depois o resultado final. Por exemplo, se e = 52 10 vai-se armazenar 127 10 + 52 10 = 179 10 = 10110011 2. É importante destacar que as sequências de bits para o expoente "00000000" e "11111111" são reservadas para representar o zero e infinito (ou ocorrência de erro, NaN: not a number) respetivamente. O maior expoente é representado pela sequência 11111110 2 que, na base 10, representa o número (256 2) 10 = 254 10. Então o maior expoente é: 127 + e = 254 e = 254 127 = 127. O menor expoente é representado pela sequência 00000001 2 = 1 10. Daí que o menor expoente é: 127 + e = 1 e = 1 127 = 126. Considerando agora a representação da mantissa. Como no sistema normalizado d 1 0 e dado que a base é 2, então primeiro dígito no sistema normalizado será sempre igual a 1 e por esta razão não é armazenado (é o denominado bit escondido). Esta normalização permite um ganho na precisão, pois pode-se considerar que a mantissa é armazenada em 24 bits. A tabela seguinte mostra os valores de n, e min, e max, X min, X max e X eps para um dado computador que usa o padrão IEEE 754. Espécie REAL (4) REAL (8) REAL (10) n 23 52 64 e min -126-1022 -16382 e max 127 1023 16383 X min 1.1754944 x 10-38 2.225073858507201 x 10-308 3.362103143112093506... x 10-4932 X max 3.4028235 x 10 38 1.797693134862316 x 10 308 1.189731495357231765... x 10 4932 X eps 1.1920929 x 10-7 2.220446049250313 x 10-16 1.925929944387235853... x 10-34 Computação Científica 41

Representação de números Para uma base b qualquer, os números do sistema de ponto flutuante F = F(b, n, e min, e max ) contêm as seguintes características: O menor número positivo que pode ser representado neste sistema é x min = 0.1 b e min. Valores para x min válidos para o compilador são apresentados na tabela anterior. Isto significa que qualquer número x tal que x min < x < x min não poderá ser representado pelo computador. Esta ocorrência é denominada de underflow. Os compiladores podem ser instruídos para - terminar o processamento neste ponto, disparando uma mensagem de erro, ou - então seguir o processamento arredondando x = 0. O maior número positivo que pode ser representado neste sistema é x max = 0.(b 1)(b 1)...(b 1) n vezes b e max = (b 1) ( n k=1 b k) be max = (b 1)(1 b n ) b e max Isto significa que qualquer número x tal que x < -x max ou x > x max não poderá ser representado pelo computador. Esta ocorrência é denominada overflow. Os compiladores tomam normalmente duas possíveis providências quando detetam um overflow: - param o processamento do programa emitindo uma mensagem de erro, ou - continuam o processamento atribuindo a x o valor simbólico de -Infinito ou Infinito. O maior número que pode ser somado ou subtraído a 1.0, tal que o resultado permanece inalterado (isto é, a diferença entre 1.0 e o número que lhe sucede em F), é x eps = 0.10... 01 n vezes b 1 0.1 0...0 0 b 1 = b 1 n n vezes em que x eps é denominada de epsilon da máquina, ϵ, ou de O epsilon da máquina, precisão da máquina. ϵ, também pode ser definido como o menor número de ponto flutuante, tal que: 1 + ϵ > 1. Esta quantidade que, como se pode ver, depende da base e do número de algarismos da mantissa, é da maior importância na análise de erros de arredondamento, como se verá mais adiante. De uma forma mais geral, para um número em ponto flutuante x ulp(x) = (0.00...01) b x b e = b -n x b e = x b e. Em que ulp é a abreviatura para unit in the last place. F define-se Se x > 0, então ulp(x) é a distância entre x e o número que lhe sucede em F; se x < 0, então ulp(x) é a distância entre x e o número que o antecede em F. 42 Computação Científica

Representação de números Uma aproximação para o epsilon da máquina de um sistema de ponto flutuante de base b pode ser calculada com o seguinte algoritmo (assumindo que o arredondamento é para o mais próximo): 1 fazer / b 1 + enquanto ( 1) A interpretação é a seguinte: se x é uma potência negativa de b tal que x < ε então 1 + x = 1. O conhecimento de ε do sistema computacional ou máquina de calcular é fundamental. De facto, se considerarmos, por exemplo, a equação 1 + x = 1, esta admite muitas soluções em aritmética de ponto flutuante e não apenas x = 0. Apenas um conjunto finito R F de números racionais podem ser representados na forma Exemplo: apresentada. Os números neste conjunto são denominados números de ponto flutuante. Para uma representação normalizada (d 1 0), este conjunto contém precisamente 2(b 1) b n 1 ( e max e min + 1 ) + 1 números racionais. Considere o sistema de representação numérica de ponto flutuante F(2, 4, -5, 6). Neste sistema, o menor número positivo possível é: x min = (0.1000) 2 2 5 = 2 5 1 = 1 64 logo, a região de underflow consiste no intervalo 1 64 < x < 1 64 O maior número positivo possível é: x max = (0.1111) 2 2 6 = (1 2 4 ) 2 6 = 60; logo, as regiões de overflow consistem nos intervalos x < 60 e x > 60. O maior número que pode ser somado ou subtraído de 1.0 e que mantém o resultado inalterado é: x eps = 2 1 4 = 2 3 = 1 8. O número de elementos em R F é: 2 1 (6 + 5 + 1) 2 4 1 + 1 = 193. Computação Científica 43

Análise e Representação de Erros 3. Análise e Representação de Erros 3.1. Teorema do Valor Médio Para uma demonstração rigorosa da relação existente entre o crescimento ou decrescimento de uma função e o sinal da sua derivada, é necessário usar um resultado conhecido como Teorema do Valor Médio. Este teorema é um dos resultados mais importantes do cálculo diferencial, sendo usado, principalmente, na demonstração de outros teoremas. O Teorema do Valor Médio é a tradução matemática para factos que aparecem de forma vulgar em muitas situações da vida real. Por exemplo, se a média da velocidade numa viagem de automóvel entre duas cidades é de 80 km/h, então em algum momento da viagem o velocímetro do automóvel deve ter marcado 80 km. Vamos traduzir a afirmação anterior em termos matemáticos. Seja s(t) a posição do automóvel em cada instante de tempo t. Se a viagem começa em t = a (horas) e termina em t = b (horas), a velocidade média é dada por v m = s(b) s(a). b a A afirmação de que, em algum momento da viagem, a velocidade instantânea deve ser igual à velocidade média, significa que para algum instante de tempo c entre a e b tem-se v m = s(b) s(a) b a = v (c) = s '(c). O Teorema do Valor Médio estabelece as condições mínimas que uma função s deve satisfazer para que a igualdade acima seja verdadeira. Antes de se enunciar o Teorema do Valor Médio, enuncie-se um dos seus casos particulares que ficou conhecido como teorema de Rolle (Michel Rolle, 1652-1719), que o demonstrou em 1690. Teorema de Rolle Considere-se uma função f satisfazendo as seguintes condições: 1) f é contínua no intervalo fechado [a, b] 2) f é derivável no intervalo aberto (a, b) 3) f(a) = f(b) Então, existe um valor c em (a, b) tal que, f'(c) = 0. O teorema de Rolle pode ser interpretado, geometricamente, da forma que a seguir se descreve. Seja f uma curva suave (contínua e derivável), não constante e que liga os pontos (a, f(a)) e (b, f(b)), tal que f(a) = f(b). Assim, se o gráfico de f sobe, então deverá descer, e vice-versa. Portanto, como a curva é suave, existe um ponto entre a e b onde o gráfico sofre uma inflexão (ponto de inflexão) e onde a reta tangente deve ser horizontal. 44 Computação Científica

Análise e Representação de Erros Teorema do Valor Médio Considere-se uma função f satisfazendo as condições: 1) f é contínua no intervalo fechado [a, b] 2) f e derivável no intervalo aberto (a, b) Então, existe um número c em (a, b), tal que f '(x) = f (b) f(a) b a O Teorema do Valor Médio pode ser interpretado, em termos geométricos, da forma que se segue. Seja f é uma função suave que liga os pontos A = (a, f(a)) e B = (b, f(b)). Então existe um ponto c, entre a e b, tal que a reta tangente ao gráfico de f em c é paralela à reta secante que passa por A e por B. A partir do Teorema do Valor Médio pode-se enunciar vários outros resultados (corolários). Para os corolários que a seguir se enunciam, considere-se f e g contínuas no intervalo fechado [a, b] e deriváveis em (a, b). Corolário 1 (Funções com derivada zero) Se f'(x) = 0 em (a, b), então f é uma função constante em [a, b], isto é, existe um número real k, tal que, f(x) = k, qualquer que seja o ponto x de [a, b]. Corolário 2 (Funções com derivadas iguais) Suponha que f'(x) = g'(x) para todo x no intervalo (a, b). Então, f e g diferem por uma constante, isto é, existe um número real k, tal que f(x) = g(x) + k, para todo x em [a, b]. Corolário 3 (Funções crescentes e decrescentes) i) Se f'(x) > 0 para todo x em [a, b], então f é uma função crescente em [a, b]. ii) Se f'(x) < 0 para todo x em [a, b], então f é uma função decrescente em [a, b]. Corolário 4 (Teorema do valor médio generalizado) Sejam f e g contínuas em [a, b] e deriváveis em (a, b) e suponha, além disso, que g'(x) 0 para a < x < b. Então, existe pelo menos um c em (a, b), tal que f '(c) f(b) f(a) = g'(c) g(b) g(a). 3.2. Fontes de erros e incertezas Embora se procure sempre soluções exatas dos problemas reais, raramente este objetivo é atingido, devido há existência de erros e incertezas nos dados. Os erros e as incertezas nos dados podem ser introduzidos em cada etapa da formulação e da resolução dos problemas. Aqui será abordada a natureza das incertezas que surgem quando se procura a solução de um problema. Serão também examinados, com um certo grau de detalhe, os erros introduzidos pela computação numérica, destinada a determinar a solução de um problema. Computação Científica 45

Análise e Representação de Erros Neste documento, não serão considerados os erros triviais que podem ser evitados, tais como copiar uma fórmula incorretamente ou efetuar um erro de sintaxe na programação, embora tais erros ocorram e perfaçam uma fração considerável do esforço e do tempo despendidos em todo o processo de resolução de um problema matemático. Desta forma, esta secção tratará apenas dos erros que resultam de forma inevitável, dada a própria natureza da representação finita de números num computador e/ou da implementação numérica de um determinado cálculo. As incertezas introduzidas contaminam a solução e é importante tentar-se balanceá-las. Se a incerteza no modelo matemático é pequena, então não faz sentido a implementação de um modelo numérico e de um método que atinja muitos dígitos de precisão, por exemplo. No decurso do processo de resolução de um problema, as incertezas ocorrem em todas as fases deste processo. 3.3. Incerteza A tomada de decisões num contexto de incerteza é certamente uma das situações mais frequentes em problemas reais, nomeadamente no planeamento de atividades em diversos campos. A incerteza é uma característica intrínseca dos problemas reais surgindo de múltiplas origens e possuindo natureza distinta. A incerteza emerge da cada vez maior complexidade das interações no interior dos sistemas sociais, económicos e técnicos, caracterizados por uma rápida evolução tecnológica, alterações nas estruturas de mercado e de novas relações sociais. Geralmente, é impraticável que os modelos matemáticos possam capturar todos os fenómenos inter-relacionados relevantes presentes, chegar até toda a informação necessária e também dar conta das alterações e/ou hesitações relacionadas com a expressão das preferências de quem decide. A incerteza pode ser proveniente de diversas fontes ou ser classificada em diferentes tipos, não sendo, em geral, adequado representar probabilisticamente todas as formas de incerteza associada a modelos matemáticos, nomeadamente se a informação disponível é para tal insuficiente. Um modelo matemático associado a um sistema real pode incluir vários tipos de incerteza, a qual pode ocorrer nos dados do modelo, na precisão do modelo usado para descrever o sistema, ou na sequência de possíveis acontecimentos que podem ocorrer num sistema de acontecimentos discretos. A importância da construção de modelos que incorporem explicitamente a incerteza está no facto de a maioria dos problemas reais não poderem ser modelados deterministicamente. Algumas razões da necessidade deste tipo de modelos são as seguintes: 1) a natural incerteza das previsões relativas ao futuro; 2) a impossibilidade de medir os conceitos do mundo real com a precisão exigida pelo modelo matemático; 3) a impossibilidade de implementar uma solução com a precisão obtida através do modelo matemático; 46 Computação Científica

Análise e Representação de Erros 4) a natural e constante alteração do mundo real onde a solução é implementada; 5) o facto das expressões matemáticas associadas ao modelo serem apenas traduções aproximadas dos objetivos e das restrições do problema real. Apesar de na literatura existir diversas classificações para a incerteza, esta pode ser classificada em dois tipos: aleatória e epistémica. A incerteza aleatória descreve a variação associada ao sistema real, ou ambiente em consideração, em que esta variação é normalmente causada pela natureza aleatória dos dados associados ao problema, podendo ser representada matematicamente por uma distribuição de probabilidade, desde que os dados experimentais disponíveis sejam suficientes. Este é o tipo de incerteza que tem sido alvo de mais estudos, sendo uma propriedade inerente à modelação de sistemas (ou inserida no modelo para simular este comportamento) e que não pode ser reduzida. A incerteza epistémica está associada a um certo nível de ignorância, ou informação incompleta, do sistema ou do ambiente que o rodeia. Este tipo de incerteza é usada para descrever qualquer falta de conhecimento ou informação numa qualquer fase ou atividade do processo de modelação do sistema. As causas da incerteza influenciam o tipo de informação associada ao modelo usado no tratamento da incerteza para traduzir o sistema físico em análise. São várias e distintas as causas da incerteza: falta de informação, excesso de informação, provas em conflito, ambiguidade, medições e crença. A falta de informação é provavelmente a causa mais frequente da incerteza. Existem situações em que um decisor não tem qualquer informação acerca de qual dos possíveis estados naturais irá ocorrer. Noutras, o decisor conhece apenas as probabilidades de ocorrência dos vários estados. Uma outra situação é aquela em que ninguém tem ou quer reunir informação suficiente para construir uma descrição exata do acontecimento, embora isto possa ser possível. O excesso de informação deve-se ao facto de ser limitada a capacidade do Ser Humano em perceber e processar, simultaneamente, grande quantidade de dados. Em muitas situações, são disponibilizados mais dados do que aqueles que podem ser processados; noutras, os fenómenos que são transmitidos, definidos ou descritos com um grande número de características ou propriedades. Normalmente, estes dados são processados pelo analista que os transforma em dados percetíveis, ou que centra a sua atenção apenas nos aspetos que lhe parecem ser os mais importantes (que podem não ser para o decisor) e negligenciando todos os outros dados ou informação. Podem existir várias classes de informação (importante) disponível sobre um mesmo sistema, mas em que cada uma delas aponta para diferentes comportamentos do sistema (provas em conflito). Este conflito pode acontecer devido ao facto de parte da informação disponível ao analista estar errada (mas não identificável como tal por ele), das características da informação serem irrelevantes para o sistema, do modelo que o analista tem do sistema ser incorreto, etc.. Computação Científica 47

Análise e Representação de Erros Se numa situação certas informações (por exemplo, linguísticas) têm significados totalmente diferentes ou têm uma correspondência de um para vários (matematicamente falando), então dizse que existe ambiguidade. Todas as linguagens contêm palavras que, por diversas razões, têm diferentes significados em diferentes contextos. O termo medição é aqui usado no sentido de medição em engenharia, isto é, instrumentos para medição de aspetos físicos, tais como peso, temperatura, altura, etc.. No entanto, se uma dada propriedade exata não puder ser medida com precisão, tem-se alguma incerteza relativamente à medição real, conhecendo-se apenas uma medida indicativa. Em todas as causas da incerteza já referidas, a informação disponível ao analista é objetiva. No entanto, existem situações em que a informação disponível é subjetiva, as quais são classificadas segundo um tipo de crença numa certa circunstância. Estas situações são, talvez, as mais duvidosas de todas, pois também podiam ser classificadas como falta de informação no sentido objetivo. 3.4. Precisão e exatidão A precisão refere-se ao quão próximo um número representado pelo computador representa o número que ambiciona representar. A precisão de um número é caracterizada pelo número de dígitos usados na representação e na álgebra. Assim, a constante será representada com maior precisão utilizando 8 bytes do que utilizando 4 bytes, para armazenar o número. A exatidão refere-se a quão próximo um número representado pelo computador (como resultado de uma série de operações, por exemplo) está do valor correto do número que ele almeja representar. A exatidão é caracterizada pelos erros (de truncatura e de arredondamento) no método numérico utilizado. Assim, se os números 1 = 3.1416304958 e 2 = 3.1415809485 almejam representar o mesmo número = 3.141592654, o número 2 possui maior exatidão do que 1, embora ambos possuam a mesma precisão. Os conceitos de precisão e exatidão são muitas vezes confundidos entre si. É frequente, em linguagem coloquial, referir-se à precisão quando na verdade o correto seria referir-se à exatidão de um resultado. Mais adiante, indica-se como se pode medir a exatidão de um número através do cálculo dos erros absoluto e relativo do mesmo. 3.5. Tipos de erros Durante as etapas de resolução de um problema, surgem erros de várias origens que podem alterar profundamente os resultados (soluções) obtidos. É de importância fundamental conhecer as causas desses erros para minimizar as suas consequências. Em função da origem dos erros, pode-se considerar dois tipos: a) erros exteriores ao processo de cálculo, e b) erros que ocorrem durante o processo de cálculo. 48 Computação Científica

Análise e Representação de Erros Os erros exteriores ao processo de cálculo podem ser - iniciais (associados aos dados e aos parâmetros do modelo), - de modelação (inerentes à construção dos modelos matemáticos), e - grosseiros (inerentes à elaboração e implementação dos algoritmos); Os erros que ocorrem durante o processo de cálculo podem ser - de arredondamento (inerentes à representação de entidades numéricas nas máquinas e às operações que um computador pode realizar), e - de truncatura (associados ao uso de métodos numéricos). Como consequência da ocorrência destes erros, as soluções numéricas obtidas são, em geral, soluções aproximadas. Definição do Problema Modelo Matemático Erros de Modelação Erros Iniciais Dados e Parâmetros do Modelo Método Numérico Erros de Truncatura Cálculo da Solução Erros Grosseiros Erros de Arredondamento Análise da Solução Erros nas diversas etapas do processo de resolução de um problema. 3.5.1. Erros iniciais (nos dados do modelo) Num modelo matemático é muitas vezes necessário usar dados e parâmetros obtidos através de medidas experimentais, os quais são traduzidos com valores aproximados. As aproximações nos dados e parâmetros podem ter grande influência no resultado final. Pode ocorrer que os dados sejam obtidos com pouca exatidão, sendo necessária a realização de testes para verificar o quanto os resultados são sensíveis às alterações dos dados fornecidos (análise de sensibilidade). Grandes alterações nos resultados devido a pequenas variações nos dados são sintomas de um mal condicionamento do modelo proposto, havendo então necessidade de uma nova modelação do problema. Um modelo matemático cuja solução obtida (resultados) é muito sensível a pequenas variações nos dados e nos parâmetros do modelo diz-me mal condicionado; por outro lado, diz-me bem condicionado se pequenas variações nos dados e parâmetros induzem sempre pequenas variações na solução. Computação Científica 49

Análise e Representação de Erros 3.5.2. Erros de modelação (ou de formulação) Um modelo matemático raramente oferece uma representação exata dos fenómenos reais. Desta forma, na maioria dos casos são apenas modelos idealizados, uma vez que estudar os fenómenos da natureza implica, geralmente, aceitar-se certas condições que simplificam o problema real para o tornar resolúvel. Desta forma, pode ocorrer uma modelação incorreta, em que uma ou várias das expressões matemáticas associadas ao modelo não reflitam adequadamente o fenómeno real. Os melhores modelos são os que incluem as características do problema real necessárias para reduzir os erros a um nível aceitável. Os erros de modelação estão também relacionados com uma certa tendência de alguns analistas não completarem, com algum rigor, o modelo matemático. Nesta situação, deve-se ter consciência do facto de que se está a trabalhar com um modelo mal construído e não adequado ao problema real. Desta forma, nenhum método numérico poderá originar resultados precisos. 3.5.3. Erros grosseiros Apesar da probabilidade de um computador cometer um erro ser muito baixa, podem ser cometidos erros na elaboração do algoritmo, na sua implementação, na introdução dos dados iniciais e/ou na definição dos parâmetros do modelo. Por outro lado, executar o programa com dados iniciais cujos resultados (solução) são conhecidos, ajuda a detetar erros e a removê-los, mas demonstra, apenas, que o programa está correto para aquele conjunto de dados; por isso, é que estes dados devem ser específicos. 3.5.4. Erros de arredondamento Qualquer que seja o processo de obtenção dos cálculos, manual ou computacionalmente, há a necessidade de utilizar uma aritmética de precisão finita, ou seja, apenas se pode ter em consideração um número finito de dígitos na parte decimal dos valores envolvidos. O erro devido a desprezar os outros dígitos e arredondar o número, é designado por erro de arredondamento. De facto, um qualquer número decimal, por exemplo 0.4 10 (base 10), não pode ser representado exatamente num computador porque tem que ser convertido em binário (base 2) e armazenado num número finito de bits. O erro causado por esta imperfeição na representação de um número é o erro de arredondamento. 3.5.5. Erros de truncatura Muitas equações têm solução que apenas podem ser construídas de forma a que um processo infinito possa ser descrito como limite da solução do problema em análise. Por definição, um processo infinito não pode ser completado, pelo que tem de ser truncado após um determinado número finito de operações. Esta substituição, de um processo infinito por um finito, resulta num erro de truncatura. 50 Computação Científica

Análise e Representação de Erros O erro de truncatura é pois, devido à aproximação de um problema por outro, como, por exemplo, a substituição de um problema contínuo por um discreto. É sabido que, para avaliar uma função matemática no computador, apenas podem ser requeridas as operações aritméticas e lógicas, por serem as operações que ele é capaz de efetuar. Por exemplo, para avaliar f(x) = sen(x) esta tem que ser aproximada por uma série, tal como sen(x) = n=0 ( 1) n x 2n+1 (2n+1)! = x x3 6 + x5 120 x7 5040 +..., 0 x π 4. À medida que n aumenta, mais o valor da série se aproxima do valor real. A tabela que se segue mostra a diferença entre o valor obtida pela série de sen(x) e um valor mais exato, para n até 2, 3 e 4. Quando n aumenta, o erro de truncatura diminui, ficando claro que estes erros são devidos às várias truncaturas da série (ver tabela que se segue). 3.6. Valores aproximados e erros n=0 ( 1) n x 2n+1 (2n+1)! sen(x) x t = 2 t = 3 t = 4 0 0 0 0 /16 2.4 x 10-6 2.2 x 10-9 1.2 x 10-12 /8 7.8 x 10-5 2.9 x 10-7 6.1 x 10-10 /6 3.3 x 10-4 2.1 x 10-6 8.1 x 10-9 /4 2.5 x 10-3 3.6 x 10-5 3.1 x 10-7 Ao resolver um problema numérico no computador obtém-se, em geral, um valor aproximado da solução exata do problema. Assim sendo, é importante poder avaliar-se a qualidade da aproximação, isto é, estimar ou limitar a discrepância entre a solução aproximada calculada e a solução exata. Esta qualidade pode ser medida através do cálculo dos erros absoluto e relativo. 3.6.1. Erro absoluto Seja X o valor exato de um número e fl(x) o seu valor aproximado por uma representação de ponto flutuante. O erro absoluto (EA X ) é definido como o valor absoluto da diferença entre o valor exato e o valor aproximado: EA X = X - fl(x). Ou seja, conhecendo-se fl(x) e EA X, pode-se afirmar que X = fl(x) EA X. Como para a maior parte dos problemas X é desconhecido, não é possível calcular o erro absoluto, sendo apenas possível estimar-se o seu valor. Computação Científica 51

Análise e Representação de Erros Geralmente conhece-se a quantidade não negativa d X, tal que EA X = X - fl(x) d X, que se denomina por um limite superior do erro absoluto. Desta relação pode-se concluir que o valor exato pertence ao intervalo fl(x) - d X X fl(x) + d X. Por exemplo, Arquimedes estimou o valor de através da média do perímetro de polígonos que estavam contidos numa circunferência de raio unitário e de polígonos que continham a circunferência. Fazendo uso deste método, Arquimedes foi capaz de estimar π min = 3.1409... = 3 + 1137 8069 < π < π max = 3 + 1335 9347 = 3.1428... Desta forma, Arquimedes obteve erros absolutos iguais a: EA = 6.830 x 10-4 para min, EA = 1.2339 x 10-4 para p max e, EA p = 2.7546 x 10-4 para a média entre p min e p max. Portanto, Arquimedes poderia afirmar que π = 1 2 (π min + π max) ± 1 2 (π max π min) = 3.14187 ± 0.00096. 3.6.2. Erro relativo Seja X o valor exato de um número e fl(x) o seu valor aproximado. O erro relativo (ER X ) pode ser definido como o erro absoluto dividido por X: ER X = EA X X = X fl( X) X δ X X. Como para a maior parte dos problemas X é desconhecido, é usual substituí-lo pelo valor aproximado fl(x) no denominador da expressão para o erro relativo, como a seguinte: ER X = EA X fl( X) = X fl(x ) fl(x) δ X fl( X). O erro relativo não tem dimensão e, em geral, só é conhecido o limite superior do seu valor, X, o qual se define da seguinte forma (limite superior do erro relativo): ER X X. A quantidade 100 ER X, expressa em percentagem, denomina-se por percentagem do erro. Voltando ao exemplo anterior, os erros relativos das estimativas de Arquimedes foram: ER p = 2.1741 x 10-4 para p min, ER p = 3.9262 10-4 para p max e, ER p = 8.7674 x 10-5 para a média. 52 Computação Científica

Análise e Representação de Erros Em geral, a melhor medida para se estimar a precisão de uma aproximação é o erro relativo, pois este indica diretamente o número de dígitos significativos corretos na aproximação. 3.6.3. Fórmula fundamental dos erros Considere-se um determinado problema de cálculo numérico, Y = f(x). Mesmo que seja possível executar f de forma exata, qualquer perturbação no valor dos dados irá afetar os resultados; são os erros de propagação: fl(y) = f(f(x)). Por outro lado, mesmo que os dados sejam exatos, o método de cálculo pode ser aproximado; os resultados virão afetados de erros gerados: f( Y) = f(x). Na maioria das vezes, ocorrem sucessivas combinações destes dois tipos de erros: f( Y) = f(f (X)). A fórmula fundamental do cálculo dos erros serve para indicar como se propagam os erros ao longo do processo de cálculo numérico. Seja Y = f(x), onde f é uma função continuamente diferenciável em R. Admita-se que fl(y) = f(fl(x)), isto é, fl(y) é obtido usando aritmética exata com dados ligeiramente perturbados (fl(x)). Então, usando o Teorema do Valor Médio (TVM), obtémse os seguintes resultados: (a) EA fl(y) = Y fl(y), por definição de erro absoluto = f(x ) f(fl( X)), por hipótese = f '( ) X fl( X), (X, fl(x)) (pelo TVM) = f '( ) EA X, por definição de erro absoluto EA fl(y) = f'( ) EA X (b) ER fl(y) = = = = ER fl(y) Normalmente EA fl(y), por definição de erro relativo Y f '( ) X fl(x), pela alínea anterior Y X f '( ) Y X f '( ) Y X f '(X) f(x ) X f '( X) f(x ) X f '(X) f(x) X fl(x) X ER X, por definição de erro relativo ER X, porque X fl(x) e (X, fl(x)) ER X é designado por número de condição de f em X e denota-se por cond f(x). Este valor, cond f(x), é um indicador do efeito da propagação do erro relativo, no valor da função f no ponto X, e permite avaliar em que condições a função é bem ou mal condicionada. Computação Científica 53

Análise e Representação de Erros Exemplos: Analisar os efeitos da propagação de erros nas funções x n e n x com n N. (a) f(x) = x n, com n N. cond f(x) = x f'(x) f (x) = x n xn 1 x n = n Verifica-se que a propagação do erro relativo depende apenas de n e não de x. (b) f(x) = n x, com n N. cond f(x) = x f'(x) f (x) = x nx ln x n x = x ln x Neste caso, verifica-se que a propagação do erro relativo depende de x mais do que de n. 3.6.4. Número de dígitos significativos Na contabilização do número de dígitos de um número, não se deve incluir os zeros no seu início, uma vez que estes zeros apenas ajudam a localizar a posição ideal do ponto decimal. Caso se pretenda contabilizar o número de decimais, então os zeros mais à direita do ponto decimal devem ser incluídos. Por exemplo, o número 0.00147 tem três dígitos significativos apesar de possuir cinco decimais. O número 12.34 tem quatro dígitos significativos, mas possui apenas dois decimais. Em matemática aplicada, os algarismos significativos são utilizados para monitorizar os erros ao se representar números reais na base 10. Excetuando-se quando todos os números envolvidos são inteiros (por exemplo o número de pessoas numa sala), é impossível determinar o valor exato de determinada quantidade. Assim sendo, é importante indicar a margem de erro numa medição indicando os algarismos significativos, sendo estes os dígitos com significado numa quantidade ou medição. Utilizando algarismos significativos, o último dígito é sempre incerto. Desta forma, é importante utilizá-los em trabalhos científicos. Diz-se que uma representação tem n algarismos significativos quando se admite um erro no algarismo seguinte da representação. Por exemplo, 1/7 = 0.14 com dois algarismos significativos (já que o erro está na terceira casa decimal: 1/7 = 0.1428571429). Analogamente, 1/30 = 0.0333 com três algarismos significativos (erro na quinta casa decimal). Os algarismos significativos são o conjunto de algarismos corretos de uma medida mais um último algarismo, que é o duvidoso (zeros à direita são algarismos significativos e zeros à esquerda não são). Dada uma representação decimal: 1. O algarismo zero que correspondem às ordens maiores não são significativos. Exemplos: em 001234.56 os dois primeiros zeros não são significativos, o número tem seis algarismos significativos; em 0.000443 os quatro primeiros zeros não são significativos, o número tem três algarismos significativos. 54 Computação Científica

Análise e Representação de Erros 2. O algarismo zero que corresponde às menores ordens, se elas são fracionárias, são significativos. Exemplo: em 12.00 os dois últimos zeros são significativos, o número tem quatro números significativos. 3. Os algarismos de 1 a 9 são sempre significativos. Exemplos: em 641 o número tem três números significativos; em 38.984 o número tem cinco algarismos significativos. 4. Zeros entre algarismos de 1 a 9 são significativos. Exemplo: em 1203.4 todos os cinco algarismos são significativos. 5. Os zeros que completam números múltiplos de potências de 10 são ambíguos: a notação não permite dizer se eles são ou não significativos. Exemplo: 800 pode ter um algarismo significativo (8), dois algarismos significativos (80) ou três algarismos significativos (800). Esta ambiguidade deve ser corrigida usando-se notação científica para representar estes números, 8x10 2 tem um algarismo significativo, 8.0x10 2 tem dois algarismos significativos e 8.00x10 2 tem três algarismos significativos. 6. As constantes têm um número arbitrariamente elevado de algarismos significativos; Exemplos: exemplos: o coeficiente 3 no cálculo do valor médio: (1.84 + 1.72 + 1.66) / 3; o número π. - 0.00023: tem dois algarismos significativos, que são 23; - 052.6: tem 3 algarismos significativos; - 0.000200: tem três algarismos significativos, já que tem zeros à direita; - 755555.66: tem 8 algarismos significativos. Quando se trabalha com uma representação de um número obtida por meio de um processo de arredondamento, uma forma alternativa para se estimar a qualidade da aproximação (ou a exatidão do número), consiste em calcular o número de dígitos significativos corretos da representação. Se fl(x) é uma aproximação de X então diz-se que fl(x) aproxima X com k dígitos significativos se EA X = X fl(x) 1 2 bs+1 k, em que s é tal que b s X b s+1. O dígito significativo do valor aproximado que se encontra mais à esquerda é chamado de digito mais significativo e o mais à direita de digito menos significativo. O número de dígitos significativos de um valor aproximado dá boa informação sobre a qualidade dessa aproximação. Existe uma relação entre o número de dígitos significativos de um valor aproximado de um número e o erro relativo desse valor. Com efeito, se fl(x) é uma aproximação para X com k dígitos significativos corretos numa representação de base b, então ER X = X fl(x ) X 1 2 b k+1 onde k é o maior número inteiro positivo para o qual a desigualdade acima é verificada. Computação Científica 55

Análise e Representação de Erros Exemplo: sejam b = 10, X = 1/6 e fl(x) = 0.16667; então 1/ 6 0.16667 ER X = 1/6 = 2 10 5 1 2 10 5+1. Ou seja, o número de dígitos significativos em fl(x) é k = 5. 3.7. Erros de arredondamento O tamanho finito da palavra utilizada num computador digital para a representação de números de ponto flutuante provoca o aparecimento de diversos tipos de erros. Uma estratégia para reduzir estes erros, usada na maioria dos computadores, consiste em utilizar números de ponto flutuante normalizados, isto é, números cuja mantissa M está sempre dentro do intervalo b 1 = 1 b M < 1 = b0, ou seja, 0.5 M 1 para computadores de base b = 2. Esta estratégia diminui o número de zeros à direita do ponto e maximiza o número de dígitos não nulos utilizados para representar um dado número. No entanto, mesmo num sistema com representação normalizada, nem todos os números reais podem ser representados. Utilizando o exemplo do sistema F(2, 4, -5, 6), o número racional y = 0.12345999... não pode ser exatamente representado. A forma de y na base 2 é: y = 0.12345999... = (0.000111111001101...) 2. Para escrever y de acordo com o sistema F(2, 4, -5, 6), deve-se primeiro normalizar de acordo com as operações: y = 2 4 + 2 5 + 2 6 + 2 7 + 2 8 + 2 9 + 2 12 + 2 13 + 2 15 +... = 2 3 (2 1 + 2 2 + 2 3 + 2 4 + 2 5 + 2 6 + 2 9 + 2 10 + 2 12 +...) = (0.111111001101...) 2 3, o qual está agora na forma normalizada. De acordo com a expressão apresentada na secção 2.4.2 (pág. 39), então podemos identificar M = 0.111111001101... ; e = -3. Contudo, para o sistema F(2, 4, -5, 6), pode-se usar apenas 4 dígitos na mantissa. Desta forma, uma possível aproximação para y é: fl(y) = (0.1111) x 2-3, o qual corresponde ao seguinte número na base 10: fl(y) = 0.1171875, resultando nos seguintes erros absoluto e relativo: EA y = 6.27249 x 10-3 ER y = 5.08058 x 10-2 56 Computação Científica

Análise e Representação de Erros Considere-se um número X na forma normalizada que não possua representação exata no sistema F(b, n, e min, e max ). Sejam X o menor número representável no sistema menor que X e X o maior número representável no sistema maior que X. Então, X X X Pode-se escrever X como Ou seja, X = 0.d 1 d 2...d n d n+1... b e = ( 0.d 1 d 2...d n) be + ( 0.0...0d n+1... ) be = = ( 0.d 1 d 2...d n) be + ( 0. d n+1... ) be n. X = ( 0. d 1 d 2...d n) be + g X b e n com g X = ( 0.d n+1... ) e g X < 1 em que g X b e-n é a parcela de X que não é incluída na sua representação. Existem duas formas de se realizar a aproximação: arredondamento por defeito (ou corte do número) e simétrico. 3.7.1. Arredondamento por defeito (ou corte do número) O arredondamento por defeito consiste simplesmente em ignorar g X. Assim, fl(x ) = ( 0. d 1 d 2...d n) be o qual é representável no sistema. Neste caso, o erro absoluto cometido por corte é EA X = X fl(x) = g X be n < b e n pois g X < 1, obtendo-se, desta forma, um limite superior para o erro absoluto. O erro relativo cometido por corte é ER X = EA X fl(x) = pois ( 0.d 1 d 2...d n) b 1 e n g X b ( 0. d 1 d 2...d n) = be g X b e n b e ( 0. d 1 d 2...d n) < b n b 1 = b1 n e g X < 1, obtendo-se, desta forma, um limite superior para o erro relativo, ao qual também se dá o nome de unidade de erro de corte. Desta forma, podem ser enunciados os resultados que se seguem, relacionando o número de dígitos significativos de um valor aproximado de um número com o seu erro relativo. Teorema: Se o dígito mais significativo do valor aproximado de um número é d 1 0 e se esse valor tem k dígitos significativos, então o seu erro relativo não excede b 1-k. Computação Científica 57

Análise e Representação de Erros Corolário: Se o erro relativo do valor aproximado de um número não excede (1/2) b -k, então esse valor tem k dígitos significativos. Para o exemplo anterior, no sistema de representação F(2, 4, -5, 6), pode-se escrever: y = (0.1111) 2 3 + g y 2 3 4, sendo g y = (0.11001101...) Então, efetuando o arredondamento por defeito obtém-se fl(y). 3.7.2. Arredondamento simétrico No arredondamento simétrico, executa-se a seguinte operação: fl(x) = { (0.d 1 d 2...d n) be, se g X < 1 2 ( 0.d 1 d 2...(d n +1) ) be, se g X 1 2 Neste caso, o erro absoluto cometido por arredondamento simétrico é EA X = { g X be n, se g X < 1 2 g X 1 be n, se g X 1 2 ( < 12 ) be n, de onde se obtém uma estimativa superior para o erro absoluto. O erro relativo cometido por arredondamento simétrico é { 1 2 be n ER X = ( 0.d 1 d 2...d n), se g be X < 1 1 b1 n) 2 2 be n (< 1 (0.1) 2 be n b b e = 1 2 ( 0.d 1 d 2...(d n +1) ), se g X 1 be 2 o qual fornece uma estimativa superior para o erro relativo, ao qual também se dá o nome de unidade de erro de arredondamento. No exemplo acima, como g y > 1 2, deve-se somar 1 ao dígito d 4 resultando, fl(y) = (0.1111) 2 3 + (0.0001) 2 3 = (1.0000) 2 3 = (0.1000) 2 2, Neste caso, obtém-se fl(y) = 0.125, que possui um erro relativo de ER Y = 0.12345999 0.125 0.12345999 = 1.232 10 2 ; ou seja, 1.23% de y, o que é bem menor que o obtido com o arredondamento por defeito, que foi de 5.08%. 58 Computação Científica

Análise e Representação de Erros Os computadores mais recentes modificam ligeiramente o arredondamento em relação à fórmula apresentada antes. Nesta, o último dígito significativo (d n ) não será alterado se g X < 1 2 e será alterado se g X 1 2. Há, portanto, uma ligeira preferência para a alteração de d n no processo de arredondamento, o que insere um erro sistemático no processo. Atualmente, se g X = 1 2, o valor de d n será alterado somente em metade das situações, segundo algum critério. Este critério pode ser, por exemplo, a paridade de d n. Assim, para b = 10, o número 12.5 seria arredondado para 12, enquanto que 13.5 seria arredondado para 14 (critério denominado por arredondamento par). 3.7.3. Erros de arredondamento na álgebra de ponto flutuante A fórmula fundamental do cálculo dos erros pode ser usado para calcular os limites superiores dos erros absoluto e relativo das operações fundamentais. Para além dos erros resultantes da representação no computador de números no formato com ponto flutuante, também as operações algébricas, que necessariamente são realizadas pelo computador, introduzem erros no resultado destas operações, e que tendem a acumular-se à medida que o número de operações de ponto flutuante são realizadas no computador. O exemplo seguinte ilustra o aparecimento deste tipo de erros. Suponha-se que se está a usar um sistema numérico de base 10 com 5 dígitos na mantissa. Pretende-se calcular o valor da função f( x) = 1 cos(x) sen(x) = sen(x), para x = 0.007. 1 + cos(x) Existem funções intrínsecas do compilador que calculam o valor das funções trigonométricas dentro da precisão disponível, através de um processo de arredondamento. Assim, sen(0.007) = 0.69999 10 2 e cos (0.007) = 0.99998 A primeira expressão para f(x) fornece: f( x) = 1 cos(x) sen(x) enquanto que a segunda expressão fornece f( x) = sen(x) 1 + cos(x) = 1 0.99998 0.69999 10 2 = 0.2 10 = 0.28572 10 2 2 0.69999 10 = 0.69999 10 2 1 + 0.99998 4 = 0.35000 10 2 sendo que este último resultado é o correto, dentro da precisão de 5 dígitos disponível. O erro relativo entre o primeiro valor (errado) e o segundo (correto) é de 22.5%. Na primeira expressão, devido à escolha feita na precisão, restou somente um dígito relevante no numerador após a subtração. Isto levou a uma perda de precisão e a um resultado erróneo devido ao cancelamento de dois números muito próximos entre si. Este problema seria evitado caso o sistema de representação dispusesse de, pelo menos, mais um dígito significativo na mantissa; porém, o que importa frisar aqui é que muito facilmente este tipo de erro de arredondamento ocorre, devido ao tamanho finito Computação Científica 59

Análise e Representação de Erros da palavra no computador. Por outro lado, caso fosse solicitado o valor de f(x) para x, seria a segunda expressão que forneceria um valor incorreto e a primeira a fornecer um valor correto. Este exemplo demonstra a perda de precisão numérica devida a erros de arredondamento, onde o número de dígitos significativos é reduzido na subtração de dois números próximos entre si (este efeito designa-se por cancelamento subtrativo). Isto mostra que não é possível confiar cegamente no cálculo realizado, devendo-se sempre analisar cuidadosamente o algoritmo usado na procura de possíveis fontes de erros. Desta forma, é importante conhecer-se como se propagam os erros nas operações aritméticas: adição, subtração, multiplicação e divisão. 3.7.3.1. Adição a) Erro absoluto: EA X+Y = (X + Y) (fl(x) + fl(y)) = (X fl(x )) + (Y fl(y)) X fl(x) + Y fl( Y) = EA X + EA Y O erro absoluto da soma de dois números é limitada pela soma dos erros absolutos individuais. b) Erro relativo: ER X+Y = EA X+Y X + Y EA X + EA Y X + Y = EA X X X X + Y + EA Y Y Y X + Y = ER X X X + Y + ER Y Y X + Y Considerando que ER = max { ER X, ER Y } conclui-se que ER X+Y ER. O erro relativo da soma de dois números é limitada pelo maior dos seus erros relativos. 3.7.3.2. Subtração a) Erro absoluto: EA X Y = ( X Y) (fl(x) fl(y)) = (X fl(x)) (Y fl( Y)) X fl(x) + Y fl( Y) = EA X + EA Y O erro absoluto da subtração de dois números é limitada pela soma dos seus erros absolutos. b) Erro relativo: ER X Y = EA X Y X Y EA X + EA Y X Y = EA X X X X Y + EA Y Y Y X Y = ER X X X Y + ER Y Y X Y Fenómeno de cancelamento subtrativo: Quando se subtraem quantidades muito próximas (diferença X Y pequena) o erro relativo pode ser muito elevado. 60 Computação Científica

Análise e Representação de Erros 3.7.3.3. Multiplicação a) Erro absoluto: ER XY EA X fl(y) + EA Y fl(x ) b) Erro relativo: ER XY ER X + ER Y Uma estimativa para o erro relativo na multiplicação é dada pela soma dos erros relativos dos operandos (desde que estes venham afetados por um erro relativo pequeno). 3.7.3.4. Divisão a) Erro absoluto: ER X /Y EA X fl(y) + EA Y fl(x) fl(y) 2 b) Erro relativo: ER X /Y ER X + ER Y Uma estimativa para o erro relativo na divisão é dada pela soma dos erros relativos dos operandos (desde que estes venham afetados por um erro relativo pequeno). 3.8. Erros de truncatura Além dos erros de arredondamento que se cometem durante os cálculos, outros erros, os chamados erros de truncatura, surgem com a utilização de certos métodos numéricos para a resolução do problema matemático. Assim, a substituição de um problema contínuo por um problema discreto ou de um processo de cálculo infinito por um finito, de modo que o método de resolução envolva apenas uma sequência finita de operações aritméticas, originam estes erros. O erro de truncatura é a diferença entre o resultado exato (obtido com os dados disponíveis usando um método analítico/exato) e o resultado aproximado (obtido com um método numérico que calcula uma solução aproximada a partir dos mesmos dados). São exemplos deste tipo de processos de cálculo aproximados a truncatura de séries infinitas, a substituição de derivadas por diferenças finitas ou o terminar de uma sequência iterativa antes da convergência. Muitos métodos numéricos baseiam-se em processos de cálculo envolvendo séries infinitas, em que apenas é possível considerar um número finito de parcelas; isto é, o processo de cálculo é truncado (cortado) num certo ponto do seu desenvolvimento. Computação Científica 61

Análise e Representação de Erros 3.8.1. Cálculo de valores de funções transcendentes As funções racionais são as únicas cujos valores podem ser calculados usando apenas uma sequência finita das 4 operações aritméticas básicas. As funções transcendentes devem ser aproximadas por funções racionais para que as aproximações aos seus valores possam ser calculados no computador. Por exemplo, da fórmula de Taylor com resto para sen(x) tem-se: onde Definindo sen(x) = x x3 3! + x5 5! x 7 7! +... + ( 1)n 1 x 2n 1 (2n 1)! + R 2n (x), R 2n (x) = ( 1) n x 2n (2n)! sen( ), p 7 (x) = x x3 3! + x5 5! x7 7! [0, x]. quando se usa p 7 (p/4) para aproximar sen(p/4) o erro de truncatura é R 8 (p/4). Note-se que R 8 (p/4) < 0.3E-5 e p 7 (p/4) 0.70711 é uma aproximação para sen(p/4) com 5 algarismos significativos. 3.8.2. Discretização com Ao usar-se o teorema do valor médio para aproximar o integral de f(x) tem-se b a n 1 f( x) dx = h f( x i ) + R, i=0 x 0,x 1,..., x n [ a,b], x 0 = a, x i = a + i h (i=1,2,...,n) e h=(b a)/n, onde, pelos teoremas do valor médio para integrais e do valor médio para a soma se tem R = (h/2) (b a) f'( ), [a, b]. Se R for suficientemente pequeno, então b a n 1 f( x) dx h i=0 f(x i ). Ao usar-se a expressão da direita para calcular um valor aproximado para a expressão da esquerda está-se a substituir o problema contínuo do cálculo do integral pelo problema discreto do cálculo da soma. O erro que se originou, R, é o erro de truncatura. 62 Computação Científica

Análise e Representação de Erros Por exemplo, para o integral ter-se-à 0.1 e x2 dx 0 0.1 e x2 dx 0.01 [e 02 + e 0.012 +... + e 0.092 ] 0.0997. 0 Neste caso, R = (0.01/ 2) (0.1 0.0) ( 2 e 2 ), [ 0,0.1] ou R < 10-4. 3.9. Condicionamento e estabilidade Devido à existência dos chamados erros iniciais, os dados e parâmetros do modelo matemático não coincidem, em geral, com os dados e parâmetros do problema real. Assim, se a solução exata do problema real for muito diferente da solução exata do modelo matemático, seja qual for o método usado para o resolver, os resultados obtidos não terão interesse. Um modelo matemático cuja solução é muito sensível a variações nos seus dados e parâmetros diz-se mal condicionado (ou matematicamente instável). Um problema diz-se bem condicionado (ou matematicamente estável) se pequenas variações nos dados e parâmetros induzem sempre pequenas variações na solução. Por exemplo, considere-se a equação x 2 1 3 x + 1 36 = 0, cujas raízes são x 1 = x 2 = 1/6. A equação seguinte não tem raízes reais: x 2 0.333333 x + 0.027778 = 0, Os coeficientes da segunda equação são aproximações dos correspondes da primeira, com erros absolutos inferiores a 0.5E-6. Aqui, uma pequena variação nos coeficientes da equação origina uma grande variação na solução. Notar que a diferença entre os dois problemas é induzida pela representação da primeira equação num sistema de ponto flutuante de um computador. A resolução de um problema numérico requer, em geral, a execução de um grande número de operações aritméticas e, originando cada uma delas um erro de arredondamento, a acumulação destes erros pode afetar significativamente o resultado obtido. Um método numérico diz-se instável, ou que apresenta instabilidade induzida, se a acumulação dos erros durante o cálculo pode ter grande influência no resultado final. Um método estável produz sempre bons resultados (com problemas bem condicionados). Computação Científica 63

Análise e Representação de Erros 3.10. Análise de erros No decurso da resolução numérica de um problema matemático num computador ocorrem erros. Para estimar ou limitar o efeito da acumulação desses erros nos resultados obtidos deve ser feito a análise de erros. Existem algumas técnicas de análise de erros, tais como a direta e a inversa. Um algoritmo numérico define uma sequência finita de operações aritméticas. É assim possível, teoricamente, usando limites para os erros, limitar ou estimar a cada passo o erro do resultado intermédio e consequentemente o erro do resultado final. A esta forma de analisar os erros, dá-se o nome de análise de erros direta. Na análise de erros inversa o resultado calculado de um problema numérico é interpretado como o resultado exato do problema que resulta de uma alteração nos dados e parâmetros do problema real. 64 Computação Científica