Métodos Numéricos e Estatísticos Parte II-Métodos Estatísticos Lic. Eng. Biomédica e Bioengenharia-2009/2010
Podemos dividir a Estatística em duas áreas: estatística indutiva (ou inferência estatística) e estatística descritiva. Estatística indutiva Se uma amostra é representativa de uma dada população, conclusões importantes sobre a população podem ser inferidas através da análise da amostra. Estatística descritiva É a parte da estatística que procura somente descrever e avaliar um certo grupo sem tirar conclusões (ou inferências) sobre um grupo maior.
Estatística descritiva Fornecido um certo conjunto de dados relativo a uma amostra de uma população, podemos sempre apresentá-los, ou organizá-los de duas formas distintas: Recorrendo a gráficos e/ou tabelas; Apresentando medidas de posição e/ou dispersão. Os gráficos constituem uma das formas mais eficientes de apresentação de dados. Enquanto que as tabelas fornecem uma ideia mais precisa e possibilitam uma inspecção mais rigorosa dos dados, os gráficos são mais indicados em situações sempre que se pretende uma visão mais rápida e fácil a respeito das variáveis às quais se referem os dados.
Exemplo Distribuição de frequência A organização dos dados em tabelas de frequências (absolutas or relativas), obedecem a certas normas e recomendações. Estas normas são úteis para que as tabelas possam ser interpretadas de uma forma simples, clara e rápida. Muito importante é o facto de que as tabelas tenham significado próprio, i.e., devem ser compreendidas mesmo quando não se lê o texto em que estão apresentadas. Foram anotadas as notas de um exame final de uma disciplina dos alunos de uma certa universidade. Depois de feita a contagem, os dados foram organizados na seguinte tabela Notas Número de alunos Pecentagem 90 a 100 14 7.07 75 a 89 32 16.16 60 a 74 50 25.25 <60 63 31.82 Reprovação por faltas 39 19.70 198 100.00
Diagrama de pontos Útil sempre que se pretende apresentar um pequeno conjunto de dados. Permite ver de uma forma rápida e fácil a tendência dos dados, assim como a sua distribuição e variabilidade. Histograma Para alguns conjuntos de dados o número de valores observados é tão elevado que se torna inevitável o seu agrupamento pos classes.
Exemplo O barulho é medido em decibéis (db). Um decibel corresponde ao nível do som mais fraco que pode ser ouvido num local silencioso por alguém com boa audição. Um sussurro corresponde a cerca de 70dB, um rádio em volume alto cerca de 100dB. Acima dos 120dB, há desconforto para os ouvidos. O dados abaixo correspondem aos níveis de barulho medidos em 36 horários diferentes num determinado local. 82 89 94 110 74 122 112 95 100 78 65 60 90 83 87 75 114 85 69 94 124 115 107 88 97 74 72 68 83 91 90 102 77 125 108 65 Para agruparmos este conjunto de dados em classes, surge imediatamente uma primeira questão: quantas classes? Na prática, o número de classes é muita das vezes escolhido, fazendo a raíz quadrada do número de observações. Assim sendo, neste caso, teríamos 6 classes. O menor valor observado é 60, o maior é 125, pelo que a amplitude de cada classe poderia ser obtida a partir de 125 60 6. Podíamos então construir a seguinte tabela de frequências classes frequência absoluta [60, 71[ 5 [71, 82[ 6 [82, 93[ 10 [93, 104[ 6 [104, 115[ 5 [115, 126[ 4
Se pretendessemos outras informações, poderíamos aumentar a tabela, incluindo outros tipos de frequência, como por exemplo, a frequência relativa e/ou as frequências acumuladas. classes freq. abs. freq. abs. acumulada freq. relat. freq. relat. acumulada 5 5 [60, 71[ 5 5 36 36 6 11 [71, 82[ 6 11 36 36 10 21 [82, 93[ 10 21 36 36 6 27 [93, 104[ 6 27 36 36 5 32 [104, 115[ 5 32 36 36 4 [115, 126[ 4 36 1 36 O histograma pode ser feito a partir das frequências absolutas ou relativas, acumuladas ou não, de cada classe, basta para tal indicar correctamente o que seria usado no eixo vertical.
No scilab, a execução do comando histplot(n,x,normalization=% f), onde n = 6 é o número de classes e x = [82 89 94 108 65] é o vector que contém os dados observados, devolve o seguinte histograma das frequências absolutas. 10 9 8 7 6 5 4 3 2 1 0 60 70 80 90 100 110 120 130
Medidas de posição Média aritmética Dado um conjunto de n valores numéricos, x 1, x 2,..., x n, a média aritmética desses valores, representa-se por x é dada por n i=1 x = x i n Exemplo Determinemos a média do seguinte conjunto de dados do exemplo anterior. Ora x = 82 + 89 + 94 + 110 + + 125 + 108 + 65 36 No scilab, basta executar o comando mean(x). = 90.7
Em alguns casos, queremos determinar a média de um conjunto de dados organizados numa tabela de distribução de frequências, indicando para cada valor distinto de x i, i = 1,..., k, a respectiva frequência absoluta f k. Nesse caso a média será dada por k i=1 x = x i f i, n onde n = k i=1 f i. Exemplo A seguinte tabela fornece informação acerca da idade de jovens que a uma determinada hora frequentam um dado café: Idade Freq. Absoluta 15 2 16 5 17 11 Neste caso, a média é dada por 18 9 19 14 20 13 x = 2 15 + 5 16 + 11 17 + 9 18 + 14 19 + 13 20 54 = 18.24. Se a tabela está organizada por classes, então para o cálculo da média devemos substituir cada classe pelo seu ponto médio e calcular a média como descrito acima.
Mediana É o valor intermédio do conjunto de dados, cujos n valores estão dispostos em ordem crescente. Se n for ímpar, a mediana será o valor que ocupa a posição n+1 ; se n for par, 2 a mediana será a média aritmética dos valores que ocupam as posições n 2 e n 2 + 1. Exemplo Determinemos a mediana do conjunto de dados do exemplo anterior. Como n = 54 é par, a mediana será a média dos valores que ocupam as posições 27 e 28. Portanto a mediana será o valor 18.5. No scilab, depois de definido o vector que contém os dados, x = [15 15 16 16 16 16 16 17... 20] basta executar o comando median(x). Moda É o valor que ocorre com maior frequência. Exemplo No exemplo anterior, a moda será o valor 19, uma vez que é o valor que ocorre mais vezes na distribuição.
Medidas de dispersão Estas medidas são úteis para complementar as informações fornecidas pelas medidas de posição. Descrevem a variabilidade ocorrendo no conjunto de dados. Variância A variância amostral de um conjunto de dados x 1, x 2,..., x n, é definida por n σ 2 1=1 = (x i x) 2 n 1 Exemplo A variância do conjunto de dados 3 4 6 7 10 é dada por (3 6)2 +(4 6) 2 +(6 6) 2 +(7 6) 2 +(10 7) 2 4 = 7.5 No scilab, define-se o vector dos dados, x = [3 4 6 7 10], e faz-se variance(x).
Desvio padrão O desvio padrão amostral de um conjunto de dados x 1, x 2,..., x n, é definido por σ = n σ 2 1=1 = (x i x) 2 n 1 No exemplo anterior, σ = 7.5 = 2.7386. No scilab executa-se o comando st deviation(x). Amplitude A amplitude amostral de um conjunto de dados x 1, x 2,..., x n, é a diferença entre o maior e o menor valor observado. No exemplo anterior, a amplitude é 10 3 = 7. Paro o cálculo no scilab, faz-se max(x)-min(x).
Noções básicas de probabilidade Experiência aleatória (E.A.) Chama-se experiência aleatória a toda a experiência cujo resultado exacto é desconhecido antes da sua realização. Exemplo E.A.1: Registo do número de recém-nascidos num grupo de dez com peso à nascença superior a 3.5Kg; E.A.2: Número de novos casos de sida num dado ano num certo país; E.A.3: Medição da concentração de dióxido de carbono num recinto fechado.
Espaço de resultados É o conjunto de todos os resultados possíveis de uma experiência aleatória. É usualmente, representado por Ω. Pode ser discreto (no caso de ser um conjunto finito ou infinito numerável) ou contínuo (no caso em que é um conjunto infinito não numerável). Exemplo No exemplo anterior: E.A.1: Ω = {0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10} discreto (finito); E.A.2: Ω = {0, 1, 2, 3,......} ; discreto (infinito numerável) E.A.3: Ω = R + 0 (infinito não numerável) contínuo.
Acontecimento Acontecimento (ou evento) é qualquer subconjunto do espaço de resultados. O acontecimento A diz-se elementar se for constituído por apenas um elemento de Ω; certo se A = Ω e impossível se A =. Exemplo Na E.A.1, consideremos os evento A = nenhum dos recém-nascidos tem peso superior a 3.5kg. = {0}; B = pelo menos 8 dos recém-nascidos tem peso superior a 3.5kg. = {8, 9, 10}
Acontecimentos disjuntos Dois acontecimentos dizem-se disjuntos (ou mutuamente exclusivos ou ainda incompatíveis) sse A B =, i.e., a realização simultânea de A e B é impossível. Inclusão de acontecimentos Diz-se que o acontecimento A está contido no acontecimento B, e escreve-se A B quando Realização de A Realização de B Realização de B Realização de A Uma vez que os acontecimentos não passam de conjuntos, podemos efectuar operações sobre eventos já nossas conhecidas.
Operações sobre eventos A B Realização simultânea de A e de B A B Realização de pelo menos um dos eventos A ou B A \ B Realização de A sem que se realize B A Não realização de A Esta operações gozam das propriedades
Associatividade: Comutatividade: Distributividade: Idempotência: Absorção: Modulares: (A B) C = A (B C) (A B) C = A (B C) A B = B A A B = B A (A B) C = (A C) (B C) (A B) C = (A C) (B C) A A = A A A = A A B A B = A A B A B = B A Ω = A A Ω = Ω A = A = A Leis de De Morgan: Dupla negação: A = A A B = Ā B A B = Ā B
Probabilidade clássica de Laplace Considere-se uma E.A. com espaço de resultados Ω constituído por n elementos distintos, em número finito e igualmente prováveis. Suponha-se ainda que a realização do acontecimento A passa pela ocorrência de m dos n eventos de Ω. Então, a probabilidade de realização de A é dada por P(A) = no de casos favoráveis à ocorrência de A n o de casos possíveis = m n Exemplo No lançamento de um dado não viciado, seja A =saída de um número par. Ora A = {2, 4, 6}, Ω = {1, 2, 3, 4, 5, 6}, logo P(A) = 3 6 = 0.5.
Probabilidade clássica de Laplace Considere-se uma E.A. com espaço de resultados Ω constituído por n elementos distintos, em número finito e igualmente prováveis. Suponha-se ainda que a realização do acontecimento A passa pela ocorrência de m dos n eventos de Ω. Então, a probabilidade de realização de A é dada por P(A) = no de casos favoráveis à ocorrência de A n o de casos possíveis = m n Exemplo No lançamento de um dado não viciado, seja A =saída de um número par. Ora A = {2, 4, 6}, Ω = {1, 2, 3, 4, 5, 6}, logo P(A) = 3 6 = 0.5. E se o espaço dos resultados da E.A. não for finito?
Frequência relativa Seja N o número de vezes que se realiza sob as mesmas condições uma certa E.A. e seja n N (A) o número de vezes que o evento A ocorreu nas N experiências realizadas (i.e., n N (A) representa a frequência absoluta do evento A). Então a frequência relativa do evento A é dada por f N (A) = n N(A) N. A frequência relativa satisfaz as seguintes propriedades 0 f N (A) 1; f N (Ω) = 1; f N (A B) = f N (A) + f N (B) se A B = ; f N (A) estabiliza à medida que N aumenta.
Probabilidade frequencista A probabilidade do evento A é o limite da frequência relativa do mesmo: n N (A) P(A) = lim N N = lim f N(A) N
Probabilidade frequencista A probabilidade do evento A é o limite da frequência relativa do mesmo: n N (A) P(A) = lim N N = lim f N(A) N E se a E.A. não se puder realizar mais do que uma vez?
σ-álgebra de eventos É uma colecção não vazia de eventos, A, que satisfaz Ω A; A A A A; Se A i A, i = 1, 2,..., onde {A 1, A 2,...} é um conjunto numerável, então + i=1 A. Exemplo 1 A 1 = {, Ω}; 2 A 2 = P(Ω), i.e., a colecção de todos os subconjuntos de Ω.
Função de probabilidade no sentido de Kolmogorov É uma função P : A [0, 1] que satisfaz os seguintes axiomas P(Ω) = 1; 0 P(A) 1, A A; Se {A 1, A 2,...} é um conjunto contável de eventos mutuamente exclusivos de A (A i A j =, i j), então ( + ) P A i = i=1 + i=1 P(A i )
P( ) = 0; P(A) = 1 P(A); A B P(A) P(B); P(B \A) = P(B) P(A B) Um dado evento A Ω diz-se quase certo se P(A) = 1. Um evento A diz-se quase impossível se P(A) = 0.
P(A B) = P(A) + P(B) P(A B) Dem.: P(A B) = P[(A \ B) (A B) (B \ A)] = P(A \ B) + P(A B) + P(B \ A) = [P(A) P(A B)] + P(A B) + [P(B) P(B A)] = P(A) + P(B) P(A B)
Probabilidade condicionada A probabilidade do evento A condicionada pela ocorrência do evento B é dada por P(A B) = P(A B), P(B) desde que P(B) 0. Exemplo Na extracção de uma carta de um baralho com 52 cartas (13 de cada naipe), qual a probabilidade dessa carta ser o Ás de copas, sabendo à partida que a carta extraída era de copas? Considerando os eventos A = sair o Ás de copas, cuja probabilidade é P(A) = 1 52 B = sair uma carta de copas, cuja probabilidade é P(B) = 13 52. A probabilidade pedida é dada por P(A B) = P(A B) P(B) = P(A 1 P(B) = 52 13 52 = 1 13.
Como P( B) é uma função de probabilidade no sentido de Kolmogorov, então 1 P(Ω B) = 1; 2 0 P(A B) 1, A A 3 Sendo {A 1, A 2,...} é um conjunto contável de eventos mutuamente exclusivos de A, então [( + ) ] + P A i B = P(A i B). i=1 i=1
Lei das probabilidades compostas Sendo {A i } i=1,...,n uma colecção de n eventos tal que P(A i ) > 0 e P(A 1 A 2... A n 1 A n ) > 0, então P(A 1 A 2... A n 1 A n ) = P(A 1 ) P(A 2 A 1 ) P[A 3 (A 1 A 2 )]... P[A n A 1 A 2... A n 1 ]. Esta lei é útil sempre que pretendermos calcular a probabilidade de sequências de eventos em experiências aleatórias.
Exemplo Considere-se um lote de 100 molas de um sistema de suspensão automóvel. Destas, 20 são consideradas defeituosas (D) por violarem a lei de Hooke quando se aplica uma força superior a 35 10 4 N. Extrairam-se uma a uma, sem reposição, três molas deste lote. Determinemos qual a probabilidade das 3 molas extraídas não serem defeituosas. Para tal consideremos o evento D 1 D 2 D 3 =1 a, 2 a e 3 a molas não defeituosas. A probabilidade pedida é então dada por P(D 1 D 2 D 3 ) = P(D 1 ) P(D 2 D 1 ) P[D 3 (D 1 D 2 )] = 80 100 80 1 100 1 80 1 1 100 1 1 = 80 79 78 100 99 98
Partição de Ω Uma colecção de n eventos P Ω = {A i } i=1,...,n diz-se uma partição de Ω sse A i A j =, i j; n i=1 A i = Ω; P(A i ) > 0, i = 1,..., n. Lei da probabilidade total Seja B um evento e P Ω = {A i } i=1,...,n uma partição de Ω. Então P(B) = n P(B A i )P(A i ). i=1
Exemplo Testes realizados em dois dispositivos (A e B) de retenção de crianças em automóveis, revelaram que, em caso de acidente grave, o dispositivo A é eficaz em 95% dos casos, enquanto que o dispositivo B é eficaz em 96%. Adimitindo que no mercado só passarão a existir estes dois tipos de dispositivos, instalados em automóveis exactamente na mesma proporção, calculemos a probabilidade do dispositivo de retenção instalado num automóvel seleccionado ao acaso vir a ser eficaz em caso de acidente grave. Resumindo Evento probabilidade A =dispositivo do tipo A P(A) = 0.5 B =dispositivo do tipo B P(B) = 0.5 E =dispositivo eficaz em caso de acidente grave (DEAC) P(E) =? E A =DEAC dado que é do tipo A P(E A) = 0.95 E B =DEAC dado que é do tipo B P(E B) = 0.96 Pela lei da probabilidade total, a probabilidade pedida é então dada por P(E) = P(E A) P(A) + P(E B) P(B) = 0.95 0.5 + 0.96 0.5 = 0.955
Eventos independentes Dois eventos A e B dizem-se independentes (e denota-se por A B sse P(A B) = P(A) P(B).
1 Sendo A e B dois eventos independentes tais que P(A) > 0 e P(B) > 0, então P(A B) = P(A); P(B A) = P(B); I.e, o conhecimento de B não afecta a reavaliação da probabilidade de A e vice-versa. 2 Sejam A e B dois eventos tais que A B = P(A) > 0 e P(B) > 0. Então A e B não são independentes. 3 Para qualquer evento A tem-se A ; A Ω. 4 Se A e B são independentes, então A B; A B; A B.
Teorema de Bayes Seja B um evento e P Ω = {A i } i=1,...,n uma partição de Ω. Então P(A i B) = P(B A i)p(a i ). P(B) Recorrendo à lei de probabilidade total, podemos ainda escrever P(A i B) = P(B A i )P(A i ) n j=1 P(B A j)p(a j ). Exemplo Retomando o exemplo anterior, calculemos a probabilidade de o dispositivo ser do tipo A sabendo que foi eficaz em caso de acidente grave. Considerando o evento A E =dispositivo do tipo A dado que foi eficaz em caso de acidente grave, a probabilidade pedida é dada por P(A E) = P(E A)P(A) P(E) = 0.95 0.5 0.955 = 0.4974.