Variáveis aleatórias Estimação e Filtragem Estocástica Programa de Pós-Graduação em Engenharia de Sistemas Eletrônicos e de Automação Departamento de Engenharia Elétrica Universidade de Brasília FUNDAMENTOS DE PROBABILIDADE E Definição 1 (Variável Aleatória (v.a.)): Uma função real X( ) definida no espaço de probabilidades Ω é dita uma variável aleatória (v.a.) se para todo número x R, a inequação X(ω) x representa um conjunto (eventos) cuja probabilidade de ocorrência é definida. ESTATÍSTICA Geovany A. Borges gaborges@ene.unb.br Estimação e Filtragem Estocástica - Prof. Geovany A. Borges 1 Variáveis aleatórias Tem-se ainda que Variáveis aleatórias contínuas Função de distribuição: F X (x) Pr{X(ω) x} lim F X(x) 0 x lim F X(x) 1 x Se x 1 < x então {X(ω) x } {X(ω) x 1 } {x 1 < X(ω) x }, que são conjuntos dijuntos. Assim levando a Pr{X(ω) x } Pr{X(ω) x 1 } + Pr{x 1 < X(ω) x } Propriedades de F X (x): Monotônica não-drescente: se x 1 < x, então {X(ω) x 1 } {X(ω) x } e assim F X (x 1 ) F X (x ) Pr{x 1 < X(ω) x } Pr{X(ω) x } Pr{X(ω) x 1 }. Função de Densidade de Probabilidade (FDP): p X (x) df X(x) dx Estimação e Filtragem Estocástica - Prof. Geovany A. Borges Estimação e Filtragem Estocástica - Prof. Geovany A. Borges 3
Como F X (x) é monotônica não-drescente, então p X (x) 0. E ainda F X (x) com F X ( ) x p X (ξ)dξ p X (ξ)dξ 1. Tem-se ainda que p X () p X ( ) 0. Variáveis aleatórias Variáveis aleatórias discretas (número contável de valores) Função de massa: m X (x) > 0 tal que F X (x) Pr{X(ω) x} () m X (ξ) (3) ξ x Considerando o intervalo x X(ω) x + x, tem-se Pr{x X(ω) x + x} x+ x x p X (ξ)dξ p X (x) x (1) se x suficientemente pequeno. Estimação e Filtragem Estocástica - Prof. Geovany A. Borges 4 Estimação e Filtragem Estocástica - Prof. Geovany A. Borges 5 Caracterização de variáveis aleatórias Expectância (esperança, média ou primeiro momento) Caso contínuo: Caso discreto: E{X(w)} xp X (x)dx (4) E{X(w)} ξ Ω ξm X (ξ) (5) Propriedades: Se y f(x) com f( ) sendo uma função escalar monotônica no intervalo x 1 x x. Tem-se que A partir de então, pode-se demonstrar que Assim E{Y } p Y (y) p X (f 1 (y)) dy dx yp Y (y)dy 1 xf 1 (y) (7) f(x)p X (x)dx (8) Sendo X c, com c sendo uma constante, ou seja, p X (x) δ(x c), então E{X} c. Sendo Y a g 1 (X) + b g (X), com a e b sendo constantes, então E{Y } a E{g 1 (X)} + b E{g (X)} (9) Pr{y 1 y y } Pr{x 1 x x }. (6) Estimação e Filtragem Estocástica - Prof. Geovany A. Borges 6 Estimação e Filtragem Estocástica - Prof. Geovany A. Borges 7
Caracterização de variáveis aleatórias Define-se também σ{x} var{x} como desvio padrão da v.a. X. n-ésimo momento (momento de ordem n) Mediana med{x} arg xmed F X {x med } 1 E{X n } x n p X (x)dx n-ésimo momento central (momento central de ordem n) E {(X E{X}) n } (x E{X}) n p X (x)dx Caso especial: para n o momento central é chamado de variância var{x} E{(X E{X}) } E{X } E{X} Moda: máximos locais da FDP p X (x), ou seja mod{x} deve satisfazer a ambas as relações abaixo: p X (x) x p X (x) x 0 xmod{x} < 0 xmod{x} Se p X (x) tiver apenas uma moda, diz-se que ela é monomodal. Uma FDP com duas ou mais modas é dita multimodal. Estimação e Filtragem Estocástica - Prof. Geovany A. Borges 8 Estimação e Filtragem Estocástica - Prof. Geovany A. Borges 9 Se p X (x) for monomodal e simétrica com relação à média E{X}, então med{x} mod{x} E{X}. Distribuições unidimensionais discretas Distribuição de Bernoulli Nesta distribuição Ω {0,1} representa a ocorrência ou não de um evento. A função de massa é dada por m X (x) { 1 p, x 0 p, x 1 (10) em que p é a probabilidade de ocorrência do evento (x 1). Distribuição Binomial Uma v.a. Y com distribuição Binomial representa a soma de n v.a.s X k de Bernoulli com parâmetro p n Y X k. (11) k1 Estimação e Filtragem Estocástica - Prof. Geovany A. Borges 10 Estimação e Filtragem Estocástica - Prof. Geovany A. Borges 11
Sendo assim, Ω {0,1,,..., n} e com Usada na contagem de eventos. ( n m Y (k) k ( n k ) ) p k (1 p) n k n! k!(n k)! Distribuições unidimensionais contínuas Distribuição Uniforme Uma v.a. X de distribuição uniforme com parâmetros b a possui Ω [a,b] e FDP { 1 p X (x) b a, a x b (1) 0, caso contrário. Distribuição Uniforme: Uma v.a. discreta uniforme X possui espaço amostral Ω {a, a + 1,..., b 1, b} tal que b a são parâmetros que definem um intervalo e m X (k) { 1 b a+1, k a,...,b 0, caso contrário. Usada quando os elementos de Ω forem equiprováveis. Notação: X U(a,b). Tem-se ainda que F X (x) E{X} b a 0, x < a x a b a, a x < b 1, x b (13) (14) Estimação e Filtragem Estocástica - Prof. Geovany A. Borges 1 Estimação e Filtragem Estocástica - Prof. Geovany A. Borges 13 Distribuição Normal (ou Gaussiana) Uma v.a. X de distribuição Gaussiana com parâmetros µ e σ possui Ω R e FDP Notação: X N(µ, σ ) Tem-se ainda que p X (x) [ 1 exp 1 πσ (x µ) σ E{X} µ, E{(X E{X}) } σ. ]. (15) em que G ( ) é denominada de função de Gauss sendo dada por G(u) 1 π u exp ] [ v dv Deve ser observado que sendo G( ) F X ( ) 1, então exp ] [ v dv π G( ) π Interpretação gráfica da FDP: monomodal e simétrica com relação à média. A função de distribuição de X é dada por 1 x [ F X (x) exp 1 (u µ) ] ( ) x µ πσ σ du G σ Estimação e Filtragem Estocástica - Prof. Geovany A. Borges 14 Estimação e Filtragem Estocástica - Prof. Geovany A. Borges 15
Exemplo 1 (Transformação afim de uma v.a. Gaussiana): Se X N(µ X, σ X ), qual seria a distribuição da v.a. Y ax + b, sendo a 0 e b constantes reais? Solução: aplicar a eq. (7). Distribuições unidimensionais contínuas Distribuição χ n (Qui-quadrado com n graus de liberdade) Uma v.a. X de distribuição χ n com parâmetro n 1 inteiro possui Ω [0, ) e FDP { x n/ 1 p X (x) exp( x/), x 0 n/ Γ(n/) (16) 0 caso contrário com Γ(u) 0 x u 1 exp( x)dx, u > 0, sendo função Gama. Esta função possui as seguintes propriedades: se u é um inteiro e Γ(1/) π. Notação: X χ n Γ(u) (u 1)Γ(u 1) (u 1)! Estimação e Filtragem Estocástica - Prof. Geovany A. Borges 16 Estimação e Filtragem Estocástica - Prof. Geovany A. Borges 17 Tem-se ainda que Variáveis aleatórias de distribuição conjunta E{X} var{x} n n Se as v.a.s X 1, X,..., X n estão definidas no mesmo espaço Ω, então elas são ditas de distribuição conjunta com distribuição dada por Exemplo (Transformação quadrática de uma v.a. Gaussiana): Se V N(0,1), é uma v.a. de distribuição normal, então W V é uma v.a. de distribuição χ 1. F X1,X,...,X n (x 1, x,..., x n ) Pr{X 1 x 1, X x,..., X n x n } x1 x xn p X1,X,...,X n (u 1, u,..., u n )du 1 du du n com p X1,X,...,X n (x 1, x,..., x n ) sendo a FDP conjunta tal que p X1,X,...,X n (x 1, x,..., x n ) n F X1,X,...,X n (x 1, x,..., x n ) x 1 x x n (17) Propriedades de F X1,X,...,X n (x 1, x,..., x n ): F X1,...,X i,...,x n (x 1,..., x i,..., x n ) 0 Estimação e Filtragem Estocástica - Prof. Geovany A. Borges 18 Estimação e Filtragem Estocástica - Prof. Geovany A. Borges 19
uma vez que Pr{X i } 0. F X1,...,X n (,...,) 0 F X1,...,X n (,..., ) 1 p X1,X,...,X n (x 1, x,..., x n ) 0 Pr{x a < X 1 x b, X x,..., X n x n } F X1,X,...,X n (x b, x,..., x n ) F X1,X,...,X n (x a, x,..., x n ) Variáveis aleatórias de distribuição conjunta Função de distribuição conjunta de um subconjunto de v.a.s: sendo m < n F X1,...,X m (x 1,..., x m ) F X1,...,X m,...,x n (x 1,..., x m,,..., ) x1 xm p X1,X,...,X n (u 1, u,..., u n )du 1 du du n } {{ } } m {{ } n Pr{x 1 < X 1 x 1 + x 1,..., x n < X n x n + x n } p X1,X,...,X n (x 1, x,..., x n ) x 1 x n F X1,...,X m (x 1,..., x m ) é chamada de distribuição marginal das v.a.s X 1,..., X m. Se n, então tem-se uma distribuição Bivariável Se n >, então tem-se uma distribuição Multivariável Estimação e Filtragem Estocástica - Prof. Geovany A. Borges 0 Estimação e Filtragem Estocástica - Prof. Geovany A. Borges 1 Expectância marginal E{X k }, com 1 k n: partindo de Com p Xk (x k ) df X k (x k ) dx k E{X k } x k p Xk (x k )dx k x k F X1,...,X k 1,X k,x k+1,...,x n (,..., x k..., ) p X1,...,X k 1,X k,x k+1,...,x n (u 1,..., u k 1, x k, u k+1,..., u n ) du 1,..., du k 1, du k+1,..., du n Portanto E{X k } x k p X1,...,X k,...,x n (u 1,..., x k,..., u n )du 1,..., dx k,..., du n u k p X1,...,X n (u 1,..., u n )du 1,..., du n Independência: duas v.a.s de distribuição conjunta X i e X j, i j, são ditas independentes se os eventos {X i x i } e {X j x j } forem indepentes. Isto leva a e em conseqüência F Xi,X j (x i, x j ) F Xi (x i )F Xj (x j ) (18) p Xi,X j (x i, x j ) F Xi,X j (x i, x j ) x i x j p Xi (x i )p Xj (x j ) (19) Estimação e Filtragem Estocástica - Prof. Geovany A. Borges Estimação e Filtragem Estocástica - Prof. Geovany A. Borges 3
Variáveis aleatórias de distribuição conjunta Exemplo 3 (Distribuição conjunta bivariável uniforme): Considerando X e Y v.a.s distribuídas conjuntamente tal que p X,Y (x, y) { 1 T X T Y, no espaço [0, T X ] [0, T Y ] 0, caso contrário determinar as densidades marginais de X e Y e verificar se estas v.a.s são independentes. Exercício 1 (Independência de v.a.s Gaussianas): Considerando X e Y v.a.s gaussianas distribuídas conjuntamente tal que { 1 [ p X,Y (x, y) cexp 36x y 9x 36 ]} 18 determinar as condições necessárias para que X e Y sejam estatisticamente independentes. Variáveis aleatórias de distribuição conjunta V.A.s mutuamente independentes: as v.a.s X 1,, X n são mutuamente independentes se n F X1,,X n (x 1,, x n ) F Xi (x i ) (0) e em conseqüência n p X1,,X n (x 1,, x n ) p Xi (x i ) (1) De forma similar, X 1,, X i e X i+1,, X n são independentes se p X1,,X i,x i+1,,x n (x 1,, x i, x i+1, x n ) p X1,,X i (x 1,, x i ) p Xi+1,,X n (x i+1, x n ) Estimação e Filtragem Estocástica - Prof. Geovany A. Borges 4 Estimação e Filtragem Estocástica - Prof. Geovany A. Borges 5 Variáveis aleatórias de distribuição conjunta Expectância de uma função aleatória multivariável: sendo Y f(x 1,, X n ), então com cov{x i, X i } var{x i }. Intuitivamente, se cov{x i, X j } 0 existe alguma relação (linear ou não) entre elas. Coeficiente de correlação: E{Y } y p Y (y)d y () f(x 1,, x n )p X1,...,X n (x 1,, x n )dx 1 dx n (3) tal que 1 ρ(x i, X j ) 1. ρ(x i, X j ) cov{x i, X j } σ{x i }σ{x j } (5) Covariância: se X i e X j, i j, são duas v.a.s, define-se a covariância entre elas como cov{x i, X j } E{(X i E{X i }) (X j E{X j })} (4) E{X i X j } E{X i }E{X j } Estimação e Filtragem Estocástica - Prof. Geovany A. Borges 6 Estimação e Filtragem Estocástica - Prof. Geovany A. Borges 7
Exemplo 4 (Covariância de v.a.s independentes): Se X i e X j são independentes, demonstrar que cov{x i, X j } E{X i X j } E{X i }E{X j } 0 (6) o que significa que X i e X j são não-correlacionadas e portanto E{X i X j } E{X i }E{X j } E ainda, ρ(x i, X j ) 0 se ρ{x i }ρ{x j } 0. Vetores de variáveis aleatórias Um vetor aleatório é formado a partir de v.a.s X 1, X,..., X n de distribuição conjunta, e dado por X X 1 X. X n [ X 1 X X n ] T simpificando a notação, a PDF associada é dada por p X1,X,...,X n (x 1, x,..., x n ) p X (x) em que x [ x 1 x x n ] T é um vetor e p X (x)dx 1 Observa-se que p X (x) é um escalar. De forma similar E{X} [ E{X 1 } E{X } E{X n } ] T Estimação e Filtragem Estocástica - Prof. Geovany A. Borges 8 Estimação e Filtragem Estocástica - Prof. Geovany A. Borges 9 Matriz de covariâncias de X: Portanto, P X P X E{(X E{X}) (X E{X}) T } X 1 E{X 1 } E X E{X }. [ ]T X n E{X n } var{x 1 } cov{x 1, X } cov{x 1, X n } cov{x, X 1 } var{x } cov{x, X n }..... cov{x n, X 1 } cov{x n, X } var{x n } sendo simétrica uma vez que cov{x i, X j } cov{x j, X i } e positiva semidefinida pois u T P X u 0 para todo u 0. Vetores de variáveis aleatórias Distribuição Gaussiana Multivariada p X (x) { 1 exp 1 } (π) n/ P X 1/ (x E{X})T P 1 X (x E{X}) com P X sendo o determinande de P X. Notação: X N(E{X},P X ) Se os elementos de X forem não-correlacionados, ou seja, cov{x i, X j } 0, i j, então pode-se mostrar que n n { 1 p X (x) p Xi (x i ) exp 1 (x i E{X i }) } (π) 1/ var{x i } 1/ var{x i } Estimação e Filtragem Estocástica - Prof. Geovany A. Borges 30 Estimação e Filtragem Estocástica - Prof. Geovany A. Borges 31
uma vez que P X n ι1 var{x i} e 1 var{x 1 } 0 0 P 1 1 X 0 var{x } 0..... 1 0 0 var{x n} Neste caso, como X é formado por elementos independentes e de mesma distribuição (embora de diferentes parâmetros E{X i } e var{x i }), diz-se que X é formado por elementos i.i.d. (independentes e identicamente distribuídos). Pode-se verificar que, para A e b sendo contantes tais que dim{a} m n e dim{b} m 1 e X sendo uma v.a. de distribuição multivariada, então a transformação afin Y AX + b (7) resulta em E{Y } AE{X} + b (8) P Y AP X A T (9) No mais, se X é Gaussiana, então Y também o será. Para comprovar esta última afirmação, faz-se necessário determinar p Y (y). Simulação de uma v.a. Gaussiana multivariável: usando o resultado acima, se X N(0,I n ), com I n sendo a matriz identidade de dimensão n, então Y N(b,AA T ). Isto significa que, se for desejado obter Y N(E{Y },P Y ), então basta escolher b E{Y }, (30) AA T P Y, (31) Para determinar a matriz A tal que eq.(31) seja resolvida, usa-se a fatoração de Cholesky. Pela fatoração de Cholesky, obtém-se a matriz triangular superior R tal que P Y R T R. Portanto, tem-se A R T. A variável aleatória Q (X E{X}) T P 1 X (X E{X}) Estimação e Filtragem Estocástica - Prof. Geovany A. Borges 3 Estimação e Filtragem Estocástica - Prof. Geovany A. Borges 33 é χ n. Para verificar este resultado, considera-se a v.a. tal que P 1/ X ( P 1 X X simétrica e positiva semidefinida, e P 1/ U P 1/ X (X E{X}) (3) ) 1, uma vez que PX P 1/ X P1/ X é ) 1/ (P 1/ simétrica). Pode-se verificar que X E{U} 0 P U é sua matriz raiz-quadrada (também I n significando que os elementos de U são i.i.d. Gaussianos de média nula e variância unitária. Por outro lado, Q pode ser decomposta em Q U T U n Ui (33) A função q (x E{X}) T P 1 X (x E{X}) é comumente usada para testar a hipótese do vetor x pertencer a uma distribuição N(E{X},P X ), considerada verdadeira se q χ n(1 r) com 1 r sendo o percentual da distribuição χ n. Geralmente escolhe-se 1 r 0,95. Consultando a tabela χ n, montada para valores de 1 r, obtem-se [1] (1 r) 0,95 com n 1 χ 1(1 r) 3,841 (1 r) 0,95 com n χ (1 r) 5,991 (1 r) 0,95 com n 3 χ 3(1 r) 7,815 que é a definição de uma v.a. de distribuição χ n. Estimação e Filtragem Estocástica - Prof. Geovany A. Borges 34 Estimação e Filtragem Estocástica - Prof. Geovany A. Borges 35
Vetores de variáveis aleatórias Exemplo 5 (Casamento probabilístico de padrões): Existe uma classe de problemas de reconhecimento de padrões que se apresentam da seguinte forma []. Dispõe-se de K vetores de características x 1,,x K, cada qual assumido de distribuição Gaussiana de média E{X k } e matriz de covariâncias P Xk. Deseja-se verificar qual destes vetores corresponde (com maior probabilidade) a um vetor de referência y suposto N(E{Y },P Y ). Neste problema, encontrar a boa correspondência significa determinar o par {x k,y} tal que a distância (probabilística) x k e y seja a menor. Solução: Para todo 1 k K, determinar o vetor de diferença ε k y x k para o qual E{ε k } E{Y } E{X k } e P εk P Y + P Xk. Pode-se observar que ε T k ε k é a distância euclidiana entre y e x k. No entanto, esta métrica de distância não considera as incertezas devido às distribuições. Para todo 1 k K, determinar a medida q k (ε k E{ε k }) T P 1 ε k (ε k E{ε k }) que segue χ n. É comum também assumir que a correpondência é verdadeira, e assim E{Y } E{X k }, resultando em q k (y x k ) T (P Y +P Xk ) 1 (y x k ) e neste caso, esta medida é chamada de Distância de Mahalanobis. O par {x k,y} de menor distância estatística é aquele cujo índice k satisfaz a k arg k min q k e a correspondência será aceita se q k χ n(1 r). Estimação e Filtragem Estocástica - Prof. Geovany A. Borges 36 Estimação e Filtragem Estocástica - Prof. Geovany A. Borges 37 Vetores de variáveis aleatórias Distribuição Gaussiana Bivariada Considera-se o caso de uma distribuição Gaussiana com n : X [ X 1 X ] T E{X} [ E{X 1 } E{X } ] T [ ] σ P X X1 σ X1 X σ X1 X σ X em que cov{x 1, X } cov{x, X 1 } σ X1 X ρ σ X1 σ X. Como P X é simétrica, ela pode ser decomposta em P X e 1 v 1 v T 1 + e v v T com e 1 e e sendo os autovalores de P X e v 1 e v sendo seus autovetores. FDP conjunta: para um dado x [x 1, x ] T com q p X (x) σ X1 1 { πσ X1 σ exp 1 } q X 1 ρ { (x1 ) 1 E{X 1 } 1 ρ σ X1 ( ) ( ) ( ) } x1 E{X 1 } x E{X } x E{X } ρ + σ X σ X Fazendo u 1 (x 1 E{X 1 })/σ X1 e u (x E{X })/σ X, q pode ser re-escrita como q u T P 1 u u 1 em que u [u 1, u ] T e P u { u 1 ρ 1 u 1 u ρ + u } ]. [ 1 ρ ρ 1 Estimação e Filtragem Estocástica - Prof. Geovany A. Borges 38 Estimação e Filtragem Estocástica - Prof. Geovany A. Borges 39
Representação gráfica. No plano x 1 x, uma forma de representar gráficamente a distribuição bivariada é por meio da curva de nível correspondentes a uma densidade constante, ou seja, p X (x) const. Isto implica em q 1 { u 1 ρ 1 u 1 u ρ + u } c (34) com c sendo uma constante cujo significado ficará logo claro. Dado que ρ 1, a eq. (34) corresponde a uma elipse com os seguintes parâmetros: Centro: E{X} [E{X 1 }, E{X }] T (35) Ângulo com relação ao eixo x 1 : θ 1 arctan (ρσ X1 σ X σ X 1 σ X Eixos principais : r 1 (menor) e r (maior) ) r 1 r cσ X 1 σ X (1 ρ ) σ X cos (θ) ρσ X1 σ X sin(θ)cos(θ) + σ X 1 sin (θ) cσ X 1 σ X (1 ρ ) σ X sin (θ) + ρσ X1 σ X sin(θ) cos(θ) + σ X 1 cos (θ) (36) (37) Estimação e Filtragem Estocástica - Prof. Geovany A. Borges 40 Estimação e Filtragem Estocástica - Prof. Geovany A. Borges 41 Assim, no plano x 1 x tem-se abaixo um exemplo com ρ > 0. Verifique você mesmo: se n 3, então p X (x) const. implica em uma elipsóide. Exemplo 6 (Elipse 3-sigma de uma distribuição gaussiana bivariada): Simulação gaussiana bivariada realizada considerando E{X 1 } 5, E{X } e diferentes valores de P X. Esta elipse é comumente chamada de Elipse de incerteza c sigma, cujo interior incorpora uma determinada porcentagem p da distribuição de X. Pode-se demonstrar que p 1 1 e c. (38) No caso especial de c 3, tem-se a chamada elipse 3-sigma, que incorpora p 98, 9981% da distribuição de X. Estimação e Filtragem Estocástica - Prof. Geovany A. Borges 4 Estimação e Filtragem Estocástica - Prof. Geovany A. Borges 43
Probabilidade condicional de variáveis aleatórias FDP condicional Considerando A e B eventos, a probabilidade condicional é dada por Pr{A B} Pr{A B} Pr{B} Se associarmos estes eventos a variáveis aleatórias X e Y de distribuição contínua, pode-se considerar p X Y (x y) df X Y (x y) dx p X,Y (x, y) p Y (y) p X,Y (x, y) p X,Y (x, y)dx (40) A {X x}, com y > 0. Então, pode-se mostrar que B {y < Y < y + y}, No caso discreto: m X Y (x, y) m X,Y (x, y) m Y (y) (41) F X Y (x y) lim Pr{X x y < Y < y + y} y 0 (39) F / x X,Y (x, y) dfy (y) X,Y (u, y)du. y dy p Y (y) Regra de Bayes para FDPs de variáveis aleatórias: p X Y (x y) p Y X(y x)p X (x) p Y (y) (4) Estimação e Filtragem Estocástica - Prof. Geovany A. Borges 44 Estimação e Filtragem Estocástica - Prof. Geovany A. Borges 45 Expectância condicional: E{X Y } xp X Y (x y)dx (43) Como E{X Y } e p X Y (x y) são funções da v.a. Y, elas são portanto v.a.s. Propriedades: p X Y (x y) 0 (44) F X Y ( y) p X (x) p X Y (x y)dx 1 (45) p X,Y (x, y)dy p X Y (x y)p Y (y)dy (46) E Y {p X Y (x y)} (47) E{X} E{g(Y ) Y } g(y ) xp X (x)dx x p X Y (x y)p Y (y)dydx (48) [ ] xp X Y (x y)dx p Y (y)dy E Y {E{X Y }} g(y )p X Y (x y)dx (49) p X Y (x y)dx g(y ) (50) com g(y ) sendo uma função escalar, ou seja, g(y ) : R m R. Matriz de covariâncias condicional P X Y E{(X E{X}) (X E{X}) T Y } (51) Estimação e Filtragem Estocástica - Prof. Geovany A. Borges 46 Estimação e Filtragem Estocástica - Prof. Geovany A. Borges 47
Probabilidade condicional de variáveis aleatórias Exercício (Condicional de distribuição exponencial): Considere X, Y v.a.s cuja distribuição conjunta seja p X,Y (x, y) { e y 0 < x < y < 0 caso contrário Determine: (i) a fdp marginal de X, (ii) a fdp condicional de Y dado X x e (iii) a esperança e variância de Y dado X x. Exercício 3 (Distribuição bivariada gaussiana):. Exercício 4 (Distribuição bivariada gaussiana): Considere X, Y vetores de v.a.s Gaussianas dos quais se obtém Z X + g(y ). em que g(.) é uma transformação não-linear. Determine p Z Y (z y), E{Z Y } e E{(Z E{Z Y })(Z E{Z Y }) T Y }. Considere X, Y v.a.s Gaussianas cuja distribuição conjunta seja p X,Y (x, y) 1 { π exp (x 6xy + 5y } ). Determine p Y (y) e p X Y (x y). Sugestão: complete os quadrados da função f(x, y) (x 6xy + 5y ) de forma a obter f(x, y) g(x, y) + h(y). Estimação e Filtragem Estocástica - Prof. Geovany A. Borges 48 Estimação e Filtragem Estocástica - Prof. Geovany A. Borges 49 Estatística amostral Estimação da média, matriz de covariâncias e FDP de uma v.a. X a partir de M amostras x 1,,x M. Média amostral: x 1 M M x i (5) Esta estimativa é não-polarizada pois E{ x} E{X} e consistente uma vez que P x 0 com M. Covariância amostral: P X 1 M M (x i x)(x i x) T (53) Esta estimativa é polarizada pois E{ P X } P X. Pode-se mostrar que P X 1 M 1 M (x i x)(x i x) T (54) é uma estimativa não polarizada (chamada de matriz de covariâncias amostral não-polarizada). FDP a partir de histograma Caso escalar: dadas amostras x 1,, x M, obtém-se um histograma, que nada mais é que um gráfico do número de amostras pertencentes a intervalos. Os intervalos possuem espaçamentos x iguais entre os limites x min min(x 1,, x M ) e x max max(x 1,, x M ) : x min, x min + x,, x min,, x k 1, x k,, x max x, x max. com o k-ésimo intervalo sendo dado por [x k 1, x k [. Denomina-se n k o número Estimação e Filtragem Estocástica - Prof. Geovany A. Borges 50 Estimação e Filtragem Estocástica - Prof. Geovany A. Borges 51
de amostras neste intervalo. Assim, tem-se que Pr{x k 1 X < x k } n k M p X (x k 1 ) x Portanto, pode-se obter uma estimativa para a PDF em p X (x k 1 ) através de p X (x k 1 ) n k M x Deve-se observar que esta é uma forma não paramétrica da PDF p X (x). Caso bivariável: dadas amostras x 1,,x M, obtém-se um histograma bidimensional, que é um gráfico do número de amostras pertencentes a intervalos em duas dimensões. Os intervalos possuem espaçamento x [ x 1, x ] T igual entre os limites x d,min min(x d,1,, x d,m ) e x d,max max(x d,1,, x d,m ), para d 1, (no caso N é a dimensão da v.a. amostrada). O histograma é portanto um gráfico de contagens de amostras inseridas nos intervalos bidimensionais I i,j [x 1,i 1, x 1,i [ [x,j 1, x,j [ para os quais i e j os índices do intervalo nas dimensões 1 e, respectivamente. Denomina-se n Ii,j o número de amostras em cada intervalo I i,j. Assim, tem-se que Pr{{x 1,k 1 X 1 < x 1,k }, {x,k 1 X < x,k }} n I i,j M p X (x ij [ x 1,i 1 x,j 1 ] T ) x 1 x Portanto, pode-se obter uma estimativa para a PDF em p X (x ij ) através de n Ii,j p X (x ij ) M x 1 x Caso multi-variável: extensão para N variáveis a partir do caso bivariável. Estimação e Filtragem Estocástica - Prof. Geovany A. Borges 5 Estimação e Filtragem Estocástica - Prof. Geovany A. Borges 53 Funções de variáveis aleatórias Conceitos básicos: seja Y g(x) tal que g(x) : R n R m é um mapeamento de domínio D X e imagem I Y. O problema consiste em determinar a distribuição de Y a partir da distribuição de X. Este problema resolve-se a partir de Pr{I Y } Pr{C X } Exemplo 7 (Transformação linear): Considere Y ax + b com a, b constantes, e X e Y v.a.s unidimensionais. Sendo esta função monotônica, pode-se verificar que F X ( y b a ), a > 0 F Y (y) 1 F X ( y b a ), a < 0 1(y b), a 0 p X ( y b a )1 a, a > 0 p Y (y) p X ( y b a )1 a, a < 0 δ(y b), a 0 em que 1(u) é a função degrau em u 0, e δ(u) é a função impulso em u 0. Se a 0, p Y (y) pode ser escrito como p Y (y) p X ( y b a ) 1 a que é o mesmo resultado obtido pela eq. (7). em que C X é o contra-domínio de g(x), determinado a partir de I Y e g 1 (X) (função inversa). Estimação e Filtragem Estocástica - Prof. Geovany A. Borges 54 Estimação e Filtragem Estocástica - Prof. Geovany A. Borges 55
Exemplo 8 (Transformação quadrática): Considere Y X com X e Y v.a.s unidimensionais. Pode-se verificar que C X somente existe para Y 0. Neste caso, Portanto, I Y {0 Y y} C X { y X y} Determinação direta da FDP Caso escalar: g 1 (Y ) pode ter um ou mais mapeamentos. p Y (y) p X(x 1 ) g (x 1 ) + + p X(x n ) g (x n ) (55) n 1 p X (x i ) dg(y) dx xx i (56) F Y (y) p Y (y) { FX ( y) F X ( y), y 0 0, caso contrário. { 1 [ y px ( y) + p X ( y) ], y 0 0, caso contrário. em que x 1,, x n são as soluções para a variável x em g 1 (y) x. Exercício 5 (Transformação escalar raiz-quadrada): Considere Y X 1/ com X e Y v.a.s unidimensionais. Sendo X N(µ, σ X ) com parâmetros µ e σ tais que Pr{X 0} 0. Determinar p Y (y). Estimação e Filtragem Estocástica - Prof. Geovany A. Borges 56 Estimação e Filtragem Estocástica - Prof. Geovany A. Borges 57 Determinação direta da FDP Caso vetorial com g(x) monotônica, g(x) : R n R n. (atenção: X e Y são de mesma dimensão) p Y (y) p X (g 1 (y)) det(j 1 ) p X(g 1 (y)) det(j) (57) em que as funções g i (x) são obtidas de g(x) g(x) g 1(x). g n (x). (59) Exemplo 9 (Conversão coordenadas cartesianas em coordenadas polares): Considere um ponto P de coordenadas cartesianas (X, Y ) tal que X N(x 0, σ ) e Y N(y 0, σ ) são independentes. Determinar a fdp conjunta das coordenadas polares de P. Quais as distribuições marginais de tais coordenadas? com det(j 1 ) 1/det(J) e J sendo a Jacobiana da transformação, de dimensão n n, dada por J g 1 (x) g 1 (x) x n x 1.. g n(x) x 1 g n(x) x n xg 1 (y) (58) Estimação e Filtragem Estocástica - Prof. Geovany A. Borges 58 Estimação e Filtragem Estocástica - Prof. Geovany A. Borges 59
Propagação de incertezas Propagação de incertezas Definição do problema: determinar a média e a matriz de covariâncias da v.a. Y g(x) em que X é uma v.a. de média E{X} e matriz de covariâncias P X. Nesse caso, g(x) : R n R l em que não necessariamente l n. Solução fechada para g(x) AX + b: E{Y } AE{X} + b P Y AP X A T. Aproximações para g(x) sendo uma função não-linear Simulação de Monte Carlo: Gera-se S amostras {x i } S, das quais obtém-se y i g(x i ). Assim, estimativas para a média e matriz de covariâncias de Y são dadas por E{Y } ȳ 1 S P Y P Y 1 S 1 S y i (60) S (y i ȳ)(y i ȳ) T (61) Observa-se que nada é necessário ser afirmado sobre a distribuição de Y ou de X. Estimação e Filtragem Estocástica - Prof. Geovany A. Borges 60 Estimação e Filtragem Estocástica - Prof. Geovany A. Borges 61 Aproximação de primeira ordem (linearização): Se g(x) for sufientemente suave em torno do suporte da distribuição de X, pode-se mostrar que sendo X gaussiano, Y será aproximadamente gaussiano. Para demonstrar isto, conseidera-se a seguinte parametrização de X N(E{X},P X }: X E{X} + X com X N(0,P X }. Por expansão em série de Taylor, truncada em primeira ordem, gaussiana X. Pode-se então obter E{Y } g(e{x}) P Y ( g(u) u ue{x} )P X ( g(u) u ue{x} Propagação implícita: Técnica proposta em [3] para estimação de matriz de covariâncias de parâmetros estimados por minimização de função de custo. A ser detalhado mais à frente no curso. ) T Y E{Y } + Y g(e{x} + X ) g(e{x}) + g(u) u X ue{x} Então, Y é aproximadamente obtido por uma transofmação afim sobre a v.a. Estimação e Filtragem Estocástica - Prof. Geovany A. Borges 6 Estimação e Filtragem Estocástica - Prof. Geovany A. Borges 63
Unscented Transform (UT): Forma simplificada da simulação de Monte Carlo em que são geradas amostras consideradas relevantes de X. Em suma, de acordo com [4], gera-se S n + 1 amostras {x i } S 1 i0 (ou também denominados de pontos-sigma) segundo as regras abaixo: x i E{X}, ( ) para i 0 E{X} + n 1 w 0 P X para i 1,..., n ( ) i E{X} n 1 w 0 P X para i n + 1,...,n em que ( ) i é um operador que corresponde à i-ésima coluna da matriz argumento. Deve ser observado que é a raiz quadrada matricial, sendo que em alguns casos usa-se também a decomposição de Cholesky. Associado a cada ponto-sigma tem-se um peso w i 1 w 0 n para i 0, e w 0 é um parâmetro de entrada. Supondo-se que a distribuição de X seja Gaussiana, de acordo com [4] recomenda-se w 0 1 3. i n A partir dos ponto-sigma obtém-se y i g(x i ). As estimativas para a média e matriz de covariâncias de Y são dadas por S 1 E{Y } ȳ w i y i (6) i0 S 1 P Y P Y w i (y i ȳ)(y i ȳ) T (63) i0 Exemplo 10 (Propagação em um caso de distribuição gaussiana bivariada): Simulação propagacao incertezas para avaliar a escolha entre raiz quadrada matricial e decomposição de Cholesky na propagação pela UT com diferentes valores de P X. Estimação e Filtragem Estocástica - Prof. Geovany A. Borges 64 Estimação e Filtragem Estocástica - Prof. Geovany A. Borges 65 Geração de números aleatórios Gerador de números aleatórios: algoritmo que gera amostras de uma v.a. X a partir de p X ou de F X. Geradores de distribuições uniformes x 1, x, x 3,... Fórmula genérica de geradores lineares congluentes: x i (a x i 1 + b)mod(k + 1) que gera números com as seguintes propriedades: I. Valores gerados entre 0 e K. II. K é um número primo muito grande III. x i é uma seqüência periódica, com periodicidade K 0 K IV. x 0 é chamado de semente do gerador V. a, b e K devem ser bem escolhidos Alguns geradores: Park & Miller: a 7 5 b 0 K 31 Gerador com K 0 30 Gerador U(0,1): a 110351545 b 1345 K 3 1 ( ) a xi 1 + b x i mod(1) K + 1 de onde verifica-se que os geradores funcionam se a seqüência discreta for instável. x i a K + 1 x i 1 + b K + 1 Estimação e Filtragem Estocástica - Prof. Geovany A. Borges 66 Estimação e Filtragem Estocástica - Prof. Geovany A. Borges 67
Geradores de distribuições não-uniformes Método da inversa generalizada Sendo F X (x) uma função de distribuição, define-se a inversa generalizada como sendo F 1 X (u) inf {x;f X(x) u} Portanto, para se obter uma amostra x i da distribuição F X, utiliza-se o seguinte algoritmo: I. Gera-se u U(0,1) II. Obtem-se uma amostra x i F 1 X (u) Gerador normal usando o teorema do limite central Pelo teorema do limite central, a soma Y com os X i sendo i.i.d., tende a uma distribuição Gaussiana quando m. A m X i média e variância de Y são dados por m E{Y } Ȳ E{X i } E{(Y E{Y }) } σ Y Sendo X i U(0,1), obtém-se Ȳ m/ e σ Y m/1. Com m, pelo teorema do limite central obtém-se Y N( m, m 1 ) m Assim, se for de interesse gerar Z N(0,1) basta fazer Z que se torna fácil de resolver se m 1. (Y m/) m/1 σ X i Estimação e Filtragem Estocástica - Prof. Geovany A. Borges 68 Estimação e Filtragem Estocástica - Prof. Geovany A. Borges 69 Método da mistura Se a FDP de X puder ser escrita sob a forma p X (x) m ω i p i (x) com p i (x) sendo FDP da qual pode-se gerar amostras e com s i III. Como resultado, obtém-se uma amostra de p i (x) Não seria a mesma coisa se fossem gerados x i p i (x) e a amostra final dada por m ω ix i? i j1 ω j m ω i 1 de foma a satisfazer F X ( ) 1. De posse deste modelo, uma amostra de p X (x) é obtida da distribuição p i (x) com probabilidade ω i. Ou seja, segue-se o seguinte algoritmo I. Gera-se u U(0,1) II. Determina-se o índice j que satisfaz a s i 1 u s i Estimação e Filtragem Estocástica - Prof. Geovany A. Borges 70 Estimação e Filtragem Estocástica - Prof. Geovany A. Borges 71
Método da amostragem por rejeição (rejection sampling) Considera-se o caso de p X ( ) ser uma fdp da qual se deseja obter amostras. Seja p A ( ) uma fdp auxiliar da qual obtém-se amostras mais facilmente, e uma constante M tal que p X (x) Mp A (x) Por exemplo, sendo p 1 gaussiana e p uniforme: Observa-se que as áreas sobre as curvas se relacionam por Algoritmo de amostragem: I. Gera-se x p A e u U(0,1) II. Se Área{M 1 p 1 (x)} Área{p X (x)} M 1 p X (x) Mp A (x) u então x deve ser aceito como amostra de p X ( ). Caso contrário, retornar ao passo 1. Exemplo 11 (Simulação de números aleatórios): Ver simulação geradores aleatorios. Estimação e Filtragem Estocástica - Prof. Geovany A. Borges 7 Estimação e Filtragem Estocástica - Prof. Geovany A. Borges 73 Referências [1] MEYER, P. Probabilidade - aplicações à estatística. Segunda edição. [S.l.]: Livros Técnicos e Científicos (LTC), 003. [] DUDA, R. O.; HART, P. E.; STORK, D. G. Pattern Classification. nd. ed. [S.l.]: Wiley Interscience, 000. [3] HARALICK, R. Propagating covariances in computer vision. In: International Conference on Pattern Recognition. [S.l.: s.n.], 1994. p. 493 498. [4] JULIER, S. J.; UHLMANN, J. Unscented filtering and nonlinear estimation. Proceedings of the IEEE, v. 9, n. 3, p. 401 4, 004. Estimação e Filtragem Estocástica - Prof. Geovany A. Borges 74