36341 - Introdução aos Processos Estocásticos Curso de Pós-Graduação em Engenharia Elétrica Departamento de Engenharia Elétrica Universidade de Brasília Probabilidade e Variáveis Aleatórias Geovany A. Borges gaborges@ene.unb.br
Conceitos básicos de probabilidade Espaço de probabilidades Ω: conjunto de todos os eventos possíveis para um dado problema. Evento: subconjunto de Ω que delimita um interesse específico. Experimento: procedimento de obtenção de uma amostra. Amostra: elemento ω de Ω. 1
Conceitos básicos de probabilidade Exemplo 1 (Lançamento de um dado justo): Considera-se o espaço de probabilidades Ω = {1, 2, 3, 4, 5, 6}. Pode-se escolher como eventos: Número par: E p = {2,4,6} Número ímpar: E i = {1,3,5} Número negativo: E n = /0 Os eventos são conjuntos, portanto E p E i = Ω E p E i = /0 E p Ω E p = Ω E p = E i (1) O lançamento do dado (Experimento) resulta em uma amostra ω. 2
Conceitos básicos de probabilidade Exemplo 2 (Eventos associados ao conforto térmico): Espaço de probabilidades: Ω = R. Podemos escolher como eventos: Temperatura baixa: E 1 = {T < 15 o C} Temperatura agradável: E 2 = {15 o C T 35 o C} Temperatura alta: E 3 = {T > 35 o C} Os eventos são conjuntos, portanto E 1 E 2 E 3 = Ω E 2 = E 1 E 3 (2) A medição apresentada por um termômetro resulta em uma amostra ω. 3
Conceitos básicos de probabilidade Probabilidade: medida da expectativa do número de ocorrências de um evento quando o número de amostras tende a infinito. Probabilidade de um avento A: Pr{A} tal que 0 Pr{A} 1. Passos de obtenção de probabilidade: Passo 1: determinação da probabilidade (a priori) de certos eventos; Passo 2: operação sobre as probabilidades a priori usando regras para determinar probabilidades de outros eventos; Passo 3: realização de predições físicas (e.g., média, incerteza) baseadas nas probabilidades do Passo 2. 4
Conceitos básicos de probabilidade Formas de determinação de probabilidades a priori: Freqüência relativa: N A /N Pr{A} quando N ; Método clássico: sem experimentação, atribui probabilidades iguais para todos os eventos supostos igualmente prováveis; Conhecimento prévio. Probabilidade como medida de incerteza. Qual grau de certeza você atribuíria aos eventos abaixo? Pr{A} = 0,999 Pr{B} = 0,1 Pr{C} = 0,5 5
Axiomas da probabilidade Operações de conjuntos: Se A e B são dois subconjuntos de Ω, então I. A B: União II. A B: Interseção III. A B: Complemento de B com relação a A IV. Se A B = /0, então A e B são dijuntos e os eventos são ditos mutuamente excludentes. Diagrama de Venn 6
Axiomas da probabilidade Axiomas: I. Pr{A} 0 II. Pr{Ω} = 1 III. Se A i A j = /0, i j, e i, j = 1,2,...n, então Pr{A 1 A 2 A n } = IV. Se A i A j = /0, i j, e i, j = 1,2,..., então n Pr{A k } (3) k=1 Pr{A 1 A 2 } = Pr{A 1 }+Pr{A 2 }+ (4) 7
Probabilidade condicional e independência Considere o problema: Após lançar um dado justo, obteve-se um número ímpar. Deseja-se saber a probabilidade de que este número seja maior ou igual a 5. Define-se Ω = {1,2,3,4,5,6}, A = {1,3,5} e B = {5,6}. Determinar Pr{B A}. Solução com o diagrama de Venn. 8
Probabilidade condicional e independência Fórmula geral da probabilidade condicional: Pr{B A} = Pr{A B} Pr{A} (5) Axiomas da probabilidade condicional I. Pr{B A} 0 II. Pr{Ω A} = 1 III. Se A i A j = /0, i j, e i, j = 1,2,...n, então Pr{A 1 A 2 A n B} = IV. Se A i A j = /0, i j, e i, j = 1,2,..., então n Pr{A k B} (6) k=1 Pr{A 1 A 2 B} = Pr{A 1 B}+Pr{A 2 B}+ (7) 9
Probabilidade condicional e independência Regra de Bayes: sendo Pr{A B} = Pr{B A}Pr{A} = Pr{A B}Pr{B} tem-se Pr{B A} = Pr{A B}Pr{B} Pr{A} (8) Particionamento do espaço de probabilidades: Ω = n i=1 B i, com B i B j = /0, i j, i, j = 1,...,n. Então, Pr{(A B 1 ) (A B 2 )... (A B n )} = Pr{A B 1 }+Pr{A B 2 }+...+Pr{A B n } = Pr{A B 1 }+Pr{A B 2 }+...+Pr{A B n } = Pr{A B 1 }Pr{B 1 }+Pr{A B 2 }Pr{B 2 }+...+Pr{A B 1 }Pr{B n } = n Pr{A B i }Pr{B i } (9) i=1 10
Como A = (A B 1 ) (A B 2 )... (A B n ), então Pr{A} = n Pr{A B i }Pr{B i }. (10) i=1 Assim, a Regra de Bayes pode ser re-escrita como Pr{B k A} = Pr{A B k}pr{b k } n i=1 Pr{A B i }Pr{B i } (11) Deve ser observado que n Pr{B k A} = 1 (12) k=1 o que significa que o termo n i=1 Pr{A B i }Pr{B i }, que é constante (independente de k), serve como termo de normalização para garantir (12). 11
Probabilidade condicional e independência Independência: dois eventos A e B são ditos independentes se a ocorrência de um não influenciar a probabilidade de ocorrência do outro. Ou seja: Pr{B A} = Pr{B}, (13) Pr{A B} = Pr{A}. Sendo Pr{B A} Pr{A} = Pr{A B}, (14) Pr{A B} Pr{B} = Pr{A B}, então Pr{A B} = Pr{A}Pr{B}. (15) 12
Probabilidade condicional e independência Exercício 1 (Prob. condicional e independência): Dispõe-se de duas moedas, uma justa e outra injusta, que sempre resulta em cara quando lançada. Uma delas é escolhida ao acaso e jogada n vezes. Como resultado, obtém-se cara todas as n vezes. Determine a probabilidade de ter sido usada a moeda justa em função de p, que é a probabilidade de ter sido escolhida a moeda injusta. Sugestão: raciocine com os seguintes eventos: B 1 (escolher a moeda justa), B 2 (escolher a moeda injusta) e A (obter em n lançamentos o resultado cara). 13
Variáveis aleatórias Definição 1 (Variável Aleatória (v.a.)): Uma função real X( ) definida em Ω é dita uma v.a. se para todo número x R, a inequação X(ω) x representa um conjunto (eventos) cuja probabilidade é definida. 14
Variáveis aleatórias Variáveis aleatórias contínuas Função de distribuição: F X (x) = Pr{X(ω) x} Propriedades de F X (x): Monotônica não-drescente: se x 1 < x 2, então {X(ω) x 1 } {X(ω) x 2 } e assim F X (x 1 ) F X (x 2 ) 15
Tem-se ainda que lim F X(x) = 0 x lim F X(x) = 1 x Se x 1 < x 2 então {X(ω) x 2 } = {X(ω) x 1 } {x 1 < X(ω) x 2 }, que são conjuntos dijuntos. Assim levando a Pr{X(ω) x 2 } = Pr{X(ω) x 1 }+Pr{x 1 < X(ω) x 2 } Pr{x 1 < X(ω) x 2 } = Pr{X(ω) x 2 } Pr{X(ω) x 1 }. Função de Densidade de Probabilidade (FDP): p X (x) = df X(x) dx 16
Como F X (x) é monotônica não-drescente, então p X (x) 0. E ainda x F X (x) = p X (ξ)dξ com F X ( ) = p X(ξ)dξ = 1. Tem-se ainda que p X ( ) = p X ( ) = 0. Considerando o intervalo x X(ω) x + x, tem-se Pr{x X(ω) x+ x} = x+ x x p X (ξ)dξ p X (x) x (16) 17
Variáveis aleatórias Variáveis aleatórias discretas (número contável de valores) Função de massa: m X (x) > 0 tal que F X (x) = Pr{X(ω) x} (17) = m X (ξ) (18) ξ x 18
Variáveis aleatórias Exercício 2 (Distribuição discreta): Considere o problema do lançamento de um dado justo. Seja P e I os eventos associados à obtenção de resultado par e ímpar, respectivamente, tais que Pr{P} = p e Pr{I} = q. Sendo X uma v.a. tal que X(P) = 1 e X(I) = 1, determine suas funções de distribuição e de massa. 19
Caracterização de variáveis aleatórias Expectância (esperança, média ou primeiro momento) Caso contínuo: E{X(w)} = xp X (x)dx (19) Caso discreto: E{X(w)} = ξ m X (ξ) (20) ξ Ω Propriedades: Se y = f(x) com f( ) sendo uma função escalar monotônica no intervalo x 1 x x 2. Tem-se que Pr{y 1 y y 2 } = Pr{x 1 x x 2 }. (21) A partir de então, pode-se demonstrar que p Y (y) = p X ( f 1 (y)) dy dx 1 x= f 1 (y) (22) 20
Assim E{Y } = yp Y (y)dy = f(x)p X (x)dx (23) Sendo X = c, com c sendo uma constante, ou seja, p X (x) = δ(x c), então E{X} = c. Sendo Y = a g 1 (X)+b g 2 (X), com a e b sendo constantes, então E{Y } = a E{g 1 (X)}+b E{g 2 (X)} (24) 21
Caracterização de variáveis aleatórias n-ésimo momento (momento de ordem n) E{X n } = x n p X (x)dx n-ésimo momento central (momento central de ordem n) E {(X E{X}) n } = (x E{X}) n p X (x)dx Caso especial: para n = 2 o momento central é chamado de variância var{x} = E{(X E{X}) 2 } = E{X 2 } E{X} 2 Define-se também σ{x} = var{x} como desvio padrão da v.a. X. 22
Mediana med{x} = arg xmed F X {x med } = 1 2 Moda: máximos locais da FDP p X (x), ou seja mod{x} deve satisfazer a ambas as relações abaixo: p X (x) x 2 p X (x) x 2 = 0 x=mod{x} < 0 x=mod{x} Se p X (x) tiver apenas uma moda, diz-se que ela é monomodal. Uma FDP com duas ou mais modas é dita multimodal. Se p X (x) for monomodal e simétrica com relação à média E{X}, então med{x} = mod{x} = E{X}. 23
Distribuições unidimensionais discretas Distribuição de Bernoulli Nesta distribuição Ω = {0,1} representa a ocorrência ou não de um evento. A função de massa é dada por { 1 p, x = 0 m X (x) = (25) p, x = 1 em que p é a probabilidade de ocorrência do evento (x = 1). Distribuição Binomial Uma v.a. Y com distribuição Binomial representa a soma de n v.a.s X k de Bernoulli com parâmetro p n Y = X k. (26) k=1 24
Sendo assim, Ω = {0,1,2,...,n} e com Usada na contagem de eventos. Distribuição de Poisson: m Y (k) = ( n k ( n k ) = ) p k (1 p) n k n! k!(n k)! Uma v.a. com distribuição discreta de Poisson possui espaço de probabilidades Ω = {0,1,2,...} e função de massa m X (k) = λ k! exp( λ) em que λ > 0 é o parâmetro da distribuição. Usada no modelamento de sistemas de filas. 25
Propriedades: se X segue Poisson com parâmetro λ, então Distribuição Uniforme: E{X} E{(X E{X}) 2 } = λ E{X 2 } = λ(λ + 1) = λ Uma v.a. discreta uniforme X possui espaço amostral Ω = {a,a+1,...,b 1,b} tal que b a são parâmetros que definem um intervalo e m X (k) = { 1 b a+1, k = a,...,b 0, caso contrário. Usada quando os elementos de Ω forem equiprováveis. 26
Distribuições unidimensionais contínuas Distribuição Uniforme Uma v.a. X de distribuição uniforme com parâmetros b a possui Ω = [a, b] e FDP p X (x) = { 1 b a, a x b 0, caso contrário. (27) Notação: X U(a,b). Tem-se ainda que F X (x) = E{X} = b a 2 0, x < a x a b a, a x < b 1, x b (28) (29) 27
Distribuição Normal (ou Gaussiana) Uma v.a. X de distribuição Gaussiana com parâmetros µ e σ 2 possui Ω = R e FDP p X (x) = 1 2πσ 2 exp [ 1 2 (x µ) 2 σ 2 ]. (30) Notação: X N(µ,σ 2 ) Tem-se ainda que E{X} = µ, E{(X E{X}) 2 } = σ 2. A função de distribuição de X é dada por F X (x) = 1 x [ exp 1 2πσ 2 2 (u µ) 2 σ 2 ] du = G ( ) x µ σ 28
em que G( ) é denominada de função de Gauss sendo dada por G(u) = 1 2π u exp [ v2 Deve ser observado que sendo G( ) = F X ( ) = 1, então exp [ v2 2 2 ] dv ] dv = 2π G( ) = 2π Interpretação gráfica da FDP: monomodal e simétrica com relação à média. 29
Exercício 3 (Transformação afim de uma v.a. Gaussiana): Determine x 1 e x 2 da figura anterior. Exemplo 3 (Transformação afim de uma v.a. Gaussiana): Se X N(µ X,σ 2 X), qual seria a distribuição da v.a. Y = ax + b, sendo a 0 e b constantes reais? 30
Distribuições unidimensionais contínuas Distribuição Exponencial Uma v.a. de distribuição Exponencial com parâmetro λ possui Ω = [0, ) e FDP p X (x) = { λ exp( λx), x 0 0, caso contrário.. (31) Por integração, obtém-se F X (x) = 1 exp( λx), x 0. Usada em sistemas computacionais e em redes de computadores para modelar tempos de transferência de arquivos. 31
Esta distribuição tem a propriedade de ser sem memória : Pr{X > s+t X > s} = exp( λt) = Pr{X > t} sendo s,t > 0, e t representando um lapso de tempo. A probabilidade condicional acima não depende de s. Distribuição χ 2 n (Qui-quadrado com n graus de liberdade) Uma v.a. X de distribuição χ 2 n com parâmetro n 1 inteiro possui Ω = [0, ) e FDP p X (x) = { x n/2 1 2 n/2 Γ(n/2) x 0 0 caso contrário (32) com Γ(u) = 0 x u 1 exp( x)dx, 32
u > 0, sendo função Gama. Esta função possui as seguintes propriedades: Γ(u) = (u 1)Γ(u 1) = (u 1)! se u é um inteiro e Γ(1/2) = π. Notação: X χ 2 n Tem-se ainda que E{X} var{x} = n = 2n Exemplo 4 (Transformação quadrática de uma v.a. Gaussiana): Se U N(0,1), é uma v.a. de distribuição normal, então X = U 2 é uma v.a. de distribuição χ 2 1. 33
Distribuições unidimensionais contínuas Distribuição Rayleigh Uma v.a. X de distribuição Rayleigh com parâmetro σ 2 possui Ω = [0, ) e FDP p X (x) = { x exp( x2 ), x 0 σ 2 2σ 2 0 caso contrário (33) Usada em sistemas de telecomunicações para modelar a distribuição da amplitude de sinais recebidos aleatoriamente. 34
Variáveis aleatórias de distribuição conjunta Se as v.a.s X 1,X 2,...,X n estão definias no mesmo espaço Ω, então elas são ditas de distribuição conjunta com distribuição dada por F X1,X 2,...,X n (x 1,x 2,...,x n ) = Pr{X 1 x 1,X 2 x 2,...,X n x n } (34) = Pr{{X 1 x 1 } {X 2 x 2 }... {X n x n }} = x1 x2 xn p X1,X 2,...,X n (u 1,u 2,...,u n )du 1 du 2 du n com p X1,X 2,...,X n (x 1,x 2,...,x n ) sendo a FDP conjunta tal que p X1,X 2,...,X n (x 1,x 2,...,x n ) = n F X1,X 2,...,X n (x 1,x 2,...,x n ) x 1 x 2 x n (35) 35
Propriedades de F X1,X 2,...,X n (x 1,x 2,...,x n ): F X1,...,X i,...,x n (x 1,...,x i =,...,x n ) = 0 uma vez que Pr{X i } = 0. F X1,...,X n (,..., ) = 0 F X1,...,X n (,..., ) = 1 Pr{x a < X 1 x b,x 2 x 2,...,X n x n } = F X1,X 2,...,X n (x b,x 2,...,x n ) F X1,X 2,...,X n (x a,x 2,...,x n ) p X1,X 2,...,X n (x 1,x 2,...,x n ) 0 Pr{x 1 < X 1 x 1 + x 1,...,x n < X n x n + x n } p X1,X 2,...,X n (x 1,x 2,...,x n ) x 1 x n 36
Variáveis aleatórias de distribuição conjunta Função de distribuição conjunta de um subconjunto de v.a.s: sendo m < n F X1,...,X m (x 1,...,x m ) = F X1,...,X m,...,x n (x 1,...,x m,,..., ) x1 xm } {{ } m } {{ } n p X1,X 2,...,X n (u 1,u 2,...,u n )du 1 du 2 du n F X1,...,X m (x 1,...,x m ) é chamada de distribuição marginal das v.a.s X 1,...,X m. Se n = 2, então tem-se uma distribuição Bivariável Se n > 2, então tem-se uma distribuição Multivariável 37
Expectância marginal E{X k }, com 1 k n: partindo de E{X k } = x k p Xk (x k )dx k Com = p Xk (x k ) = df X k (x k ) = F X1,...,X dx k x k 1,X k,x k+1,...,x m (,...,x k..., ) k p X1,...,X k 1,X k,x k+1,...,x m (u 1,...,u k 1,x k,u k+1,...,u n )du 1,...,du k 1,du k+1,...,du n Portanto E{X k } = = x k p X1,...,X k,...,x m (u 1,...,u k,...,u n )du 1,...,du k,...,du n x k p X1,...,X m (u 1,...,u n )du 1,...,du n 38
Independência: duas v.a.s de distribuição conjunta X i e X j, i j, são ditas independentes se os eventos {X i x i } e {X j x j } forem indepentes. Isto leva a e em conseqüência F Xi,X j (x i,x j ) = F Xi (x i )F Xj (x j ) (36) p Xi,X j (x i,x j ) = 2 F Xi,X j (x i,x j ) x i x j = p Xi (x i )p Xj (x j ) (37) 39
Variáveis aleatórias de distribuição conjunta Exemplo 5 (Distribuição conjunta bivariável uniforme): Considerando X e Y v.a.s distribuídas conjuntamente tal que p X,Y (x,y) = { 1 T X T Y, no espaço [0,T X ] [0,T Y ] 0, caso contrário determinar as densidades marginais de X e Y e verificar se estas v.a.s são independentes. Exercício 4 (Independência de v.a.s Gaussianas): Considerando X e Y v.a.s gaussianas distribuídas conjuntamente tal que { 1 [ p X,Y (x,y) = cexp 36x y 2 9x 2 36 ]} 18 determinar as condições necessárias para que X e Y sejam estatisticamente independentes. 40
Variáveis aleatórias de distribuição conjunta V.A.s mutuamente independentes: as v.a.s X 1,,X n são mutuamente independentes se e em conseqüência F X1,,X n (x 1,,x n ) = p X1,,X n (x 1,,x n ) = n i=1 De forma similar, X 1,,X i e X i+1,,x n são independentes se F Xi (x i ) (38) n p Xi (x i ) (39) i=1 p X1,,X i,x i+1,,x n (x 1,,x i,x i+1,x n ) = p X1,,X i (x 1,,x i ) p Xi+1,,X n (x i+1,x n ) 41
Variáveis aleatórias de distribuição conjunta Expectância de uma função aleatória multivariável: sendo Y = f(x 1,,X n ), então E{Y } = = y p Y (y)d y (40) f(x 1,,x n )p X1,...,X n (x 1,,x n )dx 1 dx n (41) Covariância: se X i e X j, i j, são duas v.a.s, define-se a covariância entre elas como cov{x i,x j } = E{(X i E{X i }) (X j E{X j })} (42) = E{X i X j } E{X i }E{X j } com cov{x i,x i } = var{x i }. Intuitivamente, se cov{x i,x j } 0 existe alguma relação (linear ou não) entre elas. 42
Coeficiente de correlação: ρ(x i,x j ) = cov{x i,x j } σ{x i }σ{x j } (43) tal que 1 ρ(x i,x j ) 1. Exemplo 6 (Covariância de v.a.s independentes): Se X i e X j são independentes, demonstrar que cov{x i,x j } = E{X i X j } E{X i }E{X j } = 0 (44) o que significa que X i e X j são não-correlacionadas e portanto E{X i X j } = E{X i }E{X j } E ainda, ρ(x i,x j ) = 0 se ρ{x i }ρ{x j } 0. 43
Variáveis aleatórias de distribuição conjunta Assim, V.A.s independentes são não-correlacionadas, mas o contrário não é verdade. Exemplo 7 (V.A.s descorrelacionadas mas dependentes [1]): Considere as v.a.s Y 1 e Y 2 tais que Y 1 Y 2 = sin(2πω) = cos(2πω) com ω U(0,1). Mostre que estas v.a.s são não-correlacionadas, mas nem por isso são independentes. Portanto cov{y 1,Y 2 } = 0 não implica que não exista uma relação (linear ou não) entre Y 1 e Y 2. 44
Se X e Y são descorrelacionadas, então para Z = X +Y var{z} = E{Z 2 } E{Z} 2 = E{X 2 + 2XY +Y 2 } (E{X}+E{Y }) 2 = var{x}+var{y } uma vez que E{XY } = E{X}E{Y }. Ortogonalidade: duas v.a.s são ditas ortogonais se E{X i X j } = 0. Portanto, pode-se verificar que I. Se X i e X j são não-correlacionados, então Y i = X i E{X i } e Y j = X j E{X j } são ortogonais; II. Se X i e X j são não-correlacionados e E{X i } ou (e) E{X i } é (são) nulo (s), então X i e X j são ortogonais. 45
Vetores de variáveis aleatórias Um vetor aleatório é formado a partir de v.a.s X 1,X 2,...,X n de distribuição conjunta, e dado por X 1 X = X 2. = [ ] T X 1 X 2 X n X n simpificando a notação, a PDF associada é dada por p X1,X 2,...,X n (x 1,x 2,...,x n ) = p X (x) em que x =[ x 1 x 2 x n ] T é um vetor e p X (x)dx = 1 Observa-se que p X (x) é um escalar. De forma similar E{X} = [ E{X 1 } E{X 2 } E{X n } ] T 46
Matriz de covariâncias de X: P X = E{(X E{X}) (X E{X}) T } X 1 E{X 1 } = E X 2 E{X 2 } [. X 1 E{X 1 } X 2 E{X 2 } X n E{X n } ] X n E{X n } Portanto, P X = var{x 1 } cov{x 1,X 2 } cov{x 1,X n } cov{x 2,X 1 } var{x 2 } cov{x 2,X n }..... cov{x n,x 1 } cov{x n,x 2 } var{x n } sendo simétrica uma vez que cov{x i,x j } = cov{x j,x i } e positiva semidefinida pois u T P X u 0 para todo u 0. 47
Vetores de variáveis aleatórias Distribuição Gaussiana Multivariada p X (x) = { 1 exp 1 } (2π) n/2 P X 1/2 2 (x E{X})T P 1 X (x E{X}) com P X sendo o determinande de P X. Notação: X N(E{X},P X ) Se os elementos de X forem não-correlacionados, ou seja, cov{x i,x j } = 0, i j, então pode-se mostrar que p X (x) = n p Xi (x i ) = i=1 n i=1 { 1 exp 1 (2π) 1/2 var{x i } 1/2 2 (x i E{X i }) 2 } var{x i } 48
uma vez que P X = n ι=1 var{x i } e P 1 X = 1 var{x 1 } 0 0 1 0 var{x 2 } 0..... 1 0 0 var{x n } Neste caso, como X é formado por elementos independentes e de mesma distribuição (embora de diferentes parâmetros E{X i } e var{x i }), diz-se que X é formado por elementos i.i.d. (independentes e identicamente distribuídos). Pode-se verificar que, para A e b sendo contantes tais que dim{a} = m n e dim{b} = m 1 e X sendo uma v.a. de distribuição multivariada, então a transformação afin Y = AX + b (45) resulta em E{Y } = AE{X} + b (46) P Y = AP X A T (47) 49
No mais, se X é Gaussiana, então Y também o será. Para comprovar esta última afirmação, faz-se necessário determinar p Y (y). Simulação de uma v.a. Gaussiana multivariável: usando o resultado acima, se X N(0,I n ), com I n sendo a matriz identidade de dimensão n, então Y N(b,AA T ). Isto significa que, se for desejado que Y seja Y N(E{Y },P Y ), então basta escolher b = E{Y }, (48) AA T = P Y, (49) Para determinar a matriz A tal que eq.(49) seja resolvida, usa-se a fatoração de Cholesky. Pela fatoração de Cholesky, obtém-se a matriz triangular superior R tal que P Y = R T R. Portanto, tem-se A = R T. A variável aleatória Q = (X E{X}) T P 1 X (X E{X}) 50
é χ 2 n. Para verificar este resultado, considera-se a v.a. tal que P 1/2 X = ( P 1 X ) 1/2 = (P 1/2 positiva semidefinida, e P 1/2 X Pode-se verificar que U = P 1/2 X (X E{X}) (50) X ) 1, uma vez que PX = P 1/2 X P1/2 X é simétrica e é sua matriz raiz-quadrada (também simétrica). E{U} = 0 P U = I n significando que os elementos de U são i.i.d. Gaussianos de média nula e variância unitária. Por outro lado, Q pode ser decomposta em Q = U T U = n i=1 que é a definição de uma v.a. de distribuição χ 2 n. U 2 i (51) 51
A função q = (x E{X}) T P 1 X (x E{X}) é comumente usada para testar a hipótese do vetor x pertencer a uma distribuição N(E{X},P X ), considerada verdadeira se q χ 2 n (1 r) com 1 r sendo o percentual da distribuição χ 2 n. Geralmente escolhe-se 1 r = 0,95. Consultando a tabela χ 2 n, montada para valores de 1 r, obtem-se [2] (1 r) = 0,95 com n = 1 = χ 2 1 (1 r) = 3,841 (1 r) = 0,95 com n = 2 = χ 2 2 (1 r) = 5,991 (1 r) = 0,95 com n = 3 = χ 2 3 (1 r) = 7,815 52
Vetores de variáveis aleatórias Exemplo 8 (Casamento probabilístico de padrões): Existe uma classe de problemas de reconhecimento de padrões que se apresentam da seguinte forma [3]. Dispõe-se de K vetores de características x 1,,x K, cada qual assumido de distribuição Gaussiana de média E{X k } e matriz de covariâncias P Xk. Deseja-se verificar qual destes vetores corresponde (com maior probabilidade) a um vetor de referência y suposto N(E{Y },P Y ). Neste problema, encontrar a boa correspondência significa determinar o par {x k,y} tal que a distância (probabilística) x k e y seja a menor. Solução: Para todo 1 k K, determinar o vetor de diferença ε k = y x k para o qual E{ε k } = E{Y } E{X k } e P εk = P Y + P Xk. Pode-se observar que ε T k ε k é a distância euclidiana entre y e x k. No entanto, esta métrica de distância não considera as incertezas devido às distribuições. 53
Para todo 1 k K, determinar a medida q k = (ε k E{ε k }) T P 1 ε k (ε k E{ε k }) que segue χ 2 n. É comum também assumir que a correpondência é verdadeira, e assim E{Y } = E{X k }, resultando em q k = (y x k ) T (P Y +P Xk ) 1 (y x k ) e neste caso, esta medida é chamada de Distância de Mahalanobis. O par {x k,y} de menor distância estatística é aquele cujo índice k satisfaz a k = arg k minq k e a correspondência será aceita se q k χ 2 n (1 r). 54
Vetores de variáveis aleatórias Distribuição Gaussiana Bivariada Considera-se o caso de uma distribuição Gaussiana com n = 2: X = [ X 1 X 2 ] T E{X} = [ E{X 1 } E{X 2 } ] T [ ] σ 2 P X = X1 σ X1 X 2 σ X1 X 2 σ 2 X 2 em que cov{x 1,X 2 } = cov{x 2,X 1 } = σ X1 X 2 = ρ σ X1 σ X2. Como P X é simétrica, ela pode ser decomposta em P X = e 1 v 1 v T 1 + e 2 v 2 v T 2 com e 1 e e 2 sendo os autovalores de P X e v 1 e v 2 sendo seus autovetores. 55
FDP conjunta: para um dado x = [x 1,x 2 ] T com q= 1 1 ρ 2 p X (x) = 1 { 2πσ X1 σ exp 12 } q X2 1 ρ 2 { (x1 ) 2 ( )( ) ( ) } 2 E{X 1 } x1 E{X 1 } x2 E{X 2 } x2 E{X 2 } 2ρ + σ X1 Fazendo u 1 = (x 1 E{X 1 })/σ X1 e u 2 = (x 2 E{X 2 })/σ X2, q pode ser re-escrita como q = u T P 1 u u = 1 { } u 2 1 ρ 2 1 2u 1 u 2 ρ + u 2 2 [ ] 1 ρ em que u = [u 1,u 2 ] T e P u =. ρ 1 σ X1 σ X2 σ X2 56
Representação gráfica. No plano x 1 x 2, uma forma de representar gráficamente a distribuição bivariada é por meio da curva de nível correspondentes a uma densidade constante, ou seja, p X (x) =const. Isto implica em q = 1 { } u 2 1 ρ 2 1 2u 1 u 2 ρ + u 2 2 = c (52) com c sendo uma constante cujo significado ficará logo claro. 57
Dado que ρ 1, a eq. (52) corresponde a uma elipse com os seguintes parâmetros: Centro: E{X} = [E{X 1 },E{X 2 }] T (53) Ângulo com relação ao eixo x 1 : θ = 1 2 arctan (2ρσ X1 σ X2 σ 2 X 1 σ 2 X 2 Eixos principais : r 1 (menor) e r 2 (maior) ) r 2 1 = r 2 2 = cσ 2 X 1 σ 2 X 2 (1 ρ 2 ) σ 2 X 2 cos 2 (θ) 2ρσ X1 σ X2 sin(θ)cos(θ)+σ 2 X 1 sin 2 (θ) cσ 2 X 1 σ 2 X 2 (1 ρ 2 ) σ 2 X 2 sin 2 (θ)+2ρσ X1 σ X2 sin(θ)cos(θ)+σ 2 X 1 cos 2 (θ) (54) (55) 58
Assim, no plano x 1 x 2 tem-se abaixo um exemplo com ρ > 0. Esta elipse é comumente chamada de Elipse de incerteza c sigma, cujo interior incorpora uma determinada porcentagem p da distribuição de X. Pode-se demonstrar que p = 1 1 e c. (56) No caso especial de c = 3, tem-se a chamada elipse 3-sigma, que incorpora p = 98, 9981% da distribuição de X. 59
Verifique você mesmo: se n = 3, então p X (x) =const. implica em uma elipsóide. Exemplo 9 (Elipse 3-sigma de uma distribuição gaussiana bivariada): Simulação gaussiana bivariada realizada considerando E{X 1 } = 5, E{X 2 } = 2 e diferentes valores de P X. 60
Probabilidade condicional de variáveis aleatórias Considerando A e B eventos, a probabilidade condicional é dada por Pr{A B} = Pr{A B} Pr{B} Se associarmos estes eventos a variáveis aleatórias X e Y de distribuição contínua, pode-se considerar A = {X x}, B = {y < Y < y+ y}, com y > 0. Então, pode-se mostrar que F X Y (x y) = lim Pr{X x y < Y < y+ y} (57) y 0 = F / x X,Y(x,y) dfy (y) = p X,Y(u,y)du. y dy p Y (y) 61
FDP condicional p X Y (x y) df X Y(x y) dx = p X,Y(x,y) p Y (y) = p X,Y (x,y) p X,Y(x,y)dx (58) No caso discreto: m X Y (x,y) = m X,Y(x,y) m Y (y) (59) Regra de Bayes para FDPs de variáveis aleatórias: p X Y (x y) = p Y X(y x)p X (x) p Y (y) (60) 62
Expectância condicional: E{X Y } xp X Y (x y)dx (61) Como E{X Y } e p X Y (x y) são funções da v.a. Y, elas são portanto v.a.s. Propriedades: p X Y (x y) 0 F X Y ( y) = p X (x) = (62) p X Y (x y)dx = 1 (63) p X,Y (x,y)dy = p X Y (x y)p Y (y)dy = E Y {p X Y (x y)}(64) 63
E{X} = = E{g(Y) Y } = x xp X (x)dx = p X Y (x y)p Y (y)dydx (65) [ ] xp X Y (x y)dx p Y (y)dy = E Y {E{X Y }} g(y)p X Y (x y)dx = g(y) p X Y (x y)dx = g(y) (66) com g(y) sendo uma função escalar, ou seja, g(y) : R m R. Matriz de covariâncias condicional P X Y = E{(X E{X}) (X E{X}) T Y } (67) 64
Probabilidade condicional de variáveis aleatórias Exercício 5 (Condicional de distribuição exponencial): Considere X,Y v.a.s cuja distribuição conjunta seja p X,Y (x,y) = { e y 0 < x < y < 0 caso contrário. Determine: (i) a fdp marginal de X, (ii) a fdp condicional de Y dado X = x e (iii) a esperança e variância de Y dado X = x. Exercício 6 (Distribuição bivariada gaussiana): Considere X,Y v.a.s Gaussianas cuja distribuição conjunta seja p X,Y (x,y) = 1 { 2π exp (2x2 6xy+5y 2 } ). 2 Determine p Y (y) e p X Y (x y). Sugestão: complete os quadrados da função f(x,y) = (2x 2 6xy+5y 2 ) de forma a obter f(x,y) = g(x,y)+h(y). 65
Estatística amostral Estimação da média, matriz de covariâncias e FDP de uma v.a. X a partir de M amostras x 1,,x M. Média amostral: x = 1 M M x i (68) i=1 Esta estimativa é não-polarizada pois E{ x} = E{X} e consistente uma vez que P x 0 com M. Covariância amostral: P X = 1 M M i=1 (x i x)(x i x) T (69) Esta estimativa é polarizada pois E{ P X } P X. Pode-se mostrar que P X = 1 M 1 M i=1 (x i x)(x i x) T (70) 66
é uma estimativa não polarizada (chamada de matriz de covariâncias amostral não-polarizada). FDP a partir de histograma Caso escalar: dadas amostras x 1,,x M, obtém-se um histograma, que nada mais é que um gráfico do número de amostras pertencentes a intervalos. Os intervalos possuem espaçamentos x iguais entre os limites x min = min(x 1,,x M ) e x max = max(x 1,,x M ) : x min,x min + x,,x min,,x k 1,x k,,x max x,x max. com o k-ésimo intervalo sendo dado por [x k 1,x k [. Denomina-se n k o número de amostras neste intervalo. Assim, tem-se que Pr{x k 1 X < x k } n k M p X (x k 1 ) x 67
Portanto, pode-se obter uma estimativa para a PDF em p X (x k 1 ) através de p X (x k 1 ) = n k M x Deve-se observar que esta é uma forma não paramétrica da PDF p X (x). Caso bivariável: dadas amostras x 1,,x M, obtém-se um histograma bidimensional, que é um gráfico do número de amostras pertencentes a intervalos em duas dimensões. Os intervalos possuem espaçamento x = [ x 1, x 2 ] T igual entre os limites x d,min = min(x d,1,,x d,m ) e x d,max = max(x d,1,,x d,m ), para d = 1,2 (no caso N = 2 é a dimensão da v.a. amostrada). O histograma é portanto um gráfico de contagens de amostras inseridas nos intervalos bidimensionais I i, j = [x 1,i 1,x 1,i [ [x 2, j 1,x 2, j [ para os quais i e j os índices do intervalo nas dimensões 1 e 2, respectivamente. 68
Denomina-se n Ii, j o número de amostras em cada intervalo I i, j. Assim, tem-se que Pr{{x 1,k 1 X 1 < x 1,k },{x 2,k 1 X 2 < x 2,k }} n I i, j M p X (x i j = [ x 1,i 1 x 2, j 1 ] T ) x 1 x 2 Portanto, pode-se obter uma estimativa para a PDF em p X (x i j ) através de p X (x i j ) = n I i, j M x 1 x 2 Caso multi-variável: extensão para N variáveis a partir do caso bivariável. 69
Funções de variáveis aleatórias Conceitos básicos: seja Y = g(x) tal que g(x) : R n R m é um mapeamento de domínio D X e imagem I Y. O problema consiste em determinar a distribuição de Y a partir da distribuição de X. Este problema resolve-se a partir de Pr{I Y } = Pr{C X } em que C X é o contra-domínio de g(x), determinado a partir de I Y e g 1 (X) (função inversa). 70
Exemplo 10 (Transformação linear): Considere Y = ax + b com a, b constantes, e X e Y v.a.s unidimensionais. Sendo esta função monotônica, pode-se verificar que F Y (y) = F X ( y b a ),a > 0 1 F X ( y b a ),a < 0 1(y b),a = 0 p Y (y) = p X ( y b a )1 a,a > 0 p X ( y b a )1 a,a < 0 δ(y b),a = 0 em que 1(u) é a função degrau em u = 0, e δ(u) é a função impulso em u = 0. Se a 0, p Y (y) pode ser escrito como p Y (y) = p X ( y b a ) 1 a que é o mesmo resultado obtido pela eq. (22). 71
Exemplo 11 (Transformação quadrática): Considere Y = X 2 com X e Y v.a.s unidimensionais. Pode-se verificar que C X somente existe para Y 0. Neste caso, I Y = {0 Y y} = C X = { y X y} Portanto, F Y (y) = p Y (y) = { FX ( y) F X ( y),y 0 0,caso contrário. { 1 [ 2 y px ( y)+ p X ( y) ],y 0 0,caso contrário. 72
Determinação direta da FDP Caso escalar: g 1 (Y) pode ter um ou mais mapeamentos. p Y (y) = p X(x 1 ) g (x 1 ) + + p X(x n ) g (x n ) = n i=1 p X (x i ) dg(y) dx em que x 1,,x n são as soluções para a variável x em g 1 (y) = x. Exercício 7 (Transformação escalar raiz-quadrada): (71) 1 (72) x=x i Considere Y = X 1/2 com X e Y v.a.s unidimensionais. Sendo X N(µ,σ 2 X) com parâmetros µ e σ 2 tais que Pr{X 0} 0. Determinar p Y (y). 73
Determinação direta da FDP Caso vetorial com g(x) monotônica, g(x) : R n R n. (atenção: X e Y são de mesma dimensão) p Y (y) = p X (g 1 (y)) det(j 1 ) = p X(g 1 (y)) det(j) (73) com det(j 1 ) = 1/det(J) e J sendo a Jacobiana da transformação, de dimensão n n, dada por g 1 (x) g x 1 1 (x) x n J =.. (74) g n (x) g x 1 n (x) x n x=g 1 (y) em que as funções g i (x) são obtidas de g(x) g(x) = g 1(x).. (75) g n (x) 74
Exemplo 12 (Conversão coordenadas cartesianas em coordenadas polares): Considere um ponto P de coordenadas cartesianas (X,Y) tal que X N(x 0,σ 2 ) e Y N(y 0,σ 2 ) são independentes. Determinar a fdp conjunta das coordenadas polares de P. Quais as distribuições marginais de tais coordenadas? 75
Estimação de parâmetros Definição do problema: em inúmeros casos em engenharia, tem-se que lidar com o problema de determinar os parâmetros de uma relação do tipo y = f(x,θ) em que x R n, y R e θ R m. θ é um vetor contendo os parâmetros de interesse. Para tanto, realiza-se um ou vários experimentos com N pares de dados {x 1,y 1 },,{x N,y N }. O problema consiste então em encontrar uma estimativa ˆθ de θ que possa ser considerada satisfatória. Estimação linear: f(x,θ) = ϕ T (x)θ Mínimos quadrados ˆθ = arg θ minj(r,θ) 76
com J = N r n (x n,y n,θ) 2 n=1 Referências [1] JAZWINSKI, A. H. Stochastic Processes and Filtering Theory. [S.l.]: Academic Press, 1970. [2] MEYER, P. Probabilidade - aplicações à estatística. Segunda edição. [S.l.]: Livros Técnicos e Científicos (LTC), 2003. [3] DUDA, R. O.; HART, P. E.; STORK, D. G. Pattern Classification. 2nd. ed. [S.l.]: Wiley Interscience, 2000. 77