Probabilidade e Variáveis Aleatórias

Documentos relacionados
FUNDAMENTOS DE PROBABILIDADE E

Par de Variáveis Aleatórias

Vetor de Variáveis Aleatórias

Teoria das Filas aplicadas a Sistemas Computacionais. Aula 08

Aula 11. Variáveis Aleatórias Contínuas Bidimensionais

Processos estocásticos

Estatística Descritiva e Exploratória

Introdução aos Proc. Estocásticos - ENG 430

3 3. Variáveis Aleatórias

a) o time ganhe 25 jogos ou mais; b) o time ganhe mais jogos contra times da classe A do que da classe B.

Introdução ao Processamento Estatístico de Sinais

Processos Estocásticos. Variáveis Aleatórias. Variáveis Aleatórias. Luiz Affonso Guedes. Como devemos descrever um experimento aleatório?

SUMÁRIO. 1.1 Introdução, Conceitos Fundamentais, 2

Lista de Exercícios #5 Assunto: Variáveis Aleatórias Multidimensionais Contínuas

TE802 Processos Estocásticos em Engenharia. Processo Aleatório. TE802 Processos Aleatórios. Evelio M. G. Fernández. 18 de outubro de 2017

Teoria das Filas aplicadas a Sistemas Computacionais. Aula 09

Um modelo estocástico para o fluxo de caixa de um plano de previdência de um indivíduo 15

Variáveis Aleatórias. Probabilidade e Estatística. Prof. Dr. Narciso Gonçalves da Silva

Processos Estocásticos

Processos Estocásticos. Variáveis Aleatórias. Variáveis Aleatórias. Variáveis Aleatórias. Variáveis Aleatórias. Luiz Affonso Guedes

Distribuições de Probabilidade Contínuas 1/19

Exercícios de Teoria da Probabilidade e Processos Estocásticos Parte II

Processos Estocásticos. Luiz Affonso Guedes

Nome: N. o : f(u) du para todo o x (V) d) Se F (x) tiver pontos de descontinuidade, então X é discreta (F)

Sumário. 2 Índice Remissivo 11

MOQ-13 PROBABILIDADE E ESTATÍSTICA. Professor: Rodrigo A. Scarpel

Estatística Aplicada II. } Revisão: Probabilidade } Propriedades da Média Amostral

Aula de hoje. administração. São Paulo: Ática, 2007, Cap. 3. ! Tópicos. ! Referências. ! Distribuição de probabilidades! Variáveis aleatórias

Exercícios de Teoria da Probabilidade e Processos Estocásticos Parte I

Tiago Viana Flor de Santana

Sumário. CAPÍTULO 1 Conceitos preliminares 1. CAPÍTULO 2 Descrição de dados: análise monovariada 47

Variáveis Aleatórias. Departamento de Matemática Escola Superior de Tecnologia de Viseu

AGA Análise de Dados em Astronomia I. 2. Probabilidades

4.1. ESPERANÇA x =, x=1

EELT-7035 Processos Estocásticos em Engenharia. Variáveis Aleatórias. EELT-7035 Variáveis Aleatórias Discretas. Evelio M. G.

Variável Aleatória. O conjunto de valores. Tipos de variáveis. Uma função X que associa a cada

PARTE TEÓRICA Perguntas de escolha múltipla

PRINCIPAIS DISTRIBUIÇÕES DE PROBABILIDADES

Variáveis Aleatórias Contínuas

Probabilidade Lista 6 - Variáveis Aleatórias Contínuas e Vetores Aleatórios

TE802 Processos Estocásticos em Engenharia. Valores Esperados de Somas de Variáveis Aleatórias Notes. PDF da Soma de Duas Variáveis Aleatórias.

Seja (X,Y) uma v.a. bidimensional contínua ou discreta. Define-se valor esperado condicionado de X para um dado Y igual a y da seguinte forma:

VARIÁVEIS ALEATÓRIAS

Métodos Experimentais em Ciências Mecânicas

M. Eisencraft 4.6 Distribuição e densidade de uma soma de variáveis aleatórias57. + w y. f X,Y (x,y)dxdy (4.24) w y

Aula 3 - Revisão de Probabilidade e Estatística: Esclarecimento de Dúvidas

Avaliação e Desempenho Aula 5

Geração de Variáveis Aleatórias Contínuas. Mat02274 Estatística Computacional. A Normal. A Normal. Normal Log-Normal Gama Erlang Beta.

Lista de Exercícios 4

LEEC Probabilidades e Estatística 1 a Chamada 13/06/2005. Parte Prática C (C) M 1% 9% 10% (M) 4% 86% 90% 5% 95% 100%

Cálculo das Probabilidades e Estatística I

Eventos coletivamente exaustivos: A união dos eventos é o espaço amostral.

IND 1115 Inferência Estatística Aula 6

MOQ 13 PROBABILIDADE E ESTATÍSTICA. Professor: Rodrigo A. Scarpel

Prof. Lorí Viali, Dr.

Eventos coletivamente exaustivos: A união dos eventos é o espaço amostral.

Módulo III: Processos de Poisson, Gaussiano e Wiener

Anexo 1 - Revisões de Teoria das Probabilidades e Processos Estocásticos

canal para sinais contínuos

3. Considere uma amostra aleatória de tamanho 7 de uma normal com média 18. Sejam X e S 2, a média e a variância amostral, respectivamente.

)XQGDPHQWRVGHSUREDELOLGDGHHHVWDWtVWLFD

Análise de Dados e Simulação


Revisões de Matemática e Estatística

SUMÁRIOS DE VARIÁVEIS ALEATÓRIAS CONTINUAS

Transcrição:

36341 - Introdução aos Processos Estocásticos Curso de Pós-Graduação em Engenharia Elétrica Departamento de Engenharia Elétrica Universidade de Brasília Probabilidade e Variáveis Aleatórias Geovany A. Borges gaborges@ene.unb.br

Conceitos básicos de probabilidade Espaço de probabilidades Ω: conjunto de todos os eventos possíveis para um dado problema. Evento: subconjunto de Ω que delimita um interesse específico. Experimento: procedimento de obtenção de uma amostra. Amostra: elemento ω de Ω. 1

Conceitos básicos de probabilidade Exemplo 1 (Lançamento de um dado justo): Considera-se o espaço de probabilidades Ω = {1, 2, 3, 4, 5, 6}. Pode-se escolher como eventos: Número par: E p = {2,4,6} Número ímpar: E i = {1,3,5} Número negativo: E n = /0 Os eventos são conjuntos, portanto E p E i = Ω E p E i = /0 E p Ω E p = Ω E p = E i (1) O lançamento do dado (Experimento) resulta em uma amostra ω. 2

Conceitos básicos de probabilidade Exemplo 2 (Eventos associados ao conforto térmico): Espaço de probabilidades: Ω = R. Podemos escolher como eventos: Temperatura baixa: E 1 = {T < 15 o C} Temperatura agradável: E 2 = {15 o C T 35 o C} Temperatura alta: E 3 = {T > 35 o C} Os eventos são conjuntos, portanto E 1 E 2 E 3 = Ω E 2 = E 1 E 3 (2) A medição apresentada por um termômetro resulta em uma amostra ω. 3

Conceitos básicos de probabilidade Probabilidade: medida da expectativa do número de ocorrências de um evento quando o número de amostras tende a infinito. Probabilidade de um avento A: Pr{A} tal que 0 Pr{A} 1. Passos de obtenção de probabilidade: Passo 1: determinação da probabilidade (a priori) de certos eventos; Passo 2: operação sobre as probabilidades a priori usando regras para determinar probabilidades de outros eventos; Passo 3: realização de predições físicas (e.g., média, incerteza) baseadas nas probabilidades do Passo 2. 4

Conceitos básicos de probabilidade Formas de determinação de probabilidades a priori: Freqüência relativa: N A /N Pr{A} quando N ; Método clássico: sem experimentação, atribui probabilidades iguais para todos os eventos supostos igualmente prováveis; Conhecimento prévio. Probabilidade como medida de incerteza. Qual grau de certeza você atribuíria aos eventos abaixo? Pr{A} = 0,999 Pr{B} = 0,1 Pr{C} = 0,5 5

Axiomas da probabilidade Operações de conjuntos: Se A e B são dois subconjuntos de Ω, então I. A B: União II. A B: Interseção III. A B: Complemento de B com relação a A IV. Se A B = /0, então A e B são dijuntos e os eventos são ditos mutuamente excludentes. Diagrama de Venn 6

Axiomas da probabilidade Axiomas: I. Pr{A} 0 II. Pr{Ω} = 1 III. Se A i A j = /0, i j, e i, j = 1,2,...n, então Pr{A 1 A 2 A n } = IV. Se A i A j = /0, i j, e i, j = 1,2,..., então n Pr{A k } (3) k=1 Pr{A 1 A 2 } = Pr{A 1 }+Pr{A 2 }+ (4) 7

Probabilidade condicional e independência Considere o problema: Após lançar um dado justo, obteve-se um número ímpar. Deseja-se saber a probabilidade de que este número seja maior ou igual a 5. Define-se Ω = {1,2,3,4,5,6}, A = {1,3,5} e B = {5,6}. Determinar Pr{B A}. Solução com o diagrama de Venn. 8

Probabilidade condicional e independência Fórmula geral da probabilidade condicional: Pr{B A} = Pr{A B} Pr{A} (5) Axiomas da probabilidade condicional I. Pr{B A} 0 II. Pr{Ω A} = 1 III. Se A i A j = /0, i j, e i, j = 1,2,...n, então Pr{A 1 A 2 A n B} = IV. Se A i A j = /0, i j, e i, j = 1,2,..., então n Pr{A k B} (6) k=1 Pr{A 1 A 2 B} = Pr{A 1 B}+Pr{A 2 B}+ (7) 9

Probabilidade condicional e independência Regra de Bayes: sendo Pr{A B} = Pr{B A}Pr{A} = Pr{A B}Pr{B} tem-se Pr{B A} = Pr{A B}Pr{B} Pr{A} (8) Particionamento do espaço de probabilidades: Ω = n i=1 B i, com B i B j = /0, i j, i, j = 1,...,n. Então, Pr{(A B 1 ) (A B 2 )... (A B n )} = Pr{A B 1 }+Pr{A B 2 }+...+Pr{A B n } = Pr{A B 1 }+Pr{A B 2 }+...+Pr{A B n } = Pr{A B 1 }Pr{B 1 }+Pr{A B 2 }Pr{B 2 }+...+Pr{A B 1 }Pr{B n } = n Pr{A B i }Pr{B i } (9) i=1 10

Como A = (A B 1 ) (A B 2 )... (A B n ), então Pr{A} = n Pr{A B i }Pr{B i }. (10) i=1 Assim, a Regra de Bayes pode ser re-escrita como Pr{B k A} = Pr{A B k}pr{b k } n i=1 Pr{A B i }Pr{B i } (11) Deve ser observado que n Pr{B k A} = 1 (12) k=1 o que significa que o termo n i=1 Pr{A B i }Pr{B i }, que é constante (independente de k), serve como termo de normalização para garantir (12). 11

Probabilidade condicional e independência Independência: dois eventos A e B são ditos independentes se a ocorrência de um não influenciar a probabilidade de ocorrência do outro. Ou seja: Pr{B A} = Pr{B}, (13) Pr{A B} = Pr{A}. Sendo Pr{B A} Pr{A} = Pr{A B}, (14) Pr{A B} Pr{B} = Pr{A B}, então Pr{A B} = Pr{A}Pr{B}. (15) 12

Probabilidade condicional e independência Exercício 1 (Prob. condicional e independência): Dispõe-se de duas moedas, uma justa e outra injusta, que sempre resulta em cara quando lançada. Uma delas é escolhida ao acaso e jogada n vezes. Como resultado, obtém-se cara todas as n vezes. Determine a probabilidade de ter sido usada a moeda justa em função de p, que é a probabilidade de ter sido escolhida a moeda injusta. Sugestão: raciocine com os seguintes eventos: B 1 (escolher a moeda justa), B 2 (escolher a moeda injusta) e A (obter em n lançamentos o resultado cara). 13

Variáveis aleatórias Definição 1 (Variável Aleatória (v.a.)): Uma função real X( ) definida em Ω é dita uma v.a. se para todo número x R, a inequação X(ω) x representa um conjunto (eventos) cuja probabilidade é definida. 14

Variáveis aleatórias Variáveis aleatórias contínuas Função de distribuição: F X (x) = Pr{X(ω) x} Propriedades de F X (x): Monotônica não-drescente: se x 1 < x 2, então {X(ω) x 1 } {X(ω) x 2 } e assim F X (x 1 ) F X (x 2 ) 15

Tem-se ainda que lim F X(x) = 0 x lim F X(x) = 1 x Se x 1 < x 2 então {X(ω) x 2 } = {X(ω) x 1 } {x 1 < X(ω) x 2 }, que são conjuntos dijuntos. Assim levando a Pr{X(ω) x 2 } = Pr{X(ω) x 1 }+Pr{x 1 < X(ω) x 2 } Pr{x 1 < X(ω) x 2 } = Pr{X(ω) x 2 } Pr{X(ω) x 1 }. Função de Densidade de Probabilidade (FDP): p X (x) = df X(x) dx 16

Como F X (x) é monotônica não-drescente, então p X (x) 0. E ainda x F X (x) = p X (ξ)dξ com F X ( ) = p X(ξ)dξ = 1. Tem-se ainda que p X ( ) = p X ( ) = 0. Considerando o intervalo x X(ω) x + x, tem-se Pr{x X(ω) x+ x} = x+ x x p X (ξ)dξ p X (x) x (16) 17

Variáveis aleatórias Variáveis aleatórias discretas (número contável de valores) Função de massa: m X (x) > 0 tal que F X (x) = Pr{X(ω) x} (17) = m X (ξ) (18) ξ x 18

Variáveis aleatórias Exercício 2 (Distribuição discreta): Considere o problema do lançamento de um dado justo. Seja P e I os eventos associados à obtenção de resultado par e ímpar, respectivamente, tais que Pr{P} = p e Pr{I} = q. Sendo X uma v.a. tal que X(P) = 1 e X(I) = 1, determine suas funções de distribuição e de massa. 19

Caracterização de variáveis aleatórias Expectância (esperança, média ou primeiro momento) Caso contínuo: E{X(w)} = xp X (x)dx (19) Caso discreto: E{X(w)} = ξ m X (ξ) (20) ξ Ω Propriedades: Se y = f(x) com f( ) sendo uma função escalar monotônica no intervalo x 1 x x 2. Tem-se que Pr{y 1 y y 2 } = Pr{x 1 x x 2 }. (21) A partir de então, pode-se demonstrar que p Y (y) = p X ( f 1 (y)) dy dx 1 x= f 1 (y) (22) 20

Assim E{Y } = yp Y (y)dy = f(x)p X (x)dx (23) Sendo X = c, com c sendo uma constante, ou seja, p X (x) = δ(x c), então E{X} = c. Sendo Y = a g 1 (X)+b g 2 (X), com a e b sendo constantes, então E{Y } = a E{g 1 (X)}+b E{g 2 (X)} (24) 21

Caracterização de variáveis aleatórias n-ésimo momento (momento de ordem n) E{X n } = x n p X (x)dx n-ésimo momento central (momento central de ordem n) E {(X E{X}) n } = (x E{X}) n p X (x)dx Caso especial: para n = 2 o momento central é chamado de variância var{x} = E{(X E{X}) 2 } = E{X 2 } E{X} 2 Define-se também σ{x} = var{x} como desvio padrão da v.a. X. 22

Mediana med{x} = arg xmed F X {x med } = 1 2 Moda: máximos locais da FDP p X (x), ou seja mod{x} deve satisfazer a ambas as relações abaixo: p X (x) x 2 p X (x) x 2 = 0 x=mod{x} < 0 x=mod{x} Se p X (x) tiver apenas uma moda, diz-se que ela é monomodal. Uma FDP com duas ou mais modas é dita multimodal. Se p X (x) for monomodal e simétrica com relação à média E{X}, então med{x} = mod{x} = E{X}. 23

Distribuições unidimensionais discretas Distribuição de Bernoulli Nesta distribuição Ω = {0,1} representa a ocorrência ou não de um evento. A função de massa é dada por { 1 p, x = 0 m X (x) = (25) p, x = 1 em que p é a probabilidade de ocorrência do evento (x = 1). Distribuição Binomial Uma v.a. Y com distribuição Binomial representa a soma de n v.a.s X k de Bernoulli com parâmetro p n Y = X k. (26) k=1 24

Sendo assim, Ω = {0,1,2,...,n} e com Usada na contagem de eventos. Distribuição de Poisson: m Y (k) = ( n k ( n k ) = ) p k (1 p) n k n! k!(n k)! Uma v.a. com distribuição discreta de Poisson possui espaço de probabilidades Ω = {0,1,2,...} e função de massa m X (k) = λ k! exp( λ) em que λ > 0 é o parâmetro da distribuição. Usada no modelamento de sistemas de filas. 25

Propriedades: se X segue Poisson com parâmetro λ, então Distribuição Uniforme: E{X} E{(X E{X}) 2 } = λ E{X 2 } = λ(λ + 1) = λ Uma v.a. discreta uniforme X possui espaço amostral Ω = {a,a+1,...,b 1,b} tal que b a são parâmetros que definem um intervalo e m X (k) = { 1 b a+1, k = a,...,b 0, caso contrário. Usada quando os elementos de Ω forem equiprováveis. 26

Distribuições unidimensionais contínuas Distribuição Uniforme Uma v.a. X de distribuição uniforme com parâmetros b a possui Ω = [a, b] e FDP p X (x) = { 1 b a, a x b 0, caso contrário. (27) Notação: X U(a,b). Tem-se ainda que F X (x) = E{X} = b a 2 0, x < a x a b a, a x < b 1, x b (28) (29) 27

Distribuição Normal (ou Gaussiana) Uma v.a. X de distribuição Gaussiana com parâmetros µ e σ 2 possui Ω = R e FDP p X (x) = 1 2πσ 2 exp [ 1 2 (x µ) 2 σ 2 ]. (30) Notação: X N(µ,σ 2 ) Tem-se ainda que E{X} = µ, E{(X E{X}) 2 } = σ 2. A função de distribuição de X é dada por F X (x) = 1 x [ exp 1 2πσ 2 2 (u µ) 2 σ 2 ] du = G ( ) x µ σ 28

em que G( ) é denominada de função de Gauss sendo dada por G(u) = 1 2π u exp [ v2 Deve ser observado que sendo G( ) = F X ( ) = 1, então exp [ v2 2 2 ] dv ] dv = 2π G( ) = 2π Interpretação gráfica da FDP: monomodal e simétrica com relação à média. 29

Exercício 3 (Transformação afim de uma v.a. Gaussiana): Determine x 1 e x 2 da figura anterior. Exemplo 3 (Transformação afim de uma v.a. Gaussiana): Se X N(µ X,σ 2 X), qual seria a distribuição da v.a. Y = ax + b, sendo a 0 e b constantes reais? 30

Distribuições unidimensionais contínuas Distribuição Exponencial Uma v.a. de distribuição Exponencial com parâmetro λ possui Ω = [0, ) e FDP p X (x) = { λ exp( λx), x 0 0, caso contrário.. (31) Por integração, obtém-se F X (x) = 1 exp( λx), x 0. Usada em sistemas computacionais e em redes de computadores para modelar tempos de transferência de arquivos. 31

Esta distribuição tem a propriedade de ser sem memória : Pr{X > s+t X > s} = exp( λt) = Pr{X > t} sendo s,t > 0, e t representando um lapso de tempo. A probabilidade condicional acima não depende de s. Distribuição χ 2 n (Qui-quadrado com n graus de liberdade) Uma v.a. X de distribuição χ 2 n com parâmetro n 1 inteiro possui Ω = [0, ) e FDP p X (x) = { x n/2 1 2 n/2 Γ(n/2) x 0 0 caso contrário (32) com Γ(u) = 0 x u 1 exp( x)dx, 32

u > 0, sendo função Gama. Esta função possui as seguintes propriedades: Γ(u) = (u 1)Γ(u 1) = (u 1)! se u é um inteiro e Γ(1/2) = π. Notação: X χ 2 n Tem-se ainda que E{X} var{x} = n = 2n Exemplo 4 (Transformação quadrática de uma v.a. Gaussiana): Se U N(0,1), é uma v.a. de distribuição normal, então X = U 2 é uma v.a. de distribuição χ 2 1. 33

Distribuições unidimensionais contínuas Distribuição Rayleigh Uma v.a. X de distribuição Rayleigh com parâmetro σ 2 possui Ω = [0, ) e FDP p X (x) = { x exp( x2 ), x 0 σ 2 2σ 2 0 caso contrário (33) Usada em sistemas de telecomunicações para modelar a distribuição da amplitude de sinais recebidos aleatoriamente. 34

Variáveis aleatórias de distribuição conjunta Se as v.a.s X 1,X 2,...,X n estão definias no mesmo espaço Ω, então elas são ditas de distribuição conjunta com distribuição dada por F X1,X 2,...,X n (x 1,x 2,...,x n ) = Pr{X 1 x 1,X 2 x 2,...,X n x n } (34) = Pr{{X 1 x 1 } {X 2 x 2 }... {X n x n }} = x1 x2 xn p X1,X 2,...,X n (u 1,u 2,...,u n )du 1 du 2 du n com p X1,X 2,...,X n (x 1,x 2,...,x n ) sendo a FDP conjunta tal que p X1,X 2,...,X n (x 1,x 2,...,x n ) = n F X1,X 2,...,X n (x 1,x 2,...,x n ) x 1 x 2 x n (35) 35

Propriedades de F X1,X 2,...,X n (x 1,x 2,...,x n ): F X1,...,X i,...,x n (x 1,...,x i =,...,x n ) = 0 uma vez que Pr{X i } = 0. F X1,...,X n (,..., ) = 0 F X1,...,X n (,..., ) = 1 Pr{x a < X 1 x b,x 2 x 2,...,X n x n } = F X1,X 2,...,X n (x b,x 2,...,x n ) F X1,X 2,...,X n (x a,x 2,...,x n ) p X1,X 2,...,X n (x 1,x 2,...,x n ) 0 Pr{x 1 < X 1 x 1 + x 1,...,x n < X n x n + x n } p X1,X 2,...,X n (x 1,x 2,...,x n ) x 1 x n 36

Variáveis aleatórias de distribuição conjunta Função de distribuição conjunta de um subconjunto de v.a.s: sendo m < n F X1,...,X m (x 1,...,x m ) = F X1,...,X m,...,x n (x 1,...,x m,,..., ) x1 xm } {{ } m } {{ } n p X1,X 2,...,X n (u 1,u 2,...,u n )du 1 du 2 du n F X1,...,X m (x 1,...,x m ) é chamada de distribuição marginal das v.a.s X 1,...,X m. Se n = 2, então tem-se uma distribuição Bivariável Se n > 2, então tem-se uma distribuição Multivariável 37

Expectância marginal E{X k }, com 1 k n: partindo de E{X k } = x k p Xk (x k )dx k Com = p Xk (x k ) = df X k (x k ) = F X1,...,X dx k x k 1,X k,x k+1,...,x m (,...,x k..., ) k p X1,...,X k 1,X k,x k+1,...,x m (u 1,...,u k 1,x k,u k+1,...,u n )du 1,...,du k 1,du k+1,...,du n Portanto E{X k } = = x k p X1,...,X k,...,x m (u 1,...,u k,...,u n )du 1,...,du k,...,du n x k p X1,...,X m (u 1,...,u n )du 1,...,du n 38

Independência: duas v.a.s de distribuição conjunta X i e X j, i j, são ditas independentes se os eventos {X i x i } e {X j x j } forem indepentes. Isto leva a e em conseqüência F Xi,X j (x i,x j ) = F Xi (x i )F Xj (x j ) (36) p Xi,X j (x i,x j ) = 2 F Xi,X j (x i,x j ) x i x j = p Xi (x i )p Xj (x j ) (37) 39

Variáveis aleatórias de distribuição conjunta Exemplo 5 (Distribuição conjunta bivariável uniforme): Considerando X e Y v.a.s distribuídas conjuntamente tal que p X,Y (x,y) = { 1 T X T Y, no espaço [0,T X ] [0,T Y ] 0, caso contrário determinar as densidades marginais de X e Y e verificar se estas v.a.s são independentes. Exercício 4 (Independência de v.a.s Gaussianas): Considerando X e Y v.a.s gaussianas distribuídas conjuntamente tal que { 1 [ p X,Y (x,y) = cexp 36x y 2 9x 2 36 ]} 18 determinar as condições necessárias para que X e Y sejam estatisticamente independentes. 40

Variáveis aleatórias de distribuição conjunta V.A.s mutuamente independentes: as v.a.s X 1,,X n são mutuamente independentes se e em conseqüência F X1,,X n (x 1,,x n ) = p X1,,X n (x 1,,x n ) = n i=1 De forma similar, X 1,,X i e X i+1,,x n são independentes se F Xi (x i ) (38) n p Xi (x i ) (39) i=1 p X1,,X i,x i+1,,x n (x 1,,x i,x i+1,x n ) = p X1,,X i (x 1,,x i ) p Xi+1,,X n (x i+1,x n ) 41

Variáveis aleatórias de distribuição conjunta Expectância de uma função aleatória multivariável: sendo Y = f(x 1,,X n ), então E{Y } = = y p Y (y)d y (40) f(x 1,,x n )p X1,...,X n (x 1,,x n )dx 1 dx n (41) Covariância: se X i e X j, i j, são duas v.a.s, define-se a covariância entre elas como cov{x i,x j } = E{(X i E{X i }) (X j E{X j })} (42) = E{X i X j } E{X i }E{X j } com cov{x i,x i } = var{x i }. Intuitivamente, se cov{x i,x j } 0 existe alguma relação (linear ou não) entre elas. 42

Coeficiente de correlação: ρ(x i,x j ) = cov{x i,x j } σ{x i }σ{x j } (43) tal que 1 ρ(x i,x j ) 1. Exemplo 6 (Covariância de v.a.s independentes): Se X i e X j são independentes, demonstrar que cov{x i,x j } = E{X i X j } E{X i }E{X j } = 0 (44) o que significa que X i e X j são não-correlacionadas e portanto E{X i X j } = E{X i }E{X j } E ainda, ρ(x i,x j ) = 0 se ρ{x i }ρ{x j } 0. 43

Variáveis aleatórias de distribuição conjunta Assim, V.A.s independentes são não-correlacionadas, mas o contrário não é verdade. Exemplo 7 (V.A.s descorrelacionadas mas dependentes [1]): Considere as v.a.s Y 1 e Y 2 tais que Y 1 Y 2 = sin(2πω) = cos(2πω) com ω U(0,1). Mostre que estas v.a.s são não-correlacionadas, mas nem por isso são independentes. Portanto cov{y 1,Y 2 } = 0 não implica que não exista uma relação (linear ou não) entre Y 1 e Y 2. 44

Se X e Y são descorrelacionadas, então para Z = X +Y var{z} = E{Z 2 } E{Z} 2 = E{X 2 + 2XY +Y 2 } (E{X}+E{Y }) 2 = var{x}+var{y } uma vez que E{XY } = E{X}E{Y }. Ortogonalidade: duas v.a.s são ditas ortogonais se E{X i X j } = 0. Portanto, pode-se verificar que I. Se X i e X j são não-correlacionados, então Y i = X i E{X i } e Y j = X j E{X j } são ortogonais; II. Se X i e X j são não-correlacionados e E{X i } ou (e) E{X i } é (são) nulo (s), então X i e X j são ortogonais. 45

Vetores de variáveis aleatórias Um vetor aleatório é formado a partir de v.a.s X 1,X 2,...,X n de distribuição conjunta, e dado por X 1 X = X 2. = [ ] T X 1 X 2 X n X n simpificando a notação, a PDF associada é dada por p X1,X 2,...,X n (x 1,x 2,...,x n ) = p X (x) em que x =[ x 1 x 2 x n ] T é um vetor e p X (x)dx = 1 Observa-se que p X (x) é um escalar. De forma similar E{X} = [ E{X 1 } E{X 2 } E{X n } ] T 46

Matriz de covariâncias de X: P X = E{(X E{X}) (X E{X}) T } X 1 E{X 1 } = E X 2 E{X 2 } [. X 1 E{X 1 } X 2 E{X 2 } X n E{X n } ] X n E{X n } Portanto, P X = var{x 1 } cov{x 1,X 2 } cov{x 1,X n } cov{x 2,X 1 } var{x 2 } cov{x 2,X n }..... cov{x n,x 1 } cov{x n,x 2 } var{x n } sendo simétrica uma vez que cov{x i,x j } = cov{x j,x i } e positiva semidefinida pois u T P X u 0 para todo u 0. 47

Vetores de variáveis aleatórias Distribuição Gaussiana Multivariada p X (x) = { 1 exp 1 } (2π) n/2 P X 1/2 2 (x E{X})T P 1 X (x E{X}) com P X sendo o determinande de P X. Notação: X N(E{X},P X ) Se os elementos de X forem não-correlacionados, ou seja, cov{x i,x j } = 0, i j, então pode-se mostrar que p X (x) = n p Xi (x i ) = i=1 n i=1 { 1 exp 1 (2π) 1/2 var{x i } 1/2 2 (x i E{X i }) 2 } var{x i } 48

uma vez que P X = n ι=1 var{x i } e P 1 X = 1 var{x 1 } 0 0 1 0 var{x 2 } 0..... 1 0 0 var{x n } Neste caso, como X é formado por elementos independentes e de mesma distribuição (embora de diferentes parâmetros E{X i } e var{x i }), diz-se que X é formado por elementos i.i.d. (independentes e identicamente distribuídos). Pode-se verificar que, para A e b sendo contantes tais que dim{a} = m n e dim{b} = m 1 e X sendo uma v.a. de distribuição multivariada, então a transformação afin Y = AX + b (45) resulta em E{Y } = AE{X} + b (46) P Y = AP X A T (47) 49

No mais, se X é Gaussiana, então Y também o será. Para comprovar esta última afirmação, faz-se necessário determinar p Y (y). Simulação de uma v.a. Gaussiana multivariável: usando o resultado acima, se X N(0,I n ), com I n sendo a matriz identidade de dimensão n, então Y N(b,AA T ). Isto significa que, se for desejado que Y seja Y N(E{Y },P Y ), então basta escolher b = E{Y }, (48) AA T = P Y, (49) Para determinar a matriz A tal que eq.(49) seja resolvida, usa-se a fatoração de Cholesky. Pela fatoração de Cholesky, obtém-se a matriz triangular superior R tal que P Y = R T R. Portanto, tem-se A = R T. A variável aleatória Q = (X E{X}) T P 1 X (X E{X}) 50

é χ 2 n. Para verificar este resultado, considera-se a v.a. tal que P 1/2 X = ( P 1 X ) 1/2 = (P 1/2 positiva semidefinida, e P 1/2 X Pode-se verificar que U = P 1/2 X (X E{X}) (50) X ) 1, uma vez que PX = P 1/2 X P1/2 X é simétrica e é sua matriz raiz-quadrada (também simétrica). E{U} = 0 P U = I n significando que os elementos de U são i.i.d. Gaussianos de média nula e variância unitária. Por outro lado, Q pode ser decomposta em Q = U T U = n i=1 que é a definição de uma v.a. de distribuição χ 2 n. U 2 i (51) 51

A função q = (x E{X}) T P 1 X (x E{X}) é comumente usada para testar a hipótese do vetor x pertencer a uma distribuição N(E{X},P X ), considerada verdadeira se q χ 2 n (1 r) com 1 r sendo o percentual da distribuição χ 2 n. Geralmente escolhe-se 1 r = 0,95. Consultando a tabela χ 2 n, montada para valores de 1 r, obtem-se [2] (1 r) = 0,95 com n = 1 = χ 2 1 (1 r) = 3,841 (1 r) = 0,95 com n = 2 = χ 2 2 (1 r) = 5,991 (1 r) = 0,95 com n = 3 = χ 2 3 (1 r) = 7,815 52

Vetores de variáveis aleatórias Exemplo 8 (Casamento probabilístico de padrões): Existe uma classe de problemas de reconhecimento de padrões que se apresentam da seguinte forma [3]. Dispõe-se de K vetores de características x 1,,x K, cada qual assumido de distribuição Gaussiana de média E{X k } e matriz de covariâncias P Xk. Deseja-se verificar qual destes vetores corresponde (com maior probabilidade) a um vetor de referência y suposto N(E{Y },P Y ). Neste problema, encontrar a boa correspondência significa determinar o par {x k,y} tal que a distância (probabilística) x k e y seja a menor. Solução: Para todo 1 k K, determinar o vetor de diferença ε k = y x k para o qual E{ε k } = E{Y } E{X k } e P εk = P Y + P Xk. Pode-se observar que ε T k ε k é a distância euclidiana entre y e x k. No entanto, esta métrica de distância não considera as incertezas devido às distribuições. 53

Para todo 1 k K, determinar a medida q k = (ε k E{ε k }) T P 1 ε k (ε k E{ε k }) que segue χ 2 n. É comum também assumir que a correpondência é verdadeira, e assim E{Y } = E{X k }, resultando em q k = (y x k ) T (P Y +P Xk ) 1 (y x k ) e neste caso, esta medida é chamada de Distância de Mahalanobis. O par {x k,y} de menor distância estatística é aquele cujo índice k satisfaz a k = arg k minq k e a correspondência será aceita se q k χ 2 n (1 r). 54

Vetores de variáveis aleatórias Distribuição Gaussiana Bivariada Considera-se o caso de uma distribuição Gaussiana com n = 2: X = [ X 1 X 2 ] T E{X} = [ E{X 1 } E{X 2 } ] T [ ] σ 2 P X = X1 σ X1 X 2 σ X1 X 2 σ 2 X 2 em que cov{x 1,X 2 } = cov{x 2,X 1 } = σ X1 X 2 = ρ σ X1 σ X2. Como P X é simétrica, ela pode ser decomposta em P X = e 1 v 1 v T 1 + e 2 v 2 v T 2 com e 1 e e 2 sendo os autovalores de P X e v 1 e v 2 sendo seus autovetores. 55

FDP conjunta: para um dado x = [x 1,x 2 ] T com q= 1 1 ρ 2 p X (x) = 1 { 2πσ X1 σ exp 12 } q X2 1 ρ 2 { (x1 ) 2 ( )( ) ( ) } 2 E{X 1 } x1 E{X 1 } x2 E{X 2 } x2 E{X 2 } 2ρ + σ X1 Fazendo u 1 = (x 1 E{X 1 })/σ X1 e u 2 = (x 2 E{X 2 })/σ X2, q pode ser re-escrita como q = u T P 1 u u = 1 { } u 2 1 ρ 2 1 2u 1 u 2 ρ + u 2 2 [ ] 1 ρ em que u = [u 1,u 2 ] T e P u =. ρ 1 σ X1 σ X2 σ X2 56

Representação gráfica. No plano x 1 x 2, uma forma de representar gráficamente a distribuição bivariada é por meio da curva de nível correspondentes a uma densidade constante, ou seja, p X (x) =const. Isto implica em q = 1 { } u 2 1 ρ 2 1 2u 1 u 2 ρ + u 2 2 = c (52) com c sendo uma constante cujo significado ficará logo claro. 57

Dado que ρ 1, a eq. (52) corresponde a uma elipse com os seguintes parâmetros: Centro: E{X} = [E{X 1 },E{X 2 }] T (53) Ângulo com relação ao eixo x 1 : θ = 1 2 arctan (2ρσ X1 σ X2 σ 2 X 1 σ 2 X 2 Eixos principais : r 1 (menor) e r 2 (maior) ) r 2 1 = r 2 2 = cσ 2 X 1 σ 2 X 2 (1 ρ 2 ) σ 2 X 2 cos 2 (θ) 2ρσ X1 σ X2 sin(θ)cos(θ)+σ 2 X 1 sin 2 (θ) cσ 2 X 1 σ 2 X 2 (1 ρ 2 ) σ 2 X 2 sin 2 (θ)+2ρσ X1 σ X2 sin(θ)cos(θ)+σ 2 X 1 cos 2 (θ) (54) (55) 58

Assim, no plano x 1 x 2 tem-se abaixo um exemplo com ρ > 0. Esta elipse é comumente chamada de Elipse de incerteza c sigma, cujo interior incorpora uma determinada porcentagem p da distribuição de X. Pode-se demonstrar que p = 1 1 e c. (56) No caso especial de c = 3, tem-se a chamada elipse 3-sigma, que incorpora p = 98, 9981% da distribuição de X. 59

Verifique você mesmo: se n = 3, então p X (x) =const. implica em uma elipsóide. Exemplo 9 (Elipse 3-sigma de uma distribuição gaussiana bivariada): Simulação gaussiana bivariada realizada considerando E{X 1 } = 5, E{X 2 } = 2 e diferentes valores de P X. 60

Probabilidade condicional de variáveis aleatórias Considerando A e B eventos, a probabilidade condicional é dada por Pr{A B} = Pr{A B} Pr{B} Se associarmos estes eventos a variáveis aleatórias X e Y de distribuição contínua, pode-se considerar A = {X x}, B = {y < Y < y+ y}, com y > 0. Então, pode-se mostrar que F X Y (x y) = lim Pr{X x y < Y < y+ y} (57) y 0 = F / x X,Y(x,y) dfy (y) = p X,Y(u,y)du. y dy p Y (y) 61

FDP condicional p X Y (x y) df X Y(x y) dx = p X,Y(x,y) p Y (y) = p X,Y (x,y) p X,Y(x,y)dx (58) No caso discreto: m X Y (x,y) = m X,Y(x,y) m Y (y) (59) Regra de Bayes para FDPs de variáveis aleatórias: p X Y (x y) = p Y X(y x)p X (x) p Y (y) (60) 62

Expectância condicional: E{X Y } xp X Y (x y)dx (61) Como E{X Y } e p X Y (x y) são funções da v.a. Y, elas são portanto v.a.s. Propriedades: p X Y (x y) 0 F X Y ( y) = p X (x) = (62) p X Y (x y)dx = 1 (63) p X,Y (x,y)dy = p X Y (x y)p Y (y)dy = E Y {p X Y (x y)}(64) 63

E{X} = = E{g(Y) Y } = x xp X (x)dx = p X Y (x y)p Y (y)dydx (65) [ ] xp X Y (x y)dx p Y (y)dy = E Y {E{X Y }} g(y)p X Y (x y)dx = g(y) p X Y (x y)dx = g(y) (66) com g(y) sendo uma função escalar, ou seja, g(y) : R m R. Matriz de covariâncias condicional P X Y = E{(X E{X}) (X E{X}) T Y } (67) 64

Probabilidade condicional de variáveis aleatórias Exercício 5 (Condicional de distribuição exponencial): Considere X,Y v.a.s cuja distribuição conjunta seja p X,Y (x,y) = { e y 0 < x < y < 0 caso contrário. Determine: (i) a fdp marginal de X, (ii) a fdp condicional de Y dado X = x e (iii) a esperança e variância de Y dado X = x. Exercício 6 (Distribuição bivariada gaussiana): Considere X,Y v.a.s Gaussianas cuja distribuição conjunta seja p X,Y (x,y) = 1 { 2π exp (2x2 6xy+5y 2 } ). 2 Determine p Y (y) e p X Y (x y). Sugestão: complete os quadrados da função f(x,y) = (2x 2 6xy+5y 2 ) de forma a obter f(x,y) = g(x,y)+h(y). 65

Estatística amostral Estimação da média, matriz de covariâncias e FDP de uma v.a. X a partir de M amostras x 1,,x M. Média amostral: x = 1 M M x i (68) i=1 Esta estimativa é não-polarizada pois E{ x} = E{X} e consistente uma vez que P x 0 com M. Covariância amostral: P X = 1 M M i=1 (x i x)(x i x) T (69) Esta estimativa é polarizada pois E{ P X } P X. Pode-se mostrar que P X = 1 M 1 M i=1 (x i x)(x i x) T (70) 66

é uma estimativa não polarizada (chamada de matriz de covariâncias amostral não-polarizada). FDP a partir de histograma Caso escalar: dadas amostras x 1,,x M, obtém-se um histograma, que nada mais é que um gráfico do número de amostras pertencentes a intervalos. Os intervalos possuem espaçamentos x iguais entre os limites x min = min(x 1,,x M ) e x max = max(x 1,,x M ) : x min,x min + x,,x min,,x k 1,x k,,x max x,x max. com o k-ésimo intervalo sendo dado por [x k 1,x k [. Denomina-se n k o número de amostras neste intervalo. Assim, tem-se que Pr{x k 1 X < x k } n k M p X (x k 1 ) x 67

Portanto, pode-se obter uma estimativa para a PDF em p X (x k 1 ) através de p X (x k 1 ) = n k M x Deve-se observar que esta é uma forma não paramétrica da PDF p X (x). Caso bivariável: dadas amostras x 1,,x M, obtém-se um histograma bidimensional, que é um gráfico do número de amostras pertencentes a intervalos em duas dimensões. Os intervalos possuem espaçamento x = [ x 1, x 2 ] T igual entre os limites x d,min = min(x d,1,,x d,m ) e x d,max = max(x d,1,,x d,m ), para d = 1,2 (no caso N = 2 é a dimensão da v.a. amostrada). O histograma é portanto um gráfico de contagens de amostras inseridas nos intervalos bidimensionais I i, j = [x 1,i 1,x 1,i [ [x 2, j 1,x 2, j [ para os quais i e j os índices do intervalo nas dimensões 1 e 2, respectivamente. 68

Denomina-se n Ii, j o número de amostras em cada intervalo I i, j. Assim, tem-se que Pr{{x 1,k 1 X 1 < x 1,k },{x 2,k 1 X 2 < x 2,k }} n I i, j M p X (x i j = [ x 1,i 1 x 2, j 1 ] T ) x 1 x 2 Portanto, pode-se obter uma estimativa para a PDF em p X (x i j ) através de p X (x i j ) = n I i, j M x 1 x 2 Caso multi-variável: extensão para N variáveis a partir do caso bivariável. 69

Funções de variáveis aleatórias Conceitos básicos: seja Y = g(x) tal que g(x) : R n R m é um mapeamento de domínio D X e imagem I Y. O problema consiste em determinar a distribuição de Y a partir da distribuição de X. Este problema resolve-se a partir de Pr{I Y } = Pr{C X } em que C X é o contra-domínio de g(x), determinado a partir de I Y e g 1 (X) (função inversa). 70

Exemplo 10 (Transformação linear): Considere Y = ax + b com a, b constantes, e X e Y v.a.s unidimensionais. Sendo esta função monotônica, pode-se verificar que F Y (y) = F X ( y b a ),a > 0 1 F X ( y b a ),a < 0 1(y b),a = 0 p Y (y) = p X ( y b a )1 a,a > 0 p X ( y b a )1 a,a < 0 δ(y b),a = 0 em que 1(u) é a função degrau em u = 0, e δ(u) é a função impulso em u = 0. Se a 0, p Y (y) pode ser escrito como p Y (y) = p X ( y b a ) 1 a que é o mesmo resultado obtido pela eq. (22). 71

Exemplo 11 (Transformação quadrática): Considere Y = X 2 com X e Y v.a.s unidimensionais. Pode-se verificar que C X somente existe para Y 0. Neste caso, I Y = {0 Y y} = C X = { y X y} Portanto, F Y (y) = p Y (y) = { FX ( y) F X ( y),y 0 0,caso contrário. { 1 [ 2 y px ( y)+ p X ( y) ],y 0 0,caso contrário. 72

Determinação direta da FDP Caso escalar: g 1 (Y) pode ter um ou mais mapeamentos. p Y (y) = p X(x 1 ) g (x 1 ) + + p X(x n ) g (x n ) = n i=1 p X (x i ) dg(y) dx em que x 1,,x n são as soluções para a variável x em g 1 (y) = x. Exercício 7 (Transformação escalar raiz-quadrada): (71) 1 (72) x=x i Considere Y = X 1/2 com X e Y v.a.s unidimensionais. Sendo X N(µ,σ 2 X) com parâmetros µ e σ 2 tais que Pr{X 0} 0. Determinar p Y (y). 73

Determinação direta da FDP Caso vetorial com g(x) monotônica, g(x) : R n R n. (atenção: X e Y são de mesma dimensão) p Y (y) = p X (g 1 (y)) det(j 1 ) = p X(g 1 (y)) det(j) (73) com det(j 1 ) = 1/det(J) e J sendo a Jacobiana da transformação, de dimensão n n, dada por g 1 (x) g x 1 1 (x) x n J =.. (74) g n (x) g x 1 n (x) x n x=g 1 (y) em que as funções g i (x) são obtidas de g(x) g(x) = g 1(x).. (75) g n (x) 74

Exemplo 12 (Conversão coordenadas cartesianas em coordenadas polares): Considere um ponto P de coordenadas cartesianas (X,Y) tal que X N(x 0,σ 2 ) e Y N(y 0,σ 2 ) são independentes. Determinar a fdp conjunta das coordenadas polares de P. Quais as distribuições marginais de tais coordenadas? 75

Estimação de parâmetros Definição do problema: em inúmeros casos em engenharia, tem-se que lidar com o problema de determinar os parâmetros de uma relação do tipo y = f(x,θ) em que x R n, y R e θ R m. θ é um vetor contendo os parâmetros de interesse. Para tanto, realiza-se um ou vários experimentos com N pares de dados {x 1,y 1 },,{x N,y N }. O problema consiste então em encontrar uma estimativa ˆθ de θ que possa ser considerada satisfatória. Estimação linear: f(x,θ) = ϕ T (x)θ Mínimos quadrados ˆθ = arg θ minj(r,θ) 76

com J = N r n (x n,y n,θ) 2 n=1 Referências [1] JAZWINSKI, A. H. Stochastic Processes and Filtering Theory. [S.l.]: Academic Press, 1970. [2] MEYER, P. Probabilidade - aplicações à estatística. Segunda edição. [S.l.]: Livros Técnicos e Científicos (LTC), 2003. [3] DUDA, R. O.; HART, P. E.; STORK, D. G. Pattern Classification. 2nd. ed. [S.l.]: Wiley Interscience, 2000. 77