Notas de Aula do Curso PGE950: Probabilidade

Transcrição

1 Notas de Aula do Curso PGE950: Probabilidade Leadro Chaves Rêgo, Ph.D

2 Prefácio Estas otas de aula foram feitas para compilar o coteúdo de várias referêcias bibliográficas tedo em vista o coteúdo programático da disciplia PGE950-Probabilidade do curso de mestrado em Estatística da Uiversidade Federal de Perambuco. Em particular, elas ão cotém ehum material origial e ão substituem a cosulta a livros textos. Seu pricipal objetivo é dispesar a ecessidade dos aluos terem que copiar as aulas e, deste modo, poderem se cocetrar em eteder o coteúdo das mesmas. Recife, março de Leadro Chaves Rêgo, Ph.D. i

3 Coteúdo Prefácio i 1 Itrodução à Probabilidade Experimeto Aleatório Espaço Amostral Evetos e Coleção de Evetos Partição Álgebra de Evetos Fução Idicadora Fudametos de Probabilidade Hierarquia de Coceitos Estruturais de Probabilidade Iterpretações de Probabilidade Frequêcias Relativas Axiomas de Kolmogorov Exemplos de Medidas de Probabilidade Propriedades de uma Medida de Probabilidade Probabilidade Codicioal Probabilidade Codicioal Idepedêcia Variável Aleatória Itrodução Fução de Distribuição Acumulada Tipos de Variável Aleatória Variável Aleatória Discreta Variável Aleatória Cotíua Variável Aleatória Sigular Decomposição de uma Variável Aleatória Pricipais Distribuições de Probabilidade Variáveis Aleatórias Multidimesioais Fução de Distribuição Acumulada Cojuta Idepedêcia etre Variáveis Aleatórias Exemplos de Distribuições Multivariadas ii

4 3.6 Fuções de Variáveis Aleatórias Esperaça e Mometos de Variáveis Aleatórias O Coceito de Esperaça Defiição da Esperaça - Caso Discreto As itegrais de Riemma-Stieltjes e de Lebesgue-Stieltjes Propriedades da Itegral de Lebesgue-Stieltjes Defiição da Esperaça - Caso Geral Iterpretação Geométrica da Esperaça Esperaça de Fuções de Variáveis Aleatórias Caso Discreto Caso Geral Propriedades da Esperaça Mometos Mometos Cetrais Mometos Cojutos Distribuição e Esperaça Codicioais Distribuição codicioal de X dada Y discreta Distribuição codicioal de X dada Y : caso geral Esperaça Codicioal Covergêcia Estocástica Seqüêcia de Evetos Borel-Cateli Covergêcia de Variáveis Aleatórias Tipos de Covergêcia Relação Etre os Tipos de Covergêcia Covergêcia de Vetores Aleatórios Fuções Características Motivação Defiição Propriedades Exemplos de Fuções Características Teorema da Cotiuidade de Levy Soma de um Número Aleatório de Variáveis Aleatórias Fução Característica de um Vetor Aleatório Fuções Geratrizes de Mometo Teorema de Slutsky Lei dos Grades Números Motivação Lei Fraca dos Grades Números Lei Forte dos Grades Números iii

5 8.4 Um Exemplo de Divergêcia das Médias Teorema Cetral do Limite Motivação Teoremas e provas Teorema Cetral do Limite: Caso Multivariado Método Delta Referêcias Bibliográficas 149 iv

6 Capítulo 1 Itrodução à Probabilidade 1.1 Experimeto Aleatório Um dos maiores objetivos de um estatístico é chegar a coclusões sobre certa população de objetos através da realização de um experimeto. Um experimeto é qualquer processo de observação. Em muitos experimetos de iteresse, existe um elemeto de icerteza, ou chace, que ão importa quato ós sabemos sobre o passado de outras performaces deste experimeto, ós essecialmete ão somos capazes de predizer seu comportameto em futuras realizações. As razões para ossa falta de habilidade para predizer são varias: ós podemos ão saber de todas as causas evolvidas; ós podemos ão ter dados suficietes sobre as codições iiciais do experimeto; as causas podem ser tão complexas que o cálculo do seu efeito combiado ão é possível; ou a verdade existe alguma aleatoriedade fudametal o experimeto. Estamos iteressados em uma classe particular de experimetos, chamados experimetos aleatórios. Os seguites traços caracterizam um experimeto aleatório: (a) Se for possível repetir as mesmas codições do experimeto, os resultados do experimeto em diferetes realizações podem ser diferetes. Por exemplo, jogar uma moeda diversas vezes com bastate cuidado para que cada jogada seja realizada da mesma maeira. (b) Muito embora ão sejamos capazes de afirmar que resultado particular ocorrerá, seremos capazes de descrever o cojuto de todos os possíveis resultados do experimeto. 1 (c) Quado o experimeto for executado repetidamete, os resultados idividuais parecerão ocorrer de uma forma acidetal. Cotudo, quado o experimeto for repetido um grade úmero de vezes, uma cofiguração defiida ou regularidade surgirá. É esta regularidade que tora possível costruir um modelo probabilístico. Por exemplo, 1 É importate ressaltar que frequetemete são ecotradas situações práticas ode ão se cosegue descrever todos os possíveis resultados de um experimeto. Uma maeira de cotorar este problema é assumir que um resultado possível do experimeto é a ão ocorrêcia de qualquer dos resultados descritos, cotudo, em problemas práticos, tal suposição pode acarretar em dificuldades quado se teta elicitar ou deduzir probabilidades. 1

7 1.2. ESPAÇO AMOSTRAL 2 pese as repetidas jogadas de uma moeda, muito embora caras e coroas apareçam sucessivamete, em uma maeira arbitrária, é fato empírico cohecido que, depois de um grade úmero de jogadas, a proporção de caras e de coroas serão aproximadamete iguais (assumido que a moeda é simétrica). Os resultados de um experimeto aleatório são caracterizados pelos seguites compoetes: 1. o cojuto de resultados possíveis Ω; 2. a coleção de cojutos de resultados de iteresse A; 3. um valor umérico P da verossimilhaça ou probabilidade de ocorrêcia de cada um dos cojutos de resultados de iteresse. 1.2 Espaço Amostral O cojuto de possíveis resultados de um experimeto aleatório é chamado de espaço amostral. Existem quatro potos que são desejáveis da especificação de um espaço amostral: SS1. listar os possíveis resultados do experimeto; SS2. fazê-lo sem duplicação; SS3. fazê-lo em um ível de detalhameto suficiete para os iteresses desejados; SS4. especificar essa lista completamete em um setido prático, embora usualmete ão completa o que se refere a todos os resultados logicamete ou fisicamete possíveis. Por exemplo, uma úica jogada de uma moeda pode ter o espaço amostral tradicioal Ω = {cara, coroa}, ou podemos cosiderar que a moeda pode fisicamete ficar equilibrada a borda Ω = {cara, coroa, borda} (SS1). Uma outra possibilidade seria levar em cosideração as coordeadas (x, y) do cetro da moeda quado ela para após ser jogada o ar. Como vemos muito mais se sabe sobre o resultado de uma jogada de uma moeda que os simples resultados biários tradicioais cara e coroa. Nós igoramos está iformação adicioal (SS3) usado uma hipótese ão mecioada que existe uma aposta com pagametos que depedem apeas de qual lado da moeda cai para cima e ão em outras iformações (SS4). Podemos classificar espaços amostrais em dois tipos de acordo com o úmero de elemetos que eles cotem. Espaços amostrais podem ser eumeráveis ou ão eumeráveis; se os elemetos do espaço amostral podem ser colocados em uma correspodêcia 1-1 com um subcojuto dos iteiros, o espaço amostral é eumerável. Em um ível filosófico, pode-se argumetar que só existem espaços amostrais eumeráveis, visto que medidas ão podem ser feitas com ifiita precisão. Equato a prática isto é verdadeiro, métodos estatísticos e probabilísticos associados com espaços amostrais ão eumeráveis são, em geral, meos complicados que aqueles para espaços amostrais eumeráveis, e proporcioam uma boa aproximação para a situação (eumerável) real.

8 1.3. EVENTOS E COLEÇÃO DE EVENTOS Evetos e Coleção de Evetos Um eveto é um subcojuto do espaço amostral, ou seja, é um cojuto de resultados possíveis do experimeto aleatório. Se ao realizarmos um experimeto aleatório, o resultado pertece a um dado eveto A, dizemos que A ocorreu. Estaremos iteressados o estudo da ocorrêcia de combiações de evetos. Para tato, utilizaremos as operações Booleaas de cojutos (complemetar, uião, itersecção, difereça) para expressar evetos combiados de iteresse. Defiição 1.3.1: Os evetos A e B são disjutos ou mutuamete excludetes ou mutuamete exclusivos se ão puderem ocorrer jutos, ou, em liguagem de cojutos, A B =. Exemplo 1.3.2: Sejam A, B, e C evetos em um mesmo espaço amostral Ω. Expresse os seguites evetos em fução de A, B, e C e operações Booleaas de cojutos. (a) Pelo meos um deles ocorre: A B C. (b) Exatamete um deles ocorre: (A B c C c ) (A c B C c ) (A c B c C). (c) Apeas A ocorre: (A B c C c ). (d) Pelo meos dois ocorrem: (A B C c ) (A B c C) (A c B C) (A B C). (e) No máximo dois deles ocorrem: (f) Nehum deles ocorre: (A B C) c. (A c B c C c ). (g) Ambos A e B ocorrem, mas C ão ocorre: Partição (A B C c ). Defiição 1.3.3: Dado um espaço amostral Ω, uma partição Π = {A α, α I} de Ω é uma coleção de evetos (subcojutos de Ω) (este caso, idexados por α que toma valores o cojuto de ídices I) e satisfaz: P1. Para todo α β, A α A β = ;

9 1.3. EVENTOS E COLEÇÃO DE EVENTOS 4 P2. α I A α = Ω. Deste modo os evetos de uma partição são mutuamete excludetes (ou disjutos) e cobrem todo o espaço amostral. Portato, cada elemeto ω Ω pertece a um, e somete um, dos evetos A α de uma partição. Exemplo 1.3.4: Se Ω = {1, 2, 3, 4}, etão {A 1, A 2 }, ode A 1 = {1, 2, 3} e A 2 = {4}, é uma partição de Ω. Exemplo 1.3.5: A coleção de itervalos {(, + 1] : Z} é uma partição dos úmeros reais IR Álgebra de Evetos Embora possa-se pesar que, dado um espaço amostral, ecessariamete é de iteresse aalisar todos os seus subcojutos (e isto evetualmete é verdadeiro), temos três razões para esperar que estejamos apeas iteressados em algus subcojutos do espaço amostral. Primeiro, o espaço amostral pode coter um grau de detalhameto superior ao que estamos iteressados o mometo. Por exemplo, ele pode represetar uma úica jogada de um dado com 6 elemetos, mas ós apeas estamos iteressados em saber se o resultado é par ou ímpar. Segudo, ós vamos querer associar cada eveto A com uma probabilidade umérica P (A). Como essas probabilidades estão baseadas em algum cohecimeto sobre a tedêcia de ocorrer do eveto, ou o grau de ossa creça que determiado eveto ocorrerá, osso cohecimeto sobre P pode ão esteder para todos os subcojutos de Ω. A terceira (e técica) razão para limitar a coleção de evetos de iteresse é que codições impostas em P pelos axiomas de Kolmogorov, que estudaremos adiate, podem ão permitir que P seja defiida em todos os subcojutos de Ω, em particular isto pode ocorrer quado Ω for ão eumerável, mas ão iremos demostrar este fato que está fora do escopo deste curso. Estaremos iteressados em uma coleção especial A de subcojutos do espaço amostral Ω (ote que A é um cojuto cujos elemetos também são cojutos!) que são evetos de iteresse o que se refere ao experimeto aleatório E e os quais temos cohecimeto sobre a sua verossimilhaça de ocorrêcia. A é chamado de uma álgebra de evetos. Defiição 1.3.6: Uma álgebra de evetos A é uma coleção de subcojutos do espaço amostral Ω que satisfaz: 1. ão é vazia; 2. fechada com respeito a complemetos (se A A, etão A c A); 3. fechada com respeito a uiões fiitas (se A, B A, etão A B A). Pelas Leis de De Morga, vemos que A é fechada com respeito a itersecções fiitas também.

10 1.3. EVENTOS E COLEÇÃO DE EVENTOS 5 Exemplo 1.3.7: 1. A meor álgebra de evetos é A = {, Ω}; 2. A maior álgebra de evetos é o cojuto das partes de Ω; 3. Um exemplo itermediário, temos: Ω = {1, 2, 3}, A = {Ω,, {1}, {2, 3}}. 4. A álgebra de evetos fiitos e co-fiitos. Seja Ω = IR e A = {A IR : A é fiito} {A IR : A c é fiito}, ou seja, A cosiste dos subcojutos de IR que ou são fiitos ou têm complemetos fiitos. A é uma álgebra de evetos. Lema 1.3.8: Se A é uma álgebra, etão Ω A Prova: Como A é ão vazia, seja A um elemeto qualquer seu. Pela seguda propriedade de álgebras, temos que A c A, e pela terceira propriedade temos que Ω = A A c A. Teorema 1.3.9: Sejam A 1 e A 2 álgebras de subcojutos de Ω e seja A = A 1 A 2 a coleção de subcojutos comus as duas álgebras. Etão, A é uma álgebra. Prova: Como A 1 e A 2 são álgebras, ambos cotém Ω. Etão, Ω A. Se A A, etão A está em ambos A 1 e A 2. Logo, A c está em ambos A 1 e A 2, e portato a sua itersecção A. Se A, B A, etão eles estão em ambos A 1 e A 2. Cosequetemete, A B está em ambos A 1 e A 2 e, portato, em A. Como A satisfaz as três codições da defiição de álgebra de evetos, A é uma álgebra de evetos. É fácil ver que a prova do Teorema pode ser estedida para o caso de uma itersecção de um úmero arbitrário de álgebras. O seguite corolário usa este fato para provar que sempre existe uma meor álgebra cotedo uma família qualquer de evetos. Corolário : Existe uma meor (o setido de iclusão) álgebra cotedo qualquer família dada de subcojutos de Ω. Prova: Seja C uma coleção qualquer de subcojutos de Ω, defia A(C) como sedo o cojuto que é igual a itercessão de todas as álgebras de evetos que cotém C, isto é: A(C) = A. A C:A é uma álgebra de evetos Pelo Teorema 1.3.9, A(C) é uma álgebra de evetos, e cosequetemete é a meor álgebra de evetos cotedo C. A(C) é cohecida como a álgebra de evetos gerada por C.

11 1.3. EVENTOS E COLEÇÃO DE EVENTOS 6 Teorema : Se A é uma álgebra de evetos, etão A i A, i = 1, 2,..., i=1a i A Prova: Para = 1, o resultado é óbvio. Para = 2, o resultado segue diretamete da terceira propriedade a defiição de álgebra de evetos. Vamos agora provar o passo idutivo, supoha que A i A, i = 1, 2,..., k k i=1a i A. Vamos agora provar que o caso = k + 1 é verdadeiro. Supoha que A i, i = 1, 2,..., k + 1 A, etão como k+1 i=1 A i = ( k i=1a i ) A k+1, temos que utilizado o caso = k, k i=1a i A. Como k i=1a i A e A k+1 A, temos que utilizado o caso = 2, ( k i=1a i ) A k+1 A. Observação : Uma maeira de costruir uma álgebra de evetos, é primeiro particioar Ω em um úmero fiito subcojutos e depois cosiderar álgebra que cosiste dos evetos que são uiões fiitas dos subcojutos da partição. Exemplo : Por exemplo, Ω = {a, b, c, d}. Cosidere a partição, {{a, c}, {b, d}}, etão cosidere a coleção de evetos que cosiste de uiões fiitas dos evetos desta partição: A = {, Ω, {a, c}, {b, d}}. É fácil ver que A é uma álgebra de evetos. Dada uma coleção fiita evetos C = {A 1, A 2,..., A }, defie-se um átomo de C como sedo qualquer eveto B da seguite forma: B = B 1 B 2... B, ode B i = A i ou B i = A c i para i = 1, 2,...,. Note que existem o máximo 2 C átomos diferetes e que eles formam uma partição de Ω (verifique!). Quado C for uma coleção fiita de evetos, um eveto pertecerá a A(C), se e somete se, for igual a uma uião fiita de átomos de C. Note que A(C) terá o máximo 2 2 C elemetos (verifique!). Exemplo : Se Ω = {a, b, c, d, e, f}, ecotre a álgebra gerada por C = {{a, b, d}, {b, d, f}}. Os átomos de C são {{a}, {f}, {c, e}, {b, d}}. Logo, Fução Idicadora A(C) = {, Ω, {a}, {f}, {c, e}, {b, d}, {a, f}, {a, c, e}, {a, b, d}, {c, e, f}, {b, d, f}, {b, c, d, e}, {a, f, c, e}, {a, f, b, d}, {a, b, c, d, e}, {b, c, e, d, f}}. É sempre coveiete represetar um eveto A por uma fução I A tedo domíio (cojuto dos argumetos da fução) Ω e cotra-domíio (cojuto dos possíveis valores da fução) biário {0, 1}.

12 1.3. EVENTOS E COLEÇÃO DE EVENTOS 7 Defiição : Fução Idicadora. A fução idicadora I A : Ω {0, 1} de um eveto A é dada por { 1 se ω A, I A (ω) = 0 se ω / A. Note que podemos determiar A a partir de sua fução idicadora: A = {ω : I A (ω) = 1}. Exemplo : Se I A (ω) for ideticamete igual a 1, ou seja, I A (ω) = 1, ω Ω, etão A é igual ao espaço amostral Ω. Se I A (ω) for ideticamete igual a 0, etão A é igual ao cojuto vazio. Se I A (ω) for igual a 1 somete quado ω = ω 0, etão A é o eveto {ω 0 } que cotém somete o elemeto ω 0. Note que existe uma correspodêcia 1-1 etre evetos e suas fuções idicadoras: A = B ( ω Ω)I A (ω) = I B (ω). O fato que evetos são iguais se, e somete se, suas fuções idicadoras forem idêticas os permitem explorar a aritmética de fuções idicadoras: I A c = 1 I A, A B I A I B, I A B = mi(i A, I B ) = I A I B, I A B = max(i A, I B ) = I A + I B I A B, I A B = max(i A I B, 0) = I A I B c, para costruir argumetos rigorosos o que se refere a relação etre evetos. Ou seja, ós trasformamos proposições sobre evetos em proposições sobre fuções idicadoras e podemos etão utilizar ossa familiaridade com álgebra para resolver pergutas meos familiares sobre evetos. Exemplo : Utilizado fuções idicadoras, verifique que A B B c A c. Solução: Temos que A B I A I B 1 I A 1 I B I A c I B c B c A c. Exemplo : As seguites questões ão estão relacioadas umas com as outras. a. Se I A I B for ideticamete igual a zero, o que sabemos a respeito da relação etre A e B? b. Se A B c = B A c, o que sabemos a respeito da relação etre A e B? c. Se I 2 A + I2 B for ideticamete igual a 1, o que podemos cocluir sobre A e B?

13 1.4. FUNDAMENTOS DE PROBABILIDADE 8 d. Se I A I B for ideticamete igual a 1, o que podemos cocluir sobre A e B? e. Se A B = B A, o que podemos cocluir sobre A e B? Solução: Exercício. Exemplo : Utilizado fuções idicadoras, determie se (A C) (B C) = (A B c C c ) (A c B C c ). (Sugestão: Faça um Diagrama de Ve.) Solução: Seja ω A B C c. Etão, I A (ω) = I B (ω) = I C c(ω) = 1. Portato, temos I (A C) (B C) = I A C + I B C I A C I B C = I A I C c + I B I C c I A I C ci B I C c. De ode coclui-se que I (A C) (B C) (ω) = 1. Por outro lado, I (A B c C c ) (A c B C c ) = I (A B c C c ) + I (A c B C c ) I (A B c C c )I (A c B C c ) = I A I B ci C c + I A ci B I C c I A I B ci C ci A ci B I C c De ode coclui-se que I (A B c C c ) (A c B C c )(ω) = 0. Logo, I (A C) (B C) I (A B c C c ) (A c B C c ), o que implica que (A C) (B C) (A B c C c ) (A c B C c ). 1.4 Fudametos de Probabilidade Raciocíio probabilístico aparece em uma ampla variedade de feômeos de chace e icerteza, ele é lugar comum em osso dia-a-dia. Nós expressamos julgametos probabilísticos tato através da liguagem como através de ossas ações. Ultrapassar um carro em uma estrada com outro carro vido em direção oposta implica que calculamos as distâcias e velocidades, e calculamos os riscos de uma batida ocorrer e estamos coscietes das graves cosequêcias de erros os ossos julgametos, mas os cosideramos pequeos o suficiete. Raciocíio probabilístico o dia-a-dia equato ão desevolvido matematicamete precisa ser levado seriamete em cota se desejamos tomar decisões racioais. Nota-se que, em geral, precisamos icorporar cohecimeto probabilístico que seja tato qualitativo e expresso liguisticamete como também o cohecimeto quatitativo que pode ser expresso umericamete. Ates de focarmos em uma teoria probabilística, vamos explorar o espaço de alterativas. Nós podemos classificar as formas de raciocíio probabilístico as seguites dimesões: grau de precisão: o coceito estrutural o sigificado, ou iterpretação a ser dada a probabilidade estrutura matemática formal de probabilidade dada por um cojuto de axiomas O coceito estrutural determia a precisão com que podemos esperar que probabilidade represete feômeos aleatórios. A iterpretação proporcioa a base com a qual probabilidade deve ser determiada e idica o que podemos esperar apreder com ela, ou seja, o que uma afirmação probabilística sigifica. O coceito estrutural e a iterpretação guiam a

14 1.4. FUNDAMENTOS DE PROBABILIDADE 9 escolha dos axiomas. O cojuto de axiomas, cotudo, pode somete capturar uma parte do que etedemos da iterpretação. Compreesão de fudametos de probabilidade é importate, pois aplicações de teoria da probabilidade depedem fortemete de seus fudametos. Por exemplo, os fudametos ifluem a escolha dos métodos estatísticos a serem utilizados (Frequetistas, Bayesiaos,... ) e a iterpretação dos resultados obtidos. Os próximos exemplos ajudam a motivar um pouco a importâcia do estudo de fudametos de probabilidade. Exemplo 1.4.1: Supoha que Alice teha uma moeda hoesta e que ela e Bob saibam que a moeda é hoesta. Alice joga a moeda e olha o resultado. Após a moeda ser jogada, qual a probabilidade de cara segudo Bob? Um argumeto diria que a probabilidade aida é 1/2, pois Bob ão apredeu ada sobre o resultado da jogada, etão ele ão deve alterar o valor de sua probabilidade. Um outro argumeto, questioa se realmete faz setido falar sobre probabilidade de cara depois que a moeda foi jogada. Segudo este argumeto, a moeda ou caiu cara ou coroa, etão o melhor que Bob pode afirmar é que a probabilidade de cara ou é 0 ou é 1, mas ele ão sabe discerir etre esses valores. Exemplo : Supoha agora que Alice teha duas moedas, uma hoesta e outra tedeciosa e é duas vezes mais provável dar cara que coroa com esta moeda. Alice escolhe uma das moedas (supoha que ela sabe distiguir as moedas) e está prestes a jogá-la. Bob sabe que uma moeda é hoesta e que a outra é tedeciosa e que é duas vezes mais provável cair cara que coroa com a moeda tedeciosa, mas ele ão sabe que moeda Alice escolheu em lhe foi dada a probabilidade com que Alice escolhe a moeda hoesta. Qual a probabilidade de cara segudo Bob? Exemplo 1.4.3: Paradoxo de Ellsbergue. Supoha que existam duas uras cada uma com 60 bolas. A ura 1 cotém 30 bolas azuis e 30 bolas verdes. Tudo que se sabe sobre a ura 2 é que ela cotém bolas azuis e verdes, mas ão sabe-se a distribuição das bolas. Cosidere que existem duas loteria com prêmios baseados o sorteio de bolas dessas uras. Loteria L 1 paga R$1.000,00 se uma bola azul for sorteada a ura 1, e R$0,00 caso cotrário. Loteria L 2 paga R$1.000,00 se uma bola azul for sorteada a ura 2, e R$0,00 caso cotrário. A maioria das pessoas quado questioada se prefere um bilhete da Loteria L 1 ou L 2 prefere um bilhete da loteria L 1. Supoha agora que temos duas outras loterias L 3 e L 4, ode a primeira paga R$1.000,00 somete se uma bola verde for sorteada da ura 1, e a seguda para R$1.000,00 somete se uma bola verde for sorteada da ura 2. Também, é verificado que a maioria das pessoas que preferiram a loteria L 1 a loteria L 2 preferem a loteria L 3 a loteria L 4. Com estas preferêcias, ão é possível que o decisor possua uma úica distribuição de probabilidade subjetiva sobre as cores das bolas a ura 2, pois a primeira preferêcia (L 1 sobre L 2 ) idica que o decisor cosidera que existam mais bolas verdes que azuis a ura 2, e a seguda (L 3 sobre L 4 ) idica que o decisor cosidera que existam mais bolas azuis que verdes a ura 2. Esse feômeo é cohecido a literatura como aversão a ambiguidade, e pode-se modelar a icerteza do decisor por um cojuto de medidas de probabilidade ao ivés de uma úica medida de probabilidade.

15 1.4. FUNDAMENTOS DE PROBABILIDADE 10 Nós discutiremos uma variedade de coceitos estruturais e iterpretações de probabilidade. Depois ós focaremos a probabilidade umérica tradicioal que satisfaz os famosos axiomas de Kolmogorov e em uma iterpretação baseada em frequêcias de ocorrêcia Hierarquia de Coceitos Estruturais de Probabilidade Os seguites são exemplos de uma variedade de coceitos estruturais de probabilidade: Possivelmete. Possivelmete A é o coceito mais rudimetar e meos preciso, e o usado pelos atigos Gregos para distiguir etre o que era ecessário e o que era cotigete. Existe um úmero de coceitos de possibilidade que icluem os seguites: possibilidade lógica, o setido que ão se cotradiz logicamete; possibilidade epistêmica, segudo a qual ocorrêcia de A ão cotradiz osso cohecimeto, que iclui, mas estede mais que mera lógica; possibilidade física, a ocorrêcia de A é compatível com leis físicas, cotudo ela pode ser extremamete improvável por exemplo, uma moeda parado e ficado equilibrada a borda em uma superfície rígida; possibilidade prática, a oção do dia-a-dia segudo a qual A é praticamete possível se ele tem pelo meos uma verossimilhaça ão tão pequea de ocorrer. Provavelmete. Provavelmete A é um fortalecimeto da oção de possibilidade que sigifica mais que provável que ão. Equato ela pode correspoder ao caso que a probabilidade umérica de A seja maior que 1/2, este coceito ão requer ehum comprometimeto com probabilidade umérica em com o preciso estado de cohecimeto que probabilidade umérica requer. Probabilidade Comparativa. A é pelo meos tão provável quato B. A probabilidade comparativa iclui provavelmete A através de A é pelo meos tão provável quato A c. Pode ser relacioada com probabilidade umérica através de P (A) P (B); embora como os dois exemplos ateriores, probabilidade comparativa ão requer ehum comprometimeto com probabilidade umérica. Probabilidade Itervalar. A tem probabilidade itervalar, ou probabilidade iferior e superior (P (A), P (A)). Isto permite um grau de idetermiação variável sem ehum comprometimeto com que exista um verdadeiro valor o itervalo. Probabilidade Numérica. A probabilidade de A é o úmero real P (A). Este é o coceito usual com o qual os ocuparemos este curso. Equato este coceito absorveu quase toda ateção de pessoas evolvidas com feômeos de chace e icerteza e provou ser frutífero a prática cietífica, este ão é o úico coceito utilizado em liguagem ordiária e o raciocíio probabilístico do dia-a-dia. É duvidoso que probabilidade umérica seja adequada a todas as aplicações que ela é utilizada, e é provável que ela teha iibido o desevolvimeto de teorias matemáticas apropriadas para outros feômeos aleatórios.

16 1.5. FREQUÊNCIAS RELATIVAS 11 De agora em diate focaremos o coceito estrutural mais utilizado e preciso que é a probabilidade umérica Iterpretações de Probabilidade Parece ão ser possível reduzir probabilidade a outros coceitos; ela é uma oção em si mesma. O melhor que podemos fazer é relacioar probabilidade a outros coceitos através de uma iterpretação. Os cico mais comus grupos de iterpretação são os seguites: 1. Lógica: grau de cofirmação da hipótese de uma proposição que A ocorre dada uma evidêcia através da proposição que B ocorreu. Esta iterpretação está ligada a um sistema lógico formal e ão, digamos, ao mudo físico. Ela é usada para torar o raciocíio idutivo quatitativo. Quado as evidêcias ou premissas são isuficietes para deduzir logicamete a hipótese ou coclusão, podemos aida medir quatitativamete o grau de suporte que uma evidêcia da a uma hipótese através de probabilidade lógica. 2. Subjetiva: se refere ao grau de creça pessoal a ocorrêcia do eveto A e é medida através da iterpretação comportametal de disposição a apostar ou agir. 3. Frequetista: se refere ao limite da frequêcia relativa de ocorrêcia do eveto A em repetidas realizações ão relacioadas do experimeto aleatório E. Note que limites de frequêcia relativas são uma idealização, pois ão se pode repetir ifiitas vezes um experimeto. 4. Propesidade: tedêcia, propesidade, ou disposição para um eveto A ocorrer. Por exemplo, cosiderações de simetria, podem levar a coclusão que um dado tem a mesma propesão ou tedêcia a cair em qualquer uma de suas faces. 5. Clássica: baseada em uma eumeração de casos igualmete prováveis. 1.5 Frequêcias Relativas Resta-os discutir o terceiro elemeto para modelagem do raciocíio probabilístico, a associação de uma medida umérica a evetos que represetam a verossimilhaça com que eles ocorrem. As propriedades desta associação são motivadas em grade parte pelas propriedades de frequêcia relativas. Cosidere uma coleção de experimetos aleatórios E i que possuem a mesma álgebra de evetos A e tem resultados idividuais ão ecessariamete uméricos {ω i }. Seja X(ω) uma fução real dos resultados, com X i = X(ω i ) sedo o valor associado com o resultado ω i do i-ésimo experimeto. Seja Av X = 1 i=1 X i a média dos resultados dos primeiros experimetos. Por simplicidade matemática, assumiremos que a fução X é escolhida de uma família F de fuções que podem assumir apeas um úmero fiito de valores uméricos. Fixado uma dada sequêcia de resultados {ω i }, é fácil verificar as seguites propriedades de Av : Av0. Av : F IR.

17 1.5. FREQUÊNCIAS RELATIVAS 12 Av1. Se para todo ω, X(ω) 0, etão Av 0. Av2. Se X é uma fução costate, etão Av X = X. Av3. Para todo X, Y F, para todo α, β IR, Av (αx + βy ) = αav X + βav Y. Em particular, se estamos iteressados em um dado eveto A e escolhemos X(ω) = I A (ω), uma fução biária, etão a média é cohecida como a frequêcia relativa de A. Defiição 1.5.1: A frequêcia relativa de um eveto A, determiada pelos resultados {ω 1,..., ω } de experimetos aleatórios, é r (A) = 1 I A (ω i ) = N (A). i=1 Propriedades chaves da frequêcia relativa são: FR0. r : A IR. FR1. r (A) 0. FR2. r (Ω) = 1. FR3. Se A e B são disjutos, etão r (A B) = r (A) + r (B). FR4. Se A 1, A 2, A, é uma sequêcia de evetos disjutos dois a dois, etão r ( i=1a i ) = i=1 r (A i ). Pode-se expressar Av em termos de r. Dada uma fução X que assume valores o cojuto fiito {x 1, x 2,..., x k }, cosidere os k evetos {A i = {ω : X(ω) = x i }, i = 1, 2,..., k}. Podemos rearrajar os termos em Av X e reescrevê-la da seguite forma: Av X = k x i r (A i ) = i=1 k x i r (X = x i ). Em particular, se para cada i, temos covergêcia da sequêcia r 1 (X = x i ), r 2 (X = x i ),..., r (X = x i ) para um limite p i, etão também temos covergêcia da média Av X, lim Av X = x i p i. Este limite das médias, quado existe, serve como iterpretação para o coceito essecial de esperaça ou média de uma quatidade aleatória umérica X. Veremos mais sobre esperaça este curso. Nós prosseguiremos como se existisse alguma base empírica ou metafísica que garata que r (A) P (A), embora que o setido de covergêcia quado cresce só será explicado pela Lei dos Grades Números. Esta tedêcia da frequêcia relativa de estabilizar em um certo valor é cohecida como regularidade estatística. Deste modo, P herdará propriedades da frequêcia relativa r. i=1 i=1

18 1.6. AXIOMAS DE KOLMOGOROV Axiomas de Kolmogorov Primeiro por razões técicas, fora do escopo deste curso, temos que o domíio da medida formal de probabilidade é uma álgebra de evetos que também é fechada com relação a um úmero eumerável de uiões. Defiição 1.6.1: Uma σ-álgebra A é uma álgebra de evetos que também é fechada com relação a uma uião eumerável de evetos, ( i Z)A i A i Z A i A. Exemplo 1.6.2: A coleção de cojutos de úmeros reais fiitos e co-fiitos é uma álgebra que ão é uma σ-álgebra. Exemplo 1.6.3: A σ-álgebra de Borel B de subcojutos reais é, por defiição, a meor σ- álgebra cotedo todos os itervalos e é a σ-álgebra usual quado lidamos com quatidades reais ou vetoriais. Em particular, temos que uiões eumeráveis de itervalos (por exemplo, o cojuto dos úmeros racioais), seus complemetos (por exemplo, o cojuto dos úmeros irracioais), e muito mais está em B. Os axiomas que descreveremos a seguir ão descrevem um úico modelo probabilístico, eles apeas determiam uma família de modelos probabilísticos, com os quais poderemos utilizar métodos matemáticos para descobrir propriedades que serão verdadeiras em qualquer modelo probabilístico. A escolha de um modelo específico satisfazedo os axiomas é feito pelo aalista/estatístico familiar com o feômeo aleatório sedo modelado. Motivados pelas propriedades de frequêcia relativa, impõe-se os primeiros quatro axiomas de Kolmogorov: K0. Iicial. O experimeto aleatório é descrito pelo espaço de probabilidade (Ω, A, P ) que cosiste do espaço amostral Ω, de uma σ-álgebra A, e de uma fução de valores reais P : A IR. K1. Não-egatividade. A A, P (A) 0. K2. Normalização Uitária. P (Ω) = 1. K3. Aditividade Fiita. Se A, B são disjutos, etão P (A B) = P (A) + P (B). É fácil provar (tete!) utilizado idução matemática que K3 é válida para qualquer coleção fiita de evetos disjutos par a par, ou seja, se A i, i = 1, 2,...,, são evetos disjutos par a par, etão P ( i=1a i ) = i=1 P (A i). Um quito axioma, embora ão teha sigificado em espaços amostrais fiitos, foi proposto por Kolmogorov para garatir um certo grau de cotiuidade da medida de probabilidade.

19 1.6. AXIOMAS DE KOLMOGOROV 14 K4. Cotiuidade Mootôica. Se para todo i > 0, A i+1 A i e i A i =, etão Um forma equivalete de K4 é a seguite: lim i P (A i) = 0. 2 K4. σ-aditividade. Se {A i } é uma coleção eumerável de evetos disjutos dois a dois, etão P ( i=1a i ) = P (A i ). Teorema 1.6.4: Se P satisfaz K0-K3, etão P satisfaz K4 se, e somete se, ela satisfaz K4. Prova: Primeiro, vamos provar que K0-K4 implicam o axioma da σ-aditividade K4. Seja {A i } qualquer sequêcia eumerável de evetos disjutos par a par, e defia para todo i=1 B = i> A i, i=1a i = B ( i=1a i ). Claramete, para todo i, temos que A i e B são disjutos. Por K3, temos P ( i=1a i ) = P (B ) + P (A i ). i=1 Por defiição de série umérica, lim P (A i ) = i=1 P (A i ). i=1 K4 segue se coseguirmos mostrar que lim P (B ) = 0. Note que B +1 B, e que =1B =. Etão por K4, temos que o limite acima é zero e K4 é verdadeiro. Agora, vamos provar que K0-K3, K4 implicam o axioma da cotiuidade mootôica K4. Seja {B } qualquer coleção eumerável de evetos satisfazedo as hipóteses do axioma K4: B +1 B e =1B =. Defia, A = B B +1 e observe que {A } é uma coleção eumerável de evetos disjutos par a par. Note que B = j A j. 2 K4 (ou equivaletemete K4 ) é uma idealização que ão é aceita por algus tratametos subjetivistas de probabilidade, em especial ão é aceita por uma escola de estatísticos liderados por defietti (1972). Assumir apeas aditividade fiita, embora pareça mais plausível, pode levar a complicações iesperadas em teoria estatística. Portato, ós prosseguiremos sobre a suposição que o axioma da cotiuidade (K4) é válido.

20 1.6. AXIOMAS DE KOLMOGOROV 15 Etão, por K4 temos que P (B ) = P ( j A j ) = j P (A j ). Como por K4, temos que logo K4 é verdadeiro. P (A j ) = P ( j=1a j ) 1, j=1 lim P (B ) = lim P (A j ) = 0, j Uma fução que satisfaz K0-K4 é chamada de uma medida de probabi- Defiição 1.6.5: lidade. A tera (Ω, A, P ) é chamada de espaço de probabilidade. Ituitivamete quado se modela uma problema através de probabilidade, basicamete, o que se faz é especificar cada uma das compoetes da tera acima. Evetos são os elemetos de A, aos quais se pode atribuir probabilidade. Probabilidade é uma fução cujo argumeto é um cojuto. Portato, ão somete cojutos, como também as operações sobre eles, têm uma importâcia fudametal em teoria da probabilidade Exemplos de Medidas de Probabilidade Exemplo 1.6.6: Se Ω for um cojuto fiito, etão temos que a probabilidade clássica que assume que todos os resultados são igualmete prováveis, é um exemplo de uma medida de probabilidade. Neste caso, temos que P (A) = A Ω defiido para qualquer subcojuto A de Ω. O fato que 0 A Ω e que A B = A + B A B, permitem que verifiquemos que P satisfaz os axiomas de Kolmogorov. Exemplo 1.6.7: Se Ω = {ω 1, ω 2,..., ω } um cojuto fiito, e seja P ({ω i }) = p i, ode p i 0, i 1 e i=1 p i = 1, e P (A) = ω i A P ({ω i}). Neste caso, também é fácil verificar que P é uma medida de probabilidade verificado os axiomas. Exemplo 1.6.8: Seja Ω = [0, 1] e B 0 a σ-álgebra de Borel restrita a evetos cotidos em [0, 1]. Pode-se provar que existe uma medida de probabilidade µ em (Ω, B 0 ) tal que para todo itervalo I em [0, 1] µ(i) é igual ao comprimeto de I. Esta medida de probabilidade µ é cohecida como medida de Lebesgue.

21 1.6. AXIOMAS DE KOLMOGOROV Propriedades de uma Medida de Probabilidade Teorema 1.6.9: Se P é uma medida de probabilidade, etão 1. P (A c ) = 1 P (A). 2. P ( ) = P (A) 1. Prova: Parte 1, segue do fato que Ω = A A c, K2, e K3, pois 1 = P (Ω) = P (A) + P (A c ). Parte 2, segue da Parte 1, do fato que Ω c =, e K2, K3, pois P ( ) = 1 P (Ω) = 0. Parte 3, segue do fato que 1 = P (Ω) = P (A) + P (A c ) P (A), já que P (A c ) 0 por K1. Teorema : Mootoicidade. Se A B, etão P (A) P (B). Prova: Note que B = A (B A), ode A e B A são disjutos. Etão K3 implica que P (B) = P (A) + P (B A). O resultado segue do fato que P (B A) 0. Corolário : P (A B) max(p (A), P (B)) mi(p (A), P (B)) P (A B). Teorema : Uma expressão exata para a probabilidade de uma uião ão-disjuta é dada por P (A B) = P (A) + P (B) P (A B). Prova: Como A B = A (B A), e A e B A são disjutos, K3 implica que P (A B) = P (A) + P (B A). E como B = (A B) (B A), A B e B A são disjutos, K3 implica que P (B) = P (A B) + P (B A). Logo, P (A B) = P (A) + P (B) P (A B). Teorema : Probabilidade de Partições. Se {A i } é uma partição eumerável de Ω feita de cojutos em A, etão para todo B A P (B) = i P (B A i ).

22 1.6. AXIOMAS DE KOLMOGOROV 17 Prova: Como {A i } é uma partição, segue que B = B Ω = B ( i A i ) = i (B A i ). O resultado segue etão por K4. Teorema : Desigualdade de Boole. Para evetos arbitrários {A 1,..., A }, a desigualdade de Boole é P ( i=1a i ) P (A i ). Prova: Provaremos por idução matemática em. A desigualdade é trivialmete verdadeira para = 1 e verdadeira para = 2, pois é uma cosequêcia imediata do Teorema Assuma que a desigualdade é válida para = k e vamos provar que ela é válida para = k+1. Para ver isto, escrevemos k+1 i=1 A i = A k+1 k i=1a i. Pela desigualdade para = 2, Pela hipótese do passo idutivo, para = k, i=1 P ( k+1 i=1 A i) P (A k+1 ) + P ( k i=1a i ). P ( k i=1a i ) k P (A i ), i=1 portato, a desigualdade de Boole é verdadeira. Corolário : Para evetos arbitrários {A 1,..., A }, P ( A i ) P (A i ) ( 1). i=1 Prova: Utilizado a Lei de De Morga e a desigualdade de Boole para os evetos {A c 1,..., A c }, temos P ( i=1a c i) = 1 P ( A i ) P (A c i) = (1 P (A i )). i=1 i=1 Logo, P ( A i ) P (A i ) ( 1). i=1 O próximo teorema permite que possamos calcular de maeira exata a probabilidade P ( i=1a i ) para evetos arbitrários.

23 1.6. AXIOMAS DE KOLMOGOROV 18 Teorema : Pricípio da Iclusão-Exclusão. Seja I um cojuto geérico de ídices que é um subcojuto ão-vazio qualquer de {1, 2,..., }. Para evetos arbitrários {A 1,..., A }, P ( i=1a i ) = ( 1) I +1 P ( i I A i ), I {1,...,} ode o somatório é sobre todos os 2 1 cojutos de ídices excluido apeas o cojuto vazio. No caso particular de = 3, o pricípio de iclusão-exclusão afirma que P (A 1 A 2 A 3 ) = P (A 1 )+P (A 2 )+P (A 3 ) P (A 1 A 2 ) P (A 1 A 3 ) P (A 2 A 3 )+P (A 1 A 2 A 3 ). Prova: A prova é por idução matemática em. O resultado é trivialmete verdadeiro para = 1 e já foi provado para = 2 o Teorema Assuma que o resultado vale para = k e vamos provar que ele é verdadeiro para = k + 1. Como a prova da desigualdade de Boole, k+1 i=1 A i = A k+1 k i=1a i. Usado o resultado para = 2, temos P ( k+1 i=1 A i) = P (A k+1 ) + P ( k i=1a i ) P (A k+1 k i=1a 1 ). Reescrevedo o último termo como P ( k i=1(a k+1 A i )), os dá uma expressão que cotém uma uião de exatamete k cojutos. Etão, usado a hipótese do passo idutivo para os dois últimos termos P ( k+1 i=1 A i) = P (A k+1 )+ ( 1) I +1 P ( i I A i ) ( 1) I +1 P ( i I (A k+1 A i )). I {1,...,k} =I {1,...,k} O resultado segue ao rearrajarmos os termos destes somatórios. Exemplo : Professor Leôidas está tetado calcular a probabilidade p = P (A) do eveto A, e determiou que ela é uma raiz do seguite poliômio de grau cico: (p 3)(p 3 1)(p + 3 1)(p + 0.3)(p 0.3) = 0. Baseado esta fato, qual é o valor de p? Exemplo : Se Ω = {a, b, c}, e a álgebra A é o cojuto das partes de Ω, e a medida de probabilidade P é parcialmete defiida por P ({a, b}) = 0.5, P ({b, c}) = 0.8, P ({a, c}) = 0.7, etão complete a especificação de P para todos os evetos em A. Exemplo : Se {A i } for uma partição eumerável de Ω e P (A i ) = ab i, i 1, etão quais as codições que a e b devem satisfazer para que P seja uma medida de probabilidade?

24 1.6. AXIOMAS DE KOLMOGOROV 19 Exemplo : Em um grupo de r pessoas qual a probabilidade de haver pelo meos duas pessoas que façam aiversário o mesmo dia, assumido que a distribuição de aiversários é uiforme ao logo do ao e desprezado a existêcia de aos bissextos? Solução: Para determiar esta probabilidade, vamos utilizar a probabilidade clássica. O úmero de resultados possíveis para os aiversários de r pessoas é 365 r. O úmero de casos possíveis ode todas as pessoas fazem aiversário em dias diferetes é dado por (365 (r 1)). Portato, o úmero de casos possíveis ode pelo meos duas pessoas fazem aiversário o mesmo dia é a difereça etre o úmero total de aiversários possíveis e o úmero de casos ode as pessoas têm aiversários em datas diferetes, ou seja, é igual a Logo, a probabilidade deste eveto é: 365 r (365 (r 1)) (365 (r 1)) 365 r. Para r = 23, temos que essa probabilidade é aproximadamete igual a 0, 51. E para r = 50, essa probabilidade é igual a 0, 97. Exemplo : Em uma loteria de N úmeros há um só prêmio. Salvador compra (1 < < N) bilhetes para uma só extração e Sílvio compra bilhetes, um para cada uma de extrações. Qual dos dois jogadores têm mais chaces de gahar algum prêmio? Solução: A probabilidade de Salvador gahar algum prêmio é. O úmero total de N extrações possíveis é N. O úmero de casos ode Sílvio ão gaha ehum prêmio é (N 1), logo o úmero de casos ode Sílvio gaha algum prêmio é igual a N (N 1). Logo, a probabilidade de Sílvio gahar algum prêmio é 1 (N 1). N Vamos provar por idução que Salvador tem mais chace de gahar, ou seja, > 1 N (N 1), que equivale a N (N 1) > 1 N N. Para = 2, temos: (N 1) 2 = 1 2 N 2 N + 1 N > N. Supoha que para = k, temos que (N 1) k N k > 1 k N. Multiplicado esta expressão por N 1, obtemos: N (N 1) k+1 N k+1 > ( N 1 N )(1 k N ) = 1 1 N k N + k N 2 > 1 k + 1 N. Exemplo : Doze pessoas são divididas em três grupos de 4. Qual é a probabilidade de duas determiadas dessas pessoas ficarem o mesmo grupo?

25 1.6. AXIOMAS DE KOLMOGOROV 20 ( Solução: O úmero total de divisões de doze pessoas em 3 grupos de 4 é igual a 12 )( 8 )( 4 ) Vamos agora cotar o úmero de casos favoráveis ao osso eveto. Existem 3 opções de escolhermos em qual grupo as duas pessoas determiadas podem ficar. Das 10 pessoas restates, temos que escolher mais duas para estarem este grupo, o que podemos fazer de ( ) ( 10 2 maeiras diferetes. E temos 8 4 4)( 4) maeiras diferetes de dividir as outras 8 pessoas os dois grupos restates. Portato, a probabilidade de duas determiadas pessoas ficarem o mesmo grupo é: 3 ( )( ) 2 4)( 4) = ( 12 )( 8 )( Exemplo : Supoha que temos em uma sala mães cada uma com um filho. Supoha formemos duplas aleatoriamete, ode cada dupla cotém uma mãe e um filho, qual a probabilidade de que pelo meos uma mãe forme uma dupla com seu próprio filho? Solução: Seja A i o eveto que a i-ésima mãe forma dupla com seu filho. Queremos determiar P ( i=1a i ). Vamos calcular esta probabilidade utilizado a fórmula da iclusão exclusão. Note que: ( 1)! P (A i ) = = 1 para todo i {1, 2,..., }! ( 2)! 1 P (A i A j ) = =! ( 1) para i j e em geral, para um grupo I {1, 2,..., } de mães temos que P ( i I A i ) = ( I )!.! Como existem ( I ) grupos de mães com cardialidade I, temos que P ( i=1a i ) = = ( ) ( i)! ( 1) i+1 i! i=1 ( 1) i+1 1 i! i=1 Note que quado, temos que esta probabilidade tede a 1 1 e. Exemplo : Demostre que se P (A i ) = 1 para i = 1, 2,..., etão P ( i=1a i ) = 1. Solução: Como P (A i ) = 1, temos que P (A c i) = 1 P (A i ) = 0. Logo, pela desigualdade de Boole, temos P ( i=1a c i) i=1 P (Ac i) = 0. Logo, P ( i=1a c i) = 0. Portato, como pela Lei de De Morga, i=1a i = ( i=1a c i) c, temos que P ( i=1a i ) = 1 P ( i=1a c i) = 1. Exemplo : Demostre: se A 1, A 2,... e B 1, B 2,... são evetos aleatórios do mesmo espaço de probabilidade tais que P (A ) 1 e P (B ) p, etão P (A B ) p.

26 1.6. AXIOMAS DE KOLMOGOROV 21 Solução: Note que P (A B ) = 1 P ((A B ) c ) = 1 P (A c B c ) 1 P (A c ) P (B c ) = P (A ) + P (B ) 1. (1.1) Como P (B ) P (A B ) P (A ) + P (B ) 1, P (A ) + P (B ) 1 p e P (B ) p, pelo teorema do cofroto (ou saduíche), temos que P (A B ) p.

27 Capítulo 2 Probabilidade Codicioal 2.1 Probabilidade Codicioal Como vimos o capítulo aterior, existem várias possíveis iterpretações de probabilidade. Por exemplo, pode-se iterpretar probabilidade de um eveto A como um limite das freqüêcias relativas de ocorrêcia do eveto A em realizações idepedetes de um experimeto. Por outro lado, a iterpretação subjetiva de probabilidade associa a probabilidade de um eveto A com o grau de creça pessoal que o eveto A ocorrerá. Em ambos os casos, probabilidade é baseada em iformação e cohecimeto. Revisão desta base de iformação ou cohecimeto pode levar a revisão do valor da probabilidade. Em particular, cohecimeto que determiado eveto ocorreu pode iflueciar a probabilidade dos demais evetos. Cosiderado-se a iterpretação freqüetista de probabilidade, supoha que estejamos iteressados em saber qual a probabilidade de um dado eveto A, visto que sabe-se que um dado eveto B ocorreu. Supoha que realizasse um experimeto vezes das quais o eveto A (resp., B e A B) ocorre N A (resp., N B > 0 e N A B ) vezes. Seja r A = N A / a freqüêcia relativa do eveto A estas realizações do experimeto. A probabilidade codicioal de A dado que sabe-se que B ocorreu segudo esta iterpretação freqüetista, sugere que ela deve ser igual ao limite das freqüêcias relativas codicioais do eveto A dado o eveto B, isto é, ela deve ser o limite da razão N A B /N B quado tede ao ifiito. É fácil provar que esta razão é igual a r A B /r B, que por sua vez segudo a iterpretação freqüetista de probabilidade é aproximadamete igual a P (A B)/P (B) para valores grades de. Cosiderado-se uma iterpretação mais subjetiva supoha que a icerteza de um agete é descrita por uma probabilidade P em (Ω, A) e que o agete observa ou fica sabedo que o eveto B ocorreu. Como o agete deve atualizar sua probabilidade P ( B) de modo a icorporar esta ova iformação? Claramete, se o agete acredita que B é verdadeiro, etão parece razoável requerer que P (B c B) = 0 (2.1) Em relação aos evetos cotidos em B, é razoável assumir que sua chace relativa permaeça ialterada se tudo que o agete descobriu foi que o eveto B ocorreu, ou seja, se 22

28 2.1. PROBABILIDADE CONDICIONAL 23 A 1, A 2 B com P (A 2 ) > 0, etão P (A 1 ) P (A 2 ) = P (A 1 B) P (A 2 B) Segue que (2.1) e (2.2) determiam completamete P ( B) se P (B) > 0. (2.2) Teorema 2.1.1: Se P (B > 0) e P ( B) é uma medida de probabilidade em Ω que satisfaz (2.1) e (2.2), etão P (A B) P (A B) =. P (B) Prova: Como P ( B) é uma medida de probabilidade e satisfaz P (B c B) = 0, ós temos que P (B B) = 1 P (B c B) = 1. Cosiderado A 1 = A e A 2 = B em (2.2), temos etão P (A B) = P (A) para A B. Se A ão é um subcojuto de B, temos que A = P (B) (A B) (A B c ). Como (A B) e (A B c ) são evetos disjutos, temos P (A B) = P (A B B)+P (A B c B). Como A B c B c e P (B c B) = 0, temos que P (A B c B) = 0. Como A B B, usado o caso aterior P (A B) = P (A B B) = P (A B). P (B) Deste modo as iterpretações freqüetista e subjetivista de probabilidade justificam a seguite defiição. Defiição 2.1.2: Seja (Ω, A, P ) um espaço de probabilidade. Se A, B A e P (B) > 0 a probabilidade codicioal de A dado B é defiida por P (A B) = P (A B) P (B) Vamos provar que para um eveto fixo B que satisfaz P (B) > 0, P ( B) satisfaz os axiomas K1-K4 acima e realmete é uma medida de probabilidade. Para provar K1, ote que para todo A A, como P (A B) 0, ós temos P (A B) = Para provar K2, ote que Ω B = B, etão P (Ω B) = P (A B) P (B) P (Ω B) P (B) 0. = P (B) P (B) = 1. Fialmete, para provar K4 (que implica K3), ote que se A 1, A 2,... são mutuamete exclusivos A 1 B, A 2 B,... também o são, etão P ( i A i B) = P (( ia i ) B) = P ( i(a i B)) P (B) P (B) i = P (A i B) = P (A i B). P (B) i A probabilidade codicioal também satisfaz as seguites propriedades:

29 2.1. PROBABILIDADE CONDICIONAL P (B B) = 1; 2. P (A B) = P (A B B); 3. se A B, etão P (A B) = 1; 4. P (A B C) = P (A B C)P (B C). Fazedo C = Ω a propriedade 4 acima, temos que: P (A B) = P (A B)P (B). Utilizado idução matemática, pode-se facilmete provar que P (A 1 A 2... A ) = P (A 1 )P (A 2 A 1 )... P (A A 1... A 1 ). Um método de se obter uma probabilidade (icodicioal) de uma probabilidade codicioal é utilizado o Teorema da Probabilidade Total. Ates de euciar este teorema precisamos relembrar o que é uma partição do espaço amostral. Uma seqüêcia de evetos A 1, A 2, A 3,... é uma partição do espaço amostral Ω se estes evetos são mutuamete exclusivos e cotém todos os elemetos de Ω ( i A i = Ω). Teorema 2.1.3: todo A A Seja a seqüêcia de evetos B 1, B 2,... uma partição de Ω, etão para P (A) = P (A B i )P (B i ) i:p (B i ) 0 Prova: Como B 1, B 2,... é uma partição de Ω, temos que A = A Ω = A ( i B i ) = i (A B i ). Como os evetos B i s são mutuamete exclusivos, os evetos (A B i ) s também são mutuamete exclusivos. Etão axioma K3 implica que P (A) = P ( i (A B i )) = i = P (A B i ) = i:p (B i ) 0 i:p (B i ) 0 P (A B i ) P (A B i )P (B i ). Se ós iterpretarmos a partição B 1, B 2,... como possíveis causas e o eveto A correspoda a um efeito particular associado a uma causa, P (A B i ) especifica a relação estocástica etre a causa B i e o efeito A. Por exemplo, seja {D, D c } uma partição do espaço amostral, ode o eveto D sigifica que um dado idivíduo possui uma certa doeça. Seja A o eveto que determiado teste para

30 2.1. PROBABILIDADE CONDICIONAL 25 o diagóstico da doeça deu positivo. Etão, P (A D c ) descreve a probabilidade do exame dá positivo mesmo que o paciete esteja saudável, é a chamada probabilidade de falso positivo. P (A c D) é a probabilidade do exame dá egativo mesmo que o paciete esteja doete, é a chamada probabilidade de falso egativo. Estas probabilidades determiam a qualidade do teste, quato meores as probabilidades de falso egativo e falso positivo melhor a qualidade do teste. Caso as probabilidades P (D), P (A D), P (A D c ) sejam cohecidas pode-se usado o Teorema da Probabilidade Total obter a probabilidade icodicioal de determiado exame dar positivo P (A). Porém geralmete, o que se busca é saber que dado que o resultado de um exame deu positivo qual a probabilidade de que o idivíduo esteja doete. Pode-se obter esta probabilidade utilizado a famosa fórmula de Bayes: P (D A) = P (A D) P (A D) + P (A D c ) = P (A D)P (D) P (A D)P (D) + P (A D c )P (D c ). Para outro exemplo, supoha que os evetos B 1, B 2,... formam uma partição do espaço amostral, e os evetos B i ťs descrevem diferetes mesages emitidas em um sistema de comuicações e A descreve uma mesagem recebida pelo sistema. P (A B i ) determia a probabilidade que a mesagem B i seja emitida e a mesagem A seja recebida por este sistema. Essas probabilidades codicioais especificam o modelo do caal de comuicações. Caso, as probabilidades P (B i ) s de cada mesagem ser eviada e as probabilidades codicioais que descrevem o caal de comuicação sejam cohecidas pode-se usado o Teorema da Probabilidade Total obter a probabilidade icodicioal que determiada mesagem A seja recebida. Porém geralmete, o que se busca é saber que dado uma certa mesagem foi recebida (efeito) A qual a probabilidade de cada uma das mesages B i terem sido as mesages eviadas. Podem-se obter estas probabilidades utilizado a forma geral da famosa fórmula de Bayes: P (B i A) = P (A B i) j P (A B j) = P (A B i ) j:p (B j ) 0 P (A B j) P (A B i )P (B i ) = j:p (B j ) 0 P (A B j)p (B j ). É fácil de provar esta fórmula usado o Teorema da Probabilidade Total. As probabilidades P (B i ) são usualmete chamadas de probabilidades a priori e as probabilidades codicioais P (B i A) são chamadas de probabilidades a posteriori. O seguite exemplo ilustra uma aplicação da fórmula de Bayes. Exemplo 2.1.4: Cosidere uma imagem formada por m pixels com a k-ésima liha cotedo d k ( m) pixels defeituosos. No primeiro estágio do experimeto uma liha é escolhida ao acaso e ós ão sabemos qual foi a escolha. Nós etão examiamos um pixel selecioada ao acaso esta liha e descobrimos que o pixel é defectivo (chamamos este eveto de D). Qual a probabilidade de que este pixel defeituoso esteja a liha k? Seja R = k o eveto que este pixel pertecia a k-ésima liha da imagem. A fórmula de Bayes os permite determiar que dado que P (R = k) = 1 e P (D R = k) = d k m,

31 2.1. PROBABILIDADE CONDICIONAL 26 ós temos que P (R = k D) = 1 d km 1 d i i=1 m = d k i=1 d. i Etão, mesmo que a liha teha iicialmete sido escolhida ao acaso, dado o eveto que ecotramos ao acaso um pixel defectivo esta liha, agora é mais provável que seja uma liha cotedo um úmero grade de pixels defectivos d k. Exemplo 2.1.5: Uma ura cotém 4 bolas bracas e 6 bolas pretas. Sacam-se, sucessivamete e sem reposição, duas bolas dessa ura. Determie a probabilidade da primeira bola ser braca sabedo que a seguda bola é braca. Solução: Sejam B 1 e B 2 os evetos a primeira bola é braca e a seguda bola é braca, respectivamete. Queremos calcular P (B 1 B 2 ). Utilizado a fórmula de Bayes, temos P (B 1 B 2 ) = P (B 2 B 1 )P (B 1 ) P (B 2 B 1 )P (B 1 ) + P (B 2 B c 1)P (B c 1). Mas P (B 2 B 1 ) = 3 9, P (B 2 B c 1) = 4 9, P (B 1) = 4 10 e P (Bc 1) = Logo, P (B 1 B 2 ) = = = 1 3. Exemplo 2.1.6: Se P (C D) = 0, 4 e P (D C) = 0, 5, que eveto é mais provável C ou D? Solução: Exemplo 2.1.7: Se P (E) = 0, 4 e P (F ) = 0, 7, o que pode-se cocluir sobre P (E F )? Solução: Por defiição, temos que: P (E F ) = P (E F ). P (F ) Porém, sabemos que max(p (E) + P (F ) 1, 0) P (E F ) mi(p (E), P (F )). Logo, 0, 1 P (E F ) 0, 4, portato 0, 1 0, 7 P (E F ) 0, 4 0, 7. Exemplo 2.1.8: (Paradoxo de Moty Hall) Moty Hall foi um popular apresetador de programa de jogos em TV cujo jogo começava mostrado ao participate 3 portas fechadas d 1, d 2, d 3, e atrás de apeas uma delas havia um prêmio valioso. O participate selecioava uma porta, por exemplo, d 1, mas ates que a porta fosse aberta, Moty Hall, que sabia em que porta estava o prêmio, por exemplo, d 2, abria a porta restate d 3, que ão cotiha o prêmio. O participate tiha etão permissão para ficar com sua porta origial, d 1, ou escolher a outra porta fechada. A perguta é se é melhor ficar com a porta origial ou trocar de porta. Vamos agora utilizar a fórmula de Bayes para aalisar este problema. Seja G uma porta escolhida aleatoriamete para coter o prêmio; Y a porta que o participate escolhe primeiro; e M a porta que Moty Hall abre. O participate ão tem ehum cohecimeto

32 2.1. PROBABILIDADE CONDICIONAL 27 a priori sobre a localização do prêmio, ou seja ele cosidera todas as portas equiprováveis, e isto pode ser modelado por: P (G = d i Y = d j ) = 1 3 ; todas as portas tem a mesma probabilidade de coter o prêmio ão importa qual porta o participate escolhe. Se o participate escolher uma porta que ão cotém o prêmio, Moty Hall ecessariamete terá de abrir a porta que ão cotém o prêmio, isto pode ser modelado por: P (M = d i1 Y = d i2, G = d i3 ) = 1, ode i 1, i 2, i 3 {1, 2, 3} e são distitos. Se o participate escolher corretamete, por exemplo, Y = G = d i2, etão assumimos que Moty Hall escolhe aleatoriamete etre as outras duas outras portas: P (M = d i1 Y = G = d i2 ) = 1 2, para d i 1 d i2. 1 Para determiar se o participate deve trocar de porta, devemos calcular P (G = d 1 Y = d 2, M = d 3 ) = P (G = d 1, Y = d 2, M = d 3 ) P (Y = d 2, M = d 3 ) = P (M = d 3 G = d 1, Y = d 2 )P (G = d 1 Y = d 2 )P (Y = d 2 ) P (M = d 3 Y = d 2 )P (Y = d 2 ) = P (M = d 3 G = d 1, Y = d 2 )P (G = d 1 Y = d 2 ) P (M = d 3 Y = d 2 ) 1/3 = P (M = d 3 Y = d 2 ) Para determiar o valor de P (M = d 3 Y = d 2 ) utilizamos o Teorema da Probabilidade Total e a defiição de probabilidade codicioal: P (M = d 3 Y = d 2 ) = P (Y = d 2, M = d 3 ) P (Y = d 2 ) = P (Y = d 2, M = d 3, G = d 1 ) + P (Y = d 2, M = d 3, G = d 2 ) + P (Y = d 2, M = d 3, G = d 3 ) P (Y = d 2 ) = P (M = d 3 Y = d 2, G = d 1 )P (G = d 1 Y = d 2 )P (Y = d 2 ) P (Y = d 2 ) + P (M = d 3 Y = d 2, G = d 2 )P (G = d 2 Y = d 2 )P (Y = d 2 ) P (Y = d 2 ) + P (M = d 3 Y = d 2, G = d 3 )P (G = d 3 Y = d 2 )P (Y = d 2 ) P (Y = d 2 ) = P (M = d 3 Y = d 2, G = d 1 )P (G = d 1 Y = d 2 ) +P (M = d 3 Y = d 2, G = d 2 )P (G = d 2 Y = d 2 ) +P (M = d 3 Y = d 2, G = d 3 )P (G = d 3 Y = d 2 ) = = A solução depede como resolvemos este caso.

33 2.1. PROBABILIDADE CONDICIONAL 28 Logo, P (G = d 1 Y = d 2, M = d 3 ) = 2, e o participate deve trocar de porta de sua escolha 3 origial d 2 para d 1! Exemplo 2.1.9: Seja D o eveto que um idivíduo selecioado ao acaso de uma população tem uma doeça particular, D c seu complemeto. A probabilidade que um idivíduo selecioado ao acaso esta população teha determiada deça é p d. Existe um teste para diagóstico desta doeça que sempre acusa preseça da doeça quado o idivíduo tem a doeça. Cotudo, quado o idivíduo ão tem a doeça, o teste reporta falsamete que o idivíduo tem a doeça com probabilidade p t. Seja T P o eveto que o teste reporta positivamete que o idivíduo tem a doeça. Formalmete, temos: P (D) = p d, P (T P D) = 1, P (T P D c ) = p t. Um idivíduo deve estar iteressado em saber a probabilidade P (D T P ) que ele teha a doeça dado que o teste deu positivo. Se, por exemplo, a doeça for rara e p d = 0, 001, e o teste reportar falsamete com probabilidade pequea p t = 0, 05, veremos que apesar desta pequea probabilidade do teste da um resultado errado, a probabilidade do idivíduo ter a doeça é pequea. Pela fórmula de Bayes P (D T P ) = P (T P D)P (D) P (T P D)P (D) + P (T P D c )P (D c ) = p d p d + p t (1 p d ) = 0, 02. Embora probabilidade codicioal seja bastate útil, ela sofre de algus problemas, em particular quado se quer tratar de evetos de probabilidade zero. Tradicioalmete, se P (B) = 0, etão P (A B) ão é defiida. Isto leva a um úmero de dificuldades filosóficas em relação a evetos com probabilidade zero. São eles realmete impossíveis? Caso cotrário, quão improvável um eveto precisa ser ates de ele ser atribuído probabilidade zero? Deve um eveto em algum caso ser atribuído probabilidade zero? Se existem evetos com probabilidade zero que ão são realmete impossíveis, etão o que sigifica codicioar em evetos de probabilidade zero? Por exemplo, cosidere o espaço de probabilidade ([0, 1], B, µ) ode B é a σ-álgebra de Borel restrita a evetos cotidos em [0, 1] e µ é uma medida de probabilidade a qual todo itervalo em [0, 1] possui probabilidade igual ao seu comprimeto. Seja B = {1/4, 3/4} e A = {1/4}. Como µ(b) = 0, µ(a B) ão é defiida. Porém parece razoável assumir que este caso µ(a B) = 1/2 já que µ ituitivamete implica que todos os estados são equiprováveis, mas a defiição formal de probabilidade codicioal ão os permite obter esta coclusão. Uma maeira de cotorar algus destes problemas é utilizar probabilidades ão-padrão, que evolve coceitos de aálise matemática ão-padrão, que utiliza oções de ifiitesimais. Outro modo é cosiderar probabilidades codicioais (e ão icodicioais) como a oção fudametal. Uma medida de probabilidade codicioal tem pares de evetos A, B como argumetos. Formalmete, a medida de probabilidade codicioal é defiida em uma álgebra de Popper. Defiição : Uma álgebra de Popper sobre Ω é um cojuto A A de subcojutos de Ω Ω tal que (a) A é uma álgebra sobre Ω, (b) A é um subcojuto ão-vazio de A, e (c) A é fechado em relação a supercojutos em A, ou seja, se B A, B B, B A, etão B A.

34 2.2. INDEPENDÊNCIA 29 Pode-se etão defiir uma medida de probabilidade codicioal da seguite maeira: Defiição : Uma espaço de probabilidade codicioal é uma tupla (Ω, A, A, µ) tal que A A é uma álgebra de Popper sobre Ω e µ : A A [0, 1] satisfaz as seguites codições: CP1. µ(a A) = 1 se A A. CP2. µ(a 1 A 2 B) = µ(a 1 B) + µ(a 2 B) se A 1 A 2 =, A 1, A 2 A e B A. CP3. µ(a 1 A 2 A 3 ) = µ(a 1 A 2 A 3 ) µ(a 2 A 3 ) se A 2 A 3 A e A 1 A. 2.2 Idepedêcia O que exatamete sigifica que dois evetos são idepedetes? Ituitivamete, isto sigifica que eles ão têm ada haver um com o outro, eles são totalmete ão relacioados; a ocorrêcia de um ão tem ehuma ifluêcia sobre o outro. Por exemplo, supoha que duas diferetes moedas são laçadas. A maioria das pessoas viria os resultados desses laçametos como idepedetes. Portato, a ituição por trás da frase o eveto A é idepedete do eveto B é que osso cohecimeto sobre a tedêcia para A ocorrer dado que sabemos que B ocorreu ão é alterada quado ficamos sabedo que B ocorreu. Etão, usado probabilidades codicioais podemos formalizar esta ituição da seguite forma, A é idepedete de B se P (A B) = P (A). Mas usado a defiição de probabilidade codicioal, chega-se a seguite coclusão A é idepedete de B se P (A B) = P (A)P (B). Como esta última expressão é defiida iclusive para o caso de P (B) = 0, ela é a expressão adotada como a defiição de idepedêcia etre evetos. Defiição 2.2.1: O eveto A é idepedete do eveto B se P (A B) = P (A)P (B). Note que esta defiição de idepedêcia implica que idepedêcia é um coceito simétrico em teoria da probabilidade, isto é, A é idepedete de B se e somete se B é idepedete de A. Note que esta defiição também implica que evetos A e B são idepedetes se P (A) = 0 ou P (B) = 0, o que pode gerar algumas coclusões ão ituitivas se de fato P (A) = 0 ou P (B) = 0. Por exemplo, se P (A) = 0, etão A é idepedete dele mesmo, porém A certamete ão é ão relacioado cosigo mesmo. Similarmete, é fácil provar que se P (A) = 1, A é idepedete dele mesmo. O seguite teorema prova que estes são os úicos casos em que um eveto é idepedete dele mesmo. Teorema 2.2.2: A é idepedete dele mesmo se e somete se P (A) = 0 ou P (A) = 1. Prova: P (A A) = P (A) = P (A)P (A) P (A) = 0 ou P (A) = 1. Ituitivamete, se A é idepedete de B o fato que B ão ocorreu, ou seja que B c ocorreu, ão deve alterar a probabilidade de A. Portato, é de se esperar que se A e B são idepedetes, etão A e B c também são. O seguite teorema prova que esta ituição é verdadeira.

35 2.2. INDEPENDÊNCIA 30 Teorema 2.2.3: Se A e B são evetos idepedetes, A e B c (resp., A c e B, A c e B c ) também o são. Prova: Note que A = A Ω = A (B B c ) = (A B) (A B c ). Etão, como A B e A B c são mutuamete exclusivos, axioma K3 implica que P (A) = P (A B) + P (A B c ). Como A e B são idepedetes, ós temos P (A) = P (A)P (B) + P (A B c ). Rearrajado os termos e utilizado o fato que P (B c ) = 1 P (B), temos P (A B c ) = P (A)P (B c ), como queríamos demostrar. O coceito de idepedêcia também se aplica a uma coleção arbitrária de evetos {A i } i I, ode I é um cojuto de ídices. Neste caso, têm-se duas defiições. Defiição 2.2.4: Uma coleção de evetos {A i } i I é idepedete par a par se para todo i j I, A i e A j são evetos idepedetes. Defiição 2.2.5: Uma seqüêcia fiita de evetos A 1, A 2,..., A, 1, é mutuamete idepedete se para todo I {1,..., }, P ( i I A i ) = i I P (A i ) E uma coleção de evetos {A i } i I é mutuamete idepedete se para todo J I fiito, {A i } i J é mutuamete idepedete. Cosidere os seguites exemplos que ilustram o coceito de idepedêcia. Exemplo 2.2.6: Se Ω = {1, 2, 3, 4} e P ({w}) = 1/4, etão A = {1, 2}, B = {1, 3}, e C = {2, 3} são evetos idepedetes par a par. Pode-se verificar isto pelo fato que P (A B) = P ({1}) = 1 4 = = P (A)P (B). Similarmete, pode-se provar o mesmo resultado para os outros pares. Cotudo, a probabilidade P (A B C) = P ( ) = 0 P (A)P (B)P (C) = 1 8. Etão, A, B, e C ão são mutuamete idepedetes. Exemplo 2.2.7: Certo experimeto cosiste em laçar um dado equilibrado duas vezes, idepedetemete. Dado que os dois úmeros sejam diferetes, qual é a probabilidade codicioal de

36 2.2. INDEPENDÊNCIA 31 (a) pelo meos um dos úmeros ser 6, (b) a soma dos úmeros ser 8? Solução: Para parte (a), ote que existem 30 resultados possíveis para os laçametos do dado de modo que o mesmo úmero ão se repita, dos quais 10 o úmero 6 ocorre. Portato, esta probabilidade é igual a 1/3. Para parte (b), ote que existem 4 resultados possíveis que somam 8 dado que os úmeros são diferetes, logo esta probabilidade é igual a 4/30. Exemplo 2.2.8: Supoha que um determiado experimeto é realizado repetidas vezes de forma idepedete e observa-se a ocorrêcia de determiado eveto A que tem probabilidade p. Qual é a probabilidade que A occorra vezes ates de A c ocorrer m vezes? Solução: Note que o eveto A ocorra vezes ates de A c ocorrer m vezes é equivalete ao eveto A ocorrer pelo meos vezes as primeiras + m 1 repetições do experimeto. Como a ordem de ocorrêcia do eveto A as repetições ão é importate e as repetiç es são idepedetes, temos que o eveto A ocorre k vezes em + m 1 repetições do experimeto tem probabilidade igual a: ( ) + m 1 P (k ocorrêcias de A em + m 1 repetições) = p k (1 p) +m 1 k. k e, etão, P ( ocorrêcias de A ates de m ocorrêcias de A c ) = +m 1 k= ( + m 1 k ) p k (1 p) +m 1 k. Exemplo 2.2.9: Assuma que A 1,..., A são evetos mutuamete idepedetes e que P (A i ) = p i. Nós calculamos as probabilidades dos seguites evetos: O eveto A é o eveto que todos estes evetos ocorrem, etão P (A) = P ( i=1a i ) = P (A i ) = i=1 i=1 p i O eveto B é o eveto que ehum desses evetos ocorre, etão P (B) = P ( i=1a c i) = P (A c i) = i=1 (1 p i ) i=1 O eveto C é o eveto que pelo meos um desses evetos ocorre, etão C = B c P (C) = P (B c ) = 1 P (B) = 1 (1 p i ) i=1

37 2.2. INDEPENDÊNCIA 32 Exemplo : João e José disputam um jogo com uma moeda equilibrada. Cada jogador laça a moeda duas vezes e vece o jogo aquele que primeiro obtiver dois resultados iguais. João começa jogado e se ão vecer passa a moeda para José e cotiuam alterado jogadas. Qual a probabilidade de João vecer o Jogo? Solução: Seja A k o eveto dois resultados iguais são obtidos a k-ésima tetativa. Note que P (A k ) = 1 2. Seja B k o eveto João gaha a sua k-ésima jogada. Etão, B 1 = A 1 ; B 2 = A c 1 A c 2 A 3 ; B 3 = A c 1 A c 2 A c 3 A c 4 A 5, em geral, Portato, B k = A c 1 A c 2 A c 2k 2 A 2k 1. P (B k ) = P (A c 1 A c 2 A c 2k 2 A 2k 1 ) = P (A c 1)P (A c 2) P (A c 2k 2)P (A 2k 1 ) = ( 1 2 )2k 1, ode a peúltima igualdade se deve ao fato dos laçametos serem idepedetes. Logo, P (João vecer) = P ( k=1b k ) = P (B k ) = k=1 ( 1 2 )2k 1 = 2 3. k=1

38 Capítulo 3 Variável Aleatória 3.1 Itrodução Supoha que uma moeda é laçada cico vezes. Qual é o úmero de caras? Esta quatidade é o que tradicioalmete tem sido chamada de variável aleatória. Ituitivamete, é uma variável porque seus valores variam, depededo da sequêcia de laçametos da moeda realizada; o adjetivo aleatória é usado para efatizar que o seu valor é de certo modo icerto. Formalmete, cotudo, uma variável aleatória ão é em aleatória em é uma variável. Defiição 3.1.1: Seja (Ω, A, P ) um espaço de probabilidade. Uma fução X : Ω R é chamada de variável aleatória se para todo eveto Boreliao B, X 1 (B) A. Por defiição, temos que X 1 (B) = {ω Ω : X(ω) B} é o cojuto de elemetos do espaço amostral cuja imagem segudo X está em B. Nós recordamos que um eveto Boreliao é qualquer eveto pertecete à σ-álgebra de Borel, ode a σ-álgebra de Borel é a meor σ-álgebra cotedo todos os itervalos. Para determiar se uma dada fução X de Ω para os reais é uma variável aleatória usado a defiição, precisa-se checar se para todo eveto Boreliao B, a imagem iversa de B de acordo com X faz parte da σ-álgebra A. O próximo teorema prova que a verdade, só precisamos checar que a imagem iversa de itervalos da forma (, x] pertece à σ-álgebra A. Teorema 3.1.2: Seja (Ω, A) um espaço mesurável. Uma fução real X : Ω R é uma variável aleatória se e somete se X 1 ((, λ]) = {w : X(w) λ} A, λ R. Prova: Para provar este teorema, ós precisamos de uma série de Lemas. Lema 3.1.3: Seja B a σ-álgebra de Borel, etão X 1 (B) = {X 1 (B) : B B} é uma σ-álgebra de evetos de Ω. 33

39 3.1. INTRODUÇÃO 34 Prova: Nós verificamos os três postulados para uma σ-álgebra: (i) Ω X 1 (B). Como R B, ós temos X 1 (R) = Ω X 1 (B). (ii) Se A X 1 (B), etão A c X 1 (B). Supoha que A X 1 (B), etão existe A B tal que A = X 1 (A ). Como B é uma σ-álgebra, temos que (A ) c B. Logo, X 1 ((A ) c ) X 1 (B). Como temos que A c X 1 (B). X 1 ((A ) c ) = (X 1 (A )) c, (iii) Se A 1, A 2,... X 1 (B), etão i=1a i X 1 (B). Supoha que A 1, A 2,... X 1 (B), etão existem A 1, A 2,... B tais que A i = X 1 (A i) para i 1. Como B é uma σ-álgebra, temos que i=1a i B. Logo, X 1 ( i=1a i) X 1 (B). Como temos que i=1a i X 1 (B). i=1x 1 (A i) = X 1 ( i=1a i), Dado qualquer classe de cojutos C, deotamos por σ(c) a meor σ-álgebra cotedo C. Desta forma se B = {(, λ] : λ R}, etão B = σ(b ). O próximo lema prova um resultado semelhate ao do lema aterior, porém mais forte. Lema 3.1.4: X 1 (B) = σ(x 1 (B )), isto é, a imagem iversa de evetos Boreliaos é igual a meor σ-álgebra cotedo as images iversas dos evetos Boreliaos. Prova: De acordo com Lema 3.1.3, X 1 (B) é uma σ-álgebra. Como B B, temos que X 1 (B ) X 1 (B). Etão, por defiição de meor σ-álgebra, temos que σ(x 1 (B )) X 1 (B). Para provar igualdade, defiimos F = {B R : X 1 (B ) σ(x 1 (B ))}. É fácil provar que F é uma σ-álgebra; ós omitimos os detalhes. Por defiição, temos que X 1 (F) σ(x 1 (B )) e B F. Como F é uma σ-álgebra, B = σ(b ) F. Portato, X 1 (B) X 1 (F) σ(x 1 (B )).

40 3.2. FUNÇÃO DE DISTRIBUIÇÃO ACUMULADA 35 Agora ós podemos provar o teorema. Supoha que X 1 (B ) A. Por defiição de meor σ-álgebra, σ(x 1 (B )) A. Etão, pelo Lema 3.1.4, X 1 (B) A, o que implica que X é uma variável aleatória. Dada uma variável aleatória X, pode-se defiir uma probabilidade iduzida P X o espaço mesurável (R, B) da seguite maeira: para todo A B, defiimos P X (A) = P (X 1 (A)). Por defiição de variável aleatória, tem-se que X 1 (A) A, etão P X está bem defiida. Resta provar que P X satisfaz os axiomas K1, K2, e K4 de probabilidade: K1. P X (A) = P (X 1 (A)) 0. K2. P X (R) = P (X 1 (R)) = P (Ω) = 1. K4. Supoha que A 1, A 2,... são evetos Boreliaos disjutos. Etão, P X ( i A i ) = P (X 1 ( i A i )) = P ( i X 1 (A i )) = i P (X 1 (A i )) = i P X (A i ). 3.2 Fução de Distribuição Acumulada Para uma variável aleatória X, uma maeira simples e básica de descrever a probabilidade iduzida P X é utilizado sua fução de distribuição acumulada. Defiição 3.2.1: A fução de distribuição acumulada de uma variável aleatória X, represetada por F X, é defiida por F X (x) = P X ((, x]), x R. A fução de distribuição acumulada F X satisfaz as seguites propriedades: F1. Se x y, etão F X (x) F X (y). x y (, x] (, y] P X ((, x]) P X ((, y]) F X (x) F X (y). F2. Se x x, etão F X (x ) F X (x). Se x x, etão os evetos (, x ] são decrescetes e (, x ] = (, x]. Logo, pela cotiuidade da medida de probabilidade, tem-se que P X ((, x ]) P ((, x]), ou seja, F X (x ) F X (x). F3. Se x, etão F X (x ) 0, e se x, etão F X (x ) 1. Se x, etão os evetos (, x ] são decrescetes e (, x ] =. Logo, pela cotiuidade da medida de probabilidade, tem-se que P X ((, x ]) P ( ), ou seja, F X (x ) 0. Similarmete, se x, etão os evetos (, x ] são crescetes e (, x ] = IR. Logo, pela cotiuidade da medida de probabilidade, tem-se que P X ((, x ]) P (Ω), ou seja, F X (x ) 1.

41 3.2. FUNÇÃO DE DISTRIBUIÇÃO ACUMULADA 36 Teorema 3.2.2: Uma fução real G satisfaz F1 F3 se e somete se G é uma distribuição de probabilidade acumulada. Prova: A prova de que se G for uma distribuição de probabilidade acumulada, etão G satisfaz F1-F3 foi dada acima. A prova de que toda fução real que satisfaz F1-F3 é uma fução de probabilidade acumulada é complexa evolvedo o Teorema da Extesão de Carathéodory. Nós apresetamos aqui um esquema de como a prova é feita. Primeiro defie-se P X ((, x]) = F X (x), P X ((x, )) = 1 F X (x), e P X ((a, b]) = F X (b) F X (a). Com esta defiição, cosidera-se a álgebra formada por uião fiita de itervalos e prova-se que P X é σ-aditiva esta álgebra. Fialmete, aplica-se o Teorema da Extesão de Carathéodory para provar que P X pode ser estedida para todo eveto Boreliao. Observação 3.2.3: Uma fução de distribuição pode correspoder a várias variáveis aleatórias o mesmo espaço de probabilidade (Ω, A, P ). Por exemplo, se X tem uma distribuição ormal com parâmetros 0 e 1, etão por simetria é fácil ver que X também distribuição ormal com parâmetros 0 e 1. Cosequetemete, F X = F X. No etato, P (X = X) = P (X = 0) = 0. Codição F2 sigifica que toda fução distribuição de probabilidade acumulada F X é cotiua à direita. Aida mais, como F X é ão-decrescete e possui valores etre 0 e 1, pode-se provar que ela tem um úmero eumerável de descotiuidades do tipo salto. Pela cotiuidade à direita, o salto o poto x é igual a F X (x) F X (x ) = F X (x) lim F (x 1 ) = P X ((, x]) lim P X ((, x 1 ]) = lim P X ((x 1, x]). Como a sequêcia de evetos (x 1, x] é decrescete e (x 1, x] = {x}. Temos que {x} é Boreliao e P X (x) = F X (x) F X (x ). Ou seja, a probabilidade da variável aleatória X assumir o valor x é igual ao salto da fução de distribuição acumulada F X o poto x. O próximo teorema idica que o cojuto de potos de descotiuidade de F é eumerável. Teorema 3.2.4: Seja D o cojuto de potos de descotiuidade da fução de distribuição F. Etão, D é eumerável. Prova: Pela mootoicidade, temos que para todo x IR, F (x ) F (x) F (x + ). Logo, x D se, e somete se, F (x + ) > F (x ). Para = 1, 2, 3,... seja A = {x : F (x + ) F (x ) > 1 }.

42 3.3. TIPOS DE VARIÁVEL ALEATÓRIA 37 Etão, D = =1A. Vamos verificar que todo A cotém meos que potos e, portato, é fiito. Dessa forma, D será eumerável. Por absurdo, supoha que exista A que cotém potos. Assim, A = {x 1, x 2,..., x }, ode x 1 < x 2 < x e 0 F (x 1 ) F (x + 1 ) F (x 2 ) F (x + 2 ) F (x ) F (x + ) 1. Etão, temos k=1 [F (x+ k ) F (x k )] 1. Mas por defiição do cojuto A, temos que F (x + i ) F (x i ) > 1 para todo x i A. Portato, k=1 [F (x+ k ) F (x k )] > 1 > 1, absurdo. Logo, A cotém meos que potos. 3.3 Tipos de Variável Aleatória Defiição 3.3.1: Existem três tipos de variáveis aleatórias: Discreta. Uma variável aleatória X é discreta se assume um úmero eumerável de valores, ou seja, se existe um cojuto eumerável {x 1, x 2,...} R tal que X(w) {x 1, x 2,...}, w Ω. A fução p(x i ) defiida por p(x i ) = P X ({x i }), i = 1, 2,... e p(x) = 0 para x / {x 1, x 2,...}, é chamada de fução probabilidade de X. Note que este caso, temos F X (x) = p(x i ). i:x i x Cotíua. Uma variável aleatória X é cotíua se existe uma fução f X (x) 0 tal que F X (x) = x f X (t)dt, x R. Neste caso, a fução f X é chamada de fução desidade de probabilidade de X. Sigular. Uma variável aleatória X é sigular se F X é uma fução cotíua cujos potos de crescimeto formam um cojuto de comprimeto (medida de Lebesgue) ulo. Pode-se provar que toda fução de distribuição de probabilidade acumulada F X pode ser decomposta a soma de o máximo três fuções de distribuição de probabilidade acumuladas, sedo uma discreta, uma cotíua e outra sigular. Na próxima seção aalisaremos as variáveis aleatórias discretas Variável Aleatória Discreta Vamos cosiderar agora o caso das variáveis aleatórias discretas. Nós vimos a seção aterior que se uma variável aleatória é discreta, etão ós podemos defiir uma fução de probabilidade p de modo que p(x i ) = P X ({x i }), i = 1, 2,..., ode X {x 1, x 2,...} e p(x) = 0 para x / {x 1, x 2,...}. Note que toda fução de probabilidade é uma fução dos reais R e

43 3.3. TIPOS DE VARIÁVEL ALEATÓRIA 38 assume valores etre 0 e 1, sedo positiva para um úmero eumerável de potos e satisfaz a seguite propriedade i p(x i) = 1. Por outro lado, dada uma fução p : R [0, 1], ode p é positiva para um úmero eumerável de potos {x 1, x 2,...} e satisfaz i p(x i) = 1, uma fução P defiida os evetos Boreliaos de modo que P (A) = x i A p(x i), A B é uma medida de probabilidade em (R, B) (é fácil verificar que P satisfaz os axiomas de Kolmogorov e portato é uma medida de probabilidade). Logo, a distribuição de uma variável aleatória discreta X pode ser determiada tato pela fução de distribuição acumulada F X ou pela sua fução de probabilidade p Variável Aleatória Cotíua Vamos cosiderar agora o caso das variáveis aleatórias cotíuas. Nós vimos a seção aterior que se uma variável aleatória é (absolutamete) cotíua, etão existe uma fução f X (x) 0 tal que F X (x) = x f X(t)dt. Deste modo, F X é cotíua e f X (x) = F X (x), exceto um cojuto de medida de Lebesgue ula. Uma fução f(x) 0 é desidade de alguma variável aleatória se e somete se, f(x)dx = 1, já que este caso é fácil provar que a fução F defiida por x f(t)dt satisfaz as codições F1, F2, e F3. Portato, pelo Teorema F é uma fução de distribuição acumulada. Logo, a distribuição de uma variável aleatória cotíua X pode ser determiada tato pela fução de distribuição acumulada F X ou pela sua fução de desidade f X. Uma variável aleatória X tem desidade se F X é a itegral (de Lebesgue) de sua derivada; sedo este caso a derivada de F X uma fução desidade para X. Este fato pode ser provado utilizado argumetos de Teoria da Medida, mas omitimos os detalhes aqui. Sem recorrer a argumetos evolvedo Teoria da Medida, em quase todos os casos ecotrados a prática, uma variável aleatória X tem desidade se F X é (i) cotíua e (ii) derivável por partes, ou seja, se F X é derivável o iterior de um úmero fiito ou eumerável de itervalos fechados cuja uião é a reta R. Por exemplo, cosidere 0 se x < 0, F X (x) = x se 0 x < 1, 1 se x 1. Etão X tem desidade pois F X é cotíua e derivável em todos os potos da reta exceto em {0, 1} Variável Aleatória Sigular Vamos esta seção dar o exemplo de uma fução de distribuição de uma variável aleatória sigular cohecida como fução de Cator. Esta fução é cotíua, derivável em todo poto exceto em um cojuto de medida de Lebesgue ula, mas ão é absolutamete cotíua. Seja F (x) = 0 se x < 0 e F (x) = 1 se x > 1. Cotiuemos por etapas: Etapa 1: Seja F (x) = 1 para x (1/3, 2/3). Etão, o valor de F este itervalo é igual a 2 média dos valores de F os itervalos vizihos em que F já está defiida: (, 0) e

44 3.3. TIPOS DE VARIÁVEL ALEATÓRIA 39 (1, ). F cotiua sem defiição em dois itervalos: [0, 1/3] e [2/3, 1] de comprimeto total 2/3. Etapa + 1: No terço cetral de cada um dos 2 itervalos restates após a etapa, seja F (x) igual à média dos valores os dois itervalos vizihos ode F já está defiida. Por exemplo, a etapa 2 defia F (x) = 1/4 para x (1/9, 2/9) e F (x) = 3/4 para x (7/9, 8/9). Restarão etão 2 +1 itervalos (o dobro do úmero restate após a etapa ), de comprimeto total (2/3) +1, em que F aida ão estará defiida. Etão defiimos F por idução em um úmero eumerável de itervalos abertos, cujo complemetar (ou seja, o cojuto ode F aida ão está defiida) é o cojuto de Cator, um cojuto de comprimeto 0. Podemos esteder a defiição de F até o cojuto de Cator C por cotiuidade: se x C, a difereça etre os valores de F os dois itervalos vizihos após a etapa é 1/2. Note que F é moótoa ão decrescete em C c. Se a é o valor de F o itervalo viziho esquerdo após a etapa, e b é o valor o itervalo viziho direito após a etapa, etão, a, b e b a 0. Seja F (x) o limite comum de a e b. Deste modo F está defiida em toda reta e é de fato uma fução de distribuição (verifique!). Seja X uma variável aleatória cuja fução de distribuição é F, a fução de Cator. Etão X ão é discreta e em cotíua pois X ão tem desidade F (x) = 0 em C c e x F (t)dt = 0, ou seja, F ão é a itegral de sua derivada, ou melhor, ão é absolutamete cotíua. Como F é cotíua e F (x) = 0 para x C c e C tem comprimeto ulo, temos que X é uma variável aleatória sigular Decomposição de uma Variável Aleatória Vamos ver agora que toda variável aleatória é uma mistura dos três tipos: discreto, cotíuo e sigular. Seja X uma variável aleatória qualquer e seja F sua fução de distribuição. Se J = {x 1, x 2,...} é o cojuto dos potos de salto de F (se F for cotíua J = ), idiquemos com p i o salto o poto x i, ou seja, p i = F (x i ) F (x i ). Defiimos F d (x) = i:x i x p i. F d é uma fução degrau ão-decrescete: a parte discreta de F. Como uma fução moótoa possui derivada em quase toda parte, seja { F f(x) = (x) se F é difereciável em x, 0 se F ão é difereciável em x. Seja F ac (x) = x f(t)dt. F ac é ão-decrescete, pois a itegral idefiida de uma fução ao-egativa (f 0 porque F é ão-decrescete). A sua derivada é igual a f em quase toda parte, de modo que F ac é absolutamete cotíua: F ac é a parte absolutamete cotíua de F. Seja F s (x) = F (x) F d (x) F ac (x). F s é cotíua pois é a difereça de duas fuções cotíuas. A derivada de F s é igual a zero em quase toda parte, porque F e F ac têm a mesma derivada f, e F d possui derivada zero em quase toda parte. Pode-se provar que F s também é ão-decrescete, mas está fora do escopo deste curso. F s é a parte sigular de F.

45 3.4. PRINCIPAIS DISTRIBUIÇÕES DE PROBABILIDADE 40 Esta discussão os dá um método de decompor F em suas partes discreta, absolutamete cotíua e sigular. Cosidere o seguite exemplo: Exemplo 3.3.2: Supoha que X U[0, 1] e Y = mi(x, 1/2). Note que 0 se x < 0, F Y (x) = x se 0 x < 1/2, 1 se x 1/2. F Y tem apeas um salto em x = 1/2 e p 1 = 1/2. Logo, F d (x) = 0 se x < 1/2 e F d (x) = 1/2 se x 1/2. Difereciado F Y, temos { 0 se x < 0 ou x > 1/2, F Y (x) = 1 se 0 < x < 1/2. Logo, por defiição, Portato, F ac (x) = f(x) = x { 0 se x 0 ou x 1/2, 1 se 0 < x < 1/2. 0 se x < 0, f(t)dt = x se 0 x 1/2, 1/2 se x > 1/2. Como F d + F ac = F Y, temos que F s (x) = 0, x IR e ão há parte sigular. Uma variável aleatória que possui apeas partes discreta e absolutamete cotíua é cohecida como uma variável aleatória mista. Na prática, é pouco provável que surja uma variável aleatória sigular. Portato, quase todas as variáveis aleatórias são discretas, cotíuas ou mistas. A seguir veremos os pricipais tipos de distribuições. 3.4 Pricipais Distribuições de Probabilidade Vamos primeiro explorar algus exemplos importates de variáveis aleatórias discretas. Aleatória. Dizemos que X tem uma distribuição aleatória com parâmetro, ode é um úmero iteiro, se X(w) {x 1, x 2,..., x } e p(x i ) = 1, para i {1,..., }. A fução de probabilidade aleatória pode ser utilizada para modelar mecaismos de jogos (por exemplo, dados e moedas balaceados, cartas bem embaralhadas). Utilizado a propriedade de aditividade da probabilidade, é fácil ver que para qualquer eveto A {x 1, x 2,..., x }, temos que P (X A) = A.

46 3.4. PRINCIPAIS DISTRIBUIÇÕES DE PROBABILIDADE 41 Beroulli. Dizemos que X tem uma distribuição Beroulli com parâmetro p, ode 0 p 1, se X(w) {x 0, x 1 } e p(x 1 ) = p = 1 p(x 0 ). A fução de probabilidade Beroulli pode ser utilizada para modelar a probabilidade de sucesso em uma úica realização de um experimeto. Em geral, qualquer variável aleatória dicotômica, ou seja que assume somete dois valores, pode ser modelada por uma distribuição Beroulli. Biomial. Dizemos que X tem uma distribuição Biomial com parâmetros e p, ode é um úmero iteiro e 0 p 1, se X(w) {0, 1,..., } e p(k) = ( k) p k (1 p) 1 k, para k {0, 1,..., }. Note que utilizado o Teorema Biomial, temos que p(k) = k=0 k=0 ( ) p k (1 p) k = (p + 1 p) = 1. k Logo, esta é uma legítima fução probabilidade de massa. A fução de probabilidade Biomial pode ser utilizada para modelar a quatidade de erros em um texto de símbolos quado os erros etre símbolos são assumidos idepedetes e a probabilidade de erro em um símbolo do texto é igual a p. Também pode ser utilizada para modelar o úmero de caras em laçametos de uma moeda que possui probabilidade p de cair cara em cada laçameto. Se p = 1/2, temos um modelo para o úmero de 1 s em uma sequêcia biária de comprimeto escolhida aleatoriamete ou o úmero de caras em laçametos de uma moeda justa. Geométrica. Dizemos que X tem uma distribuição Geométrica com parâmetro β, ode 0 β < 1, se X(w) {0, 1,...} e p(k) = (1 β)β k, para k {0, 1,...}. Utilizado o resultado de uma soma ifiita de uma Progressão Geométrica, temos que p(k) = k=0 (1 β)β k = (1 β) β k = 1. k=0 k=0 Logo, esta é uma legítima fução probabilidade de massa. A fução de probabilidade Geométrica pode ser utilizada para modelar o tempo de espera medido em uidades de tempo iteira até a chegada do próximo cosumidor em uma fila, até a próxima emissão de um fóto, ou até a primeira ocorrêcia de cara uma sequêcia de laçametos de uma moeda. Biomial Negativa ou Pascal. Esta distribuição é uma geeralização óbvia da distribuição geométrica. Supoha que ao ivés de estarmos iteressados o tempo de espera até a primeira ocorrêcia de um eveto,

47 3.4. PRINCIPAIS DISTRIBUIÇÕES DE PROBABILIDADE 42 estejamos iteressados em calcular o tempo de espera até a r-ésima ocorrêcia de um eveto. Seja Y o tempo de espera ecessário a fim de que um eveto A possa ocorrer exatamete r vezes. Temos que Y = k se, e somete se, A ocorrer a (k + 1)-ésima repetição e A tiver ocorrido r 1 vezes as k repetições ateriores. Assumido idepedêcia etre os experimetos, esta probabilidade é igual p ( k r 1) p r 1 (1 p) k r+1. Portato, ( ) k P (Y = k) = p r (1 p) k r+1, ode k r 1. r 1 Note que se r = 1, temos que Y tem uma distribuição geométrica com parâmetro β = 1 p. No caso geral, dizemos que Y tem uma distribuição Biomial Negativa ou Pascal. Relação etre as Distribuições Biomial e Biomial Negativa. Supohamos que X teha distribuição biomial com parâmetros e p, ou seja, X é igual ao úmero de sucessos em esaios repetidos de Beroulli com probabilidade de sucesso p. Supohamos que Y teha uma distribuição Biomial Negativa com parâmetros r e p, ou seja, Y + 1 é o úmero de esaios de Beroulli ecessários para se obter r sucessos com probabilidade de sucesso p. Etão, temos que {X r} = Y + 1, ou seja, o úmero de sucessos em esaios é maior ou igual a r se, e somete se, o tempo de espera para o r-ésimo sucesso for meor ou igual a 1. Portato, P (X r) = P (Y 1). Observe que estas duas distribuições tratam de esaios de Beroulli repetidos. A distribuição biomial surge quado lidamos com um úmero fixo de esaios e estamos iteressados o úmero de sucessos que veham a ocorrer. A distribuição biomial egativa é ecotrada quado fixamos o úmero de sucessos e etão registramos o tempo de espera ecessário. Zeta ou Zipf. Dizemos que X tem uma distribuição Zeta ou Zipf com parâmetro α, ode α > 1, se X(w) {1, 2,...} e p(k) = k α, k = 1, 2,..., ζ(α) ode ζ(α) = k=1 k α é cohecida como a fução Zeta de Riema. A fução de probabilidade Zeta ou Zipf é um exemplo de uma distribuição de cauda pesada cuja importâcia cresceu bastate desde meados dos aos As aplicações desta fução de probabilidade icluem: úmero de cosumidores afetados por um blackout, tamahos de arquivos solicitados em trasferêcia via Web e atraso de pacotes a iteret. Hipergeométrica. A distribuição hipergeométrica descreve o úmero de sucessos em uma sequêcia de amostras de uma população fiita sem reposição. Por exemplo, cosidere que tem-se uma carga com N objetos dos quais D têm defeito. A distribuição hipergeométrica descreve a probabilidade de que em uma amostra de objetos distitos escolhidos da carga aleatoriamete exatamete k objetos sejam defeituosos.

48 3.4. PRINCIPAIS DISTRIBUIÇÕES DE PROBABILIDADE 43 Em geral, se uma variável aleatória X segue uma distribuição hipergeométrica com parâmetros N, D, e, etão a probabilidade de termos exatamete k sucessos é dada por ( D N D ) p(k) = k)( k ( N. ) Esta probabilidade é positiva se: N D k, ou seja k max(0, D + N), e k mi(, D). Esta fórmula pode ser etedida assim: existem ( N ) possíveis amostras sem reposição. Existem ( ) ( D k maeiras de escolher k objetos defeituosos e existem N D ) k maeiras de preecher o resto da amostra com objetos sem defeito. Quado a população é grade quado comparada ao tamaho da amostra (ou seja, N for muito maior que ) a distribuição hipergeométrica é aproximada razoavelmete bem por uma distribuição biomial com parâmetros (tamaho da amostra) e p = D/N (probabilidade de sucesso em um úico esaio). Poisso. Dizemos que X tem uma distribuição Poisso com parâmetro λ, ode λ 0, se X(w) λ λk {0, 1,...} e p(k) = e, para k {0, 1,...}. k! Por defiição, temos que para todo x real, e x = k=0 x k k!. Utilizado este fato, temos que p(k) = k=0 e λ λ k k=0 k! = e λ k=0 λ k k! = e λ e λ = 1. Logo, esta é uma legítima fução probabilidade de massa. A fução de probabilidade Poisso é utilizada para modelar a cotagem do úmero de ocorrêcias de evetos aleatórios em um certo tempo T : úmero de fótos emitidos por uma fote de luz de itesidade I fótos/seg em T segudos (λ = IT ), úmero de clietes chegado em uma fila o tempo T (λ = CT ), úmero de ocorrêcias de evetos raros o tempo T (λ = CT ). Poisso como um Limite de Evetos Raros de Biomial Supohamos que chamadas telefôicas cheguem em uma grade cetral, e que em um período particular de três horas (180 miutos), um total de 270 chamadas teham sido recebidas, ou seja, 1,5 chamadas por miuto. Supohamos que queiramos calcular a probabilidade de serem recebidas k chamadas durate os próximos três miutos. Ao cosiderar o feômeo da chegada de chamadas, poderemos chegar à coclusão de que, a qualquer istate, uma chamada telefôica é tão provável de ocorrer como em qualquer

49 3.4. PRINCIPAIS DISTRIBUIÇÕES DE PROBABILIDADE 44 outro istate. Como em qualquer itervalo de tempo, temos um úmero ifiito de potos, vamos fazer uma série de aproximações para este cálculo. Para começar, pode-se dividir o itervalo de 3 miutos em ove itervalos de 20 segudos cada um. Poderemos etão tratar cada um desses ove itervalos como um esaio de Beroulli, durate o qual observaremos uma chamada (sucesso) ou ehuma chamada (falha), com probabilidade de sucesso igual a p = 1, 5 20 = 0, 5. Desse modo, poderemos 60 ser tetados a afirmar que a probabilidade de 2 chamadas é igual a ( ) 9 2 (0, 5) 9 = 9. Porém, este cálculo igora a possibilidade de que mais de uma chamada possa ocorrer em um 128 úico itervalo. Etão, queremos aumetar o úmero de subitervalos de tempo de modo que cada subitervalo correspode a 180 segudos e etão a probabilidade de ocorrêcia de uma chamada em um subitervalo é igual a p = 1, Desta maeira temos que 60 p = 4, 5 permaece costate ao crescermos o úmero de subitervalos. Utilizado ovamete ( o modelo biomial, temos que a probabilidade de ocorrerem k chamadas é dada por: k) ( 4,5 )k (1 4,5 ) k. Queremos saber etão o que acotece com esta probabilidade quado. A resposta como veremos a seguir é que esta distribuição tede a distribuição de Poisso e este resultado é cohecido como limite de evetos raros. Cosideremos a expressão geral da probabilidade biomial, p(k) = ( k ) p k (1 p) k =! k!( k)! pk (1 p) k = ( 1) ( k + 1) p k (1 p) k. k! Como queremos estudar o caso em que p é costate, façamos p = α, ou seja, p = α/ e 1 p = α. Etão, ( 1) ( k + 1) p(k) = ( α k! )k ( α ) k = αk k! [(1)(1 1 ) (1 k 1 )][1 α ] k Fazedo, temos que os termos da forma (1 j ), para 1 j k 1, tedem para 1 e como existe um úmero fixo k deles, o seu produto também tede a 1. O mesmo ocorre com (1 α ) k. Fialmete, por defiição do úmero e, temos que (1 α ) e α quado. Portato, α αk lim p(k) = e k!, ou seja obtemos a expressão de Poisso. Mais geralmete, pode-se provar o seguite teorema: Teorema 3.4.1: Se lim p = α > 0, etão lim ( k Prova: Nós utilizamos os seguites fatos: 1. lim ( k ) = lim k k!. )p k(1 p ) k = e α αk k!.

50 3.4. PRINCIPAIS DISTRIBUIÇÕES DE PROBABILIDADE lim p 2 = (1 x) e x, para x (1 x) e x x2, para 0 x 1 2. Usado fatos 2, 3, e 4, ós obtemos lim (1 p ) k = lim e ( k)p. Logo, usado fato 1, ( ) lim p k k (1 p ) k (p ) k = lim e ( k)p α αk = e k! k!. Vamos agora explorar algus exemplos importates de variáveis aleatórias cotíuas. Uiforme. Dizemos que X tem uma distribuição uiforme com parâmetros a e b, ode a e b são úmeros reais e a < b, se a fução desidade de X é igual a f X (x) = 1 U(x a)u(b x). b a Este modelo é frequetemete usado impropriamete para represetar completa igorâcia sobre valores de um parâmetro aleatório sobre o qual apeas sabe-se estar o itervalo fiito [a, b]. Esta distribuição também é frequetemete utilizada a fase de osciladores e fase de siais recebidos em comuicações icoeretes. Expoecial. Dizemos que X tem uma distribuição Expoecial com parâmetro λ, ode λ > 0 é um úmero real, se a fução desidade de X é igual a f X (x) = λe λx U(x). A desidade expoecial pode ser utilizada para modelar os seguites feômeos: tempo de vida de compoetes que falham sem efeito de idade; tempo de espera etre sucessivas chegadas de fótos, emissões de elétros de um cátodo, ou chegadas de cosumidores; e duração de chamadas telefôicas. Qui-quadrado. Dizemos que X tem uma distribuição Qui-quadrado com parâmetro, ode é úmero atural, se a fução desidade de X é igual a f X (x) = x/2 1 e x/2 2 /2 Γ(/2) U(x),

51 3.4. PRINCIPAIS DISTRIBUIÇÕES DE PROBABILIDADE 46 ode Γ(p) = 0 x p 1 e x dx para p > 0 é a fução gama. é cohecido como úmero de graus de liberdade da distribuição Qui-quadrado. Pode-se provar que a soma dos quadrados de variáveis aleatórias idepedetes com distribuição ormal padrão possui uma distribuição Qui-quadrado com graus de liberdade. A distribuição Qui-quadrado tem iúmeras aplicações em iferêcia estatística. Por exemplo, em testes qui-quadrados e a estimação de variâcias. Gama. Dizemos que X tem uma distribuição Gama com parâmetros α e β, ode α > 0 e β > 0 são úmeros reais, se a fução desidade de X é igual a f X (x) = βα Γ(α) xα 1 e βx U(x). Pode-se provar que a soma de α variáveis aleatórias expoeciais com média 1/β tem uma distribuição Gama. É fácil ver que se α = 1, temos uma distribuição expoecial com parâmetro β, e se α = /2 e β = 1/2 temos uma distribuição Qui-quadrado com graus de liberdade. Beta. Dizemos que X tem uma distribuição Beta com parâmetros α e β, ode α > 0 e β > 0 são úmeros reais, se a fução desidade de X é igual a x α 1 (1 x) β 1 f X (x) = 1 0 uα 1 (1 u) β 1 du U(x)U(1 x) = 1 B(α, β) xα 1 (1 x) β 1 U(x)U(1 x), ode B(α, β), para α > 0, β > 0, é a fução beta que é o fator de ormalização que garate que f X é uma desidade. Distribuições Beta são usadas exaustivamete em Estatística Bayesiaa, pois elas são uma família de distribuições a priori cojugadas para distribuições biomiais e geométricas. A distribuição beta pode ser utilizada para modelar evetos que tem restrição de estar em um itervalo fiito. t de Studet. Dizemos que X tem uma distribuição t de Studet com parâmetro, ode é úmero atural, se a fução desidade de X é igual a f X (x) = Γ[( + 1)/2] Γ[/2] x2 (1 + π ) (+1) 2, ode é cohecido como úmero de graus de liberdade da distribuição t de Studet. Pode-se provar que se Z tem uma distribuição ormal padrão, V tem uma distribuição Z qui-quadrado com graus de liberdade e Z e V forem idepedetes, etão tem uma V/ distribuição t de Studet com graus de liberdade. A distribuição t de Studet é bastate utilizada em iferêcia estatística. Por exemplo, pode-se utilizá-la para calcular itervalos de cofiaça para a média de uma amostra quado a variâcia da população ão é cohecida.

52 3.5. VARIÁVEIS ALEATÓRIAS MULTIDIMENSIONAIS 47 Pareto. Dizemos que X tem uma distribuição Pareto com parâmetros α e τ, ode α e τ são úmeros reais positivos, se a fução desidade de X é igual a f X (x) = ατ α x α 1 U(x τ). A distribuição de Pareto é o exemplo mais fudametal de uma distribuição de cauda pesada. Ela pode ser utilizada para modelar distribuição de riquezas; atrasos em trasmissão de pacotes; e duração sessões de Iteret. Normal ou Gaussiaa. Dizemos que X tem uma distribuição Normal (ou Gaussiaa) com parâmetros m e σ, ode m e σ > 0 são úmeros reais, se a fução desidade de X é igual a f X (x) = 1 σ 2π e (x m) 2 2σ 2. Historicamete, esta distribuição foi chamada de ormal porque ela era amplamete aplicada em feômeos biológicos e sociais que era sempre tida como a distribuição atecipada ou ormal. Se m = 0 e σ = 1, diz-se que X tem uma distribuição ormal padrão ou ormal reduzida. Aplicações da distribuição ormal icluem ruído térmico em resistores e em outros sistemas físicos que possuem um compoete dissipativo; ruídos de baixa-frequêcia como os em ecotrados em amplificadores de baixa frequêcia; e variabilidade em parâmetros de compoetes maufaturados e de orgaismos biológicos (por exemplo, altura, peso, iteligêcia). Cauchy. Dizemos que X tem uma distribuição Cauchy com parâmetro a > 0, se a fução desidade de X é igual a f X (x) = 1 π a a 2 + x. 2 A razão etre duas variáveis aleatórias com distribuição Normal padrão idepedetes tem uma distribuição Cauchy com parâmetro Variáveis Aleatórias Multidimesioais Muitas vezes estamos iteressados a descrição probabilística de mais de um característico umérico de um experimeto aleatório. Por exemplo, podemos estar iteressados a distribuição de alturas e pesos de idivíduos de uma certa classe. Para tato precisamos esteder a defiição de variável aleatória para o caso multidimesioal. Defiição 3.5.1: Seja (Ω, A, P ) um espaço de probabilidade. Uma fução X : Ω R é chamada de um vetor aleatório se para todo eveto B Boreliao de IR, X 1 (B) A.

53 3.5. VARIÁVEIS ALEATÓRIAS MULTIDIMENSIONAIS 48 Ode um eveto é Boreliao em IR se pertece a meor σ-álgebra que cotem todas regiões da seguite forma: C a = {(X 1, X 2,..., X ) : X i a i, 1 i }. Dado um vetor aleatório X, pode-se defiir uma probabilidade iduzida P X o espaço mesurável (IR, B ) da seguite maeira: para todo A B, defiimos P X (A) = P ( X 1 (A)). Por defiição de vetor aleatório, tem-se que X 1 (A) A, etão P X está bem defiida Fução de Distribuição Acumulada Cojuta Para um vetor aleatório X, uma maeira simples e básica de descrever a probabilidade iduzida P X é utilizado sua fução de distribuição acumulada cojuta. Defiição 3.5.2: A fução de distribuição acumulada cojuta de um vetor aleatório X, represetada por F X ou simplesmete por F, é defiida por F X ( x) = P (C x ) = P (X 1 x 1, X 2 x 2,..., X x ), x IR. A fução de distribuição acumulada F X satisfaz as seguites propriedades: F1. Se x i y i, i, etão F X ( x) F X ( y). x i y i i C x C y P (C x ) P (C y ) F X ( x) F X ( y). F2. F (x 1, x 2,..., x ) é cotíua a direita em cada uma das variáveis. Por exemplo, se y m x 1, etão F (y m, x 2,..., x ) F (x 1, x 2,..., x ), quado m. F3a. Se para algum i x i, etão C x decresce mootoicamete para o cojuto vazio. Logo, pela cotiuidade mootôica de probabilidade, temos que lim F x i X ( x) = 0. F3b. Se x i, etão C x cresce mootoicamete para o cojuto {X 1 x 1,... X i 1 x i 1, X i+1 x i+1,..., X x }, ou seja a restrição em X i é removida. Etão, podemos escrever lim x i F X ( x) = F X1,...,X i 1,X i+1,...,x (x 1,..., x i 1, x i+1,..., x ). Portato, a fução de distribuição acumulada cojuta de X 1,..., X 1 pode ser facilmete determiada da fução de distribuição acumulada cojuta de X 1,..., X fazedo x. Observe que fuções de distribuição acumuladas cojutas de ordem maiores determiam as de ordem meores, mas o cotrário ão é verdadeiro. Em particular, temos que lim F X ( x) = 1. x A fução de distribuição acumulada de X i que se obtém a partir da fução acumulada cojuta de X 1,..., X fazedo x j para j i é cohecida como fução de distribuição margial de X i.

54 3.5. VARIÁVEIS ALEATÓRIAS MULTIDIMENSIONAIS 49 O próximo exemplo mostra que para 2 as propriedades F1, F2, e F3 ão são suficietes para que F seja uma fução de distribuição. Exemplo 3.5.3: Seja F 0 : IR 2 IR uma fução defiida o plao tal que F 0 (x, y) = 1 se x 0, y 0, e x + y 1, e F 0 (x, y) = 0, caso cotrário. É claro que F1, F2, e F3 são satisfeitas, mas F 0 ão é fução de distribuição de ehum vetor aleatório (X, Y ). Se fosse, teríamos uma cotradição 0 P (0 < X 1, 0 < Y 1) = F 0 (1, 1) F 0 (1, 0) F 0 (0, 1) + F 0 (0, 0) = = 1 Os tipos discretos e cotíuos de variáveis aleatórias têm os seguites aálogos o caso multivariado. (a) Se X for um vetor aleatório discreto, ou seja assumir um úmero eumerável de valores { x 1, x 2..., }, podemos defiir uma fução de probabilidade de massa cojuta, p tal que p( x i ) 0. i=1 p( x i) = 1. Neste caso, pode-se defiir a fução probabilidade de massa margial de X i como sedo p Xi (x i ) = p(x 1,..., x i 1, x i+1,..., x ). x 1 x i+1 x x i 1 (b) Seja X = (X 1,..., X ) um vetor aleatório e F sua fução de distribuição. Se existe uma fução f(x 1,..., x ) 0 tal que F (x 1,..., x ) = x x1 f(t 1,..., t )dt 1... dt, (x 1,..., x ) IR, etão f é chamada de desidade cojuta das variáveis aleatórias X 1,..., X, e este caso, dizemos que X é (absolutamete) cotíuo. Neste caso, defie-se a desidade margial de X i como sedo f Xi (x i ) = f(x 1,..., x i 1, x i+1,..., x )dx 1... dx i 1 dx i+1... dx Idepedêcia etre Variáveis Aleatórias. Sejam X 1, X 2,..., X variáveis aleatórias defiidas o mesmo espaço de probabilidade (Ω, A, P ). Iformalmete, as variáveis aleatórias X i s são idepedetes se, e somete se, quaisquer evetos determiados por qualquer grupo de variáveis aleatórias distitas são idepedetes. Por exemplo, [X 1 < 5], [X 2 > 9], e 0 < X 5 3 são idepedetes. Formalmete, Defiição 3.5.4: Dizemos que um cojuto de variáveis aleatórias {X 1,..., X } é mutuamete idepedete se, e somete se, para quaisquer evetos boreliaos A 1,..., A, P (X 1 A 1,..., X A ) = P (X i A i ). i=1

55 3.5. VARIÁVEIS ALEATÓRIAS MULTIDIMENSIONAIS 50 O próximo teorema estabelece três critérios para provar que um cojuto de variáveis aleatórias é mutuamete idepedete. Teorema 3.5.5: As seguites codições são ecessárias e suficietes para testar se um cojuto {X 1,..., X } de variáveis aleatórias é mutuamete idepedete: (a) F X ( x) = i=1 F X i (x i ). (b) Se X for um vetor aleatório discreto, p X ( x) = p Xi (x i ). i=1 (c) Se X for um vetor aleatório cotíuo, f X ( x) = f Xi (x i ), (x 1,..., x ) IR. i=1 Prova: Para parte (a), ote que se {X 1,..., X } são variáveis aleatórias mutuamete idepedetes, etão F X1,X 2,...,X (x 1, x 2,..., x ) = P (X 1 x 1,..., X x ) = P (X i x i ) = F Xi (x i ), (x 1,..., x ) i=1 i=1 A prova da suficiêcia da parte (a) será omitida pois evolve argumetos de teoria da medida. Para parte (b), se {X 1,..., X } são variáveis aleatórias mutuamete idepedetes, etão p X1,X 2,...,X (x 1, x 2,..., x ) = P (X 1 = x 1,..., X = x ) = P (X i = x i ) = p Xi (x i ), (x 1,..., x ) i=1 i=1 Reciprocamete, se a fução de probabilidade de massa cojuta fatora e se {x i1, x i2,..., x i,...} são os possiveis valores assumidos pela variável aleatória X i, temos que P (X 1 B 1, X 2 B 2,..., X B ) = P (X 1 = x 1i,..., X = x i ) i:x 1i B 1 i:x i B = p X1,...,X (x 1i,..., x i ) i:x 1i B 1 i:x i B = p Xj (x ji ) = P (X j B j ) i:x 1i B 1 j=1 j=1 i:x i B

56 3.6. FUNÇÕES DE VARIÁVEIS ALEATÓRIAS 51 A parte (c) é uma cosequêcia direta da parte (a) e da defiição de fução de desidade. Omitimos os detalhes. É fácil observar que utilizado, a defiição de probabilidade codicioal que se X e Y são idepedetes, etão para todo A e B boreliao tal que P (Y B) > 0: P (X A Y B) = P (X A), ou seja, se X e Y são idepedetes o cohecimeto do valor de Y ão altera a descrição probabilística de X Exemplos de Distribuições Multivariadas A Distribuição Multiomial Vamos dar o exemplo de uma distribuição cojuta de variáveis aleatórias, que pode ser cosiderada como uma geeralização da distribuição biomial. Cosidere um experimeto aleatório qualquer e supoha que o espaço amostral deste experimeto é particioado em k evetos {A 1, A 2,..., A k }, ode o eveto A i tem probabilidade p i. Supoha que se repita este experimeto vezes de maeira idepedete e seja X i o úmero de vezes que o eveto A i ocorreu estas repetições. Etão, P (X 1 = 1, X 2 = 2,..., X k = k ) =! 1! 2! k! p 1 1 p 2 2 p k k, ode k i=1 i =. (Relembre que o úmero de maeiras de arrajar objetos, 1 dos quais é de uma espécie, 2 dos quais é de uma seguda espécie,..., k dos quais são de uma k-ésima espécie é dado pelo coeficiete multiomial! 1! 2! k!.) A Distribuição Normal Bivariada Dizemos que o vetor aleatório (X, Y ) possui distribuição ormal bivariada quado tem desidade dada por f(x, y) = 1 2πσ 1 σ 2 1 ρ 2 exp{ 1 2(1 ρ 2 ) [(x µ 1 σ 1 ) 2 2ρ( x µ 1 σ 1 )( y µ 2 σ 2 ) + ( y µ 2 σ 2 ) 2 ]}, ode σ 1 > 0, σ 2 > 0, 1 < ρ < 1, µ 1 IR, µ 2 IR. Se ρ = 0, esta desidade fatora e temos que X e Y são idepedetes. Se ρ 0, esta desidade ão fatora e X e Y ão são idepedetes. 3.6 Fuções de Variáveis Aleatórias Muitas vezes sabemos a distribuição de probabilidade que descreve o comportameto de uma variável aleatória X defiida o espaço mesurável (Ω, A), mas estamos iteressados a descrição de uma fução Y = H(X). Por exemplo, X pode ser uma mesagem eviada em um caal de telecomuicações e Y ser a mesagem recebida. Nosso problema é

57 3.6. FUNÇÕES DE VARIÁVEIS ALEATÓRIAS 52 determiar P (Y A), ode A é um eveto Boreliao, dado P X. Para determiarmos esta probabilidade, estaremos iteressados a imagem iversas a fução H, ou seja, a probabilidade do eveto {Y A} será por defiição igual a probabilidade do eveto {X H 1 (A)}, ode H 1 (A) = {x IR : H(x) A}. Para que esta probabilidade esteja bem defiida, precisamos restrigir H tal que H 1 (A) seja um eveto boreliao para todo A boreliao, caso cotrário ão poderemos determiar P ({X H 1 (A)}); uma fução que satisfaz esta codição é cohecida como mesurável com respeito a A e B. Note que Y também pode ser vista como uma fução do espaço amostral Ω, Y (ω) = H(X(ω)) para todo ω Ω. Visto dessa maeira Y é uma variável aleatória defiida em (Ω, A), pois para todo boreliao A Y 1 (A) = X 1 (H 1 (A)) e como por suposição H 1 (A) é boreliao e X é uma variável aleatória, temos que X 1 (H 1 (A)) A e portato satisfaz a defiição de uma variável aleatória. Nesses problemas é sempre útil fazer um esboço do gráfico da trasformação H para determiarmos quais são as regiões iversas H 1 (A). Vamos primeiro tratar este problema o caso de variáveis aleatórias discretas. Neste caso para qualquer fução H, temos que Y = H(X) é uma variável aleatória discreta. Supoha que X assuma os valores x 1, x 2,... e seja H uma fução real tal que Y = H(X) assuma os valores y 1, y 2,.... Vamos agrupar os valores que X assume de acordo os valores de suas images quado se aplica a fução H, ou seja, deotemos por x i1, x i2, x i3,... os valores de X tal que H(x ij ) = y i para todo j. Etão, temos que P (Y = y i ) = P (X {x i1, x i2, x i3,...}) = P (X = x ij ) = p X (x ij ), ou seja, para calcular a probabilidade do eveto {Y = y i }, acha-se o eveto equivalete em termos de X, isto é, todos os valores x ij de X tal que H(x ij ) = y i e somam-se as probabilidades de X assumir cada um desses valores. Exemplo 3.6.1: Admita-se que X teha os valores possíveis 1, 2, 3,... e supoha que P (X = ) = (1/2). Seja Y = 1 se X for par e Y = 1 se X for ímpar. Etão, temos que P (Y = 1) = (1/2) 2 = (1/4) = 1/4 1 1/4 = 1/3. Cosequetemete, =1 =1 j=1 P (Y = 1) = 1 P (Y = 1) = 2/3. Podemos esteder este resultado para uma fução de um vetor aleatório X de forma aáloga. Neste caso se Y = H( X), deotemos por x i1, x i2, x i3,... os valores de X tal que H( x ij ) = y i para todo j. Etão, temos que P ( Y = y i ) = P ( X { x i1, x i2, x i3,...}) = P ( X = x ij ) = p X ( x ij ), ou seja, para calcular a probabilidade do eveto { Y = y i }, acha-se o eveto equivalete em termos de X, isto é, todos os valores x ij de X tal que H( x ij ) = y i e somam-se as probabilidades de X assumir cada um desses valores. Vamos ver agora um exemplo o caso em que X é cotíuo. j=1 j=1 j=1

58 3.6. FUNÇÕES DE VARIÁVEIS ALEATÓRIAS 53 Exemplo 3.6.2: Se X U[0, 1], qual a distribuição de Y = log(x)? Como 0 < Y < 0 < X < 1 e P (0 < X < 1) = 1, temos F Y (y) = 0, y 0. Se y > 0, etão ou seja, Y Exp(1). P (Y y) = P ( log(x) y) = P (X e y ) = 1 e y, Ates de prosseguirmos ao caso geral, vamos abrir um parêteses relembrar o que é o Jacobiao de uma fução. Jacobiao de uma Fução Dado um cojuto de equações em variáveis x 1,..., x, a matriz Jacobiaa é defiida por y 1 = f 1 (x 1,..., x ),..., y = f (x 1,..., x ), J = y 1 y 1 x x y x 1 O determiate de J é chamado de Jacobiao. Pode-se provar que o módulo Jacobiao os dá a razão etre volumes -dimesioais em y e x quado a maior dimesão x i tede a zero. Deste modo, temos que o módulo do Jacobiao aparece quado queremos mudar as variáves de itegração em itegrais múltiplas, ou seja, existe um teorema do cálculo que afirma que se f : G 0 G for uma bijeção etre G 0 e G, f e as derivadas parcias que aparecem a matriz Jacobiaa forem fuções cotíuas em G 0, e o Jacobiao for diferete de zero para todo x G 0 g(y 1,..., y )dy 1 dy = g(f 1 (x 1,..., x ),..., f (x 1,..., x )) J dx 1 dx, y x A f 1 (A) para qualquer fução g itegrável em A G. Vamos agora utilizar mudaça de variáveis para resolver o seguite exemplo da soma de duas variáveis aleatórias. Exemplo 3.6.3: Supoha que (X, Y ) teha desidade cojuta f(x, y) e seja Z = X + Y. Neste caso, F Z (z) = P (Z z) = P (X + Y z) = P ((X, Y ) B z ), ode B z = {(x, y) : x + y z}. Portato, F Z (z) = z y f(x, y)dxdy.

59 3.6. FUNÇÕES DE VARIÁVEIS ALEATÓRIAS 54 Fazedo a mudaça de variáveis s = x + y, t = y, que tem jacobiao igual a 1, temos F Z (z) = z f(s t, t)dsdt = z Logo, f(s t, t)dt é a desidade da soma Z = X + Y, ou seja, f Z (z) = f(z t, t)dt = f(s t, t)dtds. f(s, z s)ds, ode fizemos a troca de variáveis s = z t para obter a última expressão. Se X e Y forem variáveis aleatórias idepedetes com desidades f X e f Y, temos que f(x, y) = f X (x)f Y (y), etão, f Z (z) = f X (z t)f Y (t)dt = f X (t)f Y (z t)dt = f X f Y, ode f X f Y é cohecida como a covolução das desidades f X e f Y. Vamos agora descrever o método do Jacobiao para fuções mais gerais H. Supoha que G 0 IR, G IR sejam regiões abertas, e que H : G 0 G seja uma bijeção etre G 0 e G. Logo, existe a fução iversa H 1 em G, de modo que X = H 1 Y. Supoha aida que f é a desidade cojuta de X e que P ( X G 0 ) = 1. Se as derivadas parciais de H 1 existirem e o Jacobiao J de H 1 for diferete de zero para todo y G, podemos utilizar o teorema da mudaça de variáveis e obter que para B G, B boreliao, temos P ( Y B) = P ( X H 1 (B)) = f(x 1,..., x )dx 1 dx = B H 1 (B) f(h 1 1 (y 1,..., y ),..., H 1 (y 1,..., y )) J dy 1 dy. Como P ( Y G) = P ( X H 1 (G)) = P ( X G 0 ) = 1, temos que para todo boreliao B o IR, P ( Y B) = P ( Y B G) = f(h1 1 (y 1,..., y ),..., H 1 (y 1,..., y )) J dy 1 dy. B G Esta última itegral é igual a itegral sobre o cojuto B da fução que toma o valor f(h1 1 (y 1,..., y ),..., H 1 (y 1,..., y )) J para y G, e zero o caso cotrário. Portato, pela defiição de desidade temos que { f(h 1 1 (y f Y (y 1,..., y ) = 1,..., y ),..., H 1 (y 1,..., y )) J, se y G, 0, caso cotrário. Observação 3.6.4:

60 3.6. FUNÇÕES DE VARIÁVEIS ALEATÓRIAS 55 (a) Note que J é o Jacobiao da fução iversa H 1, em algus casos pode ser útil obter J a partir do Jacobiao J da fução H através da relação J = 1 J x=h 1 ( y). (b) Para obter a distribuição de Y = H( X) quado a dimesão de Y é meor que a dimesão de X muitas vezes é possível defiir outras variáveis aleatórias Y 1,..., Y m, utilizar o método do Jacobiao para determiar a desidade cojuta de Y, Y 1,..., Y m e, fialmete, obter a desidade margial cojuta de Y. Cosidere o seguite exemplo: Exemplo 3.6.5: Supoha que X 1, X 2 tem desidade cojuta dada por f(x, y) e que estamos iteressados a distribuição de Y 1 = X1 2 + X 2. Como esta ão é uma trasformação 1-1, ela ão possui iversa. Vamos defiir uma ova variável Y 2 = X 1 de modo que a fução (Y 1, Y 2 ) = H(X 1, X 2 ) = (X1 2 + X 2, X 1 ) possua uma fução iversa difereciável, (X 1, X 2 ) = H 1 (Y 1, Y 2 ) = (Y 2, Y 1 Y2 2 ). Deste modo temos que ) J = det ( x1 x 1 y 1 y 2 x 2 x 2 y 1 y 2 ( ) 0 1 = = 1 1 2y 2 Etão temos que, f Y1,Y 2 (y 1, y 2 ) = f(y 2, y 1 y2). 2 Fialmete, para ecotrarmos f Y1 itegramos sobre todos os possíveis valores da variável Y 2 que itroduzimos: f Y1 = f(y 2, y 1 y 2 2)dy 2. (c) Podemos utilizar o método do Jacobiao em outros casos em que a fução H ão é 1-1. Para tato, supoha que G, G 1,..., G k sejam subregiões abertas do IR tais que G 1,..., G k sejam disjutas e P ( X k i=1g i ) = 1, tais que a fução H Gl, a restrição de H a G l, seja um correspodêcia 1-1 etre G l e G, para l = 1,..., k. Supoha que para todo l, a fução iversa de H Gl satisfça as hipóteses do caso aterior, e seja J l o Jacobiao da iversa de H Gl. Pode-se provar que f Y (y 1,..., y ) = { k l=1 f(h 1 G l (y 1,..., y )) J l, se y G, 0, caso cotrário.

61 Capítulo 4 Esperaça e Mometos de Variáveis Aleatórias 4.1 O Coceito de Esperaça O coceito de Esperaça ou Valor Esperado de uma variável aleatória X, ou a média é tão atigo quato o próprio coceito de probabilidade. Na verdade, é até possível defiir probabilidade em termos de esperaça, mas esta ão é uma maeira comum de se apresetar a teoria. Existem quatro tipos de iterpretações da Esperaça: 1. Parâmetro m de uma medida de probabilidade, fução de distribuição, ou fução probabilidade de massa, também cohecido como média. 2. Um operador liear em um cojuto de variáveis aleatórias que retora um valor típico da variável aleatória iterpretado como uma medida de localização da variável aleatória. 3. média do resultado de repetidos experimetos idepedetes o logo prazo. 4. preço justo de um jogo com pagametos descritos por X. 4.2 Defiição da Esperaça - Caso Discreto Vamos motivar a defiição de esperaça cosiderado o cálculo do resultado médio de 1000 laçametos de um dado. Uma maeira de calcular este resultado médio seria somar todos os resultados e dividir por Uma maeira alterativa seria calcular a fração p(k) de todos os laçametos que tiveram resultado igual a k e calcular o resultado médio através da soma poderada: 1p(1) + 2p(2) + 3p(3) + 4p(4) + 5p(5) + 6p(6). Quado o úmero de laçametos se tora grade as frações de ocorrêcia dos resultados tedem a probabilidade de cada resultado. Portato, em geral defiimos a esperaça de uma variável discreta como uma soma poderada ode as probabilidades são os pesos de poderação. 56

62 4.2. DEFINIÇÃO DA ESPERANÇA - CASO DISCRETO 57 Defiição 4.2.1: Se X é uma variável aleatória discreta assumido valores {x 1, x 2, x 3,...} com probabilidade {p 1, p 2, p 3,...}, respectivamete, etão sua esperaça é dada pela fórmula EX = x i p i + x i p i, i:x i <0 i:x i 0 desde que pelo meos um dos somatórios seja fiito. Em caso os dois somatórios ão sejam fiitos, a esperaça ão existe. Exemplo 4.2.2: Cosidere uma variável aleatória X tal que: P (X = 1) = 0.25, P (X = 0) = 0.5 e P (X = 2) = Etão, EX = 1(0.25) + 0(0.5) + 2(0.25) = Exemplo 4.2.3: Cosidere uma variável aleatória X tal que: P (X = a) = P (X = a) = 1/2. Etão, EX = a(0.5) + a(0.5) = 0. Note etão que muitas variáveis aleatórias diferetes podem ter o mesmo valor esperado ou esperaça. (É só variar o valor de a o exemplo aterior.) Exemplo 4.2.4: Aleatória. Se X {1, 2,..., } for uma variável aleatória com distribuição de probabilidade aleatória com parâmetro, temos que sua esperaça é dada por: EX = kp(k) = k=1 k 1 = 1 k k k = 1 ( + 1) 2 = Ode utilizamos a fórmula da soma dos primeiros termos de uma progressão aritmética. Exemplo 4.2.5: Beroulli. Se X {0, 1} for uma variável aleatória com distribuição de probabilidade Beroulli com parâmetro p, temos que sua esperaça é dada por: EX = 0(1 p) + 1(p) = p. Exemplo 4.2.6: Biomial. Se X for uma variável aleatória com distribuição de probabilidade Biomial com parâmetros e p, temos que sua esperaça é dada por: ( ) EX = k p k (1 p) k! = k k k!( k)! pk (1 p) k k=0 k=1 ( 1)! ( ) 1 (k 1)!( k)! pk (1 p) k = p p k 1 (1 p) k = p. k 1 k=1 k=1 Ode utilizamos o Teorema Biomial a última igualdade.

63 4.2. DEFINIÇÃO DA ESPERANÇA - CASO DISCRETO 58 Exemplo : Geométrica. Se X for uma variável aleatória com distribuição de probabilidade Geométrica com parâmetro β, temos que sua esperaça é dada por: EX = k(1 β)β k = k=0 = (1 β) j=1 k=j β k = k(1 β)β k = k=1 β j = j=1 β 1 β k (1 β)β k k=1 j=1 Ode utilizamos a fórmula da soma ifiita de uma progressão geométrica com razão β. Exemplo 4.2.8: Biomial Negativa. Se X for uma variável aleatória com distribuição de probabilidade Biomial Negativa com parâmetros r e p, temos que sua esperaça é dada por: ( ) k ( ) k EX = k p r (1 p) k r+1 = ( (k + 1) p r (1 p) k r+1 ) 1 r 1 r 1 k=r 1 k=r 1 (k + 1)k! = ( (r 1)!(k r + 1)! pr (1 p) k r+1 ) 1 k=r 1 = r p ( k=r 1 (k + 1)! r!(k + 1 r)! pr+1 (1 p) k+1 r ) 1 Substituido j = k + 1 e s = r + 1 o somatório, temos EX = r p ( j=s 1 (j)! (s 1)!(j s + 1)! ps (1 p) j s+1 ) 1 = r p 1 Ode utilizamos o fato que o somatório é igual soma da fução probabilidade de massa de uma variável aleatória Biomial Negativa para todos os valores que tem probabilidade positiva, e portato, é igual a 1. Exemplo 4.2.9: Poisso. Se X for uma variável aleatória com distribuição de probabilidade Poisso com parâmetros λ, temos que sua esperaça é dada por: EX = k=0 k e λ λ k k! = k=1 k e λ λ k k! = λ k=1 e λ λ k 1 (k 1)! = λ. Exemplo : Zeta. Se X for uma variável aleatória com distribuição de probabilidade Zeta com parâmetro α > 2, temos que sua esperaça é dada por: ode ζ(α) = k=1 k α. EX = k=1 k k α ζ(α) = 1 ζ(α) k (α 1) = k=1 ζ(α 1), ζ(α)

64 4.3. AS INTEGRAIS DE RIEMMAN-STIELTJES E DE LEBESGUE-STIELTJES 59 Exemplo : Hipergeométrica. Se X for uma variável aleatória com distribuição de probabilidade Hipergeométrica com parâmetro N, D,, temos que sua esperaça é dada por: ( D N D ) EX = k k)( k D!(N D)!(N )!! ( N = k=0 ) k!(d k)!( k)!(n D + k)!n! k=1 = D (D 1)!(N D)!(N )!( 1)! N (k 1)!(D k)!( k)!(n D + k)!(n 1)! = D ( D 1 )( N D ) k 1 k ) N k=1 Substituido o somatório D = D 1, k = k 1, = 1 e N = N 1, temos EX = D N k =0 ( D )( N ) D k k ( N ) = D N. k=1 ( N 1 1 Ode utilizamos o fato que o somatório é igual soma da fução probabilidade de massa de uma variável aleatória Hipergeométrica para todos os valores que tem probabilidade positiva, e portato, é igual a 1. Ates de itroduzirmos a defiição geral da Esperaça de uma variável aleatória qualquer, vamos estudar um pouco sobre as itegrais de Riema-Stieltjes e de Lebesgue-Stieltjes. 4.3 As itegrais de Riemma-Stieltjes e de Lebesgue- Stieltjes Ates de darmos as defiições das itegrais de Riemma-Stieltjes e Lebesgue-Stieltjes, vamos relembrar a defiição da itegral de Riema. Uma partição P do itervalo [a, b] é uma seqüêcia de potos {x 1,..., x } tal que a = x 1 < x 2 < < x = b; a orma da partição P é defiida como sedo max 1 i 1 x i+1 x i. Supoha que φ seja uma fução real qualquer defiida o itervalo [a, b]. Diz-se que esta fução é Riema itegrável se as somas de Riema 1 φ(y i )(x i+1 x i ), i=1 ode y i [x i, x i+1 ], covergem quado a orma de P tede a zero e este limite é idepedete da escolha dos y i s e da partição P. Se esta itegral existe deota-se o limite por b φ(x)dx. a A itegral de Riema-Stieltjes é uma geeralização de itegral de Riema. Se φ é uma fução cotíua defiida o itervalo [a, b] e F é uma fução de distribuição, defie-se a itegral de Riema-Stieltjes de φ em [a, b], em relação a F, como o limite de somas de Riema da forma 1 φ(y i )[F (x i+1 ) F (x i )], i=1

65 4.3. AS INTEGRAIS DE RIEMMAN-STIELTJES E DE LEBESGUE-STIELTJES 60 ode a = x 1 < x 2 < < x = b, y i é um poto arbitrário de [x i, x i+1 ], e toma-se o limite quado a orma de partição P tede a zero. Tal limite existe e é fiito sob as codições descritas, e é represetado por b a φ(x)df (x). A fução φ é chamada de itegrado e F de itegrador. O limite acima existe mesmo que F ão seja uma fução de distribuição basta que ela seja de variação limitada. Defiição 4.3.1: Defie-se variação total de uma fução f em [a, b] pelo fucioal: V (f, [a, b]) = sup f(x i+1 ) f(x i ), i=1 ode o supremo é tomado sobre todas as possíveis partições do itervalo fechado [a, b]. Uma fução é de variação limitada se V (f, [a, b]) <. A itegral de Riema-Stieltjes sobre a reta é uma itegral imprópria defiida da mesma maeira que a itegral imprópria de Riema: φ(x)df (x) = lim a,b b a φ(x)df (x), se o limite existe. Esta defiição da itegral de Riema-Stietjes pode ser estedida a outras fuções φ além das cotíuas. Para uma fução qualquer φ, defie-se b φ(x)df (x) como a sedo o limite das somas de Riema descritas acima quado a orma da partição tede a zero, se este limite existe e é idepedete das escolhas dos y i s e da partição P. O problema é que mesmo para fuções bem simples este limite pode ão existir como mostra o próximo exemplo: Exemplo 4.3.2: Seja F 0 (x) = 1 se x 0, e F 0 (x) = 0, caso cotrário. Cosideremos a itegral de Riema-Stieltjes de F 0 em [ 1, 1] em relação a F 0. Note que se zero ão é um dos potos da partição, de modo que x i < 0 < x i+1 para algum i, com F 0 (x i+1 ) F 0 (x i ) = 1, etão o somatório assume como valor escolhido para y i ser maior que 0, ou ão. Uma itegral mais robusta que ão sofre desta deficiêcia é a itegral de Lebesgue- Stieltjes. A idéia da itegral de Lebesgue-Stieltjes é particioar a imagem da fução φ ao ivés de particioar o seu domíio. Diz-se que uma partição P é um refiameto de P se P P, ou seja, quado os itervalos da partição P são particioados a partição P. Supoha que φ seja ão egativa e mesurável em relação a σ-álgebra de Borel. Seja µ for uma medida os reais, ou seja, uma fução cujo domíio é a σ-álgebra de Borel que tem como imagem do cojuto vazio zero, é ão-egativa e σ-aditiva. Dada uma seqüêcia {P 1, P 2,...} de partições de [0, ) ode P = {y 1, y 2,..., y }, y, P i+i é um refiameto de P i, e a orma de P tede a zero quado, defie-se a soma de Lebesgue em relação a partição P como sedo, 1 y i µ({x : y i φ(x) < y i+1 }) + y µ({x : φ(x) y }). i=1

66 4.3. AS INTEGRAIS DE RIEMMAN-STIELTJES E DE LEBESGUE-STIELTJES 61 A itegral de Lebesgue-Stieltjes de φ em relação a µ é defiida como sedo igual ao limite das somas de Lebesgue, quado. Dadas as codições acima este limite sempre existe (pode ser + ) e é deotado por φdµ. Para uma fução mesurável φ qualquer, podemos escrever φ = φ + φ, ode φ + = max(φ, 0), a parte positiva de φ, e φ = mi(φ, 0), o módulo da parte egativa de φ, são fuções ão-egativas e portato possuem itegral de Lebesgue-Stieltjes. Se φ + ou φ possui itegral de Lebesgue-Stieltjes fiita em relação a µ, defie-se a itegral de Lebesgue-Stieltjes de φ em relação a µ como sedo φdµ = φ + dµ φ dµ. Se µ for uma medida de probabilidade em (IR, B) e F for a distribuição de probabilidade acumulada associada a variável aleatória X(ω) = ω, etão escreve-se φ(x)df (x) (ou simplesmete, φdf ) para deotar φdµ. Em geral, usa-se a otação φ(x)df (x) ão somete para fuções de distribuição, mas para qualquer fução F que pode ser escrita como a difereça de duas fuções moótoas ão-decrescetes, limitadas e cotíuas à direita. Se G for uma fução moótoa ão-decrescete, limitada e cotíua à direita, etão dado um itervalo qualquer I = [x 1, x 2 ], defia ν(i) = G(x 2 ) G(x 1 ), etão usa-se a otação φ(x)dg(x) para deotar a itegral φ(x)dν, ode ν é a úica medida que satisfaz ν(i) = G(x 2 ) G(x 1 ) para todo itervalo I. Desta forma, se F = G 1 G 2, ode G 1 e G 2 são fuções moótoas ão-decrescetes, limitadas e cotíuas à direita, etão φ(x)df (x) é utilizado para deotar φ(x)dg 1 (x) φ(x)dg 2 (x). Dada um itervalo qualquer [a, b], defie-se a itegral de Lebesgue-Stieltjes de φ em relação a µ o itervalo [a, b] como sedo φi [a,b] dµ e deota-se por b a φdµ Propriedades da Itegral de Lebesgue-Stieltjes P1. Quado o itegrado é cotíuo, a itegral de Lebesgue-Stieltjes tora-se uma itegral de Riemma-Stieltjes. P2. b df = F (b) F (a). Aáloga ao teorema fudametal do cálculo: b a a φ (x)dx = φ(b) φ(a), ode φ(x) é a derivada de φ. P3. Liearidade o itegrado e o itegrador. Se φ(x) = αf(x) + βg(x), temos φdf = α fdf + β gdf, e para H(x) = αf (x) + βg(x), temos φdh = α φdf + β φdg. P4. Aditividade. Se a < b < c, etão c φdf = b φdf + c a a b φdf.

67 4.4. DEFINIÇÃO DA ESPERANÇA - CASO GERAL 62 P5. Se F for a fução de distribuição de uma variável aleatória discreta, ou seja, se F (x) = p i U(x x i ), i=1 ode P (X = x i ) = p i e i=1 p i = 1, etão φdf = p i φ(x i ). P6. Se F for a fução de distribuição de uma variável aleatória cotíua, tedo desidade df (x) f, temos = f(x) em quase toda parte, e coseqüetemete, dx φ(x)df (x) = φ(x)f(x)dx. i=1 P7. No caso de uma distribuição geral F, vimos que F pode ser decomposta em suas partes discreta, cotíua e sigular da seguite forma F = F d +F ac +F s, etão por liearidade do itegrador: φ(x)df (x) = φ(x)df d (x) + φ(x)df ac (x) + φ(x)df s (x). Se a parte sigular for ula, F s (x) = 0, x, etão: φ(x)df (x) = φ(x i )p i + i φ(x)f(x)dx, ode p i é o salto de F em x i e f é a derivada de F. 4.4 Defiição da Esperaça - Caso Geral Vamos agora motivar a defiição da Esperaça o caso geral. Cosideremos uma seqüêcia {P 1, P 2,...} de partições de [0, ) ode P = {y 1, y 2,..., y }, y, P i+i é um refiameto de P i, e a orma de P tede a zero quado. Dada uma variável aleatória ão-egativa qualquer X e uma partição P desta seqüêcia, defiamos uma outra variável aleatória Y discreta que aproxima X assumido o valor y i quado y i X < y i+1 e Y = y se X y, ou seja, Y = 1 i=1 y ii [yi X<y i+1 ] + y I [X y ]. Como Y é discreta temos que sua esperaça é dada por EY = 1 y i P (Y = y i ) = y i P (y i X < y i+1 ) + y P (X y ). i=1 i=1 Note que esta esperaça é uma soma de Lebesgue em relação a partição P com itegrado X e fução itegradora dada pela medida de probabilidade P. Note que a medida que pegamos

68 4.4. DEFINIÇÃO DA ESPERANÇA - CASO GERAL 63 partições mais refiadas a seqüêcia, Y se tora cada vez uma melhor aproximação para X. Já que os valores de X e Y ficam cada vez mais próximos é ituitivo requerer que ossa defiição de esperaça (média) EX seja igual ao limite de EY quado, ou seja EX = lim 1 y i P (Y = y i ) = lim y i P (y i X < y i+1 ) + y P (X y ) = i=1 i=1 XdP. Logo, EX é defiida como sedo a itegral de Lebesgue-Stieltjes de X em relação a medida de probabilidade P, ou similarmete, EX = XdF, ode F é a fução de distribuição acumulada de X. No caso geral, temos a seguite defiição Defiição 4.4.1: Se X é uma variável aleatória com fução de distribuição F, etão sua esperaça é dada pela fórmula 0 EX = XdF = XdF + XdF, desde que pelo meos uma das itegrais seja fiita. Em caso as duas itegrais ão sejam fiitas, a esperaça ão existe. Caso EX seja fiita, diz-se que X é itegrável. Pela Propriedade P7 da itegral de Lebesgue-Stieltjes, temos que se F = F d + F ac + F s, etão EX = XdF = x i p i + xf(x)dx + xdf s (x), i ode p i é o salto de F em x i e f é a derivada de F. Como a parte sigular costuma ser ula, a prática a esperaça reduz-se a uma série e/ou uma itegral imprópria, usualmete de Riema se f for itegrável a Riema. 0 Exemplo 4.4.2: Cosidere uma variável aleatória Y com fução de distribuição F, tal que 0, se x < 0 F (x) = x, se 0 x < 1/2 1, se x 1/2. Decompodo em parte discreta e cotíua tem-se e Portato, F d (x) = { 0, se x < 1/2 1/2, se x 1/2, 0, se x < 0 F ac (x) = x, se 0 x < 1/2 1/2, se x 1/2. EY = 1 2 P (Y = 1 1/2 2 ) + ydy = =

69 4.4. DEFINIÇÃO DA ESPERANÇA - CASO GERAL 64 Exemplo 4.4.3: Uiforme. Se X U(a, b), etão X possui desidade igual a f(x) = 1 b a se x (a, b), e f(x) = 0, caso cotrário. Logo, temos que sua esperaça é dada por: EX = b a x b a dx = a + b 2. Exemplo : Expoecial. Se X Exp(λ), etão X possui desidade igual a f X (x) = λe λx U(x). Logo, temos que sua esperaça é dada por: EX = 0 xλe λx dx = xe λx e λx dx = e λx λ 0 = 1 λ. Exemplo 4.4.5: Normal. Se X N (m, σ), etão X possui desidade igual a f X (x) = 1 σ e (x m) 2 2σ 2 2π. Logo, temos que sua esperaça é dada por: EX = Fazedo a mudaça de variável y = x m σ EX = σy + m e y2 2 dy = 2π x 1 σ 2π e (x m) 2 2σ 2 dx., temos σy 2π e y2 2 dy + m 2π e y2 2 dy = 0 + m = m. Exemplo 4.4.6: Cauchy. Se X Cauchy(a), etão X possui desidade igual a f X (x) = 1 a. Neste caso X ão é itegrável, ou seja EX ão está defiida, pois: π a 2 +x 2 0 x π 0 a dx =, e a 2 + x2 x π a dx =. a 2 + x Iterpretação Geométrica da Esperaça Por defiição, EX = xdf (x), ou seja, EX é a itegral da diferecial xdf. Mas xdf é uma diferecial de área. Para x > 0, xdf é uma diferecial da área da região compreedida etre as curvas x = 0, y = 1, e y = F (x) o plao Euclideao, cuja área total é dada por (1 F (x))dx. Para x < 0, xdf é uma diferecial da área da região compreedida 0 etre as curvas x = 0, y = 0, e y = F (x) o plao Euclideao, cuja área total é dada por 0 F (x)dx. Logo, temos que EX = (1 F (x))dx 0 F (x)dx. Formalmete, podemos 0 provar isso da seguite maeira. A prova será dividida em duas etapas: (a) xdf (x) = 0 (1 F (x))dx e (b) 0 xdf (x) = 0 F (x)dx. Comecemos provado (b). Utilizado 0 itegração por partes, temos que a < 0, 0 a xdf (x) = af (a) 0 a F (x)dx = 0 a [F (a) F (x)]dx.

70 4.4. DEFINIÇÃO DA ESPERANÇA - CASO GERAL 65 Como F (a) 0 e a < 0, temos 0 xdf (x) 0 a a F (x)dx. Como a desigualdade é válida para todo a < 0, temos que tomado o limite quado a 0 xdf (x) 0 Por outro lado, seja λ < 0. Se a < λ, etão 0 [F (a) F (x)]dx 0 F (x)dx. [F (a) F (x)]dx = F (a)( λ) a λ λ e portato, tomado o limite quado a, temos que 0 xdf (x) 0 λ F (x)dx. 0 F (x)dx, Como isto é válido para todo λ < 0, tomado o limite quado λ, temos 0 xdf (x) 0 F (x)dx, como queríamos demostrar. Para parte (a), utilizado itegração por partes, temos que b > 0, b xdf (x) = bf (b) b F (x)dx = b Como F (b) 1 e 1 F (x) 0, temos b xdf (x) = b [F (b) F (x)]dx [F (b) F (x)]dx. [1 F (x)]dx. Como a desigualdade é válida para todo b > 0, temos que tomado o limite quado b xdf (x) 0 0 Por outro lado, seja λ > 0. Se b > λ, etão b 0 [F (b) F (x)]dx λ [F (b) F (x)]dx = [1 F (x)]dx. λ [F (b) 1]dx + λ λ = λ[f (b) 1] + [1 F (x)]dx, 0 e portato, tomado o limite quado b, temos que xdf (x) λ 0 0 [1 F (x)]dx. Como isto é válido para todo λ > 0, tomado o limite quado λ, temos xdf (x) 0 0 [1 F (x)]dx, [1 F (x)]dx como queríamos demostrar.

71 4.5. ESPERANÇA DE FUNÇÕES DE VARIÁVEIS ALEATÓRIAS Esperaça de Fuções de Variáveis Aleatórias Vamos iiciar cosiderado o caso discreto Caso Discreto Como vimos ateriormete, se X for uma variável aleatória discreta e se Y = H(X), etão Y também será uma variável aleatória discreta. Coseqüetemete, pode-se calcular EY. Existem duas maeiras de calcular EY que são equivaletes. Defiição 4.5.1: Seja X uma variável aleatória discreta e seja Y = H(X). Se Y assumir os seguites valores y 1, y 2,... e se p(y i ) = P (Y = y i ), defiimos: EY = y i p(y i ). i=1 Coforme vimos o capítulo aterior podemos determiar as probabilidades p(y i ) dado que sabemos a distribuição de X. No etato, podemos ecotrar EY sem prelimiarmete ecotrarmos a distribuição de probabilidade de Y, partido-se apeas do cohecimeto da distribuição de probabilidade de X, coforme mostra o seguite teorema. Teorema 4.5.2: Seja X uma variável aleatória discreta assumido os valores x 1, x 2,... e seja Y = H(X). Se p(x i ) = P (X = x i ), temos EY = E(H(X)) = H(x i )p(x i ). Prova: Vamos re-ordear o somatório i=1 H(x i)p(x i ), agrupado os termos ode x i tem a mesma imagem de acordo com a fução H, ou seja, sejam x i1, x i2,..., todos os valores x i tal que H(x ij ) = y i para j 1, ode y 1, y 2,... são os possíveis valores de Y. Desse modo podemos reescrever H(x i )p(x i ) = H(x ij )p(x ij ) = p(x ij ) = y i p(y i ) = EY. i=1 i=1 j=1 i=1 i=1 y i j=1 i=1 Exemplo 4.5.3: Supoha que X é uma variável aleatória Poisso com parâmetro λ. Seja Y = X 2, vamos calcular EY. Utilizado o Teorema 4.5.2, temos EY = k 2 λ λk e k! = k 2 λ λk e k! = λ λk k(k 1)e k! + λ λk ke k! k=0 = λ 2 k=2 e λ λ k 2 k=1 (k 2)! + λ = λ2 + λ. Também podemos esteder este resultado para o caso de uma fução real de um vetor aleatório. Neste caso, se Y = H( X), temos que EY = i H( x i)p X ( x i ), ode os x i são os valores assumidos pelo vetor aleatório X. k=1 k=1

72 4.6. PROPRIEDADES DA ESPERANÇA Caso Geral No caso de uma variável aleatória qualquer X também podemos calcular a esperaça de uma fução Y = φ(x) de forma similar. Teorema 4.5.4: Seja X uma variável aleatória qualquer, Y = φ(x) uma outra variável aleatória, etão EY = ydf Y (y) = φ(x)df X (x), desde que estas itegrais existam. Prova: A prova o caso geral evolve Teoria da Medida e será omitida. Uma fórmula aáloga também é válida quado cosideramos fuções de vetores aleatórios. Teorema 4.5.5: Seja X um vetor aleatório e Y = φ( X) uma variável aleatória. Etão, EY = ydf Y (y) = φdf X. 4.6 Propriedades da Esperaça As seguites propriedades são aplicações imediatas da defiição de esperaça: 1. P (X = c) = 1 EX = c. 2. P (X 0) = 1 EX E(aX) = aex, ode a um úmero real qualquer. Esta propriedade segue facilmete da expressão da esperaça de uma fução de variável aleatória. 4. E(X + Y ) = EX + EY. No caso discreto, ote que E(X + Y ) = (x i + y j )p(x i, y j ) = x i p(x i, y j ) + y j p(x i, y j ) i j i j i j = x i p(x i ) + y j p(x i, y j ) = EX + y j p(y j ) = EX + EY. i j i j No caso geral, temos que E(X + Y ) = E(φ(X, Y )) = e pela liearidade da itegral obtemos E(X + Y ) = xdf X,Y (x, y) + (x + y)df X,Y (x, y), ydf X,Y (x, y) = EX + EY.

73 4.6. PROPRIEDADES DA ESPERANÇA 68 Corolário 4.6.1: E( i a ix i ) = i a iex i. Prova: Aplicação das duas propriedades ateriores e idução matemática. 5. P (X Y ) = 1 EX EY. Propriedade 5 segue da propriedades 2 e do corolário aterior, pois P (X Y ) = P (X Y 0), o que, pela propriedade 2, implica que E(X Y ) 0. Pelo corolário, temos que E(X Y ) = EX EY, ou seja podemos cocluir que EX EY Se {X 1,..., X } são variáveis aleatórias mutuamete idepedetes, etão E( i=1 X i) = i=1 EX i. Provaremos esta propriedade os casos discreto e cotíuo. No caso discreto, ote que E( X i ) = x i1 x i p(x i1,..., x i ) i=1 i 1 i = x i1 x i p(x ij ) = x i1 p(x i1 ) x i p(x i ) = i 1 i j=1 i 1 i EX i. i=1 No caso cotíuo, temos que f X ( x) = i=1 f X i (x i ), logo E( = X i ) = i=1 i=1 x 1 x f X ( x)dx 1 dx x i f Xi (x i )dx 1 dx = i=1 x i f Xi (x i )dx i = EX i. i=1 De maeira aáloga, pode-se provar a seguite geeralização deste resultado: se {X 1,..., X } são variáveis aleatórias mutuamete idepedetes, etão E( i=1 G(X i)) = i=1 EG(X i). 7. Se Y for uma variável aleatória que assume valores iteiros ão-egativos, temos que EY = kp (Y = k) = k=1 k P (Y = k), k=1 j=1 trocado a ordem dos somatórios: EY = P (Y = k) = j=1 k=j P (Y j). j=1 8. (Desigualdade de Jese) Seja φ uma fução mesurável e covexa defiida a reta. Se X é itegrável, etão Eφ(X) φ(ex).

74 4.6. PROPRIEDADES DA ESPERANÇA 69 Prova: Pela covexidade de φ, dado algum poto (x 0, φ(x 0 ) do gráfico de φ, existe uma reta que passa por esse poto e fica sempre abaixo do gráfico de φ, ou seja, existe algum λ tal que φ(x) φ(x 0 ) + λ(x x 0 ), x. Logo, pela mootoicidade e liearidade da esperaça, temos Eφ(X) φ(x 0 ) + λ(ex x 0 ). Em particular, para x 0 = EX, temos Eφ(X) φ(ex). O próximo Lema estabelece um critério para itegrabilidade de variáveis aleatórias. Lema 4.6.2: Seja X uma variável aleatória qualquer. Etão, P ( X ) E X 1 + =1 P ( X ), e, portato, X é itegrável se, e somete se, =1 P ( X ) <. Prova: Se x 0, seja x a parte iteira de x. Etão, a variável aleatória X assume o valor k quado k X < k + 1 e 0 X X X + 1, etão pela mootoicidade e liearidade da esperaça temos: =1 0 E X E X 1 + E X. Como X é uma variável aleatória que só assume valores iteiros ão-egativos, temos logo E X = P ( X ) = P ( X ), =1 =1 P ( X ) E X 1 + P ( X ). =1 =1 Se X + = max(x, 0) e X = mi(x, 0), temos que X = X + X e X = X + + X. Por defiição, temos que EX < se, e somete se, EX + < e EX <. Portato, vemos que EX < se, e somete se, E X <. De forma aáloga, pode-se cocluir que Eφ(X) < se, e somete se, E φ(x) < para qualquer fução mesurável φ. O próximo teorema os dá um outro critério para itegrabilidade de uma variável aleatória. Teorema : Sejam X e Y variáveis aleatórias tais que Y X < Y. Etão, X é itegrável. 0, Y é itegrável, e Prova: Note que 0 X Y implica que 0 E X EY. Portato, se EY <, temos que E X <, o que por sua vez implica que EX <.

75 4.7. MOMENTOS Mometos Mometos dão iformações parciais sobre a medida de probabilidade P, a fução de distribuição acumulada, ou a fução probabilidade de massa de uma variável aleatória X. Mometos de X são esperaças de potêcias de X. Defiição 4.7.1: Para qualquer iteiro ão-egativo, o -ésimo mometo da variável aleatória X é EX, se esta esperaça existe. Na seção aterior, vimos que o segudo mometo de uma variável aleatória Poisso com parâmetro λ é dado por: λ 2 + λ. Vamos agora calcular o segudo mometo de uma variável aleatória X Biomial com parâmetros e p: ( ) EX 2 = k 2 p k (1 p) k = k 2! k k!( k)! pk (1 p) k = k=0 k=1! k(k 1) k!( k)! pk (1 p) k! + k k!( k)! pk (1 p) k k=1 ( 1)p 2 k=2 = ( 1)p 2 m k=1 ( 2)! (k 2)!( k)! pk 2 (1 p) k + p j=0 (m)! (j)!(m j)! pj (1 p) m j + p = ( 1)p 2 + p. Teorema 4.7.2: Se o k-ésimo mometo de uma variável aleatória existir, etão todos os mometos de ordem meores do que k também existem. Prova: Por hipótese, temos que E X k <, logo E(1 + X k ) <. Como para qualquer j tal que 0 < j < k, X j 1 + X k, e 1 + X k é itegrável, temos que X j também é itegrável. Vamos agora euciar dois teoremas importates que tratam da covergêcia de esperaças de variáveis aleatórias. Neste caso, estaremos tratado de covergêcia potual de variáveis aleatórias, ou seja, X X se, e somete se, X (w) X(w) para todo w Ω. No próximo capítulo, veremos outras oções de covergêcia de variáveis aleatórias. Teorema 4.7.3: Teorema da Covergêcia Moótoa. Sejam X, X 1, X 2,... variáveis aleatórias. Se 0 X X, etão, EX EX. Teorema 4.7.4: Teorema da Covergêcia Domiada. Sejam Y, X, X 1, X 2,... variáveis aleatórias. Cosidere que Y seja itegrável, X Y e X X. Assim X e X são itegráveis e EX EX. O próximo exemplo mostra que em sempre X X EX EX. Exemplo 4.7.5: Seja Y U(0, 1). Cosidere a seguite seqüêcia {X 1, X 2,...} de variáveis aleatórias: X (ω) = se Y (ω) (0, 1/) e X (ω) = 0 em caso cotrário. Etão, temos que X (ω) 0, ω. Mas, EX = 1 0 = E0, ou seja, EX 0.

76 4.7. MOMENTOS Mometos Cetrais Defiição 4.7.6: Se X é uma variável aleatória seu -ésimo mometo cetral é: E(X EX), se esta esperaça existir. Note que o primeiro mometo cetral é zero, pois E(X EX) = EX EEX = EX EX = 0. O segudo mometo cetral é cohecido como variâcia e deota-se por V arx. A variâcia pode ser também calculada por: V arx = E(X EX) 2 = E(X 2 2XEX + (EX) 2 ) = EX 2 2E(XEX) + E((EX) 2 ) = EX 2 2(EX) 2 + (EX) 2 = EX 2 (EX) 2. Do Teorema Biomial e da liearidade da esperaça, temos e E(X EX) = k=0 EX = E(X EX + EX) = ( ) ( EX) k EX k k k=0 ( ) (EX) k E(X EX) k. k Como um corolário, temos que o -ésimo mometo cetral existe se, e somete se, o -ésimo mometo existe. Exemplo 4.7.7: Cosidere uma variável aleatória X tal que P (X = m a) = P (X = m + a) = 1 2 EXk = 1 2 [(m a)k + (m + a) k ]. EX = m, EX 2 = 1 2 [2m2 + 2a 2 ] = m 2 + a 2, V arx = a 2. Este exemplo, mostra que podemos ecotrar uma variável aleatória bem simples possuido qualquer esperaça e variâcia predetermiadas. O desvio-padrão σ de uma variável aleatória X é defiido como a raiz quadrada da variâcia, σ(x) = V arx. Propriedades da Variâcia e de outros Mometos As seguites propriedades da variâcia são coseqüêcias imediatas de sua defiição. 1. V arx Se X = c, V ar(x) = 0. Prova: Temos que EX = c, logo V ar(x) = E(X c) 2 = E(0) = 0.

77 4.7. MOMENTOS V ar(x + a) = V arx, ode a é uma costate real. Prova: V ar(x + a) = E(X + a) 2 (E(X + a)) 2 = EX 2 + 2aEX + a 2 (EX) 2 2aEX a 2 = EX 2 (EX) 2 = V arx. 4. V ar(ax) = a 2 V arx Prova: V ar(ax) = E(aX) 2 (E(aX)) 2 = a 2 EX 2 a 2 (EX) 2 = a 2 V arx. 5. Se X e Y forem variáveis aleatórias mutuamete idepedetes, etão V ax(x + Y ) = V arx + V ary. Prova: V ar(x + Y ) = E(X + Y ) 2 [E(X + Y )] 2 = E(X 2 + 2XY + Y 2 ) (EX) 2 2EXEY (EY ) 2 = EX 2 + EY 2 (EX) 2 (EY ) 2 + 2E(XY ) 2EXEY = V arx + V ary 6. Se X 1,..., X são variáveis aleatórias idepedetes, etão V ar(x 1 + X ) = V arx V arx. Esta propriedade segue da propriedade aterior e de uma aplicação de idução matemática. 7. Desigualdade de Chebyshev Geeralizada. Dado um cojuto A e uma fução g(x) tal que x g(x) I A (x), tem-se que P (X A) mi(1, Eg(X)). Prova: Pela mootoicidade da Esperaça, temos que Eg(X) EI A (X) = P (X A). Mas, como a cota superior pode exceder 1, temos que mi(1, Eg(X)) P (X A). Corolário 4.7.8: Seja X uma variável aleatória, etão para todo ϵ > 0, P ( X ϵ) E X ϵ. Prova: Escolha A = {x : x ϵ} e g(x) = x P ( X ϵ) E X. ϵ ϵ. Note que g(x) I A(x), etão Corolário 4.7.9: Se Z 0 e EZ = 0, etão P (Z = 0) = 1.

78 4.7. MOMENTOS 73 Prova: P (Z 1 ) EZ = 0. Como [Z > 0] = [Z 1 ], temos que P (Z > 0) = P ( [Z 1 ]) P (Z 1 ) = 0. Portato, P (Z = 0) = 1 P (Z > 0) = 1. Note que este último corolário implica que, quado V ar(x) = 0, ou seja E(X EX) 2 = 0, temos que P (X = EX) = 1, ou seja X é costate com probabilidade 1. Corolário : Desigualdade (Origial) de Chebyshev. Seja X uma variável aleatória, etão P ( X EX ϵ) V arx ϵ 2. Prova: Escolha A = {x : x ϵ} e g(x) = x2. Note que g(x) I ϵ 2 A (x), etão pelo teorema aterior, P (X A) = P ( X ϵ) EX2. Substituido X por X EX, ϵ 2 temos P ( X EX ϵ) V arx. ϵ 2 Note que a desigualdade de Chebyshev coverte cohecimeto sobre um mometo de seguda ordem ou uma variâcia uma cota superior para a probabilidade da cauda de uma variável aleatória. 8. Se X e Y são variáveis aleatórias em (Ω, A, P ) tais que E X t < e E Y t <, etão E X +Y t <. Prova: X +Y X + Y 2 max( X, Y ). Portato, X +Y t 2 t max( X t, Y t ) 2 t ( X t + Y t ). Logo, E X + Y t 2 t (E X t + E Y t ) <. Como E X t < obviamete implica E ax t <, a IR, esta propriedade diz que a classe de variáveis aleatórias em (Ω, A, P ) possuidoras do t-ésimo mometo fiito é um espaço vetorial ou espaço liear. 9. V arx = E(X µ) 2 = mi c IR E(X c)2. Prova: logo (X c) 2 = (X µ + µ c) 2 = (X µ) 2 + 2(µ c)(x µ) + (µ c) 2, E(X c) 2 = E(X µ) 2 + 2(µ c)(ex µ) + (µ c) 2 = V arx + (µ c) 2. Portato, E(X c) 2 E(X µ) 2, c IR.

79 4.8. MOMENTOS CONJUNTOS Mometos Cojutos Podemos defiir a oção de mometo quado lidamos com vetores aleatórios. Defiição 4.8.1: Seja X = (X 1, X 2,..., X k ) um vetor aleatório k-dimesioal. Etão, os mometos cojutos de X são da forma E( k i=1 Xj i i ), ode j i s são iteiros positivos, se esta esperaça existir. De forma aáloga ao caso uidimesioal pode-se defiir também mometos cojutos cetrais. No caso bidimesioal, temos que a correlação e a covariâcia são mometos cojutos que são medidas do grau de depedêcia liear etre duas variáveis. Defiição 4.8.2: A correlação etre duas variáveis aleatórias X e Y é dada por EXY se esta esperaça existe. A covariâcia etre elas é dada por Cov(X, Y ) = E[(X EX)(Y EY )] = EXY (EX)(EY ). Note que Cov(X, X) = V arx. Pela prova da propriedade 5 de variâcia, vemos que a seguite relação é válida: V ar(x + Y ) = V arx + V ary + 2Cov(X, Y ). Diz-se que duas varáveis são ão-correlacioadas se Cov(X, Y ) = 0. Como já provamos que se X e Y são idepedetes, etão EXY = EXEY. Temos que se X e Y são idepedetes, elas ecessariamete são ão-correlacioadas. O cotrário em sempre é verdadeiro como o próximo exemplo ilustra. Exemplo 4.8.3: Se X é uma variável aleatória tal que P (X = a) = P (X = a) = 1/2 e Y = X 2, temos que EXY = a 3 (1/2) + a 3 (1/2) = 0 e EX = a(1/2) + a(1/2) = 0. Logo, EXY = EXEY = 0, ou seja, Cov(X, Y ) = 0. Porém, X e Y ão são idepedetes, pois Y é uma fução de X. Vejamos agora uma expressão para a variâcia da soma de variáveis aleatórias. Teorema 4.8.4: Sejam X 1, X 2,..., X variáveis aleatórias tais que V ar(x i ) <, etão Prova: V ar(x X ) = V arx i + 2 Cov(X i, X j ). i<j i=1 V ar(x X ) = E(X X E(X X )) 2 = E( (X i EX i )) 2 = E[ (X i EX i )(X j EX j )] = (X i EX i ) i=1 i=1 i<j V ar(x i ) + 2 Cov(X i, X j ). i<j i=1

80 4.8. MOMENTOS CONJUNTOS 75 Corolário : Sejam X 1, X 2,..., X variáveis aleatórias tais que V ar(x i ) < e Cov(X i, X j ) = 0 para i j, etão V ar(x X ) = V arx i. i=1 O próximo teorema trata de uma importate desigualdade em teoria da probabilidade: Teorema 4.8.6: (E(XY )) 2 EX 2 EY 2 e (Cov(X, Y )) 2 V arxv ary. Prova: (ax + Y ) 2 0 E(aX + Y ) 2 0 a 2 EX 2 + 2aEXY + EY 2 0. Observe que esta equação do segudo grau em a ão pode ter duas raízes reais diferetes, pois caso cotrário essa expressão seria egativa para os valores etre as raízes. Etão, utilizado a regra do discrimiate, temos que 4(EXY ) 2 4EX 2 EY 2 0, e temos a primeira desigualdade. A seguda desigualdade segue da primeira trocado X por X EX e Y por Y EY a expressão da primeira desigualdade. O coeficiete de correlação etre duas variáveis aleatórias X e Y é dado por ρ(x, Y ) = Cov(X, Y ) V ar(x)v ar(y ). O teorema aterior provou que ρ(x, Y ) 1. O próximo teorema mostra que o módulo do coefieciete de correlação etre duas variáveis é igual a 1 se, e somete se, as variáveis são liearmete depedetes. Teorema 4.8.7: Sejam X e Y variáveis aleatórias com variâcias fiitas e positivas. Etão, (a) ρ(x, Y ) = 1 se, e somete se, P (Y = ax + b) = 1 para algum a > 0 e b IR. (b) ρ(x, Y ) = 1 se, e somete se, P (Y = ax + b) = 1 para algum a < 0 e b IR. Prova: Parte (a). Como ( X EX Y EY ) 2 0, temos que V ar(x) V ar(y ) 0 E( X EX V ar(x) Y EY V ar(y ) ) 2 = E( X EX ) 2 + E( Y EY ) 2 2 E((X EX)(Y EY )) V ar(x) V ar(y ) V ar(x)v ar(y ) = V arx V arx + V ary V ary 2Cov(X, Y ) V ar(x)var(y ) = 2 2ρ(X, Y ). Se ρ(x, Y ) = 1, etão E( X EX V ar(x) Y EY V ar(y ) ) 2 = 0,

81 4.8. MOMENTOS CONJUNTOS 76 o que por sua vez implica que P ( X EX V ar(x) = Y EY V ar(y ) ) = 1, em outras palavras, P (Y = EY + V ary V arx (X EX)) = 1. A prova da parte (b) é aáloga, substituido o sial + por - a expressão acima. Deixamos para o leitor verificar os detalhes. O próximo teorema apreseta uma ova relação etre mometos cojutos de variáveis aleatórias. Ele é cohecido como Desigualdade de Hölder. Teorema 4.8.8: Supoha que p e q satisfazem: p > 1, q > 1, e p q E( X p ) < e E( X q ) <, temos que E( XY ) (E X p ) 1/p (E Y q ) 1/q. = 1. Etão, se Prova: A prova da desigualdade de Hölder utiliza um argumeto de covexidade. Como X p 0 (resp., X q 0), já vimos que se E X p = 0, etão P (X = 0) = 1. Portato, em ambos os casos E( XY ) = 0 e a desigualdade de Hölder é válida. Cosidere etão o caso em que o lado direito da desigualdade de Hölder é estritamete positivo. Note que para a > 0 e b > 0, existe s, t IR tal que a = exp( s p ) e b = exp( t q ). Como a fução expoecial é covexa e p 1 + q 1 = 1, temos por covexidade que ou pela defiição de s, t Agora substituido a por exp( s p + t q ) p 1 exp(s) + q 1 exp(t), X (E( X p )) 1/p ab p 1 a p + q 1 b q. e b por Y (E( Y q )) 1/q, temos XY (E( X p )) 1/p (E( Y q )) X 1/q p 1 ( (E( X p )) 1/p )p + q 1 Y ( (E( Y q )) 1/q )q. Fialmete, tomado o valor esperado, temos E XY (E( X p )) 1/p (E( Y q )) 1/q p 1 E X p ( (E( X p )) )p + q 1 E Y q ( (E( Y q )) )q = p 1 + q 1 = 1.

82 Capítulo 5 Distribuição e Esperaça Codicioais 5.1 Distribuição codicioal de X dada Y discreta Seja X uma variável aleatória o espaço de probabilidade (Ω, A, P ), e seja A um eveto aleatório tal que P (A) > 0. Usado o coceito de probabilidade codicioal, podemos defiir a distribuição codicioal de X dado o eveto A por P (X B A) = P ([X B] A), P (A) para B boreliao. Pode-se verificar facilmete que isto defie uma probabilidade os boreliaos verificado-se os axiomas. Podemos iterpretar a distribuição codicioal de X dado A como a ova distribuição que se atribui a X quado sabe-se da ocorrêcia do eveto A. A fução de distribuição associada à distribuição codicioal é chamada fução distribuição codicioal de X dado A: F X (x A) = P (X x A). A esperaça codicioal de X dado A é a esperaça da distribuição codicioal, defiida por E(X A) = xdf X (x A), se esta esperaça existe. Agora supohamos que os evetos aleatórios A 1, A 2,... formem uma partição (fiita ou eumerável) de Ω. Pelo Teorema da Probabilidade Total, temos P (X B) = P (A )P (X B A ), B B, e F X (x) = P (X x) = P (A )P (X x A ) = P (A )F X (x A ), x, 77

83 5.1. DISTRIBUIÇÃO CONDICIONAL DE X DADA Y DISCRETA 78 e se a esperaça de X existe, EX = xdf X (x) = = P (A ) xd( xdf X (x A ) = P (A )F X (x A )) P (A )E(X A ). Em outras palavras, a distribuição de X (resp., fução de distribuição, esperaça de X) é uma média poderada da distribuição codicioal (resp., fução de distribuição codicioal, esperaça codicioal de X) dado A, ode os pesos são as probabilidades dos membros A da partição. Cosideremos agora o caso em que a partição do espaço amostral é gerada por uma variável aleatória discreta. Para tato, seja Y uma variável aleatória discreta em (Ω, A, P ), tomado somete os valores y 1, y 2,.... Etão, os evetos A = [Y = y ] formam uma partição de Ω. Neste caso, a distribuição P (X B Y = y ) = P (X B A ), para B boreliao, é chamada de distribuição codicioal de X dado que Y = y, e valem as fórmulas P (X B) = P (Y = y )P (X B Y = y ), B boreliao F X (x) = P (Y = y )F X (x Y = y ) EX = P (Y = y )E(X Y = y ), ode vale a última fórmula se EX existe; em particular, se X é itegrável. Notemos que para B fixo, P (X B Y = y ) é fução de y, digamos g(y ). Se defiirmos g(y) = P (X B Y = y) arbitrariamete para y / {y : 1}, por exemplo, g(y) = P (X B), etão teremos P (X B) = P (X B Y = y)df Y (y) = g(y)df Y (y), pelas propriedades da itegral de Lebesgue o caso de Y discreto. As outras fórmulas possuem iterpretações aálogas, logo teremos P (X B) = P (X B Y = y)df Y (y), B boreliao F X (x) = F X (x Y = y)df Y (y) EX = E(X Y = y)df Y (y).

84 5.2. DISTRIBUIÇÃO CONDICIONAL DE X DADA Y : CASO GERAL 79 Essas fórmulas valem também o caso geral, como veremos adiate. Salietamos que a esperaça precisa existir para que a última fórmula valha. De fato, quado X for itegrável, φ(y) = E(X Y = y) será fiito. Nesse caso, a variável aleatória φ(y ) será chamada de esperaça codicioal de X dada Y e será idicada por φ(y ) = E(X Y ). Notemos que E(X Y = y) é um valor particular da variável aleatória E(X Y ): é o valor quado Y = y. Portato, a última fórmula pode ser reescrita assim EX = Eφ(Y ) = E(E(X Y )). Em outras palavras, a esperaça de X é igual à esperaça da esperaça codicioal de X dada Y. Exemplo 5.1.1: Cosideremos o seguite experimeto em que participam dois jogadores, I e II. Supohamos que o jogador I lace uma moeda hoesta vezes, obtedo k caras, ode 0 k, e que depois disso o jogador II lace a mesma moeda k vezes. Seja X o úmero de caras obtidas pelo jogador II. Qual a esperaça de X supodo idepedêcia de todos os laçametos? Seja Y o úmero de caras os laçametos do jogador I. Decorre das codições do experimeto que Y b(, 1) e que X Y = k b(k, 1 ). Por isso, a esperaça codicioal 2 2 de X dado que Y = k é a esperaça da distribuição b(k, 1): E(X Y = k) = k, ou seja, 2 2 E(X Y ) = Y. Utilizado a fórmula, temos 2 EX = E(E(X Y )) = E( Y 2 ) = 4. Exemplo 5.1.2: Cosideremos outro jogo que cota com a participação de dois jogadores I e II. Neste jogo, o jogador I vai fazer uma seqüêcia de laçametos idepedetes de uma moeda que tem probabilidade p de dar cara, ode 0 < p < 1. Ates do jogador I começar, o jogador II observa uma variável aleatória N tedo distribuição P oisso(λ), ode λ > 0. Supomos que N seja idepedete da seqüêcia de laçametos do jogador I. Se o jogador II observar N =, ele vai parar o jogador I depois de ter feito laçametos (se N = 0, o jogador II ão permite ehum laçameto). Se S for o úmero de caras observadas até o jogador I parar, qual é a esperaça de S? Solução: Como a seqüêcia de laçametos é idepedete de N, a distribuição codicioal de S dado que N = é biomial(, p). Portato, E(S N = ) = p, ou seja, E(S N) = Np. Logo, ES = E(Np) = pen = pλ. 5.2 Distribuição codicioal de X dada Y : caso geral Nosso objetivo esta seção é defiir a distribuição codicioal de X dado que Y = y para todo y R e todo par de variáveis aleatórias X e Y defiidas o mesmo espaço de probabilidade (Ω, A, P ). Na seção aterior defiimos a distribuição codicioal dado que Y = y quado P (Y = y) > 0; portato osso problema agora é como defiir distribuição codicioal quado P (Y = y) = 0. No caso discreto essa defiição era arbitrária, pois o cojuto

85 5.2. DISTRIBUIÇÃO CONDICIONAL DE X DADA Y : CASO GERAL 80 B 0 = {y : = 1, 2,...} c também tiha probabilidade zero. Mas é evidete que essa solução ão serve o caso geral, já que o caso cotiuo P (Y = y) = 0 para todo y R. Para termos uma ituição sobre a defiição formal da distribuição codicioal o caso geral, cosideremos ovamete o caso discreto. Pelas fórmulas obtidas a seção aterior a distribuição (resp., fução de distribuição, esperaça) de X é determiada pela distribuição Y e a distribuição (resp., fução de distribuição, esperaça) codicioal de X dada Y. De fato, o Teorema da Probabilidade Total os dá um resultado muito mais forte: a distribuição cojuta de X e Y é determiada pela distribuição de Y e a distribuição codicioal de X dada Y. Para ver isto, basta otar que para todo x e y, F X,Y (x, y) = P (X x, Y y) = P (X x, Y = y ) = = :y y y :y y P (Y = y )P (X x Y = y ) = F X (x Y = t)df Y (t). :y y P (Y = y )F X (x Y = y ) Vemos etão que o caso discreto a fução de distribuição cojuta é uma espécie de composta da fução de distribuição margial de Y com a fução de distribuição codicioal de X dada Y. E pode-se provar que para todo par de variáveis aleatórias X e Y, defiidas o mesmo espaço de probabilidade, existe uma, e somete uma, família de fuções de distribuição codicioal satisfazedo a codição acima. Isto justifica a seguite defiição formal para a distribuição codicioal de X dada Y : Defiição 5.2.1: Sejam X e Y variáveis aleatórias defiidas o mesmo espaço de probabilidade (Ω, A, P ). Uma fução P (X B Y = y), defiida para B boreliao e y R, será chamada uma distribuição codicioal (regular) para X dada Y se (i) para todo y R fixo, P (X B Y = y) defie uma probabilidade a σ-álgebra de Borel; e (ii) para todo B boreliao fixo, P (X B Y = y) é fução mesurável de y e para todo (x, y) R 2, y F X (x Y = t)df Y (t) = F X,Y (x, y). O próximo teorema prova que esta defiição determia uma úica distribuição codicioal quase certamete. Teorema 5.2.2: Sejam X e Y variáveis aleatórias em (Ω, A, P ). Etão existe uma distribuição codicioal regular para X dada Y. Existe apeas uma, o setido de que duas distribuições codicioais são iguais quase certamete: se P 1 (X B Y = y) e P 2 (X B Y = y) são ambas distribuições codicioais para X dada Y, etão existe um boreliao B 0 tal que P (Y B 0 ) = 1 e P 1 (X B Y = y) = P 2 (X B Y = y), para todo B boreliao e y B 0.

86 5.2. DISTRIBUIÇÃO CONDICIONAL DE X DADA Y : CASO GERAL 81 Prova: Omitida. Existe uma outra alterativa para se calcular a distribuição codicioal de X dada Y que utiliza uma aproximação da defiição do caso discreto. Para tato, seja I um itervalo pequeo de comprimeto y e que cotém o poto y. Tomemos como aproximação para a probabilidade codicioal de X pertecer a B dado que Y = y, a probabilidade codicioal do mesmo eveto dado que Y I, ou seja, P (X B Y = y) P (X B Y I) = P (X B, Y I). P (Y I) O seguite teorema prova que esta maeira alterativa de calcular a distribuição codicioal de X dado Y quase sempre coicide com a Defiição Teorema 5.2.3: Para cada B boreliao fixo, o limite a defiição 4.2 existe quase certamete, i.e., P (Y {y : limite existe em y}) = 1. Além disso, para cada B fixo, o limite é igual a P (X B Y = y) como defiido a Defiição 5.2.1, quase certamete, ou seja, o cojuto dos y s para os quais o limite coverge para P (X B Y = y) coforme a Defiição tem probabilidade 1. Tato a Defiição quato o método da aproximação por limites ão são úteis para ecotrar a distribuição codicioal. Para tato deve-se tetar adivihar um cadidato. Cosideremos algus casos simples em que a solução vem de imediato: Caso I: Y discreta. Cosidere a solução que obtivemos quado aalisamos o caso discreto. Portato, se Y assume os valores y 1, y 2,... tais que P (Y = y ) > 0, etão P (X B Y = y ) = P (X B, Y = y ), B B, P (Y = y ) e P (X B Y = y) = P (X B) se P (Y = y) = 0. Note que esta distribuição satisfaz as duas codições da Defiição e portato é uma distribuição codicioal de acordo com a defiição do caso geral. Caso II: X e Y idepedetes. Ituitivamete, a distribuição codicioal de X dado que Y = y ão deveria depeder de y. Portato, osso cadidato é: P (X B Y = y) = P (X B), B B, y IR. Portato, a primeira codição da Defiição é satisfeita e osso cadidato para F X (x Y = y) é F X (x), logo y y F X (x)df Y (t) = F X (x) df Y (t) = F X (x)f Y (y) = F X,Y (x, y), ou seja, a seguda codição da defiição também é satisfeita. Caso III: X e Y possuem desidade cojuta f(x, y). Neste caso osso cadidato será f(x, y) f(x y) = f(y), x R,

87 5.2. DISTRIBUIÇÃO CONDICIONAL DE X DADA Y : CASO GERAL 82 se f(y) > 0, e f(x y) = f(x) se f(y) = 0. Esta fução é chamada de desidade codicioal de X dado que Y = y. Note que f(x y) preserva as chaces relativas e realmete é uma desidade. Agora, vamos mostrar que ela satisfaz a Defiição Parte (i), segue do fato que f(x y) é uma desidade de probabilidade e portato P (X B Y = y) = f(x y)dx X B é uma probabilidade para todo boreliao B. Para verificar (ii), ote que a fução de distribuição codicioal é F X (x Y = t) = x f(s t)ds. Logo y x ( y x = f(s t)ds)df Y (t) = y x ( f(s, t) f Y (t) ds)f Y (t)dt f(s, t)dsdt = F X,Y (x, y). (5.1) Caso IV: X discreta e Y com desidade f Y. De acordo com a defiição de distribuição codicioal, ela deve satisfazer este caso: y Note que se defiirmos P (X = x i Y = t)f Y (t)dt = P (X = x i, Y y). P (X = x i Y = t) = 1 P (X = x i, Y t) f Y (t) t = 1 P (Y t X = x i )P (X = x i ) f Y (t) t = P (X = x i) f Y X (t x i ), f Y (t) obtemos o resultado desejado. Em casos mais complexos, o processo de escolha da distribuição codicioal, ajuda observar os seguites pricípios: Pricípio da preservação das chaces relativas. Este pricípio diz que codicioalmete, dada a ocorrêcia de um eveto A, os resultados possíveis (ou seja, w A) matêm as mesmas chaces relativas que tiham ates da realização do experimeto. Pricípio da substituição. Este pricípio diz que codicioalmete, dado que Y = y, a variável aleatória Y pode ser substituída pelo valor y sempre que Y aparecer em uma probabilidade (ou esperaça) codicioal. Mais geralmete, diz que para obter a distribuição codicioal de φ(x, Y ) dado que Y = y, basta substituir Y pelo valor y. Exemplo 5.2.4: Seja X uma variável aleatória simétrica em toro de zero, de modo que P (X x) = P (X x), x IR. Qual a distribuição codicioal de X dado X? Utilizado o pricípio da preservação das chaces relativas e a simetria da variável X, temos que osso cadidato para distribuição codicioal deve ser: P (X = y X = y) = P (X = y X = y) = 1/2 se y > 0 e P (X = 0 X = 0) = 1.

88 5.3. ESPERANÇA CONDICIONAL 83 Como y P (X x X = t)df X (t) 0 y 0dF 0 X (t), se x < y x 0dF = 0 X (t) + y 1 df x 2 X (t), se y x < 0 x 1dF 0 X (t) + y 1 df x 2 X (t), se 0 x < y y 1dF 0 X (t), se x y 0 0, se x < y 1/2(F = X (y) F X ( x )), se y x < 0 1/2(F X (y) + F X (x)), se 0 x < y F X (y), se x y 0 0, se x < y F = X (x) F X ( y ), se y x < 0 F X (x) F X ( y ), se 0 x < y F X (y), se x y 0 Mas esta última expressão é igual a F X, X (x, y). Portato, osso cadidato satisfaz a defiição de distribuição codicioal. Exemplo 5.2.5: Se f Y X (y x) = x + 1 e x+1 y U(y) e X Biomial(2, 1/2), qual a desidade de Y? Dado que Y = y, qual a distribuição de X para y > 0? Solução: f Y (y) = 2 ( ) 2 i + 1 e i+1 y U(y) (1/2) 2 i i=0 = 1 4 U(y)(e y + 4e 2y + 3e 3y ) Utilizado o resultado do Caso IV acima temos que 5.3 Esperaça Codicioal P (X = i) P (X = i Y = y) = f Y X (t i) f Y (y) ( 2 ) i i + 1 e i+1 y =, i = 0, 1, 2. (e y + 4e 2y + 3e 3y ) Defiição 5.3.1: Sejam X e Y variáveis aleatórias em (Ω, A, P ). A esperaça codicioal de X dado que Y = y, é a esperaça da distribuição codicioal de X dado que Y = y, se esta esperaça existir. Ou seja, E(X Y = y) = xdf X (x Y = y).

89 5.3. ESPERANÇA CONDICIONAL 84 Pode-se provar que: Teorema 5.3.2: Se X é itegrável, etão E(X Y = y) existe e é fiita quase certamete, i.e., existe um boreliao B 0 tal que P (Y B 0 ) = 1 e E(X Y = y) é fiita para todo y B 0. Se defiirmos φ(y) = E(X Y = y), a variável aleatória φ(y ) = E(X Y ) chama-se esperaça codicioal de X dada Y. A esperaça codicioal, sedo a esperaça da distribuição codicioal, possui todas as propriedades da esperaça ordiária (por exemplo, liearidade, desigualdade de Jese, covergêcia moótoa, covergêcia domiada), mais a propriedade importate de que E(E(X Y )) = EX, ou seja EX = E(X Y = y)df Y (y). Já demostramos esta equação o caso discreto, vamos verificá-las quado X e Y têm desidade cojuta f(x, y): f(x, y) E(X Y = y) = xdf X (x Y = y) = xf(x y)dx = x f Y (y) dx, se f Y (y) > 0. Logo, quado X é itegrável, E(E(X Y )) = E(X Y = y)df Y (y) = = = xf(x, y)dxdy = xf X (x)dx = EX. Como A = [I A = 1], temos ( ( f(x, y)dy)xdx f(x, y) x f Y (y) dxf Y (y)dy) E(I A Y = y) = 1 P (I A = 1 Y = y) + 0 P (I A = 0 Y = y) = P (I A = 1 Y = y) = P (A Y = y). De fato, como I A é itegrável, ós temos P (A) = E(I A ) = E(E(I A Y )) = E(P (A Y )), ou seja, a probabilidade de um eveto é a esperaça de sua probabilidade codicioal dada Y, para qualquer Y. A seguir eumeramos algumas propriedades da esperaça codicioal, que são geeralizações de propriedades da esperaça icodicioal. EC1. E(E(X Y )) = EX. EC2. Se X = c, para alguma costate c, etão E(X Y ) = c.

90 5.3. ESPERANÇA CONDICIONAL 85 EC3. Se X 1 X 2, etão E(X 1 Y ) E(X 2 Y ). EC4. E(aX 1 + bx 2 Y ) = ae(x 1 Y ) + be(x 2 Y ). EC5. Seja φ uma fução covexa. Etão, φ(e(x Y )) E(φ(X) Y ). EC6. Se X 0 e X X, etão E(X Y ) E(X Y ). EC7. Se X X e se existe X 0 itegrável tal que X X 0, etão lim E(X Y ) = E(X Y ). EC8. Se φ(x, Y ) é itegrável, etão E(φ(X, Y ) Y = y) = E(φ(X, y) Y = y) = φ(x, y)df X (x Y = y). Assim como o caso icodicioal podemos defiir mometos codicioais de ordem mais elevada de maeira aáloga. O k-ésimo mometo de X dado Y é dado por E(X k Y ). E o k-ésimo mometo cetral é dado por E((X E(X Y )) k Y ). Em particular, o segudo mometo cetral é cohecido como variâcia codicioal de X dado Y e pode ser reescrito como: V ar(x Y ) = E((X E(X Y )) 2 Y ) = E(X 2 Y ) (E(X Y )) 2. Exemplo 5.3.3: Sejam X e Y variáveis aleatórias idepedetes e ideticamete distribuídas, com X U[0, 1], e sejam U = mi(x, Y ) e V = max(x, Y ). Ecotre E(U V ). Solução: F U,V (x, y) = P (U x, V y) = P (V y) P (U > x, V y) { P (X y, Y y) P (x < X y, x < Y y), se x < y = P (X y, Y y), se x y. Portato, como X e Y são idepedetes, temos 0, se x 0 ou y 0 y 2 (y x) 2, se 0 < x < y < 1 F U,V (x, y) = y 2, se 0 < y x e y < 1 1 (1 x) 2, se y 1 e 0 < x < 1 1, se y 1 e x 1. Logo, f U,V (x, y) = 2 F U,V (x, y) x y = { 2, se 0 < x < y < 1 0, caso cotrário. Como f V (y) = f U,V (x, y)dx = y 2dx = 2y, se 0 < y < 1, e f 0 V (y) = 0 caso cotrário, temos que f U V (x y) = f U,V (x, y) f V (y) = { 1 y, se 0 < x < y < 1 0, caso cotrário.

91 5.3. ESPERANÇA CONDICIONAL 86 Etão, E(U V = y) = xf U V (x y)dx = y se 0 < y < 1, e E(U V = y) = 0, caso cotrário. Portato, { V, se 0 < V < 1 E(U V ) = 2 0, caso cotrário. 0 x y dx = y 2, Exemplo 5.3.4: Sejam X 1,..., X idepedetes, ideticamete distribuídas e itegráveis, e seja S = X X. Demostre que E(X i S) = S, para i = 1, 2,...,. Solução: Note que os vetores (X 1,..., X ) e (X i, X 2,..., X i 1, X 1, X i+1,..., X ) têm a mesma distribuição. Isto implica que (X 1, S) e (X i, S) possuem a mesma distribuição. Como a distribuição cojuta determia a distribuição codicioal, temos que X 1 e X i têm a mesma distribuição codicioal dado que S = s, e cosequetemete tem a mesma esperaça codicioal dado S = s. Portato, E(X 1 S = s) = E(X 2 S = s) =... = E(X S = s). Utilizado a liearidade da esperaça, temos E(X i S = s) = = E( E(X i S = s) i=1 X i S = s) = E(S S = s) = s. i=1 Etão, podemos cocluir que E(X i S = s) = s, ou seja, E(X i S) = S. Exemplo 5.3.5: Sejam X e Y duas variáveis aleatórias. Calculemos a distribuição de Z = X + Y. Temos P (X + Y z) = E(P (X + Y z Y )) = P (X + Y z Y = y)df Y (y) P (X z y Y = y)df Y (y) = F X (z y Y = y)df Y (y). (5.2) Se X e Y são idepedetes, etão F X (z y Y = y) = F X (z y) e temos F Z (z) = P (X + Y z) = F X (z y)df Y (y). (5.3) Esta distribuição é a covolução das distribuições de X e Y.

92 Capítulo 6 Covergêcia Estocástica 6.1 Seqüêcia de Evetos A defiição de coceitos de covergêcia de variáveis aleatórias depede de maipulações de seqüêcias de evetos. Seja A Ω, defie-se: if A k = k=a k, sup A k = k=a k k k lim if A = =1 k= A k lim sup A = =1 k= A k. O limite de uma seqüêcia de evetos é defiido da seguite maeira: se para alguma seqüêcia (B ) de evetos lim if B = lim sup B = B, etão B é chamado de limite de (B ) e ós escrevemos lim B = B ou B B. Exemplo 6.1.1: lim if[0, ) = lim sup[0, ) = [0, 1) Teorema 6.1.2: Seja (A ) uma seqüêcia de evetos de Ω. (a) ω lim sup A se, e somete se, ω A k para um úmero ifiito de ídices k. (b) ω lim if A se, e somete se, ω / A k para um úmero fiito de ídices k. Prova: Para parte (a), ote que ω lim sup A, se, e somete se, para todo, ω k= A k, ou seja, se, e somete se, para todo existe tal que ω A. Como isto é válido para todo, temos que isto é equivalete a existêcia de um úmero ifiito de ídices k tais que ω A k. A prova da parte (b) é similar. A seguir descreveremos algumas propriedades do lim if e lim sup de uma seqüêcia de evetos. 1. lim if A lim sup A Este fato é uma simples coseqüêcia do Teorema 6.1.2, pois se ω lim if A, ω ão pertece apeas a um úmero fiito de evetos A k s, e coseqüetemete pertece a um úmero ifiito deles. Logo, ω lim sup A. 87

93 6.1. SEQÜÊNCIA DE EVENTOS (lim if A ) c = lim sup A c Este fato decorre aplicado a Lei de De Morga duas vezes: Seqüêcias Mootôicas ( =1 k= A k ) c = =1( k=a k ) c = =1( k=a c k). Uma seqüêcia de evetos (A ) é mootôica ão-decrescete (resp., ão-crescete) se A 1 A 2... (resp, A 1 A 2...). Deotaremos por A (resp., A ) uma seqüêcia ão-decrescete (resp. ão-crescete) de evetos. Teorema 6.1.3: Supoha que (A ) é uma seqüêcia mootôica de evetos. Etão, 1. Se A, etão lim A = =1A. 2. Se A, etão lim A = =1A. Coseqüetemete, como para qualquer seqüêcia B, temos if k B k e sup k B k, segue que: lim if B = lim(if B k), lim sup B = lim(sup B k ) k Prova: Para provar (1), precisamos mostrar que lim if A = lim sup A = =1A. Como A j A j+1, temos k A k = A, e portato, Por outro lado, temos, lim if A = =1( k A k ) = =1A. k lim sup A = =1( k A k ) k=1a k = lim if A lim sup A. Logo, temos igualdade acima, ou seja, lim sup A = k=1 A k. A prova de (2) é similar. Exemplo 6.1.4: 1. lim [0, 1 1 ] = =1[0, 1 1 ] = [0, 1). 2. lim [0, ) = =1[0, ) = [0, 1]. 3. lim ( +1, 1 ) = =1( +1, 1 ) = {1}. Exemplo 6.1.5: Sejam A, A, B, B evetos em Ω. Mostre que: 1. se lim A = A, etão lim A c = A c. Solução: lim if A c = (lim sup A ) c = A c e lim sup A c = (lim if A ) c = A c.

94 6.1. SEQÜÊNCIA DE EVENTOS lim sup(a B ) = lim sup A lim sup B. Solução: Se ω lim sup(a B ), etão ω (A k B k ) para ifiitos ídices k. Logo, temos que ω A k para ifiitos ídices k, ou ω B k para ifiitos ídices k. Portato, temos ω lim sup A ou ω lim sup B, ou seja, ω lim sup A lim sup B. Reciprocamete, se ω lim sup A lim sup B, etão ω lim sup A ou ω lim sup B. Logo, temos que ω A k para ifiitos ídices k, ou ω B k para ifiitos ídices k, ou seja, ω (A k B k ) para ifiitos ídices k. Portato, ω lim sup(a B ). 3. Não é verdade que lim if(a B ) = lim if A lim if B. Solução: Vamos costruir um cotra-exemplo: Supoha que A B =, A = A e B = B para par; e A = B e B = A para ímpar. Como A B = A B para todo, é fácil ver que lim if(a B ) = A B. Também é fácil ver que lim if A = lim if B = A B =, pois somete os ω s em A B ão ocorrem para um úmero fiito de ídices tato a seqüêcia A quato a seqüêcia B. Etão, A B = lim if(a B ) = lim if A lim if B. 4. se A A e B B, etão A B A B e A B A B. Solução: Pela parte (2), temos que lim sup A B = lim sup A lim sup B = A B, e pela propriedade (1) de lim if e lim sup, temos lim if A B lim sup A B = A B. Resta-os provar que A B lim if A B. Supoha que ω A B, etão ω lim if A ou ω lim if B, ou seja, ω ão pertece a um úmero fiito de A k s, ou ω ão pertece a um úmero fiito de B k s. Logo, ω ão pertece a um úmero fiito de A k B k s. Portato, ω lim if A B. Etão, A B A B. Utilizado os ítes ateriores e a Lei de De Morga, temos: Borel-Cateli A B = (A c B c ) c = (lim A c lim B c ) c = = (lim A c B c ) c = lim(a c B c ) c = lim A B. A seguir vamos euciar e provar um importate Lema, cohecido como Lema de Borel- Catelli, que trata da probabilidade da ocorrêcia de um úmero ifiito de evetos. Lema 6.1.6: Sejam A 1, A 2,... evetos aleatórios em (Ω, A, P ), ou seja, A A,. (a) Se =1 P (A ) <, etão P (A ifiitas vezes ) = 0. (b) Se =1 P (A ) = e os evetos A s são idepedetes, etão P (A ifiitas vezes ) = 1.

95 6.1. SEQÜÊNCIA DE EVENTOS 90 Obervação: O ítem (b) ão vale ecessariamete sem idepedêcia. Por exemplo, seja A = A,, ode 0 < P (A) < 1. Etão, P (A ) = mas o eveto [A ifiitas vezes] = A e P (A ifiitas vezes) = P (A) < 1. Prova: Para parte (a), se P (A ) <, etão k=j P (A k) 0 quado j. Mas [A ifiitas vezes] k=ja k, j, logo Portato, P (A ifiitas vezes) = 0. Para parte (b), basta provar que P (A ifiitas vezes) P ( k=ja k ) P (A k ) 0. k=j P ( k=a k ) = 1, (pois sedo [A ifiitas vezes] = =1 k= A k a itersecção de um úmero eumerável de evetos de probabilidade 1, é também de probabilidade 1). Para tato, seja B = k= A k. Etão B cotém +m k= A k para todo m, e Logo para todo m, B c ( +m k= A k) c = +m k= Ac k. +m 1 P (B ) = P (B) c P ( +m k= Ac k) = P (A c k) = Como 1 p e p para 0 p 1, temos 1 P (B ) +m k= k= +m e P (Ak) = exp( k= +m (1 P (A k )). k= P (A k )) 0 quado m, pois +m k= P (A k) quado m. Logo P (B ) = 1,. Exemplo 6.1.7: Se sabemos que para uma dada coleção de evetos {A k }, as suas probabilidades idividuais satisfazem P (A k ) 1, etão podemos cocluir que ifitos desses vezes k 2 ocorrem com probabilidade zero ou, que apeas um úmero fiito deles ocorrem com probabilidade 1. Podemos reesecrever isso da seguite forma: existe um istate aleatório N tal que, com probabilidade 1, ehum dos A k ocorrem para k > N. É importate ressaltar que ós podemos chegar a essa coclusão sem saber ada sobre as iterações etre esses evetos como as que são expressas por probabilidades de pares de evetos P (A i A j ). Cotudo, se apeas sabemos que P (A k ) > 1/k, etão ão podemos cocluir ada baseados o Lema de Borel-Catelli. Se soubermos que os evetos são mutuamete idepedetes, etão sabedo que P (A k ) > 1/k, podemos cocluir que ifiitos A k ocorrem com probabilidade 1.

96 6.2. COVERGÊNCIA DE VARIÁVEIS ALEATÓRIAS 91 Exemplo 6.1.8: Cosidere uma seqüêcia de variáveis aleatórias X 1, X 2, X 3,.... Podemos usar o Lema de Borel-Catelli para determiar a probabilidade que X k > b k ifiitas vezes para qualquer seqüêcia de úmeros reais {b k }. Note que P (X k > b k ) = 1 F Xk (b k ). Logo, se P (X k > b k ) = 1 F Xk (b k ) <, k=1 k=1 etão, ão importa qual a distribuição cojuta das variáveis aleatórias {X k }, temos que o eveto {X k > b k } só ocorrerá para um úmero fiito de ídices k. Por outro lado, se P (X k > b k ) = 1 F Xk (b k ) =, k=1 k=1 etão precisaríamos de iformação adicioal sobre a distribuição cojuta das variáveis aleatórias {X k } para determiar se os evetos {X k > b k } ocorrem um úmero fiito ou ifiito de vezes. Exemplo 6.1.9: Cosidere uma moeda ão ecessariamete hoesta com probabilidade de cara igual a p, ode 0 < p < 1. Se esta moeda for jogada um úmero ifiito de vezes de maeira idepedete, qual a probabilidade da seqüêcia (cara, cara, coroa, coroa) aparecer um úmero ifiito de vezes? Justifique sua resposta. Solução: Seja X i o resultado do i-ésimo laçameto da moeda. Defia o eveto A i = {X i = cara, X i+1 = cara, X i+2 = coroa, X i+3 = coroa}, queremos calcular P (A i ifiitas vezes). Note que para todo i, temos P (A i ) = p 2 (1 p) 2 > 0. Não podemos aplicar diretamete o lema de Borel Catelli, pois os evetos A i s ão são idepedetes, visto que, por exemplo, ambos A 1 e A 2 depedem de X 2, X 3, X 4. Cosidere a seguite subseqüêcia da seqüêcia de evetos (A i ) tal que B i = A 4i 3. Como os evetos B i s depedem de famílias disjutas de variáveis aleatórias idepedetes, eles são idepedetes. Além disso temos que P (B i ) = p 2 (1 p) 2 > 0. Logo, i P (B i) =. Portato, Borel-Catelli implica que P (B i ifiitas vezes) = 1. Como (B i ) é uma subseqüêcia de (A i ), temos que Portato, P (A i ifiitas vezes) = 1. [B i ifitas vezes] [A i ifiitas vezes]. 6.2 Covergêcia de Variáveis Aleatórias Seguido uma iterpretação freqüetista, probabilidade está relacioada com a freqüêcia relativa de evetos o logo prazo. A matemática para estudar o logo prazo é a dos limites. Mas quado se trata de fuções, existem vários tipos de limites (por exemplo, potual, uiforme, em quase todo lugar). O mesmo ocorre quado cosideramos limites de variáveis aleatórias defiidas em um mesmo espaço de probabilidade (Ω, A, P ), visto que variáveis aleatórias são fuções reais cujo domíio é Ω. Relembrado: Seja (Ω, A) um espaço mesurável. Uma fução X : Ω R é chamada de variável aleatória se para todo eveto Boreliao B, X 1 (B) A. Nós recordamos que um eveto Boreliao é qualquer eveto pertecete à σ-álgebra de Borel, ode a σ-álgebra de Borel é a meor σ-álgebra cotedo itervalos da forma (, x] para todo x R.

97 6.2. COVERGÊNCIA DE VARIÁVEIS ALEATÓRIAS Tipos de Covergêcia Vamos a seguir descrever vários tipos de covergêcia estocástica, ilustrado com exemplos cada tipo de covergêcia, e depois provaremos algumas relações etre os vários tipos de covergêcia. Sejam Y, Y 1, Y 2,... variáveis aleatórias defiidas em um mesmo espaço de probabilidade (Ω, A, P ). Covergêcia Quase Certa Defiição 6.2.1: A seqüêcia de variáveis aleatórias Y 1, Y 2,... coverge quase certamete (ou com probabilidade 1) para a variável aleatória Y se Notação: Y Y cp1. P ({w : lim Y (w) = Y (w)}) = 1. Etão se uma seqüêcia de variáveis aleatórias Y 1, Y 2,... coverge quase certamete para Y ão sigifica que para todo w Ω, Y (w) Y (w), apeas o que se sabe é que a probabilidade do eveto D = {w : Y (w) Y (w)} é ula. D é chamado de cojuto de exceção. Exemplo 6.2.2: Cosidere uma variável aleatória Z tal que P ({w : 0 Z(w) < 1}) = 1. Seja X (w) = Z (w), etão X (w) 0 cp1; ote que o cojuto de exceção é D = {w Ω : Z(w) 1} e que P (D) = 0. Podemos obter uma defiição alterativa para covergêcia quase-certa, observado que, pela defiição de limite de sequêcias de úmeros reais, para um dado w Ω fixo, temos que lim Y (w) = Y (w) se, e somete se, para todo k IN, existir N tal que para todo N, temos Y (w) Y (w) < 1 k. Portato: {w : lim Y (w) = Y (w)} = {w : k=1 N=1 =N Y (w) Y (w) < 1 k }. Etão, Y Y cp1 se, e somete se, Isto é equivalete a: P ({w : k=1 N=1 =N Y (w) Y (w) < 1 }) = 1. k P ({w : k=1 N=1 =N Y (w) Y (w) 1 }) = 0. k Defia A,k = {w : Y (w) Y (w) 1 }. Etão para cada k fixo, temos que k lim sup A,k = N=1 =N A,k. Logo, Y Y cp1 se, e somete se, para todo k IN, P (lim sup A,k ) = 0.

98 6.2. COVERGÊNCIA DE VARIÁVEIS ALEATÓRIAS 93 Exemplo 6.2.3: Seja {X } 3 uma seqüêcia de variáveis aleatórias idepedetes com distribuição de probabilidade dada por: P (X = 0) = 1 1 log e P (X = ) = 1, 3. log Mostre que X 0 cp1. Solução: Para qualquer ϵ tal que 0 < ϵ < 1, temos que P ( X > ϵ) = P (X = ) = 1 log. Logo, P ( X > ϵ) = 1 =. Etão, o Lema de Borel-Catelli implica que log P ( X > ϵ ifiitas vezes) = 1, portato com probabilidade 1, X 0. Exemplo 6.2.4: Cosidere {X : 1} uma seqüêcia de variáveis aleatórias i.i.d. com fução de distribuição F. Supoha que F (x) < 1, para todo x <. Defia Y = max(x 1, X 2,..., X ). Vamos verificar que Y cp1. Iicialmete, observe que para cada ω Ω, as variáveis Y formam uma seqüêcia ãodecrescete de úmeros reais. Seja M um úmero real, temos P (Y M : = 1, 2,...) P (Y M : = 1, 2,..., k) = P (Y k M) = P (max(x 1, X 2,..., X k ) M) = P (X 1 M, X 2 M,... X k M) k = P (X M) = F k (M), k 1. =1 Fazedo k, temos que para todo M fiito, P (lim Y M) = P (Y M : = 1, 2,...) = 0; pois F k (M) tede a zero, quado k. Dessa forma, o cojuto dos w Ω, em que lim Y (w) é fiito, tem probabilidade zero e, portato, Y cp1. Covergêcia a r-ésima Média Defiição 6.2.5: A seqüêcia de variáveis aleatórias Y 1, Y 2,... coverge a r-ésima Média, ode r > 0, para a variável aleatória Y se Notação: Y r Y. lim E Y Y r = 0. Se r = 2 este tipo de covergêcia é freqüetemete chamado de covergêcia em média quadrática.

99 6.2. COVERGÊNCIA DE VARIÁVEIS ALEATÓRIAS 94 Exemplo 6.2.6: Sejam Z, X 1, X 2,... variáveis aleatórias tais que X = + 1 Z, etão X 2 Z se EZ 2 <, mas ão em caso cotrário. Exemplo 6.2.7: Cosidere a seqüêcia de variáveis aleatórias defiidas o Exemplo Mostre que X r 0, para todo r > 0. Solução: Temos que Logo, X r 0. E X r = r P (X = ) = r log. O próximo teorema afirma que se X r X, etão X s X para s < r. Teorema 6.2.8: Se X r X, etão X s X para 0 < s < r Prova: Defia p = r s > 1 e q = r. Etão, r s 1 p + 1 q = s r + r s r = 1. Seja Z = X s e Y = 1. Com estas defiições, a desigualdade de Hölder implica que ou seja, Substituido X por X X, temos E ZY (E Z p ) 1/p (E Y q ) 1/q, E( X s ) (E X ps ) 1/p 1 = (E X r ) s/r. E( X X s ) (E X X r ) s/r. Portato, se lim E X X r = 0, etão lim E X X s = 0. Covergêcia em Probabilidade Defiição 6.2.9: A seqüêcia de variáveis aleatórias Y 1, Y 2,... coverge em probabilidade para a variável aleatória Y se ϵ > 0 Notação: Y P Y. lim P ({w : Y (w) Y (w) > ϵ}) = 0. A ituição por trás desta defiição é que para muito grade a probabilidade de que Y e Y sejam bem próximas é bastate alta.

100 6.2. COVERGÊNCIA DE VARIÁVEIS ALEATÓRIAS 95 Exemplo : Cosidere a seqüêcia de variáveis aleatórias defiidas o Exemplo Mostre que X P 0. Solução: Temos que para 0 < ϵ < 1, P ( X > ϵ) = P (X = ) e para ϵ 1, P ( X > ϵ) P (X = ). Como P (X = ) = 1 0., temos que ϵ > 0, log lim P ( X > ϵ) = 0. Portato, X P 0. Exemplo : Cosidere X, X 1, X 2,... ode as varáveis aleatórias têm distribuição ormal cojuta, todas com média 0 e matriz de covariâcia parcialmete descrita por COV (X, X) = COV (X, X ) = 1, COV (X, X ) = 1 1. Seja Y = X X, como Y é uma combiação liear de variáveis aleatórias com distribuição ormal, ela também possui distribuição ormal. Precisamos determiar etão sua média e sua variâcia. Mas EY = E(X X) = EX EX = 0 e V ary = EY 2 = E(X X) 2 = EX 2 2EX X + EX 2 = 1 2(1 1 ) + 1 = 2. Portato, Y N (0, 2 ). Etão, P ( X X > ϵ) = P ( Y > ϵ) = 2P (Y > ϵ) = 2 ϵ 4π e y2 4 dy = 2 Logo, ϵ > 0, lim P ( X X > ϵ) = 0, ou seja, X P X. Covergêcia em Distribuição ϵ 2 1 2π e x2 2 dx. O último tipo de covergêcia estocástico que mecioamos ão é exatamete uma oção de covergêcia das variáveis aleatórias propriamete ditas, mas uma oção de covergêcia de suas respectivas fuções de distribuição acumuladas. Defiição : A seqüêcia de variáveis aleatórias Y 1, Y 2,..., coverge em distribuição para a variável aleatória Y se para todo poto x de cotiuidade de F Y Notação: Y D Y. lim F Y (x) = F Y (x). Exemplo : Seja {X : 1} uma seqüêcia de variáveis aleatórias idepedetes com distribuição Uiforme em (0, b), b > 0. Defia Y = max(x 1, X 2,..., X ) e Y = b. Vamos verificar que Y D Y. Temos 0 se y < 0, F Y (y) = P (max(x 1, X 2,..., X ) y) = FX 1 (y) = ( y b ) se 0 y < b, 1 se y b. Fazedo teder ao ifiito, temos que lim F Y (y) = { 0 se y < b, 1 se y b, que correspode à fução de distribuição de Y e, portato, Y D Y.

101 6.2. COVERGÊNCIA DE VARIÁVEIS ALEATÓRIAS 96 Deve-se ficar ateto que covergêcia em distribuição ão implica ada em relação aos outros tipos de covergêcia. Uma seqüêcia covergido em distribuição para uma variável aleatória X também coverge em distribuição para qualquer outra variável aleatória Y tal que F Y = F X. O próximo exemplo serve para ilustrar melhor este fato. Exemplo : Se uma seqüêcia de variáveis aleatórias Y 1, Y 2,... é idepedete e ideticamete distribuída de acordo com F, etão para todo tem-se que F Y = F, logo a seqüêcia coverge em distribuição para qualquer variável aleatória X tal que F X = F. Claro, como a seqüêcia é idepedete, os valores de termos sucessivos são idepedetes e ão exibem ehum comportameto usual de covergêcia. O requisito de cotiuidade, mecioado a defiição acima, se justifica para evitar algumas aomalias. Por exemplo, para 1 seja X = 1 e X = 0, para todo Ω. Parece aceitável que deveríamos ter covergêcia de X para X, qualquer que fosse o modo de covergêcia. Observe que { 0 se x < 1 F (x) =, 1 se x 1, e { 0 se x < 0, F (x) = 1 se x 0. Portato, como lim F (0) = 0 F (0) = 1, ão temos lim F (x) = F (x) para todo x IR. Desse modo se houvesse a exigêcia de covergêcia em todos os potos, ão teríamos covergêcia em distribuição. Etretato, ote que para x 0, temos lim F (x) = F (x) e, como o poto 0 ão é de cotiuidade de F, cocluímos que X D X. Um exemplo mais complexo de covergêcia em distribuição pode ser visto a aálise do limite de S = 1 (X i EX i ), i=1 ode X i s são variáveis aleatórias idepedetes e ideticamete distribuídas. Neste, o Teorema Cetral do Limite afirma que se V AR(X i ) = σ 2 <, etão S coverge em distribuição para qualquer variável aleatória com distribuição N (0, σ 2 ). O próximo teorema estabelece duas codições suficietes para que uma seqüêcia de variáveis aleatórias covirja em distribuição. Teorema : Seja X, X 1, X 2,... uma seqüêcia de variáveis aleatórias: (a) Se X, X 1, X 2,... são variáveis aleatórias discretas com P (X = x i ) = p (i) e P (X = x i ) = p(i), ode p (i) p(i) quado para todo i = 0, 1, 2, 3,..., etão X D X. (b) Se X, X 1, X 2,... são variáveis aleatórias absolutamete cotíuas com desidades dadas respectivamete por f, f 1, f 2, f 3,..., ode f (x) f(x) quado em quase todo lugar, etão X D X.

102 6.2. COVERGÊNCIA DE VARIÁVEIS ALEATÓRIAS 97 Prova: Se p (i) p(i) para todo i, etão F X (x) = p (i) p(i) = F X (x). i:x i x i:x i x Ode a covergêcia acima segue do Teorema da Covergêcia Domiada, visto que F X (x) 1, x IR. A prova da parte (b) usa coceitos de Teoria da Medida e será omitida. O próximo exemplo mostra que se uma seqüêcia de variáveis aleatórias discretas coverge em distribuição, ão ecessariamete sua fução probabilidade de massa coverge. Exemplo : Sejam X, X 1, X 2,... variáveis aleatórias tais que P (X = 0) = 1 e P (X = 1/) = 1. Etão, temos F X (x) = 1 se x 0, e F X (x) = 0 caso cotrário; e F X (x) = 1 se x 1/ e F X (x) = 0 caso cotrário. Logo, F X (x) F X (x), x 0, ou seja, X D X. Porém, p(0) = 1 0 = lim p (0). O próximo exemplo mostra que se uma seqüêcia de variáveis aleatórias absolutamete cotíuas coverge em distribuição, ão ecessariamete sua fução desidade de probabilidade coverge. Exemplo : Cosidere uma seqüêcia de variáveis aleatórias X, X 1, X 2,... com fução de distribuição acumuladas dadas respectivamete por F, F 1, F 2, F 3,..., ode 0, se x 0 F (x) = x(1 se2πx ), se 0 < x 1 2πx 1, se x > 1; e 0, se x 0 F (x) = x, se 0 < x 1 1, se x > 1. Etão F e F são absolutamete cotíuas com desidade dada por { 1 cos 2πx, se 0 x 1 f (x) = 0, caso cotrário; e f(x) = { 1, se 0 < x 1 0, caso cotrário. É fácil ver que F (x) F (x), x IR. Cotudo, f (x) f(x).

103 6.2. COVERGÊNCIA DE VARIÁVEIS ALEATÓRIAS Relação Etre os Tipos de Covergêcia A primeira relação que iremos provar é que covergêcia quase certa implica covergêcia em probabilidade. Teorema : X X cp1 X P X. Prova: Para provar que covergêcia quase certa implica em covergêcia em probabilidade, cosidere a seguite família de evetos e A,ϵ = {w : X (w) X(w) ϵ}. Logo, pela iterpretação de covergêcia potual, C = {w : X (w) X(w)} = ϵ>0 N=1 N A,ϵ. Se X X cp1, etão P (C) = 1. Equivaletemete, pela Lei de De Morga, D = C c = ϵ>0 D ϵ, ode D ϵ = N=1 N A c,ϵ, P ( ϵ>0 D ϵ ) = 0. Portato, covergêcia quase certa implica que ϵ > 0, P (D ϵ ) = 0. Seja F N = N B. Note que F N. Logo, lim N F N = N=1 N B. Portato, pelo axioma da cotiuidade mootôica da probabilidade, tem-se que Etão, Portato, X P X. P ( N=1 N B ) = lim N P ( NB ). 0 = P (D ϵ ) = lim P ( NA c,ϵ) N lim P N (Ac N,ϵ) = lim P ( X N(w) X(w) > ϵ). N O próximo teorema prova que covergêcia a r-ésima média implica covergêcia em probabilidade. Teorema : X r X X P X. Prova: Primeiro ote que X X r ϵ r I {w: X X >ϵ}. Logo, tem-se que ou seja, E( X X r ) E(I ϵ r {w: X X >ϵ}), E( X X r ) ϵ r P ({w : X X > ϵ}).

104 6.2. COVERGÊNCIA DE VARIÁVEIS ALEATÓRIAS 99 Se X r X, tem-se que lim E( X x r ) = 0. Etão, para todo ϵ > 0 ou seja, X P X. lim P ({w : X X > ϵ}) = 0, O próximo exemplo prova que em covergêcia em probabilidade, em covergêcia a r-ésima média implicam covergêcia quase certa. Exemplo : Seja X uma variável aleatória com distribuição uiforme o itervalo [0, 1], e cosidere a seqüêcia de itervalos defiida por I 2 m +i = [ i 2 m, i m ], para m = 0, 1, 2,... e i = 0, 1,..., 2 m 1. Note que tem-se 2 m itervalos de comprimeto 2 m que cobrem todo o itervalo [0, 1], e o comprimeto dos itervalos fica cada vez meor tededo a 0. Defiamos { 1 se X(w) I, Y (w) = 0 se X(w) / I. A seqüêcia Y 1, Y 2,... coverge em probabilidade para 0, pois para 0 < ϵ 1, P ( Y ϵ) = P (Y = 1) = P (X I ), e esta probabilidade, que é igual ao comprimeto de I, coverge para zero quado. Esta seqüêcia também coverge a r-ésima média para todo r > 0, visto que E( Y r ) = P (Y = 1) 0 quado. Logo, Y coverge a r-ésima média para 0. Porém para todo w Ω, Y (w) = 1 para um úmero ifiito de s e Y (w) = 0 para um úmero ifiito de s. Portato, Y (w) ão coverge para todo w, o que implica que Y ão coverge quase certamete. O próximo teorema estabelece mais uma relação etre covergêcia quase certa e covergêcia em probabilidade. Teorema : X P X se, e somete se, toda subseqüêcia {X k } possui uma outra subseqüêcia {X k(i) } tal que X k(i) X cp1 para i. Prova: Supoha que X P X, etão dada qualquer subseqüêcia {X k }, escolha uma outra subseqüêcia {X k(i) } tal que j k(i) implica que P ( X j X i 1 ) < 2 i. Em particular, temos que P ( X k(i) X i 1 ) < 2 i. Seja A i = { X k(i) X i 1 }, etão i=1 P (A i) < i=1 2 i = 1 <. Logo, pelo Lema de Borel-Catelli, temos que P (A i ifiitas vezes) = 0, ou seja, P (A i fiitas vezes) = 1. Portato, X k(i) X < i 1 exceto para um úmero fiito de i s com probabilidade 1. Portato, X k(i) X cp1. Se X ão coverge para X em probabilidade, existe um ϵ > 0 e uma subseqüêcia {X k } tal que P ( X k X > ϵ) > ϵ. Logo ehuma subseqüêcia de {X k } pode covergir para X

105 6.2. COVERGÊNCIA DE VARIÁVEIS ALEATÓRIAS 100 em probabilidade, logo pelo Teorema , ehuma subseqüêcia coverge para X quase certamete. O próximo exemplo mostra que covergêcia em probabilidade ão implica covergêcia a r-ésima média Exemplo : Seja X uma variável aleatória com distribuição uiforme o itervalo [0, 1]. Cosidere a seguite seqüêcia de varáveis aleatórias { 2 se X(w) (0, 1 Y (w) = ), 0 se X(w) / (0, 1 ). Etão, P ( Y > ϵ) = P (X(w) (0, 1 )) = 1 0, mas E( Y r ) = 2 r 1. O próximo exemplo mostra que covergêcia quase-certa ão implica covergêcia a r-ésima média. Exemplo : Seja {Y, 1} uma seqüêcia de variáveis aleatórias ode Portato, para todo ϵ > 0, Logo, P (Y = 0) = 1 2 e P (Y = e ) = 2. P ( Y > ϵ) = P (Y > ϵ) P (Y = e ) = 2. P ( Y > ϵ) =1 2 <. Etão, Borel-Catelli implica que Y > ϵ ifiitas vezes com probabilidade 0, o que por sua vez implica que Y 0 com probabilidade 1, ou seja, Y 0 cp1. Porém, =1 E Y r = er 2, para todo r > 0. Portato, Y 0 cp1, mas Y r 0 para todo r > 0. O próximo teorema trata da relação etre covergêcia em distribuição e covergêcia em probabilidade. Teorema : As seguites relações etre os tipos de covergêcia são válidas: (a) X P X X D X (b) Se X D c, ode c é uma costate, etão X P c.

106 6.2. COVERGÊNCIA DE VARIÁVEIS ALEATÓRIAS 101 Prova: Para parte (a), supoha que X P X e seja x um poto de cotiuidade de F X. Queremos provar que F X (x) F X (x) quado. Como para ϵ > 0, X x X x + ϵ ou X X > ϵ, temos {w : X (w) x} {w : X(w) x + ϵ} {w : X (w) X(w) > ϵ}. Logo, F X (x) = P (X x) F X (x + ϵ) + P ( X X > ϵ). Por outro lado, X x ϵ X x ou X X > ϵ de modo que F X (x ϵ) F X (x) + P ( X X > ϵ). Jutado as duas desigualdades, temos que ϵ > 0, ad, F X (x ϵ) P ( X X > ϵ) F X (x) F X (x + ϵ) + P ( X X > ϵ). Como X P X, para qualquer δ > 0, existe N tal que para N, temos que F X (x ϵ) δ F X (x) F X (x + ϵ) + δ. Fialmete, como x é poto de cotiuidade de F X, para ϵ suficietemete pequeo, temos que F X (x) 2δ F X (x ϵ) δ F X (x) F X (x + ϵ) + δ F X (x) + 2δ. Ou seja, lim F X (x) = F X (x). Para parte (b), supoha que X D c. Note que a fução de distribuição de uma variável aleatória costate c é: { 1 se x c, F c (x) = 0 se x < c. Pela covergêcia em distribuição, tem-se que lim F X (x) = 0, se x < c e lim F X (x) = 1, se x > c. Logo, para ϵ > 0, P ( X c ϵ) = P (c ϵ X c + ϵ) P (c ϵ < X c + ϵ) = F X (c + ϵ) F X (c ϵ) 1 quado. Ou seja, ϵ > 0, lim P ( X c > ϵ) = 0. A Figura 6.1 resume a relação etre os tipos de covergêcia. Exemplo : Para 1, X U(0, 1) são variáveis aleatórias i.i.d. Defia Y = mi(x 1, X 2,..., X ) e U = Y. Mostre que (a) Y P 0, (b) U D U, sedo U Exp(1).

107 6.3. CONVERGÊNCIA DE VETORES ALEATÓRIOS 102 Figura 6.1: Relação etre os tipos de covergêcia. Solução: Para parte (a), ote que P ( Y > ϵ) = P (Y > ϵ) = P (X 1 > ϵ, X 2 > ϵ,..., X > ϵ). Como os X são idepedetes temos que a última expressão é igual a (P (X 1 > ϵ)) = (1 ϵ). Como (1 ϵ) 0 quado, temos que Y P 0. Para parte (b), ote que F U (x) = P (U x) = 1 P (U > x) = 1 P (Y > x) = 1 P (Y > x/) De acordo com a parte (a), esta expressão é igual a 1 (1 x/), que por sua vez coverge para 1 e x quado, que é igual a F U (x). 6.3 Covergêcia de Vetores Aleatórios Para o caso vetorial as defiições de covergêcia sofrem algumas adaptações. Para as covergêcias quase certa e em probabilidade, precisamos avaliar a proximidade etre os vetores aleatórios X e X pelo comportameto da orma da difereça etre eles. Em geral, essa orma é calculada por X X = ( k j=1 (X j X j ) 2 ) 1/2, ode k é a dimesão dos vetores e X j a coordeada j do vetor X. Pode-se verificar que a covergêcia do vetor aleatório, quase certamete ou em probabilidade, ocorre se, e somete se, existir a mesma

108 6.3. CONVERGÊNCIA DE VETORES ALEATÓRIOS 103 covergêcia em cada uma das variáveis que compõe o vetor aleatório. Dessa forma, o caso multidimesioal pode ser estudado a partir de repetidas aplicações do caso uivariado. Para covergêcia em distribuição de vetores aleatórios, requeremos que a fução de distribuição cojuta F (x) covirja para F (x), em todos os potos de cotiuidade da fução F. Etretato, lembremos que da fução de distribuição cojuta podemos obter as margiais, mas o camiho iverso em sempre é possível. Por essa razão, diferetemete das covergêcias quase certa e em probabilidade, ão podemos reduzir o estudo da covergêcia em distribuição de vetores aleatórios, ao comportameto das suas respectivas coordeadas. Não temos equivalêcia, mas apeas implicação, em uma das direções. Ou seja, se o vetor coverge em distribuição etão cada compoete também coverge em distribuição, para a correspodete margial da fução de distribuição limite. Etretato a recíproca ão é em geral, verdadeira.

109 Capítulo 7 Fuções Características 7.1 Motivação Em matemática e suas aplicações, é sempre valioso ter maeiras alterativas de represetar o mesmo objeto matemático. Uma aalogia pode ser que um cojuto de vetores pode ser represetado em vários sistemas de coordeadas. No osso caso de probabilidade, o coceito básico é o de uma medida de probabilidade P que dá um valor real umérico a um cojuto de evetos em uma σ-álgebra. Para X uma variável aleatória, sabe-se que existem outras maeiras de represetar a probabilidade P, como por exemplo através de sua fução de distribuição acumulada F X. Se X for uma variável aleatória discreta, pode-se equivaletemete represetar P pela fução de probabilidade de X, p X. Se X for absolutamete cotíua, etão P pode ser represetada pela fução desidade de probabilidade de X, f X. Uma fução característica φ X de uma variável aleatória X é uma outra maeira de represetar P. Algumas vatages do uso da fução característica são: pode-se calcular os mometos de uma variável aleatória X difereciado-se a fução característica (o que geralmete é mais simples que usar diretamete as defiições de mometo que evolvem itegrais), podese calcular mais facilmete a distribuição de soma de variáveis aleatórias idepedetes, e fialmete o uso de fuções características ajuda a prova de uma família de Teoremas Cetrais do Limite que ajudam a explicar a prevalêcia de distribuições ormal ou Gaussiaas a Natureza. Uma fução geratriz de mometo é uma outra represetação alterativa da distribuição de uma variável aleatória. As vatages desta represetação são as mesmas da fução característica, mas como a fução característica é mais robusta (o setido que ela sempre existe), ós focaremos o uso da mesma, e apeas o fial deste capítulo mecioaremos a defiição de uma fução geratriz de mometo. Até aqui, só tratamos com variáveis reais, mas o caso complexo é similar. Sem aprofudar o assuto, diremos que uma variável aleatória X é complexa, se pode ser escrita como X = X 1 + ix 2, ode i = 1, e X 1 e X 2 são variáveis aleatórias reais. Logo, para verificar que uma fução complexa é variável aleatória, precisamos verificar propriedades da imagem iversa as suas duas partes. Para o valor esperado de X, exige-se que as duas partes sejam fiitas. Assim, temos: EX = EX 1 + iex 2, ode EX 1 e EX 2 são ambas fiitas. Para efeitos práticos, quado realizado itegração de fuções complexas, podemos operar como 104

110 7.2. DEFINIÇÃO 105 se estivéssemos com fuções reais (trata-se i como se fosse uma costate real). 7.2 Defiição Defiição 7.2.1: A fução característica φ X de uma variável aleatória X é dada por: φ X (t) = Ee itx = E cos(tx) + ie se(tx), ode i. = 1. Note que como cos(tx) e se(tx) são variáveis aleatórias limitadas, a esperaça a defiição acima é fiita e, coseqüetemete, a fução característica de qualquer variável aleatória é bem defiida. Note também que de acordo com esta defiição, a fução de distribuição acumulada determia a fução característica de uma variável aleatória. No caso particular de uma variável aleatória discreta, temos: φ X (t) = k e itx k p(x k ), ode p(x k ) é a fução probabilidade de X. Aalogamete, se X for uma variável aleatória cotíua, temos: φ X (t) = e itx f X (x)dx, ode f X (x) é a fução desidade de probabilidade de X. Observação 7.2.2: A fução característica de uma variável aleatória cotíua é a trasformada de Fourier da desidade de probabilidade de X Propriedades A seguir listamos algumas propriedades da fução característica. P1. A fução característica é limitada por 1: φ X (t) 1, t R. Prova: Como pela desigualdade de Jese, E 2 cos(tx) E cos 2 (tx) e E 2 se(tx) E se 2 (tx), temos φ X (t) = E 2 cos(tx) + E 2 se(tx) E(cos 2 (tx) + se 2 (tx)) = E1 = 1. P2. A fução característica assume o valor 1 o poto 0: φ X (0) = 1. Prova: φ X (0) = Ee i0x = E1 = 1.

111 7.2. DEFINIÇÃO 106 P3. φ X (t) = φ X ( t), ode c é o complexo cojugado de c. (Se c = x + iy, o seu complexo cojugado é c = x iy.) Prova: φ X ( t) = E cos( tx) + ie se( tx) = E cos(tx) ie se(tx) = φ X (t). P4. φ X é uiformemete cotíua a reta. Prova: Uma fução φ é uiformemete cotíua, se para todo ϵ > 0 existe δ > 0 tal que para todo t, s R φ(t) φ(s) < ϵ quado t s < δ. Logo, φ(t) φ(s) = E(e itx e isx ) E e isx (e i(t s)x 1) = E e i(t s)x 1. Seja h(u) = e iux 1. Como 0 e iux 1 2, 2 é itegrável, e lim u 0 h(u) = 0, pelo teorema da covergêcia domiada, temos que lim u 0 Eh(u) = 0. Etão, para todo ϵ > 0 existe δ > 0 tal que u < δ implica que Eh(u) < ϵ, ou seja, para todo ϵ > 0 existe δ > 0 tal que t s < δ implica que φ(t) φ(s) E e i(t s)x 1 < ϵ. P5. Se X e Y são idepedetes, etão φ X+Y (t) = φ X (t) φ Y (t), t R. Prova: φ X+Y (t) = Ee it(x+y ) = E(e itx e ity ) = E(e itx )E(e ity ) = φ X (t) φ Y (t). É fácil provar por idução que se X 1,..., X são variáveis aleatórias idepedetes, etão φ X X (t) = k=1 φ X k (t), t R. P6. A variável aleatória X tem distribuição simétrica em toro de 0 se, e somete se, φ X (t) é real para todo t R. Prova: X é simétrica em toro de 0 se e somete se P (X x) = P (X x), x R. Como X x X x, ós temos que F X = F X, ou seja, φ X = φ X. Como φ X (t) = Ee it( X) = Ee i( t)x = φ X ( t) = φ X (t). Etão, X é simétrica em toro de 0 se e somete se φ X (t) = φ X (t), ou seja, se φ X (t) é real para todo t R. P7. Se E X <, etão φ (k) X (0) = ik EX k para k {1,..., }, de modo que a fução característica é uma espécie de fução geradora de mometos. Prova: Supohamos que X seja itegrável; queremos provar que φ X (t) = E(iXeitX ). Note que para h 0, temos φ X(t+h) φ X (t) = E(e itx (e ihx 1) ). Como (eihx 1) ix h h h quado h 0 (regra de L Hopital), x R, temos que o resultado decorre se pudermos trocar a ordem do limite e da esperaça. Mas como para todo x, eihx 1 = h Portato, como e itx = 1, temos h 0 ixeisx ds = x h h e itx (eihx 1) X. h 0 eisx ds x. h

112 7.2. DEFINIÇÃO 107 Como X é itegrável, o Teorema da Covergêcia Domiada implica que φ φ X (t + h) φ X (t) X(t) = lim h 0 h = lim E(e itx (eihx 1) ) = E(lim e itx (eihx 1) ) = E(iXe itx ). h 0 h h 0 h Logo, φ X (0) = iex. O restate da prova segue por idução em. P8. Se Y = ax + b, ode a e b são úmeros reais costates, φ Y (t) = e itb φ X (at). Prova: φ Y (t) = Ee ity = Ee it(ax+b) = Ee itb e itax = e itb Ee i(at)x = e itb φ X (at). P9. φ X (t) é positiva defiida. Isto é, para todo = 1, 2,..., tem-se j=1 k=1 φ X (t j t k )z j z k 0, para quaisquer úmeros reais t 1, t 2,..., t e complexos z 1, z 2,..., z. Prova: j=1 k=1 = = φ X (t j t k )z j z k j=1 k=1 j=1 k=1 = E( E(e ix(t j t k ) )z j z k E(z j e ix(tj) z k e ixt k ) j=1 k=1 j=1 z j e ix(tj) z k e ixt k ) = E[( z j e ix(tj) )( z k e ixt k )] j=1 k=1 = E[( z j e ix(tj) )( z k e ixt k )] = E( Portato, φ X é positiva defiida. k=1 z j e ix(tj) 2 ) 0 j=1 Os resultados a seguir cohecidos como Fórmula de Iversão e Teorema da Uicidade garatem que a fução característica determia a fução de distribuição de uma variável aleatória.

113 7.2. DEFINIÇÃO 108 Teorema 7.2.3: Seja X uma variável aleatória qualquer, etão sua fução característica φ X (t) determia a fução de distribuição de X, através da seguite Fórmula de Iversão: F (b) F 1 (a) = lim c 2π c c e iat e ibt φ X (t)dt; it ode F (w) = 1 2 (F (w+ ) + F (w )), w IR e a, b, c são úmeros reais tais que c > 0 e a < b. Prova: Note que se F for cotíua em w, etão F (w) = F (w). A fução e iat e ibt é defiida it para ser igual a b a, quado t = 0, coicidido com seu limite quado t 0. Logo, ela será cotíua para todo t real e limitada, pois: e iat e ibt = e i(a+b)t 2 e iat e ibt it it = e 1 2 i(b a)t e 1 2 i(a b)t (b a)t 2 se[ ] 2 = b a, it t ode a última desigualdade decorre do fato que sew w, w IR. Deotado por It(c) a itegral da fórmula da iversão, temos c It(c) = 1 e iat e ibt φ X (t)dt 2π c it = 1 c e iat e ibt E(e ixt )dt 2π it = 1 2π c c = E[ 1 2π E( e i(a X)t e i(b X)t )dt it c c c e i(a X)t e i(b X)t dt], it ode a última igualdade decorre da troca da ordem de itegração que é justificada tedo em vista que o itegrado é limitado coforme provamos acima. Portato, trabalhado o termo etre colchetes, temos 1 c e i(a X)t e i(b X)t dt 2π c it = 1 c 1 [cos((x a)t) + i se((x a)t) cos((x b)t) i se((x b)t)]dt 2π c it = 1 c se((x a)t) se((x b)t) ( )dt π 0 t = 1 c se((x a)t) dt 1 c se((x b)t) dt π t π t 0 c(x a) = 1 se(u) du 1 π 0 u π = g(c(x a)) g(c(x b)), 0 c(x b) 0 se(u) du u

114 7.2. DEFINIÇÃO 109 ode g é a fução dada por g(w) = 1 π w 0 se(u) du, w IR. Logo, temos u It(c) = E[g(c(X a)) g(c(x b))]. Como vamos passar ao limite para c, precisamos verificar se será possível trocar a ordem etre limite e esperaça. Como g é cotíua e lim w ± g(w) = ± 1, temos que g é 2 limitada. Etão a troca de ordem do limite e da esperaça é justificada pelo Teorema da Covergêcia Domiada. Seja Y = 1I 2 a X<b + 1I 2 a<x b. Temos que Etão, lim g(c(x a)) g(c(x b)) = Y. c lim It(c) = E[ lim g(c(x a)) g(c(x b))] = EY. c c Mas o valor esperado de Y é dado por: EY = 1 2 P (X = a) + 1 P (X = b) + P (a < X < b) 2 = 1 2 (F (a) F (a )) (F (b) F (b )) + (F (b ) F (a)) = 1 2 (F (b) + F (b )) 1 2 (F (a) + F (a )) = F (b) F (a). Portato, lim c It(c) = F (b) F (a), como queríamos demostrar. Agora podemos utilizar a fórmula da iversão para provar o Teorema da Uicidade. Teorema 7.2.4: Teorema da Uicidade. Se as variáveis aleatórias X e Y têm a mesma fução característica, etão elas têm a mesma distribuição. Prova: Por hipótese, X e Y têm a mesma fução característica e, como coseqüêcia da Fórmula da Iversão, temos que para quaisquer a, b reais e a < b, F X (b) F X (a) = F Y (b) F Y (a). Tomado o limite quado a, temos que F X (a) 0 e F Y (a) 0. Portato, F X (b) = F Y (b), b IR. Seja c < b, pela mootoicidade de F X e F Y e pela defiição de F, temos F X (c) F X (b) F X (b) e F Y (c) F Y (b) F Y (b). Etão pela cotiuidade à direita da fução de distribuição, temos que lim b c FX (b) = F X (c) e lim b c FY (b) = F Y (c). Logo, F X (c) = F Y (c), c IR como queríamos demostrar. Note que o Teorema da Uicidade juto com a defiição de fução característica implicam que existe uma correspodêcia 1-1 etre fuções características e fuções de distribuições.

115 7.2. DEFINIÇÃO 110 Exemplo 7.2.5: Se φ X (t) = 1, calcule V arx. 1+t 2 Solução: Difereciado φ X, temos φ 2t X (t) =. Difereciado mais uma vez, (1+t 2 ) 2 φ X (t) = 2(1+t2 ) 2 +2t(2(1+t 2 )2t). Portato, EX = φ (1+t 2 ) 4 X (0) = 0 e EX 2 = φ X (0) = ( 2) = 2. i i 2 Logo, V arx = EX 2 (EX) 2 = 2. Exemplo 7.2.6: Seja φ(t) = cos(at), ode a > 0. Mostraremos que φ é fução característica, achado a distribuição correspodete. Já que assume valores reais, se φ fosse fução característica de alguma variável aleatória X, etão por P6, X possuiria distribuição simétrica em toro de zero. Com efeito teríamos cos(at) = φ(t) = E cos(tx), pois a parte imagiária seria ula. Como cos(at) = cos( at), é evidete que uma distribuição simétrica cocetrada os dois potos a e a correspoderia a fução característica φ. Portato, φ é fução característica de X, se, e somete se, P (X = a) = 1/2 = P (X = a). Exemplo 7.2.7: Sejam X 1 e X 2 duas variáveis aleatórias i.i.d. e seja Y = X 1 X 2. Qual a fução característica de Y? Solução: Seja φ a fução característica de X 1 e X 2. Por P8 e P3, temos que φ X2 (t) = φ( t) = φ(t). Etão, como X 1 e X 2 são idepedetes, por P5, temos que φ Y (t) = φ(t)φ X2 (t) = φ(t) 2. Teorema 7.2.8: Uma fução cotíua ψ : R C com ψ(0) = 1 é fução característica de alguma variável aleatória se, e somete se, ela for positiva defiida. Prova: Coforme propriedades já demostradas, se for fução característica, é cotíua, positiva defiida e aplicada em 0, resulta o valor 1. A prova da recíproca será omitida Exemplos de Fuções Características Beroulli. Supohamos que X Beroulli(p), ode P (X = 1) = p = 1 P (X = 0). Etão, φ X (t) = Ee itx = pe it + (1 p). Poisso. Supohamos que X P oisso(λ). Etão, φ X (t) = Ee itx = =0 e it λ λ e! = e λ (λe it ) =0! = e λ(eit 1). Uiforme. Supohamos que X Uiforme( a, a). Etão, f X (x) = 1 para a < x < a, 2a e f X (x) = 0 caso cotrário. Logo, se t = 0, etão φ X (0) = 1, e para t 0, φ X (t) = Ee itx = a a e itx 2a dx = 1 (eita e ita 2a it ) = se(ta). ta

116 7.3. TEOREMA DA CONTINUIDADE DE LEVY 111 Normal. Supohamos que X N(0, 1). Etão, φ X (t) = 1 e itx e x2 t 2 dx = e π 2π e (x it)2 2 dx = e t2 2, ode esta última itegral pode ser calculada utilizado o Teorema de Cauchy tedo em vista que e z2 2 é uma fução aalítica o plao complexo. Expoecial. Supohamos que X Exp(α). Etão, φ X (t) = 0 e itx αe αx dx = α 0 e x( α+it) α dx = [ α + it ex( α+it) ] 0 = α α it. Exemplo 7.2.9: Sejam X 1, X 2,..., X variáveis aleatórias idepedetes e ideticamete distribuídas, seguido o modelo de Poisso com parâmetro λ. Queremos obter a distribuição de X 1 + X X. Solução: Temos φ X X (t) = E(e it(x X ) ) = E(e itx j ) = e λ(eit 1). Portato, X 1 + X X tem uma distribuição Poisso com parâmetro λ. j=1 7.3 Teorema da Cotiuidade de Levy Nosso objetivo esta seção é provar que X D X se, e somete se, φ X (t) φ X (t), t R. Ates de provarmos a ecessidade desta afirmação, cosidere a seguite defiição de covergêcia de fuções de distribuição. Defiição 7.3.1: Seja X, X 1, X 2,... uma seqüêcia de variáveis aleatórias com fuções de distribuição acumuladas dadas respectivamete por F, F 1, F 2,.... Diz-se que F coverge fracamete para F, se X D X. Teorema 7.3.2: Teorema de Helly-Bray. Sejam F, F 1, F 2,... fuções de distribuição. Se F coverge fracamete para F, etão g(x)df (x) g(x)df (x) para toda fução g : R R cotíua e limitada. Prova: Para < a < b <, ode a e b são potos de cotiuidade de F, gdf gdf gdf b a gdf + b a gdf b a gdf + b a gdf gdf = I+II+III.

117 7.3. TEOREMA DA CONTINUIDADE DE LEVY 112 Seja c = sup x R g(x) < e seja ϵ > 0. Etão, III = a b a gdf g df + b a gdf = g df a gdf + cdf + b b a gdf gdf + cdf = c(f (a) + 1 F (b)) b gdf Logo, para qualquer ϵ > 0, podemos escolher a suficietemete pequeo e b suficietemete grade tal que III < ϵ, pois lim x F (x) = 0 e lim x F (x) = 1. Para esses valores de a e b, e para suficietemete grade, como a e b são potos de cotiuidade de F, e como F coverge fracamete para F, temos que I c(f (a) + 1 F (b)) < 2ϵ. Cosideremos agora II. Sejam a e b os potos já escolhidos. Já que g é uiformemete cotíua em [a, b], 1 podemos escolher x 0, x 1,..., x N tais que a = x 0 < x 1 <... < x N = b, ode x i são potos de cotiuidade de F e g(x) g(x i ) < ϵ para todo x [x i, x i+1 ], i {0,..., N 1}. Etão, m i = (g(x i ) ϵ)(f (x i+1 ) F (x i )) e m i = (g(x i ) ϵ)(f (x i+1 ) F (x i )) Portato, m i M i xi+1 x i xi+1 x i xi+1 g(x)df (x) (g(x i )+ϵ)(f (x i+1 ) F (x i )) = M i x i g(x)df (x) (g(x i ) + ϵ)(f (x i+1 ) F (x i )) = M i. g(x)df (x) para i {0,..., N 1}. Somado, temos e N 1 (m i M i ) i=0 b a g(x)df (x) xi+1 x i g(x)df (x) M i m i, b Quado, temos que m i m i e M i M i, logo, a N 1 g(x)df (x) (M i m i ). N 1 N 1 (m i M i ) (m i M i ) = 2ϵ(F (b) F (a)) 2ϵ i=0 i=0 N 1 N 1 (M i m i ) (M i m i ) = 2ϵ(F (b) F (a)) 2ϵ i=0 i=0 Como para suficietemete grade temos que N 1 i=0 (m i M i ) N 1 i=0 (m i M i ) < ϵ e N 1 i=0 (M i m i ) N 1 i=0 (M i m i ) < ϵ, segue que N 1 i=0 (m i M i ) 3ϵ e N 1 i=0 (M i 1 Uma fução g é uiformemete cotíua em [a, b] se para todo ϵ > 0, existe δ > 0 tal que para todo x, y [a, b] se x y < δ, etão g(x) g(y) < ϵ. É fácil provar que toda fução cotíua em um itervalo fechado é uiformemete cotíua este itervalo. i=0

118 7.3. TEOREMA DA CONTINUIDADE DE LEVY 113 m i ) 3ϵ. Etão, para suficietemete grade, temos que II 3ϵ. Portato, gdf gdf 6ϵ para grade o suficiete. e Como cos(tx) e se(tx) são fuções cotíuas e limitadas, tem-se que para t fixo E(cos(tX )) E(cos(tX)) E(se(tX )) E(se(tX)) Logo, φ X (t) φ X (t). É fácil defiir a fução característica φ dada uma fução de distribuição F : φ(t) = e itx df (x), t R. O próximo teorema implica a suficiêcia do osso objetivo esta seção, ou seja, se φ X φ X, etão X D X. Teorema 7.3.3: Sejam F 1, F 2,... fuções de distribuições e φ 1, φ 2,... suas fuções características. Se φ coverge potualmete para um limite φ e se φ é cotíua o poto zero, etão (a) existe uma fução de distribuição F tal que F F fracamete; e (b) φ é a fução característica de F. Prova: Note que o teorema aterior implica que, sob as hipóteses, (a) implica (b). Para provar que F coverge fracamete para alguma fução de distribuição, vamos primeiro provar que para toda seqüêcia de fuções de distribuição satisfazedo as codições do teorema, existem uma subseqüêcia F 1, F 2,... e uma fução de distribuição F tais que F j F fracamete, quado j. Provaremos isso em duas etapas: (i) existem uma subseqüêcia F 1, F 2,... e uma fução F : R [0, 1] tais que F é ãodecrescete e cotíua à direita e F j (x) F (x), quado j, para todo x poto de cotiuidade de F ; e (ii) F ( ) = 1 e F ( ) = 0. Para provar (i), usaremos o método da diagoalização. Sejam r 1, r 2,..., uma eumeração dos racioais da reta. Cosidere a seguite matriz: F 1 F 2 F 3 F 4 F1 1 F2 1 F3 1 F4 1 F1 2 F2 2 F3 2 F4 2 F1 3 F2 3 F3 3 F Nesta matriz temos que a seqüêcia (F j 1, F j 2, F j 3,...) cotida a (j + 1)-ésima liha da matriz é uma subseqüêcia da seqüêcia cotida a j-ésima liha que coverge o racioal r j, para j 1. Note que como a seqüêcia (F j 1 1 (r j ), F j 1 2 (r j ), F j 1 3 (r j ),...) é uma seqüêcia limitada de úmeros reais, ela possui uma subseqüêcia covergete; logo pode-se escolher a

119 7.3. TEOREMA DA CONTINUIDADE DE LEVY 114 seqüêcia (F j 1, F j 2, F j 3,...) idutivamete coforme descrito acima. Seja F j = F j j, para j 1, etão temos que a subseqüêcia (F j ) j coverge em todos os racioais da reta. Chamemos o limite de F (r k ), de modo que F j (r k ) F (r k ), k. É óbvio que 0 F (r k ) 1 e que F é ão decrescete os racioais. Defiamos F em x irracioal por F (x) = lim r x,r ratioal F (r). F assim defiida é ão-decrescete, mas ão é ecessariamete cotíua à direita. Vamos provar que F j (x) F (x) para todo poto x de cotiuidade de F. Supoha que x é um poto de cotiuidade de F e sejam r e r racioais tais que r < x < r e F (r ) ϵ < F (x) < F (r ) + ϵ. Etão, F (x) ϵ < F (r ) = lim F j (r ) lim if F j (x) j j lim sup F j (x) lim F j (r ) = F (r ) < F (x) + ϵ j j Como ϵ é arbitrário, temos F j (x) F (x) quado j. Fialmete, podemos redefiir F os seus potos de descotiuidade de modo que F seja cotíua à direita. Para provar (ii), ote que t 0 φ j (s)ds = t 0 e isx df j (x)ds. Mas como o itegrado é limitado podemos trocar a ordem de itegração, logo t 0 φ j (s)ds = t 0 e isx dsdf j (x) = e itx 1 df j (x) ix Cosidere a fução, h(x) = eitx 1 para x 0 e h(0) = t. h é limitada e cotíua e um ix argumeto similar ao utilizado a prova do teorema aterior, pode ser utilizado para provar que quado j e itx 1 df j (x) = h(x)df j (x) h(x)df (x) = ix e itx 1 df (x) = ix t 0 e isx df (x)ds Como φ j (t) φ(t), φ é cotíua em zero, implica que φ é limitada e mesurável, etão pelo teorema da covergêcia domiada, tem-se que t 0 φ j (s)ds t 0 φ(s)ds. Igualado-se os limites iguais e dividido-se por t, temos 1 t t 0 φ(s)ds = 1 t t 0 e isx df (x)ds, t 0. Fazedo t 0 e usado a cotiuidade em s = 0 das duas fuções φ(s) e eisx df (x), tem-se φ(0) = 1dF (x) = F ( ) F ( ).

120 7.4. SOMA DE UM NÚMERO ALEATÓRIO DE VARIÁVEIS ALEATÓRIAS 115 Como φ(0) = lim φ (0) = 1, temos que F ( ) F ( ) = 1, ou seja, o que implica que F ( ) = 1 e F ( ) = 0. Para termiar a prova supoha por cotradição que F ão covirja fracamete para F, ode F j F fracamete. Etão, existirão x, poto de cotiuidade de F e uma subseqüêcia F 1, F 2,... tais que F (x) a F (x). Como essa subseqüêcia também satisfaz as codições do teorema, (i) e (ii) implicam que existe uma subseqüêcia F 1, F 2,... e uma fução de distribuição G tais que F G fracamete. Como F e G possuem a mesma fução característica (φ), temos que F = G, ou seja F (x) a = G(x) = F (x), uma cotradição. Exemplo 7.3.4: Supoha que X e Y são idepedetes para cada 0 e que X D X 0 e Y D Y 0. Prove que X + Y D X 0 + Y 0. Solução: Pelo Teorema da Cotiuidade sabemos que φ X (t) φ X0 (t) e que φ Y (t) φ Y0 (t). Como X e Y são idepedetes temos que φ X +Y (t) = φ X (t)φ Y (t). Portato, lim φ X +Y (t) = lim (φ X (t)φ Y (t)) = φ X0 (t)φ Y0 (t) = φ X0 +Y 0 (t). Logo, pelo Teorema da Cotiudade, temos que X + Y D X 0 + Y 0. Exemplo 7.3.5: Supoha que a variável aleatória X teha distribuição Biomial, ou seja, ( ) P (X = k) = p k k (1 p ) k, k = 0, 1, 2,...,. Se p 0 quado de tal modo que p λ > 0, etão X D Y, ode Y P oisso(λ). Para verificar isto relembre que podemos represetar uma variável aleatória Biomial como a soma de variáveis aleatórias Beroulli i.i.d., etão φ X (t) = Ee itx = (1 p + e it p ) = (1 + p (e it 1)) = (1 + p (e it 1) ) e λ(eit 1), ode a expressão fial é a fução característica de uma variável aleatória P oisso(λ). Portato, pelo Teorema da Cotiuidade, X D Y. 7.4 Soma de um Número Aleatório de Variáveis Aleatórias Nesta seção, ós estudaremos somas de um úmero aleatório de variáveis aleatórias, ou seja, S = N X i, i=0

121 7.4. SOMA DE UM NÚMERO ALEATÓRIO DE VARIÁVEIS ALEATÓRIAS 116 ode N é uma variável aleatória iteira e ão egativa, e assume-se que ela é idepedete das parcelas X i. Por exemplo, N pode ser o úmero de clietes, pacotes ou trabalhos chegado em uma fila em um dado itervalo de tempo e X i pode ser o tempo ecessário para fializar o i-ésimo trabalho. S etão seria o tempo total do serviço. Em ossas aplicações assumiremos que N = 0 sigifica que S = 0, ou seja, X 0 = 0 com fução característica φ X0 (u) = 1. Sabemos que ES = E[E(S N)] e que E(S N = ) = Como assumimos que N é idepedete de X i, temos E(X i N = ). i=0 E(S N = ) = EX i. Se as variáveis aleatórias {X i, i > 0} têm esperaça igual a m, etão E(S N = ) = m e ES = men. Para iformações mais detalhadas sobre S, vamos calcular sua fução característica φ S assumido que as variáveis aleatórias {N, X 1, X 2,...} são idepedetes: i=0 φ S (t) = Ee its = E(E(e its N)). Por outro lado, utilizado a hipótese de idepedêcia, podemos calcular, Logo, E(e its N = ) = E( φ S (t) = e itx i N = ) = i=0 P (N = ) =0 φ Xi (t). i=0 φ Xi (t). Se as parcelas {X 1, X 2,...} forem também ideticamete distribuídas com fução característica φ X, etão φ S (t) = P (N = )φ X(t), =0 ode utilizamos o fato que φ 0 X = 1 = φ X 0 (t). Note que a fução característica de N é: φ N (t) = P (N = )e it = =0 i=0 P (N = )[e it ]. Comparado as expressões de φ S e φ N, ós vemos que escolhedo t em φ N (t) de forma que e it = φ X, ós podemos reescrever: Portato, ós provamos o seguite teorema: =0 φ S (t) = φ N ( i log φ X (t)).

122 7.5. FUNÇÃO CARACTERÍSTICA DE UM VETOR ALEATÓRIO 117 Teorema 7.4.1: Se N é uma variável aleatória iteira ão-egativa, S = N i=0 X i, X 0 = 0, ode {X i, i 1} são i.i.d. com fução característica comum φ X, e elas são idepedetes de N que é descrita pela fução característica φ N, etão φ S (t) = φ N ( i log φ X (t)). Exemplo : Supoha que N P oisso(λ) represeta o úmero de clietes que são atedidos em um dado tempo T. Supoha aida que com probabilidade p o i-ésimo cliete fica satisfeito com o atedimeto. Assuma que os clietes ficam satisfeitos com o serviço de maeira idepedete e que N, é idepedete da probabilidade que clietes ficam satisfeitos. Determie a distribuição de probabilidade de S o úmero total de clietes satisfeitos o tempo T. Solução: Seja X i Beroulli(p), i 1, a variável aleatória que descreve se o i-ésimo cliete ficou ou ão satisfeito com o atedimeto. Etão temos, ode X 0 = 0. Desta forma, sabemos que S = N X i, i=0 φ S (t) = φ N ( i log φ X (t)), ode φ X (t) = pe it + (1 p) e φ N (t) = e λ(eit 1). Substituido temos: φ S (t) = e λ(ei( i log(peit +(1 p))) 1) = e λ(peit +(1 p) 1) = e pλ(eit 1). Pela uicidade da fução característica, temos que S P oisso(pλ). 7.5 Fução Característica de um Vetor Aleatório Defiição 7.5.1: Seja X = (X 1,..., X k ) um vetor aleatório k-dimesioal. A fução característica de X é a fução φ X : IR k C defiida por φ X ( t) = Ee i t X = Eexp(i k t j X j ). φ X é também chamada de fução característica cojuta de X 1,..., X k. A fução característica multivariada tem propriedades aálogas a todas as propriedades euciadas para a fução característica de uma variável aleatória. As propriedades P1 P4 e P6 são válidas com as óbvias modificações (a reta é substituída por IR k ). Para P5, supõe-se que X e Y sejam vetores de mesma dimesão. Sob esta codição, a idepedêcia de X e Y implica que φ X+ Y ( t) = φ X ( t)φ Y ( t). Quato ao Teorema da Uicidade, também existe uma fórmula da iversão para a fução característica multidimesioal que pode ser usada para provar a uicidade da fução característica: j=1

123 7.5. FUNÇÃO CARACTERÍSTICA DE UM VETOR ALEATÓRIO 118 Teorema 7.5.2: Teorema da Uicidade. Se X e Y forem vetores aleatórios k-dimesioais tais que φ X ( t) = φ Y ( t), t IR k, etão X e Y têm a mesma distribuição. Em outras palavras, a fução característica determia a distribuição, e podemos escrever: φ X = φ Y F X = F Y. Aalogamete a P7, correlações de ordem maiores podem ser facilmete calculadas difereciado-se a fução característica cojuta repetidamete. Formalmete, seja p = k=1 p k para úmeros aturais quaisquer p k, temos E( 1 X p k k ) = 1 i p p φ X ( t) t p 1 1 t p t= 0. No caso particular de X = (X 1, X 2 ), temos que EX 1 X 2 = 2 φ X1,X 2 (t 1, t 2 ) t 1 t 2 t1 =t 2 =0. Também é fácil aalisar o comportameto da fução característica multivariada de trasformações lieares de vetores aleatórios em aalogia a propriedade P8. (Assumiremos que um vetor X k-dimesioal é uma matriz colua com dimesão k 1. Deste modo t X = ( t) T X.) Por exemplo, seja Y = A X + b, etão φ Y ( t) = Ee i( t) T Y = Ee i( t) T (A X+ b) = E(e i( t) T b e i(at t) T X ) = e i( t) T b φ X (A T t), ode utilizamos o fato que (AB) T = B T A T e que e i( t) T b ão é aleatório e pode sair fora da operação de esperaça. Assim como é fácil obter a distribuição margial dada uma distribuição cojuta de variáveis aleatórias, também é fácil obter a fução característica de qualquer distribuição margial. Para isso basta fazer todos os termos extras iguais a zero a fução característica multivariada. Por exemplo, para as variáveis aleatórias X, Y, e Z, temos Ee i(xx+yy ) = Ee i(xx+yy +0Z), ou seja, φ X,Y (x, y) = φ X,Y,Z (x, y, 0), (x, y) IR 2. Como o caso uidimesioal, temos covergêcia em distribuição se, e somete se, as fuções características covergem. Teorema 7.5.3: X D X se, e somete se, φ X ( t) φ X ( t), t IR k. Prova: Omitida. O próximo teorema mostra que covergêcia em distribuição de vetores aleatórios é equivalete à covergêcia em distribuição de todas as combiações lieares das coordeadas. Teorema 7.5.4: Cramér-Wold. Sejam X = (X 1, X 2,..., X k ) e X = (X 1,..., X ) vetores aleatórios k-dimesioais. Etão, X X se, e somete se, k j=1 t jx j D k j=1 t jx j, para todo (t 1,..., t k ) IR k.

124 7.5. FUNÇÃO CARACTERÍSTICA DE UM VETOR ALEATÓRIO 119 Prova: Supohamos primeiro que k j=1 t jx j D k j=1 t jx j, (t 1,..., t k ). Etão, φ X (t 1,..., t k ) = Ee i k j=1 t jx j = φ k j=1 t jx j (1) φ k j=1 t jx j (1) = φ X (t 1,..., t k ), ode utilizamos o Teorema da Cotiuidade de Levy. Também pelo Teorema da Cotiuidade de Levy o caso multidimesioal, temos que como φ X φ X, X D X. Agora supoha que X D X. Para (t1,..., t k ) IR k, queremos provar que k j=1 t jx j D k j=1 t jx j. Para tato, basta provarmos que φ k j=1 t jx j (t) φ k j=1 t jx j (t), t IR. Mas, utilizado ovamete o Teorema da Cotiuidade de Levy, temos que φ k j=1 t jx j (t) = Ee it k j=1 t jx j = Ee i k j=1 (tt j)x j φ X (tt 1,..., tt k ) φ X (tt 1,..., tt k ) = φ k j=1 t jx j (t) Termiaremos ossa discussão de fuções características multidimesioais cosiderado um critério para idepedêcia de vetores aleatórios. Teorema 7.5.5: Sejam X = (X 1,..., X m ) e Y = (Y 1,..., Y ) vetores aleatórios, ode m 1, 1. X e Y são idepedetes se, e somete se, φ X1,...,X m,y 1,...,Y (x 1,..., x m, y 1,..., y ) = φ X (x 1,..., x m )φ Y (y 1,..., y ), para todo (x 1,..., x m ) IR m e (y 1,..., y ) IR. Prova: Supohamos primeiro que X e Y sejam variáveis aleatórias X e Y (m = 1, = 1), com X e Y idepedetes. Etão temos, φ X,Y (x, y) = Ee i(xx+yy ) = Ee ixx e iyy = Ee ixx Ee iyy = φ X (x)φ Y (y), (x, y) IR 2. Reciprocamete, supoha que φ X,Y (x, y) = φ X (x)φ Y (y) para todo (x, y) IR 2. Etão a idepedêcia de X e Y é coseqüêcia do Teorema da Uicidade: se X e Y fossem idepedetes, elas teriam fução característica cojuta φ X,Y (x, y) = φ X (x)φ Y (y) pela parte iicial desta demostração. Se ão fossem idepedetes, elas teriam uma fução característica diferete, o que cotraria a hipótese. Logo, são idepedetes. A prova o caso geral é aáloga e omitida. Um resultado semelhate vale para um úmero fiito qualquer de vetores aleatórios. Cosideremos o caso mais simples em que X 1,..., X são variáveis aleatórias. Etão, temos X 1,..., X idepedetes se, e somete se, φ X1,...,X (t 1,..., t ) = φ Xj (t j ), (t 1,..., t ) IR. j=1

125 7.6. FUNÇÕES GERATRIZES DE MOMENTO Fuções Geratrizes de Mometo Defiição 7.6.1: Uma fução geratriz de mometo ˆF X (t) de uma variável aleatória X com fução de distribuição F X existe se, ˆF X (t) := Ee tx <, t I, ode I é um itervalo cotedo 0 o seu iterior. O problema de utilizar fuções geratrizes de mometo é que elas em sempre existem. Por exemplo, a fução geratriz de mometo de uma variável aleatória com distribuição de Cauchy ão existe. Pode-se provar que a existêcia da fução geratriz de mometo é equivalete a cauda da distribuição de X ser limitada expoecialmete, ou seja, P ( X > x) Ke cx, para algum K > 0 e c > 0. Se a fução geratriz de mometo existe, pode-se provar que ela também determia a fução de distribuição. 7.7 Teorema de Slutsky Nesta seção, estudaremos o Teorema de Slutsky que trata do comportameto da soma e do produto de variáveis aleatórias, uma covergido em distribuição e outra em probabilidade. Ates disso, iremos provar que fuções cotíuas preservam covergêcia. Teorema 7.7.1: Sejam {X : 1} e X variáveis aleatórias com fuções de distribuição {F : 1} e F, respectivamete. Seja g : IR IR uma fução cotíua. Etão, se X coverge para X quase certamete, em probabilidade ou em distribuição, o mesmo ocorre com g(x ) para g(x), o mesmo modo de covergêcia. Prova: Supoha que X X cp1. Etão, existe um cojuto A F tal que P (A) = 0 e X (w) X(w) para w A c. Como g é cotíua, g(x (w)) g(x(w)) para w A c e, portato, g(x ) g(x) cp1. Cosidere que X P X e vamos verificar que g(x ) P g(x). Dado ϵ > 0 arbitrário, fixemos m grade o suficiete tal que P ( X > m/2) < ϵ. A fução g sedo cotíua em IR, será uiformemete cotíua o itervalo fechado [ m, m], logo para ϵ > 0 arbitrário existe δ tal que 0 < δ m/2 e se x, y [ m, m] e x y < δ, etão g(x) g(y) < ϵ. Observe que se P (A ) 1, etão P (A A) P (A), pois P (A ) + P (A) 1 P (A A) P (A) e P (A ) + P (A) 1 P (A). Portato, como P ( X X < δ) 1, temos que P ( X m/2, X X < δ) P ( X m/2) > 1 ϵ. Mas [ X m/2, X X < δ] [ X m, X m, X X < δ] [ g(x ) g(x) < ϵ ], logo P ( g(x ) g(x) < ϵ ) > 1 2ϵ para suficietemete grade. Como ϵ é arbitrário, temos que P ( g(x ) g(x) < ϵ ) 1 quado, ou seja g(x ) P g(x). Fialmete, cosidere que X D X. Pelo Teorema da Cotiuidade de Levy, para que g(x ) D g(x), basta a covergêcia das respectivas fuções características. Por defiição, φ g(x)(t) = Ee itg(x ) = E cos(tg(x )) + ie se(tg(x )).

126 7.7. TEOREMA DE SLUTSKY 121 Como as fuções cos(tg(x)) e se(tg(x)) são cotíuas e limitadas a reta, para t fixo, decorre do Teorema de Helly-Bray que φ g(x )(t) E cos(tg(x)) + ie se(tg(x)) = φ g(x) (t), t IR. Teorema 7.7.2: Cosidere {X : 1}, {Y : 1} e X variáveis aleatórias tais que valem as covergêcias X D X e Y P c, com c costate. Etão, (i) X + Y D X + c; (ii) X Y D cx; (iii) Se c 0, X Y D X c, desde que P (Y 0) = 1. Prova: Prova de (i): Temos Por hipótese temos, φ X +Y (t) = E(e it(x +Y ) ) = E(e it(x +c) ) + E[(e itx )(e ity e itc )]. lim E(e it(x +c) ) = lim e itc E(e itx ) = e itc E(e itx ) = E(e it(x+c) ). Observe que e itx = 1 e, assim, vem E[(e itx )(e ity e itc )] E[ (e itx )(e ity e itc ) ] = E[ (e ity e itc ) ]. Seja Z = (e ity e itc ), temos 0 Z 2. Logo, para ϵ > 0, temos E[ (e ity e itc ) ] = EZ = E(Z I Z ϵ) + E(Z I Z >ϵ) ϵ + 2E(I Z>ϵ) ϵ + 2P (Z > ϵ). Como Z é uma fução cotíua de Y e lembrado que fuções cotíuas preservam covergêcia em probabilidade, temos que Z P 0, pois Y P c. Nessas codições, para grade o suficiete, E[(e itx )(e ity e itc )] E[ (e ity e itc ) ] < 2ϵ. Logo, tomado o limite de φ X+Y (t) quado, cocluímos a demostração da parte (i). Prova de (ii): Iicialmete cosideramos c = 0 e vamos verificar que X Y P 0, e coseqüetemete, X Y D 0. Sejam ϵ, δ > 0 e x < 0 < y potos de cotiuidade de F X tais que F X (y) F X (x) = P (x < X y) > 1 δ. Como X D X, temos P (x < X y) = F X (y) F X (x) > 1 2δ para suficietemete grade. Defiamos M = max(y, x), etão a covergêcia em probabilidade de Y para zero implica que P ( Y < ϵ M ) > 1 δ para suficietemete grade. Logo para suficietemete grade, temos P (x < X y, Y < ϵ M ) > 1 3δ.

127 7.7. TEOREMA DE SLUTSKY 122 Como x < X y e Y < ϵ implicam X M Y < ϵ, temos P ( X Y < ϵ) > 1 3δ para grade o suficiete. Portato, para todo ϵ > 0, P ( X Y < ϵ) 1, ou seja, X Y P 0. Agora cosideremos o caso c geral. Como X Y = cx + (Y c)x e Y c P 0. Pelo caso c = 0, temos que (Y c)x P 0. Além disso como cx é uma fução cotíua, temos cx D cx. Como X Y é a soma de dois termos, o primeiro dos quais coverge para cx em distribuição, e o segudo para zero em probabilidade, o resultado é coseqüêcia da parte (i). Prova de (iii): Como 1/x é cotíua para x 0, temos que 1/Y P 1/c. Agora, basta aplicar o ítem (ii).

128 Capítulo 8 Lei dos Grades Números 8.1 Motivação Etre outras coisas, a Lei dos grades Números os permite formalizar a idéia que à medida que o úmero de repetições de um experimeto cresce, a freqüêcia relativa f A de algum eveto A coverge (quase certamete) para a probabilidade teórica P (A). É este fato que os permite estimar o valor da probabilidade de um eveto A, baseado a freqüêcia relativa de A em um grade úmero de repetições de um experimeto. É também este fato que justifica a ituição que temos que evetos com probabilidade próximas de 1, quase sempre ocorrem; e que evetos com probabilidade próximas de 0 quase sempre ão ocorrem. Por exemplo, se uma ova peça for produzida e ão tivermos cohecimeto aterior sobre quão provável será que a peça seja defeituosa, poderemos proceder à ispeção de um grade úmero dessas peças, digamos N, cotarmos o úmero de peças defeituosas detre elas, por exemplo, e depois empregarmos /N com uma aproximação da probabilidade de que uma peça seja defeituosa. O úmero /N é uma variável aleatória, e seu valor depede essecialmete de duas coisas. Primeira, o valor de /N depede da probabilidade básica, mas descohecida, p de que uma peça seja defeituosa. Seguda, depede daquelas N peças que teham sido ispecioadas. O que a Lei dos Grades Números mostra é que se a técica de selecioar as N peças for aleatória, etão o quociete /N covergirá quase certamete para p. (Evidetemete, a seleção das N peças é importate. Se fôssemos escolher somete aquelas peças que exibissem algum defeito físico extero, por exemplo, poderíamos prejudicar seriamete ossos cálculos.) Mais formalmete, cosidere um experimeto básico, com a variável aleatória X represetado o valor de um característico umérico do resultado (o caso aterior, temos que X seria a fução idicadora do eveto A). Pesemos a realização deste experimeto N vezes (N grade), de tal maeira que as realizações sejam idepedetes. Supohamos que depois de cada realização do experimeto registre-se o valor do característico umérico do resultado; chamemos este um valor observado. A Lei dos Grades Números afirma que a média aritmética dos valores observados coverge, em certo setido, para a média EX, quado N. Vamos agora costruir um modelo para o experimeto repetido que apresetamos acima. Para experimetos dessa atureza, um resultado possível é uma seqüêcia de N resultados 123

129 8.1. MOTIVAÇÃO 124 possíveis do experimeto básico. Como estamos iteressados em aalisar a covergêcia para N grade, se Ω 0 é o espaço amostral do experimeto básico, o espaço amostral do experimeto global cosiste as seqüêcias ifiitas de elemetos de Ω 0, ou seja, Ω = {(w 1, w 2,...) : w i Ω 0, i = 1, 2,...} = Ω 0 Ω 0... = Ω, ode w i é o resultado do i-ésimo esaio do experimeto básico. Podemos completar o modelo utilizado a σ-álgebra produto para A e a probabilidade produto para P, 1 pois os esaios são idepedetes. Já que vamos registrar um certo característico do i-ésimo resultado para todo i, estaremos registrado os valores de uma seqüêcia de variáveis aleatórias. Ituitivamete, X(w 0 ) represeta o valor do característico umérico do experimeto básico (w 0 Ω 0 ), etão, quado o resultado da seqüêcia de realizações for w = (w 1, w 2,...), os valores observados serão X(w 1 ), X(w 2 ),... É coveiete represetar por X o resultado observado a -ésima realização. Assim, X é fução do resultado w do experimeto global, com X (w) = X(w ), e o decorrer serão registrados os valores das variáveis aleatórias X 1, X 2,... Notemos que X tem a mesma distribuição de X, pois trata-se de uma seqüêcia de repetições do mesmo experimeto. Como as X depedem de realizações idepedetes, elas são idepedetes, ode X 1, X 2,... são idepedetes se para todo 2, X 1,..., X são idepedetes. Uma versão da Lei dos Grades Números diz que se X 1, X 2,... são i.i.d. e itegráveis, etão X X EX 1. Quado o tipo de covergêcia é covergêcia em probabilidade, chamamos de Lei Fraca dos Grades Números, e quado temos covergêcia quase certa, chamamos de Lei Forte dos Grades Números. Como vimos em capítulo aterior, covergêcia quase-certa implica covergêcia em probabilidade, portato se uma seqüêcia de variáveis aleatórias satisfaz a Lei Forte dos Grades Números, etão ela também satisfaz a Lei Fraca. Para esclarecer as difereças etre as Leis Fraca e Leis Fortes, cosidere o caso em que X i Beroulli(p) é a fução idicadora de certo eveto A e A é o úmero de vezes que o eveto A ocorre em realizações do experimeto. Etão, a Lei Fraca afirma que A P p, o que é equivalete a dizer que para todo ϵ > 0 podemos ecotrar um suficietemete grade tal que, a probabilidade de A estar etre p ϵ e p+ϵ, é maior que 1 δ para qualquer δ > 0 especificado. Em outras palavras, se realizarmos muitas seqüêcias Beroulli(p) de tamaho, espera-se que apeas em uma fração delas meor que δ, temos que A está fora do itervalo (p ϵ, p+ϵ). Note que a Lei Fraca ão dá ehuma iformação sobre a existêcia ou o valor do limite de A. Em cotraste, a Lei Forte garate que o cojuto de todas as realizações do experimeto, para as quais lim A = p, é um eveto com probabilidade 1. Se fixarmos ϵ > 0, o cojuto das realizações dos experimetos para os quais p ϵ < A < p+ϵ, para suficietemete grade é um eveto com probabilidade 1. A Lei Forte assegura que dado ϵ > 0, com probabilidade 1, os termos da seqüêcia de freqüêcia relativas de uma particular realização do experimeto realmete estarão o itervalo (p ϵ, p + ϵ). 1 Formalmete, dados uma seqüêcia de espaços de probabilidade (Ω i, A i, P i ), a σ-álgebra produto A em i Ω i é defiida como sedo a meor σ-álgebra cotedo evetos da forma A 1 A 2, ode A i A i para todo i; e a probabilidade produto é tal que P (A 1 A 2 ) = i=1 P i(a i ); pode-se provar que existe uma úica medida de probabilidade em A que satisfaz esta codição.

130 8.2. LEI FRACA DOS GRANDES NÚMEROS Lei Fraca dos Grades Números Na seção aterior, motivamos o resultado da Leis dos Grades Números para variáveis aleatórias idepedetes e ideticamete distribuídas. Nesta seção, aalisaremos duas versões da Lei Fraca dos Grades Números, a primeira delas ão é ecessário assumir que as variáveis aleatórias são ideticamete distribuídas. Vamos usar a desigualdade de Chebyshev para provar a Lei Fraca dos Grades Números de Chebyshev. Teorema 8.2.1: Lei Fraca de Chebyshev Sejam X 1, X 2,... variáveis aleatórias idepedetes 2 a 2 com variâcias fiitas e uiformemete limitadas (ou seja, existe c fiito tal que para todo, V arx c). Etão, X 1, X 2,... satisfazem a Lei Fraca dos Grades Números: S ES P 0. Prova: Precisamos provar que para todo ϵ > 0, P ( S ES ϵ) 0 quado. Como as variáveis aleatórias são idepedetes 2 a 2, temos que V ar(s ) = V ar(x i ) c. i=1 Pela desigualdade de Chebyshev, temos que P ( S ES ϵ) V ar(s ) ϵ 2 2 c ϵ 2 0. Corolário 8.2.2: Lei Fraca dos Grades Números de Beroulli. Cosideremos uma seqüêcia de esaios biomiais idepedetes, tedo a mesma probabilidade p de sucesso em cada esaio. Se S é o úmero de sucessos os primeiros esaios, etão S P p Prova: Seja X = 1 se o -ésimo esaio é sucesso, X = 0 caso cotrário. Etão, X 1, X 2,... são i.i.d. e itegráveis com média µ = p. Como V arx = p(1 p), a Lei Fraca de Chebyshev implica que S p P 0, ou, equivaletemete, S P p. Podemos utilizar a Lei Fraca dos Grades Números para respoder a seguite questão: quatas repetições de um experimeto devemos realizar a fim de termos uma probabilidade ao meos 0, 95 para que a freqüêcia relativa difira de p = P (A) por meos do que, digamos,

131 8.2. LEI FRACA DOS GRANDES NÚMEROS 126 0,01? Utilizado a equação (8.1), ode S é o úmero de ocorrêcias do eveto A em realizações do experimeto temos que S / = f A, ES = p, V ars = p(1 p), e: P ( f A p 0, 01) p(1 p) (0, 01) 2, ou seja, queremos que p(1 p) 0, 05, o que é equivalete a p(1 p). Substituido os (0,01) 2 0,05(0,01) 2 valores específicos de 0, 05 e 0, 01 por δ e ϵ, respectivamete, teremos P ( f A p < ϵ) 1 δ sempre que p(1 p) δ(ϵ) 2. Em muitos problemas, ão cohecemos o valor de p = P (A) e, por isso, ão poderemos empregar o limite acima. Nesse caso, poderemos empregar o fato de que p(1 p) toma seu valor máximo quado p = 1/2, e esse valor máximo é igual a 1/4. Coseqüetemete, estamos certamete seguros se afirmamos que para 1 teremos 4ϵ 2 δ P ( f A p < ϵ) 1 δ. Exemplo 8.2.3: Peças são produzidas de tal maeira que a probabilidade de uma peça ser defeituosa é p (admitida descohecida). Um grade úmero de peças, digamos, são classificadas como defeituosas ou perfeitas. Que valor deverá ter de maeira que possamos estar 99% certos de que a freqüêcia relativa de defeituosas difere de p por meos de 0, 05? Solução: Porque ão cohecemos o valor de p, deveremos aplicar a última fórmula com 1 ϵ = 0, 05, δ = 0, 01. Deste modo ecotraremos que se = , a codição 4(0,05) 2 0,01 exigida será satisfeita. A hipótese de variâcias fiitas pode ser elimiada e o próximo teorema prova uma versão da Lei Fraca dos Grades Números para variáveis aleatórias i.i.d. e itegráveis. Teorema 8.2.4: Lei Fraca de Khitchi. Se X 1, X 2,... são i.i.d. e itegráveis com média comum µ, etão S P µ. Prova: É coseqüêcia da Lei Forte de Kolmogorov e do fato que covergêcia quase certa implica covergêcia em probabilidade. Exemplo 8.2.5: Sejam {X : 1} variáveis i.i.d. com média µ e variâcia σ 2, ambas fiitas. Prove que 1 i=1 (X i X) 2 P σ 2. Solução: 1 (X i X) 2 = 1 (Xi 2 2X i X + X 2 ) i=1 i=1 = 1 Xi 2 2X 1 X i + 1 X 2 = 1 i=1 Xi 2 X 2 i=1 i=1 i=1

132 8.3. LEI FORTE DOS GRANDES NÚMEROS 127 e Pela Lei Fraca de Kitchi, temos que 1 Xi 2 P E(Xi 2 ) = σ 2 + µ 2 i=1 X P E(X i ) = µ. Como fuções cotíuas preservam covergêcia, temos que Logo, temos que ( 1 X 2 P µ 2. Xi 2, X 2 ) P (σ 2 + µ 2, µ 2 ). i=1 Fialmete, como fuções cotíuas preservam covergêcia 1 Xi 2 X 2 P σ Lei Forte dos Grades Números i=1 Ates de iiciarmos a prova da Lei Forte dos Grades Números, vamos provar uma extesão da desigualdade de Chebyshev. Lema 8.3.1: Sejam X 1,..., X variáveis aleatórias idepedetes tais que EX k = 0 e V arx k <, k = 1,...,. Etão, para todo λ > 0, ode S k = X X k. P ( max 1 k S k λ) 1 λ 2 V ars = 1 λ 2 V arx k, Prova: Queremos uma cota superior para P (max 1 k S 2 k λ2 ). Para tato, seja A = [max 1 k S 2 k λ2 ]. Vamos decompor A coforme a primeira vez que S 2 k λ2, defiamos: A 1 = [S 2 1 λ 2 ], A 2 = [S 2 1 < λ 2, S 2 2 λ 2 ], k=1 A k = [S 2 1 < λ 2,..., S 2 k 1 < λ 2, S 2 k λ 2 ], para 2 k. Etão os A k são disjutos e A = k=1 A k. Logo, I A = k=1 I A k e S 2 S 2 I A = SI 2 Ak ES 2 k=1 ESI 2 Ak. k=1

133 8.3. LEI FORTE DOS GRANDES NÚMEROS 128 Queremos substituir S 2 por S 2 k o somatório (pois S2 k λ2 em A k, e ão vale ecessariamete S 2 λ 2 ); o truque é escrever Portato, S 2 = (S S k ) 2 + S 2 k + 2(S S k )S k S 2 k + 2(S S k )S k. ES 2 I Ak ES 2 ki Ak + 2E((S S k )S k I Ak ). Como S S k = X k X e S k I Ak depede só de X 1,..., X k, as duas são fuções de famílias disjutas de variáveis idepedetes, logo são idepedetes e a esperaça fatora: Como E(S S k ) = 0, temos E((S S k )S k I Ak ) = E(S S k )E(S k I Ak ). ES 2 I Ak ES 2 ki Ak Eλ 2 I Ak = λ 2 P (A k ). logo Portato, ES 2 λ 2 P (A k ) = λ 2 P (A), k=1 P (A) 1 λ 2 ES2 = 1 λ 2 V ars. O próximo teorema é cohecido como Primeira Lei Forte de Kolmogorov. Sejam X 1, X 2,... variáveis aleatórias idepedetes e itegráveis, e su- Teorema 8.3.2: poha que =1 V arx 2 <. Etão, as X satisfazem a Lei Forte dos Grades Números, ou seja, X X (EX EX ) 0 quase certamete. Prova: Supohamos sem perda de geeralidade que EX = 0,. Queremos mostrar que 0 cp1, ode S = X X. Para tato, basta mostrar que S M = S k max 2 <k 2 +1 k Provaremos isto em duas etapas: (i) =1 P (M 1 ) <, m = 1, 2,...; e m (ii) M 0 cp1. 0 cp1 quado.

134 8.3. LEI FORTE DOS GRANDES NÚMEROS 129 Para (i), cosidere m fixo. Etão, para todo, P (M 1 m ) P ( max S k 2 2 <k 2 +1 m ) P ( max S k 2 1<k 2 +1 m ) m k=1 V ar(x k ), ode vale a última passagem pelo lema aterior. Seja A = [M 1 ], etão m P (A ) m 2 =1 =1 = m 2 V ar(x k ) k=1 ( V ar(x 4 k )) = m 2 k=1 :2 +1 k ( 1 4 ). k=1 :2 +1 k ( 1 4 V ar(x k)) = Como :2 +1 k ( 1 4 ) 16 3k 2, temos =1 P (A ) 16m2 3 k=1 V ar(x k ) k 2 <. Para (ii), ote que por Borel-Catelli, tem-se P (A ifitas vezes) = 0. Logo, para todo m, a probabilidade é 1 de que M assuma um valor 1 para somete um úmero fiito m de s. Seja B m o eveto M assuma um valor 1 para somete um úmero fiito de m s, etão P (B m ) = 1, m, o que implica que P ( m=1b m ) = 1, e (ii) resulta da equivalêcia etre os evetos m=1b m e [M 0]. O próximo exemplo ilustra uma aplicação da Primeira Lei Forte de Kolmogorov. Exemplo : Sejam X 1, X 2,..., X variáveis aleatórias idepedetes com X P oisso( ), para cada 1. Calcule o limite quase-certo de X. Solução: Como V arx =, temos que =1 V arx 2 = =1 Logo, a primeira Lei Forte de Kolmogorov implica que 2 <. X EX EX 0 cp1, ou seja X 0 cp1. Pelo teste da itegral, pode-se verificar que /2 3.

135 8.3. LEI FORTE DOS GRANDES NÚMEROS 130 Portato, Logo, X cp /2 3. Ates de euciarmos e provarmos a Seguda Lei Forte de Kolmogorov, cosidere o seguite lema: Lema 8.3.4: Seja X uma variável aleatória itegrável com fução de distribuição F. Etão, ( 1 x 2 df (x)) <. 2 =1 Prova: Vamos utilizar o seguite fato: =j j para j = 1, 2,.... Como x 2 df (x) = j j= +1 j 1 x 2 df (x), temos ( 1 x 2 df (x)) = 2 =1 = = 2 =1 j=1 j=1 =j j j=1 ( 1 j 2 j 1 ( 1 j 2 j 1 x 2 j j 1 =1 j= +1 x 2 df (x)) + x 2 df (x)) + df (x) j= ( 1 2 j 0 j 1 =1 j= +1 0 j= = j +1 j j 1 x 2 df (x)) = ( 1 2 j j 1 ( 1 2 j j 1 x 2 df (x). j + 1 x 2 df (x)) x 2 df (x)) Como x2 j x em (j 1, j], para j 1, e x2 j +1 ( 1 x 2 df (x)) 2 2 =1 = 2 j= j j 1 x df (x) = 2 j j=1 j 1 x em (j 1, j], para j 0, temos xdf (x) j= j j 1 x df (x) = 2E X <. x df (x) = A seguir euciamos e provamos a Seguda Lei Forte de Kolmogorov.

136 8.3. LEI FORTE DOS GRANDES NÚMEROS 131 Teorema 8.3.5: Sejam X 1, X 2,... variáveis aleatórias idepedetes, ideticamete distribuídas e itegráveis, com EX = µ. Etão, X X µ quase certamete. Prova: Supohamos sem perda de geeralidade que µ = 0. Vamos trucar as variáveis X, defiamos Y = X I [ <X ]. Seja Z = X Y, de modo que A prova terá três partes: X X = Y Y + Z Z. (a) Z Z (b) Y Y EY EY Lema 8.3.4); e (c) EY EY 0 quase certamete (usaremos Borel-Catelli); 0 quase certamete (usaremos a Primeira Lei Forte e o 0 (usaremos o Teorema da Covergêcia Domiada). É fácil ver que (a), (b), e (c) implicam o teorema. Para provar (a), ote que Z 0 Y X X / (, ]. Logo, Mas os evetos A = [Z 0] satisfazem P (A ) =1 P (Z 0) = P (X / (, ]) P ( X ). P ( X ) = =1 P ( X 1 ) E X 1 <. Portato, Borel-Catelli implica que P (A ifiitas vezes) = 0, ou seja Isso sigifica que =1 P (Z 0 ifiitas vezes) = 0. P (Z = 0 para todo suficietemete grade) = 1. Mas se Z = 0 para suficietemete grade, etão Z 0 e Z Z 0, logo P ( Z Z 0) = 1. Para provar (b), seja F a fução de distribuição comum, F = F X. Verifiquemos a codição da primeira Lei Forte de Kolmogorov para as variáveis aleatórias Y. Como Y = X I [ <X ], temos V ar(y ) E(Y 2 ) = E(X 2 I [ <X ]) = x 2 df (x).

137 8.3. LEI FORTE DOS GRANDES NÚMEROS 132 Portato, =1 V ar(y ) 2 =1 1 x 2 df (x) <, 2 ode a última desigualdade decorre do Lema Portato, (b) decorre da primeira Lei Forte de Kolmogorov. Para provar (c), é suficiete mostrar que EY 0. Mas, EY = E(X I [ <X ]) = E(X 1 I [ <X1 ]) EX 1 = 0, pelo teorema da covergêcia domiada que se aplica pois X 1 domia X 1 I [ X1 ] s e é itegrável. Exemplo 8.3.6: As variáveis X, 1, são idepedetes e todas têm distribuição Expoecial de parâmetro λ. Mostre que a seqüêcia {X 2 : 1} satisfaz a Lei Forte dos Grades Números. Solução: De acordo com a Seguda Lei Forte de Kolmogorov, precisamos mostrar que EX 2 é fiita para todo. Como EX 2 = V arx +(EX ) 2 = 2 <, temos que a seqüêcia λ 2 {X 2 : 1} satisfaz a Lei Forte dos Grades Números. Exemplo 8.3.7: Seja {X : 1} uma seqüêcia de variáveis aleatórias i.i.d., seguido o modelo Uiforme cotíuo em (0, 1). Calcule o limite, quase certo, para 1 k=1 ( log(x k)) quado. Solução: Vamos tetar usar a Lei Forte dos Grades Números. Para isso, precisamos calcular E( log X k ). E( log X k ) = 1 0 log xdx = x log x Portato, temos que 1 k=1 ( log(x k)) 1 cp dx = 1. A seguir veremos uma importate coseqüêcia da Lei Forte dos Grades Números para a área de Estatística Aplicada. Sejam X 1, X 2,,..., X variáveis aleatórias em (Ω, A, P ) idepedetes e ideticamete distribuídas com fução de distribuição F. Essas variáveis podem represetar a amostra observada de uma certa quatidade de iteresse. A fução de distribuição empírica ou amostral, deotada por F e, é defiida para todo x IR e w Ω por: F e (x, w) = 1 [úmero de i s tais que X i(w) x, i = 1, 2,..., ]. Para uma particular trajetória w 0 Ω, obtemos o cojuto de valores fixados X 1 (w 0 ) = x 1,..., X (w 0 ) = x. Se os x i s são todos diferetes, etão F(x, e w 0 ) é uma fução de distribuição com saltos 1/ em cada um desses valores. Cosidere um x 0 IR fixo. Etão F(x e 0, w) é uma variável aleatória, pois é uma fução das variáveis X 1, X 2,..., X. Se Y i = I Xi x 0, i = 1, 2,...,, etão F(x e 0, w) = 1 i=1 Y i(w). Como as variáveis aleatórias Y i são fuções de famílias disjutas de variáveis aleatórias

138 8.3. LEI FORTE DOS GRANDES NÚMEROS 133 idepedetes, elas também são idepedetes. Além disso, temos que Y i Beroulli(p) com p = P (Y i = 1) = P (X i x 0 ) = F (x 0 ). Portato, cocluímos que pela Lei Forte de Kolmogorov, para cada valor x 0 IR fixo, temos F e (x 0, w) F (x 0 ) cp1. O Teorema de Gliveko-Catelli também cohecido como Teorema Fudametal da Estatística afirma que a fução de distribuição empírica coverge para a fução de distribuição populacioal, quase certamete em Ω e uiformemete em IR. Teorema 8.3.8: Sejam X 1, X 2,..., X variáveis aleatórias em (Ω, A, P ), idepedetes e ideticamete distribuídas com fução de distribuição F. Seja F e a correspodete fução de distribuição empírica, etão: P (lim sup F(x, e w) F (x) = 0) = 1. x IR Prova: Para cada x fixo, os argumetos ateriores garatem covergêcia quase certa. A prova de que este resultado pode ser estedido, usa técicas de Aálise Matemática e será omitida. Por fim ós euciaremos e provaremos a Recíproca da Lei Forte de Kolmogorov. A Lei Forte afirma que se as variáveis aleatórias X são itegráveis, etão S coverge para um limite fiito (= EX 1 ) com probabilidade 1. A recíproca diz que se as X ão forem itegráveis, etão com probabilidade 1, S ão covergirá para um limite fiito. Teorema 8.3.9: Sejam X 1, X 2,... variáveis aleatórias idepedetes e ideticamete distribuídas. Se E X 1 =, etão, com probabilidade 1, a seqüêcia S ão é limitada. Prova: Se E X 1 =, etão E( X 1 ) =, para k = 1, 2,.... De acordo com Lema 4.6.2, k temos que P ( X 1 ) =, k. k =1 Como as variáveis X são ideticamete distribuídas, temos =1 P ( X 1 k ) = =1 P ( X k ) = =1 P ( X k). Por idepedêcia dos X, os evetos A = [ X k] são idepedetes, e Borel-Catelli implica P ( X k ifiitas vezes) = 1, k. Fazedo B k = [ X k ifiitas vezes], temos P ( k=1 B k) = 1, pois a itersecção de um úmero eumerável de evetos de probabilidade 1 também tem probabilidade 1. Mas o eveto k=1 B k é o eveto X > k para um úmero ifiito de, para todo k, ou seja, é

139 8.4. UM EXEMPLO DE DIVERGÊNCIA DAS MÉDIAS 134 o eveto a seqüêcia X é ilimitada. Para termiar a prova, basta mostrar que se X ilimitada, etão S também é ilimitada. Agora, com S 0 = 0, temos X = S S 1 S + S 1, é para = 1, 2,.... Portato, se X é ilimitada, etão S é ilimitada ou S 1 Mas, S 1 = S 1 ( 1), ( 1) etão S 1 é ilimitada se, e somete se, S também for. é ilimitada. 8.4 Um Exemplo de Divergêcia das Médias Uma variável aleatória tem distribuição de Cauchy de parâmetro a se, para a > 0 f X (x) = 1 π a a 2 + x 2. Assuma que X são i.i.d. segudo uma distribuição de Cauchy de parâmetro a. Seja S = 1 i=1 X. Utilizado a defiição e as propriedades da fução característica pode-se provar que φ X (u) = e a u, e φ S (u) = e a u. Etão, as médias S são distribuídas exatamete como uma das parcelas da soma. Para m, após alguma maipulação algébrica, temos que S S m = (1 m )([Z,m] [Y,m ]), ode Z,m = 1 m i=m+1 X i e Y,m = 1 m m i=1 X i. Observe que como Z,m e Y,m são médias de cojutos disjutos de variáveis aleatórias idepedetes, elas são idepedetes uma da outra. Aida mais, pelo resultado para φ S, é o caso que elas são ideticamete distribuídas com fução característica igual a e a u. Seja W,m = Z,m Y,m, ós vemos que S S m = (1 m )W,m. Cotudo, φ W,m (u) = φ Z,m (u)φ Y,m ( u) = e 2a u. Etão, W,m tem uma distribuição fixa, ão degeerada que é idepedete de e m. Fixado, = 2m, temos que φ S2m S m (u) = e a u. Portato, quado m, S 2m S m ão coverge para zero, mas para todo m, tem uma distribuição Cauchy de parâmetro a. Portato, S ão satisfaz o critério de covergêcia de Cauchy e ão é covergete.

140 8.4. UM EXEMPLO DE DIVERGÊNCIA DAS MÉDIAS 135 Observe que isto ão é um cotra-exemplo a Lei Forte de Kolmogorov, tedo em vista que uma variável aleatória que tem distribuição de acordo com uma Cauchy ão tem valor esperado defiido, ou seja 0 1 EX = π a x a 2 + x dx π ax a 2 + x 2 dx, é idefiido, visto que ambas as itegrais são ifiitas. Este exemplo serve para ilustrar que a suposição da existêcia de EX é ecessária para a Lei Forte dos Grades Números.

141 Capítulo 9 Teorema Cetral do Limite 9.1 Motivação Cosideremos uma seqüêcia de variáveis aleatórias idepedetes, X 1, X 2,..., defiidas o mesmo espaço de probabilidade (Ω, A, P ), e seja S 1, S 2,... a seqüêcia de somas parciais, defiidas por S = X 1 + X X. A Lei dos Grades Números trata da covergêcia de 1 (S ES ) para 0, quado, supodo que as variáveis aleatórias X i s sejam itegráveis. Quado a seqüêcia obedece à lei dos grades úmeros, existe uma tedêcia da variável aleatória S, a média amostral o caso de variáveis aleatórias idepedetes e ideticamete distribuídas, para cocetrar-se em toro de sua média. O Teorema Cetral do Limite prova que sob certas hipóteses gerais, a distribuição da média amostral padroizada tede à ormal. O problema cosiste em achar codições sob as quais S ES V ars D N(0, 1). Resumidamete, estas codições exigem que cada parcela da soma cotribua com um valor sem importâcia para a variação da soma, ou seja é muito improvável que qualquer parcela isolada dê uma cotribuição muito grade para a soma. O Teorema Cetral do Limite dá apoio ao uso da ormal como distribuição de erros, pois em muitas situações reais é possível iterpretar o erro de uma observação como resultate de muitos erros pequeos e idepedetes. Há também outras situações que o Teorema Cetral do Limite pode justificar o uso da ormal. Por exemplo, a distribuição de alturas de homes adultos de certa idade pode ser cosiderada aproximadamete ormal, pois a altura pode ser pesada como soma de muitos efeitos pequeos e idepedetes. 9.2 Teoremas e provas Existem vários Teoremas Cetrais do Limite que variam de acordo com as hipóteses sobre as distribuições das variáveis aleatórias X i s a seqüêcia. Como teoremas cetrais do limite tratam de covergêcia em distribuição e como, pelo Teorema da Cotiuidade de Levy, sabe-se que uma seqüêcia de variáveis aleatórias Y D Y se, e somete se, φ Y φ Y, 136

142 9.2. TEOREMAS E PROVAS 137 a idéia será provar que a fução característica de S ES V ars coverge para e t2 2 que é a fução característica da N(0, 1). Nós iremos agora euciar e provar algus desses teoremas, começado pelo caso de variáveis aleatórias idepedetes e ideticamete distribuídas. Teorema 9.2.1: Sejam X 1, X 2,... variáveis aleatórias iid com E(X ) = µ e V ar(x ) = σ 2. Supoha que N é uma variável aleatória com distribuição N(0, 1). Se S = X 1 + X X, etão S µ σ D N. Prova: Sem perda de geeralidade, seja E(X ) = 0 e E(X) 2 = 1 (caso este ão seja o caso, pode-se provar o resultado para Xi = X i µ, σ já que E(Xi ) = 0 e E(Xi ) 2 = 1). it S Seja φ (t) = E(e ) e φ(t) = E(e itx 1 ). Como a fução característica de uma soma de variáveis aleatórias idepedetes é igual ao produto das fuções características das variáveis aleatórias, tem-se que φ (t) = (E(e it X 1 )) = φ (t/ ). Como os dois primeiros mometos existem, φ possui duas derivadas cotíuas. Etão, utilizado a expasão de Taylor de φ e o fato que φ (k) (0) = i k E(X k 1 ), temos que φ(t) = 1 + tφ (0) + t2 2 φ (θ(t)), ode θ(t) t. Logo, como φ é cotíua em 0, temos que φ (θ(t)) φ (0) 0 quado t 0. Etão, tem-se φ(t) = 1 t2 2 + t2 2 e(t), ode e(t) = φ (θ(t)) + 1 e lim t 0 e(t) = 0. Etão, para t fixo φ ( t ) = [1 t2 2 + t2 2 e( t )] = [1 + t2 2 [1 e( t )]] e t2 2, quado, pois [1 e( t )] 1 e para úmeros complexos c c (1 + c ) e c (Esse limite é cohecido como limite de Euler e sua prova será omitida). Um caso especial do Teorema Cetral do Limite para variáveis aleatórias idepedetes e ideticamete distribuídas é quado estas variáveis são distribuídas de acordo com a distribuição de Beroulli, este caso é cohecido como Teorema Cetral do Limite de De Moivre e Laplace. Corolário 9.2.2: Seja X 1, X 2,... uma seqüêcia de variáveis aleatórias idepedetes e distribuídas de acordo com a distribuição de Beroulli com parâmetro p, ou seja, P (X i = 1) = p = 1 P (X i = 0) para 0 < p < 1. Etão, se S = X X, S p p(1 p) D N(0, 1).

143 9.2. TEOREMAS E PROVAS 138 Prova: É imediata dado o teorema aterior, já que E(X i ) = p e E(X 2 i ) = p. Exemplo 9.2.3: Supoha que temos algumas voltages de ruídos idepedetes, por exemplo V i, i = 1, 2,...,, as quais são recebidas aquilo que se deomia um somador. Seja V a soma das voltages recebidas. Supoha também que cada variável aleatória V i seja uiformemete distribuída sobre o itervalo [0,10]. Daí, EV i = 5 volts e V arv i = De acordo com o Teorema Cetral do Limite, se for suficietemete grade, a variável aleatória S = (V 5) terá aproximadamete a distribuição N(0, 1). Portato, se = 20, podemos calcular que a probabilidade de que a voltagem total a etrada exceda 105 volts da seguite maeira: P (V > 105) = P ( (V 100) > ( ) ) 1 Φ(0, 388) = 0, Agora aalisaremos um resultado mais forte que dá codições gerais que garatem covergêcia da média amostral padroizada para ormal: o Teorema Cetral do Limite de Lideberg. Teorema 9.2.4: Sejam X 1, X 2,... variáveis aleatórias idepedetes tais que E(X ) = µ e V ar(x ) = σ 2 <, ode pelo meos um σi 2 > 0. Sejam S = X X e s = V ar(s ) = σ σ. 2 Cosidere a seguite codição, cohecida como codição de Lideberg, 1 ϵ > 0, lim s 2 k=1 Etão, se a codição de Lideberg é satisfeita x µ k >ϵs (x µ k ) 2 df k (x) = 0. S ES s D N(0, 1). Ates de provarmos este teorema, vamos primeiro dar alguma ituição sobre a codição de Lideberg. Esta codição diz que, para grade, a parcela da variâcia devida às caudas das X k é desprezível. A codição de Lideberg implica que as parcelas X k da soma têm variâcias uiformemete pequeas para grade, em outras palavras ehuma parcela tem muito peso a σk soma. Formalmete, a codição de Lideberg implica que max 2 1 k 0 quado. s 2 Para ver isto, observe que para todo k, σk 2 = 1 (x µ s 2 s 2 k ) 2 df k (x) + 1 (x µ x µ k ϵ s s 2 k ) 2 df k (x) x µ k >ϵ s 1 (ϵ s s 2 ) 2 df k (x) + 1 (x µ x µ k ϵ s s 2 j ) 2 df j (x) j=1 x µ j >ϵ s 1 s 2 (ϵ s ) 2 df k (x) + 1 (x µ s 2 j ) 2 df j (x). x µ j >ϵ s j=1

144 9.2. TEOREMAS E PROVAS 139 Este último termo ão depede de k, pois a primeira parcela é igual a (ϵ ) 2. Portato, temos σk 2 max (ϵ ) (x µ 1 k s 2 s 2 k ) 2 df k (x), x µ k >ϵ s k=1 que coverge para (ϵ ) 2, pela codição de Lideberg. Como isto vale para todo ϵ, temos σk max 2 1 k 0. s 2 Portato, o Teorema Cetral do Limite de Lideberg pode ser aplicado para justificar o seguite raciocíio: a soma de um grade úmero de pequeas quatidades idepedetes tem aproximadamete uma distribuição ormal. Exemplo 9.2.5: Vamos verificar este exemplo que uma seqüêcia X 1, X 2,... de variáveis aleatórias i.i.d. com EX i = µ e V arx i = σ 2 satisfaz a codição de Lideberg. Note que s = V ars = σ. Etão para ϵ > 0, e F a distribuição comum das variáveis aleatórias: 1 (x µ s 2 k ) 2 df k (x) = 1 k=1 x µ k >ϵs σ 2 = 1 σ (x µ) 2 df (x). 2 x µ >ϵσ k=1 x µ >ϵσ (x µ) 2 df (x) Etão, fialmete, 1 lim (x µ) 2 df (x) = 0. σ 2 x µ >ϵσ Agora iremos provar o Teorema Cetral do Limite de Lideberg. Prova: Assim como o caso de variáveis aleatórias i.i.d., mostraremos que a fução característica de S ES s coverge para e t 2 2. Para tato, fixemos t R. Usaremos duas versões da fórmula de Taylor aplicada à fução g(x) = e itx : e itx = 1 + itx + θ 1 (x) t2 x 2 2, ode θ 1(x) 1 e e itx = 1 + itx t2 x θ 2(x) t3 x 3 6, ode θ 2(x) 1. Seja ϵ > 0. Usado a primeira fórmula para x > ϵ e a seguda para x ϵ, podemos escrever e itx da seguite forma geral: ode Portato, e itx = 1 + itx t2 x r ϵ(x), { (1 + θ1 (x)) t2 x 2 se x > ϵ, r ϵ (x) = 2 θ 2 (x) t3 x 3 se x ϵ. 6

145 9.2. TEOREMAS E PROVAS 140 E(e it X k µ k s ) = +r ϵ ( x µ k + t2 2 t 3 6 s e it x µ k s df k (x) = (1 + it x µ k s t2 ( x µk s ) ))df k (x) = 1 + ite( X k µ k ) t2 s 2 E((X k µ k ) 2 ) + s (1 + θ 1 ( x µ k x µ k >ϵs s θ 2 ( x µ k x µ k ϵs s Como EX k = µ k e V ar(x k ) = σ 2 k, temos ode o resto e,k satisfaz e,k t 2 Temos etão, ))( x µ k s ) 2 df k (x) + )( x µ k ) 3 df k (x). s E(e it X k µ k s ) = 1 t2 σk 2 2s 2 ( x µ k ) 2 df k (x) + t3 x µ k >ϵs s 6 t2 (x µ s 2 k ) 2 df k (x) + ϵ t3 x µ k >ϵs 6s 2 k=1 e,k t2 s 2 k=1 + e,k, ϵ( x µ k x µ k ϵs s (x µ k ) 2 df k (x). x µ k >ϵs (x µ k ) 2 df k (x) + ϵ t3 6. ) 2 df k (x) Pela codição de Lideberg, a primeira parcela do termo à direita tede a zero quado. Logo, para suficietemete grade, e,k ϵ t 3 3. k=1 Vamos etão escolher uma seqüêcia de ϵ s que coverge para zero. Para ϵ = 1, existe m m tal que para m, e,k t3 3m, (9.1) k=1 ode os restos e,k são os determiados pela fórmula baseada em ϵ = 1. Portato, existe uma m seqüêcia de iteiros positivos 1 < 2 <... tal que (9.1) é satisfeita para m < m+1, ode para estes valores de os restos são baseados em ϵ = 1. É importate lembrar durate m o restate da prova que o valor de ϵ que determia o resto e,k depede da posição de em relação aos m. Temos, etão, e,k 0 quado. k=1

146 9.2. TEOREMAS E PROVAS 141 Como X i s são idepedetes, φ S ES (t) = s k=1 E(e it X k µ k s ) = (1 t2 σk 2 k=1 2s 2 + e,k ). Para provar que o termo à direita coverge para e t2 2, usaremos o seguite Lema sobre úmeros complexos. Lema 9.2.6: Sejam c,k úmeros complexos tais que k=1 c,k c quado. Se e max c,k 0 quado 1 k c,k M <, k=1 ode M é uma costate que ão depede de, etão (1 + c,k ) e c quado. k=1 Prova: Nós omitimos a prova deste lema que pode ser ecotrada o livro do Chug seção 7.1. Em osso caso, sejam c,k = t2 σ 2 k 2s 2 + e,k e c = t2. Temos que 2 c,k t2 2 + e,k t2 2, k=1 logo existe M < tal que, k=1 c,k < M. Para aplicar o lema resta verificar a codição sobre o máximo k=1 max c t 2 σk 2,k max 1 k 1 k 2s 2 + max e t 2 σk 2,k max 1 k 1 k 2 s 2 + max 1 k e,k Como já provamos que os dois termos acima tedem a zero, a prova está termiada. Exemplo 9.2.7: Seja {X : 1} uma sequêcia de variáveis i.i.d. com média 0 e variâcia 1. Também, seja {Y : 1} uma sequêcia de variáveis idepedetes com P (Y = ±) = e P (Y = 0) = 1 1 2, 1. Sedo X e Y idepedetes para 1, temos 1 k=1 (X k + Y k ) D N(0, 1), mas a codição de Lideberg ão está satisfeita.

147 9.2. TEOREMAS E PROVAS 142 Solução: Pelo TCL para variáveis i.i.d., temos que 1 k=1 X k D N(0, 1), vamos provar que 1 k=1 Y P k 0. Deste modo o resultado segue por Slutsky. Pela desigualdade de Markov, temos 1 P ( k=1 Y k > ϵ) E k=1 Y k ϵ k=1 E Y k ϵ = k=1 1/k ϵ 0, (ode o último limite pode ser visto pelo fato de que usado o teste da itegral para séries 1 pode-se provar que 1 log k=1 1/k 1). Logo, k=1 Y P k 0. Como V ar(x k + Y k ) = V ar(x k ) + V ar(y k ) = 2, temos que se a codição de Lideberg fosse satisfeita, teríamos 1 k=1 (X k + Y k ) D N(0, 2). Logo, a codição de Lideberg ão é satisfeita, caso cotrário teríamos uma cotradição. Corolário 9.2.8: Teorema Cetral do Limite de Liapuov. Sejam X 1, X 2,... variáveis aleatórias idepedetes tais que EX = µ e V arx = σ 2 < com pelo meos um σ 2 j > 0. Seja S = X X e s 2 = V ars. Se existir m > 0 tal que 1 s 2+m E( X k µ k 2+m ) 0 quado, k=1 etão, S ES s D N(0, 1). Prova: Para provar este teorema, é suficiete verificar que as codições do Teorema de Liapuov implicam as codições do Teorema de Lideberg. A codição de Lideberg estabelece uma itegral a região x µ k > ϵs, ϵ > 0. Nessa região, temos que x µ k ϵs > 1, o que por sua vez implica x µ k m > 1. Desse modo, temos que: ϵ m s m 1 (x µ s 2 k ) 2 df k (x) 1 (x µ k=1 x µ k >ϵs s 2 k ) k=1 x µk >ϵs 2 x µ k m df ϵ m s m k (x) 1 = x µ ϵ m s 2+m k 2+m 1 df k (x) x µ k=1 x µ k >ϵs ϵ m s 2+m k 2+m df k (x) k=1 1 = E X ϵ m s 2+m k µ k 2+m. k=1 Mas a codição de Liapuov implica que o último termo tede a zero quado. Portato, a codição de Lideberg está satisfeita. Ates de verficarmos um exemplo do Teorema Cetral do Limite de Liapuov, vamos cosiderar o seguite Lema.

148 9.2. TEOREMAS E PROVAS 143 Lema 9.2.9: Para λ > 0, 1 λ+1 k=1 k λ 1 λ + 1, quado, de maeira que k=1 kλ é da ordem de λ+1. Prova: Como x λ k λ se k 1 x k, e k λ x λ se k x k + 1, segue-se que k k 1 x λ dx k somado-se em k de 1 até, temos Logo, o que é eqüivalete a λ+1 λ k 1 k=1 k λ dx = k λ = x λ dx 1 λ λ+1 k λ k=1 k+1 k +1 k λ ( + 1)λ+1 1 λ + 1 k=1 1 k λ dx x λ dx. k+1 k ( + 1)λ+1, λ + 1 k λ 1 λ + 1 ( + 1 )λ+1. Como ( +1 )λ+1 1 quado, o lema está provado. x λ dx, Exemplo : Sejam X 1, X 2,..., idepedetes, X U[, ]. Prove que S ES s N(0, 1). Solução: Vamos verificar a codição de Liapuov para δ = 1. Temos D E X k µ k 3 = E X k 3 = 1 2k k k x 3 dx = 1 k k 0 x 3 dx = k3 4. Logo, o Lema aterior implica que k=1 E X k µ k 3 é da ordem de 4. Vamos determiar a ordem de s 3. Como µ k = EX k = 0 e σ 2 k = V ar(x k ) = EX 2 k = 1 2k s 2 = k=1 Portato, aplicado o resultado do Lema, temos: s k k k 2 3. x 2 dx = k2 3, temos

149 9.2. TEOREMAS E PROVAS 144 Etão, lim 1 s 3 = 9 3/2 k=1 E X k µ k 3 = lim ( 9/2 k=1 E X k µ k 3 1 s 3 4 ) 1/ lim 1 = 0. 1/2 Exemplo : Sejam X, 1, variáveis idepedetes com P (X = ±2 ) = 2 1 e P (X = ±1) = 1 2 (1 2 ), 1. Verifique que 1 i=1 X D i N(0, 1). Solução: Defia Y = X I [ X ]. Deste modo, P (Y = ±1) = 1(1 2 2 ) e P (Y = 0) = 2. Vamos verificar que Y satisfaz a codição de Liapuov para m = 1. Temos que EY = 0, V ar(y ) = EY 2 = (1 2 ), e E Y 3 = (1 2 ) = V ar(y ). Logo, s 2 = k=1 V ar(y k) = k=1 (1 2 k ) = 1 2 ( 1 2 )+1 1. Portato, 2 1 s 3 k=1 E Y k 3 = 1 s 3 V ar(y k ) = 1 = s k=1 O Teorema Cetral do Limite de Liapuov implica que, ( 1 2 ) ( 1 2 ) Y D k N(0, 1). k=1 Portato, Como 1 2 ( 1 2 ) ( 1 2 ) , temos que 1 Y D k N(0, 1). k=1 1 Y D k N(0, 1). k=1 Seja Z = X Y. Etão, 1 k=1 X k = 1 k=1 Y k + 1 Z k. k=1

150 9.3. TEOREMA CENTRAL DO LIMITE: CASO MULTIVARIADO 145 Se coseguirmos provar que 1 k=1 Z k P 0, etão o resultado segue por Slustky. Mas P (Z = ±2 ) = 2 1 e P (Z = 0) = 1 2. Como P ( Z > 1) = P ( Z k = 2 ) = 2, temos que P ( Z > 1 k ) = 2 <, k 1. =1 Portato, Z 0 cp1, ou seja, P ({w Ω : lim Z (w) = 0}) = 1. Como =1 lim Z (w) = 0 ϵ > 0, N tal que Z (w) < ϵ, N N tal que Z (w) < 1, N N tal que Z (w) = 0, N Z i (w) < i=1 1 lim Z i (w) = 0, i=1 temos que {w Ω : lim Z (w) = 0} {w Ω : lim 1 i=1 Z i(w) = 0}. Logo, 1 P ({w Ω : lim i=1 Z 1 i(w) = 0}) = 1, o que por sua vez implica que, k=1 Z P k Teorema Cetral do Limite: Caso Multivariado Cocluímos dizedo que o Teorema Cetral do Limite também pode ser estedido ao caso de vetores aleatórios. Neste caso, tem-se que a distribuição da média amostral cetrada coverge para uma distriuição ormal multivariada. A seguir, ós euciamos formalmete o teorema sem prová-lo. Teorema : Seja X 1, X 2,... uma seqüêcia de vetores aleatórios k-dimesioais, idepedetes e ideticamete distribuídos. Supoha que X 1 teha variâcia fiita, e sejam µ a média e Σ a matriz de covariâcia de X 1. Seja X a média amostral, defiida como a média aritmética dos vetores X 1,..., X. Etão, (X µ) D N( 0, Σ), quado. 9.4 Método Delta O método Delta é um resultado que aumeta sigificativamete a relevâcia do Teorema Cetral do Limite. Ates de euciarmos o teorema, vamos provar dois lemas. Dizemos que uma seqüêcia de variáveis aleatórias {Y } é limitada em probabilidade se para todo ϵ > 0, existir K e 0 tal que P ( Y K) > 1 ϵ para todo > 0.

151 9.4. MÉTODO DELTA 146 Lema 9.4.1: Se {Y } coverge em distribuição para uma variável aleatória com fução de distribuição H, etão a seqüêcia é limitada em probabilidade. Prova: Fixemos K 1 e K 2 potos de cotiuidade de H tal que H(K 1 ) > 1 ϵ/4 e H( K 2 ) < ϵ/4. Escolhamos 0 tal que, > 0, e Etão, H (K 1 ) > H(K 1 ) ϵ/4 > 1 ϵ/2 H ( K 2 ) < H( K 2 ) + ϵ/4 < ϵ/2. P ( K 2 Y K 1 ) H (K 1 ) H (K 2 ) > 1 ϵ. O resultado está provado se escolhermos K = max( K 1, K 2 ). Lema 9.4.2: Se {Y } é limitada em probabilidade e X = o(y ), etão X P 0. Prova: Dados quaisquer ϵ > 0 e δ > 0, precisamos mostrar que existe N tal que P ( X > ϵ) < δ para todo N. Como {Y } é limitada em probabilidade, existe K e 1 tal que P ( Y K) > 1 δ para todo 1. Como X = o(y ), sabemos que existe 2 tal que X Y < ϵ para todo K 2. Façamos N = max( 1, 2 ), etão para N, X > ϵ Y > K. Logo P ( X > ϵ) P ( Y > K) < δ. Teorema 9.4.3: Se (T θ) D N(0, τ 2 ), etão [f(t ) f(θ)] D N(0, τ 2 [f (θ)] 2 ), (9.2) desde que f (θ) exista e ão seja zero. Prova: Utilizaremos a versão da série de Taylor em toro de T = θ que diz que: f(t ) = f(θ) + (T θ)f (θ) + o(t θ), e etão [f(t ) f(θ)] = (T θ)f (θ) + o( (T θ)). O primeiro termo do lado direito coverge em distribuição para N(0, τ 2 [f (θ)] 2 ). Por outro lado, como (T θ) coverge em distribuição, pelo Lema 9.4.1, temos que (T θ) é limitada em probabilidade. Etão pelo Lema 9.4.2, o( (T θ)) coverge para zero em probabilidade. O resultado portato é uma coseqüêcia do Teorema de Slutsky. Este teorema pode parecer uma surpresa, já que se X é distribuído ormalmete, a distribuição de f(x), por exemplo, 1/X, log X, ou e X ão será tipicamete ormal. A explicação para este paradoxo aparete pode ser ecotrada a prova. Como o(t θ) P 0, ós estamos quase certos que quado for grade, T é aproximadamete liear, e uma fução liear de uma variável ormal é também ormal. O processo de aproximar a difereça f(t ) f(θ) pela fução liear (T θ)f (θ) e o limite em (9.2) é chamado de método delta.

152 9.4. MÉTODO DELTA 147 Exemplo 9.4.4: Para estimar p 2, supoha que temos a escolha etre (a) esaios biomiais com probabilidade p 2 de sucesso; ou (b) esaios biomiais com probabilidade p de sucesso. Sejam X e Y o úmero de sucessos o primeiro e segudo tipo de esaios, e supoha que como estimadores de p 2 os dois casos, ós usaríamos X/ e (Y/) 2, respectivamete. Etão ós temos: ( X p2 ) D N(0, p 2 (1 p 2 )) e (( Y )2 p 2 ) D N(0, p(1 p)4p 2 ). Etão, pelo meos para grade, X/ será mais acurado que (Y/) 2, desde que p 2 (1 p 2 ) < p(1 p)4p 2. Dividido ambos os lados por p 2 (1 p), podemos ver que X ou Y 2 2 é preferível se p > 1/3 ou p < 1/3, respectivamete. O método delta proporcioa a base para derivar trasformações que estabilizam a variâcia, ou seja, trasformações que levem a uma variâcia assitótica que é idepedete do parâmetro. Supoha, por exemplo, que X 1,..., X são variáveis Poisso com parâmetro λ. Segue do Teorema Cetral do Limite que (X λ) N(0, λ). Para problemas de iferêcia que se referem a λ, é quase sempre icoveiete que λ ocorre ão somete a esperaça mas também a variâcia da distribuição limite. É portato de iteresse achar uma fução f para a qual [f(t ) f(θ)] tede em distribuição para N(0, c 2 ), ode c 2 ão depede de λ. Em geral, supoha que (T θ) D N(0, τ 2 (θ)). Etão, pelo método delta: [f(x) f(λ)] D N(0, τ 2 (θ)(f ) 2 (θ)), desde que a derivada de f exista em θ e seja diferete de 0. A distribuição limite do lado direito terá portato variâcia costate c 2 se f (θ) = c. A trasformação resultate é τ(θ) dita ser estabilizadora de variâcia. Exemplo 9.4.5: Poisso. No caso de Poisso, temos θ = λ e τ(θ) = λ. Logo, f (λ) = c λ ou f(λ) = 2c λ. Fazedo c = 1, temos que 2 ( X λ) D N(0, 1).

153 9.4. MÉTODO DELTA 148 Exemplo 9.4.6: Chi-Quadrado. Seja Y i = Xi 2, ode as X i s são i.i.d. N(0, σ 2 ). Etão, EY i = σ 2 e V ary i = 2σ 4 e pelo Teorema Cetral do Limite, temos (Y σ 2 ) D N(0, 2σ 4 ), ou seja, T = Y, θ = σ 2, e τ 2 (θ) = 2θ 2. Logo, f (θ) = c 2θ ou f(θ) = c 2 log θ. Fazedo c = 1, vemos que 2 log( Y σ 2 ) D N(0, 1).

154 Referêcias Bibliográficas 1. James, B. (1981), Probabilidade: um curso em ível itermediário - Projeto Euclides 2. Magalhães, Marcos M. (2006), "Probabilidade e Variáveis Aleatórias", 2a. edição, edusp. 3. Lima, E. (1976), Curso de Aálise, vol.1 - Projeto Euclides 4. Resick, S. I., "A Probability Path", Birkhauser, Halper, Joseph Y. (2003), "Reasoig About Ucertaity", The MIT press. 6. Daveport Jr., W. (1970), "Probability ad Radom Processes", McGraw-Hill Book Compay Ic. 7. defietti, B. (1972), "Probability, Iductio, ad Statistics", New York: Willey. 8. Fie, T. (2006), Probability ad Probabilistic Reasoig for Electrical Egieerig, Pretice Hall. 149

Exibir mais