Vetores Aleatórios, correlação e conjuntas Cláudio Tadeu Cristino 1 1 Universidade Federal Rural de Pernambuco, Recife, Brasil Segundo Semestre, 2013 C.T.Cristino (DEINFO-UFRPE) Vetores Aleatórios 2013.2 1 / 20
Variáveis bidimensionais Vetores aleatórios Nesta parte do curso, estaremos interessados em estudar duas ou mais variáveis aleatórias que ocorrem concomitantemente num mesmo espaço de probabilidade. Estas variáveis, geralmente, são originadas do mesmo experimento que possui como resultado múltiplos valores. Exemplo No cultivo de frutas algumas medidas são levadas em consideração, p.ex., X, o peso do fruto, Y, o diâmetro do fruto e W, se o fruto está maduro ou não (observe que todas estas variáveis são de interesse primordial para a comercialização dessa mercadoria). O peso, p.ex. denotada por X, varia entre 0 e 2 kg. O diâmetro do fruto pode variar de 0 a 15 cm. Estar ou não maduro está associado à variável W que é 0 se o fruto está verde, ou 1 se está maduro. C.T.Cristino (DEINFO-UFRPE) Vetores Aleatórios 2013.2 2 / 20
Variáveis bidimensionais Exemplo (Cont.) Note que X, Y e W sendo medidas de um mesmo fruto, poderiam estar correlacionadas de alguma forma: frutos maduros tendem a ter um maior diâmetro, e frutos com maior diâmetro tendem a ser mais pesados, etc. Estas variáveis de controle de qualidade da produção devem (e podem) ser controladas e o estabelecimento de um modelo que descreva o comportamento de tais grandezas pode representar maximização de lucro. C.T.Cristino (DEINFO-UFRPE) Vetores Aleatórios 2013.2 3 / 20
Variáveis bidimensionais Função de probabilidade conjunta A fim de simplificarmos as contas e observações trabalharemos com um vetor aleatório com duas entradas X = (X 1,X 2 ), em que X 1 e X 2 são variáveis aleatórias como antes. Definição Sejam X e Y duas variáveis aleatórias discretas originadas do mesmo fenômeno aleatório, com valores atribuídos do mesmo espaço amostral. A função de probabilidade conjunta é definida para todos os possíveis pares de valores (X,Y), da seguinte forma: p(x,y) = P [ (X = x) (Y = y) ] = P(X = x,y = y), (1.1) ou seja, p(x,y) representa a probabilidade de (X,Y) ser igual a (x,y). l C.T.Cristino (DEINFO-UFRPE) Vetores Aleatórios 2013.2 4 / 20
Variáveis bidimensionais Probabilidades marginais Da função de probabilidade conjunta p(x, y) é possível obter as funções de probabilidade marginal de X ou de Y, através da soma de uma das coordenadas P(X = x) = p(x, y) (1.2) y e P(Y = y) = x p(x, y) (1.3) C.T.Cristino (DEINFO-UFRPE) Vetores Aleatórios 2013.2 5 / 20
Variáveis bidimensionais Exemplo Um região foi subdividida em 10 subregiões. Em cada uma delas foram observadas duas variáveis: número de poços artesianos (X) e número de riachos ou rios presentes na região (Y). Os resultados são apresentados a seguir: Subregião 1 2 3 4 5 6 7 8 9 10 X 0 0 0 0 1 2 1 2 2 0 Y 1 2 1 0 1 0 0 1 2 2 C.T.Cristino (DEINFO-UFRPE) Vetores Aleatórios 2013.2 6 / 20
Variáveis bidimensionais Exemplo -Cont. Considerando que escolhemos uma das subregiões ao acaso, isto é, cada subregião têm amesmaprobabilidade1/10 deserescolhida, podemos construir a distribuição conjunta de (X,Y), dada pela tabela ao lado: (X, Y) probab. (0,0) 1/10 (0,1) 2/10 (0,2) 2/10 (1,0) 1/10 (1,1) 1/10 (2,0) 1/10 (2,1) 1/10 (2,2) 1/10 total 1 C.T.Cristino (DEINFO-UFRPE) Vetores Aleatórios 2013.2 7 / 20
Variáveis bidimensionais Exemplo -Cont. Note que pares idênticos foram agrupados e somamos as respectivas probabilidades. Uma forma equivalente de apresentar a distribuição conjunta, porém com maior apelo visual, é através da tabela de dupla entrada: Y 0 1 2 0 1/10 2/10 2/10 X 1 1/10 1/10 0 2 1/10 1/10 1/10 C.T.Cristino (DEINFO-UFRPE) Vetores Aleatórios 2013.2 8 / 20
Variáveis bidimensionais Exemplo -Cont. As distribuições marginais também podem aparecer na tabela, bastando efetuar a soma nas linhas para obter a marginal de X e, nas colunas, para a marginal de Y. Por exemplo, para calcular a probabilidade de X ser igual a zero, temos: P(X = 0) = P [ (X = 0,Y = 0) ou (X = 0,Y = 1) ou (X = 0,Y = 2) ] = P(X = 0,Y = 0)+P(X = 0,Y = 1)+P [ (X = 0,Y = 2) = 1 10 + 2 10 + 2 10 = 5 10 = 50%. Fazendo para os outros casos, temos: Y 0 1 2 P(X = x) 0 1/10 2/10 2/10 5/10 X 1 1/10 1/10 0 2/10 2 1/10 1/10 1/10 3/10 P(Y = y) 3/10 4/10 3/10 1 C.T.Cristino (DEINFO-UFRPE) Vetores Aleatórios 2013.2 9 / 20
Associação de variáveis Uma importante questão entre os pesquisadores de um modo geral é sobre a associação de uma ou mais variáveis. Buscar explicar como se comporta uma variável em função do desempenho de outras têm sido o objetivo de vários estudos que utilizam a Estatística como ferramenta auxiliar. Com dados de duas variáveis, em uma população ou amostra, podemos construir um gráfico no plano cartesiano com a frequência de ocorrência dos diversos pares de valores. Esse diagrama pode auxiliar a identificação de tendências de associação entre as variáveis, conforme veremos no próximo exemplo. C.T.Cristino (DEINFO-UFRPE) Vetores Aleatórios 2013.2 10 / 20
Associação de variáveis R$/60 kg 53 48 43 38 33 28 Mai 2010 Soja Jun Jul Ago Set Out Nov Dez Jan 2011 São Paulo (preços pagos ao produtor) Fev Mar Abr Mai Chicago (Bolsa) R$/60 kg 30 27 24 21 18 15 12 Mai 2010 Milho Jun Jul Ago Set Out Nov Dez Jan 2011 São Paulo (preços pagos ao produtor), Fev Mar Abr Mai Chicago (Bolsa) C.T.Cristino (DEINFO-UFRPE) Vetores Aleatórios 2013.2 11 / 20
Associação de variáveis 30 Milho Soja 25 20 15 10 5 0 0 10 20 30 40 50 C.T.Cristino (DEINFO-UFRPE) Vetores Aleatórios 2013.2 12 / 20
Probabilidade Condicional entre va s Definição Dada duas variáveis aleatórias discretas definidas no mesmo espaço amostral, a probabilidade condicional de X = x dado que Y = y ocorreu, é dada pela expressão: P(X = x Y = y) = P(X = x,y = y), desde que P(Y = y) > 0. P(Y = y) Caso P(Y = y) = 0 a probabilidade condicional pode ser definida arbitrariamente e adotamos P(X = x Y = y) = P(X = x). C.T.Cristino (DEINFO-UFRPE) Vetores Aleatórios 2013.2 13 / 20
Independências entre va s Definição Duas variáveis aleatórias discretas são independentes se a ocorrência de qualquer valor de uma delas não altera a probabilidade de ocorrência de valores da outra, Em termos matemáticos: X e Y independentes P(X = x Y = y) = P(X = x), para todos os possíveis valores (x,y) das variáveis aleatórias (X,Y). Como definição alternativa e equivalente, podemos usar que X e Y são independentes se, e só se: P(X = x,y = y) = P(X = x) P(Y = y), para todos (x,y). Obs.: Se existe pelo menos um para (x 0,y 0 ) para o qual então X e Y são dependentes. p(x 0,y 0 ) p(x 0 )q(y 0 ), C.T.Cristino (DEINFO-UFRPE) Vetores Aleatórios 2013.2 14 / 20
em que x obs e y obs são as médias das respectivas observações de X e de C.T.Cristino (DEINFO-UFRPE) Vetores Aleatórios 2013.2 15 / 20 Coeficiente de correlação para dados observados Definição Considere um conjunto de dados com n pares de valores para as variáveis aleatórias X e Y, representadas por (x i,y i ), i = 1,...,n. O coeficiente de correlação mede a dependência linear entre as variáveis e é calculado da seguinte forma: r X,Y = n i=1 (x i x obs )(y i y obs ) [ n ][ j=1 (x n ] j x obs ) 2 j=1 (y j y obs ) 2 ou de forma equivalente: r X,Y = n i=1 x iy i nx obs y obs [ n n ] j=1 x2 j obs][, nx2 j=1 y2 j y2 obs
Coeficiente de correlação para dados observados São propriedades do coeficiente de correlação: 1 r X,Y 1, para todo par (X,Y). r X,Y mede o grau de dependência (ou correlação) linear. Quanto mais próximo de -1 ou +1, maior será a relação linear entre estas variáveis. r X,Y 1 indica que quando X cresce, Y decresce (na mesma proporção). r X,Y +1 indica que quando X cresce, Y também cresce (na mesma proporção). C.T.Cristino (DEINFO-UFRPE) Vetores Aleatórios 2013.2 16 / 20
Correlação e dispersão para dados observados Observe os seguintes gráficos de dispersão: Y Y Y (a) X Y (b) X (c) X (d) X C.T.Cristino (DEINFO-UFRPE) Vetores Aleatórios 2013.2 17 / 20
Alguns resultados Teorema Para variáveis aleatórias X e Y, vale em todos os casos E(X +Y) = E(X)+E(Y). Teorema Se as variáveis aleatórias X e Y são independentes então E(X Y) = E(X) E(Y). Obs.: E(X Y) = E(X) E(Y) X e Y independentes. C.T.Cristino (DEINFO-UFRPE) Vetores Aleatórios 2013.2 18 / 20
Correlação entre va s Definição Uma medida de dependência linear entre X e Y é dada pela covariância: Cov(X,Y) = σ X,Y = E [ (X E(X))(Y E(Y)) ] = E(X Y) E(X) E(Y). Definição O coeficiente de correlação entre as variáveis aleatórias discretas X e Y é calculado pela seguinte expressão: Proposição ρ X,Y = Cov(X,Y) Var(X) Var(Y) = σ X,Y σ X σ Y, ρ X,Y 1. Var(X ±Y) = Var(X)+Var(Y)±2Cov(X,Y). C.T.Cristino (DEINFO-UFRPE) Vetores Aleatórios 2013.2 19 / 20
E as variáveis aleatórias contínuas? Uma observação: as definições dadas anteriormente para variáveis aleatórias discretas também são válidas para variáveis aleatórias contínuas. A diferença está nos cálculos: a invés de usarmos a função de probabilidade conjunta usamos a função de densidade conjunta, f X,Y, e as probabilidade são calculadas como: P(X x,y y) = F X,Y (x,y) = x y f X,Y (u,v)dvdu. (Na integral trocamos as variáveis x e y por u e v para não causar confusões). C.T.Cristino (DEINFO-UFRPE) Vetores Aleatórios 2013.2 20 / 20