Introdução à probabilidade e à estatística II Revisão Prof. Alexandre G Patriota Sala: 298A Email: patriota@ime.usp.br Site: www.ime.usp.br/ patriota
Estatística Estatística: É uma ciência que se dedica à coleta, organização, análise e interpretação de dados. É um conjunto de técnicas e procedimentos que auxilia a compreender/descrever/inferir quantidades de interesse que a priori são desconhecidas. Estatística descritiva: Consiste em apresentar, descrever e resumir os dados obtidos (seja de uma amostra ou população). Geralmente é a primeira etapa da análise de dados e permite tirar algumas conclusões iniciais. Probabilidade: A teoria das probabilidades auxilia na modelagem de fenômenos aleatórios, ou seja, aqueles em que está presente a incerteza. Estatística indutiva: Consiste na extrapolação para a população dos resultados obtidos em uma amostra.
Exemplos Analisar a toxicidade de um extrato vegetal em larvas do mosquitos da dengue; Verificar se um remédio é mais eficaz que outro disponível no mercado; Verificar quais fatores de risco (fumar, obesidade, colesterol alto, etc) estão relacionados com problemas cardiovasculares; Calcular a probabilidade de um indivíduo pagar um empréstimo; Prever lucros e despesas de uma empresa; Prever o tempo de sobrevida de doentes terminais ou de materiais;
População e Amostra População: A coleção de todos os possíveis elementos sob investigação é denominada de população ou universo. Em todos os problemas estatísticos devemos inicialmente definir qual a população alvo. Com ela, estarão relacionadas as quantidades de interesse. Amostra: É um subconjunto da população. A amostra é utilizada quando não temos acesso a população toda e serve como base para inferir sobre quantidades de interesse relacionadas à população.
Amostra representativa da População Uma amostra é representativa da população quando nela estão contidas idealmente todas as características e/ou propriedades da população alvo. Ou seja, uma amostra representativa deve ter um comportamento parecido com o da população. Caso contrário, diremos que a amostra é enviesada ou viciada. Os métodos estatísticos para a retirada de amostras representativas são estudados na disciplina de amostragem.
Tipos de variáveis Há dois tipos de variáveis, a saber: variáveis quantitativas e qualitativas. Variáveis quantitativas descrevem quantidades (discretas e contínuas) Variáveis qualitativas descrevem qualidades (ordinais e nominais).
Diagrama Fonte: Bussab, W.O. e Morettin, P.A. (2012). Estatística Básica.
Variáveis aleatórias Variáveis aleatórias são funções reais dos elementos do espaço amostral Ω podendo ser Discretas (o suporte é enumerável): número de filhos, número de falhas ocorridas, etc. Contínuas (o suporte é não-enumerável): peso, tempo de vida, lucro, etc.
A variável aleatória X poderia ser o número de crianças do sexo masculino em famílias com dois filhos. Variáveis aleatórias Discretas Exemplo 1: Seja X a variável aleatória que assume os valores 0, 1, 2 com função de probabilidades P tal que P(X = 0) = P(X = 1) = P(X = 2) = 1 3. Exemplo 2: Seja X a variável aleatória que assume os valores 0, 1, 2 com função de probabilidades P tal que P(X = 0) = p 0, P(X = 1) = p 1, P(X = 2) = p 2. Note que as condições necessárias para que P seja uma função de probabilidades são p 0 + p 1 + p 2 = 1 e 0 < p i < 1
Variáveis aleatórias Discretas Exemplo 3: Seja X a variável aleatória que assume os valores x 0, x 1, x 2,..., x k com função de distribuição de probabilidades P tal que P(X = x i ) = p i, i = 0, 1, 2,..., k com k p i = 1 e 0 < p i < 1 i=0 Exemplo 4: Seja X a variável aleatória que assume os valores x 0, x 1, x 2,... com função de distribuição de probabilidades P tal que P(X = x i ) = p i, i = 0, 1, 2,... com p i = 1 e 0 < p i < 1 i 0
Apresentação da função de probabilidades Uma forma simples de apresentação da função de probabilidades de uma variável discreta X é dada abaixo X x 0 x 1... x k P(X = x) p 0 p 1... p k X P(X = x) x 0 p 0 x 1 p 1. x k Notem a semelhança com tabelas de frequências. Quais são as diferenças?. p k
Lançamentos de dados Suponha o seguinte experimento: lançar um dado de 10 faces. Defina a variável aleatória X como sendo o valor numérico da face voltada para cima. Note que não conhecemos o valor antes de executar o experimento. Neste caso podemos postular um modelo probabiĺıstico para os possíveis valores observados. X 1 2 3 4 5 6 7 8 9 10 P(X = x) 1 10 1 10 1 10 1 10 A fim de verificar o modelo postulado poderemos executar o experimento N vezes e criar uma tabela de frequências observadas. Pode-se medir a distância entre o modelo postulado e os dados observados. 1 10 1 10 1 10 1 10 1 10 1 10
Valor esperado e variância de uma v.a. discreta Seja X uma variável aleatória cujo suporte é dado por S X = {x 1, x 2,..., x k } tal que P(X = x i ) = p i, i = 1, 2,..., k A esperança matemática de X é dada por E(X ) = x 1 p 1 + x 2 p 2 +... + x k p k = k x i p i i=1 A variância de X é definida por Var(X ) = [x 1 E(X )] 2 p 1 + [x 2 E(X )] 2 p 2 +... + [x k E(X )] 2 p k k = [x i E(X )] 2 p i i=1 O desvio-padrão DP(X ) é dado pela raiz quadrada da variância.
Função de distribuição acumulada Seja X uma variável aleatória discreta que assume os valores x 1, x 2,..., x k com P(X = x i ) = p i, i = 1, 2,..., k A função de distribuição acumulada é definida por F (t) = P(X t), t R
Principais distribuições discretas Fonte: Bussab, W.O. e Morettin, P.A. (2012). Estatística Básica.
Variáveis aleatórias Contínuas O conjunto de valores possíveis de uma variável aleatória contínua não pode ser enumerável. As probabilidades devem ser calculadas usando o operador integral em vez do operador soma. A função densidade de probabilidades representa o histograma teórico e descreve como os dados teóricos se distribuem por meio de uma curva de densidade. A função densidade de probabilidades f deve ser contínua e não negativa f (x) 0 para todo x R. Além disso, a integral sobre os reais deve ser igual a 1, ou seja, f (x)dx = 1.
Variáveis aleatórias Contínuas: Exemplos Exemplo 1: Seja X uma v.a. contínua com função densidade de probabilidades f (x) = { 1 b a, se x (a, b) 0, caso contrário Exemplo 2: Seja X uma v.a. contínua com função densidade de probabilidades { 3x f (x) = 2, se x (0, 1) 0, caso contrário
Variáveis aleatórias Contínuas Exemplo 3: Seja X uma v.a. contínua com função densidade de probabilidades f (x) = { 1 β exp( x/β), se x > 0 0, caso contrário Exemplo 4: Seja X uma v.a. contínua com função densidade de probabilidades f (x) = 1 ( σ 2π exp 1 ) (x µ)2 2σ2 Lembre-se da função gama: Γ(k) = 0 x k 1 exp( x)dx e suas propriedades: 1. Γ(k + 1) = kγ(k); 2. para k inteiro, Γ(k + 1) = k!; 3. Γ(1/2) = π.
Valor esperado e variância de uma v.a. contínua Seja X uma variável aleatória contínua com função densidade f. A esperança matemática de X é dada por E(X ) = se existir. A variância de X é definida por Var(X ) = se existir. xf (x)dx, [x E(X )] 2 f (x)dx, O desvio-padrão DP(X ) é dado pela raiz quadrada da variância.
Função de distribuição acumulada A função de distribuição acumulada de uma variável aleatória contínua X com função densidade de probabilidades f é definida por F (t) = P(X t) = t f (x)dx, t R.
Quantis O p-quantil é o valor que divide a densidade de dados em duas regiões onde a primeira (a região à esquerda) tem área p e a segunda (a região à direita) tem área 1 p. Ou seja, o p-quantil é o valor q p tal que p = F (q p )
Principais Distribuições Principais distribuições contínuas: Uniforme Exponencial Normal, t-student, χ 2 (Qui-quadrado), F de Snedecor.
Pacotes Estatísticos Alguns pacotes estatísticos: MINITAB, SAS, SPLUS, SPSS, MATLAB, Maple, R. Neste curso, sempre que necessário, eu utilizarei o R que pode ser obtido gratuitamente no endereço: http://cran.r-project.org