Introdução à Probabilidade e Estatística I População e Amostra Medidas resumo Prof. Alexandre G Patriota Sala: 298A Email: patriota@ime.usp.br Site: www.ime.usp.br/ patriota
Passos iniciais O primeiro passo em uma investigação científica é definir o alvo de interesse, ou seja, qual a população de interesse. Devemos criar um procedimento (experimento, questionário, etc) para acessar as características de interesse dessa população. A partir do procedimento (experimento), obtemos os dados observados que devem ser organizados em uma tabela de dados brutos (a seguir).
População A coleção de todos os possíveis elementos sob investigação é denominada de população ou universo. Em todos os problemas estatísticos devemos inicialmente definir qual a população alvo. Com ela, estarão relacionadas as quantidades de interesse. Pode-se definir que os habitantes do Brasil formam nossa população de interesse, neste caso o número de elementos da nossa população é de aproximadamente 190 milhões. Pode-se definir que os alunos desta disciplina formam nossa população de interesse, neste caso o número de elementos da nossa população é de 46 alunos.
Amostra É um subconjunto da população. A amostra é utilizada quando não temos acesso a população toda e serve como base para inferir sobre quantidades de interesse relacionadas à população. Se os habitantes do Brasil formam nossa população de interesse, uma possível amostra são os alunos desta disciplina. Se os alunos desta disciplina formam nossa população de interesse, uma possível amostra são os alunos das duas primeiras fileiras. 10 carros de uma determinada marca para fazer testes de sergurança.
Amostra representativa da População Uma amostra é representativa da população quando nela estão contidas idealmente todas as características e/ou propriedades da população alvo. Ou seja, uma amostra representativa deve ter um comportamento parecido com o da população. Caso contrário, diremos que a amostra é enviesada ou viciada. Os métodos estatísticos para a retirada de amostras representativas são estudados na disciplina de amostragem.
Diagrama esquemático
Conjunto de dados Um conjunto de dados é uma coleção de características de indivíduos de uma amostra ou população. Obtém-se um conjunto de dados através de questionários. Usualmente, um conjunto de dados (tabela bruta de dados) é organizado da seguinte forma: cada linha contém informações de apenas um indivíduo, linhas diferentes contém informações de indivíduos diferentes; cada coluna representa uma característica específica (idade, escolaridade, etc).
Questionário Exemplo As pessoas de uma amostra (ou população) devem responder o seguinte questonário. Nome: Estado civil: Grau de instrução: N o de filhos: Salário ( sal. mín.): Idade: (anos) (meses) Região de procedência:..
Tabela bruta de dados Fonte: Bussab, W.O. e Morettin, P.A. (2012). Estatística Básica.
Tipos de variáveis Há dois tipos de variáveis, a saber: variáveis quantitativas e qualitativas. Variáveis quantitativas (descrevem quantidades): podem ser discretas ou contínuas. Variáveis qualitativas (descrevem qualidades): podem ser ordinais ou nominais.
Diagrama Fonte: Bussab, W.O. e Morettin, P.A. (2012). Estatística Básica.
Variável ordinal É uma variável que descreve uma qualidade, porém existe uma ordem entre seus resultados. Por exemplo, o grau de instrução de um indivíduo pode assumir os seguintes resultados: analfabeto, ensino fundamental, ensino médio, superior.
Variável nominal É uma variável que descreve uma qualidade, porém não existe uma ordem entre seus resultados. Por exemplo, a cor dos cabelos é uma variável nominal, pois assume os resultados: ruívo, loiro, castanho e preto que não podem ser ordenados.
Variável contínua É uma variável que pode assumir qualquer valor real dentro de um intervalo é dita ser contínua. O nível de colesterol em miligramas por decilitro, por exemplo, varia entre [0, )mg/dl. Fixado dois pontos quaisquer 200mg/dl e 201mg/dl podemos encontrar teoricamente uma quantidade não-enumerável de valores entre esse intervalo. Ou seja, não existe uma relação biunívoca entre os possíveis valores da variável contínua e os números naturais.
Variável discreta É uma variável que pode assumir apenas um quantidade enumerável de valores. Por exemplo, idade (em anos) e número de filhos são variáveis quantitativas discretas. Ou seja, existe uma relação biunívoca entre o conjunto de possíveis valores da variável discreta e os números naturais.
Conjuntos de dados Forma genérica O conjunto de dados pode ser escrito de forma genérica, isso facilita o uso de ferramentas matemáticas na análise dos dados. Assuma que o tamanho da amostra é n e que observaremos variáveis X, Y e Z em cada indivíduo da amostra. A tabela bruta de dados pode ser escrita da seguinte forma: Ind. X Y Z... 1 x 1 y 1 z 1... 2 x 2 y 2 z 2.......... n 1 x n 1 y n 1 z n 1... n x n y n z n... Veja a Tabela bruta de dados do slide 9, encontre n e relacione as três primeiras variáveis das duas tabelas.
Medidas resumo para dados quantitativos As principais medidas que resumem os dados quantitativos são: Medidas de posição (localização): Média Mediana Moda Quartis (quantis) Medidas de dispersão (variabilidade): Variância Desvio-padrão Intervalo-interquartil Coeficiente de variação Cada medida pode ser calculada para dados brutos e dados agrupados.
Média para dados brutos A média amostral nos informa a localização nos dados na reta real. Considere o conjunto de dados brutos X = {x 1, x 2,..., x n }. A média amostral para este conjunto de dados é definida por x = 1 n n x i = 1 n (x 1 + x 2 +... + x n ) i=1 Calcule a média para os três conjunto de dados abaixo Ind. X Y Z 1 30 60 33 2 33 66 36 3 36 72 39 4 39 78 42 5 30 60 33
Propriedades da Média amostral Seja x a média do conjunto X = {x 1, x 2,..., x n }. Se y i = x i + b para todo i = 1,..., n, então ȳ = x + b; Se w i = ax i para todo i = 1,..., n, então w = a x Se z i = ax i + b para todo i = 1,..., n, então z = a x + b Prove os resultados acima.
Estatísticas de ordem Considere o conjunto X = {x 1, x 2,..., x n }. Ordene os dados e defina: x (1) x (2)... x (n) As quantidades x (1), x (2),..., x (n) são as estatísticas de ordem do conjunto de dados. Encontre as estatísticas de ordem para o conjunto: X = {3; 4; 6; 4; 5; 7}
Mediana A mediana também nos informa a localização nos dados na reta real. Considere o conjunto {x 1, x 2,..., x n }. A mediana é o ponto que divide o conjunto de dados ao meio, ou seja, é o ponto em que 50% das observações estão abaixo e 50% estão acima. Definimos a mediana da seguinte forma: md(x ) = x ( n+1 2 ), se n for ímpar, se n for par ( ) 1 2 x ( n 2) + x ( n +1) 2 Encontre a média e a mediana para os conjuntos de dados: {3; 4; 6; 4; 5; 7} e {3; 4; 6; 4; 5; 70}.
Variância A variância amostral nos informa qual a distância média dos dados observados em relação à média. Ou seja, é uma medida de dispersão dos dados. Considere o conjunto de dados brutos X = {x 1, x 2,..., x n }. A variância amostral para este conjunto de dados é definida por Var(X ) = 1 n n (x i x) 2. i=1 Calcule a variância para os quatro conjunto de dados abaixo Ind. X Y Z 1 30 60 33 2 33 66 36 3 36 72 39 4 39 78 42 5 30 60 33
Variância - Propriedades Seja Var(X ) a variância amostral do conjunto X = {x 1, x 2,..., x n }. Se y i = x i + b para todo i = 1,..., n, então Var(Y ) = Var(X ); Se w i = ax i para todo i = 1,..., n, então Var(W ) = a 2 Var(X ) Se z i = ax i + b para todo i = 1,..., n, então Var(Z) = a 2 Var(X ) Prove os resultados acima e compare com os resultados do slide anterior. Mostre que Var(X ) = n i=1 x 2 i n x2.
Desvio-Padrão Note que a variância modifica a unidade dos dados. Se os dados foram medidos em centímetros a variância está em centímetros quadrados. Uma medida de variabilidade que tenha a mesma unidade dos dados é o desvio-padrão que é definido pela raíz quadrada da variância: DP(X ) = Var(X ) e tem a mesma unidade de medida que os dados originais. Mostre as propriedades do desvio-padrão.
Coeficiente de variação O coeficiente de variação é medida de dispersão relativa e é definido quando a média é diferente de zero. Sua definição é dada abaixo: se x 0 CV (X ) = DP(X ) x Observe que o coeficiente de variação é adimensional. Dessa forma podemos comparar duas medidas que tenham unidades diferentes. Calcule a variância e o coeficiente de variação para os dois conjuntos de dados {101; 102; 103; 104; 105; 106; 107; 108; 109; 110} e {1; 2; 3; 4; 5; 6; 7; 8; 9; 10}
Primeiro modelo estatístico O modelo estatístico tem a seguinte fórmula DADOS = MODELO + RESÍDUO. Seja X = {x 1, x 2,..., x n } o conjunto de dados de interesse. Note que sempre é possível escrever DADOS MODELO }{{}}{{} x i = com e i = x i x. x + RESÍDUO }{{} e i para i = 1, 2,..., n Seja E = {e 1, e 2,..., e n } o conjunto de dados dos resíduos. Mostre que ē = 0 e VAR(E) = VAR(X ).
Primeiro modelo estatístico Continuação Ou seja, pode-se utilizar a média amostral para explicar o comportamento médio dos dados. o erro do modelo está relacionado com a variância dos dados. quanto menor o erro em valor absoluto, melhor será a explicação da média amostral
Média ponderada Seja X = {x 1, x 2,..., x n } o conjunto de dados de interesse. Em alguns casos é importante dar pesos diferentes para cada observação. Sejam a 1,..., a n os pesos positivos para as observações x 1,..., x n, respectivamente, então a média ponderada é definida por: em que x p = 1 A A = n a i x i i=1 n i=1 Exemplo: seja {8,5,2} o conjunto de notas na P1, P2 e P3 (provas), respectivamente. Se a P1 tem peso 1, a P2 tem peso 2 e a P3 tem peso 4, calcule a média ponderada das provas. a i
Próximos tópicos Tabelas de frequências Gráficos de barras, histogramas, ramo-e-folhas Medidas resumo para tabela de frequências