Inferência Estatística: Conceitos Básicos I Introdução, Medidas de Tendência Central, Medidas de Variabilidade, Distribuições de Frequência e Probabilidade Flávia F. Feitosa BH1350 Métodos e Técnicas de Análise da Informação para o Planejamento Junho de 2015
Populações & Amostras Como pesquisadores, estamos interessados em investigar questões que se apliquem a toda uma população de pessoas ou coisas. ² A população pode ser geral (todos os seres humanos) ou pequena (todos os edifícios de São Caetano com mais de 15 andares) ² Raramente temos acesso aos dados de toda a população, mas apenas de um subconjunto à uma amostra, que utilizamos para inferir coisas sobre toda a população
Inferência Esta8s9ca Método científico para tirar conclusões sobre os parâmetros da população a partir da coleta, tratamento e análise dos dados de uma amostra recolhida dessa população.
Média como um modelo esta8s9co Média do número de habitantes por domicílio Nos ajuda a representar simplificadamente (modelar) este aspecto particular da realidade Digamos que eu tenha uma amostra de 5 domicílios, cada qual com os seguintes números de habitantes: 1 2 3 3 4 Em média temos 2,6 habitantes por domicílio
Média como um modelo esta8s9co Média do número de habitantes por domicílio Em média temos 2,6 habitantes por domicílio (considerando nossa amostra) Mas é impossível ter 2,6 habitantes em um domicílio!!! A média é um valor hipotético, um MODELO criado para resumir nossos dados
Média como um modelo esta8s9co Uma maneira útil de descrever um grupo como um todo: Qual é a renda média das famílias residentes na Mooca? Qual é a altura média dos edifícios em São Caetano? Qual é o PIB médio dos municípios localizados no arco do desmatamento?
Inferência Esta8s9ca se resumindo a uma equação Saída i = (Modelo i ) + erro i Ou seja, os dados que observamos podem ser previstos pelo modelo que escolhemos para ajustar os dados mais um erro
Domicílio Este modelo é preciso? O quão diferente nossos dados reais são do modelo criado? Nr. de habitantes Desvios (erro do modelo) Média (2,6)
Usando os desvios para es9mar a precisão do modelo Erro total = soma dos desvios Nr. de habitantes Zero??? Domicílio Para evitar o problema do erro direcionado (ou seja, positivo ou negativo), elevamos cada erro ao quadrado
Usando os desvios para es9mar a precisão do modelo Soma dos erros ao quadrado (SS) Nr. de habitantes Boa medida de acurácia do nosso modelo! Domicílio Só que quanto mais dados, maior a SS.
Variância Uma opção: Dividir SS pelo número de observações (N) à média do quadrado do erro para a amostra Essa medida é conhecida como VARIÂNCIA média do quadrado dos desvios No entanto, como geralmente queremos usar o erro na amostra para estimar o erro na população, dividiremos o SS pelo nr. de observações menos 1 (graus de liberdade). Assim, aumentamos ligeramente a variância amostral para produzir estimativas não tendenciosas (mais precisas) da variância populacional Estimativa da variância da população usando n amostras aleatórias x i onde i = 1, 2,..., n.
Variância Um problema com o uso da variância como medida de erro: Ela é expressa em unidades quadradas (colocamos cada erro ao quadrado no cálculo) No caso do exemplo, diríamos que o quadrado da média do erro do nosso modelo foi de 1,3 habitantes. Estimativa da variância da população usando n amostras aleatórias x i onde i = 1, 2,..., n. [Alteramos nossa unidade de medida!] Uma alternativa: Tirar a raiz quadrada da variância à DESVIO PADRÃO
Desvio Padrão É simplesmente a raiz quadrada da variância! O desvio padrão (s) é uma medida de quão bem a média representa os dados! à Média dos desvios a contar da média Revela a dispersão dos dados em relação à média. s pequeno: observações estão próximas da média s grande: observações estão distantes da média s = 0 : O que significa? Que todos os escores são os mesmos!
Médias iguais, mas desvios padrão diferentes Nr. de habitantes Nr. de habitantes Domicílio Média com boa aderência aos dados Domicílio Média com pobre aderência aos dados
Distribuições de Frequências HISTOGRAMA: Gráfico com os valores observados no eixo horizontal, com barras mostrando quantas vezes cada valor ocorreu no conjunto de dados Moda Escore que ocorre mais frequentemente no conjunto de dados Útil para avaliar as propriedades de um conjunto de valores
Curva Normal Maioria dos escores está em torno do centro da distribuição. A medida que nos distanciamos do centro (média), a frequência dos escores diminui.
Propriedades das Distribuições de Frequências Uma distribuição pode se desviar de uma normal de 2 maneiras principais: (1) Falta de simetria ASSIMETRIA Positivamente Assimétrica Negativamente Assimétrica (2) Achatamento DESVIO PADRÃO MENOR DESVIO PADRÃO MAIOR CURTOSE Leptocúrtica Platicúrtica
Medidas de Tendência Central Medidas utilizadas para representar um conjunto de valores MODA (Mo): Valor mais frequente em uma distribuição MEDIANA (Me): Medida que separa a distribuição em duas partes iguais MÉDIA (X): Soma de um conjunto de escores dividida pelo número total de escores no conjunto
Curva Normal Simétrica. Média, mediana e moda coincidem! Nem leptocúrtica, nem platicúrtica à Mesocúrtica Do pico central, a curva cai gradualmente em ambas as extremidades, chegando cada vez mais perto da reta básica, sem nunca tocá- la É um modelo teórico ou ideal que foi obtido por meio de uma equação matemática e não de pesquisa e coleta de dados Entretanto, é útil para situação reais de pesquisa pois a distribuição de muitos fenômenos de interesse de pesquisa assume a forma da curva normal
Distribuições de Probabilidade Distribuições de frequência podem ser usadas para obter uma ideia aproximada da probabilidade de um escore ocorrer. Exemplo Aula Anterior: Considerando que a distribuição do número de residentes por domicílio possui a forma de uma distribuição normal, qual seria a probabilidade de termos, nos dados, um domicílio com 4 habitantes ou menos? PROBABILIDADE: NOÇÃO IMPORTANTE PARA A TOMADA DE DECISÃO!!!
Distribuições de Probabilidade Distribuições de frequência podem ser usadas para obter uma ideia aproximada da probabilidade de um escore ocorrer. Exemplo Aula Anterior: Considerando que a distribuição do número de residentes por domicílio possui a forma de uma distribuição normal, qual seria a probabilidade de termos, nos dados, um domicílio com 4 habitantes ou menos? ² Para facilitar nosso trabalho, estatísticos elaboraram uma forma matemática que especifica versões idealizadas das distribuições: DISTRIBUIÇÕES DE PROBABILIDADE
Distribuições de Probabilidade A distribuição de probabilidades associa uma probabilidade a cada resultado numérico de um experimento, ou seja, dá a probabilidade de cada valor de uma variável aleatória. É análoga a uma distribuição de frequência, exceto por ser baseada em teoria ao invés de dados empíricos (observações do mundo real) As probabilidades representam a chance de cada escore ocorrer, diretamente análoga às porcentagens em uma distribuição de frequência.
A curva normal como uma distribuição de probabilidade ² A curva normal é um ideal teórico. ² No entanto, existem muitas distribuições de dados reais que se aproximam da forma da curva normal É sempre importante checar!!!! Construir um histograma é um bom começo! Algumas variáveis nas ciências sociais, não se enquadram (renda e distribuição etária, por exemplo)
A curva normal como uma distribuição de probabilidade
A curva normal como uma distribuição de probabilidade Exemplo Aula Anterior: Residentes por Domicílio Média = 2,6; s = 1,14 1,46 2,6 3,74
Voltando a nossa pergunta: Considerando que a distribuição do número de residentes por domicílio possui a forma de uma distribuição normal, qual seria a probabilidade de termos, nos dados, um domicílio com 4 habitantes ou menos? Residentes por Domicílio Média = 2,6; s = 1,14 1,46 2,6 3,74 4
Distribuição Normal Padrão ² Já calcularam a probabilidade de certos escores ocorrerem numa distribuição normal com Média = 0 & Desvio padrão = 1 DISTRIBUIÇÃO NORMAL PADRÃO
Distribuição Normal Padrão MAS a distribuição dos meus dados não apresenta média = zero e desvio padrão = 1! E aí???? QUALQUER CONJUNTO DE DADOS PODE SER CONVERTIDO EM UM CONJUNTO QUE TENHA MÉDIA ZERO E DESVIO PADRÃO 1! OBA!!!! Como fazer: (1) Para centrar dados em zero, pegamos cada escore e subtraímos dele a média de todos os escores. (2) Dividimos o escore resultante pelo desvio padrão para assegurar os os resultados terão DP = 1 escores- z
Distribuição Normal Padrão Voltando a nossa pergunta: Considerando que a distribuição do número de residentes por domicílio possui a forma de uma distribuição normal, qual seria a probabilidade de termos, nos dados, um domicílio com 4 habitantes ou menos? Considerando que a distribuição dos dados possa ser descrita como uma distribuição normal, com média = 2,6 e desvio padrão = 1,14 Primeiro Passo: Converter o valor 4 em um escore- z à (4-2,6)/1,14 = 1,23 escores- z
Distribuição Normal Padrão 1,23
Distribuição Normal Padrão Voltando a nossa pergunta: Considerando que a distribuição do número de residentes por domicílio possui a forma de uma distribuição normal, qual seria a probabilidade de termos, nos dados, um domicílio com 4 habitantes ou menos? Considerando que a distribuição dos dados possa ser descrita como uma distribuição normal, com média = 2,6 e desvio padrão = 1,14 Primeiro Passo: Converter o valor 4 em um escore- z à (4-2,6)/1,14 = 1,23 escores- z Segundo Passo: Verificar tabela
z = 1,23 A probabilidade de termos um domicílio com até 4 habitantes é de 0,8907 (89,07%) Complementarmente, a probabilidade de termos um domicílio com mais de 4 habitantes é de 0,1093
Alguns z- escores são pontos de corte que destacam pontos importantes da distribuição. z = 1,96 z = - 1,96 Separa os 2,5% do topo/ cauda inferior da distribuição. Ou seja, 95% dos escores estão entre - 1,96 e 1,96
Alguns z- escores são pontos de corte que destacam pontos importantes da distribuição. z = - 2,58 z = +2,58 99% dos escores estão entre - 2,58 e 2,58 z = - 3,29 z = +3,29 99,9% dos escores estão entre - 3,29 e 3,29
O Que Revisamos na Aula de Hoje Populações e Amostras Medidas de Tendência Central: Média, Moda, Mediana Medidas de Variabilidade: Variância e Desvio Padrão Curva Normal Distribuições de Frequência e Probabilidade Escores padrão Cálculo da probabilidade sob a curva normal
Prá9ca O Ambiente SPSS/PSPP