Estatística descritiva
Para que serve a estatística? Qual o seu principal objectivo? obter conclusões sobre a população usando uma amostra? População Amostragem Amostra Uma ou mais variáveis (X) são observadas Algumas Noções
População Amostragem Amostra Uma ou mais variáveis (X) são observadas Verdadeiro valor µ medição média
Exatidão + - Precisão + * * * * * * µ * µ * * * * * * * - * * * * * * µ * µ * * * * * * * * *
ESTATÍSTICA 1. Estatística Descritiva Explorar, apresentar e resumir os dados da amostra. (tabelas, Gráficos, medidas de localização, medidas de dispersão, etc.). Inferência Estatística Afirmações sobre parâmetros da população. (Estimativas pontuais, intervalos de confiança, Testes de hipóteses) Algumas Noções
Exemplos de variáveis X - indica o Sexo (Masculino, Feminino). X - representa a Altura (cm). X - representa o Número de filhos. X - representa o Grupo Sanguíneo. X - representa o Resultado do Tratamento (melhoria, sem alterações, pioria). Tipos de Variáveis Qualitativas Quantitativas Algumas Noções
Qualitativas Nominais Não existe uma ordem entre as categorias Exemplos: Sexo (dicotómica), Grupo sanguíneo (policotómico). Ordinais Existe uma ordem natural Exemplos: Resultado do tratamento ( - ; = ; + ) Habilitações literárias Classe social. Algumas Noções
Quantitativas Discretas (contagens) Exemplos: Nº. de elementos do agregado familiar. Número de glóbulos brancos numa amostra de sangue. Contínuas Exemplos: Altura, Idade, Pressão arterial. Algumas Noções
Como descrever Distribuições? Variável qualitativa Tabelas Tabela de Frequências (Qual a frequência de cada categoria). SEXO Valid Total Masculino Feminino Total Frequencia % % válida 18 45,0 45,0 45,0 55,0 55,0 100,0 40 100,0 100,0 40 100,0?X % cumulativa Não faz sentido usar frequências acumuladas! Menor que sexo Feminino? Gráficos Diagrama de barras 60 60 50 40 30 50 Percentagem 0 10 0 Masculino Feminino Percentagem 40 Masculino Feminino SEXO SEXO Exploração e representação de Dados
etc. Sectogramas ( queijos ) Masculino 18,00 / 45,0% Feminino Masculino 18,00 / 45,0%,00 / 55,0% Feminino,00 / 55,0%
Variável quantitativa PESO Tabelas Tabela de frequências Diagrama de Caule-e-Folhas Etc. Valid 50,0 50,5 53,0 54,5 57,0 Frequency Percent Valid Percent Cumulative Percent 1,5,6,6 1,5,6 5,1 1,5,6 7,7 1,5,6 10,3 5,0 5,1 15,4 58,0 5,0 5,1 0,5 59,0 5,0 5,1 5,6 PESO Stem-and-Leaf Plot 60,5 6,0 63,0 1,5,6 8, 5,0 5,1 33,3 1,5,6 35,9 Frequency Stem & Leaf 65,0 66,5 5,0 5,1 41,0 1,5,6 43,6 4,00 5. 0034 6,00 5. 778899 4,00 6. 03 6,00 6. 556778 5,00 7. 00133 6,00 7. 577899 1,00 8. 1,00 8. 7,00 9. 1,00 9. 67 1,00 10. 0 1,00 Extremes (>=118) 67,0 67,5 68,0 70,0 71,0 73,0 75,0 77,0 77,5 78,0 79,0 79,5 8,0 87,0 1,5,6 46, 1,5,6 48,7 1,5,6 51,3 5,0 5,1 56,4 1,5,6 59,0 5,0 5,1 64,1 1,5,6 66,7 1,5,6 69, 1,5,6 71,8 1,5,6 74,4 1,5,6 76,9 1,5,6 79,5 1,5,6 8,1 1,5,6 84,6 Stem width: 10,0 Each leaf: 1 case(s) 91,0 9,0 96,5 97,0 1,5,6 87, 1,5,6 89,7 1,5,6 9,3 1,5,6 94,9 100,5 1,5,6 97,4 118, 1,5,6 100,0 Total 39 97,5 100,0 Missing,0 1,5 Total 1,5 Total 40 100,0
Gráficos Diagrama de barras 8 6 4 Percentagem 0 37 46 50 5 56 59 61 65 67 69 71 74 76 81 Histogramas IDADE 16 10 14 1 8 10 6 8 4 6 4 0 36,7 45,0 53,3 61,7 70,0 78,3 Std. Dev = 10,65 Mean = 63,7 N = 40,00 0 Std. Dev = 10,65 Mean = 63,7 N = 40,00 35,0 45,0 55,0 65,0 75,0 40,0 50,0 60,0 70,0 80,0 IDADE IDADE
Diagrama de Caule-e-folhas IDADE Stem-and-Leaf Plot Frequency Stem & Leaf 1,00 3. 7 1,00 4. 4,00 4. 67 3,00 5. 01 7,00 5. 5667799 4,00 6. 0114 10,00 6. 5667788999 5,00 7. 01134 5,00 7. 55677,00 8. 1 Stem width: 10 Each leaf: 1 case(s)
Caixa-de-bigodes 90 80 70 60 50 40 30 N = 40 IDADE IDADE 30 40 50 60 70 80 90
Como se obtêm estas representações gráficas? Usando o SPSS... Statistics Analyse Descriptive Satatistics Summarize Explore Dependent List aqui colocamos a varoável que queremos estudar Factor List Se quisermos estudar a Variável por outros níveis, Por exemplo, sexo, grupo etário, Colocamos aqui essa variável Label Cases by Por vezes existem observações que são discrepantes das restantes se as quisermos identificar de algum modo, colocamos aqui a variável que contém essa identificação.
Estatísticas descritivas que caracterizam a distribuição Medidas de Localização Valid 37 44 46 Frequency IDADE Percent Valid Percent Cumulative Percent 1,5,5,5 1,5,5 5,0 1,5,5 7,5 Média, Mediana, Moda Quantis (e.g. 1º. Tercil, Decis, percentis, quartis) 47 50 51 5 55 1,5,5 10,0 1,5,5 1,5 1,5,5 15,0 1,5,5 17,5 1,5,5 0,0 56 5,0 5,0 5,0 57 5,0 5,0 30,0 59 5,0 5,0 35,0 60 1,5,5 37,5 61 5,0 5,0 4,5 64 1,5,5 45,0 65 1,5,5 47,5 66 5,0 5,0 5,5 67 5,0 5,0 57,5 68 5,0 5,0 6,5 69 3 7,5 7,5 70,0 70 1,5,5 7,5 71 5,0 5,0 77,5 73 1,5,5 80,0 74 1,5,5 8,5 75 5,0 5,0 87,5 76 1,5,5 90,0 77 5,0 5,0 95,0 81 1,5,5 97,5 8 1,5,5 100,0 Total 40 100,0 100,0 Total 40 100,0
Mínimo e Máximo Descriptive Statistics IDADE Valid N (listwise) N Minimum Maximum 40 37 8 40 Quantis Statistics N Percentiles IDADE Valid Missing 5 10 5 33 50 75 90 40 0 44,10 47,30 56,5 59,00 66,00 71,00 76,90
Medidas de tendência central Média Média (População ) População Amostragem Amostra média = Soma de todos os valores x na População Tamanho da População Média (Amostral) População Amostragem Amostra x = Soma de todos os valores x na Amostra Tamanho da Amostra
Exemplos individuo SEXO PESO TRIG IDADE 1 Masculino 67 75 65 Masculino 9 133 64 3 Masculino 77,5 68 68 4 Masculino 50,5 107 69 5 Masculino 87 96 69 6 Masculino 73 173 55 7 Masculino 63 147 69 8 Masculino 65 59 51 9 Masculino 91 14 57 10 Masculino 96,5 170 71 11 Masculino 70 46 1 Masculino 75 108 56 13 Masculino 59 65 47 14 Masculino 6 10 73 15 Masculino 97 194 67 16 Masculino 79 146 61 17 Masculino 100,5 315 76 18 Masculino 185 56 Soma 1305 55 110 N 17 18 18 média 76,76471 140,778 6,
Medidas de tendência central Mediana Valor que divide a amostra em 50% para cada lado A fórmula de cálculo desta estatística depende do tamanho, n par ou impar. 0, 0, 0,, 58 0, 0,, 58 mediana = 0 + = 1 Nota: Dados ordenados
0, 0, 0,, 58 Mediana = 0 Média=8 0, 0,, 58 Mediana = 1 Média=30 Exemplo Valid 46 Frequency IDADE a Percent Valid Percent Cumulative Percent 1 5,6 5,6 5,6 47 1 5,6 5,6 11,1 51 1 5,6 5,6 16,7 55 1 5,6 5,6, 56 11,1 11,1 33,3 57 1 5,6 5,6 38,9 61 1 5,6 5,6 44,4 64 1 5,6 5,6 50,0 65 1 5,6 5,6 55,6 67 1 5,6 5,6 61,1 68 1 5,6 5,6 66,7 69 3 16,7 16,7 83,3 71 1 5,6 5,6 88,9 73 1 5,6 5,6 94,4 76 1 5,6 5,6 100,0 Total 18 100,0 100,0 Total 18 100,0 a. SEXO = Masculino
Medidas de tendência central Moda Valor da amostra com maior frequência Nem sempre faz sentido, porque existem muitos valores com a mesma frequência (variáveis contínuas), nestes casos Faz mais sentido falar na classe modal e num valor que representa essa classe.
Exemplo Idade 16 IDADE Stem-and-Leaf Plot 14 Frequency Stem & Leaf 1 10 8 6 4 0 36,7 45,0 53,3 61,7 70,0 78,3 Std. Dev = 10,65 Mean = 63,7 N = 40,00 1,00 3. 7 1,00 4. 4,00 4. 67 3,00 5. 01 7,00 5. 5667799 4,00 6. 0114 10,00 6. 5667788999 5,00 7. 01134 5,00 7. 55677,00 8. 1 IDADE Stem width: 10 Each leaf: 1 case(s) Medidas de tendência central Statistics N IDADE Valid Missing Mean Median Mode 40 0 63,70 66,00 69
Medidas de Dispersão Desvio padrão, Variância Amplitude amostral, Dispersão Quartal As medidas de dispersão dão informação sobre a precisão da média observada. σ pequeno σ grande µ µ
Variância e Desvio padrão Desvio padrão (Populacional) σ = Soma ( dos desvios dos x em relação à media ao quadrado) Tamanho da População Desvio padrão amostral s = ( ) x x i n 1
X - Idade dos indivíduos do sexo masculino ( X X) Indivíduo X X X 1 65,777778 7,716049 64 1,777778 3,160494 3 68 5,777778 33,387 4 69 6,777778 45,9387 5 69 6,777778 45,9387 6 55-7, 5,16049 7 69 6,777778 45,9387 8 51-11, 15,9383 9 57-5, 7,716 10 71 8,777778 77,04938 11 46-16, 63,1605 1 56-6, 38,71605 13 47-15, 31,716 14 73 10,77778 116,1605 15 67 4,777778,8716 16 61-1, 1,49387 17 76 13,77778 189,87 18 56-6, 38,71605 Soma 110 0 1367,111 N 18 Média 6, s 80,4183 s 8,96765
Estatística descritiva para variáveis Quantitativas Se distribuição simétrica Gaussiana (Normal), então Média Desvio Padrão Simetria
Se os dados não são simétricos, então Assimetria Bimodal Mediana Dispersão quartal Amplitude interquartil
Mediana Quantil 5% Quantil 75% - Amplitude interquartil - Dispersão quartal
Exemplo: Idade Descriptives IDADE Mean 95% Confidence Interval for Mean 5% Trimmed Mean Median Variance Std. Deviation Minimum Maximum Range Interquartile Range Skewness Kurtosis Lower Bound Upper Bound Statistic Std. Error 63,70 1,68 60,9 67,11 64,00 66,00 113,446 10,65 37 8 45 14,75 -,473,374 -,66,733
Exemplo: Peso Descriptives PESO Mean Statistic Std. Error 71,531,445 95% Confidence Interval for Mean Lower Bound Upper Bound 66,580 76,481 5% Trimmed Mean 70,600 Median 68,000 Variance 33,13 Std. Deviation 15,71 Minimum 50,0 Maximum 118, Range Interquartile Range 68, 0,000 PESO 37 Skewness 1,015,378 Kurtosis 1,007,741 40 60 80 100 10 140
Como se interpreta uma Caixa-de-bigodes A construção da caixa de bigodes baseia-se em 5 estatísticas também chamadas as 5 Letras resumo: a mediana, o quarto inferior, o quarto superior, o mínimo e o máximo. Caixa das 5 Letras Resumo # 39 Profundidade PESO me 0 68 F 10,5 59,75 78,5 1 50 118, Barreiras de Outlies (50 ; 106,65) Existem Outliers na cauda superior Localização, Dispersão, Assimetria, Outliers (valores discrepantes). PESO 40 60 80 100 37 10 140
A dispersão dos dados é dada nas caixas de bigodes pelo tamanho da caixa. O equivalente do desvio padrão é a dispersão quartal. As barreiras de outliers são definidas por forma a incluir 3 dispersões, baseando-se em pressupostos teóricos de que 99,9 dos dados estão dentro de 3 dispersões dos dados.
Exemplo: trigliceridos transformações TRIG 17 3 0 100 00 300 400 500 TRIGLOG 3 TRIGLOG 3,5 4,0 4,5 5,0 5,5 6,0 6,5 1,3 1,4 1,5 1,6 1,7 1,8 1,9
Comparar duas distribuições Exemplo: Trigliceridos 3,5 3,0,5,0 1,5 1,0,5 0,0 SEXO: 1 Masculino 35,0 300,0 75,0 50,0 5,0 00,0 175,0 150,0 15,0 100,0 75,0 50,0 Std. Dev = 64,38 Mean = 140,3 N = 18,00 10 8 6 4 0 SEXO: Feminino 450,0 400,0 350,0 300,0 50,0 00,0 150,0 100,0 50,0 Std. Dev = 97,46 Mean = 169,5 N =,00 TRIG TRIG
Caixas de bigodes paralelas Masculino 17 Feminino 3 SEXO 0 100 00 300 400 500 TRIG
SEXO = Masculino SEXO = Feminino Descriptives a Descriptives a Statistic Std. Error Statistic Std. Error TRIG Mean 140,8 15,17 TRIG Mean 169,55 0,78 95% Confidence Interval for Mean Lower Bound 108,6 95% Confidence Interval for Mean Lower Bound 16,34 Upper Bound 17,9 Upper Bound 1,76 5% Trimmed Mean 135,09 5% Trimmed Mean 159,56 Median 137,50 Median 14,50 Variance 4144,683 Variance 9497,784 Std. Deviation 64,38 Std. Deviation 97,46 Minimum 59 Minimum 6 Maximum 315 Maximum 47 Range 56 Range 410 Interquartile Range 85,5 Interquartile Range 15,5 Skewness 1,091,536 Skewness 1,566,491 Kurtosis 1,845 1,038 Kurtosis 3,0,953 a. SEXO = Masculino a. SEXO = Feminino
Dados bi-variados Relação entre o peso e os trigliceridos? 110 SEXO: 1 Masculino 10 SEXO: Feminino 100 90 110 100 90 80 80 PESO 70 60 50 0 100 00 300 400 PESO 70 60 50 40 0 100 00 300 400 500 TRIG TRIG Diagramas de dispersão
Dados bi-variados Relação entre o peso e os trigliceridos? Correlação paramétrica O coeficiente de correlação de Pearson SEXO = Masculino Correlations a SEXO = Feminino Correlations a Pearson Correlation Sig. (-tailed) N PESO TRIG PESO TRIG PESO TRIG PESO TRIG 1,000,549*,549* 1,000,,0,0, 17 17 17 18 *. Correlation is significant at the 0.05 level (-tailed). a. SEXO = Masculino Pearson Correlation Sig. (-tailed) N PESO TRIG PESO TRIG PESO TRIG a. SEXO = Feminino PESO TRIG 1,000,331,331 1,000,,133,133,
Dados bi-variados Relação entre o peso e os trigliceridos? Correlação não paramétrica O coeficiente de correlação de Spearman SEXO = Masculino Correlations a SEXO = Feminino Correlations a Spearman's rho Correlation Coefficient Sig. (-tailed) N PESO TRIG PESO TRIG PESO TRIG PESO *. Correlation is significant at the.05 level (-tailed). a. SEXO = Masculino TRIG 1,000,50*,50* 1,000,,033,033, 17 17 17 18 Spearman's rho Correlation Coefficient Sig. (-tailed) N a. SEXO = Feminino PESO TRIG PESO TRIG PESO TRIG PESO TRIG 1,000,319,319 1,000,,148,148,
Dados bi-variados Exemplo Relação entre peso e idade SEXO = Masculino 110 SEXO: Masculino SEXO = Feminino 10 SEXO: Feminino 100 110 100 90 90 80 80 70 70 60 PESO 60 50 40 50 60 70 80 PESO 50 40 30 40 50 60 70 80 90 IDADE IDADE
Dados bi-variados Relação entre peso e idade SEXO = Masculino SEXO = Feminino Correlations a Correlations a Spearman's rho Correlation Coefficient PESO IDADE PESO IDADE 1,000,46,46 1,000 Spearman's rho Correlation Coefficient PESO IDADE PESO IDADE 1,000 -,191 -,191 1,000 Sig. (-tailed) PESO IDADE,,34,34, Sig. (-tailed) PESO IDADE,,394,394, N PESO 17 17 N PESO IDADE 17 18 IDADE a. SEXO = Masculino a. SEXO = Feminino Não há evidência de que o peso e a idade estejam relacionados. No entanto, delineia-se uma tendência positiva nos homens e uma tendência negativa nas mulheres.
Intervalos de confiança
Intervalos de confiança Estimação em forma de intervalo de parâmetro populacional, com base na informação amostral disponível e no conhecimento da distribuição amostral do estimador do parâmetro X para µ S para σ
Intervalos de confiança mais usuais Uma amostra ou Duas amostras Média Proporções Variância Uma proporção é a média de uma amostra proveniente de uma população de Bernoulli
Intervalos de confiança uma amostra Média σ conhecido σ desconhecido X N µ; σ n estimar s por s X µ σ n N ( 0;1 ) X µ s n t n ( 1)
Intervalos de confiança uma amostra Média σ conhecido Intervalo (1-α)*100% de confiança para a média x z σ σ + α ; x z 1 n 1 α n
amostra1 61 Média 71,786 79 74 desvio padrão conhecido 0 7 4 erro padrão 5,345 44 73 Intervalo de 95% de confiança 11 76 limite inferior Limite superior 73 61,309 8,6 73 56 Intervalo de 90% de confiança 108 6 limite inferior Limite superior 6,994 80,578 Intervalo de 99% de confiança limite inferior Limite superior 58,017 85,554
Intervalos de Confiança (IC) ou Outros usos para o erro Padrão Exemplo IC para a média da população µ. Construção A distribuição da média amostral x é aproximadamente Normal com parâmetros µ e s n. O intervalo X ± 1, 96 s n é o intervalo de 95% de confiança para µ. (aproximado)
Interpretação: Se a experiência for repetida muitas vezes, 95% dos IC conterão o verdadeiro µ. Original 5% 1 Amostra e sub-amostras 5% 5% 3 10% 1 10% 30% 1 30% 140 160 180 00 0 95% CI TRIG
Genericamente X z ± 1 α s n é o intervalo de ( ) (aproximado) 1 α 100% de confiança para µ. z 1 α é de tal forma que P Z > z α = α 1 α/ 1- α α/ -z α/ 0 z α/ -z 1-α/ z 1-α/ e.g. α = 0.05 z α 1 = α = 0.10 z α 1 = α = 0.01 z α 1 = 1,96 1,645,576
Intervalos de confiança uma amostra Média σ desconhecido Intervalo (1-α)*100% de confiança para a média ( ) ( ) + ; 1 1 1 1 n s n n s n t x t x α α
amostra1 61 Média 71,786 79 74 desvio padrão conhecido 19,86175 7 4 erro padrão 5,3083 44 73 Intervalo de 95% de confiança 11 76 limite inferior Limite superior 73 60,318 83,54 73 56 Intervalo de 90% de confiança 108 6 limite inferior Limite superior 6,385 81,186 Intervalo de 99% de confiança limite inferior Limite superior 55,796 87,776
Intervalos de confiança uma amostra Proporção ( ) = n p p p N X P 1 ; Intervalo (1-α)*100% de confiança para a média ( ) ( ) + ; 1 1 1 1 n p p n p p z x z x α α
bern 1 p=média 0,35 0 1 dp 0,477 1 1 erro padrão 0,0783 1 0 Intervalo de 95% de confiança 0 0 limite inferior Limite superior 0 0,197 0,503 0 0 Intervalo de 90% de confiança 1 0 limite inferior Limite superior 1 0,1 0,479 0 0 Intervalo de 99% de confiança 0 0 limite inferior Limite superior 0 0,148 0,55
Intervalos de confiança uma amostra Variância S σ ( n 1) χ ( n 1) onde S = ( X ) X i n 1 Intervalo (1-α)*100% de confiança para a média χ ( n -1) 1 α S ( n 1) ; ( n -1) χ α S ( ) n 1
amostra1 61 Média 71,786 79 74 desvio padrão conhecido 19,86175 7 variância 394,49 4 erro padrão 5,3083 44 73 Intervalo de 95% de confiança para a variância 11 76 limite inferior Limite superior 73 07,3 104 73 56 Intervalo de 90% de confiança a variância 108 6 limite inferior Limite superior 9,3 870,4 Intervalo de 99% de confiança a variância limite inferior Limite superior 17 1439