Construção da base de dados
Construção da base de dados Construção da base de dados Exemplos de Inquéritos O instrumento de notação Codificação e dicionário das variáveis Data view e variable view Introdução de dados
Construção da base de dados Dicionário de Dados Para cada questão do inquérito: Tipo de variável - qualitativa (nominal ou ordinal), quantitativa (discretas, contínuas) Valores e códigos - definir os suportes das variáveis e códigos para as situações de informação omissa. Qualitativas, atribuir códigos numéricos às suas categorias; Quantitativas, definir os valores possíveis (mínimo e máximo) Nome para as variáveis SPSS com um máximo de 9 caracteres
Construção da base de dados Dicionário de Dados Exemplo: Inquérito sobre Hipertensão Arterial Sistólica Isolada: 11. Estado civil 1. solteiro 2. casado 3. viúvo 4. divorciado 5. outro 9. não sabe 8. não responde 15. Actividades do doente são: 1. normais 2. ligeiramente reduzidas 3. muito limitadas 9. não sabe 8. não responde
Construção da base de dados Dicionário de Dados Exemplo: Inquérito sobre Hipertensão Arterial Sistólica Isolada: 11. Altura (cm) 999. não sabe 998. não responde 31. Número de cigarros 999. não sabe 998. não responde 11. Altura (mt) 9,99. não sabe 9,98. não responde
Construção da base de dados Dicionário de Dados Exemplo: Inquérito sobre Hipertensão Arterial Sistólica Isolada: 21. Medicação habitual 1. sim 2. Não 9. não sabe 8. não responde 22.1 Diurético 0. não 1. sim 9. não sabe 8. não responde 7. não aplicável (quando se respondeu 2, 9 ou 8 em 21)
Construção da base de dados Dicionário de Dados Exemplo: Inquérito sobre Hipertensão Arterial Sistólica Isolada: 26. Insuficiência renal 1. sim 2. não 9. não sabe 8. não responde 27. Se sim, qual o valor da Creatinina 999. não sabe 998. não responde 997. não aplicável (quando se respondeu 2, 9 ou 8 em 26)
Construção da base de dados Dicionário de Dados Para cada variável: Nome na base de dados Nome da variável, referência no questionário Valores e códigos possíveis Tipo (Numérico: nº de algarismos e casas decimais, caracter: número de caracteres)
Dicionário de dados Plano de operacionalização das variáveis Nome na base de dados Nome da variável, referência no questionário Valores/Códigos Tipo Nprocess 1. Nº do processo Caracter(6) Csaude 2. Centro de saúde Caracter(255) DataReg 3. Data registo dd/mm/aaaa Data MedFam 4. Médico de Família Caracter(255) Nome 5. Nome do doente Caracter(255) Resid 6. Residência Caracter(255) Telef 7. Telefone nº Caracter(7) Datanasc FregNat CodFregNat ConcNat CodConcNat 8. Data de nascimento 9. Naturalidade/ Freguesia 9. Naturalidade/ Freguesia 9. Naturalidade/ Concelho 9. Naturalidade/ Freguesia dd/mm/aaaa Codificação INE Codificação INE Sexo 10. Sexo 1. homem 2. mulher 9. não sabe 8. não responde EstCivil 11. Estado civil 1. solteiro 2. casado 3. viúvo 4. divorciado 5. outro 9. não sabe 8. não responde Raca 12. Raça 1. branca 2. negra Data Caracter(255) Caracter(6) Caracter(255) Caracter(4) Caracter(1) Nominal Caracter(1) Nominal Caracter(1) Nominal Nome na base de dados (Continuação) Nome da variável, referência no questionário Reforma 14. Reformado 1. sim Activ 15. Actividades do doente são: Valores/Códigos 2. não 9. não sabe 8. não responde 1. normais 2. ligeiramente reduzidas Peso 16. Peso 0 a? kg 3. muito limitadas 999. não sabe Altura 17. Altura 0 a? cm Pas1 Pas2 Pad1 Pad2 Freqcard Medicam 18. Pressão arterial sistólica última medição 18. Pressão arterial sistólica actual 19. Pressão arterial diastólica última medição 19. Pressão arterial sistólica actual 20. Frequência cardíaca 21. Medicação actual 998. não responde 999. não sabe 998. não responde 0 a? 999. não sabe 998. não responde 0 a? 999. não sabe 998. não responde 0 a? 999. não sabe 998. não responde 0 a? 999. não sabe 998. não responde 0 a? ppm 999. não sabe 998. não responde 1. sim 2. não Tipo Caracter(1) Nominal Numérico(1) Ordinal Numérico(3.2) Quantitativa continua Numérico(3.2) Quantitativa continua Numérico(3.2) Quantitativa continua Numérico(3.2) Quantitativa continua Numérico(3.2) Quantitativa continua Numérico(3.2) Quantitativa continua Numérico(3.2) Quantitativa continua Caracter(1) Nominal
Construção da base de dados Exercícios Práticos Para o exemplo de inquérito sobre o estados da saúde, construa o dicionário de variáveis e a respectiva estrutura de dados no SPSS.
Construção da base de dados Exercícios Práticos 1. Análise descritiva, apropriada, para cada uma das variáveis. Discussão dos resultados 2. Construção de variáveis secundárias Idade = Data de Registo - Data Nascimento Mês de Registo = Mês (Data registo) Indice Massa Corporal = Peso / (Altura) 2
Construção da base de dados 2. (continuação) Grupos etários (decenais), Exercícios Práticos Grupos IMC (<18, 18 e <20, 20 e <25, 25 e <27, 27 e <30, 30) Classificação da HTA (PAS>140 e PAD>90), Hipercolosteremia (Coles>200) 3. Análise descritiva das variáveis construídas Discussão dos resultados
Estatística descritiva
Para que serve a estatística? Qual o seu principal objectivo? obter conclusões sobre a população usando uma amostra? População Amostragem Amostra Uma ou mais variáveis (X) são observadas Algumas Noções
População Amostragem Amostra Uma ou mais variáveis (X) são observadas Verdadeiro valor µ medição média
Exatidão + - Precisão + * * * * * * µ * µ * * * * * * * - * * * * * * µ * µ * * * * * * * * *
ESTATÍSTICA 1. Estatística Descritiva Explorar, apresentar e resumir os dados da amostra. (tabelas, Gráficos, medidas de localização, medidas de dispersão, etc.) 2. Inferência Estatística Afirmações sobre parâmetros da população. (Estimativas pontuais, intervalos de confiança, Testes de hipóteses) Algumas Noções
Exemplos de variáveis X - indica o Sexo (Masculino, Feminino). X - representa a Altura (cm). X - representa o Número de filhos. X - representa o Grupo Sanguíneo. X - representa o Resultado do Tratamento (melhoria, sem alterações, pioria). Tipos de Variáveis Qualitativas Quantitativas Algumas Noções
Qualitativas Nominais Não existe uma ordem entre as categorias Exemplos: Sexo (dicotómica), Grupo sanguíneo (policotómico). Ordinais Existe uma ordem natural Exemplos: Resultado do tratamento ( - ; = ; + ) Habilitações literárias Classe social. Algumas Noções
Quantitativas Discretas (contagens) Exemplos: Nº. de elementos do agregado familiar. Número de glóbulos brancos numa amostra de sangue. Contínuas Exemplos: Altura, Idade, Pressão arterial. Algumas Noções
Como descrever Distribuições? Variável qualitativa Tabelas Tabela de Frequências (Qual a frequência de cada categoria). SEXO Valid Total Masculino Feminino Total Frequencia % % válida 18 45,0 45,0 45,0 22 55,0 55,0 100,0 40 100,0 100,0 40 100,0?X % cumulativa Não faz sentido usar frequências acumuladas! Menor que sexo Feminino? Gráficos Diagrama de barras 60 60 50 40 30 50 Percentagem 20 10 0 Masculino Feminino Percentagem 40 Masculino Feminino SEXO SEXO Exploração e representação de Dados
etc. Sectogramas ( queijos ) Masculino 18,00 / 45,0% Feminino Masculino 18,00 / 45,0% 22,00 / 55,0% Feminino 22,00 / 55,0%
Variável quantitativa PESO Tabelas Tabela de frequências Diagrama de Caule-e-Folhas Etc. Valid 50,0 50,5 53,0 54,5 57,0 Frequency Percent Valid Percent Cumulative Percent 1 2,5 2,6 2,6 1 2,5 2,6 5,1 1 2,5 2,6 7,7 1 2,5 2,6 10,3 2 5,0 5,1 15,4 58,0 2 5,0 5,1 20,5 59,0 2 5,0 5,1 25,6 PESO Stem-and-Leaf Plot 60,5 62,0 63,0 1 2,5 2,6 28,2 2 5,0 5,1 33,3 1 2,5 2,6 35,9 Frequency Stem & Leaf 65,0 66,5 2 5,0 5,1 41,0 1 2,5 2,6 43,6 4,00 5. 0034 6,00 5. 778899 4,00 6. 0223 6,00 6. 556778 5,00 7. 00133 6,00 7. 577899 1,00 8. 2 1,00 8. 7 2,00 9. 12 2,00 9. 67 1,00 10. 0 1,00 Extremes (>=118) 67,0 67,5 68,0 70,0 71,0 73,0 75,0 77,0 77,5 78,0 79,0 79,5 82,0 87,0 1 2,5 2,6 46,2 1 2,5 2,6 48,7 1 2,5 2,6 51,3 2 5,0 5,1 56,4 1 2,5 2,6 59,0 2 5,0 5,1 64,1 1 2,5 2,6 66,7 1 2,5 2,6 69,2 1 2,5 2,6 71,8 1 2,5 2,6 74,4 1 2,5 2,6 76,9 1 2,5 2,6 79,5 1 2,5 2,6 82,1 1 2,5 2,6 84,6 Stem width: 10,0 Each leaf: 1 case(s) 91,0 92,0 96,5 97,0 1 2,5 2,6 87,2 1 2,5 2,6 89,7 1 2,5 2,6 92,3 1 2,5 2,6 94,9 100,5 1 2,5 2,6 97,4 118,2 1 2,5 2,6 100,0 Total 39 97,5 100,0 Missing,0 1 2,5 Total 1 2,5 Total 40 100,0
Gráficos Diagrama de barras 8 6 4 Percentagem 2 0 37 46 50 52 56 59 61 65 67 69 71 74 76 81 Histogramas IDADE 16 10 14 12 8 10 6 8 4 6 4 2 0 36,7 45,0 53,3 61,7 70,0 78,3 Std. Dev = 10,65 Mean = 63,7 N = 40,00 2 0 Std. Dev = 10,65 Mean = 63,7 N = 40,00 35,0 45,0 55,0 65,0 75,0 40,0 50,0 60,0 70,0 80,0 IDADE IDADE
Diagrama de Caule-e-folhas IDADE Stem-and-Leaf Plot Frequency Stem & Leaf 1,00 3. 7 1,00 4. 4 2,00 4. 67 3,00 5. 012 7,00 5. 5667799 4,00 6. 0114 10,00 6. 5667788999 5,00 7. 01134 5,00 7. 55677 2,00 8. 12 Stem width: 10 Each leaf: 1 case(s)
Caixa-de-bigodes 90 80 70 60 50 40 30 N = 40 IDADE IDADE 30 40 50 60 70 80 90
Como se obtêm estas representações gráficas? Usando o SPSS... Statistics Analyse Descriptive Satatistics Summarize Explore Dependent List aqui colocamos a varoável que queremos estudar Factor List Se quisermos estudar a Variável por outros níveis, Por exemplo, sexo, grupo etário, Colocamos aqui essa variável Label Cases by Por vezes existem observações que são discrepantes das restantes se as quisermos identificar de algum modo, colocamos aqui a variável que contém essa identificação.
Estatísticas descritivas que caracterizam a distribuição Medidas de Localização Valid 37 44 46 Frequency IDADE Percent Valid Percent Cumulative Percent 1 2,5 2,5 2,5 1 2,5 2,5 5,0 1 2,5 2,5 7,5 Média, Mediana, Moda Quantis (e.g. 1º. Tercil, Decis, percentis, quartis) 47 50 51 52 55 1 2,5 2,5 10,0 1 2,5 2,5 12,5 1 2,5 2,5 15,0 1 2,5 2,5 17,5 1 2,5 2,5 20,0 56 2 5,0 5,0 25,0 57 2 5,0 5,0 30,0 59 2 5,0 5,0 35,0 60 1 2,5 2,5 37,5 61 2 5,0 5,0 42,5 64 1 2,5 2,5 45,0 65 1 2,5 2,5 47,5 66 2 5,0 5,0 52,5 67 2 5,0 5,0 57,5 68 2 5,0 5,0 62,5 69 3 7,5 7,5 70,0 70 1 2,5 2,5 72,5 71 2 5,0 5,0 77,5 73 1 2,5 2,5 80,0 74 1 2,5 2,5 82,5 75 2 5,0 5,0 87,5 76 1 2,5 2,5 90,0 77 2 5,0 5,0 95,0 81 1 2,5 2,5 97,5 82 1 2,5 2,5 100,0 Total 40 100,0 100,0 Total 40 100,0
Mínimo e Máximo Descriptive Statistics IDADE Valid N (listwise) N Minimum Maximum 40 37 82 40 Quantis Statistics N Percentiles IDADE Valid Missing 5 10 25 33 50 75 90 40 0 44,10 47,30 56,25 59,00 66,00 71,00 76,90
Medidas de tendência central Média Média (População ) População Amostragem Amostra média = Soma de todos os valores x na População Tamanho da População Média (Amostral) População Amostragem Amostra x = Soma de todos os valores x na Amostra Tamanho da Amostra
Exemplos individuo SEXO PESO TRIG IDADE 1 Masculino 67 75 65 2 Masculino 92 133 64 3 Masculino 77,5 68 68 4 Masculino 50,5 107 69 5 Masculino 87 96 69 6 Masculino 73 173 55 7 Masculino 63 147 69 8 Masculino 65 59 51 9 Masculino 91 142 57 10 Masculino 96,5 170 71 11 Masculino 70 222 46 12 Masculino 75 108 56 13 Masculino 59 65 47 14 Masculino 62 120 73 15 Masculino 97 194 67 16 Masculino 79 146 61 17 Masculino 100,5 315 76 18 Masculino 185 56 Soma 1305 2525 1120 N 17 18 18 média 76,76471 140,2778 62,22222
Medidas de tendência central Mediana Valor que divide a amostra em 50% para cada lado A fórmula de cálculo desta estatística depende do tamanho, n par ou impar. 20, 20, 20, 22, 58 20, 20, 22, 58 mediana = 20 + 22 2 = 21 Nota: Dados ordenados
20, 20, 20, 22, 58 Mediana = 20 Média=28 20, 20, 22, 58 Mediana = 21 Média=30 Exemplo Valid 46 Frequency IDADE a Percent Valid Percent Cumulative Percent 1 5,6 5,6 5,6 47 1 5,6 5,6 11,1 51 1 5,6 5,6 16,7 55 1 5,6 5,6 22,2 56 2 11,1 11,1 33,3 57 1 5,6 5,6 38,9 61 1 5,6 5,6 44,4 64 1 5,6 5,6 50,0 65 1 5,6 5,6 55,6 67 1 5,6 5,6 61,1 68 1 5,6 5,6 66,7 69 3 16,7 16,7 83,3 71 1 5,6 5,6 88,9 73 1 5,6 5,6 94,4 76 1 5,6 5,6 100,0 Total 18 100,0 100,0 Total 18 100,0 a. SEXO = Masculino
Medidas de tendência central Moda Valor da amostra com maior frequência Nem sempre faz sentido, porque existem muitos valores com a mesma frequência (variáveis contínuas), nestes casos Faz mais sentido falar na classe modal e num valor que representa essa classe.
Exemplo Idade 16 IDADE Stem-and-Leaf Plot 14 Frequency Stem & Leaf 12 10 8 6 4 2 0 36,7 45,0 53,3 61,7 70,0 78,3 Std. Dev = 10,65 Mean = 63,7 N = 40,00 1,00 3. 7 1,00 4. 4 2,00 4. 67 3,00 5. 012 7,00 5. 5667799 4,00 6. 0114 10,00 6. 5667788999 5,00 7. 01134 5,00 7. 55677 2,00 8. 12 IDADE Stem width: 10 Each leaf: 1 case(s) Medidas de tendência central Statistics N IDADE Valid Missing Mean Median Mode 40 0 63,70 66,00 69
Medidas de Dispersão Desvio padrão, Variância Amplitude amostral, Dispersão Quartal As medidas de dispersão dão informação sobre a precisão da média observada. σ pequeno σ grande µ µ
Variância e Desvio padrão Desvio padrão (Populacional) σ = Soma ( dos desvios dos x em relação à media ao quadrado) Tamanho da População Desvio padrão amostral s = ( ) x x i n 1 2
X - Idade dos indivíduos do sexo masculino ( X X) Indivíduo X X X 1 65 2,777778 7,716049 2 64 1,777778 3,160494 3 68 5,777778 33,38272 4 69 6,777778 45,93827 5 69 6,777778 45,93827 6 55-7,22222 52,16049 7 69 6,777778 45,93827 8 51-11,2222 125,9383 9 57-5,22222 27,2716 10 71 8,777778 77,04938 11 46-16,2222 263,1605 12 56-6,22222 38,71605 13 47-15,2222 231,716 14 73 10,77778 116,1605 15 67 4,777778 22,82716 16 61-1,22222 1,493827 17 76 13,77778 189,8272 18 56-6,22222 38,71605 Soma 1120 0 1367,111 N 18 Média 62,22222 s 2 80,4183 s 8,967625 2
Estatística descritiva para variáveis Quantitativas Se distribuição simétrica Gaussiana (Normal), então Média Desvio Padrão Simetria
Se os dados não são simétricos, então Assimetria Bimodal Mediana Dispersão quartal Amplitude interquartil
Mediana Quantil 25% Quantil 75% - Amplitude interquartil - Dispersão quartal
Exemplo: Idade Descriptives IDADE Mean 95% Confidence Interval for Mean 5% Trimmed Mean Median Variance Std. Deviation Minimum Maximum Range Interquartile Range Skewness Kurtosis Lower Bound Upper Bound Statistic Std. Error 63,70 1,68 60,29 67,11 64,00 66,00 113,446 10,65 37 82 45 14,75 -,473,374 -,266,733
Exemplo: Peso Descriptives PESO Mean Statistic Std. Error 71,531 2,445 95% Confidence Interval for Mean Lower Bound Upper Bound 66,580 76,481 5% Trimmed Mean 70,600 Median 68,000 Variance 233,213 Std. Deviation 15,271 Minimum 50,0 Maximum 118,2 Range Interquartile Range 68,2 20,000 PESO 37 Skewness 1,015,378 Kurtosis 1,007,741 40 60 80 100 120 140
Como se interpreta uma Caixa-de-bigodes A construção da caixa de bigodes baseia-se em 5 estatísticas também chamadas as 5 Letras resumo: a mediana, o quarto inferior, o quarto superior, o mínimo e o máximo. Caixa das 5 Letras Resumo # 39 Profundidade PESO me 20 68 F 10,5 59,75 78,5 1 50 118,2 Barreiras de Outlies (50 ; 106,625) Existem Outliers na cauda superior Localização, Dispersão, Assimetria, Outliers (valores discrepantes). PESO 40 60 80 100 37 120 140
A dispersão dos dados é dada nas caixas de bigodes pelo tamanho da caixa. O equivalente do desvio padrão é a dispersão quartal. As barreiras de outliers são definidas por forma a incluir 3 dispersões, baseando-se em pressupostos teóricos de que 99,9 dos dados estão dentro de 3 dispersões dos dados.
Exemplo: trigliceridos transformações TRIG 17 32 0 100 200 300 400 500 TRIGLOG 32 TRIGLOG2 3,5 4,0 4,5 5,0 5,5 6,0 6,5 1,3 1,4 1,5 1,6 1,7 1,8 1,9
Comparar duas distribuições Exemplo: Trigliceridos 3,5 3,0 2,5 2,0 1,5 1,0,5 0,0 SEXO: 1 Masculino 325,0 300,0 275,0 250,0 225,0 200,0 175,0 150,0 125,0 100,0 75,0 50,0 Std. Dev = 64,38 Mean = 140,3 N = 18,00 10 8 6 4 2 0 SEXO: 2 Feminino 450,0 400,0 350,0 300,0 250,0 200,0 150,0 100,0 50,0 Std. Dev = 97,46 Mean = 169,5 N = 22,00 TRIG TRIG
Caixas de bigodes paralelas Masculino 17 Feminino 32 SEXO 0 100 200 300 400 500 TRIG
SEXO = Masculino SEXO = Feminino Descriptives a Descriptives a Statistic Std. Error Statistic Std. Error TRIG Mean 140,28 15,17 TRIG Mean 169,55 20,78 95% Confidence Interval for Mean Lower Bound 108,26 95% Confidence Interval for Mean Lower Bound 126,34 Upper Bound 172,29 Upper Bound 212,76 5% Trimmed Mean 135,09 5% Trimmed Mean 159,56 Median 137,50 Median 142,50 Variance 4144,683 Variance 9497,784 Std. Deviation 64,38 Std. Deviation 97,46 Minimum 59 Minimum 62 Maximum 315 Maximum 472 Range 256 Range 410 Interquartile Range 85,25 Interquartile Range 152,25 Skewness 1,091,536 Skewness 1,566,491 Kurtosis 1,845 1,038 Kurtosis 3,022,953 a. SEXO = Masculino a. SEXO = Feminino
Dados bi-variados Relação entre o peso e os trigliceridos? 110 SEXO: 1 Masculino 120 SEXO: 2 Feminino 100 90 110 100 90 80 80 PESO 70 60 50 0 100 200 300 400 PESO 70 60 50 40 0 100 200 300 400 500 TRIG TRIG Diagramas de dispersão
Dados bi-variados Relação entre o peso e os trigliceridos? Correlação paramétrica O coeficiente de correlação de Pearson SEXO = Masculino Correlations a SEXO = Feminino Correlations a Pearson Correlation Sig. (2-tailed) N PESO TRIG PESO TRIG PESO TRIG PESO TRIG 1,000,549*,549* 1,000,,022,022, 17 17 17 18 *. Correlation is significant at the 0.05 level (2-tailed). a. SEXO = Masculino Pearson Correlation Sig. (2-tailed) N PESO TRIG PESO TRIG PESO TRIG a. SEXO = Feminino PESO TRIG 1,000,331,331 1,000,,133,133, 22 22 22 22
Dados bi-variados Relação entre o peso e os trigliceridos? Correlação não paramétrica O coeficiente de correlação de Spearman SEXO = Masculino Correlations a SEXO = Feminino Correlations a Spearman's rho Correlation Coefficient Sig. (2-tailed) N PESO TRIG PESO TRIG PESO TRIG PESO *. Correlation is significant at the.05 level (2-tailed). a. SEXO = Masculino TRIG 1,000,520*,520* 1,000,,033,033, 17 17 17 18 Spearman's rho Correlation Coefficient Sig. (2-tailed) N a. SEXO = Feminino PESO TRIG PESO TRIG PESO TRIG PESO TRIG 1,000,319,319 1,000,,148,148, 22 22 22 22
Dados bi-variados Exemplo Relação entre peso e idade SEXO = Masculino 110 SEXO: Masculino SEXO = Feminino 120 SEXO: Feminino 100 110 100 90 90 80 80 70 70 60 PESO 60 50 40 50 60 70 80 PESO 50 40 30 40 50 60 70 80 90 IDADE IDADE
Dados bi-variados Relação entre peso e idade SEXO = Masculino SEXO = Feminino Correlations a Correlations a Spearman's rho Correlation Coefficient PESO IDADE PESO IDADE 1,000,246,246 1,000 Spearman's rho Correlation Coefficient PESO IDADE PESO IDADE 1,000 -,191 -,191 1,000 Sig. (2-tailed) PESO IDADE,,342,342, Sig. (2-tailed) PESO IDADE,,394,394, N PESO 17 17 N PESO 22 22 IDADE 17 18 IDADE 22 22 a. SEXO = Masculino a. SEXO = Feminino Não há evidência de que o peso e a idade estejam relacionados. No entanto, delineia-se uma tendência positiva nos homens e uma tendência negativa nas mulheres.